このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220408となっている論文です。

PDF登録状況(公開日: 20220408)

TitleAuthorsAbstract論文公表日・翻訳日
# 連続可変量子テレポーテーションと光検出器の最適テスト

Optimal tests for continuous-variable quantum teleportation and photodetectors ( http://arxiv.org/abs/2012.02754v2 )

ライセンス: Link先を確認
Kunal Sharma, Barry C. Sanders, and Mark M. Wilde(参考訳) 量子テレポーテーションは、量子通信、量子計算、誤り訂正、量子ネットワークなど、いくつかの重要な応用においてプリミティブである。 本研究では,理想cvテレポーテーションと実験実装間のエネルギー制約チャネル忠実性の観点から,連続可変(cv)量子テレポーテーションの性能に関する最適テストを提案する。 本研究は, CVテレポーテーションの性能に関する準最適試験について検討し, その代わりにコヒーレント状態のアンサンブル, 圧縮状態, 猫状態などの特定の状態に対する性能に着目した。 ここでは、CVテレポーテーションの最適状態が双対フォック状態の絡み合った重ね合わせであることを証明する。 この結果は,理想cvテレポーテーションと実験近似による二次プログラム間のエネルギー制約チャネル忠実度を推定する問題を低減し,その解法を確立した。 さらなる結果として,光検出器と実験近似とのエネルギー制約されたダイヤモンド距離の解析解を得る。 これらの結果はCVテレポーテーションと光検出器を用いた実験に関係している。

Quantum teleportation is a primitive in several important applications, including quantum communication, quantum computation, error correction, and quantum networks. In this work, we propose an optimal test for the performance of continuous-variable (CV) quantum teleportation in terms of the energy-constrained channel fidelity between ideal CV teleportation and its experimental implementation. Work prior to ours considered suboptimal tests of the performance of CV teleportation, focusing instead on its performance for particular states, such as ensembles of coherent states, squeezed states, cat states, etc. Here we prove that the optimal state for testing CV teleportation is an entangled superposition of twin Fock states. We establish this result by reducing the problem of estimating the energy-constrained channel fidelity between ideal CV teleportation and its experimental approximation to a quadratic program and solving it. As an additional result, we obtain an analytical solution to the energy-constrained diamond distance between a photodetector and its experimental approximation. These results are relevant for experiments that make use of CV teleportation and photodetectors.
翻訳日:2023-04-22 02:54:29 公開日:2022-04-08
# 複合パルスによる3レベル系のロバスト集団インバージョン

Robust population inversion in three-level systems by composite pulses ( http://arxiv.org/abs/2105.14910v2 )

ライセンス: Link先を確認
Cheng Zhang, Yang Liu, Zhi-Cheng Shi, Jie Song, Yan Xia, and Shi-Biao Zheng(参考訳) 本研究では,複合パルスの考え方を活用し,3レベル量子システムにおいて頑健な集団反転を実現する。 このスキームは結合強度の変調に基づいているが、他の物理パラメータは変わらない。 複合パルスシーケンスは高次誤差項を消滅させることで設計され、体系的なエラーを任意の順序に補償することができる。 特に、このスキームは波形変形の乱れの下で優れた性能を維持する。 この特性により、パルス列が短いジャンプ遅延を持つ場合でも、集団反転がほぼ得られる。 例として, 超伝導回路におけるw状態のロバストな準備のために, 合成パルスシーケンスを考案した。 数値的な結果から,デコヒーレンス環境では忠実度が依然として高い水準を維持できることがわかった。

In this work, we exploit the idea of composite pulses to achieve robust population inversion in a three-level quantum system. The scheme is based on the modulation of the coupling strength, while the other physical parameters remain unchanged. The composite pulses sequence is designed by vanishing high-order error terms, and can compensate the systematic errors to any desired order. In particular, this scheme keeps a good performance under the disturbance of waveform deformations. This trait ensures that population inversion can be nearly obtained even when the pulse sequence has a short jump delay. As an example, we employ the designed composite pulse sequence to prepare the W state in a robust manner in the superconducting circuits. The numerical results show that the fidelity can still maintain a high level in a decoherence environment.
翻訳日:2023-03-28 06:11:28 公開日:2022-04-08
# 2レベル原子の逐次励起によって生じる光子数絡み合い

Photon-number entanglement generated by sequential excitation of a two-level atom ( http://arxiv.org/abs/2106.02049v2 )

ライセンス: Link先を確認
S. C. Wein, J. C. Loredo, M. Maffei, P. Hilaire, A. Harouri, N. Somaschi, A. Lema\^itre, I. Sagnes, L. Lanco, O. Krebs, A. Auff\`eves, C. Simon, P. Senellart, C. Ant\'on-Solanas(参考訳) 絡み合いと自然放出は、量子物理学の多くの応用を導く基本的な量子現象である。 励起された2レベル原子からの自発的な光放出の間、原子は光子場と短時間絡み合う。 ここでは,この自然過程を,光子数に絡み合った光を時間的に生成できることを示す。 量子ドット(人工二層原子)を2つのシーケンシャルな$\pi$パルスで励起することで、光子数ベル状態を生成する。 この状態を時間分解強度と位相相関測定を用いて特徴付ける。 さらに,2レベル原子へのパルス列の長い適用により,フィボナッチ配列に固有の特性を持つ複数の時間モード絡み合い状態が生成できることを理論的に示す。 光子数の絡み合いに関する我々の結果は、量子技術に応用した新しい量子光状態を生成するためにさらに活用することができる。

Entanglement and spontaneous emission are fundamental quantum phenomena that drive many applications of quantum physics. During the spontaneous emission of light from an excited two-level atom, the atom briefly becomes entangled with the photonic field. Here, we show that this natural process can be used to produce photon-number entangled states of light distributed in time. By exciting a quantum dot -- an artificial two-level atom -- with two sequential $\pi$ pulses, we generate a photon-number Bell state. We characterise this state using time-resolved intensity and phase correlation measurements. Furthermore, we theoretically show that applying longer sequences of pulses to a two-level atom can produce a series of multi-temporal mode entangled states with properties intrinsically related to the Fibonacci sequence. Our results on photon-number entanglement can be further exploited to generate new states of quantum light with applications in quantum technologies.
翻訳日:2023-03-27 23:11:00 公開日:2022-04-08
# 可積分スピン鎖とクリフォード群

Integrable spin chains and the Clifford group ( http://arxiv.org/abs/2107.02184v2 )

ライセンス: Link先を確認
Nick G. Jones and Noah Linden(参考訳) スピン鎖ハミルトニアンの新しい族を構築し、局所的、可積分的で変換不変である。 そのため、量子情報理論で生じるクリフォード群を利用する。 行列積作用素 (MPOs) によって記述できる変換不変なクリフォード群変換を考える。 我々は、シフト作用素と結合次元 2 の MPO からなる変換不変なクリフォード群変換を分類する -- これはすべてのハミルトン多様体の局所性を保存する変換を含む。 我々は、変換不変なクリフォード群変換の特徴として、単一サイトパウリ作用素を少なくとも5つのサイト(量子セルオートマトン例)上の局所作用素に導く変換不変クリフォード群変換を挙げ、そのような変換の下では正準 xxz モデルと等価なハミルトニアンの離散族を導く。 代数的ベーテ・アンザッツによって解けるスピン鎖に対して、行列積作用素による共役が基底となる可積分構造にどのように影響するかを説明する。 これにより、その結果を可積分ハミルトニアンの通常の分類に関連付けることができる。 また、自由フェルミオンで解くことができるスピン鎖の場合も扱う。

We construct new families of spin chain Hamiltonians that are local, integrable and translationally invariant. To do so, we make use of the Clifford group that arises in quantum information theory. We consider translation invariant Clifford group transformations that can be described by matrix product operators (MPOs). We classify the translation invariant Clifford group transformations that consist of a shift operator and an MPO of bond dimension two -- this includes transformations that preserve locality of all Hamiltonians; as well as those that lead to non-local images of particular operators but nevertheless preserve locality of certain Hamiltonians. We characterise the translation invariant Clifford group transformations that take single-site Pauli operators to local operators on at most five sites -- examples of Quantum Cellular Automata -- leading to a discrete family of Hamiltonians that are equivalent to the canonical XXZ model under such transformations. For spin chains solvable by algebraic Bethe Ansatz, we explain how conjugating by a matrix product operator affects the underlying integrable structure. This allows us to relate our results to the usual classifications of integrable Hamiltonians. We also treat the case of spin chains solvable by free fermions.
翻訳日:2023-03-23 08:47:41 公開日:2022-04-08
# 量子ネットワークにおける単一光子非局在性

Single-photon nonlocality in quantum networks ( http://arxiv.org/abs/2108.01726v3 )

ライセンス: Link先を確認
Paolo Abiuso, Tam\'as Kriv\'achy, Emanuel-Cristian Boghiu, Marc-Olivier Renou, Alejandro Pozas-Kerstjens, Antonio Ac\'in(参考訳) バランスの取れたビームスプリッターに単一光子が衝突する状態はしばしば単光子絡み合いとして知られ、その非局所的性質は量子光学と基礎のコミュニティで激しい議論の対象となっている。 しかしながら、受動光学素子のみからなる標準ベル試験は、この状態の非局所性を明らかにすることができないことは明らかである。 単一光子絡み合い状態の非局所性は、ビームスプリッターと光検出器のみからなる量子ネットワークで明らかにできることを示した。 このプロトコルでは、3つの単一光子絡み合い状態が三角形ネットワークに分散し、光子の経路の不確定性を導入し、測定の選択を必要とせずに非局所相関を生成する。 本稿では,具体的な実験的実現について論じ,標準雑音源に対するプロトコルの許容性を示す数値的な証拠を提供する。 この結果から,単光子絡み合いはベルベースの量子情報プロトコルに有用な真のネットワーク非局所相関を生成するための有望な解となる可能性が示唆された。

The state obtained when a single photon impinges on a balanced beamsplitter is often known as single-photon entangled and its nonlocal properties have been the subject of intense debates in the quantum optics and foundations communities. It is however clear that a standard Bell test made only of passive optical elements cannot reveal the nonlocality of this state. We show that the nonlocality of single-photon entangled states can nevertheless be revealed in a quantum network made only of beamsplitters and photodetectors. In our protocol, three single-photon entangled states are distributed in a triangle network, introducing indeterminacy in the photons' paths and creating nonlocal correlations without the need for measurements choices. We discuss a concrete experimental realisation and provide numerical evidence of the tolerance of our protocol to standard noise sources. Our results show that single-photon entanglement may constitute a promising solution to generate genuine network-nonlocal correlations useful for Bell-based quantum information protocols.
翻訳日:2023-03-20 00:26:18 公開日:2022-04-08
# 量子充電のアドバンテージは、グローバルオペレーションなしでは拡張できない

Quantum Charging Advantage Cannot Be Extensive Without Global Operations ( http://arxiv.org/abs/2108.02491v2 )

ライセンス: Link先を確認
Ju-Yeon Gyhm, Dominik \v{S}afr\'anek, and Dario Rosa(参考訳) 量子電池 (quantum battery) は、エネルギーを高速かつ効率的に貯蔵・放出する量子状態から作られる装置であり、将来の技術応用に多くの可能性をもたらす。 従来の電池と比べて充電速度が大幅に向上するが、これは充電操作が絡み合う可能性があるためである。 本研究は, セル数において最大速度を最大化できることを示し, 古典的に達成可能な線形スケーリングに対して, 充電電力の最大2次スケーリングを実現する。 このようなスケーリングを達成するためには、全セルをまとめて充電するグローバル充電プロトコルを採用する必要がある。 これは、量子電池の充電能力の限界を探求し、量子法が古典的なものよりも最も二次的なスケーリングを提供することが知られている他の結果に追加する。

Quantum batteries are devices made from quantum states, which store and release energy in a fast and efficient manner, thus offering numerous possibilities in future technological applications. They offer a significant charging speedup when compared to classical batteries, due to the possibility of using entangling charging operations. We show that the maximal speedup that can be achieved is extensive in the number of cells, thus offering at most quadratic scaling in the charging power over the classically achievable linear scaling. To reach such a scaling, a global charging protocol, charging all the cells collectively, needs to be employed. This concludes the quest on the limits of charging power of quantum batteries and adds to other results in which quantum methods are known to provide at most quadratic scaling over their classical counterparts.
翻訳日:2023-03-19 07:23:50 公開日:2022-04-08
# ソフト量子導波路の三次元化

Soft quantum waveguides in three dimensions ( http://arxiv.org/abs/2108.13142v2 )

ライセンス: Link先を確認
Pavel Exner(参考訳) 三次元軟質量子導波路について述べる。言い換えれば、$\r^3$ のschr\"odinger演算子は、無限管によって支持される魅力的なポテンシャルを持ち、その横方向プロファイルを固定する。 管が漸近的に直線である場合,その端間の距離は非有界であり,そのツイストがいわゆる唐条件を満たす場合,角スペクトルは滑らかな屈曲の影響を受けないことを示す。 さらに、そのような作用素の離散スペクトルが空でないように、チューブ幾何の観点から表現された十分条件を導出する。

We discuss a three-dimensional soft quantum waveguide, in other words, Schr\"odinger operator in $\R^3$ with an attractive potential supported by an infinite tube and keeping its transverse profile fixed. We show that if the tube is asymptotically straight, the distance between its ends is unbounded, and its twist satisfies the so-called Tang condition, the esential spectrum is not affected by smooth bends. Furthermore, we derive a sufficient condition, expressed in terms of the tube geometry, for the discrete spectrum of such an operator to be nonempty.
翻訳日:2023-03-16 19:10:27 公開日:2022-04-08
# 量子シミュレーションにおけるフロッケ写像の動的構造不安定性からのトローター誤差

Trotter errors from dynamical structural instabilities of Floquet maps in quantum simulation ( http://arxiv.org/abs/2110.03568v2 )

ライセンス: Link先を確認
Karthik Chinni, Manuel H. Mu\~noz-Arias, Ivan H. Deutsch, Pablo M. Poggi(参考訳) 時間進化作用素のトロッタースズキ分解による長距離多体相互作用を持つスピン系の量子シミュレーションにおける誤差の挙動について検討する。 我々は、シミュレーションステップサイズが小さければ、トロッター分解の根底にあるフロケ演算子が急激な変化を起こす仕組みを同定する。 これにより、ターゲットのハミルトニアンが生成する力学とは大きく異なる時間発展演算子が生成され、量子シミュレーションにおける誤差が増加する。 フロッケ作用素の鋭い変化の領域は構造不安定領域と呼ばれ、典型的には中間のトロッターステップサイズと弱い相互作用のレジームに現れるため、最近発見されたトロッター化進化の量子カオス的レジーム(sieberer et al., npj quantum information 5, 1 (2019))を補完する。 p$-spinモデル、すべてのp$-body相互作用を持つ横場イジングモデル、およびユニタリ摂動理論に基づいてそれらの発生を解析的に予測する。 さらに, 単位時間発展作用素のトロッター分解に伴う有効ハミルトニアンは, トロッターステップサイズが構造不安定領域にあると選択されたとき, ターゲットハミルトニアンとは大きく異なり, 不安定領域のシミュレーションで生じる大きな誤差が説明できることを示した。 これらの結果は、短期ゲートベースの量子シミュレータの信頼性に影響を及ぼし、シミュレーションされるシステムの物理的特性とエラーの間の重要な相互作用を明らかにする。

We study the behavior of errors in the quantum simulation of spin systems with long-range multi-body interactions resulting from the Trotter-Suzuki decomposition of the time-evolution operator. We identify a regime where the Floquet operator underlying the Trotter decomposition undergoes sharp changes even for small variations in the simulation step size. This results in a time evolution operator that is very different from the dynamics generated by the targeted Hamiltonian, which leads to a proliferation of errors in the quantum simulation. These regions of sharp change in the Floquet operator, referred to as structural instability regions, appear typically at intermediate Trotter step sizes and in the weakly-interacting regime, and are thus complementary to recently revealed quantum chaotic regimes of the Trotterized evolution (Sieberer et al., npj Quantum Information 5, 1 (2019)). We characterize these structural instability regimes in $p$-spin models, transverse-field Ising models with all-to-all $p$-body interactions, and analytically predict their occurrence based on unitary perturbation theory. We further show that the effective Hamiltonian associated with the Trotter decomposition of the unitary time-evolution operator, when the Trotter-step size is chosen to be in the structural instability region, is very different from the target Hamiltonian, which explains the large errors that can occur in the simulation in the regions of instability. These results have implications for the reliability of near-term gate-based quantum simulators, and reveal an important interplay between errors and the physical properties of the system being simulated.
翻訳日:2023-03-12 05:41:34 公開日:2022-04-08
# 拡張ベル測定による計算効率の高い量子期待

Computationally Efficient Quantum Expectation with Extended Bell Measurements ( http://arxiv.org/abs/2110.09735v2 )

ライセンス: Link先を確認
Ruho Kondo, Yuki Sato, Satoshi Koide, Seiji Kajita, Hideki Takamatsu(参考訳) 任意の観測可能な$A\in{\mathbb C}^{2^n\times 2^n}$ の期待値を評価するには、多くの項を評価する必要がある。 本稿では,ベル計測に基づく手法を用いてこの問題にアプローチし,この手法を拡張ベル計測法と呼ぶ。 この分析方法は、すぐに4^n$マトリックス要素を最大$^{n+1}$グループに組み立て、同時に$o(nd)$時間で測定し、ここで$d$は0でない要素の数が$a$である。 a$ がバンド行列であるとき、グループの数は特に小さい。 A$の帯域幅が$k=O(n^c)$の場合、同時測定のためのグループの数は$O(n^{c+1})$に減少する。 さらに、非零元がバンドを密度的に満たすとき、分散は$O((n^{c+1}/2^n)\,{\rm tr}(A^2))$であり、既存の方法の分散と比較して小さい。 提案手法では,1つのアダマールゲート,1つの位相ゲート,最大で最大$n-1$ cnotゲートなど,測定毎に数個のゲートが必要となる。 IBM-Qシステムにおける実験結果から,提案手法の計算効率と拡張性について,従来の最先端手法と比較した。 コードはhttps://github.com/ToyotaCRDL/extended-bell-measurementsで入手できる。

Evaluating an expectation value of an arbitrary observable $A\in{\mathbb C}^{2^n\times 2^n}$ through na\"ive Pauli measurements requires a large number of terms to be evaluated. We approach this issue using a method based on Bell measurement, which we refer to as the extended Bell measurement method. This analytical method quickly assembles the $4^n$ matrix elements into at most $2^{n+1}$ groups for simultaneous measurements in $O(nd)$ time, where $d$ is the number of non-zero elements of $A$. The number of groups is particularly small when $A$ is a band matrix. When the bandwidth of $A$ is $k=O(n^c)$, the number of groups for simultaneous measurement reduces to $O(n^{c+1})$. In addition, when non-zero elements densely fill the band, the variance is $O((n^{c+1}/2^n)\,{\rm tr}(A^2))$, which is small compared with the variances of existing methods. The proposed method requires a few additional gates for each measurement, namely one Hadamard gate, one phase gate and at most $n-1$ CNOT gates. Experimental results on an IBM-Q system show the computational efficiency and scalability of the proposed scheme, compared with existing state-of-the-art approaches. Code is available at https://github.com/ToyotaCRDL/extended-bell-measurements.
翻訳日:2023-03-11 02:10:34 公開日:2022-04-08
# フェルミオンガウス状態:数値的アプローチ入門

Fermionic Gaussian states: an introduction to numerical approaches ( http://arxiv.org/abs/2111.08343v2 )

ライセンス: Link先を確認
Jacopo Surace and Luca Tagliacozzo(参考訳) この文書は、フェルミオンガウス系の解析的および数値的操作の実践的な導入である。 基礎から、関連する近代的な結果や技法に移行し、数値的な例を示し、横フィールドのイジング・ハミルトニアン(Ising Hamiltonian)のような関連するハミルトニアンを研究する。 我々はFermionic Guassian状態と行列積状態とを結びつける新しいアルゴリズムを導入する。 すべての数値例はフリーのJuliaパッケージF_utilitiesを使用する。

This document is meant to be a practical introduction to the analytical and numerical manipulation of Fermionic Gaussian systems. Starting from the basics, we move to relevant modern results and techniques, presenting numerical examples and studying relevant Hamiltonians, such as the transverse field Ising Hamiltonian, in detail. We finish introducing novel algorithms connecting Fermionic Guassian states with matrix product states techniques. All the numerical examples make use of the free Julia package F_utilities.
翻訳日:2023-03-08 00:11:31 公開日:2022-04-08
# 境界時間結晶における遺伝子多部相関

Genuine Multipartite Correlations in a Boundary Time Crystal ( http://arxiv.org/abs/2112.11510v2 )

ライセンス: Link先を確認
Ant\^onio C. Louren\c{c}o, Luis Fernando dos Prazeres, Thiago O. Maciel, Fernando Iemini, Eduardo I. Duzzioni(参考訳) 本研究では,境界時間結晶(BTC)における真の多重粒子相関(GMC)について検討する。 境界時間結晶は、多体系のマクロな分画が時間変換対称性を破る環境に接触する物質の非平衡量子相である。 どちらも分析し (i)gmcのサブシステム間の構造(順序) (ii) 初期の非相関状態に対するビルドアップのダイナミクス。 熱力学的限界(およびそのような極限のみ)において、BTC相において全ての順序の多部相関は無期限に増加し、その平均成長の周囲に持続的な振動挙動を示す。 相関の順序は、その$k$-partitionsの中でパワーローの崩壊階層を示している。 さらに、gmcは、モデル非時間結晶(強磁性)相のサブ拡張スケーリングとは対照的に、長い時間限度では、システムサイズが広いことが示される。 また、これらの相関関係の古典的および量子的性質を、多部交絡証人、具体的には量子フィッシャー情報(QFI)の分析に基づいて論じる。 GMCとQFIはどちらも、モデルの異なるフェーズをキャプチャして区別することができる。 我々の研究は、これらの特異な非平衡相の真の多体特性を強調している。

In this work we study genuine multipartite correlations (GMC's) in a boundary time crystal (BTC). Boundary time crystals are nonequilibrium quantum phases of matter in contact to an environment, for which a macroscopic fraction of the many-body system breaks the time-translation symmetry. We analyze both (i) the structure (orders) of GMC's among the subsystems, as well as (ii) their build-up dynamics for an initially uncorrelated state. We find that, in the thermodynamic limit (and only in such a limit), multipartite correlations of all orders grow indefinitely in time in the BTC phase, further displaying a persistent oscillatory behavior around their mean growth. The orders of the correlations show a power-law decaying hierarchy among its $k$-partitions. Moreover, in the long-time limit the GMC's are shown extensive with the system size, contrasting to the subextensive scaling in the non time-crystal (ferromagnetic) phase of the model. We also discuss the classical and quantum nature of these correlations with basis on multipartite entanglement witnesses, specifically, the analysis of the Quantum Fisher Information (QFI). Both GMC and QFI are able to capture and distinguish the different phases of the model. Our work highlights the genuine many-body properties of these peculiar non-equilibrium phases of matter.
翻訳日:2023-03-03 22:19:24 公開日:2022-04-08
# knizhnik-zamolodchikov方程式の量子非平衡ダイナミクス

Quantum nonequilibrium dynamics from Knizhnik-Zamolodchikov equations ( http://arxiv.org/abs/2112.12866v3 )

ライセンス: Link先を確認
Tigran A. Sedrakyan, Hrachya M. Babujian(参考訳) 非定常量子モデルの集合を考える。 共形場理論における相関関数に対するKZ方程式のリンクを用いて、それらの力学を研究できることが示される。 特にWess-Zumino-Novikov-Wittenモデルを考えると、一次場のコレレータの方程式はKZ方程式の拡張によって定義される。 提案手法の実用性の一例として,demkov-osherovモデルとして知られる2レベルランドウ-ゼンナー系の特定の多値一般化である力学系の厳密な解法を提案する。 この方法は、対応するKZ方程式の解から様々な多層系の非平衡力学を研究するのに使うことができる。

We consider a set of non-stationary quantum models. We show that their dynamics can be studied using links to Knizhnik-Zamolodchikov (KZ) equations for correlation functions in conformal field theories. We specifically consider the boundary Wess-Zumino-Novikov-Witten model, where equations for correlators of primary fields are defined by an extension of KZ equations and explore the links to dynamical systems. As an example of the workability of the proposed method, we provide an exact solution to a dynamical system that is a specific multi-level generalization of the two-level Landau-Zenner system known in the literature as the Demkov-Osherov model. The method can be used to study the nonequilibrium dynamics in various multi-level systems from the solution of the corresponding KZ equations.
翻訳日:2023-03-03 17:30:11 公開日:2022-04-08
# 固体量子ビットと光電場間のコヒーレンス駆動ワーク交換

Coherence-powered work exchanges between a solid-state qubit and light fields ( http://arxiv.org/abs/2202.01109v2 )

ライセンス: Link先を確認
I. Maillette de Buy Wenniger, S. E. Thomas, M. Maffei, S. C. Wein, M. Pont, A. Harouri, A. Lema\^itre, I. Sagnes, N. Somaschi, A. Auff\`eves, P. Senellart(参考訳) 量子コヒーレンスは量子システム間のエネルギー交換にどのように影響するか? 量子熱力学のこの重要な問題は、量子コヒーレンスに基づく新興技術のエネルギー管理においても重要である。 量子ビットと電磁界の間のエネルギー交換におけるコヒーレンスの役割を記述するために、先駆的な理論的枠組みが提案されている。 ここでは, 電磁界のモードの貯留層に固体量子ビットが自発的に放出される過程において, 量子バッテリの充電にエネルギー的に対応するステップを実験的に検討する。 転送された作業量は、キュービットの初期量子コヒーレンスに比例し、高温では減少することを示す。 第2のステップでは、電池の放電とそのエネルギー移動を古典的、すなわち、ホモダイン型測定を用いたレーザー場に研究する。 レーザー場に伝達されるエネルギーと仕事の量は、理論的に予測された荷電バッテリ場の量子純度と、量子ビット固体環境における長期変動によって、相対的に古典的な光学位相によって制御されることが示された。 我々の研究は、多くの光ベースの量子技術の核となる2つの重要なプロセスである量子光発生と光量子干渉のエネルギーに関する基礎研究である。

How does quantum coherence impact energy exchanges between quantum systems? This key question of quantum thermodynamics is also of prime importance for the energy management of emerging technologies based on quantum coherence. Pioneering theoretical frameworks have been proposed to describe the role of coherence in the energetic exchanges between a qubit and the electromagnetic field. Here, we experimentally study the work transferred during the spontaneous emission of a solid-state qubit into a reservoir of modes of the electromagnetic field, a step that energetically corresponds to the charging of a quantum battery. We show that the amount of transferred work is proportional to the initial quantum coherence of the qubit, and is reduced at higher temperatures. In a second step, we {study the discharge of the battery and its energy transfer} to a classical, i.e., laser field using homodyne-type measurements. Our research shows that the amount of energy and work transferred to the laser field is controlled by the relative classical optical phase between the two fields, the quantum purity of the charged battery field as theoretically predicted, as well as long-term fluctuations in the qubit solid-state environment. Our study lays the groundwork for the energetics of quantum light generation and optical quantum interferences - two key processes that are at the core of most light-based quantum technologies.
翻訳日:2023-02-27 01:04:23 公開日:2022-04-08
# 1+1次元キラルフェルミオン3,4-5-0模型における対称質量生成

Symmetric Mass Generation in the 1+1 Dimensional Chiral Fermion 3-4-5-0 Model ( http://arxiv.org/abs/2202.12355v2 )

ライセンス: Link先を確認
Meng Zeng, Zheng Zhu, Juven Wang and Yi-Zhuang You(参考訳) キラルフェルミオンの格子正則化は物理学における長年の問題である。 本研究では,(1+1)Dキラルフェルミオンの3,4-5-0モデルと,U(1)電荷3,4,5,0の2つの左右運動フェルミオンを含む非特異なキラルU(1)対称性の密度行列再正規化群(DMRG)シミュレーションを提案する。 wang-wenカイラルフェルミオンモデルに従い,多層チャーン絶縁体の(2+1)d格子モデルの薄片の反対境界におけるキラルフェルミオンとそのミラーパートナーを実現する。 ミラーセクターにのみ、6フェミオンの局所相互作用を慎重に設計することにより、対称質量生成(SMG)機構を介して、キラルU(1)対称性を破ることなく、鏡面フェルミオンが臨界強度を超える相互作用によってギャップを空けることを示した。 相互作用駆動のギャップリング遷移は、ベレジンスキー-コステリッツ-Thouless(BKT)普遍性クラスにあることを示す。 遷移に先立ってルッティンガーパラメータの進化が決定され、相互作用項が限界に達した時点で遷移が正確に起こることが確認される。 遷移の後にミラーセクターがギャップ化されるにつれて、光キラルフェルミオンセクターのフェルミオンがギャップのないままであることを確認し、キラルフェルミオンの格子規則化を所望する。

Lattice regularization of chiral fermions has been a long-standing problem in physics. In this work, we present the density matrix renormalization group (DMRG) simulation of the 3-4-5-0 model of (1+1)D chiral fermions with an anomaly-free chiral U(1) symmetry, which contains two left-moving and two right-moving fermions carrying U(1) charges 3,4 and 5,0, respectively. Following the Wang-Wen chiral fermion model, we realize the chiral fermions and their mirror partners on the opposite boundaries of a thin strip of (2+1)D lattice model of multi-layer Chern insulator, whose finite-width implies the quantum system is effectively (1+1)D. By introducing carefully designed two sets of six-fermion local interactions to the mirror sector only, we demonstrate that the mirror fermions can be gapped out by the interaction beyond a critical strength without breaking the chiral U(1) symmetry, via the symmetric mass generation (SMG) mechanism. We show that the interaction-driven gapping transition is in the Berezinskii-Kosterlitz-Thouless (BKT) universality class. We determine the evolution of Luttinger parameters before the transition, which confirms that the transition happens exactly at the point when the interaction term becomes marginal. As the mirror sector is gapped after the transition, we check that the fermions in the light chiral fermion sector remain gapless, which provides the desired lattice regularization of chiral fermions.
翻訳日:2023-02-24 01:26:46 公開日:2022-04-08
# 有限温度における発散摂動理論の複素解析

Complex analysis of divergent perturbation theory at finite temperature ( http://arxiv.org/abs/2203.02377v3 )

ライセンス: Link先を確認
Yi Sun and Hugh G. A. Burton(参考訳) 複素解析を用いて熱力学ポテンシャルの数学的構造を考慮した有限温度摂動理論の収束特性について検討する。 分割関数の零点が内エネルギーの極につながり、ヘルムホルツ自由エネルギーの対数特異点が正準アンサンブルの発散展開を生み出すことを発見した。 これらの零点を解析すると、高温では収束半径が増加することが分かる。 対照的に、基準状態が縮退すると、内部エネルギーのこれらの極は零温度限界における収束半径をゼロにする。 最後に、内部エネルギーの極が零温度極限の例外点まで減少することを示すことで、量子相転移の2つの主要な数学的表現を統一する。

We investigate the convergence properties of finite-temperature perturbation theory by considering the mathematical structure of thermodynamic potentials using complex analysis. We discover that zeros of the partition function lead to poles in the internal energy and logarithmic singularities in the Helmholtz free energy which create divergent expansions in the canonical ensemble. Analysing these zeros reveals that the radius of convergence increases for higher temperatures. In contrast, when the reference state is degenerate, these poles in the internal energy create a zero radius of convergence in the zero-temperature limit. Finally, by showing that the poles in the internal energy reduce to exceptional points in the zero-temperature limit, we unify the two main mathematical representations of quantum phase transitions.
翻訳日:2023-02-23 03:37:55 公開日:2022-04-08
# 1次元ランダム量子回路における雑音誘起絡み合い遷移

Noisy induced entanglement transition in one-dimensional random quantum circuits ( http://arxiv.org/abs/2203.07791v2 )

ライセンス: Link先を確認
Qi Zhang and Guang-Ming Zhang(参考訳) ランダム量子回路は、多体量子系の絡み合い力学を研究する最小構造モデルである。 本稿では,密度行列演算子とテンソル縮約法を用いて,ノイズハールランダムユニタリゲートを持つ1次元量子回路を考える。 ランダム量子回路の絡み合いの進化は対数的絡み合いの負性によって適切に特徴づけられる。 正確な数値計算を行うことにより, 物理誤差率が臨界値 $p_c\approx 0.056$ を下回るにつれて, 面積則から体積則への対数絡みネガティビティが変化し, 絡み合い遷移が生じることがわかった。 相関長の臨界指数は有限サイズスケール解析から決定でき、ノイズのある中間スケール量子デバイスの普遍的動的性質を明らかにする。

Random quantum circuit is a minimally structured model to study the entanglement dynamics of many-body quantum systems. In this paper, we considered a one-dimensional quantum circuit with noisy Haar-random unitary gates using density matrix operator and tensor contraction methods. It is shown that the entanglement evolution of the random quantum circuits is properly characterized by the logarithmic entanglement negativity. By performing exact numerical calculations, we found that, as the physical error rate is decreased below a critical value $p_c\approx 0.056$, the logarithmic entanglement negativity changes from the area law to the volume law, giving rise to an entanglement transition. The critical exponent of the correlation length can be determined from the finite-size scaling analysis, revealing the universal dynamic property of the noisy intermediate-scale quantum devices.
翻訳日:2023-02-22 01:20:51 公開日:2022-04-08
# ナラインCFTのスペクトルと関連するブール関数の性質の関係

Relation between spectra of Narain CFTs and properties of associated boolean functions ( http://arxiv.org/abs/2203.11643v2 )

ライセンス: Link先を確認
Yuma Furuta(参考訳) 近年,ある種の量子誤り訂正符号からナラインCFTの構築が発見されている。 特に、ナラインCFTのスペクトルギャップは、真のハミング距離ではなく、符号のバイナリ距離に対応している。 本稿では,量子コードに一意に関連付けられたブール関数のいわゆる EPC 距離と二項距離が同一であることを示す。 したがって,高いスペクトルギャップを持つナラインCFTを求めることは,高いEPC距離を持つブール関数を得るのと等価である。 さらに、この問題はブール関数の2値真理表に対して低いピーク対平均電力比(PAR)を求めることで解決できる。 これは高いECC距離に十分でなくても必要な条件ではないが、より低いPARの構築に言及した比較的高いECC距離の例を構築している。 また、高い距離を持つ符号は、低い独立数を持つ誘導グラフと関連している。

Recently, the construction of Narain CFT from a certain class of quantum error correcting codes has been discovered. In particular, the spectral gap of Narain CFT corresponds to the binary distance of the code, not the genuine Hamming distance. In this paper, we show that the binary distance is identical to the so-called EPC distance of the boolean function uniquely associated with the quantum code. Therefore, seeking Narain CFT with high spectral gap is equivalent to getting a boolean function with high EPC distance. Furthermore, this problem can be addressed by finding lower Peak-to-Average Power ratio (PAR) with respect to the binary truth table of the boolean function. Though this is neither sufficient nor necessary condition for high EPC distance, we construct some examples of relatively high EPC distances referring to the constructions for lower PAR. We also see that codes with high distance are related to induced graphs with low independence numbers.
翻訳日:2023-02-21 02:59:09 公開日:2022-04-08
# 非伝統的・職業的背景をもつソフトウェアエンジニアの障壁と緩和戦略の理解に向けて

Towards Understanding Barriers and Mitigation Strategies of Software Engineers with Non-traditional Educational and Occupational Backgrounds ( http://arxiv.org/abs/2204.04318v1 )

ライセンス: Link先を確認
Tavian Barnes, Ken Jen Lee, Cristina Tavares, Gema Rodr\'iguez-P\'erez, Meiyappan Nagappan(参考訳) ソフトウェア工学のキャリアへの伝統的な道のりは、ソフトウェア工学、コンピュータサイエンス、または関連する分野の2次ディプロマを含む。 しかし、多くのソフトウェアエンジニアは、他の業界や研究分野から、キャリアへの非伝統的な道を歩んでいます。 本稿では,非伝統的な教育的,職業的背景を持つソフトウェアエンジニアが直面する障壁と,それらの障壁の緩和戦略について考察する。 本研究では,探索的研究と検証研究からなる2段階の方法論を提案する。 この探索的な研究は、Redditのデータに関する根拠に基づく質的分析によって、障壁とその緩和戦略に関する枠組みを導出する。 これらの結果は、検証研究のサーベイを用いて検証される。 ソフトウェア工学を非伝統的なバックグラウンドを持つ人々によりアクセスしやすくすることは、機能的多様性の利点をもたらすだけでなく、ソフトウェア工学業界の労働不足を埋める方法としても役立つ。

The traditional path to a software engineering career involves a post-secondary diploma in Software Engineering, Computer Science, or a related field. However, many software engineers take a non-traditional path to their career, starting from other industries or fields of study. This paper proposes a study on barriers faced by software engineers with non-traditional educational and occupational backgrounds, and possible mitigation strategies for those barriers. We propose a two-stage methodology, consisting of an exploratory study, followed by a validation study. The exploratory study will involve a grounded-theory-based qualitative analysis of relevant Reddit data to yield a framework around the barriers and possible mitigation strategies. These findings will then be validated using a survey in the validation study. Making software engineering more accessible to those with non-traditional backgrounds will not only bring about the benefits of functional diversity, but also serves as a method of filling in the labour shortages of the software engineering industry.
翻訳日:2023-02-19 16:13:31 公開日:2022-04-08
# オンラインチームワークはプログラミングコースにおける学生コミュニケーションパターンをどのように変えるか?

How does online teamwork change student communication patterns in programming courses? ( http://arxiv.org/abs/2204.04244v1 )

ライセンス: Link先を確認
Natalya Kozhevnikova(参考訳) 新型コロナウイルス(covid-19)のパンデミックにより、オンライン教育は新たな現実になってきた。 近年の研究では、相互コミュニケーションがオンライン教育の学習結果に正の影響を与えることが示されている。 しかし、協調プログラミングタスクが学習プロセスにおける相互コミュニケーションパターンをどのように変えるかは明らかではない。 本研究では,相互コミュニケーションが制限されているmoocsにおけるコミュニケーションパターンと,学生がオンラインの相互教育に関与しているブレンドコースのコミュニケーションパターンを比較した。 自動テキスト解析とコミュニティ抽出を組み合わせた混合手法を用いて,さらに質的分析を行った。 その結果,生徒は教師ではなく,仲間からプログラミングの助けを求めることを好むことがわかった。 チームの割り当てはこの習慣を支持するのに役立った。 生徒はよりポジティブで集中的にコミュニケーションし、チームリーダーだけが教師の過負荷を減らすインストラクターとコミュニケーションした。 このシフトは、以前のmoocsの研究で示されているように、ピアコミュニケーションが学習結果をどのように改善するかを説明することができる。

Online teaching has become a new reality due to the COVID-19 pandemic raising a lot of questions about its learning outcomes. Recent studies have shown that peer communication positively affects learning outcomes of online teaching. However, it is not clear how collaborative programming tasks change peer communication patterns in the learning process. In this study, we compare communication patterns in MOOCs where peer communication is limited with those of a blended course in which students are involved in online peer instruction. We used a mixed-method approach comprising automated text analysis and community extraction with further qualitative analysis. The results show that students prefer to seek help in programming from peers and not the teacher. Team assignment helped to support this habit. Students communicated more positively and intensively with each other, while only team leaders communicated with the instructor reducing teacher overload. This shift could explain how peer communication improves learning outcomes, as has been shown in previous studies on MOOCs.
翻訳日:2023-02-19 16:12:57 公開日:2022-04-08
# gettr-ing" ソーシャルネットワーク gettr からの深い洞察

"Gettr-ing" Deep Insights from the Social Network Gettr ( http://arxiv.org/abs/2204.04066v1 )

ライセンス: Link先を確認
Filipo Sharevski, Peter Jachim, Emma Pieroni, Amy Devine(参考訳) 別の代替ソーシャルネットワークと同様に、Gettrは自らを「アイデアの市場」と位置づけており、ユーザーは行政検閲なしで真実が現れることを期待すべきである。 プラットフォーム内の構造を分析して,680万の投稿のサンプルと,インタビューした124人のgettrユーザからの回答を分析して,これが本当かどうかを確認した。 管理面では、gettrは、データ収集が予測不能で突然のapi変更でマーディングされるため、プラットフォームの外的評価を抑止する意図的な試みをしている。 内容的には、Gettrは陰謀論や認識された「左」に対する攻撃と混ざった反トランプのコンテンツをホストしている。 ソーシャルネットワークの構造は非対称であり、すべてのアルトプラットフォームに特徴的な、著名な右派リーダーを中心にしている。 主流プラットフォームによる言論の自由が認識された結果として、右寄りのユーザーはgettrに加入したが、左寄りのユーザーは「誤報をキャッチアップする」という数字でそれに従った。 本稿では,Gettr のユーザインタフェース設計を考察し,Gettr の真理への参加と競争のためのインセンティブ構造に関する総合的な洞察を提供する。

As yet another alternative social network, Gettr positions itself as the "marketplace of ideas" where users should expect the truth to emerge without any administrative censorship. We looked deep inside the platform by analyzing it's structure, a sample of 6.8 million posts, and the responses from a sample of 124 Gettr users we interviewed to see if this actually is the case. Administratively, Gettr makes a deliberate attempt to stifle any external evaluation of the platform as collecting data is marred with unpredictable and abrupt changes in their API. Content-wise, Gettr notably hosts pro-Trump content mixed with conspiracy theories and attacks on the perceived "left." It's social network structure is asymmetric and centered around prominent right-thought leaders, which is characteristic for all alt-platforms. While right-leaning users joined Gettr as a result of a perceived freedom of speech infringement by the mainstream platforms, left-leaning users followed them in numbers as to "keep up with the misinformation." We contextualize these findings by looking into the Gettr's user interface design to provide a comprehensive insight into the incentive structure for joining and competing for the truth on Gettr.
翻訳日:2023-02-19 16:12:21 公開日:2022-04-08
# 多様な非エルミート量子系のトポロジカル回路

Topological circuit of a versatile non-Hermitian quantum system ( http://arxiv.org/abs/2204.01833v3 )

ライセンス: Link先を確認
David-Andres Galeano, Xiao-Xiao Zhang, Jorge Mahecha(参考訳) 複素ホッピングを持つ新しいタイプの非エルミタンSu-Schrieffer-Heeger(SSH)モデルを理論的に解析し,完全にシミュレートする抵抗器,インダクタ,コンデンサ(RLC)電気回路を提案する。 その構成を定式化し,回路の汎用性を生かしてその特性を調べる。 リッチな物理特性は、位相的巻線数とエッジ状態の高度に調整可能なバルクエッジ対応や、新しい複素エネルギー平面トポロジーに由来する非エルミート皮膚現象を含む、rlc回路の通常の振動モードから同定することができる。 本研究は、エルミート系と非エルミート系の両方に容易に一般化できる電気回路に固有の広範囲で魅力的な位相物理学を示すことができる。

We propose an resistors, inductors and capacitors (RLC) electrical circuit to theoretically analyze and fully simulate a new type of non-Hermitian Su-Schrieffer-Heeger (SSH) model with complex hoppings. We formulate its construction and investigate its properties by taking advantage of the circuit's versatility. Rich physical properties can be identified in this system from the normal modes of oscillation of the RLC circuit, including the highly tunable bulk-edge correspondence between topological winding numbers and edge states and the non-Hermitian skin phenomenon originating from a novel complex energy plane topology. The present study is able to show the wide and appealing topological physics inherent to electric circuits, which is readily generalizable to a plenty of both Hermitian and non-Hermitian nontrivial systems.
翻訳日:2023-02-18 07:53:50 公開日:2022-04-08
# 量子状態によってどれだけの古典情報を運ぶか? コルモゴロフ複雑性に触発されたアプローチ

How much classical information is carried by a quantum state? An approach inspired by Kolmogorov complexity ( http://arxiv.org/abs/2204.02370v2 )

ライセンス: Link先を確認
Doriano Brogioli(参考訳) 量子力学において、状態はヒルベルト空間の要素であり、その次元は粒子の数(量子コンピューティングでは量子ビット)の増加とともに指数関数的に増加する。 この巨大なヒルベルト空間は本当に存在するのか?」という曖昧な疑問は計算複雑性理論の中で厳密に定式化されてきた。 この線に沿って、コルモゴロフの複雑性から着想を得て、量子状態の(古典的)情報内容の定義を与える。 いくつかのよく知られた量子回路(量子ビット数のゲート多項式を持つ)に対して、私の定義に従って評価された出力状態の情報内容は、量子ビット数の多項式であることを示す。 一方、既知の結果を適用することで、指数的に増加する情報量を持つより複雑な状態を生成する量子回路を考案することができる。 量子状態には膨大な古典的情報が存在しているが、古典的計算に関して指数的なスピードアップを示す量子アルゴリズムでさえも、この性質が必ずしも量子コンピュータによって活用されているわけではないことを示す。

In quantum mechanics, a state is an element of a Hilbert space whose dimension exponentially grows with the increase of the number of particles (or qubits, in quantum computing). The vague question "is this huge Hilbert space really there?" has been rigorously formalized inside the computational complexity theory; the research suggests a positive answer to the question. Along this line, I give a definition of the (classical) information content of a quantum state, taking inspiration from the Kolmogorov complexity. I show that, for some well-known quantum circuits (having a number of gates polynomial in the number of qubits), the information content of the output state, evaluated according to my definition, is polynomial in the number of qubits. On the other hand, applying known results, it is possible to devise quantum circuits that generate much more complex states, having an exponentially-growing information content. A huge amount of classical information can be really present inside a quantum state, however, I show that this property is not necessarily exploited by quantum computers, not even by quantum algorithms showing an exponential speed-up with respect to classical computation.
翻訳日:2023-02-18 05:17:11 公開日:2022-04-08
# 双方向テレポーテーションにおける記憶効果

Memory effect on the bidirectional teleportation ( http://arxiv.org/abs/2204.03351v2 )

ライセンス: Link先を確認
Chaibata Seida, Sanaa Seddik, Yassine Hassouni and Abderrahim El Allati(参考訳) 本研究では,メモリ付きデコヒーレンスチャネル,デフォーカス,振幅減衰チャネルの影響を受け,ベル状態を用いた単一量子状態の双方向量子テレポーテーション(BQT)について検討した。 また、BQT量子チャネルに残存する絡み合いの指標として、負性表現、テレポーテーション忠実度、および量子フィッシャー情報も評価する。 いずれの量もbqt量子チャネルのエンタングルメントの生存率、デコヒーレンス係数、デコヒーレンスチャネルの相関度に依存することが判明した。 マルコフ体制では, 古典的チャネル相関を考慮すれば, ネガティビティ, テレポーテーション平均フィダリティ, 量子フィッシャー情報がわずかに向上することを示す。 さらに、非マルコフ体制においては、これら3つの量は長期間にわたって改良される可能性がある。

In this contribution, we have investigated the bidirectional quantum teleportation (BQT) of single-qubit states using a Bell state influenced by decoherence channels with memory, dephasing and amplitude damping channels. The expressions of the negativity, as a measure of the entanglement remaining in the BQT quantum channel, the teleportation fidelities and the quantum Fisher information are also evaluated. We find that both these last quantities depend on the survival amount of entanglement in the BQT quantum channel, on the decoherence factor and on the correlation degree of the decoherence channel. We show that in the Markovian regime, the Negativity, the teleportation average fidelities and the quantum Fisher information are slightly enhanced by considering the classical channel correlations. Besides, in the non-Markovian regime, these three quantities could be improved for a long period of time.
翻訳日:2023-02-18 00:05:50 公開日:2022-04-08
# 断熱量子計算による近似真空の改善

Improving approximate vacuum prepared by the adiabatic quantum computation ( http://arxiv.org/abs/2204.03862v1 )

ライセンス: Link先を確認
Kazuto Oshima(参考訳) 量子断熱定理によれば、原理的には単純ハミルトニアンの自明な真空から始まる量子系の真の真空を得ることができる。 有限時間長と非無限時間ステップを持つ実際の断熱デジタル量子シミュレーションでは、真の真空状態と励起状態の重ね合わせであると考えられる近似真空しか得られない。 近似真空を改善する手法を提案する。

According to the quantum adiabatic theorem, we can in principle obtain a true vacuum of a quantum system starting from a trivial vacuum of a simple Hamiltonian. In actual adiabatic digital quantum simulation with finite time length and non-infinitesimal time steps, we can only obtain an approximate vacuum that is supposed to be a superposition of a true vacuum and excited states. We propose a procedure to improve the approximate vacuum.
翻訳日:2023-02-17 21:34:13 公開日:2022-04-08
# LoCI: 集積シリコンフォトニックニューラルネットワークにおける光損失とクロストークノイズの影響の解析

LoCI: An Analysis of the Impact of Optical Loss and Crosstalk Noise in Integrated Silicon-Photonic Neural Networks ( http://arxiv.org/abs/2204.03835v1 )

ライセンス: Link先を確認
Amin Shafiee, Sanmitra Banerjee, Krishnendu Chakrabarty, Sudeep Pasricha, Mahdi Nikdast(参考訳) 電子加速器と比較して、集積シリコンフォトニックニューラルネットワーク(SP-NN)は、新しい人工知能アプリケーションのための高速でエネルギー効率を約束する。 しかし、sp-nnsの問題点は、基盤となるシリコンフォトニックデバイスが固有の光学的損失とクロストークノイズに悩まされ、ネットワークが拡大するにつれて蓄積される影響である。 本稿では,SP-NNのための総合的かつ体系的な光損失とクロストークモデリングフレームワークを提案する。 2つの隠れ層と1380の可変パラメータを持つsp-nnのケーススタディでは、光学的損失とクロストークノイズによる参照精度が84%低下している。

Compared to electronic accelerators, integrated silicon-photonic neural networks (SP-NNs) promise higher speed and energy efficiency for emerging artificial-intelligence applications. However, a hitherto overlooked problem in SP-NNs is that the underlying silicon photonic devices suffer from intrinsic optical loss and crosstalk noise, the impact of which accumulates as the network scales up. Leveraging precise device-level models, this paper presents the first comprehensive and systematic optical loss and crosstalk modeling framework for SP-NNs. For an SP-NN case study with two hidden layers and 1380 tunable parameters, we show a catastrophic 84% drop in inferencing accuracy due to optical loss and crosstalk noise.
翻訳日:2023-02-17 21:34:08 公開日:2022-04-08
# カタストロフィ理論による相転移からの量子相対論的効果の再検討

Revisiting quantum relativistic effects from phase transition by catastrophe theory ( http://arxiv.org/abs/2204.03807v1 )

ライセンス: Link先を確認
Jiu Hui Wu, Kejiang Zhou and Shao Kun Yang(参考訳) 本稿では、位相遷移過程の観点から古典量子力学を再考するために、schr\"odinger方程式から始める。 ここで、高速で動く粒子の相対論的効果は、速度変数が増加すると相転移過程と見なすことができる。 カタストロフィモデルが任意の相転移過程を定性的に記述できることを考えると、最も単純な折りたたみカタストロフィ型をシュリンガー方程式のポテンシャル関数として採用し、まず無次元解析によりシュリンガー相対論方程式を修正し、さらに徐々に定常クライン=ゴルドン方程式とディラック相対論方程式を導出する。 これらの結果から、量子相対論的効果は相転移過程と見なすことができ、古典的シュル=オディンガー方程式のポテンシャル関数としてカタストロフィーモデルを採用することで説明できる。

In this paper we start from the Schr\"odinger equation to revisit some classical quantum mechanics from the perspective of phase transition process. Here the relativistic effect of particles moving at high speed can be regarded as the phase transition process when the velocity variable increases. Considering that the catastrophe models could describe qualitatively any phase transition process, we adopt the simplest folding catastrophe type as the potential function in the Schr\"odinger equation to obtain a revised Schr\"odinger relativistic equation through the dimensionless analysis first, and then further to derive out the steady-state Klein-Gordon equation and Dirac relativistic equation gradually. These results reveal that the quantum relativistic effect could be considered as the phase transition process, which could be described by adopting the catastrophe models as the potential function in the classical Schr\"odinger equation.
翻訳日:2023-02-17 21:33:31 公開日:2022-04-08
# 散乱理論入門

An Introduction to Scattering Theory ( http://arxiv.org/abs/2204.03651v1 )

ライセンス: Link先を確認
Milan \v{S}indelka(参考訳) これらの講義の目的は、1次元の量子散乱理論へのアクセス可能で自己を含む導入を提供することである。 部分 A は理論遊び場を定義し、時間領域における散乱理論の基本概念(漸近条件、内状態および外状態、散乱作用素 $\hat{S}$)を開発する。 パートBの目的は、エネルギー領域における時間独立散乱理論をステップバイステップで構築することである。 これは、定常散乱状態に対するリップマン・シュウィンガー方程式($| \psi_{e(\pm 1)}^\pm \rangle$)を導入し、$| \psi_{e(\pm 1)}^\pm \rangle$の基本的な性質を議論し、その後$| \psi_{e(\pm 1)}^\pm \rangle$の項で$\hat{s}$ と $\hat{t}$演算子を構築するのに要する。 $\hat{S}$ および $\hat{T}$ 作用素の物理的内容は、ポテンシャルの相互作用領域から量子粒子の伝達/反射の確率の明示的な公式を導出することによって照らされる。 例示的な数値例が与えられ、散乱共鳴の存在も強調する。 最後に、パートCは共鳴現象の明確な切断理解に適した非常に強力なツールを提供する非エルミート散乱理論(ジーガート擬状態形式論)を詳述する。

The purpose of these lectures is to give an accessible and self contained introduction to quantum scattering theory in one dimension. Part A defines the theoretical playground, and develops basic concepts of scattering theory in the time domain (Asymptotic Condition, in- and out- states, scattering operator $\hat{S}$). The aim of Part B is then to build up, in a step-by-step fashion, the time independent scattering theory in energy domain. This amounts to introduce the Lippmann-Schwinger equation for the stationary scattering states (denoted as $| \psi_{E(\pm 1)}^\pm \rangle$), to discuss fundamental properties of $| \psi_{E(\pm 1)}^\pm \rangle$, and subsequently to construct $\hat{S}$ and $\hat{T}$ operators in terms of $| \psi_{E(\pm 1)}^\pm \rangle$. Physical contents of the $\hat{S}$ and $\hat{T}$ operators is then illuminated by deriving explicit formulas for the probability of transmission/reflection of our quantum particle through/from the interaction region of the potential. An illustrative numerical example is given, which also highlights an existence of scattering resonances. Finally, Part C elaborates the nonhermitian scattering theory (Siegert pseudostate formalism), which offers an extremely powerful tool suitable for clear cut understanding of the resonance phenomena.
翻訳日:2023-02-17 21:33:04 公開日:2022-04-08
# 回路量子電磁力学におけるフォトニック量子ビットを用いた多重制御位相ゲートの効率的な実現法

Efficient scheme for realizing a multiplex-controlled phase gate with photonic qubits in circuit quantum electrodynamics ( http://arxiv.org/abs/2204.04082v1 )

ライセンス: Link先を確認
Qi-Ping Su, Yu Zhang, Liang Bin, Chui-Ping Yang(参考訳) 回路量子電磁力学(qed)に基づく1つのターゲットフォトニックキュービットを同時に制御する複数のフォトニックキュービットを有する多重制御位相ゲートを実装するための効率的な手法を提案する。 利便性のため、このマルチビットゲートをMPPゲートと表現する。 ゲートは2レベルカプラを用いて複数のキャビティを結合することにより実現される。 ここのカプラーは超伝導量子ビットです。 このスキームは、ゲート実装が操作の \textit{one step} だけを必要とするため、単純である。 さらに、このスキームは、それぞれのフォトニック量子ビットの2つの論理状態が真空状態と任意の非真空状態(例えば、フォック状態、フォック状態の重ね合わせ、猫状態、またはコヒーレント状態など)で符号化され、真空状態と直交または準直交するので、非常に一般的なものである。 このスキームにはいくつかの利点がある:カプラの2つのレベルのみを使用する、すなわち、補助的なレベルを使わない、カプラのより高いエネルギーレベルからの一貫性を避ける、ゲート操作時間はキュービット数に依存しない、ゲートは計測が適用されないため決定論的に実装される。 一例として、真空状態と猫状態によって符号化されたフォトニック量子ビットを持つ3量子MPPゲートの実装による回路QEDに基づく実験可能性について数値解析する。 このスキームは、自然原子や人工原子のような2レベル結合器に結合された複数のマイクロ波または光学キャビティからなる、幅広い物理システムにおいて同じタスクを達成するために適用することができる。

We propose an efficient scheme to implement a multiplex-controlled phase gate with multiple photonic qubits simultaneously controlling one target photonic qubit based on circuit quantum electrodynamics (QED). For convenience, we denote this multiqubit gate as MCP gate. The gate is realized by using a two-level coupler to couple multiple cavities. The coupler here is a superconducting qubit. This scheme is simple because the gate implementation requires only \textit{one step} of operation. In addition, this scheme is quite general because the two logic states of each photonic qubit can be encoded with a vacuum state and an arbitrary non-vacuum state (e.g., a Fock state, a superposition of Fock states, a cat state, or a coherent state, etc.) which is orthogonal or quasi-orthogonal to the vacuum state. The scheme has some additional advantages: Because only two levels of the coupler are used, i.e., no auxiliary levels are utilized, decoherence from higher energy levels of the coupler is avoided; the gate operation time does not depend on the number of qubits; and the gate is implemented deterministically because no measurement is applied. As an example, we numerically analyze the circuit-QED based experimental feasibility of implementing a three-qubit MCP gate with photonic qubits each encoded via a vacuum state and a cat state. The scheme can be applied to accomplish the same task in a wide range of physical system, which consists of multiple microwave or optical cavities coupled to a two-level coupler such as a natural or artificial atom.
翻訳日:2023-02-17 21:28:55 公開日:2022-04-08
# 双局所シナリオにおけるテンソル化状態の非古典的相関の特徴付け

Characterizing nonclassical correlations of tensorizing states in a bilocal scenario ( http://arxiv.org/abs/2204.04048v1 )

ライセンス: Link先を確認
S. Bhuvaneswari, R. Muthuganesan and R. Radha(参考訳) 本稿では,「テンソル化状態は量子的な利点を持つか?」という問題に対処しようとする。 この疑問に答えるために、測定誘起非局所性(MIN)の概念を利用し、局所不変フォン・ノイマン射影測定によるテンソル化状態の非局所効果を捉えるために忠実に基づく非局所測度を提唱する。 忠実性に基づく非双局所測度の性質はminの特性から得られることを示す。 解析的に、任意の純粋状態に対する非局所測度を評価する。 忠実性に基づく非双局所測度の上界も相関行列の固有値によって得られる。 実例として、一般的な入力状態の非双局所性を計算した。

In the present paper, we attempt to address the question of "can tensorizing states have quantum advantages?". To answer this question, we exploit the notion of measurement-induced nonlocality (MIN) and advocate a fidelity based nonbilocal measure to capture the nonlocal effects of tensorizing states due to locally invariant von Neumann projective measurements. We show that the properties of the fidelity based nonbilocal measure are retrieved from that of MIN. Analytically, we evaluate the nonbilocal measure for any arbitrary pure state. The upper bounds of the nonbilocal measure based on fidelity are also obtained in terms of eigenvalues of correlation matrix. As an illustration, we have computed the nonbilocality for some popular input states.
翻訳日:2023-02-17 21:27:41 公開日:2022-04-08
# 量子基底状態振幅の複素位相の光制御

Optical control of the complex phase of a quantum ground state amplitude ( http://arxiv.org/abs/2204.04007v1 )

ライセンス: Link先を確認
Adam Kinos and Mogens Dalgaard and Klaus M{\o}lmer(参考訳) 2レベル量子系のコヒーレントな駆動が基底状態の複雑な位相を誘導する方法について論じ,その幾何学的および動的寄与について論じる。 波動関数の大域的な位相は物理的に意味を持たないが、二段階部分空間におけるコヒーレントダイナミクスは相対位相を提供し、より大きな系におけるより高度なダイナミクスにとって必須の構成要素である。 この点において、位相ダイナミクスの直感的な説明は、適用された相互作用図に依存するため注意が必要である。 実用解析におけるあいまいさを軽減するため,複素平面の基底状態振幅による経路とブロッホ球像を補完することを提案するとともに,三段ラムダ系,四段三脚系,開量子系で探索された力学の研究の出発点として,二段純状態ダイナミクスがいかに機能するかを示す。

We discuss how coherent driving of a two-level quantum system can be used to induce a complex phase on the ground state and we discuss its geometric and dynamic contributions. While the global phase of a wave function has no physical significance, coherent dynamics in a two-level subspace provides relative phases and is an essential building block for more advanced dynamics in larger systems. In this regard, we note that one must be careful with intuitive accounts of the phase dynamics as it depends on the interaction picture applied. To mitigate ambiguities in practical analyses, we suggest to complement the Bloch sphere picture with the path taken by the ground state amplitude in the complex plane, and we show how the two-level pure state dynamics can serve as a starting point for the study of the dynamics explored in three-level lambda systems, four-level tripod systems, and open quantum systems.
翻訳日:2023-02-17 21:27:24 公開日:2022-04-08
# 相対論的量子化学のための完全2成分ハミルトニアン:2電子画像変化補正をシンプルに

Exact two-component Hamiltonians for relativistic quantum chemistry: Two-electron picture-change corrections made simple ( http://arxiv.org/abs/2204.03977v1 )

ライセンス: Link先を確認
Stefan Knecht, Michal Repisky, Hans J{\o}rgen Aagaard Jensen, Trond Saue(参考訳) 自己整合性場 (SCF) 原子平均場 (amf) 量に基づいて, 正確に2成分(X2C)ハミルトニアンフレームワーク内で生じるスカラー相対論的なスピン軌道2電子画像変化効果 (PCE) を補正する, 単純で, 計算効率が良く, 数値的に正確な行列代数的手法を提案する。 amfX2C と e(xtended)amfX2C という2つのアプローチは、平均場モデルに対して PCE 補正を一意に調整できる。 後者の場合、Hartree-Fock または Kohn-Sham DFT は、交換相関PCE 補正のポイントワイドな計算も不要である。 我々は、これらのPCE補正モデルの、群18(閉殻)と群16(開殻)の二原子分子のスピノルエネルギーに対する数値性能を評価し、一貫した$\approx\! 10^{-5}$ hartree 参照4成分データに対する精度。 その他の試験としては、フッ化コペルニシウム化合物(CnF$_{n}$, n=2,4,6)の絶対接触密度や接触密度シフトなどの分子特性のSCF計算、および5d$および6d$のX線コアイオン化エネルギーの運動連成クラスター計算があり、参照データとの良好な一致が観察されている。 結論として、我々の(e)amfX2C PCE補正モデルは、その計算コストのごく一部で親4成分の精度を維持しながら、普遍的で信頼性の高い2成分量子化学アプローチに向けた基本的なマイルストーンであると確信している。

Based on self-consistent field (SCF) atomic mean-field (amf) quantities, we present two simple, yet computationally efficient and numerically accurate matrix-algebraic approaches to correct both scalar-relativistic \textit{and} spin-orbit two-electron picture-change effects (PCE) arising within an exact two-component (X2C) Hamiltonian framework. Both approaches, dubbed amfX2C and e(xtended)amfX2C, allow us to uniquely tailor PCE corrections to mean-field models, $viz.$ Hartree-Fock or Kohn-Sham DFT, in the latter case also avoiding the need of a point-wise calculation of exchange-correlation PCE corrections. We assess the numerical performance of these PCE correction models on spinor energies of group-18 (closed-shell) and group-16 (open-shell) diatomic molecules, achieving a consistent $\approx\!10^{-5}$ Hartree accuracy compared to reference four-component data. Additional tests include SCF calculations of molecular properties such as absolute contact density and contact density shifts in copernicium fluoride compounds (CnF$_{n}$, n=2,4,6), as well as equation-of-motion coupled cluster calculations of X-ray core ionization energies of $5d$ and $6d$-containing molecules, where we observe an excellent agreement with reference data. To conclude, we are confident that our (e)amfX2C PCE correction models constitute a fundamental milestone towards a universal and reliable relativistic two-component quantum chemical approach, maintaining the accuracy of the parent four-component one at a fraction of its computational cost.
翻訳日:2023-02-17 21:26:57 公開日:2022-04-08
# 2つの不連結区間に対する絡み合いハミルトニアンの局所的および非局所的性質

Local and non-local properties of the entanglement Hamiltonian for two disjoint intervals ( http://arxiv.org/abs/2204.03966v1 )

ライセンス: Link先を確認
Viktor Eisler, Erik Tonni, Ingo Peschel(参考訳) 基底状態における自由フェルミオン鎖と2つの分離区間からなるサブシステムに対する絡み合いハミルトニアンを考える。 この場合、有名で支配的な短距離ホッピングに加えて、間隔の間に特異な長距離ホッピングがある。 一般充足や任意の間隔で格子結果から連続表現を復元する方法を示す。 また、半無限鎖の終端から一定の距離に位置する単区間と、この問題に対する連続体極限との密接な関係について論じる。 最後に、連続体の二重区間に対して固有状態を見つけるために使用できる可換作用素が存在することを示す。

We consider free-fermion chains in the ground state and the entanglement Hamiltonian for a subsystem consisting of two separated intervals. In this case, one has a peculiar long-range hopping between the intervals in addition to the well-known and dominant short-range hopping. We show how the continuum expressions can be recovered from the lattice results for general filling and arbitrary intervals. We also discuss the closely related case of a single interval located at a certain distance from the end of a semi-infinite chain and the continuum limit for this problem. Finally, we show that for the double interval in the continuum a commuting operator exists which can be used to find the eigenstates.
翻訳日:2023-02-17 21:26:16 公開日:2022-04-08
# キャビティフォトン統計による原子の絡み合いの直接測定

Direct measurement of atomic entanglement via cavity photon statistics ( http://arxiv.org/abs/2204.03891v1 )

ライセンス: Link先を確認
Nilakantha Meher, M. Bhattacharya, Anand K. Jha(参考訳) 2つの2レベル原子間の絡み合い測定のための実験手法を提案する。 本手法では, 2つの絡み合った原子のうちの1つをキャビティ場と分散的に相互作用させる必要があり, キャビティ場のゼロ時間分解2次コヒーレンス関数を測定すれば, 任意のベル様原子2量子ビット状態の共起を測定できることを示す。 我々のスキームは測定された空洞と相互作用する原子の1つしか必要としないので、絡み合いの量子化は他の原子の位置とは独立になる。 したがって、このスキームは分散量子システムにおける絡み合い量子化に重要な意味を持つ。

We propose an experimental scheme for the measurement of entanglement between two two-level atoms. Our scheme requires one of the two entangled atoms to interact with a cavity field dispersively, and we show that by measuring the zero time-delay second-order coherence function of the cavity field, one can measure the concurrence of an arbitrary Bell-like atomic two-qubit state. As our scheme requires only one of the atoms to interact with the measured cavity, the entanglement quantification becomes independent of the location of the other atom. Therefore, our scheme can have important implications for entanglement quantification in distributed quantum systems.
翻訳日:2023-02-17 21:26:05 公開日:2022-04-08
# テレポーテーションによる量子ルーティング

Quantum Routing with Teleportation ( http://arxiv.org/abs/2204.04185v1 )

ライセンス: Link先を確認
Dhruv Devulapalli, Eddie Schoute, Aniruddha Bapat, Andrew M. Childs, Alexey V. Gorshkov(参考訳) 量子系における相互作用制約下での量子ビットの任意の置換を任意に行うことで、高速な局所演算と古典的通信(LOCC)が可能な問題について検討する。 特に,スワップベースおよびより一般的なユニタリルーティング手法における,エンタングルメント分散とloccを用いた量子テレポーテーションの高速化例を示す。 さらに,通信通信がスワップベースのルーティングよりも最悪のルーティング時間で対数的に高速化する相互作用グラフの例を述べる。 また、量子テレポーテーションによって与えられるスピードアップの限界についても研究し、任意の相互作用グラフのルーティング時間の分離において、$o(\sqrt{n \log n})$上限を示し、いくつかの一般的なグラフのクラスに対してより厳密な境界を与える。

We study the problem of implementing arbitrary permutations of qubits under interaction constraints in quantum systems that allow for arbitrarily fast local operations and classical communication (LOCC). In particular, we show examples of speedups over swap-based and more general unitary routing methods by distributing entanglement and using LOCC to perform quantum teleportation. We further describe an example of an interaction graph for which teleportation gives a logarithmic speedup in the worst-case routing time over swap-based routing. We also study limits on the speedup afforded by quantum teleportation - showing an $O(\sqrt{N \log N})$ upper bound on the separation in routing time for any interaction graph - and give tighter bounds for some common classes of graphs.
翻訳日:2023-02-17 21:18:43 公開日:2022-04-08
# 準周期結晶における第2および第3高調波発生による軌道角運動量スペクトルの非線形操作

Nonlinear manipulation of orbital angular momentum spectra with second- and third- harmonic generation in a quasi-periodically poled crystal ( http://arxiv.org/abs/2204.04175v1 )

ライセンス: Link先を確認
Yu-Xiang Yang, Bo-Wen Dong, Zhi-Cheng Ren, Hao Li, Yan-Chao Lou, Zi-Mo Cheng, Zhi-Feng Liu, Jianping Ding, Xi-Lin Wang, Hui-Tian Wang(参考訳) 光学軌道角運動量(OAM)は、光の自由度として、自然の離散無限次元の本質的な特徴のために広く注目を集めている。 OAMスペクトルの操作は、古典から量子領域、特にOAMスペクトルの非線形操作に至るまで、多くの印象的な応用にとって重要である。 そこで本研究では,準周期分極したチタニルリン酸カリウムの1つの非線形結晶における第2および第3高調波の同時発生によるoamスペクトルの非線形操作を,oamスペクトルの異なる基本波,特に第2及び第3高調波のカスタマイズoamスペクトルに対して実現している。 実験結果は理論的な予測を裏付けた。 我々のアプローチは、直接生成が難しい新しい短波長のOAMスペクトルを操作する新しい方法を提供するだけでなく、古典光学における多重化や量子光学における高次元情報処理への新たな応用も見出すことができる。

Optical orbital angular momentum (OAM), as an important degree of freedom of light, has been attracted extensive attention, due to its intrinsic feature of natural discrete infinite dimension. Manipulation of OAM spectra is crucial for many impressive applications from classical to quantum realms, in particular, nonlinear manipulation of OAM spectra. Here we realized the nonlinear manipulation of OAM spectra by using the simultaneous second- and third-harmonic generation in a single nonlinear crystal of quasi-periodically poled potassium titanyl phosphate, for fundamental waves with a variety of OAM spectra, especially for customized OAM spectra of the second and third harmonics. The experimental results confirmed the theoretical predictions. Our approach not only provides a novel way to manipulate OAM spectra at new shorter wavelengths that are hard to be directly generated, but also may find new applications towards multiplexing in classical optics and high-dimensional information processing in quantum optics.
翻訳日:2023-02-17 21:18:16 公開日:2022-04-08
# 準周期分極結晶における空間構造光の第3高調波発生

Third-harmonic generation of spatially structured light in a quasi-periodically poled crystal ( http://arxiv.org/abs/2204.04173v1 )

ライセンス: Link先を確認
Yan-Chao Lou, Zi-Mo Cheng, Yu-Xiang Yang, Zhi-Cheng Ren, Jianping Ding, Xi-Lin Wang, Hui-Tian Wang(参考訳) 光渦やベクトル場を含む空間構造光の非線形光学過程は、多くの興味深い物理的効果を刺激し、光学イメージングから量子情報処理まで、様々な重要な応用を見出した。 しかし、空間変動分極状態を持つベクトル光学場の高調波発生は依然として課題である。 ここでは、ベクトル光学場を含む空間構造光の第3高調波発生を、慎重に設計された準周期性チタン酸カリウムを含む非線形サニャック干渉計で初めて示す。 実験結果は理論的な予測とよく一致している。 その結果、新しい波長で空間的に構成された光や光子を操作することができ、より高い軌道角運動量が得られる。 我々のアプローチは、光スカイミオンの研究に潜在的に有効であり、量子通信と計算のために空間的に構造化された絡み合った光子を生成する新しい機会を開く可能性がある。

Nonlinear optical processes of spatially structured light, including optical vortex and vector optical fields, have stimulated a lot of interesting physical effects and found a variety of important applications ranging from optical imaging to quantum information processing. However, high harmonic generation of vector optical fields with space-varying polarization states is still a challenge. Here we demonstrate third harmonic generation of spatially structured light including vector optical fields, in a nonlinear Sagnac interferometer containing a carefully designed quasi-periodically poled potassium titanyl phosphate for the first time. The experimental results are in good agreement with the theoretical predictions. Our results will enable to manipulate spatially structured light or photons at new wavelengths and carrying higher orbital angular momentum. Our approach has the potential applications for the research of optical skyrmions and may open up new opportunities to produce spatially structured entangled photons for quantum communication and computation.
翻訳日:2023-02-17 21:17:56 公開日:2022-04-08
# 動的多目的ベンチマーク問題に対する再現性とベースライン報告

Reproducibility and Baseline Reporting for Dynamic Multi-objective Benchmark Problems ( http://arxiv.org/abs/2204.04140v1 )

ライセンス: Link先を確認
Daniel Herring, Michael Kirley, Xin Yao(参考訳) 動的多目的最適化問題(DMOP)は、目的関数や制約の時間依存的な性質のため、定常的な問題よりも困難であることが広く受け入れられている。 dmopsのための目的構築アルゴリズムの評価は、変化の大きさや頻度の異なる動的インスタンスの狭い選択や、問題の選択においてしばしば行われる。 本稿では,DMOPのパラメータに対するシミュレーション実験の再現性に着目した。 我々のフレームワークはPlatEMOの拡張に基づいており、様々な動的設定や問題にまたがって結果とパフォーマンスの測定を再現することができる。 動的アルゴリズム評価のためのベースラインスキーマを導入し、DMOPに特化して設計されていないよく知られた進化的アルゴリズムのパフォーマンスと最適化の振る舞いを問うメカニズムを提供する。 重要なことに、非動的多目的進化アルゴリズムの最大能力を決定することによって、目的に構築された動的アルゴリズムの最小能力を確立することができる。 動的変化を管理する最も単純な修正は多様性をもたらす。 変更イベント後に変更/ランダムなソリューションを組み込む非動的アルゴリズムが、マイナーなアルゴリズム修正によって可能となる改善を決定する。 現在の動的アルゴリズムを含む将来の拡張は、結果の再現とDMOPベンチマーク空間におけるその能力と性能の検証を可能にする。

Dynamic multi-objective optimization problems (DMOPs) are widely accepted to be more challenging than stationary problems due to the time-dependent nature of the objective functions and/or constraints. Evaluation of purpose-built algorithms for DMOPs is often performed on narrow selections of dynamic instances with differing change magnitude and frequency or a limited selection of problems. In this paper, we focus on the reproducibility of simulation experiments for parameters of DMOPs. Our framework is based on an extension of PlatEMO, allowing for the reproduction of results and performance measurements across a range of dynamic settings and problems. A baseline schema for dynamic algorithm evaluation is introduced, which provides a mechanism to interrogate performance and optimization behaviours of well-known evolutionary algorithms that were not designed specifically for DMOPs. Importantly, by determining the maximum capability of non-dynamic multi-objective evolutionary algorithms, we can establish the minimum capability required of purpose-built dynamic algorithms to be useful. The simplest modifications to manage dynamic changes introduce diversity. Allowing non-dynamic algorithms to incorporate mutated/random solutions after change events determines the improvement possible with minor algorithm modifications. Future expansion to include current dynamic algorithms will enable reproduction of their results and verification of their abilities and performance across DMOP benchmark space.
翻訳日:2023-02-17 21:17:25 公開日:2022-04-08
# 円偏光パルス下におけるスピンダイナミクスのフロケ理論

Floquet theory of spin dynamics under circularly polarized light pulses ( http://arxiv.org/abs/2204.04130v1 )

ライセンス: Link先を確認
O. V. Kibis(参考訳) 周期駆動量子系のフロッケ理論において、円偏波電磁界のパルス下での非線形単スピンダイナミクスを解析する。 まず、磁場がスピン縮退率を持ち上げ、次いで、磁場誘起スピン分裂は、スピッティング周波数における光子放出を伴うことが示される。 この2段階の過程は、特に円偏光場の角運動量に沿ったスピンの偏光につながる。 その結果、パルス誘起磁化が出現し、最先端の計測で観察することができる。

Within the Floquet theory of periodically driven quantum systems, the nonlinear single-spin dynamics under pulse of a circularly polarized electromagnetic field is analyzed. It is demonstrated that the field, first, lifts the spin degeneracy and, second, the field-induced spin splitting is accompanied by the photon emission at the spitting frequency. This two-stage process leads, particularly, to the polarization of spins along angular momentum of the circularly polarized field. As a result, the pulse-induced magnetization appears, what can be observed in state-of the-art measurements.
翻訳日:2023-02-17 21:17:06 公開日:2022-04-08
# 導波路結合原子の集団励起と崩壊:時間的ディッケ状態から逆アンサンブルへ

Collective excitation and decay of waveguide-coupled atoms: from timed Dicke states to inverted ensembles ( http://arxiv.org/abs/2204.04106v1 )

ライセンス: Link先を確認
Christian Liedl, Sebastian Pucher, Felix Tebbenjohanns, Philipp Schneeweiss and Arno Rauschenbeutel(参考訳) 原子の集合による光の集合吸収と放出は多くの基本的な量子光学効果の中心であり、多くの応用の基礎となっている。 しかし、弱い励起を超えると、実験と理論の両方がますます困難になる。 ここでは,光ナノファイバーを取り囲むエバネッセント場を用いて,最大1000個の原子のアンサンブルを用いて,弱い励起から逆転までの機構を探索する。 我々は、原子の約80%が励起され、強い反転を実現し、その後続の放射崩壊を誘導モードに研究した。 データは、誘導光と原子のカスケード相互作用を仮定した単純なモデルによって非常によく説明されている。 本研究は, 量子メモリから非古典的光源, 光周波数標準に至るまで, 光と物質の集合的相互作用の基本的な理解に寄与する。

The collective absorption and emission of light by an ensemble of atoms is at the heart of many fundamental quantum optical effects and the basis for numerous applications. However, beyond weak excitation, both experiment and theory become increasingly challenging. Here, we explore the regimes from weak excitation to inversion with ensembles of up to one thousand atoms that are trapped and optically interfaced using the evanescent field surrounding an optical nanofiber. We realize strong inversion, with about 80% of the atoms being excited, and study their subsequent radiative decay into the guided modes. The data is very well described by a simple model that assumes a cascaded interaction of the guided light with the atoms. Our results contribute to the fundamental understanding of the collective interaction of light and matter and are relevant for applications ranging from quantum memories to sources of nonclassical light to optical frequency standards.
翻訳日:2023-02-17 21:16:59 公開日:2022-04-08
# 動的モード分解によるSwarmモデリング

Swarm Modelling with Dynamic Mode Decomposition ( http://arxiv.org/abs/2204.06335v1 )

ライセンス: Link先を確認
Emma Hansen, Steven L. Brunton, Zhuoyuan Song(参考訳) 生物学的または工学的な群れのモデリングは、しばしば低次元の創発的ダイナミクスにもかかわらず、本質的に高次元のシステムのため困難である。 ほとんどの既存のSwarmモデリングアプローチは第一原理に基づいており、多くの場合、幅広いアプリケーションに一般化しないSwarm固有のパラメータ化をもたらす。 本研究では,(1)観測データを通して均質群群の局所的相互作用を学習し,(2)学習モデルを用いて同様のスワーミング行動を生成するために,純粋データ駆動手法を適用した。 特に、swarmdmdと呼ばれる制御付き動的モード分解の修正バージョンが、標準のvicsek swarmモデル上で開発され、テストされている。 目標は、SwarmDMDを使用して観察されたSwarm動作を引き起こすエージェント間相互作用を学習することである。 SwarmDMDはSwarmのダイナミクスを忠実に再構築できることを示し、SwarmDMDが学習したモデルは、予測精度と予測水平線のトレードオフを伴うデータ外挿のための短い予測窓を提供する。 また,モデル上で異なる観測データ型の有効性に関する包括的分析を行い,エージェント間距離が最も正確なモデルとなることを見出した。 提案手法は, 生物学, 物理学, 工学におけるマルチエージェントシステムの研究に有用であると考えられる。

Modelling biological or engineering swarms is challenging due to the inherently high dimension of the system, despite the often low-dimensional emergent dynamics. Most existing swarm modelling approaches are based on first principles and often result in swarm-specific parameterizations that do not generalize to a broad range of applications. In this work, we apply a purely data-driven method to (1) learn local interactions of homogeneous swarms through observation data and to (2) generate similar swarming behaviour using the learned model. In particular, a modified version of dynamic mode decomposition with control, called swarmDMD, is developed and tested on the canonical Vicsek swarm model. The goal is to use swarmDMD to learn inter-agent interactions that give rise to the observed swarm behaviour. We show that swarmDMD can faithfully reconstruct the swarm dynamics, and the model learned by swarmDMD provides a short prediction window for data extrapolation with a trade-off between prediction accuracy and prediction horizon. We also provide a comprehensive analysis on the efficacy of different observation data types on the modelling, where we find that inter-agent distance yields the most accurate models. We believe the proposed swarmDMD approach will be useful for studying multi-agent systems found in biology, physics, and engineering.
翻訳日:2023-02-17 21:10:31 公開日:2022-04-08
# 高エネルギー物理学展開法による量子コンピュータ読み出しノイズの処理

Dealing with quantum computer readout noise through high energy physics unfolding methods ( http://arxiv.org/abs/2204.05757v1 )

ライセンス: Link先を確認
Imene Ouadah, Hacene Rabah Benaissa(参考訳) 量子コンピュータは、古典的なコンピュータにとって難解な問題を解く可能性があるが、高いエラー率を持つ。 重要なエラーのひとつにReadout Errorsがある。 行列反転や最小二乗法のような現在の手法は(正しい)読み出し誤差を解き放つために使われる。 しかし、これらの手法は振動行動や非物理的結果といった多くの問題を引き起こす。 2020年、Benjamin Nachmanらは、現在HEPで使われている検出器効果を補正する手法を提案した。 この手法はIBU(Iterative Bayesian Unfolding)として知られており、読み出し誤りを軽減し、上記の手法の問題を回避している。 したがって,本論文の主な目的は,この強力な展開法を用いて,量子コンピュータの読み出しノイズを軽減することである。 この目的のためにヨークタウンのIBM Q Machine(5Qubits)に一様分布を生成し、ノイズによって歪んだ後、IBUによってそれを展開した。 次に、同じ実験をガウス分布で繰り返した。 非常に良好な結果が得られ、B. Nachmanらと一致した。 その後、我々はより大きな量子ビットシステムでの展開を探り、メルボルンIBM Qマシンのノイズによって歪んだ7 Qubitsの均一分布の展開に成功した。 この場合、IBU法は他の手法よりもはるかに優れた結果を示した。

Quantum computers have the potential to solve problems that are intractable to classical computers, nevertheless they have high error rates. One significant kind of errors is known as Readout Errors. Current methods, as the matrix inversion and least-squares, are used to unfold (correct) readout errors. But these methods present many problems like oscillatory behavior and unphysical outcomes. In 2020 Benjamin Nachman et al. suggested a technique currently used in HEP, to correct detector effects. This method is known as the Iterative Bayesian Unfolding (IBU), and they have proven its effectiveness in mitigating readout errors, avoiding problems of the mentioned methods. Therefore, the main objective of our thesis is to mitigate readout noise of quantum computers, using this powerful unfolding method. For this purpose we generated a uniform distribution in the Yorktown IBM Q Machine, for 5 Qubits, in order to unfold it by IBU after being distorted by noise. Then we repeated the same experiment with a Gaussian distribution. Very satisfactory results and consistent with those of B. Nachman et al., were obtained. After that, we took a second purpose to explore unfolding in a larger qubit system, where we succeed to unfold a uniform distribution for 7 Qubits, distorted by noise from the Melbourne IBM Q Machine. In this case, the IBU method showed much better results than other techniques.
翻訳日:2023-02-17 21:10:09 公開日:2022-04-08
# ランダム行列:量子パラドックスへの応用

Random matrices: Application to quantum paradoxes ( http://arxiv.org/abs/2204.05750v1 )

ライセンス: Link先を確認
Alexey A. Kryukov(参考訳) 近年,n粒子系の古典的空間と古典的位相空間をシステムの状態空間に幾何的に埋め込む手法が構築され,物理的に有意義であることが示されている。 すなわち、粒子のニュートン力学は、系の状態を状態空間の古典位相空間部分多様体に制限することでシュレーディンガー力学から回復した。 ランダムなハミルトニアンによる埋め込みとシュレーディンガー進化に関連する一連の定理が証明され、古典力学や量子力学における測定のプロセスに適用できることが示されている。 これらの結果は、量子力学の主要な実験とパラドックスを新たに観察し、量子力学におけるマクロ物体の崩壊過程と運動に関する新たな洞察を与えるために適用される。

Recently, a geometric embedding of the classical space and classical phase space of an n-particle system into the space of states of the system was constructed and shown to be physically meaningful. Namely, the Newtonian dynamics of the particles was recovered from the Schroedinger dynamics by constraining the state of the system to the classical phase space submanifold of the space of states. A series of theorems related to the embedding and the Schroedinger evolution with a random Hamiltonian was proven and shown to be applicable to the process of measurement in classical and quantum mechanics. Here, these results are applied to have a fresh look at the main quantum-mechanical thought experiments and paradoxes and to provide a new insight into the process of collapse and the motion of macroscopic bodies in quantum mechanics.
翻訳日:2023-02-17 21:09:48 公開日:2022-04-08
# コメント:空媒質を持つ線形三重量子ドットにおける超交換の普遍制御

A comment on: Universal control of superexchange in linear triple quantum dots with an empty mediator ( http://arxiv.org/abs/2204.04300v1 )

ライセンス: Link先を確認
Marko J. Ran\v{c}i\'c(参考訳) 最近の arXiv:2203.15521 G. X. Chan, P. Huang, and X. Wang では、(1, 0, 1) 電荷配置における三量子ドットの超交換は、中点分解の関数としての符号(正から負への)の変化を示すと主張している。 さらに、彼らの主張は、ドット間デチューニングの特定の値に対して電荷の甘い点が存在することである。 その分析は、Hubbardモデルと、それらが完全なConfiguration-Interactionメソッドと呼ぶものに基づいています。 これらの結果は、すでにM. J. Ran\v{c}i\'{c} と G. Burkard によって報告されている。 Phys v. b 96, 201304(r) (2017) ハバードモデルに基づく。 この写本は arXiv:2203.15521 に記載されていない。 私は著者たちに、事前印刷の修正を緊急に依頼し、以前実施した研究について、彼らの研究の位置を定めました。 受け入れられる前に プリプリントを 修正するのは彼らのスタイルじゃない これは、ある人物の非常によく似たスタイルとともに、科学界を意図的に誤解させ、他人の仕事やアイデアを自分達のものにしようと試みているという結論に繋がった。

In a recent preprint arXiv:2203.15521 G. X. Chan, P. Huang, and X. Wang claim that triple-quantum dot superexchange in a (1, 0, 1) charge configuration exhibits a change of sign (going from positive to negative) as a function of middle dot detuning. Furthermore, their claim is that charge sweet-spots exist for specific values of the inter-dot detuning. Their analysis is based on the Hubbard model and something to what they refer to as the full Configuration-Interaction method. All of this findings were already reported by M. J. Ran\v{c}i\'{c} and G. Burkard in Ref. Phys. Rev. B 96, 201304(R) (2017) based on the Hubbard model. No reference to this manuscript was made in Ref. arXiv:2203.15521. I have asked the authors to urgently modify the pre-print and position their work with respect to the previously conducted study - which they rejected to do at the current moment, quoting that pp. it is not their style to modify preprints before they were accepted. This alongside with a very similar style of some figures lead me to the conclusion that they are deliberately misleading the scientific community and trying to adopt other peoples work and ideas as their own.
翻訳日:2023-02-17 21:09:15 公開日:2022-04-08
# $n$-光子コヒーレント状態と$n$-光子圧縮コヒーレント状態の崩壊と回復

Collapse and revival of $n$-photon coherent states and $n$-photon squeezed coherent states ( http://arxiv.org/abs/2204.04271v1 )

ライセンス: Link先を確認
Moorad Alexanian(参考訳) 我々は、n$-photonコヒーレント状態とn$-photonクイズドコヒーレント状態のセットを導入し、それらの崩壊と復活を研究し、それらの挙動を対応する0-photonコヒーレント状態と0-photonクイズドコヒーレント状態の崩壊と復活と比較する。 n$-photon squeezed coherent state (n=0,1,2,\cdots$) の組は、光子のヒルベルト状態の基礎を形成し、何らかの興味を持つ。 我々は、n$-photon状態において、対応する0-photon状態と比較していくつかの余分な光子の存在が、それらの崩壊と復活の挙動に大きな違いがあることに気付く。 これは、崩壊と復活における対応する零光子状態と比較して、数個の余分な光子がn$-photon状態において大きな効果を示す。

We introduce the set of $n$-photon coherent states and the set of $n$-photon squeezed coherent states and study their collapse and revival and compare their behavior with the collapse and revival of the corresponding zero-photon coherent states and zero-photon squeezed coherent states, respectively. The set of $n$-photon squeezed coherent states ($n=0,1,2,\cdots$) forms a basis of the Hilbert state of photons and may be of some interest. We notice that the presence of a few extra photons in the $n$-photon states as compared to the corresponding zero-photon states makes a large difference in the behavior of their collapse and revival. This indicates the large effect that a few extra photons makes in the $n$-photon states as compared to the corresponding zero-photon states in their collapse and revival.
翻訳日:2023-02-17 21:08:28 公開日:2022-04-08
# Nikiforov-Uvarov-Functional Analysis (NUFA)法による選択二原子分子の研究へのエッカート・ヘルマンポテンシャルの応用

Application of Eckart-Hellmann potential to study selected diatomic molecules using Nikiforov-Uvarov-Functional Analysis (NUFA) method ( http://arxiv.org/abs/2204.04264v1 )

ライセンス: Link先を確認
E. P. Inyang, E. S. William, E. Omugbe, E. P. Inyang, E.A.Ibanga, F.Ayedun, I.O.Akpan and J.E.Ntibi(参考訳) エッカート・ヘルマンポテンシャル(EHP)エネルギー関数の下でのシュリンガー方程式のエネルギー準位は、Nikiforov-Uvarov-Functional Analysis (NUFA)法によって研究される。 グリーン・アルドリッヒ近似の助けを借りて,閉形式におけるエネルギースペクトルと波動関数の解析解を得た。 異なる量子状態における種々のスクリーニングパラメータの数値境界エネルギーとCuLi,TiH,VH,TiC二原子分子に対するEHPの振動エネルギーを計算した。 この可能性の特別な4つのケースが達成された。 結果の正確性をテストするために,他の研究者の報告とよく一致したヘルマンポテンシャルの境界状態エネルギー固有値を計算した。

The energy levels of the Schr\"odinger equation under the Eckart-Hellmann potential (EHP) energy function are studied by the Nikiforov-Uvarov-Functional Analysis (NUFA) method. We obtained the analytic solution of the energy spectra and the wave function in closed form with the help of Greene-Aldrich approximation. The numerical bound states energy for various screening parameters at different quantum states and vibrational energies of EHP for CuLi, TiH, VH, and TiC diatomic molecules were computed. Four particular cases of this potential were achieved. To test the accuracy of our results, we computed the bound states energy eigenvalues of Hellmann potential which are in excellent agreement with the report of other researchers.
翻訳日:2023-02-17 21:08:09 公開日:2022-04-08
# 量子ドット/スピン量子ビット

Quantum Dots / Spin Qubits ( http://arxiv.org/abs/2204.04261v1 )

ライセンス: Link先を確認
Shannon Harvey(参考訳) 半導体量子ドットのスピン量子ビットは、量子コンピュータを構築するための著名な固体量子ビット群を表している。 電子や穴が半導体の静電位に閉じ込められたときに形成され、量子化されたエネルギースペクトルを与える。 最も単純なスピン量子ビットは量子ドットにある単一の電子スピンであるが、多くの派生型が開発されており、いくつかは複数の量子ドットに複数のスピンを含み、それぞれ異なる利点と欠点がある。 これらのスピンは様々な点で単純な量子系として作用するが、半導体環境による複雑な効果も経験する。 それらはその構成によって磁場と電場の両方で制御でき、それゆえ磁場と電場ノイズによって脱相され、異なる種類のスピン量子ビットは異なる制御機構とノイズ感受性を持つ。 最初の実験は主にヒ化ガリウム(GaAs)基材料で行われたが、シリコンクビットは実質的に発展し、金属酸化物-半導体(Si-MOS)、シリコン/シリコンゲルマニウム(Si/SiGe)ヘテロ構造におけるクビットの研究も進められている。 単一量子ビットゲートの量子誤差補正と互換性の低い誤り率を達成するスピン量子ビット多様体の数が増えており、2量子ビットゲートは90-95%の成功率で実行されている。

Spin qubits in semiconductor quantum dots represent a prominent family of solid-state qubits in the effort to build a quantum computer. They are formed when electrons or holes are confined in a static potential well in a semiconductor, giving them a quantized energy spectrum. The simplest spin qubit is a single electron spin located in a quantum dot, but many additional varieties have been developed, some containing multiple spins in multiple quantum dots, each of which has different benefits and drawbacks. While these spins act as simple quantum systems in many ways, they also experience complex effects due to their semiconductor environment. They can be controlled by both magnetic and electric fields depending on their configuration and are therefore dephased by magnetic and electric field noise, with different types of spin qubits having different control mechanisms and noise susceptibilities. While initial experiments were primarily performed in gallium arsenide (GaAs) based materials, silicon qubits have developed substantially and research on qubits in metal-oxide-semiconductor (Si-MOS), silicon/silicon germanium (Si/SiGe) heterostructures, and donors in silicon is also being pursued. An increasing number of spin qubit varieties have attained error rates that are low enough to be compatible with quantum error correction for single-qubit gates and two-qubit gates have been performed in several with success rates, or fidelities, of 90-95%.
翻訳日:2023-02-17 21:07:56 公開日:2022-04-08
# 妥協せずに強結合システムにアクセスする

Accessing strongly-coupled systems without compromising them ( http://arxiv.org/abs/2204.04212v1 )

ライセンス: Link先を確認
Xiangjin Kong, Carlos Navarrete-Benlloch, and Yue Chang(参考訳) 過去数十年間、量子コヒーレント効果が散逸や熱化といった非コヒーレントな過程に支配されるいわゆる強結合状態に達する実験プラットフォームが爆発的に出現してきた。 これにより、非常に非自明な量子状態を作り、超直観的な量子力学的効果を量子物理学の創始者の最も野心的な期待を超えてテストすることができる。 大規模な分離の必要性は、システムに制御や監視目的でアクセスすることを困難にします。 本研究では,強結合効果を損なうことなく,設計環境を介してシステムにアクセスする方法を提案する。 原理の証明として、非線形共振器に存在する光子遮断効果にアプローチを適用するが、このメカニズムは極めて普遍的であると論じる。 また, 必要となる非慣習環境を実装可能な超伝導回路に基づくアーキテクチャを提案し, アイデアの実験解析への道を開く。

The last decades have seen a burst of experimental platforms reaching the so-called strong-coupling regime, where quantum coherent effects dominate over incoherent processes such as dissipation and thermalization. This has allowed us to create highly nontrivial quantum states and put counterintuitive quantum-mechanical effects to test beyond the wildest expectations of the founding fathers of quantum physics. The strong-coupling regime comes with certain challenges though: the need for a large isolation makes it difficult to access the system for control or monitoring purposes. In this work we propose a way to access such systems through an engineered environment that does not compromise their strong-coupling effects. As a proof of principle, we apply the approach to the photon-blockade effect present in nonlinear resonators, but argue that the mechanism is quite universal. We also propose an architecture based on superconducting circuits where the required unconventional environment can be implemented, opening the way to the experimental analysis of our ideas.
翻訳日:2023-02-17 21:07:33 公開日:2022-04-08
# 知的チュータシステムにおける行動予測のための影響伝達学習の活用

Leveraging Affect Transfer Learning for Behavior Prediction in an Intelligent Tutoring System ( http://arxiv.org/abs/2002.05242v2 )

ライセンス: Link先を確認
Nataniel Ruiz, Hao Yu, Danielle A. Allessio, Mona Jalal, Ajjen Joshi, Thomas Murray, John J. Magee, Jacob R. Whitehill, Vitaly Ablavsky, Ivon Arroyo, Beverly P. Woolf, Stan Sclaroff, Margrit Betke(参考訳) 本研究では,知的チューリングシステム(ITS)で作業している学生の問題点を予測するための,ビデオによるトランスファー学習手法を提案する。 学生の顔やジェスチャーを解析することにより,映像フィードから生徒がsosで問題に答える結果を予測する。 私たちの研究は、このような結果を予測する能力によって、指導システムはヒントや励ましなどの介入を調整でき、最終的には生徒の学習を改善することができるという推論に動機づけられています。 2,749の課題を解決した68のセッションからなる、インテリジェントなオンライン算数チューターと学生の対話に関する大規模なラベル付きデータセットを収集した。 データセットはhttps://www.cs.bu.edu/faculty/betke/research/learning/で公開されている。 このデータセットを用いて,表情分析の課題として「野生の」画像のソース領域の表現をデザインし,学習した表現を授業環境における学生のウェブカメラ映像の領域における人間の行動予測の課題に移すことを課題とした。 我々は,この表現の可能性を解き明かす新たな顔情動表現と,ユーザ個人化トレーニングスキームを開発した。 数学問題を解く学生の映像シーケンスの時間構造をモデル化するリカレントニューラルネットワークの変種をいくつか設計した。 我々の最終モデルはATL-BP for Affect Transfer Learning for Behavior Predictionと呼ばれ、新しいデータセットの最先端手法に比べて50%の平均Fスコアが相対的に増加する。

In this work, we propose a video-based transfer learning approach for predicting problem outcomes of students working with an intelligent tutoring system (ITS). By analyzing a student's face and gestures, our method predicts the outcome of a student answering a problem in an ITS from a video feed. Our work is motivated by the reasoning that the ability to predict such outcomes enables tutoring systems to adjust interventions, such as hints and encouragement, and to ultimately yield improved student learning. We collected a large labeled dataset of student interactions with an intelligent online math tutor consisting of 68 sessions, where 54 individual students solved 2,749 problems. The dataset is public and available at https://www.cs.bu.edu/faculty/betke/research/learning/ . Working with this dataset, our transfer-learning challenge was to design a representation in the source domain of pictures obtained "in the wild" for the task of facial expression analysis, and transferring this learned representation to the task of human behavior prediction in the domain of webcam videos of students in a classroom environment. We developed a novel facial affect representation and a user-personalized training scheme that unlocks the potential of this representation. We designed several variants of a recurrent neural network that models the temporal structure of video sequences of students solving math problems. Our final model, named ATL-BP for Affect Transfer Learning for Behavior Prediction, achieves a relative increase in mean F-score of 50% over the state-of-the-art method on this new dataset.
翻訳日:2023-01-01 19:55:36 公開日:2022-04-08
# ゲノム研究の予測解析における高相関遺伝子処理

Handling highly correlated genes in prediction analysis of genomic studies ( http://arxiv.org/abs/2007.02455v4 )

ライセンス: Link先を確認
Li Xing, Songwan Joun, Kurt Mackay, Mary Lesperance, and Xuekui Zhang(参考訳) 背景:表現型を予測するために特徴遺伝子を選択することは、ゲノムデータを分析する典型的なタスクの1つである。 多くの汎用アルゴリズムが予測のために開発されたが、予測モデルで高度に相関した遺伝子を扱うことは、まだうまく対処されていない。 遺伝子間の高い相関は、多系統問題のような技術的な問題を導入し、信頼性の低い予測モデルをもたらす。 さらに、因果遺伝子(これらの変異体が表現型に実際の生物学的効果を持つ)が他の遺伝子と高い相関関係にある場合、ほとんどのアルゴリズムは、相関群から純粋にデータ駆動的に特徴遺伝子を選択する。 遺伝子間の相関構造は条件変化時に大きく変化するため、正しく選択されていない特徴遺伝子に基づく予測モデルは信頼できない。 そこで我々は,因果的生物学的シグナルを予測過程に保持し,より堅牢な予測モデルを構築することを目的としている。 方法: 高相関遺伝子をグループとして扱うグループ化アルゴリズムを提案し,その共通パターンを用いて特徴選択におけるグループの生物学的信号を表現する。 新たなグループ化アルゴリズムを既存の予測アルゴリズムに統合し,予測性能を向上させる。 提案手法には2つの利点がある。 まず、遺伝子群の共通パターンを用いることで、条件変化下での予測をより堅牢で信頼性の高いものにします。 第2に、相関遺伝子群全体を予測タスクの発見バイオマーカーとして報告し、研究者が同定されたグループ内の因果遺伝子を同定するための追跡研究を行うことを可能にした。 結果: 細胞表現型を模擬した実ベンチマークscRNA-seqデータセットを用いて, (1) 細胞表現型の予測と(2) 特徴遺伝子選択の両方において, 標準モデルよりも優れた性能を示す。

Background: Selecting feature genes to predict phenotypes is one of the typical tasks in analyzing genomics data. Though many general-purpose algorithms were developed for prediction, dealing with highly correlated genes in the prediction model is still not well addressed. High correlation among genes introduces technical problems, such as multi-collinearity issues, leading to unreliable prediction models. Furthermore, when a causal gene (whose variants have an actual biological effect on a phenotype) is highly correlated with other genes, most algorithms select the feature gene from the correlated group in a purely data-driven manner. Since the correlation structure among genes could change substantially when condition changes, the prediction model based on not correctly selected feature genes is unreliable. Therefore, we aim to keep the causal biological signal in the prediction process and build a more robust prediction model. Method: We propose a grouping algorithm, which treats highly correlated genes as a group and uses their common pattern to represent the group's biological signal in feature selection. Our novel grouping algorithm can be integrated into existing prediction algorithms to enhance their prediction performance. Our proposed grouping method has two advantages. First, using the gene group's common patterns makes the prediction more robust and reliable under condition change. Second, it reports whole correlated gene groups as discovered biomarkers for prediction tasks, allowing researchers to conduct follow-up studies to identify causal genes within the identified groups. Result: Using real benchmark scRNA-seq datasets with simulated cell phenotypes, we demonstrate our novel method significantly outperforms standard models in both (1) prediction of cell phenotypes and (2) feature gene selection.
翻訳日:2022-11-13 08:30:46 公開日:2022-04-08
# コンパクトグラフ表現のための重なり合う空間

Overlapping Spaces for Compact Graph Representations ( http://arxiv.org/abs/2007.02445v3 )

ライセンス: Link先を確認
Kirill Shevkunov and Liudmila Prokhorenkova(参考訳) グラフ、テキスト、画像などの構造化データを埋め込むために、様々な非自明な空間が人気を集めている。 球面および双曲空間に続いて、より一般的な積空間が提案されている。 しかし、製品空間の最適構成を求めることは資源集約的な手順であり、アイデアの実用性を減らすことができる。 製品空間の概念を一般化し,構成探索問題を持たない重複空間を導入する。 主なアイデアは、座標の部分集合を異なるタイプの空間(ユークリッド、双曲、球面)間で共有できるようにすることである。 その結果、パラメータ最適化は自動的に最適な構成を学習する。 さらに、重なり合う空間は、幾何学がより複雑であるため、よりコンパクトな表現を可能にする。 実験により、重なり合う空間はグラフ埋め込みタスクにおいて競合より優れていることを確認した。 本稿では,距離の保存を目的とした歪み設定と,相対的な順序を保存すべき位置のランク設定の両方について考察する。 提案手法は,この問題を効果的に解決し,両設定の競合よりも優れる。 また,現実的な情報検索タスクにおいて経験的解析を行い,DSSMに組み込んだ全空間を比較した。 この場合、提案した重なり合う空間は、構成調整なしでほぼ最適な結果が得られる。 これにより、大規模なアプリケーションで重要なトレーニング時間を短縮することができる。

Various non-trivial spaces are becoming popular for embedding structured data such as graphs, texts, or images. Following spherical and hyperbolic spaces, more general product spaces have been proposed. However, searching for the best configuration of product space is a resource-intensive procedure, which reduces the practical applicability of the idea. We generalize the concept of product space and introduce an overlapping space that does not have the configuration search problem. The main idea is to allow subsets of coordinates to be shared between spaces of different types (Euclidean, hyperbolic, spherical). As a result, parameter optimization automatically learns the optimal configuration. Additionally, overlapping spaces allow for more compact representations since their geometry is more complex. Our experiments confirm that overlapping spaces outperform the competitors in graph embedding tasks. Here, we consider both distortion setup, where the aim is to preserve distances, and ranking setup, where the relative order should be preserved. The proposed method effectively solves the problem and outperforms the competitors in both settings. We also perform an empirical analysis in a realistic information retrieval task, where we compare all spaces by incorporating them into DSSM. In this case, the proposed overlapping space consistently achieves nearly optimal results without any configuration tuning. This allows for reducing training time, which can be significant in large-scale applications.
翻訳日:2022-11-13 08:03:01 公開日:2022-04-08
# 高精度ThingTalk表現を用いたウィザード・オブ・オズのセマンティックパーザ

A Few-Shot Semantic Parser for Wizard-of-Oz Dialogues with the Precise ThingTalk Representation ( http://arxiv.org/abs/2009.07968v3 )

ライセンス: Link先を確認
Giovanni Campagna, Sina J. Semnani, Ryan Kearns, Lucas Jun Koba Sato, Silei Xu, Monica S. Lam(参考訳) Wizard-of-Oz(WOZ)会話のための効果的なセマンティックパーサーの構築の試みは、高品質で手動の注釈付きトレーニングセットを取得することの難しさに悩まされている。 状態マシンモデルから生成された対話は実生活会話の近似に乏しいため、対話合成のみに基づくアプローチは不十分である。 さらに,提案する対話状態表現はあいまいであり,効果的なエージェント構築に必要な精度を欠いている。 本稿では,WOZ会話における正確な対話状態を予測できる新しい対話表現とサンプル効率の手法を提案する。 我々はThingTalk表現を拡張して、エージェントが適切に応答する必要があるすべての情報をキャプチャした。 トレーニング戦略は,(1) 全対話空間をスパースにサンプリングするスショットデータと,(2)簡潔な状態ベース対話モデルによって生成された対話のサブセット空間をカバーする合成データを組み合わせる。 拡張されたThingTalk言語の完全性は、データ合成のトレーニングにも使用される完全に動作するエージェントで実証される。 我々はThingTalkにおけるMultiWOZ 2.1データセットの再注釈であるMultiWOZ 3.0における方法論の有効性を示す。 ThingTalkはテストターンの98%を表現でき、シミュレータはバリデーションセットの85%をエミュレートできる。 提案手法を用いて文脈意味パーサを訓練し,再注釈テストセット上で79%のターンバイターン精度を得る。

Previous attempts to build effective semantic parsers for Wizard-of-Oz (WOZ) conversations suffer from the difficulty in acquiring a high-quality, manually annotated training set. Approaches based only on dialogue synthesis are insufficient, as dialogues generated from state-machine based models are poor approximations of real-life conversations. Furthermore, previously proposed dialogue state representations are ambiguous and lack the precision necessary for building an effective agent. This paper proposes a new dialogue representation and a sample-efficient methodology that can predict precise dialogue states in WOZ conversations. We extended the ThingTalk representation to capture all information an agent needs to respond properly. Our training strategy is sample-efficient: we combine (1) fewshot data sparsely sampling the full dialogue space and (2) synthesized data covering a subset space of dialogues generated by a succinct state-based dialogue model. The completeness of the extended ThingTalk language is demonstrated with a fully operational agent, which is also used in training data synthesis. We demonstrate the effectiveness of our methodology on MultiWOZ 3.0, a reannotation of the MultiWOZ 2.1 dataset in ThingTalk. ThingTalk can represent 98% of the test turns, while the simulator can emulate 85% of the validation set. We train a contextual semantic parser using our strategy, and obtain 79% turn-by-turn exact match accuracy on the reannotated test set.
翻訳日:2022-10-18 00:04:21 公開日:2022-04-08
# 不確実なイベントデータに対するコンフォーマンスチェック

Conformance Checking over Uncertain Event Data ( http://arxiv.org/abs/2009.14452v3 )

ライセンス: Link先を確認
Marco Pegoraro, Merih Seran Uysal, Wil M.P. van der Aalst(参考訳) 企業や企業におけるプロセスとオペレーションのデジタル化に対する強い衝動は、情報システムにおける大量のプロセスデータの作成と自動記録をもたらしている。 これらはイベントログの形式で利用可能である。 プロセスマイニング技術は、プロセスモデルを自動的に発見し、イベントデータが所定のモデルに準拠しているかをチェックするなど、プロセス中心のデータ分析を可能にする。 本稿では,不確定なイベントログの既定設定を解析する。 このようなイベントログでは、不確実性は明示的に記録され、すなわち、イベントの時間、活動、ケースは不明確または不正確である。 本研究では,不確実なイベントログとモデルの分類を定義し,不確実性がプロセス発見や適合性チェックにもたらす課題を検討する。 最後に, 正規プロセスモデルに不確実なトレースをアライメントすることで, 適合性の上限と下限が得られることを示す。

The strong impulse to digitize processes and operations in companies and enterprises have resulted in the creation and automatic recording of an increasingly large amount of process data in information systems. These are made available in the form of event logs. Process mining techniques enable the process-centric analysis of data, including automatically discovering process models and checking if event data conform to a given model. In this paper, we analyze the previously unexplored setting of uncertain event logs. In such event logs uncertainty is recorded explicitly, i.e., the time, activity and case of an event may be unclear or imprecise. In this work, we define a taxonomy of uncertain event logs and models, and we examine the challenges that uncertainty poses on process discovery and conformance checking. Finally, we show how upper and lower bounds for conformance can be obtained by aligning an uncertain trace onto a regular process model.
翻訳日:2022-10-13 06:28:29 公開日:2022-04-08
# グラフ分類のためのグラフニューラルネットワークの2段階学習

Two-stage Training of Graph Neural Networks for Graph Classification ( http://arxiv.org/abs/2011.05097v4 )

ライセンス: Link先を確認
Manh Tuan Do, Noseong Park, Kijung Shin(参考訳) グラフニューラルネットワーク(GNN)は、グラフ上の機械学習分野において大きな注目を集めている。 ニューラルネットワークの成功に触発されて、ノード分類、グラフ分類、リンク予測など、さまざまなタスクを扱うために、GNNを訓練するための一連の研究が実施された。 本研究の課題はグラフ分類である。 いくつかのgnnモデルが提案され、このタスクで高い精度を示した。 しかし、通常の訓練方法がgnnモデルの能力を完全に実現できるかどうかが問題である。 本研究では,三重項損失に基づく2段階学習フレームワークを提案する。 最初の段階では、GNNは各グラフをユークリッド空間ベクトルにマッピングするように訓練され、同じクラスのグラフが近く、異なるクラスのグラフは遠くにマッピングされる。 ラベルに基づいてグラフが適切に分離されると、分類器は異なるクラスを区別するように訓練される。 この方法は、任意のGNNモデルと互換性があるという意味では一般的である。 提案手法に5つのGNNモデルを適応させることにより,12個のデータセットにおいて,各モデルの元のトレーニング手法に比べて,各GNNの割り当て能力の精度と利用率の整合性向上を示す。

Graph neural networks (GNNs) have received massive attention in the field of machine learning on graphs. Inspired by the success of neural networks, a line of research has been conducted to train GNNs to deal with various tasks, such as node classification, graph classification, and link prediction. In this work, our task of interest is graph classification. Several GNN models have been proposed and shown great accuracy in this task. However, the question is whether usual training methods fully realize the capacity of the GNN models. In this work, we propose a two-stage training framework based on triplet loss. In the first stage, GNN is trained to map each graph to a Euclidean-space vector so that graphs of the same class are close while those of different classes are mapped far apart. Once graphs are well-separated based on labels, a classifier is trained to distinguish between different classes. This method is generic in the sense that it is compatible with any GNN model. By adapting five GNN models to our method, we demonstrate the consistent improvement in accuracy and utilization of each GNN's allocated capacity over the original training method of each model up to 5.4\% points in 12 datasets.
翻訳日:2022-09-27 06:57:52 公開日:2022-04-08
# 課題は残っていない: 学生評価向上のための知識追跡とオプション追跡のマルチタスク学習

No Task Left Behind: Multi-Task Learning of Knowledge Tracing and Option Tracing for Better Student Assessment ( http://arxiv.org/abs/2204.14006v1 )

ライセンス: Link先を確認
Suyeong An, Junghoon Kim, Minsam Kim and Juneyoung Park(参考訳) 学生評価はAI教育(AIEd)分野における最も基本的な課題の1つである。 学生評価における最も一般的なアプローチの1つは、学生が与えられた質問に正しく答えるかどうかを予測することによって、学生の知識状態を評価する知識追跡(KT)である。 しかし、複数の選択(多義性)質問の文脈では、従来のKTアプローチは二進的(二元的)正当性ラベル(すなわち正しいか間違っているか)しか考慮せず、学生が選択した特定の選択肢を無視している。 一方、オプショントラクション(OT)は、与えられた質問に対してどの選択肢を選択するかを予測することによって、学生をモデル化しようとするが、正確性情報を見落としている。 本稿では,KTとOTを組み合わせたマルチタスク学習フレームワークであるDichotomous-Polytomous Multi-Task Learning (DP-MTL)を提案する。 特に,DP-MTL フレームワークにおける OT の正規化用語として KT が機能することを示し,既存の深層学習に基づく KT モデル上に本手法を適用するための適切なアーキテクチャを提案する。 DP-MTL は KT と OT の両方の性能を著しく向上させるとともに,スコア予測 (SP) などの下流処理にも有効であることを確認した。

Student assessment is one of the most fundamental tasks in the field of AI Education (AIEd). One of the most common approach to student assessment is Knowledge Tracing (KT), which evaluates a student's knowledge state by predicting whether the student will answer a given question correctly or not. However, in the context of multiple choice (polytomous) questions, conventional KT approaches are limited in that they only consider the binary (dichotomous) correctness label (i.e., correct or incorrect), and disregard the specific option chosen by the student. Meanwhile, Option Tracing (OT) attempts to model a student by predicting which option they will choose for a given question, but overlooks the correctness information. In this paper, we propose Dichotomous-Polytomous Multi-Task Learning (DP-MTL), a multi-task learning framework that combines KT and OT for more precise student assessment. In particular, we show that the KT objective acts as a regularization term for OT in the DP-MTL framework, and propose an appropriate architecture for applying our method on top of existing deep learning-based KT models. We experimentally confirm that DP-MTL significantly improves both KT and OT performances, and also benefits downstream tasks such as Score Prediction (SP).
翻訳日:2022-05-16 01:11:16 公開日:2022-04-08
# 生体インスパイアされたニューロン適応はニューラルネットワークの学習を改善する

Biologically-inspired neuronal adaptation improves learning in neural networks ( http://arxiv.org/abs/2204.14008v1 )

ライセンス: Link先を確認
Yoshimasa Kubo, Eric Chalmers, Artur Luczak(参考訳) 人間は依然として多くのタスクで人工ニューラルネットワークを上回っているため、脳からインスピレーションを得て、現在の機械学習アルゴリズムを改善するのに役立つかもしれない。 Contrastive Hebbian Learning (CHL) と Equilibrium Propagation (EP) は、局所情報のみを用いて重みを更新する生物学的に妥当なアルゴリズムである。 本研究では,神経細胞の刺激に対するニューロンの応答を短時間で調節する適応効果に触発されて,chlとepを調節適応で拡張した。 我々は、MNISTとCIFAR-10で訓練された多層パーセプトロンと畳み込みニューラルネットワークにこの適応機能を付加する。 驚いたことに、これらのネットワークの性能は改善された。 このアイデアの生物学的なインスピレーションについて論じ,学習の安定性と正確性を改善する上で,なぜニューロン適応が重要な脳機構になるのかを検討する。

Since humans still outperform artificial neural networks on many tasks, drawing inspiration from the brain may help to improve current machine learning algorithms. Contrastive Hebbian Learning (CHL) and Equilibrium Propagation (EP) are biologically plausible algorithms that update weights using only local information (without explicitly calculating gradients) and still achieve performance comparable to conventional backpropagation. In this study, we augmented CHL and EP with Adjusted Adaptation, inspired by the adaptation effect observed in neurons, in which a neuron's response to a given stimulus is adjusted after a short time. We add this adaptation feature to multilayer perceptrons and convolutional neural networks trained on MNIST and CIFAR-10. Surprisingly, adaptation improved the performance of these networks. We discuss the biological inspiration for this idea and investigate why Neuronal Adaptation could be an important brain mechanism to improve the stability and accuracy of learning.
翻訳日:2022-05-16 01:10:50 公開日:2022-04-08
# (参考訳) 幾何学的劣化する動的環境における決定依存リスク最小化

Decision-Dependent Risk Minimization in Geometrically Decaying Dynamic Environments ( http://arxiv.org/abs/2204.08281v1 )

ライセンス: CC BY 4.0
Mitas Ray, Dmitriy Drusvyatskiy, Maryam Fazel, Lillian J. Ratliff(参考訳) 本稿では,意思決定者の行動に依存し,幾何学的崩壊過程に従って動的に進化するデータ分布が与える期待損失最小化の問題について検討する。 意思決定者が一階勾配オラクルを持つ情報設定と、単に損失関数オラクルを持つ設定の両方のための新しいアルゴリズムが導入される。 アルゴリズムは同じ原理で動作し、意思決定者は、決定を更新する前に動的に変化する環境が十分に混ざり合うように、エポックの長さに対して一定の決定を繰り返し展開する。 各設定における繰り返しの複雑さは、対数係数までの一階確率勾配法とゼロ階確率勾配法の既存の速度と一致する。 このアルゴリズムは, SFpark動的価格パイロットスタディから得られた実世界のデータを用いて, 半合成の例で評価され, 発表された価格は, 総合的な駐車率の低下を図りながら, 施設の目的(占領対象)の改善につながることが示された。

This paper studies the problem of expected loss minimization given a data distribution that is dependent on the decision-maker's action and evolves dynamically in time according to a geometric decay process. Novel algorithms for both the information setting in which the decision-maker has a first order gradient oracle and the setting in which they have simply a loss function oracle are introduced. The algorithms operate on the same underlying principle: the decision-maker repeatedly deploys a fixed decision over the length of an epoch, thereby allowing the dynamically changing environment to sufficiently mix before updating the decision. The iteration complexity in each of the settings is shown to match existing rates for first and zero order stochastic gradient methods up to logarithmic factors. The algorithms are evaluated on a "semi-synthetic" example using real world data from the SFpark dynamic pricing pilot study; it is shown that the announced prices result in an improvement for the institution's objective (target occupancy), while achieving an overall reduction in parking rates.
翻訳日:2022-04-24 19:53:53 公開日:2022-04-08
# 会話型AIの最近の進歩

Recent Progress in Conversational AI ( http://arxiv.org/abs/2204.09719v1 )

ライセンス: Link先を確認
Zijun Xue, Ruirui Li, Mingda Li(参考訳) 会話型人工知能(AI)は、産業や学界でますます人気が高まっている。 ニューラルネットワークベースのモデルの開発が急速に進み、多くのニューラルネットワークベースの会話型AIシステムが開発されている。 一般的に採用されている技術、注目すべき作品、アカデミアや業界からの有名なコンペティション、広く使われているデータセットなど、会話型aiの最近の進歩について簡単にレビューする。

Conversational artificial intelligence (AI) is becoming an increasingly popular topic among industry and academia. With the fast development of neural network-based models, a lot of neural-based conversational AI system are developed. We will provide a brief review of the recent progress in the Conversational AI, including the commonly adopted techniques, notable works, famous competitions from academia and industry and widely used datasets.
翻訳日:2022-04-24 16:13:53 公開日:2022-04-08
# 能動学習に基づく非侵襲的モデルオーダー削減

Active-learning-based non-intrusive Model Order Reduction ( http://arxiv.org/abs/2204.08523v1 )

ライセンス: Link先を確認
Qinyu Zhuang, Dirk Hartmann, Hans Joachim Bungartz, Juan Manuel Lorenzi(参考訳) モデルオーダリダクション(mor)手法は、高速シミュレーションのためにコンパクトな数値モデルを提供できる。 侵入的MOR法とは異なり、非侵入的MORはフルオーダーモデル(FOM)、特にシステム行列へのアクセスを必要としない。 非侵入的MOR法はFOMのスナップショットに強く依存するため、優れたスナップショットセットの構築が重要となる。 本研究では,2つの新奇性を持つ新しいアクティブラーニング手法を提案する。 このアプローチによる新しいアイデアは、還元状態空間の推定から取得したシステム状態からの単一時間ステップスナップショットを使用することである。 これらの状態は、エラー推定器ベースのガウスプロセス回帰(GPR)によって支持される欲求戦略を用いて選択される。 さらに,確率的近似(PAC)学習に基づくユースケース独立型検証戦略を導入する。 本研究では,ANNを用いてリダクションオーダーモデル(ROM)を同定するが,他のROM識別手法にも適用できる。 ワークフロー全体の性能は2次元熱伝導と3次元真空炉モデルによって試験される。 特定のユースケースに依存しないユーザインタラクションとトレーニング戦略をほとんど必要とせず,提案手法は産業利用において,いわゆる実行可能なDigital Twins(DT)を作成する大きな可能性を提供する。

The Model Order Reduction (MOR) technique can provide compact numerical models for fast simulation. Different from the intrusive MOR methods, the non-intrusive MOR does not require access to the Full Order Models (FOMs), especially system matrices. Since the non-intrusive MOR methods strongly rely on the snapshots of the FOMs, constructing good snapshot sets becomes crucial. In this work, we propose a new active learning approach with two novelties. A novel idea with our approach is the use of single-time step snapshots from the system states taken from an estimation of the reduced-state space. These states are selected using a greedy strategy supported by an error estimator based Gaussian Process Regression (GPR). Additionally, we introduce a use case-independent validation strategy based on Probably Approximately Correct (PAC) learning. In this work, we use Artificial Neural Networks (ANNs) to identify the Reduced Order Model (ROM), however the method could be similarly applied to other ROM identification methods. The performance of the whole workflow is tested by a 2-D thermal conduction and a 3-D vacuum furnace model. With little required user interaction and a training strategy independent to a specific use case, the proposed method offers a huge potential for industrial usage to create so-called executable Digital Twins (DTs).
翻訳日:2022-04-24 16:11:36 公開日:2022-04-08
# (参考訳) 正確なアクティベーションクリッピングと適応バッチ正規化によるデータ自由量子化

Data-Free Quantization with Accurate Activation Clipping and Adaptive Batch Normalization ( http://arxiv.org/abs/2204.04215v1 )

ライセンス: CC BY 4.0
Yefei He, Luoming Zhang, Weijia Wu, Hong Zhou(参考訳) データフリー量子化は、元のトレーニングデータにアクセスすることなく、ニューラルネットワークを低ビット幅に圧縮するタスクである。 既存のデータフリー量子化手法の多くは、不正確なアクティベーションクリッピング範囲と量子化誤差、特にビット幅が低いため、性能が著しく低下する。 本稿では,正確なアクティベーションクリッピングと適応バッチ正規化を用いた,単純かつ効率的なデータフリー量子化手法を提案する。 正確なアクティベーションクリッピング(AAC)は、フル精度モデルから正確なアクティベーション情報を活用することにより、モデルの精度を向上させる。 適応バッチ正規化は、まず、バッチ正規化層を適応的に更新することにより、分布変化からの量子化誤差に対処することを提案する。 広範な実験により、提案手法は、imagenetデータセット上でresnet18の64.33%のtop-1精度を達成し、既存の最先端手法よりも3.7%の絶対改善が得られた。

Data-free quantization is a task that compresses the neural network to low bit-width without access to original training data. Most existing data-free quantization methods cause severe performance degradation due to inaccurate activation clipping range and quantization error, especially for low bit-width. In this paper, we present a simple yet effective data-free quantization method with accurate activation clipping and adaptive batch normalization. Accurate activation clipping (AAC) improves the model accuracy by exploiting accurate activation information from the full-precision model. Adaptive batch normalization firstly proposes to address the quantization error from distribution changes by updating the batch normalization layer adaptively. Extensive experiments demonstrate that the proposed data-free quantization method can yield surprisingly performance, achieving 64.33% top-1 accuracy of ResNet18 on ImageNet dataset, with 3.7% absolute improvement outperforming the existing state-of-the-art methods.
翻訳日:2022-04-16 11:54:06 公開日:2022-04-08
# (参考訳) 固形肺結節診断のための信頼性・説明可能なaiモデルの開発

Towards Reliable and Explainable AI Model for Solid Pulmonary Nodule Diagnosis ( http://arxiv.org/abs/2204.04219v1 )

ライセンス: CC BY 4.0
Chenglong Wang, Yun Liu, Fen Wang, Chengxiu Zhang, Yida Wang, Mei Yuan, Guang Yang(参考訳) 肺がんは世界で最も死亡率が高い。 早期発見は肺癌の治療に不可欠である。 しかし, 肺結節の検出と診断は放射線医の経験に大きく依存しており, 重度の作業量となる可能性がある。 結節検出・診断において放射線技師を支援するコンピュータ支援診断システム (CAD) が開発され, 診断精度を高めつつ, 作業負荷を大幅に軽減した。 近年のディープラーニングはCADシステムの性能を大幅に向上させた。 しかし、モデル信頼性と解釈可能性の欠如は、その大規模臨床応用の大きな障害である。 本研究では,肺結節診断のためのマルチタスク記述型ディープラーニングモデルを提案する。 我々の神経モデルは病変の悪性度を予測できるだけでなく、関連する徴候も特定できる。 さらに、各マニフェストの位置を視覚的解釈性のために視覚化することもできる。 提案したニューラルモデルはLIDC公開データセットで0.992のAUCを、社内データセットで0.923のAUCを達成した。 また,マルチタスクモデルにマニフェスト識別タスクを組み込むことにより,悪性度分類の精度も向上できることが実証された。 このマルチタスク説明可能なモデルは、臨床環境における放射線医との相互作用を改善するためのスキームを提供することができる。

Lung cancer has the highest mortality rate of deadly cancers in the world. Early detection is essential to treatment of lung cancer. However, detection and accurate diagnosis of pulmonary nodules depend heavily on the experiences of radiologists and can be a heavy workload for them. Computer-aided diagnosis (CAD) systems have been developed to assist radiologists in nodule detection and diagnosis, greatly easing the workload while increasing diagnosis accuracy. Recent development of deep learning, greatly improved the performance of CAD systems. However, lack of model reliability and interpretability remains a major obstacle for its large-scale clinical application. In this work, we proposed a multi-task explainable deep-learning model for pulmonary nodule diagnosis. Our neural model can not only predict lesion malignancy but also identify relevant manifestations. Further, the location of each manifestation can also be visualized for visual interpretability. Our proposed neural model achieved a test AUC of 0.992 on LIDC public dataset and a test AUC of 0.923 on our in-house dataset. Moreover, our experimental results proved that by incorporating manifestation identification tasks into the multi-task model, the accuracy of the malignancy classification can also be improved. This multi-task explainable model may provide a scheme for better interaction with the radiologists in a clinical environment.
翻訳日:2022-04-16 11:43:42 公開日:2022-04-08
# (参考訳) reservoircomputing.jl: 貯留層計算モデルのための効率的でモジュラーなライブラリ

ReservoirComputing.jl: An Efficient and Modular Library for Reservoir Computing Models ( http://arxiv.org/abs/2204.05117v1 )

ライセンス: CC BY 4.0
Francesco Martinuzzi, Chris Rackauckas, Anas Abdelrehim, Miguel D. Mahecha and Karin Mora(参考訳) ReservoirComputing.jlは、貯水池計算モデルのためのオープンソースのJuliaライブラリである。 このソフトウェアは、文献で提示された膨大な数のアルゴリズムを提供し、内部ツールと外部ツールの両方で簡単に拡張することができる。 実装は非常にモジュール化され、高速で、文献から再現された実験を含む包括的なドキュメントが付属している。 コードとドキュメントはMITライセンスのhttps://github.com/SciML/ReservoirComputing.jlでGithubにホストされている。

We introduce ReservoirComputing.jl, an open source Julia library for reservoir computing models. The software offers a great number of algorithms presented in the literature, and allows to expand on them with both internal and external tools in a simple way. The implementation is highly modular, fast and comes with a comprehensive documentation, which includes reproduced experiments from literature. The code and documentation are hosted on Github under an MIT license https://github.com/SciML/ReservoirComputing.jl.
翻訳日:2022-04-16 11:25:57 公開日:2022-04-08
# (参考訳) CyNER: エンティティ認識というサイバーセキュリティのためのPythonライブラリ

CyNER: A Python Library for Cybersecurity Named Entity Recognition ( http://arxiv.org/abs/2204.05754v1 )

ライセンス: CC BY 4.0
Md Tanvirul Alam, Dipkamal Bhusal, Youngja Park, Nidhi Rastogi(参考訳) open cyber threat intelligence (opencti) 情報はインターネット上の異種ソースから非構造化形式で入手できる。 我々は,エンティティ認識(NER)という,サイバーセキュリティのためのオープンソースのピソンライブラリであるCyNERを紹介する。 CyNERは、サイバーセキュリティ関連エンティティを抽出するためのトランスフォーマーベースのモデル、妥協の異なる指標を抽出するためのヒューリスティック、ジェネリックエンティティタイプを公開するNERモデルを組み合わせる。 ユーザが容易に利用できる多様なコーパスでトレーニングされたモデルを提供します。 MALOnt2.0 (Christian et al., 2021) と MALOnt (Rastogi et al., 2020) は、脅威情報コーパスから幅広いマルウェア攻撃の詳細を抽出する。 ユーザは、ニーズに合わせて、複数の異なるアプローチからの予測を組み合わせることができる。 図書館は公開されている。

Open Cyber threat intelligence (OpenCTI) information is available in an unstructured format from heterogeneous sources on the Internet. We present CyNER, an open-source python library for cybersecurity named entity recognition (NER). CyNER combines transformer-based models for extracting cybersecurity-related entities, heuristics for extracting different indicators of compromise, and publicly available NER models for generic entity types. We provide models trained on a diverse corpus that users can readily use. Events are described as classes in previous research - MALOnt2.0 (Christian et al., 2021) and MALOnt (Rastogi et al., 2020) and together extract a wide range of malware attack details from a threat intelligence corpus. The user can combine predictions from multiple different approaches to suit their needs. The library is made publicly available.
翻訳日:2022-04-16 11:19:43 公開日:2022-04-08
# (参考訳) 2次ソボレフ測度を持つ表面の弾性形状解析:包括的数値的枠組み

Elastic shape analysis of surfaces with second-order Sobolev metrics: a comprehensive numerical framework ( http://arxiv.org/abs/2204.04238v1 )

ライセンス: CC BY 4.0
Emmanuel Hartman, Yashil Sukurdeep, Eric Klassen, Nicolas Charon, Martin Bauer(参考訳) 本稿では,不変(弾性)2次ソボレフ測度の設定における3次元曲面のリーマン形状解析のための数値的手法を提案する。 より具体的には、3次元メッシュとして表されるパラメータ化または非パラメータ化面間の測地線と測地線距離の計算に対処する。 そこで我々は,表面の集合の統計的形状解析のためのツールを開発し,カーチャー平均を推定し,形状上の接点PCAを演算し,表面の経路に沿った並列輸送を計算する。 提案手法は,非パラメータ面間の測地線を計算する際に再パラメータ化独立性を実現するために,可変忠実性項を用いることにより,測地マッチング問題に対するゆるやかな変分定式化を基本としている。 重要なのは、部分的に観測されたデータに取り組むために、我々の緩和された変分フレームワークをどのように拡張できるかを実証することです。 私たちの数値パイプラインの異なる利点は、合成と現実の様々な例で示されています。

This paper introduces a set of numerical methods for Riemannian shape analysis of 3D surfaces within the setting of invariant (elastic) second-order Sobolev metrics. More specifically, we address the computation of geodesics and geodesic distances between parametrized or unparametrized immersed surfaces represented as 3D meshes. Building on this, we develop tools for the statistical shape analysis of sets of surfaces, including methods for estimating Karcher means and performing tangent PCA on shape populations, and for computing parallel transport along paths of surfaces. Our proposed approach fundamentally relies on a relaxed variational formulation for the geodesic matching problem via the use of varifold fidelity terms, which enable us to enforce reparametrization independence when computing geodesics between unparametrized surfaces, while also yielding versatile algorithms that allow us to compare surfaces with varying sampling or mesh structures. Importantly, we demonstrate how our relaxed variational framework can be extended to tackle partially observed data. The different benefits of our numerical pipeline are illustrated over various examples, synthetic and real.
翻訳日:2022-04-16 11:09:43 公開日:2022-04-08
# (参考訳) インタラクティブパターンマイニングにおける複雑なパターン特徴の活用

Exploiting complex pattern features for interactive pattern mining ( http://arxiv.org/abs/2204.04242v1 )

ライセンス: CC BY 4.0
Arnold Hien, Samir Loudni, Noureddine Aribi, Abdelkader Ouali, Albrecht Zimmermann(参考訳) 近年では、ユーザが事前に制約を定義し、その結果を精査するパターンマイニングプロセスから、インタラクティブなプロセスへとシフトしている。 この新しいフレームワークは、ユーザのフィードバックを利用してパターンの品質関数を学習する。 既存のアプローチでは、静的に事前定義された低レベル機能を使用し、ユーザにとっての重要性を表す独立した重みを学習しようとするという弱点がある。 その代わりとして,ユーザによって課されるパターンランキングから直接派生した,より複雑な機能を扱うことを提案する。 学習された重みは低レベルの機能に集約され、品質機能を正しい方向に進めるのに役立つ。 異なるパラメータ選択の効果を実験的に検討し,高複雑度特徴を用いることで,メソッドの実行時間にさほど加えず,隠れた品質関数と一致したパターンを選択することが可能であることを見出した。 優れたユーザフィードバックを得るためには、私たちが達成しているような多様なパターンを迅速に提示する必要がありますが、既存の多様性制約をインタラクティブマイニングシステムのサンプリングコンポーネントにプッシュする必要があります。 結果として生じるパターンは、たいていの場合、より素早く良いソリューションに収束できる。 この2つの改善を組み合わせることで、既存の最先端技術に対して明確な優位性を示すアルゴリズムが実現される。

Recent years have seen a shift from a pattern mining process that has users define constraints before-hand, and sift through the results afterwards, to an interactive one. This new framework depends on exploiting user feedback to learn a quality function for patterns. Existing approaches have a weakness in that they use static pre-defined low-level features, and attempt to learn independent weights representing their importance to the user. As an alternative, we propose to work with more complex features that are derived directly from the pattern ranking imposed by the user. Learned weights are then aggregated onto lower-level features and help to drive the quality function in the right direction. We explore the effect of different parameter choices experimentally and find that using higher-complexity features leads to the selection of patterns that are better aligned with a hidden quality function while not adding significantly to the run times of the method. Getting good user feedback requires to quickly present diverse patterns, something that we achieve but pushing an existing diversity constraint into the sampling component of the interactive mining system LetSip. Resulting patterns allow in most cases to converge to a good solution more quickly. Combining the two improvements, finally, leads to an algorithm showing clear advantages over the existing state-of-the-art.
翻訳日:2022-04-16 10:32:14 公開日:2022-04-08
# (参考訳) ニューラルネットワーク誘導TEM画像解析における受容場とネットワーク複雑度の影響の理解

Understanding the Influence of Receptive Field and Network Complexity in Neural-Network-Guided TEM Image Analysis ( http://arxiv.org/abs/2204.04250v1 )

ライセンス: CC BY 4.0
Katherine Sytwu, Catherine Groschner, Mary C. Scott(参考訳) トレーニングされたニューラルネットワークは、ますます増え続ける科学画像データを分析する有望なツールだが、トランスミッション電子マイクログラフのユニークな特徴のために、これらのネットワークを最適にカスタマイズする方法は不明だ。 本稿では,ニューラルネットワークアーキテクチャの選択が,透過型電子顕微鏡(tem)画像中のアモルファス背景から,ピクセル単位で分離された結晶性ナノ粒子にどのように影響するかを体系的に検討する。 我々は、学習可能なパラメータの数を決定するネットワークの複雑さから、受容場の影響、あるいは出力決定に寄与する入力画像の領域を分離することに注力する。 ナノ微粒子を背景から区別するために振幅コントラストに依存する低分解能tem画像では, 受容磁場はセグメンテーション性能に大きな影響を与えないことがわかった。 一方、ナノ粒子を識別するために振幅と位相コントラストの組合せに依存する高分解能TEM画像の場合、特に最小振幅コントラストの画像において、受容場は性能向上の鍵となるパラメータである。 この結果は、TEMデータセットを用いたアプリケーションにニューラルネットワークを適用する方法についての洞察とガイダンスを提供する。

Trained neural networks are promising tools to analyze the ever-increasing amount of scientific image data, but it is unclear how to best customize these networks for the unique features in transmission electron micrographs. Here, we systematically examine how neural network architecture choices affect how neural networks segment, or pixel-wise separate, crystalline nanoparticles from amorphous background in transmission electron microscopy (TEM) images. We focus on decoupling the influence of receptive field, or the area of the input image that contributes to the output decision, from network complexity, which dictates the number of trainable parameters. We find that for low-resolution TEM images which rely on amplitude contrast to distinguish nanoparticles from background, the receptive field does not significantly influence segmentation performance. On the other hand, for high-resolution TEM images which rely on a combination of amplitude and phase contrast changes to identify nanoparticles, receptive field is a key parameter for increased performance, especially in images with minimal amplitude contrast. Our results provide insight and guidance as to how to adapt neural networks for applications with TEM datasets.
翻訳日:2022-04-16 10:30:16 公開日:2022-04-08
# (参考訳) HBFL: 階層型ブロックチェーンベースのIoT侵入検出のためのフェデレーション学習フレームワーク

HBFL: A Hierarchical Blockchain-based Federated Learning Framework for a Collaborative IoT Intrusion Detection ( http://arxiv.org/abs/2204.04254v1 )

ライセンス: CC BY 4.0
Mohanad Sarhan, Wai Weng Lo, Siamak Layeghy, Marius Portmann(参考訳) iotエコシステムのセキュリティ姿勢の継続的な強化は、相互接続されたデバイス数の増加と機密データ共有量のために不可欠である。 IoTサイバー攻撃に対する防御における機械学習(ML)機能の利用には、多くの潜在的なメリットがある。 しかし、現在提案されているフレームワークは、データプライバシ、セキュアなアーキテクチャ、および/またはIoTエコシステムのスケーラブルなデプロイメントを考慮していない。 本稿では,セキュアかつプライバシ保護されたコラボレーティブなIoT侵入検出を実現するための階層型ブロックチェーンベースのフェデレーション学習フレームワークを提案する。 サイバー脅威インテリジェンスを組織間iotネットワーク間で共有し,モデルの検出能力を改善することの重要性を強調し,実証する。 MLベースの侵入検出フレームワークの提案は、学習プロセスと組織データのプライバシを確保するために、階層的なフェデレーション付き学習アーキテクチャに従っている。 トランザクション(モデル更新)とプロセスはセキュアなイミュータブルな台帳上で動作し、実行されるタスクの適合性はスマートコントラクトによって検証される。 我々は,本ソリューションを検証し,その実現可能性を示し,主要なIoTデータセットを用いた侵入検出性能の評価を行った。 その結果は、データプライバシを保持しながら、広範囲の悪意あるアクティビティを検出できる、セキュアに設計されたMLベースの侵入検知システムである。

The continuous strengthening of the security posture of IoT ecosystems is vital due to the increasing number of interconnected devices and the volume of sensitive data shared. The utilisation of Machine Learning (ML) capabilities in the defence against IoT cyber attacks has many potential benefits. However, the currently proposed frameworks do not consider data privacy, secure architectures, and/or scalable deployments of IoT ecosystems. In this paper, we propose a hierarchical blockchain-based federated learning framework to enable secure and privacy-preserved collaborative IoT intrusion detection. We highlight and demonstrate the importance of sharing cyber threat intelligence among inter-organisational IoT networks to improve the model's detection capabilities. The proposed ML-based intrusion detection framework follows a hierarchical federated learning architecture to ensure the privacy of the learning process and organisational data. The transactions (model updates) and processes will run on a secure immutable ledger, and the conformance of executed tasks will be verified by the smart contract. We have tested our solution and demonstrated its feasibility by implementing it and evaluating the intrusion detection performance using a key IoT data set. The outcome is a securely designed ML-based intrusion detection system capable of detecting a wide range of malicious activities while preserving data privacy.
翻訳日:2022-04-16 10:18:29 公開日:2022-04-08
# (参考訳) BioRED: 総合的な医療関係抽出データセット

BioRED: A Comprehensive Biomedical Relation Extraction Dataset ( http://arxiv.org/abs/2204.04263v1 )

ライセンス: CC BY 4.0
Ling Luo, Po-Ting Lai, Chih-Hsuan Wei, Cecilia N Arighi, Zhiyong Lu(参考訳) 生物医学文献からの自動関係抽出(RE)は、研究と実世界の双方で多くの下流テキストマイニングアプリケーションにとって重要である。 しかし、既存のバイオメディカルREのベンチマークデータセットのほとんどは、文レベルでの単一のタイプ(タンパク質とタンパク質の相互作用など)の関係のみに焦点を当てており、バイオメディシンにおけるREシステムの開発を著しく制限している。 本稿では、まず、名前付きエンティティ認識(ner)と再データセットをレビューする。 次に,600個のPubMed論文に,複数の実体型(遺伝子・タンパク質・疾患・化学物質など)と関連ペア(遺伝子・疾患・化学物質など)を有する第一種バイオメディカルREコーパスであるBioREDについて紹介する。 さらに,それぞれの関係を,新規発見と既知の背景知識のいずれかを記述し,新たな情報と背景情報とを自動アルゴリズムで区別できるようにする。 NER および RE タスク上で,BERT モデルを含む既存の最先端手法をベンチマークすることで,BioRED の有用性を評価する。 以上の結果から,既存の手法はNERタスクにおいて高い性能を達成することができる(Fスコア89.3%)が,特に新規な関係を抽出する場合(Fスコア47.7%)にはREタスクには改善の余地が十分にあることがわかった。 また,このような包括的データセットは,より正確で効率的でロバストな生物医療用reシステムの開発を効果的に促進できることを実証した。

Automated relation extraction (RE) from biomedical literature is critical for many downstream text mining applications in both research and real-world settings. However, most existing benchmarking datasets for bio-medical RE only focus on relations of a single type (e.g., protein-protein interactions) at the sentence level, greatly limiting the development of RE systems in biomedicine. In this work, we first review commonly used named entity recognition (NER) and RE datasets. Then we present BioRED, a first-of-its-kind biomedical RE corpus with multiple entity types (e.g., gene/protein, disease, chemical) and relation pairs (e.g., gene-disease; chemical-chemical), on a set of 600 PubMed articles. Further, we label each relation as describing either a novel finding or previously known background knowledge, enabling automated algorithms to differentiate between novel and background information. We assess the utility of BioRED by benchmarking several existing state-of-the-art methods, including BERT-based models, on the NER and RE tasks. Our results show that while existing approaches can reach high performance on the NER task (F-score of 89.3%), there is much room for improvement for the RE task, especially when extracting novel relations (F-score of 47.7%). Our experiments also demonstrate that such a comprehensive dataset can successfully facilitate the development of more accurate, efficient, and robust RE systems for biomedicine.
翻訳日:2022-04-16 09:55:01 公開日:2022-04-08
# (参考訳) 要求工学のための自然言語処理技術の分類

Classification of Natural Language Processing Techniques for Requirements Engineering ( http://arxiv.org/abs/2204.04282v1 )

ライセンス: CC BY 4.0
Liping Zhao, Waad Alhoshan, Alessio Ferrari, Keletso J. Letsholo(参考訳) 自然言語処理(NLP)技術を要求工学(RE)タスクに適用する研究は、1980年代に行われた最初の取り組みから、機械学習(ML)とディープラーニング(DL)技術による最近の試みまで、40年以上にわたる。 しかし,最近の調査により,reにおける一般的なnlp技術の体系的理解や組織化がいまだに欠如していることが判明した。 業界が直面しているハードルのひとつは、NLP技術とそのREタスクにおける使用に関する共有知識の欠如です。 本稿では,最も頻繁に使われている57のNLP技法をREで合成し,整理する取り組みについて述べる。 我々はこれらのNLP手法を2つの方法で分類する: まず、NLPタスクを典型的なパイプラインで、次に、言語分析レベルで分類する。 我々はこれらの2つの分類法が相補的であり、REにおけるNLP技術のより良い理解に寄与すると考えており、REのためのより良いNLPツールの開発にはそのような理解が不可欠である。

Research in applying natural language processing (NLP) techniques to requirements engineering (RE) tasks spans more than 40 years, from initial efforts carried out in the 1980s to more recent attempts with machine learning (ML) and deep learning (DL) techniques. However, in spite of the progress, our recent survey shows that there is still a lack of systematic understanding and organization of commonly used NLP techniques in RE. We believe one hurdle facing the industry is lack of shared knowledge of NLP techniques and their usage in RE tasks. In this paper, we present our effort to synthesize and organize 57 most frequently used NLP techniques in RE. We classify these NLP techniques in two ways: first, by their NLP tasks in typical pipelines and second, by their linguist analysis levels. We believe these two ways of classification are complementary, contributing to a better understanding of the NLP techniques in RE and such understanding is crucial to the development of better NLP tools for RE.
翻訳日:2022-04-15 11:43:41 公開日:2022-04-08
# (参考訳) 事前学習と微調整言語モデルにおける大規模談話構造理解に向けて

Towards Understanding Large-Scale Discourse Structures in Pre-Trained and Fine-Tuned Language Models ( http://arxiv.org/abs/2204.04289v1 )

ライセンス: CC BY 4.0
Patrick Huber and Giuseppe Carenini(参考訳) 事前学習された言語モデルのさまざまな構成要素を分析したバートロジー研究が増えているので、事前学習と微調整された言語モデルにおける談話情報の詳細な分析を通じて、この研究範囲を拡張している。 まず、任意の長さの文書から談話構造を推測する新しいアプローチについて述べる。 第二に,bert モデルと bart モデルにおける内在的談話の捉え方と正確性を検討するための新しい分析手法を提案する。 最後に、生成した構造が様々なベースラインと、モデル内とモデル間の分布にどの程度似ているかを評価する。

With a growing number of BERTology work analyzing different components of pre-trained language models, we extend this line of research through an in-depth analysis of discourse information in pre-trained and fine-tuned language models. We move beyond prior work along three dimensions: First, we describe a novel approach to infer discourse structures from arbitrarily long documents. Second, we propose a new type of analysis to explore where and how accurately intrinsic discourse is captured in the BERT and BART models. Finally, we assess how similar the generated structures are to a variety of baselines as well as their distribution within and between models.
翻訳日:2022-04-15 11:12:27 公開日:2022-04-08
# (参考訳) 一般化可能なポリシー勾配アルゴリズムのための多目的進化

Multi-objective evolution for Generalizable Policy Gradient Algorithms ( http://arxiv.org/abs/2204.04292v1 )

ライセンス: CC BY 4.0
Juan Jose Garau-Luis, Yingjie Miao, John D. Co-Reyes, Aaron Parisi, Jie Tan, Esteban Real, Aleksandra Faust(参考訳) パフォーマンス、一般化性、安定性は、3つの強化学習(rl)の課題であり、それらは自分たちを組み合わせる多くの実用的なアプリケーションに関連する。 それでも、最先端のRLアルゴリズムは、複数のRL目標に同時に対処する際に不足している。 本稿では,グラフとして表現される新しいRLアルゴリズムを発見する進化的手法であるMetaPGを提案する。 その結果,sac (soft actor-critic, sac) をグラフベースで実装して個体群の初期化を行うと,sacの性能と一般化性をそれぞれ3%, 17%向上させ, 最大65%の不安定性を低減できる新しいアルゴリズムが得られた。 さらに,個体群における最良アルゴリズムのグラフ構造を分析し,汎用性のためのトレーディングパフォーマンスに役立つ特定の要素を解釈し,その逆も提供する。 RWRL Cartpole, RWRL Walker, Gym Pendulumの3つの連続制御タスクにおいて, 実験結果を検証した。

Performance, generalizability, and stability are three Reinforcement Learning (RL) challenges relevant to many practical applications in which they present themselves in combination. Still, state-of-the-art RL algorithms fall short when addressing multiple RL objectives simultaneously and current human-driven design practices might not be well-suited for multi-objective RL. In this paper we present MetaPG, an evolutionary method that discovers new RL algorithms represented as graphs, following a multi-objective search criteria in which different RL objectives are encoded in separate fitness scores. Our findings show that, when using a graph-based implementation of Soft Actor-Critic (SAC) to initialize the population, our method is able to find new algorithms that improve upon SAC's performance and generalizability by 3% and 17%, respectively, and reduce instability up to 65%. In addition, we analyze the graph structure of the best algorithms in the population and offer an interpretation of specific elements that help trading performance for generalizability and vice versa. We validate our findings in three different continuous control tasks: RWRL Cartpole, RWRL Walker, and Gym Pendulum.
翻訳日:2022-04-15 10:53:58 公開日:2022-04-08
# (参考訳) ランダム重みを変調する学習は、経済的メタと連続学習のためのタスク固有の文脈を誘発する

Learning to modulate random weights can induce task-specific contexts for economical meta and continual learning ( http://arxiv.org/abs/2204.04297v1 )

ライセンス: CC BY-SA 4.0
Jinyung Hong and Theodore P. Pavlic(参考訳) ニューラルネットワークは、連続的なオンライン学習中にデータが定常的でない場合、破滅的な忘れ忘れに対して脆弱である。 1つのソリューションアプローチはモデルに依存しない連続メタ学習であり、タスク固有のパラメータとメタパラメータの両方をトレーニングする。 本稿では,生体神経系におけるニューロモジュレーションに触発された新しいニューラルネットワークアーキテクチャを提案する。 ニューロモジュレーション(Neuromodulation)は、機械学習において限られた注意を払っているリアルタイムの行動コンテキストを補完する、動的に制御する生物学的メカニズムである。 本稿では,タスクごとに比較的小さなコンテキストベクトル(タスク固有のパラメータ)のみを学習し,入力を変換するランダムな重み(メタパラメータ)をニューロ変調する単一隠れ層ネットワークを提案する。 タスク境界が利用できる場合、この手法は破滅的な忘れ込みを完全に排除すると同時に、他のコンテキストベクターベースのアプローチと比較して学習可能なパラメータの数を劇的に削減する。 さらに,このモデルと単純なメタ学習手法を組み合わせることで,タスク境界の知識を必要とせずに連続的な学習を行うためのフレームワークにモデルを一般化できることを実証する。 最後に,この枠組みを教師付きオンライン学習シナリオで紹介し,提案手法の意義について考察する。

Neural networks are vulnerable to catastrophic forgetting when data distributions are non-stationary during continual online learning; learning of a later task often leads to forgetting of an earlier task. One solution approach is model-agnostic continual meta-learning, whereby both task-specific and meta parameters are trained. Here, we depart from this view and introduce a novel neural-network architecture inspired by neuromodulation in biological nervous systems. Neuromodulation is the biological mechanism that dynamically controls and fine-tunes synaptic dynamics to complement the behavioral context in real-time, which has received limited attention in machine learning. We introduce a single-hidden-layer network that learns only a relatively small context vector per task (task-specific parameters) that neuromodulates unchanging, randomized weights (meta parameters) that transform the input. We show that when task boundaries are available, this approach can eliminate catastrophic forgetting entirely while also drastically reducing the number of learnable parameters relative to other context-vector-based approaches. Furthermore, by combining this model with a simple meta-learning approach for inferring task identity, we demonstrate that the model can be generalized into a framework to perform continual learning without knowledge of task boundaries. Finally, we showcase the framework in a supervised continual online learning scenario and discuss the implications of the proposed formalism.
翻訳日:2022-04-15 10:28:29 公開日:2022-04-08
# (参考訳) MMTAfrica:アフリカ言語のための多言語機械翻訳

MMTAfrica: Multilingual Machine Translation for African Languages ( http://arxiv.org/abs/2204.04306v1 )

ライセンス: CC BY 4.0
Chris C. Emezue, and Bonaventure F. P. Dossou(参考訳) 本稿では,アフリカの言語における多言語機械翻訳の課題に着目し,2021年のWMT共有タスク:大規模多言語機械翻訳への貢献について述べる。 MMTAfricaは,アフリカ系6言語(Fon (fon), Igbo (ibo), Kinyarwanda (kin), Swahili/Kiswahili (swa), Xhosa (xho), Yoruba (yor),非アフリカ系2言語( English (eng) と French (fra)))に対する最初の多言語多言語翻訳システムである。 アフリカの言語に関する多言語翻訳では,ランダムなオンライン翻訳とT5モデリングフレームワークに触発された新しい逆翻訳・再構成目的BT\&RECを導入し,モノリンガルデータを効果的に活用する。 さらに、FLORES 101ベンチマークよりもMMTAfricaの改善を報告します(spBLEUはスワヒリで+0.58ドルからフランス語で+19.46ドルからフランス語で+19.46ドルからXhosa)。 私たちはデータセットとソースコードをhttps://github.com/edaiofficial/mmtafricaでリリースしています。

In this paper, we focus on the task of multilingual machine translation for African languages and describe our contribution in the 2021 WMT Shared Task: Large-Scale Multilingual Machine Translation. We introduce MMTAfrica, the first many-to-many multilingual translation system for six African languages: Fon (fon), Igbo (ibo), Kinyarwanda (kin), Swahili/Kiswahili (swa), Xhosa (xho), and Yoruba (yor) and two non-African languages: English (eng) and French (fra). For multilingual translation concerning African languages, we introduce a novel backtranslation and reconstruction objective, BT\&REC, inspired by the random online back translation and T5 modeling framework respectively, to effectively leverage monolingual data. Additionally, we report improvements from MMTAfrica over the FLORES 101 benchmarks (spBLEU gains ranging from $+0.58$ in Swahili to French to $+19.46$ in French to Xhosa). We release our dataset and code source at https://github.com/edaiofficial/mmtafrica.
翻訳日:2022-04-15 10:11:53 公開日:2022-04-08
# (参考訳) 過渡および反復状態からの近似割引フリー政策評価

Approximate discounting-free policy evaluation from transient and recurrent states ( http://arxiv.org/abs/2204.04324v1 )

ライセンス: CC BY 4.0
Vektor Dewanto, Marcus Gallagher(参考訳) 過渡状態の悪い行動と善悪を規定する政策を区別するためには、政策のいわゆる偏見を過渡状態から評価する必要がある。 しかし, 現状の政策評価において, ほとんど(すべてではないにせよ)は, 再帰状態のみからバイアスを推定するために開発されたものである。 そこで本研究では,過渡的および反復的状態からのバイアス(特に相対値)を近似するシステムを提案する。 その鍵となる要素は半ノルム LSTD (Last-squares temporal difference) であり、モデルレス強化学習に必要なサンプリングによる近似を可能にする最小値式を導出する。 このセミノルム LSTD は、LSTD ベースのポリシー値近似器の一般的な統一手順の定式化を容易にする。 提案手法の有効性を実験的に検証した。

In order to distinguish policies that prescribe good from bad actions in transient states, we need to evaluate the so-called bias of a policy from transient states. However, we observe that most (if not all) works in approximate discounting-free policy evaluation thus far are developed for estimating the bias solely from recurrent states. We therefore propose a system of approximators for the bias (specifically, its relative value) from transient and recurrent states. Its key ingredient is a seminorm LSTD (least-squares temporal difference), for which we derive its minimizer expression that enables approximation by sampling required in model-free reinforcement learning. This seminorm LSTD also facilitates the formulation of a general unifying procedure for LSTD-based policy value approximators. Experimental results validate the effectiveness of our proposed method.
翻訳日:2022-04-15 09:53:13 公開日:2022-04-08
# (参考訳) 深部ニューラルネットワークの適応型ブラックボックスバックドア検出法

An Adaptive Black-box Backdoor Detection Method for Deep Neural Networks ( http://arxiv.org/abs/2204.04329v1 )

ライセンス: CC BY 4.0
Xinqiao Zhang, Huili Chen, Ke Huang, Farinaz Koushanfar(参考訳) 機械学習(ML)の急激な普及に伴い、インテリジェントなアプリケーションが新たに開発されている。 深層ニューラルネットワーク(dnn)は、医療診断や自動運転など、さまざまな分野で前例のないパフォーマンスを示している。 dnnはセキュリティに敏感な分野で広く使われているが、ステルストリガーによって制御され活性化されるニューラルトロイの木馬(nt)攻撃に対して脆弱である。 本稿では,事前学習されたモデルがデプロイ前にトロイの木馬化されているかどうかを調べる,ロバストで適応的なトロイの木馬検出スキームの設計を目標とする。 先行研究はトリガー分布の本質的性質を欠き、単純なヒューリスティック、すなわち与えられたモデルを間違った出力に刺激することでトリガーパターンを再構築しようとする。 その結果、検出時間と有効性は限られている。 我々は,画素トリガが一般に空間依存を特徴付けるという観測を活用し,入力空間におけるトリガの高速かつスケーラブルな検索を可能にする,最初のトリガ近似ベースのブラックボックストロイ検出フレームワークを提案する。 さらに、特定のフィルタ変換を用いてトロイの木馬を活性化する機能空間に埋め込まれたトロイの木馬も検出できる。 我々は、様々なデータセットやMLモデルにまたがるアプローチの性能を調べるために、広範な実験を行う。 実験の結果,公共TrojAIデータセット上でのROC-AUCスコアは0.93であることがわかった。 私たちのコードはhttps://github.com/xinqiaozhang/adatrojanにあります。

With the surge of Machine Learning (ML), An emerging amount of intelligent applications have been developed. Deep Neural Networks (DNNs) have demonstrated unprecedented performance across various fields such as medical diagnosis and autonomous driving. While DNNs are widely employed in security-sensitive fields, they are identified to be vulnerable to Neural Trojan (NT) attacks that are controlled and activated by stealthy triggers. In this paper, we target to design a robust and adaptive Trojan detection scheme that inspects whether a pre-trained model has been Trojaned before its deployment. Prior works are oblivious of the intrinsic property of trigger distribution and try to reconstruct the trigger pattern using simple heuristics, i.e., stimulating the given model to incorrect outputs. As a result, their detection time and effectiveness are limited. We leverage the observation that the pixel trigger typically features spatial dependency and propose the first trigger approximation based black-box Trojan detection framework that enables a fast and scalable search of the trigger in the input space. Furthermore, our approach can also detect Trojans embedded in the feature space where certain filter transformations are used to activate the Trojan. We perform extensive experiments to investigate the performance of our approach across various datasets and ML models. Empirical results show that our approach achieves a ROC-AUC score of 0.93 on the public TrojAI dataset. Our code can be found at https://github.com/xinqiaozhang/adatrojan
翻訳日:2022-04-15 08:32:11 公開日:2022-04-08
# 頑健な摂動防御を有するnlpモデルに対するバックドア攻撃

Backdoor Attack against NLP models with Robustness-Aware Perturbation defense ( http://arxiv.org/abs/2204.05758v1 )

ライセンス: Link先を確認
Shaik Mohammed Maqsood, Viveros Manuela Ceron, Addluri GowthamKrishna(参考訳) バックドア攻撃は、ディープニューラルネットワーク(dnn)に隠れたバックドアを埋め込むことを意図しており、攻撃されたモデルが良質なサンプルでうまく機能するようにしている。 この脅威は、サードパーティのデータセットのトレーニングや、サードパーティのモデルの採用など、トレーニングプロセスが完全にコントロールされていない場合に起こります。 この種のバックドア攻撃を防御するための研究や方法が数多くあり、ひとつは頑健さを意識した摂動ベースの防御方法である。 この方法は、主に毒物と清潔な試料の堅牢性の大きなギャップを利用する。 本研究では, 有害試料とクリーン試料との堅牢性ギャップを, 敵の訓練工程を用いて制御することにより, この防御を破る。

Backdoor attack intends to embed hidden backdoor into deep neural networks (DNNs), such that the attacked model performs well on benign samples, whereas its prediction will be maliciously changed if the hidden backdoor is activated by the attacker defined trigger. This threat could happen when the training process is not fully controlled, such as training on third-party data-sets or adopting third-party models. There has been a lot of research and different methods to defend such type of backdoor attacks, one being robustness-aware perturbation-based defense method. This method mainly exploits big gap of robustness between poisoned and clean samples. In our work, we break this defense by controlling the robustness gap between poisoned and clean samples using adversarial training step.
翻訳日:2022-04-13 14:34:44 公開日:2022-04-08
# インド亜大陸(NavIC)における航法用光流NSS

Optical flow GNSS for navigation in the Indian subcontinent (NavIC) ( http://arxiv.org/abs/2204.05980v1 )

ライセンス: Link先を確認
Sunit Shantanu Digamber Fulari, Harbinder Singh(参考訳) 本稿では,インド亜大陸における航法(navic)として知られるインド亜大陸におけるグローバル航法衛星システムgssについて,光フロー追跡グローバル航法システム(optical flow tracking global navigation system, gnss)と呼ばれる新しい手法のモデル化を試みた。 微分方程式を用いたこの方法は、インド亜大陸衛星の1500kmの範囲で地球表面の非常に小さな距離において非常に正確である。 gpsシステムの精度について語るとき、地球軌道上に位置する衛星による地上に対する移動物体の座標の変化を示すために使用する場合、地球表面において非常に正確であるべきである。 オプティカルフロー(optical flow)は、x軸とy軸の運動を座標の無限小変化に利用し、このアルゴリズムを大域的な測位系で使用し、地上測位に関して衛星座標の正確な位置を求める。 また,地球表面の座標の変化を観測するために衛星からモデル化された無限小のフレームを含むため,現代の微分フレーム法は非常に正確であり,本論文では,その代替となる光流GNSSシステムに新たなアルゴリズムを設計し,これらのアルゴリズムを応用分野において設計する際の研究を改善することができる。

This paper reveals about global navigation satellite system GNSS in the indian subcontinent known as the navigation in the indian subcontinent(NavIC) We have tried to model a new technique in GNSS known as the optical flow tracking global navigation system (OF GNSS). This method using differential equations is very accurate for very small distances on the surface of the earth in the 1500km range of the Indian subcontinent satellite coverage. When we talk of accuracy of the GPS system it should be very accurate on the surface of the earth when used to show changes in coordinate of the moving body with respect to the ground by the satellite which is situated on the earths orbit. Optical flow is a method which uses movements with respect to x and y axis for infinitesimal changes in its coordinates and then uses this algorithm to use it in global positioning system to find accurate position of the body with respect to the satellite coordinates with respect to ground positioning. The modern method of differential frames is also very accurate as it involves infinitesimal frames which are modelled together from the satellite to find changes in the coordinates on the earths surface, so we have designed a new algorithm in this paper on the Optical flow GNSS system which is an alternative and can improve the study done in the design of these algorithms in this field of applications.
翻訳日:2022-04-13 13:34:34 公開日:2022-04-08
# クロネッカー多層アーキテクチャによるディープラーニングの次元化

Dimensionality Reduction in Deep Learning via Kronecker Multi-layer Architectures ( http://arxiv.org/abs/2204.04273v1 )

ライセンス: Link先を確認
Jarom D. Hogue and Robert M. Kirby and Akil Narayan(参考訳) ニューラルネットワークを用いたディープラーニングは、複雑なデータのモデルを生成する効果的なテクニックである。 しかし、そのようなモデルのトレーニングは、ネットワークが多数の層とノードから生じる大きなモデル能力を持つ場合、高価である。 このような計算禁止体制でのトレーニングでは、次元削減技術は計算負担を緩和し、より堅牢なネットワークの実装を可能にする。 本稿では,クロネッカー積分解の高速行列乗算に基づく新しい深層学習アーキテクチャによる新たな次元低減手法を提案する。 このアーキテクチャは、従来のフィードフォワードニューラルネットワークと同じようなエラーレベルを達成しつつ、計算時間とリソースを大幅に削減して、ニューラルネットワークをトレーニングし、実装することができることを示している。

Deep learning using neural networks is an effective technique for generating models of complex data. However, training such models can be expensive when networks have large model capacity resulting from a large number of layers and nodes. For training in such a computationally prohibitive regime, dimensionality reduction techniques ease the computational burden, and allow implementations of more robust networks. We propose a novel type of such dimensionality reduction via a new deep learning architecture based on fast matrix multiplication of a Kronecker product decomposition; in particular our network construction can be viewed as a Kronecker product-induced sparsification of an "extended" fully connected network. Analysis and practical examples show that this architecture allows a neural network to be trained and implemented with a significant reduction in computational time and resources, while achieving a similar error level compared to a traditional feedforward neural network.
翻訳日:2022-04-12 19:04:51 公開日:2022-04-08
# 音に基づく車速推定法の改良の試み

An approach to improving sound-based vehicle speed estimation ( http://arxiv.org/abs/2204.05082v1 )

ライセンス: Link先を確認
Nikola Bulatovic, Slobodan Djukanovic(参考訳) 最近提案された音速推定法の性能改善について検討する。 本手法では, 車両検出と速度推定の両方において, 改良減衰 (MA) と呼ばれる中間特性が提案されている。 MA機能は、車両の最も近い接近地点の瞬間に最大化され、車両のパスのビデオ記録から抽出されたトレーニングラベルを表す。 本稿では,元のラベル付け手法が最適でないことを示すとともに,ラベル補正法を提案する。 この方法は、10台の異なる車両の304台のオーディオビデオ記録を含むvs10データセットでテストされている。 その結果,提案手法は平均速度推定誤差を7.39km/hから6.92km/hに低減することを示した。 速度を10km/hクラスに除算すると、正しいクラス予測の精度が53.2%から53.8%に向上し、1つのクラスオフセットの許容許容度が93.4%から94.3%に向上する。

We consider improving the performance of a recently proposed sound-based vehicle speed estimation method. In the original method, an intermediate feature, referred to as the modified attenuation (MA), has been proposed for both vehicle detection and speed estimation. The MA feature maximizes at the instant of the vehicle's closest point of approach, which represents a training label extracted from video recording of the vehicle's pass by. In this paper, we show that the original labeling approach is suboptimal and propose a method for label correction. The method is tested on the VS10 dataset, which contains 304 audio-video recordings of ten different vehicles. The results show that the proposed label correction method reduces average speed estimation error from 7.39 km/h to 6.92 km/h. If the speed is discretized into 10 km/h classes, the accuracy of correct class prediction is improved from 53.2% to 53.8%, whereas when tolerance of one class offset is allowed, accuracy is improved from 93.4% to 94.3%.
翻訳日:2022-04-12 19:00:40 公開日:2022-04-08
# 感情認識のためのトランスフォーマベース自己教師付き学習

Transformer-Based Self-Supervised Learning for Emotion Recognition ( http://arxiv.org/abs/2204.05103v1 )

ライセンス: Link先を確認
Juan Vazquez-Rodriguez (M-PSI), Gr\'egoire Lefebvre, Julien Cumin, James L. Crowley (M-PSI)(参考訳) 生理的信号などの時系列信号の表現を利用するためには、これらの表現が信号全体から関連する情報を取得することが不可欠である。 本研究では,心電図(心電図)を用いて感情認識を行うトランスフォーマモデルを提案する。 Transformerのアテンションメカニズムは、信号のコンテキスト化された表現を構築するために使用することができ、関連する部分にもっと重要になる。 これらの表現は、感情を予測するために完全に接続されたネットワークで処理される。 感情ラベル付きデータセットの比較的小さなサイズを克服するために、自己教師あり学習を用いる。 我々は、感情のラベルのないいくつかのECGデータセットを収集し、モデルを事前訓練し、AMIGOSデータセット上で感情認識のために微調整した。 AMIGOSの心電図信号を用いた感情認識の最先端性能を示す。 より一般に, トランスフォーマーとプレトレーニングは, 生理的信号を用いた感情認識に有望な戦略であることが示された。

In order to exploit representations of time-series signals, such as physiological signals, it is essential that these representations capture relevant information from the whole signal. In this work, we propose to use a Transformer-based model to process electrocardiograms (ECG) for emotion recognition. Attention mechanisms of the Transformer can be used to build contextualized representations for a signal, giving more importance to relevant parts. These representations may then be processed with a fully-connected network to predict emotions. To overcome the relatively small size of datasets with emotional labels, we employ self-supervised learning. We gathered several ECG datasets with no labels of emotion to pre-train our model, which we then fine-tuned for emotion recognition on the AMIGOS dataset. We show that our approach reaches state-of-the-art performances for emotion recognition using ECG signals on AMIGOS. More generally, our experiments show that transformers and pre-training are promising strategies for emotion recognition with physiological signals.
翻訳日:2022-04-12 19:00:24 公開日:2022-04-08
# ファイバアレイレーザ送信装置を用いた適応パワービーム用自己学習AIコントローラ

The self-learning AI controller for adaptive power beaming with fiber-array laser transmitter system ( http://arxiv.org/abs/2204.05227v1 )

ライセンス: Link先を確認
A.M. Vorontsov, G.A. Filimonov(参考訳) 本研究では,大気乱流下でのファイバアレイレーザ送信システムによる適応パワービームについて検討する。 大気ファイバーアレイを通した電力遷移の最適化は、従来、協調ターゲットに取り付けられた光-電気変換センサにより無線リンクを介して制御フィードバックを提供する確率的並列勾配降下(spgd)アルゴリズムによって制御されている。 spgdアルゴリズムは、ファイバーアレイ位相シフト器やファイバ先端位置決め器に適用される電圧を連続的かつランダムに摂動させ、センサ信号の最大化を図る。 このアプローチとは対照的に、最適制御を合成するパースペクティブ・インテリジェンス(AI)制御システムは、波面センサデータ、光電圧アレイ(PVA)データ、その他の光学的または大気的パラメータを含む分析に利用可能な様々な瞳孔または対象平面データを利用することができ、SPGDベースのコントローラのよく知られた欠点を取り除くことができる。 本研究では,ターゲットプレーンPVAセンサデータを入力として,ディープニューラルネットワーク(DNN)を用いて最適制御を行う。 DNNのトレーニングは、制御システム操作と同期してオンラインで行われ、DNNの出力に小さな摂動を適用して実行される。 このアプローチでは、初期のDNNの事前トレーニングや、システムのパフォーマンスの最適化を保証する必要はない。 すべての理論結果は数値実験によって検証される。

In this study we consider adaptive power beaming with fiber-array laser transmitter system in presence of atmospheric turbulence. For optimization of power transition through the atmosphere fiber-array is traditionally controlled by stochastic parallel gradient descent (SPGD) algorithm where control feedback is provided via radio frequency link by an optical-to-electrical power conversion sensor, attached to a cooperative target. The SPGD algorithm continuously and randomly perturbs voltages applied to fiber-array phase shifters and fiber tip positioners in order to maximize sensor signal, i.e. uses, so-called, "blind" optimization principle. In opposite to this approach a perspective artificially intelligent (AI) control systems for synthesis of optimal control can utilize various pupil- or target-plane data available for the analysis including wavefront sensor data, photo-voltaic array (PVA) data, other optical or atmospheric parameters, and potentially can eliminate well-known drawbacks of SPGD-based controllers. In this study an optimal control is synthesized by a deep neural network (DNN) using target-plane PVA sensor data as its input. A DNN training is occurred online in sync with control system operation and is performed by applying of small perturbations to DNN's outputs. This approach does not require initial DNN's pre-training as well as guarantees optimization of system performance in time. All theoretical results are verified by numerical experiments.
翻訳日:2022-04-12 18:13:33 公開日:2022-04-08
# 空間的不定形後処理のための畳み込みオートエンコーダ

Convolutional autoencoders for spatially-informed ensemble post-processing ( http://arxiv.org/abs/2204.05102v1 )

ライセンス: Link先を確認
Sebastian Lerch and Kai L. Polsterer(参考訳) 組み合わさった天気予報は、通常、後処理で修正しなければならない系統的なエラーを示す。 ニューラルネットワークに基づく最先端のポストプロセッシング手法でさえ、物理気象モデルの空間予測フィールドを対象の場所に補間する必要がある場所固有の予測器のみに依存することが多い。 しかしながら、入力フィールド内の大規模空間構造に含まれる潜在的に有用な予測可能性情報は、この補間ステップで失われる可能性がある。 そこで本稿では,畳み込み型オートエンコーダを用いて空間入力場のコンパクトな表現を学習し,後処理モデルへの追加入力として位置固有情報を拡張できる手法を提案する。 この空間情報を含めることの利点は、ドイツの地上局における2m温度予測のケーススタディで示される。

Ensemble weather predictions typically show systematic errors that have to be corrected via post-processing. Even state-of-the-art post-processing methods based on neural networks often solely rely on location-specific predictors that require an interpolation of the physical weather model's spatial forecast fields to the target locations. However, potentially useful predictability information contained in large-scale spatial structures within the input fields is potentially lost in this interpolation step. Therefore, we propose the use of convolutional autoencoders to learn compact representations of spatial input fields which can then be used to augment location-specific information as additional inputs to post-processing models. The benefits of including this spatial information is demonstrated in a case study of 2-m temperature forecasts at surface stations in Germany.
翻訳日:2022-04-12 18:06:38 公開日:2022-04-08
# ビデオ・スーパーレゾリューションのための学習軌跡認識トランスフォーマ

Learning Trajectory-Aware Transformer for Video Super-Resolution ( http://arxiv.org/abs/2204.04216v1 )

ライセンス: Link先を確認
Chengxu Liu, Huan Yang, Jianlong Fu, Xueming Qian(参考訳) ビデオ超解像(VSR)は、高解像度(HR)フレームを低解像度(LR)フレームから復元することを目的としている。 ある程度の進展はあるものの、ビデオシーケンス全体の時間依存を効果的に活用する大きな課題がある。 既存のアプローチは通常、制限された隣接するフレーム(例えば5または7フレーム)からビデオフレームを調整して集約する。 本稿では,映像における時空間学習の有効化に向けて,さらに一歩踏み出す。 ビデオ超解像用トラジェクトリ対応トランスフォーマ(TTVSR)を提案する。 特に,ビデオフレームを連続的な視覚的トークンからなる事前整列軌道に定式化する。 クエリトークンの場合、自己注意は時空間軌跡に沿った関連する視覚トークンでのみ学習される。 バニラビジョントランスフォーマーと比較して、このような設計は計算コストを大幅に削減し、トランスフォーマーが長距離特性をモデル化できる。 さらに,長距離ビデオでしばしば発生するスケール変更問題を克服する,クロススケールな機能トークン化モジュールを提案する。 実験結果から,提案するttvsrの最先端モデルに対する優位性を,広範に使用されている4種類のビデオ超解像ベンチマークを用いた定量的・質的評価により実証した。 コードと事前訓練されたモデルはhttps://github.com/researchmm/TTVSRでダウンロードできる。

Video super-resolution (VSR) aims to restore a sequence of high-resolution (HR) frames from their low-resolution (LR) counterparts. Although some progress has been made, there are grand challenges to effectively utilize temporal dependency in entire video sequences. Existing approaches usually align and aggregate video frames from limited adjacent frames (e.g., 5 or 7 frames), which prevents these approaches from satisfactory results. In this paper, we take one step further to enable effective spatio-temporal learning in videos. We propose a novel Trajectory-aware Transformer for Video Super-Resolution (TTVSR). In particular, we formulate video frames into several pre-aligned trajectories which consist of continuous visual tokens. For a query token, self-attention is only learned on relevant visual tokens along spatio-temporal trajectories. Compared with vanilla vision Transformers, such a design significantly reduces the computational cost and enables Transformers to model long-range features. We further propose a cross-scale feature tokenization module to overcome scale-changing problems that often occur in long-range videos. Experimental results demonstrate the superiority of the proposed TTVSR over state-of-the-art models, by extensive quantitative and qualitative evaluations in four widely-used video super-resolution benchmarks. Both code and pre-trained models can be downloaded at https://github.com/researchmm/TTVSR.
翻訳日:2022-04-12 17:44:21 公開日:2022-04-08
# ChildCIフレームワーク:年齢検出のためのコンピュータインタラクションによる子どもの運動・認知発達の分析

ChildCI Framework: Analysis of Motor and Cognitive Development in Children-Computer Interaction for Age Detection ( http://arxiv.org/abs/2204.04236v1 )

ライセンス: Link先を確認
Juan Carlos Ruiz-Garcia, Ruben Tolosana, Ruben Vera-Rodriguez, Jaime Herreros-Rodriguez(参考訳) 本稿では,最近のkidciフレームワークで提案されている異なるテストの包括的分析を行い,子どもの神経運動と認知発達をよりよく理解する可能性と,e-healthやe-learningといった他の研究分野への応用について述べる。 特に,子どもたちとモバイルデバイスとのインタラクションの運動・認知的側面に関連する100以上のグローバル特徴のセットを提案し,その一部は文献から収集・適応された。 さらに, 運動と認知行動に基づいて, 児童年齢群検出の課題に対する実験結果を含む, 特徴集合の頑健性と識別力について分析した。 本研究では2つの異なるシナリオを考察する。 一 単体テストのシナリオ及び ii) 複数テストシナリオ。 93%以上の精度が、公開可能なkidcidb_v1データベース(18ヶ月から8歳までの400人以上の子ども)を用いて達成され、子どもの年齢とモバイルデバイスとのインタラクション方法との相関が証明された。

This article presents a comprehensive analysis of the different tests proposed in the recent ChildCI framework, proving its potential for generating a better understanding of children's neuromotor and cognitive development along time, as well as their possible application in other research areas such as e-Health and e-Learning. In particular, we propose a set of over 100 global features related to motor and cognitive aspects of the children interaction with mobile devices, some of them collected and adapted from the literature. Furthermore, we analyse the robustness and discriminative power of the proposed feature set including experimental results for the task of children age group detection based on their motor and cognitive behaviors. Two different scenarios are considered in this study: i) single-test scenario, and ii) multiple-test scenario. Results over 93% accuracy are achieved using the publicly available ChildCIdb_v1 database (over 400 children from 18 months to 8 years old), proving the high correlation of children's age with the way they interact with mobile devices.
翻訳日:2022-04-12 17:44:00 公開日:2022-04-08
# スケッチデータからの共形周波数推定

Conformalized Frequency Estimation from Sketched Data ( http://arxiv.org/abs/2204.04270v1 )

ライセンス: Link先を確認
Matteo Sesia and Stefano Favaro(参考訳) 膨大なデータ集合内のクエリ対象の頻度に対する信頼区間を,これらのデータのより小さなスケッチに含まれる情報に基づいて構築するために,フレキシブルな共形推論法を開発した。 この手法は完全にデータ適応的であり、人口分布やスケッチアルゴリズムの内部動作の知識を一切利用しない。 提案手法はより広い範囲で適用可能であるが,本論文では,有名なカウントミンスケッチアルゴリズムと,その非線形変動を併用して表現を容易にする。 この性能は、SARS-CoV-2のDNA配列と古典英語の文献からなる実際のデータセットと同様に、合成データによるいくつかの実験を通じて、既存の頻繁な代替品やベイズ的な代替品と比較される。

A flexible conformal inference method is developed to construct confidence intervals for the frequencies of queried objects in a very large data set, based on the information contained in a much smaller sketch of those data. The approach is completely data-adaptive and makes no use of any knowledge of the population distribution or of the inner workings of the sketching algorithm; instead, it constructs provably valid frequentist confidence intervals under the sole assumption of data exchangeability. Although the proposed solution is much more broadly applicable, this paper explicitly demonstrates its use in combination with the famous count-min sketch algorithm and a non-linear variation thereof to facilitate the exposition. The performance is compared to that of existing frequentist and Bayesian alternatives through several experiments with synthetic data as well as with real data sets consisting of SARS-CoV-2 DNA sequences and classic English literature.
翻訳日:2022-04-12 17:24:21 公開日:2022-04-08
# マルチソースドメイン適応のための自己改善グラフニューラルネットワーク

Self-Supervised Graph Neural Network for Multi-Source Domain Adaptation ( http://arxiv.org/abs/2204.05104v1 )

ライセンス: Link先を確認
Jin Yuan, Feng Hou, Yangzhou Du, Zhongchao Shi, Xin Geng, Jianping Fan, Yong Rui(参考訳) ドメイン適応(DA)は、テストデータがトレーニングデータの同じ分布に完全に従わない場合と、マルチソースドメイン適応(MSDA)が現実世界のアプリケーションにとって非常に魅力的な場合のシナリオに取り組む。 大規模未ラベルサンプルから学習することで、自己教師型学習がディープラーニングの新しいトレンドとなっている。 自己教師付き学習とマルチソースドメイン適応の両方が、同じような目標を共有している点に注意が必要だ。 残念なことに,従来のマルチタスク型自己教師型学習では,(1)プリテキストタスクが下流タスクと強く関係しない場合があり,(2)プリテキストタスクから目標タスクに共有される有用な知識の習得が困難である場合,(2)同じ特徴抽出器がプリテキストタスクと下流タスクの間で共有され,異なる予測ヘッドのみが使用される場合,タスク間の情報交換と知識共有が不可能である場合,2つの課題に直面している。 そこで本研究では,より効果的なタスク間情報交換と知識共有を実現するために,グラフニューラルネットワークを橋渡しとして使用する新しい \textbf{s}elf-\textbf{s}upervised \textbf{g}raph neural network (ssg)を提案する。 より表現力のある表現は、いくつかのドメイン情報をマスクするためにマスクトークン戦略を採用することで学べる。 提案するssg法の有効性を示す4つの多ソースドメイン適応データセットについて,提案手法が最先端の結果を得たことを示す実験を行った。

Domain adaptation (DA) tries to tackle the scenarios when the test data does not fully follow the same distribution of the training data, and multi-source domain adaptation (MSDA) is very attractive for real world applications. By learning from large-scale unlabeled samples, self-supervised learning has now become a new trend in deep learning. It is worth noting that both self-supervised learning and multi-source domain adaptation share a similar goal: they both aim to leverage unlabeled data to learn more expressive representations. Unfortunately, traditional multi-task self-supervised learning faces two challenges: (1) the pretext task may not strongly relate to the downstream task, thus it could be difficult to learn useful knowledge being shared from the pretext task to the target task; (2) when the same feature extractor is shared between the pretext task and the downstream one and only different prediction heads are used, it is ineffective to enable inter-task information exchange and knowledge sharing. To address these issues, we propose a novel \textbf{S}elf-\textbf{S}upervised \textbf{G}raph Neural Network (SSG), where a graph neural network is used as the bridge to enable more effective inter-task information exchange and knowledge sharing. More expressive representation is learned by adopting a mask token strategy to mask some domain information. Our extensive experiments have demonstrated that our proposed SSG method has achieved state-of-the-art results over four multi-source domain adaptation datasets, which have shown the effectiveness of our proposed SSG method from different aspects.
翻訳日:2022-04-12 17:13:28 公開日:2022-04-08
# aprendizaje autom\'atico を用いた太陽の日射現象の予測

Predicci\'on de radiaci\'on solar en sistemas fotovoltaicos utilizando t\'ecnicas de aprendizaje autom\'atico ( http://arxiv.org/abs/2204.04313v1 )

ライセンス: Link先を確認
Luis Eduardo Ordo\~nez Palacios, V\'ictor Bucheli Guerrero, Hugo Ordo\~nez(参考訳) 地理的な位置における太陽放射の挙動を知ることは、太陽光発電システムを用いた太陽からのエネルギーの使用には不可欠であるが、気象パラメータの測定と遠隔地における太陽磁場の大きさの決定のためのステーションの数は限られている。 この研究では、gos-13衛星から得られた画像を用いて、気象観測所からデータセットに統合可能な変数を抽出した。 このことから、3つの異なるモデルが構築され、5つの機械学習アルゴリズムによる日射予測の性能が評価された。 4つの評価指標を用いて行った分析によれば、ニューラルネットワークは、気象変数と画像から得られる変数を統合するモデルで最も高い性能を示したが、rrmseが考慮された場合、得られたすべての結果は20%以上であり、アルゴリズムのパフォーマンスは公平であると分類された。 2012年のデータセットでは、MBE、R2、RMSE、rRMSEによる推定結果は、それぞれ-0.051、0.880、90.99、26.7%であった。 2017年のデータセットでは、MBE、R2、RMSE、rRMSEはそれぞれ-0.146、0.917、40.97、22.3%であった。 衛星画像から太陽放射を計算することは可能であるが、地上観測機器で捉えた放射データや日光に依存する統計方法もあることは事実であり、地上測定ステーションの数は限られているため、必ずしも不可能である。

Knowing the behavior of solar radiation at a geographic location is essential for the use of energy from the sun using photovoltaic systems; however, the number of stations for measuring meteorological parameters and for determining the size of solar fields in remote areas is limited. In this work, images obtained from the GOES-13 satellite were used, from which variables were extracted that could be integrated into datasets from meteorological stations. From this, 3 different models were built, on which the performance of 5 machine learning algorithms in predicting solar radiation was evaluated. The neural networks had the highest performance in the model that integrated the meteorological variables and the variables obtained from the images, according to an analysis carried out using four evaluation metrics; although if the rRMSE is considered, all results obtained were higher than 20%, which classified the performance of the algorithms as fair. In the 2012 dataset, the estimation results according to the metrics MBE, R2, RMSE, and rRMSE corresponded to -0.051, 0.880, 90.99 and 26.7%, respectively. In the 2017 dataset, the results of MBE, R2, RMSE, and rRMSE were -0.146, 0.917, 40.97 and 22.3%, respectively. Although it is possible to calculate solar radiation from satellite images, it is also true that some statistical methods depend on radiation data and sunshine captured by ground-based instruments, which is not always possible given that the number of measurement stations on the surface is limited.
翻訳日:2022-04-12 17:06:05 公開日:2022-04-08
# 各種カーネルサイズを有するマルチモーダルマルチヘッドコンボリューションの医療画像超解像への応用

Multimodal Multi-Head Convolutional Attention with Various Kernel Sizes for Medical Image Super-Resolution ( http://arxiv.org/abs/2204.04218v1 )

ライセンス: Link先を確認
Mariana-Iuliana Georgescu, Radu Tudor Ionescu, Andreea-Iuliana Miron, Olivian Savencu, Nicolae-Catalin Ristea, Nicolae Verga, Fahad Shahbaz Khan(参考訳) 超解像医療画像は、医師がより正確な診断を行うのに役立つ。 コンピュータ断層撮影(CT)または磁気共鳴イメージング(MRI)技術は、単一の調査で複数のスキャン(モデム)を出力するが、これは(マルチモーダルな方法で)共同で使用することで、超解像結果の質をさらに高めることができる。 そこで本研究では,超解像CTおよびMRIスキャンのためのマルチモーダルマルチヘッドコンボリューションアテンションモジュールを提案する。 コンボリューションモジュールは、コンボリューション演算を用いて複数の連結入力テンソルに対して共同で空間チャネル注意を行う。カーネル(受信フィールド)サイズが空間注意の低減率を制御し、畳み込みフィルタの個数がチャネル注意の低減率をそれぞれ制御する。 本稿では,空間的注意の特定の低減率に対応する異なる受容場サイズを有する複数の注意ヘッドを紹介する。 我々は,マルチモーダルマルチヘッド畳み込み注意(mmhca)を2つのディープニューラルネットワークに統合し,超解像実験を行った。 実験の結果,超解像における注目機構よりも注目モジュールの方が優れていることが示された。 さらに,注目モジュールの入力数や頭部数など,注目モジュールに関わるコンポーネントの影響を評価するためのアブレーション調査を実施している。

Super-resolving medical images can help physicians in providing more accurate diagnostics. In many situations, computed tomography (CT) or magnetic resonance imaging (MRI) techniques output several scans (modes) during a single investigation, which can jointly be used (in a multimodal fashion) to further boost the quality of super-resolution results. To this end, we propose a novel multimodal multi-head convolutional attention module to super-resolve CT and MRI scans. Our attention module uses the convolution operation to perform joint spatial-channel attention on multiple concatenated input tensors, where the kernel (receptive field) size controls the reduction rate of the spatial attention and the number of convolutional filters controls the reduction rate of the channel attention, respectively. We introduce multiple attention heads, each head having a distinct receptive field size corresponding to a particular reduction rate for the spatial attention. We integrate our multimodal multi-head convolutional attention (MMHCA) into two deep neural architectures for super-resolution and conduct experiments on three data sets. Our empirical results show the superiority of our attention module over the state-of-the-art attention mechanisms used in super-resolution. Moreover, we conduct an ablation study to assess the impact of the components involved in our attention module, e.g. the number of inputs or the number of heads.
翻訳日:2022-04-12 15:58:28 公開日:2022-04-08
# show, don't tell: スキーマ誘導タスク指向対話における説明よりも優れるデモ

Show, Don't Tell: Demonstrations Outperform Descriptions for Schema-Guided Task-Oriented Dialogue ( http://arxiv.org/abs/2204.04327v1 )

ライセンス: Link先を確認
Raghav Gupta, Harrison Lee, Jeffrey Zhao, Abhinav Rastogi, Yuan Cao, Yonghui Wu(参考訳) 複数のドメイン/apiにまたがってシームレスに動作し、最小限の監督とメンテナンスで新しいものに一般化できるユニバーサル対話システムを構築することは、重要な課題である。 近年の研究では,このようなシステムを実現するために,自然言語記述をスキーマ要素として活用している。 そこで本研究では,sep,don't tell,seq2seqモデリングのためのプロンプトフォーマットを提案する。 サービス開発者から同様の労力が必要とされる一方で、大規模な言語モデルを持つスキーマ表現として短い例を使用することで、パフォーマンスが向上し、2つの人気のある対話状態追跡ベンチマーク(schema-guided dialogue datasetとmultiwoz leave-one-out benchmark)の一般化が図れる。

Building universal dialogue systems that can seamlessly operate across multiple domains/APIs and generalize to new ones with minimal supervision and maintenance is a critical challenge. Recent works have leveraged natural language descriptions for schema elements to enable such systems; however, descriptions can only indirectly convey schema semantics. In this work, we propose Show, Don't Tell, a prompt format for seq2seq modeling which uses a short labeled example dialogue to show the semantics of schema elements rather than tell the model via descriptions. While requiring similar effort from service developers, we show that using short examples as schema representations with large language models results in stronger performance and better generalization on two popular dialogue state tracking benchmarks: the Schema-Guided Dialogue dataset and the MultiWoZ leave-one-out benchmark.
翻訳日:2022-04-12 15:55:47 公開日:2022-04-08
# 確率的最短経路問題の一般化解法における抽象的AND-ORグラフの適用に関する予備的結果

Preliminary Results on Using Abstract AND-OR Graphs for Generalized Solving of Stochastic Shortest Path Problems ( http://arxiv.org/abs/2204.04301v1 )

ライセンス: Link先を確認
Rushang Karia, Rashmeet Kaur Nayyar, Siddharth Srivastava(参考訳) 現実世界のいくつかのゴール指向問題は、SSP(Stochastic Shortest Path Problems)として自然に表現できる。 しかし、SSPフレームワークにおける問題に対する解の計算の難しさは、計算要求がしばしば適度な大きさの問題の解を見つけることを困難にしていることである。 このような問題に対する解は、小さな例から非常に容易に計算でき、多数のオブジェクトや異なるオブジェクト名を持つ問題に容易に適用できる一般化されたポリシーとして表されることが多い。 本稿では,そのような一般化されたポリシーを計算し,単純な非決定論的メモリレスコントローラへ変換するグラフとして表現するための,標準的抽象化を用いた予備的研究を行う。 このような政策構造は自然に問題を解くための階層的アプローチに結びつき、我々のアプローチを任意のSSP解決器に組み込んで階層的最適ポリシーを計算できることを示します。 我々は、よく知られた計画ベンチマークと難しいロボティクス領域で実証的な評価を行い、我々のアプローチが有望であることを示し、しばしば最先端のSSP解法よりもはるかに高速に最適ポリシーを計算した。

Several goal-oriented problems in the real-world can be naturally expressed as Stochastic Shortest Path Problems (SSPs). However, a key difficulty for computing solutions for problems in the SSP framework is that the computational requirements often make finding solutions to even moderately sized problems intractable. Solutions to many of such problems can often be expressed as generalized policies that are quite easy to compute from small examples and are readily applicable to problems with a larger number of objects and/or different object names. In this paper, we provide a preliminary study on using canonical abstractions to compute such generalized policies and represent them as AND-OR graphs that translate to simple non-deterministic, memoryless controllers. Such policy structures naturally lend themselves to a hierarchical approach for solving problems and we show that our approach can be embedded in any SSP solver to compute hierarchically optimal policies. We conducted an empirical evaluation on some well-known planning benchmarks and difficult robotics domains and show that our approach is promising, often computing optimal policies significantly faster than state-of-art SSP solvers.
翻訳日:2022-04-12 15:43:55 公開日:2022-04-08
# 完全観測可能な非決定論的計画のための反復的深さ優先探索

Iterative Depth-First Search for Fully Observable Non-Deterministic Planning ( http://arxiv.org/abs/2204.04322v1 )

ライセンス: Link先を確認
Ramon Fraga Pereira, Andr\'e G. Pereira, Frederico Messa, and Giuseppe De Giacomo(参考訳) 完全な可観測非決定論的計画(FOND)は、非決定論的効果を持つ行動を通じて不確実性をモデル化する。 既存のFOND計画アルゴリズムは有効であり、幅広い手法を採用している。 しかし、既存のアルゴリズムの多くは、非決定性とタスクサイズの両方を扱うのに堅牢ではない。 本稿では,FOND計画タスクを解き,強い周期的ポリシーを生成する,反復型深度優先探索アルゴリズムを提案する。 このアルゴリズムは、FOND計画の非決定論的側面をより直接的に扱えるように設計されており、反復探索プロセスにおいてアルゴリズムをより効果的にするためにヒューリスティック関数の利点を利用する。 提案アルゴリズムをよく知られたFONDプランナと比較し、異なる指標を考慮した複数の異なるFONDドメインに対して堅牢な性能を示すことを示す。

Fully Observable Non-Deterministic (FOND) planning models uncertainty through actions with non-deterministic effects. Existing FOND planning algorithms are effective and employ a wide range of techniques. However, most of the existing algorithms are not robust for dealing with both non-determinism and task size. In this paper, we develop a novel iterative depth-first search algorithm that solves FOND planning tasks and produces strong cyclic policies. Our algorithm is explicitly designed for FOND planning, addressing more directly the non-deterministic aspect of FOND planning, and it also exploits the benefits of heuristic functions to make the algorithm more effective during the iterative searching process. We compare our proposed algorithm to well-known FOND planners, and show that it has robust performance over several distinct types of FOND domains considering different metrics.
翻訳日:2022-04-12 15:43:36 公開日:2022-04-08
# 肺塞栓症アノテーションのための特徴強調半教師付き意味セグメンテーションネットワーク

Feature-enhanced Adversarial Semi-supervised Semantic Segmentation Network for Pulmonary Embolism Annotation ( http://arxiv.org/abs/2204.04217v1 )

ライセンス: Link先を確認
Ting-Wei Cheng, Jerry Chang, Ching-Chun Huang, Chin Kuo, Yun-Chien Cheng(参考訳) 本研究はCTPA画像における肺塞栓病変領域を自動的にアノテーションする機能強化逆行性半教師的セマンティックセグメンテーションモデルを構築した。 近年の研究では,PECTPA画像分割法はすべて教師あり学習によって訓練されている。 しかし、教師付き学習モデルの再訓練が必要であり、CTPA画像が異なる病院から来れば、画像は回避される必要がある。 本研究では,少量の未ラベル画像を追加することで,異なるデータセットに適用可能なモデルを半教師付き学習法を提案する。 ラベル付き画像とラベル付き画像の両方でモデルを訓練することにより、ラベル付き画像の精度を向上でき、ラベル付き画像のコストを低減できる。 半教師付きセグメンテーションモデルはセグメンテーションネットワークと判別ネットワークを含む。 識別器にセグメンテーションネットワークのエンコーダから生成された特徴情報を加え,予測マスクと地中真実マスクの類似性を学習できるようにした。 このHRNetベースのアーキテクチャは、畳み込み操作の高解像度を維持し、小さなPE病変領域の予測を改善することができる。 ラベル付きオープンソースデータセットと未ラベルの国立Cheng Kung University Hospital (NCKUH) (IRB番号:B-ER-108-380) データセットを用いて, 半教師付き学習モデルのトレーニングを行い, 結果として得られた平均交点(mIOU), ダイススコア, 感度はそれぞれ0.3510, 0.4854, 0.4253をNCKUHデータセット上で達成した。 その後,中国医科大学附属病院(CMUH)から少量の未ラベルPECTPA画像(IRB番号:CMUH110-REC3-173)を用いて実験を行った。 半教師モデルと教師付きモデルを比較すると, mIOU, サイススコア, 感度は0.2344, 0.3325, 0.3151から0.3721, 0.5113, 0.4967に改善した。

This study established a feature-enhanced adversarial semi-supervised semantic segmentation model to automatically annotate pulmonary embolism lesion areas in computed tomography pulmonary angiogram (CTPA) images. In current studies, all of the PE CTPA image segmentation methods are trained by supervised learning. However, the supervised learning models need to be retrained and the images need to be relabeled when the CTPA images come from different hospitals. This study proposed a semi-supervised learning method to make the model applicable to different datasets by adding a small amount of unlabeled images. By training the model with both labeled and unlabeled images, the accuracy of unlabeled images can be improved and the labeling cost can be reduced. Our semi-supervised segmentation model includes a segmentation network and a discriminator network. We added feature information generated from the encoder of segmentation network to the discriminator so that it can learn the similarity between predicted mask and ground truth mask. This HRNet-based architecture can maintain a higher resolution for convolutional operations so the prediction of small PE lesion areas can be improved. We used the labeled open-source dataset and the unlabeled National Cheng Kung University Hospital (NCKUH) (IRB number: B-ER-108-380) dataset to train the semi-supervised learning model, and the resulting mean intersection over union (mIOU), dice score, and sensitivity achieved 0.3510, 0.4854, and 0.4253, respectively on the NCKUH dataset. Then, we fine-tuned and tested the model with a small amount of unlabeled PE CTPA images from China Medical University Hospital (CMUH) (IRB number: CMUH110-REC3-173) dataset. Comparing the results of our semi-supervised model with the supervised model, the mIOU, dice score, and sensitivity improved from 0.2344, 0.3325, and 0.3151 to 0.3721, 0.5113, and 0.4967, respectively.
翻訳日:2022-04-12 15:00:23 公開日:2022-04-08
# 信頼性デプロイメントのための量子化モデルの振る舞いの特徴と理解

Characterizing and Understanding the Behavior of Quantized Models for Reliable Deployment ( http://arxiv.org/abs/2204.04220v1 )

ライセンス: Link先を確認
Qiang Hu, Yuejun Guo, Maxime Cordy, Xiaofei Xie, Wei Ma, Mike Papadakis, Yves Le Traon(参考訳) ディープニューラルネットワーク(dnn)は、自然言語モデリング、自動運転支援、ソースコード理解など、さまざまなアプリケーションで驚くほどのパフォーマンスのおかげで、過去数十年でかなりの注目を集めています。 迅速な探索により、より複雑なDNNアーキテクチャと巨大な事前学習モデルパラメータが提案されている。 このようなDNNモデルをユーザフレンドリーなデバイス(携帯電話など)で使用する一般的な方法は、デプロイ前にモデル圧縮を実行することである。 しかし、近年の研究では、モデル圧縮(例えばモデル量子化)が精度の低下をもたらすだけでなく、見当たらないデータでテストすると不一致が生じることが示されている。 未知のデータは常に分布シフトを含み、しばしば野生に現れるため、量子化されたモデルの品質と信頼性は保証されない。 本稿では,ユーザが量子化モデルの振る舞いを特徴付け,理解するための総合的な研究を行う。 本研究では,画像からテキストまでの4つのデータセット,フィードフォワードニューラルネットワークとリカレントニューラルネットワークを含む8つのdnnアーキテクチャ,合成および自然分布シフトの42のシフトセットについて検討した。 その結果は 1) 分散シフトを伴うデータは、無関係よりも相反する。 2)量子化アウェアトレーニングは,標準,敵意,ミックスアップトレーニングよりも安定なモデルを生成することができる。 3) 診断は、しばしばトップ1とトップ2の出力確率が近く、$Margin$は、相違点を区別する他の不確実性指標よりも優れた指標である。 4)不一致の緩和は、不一致の除去の効率に限界がある。 量子化モデルをさらに研究するための新しいベンチマークとして、コードとモデルをオープンソースとして公開しています。

Deep Neural Networks (DNNs) have gained considerable attention in the past decades due to their astounding performance in different applications, such as natural language modeling, self-driving assistance, and source code understanding. With rapid exploration, more and more complex DNN architectures have been proposed along with huge pre-trained model parameters. The common way to use such DNN models in user-friendly devices (e.g., mobile phones) is to perform model compression before deployment. However, recent research has demonstrated that model compression, e.g., model quantization, yields accuracy degradation as well as outputs disagreements when tested on unseen data. Since the unseen data always include distribution shifts and often appear in the wild, the quality and reliability of quantized models are not ensured. In this paper, we conduct a comprehensive study to characterize and help users understand the behaviors of quantized models. Our study considers 4 datasets spanning from image to text, 8 DNN architectures including feed-forward neural networks and recurrent neural networks, and 42 shifted sets with both synthetic and natural distribution shifts. The results reveal that 1) data with distribution shifts happen more disagreements than without. 2) Quantization-aware training can produce more stable models than standard, adversarial, and Mixup training. 3) Disagreements often have closer top-1 and top-2 output probabilities, and $Margin$ is a better indicator than the other uncertainty metrics to distinguish disagreements. 4) Retraining with disagreements has limited efficiency in removing disagreements. We opensource our code and models as a new benchmark for further studying the quantized models.
翻訳日:2022-04-12 14:58:43 公開日:2022-04-08
# パンデミックにおける政策立案のための解釈可能なAI

Interpretable AI for policy-making in pandemics ( http://arxiv.org/abs/2204.04256v1 )

ライセンス: Link先を確認
Leonardo Lucio Custode and Giovanni Iacca(参考訳) 新型コロナウイルス(covid-19)パンデミックの最初の波以降、政府は感染拡大を遅らせるために規制を講じてきた。 しかし、特に政府はパンデミック拡大と経済損失のトレードオフが必要なため、こうした政策の策定は困難である。 このため、いくつかの研究は、しばしば特別目的シミュレーターの助けを借りて機械学習技術を適用し、政府によって得られたものよりも効果的なポリシーを作成した。 これらのアプローチはブラックボックス機械学習をベースにしているため、これらのポリシーは分析もテストもできず、信頼できないため、現実の応用性は限られている。 本研究では,パンデミックを包含する解釈可能なポリシーの生成のために,強化学習と進化的計算を組み合わせたハイブリッドアプローチを最近開発した。 既存のシミュレーターで訓練されたこれらの政策は、経済損失を最小限に抑えつつ、パンデミックの拡散を減らすことを目的としている。 結果から,我々のアプローチは,極めて単純かつ極めて強力なソリューションを見つけることが可能であることが分かりました。 実際、我々のアプローチは以前の作業と政府の方針の両方よりもはるかに優れたパフォーマンス(シミュレーションシナリオでは)を持っています。

Since the first wave of the COVID-19 pandemic, governments have applied restrictions in order to slow down its spreading. However, creating such policies is hard, especially because the government needs to trade-off the spreading of the pandemic with the economic losses. For this reason, several works have applied machine learning techniques, often with the help of special-purpose simulators, to generate policies that were more effective than the ones obtained by governments. While the performance of such approaches are promising, they suffer from a fundamental issue: since such approaches are based on black-box machine learning, their real-world applicability is limited, because these policies cannot be analyzed, nor tested, and thus they are not trustable. In this work, we employ a recently developed hybrid approach, which combines reinforcement learning with evolutionary computation, for the generation of interpretable policies for containing the pandemic. These policies, trained on an existing simulator, aim to reduce the spreading of the pandemic while minimizing the economic losses. Our results show that our approach is able to find solutions that are extremely simple, yet very powerful. In fact, our approach has significantly better performance (in simulated scenarios) than both previous work and government policies.
翻訳日:2022-04-12 14:58:18 公開日:2022-04-08
# フーリエニューラル演算子の対向ロバスト性評価

Evaluating the Adversarial Robustness for Fourier Neural Operators ( http://arxiv.org/abs/2204.04259v1 )

ライセンス: Link先を確認
Abolaji D. Adesoji and Pin-Yu Chen(参考訳) 近年、ML(Machine-Learning)によるアプローチは科学的発見領域で広く用いられている。 このうち、フーリエ・ニューラル・オペレータ(FNO)は、ゼロショット超解法と優れた精度で乱流をシミュレートし、従来の偏微分方程式(PDE)の解法と比較して速度を大幅に改善した。 信頼性を検証するために,FNOの逆例を生成し,標準有界データ入力摂動に基づく科学的発見モデルの逆ロバスト性に関する最初の研究を行った。 FNOモデルの出力とPDEソルバの出力の平均2乗誤差を評価した結果、特に2D Darcy や Navier のような非単純ケースでは、モデルのロバスト性は摂動レベルの増加とともに急速に低下することが示された。 本研究は,MLに基づく科学的発見モデルの対角的堅牢性を評価するための感度解析ツールと評価原理を提供する。

In recent years, Machine-Learning (ML)-driven approaches have been widely used in scientific discovery domains. Among them, the Fourier Neural Operator (FNO) was the first to simulate turbulent flow with zero-shot super-resolution and superior accuracy, which significantly improves the speed when compared to traditional partial differential equation (PDE) solvers. To inspect the trustworthiness, we provide the first study on the adversarial robustness of scientific discovery models by generating adversarial examples for FNO, based on norm-bounded data input perturbations. Evaluated on the mean squared error between the FNO model's output and the PDE solver's output, our results show that the model's robustness degrades rapidly with increasing perturbation levels, particularly in non-simplistic cases like the 2D Darcy and the Navier cases. Our research provides a sensitivity analysis tool and evaluation principles for assessing the adversarial robustness of ML-based scientific discovery models.
翻訳日:2022-04-12 14:30:39 公開日:2022-04-08
# 言語抽象化と事前学習表現による意味探索

Semantic Exploration from Language Abstractions and Pretrained Representations ( http://arxiv.org/abs/2204.05080v1 )

ライセンス: Link先を確認
Allison C. Tam, Neil C. Rabinowitz, Andrew K. Lampinen, Nicholas A. Roy, Stephanie C. Y. Chan, DJ Strouse, Jane X. Wang, Andrea Banino, Felix Hill(参考訳) 連続した一対一の3D環境は、高次元の状態と行動空間のため、強化学習(RL)エージェントに固有の探索課題をもたらす。 これらの課題は、意味的に意味のある状態抽象化を使用して探索の新規性を定義することで改善することができる。 自然言語によって形成される学習表現は、まさにこの抽象化形式を提供する。 特に,インターネットからサンプリングされた画像キャプションデータセットに事前学習された場合,視覚言語表現は有意義でタスク関連性の高い探索を促進し,3次元シミュレーション環境における性能を向上させる。 我々はまた、事前訓練されたモデル、言語オラクル、およびいくつかのアブレーションからの表現の使用の影響を比較することによって、言語が探索に有用な抽象化を提供する理由と方法を特徴付ける。 我々は、我々のアプローチの利点を、ImpalaとR2D2という2つの人気のあるディープRLアルゴリズムと同様に、2つの非常に異なるタスクドメイン、すなわち、日常のオブジェクトの識別と操作を強調するもの、そして、拡張された世界でナビゲーションの探索を必要とするもので示します。 以上より,言語表現を用いることで,課題環境における様々なアルゴリズムやエージェントの探索が向上することが示唆された。

Continuous first-person 3D environments pose unique exploration challenges to reinforcement learning (RL) agents because of their high-dimensional state and action spaces. These challenges can be ameliorated by using semantically meaningful state abstractions to define novelty for exploration. We propose that learned representations shaped by natural language provide exactly this form of abstraction. In particular, we show that vision-language representations, when pretrained on image captioning datasets sampled from the internet, can drive meaningful, task-relevant exploration and improve performance on 3D simulated environments. We also characterize why and how language provides useful abstractions for exploration by comparing the impacts of using representations from a pretrained model, a language oracle, and several ablations. We demonstrate the benefits of our approach in two very different task domains -- one that stresses the identification and manipulation of everyday objects, and one that requires navigational exploration in an expansive world -- as well as two popular deep RL algorithms: Impala and R2D2. Our results suggest that using language-shaped representations could improve exploration for various algorithms and agents in challenging environments.
翻訳日:2022-04-12 14:30:21 公開日:2022-04-08
# 深層学習による視覚に基づくアメリカ手話分類手法

Vision-Based American Sign Language Classification Approach via Deep Learning ( http://arxiv.org/abs/2204.04235v1 )

ライセンス: Link先を確認
Nelly Elsayed, Zag ElSayed, Anthony S. Maida(参考訳) 聴覚障害は、社会の他者とのコミュニケーションに重大な問題を引き起こす部分的または全体的難聴の障害である。 アメリカン手話 (American Sign Language, ASL) は、聴覚障害のあるコミュニティが互いにコミュニケーションするために最もよく使われる手話である。 本稿では,障害に関連するコミュニケーション障壁を取り除くためのステップとして,アメリカ手話文字を分類することを目的とした,シンプルなディープラーニングモデルを提案する。

Hearing-impaired is the disability of partial or total hearing loss that causes a significant problem for communication with other people in society. American Sign Language (ASL) is one of the sign languages that most commonly used language used by Hearing impaired communities to communicate with each other. In this paper, we proposed a simple deep learning model that aims to classify the American Sign Language letters as a step in a path for removing communication barriers that are related to disabilities.
翻訳日:2022-04-12 14:26:01 公開日:2022-04-08
# ディープフェイク検出器のクロスデータセット一般化の改善について

On Improving Cross-dataset Generalization of Deepfake Detectors ( http://arxiv.org/abs/2204.04285v1 )

ライセンス: Link先を確認
Aakash Varma Nadimpalli and Ajita Rattani(参考訳) ディープフェイクによる顔操作は、大きなセキュリティリスクを引き起こし、社会的な深刻な懸念を引き起こした。 対策として,近年,多くの偽造検出手法が提案されている。 その多くは、タスクのために事前トレーニングされたbackbone convolutional neural network(cnn)アーキテクチャを使用して、ディープフェイク検出をバイナリ分類問題としてモデル化している。 これらのCNNベースの手法は、AUC(Area under the Curve)の下での深部偽造検出において0.99まで非常に高い効果を示した。 しかし,これらの手法の性能はデータセット間で評価すると著しく低下する。 本稿では、教師付きおよび強化学習(RL)のハイブリッド組み合わせとして深層偽検出を定式化し、そのクロスデータセット一般化性能を改善する。 提案手法は,RLエージェントによる各試験試料のTop-kオーグメンテーションを画像特異的に選択する。 cnnを用いて得られた分類スコアは、最終実または偽の分類のために、各テスト画像の補足度を合計する。 実験により,本手法は, ディープフェイク検出器のクロスデータセット一般化における既存の研究よりも優れていることを示す。

Facial manipulation by deep fake has caused major security risks and raised severe societal concerns. As a countermeasure, a number of deep fake detection methods have been proposed recently. Most of them model deep fake detection as a binary classification problem using a backbone convolutional neural network (CNN) architecture pretrained for the task. These CNN-based methods have demonstrated very high efficacy in deep fake detection with the Area under the Curve (AUC) as high as 0.99. However, the performance of these methods degrades significantly when evaluated across datasets. In this paper, we formulate deep fake detection as a hybrid combination of supervised and reinforcement learning (RL) to improve its cross-dataset generalization performance. The proposed method chooses the top-k augmentations for each test sample by an RL agent in an image-specific manner. The classification scores, obtained using CNN, of all the augmentations of each test image are averaged together for final real or fake classification. Through extensive experimental validation, we demonstrate the superiority of our method over existing published research in cross-dataset generalization of deep fake detectors, thus obtaining state-of-the-art performance.
翻訳日:2022-04-12 13:32:47 公開日:2022-04-08
# ロボットのための多目的強化学習における接地後見指導

Grounding Hindsight Instructions in Multi-Goal Reinforcement Learning for Robotics ( http://arxiv.org/abs/2204.04308v1 )

ライセンス: Link先を確認
Frank R\"oder, Manfred Eppe and Stefan Wermter(参考訳) 本稿では,自然言語目標表現に対するスパース報酬を用いたロボット強化学習に着目した。 オープンな問題は、自然言語の合成性や、知覚データや行動における言語の基礎から生じるサンプル非効率である。 我々はこれらの問題を3つの貢献で解決する。 まず,エキスパートフィードバックを利用した後見指導リプレイのメカニズムを提案する。 次に,言語的後見命令を生成するセク2seqモデルを提案する。 最後に,新しい言語指向学習タスクのクラスを提案する。 提案手法は,学習性能が期待どおりに向上することを示す。 さらに, エージェントの学習性能が3分の1向上できることを, ある意味, エージェントが自己監督的な方法で自己と対話することを学習した場合に示す。 我々は、本来意図しない行動に対する自然言語の目的として適切な言語命令を生成することを学ぶことでこれを達成した。 その結果,タスク複雑度によって性能が向上することが示唆された。

This paper focuses on robotic reinforcement learning with sparse rewards for natural language goal representations. An open problem is the sample-inefficiency that stems from the compositionality of natural language, and from the grounding of language in sensory data and actions. We address these issues with three contributions. We first present a mechanism for hindsight instruction replay utilizing expert feedback. Second, we propose a seq2seq model to generate linguistic hindsight instructions. Finally, we present a novel class of language-focused learning tasks. We show that hindsight instructions improve the learning performance, as expected. In addition, we also provide an unexpected result: We show that the learning performance of our agent can be improved by one third if, in a sense, the agent learns to talk to itself in a self-supervised manner. We achieve this by learning to generate linguistic instructions that would have been appropriate as a natural language goal for an originally unintended behavior. Our results indicate that the performance gain increases with the task-complexity.
翻訳日:2022-04-12 13:10:25 公開日:2022-04-08
# (参考訳) ニューラルインプリシットフロー:時空間データのメッシュ非依存次元減少パラダイム

Neural Implicit Flow: a mesh-agnostic dimensionality reduction paradigm of spatio-temporal data ( http://arxiv.org/abs/2204.03216v2 )

ライセンス: CC BY 4.0
Shaowu Pan, Steven L. Brunton, J. Nathan Kutz(参考訳) 高次元時空間力学はしばしば低次元部分空間に符号化される。 このような大規模システムのモデリング、キャラクタリゼーション、設計、制御のための工学的応用は、リアルタイムに解を計算可能なものにするために、しばしば次元の縮小に依存する。 次元減少のための一般的なパラダイムには、特異値分解(SVD)のような線形法や、畳み込みオートエンコーダ(CAE)の変種のような非線形法がある。 しかし、これらの符号化技術は時空間データに関連する複雑さを効率的に表現する能力に欠けており、これはしばしば可変幾何、非一様グリッド分解、適応メッシュ、および/またはパラメトリック依存関係を必要とする。 これらの実用的なエンジニアリング課題を解決するため,我々は,大規模,パラメトリック,空間時空間データのメッシュ非依存,低ランク表現を可能にする,neural implicit flow(nif)と呼ばれる汎用フレームワークを提案する。 NIFは2つの修飾多層パーセプトロン(MLP)から構成される。 (i)空間的複雑さを分離し表現するシェープネット (ii)パラメータネットは、パラメトリック依存性、時間、センサー測定など、他の入力の複雑さを考慮している。 パラメトリックサーロゲートモデリングにおけるnifの有用性を実証し,複雑な時空間ダイナミクスの解釈可能表現と圧縮,多空間クエリタスクの効率化,スパース再構成のための一般化性能の向上を実現した。

High-dimensional spatio-temporal dynamics can often be encoded in a low-dimensional subspace. Engineering applications for modeling, characterization, design, and control of such large-scale systems often rely on dimensionality reduction to make solutions computationally tractable in real-time. Common existing paradigms for dimensionality reduction include linear methods, such as the singular value decomposition (SVD), and nonlinear methods, such as variants of convolutional autoencoders (CAE). However, these encoding techniques lack the ability to efficiently represent the complexity associated with spatio-temporal data, which often requires variable geometry, non-uniform grid resolution, adaptive meshing, and/or parametric dependencies. To resolve these practical engineering challenges, we propose a general framework called Neural Implicit Flow (NIF) that enables a mesh-agnostic, low-rank representation of large-scale, parametric, spatial-temporal data. NIF consists of two modified multilayer perceptrons (MLPs): (i) ShapeNet, which isolates and represents the spatial complexity, and (ii) ParameterNet, which accounts for any other input complexity, including parametric dependencies, time, and sensor measurements. We demonstrate the utility of NIF for parametric surrogate modeling, enabling the interpretable representation and compression of complex spatio-temporal dynamics, efficient many-spatial-query tasks, and improved generalization performance for sparse reconstruction.
翻訳日:2022-04-12 11:57:04 公開日:2022-04-08
# 正規化とデータ拡張の効果はクラス依存である

The Effects of Regularization and Data Augmentation are Class Dependent ( http://arxiv.org/abs/2204.03632v2 )

ライセンス: Link先を確認
Randall Balestriero, Leon Bottou, Yann LeCun(参考訳) 正規化は、過度な適合を防ぎ、モデルの複雑さを制約することで一般化性能を改善するための基本的な技術である。 現在のDeep Networksは、Data-Augmentation (DA) や weight-decay のような正規化器に大きく依存しており、構造的リスク最小化、すなわちクロスバリデーションを用いて最適な正規化ハイパーパラメータを選択する。 本研究では,DAや体重減少といった手法が,クラス間で不公平な複雑性のモデルを生成することを示す。 クロスバリデーションから得られるDAの最適量や重量減衰は、例えばImagenetでresnet50を使用すれば、トレーニング中にランダムな農作物DAを導入することで、"barn Spider"分類テストの精度が6,8\%から4,6\%に低下する。 さらに驚くべきことに、ウェイト崩壊のような非形式的正規化技術を導入する際にもこのような性能低下が起こる。 これらの結果から,クラスやサンプルの平均的な一般化パフォーマンスの追求は,一部のクラスのパフォーマンスを静かに犠牲にするモデルやレギュラライザに留まっています。 例えば、inaturalistにデプロイされたimagenetプリトレーニングされたresnet50では、imagenetプレトレーニングフェーズでランダムクロップdaを導入すると、クラス \#8889で70\%$から30\%$に低下する。 これらの結果は、クラス依存バイアスのない新規な正則化器の設計がオープンな研究課題であることを示している。

Regularization is a fundamental technique to prevent over-fitting and to improve generalization performances by constraining a model's complexity. Current Deep Networks heavily rely on regularizers such as Data-Augmentation (DA) or weight-decay, and employ structural risk minimization, i.e. cross-validation, to select the optimal regularization hyper-parameters. In this study, we demonstrate that techniques such as DA or weight decay produce a model with a reduced complexity that is unfair across classes. The optimal amount of DA or weight decay found from cross-validation leads to disastrous model performances on some classes e.g. on Imagenet with a resnet50, the "barn spider" classification test accuracy falls from $68\%$ to $46\%$ only by introducing random crop DA during training. Even more surprising, such performance drop also appears when introducing uninformative regularization techniques such as weight decay. Those results demonstrate that our search for ever increasing generalization performance -- averaged over all classes and samples -- has left us with models and regularizers that silently sacrifice performances on some classes. This scenario can become dangerous when deploying a model on downstream tasks e.g. an Imagenet pre-trained resnet50 deployed on INaturalist sees its performances fall from $70\%$ to $30\%$ on class \#8889 when introducing random crop DA during the Imagenet pre-training phase. Those results demonstrate that designing novel regularizers without class-dependent bias remains an open research question.
翻訳日:2022-04-12 11:26:34 公開日:2022-04-08
# (参考訳) 勾配に基づく学習ランタイムpruningによる注意の促進

Accelerating Attention through Gradient-Based Learned Runtime Pruning ( http://arxiv.org/abs/2204.03227v2 )

ライセンス: CC BY 4.0
Zheng Li and Soroush Ghodrati and Amir Yazdanbakhsh and Hadi Esmaeilzadeh and Mingu Kang(参考訳) 自己アテンションは、様々なトランスフォーマーベースの自然言語処理モデルにおいて、最先端の精度を実現する鍵となる。 この注意機構は、文中の他の単語に対する各単語の相関スコアを算出する。 一般的に、少数の単語のサブセットだけが、実行時にのみ決定される単語に非常に関連している。 したがって、注目度が低いためかなりの量の計算は不必要であり、刈り取ることができる。 主な課題は、以下のスコアのしきい値を見つけることである。 このような閾値は離散的であるが、本論文は訓練の損失関数に統合されたソフトな微分可能正則化器による探索を定式化する。 この定式化されたピギーは、閾値と重みを同時に分析的に最適化するバックプロパゲーショントレーニングにバックバックし、精度と計算プラニングの正式な最適バランスを与える。 この数学的革新を最大限活用するために、ビットレベルの初期終端マイクロアーキテクチャ機構を持つトランスフォーマー言語モデルにleopardと呼ばれるビットシリアルアーキテクチャを考案する。 我々は,MemN2N,BERT,ALBERT,GPT-2,Visionトランスモデルの43のバックエンドタスクを対象とした設計評価を行った。 ポストレイアウトの結果、LeOPArdは平均で1.9倍のスピードアップと3.9倍のエネルギー削減を達成し、平均精度をほぼ無傷で維持する(0.2%劣化)。

Self-attention is a key enabler of state-of-art accuracy for various transformer-based Natural Language Processing models. This attention mechanism calculates a correlation score for each word with respect to the other words in a sentence. Commonly, only a small subset of words highly correlates with the word under attention, which is only determined at runtime. As such, a significant amount of computation is inconsequential due to low attention scores and can potentially be pruned. The main challenge is finding the threshold for the scores below which subsequent computation will be inconsequential. Although such a threshold is discrete, this paper formulates its search through a soft differentiable regularizer integrated into the loss function of the training. This formulation piggy backs on the back-propagation training to analytically co-optimize the threshold and the weights simultaneously, striking a formally optimal balance between accuracy and computation pruning. To best utilize this mathematical innovation, we devise a bit-serial architecture, dubbed LeOPArd, for transformer language models with bit-level early termination microarchitectural mechanism. We evaluate our design across 43 back-end tasks for MemN2N, BERT, ALBERT, GPT-2, and Vision transformer models. Post-layout results show that, on average, LeOPArd yields 1.9x and 3.9x speedup and energy reduction, respectively, while keeping the average accuracy virtually intact (<0.2% degradation)
翻訳日:2022-04-12 00:25:48 公開日:2022-04-08
# (参考訳) FedADMM: システムの不均一性に適応するロバストな深層学習フレームワーク

FedADMM: A Robust Federated Deep Learning Framework with Adaptivity to System Heterogeneity ( http://arxiv.org/abs/2204.03529v2 )

ライセンス: CC0 1.0
Yonghai Gong, Yichuan Li, Nikolaos M. Freris(参考訳) フェデレーション・ラーニング(英語: federated learning, fl)は、通信帯域の制限、データ分布と計算資源の多様性、およびプライバシーの考慮を受けるエッジデバイスによる大規模データボリュームの分散処理のための新しいフレームワークである。 本稿では,プリマル・デュアル最適化に基づくfedammと呼ばれる新しいflプロトコルを提案する。 提案手法は,2つの変数を用いて統計的不均一性に対処し,クライアントの作業量の変動を許容することでシステム不均一性に対応する。 FedADMMはFedAvg/Proxと同じ通信コストを維持し、拡張されたラグランジアンを通じてそれらを一般化する。 非凸目的に対しては、データの類似性や1ラウンドあたりの参加者数といった制限なく収束証明が確立される。 IIDデータと非IIDデータの両方をクライアントに分散して、実際のデータセットで広範な実験を行うことで、メリットを実証する。 FedADMMは、通信効率の点で全てのベースライン手法を一貫して上回り、所定の精度に達するのに必要なラウンドの数を最大87%削減した。 このアルゴリズムは、ハイパーパラメータチューニングを必要とせず、双対変数を用いて異種データ分布に効果的に対応し、その利点は大規模システムにおいてより顕著である。

Federated Learning (FL) is an emerging framework for distributed processing of large data volumes by edge devices subject to limited communication bandwidths, heterogeneity in data distributions and computational resources, as well as privacy considerations. In this paper, we introduce a new FL protocol termed FedADMM based on primal-dual optimization. The proposed method leverages dual variables to tackle statistical heterogeneity, and accommodates system heterogeneity by tolerating variable amount of work performed by clients. FedADMM maintains identical communication costs per round as FedAvg/Prox, and generalizes them via the augmented Lagrangian. A convergence proof is established for nonconvex objectives, under no restrictions in terms of data dissimilarity or number of participants per round of the algorithm. We demonstrate the merits through extensive experiments on real datasets, under both IID and non-IID data distributions across clients. FedADMM consistently outperforms all baseline methods in terms of communication efficiency, with the number of rounds needed to reach a prescribed accuracy reduced by up to 87%. The algorithm effectively adapts to heterogeneous data distributions through the use of dual variables, without the need for hyperparameter tuning, and its advantages are more pronounced in large-scale systems.
翻訳日:2022-04-11 23:08:34 公開日:2022-04-08
# (参考訳) 同時翻訳には同時モデルが必要か?

Does Simultaneous Speech Translation need Simultaneous Models? ( http://arxiv.org/abs/2204.03783v1 )

ライセンス: CC BY-SA 4.0
Sara Papi, Marco Gaido, Matteo Negri, Marco Turchi(参考訳) 同時音声翻訳(SimulST)では、高い翻訳品質と低レイテンシの最良のトレードオフを見つけることが難しい課題である。 異なるアプリケーションシナリオによって生じるレイテンシの制約を満たすため、複数の専用SimulSTモデルは通常、トレーニングとメンテナンスが行われ、高い計算コストと環境への影響が増大する。 本稿では,オフラインでトレーニングされた1つのモデルが,オフラインだけでなく,異なるレイテンシ・レジームでの同時タスクにも効果的に機能することを示し,トレーニング/適応手順をバイパスする。 この単一モデルソリューションは、レイテンシに影響を与えることなく、確立されたオフライン技術やアーキテクチャの採用を促進するだけでなく、同時設定でトレーニングされた同じモデルと同等あるいはそれ以上の翻訳品質をもたらす。 en$\rightarrow$\{de, es\}の実験は、我々のアプローチの有効性を示し、芸術のシマルスト状態と競争的な結果を示している。

In simultaneous speech translation (SimulST), finding the best trade-off between high translation quality and low latency is a challenging task. To meet the latency constraints posed by different application scenarios, multiple dedicated SimulST models are usually trained and maintained, causing high computational costs and increased environmental impact. In this paper, we show that a single model trained offline can effectively serve not only offline but also simultaneous tasks at different latency regimes, bypassing any training/adaptation procedures. This single-model solution does not only facilitate the adoption of well-established offline techniques and architectures without affecting latency but also yields similar or even better translation quality compared to the same model trained in the simultaneous setting. Experiments on En$\rightarrow$\{De, Es\} indicate the effectiveness of our approach, showing competitive results with the SimulST state of the art.
翻訳日:2022-04-11 20:05:29 公開日:2022-04-08
# (参考訳) 複合型マルチモーダルMRI再構成と合成のための学習可能な変分モデル

A Learnable Variational Model for Joint Multimodal MRI Reconstruction and Synthesis ( http://arxiv.org/abs/2204.03804v1 )

ライセンス: CC BY 4.0
Wanyu Bian, Qingchao Zhang, Xiaojing Ye, Yunmei Chen(参考訳) 同じ解剖学のマルチコントラスト/モーダルmriの生成は、診断情報を豊かにするが、過剰なデータ取得時間のために実際に制限される。 本稿では,複数音源モードの不完全k空間データを入力として用いた,複数モードMRIの結合再構成と合成のための新しいディープラーニングモデルを提案する。 本モデルの出力には,音源モダリティの再構成画像と,対象モダリティで合成された高品質画像が含まれる。 提案モデルは,複数の学習可能な様相特異的特徴抽出器とマルチモーダル合成モジュールを用いた変分問題として定式化されている。 本稿では,マルチモーダルMRIデータを用いてパラメータを訓練可能なマルチフェーズネットワークを誘導する学習可能な最適化アルゴリズムを提案する。 さらに、ロバストパラメータトレーニングには、バイレベル最適化フレームワークが使用される。 本手法の有効性を広範囲な数値実験により実証する。

Generating multi-contrasts/modal MRI of the same anatomy enriches diagnostic information but is limited in practice due to excessive data acquisition time. In this paper, we propose a novel deep-learning model for joint reconstruction and synthesis of multi-modal MRI using incomplete k-space data of several source modalities as inputs. The output of our model includes reconstructed images of the source modalities and high-quality image synthesized in the target modality. Our proposed model is formulated as a variational problem that leverages several learnable modality-specific feature extractors and a multimodal synthesis module. We propose a learnable optimization algorithm to solve this model, which induces a multi-phase network whose parameters can be trained using multi-modal MRI data. Moreover, a bilevel-optimization framework is employed for robust parameter training. We demonstrate the effectiveness of our approach using extensive numerical experiments.
翻訳日:2022-04-11 19:49:09 公開日:2022-04-08
# (参考訳) ハドロン噴流分類の普遍性を探る

Exploring the Universality of Hadronic Jet Classification ( http://arxiv.org/abs/2204.03812v1 )

ライセンス: CC BY 4.0
Kingman Cheung, Yi-Lun Chung, Shih-Chieh Hsu, and Benjamin Nachman(参考訳) ジェット部分構造のモデル化は、Parton Shower Monte Carlo (PSMC) プログラムとは大きく異なる。 それにもかかわらず、異なるPSMCで訓練された機械学習分類器は、ほぼ同じ関数を学習する。 これは、これらの分類器がテストのために同じpsmcに適用されると、ほぼ同じ性能になることを意味する。 この分類器の普遍性は、あるシミュレーションで訓練され、別のシミュレーション(またはデータ)でテストされた機械学習モデルが最適であることを示している。 我々の観測は、lhcにおけるローレンツ・ブースト・ヒッグス・ジェット・タギングシミュレーションに応用された浅層および深層ニューラルネットワークの詳細な研究に基づいている。

The modeling of jet substructure significantly differs between Parton Shower Monte Carlo (PSMC) programs. Despite this, we observe that machine learning classifiers trained on different PSMCs learn nearly the same function. This means that when these classifiers are applied to the same PSMC for testing, they result in nearly the same performance. This classifier universality indicates that a machine learning model trained on one simulation and tested on another simulation (or data) will likely be optimal. Our observations are based on detailed studies of shallow and deep neural networks applied to simulated Lorentz boosted Higgs jet tagging at the LHC.
翻訳日:2022-04-11 19:35:58 公開日:2022-04-08
# (参考訳) ほぼゼロショットマルチタスク分類のための標準平均フィルタ

Canonical Mean Filter for Almost Zero-Shot Multi-Task classification ( http://arxiv.org/abs/2204.03815v1 )

ライセンス: CC BY 4.0
Yong Li and Heng Wang and Xiang Ye(参考訳) サポートセットは、数ショットのタスクでモデルの迅速な適応のための条件付き事前を提供するためのキーです。 しかし、厳格なサポートセットは実際にその構築を実践的に困難にしている。 本稿では,CNAPsの特徴抽出における適応の役割を再考する。 この役割を解明するために、AZSタスクは、異なるタスクの前に異なる条件付きのサポートセットを提供する共通スキームを置き換えるためにサポートセットを固定することで設計される。 AZS実験の結果、特徴抽出器では適応がほとんど機能しないことが示された。 しかし、cnapsはランダムに選択されたサポートセットに対して頑健であり、単純な平均演算子が応答する散在平均埋め込みのため、メタデータセットのいくつかのデータセットではうまく動作しない。 CNAPのロバスト性を高めるために,Canonical Mean Filter (CMF)モジュールを提案し,サポートセットを標準形式にマッピングすることにより,特徴空間に平均埋め込みを集中的に安定させる。 CMFは、CNAPをランダム行列であっても任意の固定支持集合に対して堅牢にする。 この属性により、CNAPはテスト段階での平均エンコーダとパラメータ適応ネットワークを除去できる一方、AZSタスク上のCNAP-CMFは1ショットタスクでパフォーマンスを維持することができる。 これは大きなパラメータの削減につながる。 正確には、テスト段階で40.48\%のパラメータをドロップする。 また、CNAP-CMFは、内部タスクの不安定なパフォーマンス問題に対処するため、ワンショットタスクにおいてCNAPよりも優れている。 分類性能、可視化およびクラスタリングの結果、CMFがCNAPをよりシンプルにすることを確認した。

The support set is a key to providing conditional prior for fast adaption of the model in few-shot tasks. But the strict form of support set makes its construction actually difficult in practical application. Motivated by ANIL, we rethink the role of adaption in the feature extractor of CNAPs, which is a state-of-the-art representative few-shot method. To investigate the role, Almost Zero-Shot (AZS) task is designed by fixing the support set to replace the common scheme, which provides corresponding support sets for the different conditional prior of different tasks. The AZS experiment results infer that the adaptation works little in the feature extractor. However, CNAPs cannot be robust to randomly selected support sets and perform poorly on some datasets of Meta-Dataset because of its scattered mean embeddings responded by the simple mean operator. To enhance the robustness of CNAPs, Canonical Mean Filter (CMF) module is proposed to make the mean embeddings intensive and stable in feature space by mapping the support sets into a canonical form. CMFs make CNAPs robust to any fixed support sets even if they are random matrices. This attribution makes CNAPs be able to remove the mean encoder and the parameter adaptation network at the test stage, while CNAP-CMF on AZS tasks keeps the performance with one-shot tasks. It leads to a big parameter reduction. Precisely, 40.48\% parameters are dropped at the test stage. Also, CNAP-CMF outperforms CNAPs in one-shot tasks because it addresses inner-task unstable performance problems. Classification performance, visualized and clustering results verify that CMFs make CNAPs better and simpler.
翻訳日:2022-04-11 19:13:44 公開日:2022-04-08
# (参考訳) Wikipediaからの知識の注入によるスタンス検出

Infusing Knowledge from Wikipedia to Enhance Stance Detection ( http://arxiv.org/abs/2204.03839v1 )

ライセンス: CC BY 4.0
Zihao He, Negar Mokhberian, Kristina Lerman(参考訳) 姿勢検出は、テキスト作者のターゲットに対する態度を推測する。 モデルにターゲットに関するバックグラウンド知識がない場合、これは難しい。 ここでは,Wikipediaの背景知識が姿勢検出の性能向上に役立つことを示す。 本稿では,知識をスタンスエンコーディングに注入するウィキペディアスタンス検出BERT(WS-BERT)を紹介する。 ソーシャルメディアの議論やオンラインの議論を網羅した3つのベンチマークデータセットの広範な結果から、我々のモデルはターゲット固有のスタンス検出、ターゲット間のスタンス検出、ゼロ/ファウショットスタンス検出において、最先端の手法を著しく上回っていることが示唆された。

Stance detection infers a text author's attitude towards a target. This is challenging when the model lacks background knowledge about the target. Here, we show how background knowledge from Wikipedia can help enhance the performance on stance detection. We introduce Wikipedia Stance Detection BERT (WS-BERT) that infuses the knowledge into stance encoding. Extensive results on three benchmark datasets covering social media discussions and online debates indicate that our model significantly outperforms the state-of-the-art methods on target-specific stance detection, cross-target stance detection, and zero/few-shot stance detection.
翻訳日:2022-04-11 19:02:56 公開日:2022-04-08
# (参考訳) インスタンス依存部分ラベル学習のための分解に基づく生成プロセス

Decomposition-based Generation Process for Instance-Dependent Partial Label Learning ( http://arxiv.org/abs/2204.03845v1 )

ライセンス: CC BY 4.0
Congyu Qiao, Ning Xu, Xin Geng(参考訳) 部分ラベル学習(pll)は典型的な弱い教師付き学習問題であり、各トレーニングサンプルは1つだけが真である候補ラベルの集合に関連付けられている。 既存のPLLアプローチの多くは、各トレーニング例の誤りラベルを候補ラベルとしてランダムに選択し、候補ラベルの生成プロセスを簡単な方法でモデル化している。 しかし、これらの手法は通常、候補ラベルの生成プロセスが常にインスタンスに依存しているため、期待通りには機能しない。 したがって、洗練された方法でモデル化されるべきである。 本稿では、インスタンス依存型pllについて考察し、候補ラベルの生成過程を2つの逐次的部分に分けて、まず正しいラベルが注釈器の心に現れるが、その後、その特徴に関連する不正確なラベルも、ラベルの不確かさから候補ラベルとして選択できると仮定する。 そこで本研究では,分解確率分布モデルを用いて候補ラベルの明示的にモデル化した生成プロセスに基づいて,後方(map)を最大化する新しいpll法を提案する。 ベンチマークおよび実世界のデータセットを用いた実験により,提案手法の有効性が検証された。

Partial label learning (PLL) is a typical weakly supervised learning problem, where each training example is associated with a set of candidate labels among which only one is true. Most existing PLL approaches assume that the incorrect labels in each training example are randomly picked as the candidate labels and model the generation process of the candidate labels in a simple way. However, these approaches usually do not perform as well as expected due to the fact that the generation process of the candidate labels is always instance-dependent. Therefore, it deserves to be modeled in a refined way. In this paper, we consider instance-dependent PLL and assume that the generation process of the candidate labels could decompose into two sequential parts, where the correct label emerges first in the mind of the annotator but then the incorrect labels related to the feature are also selected with the correct label as candidate labels due to uncertainty of labeling. Motivated by this consideration, we propose a novel PLL method that performs Maximum A Posterior(MAP) based on an explicitly modeled generation process of candidate labels via decomposed probability distribution models. Experiments on benchmark and real-world datasets validate the effectiveness of the proposed method.
翻訳日:2022-04-11 18:52:07 公開日:2022-04-08
# (参考訳) CrudeOilNews:イベント抽出のための注釈付き原油ニュースコーポレーション

CrudeOilNews: An Annotated Crude Oil News Corpus for Event Extraction ( http://arxiv.org/abs/2204.03871v1 )

ライセンス: CC BY 4.0
Meisin Lee, Lay-Ki Soon, Eu-Gene Siew, Ly Fie Sugianto(参考訳) 本稿では,イベント抽出のための英語原油ニュースのコーパスである crudeoilnews を提案する。 商品ニュースとしては初めてであり、経済・金融のテキストマイニングのための資源構築に寄与している。 本稿では,コーパス作成に使用されるデータ収集プロセス,アノテーション方法論,イベントタイポロジーについて述べる。 まず175件のニュース記事のシードセットを手動でアノテートし,25件のニュースのサブセットをアノテータ間およびシステム評価のための適応参照テストセットとして使用した。 合意は概して実質的であり、アノテーションのパフォーマンスは十分であり、アノテーションスキームが高品質な一貫性のあるイベントアノテーションを生成することを示している。 その後、(1)データ拡張と(2)ヒューマン・イン・ザ・ループアクティブ・ラーニングによってデータセットを拡大する。 得られたコーパスには425のニュース記事があり、約11kのイベントが注釈付けされている。 アクティブな学習プロセスの一環として、コーパスは、マシンラベリングのための基本的なイベント抽出モデルをトレーニングするために使用され、結果として得られたモデルは、検証や、機械学習目的におけるコーパスの使用を実証するパイロットスタディとしても機能する。 注釈付きコーパスは、https://github.com/meisin/CrudeOilNews-Corpusで学術研究用に提供されている。

In this paper, we present CrudeOilNews, a corpus of English Crude Oil news for event extraction. It is the first of its kind for Commodity News and serve to contribute towards resource building for economic and financial text mining. This paper describes the data collection process, the annotation methodology and the event typology used in producing the corpus. Firstly, a seed set of 175 news articles were manually annotated, of which a subset of 25 news were used as the adjudicated reference test set for inter-annotator and system evaluation. Agreement was generally substantial and annotator performance was adequate, indicating that the annotation scheme produces consistent event annotations of high quality. Subsequently the dataset is expanded through (1) data augmentation and (2) Human-in-the-loop active learning. The resulting corpus has 425 news articles with approximately 11k events annotated. As part of active learning process, the corpus was used to train basic event extraction models for machine labeling, the resulting models also serve as a validation or as a pilot study demonstrating the use of the corpus in machine learning purposes. The annotated corpus is made available for academic research purpose at https://github.com/meisin/CrudeOilNews-Corpus.
翻訳日:2022-04-11 18:37:46 公開日:2022-04-08
# (参考訳) 制御不能障害からの制御不能障害:共同学習計測とインプット

Controllable Missingness from Uncontrollable Missingness: Joint Learning Measurement Policy and Imputation ( http://arxiv.org/abs/2204.03872v1 )

ライセンス: CC BY 4.0
Seongwook Yoon, Jaehyun Kim, Heejeong Lim, Sanghoon Sull(参考訳) 測定のコストや干渉のため、測定システムを制御する必要がある。 各変数を順次に測定できると仮定すると、前の観測で次の測定を選択できる最適なポリシーが存在する。 最適な測定方針は実際には測定の目的に依存しているが、我々は主に完全なデータを取得することに焦点を当てている。 また,測定方針によって異なる欠落に対してインプテーション法を適用する。 しかし、学習測定方針とインプテーションは、残念ながら観測できない完全なデータを必要とする。 そこで本研究では,データ生成手法と共同学習アルゴリズムを提案する。 一番の考え方は 1)データ生成方法は、計算方法により継承され、 2) インキュベーションの適応は, 個別の学習よりも, 測定政策の学習を促す。 2つの異なるデータセットと様々な欠落率に対して提案アルゴリズムのバリエーションを実装した。 実験結果から,本アルゴリズムは一般に適用可能であり,ベースライン法より優れていることを示す。

Due to the cost or interference of measurement, we need to control measurement system. Assuming that each variable can be measured sequentially, there exists optimal policy choosing next measurement for the former observations. Though optimal measurement policy is actually dependent on the goal of measurement, we mainly focus on retrieving complete data, so called as imputation. Also, we adapt the imputation method to missingness varying with measurement policy. However, learning measurement policy and imputation requires complete data which is impossible to be observed, unfortunately. To tackle this problem, we propose a data generation method and joint learning algorithm. The main idea is that 1) the data generation method is inherited by imputation method, and 2) the adaptation of imputation encourages measurement policy to learn more than individual learning. We implemented some variations of proposed algorithm for two different datasets and various missing rates. From the experimental results, we demonstrate that our algorithm is generally applicable and outperforms baseline methods.
翻訳日:2022-04-11 18:21:48 公開日:2022-04-08
# (参考訳) 準Geostrophic turbulence parametrizationの後方学習

A posteriori learning for quasi-geostrophic turbulence parametrization ( http://arxiv.org/abs/2204.03911v1 )

ライセンス: CC BY 4.0
Hugo Frezat, Julien Le Sommer, Ronan Fablet, Guillaume Balarac, Redouane Lguensat(参考訳) 気候モデルにサブグリッドパラメータを構築するための機械学習の利用が注目されている。 最先端の戦略は問題を教師付き学習タスクとして対処し、粗い解像度モデルからの情報に基づいてサブグリッドフラックスを予測するアルゴリズムを最適化する。 実際には、粗い解法シミュレーションを模倣するために変換された高分解能数値シミュレーションからトレーニングデータを生成する。 本質的に、これらの戦略は、いわゆる$\textit{a priori}$ 条件を満たすためにサブグリッドパラメトリゼーションを最適化する。 しかし、サブグリッドパラメトリゼーションの実際の目的は、モデルの軌道全体を計算するための$\textit{a posteriori}$メトリックという観点で優れたパフォーマンスを得ることである。 本稿では,2次元準地すべり乱流におけるエネルギー後方散乱の表現に着目し,一定の計算量で異なる学習戦略で得られたパラメトリゼーションを比較する。 我々は,$\textit{a priori}$条件に基づく戦略が直接シミュレーションでは不安定なパラメータ化を生じさせ,$\textit{a posteriori}$条件を満たすために,サブグリッドパラメータがエンドツーエンドでどのように訓練されるかを記述する。 エンド・ツー・エンドの学習戦略は、既知の経験的およびデータ駆動型スキームを、異なるフロー構成に適用する性能、安定性、能力で上回るパラメトリゼーションをもたらす。 これらの結果は、将来の気候モデルにおける微分可能プログラミングパラダイムの関連性を支持する。

The use of machine learning to build subgrid parametrizations for climate models is receiving growing attention. State-of-the-art strategies address the problem as a supervised learning task and optimize algorithms that predict subgrid fluxes based on information from coarse resolution models. In practice, training data are generated from higher resolution numerical simulations transformed in order to mimic coarse resolution simulations. By essence, these strategies optimize subgrid parametrizations to meet so-called $\textit{a priori}$ criteria. But the actual purpose of a subgrid parametrization is to obtain good performance in terms of $\textit{a posteriori}$ metrics which imply computing entire model trajectories. In this paper, we focus on the representation of energy backscatter in two dimensional quasi-geostrophic turbulence and compare parametrizations obtained with different learning strategies at fixed computational complexity. We show that strategies based on $\textit{a priori}$ criteria yield parametrizations that tend to be unstable in direct simulations and describe how subgrid parametrizations can alternatively be trained end-to-end in order to meet $\textit{a posteriori}$ criteria. We illustrate that end-to-end learning strategies yield parametrizations that outperform known empirical and data-driven schemes in terms of performance, stability and ability to apply to different flow configurations. These results support the relevance of differentiable programming paradigms for climate models in the future.
翻訳日:2022-04-11 18:09:02 公開日:2022-04-08
# (参考訳) ニューラルアーキテクチャ探索におけるスーパーネット--分類学的調査

SuperNet in Neural Architecture Search: A Taxonomic Survey ( http://arxiv.org/abs/2204.03916v1 )

ライセンス: CC BY 4.0
Stephen Cha, Taehyeon Kim, Hayeon Lee, Se-Young Yun(参考訳) ディープニューラルネットワーク(DNN)は、画像分類、オブジェクト検出、セマンティックセグメンテーションなど、幅広い視覚的認識タスクにおいて大きな進歩を遂げている。 畳み込みアーキテクチャの進化により、高価な計算コストを伴って性能が向上した。 さらに、ネットワーク設計は、労働集約的で、高いレベルのドメイン知識を必要とする、難しいタスクになっている。 このような問題を緩和するために、最適なアーキテクチャを自動検索する様々なニューラルネットワーク探索手法の研究が行われ、人間の設計したモデルよりも優れた性能を持つモデルが達成されている。 この調査は、この研究分野における既存の研究の概要を提供し、特に、重み共有を用いて全てのアーキテクチャをサブモデルとして組み立てるニューラルネットワークを構築するスーパーネット最適化に焦点を当てることを目的としている。 そこで本論文では,データ側最適化,低ランク相関緩和,多数のデプロイメントシナリオにおけるNAS(Transferable NAS)といった課題に対する解決策として提案することで,スーパーネット最適化を分類することを目的としている。

Deep Neural Networks (DNN) have made significant progress in a wide range of visual recognition tasks such as image classification, object detection, and semantic segmentation. The evolution of convolutional architectures has led to better performance by incurring expensive computational costs. In addition, network design has become a difficult task, which is labor-intensive and requires a high level of domain knowledge. To mitigate such issues, there have been studies for a variety of neural architecture search methods that automatically search for optimal architectures, achieving models with impressive performance that outperform human-designed counterparts. This survey aims to provide an overview of existing works in this field of research and specifically focus on the supernet optimization that builds a neural network that assembles all the architectures as its sub models by using weight sharing. We aim to accomplish that by categorizing supernet optimization by proposing them as solutions to the common challenges found in the literature: data-side optimization, poor rank correlation alleviation, and transferable NAS for a number of deployment scenarios.
翻訳日:2022-04-11 18:07:37 公開日:2022-04-08
# (参考訳) ネットワークシャッフル:ランダムウォークによるプライバシーの増幅

Network Shuffling: Privacy Amplification via Random Walks ( http://arxiv.org/abs/2204.03919v1 )

ライセンス: CC BY 4.0
Seng Pei Liew, Tsubasa Takahashi, Shun Takagi, Fumiyuki Kato, Yang Cao, Masatoshi Yoshikawa(参考訳) 近年、シャッフルは局所的な差分プライバシーにランダム化されたデータの中央の差分プライバシー保証を増幅できることが示されている。 この設定では、集中型で信頼性の高いシャッフルが、データの匿名性を維持することによって、システムのプライバシの保証を強化している。 しかし、もともとローカルプライバシモデルに集中型エンティティを導入すると、ローカルディファレンシャルプライバシのように集中型エンティティを持たないという魅力が失われる。 さらに、高度なハードウェアやセキュアな計算技術の既知のセキュリティ問題や要件のために、シャフラーを信頼性の高い方法で実装することは簡単ではない。 これらの実践的考察により、我々はシャッフルモデルを再考し、中央集権的で信頼できるシャッフルを必要とする仮定を緩和する。 匿名性によるプライバシーの増幅の代替として,ネットワーク/グラフ上でランダムウォーク方式でデータを交換する分散メカニズムであるネットワークシャッフルを導入する。 このような状況下で脅威モデルを分析し,実装が容易なネットワークシャッフルの分散プロトコルを提案する。 さらに、プライバシー増幅率は、均一シャッフルのような他のプライバシー増幅手法と類似していることを示す。 我々の知る限り、プライバシーの増幅技術を利用した最近研究された中間信頼モデルの中で、私たちの仕事は、プライバシーの増幅を達成するためにいかなる集中型エンティティにも依存していない最初のものである。

Recently, it is shown that shuffling can amplify the central differential privacy guarantees of data randomized with local differential privacy. Within this setup, a centralized, trusted shuffler is responsible for shuffling by keeping the identities of data anonymous, which subsequently leads to stronger privacy guarantees for systems. However, introducing a centralized entity to the originally local privacy model loses some appeals of not having any centralized entity as in local differential privacy. Moreover, implementing a shuffler in a reliable way is not trivial due to known security issues and/or requirements of advanced hardware or secure computation technology. Motivated by these practical considerations, we rethink the shuffle model to relax the assumption of requiring a centralized, trusted shuffler. We introduce network shuffling, a decentralized mechanism where users exchange data in a random-walk fashion on a network/graph, as an alternative of achieving privacy amplification via anonymity. We analyze the threat model under such a setting, and propose distributed protocols of network shuffling that is straightforward to implement in practice. Furthermore, we show that the privacy amplification rate is similar to other privacy amplification techniques such as uniform shuffling. To our best knowledge, among the recently studied intermediate trust models that leverage privacy amplification techniques, our work is the first that is not relying on any centralized entity to achieve privacy amplification.
翻訳日:2022-04-11 17:48:32 公開日:2022-04-08
# (参考訳) 書き直しから思い出へ:会話型QAモデルのための共通基盤

From Rewriting to Remembering: Common Ground for Conversational QA Models ( http://arxiv.org/abs/2204.03930v1 )

ライセンス: CC BY 4.0
Marco Del Tredici, Xiaoyu Shen, Gianni Barlacchi, Bill Byrne, Adri\`a de Gispert(参考訳) 会話型QAでは、モデルは次の質問に答えるために、以前の順番で情報を活用する必要がある。 現在のアプローチ、例えば質問の書き直しは、会話が揺れるにつれて関連する情報を抽出するのに苦労している。 我々は,会話情報を蓄積する手法である共通グラウンド(CG)を導入し,各ターンに関連情報を選択する。 CGは、既存のアプローチに比べて、より効率的で人間的な方法で会話情報を活用できることを示し、Open Domain Conversational QAの改善につながっている。

In conversational QA, models have to leverage information in previous turns to answer upcoming questions. Current approaches, such as Question Rewriting, struggle to extract relevant information as the conversation unwinds. We introduce the Common Ground (CG), an approach to accumulate conversational information as it emerges and select the relevant information at every turn. We show that CG offers a more efficient and human-like way to exploit conversational information compared to existing approaches, leading to improvements on Open Domain Conversational QA.
翻訳日:2022-04-11 17:18:39 公開日:2022-04-08
# (参考訳) 通信システムのエンドツーエンド学習のためのチャネルモデル:調査

Channel model for end-to-end learning of communications systems: A survey ( http://arxiv.org/abs/2204.03944v1 )

ライセンス: CC BY 4.0
Ijaz Ahmad and Seokjoo Shin(参考訳) 複数の独立した処理ブロックの連鎖に基づく従来の通信モデルは、効率に対する制約であり、人工的障壁を導入する。 したがって、個別に最適化されたブロックはシステムのエンドツーエンドのパフォーマンスを保証しない。 近年,機械学習(ML)による通信システムのエンドツーエンド学習が提案されている。 これらの手法は性能改善を示すが、異なるチャネルモデルを必要とするという制限がある。 本研究では,この問題を緩和する既存のアプローチを要約した。 本研究は,この話題のより深い理解と今後の研究への洞察をもたらすものと信じている。

The traditional communication model based on chain of multiple independent processing blocks is constraint to efficiency and introduces artificial barriers. Thus, each individually optimized block does not guarantee end-to-end performance of the system. Recently, end-to-end learning of communications systems through machine learning (ML) have been proposed to optimize the system metrics jointly over all components. These methods show performance improvements but has a limitation that it requires a differentiable channel model. In this study, we have summarized the existing approaches that alleviates this problem. We believe that this study will provide better understanding of the topic and an insight into future research in this field.
翻訳日:2022-04-11 17:09:24 公開日:2022-04-08
# (参考訳) RuBioRoBERTa:ロシア語バイオメディカルテキストマイニングのための事前訓練されたバイオメディカル言語モデル

RuBioRoBERTa: a pre-trained biomedical language model for Russian language biomedical text mining ( http://arxiv.org/abs/2204.03951v1 )

ライセンス: CC BY 4.0
Alexander Yalunin, Alexander Nesterov, and Dmitriy Umerenkov(参考訳) 本稿では,ロシア語バイオメディカルテキストマイニング(RuBioBERT,RuBioRoBERTa)のBERTモデルについて述べる。 モデルは、ロシア生物医学領域の自由に利用可能なテキストのコーパスで事前訓練されている。 この事前トレーニングにより,テキスト分類,質問応答,自然言語推論,名前付きエンティティ認識など,さまざまなタスクセットをカバーするrumedbenchrussian medical language understanding benchmarkの最先端結果が実証された。

This paper presents several BERT-based models for Russian language biomedical text mining (RuBioBERT, RuBioRoBERTa). The models are pre-trained on a corpus of freely available texts in the Russian biomedical domain. With this pre-training, our models demonstrate state-of-the-art results on RuMedBench - Russian medical language understanding benchmark that covers a diverse set of tasks, including text classification, question answering, natural language inference, and named entity recognition.
翻訳日:2022-04-11 17:03:21 公開日:2022-04-08
# (参考訳) SemEval-2022 Task 5: Ensemble Learning for identifying misogynous MEMEs

RubCSG at SemEval-2022 Task 5: Ensemble learning for identifying misogynous MEMEs ( http://arxiv.org/abs/2204.03953v1 )

ライセンス: CC BY-SA 4.0
Wentao Yu, Benedikt Boenninghoff, Jonas Roehrig, Dorothea Kolossa(参考訳) 本研究は,SemEval 2022 Task 5: MAMI-Multimedia Automatic Misogyny Identificationのために開発された,様々なユニモーダルおよびバイモーダルモデルアーキテクチャに基づくアンサンブルシステムを提案する。 チャレンジオーガナイザは、偽造ミームを識別し分類するためのシステムを開発し、訓練するための英語のミームデータセットを提供する。 より正確には、コンペティションは2つのサブタスクに分けられる: サブタスク A ミームがミソジニーを表現しているかという二項決定を求め、サブタスク B はミソジニーミームをステレオタイプ、シェーミング、オブジェクト化、暴力の潜在的重複するサブカテゴリに分類する。 提案では,新しいモデル融合ネットワークを実装し,性能向上のためにアンサンブル学習手法を採用する。 この構造により、サブタスクaでは 0.755 マクロ平均 f1-score (11 番目)、サブタスクbでは 0.709 重み付き平均 f1-score (10 番目) を達成する。

This work presents an ensemble system based on various uni-modal and bi-modal model architectures developed for the SemEval 2022 Task 5: MAMI-Multimedia Automatic Misogyny Identification. The challenge organizers provide an English meme dataset to develop and train systems for identifying and classifying misogynous memes. More precisely, the competition is separated into two sub-tasks: sub-task A asks for a binary decision as to whether a meme expresses misogyny, while sub-task B is to classify misogynous memes into the potentially overlapping sub-categories of stereotype, shaming, objectification, and violence. For our submission, we implement a new model fusion network and employ an ensemble learning approach for better performance. With this structure, we achieve a 0.755 macroaverage F1-score (11th) in sub-task A and a 0.709 weighted-average F1-score (10th) in sub-task B.
翻訳日:2022-04-11 16:59:02 公開日:2022-04-08
# (参考訳) スマート環境におけるトランスファーラーニングのためのブロックチェーン

Blockchain as an Enabler for Transfer Learning in Smart Environments ( http://arxiv.org/abs/2204.03959v1 )

ライセンス: CC BY 4.0
Amin Anjomshoaa and Edward Curry(参考訳) インテリジェントシステムのための機械学習モデルに具体化された知識は、大規模データ収集、データラベリング、ネットワークトレーニング、モデルの微調整といった、時間とコストのかかるプロセスと一般的に関連している。 トランスファーラーニングと呼ばれる別の環境にデプロイされたインテリジェントなシステム間で、これらの精巧なモデルの共有と再利用は、ユーザのためのサービスの採用を促進し、スマートビルディングやスマートシティアプリケーションといった環境におけるインテリジェントなシステムの取り込みを加速する。 この文脈では、AI対応環境間のコミュニケーションと知識交換は、システム、システムのシステム、デジタル資産、および従来の情報システムの集中型スキーマにほとんど従わない依存関係の連鎖の複雑なネットワークに依存する。 むしろ、データプロファイランス、ワークフローの透明性、プロセス参加者の検証といった機能によって強化された、適応的な分散システムアーキテクチャが必要です。 本研究では,IoT対応環境間の知識交換と相互運用性をサポートするブロックチェーンとナレッジグラフ技術に基づく分散適応型ソフトウェアフレームワークを,透過的で信頼性の高い方法で提案する。

The knowledge, embodied in machine learning models for intelligent systems, is commonly associated with time-consuming and costly processes such as large-scale data collection, data labelling, network training, and fine-tuning of models. Sharing and reuse of these elaborated models between intelligent systems deployed in a different environment, which is known as transfer learning, would facilitate the adoption of services for the users and accelerates the uptake of intelligent systems in environments such as smart building and smart city applications. In this context, the communication and knowledge exchange between AI-enabled environments depend on a complicated networks of systems, system of systems, digital assets, and their chain of dependencies that hardly follows the centralized schema of traditional information systems. Rather, it requires an adaptive decentralized system architecture that is empowered by features such as data provenance, workflow transparency, and validation of process participants. In this research, we propose a decentralized and adaptive software framework based on blockchain and knowledge graph technologies that supports the knowledge exchange and interoperability between IoT-enabled environments, in a transparent and trustworthy way.
翻訳日:2022-04-11 16:47:10 公開日:2022-04-08
# (参考訳) kgi: 知識集約型言語タスクのための統合フレームワーク

KGI: An Integrated Framework for Knowledge Intensive Language Tasks ( http://arxiv.org/abs/2204.03985v1 )

ライセンス: CC BY 4.0
Md Faisal Mahbub Chowdhury, Michael Glass, Gaetano Rossiello, Alfio Gliozzo and Nandana Mihindukulasooriya(参考訳) 本研究では,新しいゼロショットスロット充填法を提案し,高密通路探索をハードネガで拡張し,拡張生成モデル検索のためのロバストなトレーニング手順を提案する。 本稿では,オープンドメイン質問応答(QA)や対話,事実チェックなど,他の知識集約型言語タスクに対してタスク特化モデルを訓練する,このアプローチの強化バージョンに基づくシステムを提案する。 我々のシステムは、KILTリーダーボードの最良のモデルに匹敵する結果を得る。 さらに,ユーザの問合せによって,これらの異なるモデルからの出力を組み合わせることで相互に検査できることを示す。 特に,QAモデルを用いて対話の精度を向上できることを示す。 このシステムをデモした短いビデオは、ここで入手できる。

In a recent work, we presented a novel state-of-the-art approach to zero-shot slot filling that extends dense passage retrieval with hard negatives and robust training procedures for retrieval augmented generation models. In this paper, we propose a system based on an enhanced version of this approach where we train task specific models for other knowledge intensive language tasks, such as open domain question answering (QA), dialogue and fact checking. Our system achieves results comparable to the best models in the KILT leaderboards. Moreover, given a user query, we show how the output from these different models can be combined to cross-examine each other. Particularly, we show how accuracy in dialogue can be improved using the QA model. A short video demonstrating the system is available here - \url{https://ibm.box.com/v/kgi-interactive-demo} .
翻訳日:2022-04-11 16:38:12 公開日:2022-04-08
# (参考訳) Multimodal Quasi-AutoRegression:新しいファッション製品の視覚的人気を予測

Multimodal Quasi-AutoRegression: Forecasting the visual popularity of new fashion products ( http://arxiv.org/abs/2204.04014v1 )

ライセンス: CC BY-SA 4.0
Stefanos I. Papadopoulos, Christos Koutlis, Symeon Papadopoulos, Ioannis Kompatsiaris(参考訳) 消費者の好みを推定することはファッション業界にとって最も重要であり、この情報を適切に活用することは利益の面で有益である。 ファッション業界の変化の速さから、ファッションにおけるトレンド検出は難しい課題である。 また、歴史資料の欠如により、新しい衣料品の視覚的な人気の予測がさらに求められている。 そこで本稿では,(1)コンピュータビジョンネットワークが抽出したマルチモーダル多層パーセプトロン処理のカテゴリと視覚的特徴,(2)過去のデータ不足を緩和する時間的人気パターンのプロキシとして使用される製品属性の時系列をモデル化する準自己回帰ニューラルネットワークの2つのモジュールを組み合わせた,マルチモーダル準自己回帰型ディープラーニングアーキテクチャであるMuQARを提案する。 muqarの妥当性を評価し、他のドメインへの汎用性を評価するためにamazon reviews: home and kitchenデータセットを使用するため、2つの大規模画像ファッションデータセット、mallezee-popularityとshift15mの広範なアブレーション解析を行う。 visuelleデータセットの比較研究によれば、muqarは、wapeの面では2.88%、maeの3.4%、ドメインの現在の最先端技術と競合することができる。

Estimating the preferences of consumers is of utmost importance for the fashion industry as appropriately leveraging this information can be beneficial in terms of profit. Trend detection in fashion is a challenging task due to the fast pace of change in the fashion industry. Moreover, forecasting the visual popularity of new garment designs is even more demanding due to lack of historical data. To this end, we propose MuQAR, a Multimodal Quasi-AutoRegressive deep learning architecture that combines two modules: (1) a multi-modal multi-layer perceptron processing categorical and visual features extracted by computer vision networks and (2) a quasi-autoregressive neural network modelling the time series of the product's attributes, which are used as a proxy of temporal popularity patterns mitigating the lack of historical data. We perform an extensive ablation analysis on two large scale image fashion datasets, Mallzee-popularity and SHIFT15m to assess the adequacy of MuQAR and also use the Amazon Reviews: Home and Kitchen dataset to assess generalisability to other domains. A comparative study on the VISUELLE dataset, shows that MuQAR is capable of competing and surpassing the domain's current state of the art by 2.88% in terms of WAPE and 3.04% in terms of MAE.
翻訳日:2022-04-11 16:31:06 公開日:2022-04-08
# (参考訳) ディスタングル型潜在音声表現による病的知能自動評価

Disentangled Latent Speech Representation for Automatic Pathological Intelligibility Assessment ( http://arxiv.org/abs/2204.04016v1 )

ライセンス: CC BY 4.0
Tobias Weise, Philipp Klumpp, Andreas Maier, Elmar Noeth, Bjoern Heismann, Maria Schuster, Seung Hee Yang(参考訳) 言語理解度評価は, 病的言語障害患者に対する治療において重要な役割を担っている。 従来の主観的および労働集約的な評価においてセラピストを支援するためには、自動的および客観的な措置が望ましい。 本研究では,健全な参照と病的話者から得られた並列発話対の非絡み合った潜在音声表現において,そのばらつきを利用した新しい手法について検討する。 脳性麻痺患者の英語データベースを用いた実験では、4つの基準話者ペア間での最小偏差(+-0.01)しか持たず、主観的知性尺度と高い有意な相関値(r = -0.9)を示す。 また,提案手法のロバスト性 (R = -0.89 で1000回以上,+-0.02) を,話者毎の発話量を大幅に小さくすることで示す。 以上の結果から,不等角化音声表現が自動的に病的音声明瞭度評価に応用できることを示す最初の例となり,少ない発話しかできない場合に適用可能な参照話者対不変法が得られた。

Speech intelligibility assessment plays an important role in the therapy of patients suffering from pathological speech disorders. Automatic and objective measures are desirable to assist therapists in their traditionally subjective and labor-intensive assessments. In this work, we investigate a novel approach for obtaining such a measure using the divergence in disentangled latent speech representations of a parallel utterance pair, obtained from a healthy reference and a pathological speaker. Experiments on an English database of Cerebral Palsy patients, using all available utterances per speaker, show high and significant correlation values (R = -0.9) with subjective intelligibility measures, while having only minimal deviation (+-0.01) across four different reference speaker pairs. We also demonstrate the robustness of the proposed method (R = -0.89 deviating +-0.02 over 1000 iterations) by considering a significantly smaller amount of utterances per speaker. Our results are among the first to show that disentangled speech representations can be used for automatic pathological speech intelligibility assessment, resulting in a reference speaker pair invariant method, applicable in scenarios with only few utterances available.
翻訳日:2022-04-11 16:17:24 公開日:2022-04-08
# (参考訳) eラーニング環境におけるマルチタスクトレーニングによるエンゲージメント検出

Engagement Detection with Multi-Task Training in E-Learning Environments ( http://arxiv.org/abs/2204.04020v1 )

ライセンス: CC BY 4.0
Onur Copur, Mert Nak{\i}p, Simone Scardapane, J\"urgen Slowack(参考訳) ユーザインタラクションの認識、特にエンゲージメント検出は、特にCOVID-19の発生時にオンラインの作業環境や学習環境において極めて重要になった。 このような認識と検出システムは、貴重なフィードバックを提供することで、ユーザエクスペリエンスと効率を大幅に改善する。 本稿では,eラーニング環境における学生のエンゲージメントレベルを決定するために,平均二乗誤差と三重項損失を最小化する,ED-MTT(Engagement Detection with Multi-Task Training)システムを提案する。 本システムの性能を,実生活シナリオから収集したビデオだけでなく,公開データセット上での最先端技術と比較し評価する。 その結果,ED-MTTは高い訓練時間と軽量な特徴抽出が可能な最先端性能よりも6%低いMSEを実現していることがわかった。

Recognition of user interaction, in particular engagement detection, became highly crucial for online working and learning environments, especially during the COVID-19 outbreak. Such recognition and detection systems significantly improve the user experience and efficiency by providing valuable feedback. In this paper, we propose a novel Engagement Detection with Multi-Task Training (ED-MTT) system which minimizes mean squared error and triplet loss together to determine the engagement level of students in an e-learning environment. The performance of this system is evaluated and compared against the state-of-the-art on a publicly available dataset as well as videos collected from real-life scenarios. The results show that ED-MTT achieves 6% lower MSE than the best state-of-the-art performance with highly acceptable training time and lightweight feature extraction.
翻訳日:2022-04-11 16:05:44 公開日:2022-04-08
# (参考訳) 計算的議論のための公平かつ議論的な言語モデリング

Fair and Argumentative Language Modeling for Computational Argumentation ( http://arxiv.org/abs/2204.04026v1 )

ライセンス: CC BY-SA 4.0
Carolin Holtermann, Anne Lauscher, Simone Paolo Ponzetto(参考訳) NLPにおける多くの研究は意味空間におけるステレオタイプバイアスの測定と緩和に重点を置いているが、計算議論におけるバイアスに対処する研究はまだ初期段階にある。 本稿では,この研究ギャップに対処し,議論型言語モデルにおける偏見を徹底的に調査する。 この目的のために,議論に適したバイアス測定のための新しいリソースであるABBAを紹介する。 提案手法では,提案手法がトランスフォーマーベース言語モデルにおける固有バイアスに与える影響を,完全微調整よりも持続的かつパラメータ効率の高い軽量アダプタベースアプローチを用いて評価する。 最後に,言語モデルのデバイアスが,計算的議論の下流課題である議論品質予測の性能に与える影響について分析する。 その結果,ダウンストリームタスクにおけるモデル性能を維持しつつ,一般的な言語モデルや議論的な言語モデルのバイアスを,成功かつ持続的に除去できることがわかった。 実験的なコードとデータは、https://github.com/umanlp/FairArgumentativeLMで公開しています。

Although much work in NLP has focused on measuring and mitigating stereotypical bias in semantic spaces, research addressing bias in computational argumentation is still in its infancy. In this paper, we address this research gap and conduct a thorough investigation of bias in argumentative language models. To this end, we introduce ABBA, a novel resource for bias measurement specifically tailored to argumentation. We employ our resource to assess the effect of argumentative fine-tuning and debiasing on the intrinsic bias found in transformer-based language models using a lightweight adapter-based approach that is more sustainable and parameter-efficient than full fine-tuning. Finally, we analyze the potential impact of language model debiasing on the performance in argument quality prediction, a downstream task of computational argumentation. Our results show that we are able to successfully and sustainably remove bias in general and argumentative language models while preserving (and sometimes improving) model performance in downstream tasks. We make all experimental code and data available at https://github.com/umanlp/FairArgumentativeLM.
翻訳日:2022-04-11 15:55:02 公開日:2022-04-08
# (参考訳) 歴史的文書コレクションの日付推定のための汎用画像検索法

A Generic Image Retrieval Method for Date Estimation of Historical Document Collections ( http://arxiv.org/abs/2204.04028v1 )

ライセンス: CC BY 4.0
Adri\`a Molina and Lluis Gomez and Oriol Ramos Terrades and Josep Llad\'os(参考訳) 歴史的文書画像の日付推定は困難な問題であり、あるデータセットから他のデータセットへ一般化する能力に欠ける文献にいくつかの貢献がある。 本稿では,異種コレクションの前方でよく一般化する検索手法に基づく頑健な日付推定システムを提案する。 smooth-ndcg というランキング損失関数を用いて畳み込みニューラルネットワークを訓練し,問題毎に文書の順序を学習する。 提案手法の主な使用例の1つは、歴史的な文脈検索のためのツールである。 これは、大データセットから得られた歴史画像の比較分析を、制作時期の観点から行うことができることを意味している。 原稿や新聞画像の実際のデータセットから異なる種類の文書を実験的に評価する。

Date estimation of historical document images is a challenging problem, with several contributions in the literature that lack of the ability to generalize from one dataset to others. This paper presents a robust date estimation system based in a retrieval approach that generalizes well in front of heterogeneous collections. we use a ranking loss function named smooth-nDCG to train a Convolutional Neural Network that learns an ordination of documents for each problem. One of the main usages of the presented approach is as a tool for historical contextual retrieval. It means that scholars could perform comparative analysis of historical images from big datasets in terms of the period where they were produced. We provide experimental evaluation on different types of documents from real datasets of manuscript and newspaper images.
翻訳日:2022-04-11 15:28:23 公開日:2022-04-08
# (参考訳) 埋め込み空間の絶対配向によるオントロジーマッチング

Ontology Matching Through Absolute Orientation of Embedding Spaces ( http://arxiv.org/abs/2204.04040v1 )

ライセンス: CC BY 4.0
Jan Portisch, Guilherme Costa, Karolin Stefani, Katharina Kreplin, Michael Hladik, Heiko Paulheim(参考訳) オントロジーマッチングは、相互運用可能でリンクされたオープンデータセットを作成する際のコアタスクである。 本稿では,知識グラフの埋め込みに基づく構造に基づく新しいマッピング手法について考察する: 一致すべきオントロジーは埋め込み,絶対配向として知られるアプローチは,2つの埋め込み空間を整合させる。 提案手法では,合成データと実世界データを用いた最初の予備評価を行う。 合成データを用いた実験において、このアプローチは同様に構造化されたグラフで非常にうまく機能し、オントロジーにおける大きさや構造的な違いよりもアライメントノイズを処理している。

Ontology matching is a core task when creating interoperable and linked open datasets. In this paper, we explore a novel structure-based mapping approach which is based on knowledge graph embeddings: The ontologies to be matched are embedded, and an approach known as absolute orientation is used to align the two embedding spaces. Next to the approach, the paper presents a first, preliminary evaluation using synthetic and real-world datasets. We find in experiments with synthetic data, that the approach works very well on similarly structured graphs; it handles alignment noise better than size and structural differences in the ontologies.
翻訳日:2022-04-11 15:17:15 公開日:2022-04-08
# (参考訳) HateCheck:ヘイトスピーチ検出のための行動認識学習のクロスファンクショナル分析

Checking HateCheck: a cross-functional analysis of behaviour-aware learning for hate speech detection ( http://arxiv.org/abs/2204.04042v1 )

ライセンス: CC BY 4.0
Pedro Henrique Luz de Araujo and Benjamin Roth(参考訳) 振る舞いテスト -- 人間が設計した入出力ペアを検証することでシステム機能を検証する -- は、標準アプローチの欠点に対処するために提案された自然言語処理システムの代替評価手法である。 振る舞いテストは人間の事前の知識と洞察を捉えるが、モデルトレーニングと開発にそれらを活用する方法についてはほとんど調査されていない。 このことを念頭に置いて,ヘイトスピーチ検出システムのための機能テストスイートであるHateCheckを用いて,いくつかの微調整スキームを調べ,行動認識学習について検討する。 評価を意図したデータに対するトレーニングの潜在的な落とし穴に対処するために,テストケースのカテゴリを保持することで,HateCheckのさまざまな構成に関するモデルをトレーニングし,評価する。 微調整手順は保留機能と同一性群の分類精度の向上につながり、モデルが見過ごされた機能に一般化できる可能性が示唆された。 しかし、ホールドアウト機能クラスとヘイトスピーチ検出データのパフォーマンスは低下し、これは一般化がほぼ同じクラスからの機能にわたって起こり、その手順がHateCheckデータ分布に過度に適合することを示している。

Behavioural testing -- verifying system capabilities by validating human-designed input-output pairs -- is an alternative evaluation method of natural language processing systems proposed to address the shortcomings of the standard approach: computing metrics on held-out data. While behavioural tests capture human prior knowledge and insights, there has been little exploration on how to leverage them for model training and development. With this in mind, we explore behaviour-aware learning by examining several fine-tuning schemes using HateCheck, a suite of functional tests for hate speech detection systems. To address potential pitfalls of training on data originally intended for evaluation, we train and evaluate models on different configurations of HateCheck by holding out categories of test cases, which enables us to estimate performance on potentially overlooked system properties. The fine-tuning procedure led to improvements in the classification accuracy of held-out functionalities and identity groups, suggesting that models can potentially generalise to overlooked functionalities. However, performance on held-out functionality classes and i.i.d. hate speech detection data decreased, which indicates that generalisation occurs mostly across functionalities from the same class and that the procedure led to overfitting to the HateCheck data distribution.
翻訳日:2022-04-11 15:12:47 公開日:2022-04-08
# (参考訳) C-NMT:ニューラルマシン翻訳のための協調推論フレームワーク

C-NMT: A Collaborative Inference Framework for Neural Machine Translation ( http://arxiv.org/abs/2204.04043v1 )

ライセンス: CC BY 4.0
Yukai Chen, Roberta Chiaro, Enrico Macii, Massimo Poncino, Daniele Jahier Pagliari(参考訳) コラボレーション推論(CI)は、エッジとクラウドデバイスの相互運用を通じて、ディープラーニング推論のレイテンシとエネルギー消費を最適化する。 他のタスクには有益だが、ニューラルネットワーク翻訳(NMT)の中心にあるシーケンス列マッピング問題にCIは適用されていない。 本稿では、(未知)出力シーケンスを生成するのに必要なレイテンシを推定するなど、協調nmtの特定の問題に対処し、既存のciメソッドをこれらのアプリケーションにどのように適用できるかを示す。 実験の結果,非協調的アプローチと比較して,CIはNMTのレイテンシを最大44%削減できることがわかった。

Collaborative Inference (CI) optimizes the latency and energy consumption of deep learning inference through the inter-operation of edge and cloud devices. Albeit beneficial for other tasks, CI has never been applied to the sequence- to-sequence mapping problem at the heart of Neural Machine Translation (NMT). In this work, we address the specific issues of collaborative NMT, such as estimating the latency required to generate the (unknown) output sequence, and show how existing CI methods can be adapted to these applications. Our experiments show that CI can reduce the latency of NMT by up to 44% compared to a non-collaborative approach.
翻訳日:2022-04-11 15:01:42 公開日:2022-04-08
# (参考訳) 粒子追跡問題における動的超解像

Dynamic super-resolution in particle tracking problems ( http://arxiv.org/abs/2204.04092v1 )

ライセンス: CC BY 4.0
Ping Liu, Habib Ammari(参考訳) 生体イメージングにおける粒子追跡は、標的粒子の軌道、位置、速度を再構成することに関わる。 粒子追跡の標準的なアプローチは、2つのステップからなる: まず、各タイムステップのソース位置を静的に再構成し、次に、軌道と速度を得るための追跡技術を適用する。 対照的に、動的再構成は全てのフレームからソースの位置と速度を同時に回復し、一定の利点を享受することを目指している。 本稿では, 粒子追跡問題における一般的な動的再構成による震源数, 位置, 速度の復元限界に対する厳密な数学的解析を行い, 動的再構成における超解像化の可能性を示す。 粒子の位置-速度対が一定の距離(分解限界)を超えて分離されている場合、粒子の数と位置-速度対を安定して回収できることを示す。 解像度の限界は、撮像系のカットオフ周波数、信号対雑音比、ソースのスパーシティに関係している。 これらの推定値から,スパルシリティを促進させる動的再構成のための安定性結果も導出する。 さらに, 速度の再構成は粒子の移動とともに常に改善され, 分解能の限界が向上することを示した。 この結果は、速度回復に固有のカットオフ周波数を、画像システムのカットオフ周波数を乗じる総観測時間とみなすことができ、各回折制限フレームのカットオフ周波数と比べ、より優れた解像度限界をもたらす可能性があるという観測結果から導かれる。 この観察は, 粒子追跡の精度を向上させる新しい再構成アルゴリズムを刺激することが期待されている。

Particle tracking in biological imaging is concerned with reconstructing the trajectories, locations, or velocities of the targeting particles. The standard approach of particle tracking consists of two steps: first reconstructing statically the source locations in each time step, and second applying tracking techniques to obtain the trajectories and velocities. In contrast, the dynamic reconstruction seeks to simultaneously recover the source locations and velocities from all frames, which enjoys certain advantages. In this paper, we provide a rigorous mathematical analysis for the resolution limit of reconstructing source number, locations, and velocities by general dynamical reconstruction in particle tracking problems, by which we demonstrate the possibility of achieving super-resolution for the dynamic reconstruction. We show that when the location-velocity pairs of the particles are separated beyond certain distances (the resolution limits), the number of particles and the location-velocity pair can be stably recovered. The resolution limits are related to the cut-off frequency of the imaging system, signal-to-noise ratio, and the sparsity of the source. By these estimates, we also derive a stability result for a sparsity-promoting dynamic reconstruction. In addition, we further show that the reconstruction of velocities has a better resolution limit which improves constantly as the particles moving. This result is derived by an observation that the inherent cut-off frequency for the velocity recovery can be viewed as the total observation time multiplies the cut-off frequency of the imaging system, which may lead to a better resolution limit as compared to the one for each diffraction-limited frame. It is anticipated that this observation can inspire new reconstruction algorithms that improve the resolution of particle tracking in practice.
翻訳日:2022-04-11 14:53:18 公開日:2022-04-08
# (参考訳) EPASAD:Ellipsoid決定境界に基づくプロセス認識ステルス攻撃検出器

EPASAD: Ellipsoid decision boundary based Process-Aware Stealthy Attack Detector ( http://arxiv.org/abs/2204.04154v1 )

ライセンス: CC BY 4.0
Vikas Maurya, Rachit Agarwal, Saurabh Kumar, Sandeep Kumar Shukla(参考訳) 国家経済におけるクリティカル・インフラストラクチャー(CI)の重要性から、彼らはサイバー攻撃者に利益をもたらす標的となっている。 これらの重要なインフラは通常、電力網、水、下水処理施設、石油やガスパイプラインなどのサイバー物理システム(CPS)である。 近年、これらのシステムはサイバー攻撃に何度も悩まされている。 研究者たちは、永続的なダメージを避けるために、CIのためのサイバーセキュリティソリューションを開発している。 標準的なフレームワークによると、識別、保護、検出、応答、回復に基づくサイバーセキュリティが、これらの研究の核心にある。 ファイアウォール、アンチウイルス、ホスト/ネットワークの侵入検知などの標準的な防御から逃れる攻撃の検出は、最終的にはシステムの物理的ダイナミクスに影響を与えるため、重要になっている。 したがって、物理力学における異常検出は、ディフェンス・イン・ディープスを実装する効果的な方法である。 PASADはセンサ/アクチュエータデータにおける異常検出の一例であり、そのようなシステムの物理力学を表している。 実験の結果, PASAD の球面境界に基づく検出では検出できないことが明らかとなり, PASAD のマイクロステルス攻撃の検出技術を改善するEPASAD を提案する。 エパサド法は楕円体境界を用いてこれを克服し, 球面境界がすべての次元を等しく扱うのに対し, 様々な次元の境界を締め付ける。 TEプロセスシミュレータとCタウンデータセットによって生成されたデータセットを用いてEPASADを検証する。 その結果、EPASADはPASADの平均リコールをそれぞれ5.8%、9.5%改善していることがわかった。

Due to the importance of Critical Infrastructure (CI) in a nation's economy, they have been lucrative targets for cyber attackers. These critical infrastructures are usually Cyber-Physical Systems (CPS) such as power grids, water, and sewage treatment facilities, oil and gas pipelines, etc. In recent times, these systems have suffered from cyber attacks numerous times. Researchers have been developing cyber security solutions for CIs to avoid lasting damages. According to standard frameworks, cyber security based on identification, protection, detection, response, and recovery are at the core of these research. Detection of an ongoing attack that escapes standard protection such as firewall, anti-virus, and host/network intrusion detection has gained importance as such attacks eventually affect the physical dynamics of the system. Therefore, anomaly detection in physical dynamics proves an effective means to implement defense-in-depth. PASAD is one example of anomaly detection in the sensor/actuator data, representing such systems' physical dynamics. We present EPASAD, which improves the detection technique used in PASAD to detect these micro-stealthy attacks, as our experiments show that PASAD's spherical boundary-based detection fails to detect. Our method EPASAD overcomes this by using Ellipsoid boundaries, thereby tightening the boundaries in various dimensions, whereas a spherical boundary treats all dimensions equally. We validate EPASAD using the dataset produced by the TE-process simulator and the C-town datasets. The results show that EPASAD improves PASAD's average recall by 5.8% and 9.5% for the two datasets, respectively.
翻訳日:2022-04-11 14:51:56 公開日:2022-04-08
# (参考訳) 自己教師型話者ダイアリゼーション

Self-supervised Speaker Diarization ( http://arxiv.org/abs/2204.04166v1 )

ライセンス: CC BY 4.0
Yehoshua Dissen, Felix Kreuk and Joseph Keshet(参考訳) 過去数年間、ディープラーニングは話者の検証、識別、ダイアリゼーションで人気を高めてきた。 必然的に、この成功の重要な部分は、話者表現の有効性の実証によるものである。 しかし、これらは大量の注釈付きデータに大きく依存しており、新しいドメインに敏感である。 本研究では,話者ダイアリゼーションのための教師なしディープラーニングモデルを提案する。 特にこの研究は、注釈付きデータなしで高品質なニューラルネットワーク表現の生成と、アノテーションなしでモデルの二次的ハイパーパラメータの推定に焦点を当てている。 話者埋め込みは、同一話者と推定される隣接セグメントのペアを用いて、自己教師方式で訓練されたエンコーダによって表現される。 次に、訓練されたエンコーダモデルを用いて擬似ラベルを自己生成し、確率線形判別分析(plda)を用いて同一呼び出しの異なるセグメント間の類似度スコアを訓練し、さらにクラスタリング停止閾値を学習する。 当社のモデルと最先端の教師なしベースライン,およびCallHomeベンチマークの教師付きベースラインを比較した。 実験結果によると,本手法は2つの話者しか呼出しない場合,教師なしの手法よりも優れており,近年の教師付きモデルよりもやや悪い。

Over the last few years, deep learning has grown in popularity for speaker verification, identification, and diarization. Inarguably, a significant part of this success is due to the demonstrated effectiveness of their speaker representations. These, however, are heavily dependent on large amounts of annotated data and can be sensitive to new domains. This study proposes an entirely unsupervised deep-learning model for speaker diarization. Specifically, the study focuses on generating high-quality neural speaker representations without any annotated data, as well as on estimating secondary hyperparameters of the model without annotations. The speaker embeddings are represented by an encoder trained in a self-supervised fashion using pairs of adjacent segments assumed to be of the same speaker. The trained encoder model is then used to self-generate pseudo-labels to subsequently train a similarity score between different segments of the same call using probabilistic linear discriminant analysis (PLDA) and further to learn a clustering stopping threshold. We compared our model to state-of-the-art unsupervised as well as supervised baselines on the CallHome benchmarks. According to empirical results, our approach outperforms unsupervised methods when only two speakers are present in the call, and is only slightly worse than recent supervised models.
翻訳日:2022-04-11 14:27:32 公開日:2022-04-08
# (参考訳) プレトレーニングトランスを用いた水中画像強調

Underwater Image Enhancement Using Pre-trained Transformer ( http://arxiv.org/abs/2204.04199v1 )

ライセンス: CC BY 4.0
Abderrahmene Boudiaf, Yuhang Guo, Adarsh Ghimire, Naoufel Werghi, Giulia De Masi, Sajid Javed, Jorge Dias(参考訳) 本研究の目的は,水中画像からの歪みを除去し,他の類似手法と比較するために,雑音画像トランスフォーマを適用することである。 水中画像の自動復元は、高価な機器を必要とせずに画像の品質を向上させることができるため、重要な役割を果たす。 これは、海洋探査と監視をサポートし、画像の手動処理のような人間の介入の必要性を減らし、時間、労力、コストを節約する機械学習アルゴリズムの重要な役割の重要な例である。 本稿では,水中画像に「事前学習画像処理変換器」と呼ばれる画像変換器を用いたアプローチを初めて適用した。 このアプローチはufo-120データセット上でテストされ、1500の画像と対応するクリーンイメージを含んでいる。

The goal of this work is to apply a denoising image transformer to remove the distortion from underwater images and compare it with other similar approaches. Automatic restoration of underwater images plays an important role since it allows to increase the quality of the images, without the need for more expensive equipment. This is a critical example of the important role of the machine learning algorithms to support marine exploration and monitoring, reducing the need for human intervention like the manual processing of the images, thus saving time, effort, and cost. This paper is the first application of the image transformer-based approach called "Pre-Trained Image Processing Transformer" to underwater images. This approach is tested on the UFO-120 dataset, containing 1500 images with the corresponding clean images.
翻訳日:2022-04-11 14:16:52 公開日:2022-04-08
# グローバルアップデートによる連合学習

Global Update Guided Federated Learning ( http://arxiv.org/abs/2204.03920v1 )

ライセンス: Link先を確認
Qilong Wu, Lin Liu, Shibei Xue(参考訳) フェデレーション学習は、データの代わりにモデルを交換することで、データのプライバシとセキュリティを保護する。 しかし、参加者間の不均衡なデータ分布は、連合学習アルゴリズムの精度と収束速度を損なう。 この問題を緩和するために、局所モデル更新の距離を制限する従来の研究とは異なり、局所目的関数にモデルコサイン損失を導入し、局所モデルがグローバルモデルの更新方向のガイダンスの下で局所データ分布に適合できるように、グローバル更新誘導型フェデレーションラーニング(FedGG)を提案する。 さらに,学習の初期段階において,グローバルモデルの更新方向が有益であることを考慮し,局所モデルの更新距離に基づく適応損失重み付けを提案する。 数値シミュレーションにより、他の高度なアルゴリズムと比較して、FedGGはモデル収束精度と速度を著しく改善していることが示された。 さらに、従来の固定損失重みと比較して、適応損失重みは我々のアルゴリズムをより安定して実装しやすくする。

Federated learning protects data privacy and security by exchanging models instead of data. However, unbalanced data distributions among participating clients compromise the accuracy and convergence speed of federated learning algorithms. To alleviate this problem, unlike previous studies that limit the distance of updates for local models, we propose global-update-guided federated learning (FedGG), which introduces a model-cosine loss into local objective functions, so that local models can fit local data distributions under the guidance of update directions of global models. Furthermore, considering that the update direction of a global model is informative in the early stage of training, we propose adaptive loss weights based on the update distances of local models. Numerical simulations show that, compared with other advanced algorithms, FedGG has a significant improvement on model convergence accuracies and speeds. Additionally, compared with traditional fixed loss weights, adaptive loss weights enable our algorithm to be more stable and easier to implement in practice.
翻訳日:2022-04-11 14:07:55 公開日:2022-04-08
# 確率ゲームにおけるマルコフ平衡の複雑さ

The Complexity of Markov Equilibrium in Stochastic Games ( http://arxiv.org/abs/2204.03991v1 )

ライセンス: Link先を確認
Constantinos Daskalakis and Noah Golowich and Kaiqing Zhang(参考訳) 一般確率ゲームにおける近似定常マルコフ粗相関平衡 (CCE) の計算は, 2人のプレイヤーが存在する場合でも, ゲームはターンベースであり, 割引係数は絶対定数であり, 近似は絶対定数であることを示す。 我々の難易度は、正確なCCEを効率的に計算できる通常のゲームとは対照的である。 その結果,マルチエージェント強化学習(MARL)におけるマルコフCCEポリシーの学習には,相互作用が2つのプレイヤーとターンベースであっても効率の良いアルゴリズムが存在しないこと,学習方針の割引係数と所望の近似が絶対定数であること,などが示唆された。 これらの結果は, ほぼ最適な定常マルコフ政策を効率的に学習できる単一エージェント強化学習(RL)とは対照的である。 定常マルコフCCEの難易度を補足し、非定常マルコフCCEポリシーを多項式時間で学習する分散アルゴリズム(プレイヤー間のランダム性を仮定する)を提供する。 マルコフのCCEポリシーを学習するためには、プレイヤー数の指数時間とサンプルの複雑さが必要だった。

We show that computing approximate stationary Markov coarse correlated equilibria (CCE) in general-sum stochastic games is computationally intractable, even when there are two players, the game is turn-based, the discount factor is an absolute constant, and the approximation is an absolute constant. Our intractability results stand in sharp contrast to normal-form games where exact CCEs are efficiently computable. A fortiori, our results imply that there are no efficient algorithms for learning stationary Markov CCE policies in multi-agent reinforcement learning (MARL), even when the interaction is two-player and turn-based, and both the discount factor and the desired approximation of the learned policies is an absolute constant. In turn, these results stand in sharp contrast to single-agent reinforcement learning (RL) where near-optimal stationary Markov policies can be efficiently learned. Complementing our intractability results for stationary Markov CCEs, we provide a decentralized algorithm (assuming shared randomness among players) for learning a nonstationary Markov CCE policy with polynomial time and sample complexity in all problem parameters. Previous work for learning Markov CCE policies all required exponential time and sample complexity in the number of players.
翻訳日:2022-04-11 14:07:40 公開日:2022-04-08
# 予算上のサブモジュラー機能を持つランキング

Ranking with submodular functions on a budget ( http://arxiv.org/abs/2204.04168v1 )

ライセンス: Link先を確認
Guangyi Zhang, Nikolaj Tatti, Aristides Gionis(参考訳) サブモジュラー最大化は、多くの重要な機械学習問題のバックボーンであり、バイラルマーケティング、多様化、センサー配置などに応用されている。 しかしながら、サブモジュラー関数を最大化する研究は、主に一連のアイテムを選択する文脈で制限されている。 一方、現実世界のアプリケーションの多くは、一連のアイテムをランク付けするソリューションを必要としている。 部分モジュラ函数最大化の文脈におけるランク付けの問題はこれまで検討されてきたが、項目選択の定式化よりもはるかに少ない。 本稿では,サブモジュール評価と予算制約を伴うランキング項目の新たな定式化について検討する。 この問題をmax-submodular ranking (msr) と呼ぶ。 より詳しくは、各関数が予算に関連付けられるような、項目の集合と非機能部分関数の集合を与えられたとき、予算制約の下ですべての関数によって達成される値の総和を最大化する項目の集合のランキングを見つけることを目的とする。 濃度とナップサック型予算制約を持つmsr問題に対して,近似保証付き実用的なアルゴリズムを提案する。 さらに,提案アルゴリズムの強いベースラインに対する優れた性能を示す経験的評価を行う。

Submodular maximization has been the backbone of many important machine-learning problems, and has applications to viral marketing, diversification, sensor placement, and more. However, the study of maximizing submodular functions has mainly been restricted in the context of selecting a set of items. On the other hand, many real-world applications require a solution that is a ranking over a set of items. The problem of ranking in the context of submodular function maximization has been considered before, but to a much lesser extent than item-selection formulations. In this paper, we explore a novel formulation for ranking items with submodular valuations and budget constraints. We refer to this problem as max-submodular ranking (MSR). In more detail, given a set of items and a set of non-decreasing submodular functions, where each function is associated with a budget, we aim to find a ranking of the set of items that maximizes the sum of values achieved by all functions under the budget constraints. For the MSR problem with cardinality- and knapsack-type budget constraints we propose practical algorithms with approximation guarantees. In addition, we perform an empirical evaluation, which demonstrates the superior performance of the proposed algorithms against strong baselines.
翻訳日:2022-04-11 14:07:19 公開日:2022-04-08
# 深層学習に基づくビデオ符号化のためのイントラモード導出

Deep Learning-Based Intra Mode Derivation for Versatile Video Coding ( http://arxiv.org/abs/2204.04059v1 )

ライセンス: Link先を確認
Linwei Zhu, Yun Zhang, Na Li, Gangyi Jiang, and Sam Kwong(参考訳) イントラコーディングでは、予め定義された候補リストから最適なイントラモードを実現するためにレート歪み最適化(RDO)を行う。 最適なイントラモードは、多くの符号化ビットが消費される残信号の他に、デコーダ側へ符号化され送信されることも要求される。 本稿では,汎用ビデオ符号化(vvc)におけるイントラコーディングの性能をさらに向上させるために,ディープラーニングに基づくイントラモード導出(dlimd)と呼ばれるインテリジェントイントラモード導出法を提案する。 具体的には、イントラモードの導出過程を多クラス分類タスクとして定式化し、イントラモードシグナリングのモジュールを省略して符号化ビットの低減を図る。 DLIMDのアーキテクチャは、異なる量子化パラメータ設定と2乗でないブロックを含む可変符号化ブロックに適応するように開発され、1つの訓練されたモデルで処理される。 既存のディープラーニングに基づく分類問題とは異なり、手作りの機能は、特徴学習ネットワークから学習した特徴に加え、モード内導出ネットワークに供給される。 従来の手法と競合するために、ビデオコーデックで1つの追加のバイナリフラグを使用して、選択したスキームをRDOで示す。 広範な実験結果から,提案手法は,vvcテストモデルのプラットフォーム上で,y,u,vコンポーネントの平均で2.28%,1.74%,2.18%のビットレート削減を達成できることが分かった。

In intra coding, Rate Distortion Optimization (RDO) is performed to achieve the optimal intra mode from a pre-defined candidate list. The optimal intra mode is also required to be encoded and transmitted to the decoder side besides the residual signal, where lots of coding bits are consumed. To further improve the performance of intra coding in Versatile Video Coding (VVC), an intelligent intra mode derivation method is proposed in this paper, termed as Deep Learning based Intra Mode Derivation (DLIMD). In specific, the process of intra mode derivation is formulated as a multi-class classification task, which aims to skip the module of intra mode signaling for coding bits reduction. The architecture of DLIMD is developed to adapt to different quantization parameter settings and variable coding blocks including non-square ones, which are handled by one single trained model. Different from the existing deep learning based classification problems, the hand-crafted features are also fed into the intra mode derivation network besides the learned features from feature learning network. To compete with traditional method, one additional binary flag is utilized in the video codec to indicate the selected scheme with RDO. Extensive experimental results reveal that the proposed method can achieve 2.28%, 1.74%, and 2.18% bit rate reduction on average for Y, U, and V components on the platform of VVC test model, which outperforms the state-of-the-art works.
翻訳日:2022-04-11 14:05:45 公開日:2022-04-08
# personal vad 2.0: オンデバイス音声認識のための個人音声活動検出の最適化

Personal VAD 2.0: Optimizing Personal Voice Activity Detection for On-Device Speech Recognition ( http://arxiv.org/abs/2204.03793v1 )

ライセンス: Link先を確認
Shaojin Ding, Rajeev Rikhye, Qiao Liang, Yanzhang He, Quan Wang, Arun Narayanan, Tom O'Malley, Ian McGraw(参考訳) デバイス上での音声認識(asr)のパーソナライズは、モバイルデバイスやスマートホームスピーカーでのパーソナルアシスタント機能の普及によって、近年爆発的な成長を遂げている。 本研究では,ストリーミングオンデバイスASRシステムの一環として,ターゲット話者の音声活動を検出するパーソナライズされた音声活動検出装置であるPersonal VAD 2.0を提案する。 以前の概念実証研究は、個人的vadの有効性を検証しているが、このモデルが本番環境で使われる前に対処すべき重要な課題はいくつかある。第一に、登録と登録なしのシナリオの両方において品質が十分満足できなければならないこと、第二に、ストリーミング方式で運用する必要があること、そして最後に、モデルのサイズは、限定されたレイテンシとcpu/メモリ予算に適合するほど小さいこと、である。 多面的要件を満たすために,我々は新しいデザインのシリーズを提案する。 1) 高度な話者埋め込み変調方法 2) 入学不要条件を一般化する新たな訓練パラダイム 3) レイテンシとリソース制限に対するアーキテクチャとランタイムの最適化。 現実的な音声認識システムにおける大規模実験により,提案手法の最先端性能を実証した。

Personalization of on-device speech recognition (ASR) has seen explosive growth in recent years, largely due to the increasing popularity of personal assistant features on mobile devices and smart home speakers. In this work, we present Personal VAD 2.0, a personalized voice activity detector that detects the voice activity of a target speaker, as part of a streaming on-device ASR system. Although previous proof-of-concept studies have validated the effectiveness of Personal VAD, there are still several critical challenges to address before this model can be used in production: first, the quality must be satisfactory in both enrollment and enrollment-less scenarios; second, it should operate in a streaming fashion; and finally, the model size should be small enough to fit a limited latency and CPU/Memory budget. To meet the multi-faceted requirements, we propose a series of novel designs: 1) advanced speaker embedding modulation methods; 2) a new training paradigm to generalize to enrollment-less conditions; 3) architecture and runtime optimizations for latency and resource restrictions. Extensive experiments on a realistic speech recognition system demonstrated the state-of-the-art performance of our proposed method.
翻訳日:2022-04-11 14:05:11 公開日:2022-04-08
# 部分モデルパーソナライズによる連合学習

Federated Learning with Partial Model Personalization ( http://arxiv.org/abs/2204.03809v1 )

ライセンス: Link先を確認
Krishna Pillutla, Kshitiz Malik, Abdelrahman Mohamed, Michael Rabbat, Maziar Sanjabi, Lin Xiao(参考訳) 共有パラメータと個人パラメータがデバイス上で同時または交互に更新される部分的パーソナライズされたモデルをトレーニングするための2つのフェデレーション学習アルゴリズムについて検討する。 どちらのアルゴリズムも文献で提案されているが、それらの収束特性は、特に交互変量に対して完全には理解されていない。 部分的参加を伴う一般の非凸設定における両アルゴリズムの収束解析を行い、一方が他方を支配している体制を規定する。 実世界の画像、テキスト、音声データセットに関する我々の実験は、それを実証している。 (a)部分的パーソナライゼーションは、個人的パラメータのごく一部でフルモデルパーソナライゼーションの利点のほとんどを得ることができ、 b) 交互更新アルゴリズムは、しばしば同時更新アルゴリズムよりも優れている。

We consider two federated learning algorithms for training partially personalized models, where the shared and personal parameters are updated either simultaneously or alternately on the devices. Both algorithms have been proposed in the literature, but their convergence properties are not fully understood, especially for the alternating variant. We provide convergence analyses of both algorithms in the general nonconvex setting with partial participation and delineate the regime where one dominates the other. Our experiments on real-world image, text, and speech datasets demonstrate that (a) partial personalization can obtain most of the benefits of full model personalization with a small fraction of personal parameters, and, (b) the alternating update algorithm often outperforms the simultaneous update algorithm.
翻訳日:2022-04-11 14:04:55 公開日:2022-04-08
# DiversiTree: 混合整数最適化問題に対する準最適解の多元計算

DiversiTree: Computing Diverse Sets of Near-Optimal Solutions to Mixed-Integer Optimization Problems ( http://arxiv.org/abs/2204.03822v1 )

ライセンス: Link先を確認
Izuwa Ahanor, Hugh Medal, Andrew C. Trapp(参考訳) 混合整数最適化問題を解くほとんどの方法は単一の最適解を求めるが、近似最適解の多様な集合を見つけることはより有用である。 多様な準最適解を生成するための最先端の手法は、通常二相アプローチを採り、まずは準最適解の集合を見つけ、次に多様な部分集合を見つける。 対照的に,準最適解探索における多様性を強調し,多様な解の集合を求める手法を提案する。 具体的には、分岐とバウンドのフレームワークにおいて、多様性を明示的に考慮するパラメータ化ノード選択ルールについて検討する。 その結果,本手法は最終解集合の多様性を著しく向上させることが示唆された。 提案手法は,既存手法と比較すると,通常のノード選択法と同じような実行時間で動作し,最大140%の多様性向上を実現している。 対照的に、best-first searchのような人気のあるノード選択ルールは40%未満の改善をもたらす。 さらに,本手法は,木深くではノード選択に多様性が強調され,解集合が十分に大きくなった場合にも有効であることがわかった。

While most methods for solving mixed-integer optimization problems seek a single optimal solution, finding a diverse set of near-optimal solutions can often be more useful. State of the art methods for generating diverse near-optimal solutions usually take a two-phase approach, first finding a set of near-optimal solutions and then finding a diverse subset. In contrast, we present a method of finding a set of diverse solutions by emphasizing diversity within the search for near-optimal solutions. Specifically, within a branch-and-bound framework, we investigate parameterized node selection rules that explicitly consider diversity. Our results indicate that our approach significantly increases diversity of the final solution set. When compared with existing methods for finding diverse near-optimal sets, our method runs with similar run-time as regular node selection methods and gives a diversity improvement of up to 140%. In contrast, popular node selection rules such as best-first search gives an improvement of no more than 40%. Further, we find that our method is most effective when diversity is emphasized more in node selection when deeper in the tree and when the solution set has grown large enough.
翻訳日:2022-04-11 14:04:43 公開日:2022-04-08
# メルスペクトログラムを用いた音響車両検出と速度推定

Mel-spectrogram features for acoustic vehicle detection and speed estimation ( http://arxiv.org/abs/2204.04013v1 )

ライセンス: Link先を確認
Nikola Bulatovic, Slobodan Djukanovic(参考訳) 本稿では,単一センサによる音響車両の検出と速度推定について述べる。 制御学習手法を用いて,入力音声のメル・スペクトログラムから予測されるクリップ付き車間距離を最小化することにより,車両のパスバイを瞬時に予測する。 また, メル・スペクトログラムを用いた車速推定では, 中間機能を導入せずに直接使用することができる。 その結果,提案手法は,平均誤差7.87km/hの精度の高い車両検出と速度推定に利用できることがわかった。 分類問題として速度推定を定式化して10km/hの離散化間隔で定式化した場合,提案手法は,1クラスのオフセットが許容される場合の平均精度が48.7%,91.0%となる。 提案手法は、10台の異なる車両の都市環境記録を304のデータセットで評価した。

The paper addresses acoustic vehicle detection and speed estimation from single sensor measurements. We predict the vehicle's pass-by instant by minimizing clipped vehicle-to-microphone distance, which is predicted from the mel-spectrogram of input audio, in a supervised learning approach. In addition, mel-spectrogram-based features are used directly for vehicle speed estimation, without introducing any intermediate features. The results show that the proposed features can be used for accurate vehicle detection and speed estimation, with an average error of 7.87 km/h. If we formulate speed estimation as a classification problem, with a 10 km/h discretization interval, the proposed method attains the average accuracy of 48.7% for correct class prediction and 91.0% when an offset of one class is allowed. The proposed method is evaluated on a dataset of 304 urban-environment on-field recordings of ten different vehicles.
翻訳日:2022-04-11 14:02:59 公開日:2022-04-08
# 創薬における仮想スクリーニングのための量子機械学習フレームワーク:先進的な量子アドバンテージ

Quantum Machine Learning Framework for Virtual Screening in Drug Discovery: a Prospective Quantum Advantage ( http://arxiv.org/abs/2204.04017v1 )

ライセンス: Link先を確認
Stefano Mensa, Emre Sahin, Francesco Tacchino, Panagiotis Kl. Barkoutsos and Ivano Tavernelli(参考訳) Ligand Based Virtual Screening(LB-VS)のための機械学習(ML)は、特に新型コロナウイルス(COVID-19)などの新興疾患に対して、迅速かつ費用対効果の高い方法で新薬を発見するための重要なサイリコツールである。 本稿では,従来のサポートベクトル分類器(SVC)アルゴリズムと実世界のデータベース上でのLB-VSの量子カーネル推定を組み合わせた汎用フレームワークを提案する。 実際、我々の量子統合ワークフローが、少なくともいくつかの関連する場合において、同じデータセット上で動作している最先端の古典的アルゴリズムと比較して、明確な利点をもたらすことをヒューリスティックに証明し、ターゲットと特徴の選択方法に強い依存を示す。 最後に、ADRB2およびCOVID-19データセットを用いてIBM Quantumプロセッサ上でアルゴリズムをテストし、ハードウェアシミュレーションが予測された性能と一致し、古典的な等価性を上回る結果が得られることを示した。

Machine Learning (ML) for Ligand Based Virtual Screening (LB-VS) is an important in-silico tool for discovering new drugs in a faster and cost-effective manner, especially for emerging diseases such as COVID-19. In this paper, we propose a general-purpose framework combining a classical Support Vector Classifier (SVC) algorithm with quantum kernel estimation for LB-VS on real-world databases, and we argue in favor of its prospective quantum advantage. Indeed, we heuristically prove that our quantum integrated workflow can, at least in some relevant instances, provide a tangible advantage compared to state-of-art classical algorithms operating on the same datasets, showing strong dependence on target and features selection method. Finally, we test our algorithm on IBM Quantum processors using ADRB2 and COVID-19 datasets, showing that hardware simulations provide results in line with the predicted performances and can surpass classical equivalents.
翻訳日:2022-04-11 14:02:43 公開日:2022-04-08
# karaoker:音声訓練データを用いたアライメントフリー歌唱音声合成

Karaoker: Alignment-free singing voice synthesis with speech training data ( http://arxiv.org/abs/2204.04127v1 )

ライセンス: Link先を確認
Panos Kakoulidis, Nikolaos Ellinas, Georgios Vamvoukakis, Konstantinos Markopoulos, June Sig Sung, Gunu Jho, Pirros Tsiakoulis, Aimilios Chalamandaris(参考訳) 既存の歌唱音声合成モデル(SVS)は通常、歌唱データに基づいて訓練され、エラーを起こしやすい時間アライメントと持続時間の特徴または明示的な楽譜情報に依存する。 本稿では,声質特性を条件とした多話者タコトロンモデルであるカラオカーを提案する。 カラオッカーは、未認識話者/シンガーの音源波形から抽出した多次元テンプレートに従って歌声を合成する。 このモデルは、ピッチ、強度、調和性、フォルマント、ケプストラムピークプロミネンス、オクターブを含む連続データに対して、単一の深い畳み込みエンコーダと共同で処理される。 我々は、特徴再構成、分類、話者識別タスクによってテキストから音声への学習目標を拡張し、モデルを正確な結果に導く。 マルチタスクを除くと,wasserstein gan の学習方式と音響モデルの出力に新たな損失を伴い,モデルの質をさらに向上させる。

Existing singing voice synthesis models (SVS) are usually trained on singing data and depend on either error-prone time-alignment and duration features or explicit music score information. In this paper, we propose Karaoker, a multispeaker Tacotron-based model conditioned on voice characteristic features that is trained exclusively on spoken data without requiring time-alignments. Karaoker synthesizes singing voice following a multi-dimensional template extracted from a source waveform of an unseen speaker/singer. The model is jointly conditioned with a single deep convolutional encoder on continuous data including pitch, intensity, harmonicity, formants, cepstral peak prominence and octaves. We extend the text-to-speech training objective with feature reconstruction, classification and speaker identification tasks that guide the model to an accurate result. Except for multi-tasking, we also employ a Wasserstein GAN training scheme as well as new losses on the acoustic model's output to further refine the quality of the model.
翻訳日:2022-04-11 14:02:04 公開日:2022-04-08
# コントラスト型自己監督型音声表現学習における自動データ拡張選択とパラメトリゼーション

Automatic Data Augmentation Selection and Parametrization in Contrastive Self-Supervised Speech Representation Learning ( http://arxiv.org/abs/2204.04170v1 )

ライセンス: Link先を確認
Salah Zaiem, Titouan Parcollet and Slim Essid(参考訳) コントラスト学習は、類似した信号セグメントの潜在表現間の類似性を最大化することにより、基底ラベルを使わずに有用な音声および音声表現の学習を可能にする。 このフレームワークでは、様々なデータ拡張技術が一般的に利用され、学習された表現内で望ましい不変性を強制し、より堅牢な埋め込みにより様々なオーディオタスクのパフォーマンスを向上させる。 現在、最も関連する拡張を選択することは、下流のパフォーマンスを改善する上で非常に重要であることが分かっています。 そこで本研究では, 条件付き独立性に基づく手法を導入し, 自己教師付き事前学習において, 条件付き独立性に基づく加法選択とそのパラメトリゼーションにより, 適切な分布を自動選択する手法を提案する。 これは下流の関心のあるタスクに関して行われ、コストのかかるハイパーパラメータの探索を省く。 2つの異なる下流タスクで行った実験は、追加なしでの実験やベースライン拡張よりも優れた結果を示す提案手法を検証する。 さらに, 最終ダウンストリームデータセットにしたがって, 自動選択された拡張とその変動を定性的に分析する。

Contrastive learning enables learning useful audio and speech representations without ground-truth labels by maximizing the similarity between latent representations of similar signal segments. In this framework various data augmentation techniques are usually exploited to help enforce desired invariances within the learned representations, improving performance on various audio tasks thanks to more robust embeddings. Now, selecting the most relevant augmentations has proven crucial for better downstream performances. Thus, this work introduces a conditional independance-based method which allows for automatically selecting a suitable distribution on the choice of augmentations and their parametrization from a set of predefined ones, for contrastive self-supervised pre-training. This is performed with respect to a downstream task of interest, hence saving a costly hyper-parameter search. Experiments performed on two different downstream tasks validate the proposed approach showing better results than experimenting without augmentation or with baseline augmentations. We furthermore conduct a qualitative analysis of the automatically selected augmentations and their variation according to the considered final downstream dataset.
翻訳日:2022-04-11 14:01:47 公開日:2022-04-08
# 仮説発見と検証のためのシンボリック回帰を用いた低コストロボット科学教育キット

A Low-Cost Robot Science Kit for Education with Symbolic Regression for Hypothesis Discovery and Validation ( http://arxiv.org/abs/2204.04187v1 )

ライセンス: Link先を確認
Logan Saar, Haotong Liang, Alex Wang, Austin McDannald, Efrain Rodriguez, Ichiro Takeuchi, A. Gilad Kusne(参考訳) 次世代の物理科学には、クローズドループで実験的な設計、実行、分析を行うロボット科学者の物理科学システムが含まれる。 このようなシステムは科学的な探索と発見のために現実世界で成功し、その中にはクラスで最高の物質が最初に発見されたことも含まれる。 これらのシステムの構築と利用には、ML、制御システム、計測科学、材料合成、意思決定理論など、さまざまな分野の専門知識が必要となる。 しかし、教育は遅れている。 教育者は必要なスキルを教えるために、低コストで使いやすいプラットフォームが必要です。 産業は、自律的な物理科学方法論の開発と評価のためのプラットフォームも利用できる。 我々は、低コストの自律科学者を構築するためのキットである科学教育の次世代を提示する。 このキットはメリーランド大学で2つのコースで、大学院生と大学院生に自律体科学を教えるために使用された。 本稿では,Henderson-Hasselbalch方程式の自律的実験「発見」の例として,そのコースにおける利用と,自律的モデル探索,最適化,決定という2つのタスクを教える能力について論じる。

The next generation of physical science involves robot scientists - autonomous physical science systems capable of experimental design, execution, and analysis in a closed loop. Such systems have shown real-world success for scientific exploration and discovery, including the first discovery of a best-in-class material. To build and use these systems, the next generation workforce requires expertise in diverse areas including ML, control systems, measurement science, materials synthesis, decision theory, among others. However, education is lagging. Educators need a low-cost, easy-to-use platform to teach the required skills. Industry can also use such a platform for developing and evaluating autonomous physical science methodologies. We present the next generation in science education, a kit for building a low-cost autonomous scientist. The kit was used during two courses at the University of Maryland to teach undergraduate and graduate students autonomous physical science. We discuss its use in the course and its greater capability to teach the dual tasks of autonomous model exploration, optimization, and determination, with an example of autonomous experimental "discovery" of the Henderson-Hasselbalch equation.
翻訳日:2022-04-11 14:01:29 公開日:2022-04-08
# (参考訳) 星の下のダンス:星の光を映すビデオ

Dancing under the stars: video denoising in starlight ( http://arxiv.org/abs/2204.04210v1 )

ライセンス: CC BY 4.0
Kristina Monakhova, Stephan R. Richter, Laura Waller, Vladlen Koltun(参考訳) 低光度での撮像は光子数が少ないため極めて困難である。 現在、感度の高いCMOSカメラを使用して、夜間に月明かりの下でビデオ撮影が可能である(0.05-0.3ルックス照明)。 本稿では,初めてstarlight (no moon present, $<0.001 lux) の下で,フォトリアリスティックな映像を実演する。 これを実現するために,gan調の物理ノイズモデルを開発し,低照度でのカメラノイズをより正確に表現する。 このノイズモデルを用いて,ビデオデノイザーをシミュレートされたノイズ映像と実際のノイズ静止画像を組み合わせて訓練する。 約0.6-0.7ミリラックスで、アクティブな照明のない5-10fpsのビデオデータセットを撮影する。 代替手法との比較により、低照度で画質が向上し、初めてstarlightでのフォトリアリスティックな映像が得られた。

Imaging in low light is extremely challenging due to low photon counts. Using sensitive CMOS cameras, it is currently possible to take videos at night under moonlight (0.05-0.3 lux illumination). In this paper, we demonstrate photorealistic video under starlight (no moon present, $<$0.001 lux) for the first time. To enable this, we develop a GAN-tuned physics-based noise model to more accurately represent camera noise at the lowest light levels. Using this noise model, we train a video denoiser using a combination of simulated noisy video clips and real noisy still images. We capture a 5-10 fps video dataset with significant motion at approximately 0.6-0.7 millilux with no active illumination. Comparing against alternative methods, we achieve improved video quality at the lowest light levels, demonstrating photorealistic video denoising in starlight for the first time.
翻訳日:2022-04-11 13:59:58 公開日:2022-04-08
# 自己教師付き音声表現学習による発音自動評価

Automatic Pronunciation Assessment using Self-Supervised Speech Representation Learning ( http://arxiv.org/abs/2204.03863v1 )

ライセンス: Link先を確認
Eesung Kim, Jae-Jin Jeon, Hyeji Seo, Hoon Kim(参考訳) wav2vec 2.0やHuBERTモデルのような自己教師型学習(SSL)アプローチは、音声コミュニティの様々な下流タスクにおいて有望な結果を示している。 特に、SSLモデルで学習した音声表現は、様々な音声関連特性を符号化するのに有効であることが示されている。 そこで本研究では,SSLモデルに基づく発音自動評価手法を提案する。 提案手法は,データ環境下での英語学習者の英語発音に適応するために,事前学習したSSLモデルを接続時分類で微調整する。 そして、sslモデルのトランスフォーマー層全体から、レイヤ毎のコンテキスト表現を抽出する。 最後に、階層的文脈表現と対応するテキストを用いた双方向長短期記憶を用いて自動発音スコアを推定する。 提案手法は,韓国のESL学習者とSpeechocean762のデータセットに基づいて,ピアソン相関係数を用いてベースラインよりも優れていることを示す。 さらに、SSLモデルにおけるトランスフォーマー層の異なる表現が発音評価タスクの性能にどのように影響するかを分析する。

Self-supervised learning (SSL) approaches such as wav2vec 2.0 and HuBERT models have shown promising results in various downstream tasks in the speech community. In particular, speech representations learned by SSL models have been shown to be effective for encoding various speech-related characteristics. In this context, we propose a novel automatic pronunciation assessment method based on SSL models. First, the proposed method fine-tunes the pre-trained SSL models with connectionist temporal classification to adapt the English pronunciation of English-as-a-second-language (ESL) learners in a data environment. Then, the layer-wise contextual representations are extracted from all across the transformer layers of the SSL models. Finally, the automatic pronunciation score is estimated using bidirectional long short-term memory with the layer-wise contextual representations and the corresponding text. We show that the proposed SSL model-based methods outperform the baselines, in terms of the Pearson correlation coefficient, on datasets of Korean ESL learner children and Speechocean762. Furthermore, we analyze how different representations of transformer layers in the SSL model affect the performance of the pronunciation assessment task.
翻訳日:2022-04-11 13:41:44 公開日:2022-04-08
# FashionCLIP: 製品表現のための言語と画像の接続

FashionCLIP: Connecting Language and Images for Product Representations ( http://arxiv.org/abs/2204.03972v1 )

ライセンス: Link先を確認
Patrick John Chia, Giuseppe Attanasio, Federico Bianchi, Silvia Terragni, Ana Rita Magalh\~aes, Diogo Goncalves, Ciro Greco, Jacopo Tagliabue(参考訳) オンラインショッピングの着実に増加は、ますます複雑なMLとNLPモデルの開発と相まって進んでいる。 ほとんどのユースケースは専門的な教師付き学習問題としてキャストされていますが、実践者は製品のより転送可能な表現から大きな恩恵を受けるでしょう。 本研究では,ファッション業界におけるCLIPライクなモデルであるFashionCLIPをトレーニングするための,コントラスト学習の最近の発展の上に構築する。 検索、分類、接地機能を示し、我々のモデルとコードをコミュニティにリリースする。

The steady rise of online shopping goes hand in hand with the development of increasingly complex ML and NLP models. While most use cases are cast as specialized supervised learning problems, we argue that practitioners would greatly benefit from more transferable representations of products. In this work, we build on recent developments in contrastive learning to train FashionCLIP, a CLIP-like model for the fashion industry. We showcase its capabilities for retrieval, classification and grounding, and release our model and code to the community.
翻訳日:2022-04-11 13:41:28 公開日:2022-04-08
# 強化学習のための訓練行動空間のデータ駆動評価

Data-Driven Evaluation of Training Action Space for Reinforcement Learning ( http://arxiv.org/abs/2204.03840v1 )

ライセンス: Link先を確認
Rajat Ghosh, Debojyoti Dutta(参考訳) 強化学習のための訓練行動空間選択 (rl) は、複雑な状態-行動関係のために相反し易い。 そこで本研究では,行動空間の分類とランク付けをトレーニングするためのShapleyに着想を得た方法論を提案する。 指数時間シャプリー計算を減らすため、この手法は不要な探索を避けるためにモンテカルロシミュレーションを含む。 本手法の有効性を,クラウドインフラ資源チューニングケーススタディを用いて示す。 検索スペースを80\%削減し、トレーニングアクションセットを不要かつ必要不可欠なグループに分類する。 さらに、高性能でコスト効率のよいRLモデル設計を容易にするために、異なるトレーニングアクションをランク付けする。 提案したデータ駆動手法は、異なるドメイン、ユースケース、強化学習アルゴリズムに拡張可能である。

Training action space selection for reinforcement learning (RL) is conflict-prone due to complex state-action relationships. To address this challenge, this paper proposes a Shapley-inspired methodology for training action space categorization and ranking. To reduce exponential-time shapley computations, the methodology includes a Monte Carlo simulation to avoid unnecessary explorations. The effectiveness of the methodology is illustrated using a cloud infrastructure resource tuning case study. It reduces the search space by 80\% and categorizes the training action sets into dispensable and indispensable groups. Additionally, it ranks different training actions to facilitate high-performance yet cost-efficient RL model design. The proposed data-driven methodology is extensible to different domains, use cases, and reinforcement learning algorithms.
翻訳日:2022-04-11 13:40:56 公開日:2022-04-08
# 成績測定と人口統計を用いた多発性硬化症の障害予測

Disability prediction in multiple sclerosis using performance outcome measures and demographic data ( http://arxiv.org/abs/2204.03969v1 )

ライセンス: Link先を確認
Subhrajit Roy, Diana Mincu, Lev Proleev, Negar Rostamzadeh, Chintan Ghate, Natalie Harris, Christina Chen, Jessica Schrouff, Nenad Tomasev, Fletcher Lee Hartsell, Katherine Heller(参考訳) 多発性硬化症に対する機械学習に関する文献は、主に磁気共鳴画像や臨床検査などの神経画像データの使用に焦点を当てている。 しかし、これらのモダリティは症状や疾患の進行といった疾患活動と一致しないことが研究によって示されている。 さらに、これらのモダリティからデータを集めるコストが高いため、評価は不十分である。 本研究では,多次元,手頃な価格,物理的,スマートフォンによるパフォーマンス評価尺度(POM)と人口統計データを併用し,多発性硬化症の進行を予測する。 2つのデータセットで厳密なベンチマークを行い,13の臨床的に実行可能な予測エンドポイントと6つの機械学習モデルで結果を得た。 この結果から,POMと人口統計データを用いて2つのデータセットを用いて臨床治験およびスマートフォンベース研究の文脈で疾患の進行を予測することが可能であることを初めて明らかにした。 さらに,各POMと人口動態がモデル性能に与える影響について,特徴アブレーション研究を通じて検討した。 モデルのパフォーマンスは、年齢と性別に基づいて、異なるサブグループ間で同じであることも示しています。 この作業を可能にするために、異なるMSデータセットに対する迅速な実験を可能にする、エンドツーエンドで再利用可能な前処理および機械学習フレームワークを開発した。

Literature on machine learning for multiple sclerosis has primarily focused on the use of neuroimaging data such as magnetic resonance imaging and clinical laboratory tests for disease identification. However, studies have shown that these modalities are not consistent with disease activity such as symptoms or disease progression. Furthermore, the cost of collecting data from these modalities is high, leading to scarce evaluations. In this work, we used multi-dimensional, affordable, physical and smartphone-based performance outcome measures (POM) in conjunction with demographic data to predict multiple sclerosis disease progression. We performed a rigorous benchmarking exercise on two datasets and present results across 13 clinically actionable prediction endpoints and 6 machine learning models. To the best of our knowledge, our results are the first to show that it is possible to predict disease progression using POMs and demographic data in the context of both clinical trials and smartphone-base studies by using two datasets. Moreover, we investigate our models to understand the impact of different POMs and demographics on model performance through feature ablation studies. We also show that model performance is similar across different demographic subgroups (based on age and sex). To enable this work, we developed an end-to-end reusable pre-processing and machine learning framework which allows quicker experimentation over disparate MS datasets.
翻訳日:2022-04-11 13:40:46 公開日:2022-04-08
# ニューラルタンジェントカーネルに基づく生成逆法

Generative Adversarial Method Based On Neural Tangent Kernels ( http://arxiv.org/abs/2204.04090v1 )

ライセンス: Link先を確認
Yu-Rong Zhang, Sheng Yen Chou, Shan-Hung Wu(参考訳) 最近のGAN(Generative Adversarial Network)の開発により、多くのコンピュータビジョンアプリケーションが開発された。 高い合成品質にもかかわらず、訓練用ganはしばしば非収束、モード崩壊、勾配の消失などいくつかの問題に直面している。 例えば、リプシッツ連続性を正則化し、ワッサーシュタイン距離を採用するなどである。 これらの方法は部分的には解けるが、この問題はディープニューラルネットワークを用いた判別器のモデル化によるものであると論じる。 本稿では,ニューラル・タンジェント・カーネル(NTK)と呼ばれるニューラル・タンジェント・ニューラルネットワーク理論を基礎として,GA-NTK(Generative Adversarial NTK)と呼ばれる新しい生成アルゴリズムを提案する。 GA-NTKは、判別器をガウス過程(GP)としてモデル化する。 NTK理論の助けを借りて、GA-NTKのトレーニング力学を閉形式公式で記述することができる。 閉形式式でデータを合成するために、目的を単一レベルの逆最適化問題に単純化することができる。 その結果,GA-NTK は GAN に匹敵する画像を生成することができるが,様々な条件下での訓練がより容易であることがわかった。 また,GA-NTKの現在の限界についても検討し,GA-NTKをより実用的なものにするための回避策を提案する。

The recent development of Generative adversarial networks (GANs) has driven many computer vision applications. Despite the great synthesis quality, training GANs often confronts several issues, including non-convergence, mode collapse, and gradient vanishing. There exist several workarounds, for example, regularizing Lipschitz continuity and adopting Wasserstein distance. Although these methods can partially solve the problems, we argue that the problems are result from modeling the discriminator with deep neural networks. In this paper, we base on newly derived deep neural network theories called Neural Tangent Kernel (NTK) and propose a new generative algorithm called generative adversarial NTK (GA-NTK). The GA-NTK models the discriminator as a Gaussian Process (GP). With the help of the NTK theories, the training dynamics of GA-NTK can be described with a closed-form formula. To synthesize data with the closed-form formula, the objectives can be simplified into a single-level adversarial optimization problem. We conduct extensive experiments on real-world datasets, and the results show that GA-NTK can generate images comparable to those by GANs but is much easier to train under various conditions. We also study the current limitations of GA-NTK and propose some workarounds to make GA-NTK more practical.
翻訳日:2022-04-11 13:40:26 公開日:2022-04-08
# ソフトウェアのエンド・オブ・ライフはどのように定義・管理されるのか?

End-of-Life of Software How is it Defined and Managed? ( http://arxiv.org/abs/2204.03800v1 )

ライセンス: Link先を確認
Zena Assaad and Mina Henein(参考訳) 新しいソフトウェアとアルゴリズムの急速な開発は、膨大な量のデータによって加速され、ソフトウェア製品の寿命を大幅に短縮した。 毎日4万以上の新しいソフトウェアプロジェクトが開発され、古いソフトウェアを捨てて、急速に変化するニーズと要求を満たす新しいソフトウェアを取得するのは、より迅速かつ安くなってきている。 放棄されたソフトウェアに何が起こるのか、'throwaway'文化から何が起こるのか(cooper, 2005)はまだ疑問の余地がある。 本論では,ソフトウェアにおけるエンド・オブ・ライフというシステム工学のコンセプトを探求し,既存のソフトウェア工学の実践のギャップを浮き彫りにし,廃止を試みて放棄されたソフトウェアの事例を紹介し,放棄されたソフトウェアアーティファクトの反響を探求する。 特定された研究ギャップに対処するための提案手法についても詳述する。

The rapid development of new software and algorithms, fueled by the immense amount of data available, has made the shelf life of software products a lot shorter. With a rough estimate of more than 40,000 new software projects developed every day, it is becoming quicker and cheaper to abandon old software and acquire new software that meets rapidly changing needs and demands. What happens to software that is abandoned and what consequences may arise from 'throwaway' culture (Cooper, 2005) are still open questions. This paper will explore the systems engineering concept of end-of-life for software, it will highlight the gaps in existing software engineering practices, it will bring forward examples of software that has been abandoned in an attempt to decommission and it will explore the repercussions of abandoned software artefacts. A proposed way forward for addressing the identified research gaps is also detailed.
翻訳日:2022-04-11 13:39:59 公開日:2022-04-08
# IA-GCN:レコメンデーションのためのインタラクティブグラフ畳み込みネットワーク

IA-GCN: Interactive Graph Convolutional Network for Recommendation ( http://arxiv.org/abs/2204.03827v1 )

ライセンス: Link先を確認
Yinan Zhang, Pei Wang, Xiwei Zhao, Hao Qi, Jie He, Junsheng Jin, Changping Peng, Zhangang Lin, Jingping Shao(参考訳) 近年、グラフ畳み込みネットワーク(GCN)は、協調フィルタリング(CF)ベースのRecommender Systems(RS)のための新しい最先端技術となっている。 ユーザ項目の2部グラフに埋め込み伝搬を行い,その表現に基づいてユーザに対してパーソナライズされた項目提案を行うことで,情報的ユーザや項目表現を学習することが一般的である。 有効性にもかかわらず、既存のアルゴリズムは埋め込みプロセスにおけるユーザとイタムのペア間の貴重な対話的特徴を無視している。 異なる項目に対するユーザの好みを予測する際には、ユーザ近傍のターゲット関連情報を強調することなく、同じ方法でユーザツリーを集約する。 このような一様アグリゲーションスキームは、最適化されたユーザとアイテム表現に容易につながり、モデルの表現性をある程度制限する。 本稿では,各ユーザ・テーマペア間の双方向対話型ガイダンスを構築し,ia-gcn(interactive gcnの略)という新しいモデルを提案する。 具体的には,その周辺からユーザ表現を学習する場合,対象項目に類似した近傍に注意重みを割り当てる。 それに応じて、アイテム表現を学ぶとき、ターゲットユーザーに似た隣人にもっと注意を払う。 これは対話的で解釈可能な特徴をもたらし、各グラフ畳み込み操作を通じてターゲット固有の情報を効果的に蒸留する。 我々のモデルは、CFのための最先端GCNモデルであるLightGCNの上に構築されており、エンドツーエンドで様々なGCNベースのCFアーキテクチャと組み合わせることができる。 3つのベンチマークデータセットの大規模な実験は、IA-GCNの有効性と堅牢性を示している。

Recently, Graph Convolutional Network (GCN) has become a novel state-of-art for Collaborative Filtering (CF) based Recommender Systems (RS). It is a common practice to learn informative user and item representations by performing embedding propagation on a user-item bipartite graph, and then provide the users with personalized item suggestions based on the representations. Despite effectiveness, existing algorithms neglect precious interactive features between user-item pairs in the embedding process. When predicting a user's preference for different items, they still aggregate the user tree in the same way, without emphasizing target-related information in the user neighborhood. Such a uniform aggregation scheme easily leads to suboptimal user and item representations, limiting the model expressiveness to some extent. In this work, we address this problem by building bilateral interactive guidance between each user-item pair and proposing a new model named IA-GCN (short for InterActive GCN). Specifically, when learning the user representation from its neighborhood, we assign higher attention weights to those neighbors similar to the target item. Correspondingly, when learning the item representation, we pay more attention to those neighbors resembling the target user. This leads to interactive and interpretable features, effectively distilling target-specific information through each graph convolutional operation. Our model is built on top of LightGCN, a state-of-the-art GCN model for CF, and can be combined with various GCN-based CF architectures in an end-to-end fashion. Extensive experiments on three benchmark datasets demonstrate the effectiveness and robustness of IA-GCN.
翻訳日:2022-04-11 13:38:24 公開日:2022-04-08
# HINNPerf:階層型相互作用ニューラルネットワークによる構成可能なシステムの性能予測

HINNPerf: Hierarchical Interaction Neural Network for Performance Prediction of Configurable Systems ( http://arxiv.org/abs/2204.03931v1 )

ライセンス: Link先を確認
Jiezhu Cheng, Cuiyun Gao and Zibin Zheng(参考訳) 現代のソフトウェアシステムは通常、高度に構成可能で、様々な設定オプションを通じてカスタマイズされた機能を提供する。 特定の要件を満たす最適な構成を決定するためには、システムパフォーマンスが異なるオプションの組み合わせでどのように変化するかを理解することが重要です。 複数のオプション間の複雑な相互作用と、巨大な構成空間下での性能測定のコストのため、異なる構成がシステムパフォーマンスに与える影響を研究することは困難である。 これらの課題に対処するため,構成可能なシステムの性能予測のための階層型ニューラルネットワークHINNPerfを提案する。 HINNPerfは、組込み法と階層ネットワークブロックを用いて、構成オプション間の複雑な相互作用をモデル化し、メソッドの予測精度を向上させる。 さらに、モデルロバスト性を高めるために階層的正規化戦略を考案する。 実世界10システムにおける実験結果から, 予測精度が平均22.67%向上し, 統計的に最先端のアプローチを上回った。 さらに、統合勾配法(integrated gradients method)と組み合わせることで、設計された階層アーキテクチャは、インタラクションの複雑さと構成オプションの重要性に関する洞察を提供する。

Modern software systems are usually highly configurable, providing users with customized functionality through various configuration options. Understanding how system performance varies with different option combinations is important to determine optimal configurations that meet specific requirements. Due to the complex interactions among multiple options and the high cost of performance measurement under a huge configuration space, it is challenging to study how different configurations influence the system performance. To address these challenges, we propose HINNPerf, a novel hierarchical interaction neural network for performance prediction of configurable systems. HINNPerf employs the embedding method and hierarchic network blocks to model the complicated interplay between configuration options, which improves the prediction accuracy of the method. Besides, we devise a hierarchical regularization strategy to enhance the model robustness. Empirical results on 10 real-world configurable systems show that our method statistically significantly outperforms state-of-the-art approaches by achieving average 22.67% improvement in prediction accuracy. In addition, combined with the Integrated Gradients method, the designed hierarchical architecture provides some insights about the interaction complexity and the significance of configuration options, which might help users and developers better understand how the configurable system works and efficiently identify significant options affecting the performance.
翻訳日:2022-04-11 13:38:02 公開日:2022-04-08
# プロセスマイニングにおける不確実なケース識別:クリックデータにおけるイベント・ケース相関問題のユーザスタディ

Uncertain Case Identifiers in Process Mining: A User Study of the Event-Case Correlation Problem on Click Data ( http://arxiv.org/abs/2204.04164v1 )

ライセンス: Link先を確認
Marco Pegoraro, Merih Seran Uysal, Tom-Hendrik H\"ulsmann, Wil M.P. van der Aalst(参考訳) 今日利用可能な多くのイベントデータソースのうち、注目すべきはユーザーインタラクションデータである。 ユーザアクティビティはアプリケーションやwebサイトの使用中に記録され、クリックデータと呼ばれるユーザインタラクションデータの一種となる。 プロセスマイニングを用いたクリックデータ解析の障害は、データにケース識別子がないことである。 本稿では,モビリティ共有企業によるユーザインタラクションイベントの文脈において,クリックデータにおけるイベントケース相関の事例とユーザスタディを示す。 このプロセスのケース概念を再構築するために,ニューラルネットに基づくケースとして解釈されたユーザセッションにユーザインタラクションデータを集約する新しい手法を適用する。 この結果を検証するため,プロセス専門家へのインタビューを通じて,プロセスマイニング分析が結果の良好なイベントログに与える影響を質的に検討した。

Among the many sources of event data available today, a prominent one is user interaction data. User activity may be recorded during the use of an application or website, resulting in a type of user interaction data often called click data. An obstacle to the analysis of click data using process mining is the lack of a case identifier in the data. In this paper, we show a case and user study for event-case correlation on click data, in the context of user interaction events from a mobility sharing company. To reconstruct the case notion of the process, we apply a novel method to aggregate user interaction data in separate user sessions-interpreted as cases-based on neural networks. To validate our findings, we qualitatively discuss the impact of process mining analyses on the resulting well-formed event log through interviews with process experts.
翻訳日:2022-04-11 13:37:43 公開日:2022-04-08
# 共形モデルを用いた音声言語理解の異なる方法に関する研究

A Study of Different Ways to Use The Conformer Model For Spoken Language Understanding ( http://arxiv.org/abs/2204.03879v1 )

ライセンス: Link先を確認
Nick J.C. Wang, Shaojun Wang, Jing Xiao(参考訳) SLUは、ASRとNLUの機能を組み合わせて、音声からインテントへの理解を実現する。 本稿では,asr と nlu を結合する方法の比較を行った。特に,それぞれのアプローチの長所と短所をよりよく理解するために,そのコンポーネントを使用する異なる方法を持つ単一コンフォーメータモデルを用いる。 研究やアプリケーションに最適なシステムを決定する2段階の復号化システムとエンド・ツー・エンドシステムとの間には必ずしも選択肢がない。 システムの最適化は、各コンポーネントのパフォーマンスを注意深く改善する。 1つの方向が他方よりも決定的に優れていることを示すのは難しい。 本稿では,エンド・ツー・エンドモデルの精度と処理速度を向上しつつ,音響符号化シーケンスの長さを削減できる新しい接続性時相要約法(cts)を提案する。 本手法は複雑で時間を要する復号化を伴う最良2段slu認識と同じ意図精度を実現するが、計算コストは低くなる。 このスタックされたエンドツーエンドのSLUシステムは、SmartLightsの遠距離フィールドセットで93.97%、近接フィールドで95.18%、FluentSpeechで99.71%の意図精度が得られる。

SLU combines ASR and NLU capabilities to accomplish speech-to-intent understanding. In this paper, we compare different ways to combine ASR and NLU, in particular using a single Conformer model with different ways to use its components, to better understand the strengths and weaknesses of each approach. We find that it is not necessarily a choice between two-stage decoding and end-to-end systems which determines the best system for research or application. System optimization still entails carefully improving the performance of each component. It is difficult to prove that one direction is conclusively better than the other. In this paper, we also propose a novel connectionist temporal summarization (CTS) method to reduce the length of acoustic encoding sequences while improving the accuracy and processing speed of end-to-end models. This method achieves the same intent accuracy as the best two-stage SLU recognition with complicated and time-consuming decoding but does so at lower computational cost. This stacked end-to-end SLU system yields an intent accuracy of 93.97% for the SmartLights far-field set, 95.18% for the close-field set, and 99.71% for FluentSpeech.
翻訳日:2022-04-11 13:37:30 公開日:2022-04-08
# 音声言語識別のためのトランスデューサに基づく言語埋め込み

Transducer-based language embedding for spoken language identification ( http://arxiv.org/abs/2204.03888v1 )

ライセンス: Link先を確認
Peng Shen, Xugang Lu, Hisashi Kawai(参考訳) 音声と言語の特徴は,音声言語識別(LID)タスクにおいて重要な手がかりである。 近年のLIDシステムは, 言語的特徴符号化を欠いた音響的特徴を主に用いている。 本稿では,RNNトランスデューサモデルを言語埋め込みフレームワークに統合することにより,LIDタスクのための新しいトランスデューサベースの言語埋め込み手法を提案する。 提案手法は, RNNトランスデューサの言語表現能力の利点を活かして, LIDタスクの音響的特徴と明示的言語的特徴の両方を活用することができる。 大規模な多言語LibriSpeechとVoxLingua107データセットで実験を行った。 実験の結果, 提案手法は, LIDタスクの性能を12%から59%, 16%から24%で改善することがわかった。

The acoustic and linguistic features are important cues for the spoken language identification (LID) task. Recent advanced LID systems mainly use acoustic features that lack the usage of explicit linguistic feature encoding. In this paper, we propose a novel transducer-based language embedding approach for LID tasks by integrating an RNN transducer model into a language embedding framework. Benefiting from the advantages of the RNN transducer's linguistic representation capability, the proposed method can exploit both phonetically-aware acoustic features and explicit linguistic features for LID tasks. Experiments were carried out on the large-scale multilingual LibriSpeech and VoxLingua107 datasets. Experimental results showed the proposed method significantly improves the performance on LID tasks with 12% to 59% and 16% to 24% relative improvement on in-domain and cross-domain datasets, respectively.
翻訳日:2022-04-11 13:37:09 公開日:2022-04-08
# コンバータへのコネクショニスト時間要約の導入による音声認識におけるデコーダ効率の向上

Adding Connectionist Temporal Summarization into Conformer to Improve Its Decoder Efficiency For Speech Recognition ( http://arxiv.org/abs/2204.03889v1 )

ライセンス: Link先を確認
Nick J.C. Wang, Zongfeng Quan, Shaojun Wang, Jing Xiao(参考訳) Conformerモデルは,コネクショナリズム時間分類(CTC)のハイブリッド損失と,列車モデルパラメータへの注意を効果的に活用する,音声認識モデリングのための優れたアーキテクチャである。 コンフォーマの復号効率を向上させるために,エンコーダが生成する音響シーケンスから供給されるアテンションデコーダに必要なフレーム数を削減し,操作を削減した新しいコネクショニスト時相要約法(cts)を提案する。 しかし、このような復号化を実現するためには、相互注意観察が変更され、それに対応する改良が必要であるため、微調整モデルパラメーターが必要である。 最後の実験では、4本のビーム幅でLibriSpeechの復号化予算を最大20%削減でき、FluentSpeechのデータではASRの精度を失うことなく11%削減できることを示した。 LibriSpeech の "test-other" セットでも精度が向上している。 単語誤り率(wer)をビーム幅1で6対%、ビーム幅4で3%減少させる。

The Conformer model is an excellent architecture for speech recognition modeling that effectively utilizes the hybrid losses of connectionist temporal classification (CTC) and attention to train model parameters. To improve the decoding efficiency of Conformer, we propose a novel connectionist temporal summarization (CTS) method that reduces the number of frames required for the attention decoder fed from the acoustic sequences generated by the encoder, thus reducing operations. However, to achieve such decoding improvements, we must fine-tune model parameters, as cross-attention observations are changed and thus require corresponding refinements. Our final experiments show that, with a beamwidth of 4, the LibriSpeech's decoding budget can be reduced by up to 20% and for FluentSpeech data it can be reduced by 11%, without losing ASR accuracy. An improvement in accuracy is even found for the LibriSpeech "test-other" set. The word error rate (WER) is reduced by 6\% relative at the beam width of 1 and by 3% relative at the beam width of 4.
翻訳日:2022-04-11 13:36:56 公開日:2022-04-08
# GigaST:1万時間 Pseudo 音声翻訳コーパス

GigaST: A 10,000-hour Pseudo Speech Translation Corpus ( http://arxiv.org/abs/2204.03939v1 )

ライセンス: Link先を確認
Rong Ye, Chengqi Zhao, Tom Ko, Chutong Meng, Tao Wang, Mingxuan Wang, Jun Cao(参考訳) 本稿では,大規模擬似音声翻訳(ST)コーパスであるGigaSTを紹介する。 我々は、英語のASRコーパスであるGigaSpeechのテキストをドイツ語と中国語に翻訳することでコーパスを作成する。 トレーニングセットは強力な機械翻訳システムによって翻訳され、テストセットは人間によって翻訳される。 コーパスの追加でトレーニングしたSTモデルは、MuST-Cの英語-ドイツ語ベンチマークテストセット上で、新しい最先端の結果を得る。 翻訳プロセスの詳細を説明し,その品質を検証する。 翻訳されたテキストデータを公開し、音声翻訳の研究を促進することを期待する。 さらに、システムを複製しやすいように、neurstのトレーニングスクリプトもリリースしています。 GigaSTデータセットはhttps://st-benchmark.github.io/resources/GigaSTで公開されている。

This paper introduces GigaST, a large-scale pseudo speech translation (ST) corpus. We create the corpus by translating the text in GigaSpeech, an English ASR corpus, into German and Chinese. The training set is translated by a strong machine translation system and the test set is translated by human. ST models trained with an addition of our corpus obtain new state-of-the-art results on the MuST-C English-German benchmark test set. We provide a detailed description of the translation process and verify its quality. We make the translated text data public and hope to facilitate research in speech translation. Additionally, we also release the training scripts on NeurST to make it easy to replicate our systems. GigaST dataset is available at https://st-benchmark.github.io/resources/GigaST.
翻訳日:2022-04-11 13:36:33 公開日:2022-04-08
# 胸部X線画像を用いた新型コロナウイルスの予測

Prediction of COVID-19 using chest X-ray images ( http://arxiv.org/abs/2204.03849v1 )

ライセンス: Link先を確認
Narayana Darapaneni, Suma Maram, Harpreet Singh, Syed Subhani, Mandeep Kour, Sathish Nagam, and Anwesh Reddy Paduri(参考訳) 新型コロナウイルス(COVID-19)は、2019年後半に中国で初めて流行した、非常に伝染性の疾患である。 SARS-CoV-2(SARS-CoV-2)は、この病気の原因となるコロナウイルス群に属する新型コロナウイルスである。 この病気は、2019年12月に中国の武漢で発生し、213か国以上に急速に広がり、世界的なパンデミックとなった。 発熱、干し草、疲労が最も典型的なcovid-19の症状である。 痛み、痛み、呼吸困難は、患者が直面する可能性のある他の症状である。 これらの症状の大部分は呼吸器感染症や肺疾患の指標であり、放射線科医が特定できる。 新型コロナウイルス(covid-19)患者の胸部x線は、透明で健康な肺ではなく、パッチ状でぼろぼろの肺に似ています。 しかしx線では、肺炎やその他の慢性肺疾患はcovid-19に似ている。 訓練を受けた放射線科医は、covid-19と感染の少ない病気を区別しなくてはならない。 我々のAIアルゴリズムは、医師に劣化のリスクを定量的に見積もる。 劣化リスクの高い患者をトリアージし、効率的に治療することができる。 この方法は、入院時のスクリーニングが病院のベッドなどの限られた資源の割り当てに重要である場合、パンデミックホットスポットで特に有用である。

COVID-19, also known as Novel Coronavirus Disease, is a highly contagious disease that first surfaced in China in late 2019. SARS-CoV-2 is a coronavirus that belongs to the vast family of coronaviruses that causes this disease. The sickness originally appeared in Wuhan, China in December 2019 and quickly spread to over 213 nations, becoming a global pandemic. Fever, dry cough, and tiredness are the most typical COVID-19 symptoms. Aches, pains, and difficulty breathing are some of the other symptoms that patients may face. The majority of these symptoms are indicators of respiratory infections and lung abnormalities, which radiologists can identify. Chest x-rays of COVID-19 patients seem similar, with patchy and hazy lungs rather than clear and healthy lungs. On x-rays, however, pneumonia and other chronic lung disorders can resemble COVID-19. Trained radiologists must be able to distinguish between COVID-19 and an illness that is less contagious. Our AI algorithm seeks to give doctors a quantitative estimate of the risk of deterioration. So that patients at high risk of deterioration can be triaged and treated efficiently. The method could be particularly useful in pandemic hotspots when screening upon admission is important for allocating limited resources like hospital beds.
翻訳日:2022-04-11 13:34:52 公開日:2022-04-08
# 厳密な三角形ノルムによるファジィ相互作用集合演算子と多点決定への応用

Picture Fuzzy Interactional Aggregation Operators via Strict Triangular Norms and Applications to Multi-Criteria Decision Making ( http://arxiv.org/abs/2204.03878v1 )

ライセンス: Link先を確認
X. Wu and Z. Zhu and G. \c{C}ayl{\i} and P. Liu and X. Zhang and Z. Yang(参考訳) 画像ファジィセットは3つの会員度で特徴づけられ、多基準意思決定(MCDM)に役立つツールである。 本稿では,画像ファジィ数(pfns)における閉操作則の構造を調査し,効率的な画像ファジィmcdm法を提案する。 まず最初に PFN に対して許容順序を導入し、すべての PFN がこの順序の下で完全な格子を形成することを証明する。 次に、既存の画像ファジィ集約作用素の非閉性を示す具体例を示す。 PFNsにおける運用法則の密接性を確保するため、正の次数(負の次数)と中性次数との相互作用を考慮した厳密な三角ノルムに基づく新たな図形ファジィ作用素を構築する。 これらの新しい演算子に基づき、ピクチャファジィ相互作用重み付き平均 (pfiwa) 演算子とピクチャファジィ相互作用重み付き幾何作用素 (pfiwg) を得る。 それらは単調、優等、有界、シフト不変、等質であることが証明されている。 また,PFIWAおよびPFIWG演算子を用いた画像ファジィ環境下での新しいMCDM手法を構築した。 さらに,本手法を明確に理解するための例を示す。 また、有名な三角形ノルムの6つのクラスによって引き起こされる作用素の比較解析も行う。

The picture fuzzy set, characterized by three membership degrees, is a helpful tool for multi-criteria decision making (MCDM). This paper investigates the structure of the closed operational laws in the picture fuzzy numbers (PFNs) and proposes efficient picture fuzzy MCDM methods. We first introduce an admissible order for PFNs and prove that all PFNs form a complete lattice under this order. Then, we give some specific examples to show the non-closeness of some existing picture fuzzy aggregation operators. To ensure the closeness of the operational laws in PFNs, we construct a new class of picture fuzzy operators based on strict triangular norms, which consider the interaction between the positive degrees (negative degrees) and the neutral degrees. Based on these new operators, we obtain the picture fuzzy interactional weighted average (PFIWA) operator and the picture fuzzy interactional weighted geometric (PFIWG) operator. They are proved to be monotonous, idempotent, bounded, shift-invariant, and homogeneous. We also establish a novel MCDM method under the picture fuzzy environment applying PFIWA and PFIWG operators. Furthermore, we present an illustrative example for a clear understanding of our method. We also give the comparative analysis among the operators induced by six classes of famous triangular norms.
翻訳日:2022-04-11 13:34:34 公開日:2022-04-08
# EfficientFi:CSI圧縮による大規模軽量WiFiセンシングを目指して

EfficientFi: Towards Large-Scale Lightweight WiFi Sensing via CSI Compression ( http://arxiv.org/abs/2204.04138v1 )

ライセンス: Link先を確認
Jianfei Yang, Xinyan Chen, Han Zou, Dazhuo Wang, Qianwen Xu, Lihua Xie(参考訳) 高速インターネットアクセスの必要性が高まっているため、WiFi技術は様々な場所に応用されている。 近年,ネットワークサービスに加えて,デバイスフリー,コスト効率,プライバシ保護など,スマートホームにもWiFiセンサが注目されている。 多くのWiFiセンシング手法が開発されているが、そのほとんどは単一のスマートホームシナリオしか考慮していない。 強力なクラウドサーバと巨大なユーザの接続がなければ、大規模なWiFiセンシングは依然として難しい。 本稿では,これらの障害をまず解析し,要約し,効率的な大規模WiFiセンシングフレームワークであるEfficientFiを提案する。 EfficientFiはWiFi APのエッジコンピューティングとセンターサーバのクラウドコンピューティングで動作する。 エッジで微細なWiFiチャネル状態情報(CSI)を圧縮し、クラウドでCSIを復元し、同時にセンシングタスクを実行できる、新しいディープニューラルネットワークで構成されている。 量子化オートエンコーダとジョイント分類器は、これらの目標をエンドツーエンドで達成するために設計されている。 私たちの知る限りでは、EfficientFiはIoTクラウド対応のWiFiセンシングフレームワークとしては初めてのもので、検知タスクを正確に実現しながら通信オーバーヘッドを大幅に削減します。 wifiセンシングによるヒューマンアクティビティ認識と同定を2つのケーススタディとして活用し,効率性評価のための広範囲な実験を行った。 その結果、CSIデータを1.368Mb/sから0.768Kb/sに極めて低い誤差で圧縮し、人間の活動認識の精度を98%以上達成した。

WiFi technology has been applied to various places due to the increasing requirement of high-speed Internet access. Recently, besides network services, WiFi sensing is appealing in smart homes since it is device-free, cost-effective and privacy-preserving. Though numerous WiFi sensing methods have been developed, most of them only consider single smart home scenario. Without the connection of powerful cloud server and massive users, large-scale WiFi sensing is still difficult. In this paper, we firstly analyze and summarize these obstacles, and propose an efficient large-scale WiFi sensing framework, namely EfficientFi. The EfficientFi works with edge computing at WiFi APs and cloud computing at center servers. It consists of a novel deep neural network that can compress fine-grained WiFi Channel State Information (CSI) at edge, restore CSI at cloud, and perform sensing tasks simultaneously. A quantized auto-encoder and a joint classifier are designed to achieve these goals in an end-to-end fashion. To the best of our knowledge, the EfficientFi is the first IoT-cloud-enabled WiFi sensing framework that significantly reduces communication overhead while realizing sensing tasks accurately. We utilized human activity recognition and identification via WiFi sensing as two case studies, and conduct extensive experiments to evaluate the EfficientFi. The results show that it compresses CSI data from 1.368Mb/s to 0.768Kb/s with extremely low error of data reconstruction and achieves over 98% accuracy for human activity recognition.
翻訳日:2022-04-11 13:34:12 公開日:2022-04-08
# 証明ブロック問題の効率的な部分信用格付け

Efficient Partial Credit Grading of Proof Blocks Problems ( http://arxiv.org/abs/2204.04196v1 )

ライセンス: Link先を確認
Seth Poulsen, Shubhang Kulkarni, Geoffrey Herman, and Matthew West(参考訳) Proof Blocksは、学生がスクラッチから証明を書く代わりに線をドラッグ&ドロップすることで数学的証明を書くことができるソフトウェアツールである。 本稿では,証明ブロック問題を完成させる学生に部分クレジットを割り当てる問題に対処する。 大きな解空間のため、不正な解と正しい解との差を計算するのに計算コストがかかり、自動的に学生に部分的クレジットを割り当てる能力が制限される。 本稿では,Proof Blocks問題の正しい解に対する任意の学生からの編集距離を求めるアルゴリズムを提案する。 提案アルゴリズムは,2020年秋以降,何千もの学生の投稿に対してベンチマークを行い,実データに対するナイーブアルゴリズムの100倍以上の性能を示す。 新しいアルゴリズムは、パーソンの問題を格付けするだけでなく、解空間が有向非巡回グラフとしてモデル化されるような他の種類の宿題や試験問題にも応用できる。

Proof Blocks is a software tool which allows students to practice writing mathematical proofs by dragging and dropping lines instead of writing proofs from scratch. In this paper, we address the problem of assigning partial credit to students completing Proof Blocks problems. Because of the large solution space, it is computationally expensive to calculate the difference between an incorrect student solution and some correct solution, restricting the ability to automatically assign students partial credit. We propose a novel algorithm for finding the edit distance from an arbitrary student submission to some correct solution of a Proof Blocks problem. We benchmark our algorithm on thousands of student submissions from Fall 2020, showing that our novel algorithm can perform over 100 times better than the naive algorithm on real data. Our new algorithm has further applications in grading Parson's Problems, as well as any other kind of homework or exam problem where the solution space may be modeled as a directed acyclic graph.
翻訳日:2022-04-11 13:33:46 公開日:2022-04-08
# 投影パワー法による相関ウィグナーモデルに対するシードグラフマッチング

Seeded graph matching for the correlated Wigner model via the projected power method ( http://arxiv.org/abs/2204.04099v1 )

ライセンス: Link先を確認
Ernesto Araya, Guillaume Braun and Hemant Tyagi(参考訳) グラフマッチング問題では、2つのグラフが$g,h$ で観察され、ゴールは頂点間の割り当て(またはマッチング)を見つけることである。 この研究において、観察された対 $g,h$ は、相関付き重み付きグラフの一般的なモデルである、相関付きウィグナーモデル(英語版)(relationeded wigner model)から引き出され、このモデルでは、$g$ と $h$ の隣接行列のエントリは独立ガウス行列であり、$g$ の各辺は、パラメータ $\sigma\in [0,1)$ で記述された辺相関と相関していると仮定する。 本稿では,予測パワー法(PPM)の性能をシードグラフマッチングアルゴリズムとして解析し,初期部分的正マッチング(シードと呼ぶ)を副次情報として与える。 この結果から, 種子が接地構造マッチングに十分近い場合, 高い確率でPPMは種子を反復的に改良し, 地上構造マッチングを$\mathcal{O}(\log n)$繰り返しで回収することを示した。 我々の結果は、PPMが定数$\sigma$のレギュレーションでも機能することを証明し、スパース Erd\"os-Renyi モデルに対する (Mao et al.,2021) 解析を (dense) ウィグナーモデルに拡張した。 我々の分析の副産物として、PPMフレームワークはシードグラフマッチングのための最先端アルゴリズムの一部を一般化している。 我々は, 合成データに関する数値実験を行い, 理論的知見を補完する。

In the graph matching problem we observe two graphs $G,H$ and the goal is to find an assignment (or matching) between their vertices such that some measure of edge agreement is maximized. We assume in this work that the observed pair $G,H$ has been drawn from the correlated Wigner model -- a popular model for correlated weighted graphs -- where the entries of the adjacency matrices of $G$ and $H$ are independent Gaussians and each edge of $G$ is correlated with one edge of $H$ (determined by the unknown matching) with the edge correlation described by a parameter $\sigma\in [0,1)$. In this paper, we analyse the performance of the projected power method (PPM) as a seeded graph matching algorithm where we are given an initial partially correct matching (called the seed) as side information. We prove that if the seed is close enough to the ground-truth matching, then with high probability, PPM iteratively improves the seed and recovers the ground-truth matching (either partially or exactly) in $\mathcal{O}(\log n)$ iterations. Our results prove that PPM works even in regimes of constant $\sigma$, thus extending the analysis in (Mao et al.,2021) for the sparse Erd\"os-Renyi model to the (dense) Wigner model. As a byproduct of our analysis, we see that the PPM framework generalizes some of the state-of-art algorithms for seeded graph matching. We support and complement our theoretical findings with numerical experiments on synthetic data.
翻訳日:2022-04-11 13:33:30 公開日:2022-04-08
# (参考訳) 空間の代替処理によるトークン化の改善

Improving Tokenisation by Alternative Treatment of Spaces ( http://arxiv.org/abs/2204.04058v1 )

ライセンス: CC BY 4.0
Edward Gow-Smith, Harish Tayyar Madabushi, Carolina Scarton and Aline Villavicencio(参考訳) トークン化は、ほとんどすべてのNLPタスクの最初のステップであり、最先端のトランスフォーマーベースの言語モデルはすべて、入力テキストを処理するためにサブワードトークン化アルゴリズムを使用している。 既存のアルゴリズムには問題があり、しばしば限定された言語的妥当性のトークンを生成し、単語内のその位置によって異なる等価文字列を表現する。 これらの問題は、複雑な単語を扱うトランスフォーマーベースモデルの能力を妨げていると仮定し、トークンに空間を含ませることによる結果であると示唆する。 したがって、空間は常に個々のトークンとして扱われる別のトークン化アプローチを試す。 具体的には、この修正をBPEおよびUnigramアルゴリズムに適用する。 改良したアルゴリズムは,自然言語理解タスクにおける性能に悪影響を及ぼすことなく,複雑な単語を扱う下流nlpタスクのパフォーマンス向上に繋がることがわかった。 本質的には、修正されたアルゴリズムは、特にプレフィックスを扱う場合に、より形態学的に正しいトークン化を与える。 実験の結果から, 空間を個々のトークンとして, 改良されたトークン化手法として常に扱うことを提唱した。

Tokenisation is the first step in almost all NLP tasks, and state-of-the-art transformer-based language models all use subword tokenisation algorithms to process input text. Existing algorithms have problems, often producing tokenisations of limited linguistic validity, and representing equivalent strings differently depending on their position within a word. We hypothesise that these problems hinder the ability of transformer-based models to handle complex words, and suggest that these problems are a result of allowing tokens to include spaces. We thus experiment with an alternative tokenisation approach where spaces are always treated as individual tokens. Specifically, we apply this modification to the BPE and Unigram algorithms. We find that our modified algorithms lead to improved performance on downstream NLP tasks that involve handling complex words, whilst having no detrimental effect on performance in general natural language understanding tasks. Intrinsically, we find our modified algorithms give more morphologically correct tokenisations, in particular when handling prefixes. Given the results of our experiments, we advocate for always treating spaces as individual tokens as an improved tokenisation method.
翻訳日:2022-04-11 13:30:49 公開日:2022-04-08
# マルコフ論理ネットワークにおける射影性について

On Projectivity in Markov Logic Networks ( http://arxiv.org/abs/2204.04009v1 )

ライセンス: Link先を確認
Sagar Malhotra and Luciano Serafini(参考訳) Markov Logic Networks (MLN) は、様々なドメインサイズ上の関係構造の確率分布を定義する。 多くの研究は、MLNが他の多くのリレーショナルモデルと同様に、異なるドメインサイズに対して一貫した限界推論を認めていないことに気付いた。 さらに、特定のドメインで学習したmlnsは、異なるサイズの新しいドメインに一般化しない。 最近の研究では、ドメインサイズ依存、リフトド推論、サブサンプルドメインからの学習の間にコネクションが出現している。 これらの作品の中心的な考え方は射影性の概念である。 射影モデルによって説明される確率分布は、領域の濃度に依存しない部分構造の限界確率を与える。 したがって、射影モデルは効率的な限界推定を認め、ドメインサイズに依存しない。 さらに、射影モデルは、サブサンプルドメインから効率的かつ一貫したパラメータ学習を可能にする。 本稿では,2変数MLNを投影するために必要な,必要かつ十分な条件を特徴付ける。 次に、このクラスのMLN、すなわちリレーショナルブロックモデル(RBM)で特別なモデルを分離する。 その結果, RBMは2変量フラグメントにおける最良の射影MLNであることがわかった。 最後に、RBMはサブサンプル領域上で一貫したパラメータ学習も認めていることを示す。

Markov Logic Networks (MLNs) define a probability distribution on relational structures over varying domain sizes. Many works have noticed that MLNs, like many other relational models, do not admit consistent marginal inference over varying domain sizes. Furthermore, MLNs learnt on a certain domain do not generalize to new domains of varied sizes. In recent works, connections have emerged between domain size dependence, lifted inference and learning from sub-sampled domains. The central idea to these works is the notion of projectivity. The probability distributions ascribed by projective models render the marginal probabilities of sub-structures independent of the domain cardinality. Hence, projective models admit efficient marginal inference, removing any dependence on the domain size. Furthermore, projective models potentially allow efficient and consistent parameter learning from sub-sampled domains. In this paper, we characterize the necessary and sufficient conditions for a two-variable MLN to be projective. We then isolate a special model in this class of MLNs, namely Relational Block Model (RBM). We show that, in terms of data likelihood maximization, RBM is the best possible projective MLN in the two-variable fragment. Finally, we show that RBMs also admit consistent parameter learning over sub-sampled domains.
翻訳日:2022-04-11 13:13:34 公開日:2022-04-08
# 人間とロボットのインタラクションのためのユーティリティ機能

Utility Functions for Human/Robot Interaction ( http://arxiv.org/abs/2204.04071v1 )

ライセンス: Link先を確認
Bruno Yun, Nir Oren, Madalina Croitoru(参考訳) 本稿では,人間とロボットの相互作用の文脈に自己を置き,認知的ロボットモデリングの問題に取り組む。 より正確には、ロボットの動作を管理するユーティリティベースのモデルの性質を調査している。 このアプローチの目新しさは、ロボットの責任を状況よりも、ユーティリティ集約機能を通じてユーティリティモデルに組み込むことにある。 そのような関数に対するdesiderataを記述し、関連する性質について考察する。

In this paper, we place ourselves in the context of human robot interaction and address the problem of cognitive robot modelling. More precisely we are investigating properties of a utility-based model that will govern a robot's actions. The novelty of this approach lies in embedding the responsibility of the robot over the state of affairs into the utility model via a utility aggregation function. We describe desiderata for such a function and consider related properties.
翻訳日:2022-04-11 13:13:20 公開日:2022-04-08
# 不確実なイベントデータのプロセスマイニング

Process Mining on Uncertain Event Data ( http://arxiv.org/abs/2204.04148v1 )

ライセンス: Link先を確認
Marco Pegoraro(参考訳) 組織におけるプロセスマイニングの普及に伴い、プロセスサイエンスの分野は、非標準イベントデータのアドホック分析技術への需要が高まっている。 そのようなデータの例としては、不確定なイベントデータがある。 本稿では,不確実なデータから洞察を抽出できるプロセスマイニング技術の開発を目的とした研究プロジェクトを概説する。 我々は,本研究の基礎を定め,利用可能な文献を再編成し,今後の展望を定義する。

With the widespread adoption of process mining in organizations, the field of process science is seeing an increase in the demand for ad-hoc analysis techniques of non-standard event data. An example of such data are uncertain event data: events characterized by a described and quantified attribute imprecision. This paper outlines a research project aimed at developing process mining techniques able to extract insights from uncertain data. We set the basis for this research topic, recapitulate the available literature, and define a future outlook.
翻訳日:2022-04-11 13:13:15 公開日:2022-04-08
# マルチラベル画像認識のための意味表現と依存学習

Semantic Representation and Dependency Learning for Multi-Label Image Recognition ( http://arxiv.org/abs/2204.03795v1 )

ライセンス: Link先を確認
Tao Pu, Lixian Yuan, Hefeng Wu, Tianshui Chen, Ling Tian, Liang Lin(参考訳) 近年,多くのマルチラベル画像認識(MLR)研究が,事前学習対象検出モデルを導入して多くの提案を作成したり,統計ラベルの共起を利用して,カテゴリ間の相関性を高めるなど,大きな進歩を遂げている。 しかし, ネットワークの有効性は, 高価で不都合な計算をもたらす事前学習対象検出モデルに大きく依存する, 2) 画像に時折共起オブジェクトが存在する場合, 特に稀なカテゴリにおいてネットワーク性能は低下する, という制約がある。 これらの課題に対処するために,各カテゴリのカテゴリ固有のセマンティック表現を学習し,各カテゴリ間のセマンティック依存を捕捉する,新しく効果的なセマンティック表現と依存性学習(SRDL)フレームワークを提案する。 具体的には,カテゴリー特化注意領域(car)モジュールを設計し,チャネル/空間毎の注意行列を生成し,意味認識領域に着目したモデルを導出する。 また,ネットワークトレーニングを規則化する意味認識領域を消去することにより,カテゴリ間の意味依存を暗黙的に学習するオブジェクト消去(oe)モジュールを設計した。 MLRベンチマークデータセット(MS-COCOとPascal VOC 2007)の大規模な実験と比較は、現在の最先端アルゴリズムよりも提案されたフレームワークの有効性を示している。

Recently many multi-label image recognition (MLR) works have made significant progress by introducing pre-trained object detection models to generate lots of proposals or utilizing statistical label co-occurrence enhance the correlation among different categories. However, these works have some limitations: (1) the effectiveness of the network significantly depends on pre-trained object detection models that bring expensive and unaffordable computation; (2) the network performance degrades when there exist occasional co-occurrence objects in images, especially for the rare categories. To address these problems, we propose a novel and effective semantic representation and dependency learning (SRDL) framework to learn category-specific semantic representation for each category and capture semantic dependency among all categories. Specifically, we design a category-specific attentional regions (CAR) module to generate channel/spatial-wise attention matrices to guide model to focus on semantic-aware regions. We also design an object erasing (OE) module to implicitly learn semantic dependency among categories by erasing semantic-aware regions to regularize the network training. Extensive experiments and comparisons on two popular MLR benchmark datasets (i.e., MS-COCO and Pascal VOC 2007) demonstrate the effectiveness of the proposed framework over current state-of-the-art algorithms.
翻訳日:2022-04-11 13:12:20 公開日:2022-04-08
# 識別子としてのタスク固有分類器の再使用:判別子なし逆ドメイン適応

Reusing the Task-specific Classifier as a Discriminator: Discriminator-free Adversarial Domain Adaptation ( http://arxiv.org/abs/2204.03838v1 )

ライセンス: Link先を確認
Lin Chen, Huaian Chen, Zhixiang Wei, Xin Jin, Xiao Tan, Yi Jin, Enhong Chen(参考訳) 教師なしドメイン適応 (UDA) において, 対人学習は顕著な成果を上げている。 既存のUDAメソッドは、通常、機能抽出器でmin-maxゲームをプレイするために追加の判別器を採用する。 しかし、これらの手法の多くは、予測された識別情報の有効利用に失敗し、ジェネレータのモード崩壊を引き起こした。 本研究では、この問題を異なる視点から解決し、識別器のない対数学習ネットワーク(DALN)の形で単純な対数パラダイムを設計し、分類器を識別器として再利用し、統一目的によって明確なドメインアライメントとカテゴリ識別を実現し、DALNが予測された識別情報を十分な特徴アライメントに活用できるようにする。 基本的には、識別を行うための明確なガイダンスを持つ核ノルムワッサーシュタイン不一致(NWD)を導入する。 このようなNWDは分類器と結合してK-Lipschitz制約を満たす判別器として機能し、加重切断や勾配のペナルティ戦略を必要としない。 ベルとホイッスルがなければ、DALNはさまざまな公開データセット上の既存の最先端(SOTA)メソッドと好意的に比較する。 さらに、プラグアンドプレイ技術として、NWDは既存のUDAアルゴリズムの恩恵を受けるために、ジェネリックレギュレータとして直接使用できる。 コードはhttps://github.com/xiaoachen98/DALNで入手できる。

Adversarial learning has achieved remarkable performances for unsupervised domain adaptation (UDA). Existing adversarial UDA methods typically adopt an additional discriminator to play the min-max game with a feature extractor. However, most of these methods failed to effectively leverage the predicted discriminative information, and thus cause mode collapse for generator. In this work, we address this problem from a different perspective and design a simple yet effective adversarial paradigm in the form of a discriminator-free adversarial learning network (DALN), wherein the category classifier is reused as a discriminator, which achieves explicit domain alignment and category distinguishment through a unified objective, enabling the DALN to leverage the predicted discriminative information for sufficient feature alignment. Basically, we introduce a Nuclear-norm Wasserstein discrepancy (NWD) that has definite guidance meaning for performing discrimination. Such NWD can be coupled with the classifier to serve as a discriminator satisfying the K-Lipschitz constraint without the requirements of additional weight clipping or gradient penalty strategy. Without bells and whistles, DALN compares favorably against the existing state-of-the-art (SOTA) methods on a variety of public datasets. Moreover, as a plug-and-play technique, NWD can be directly used as a generic regularizer to benefit existing UDA algorithms. Code is available at https://github.com/xiaoachen98/DALN.
翻訳日:2022-04-11 13:11:55 公開日:2022-04-08
# 2次元画像から3次元モデルへ:深部融合による多視点顔再建

From 2D Images to 3D Model:Weakly Supervised Multi-View Face Reconstruction with Deep Fusion ( http://arxiv.org/abs/2204.03842v1 )

ライセンス: Link先を確認
Weiguang Zhao and Chaolong Yang and Jianan Ye and Yuyao Yan and Xi Yang and Kaizhu Huang(参考訳) 少ないアノテーションで高品質な3次元顔モデルを生成するために、限られた2次元顔画像(例3)を利用する弱教師付き学習を伴うマルチビュー3次元顔再構成(MVR)の問題を考える。 奨励的なパフォーマンスにもかかわらず、現在のmvrメソッドは、単に多視点画像の特徴を結合し、重要な領域(例えば、目、額、鼻、口)に注意を払わない。 この目的のために,Deep Fusion MVR (DF-MVR) と呼ばれる新しいモデルを提案し,マルチビュー画像から深い特徴を抽出し,統合し,補償することができるスキップ接続を持つ単一デコードフレームワークにマルチビューエンコーディングを設計する。 さらに,批判的な共通顔領域を学習し,識別し,強調する多視点顔解析ネットワークを開発した。 最後に、我々のモデルはいくつかの2d画像で訓練されていますが、単一の2d画像が入力されても正確な3dモデルを再構築することができます。 様々な多視点3次元顔再構成法を評価するための広範囲な実験を行った。 提案モデルでは,既存の最弱教師付きMVRよりも11.4%のRMSE改善を実現した。 ソースコードは補足資料で入手できる。

We consider the problem of Multi-view 3D Face Reconstruction (MVR) with weakly supervised learning that leverages a limited number of 2D face images (e.g. 3) to generate a high-quality 3D face model with very light annotation. Despite their encouraging performance, present MVR methods simply concatenate multi-view image features and pay less attention to critical areas (e.g. eye, brow, nose and mouth). To this end, we propose a novel model called Deep Fusion MVR (DF-MVR) and design a multi-view encoding to a single decoding framework with skip connections, able to extract, integrate, and compensate deep features with attention from multi-view images. In addition, we develop a multi-view face parse network to learn, identify, and emphasize the critical common face area. Finally, though our model is trained with a few 2D images, it can reconstruct an accurate 3D model even if one single 2D image is input. We conduct extensive experiments to evaluate various multi-view 3D face reconstruction methods. Our proposed model attains superior performance, leading to 11.4% RMSE improvement over the existing best weakly supervised MVRs. Source codes are available in the supplementary materials.
翻訳日:2022-04-11 13:11:28 公開日:2022-04-08
# 連続手話認識のためのマルチスケール時間ネットワーク

Multi-scale temporal network for continuous sign language recognition ( http://arxiv.org/abs/2204.03864v1 )

ライセンス: Link先を確認
Qidan Zhu, Jing Li, Fei Yuan, Quan Gan(参考訳) 連続手話認識(cslr)は,手話データの時間系列に対する正確なアノテーションが欠如しているため,困難な研究課題である。 最近の一般的な使用法はCSLRの"CNN + RNN"に基づくハイブリッドモデルである。 しかし、これらの作品から時間的特徴を抽出する場合、ほとんどの手法は一定の時間的受容場を用いており、各手話単語の時間的特徴をうまく抽出できない。 本稿では,より正確な時間的特徴を得るために,マルチスケール時間ネットワーク (mstnet) を提案する。 ネットワークは主に3つの部分からなる。 Resnetと2つの完全連結(FC)層は、フレームワイド特徴抽出部を構成する。 時間的特徴抽出部は、提案したマルチスケール時間ブロック(MSTブロック)を用いて、まず異なるスケールの時間的受容場特徴を抽出し、時間的モデリング能力を改善し、さらにトランスフォーマーモジュールにより異なるスケールの時間的特徴を符号化し、より正確な時間的特徴を得る。 最後に,提案する多レベル接続性時間分類(CTC)損失部を用いて,認識結果を得る。 マルチレベルctc損失により,cnnにおける浅層ネットワークパラメータの学習と更新が向上し,パラメータ増加がなく,他のモデルにも柔軟に組み込むことが可能となった。 2つの公開データセットによる実験結果から,従来の知識を使わずに手話の特徴を効果的に抽出し,CSLRの精度を向上し,最先端に到達できることが示されている。

Continuous Sign Language Recognition (CSLR) is a challenging research task due to the lack of accurate annotation on the temporal sequence of sign language data. The recent popular usage is a hybrid model based on "CNN + RNN" for CSLR. However, when extracting temporal features in these works, most of the methods using a fixed temporal receptive field and cannot extract the temporal features well for each sign language word. In order to obtain more accurate temporal features, this paper proposes a multi-scale temporal network (MSTNet). The network mainly consists of three parts. The Resnet and two fully connected (FC) layers constitute the frame-wise feature extraction part. The time-wise feature extraction part performs temporal feature learning by first extracting temporal receptive field features of different scales using the proposed multi-scale temporal block (MST-block) to improve the temporal modeling capability, and then further encoding the temporal features of different scales by the transformers module to obtain more accurate temporal features. Finally, the proposed multi-level Connectionist Temporal Classification (CTC) loss part is used for training to obtain recognition results. The multi-level CTC loss enables better learning and updating of the shallow network parameters in CNN, and the method has no parameter increase and can be flexibly embedded in other models. Experimental results on two publicly available datasets demonstrate that our method can effectively extract sign language features in an end-to-end manner without any prior knowledge, improving the accuracy of CSLR and reaching the state-of-the-art.
翻訳日:2022-04-11 13:10:38 公開日:2022-04-08
# 映像表現学習における選択周波数の時空間拡大

Spatiotemporal Augmentation on Selective Frequencies for Video Representation Learning ( http://arxiv.org/abs/2204.03865v1 )

ライセンス: Link先を確認
Jinhyung Kim, Taeoh Kim, Minho Shim, Dongyoon Han, Dongyoon Wee and Junmo Kim(参考訳) 近年の自己監督型ビデオ表現学習法は,複数の拡張ビュー間の類似度を最大化することに集中しており,生成ビューの品質に大きく依存している。 本稿では、ビデオ表現学習のための周波数領域における時空間データ拡張手法である周波数拡張(FreqAug)を提案する。 freqaugは、特定の周波数成分をフィルタリングすることで、ビデオから望ましくない情報を確率的に削除し、学習された表現は、さまざまな下流タスクでビデオの本質的な特徴をキャプチャする。 特にfreqaugは、空間的または時間的低周波成分を落とすことによって、動画の静的機能よりも動的機能に重点を置くようにモデルを押している。 言い換えれば、残周波成分間の不変性の学習は、静的バイアスの少ない高周波拡張表現をもたらす。 提案手法の汎用性を検証するため,FreqAugを複数の自己教師型学習フレームワーク上で実験し,標準拡張を行った。 改善された表現を5つのビデオアクション認識と2つの時間的アクションローカライゼーションに転送すると、ベースラインよりも一貫した改善が示される。

Recent self-supervised video representation learning methods focus on maximizing the similarity between multiple augmented views from the same video and largely rely on the quality of generated views. In this paper, we propose frequency augmentation (FreqAug), a spatio-temporal data augmentation method in the frequency domain for video representation learning. FreqAug stochastically removes undesirable information from the video by filtering out specific frequency components so that learned representation captures essential features of the video for various downstream tasks. Specifically, FreqAug pushes the model to focus more on dynamic features rather than static features in the video via dropping spatial or temporal low-frequency components. In other words, learning invariance between remaining frequency components results in high-frequency enhanced representation with less static bias. To verify the generality of the proposed method, we experiment with FreqAug on multiple self-supervised learning frameworks along with standard augmentations. Transferring the improved representation to five video action recognition and two temporal action localization downstream tasks shows consistent improvements over baselines.
翻訳日:2022-04-11 13:10:11 公開日:2022-04-08
# 骨格に基づく歩行認識における空間変換器ネットワーク

Spatial Transformer Network on Skeleton-based Gait Recognition ( http://arxiv.org/abs/2204.03873v1 )

ライセンス: Link先を確認
Cun Zhang, Xing-Peng Chen, Guo-Qiang Han, Xiang-Jie Liu(参考訳) スケルトンベースの歩行認識モデルは通常ロバスト性の問題に苦しむが、rank-1の精度は通常の歩行症例で90\%からコートケースで歩く場合で70\%に変化する。 本研究では,空間トランスフォーマフレームワークと時間畳み込みネットワークを組み合わせた,最先端の頑健な骨格型歩行認識モデルGait-TRを提案する。 歩行-TRは、よく知られた歩行データセットCASIA-Bの精度と堅牢性を向上し、他の骨格ベースの歩行モデルよりも大幅に改善されている。 特にコートを用いた歩行では、Gait-TRは90%のランク-1歩行認識精度が得られ、これはシルエットベースの歩行認識モデルよりも高い精度でシルエットベースの歩行認識モデルよりも高い結果である。 さらに,casia-bを用いた実験では,広く用いられているグラフ畳み込みネットワークよりも,人間の骨格から歩行の特徴を抽出できることを示した。

Skeleton-based gait recognition models usually suffer from the robustness problem, as the Rank-1 accuracy varies from 90\% in normal walking cases to 70\% in walking with coats cases. In this work, we propose a state-of-the-art robust skeleton-based gait recognition model called Gait-TR, which is based on the combination of spatial transformer frameworks and temporal convolutional networks. Gait-TR achieves substantial improvements over other skeleton-based gait models with higher accuracy and better robustness on the well-known gait dataset CASIA-B. Particularly in walking with coats cases, Gait-TR get a 90\% Rank-1 gait recognition accuracy rate, which is higher than the best result of silhouette-based models, which usually have higher accuracy than the silhouette-based gait recognition models. Moreover, our experiment on CASIA-B shows that the spatial transformer can extract gait features from the human skeleton better than the widely used graph convolutional network.
翻訳日:2022-04-11 13:09:53 公開日:2022-04-08
# シングルイメージデハージングのための視覚変換器

Vision Transformers for Single Image Dehazing ( http://arxiv.org/abs/2204.03883v1 )

ライセンス: Link先を確認
Yuda Song, Zhuqing He, Hui Qian, Xin Du(参考訳) 画像デハジングは、ヘイズ画像から潜伏したヘイズフリー画像を推定する、代表的な低レベル視覚タスクである。 近年、畳み込みニューラルネットワークに基づく手法が画像デハジングを支配している。 しかし、最近ハイレベルな視覚タスクを突破したビジョントランスフォーマーは、画像のデハージングに新しい次元をもたらすことはなかった。 人気の高いswin transformerから始めて、その重要な設計のいくつかが、画像のデハザーズに適さないことを見出します。 そこで本研究では,修正正規化層,活性化関数,空間情報集約スキームといった様々な改良を施したdehazeformerを提案する。 さまざまなデータセット上で,DehazeFormerの複数の変種をトレーニングして,その有効性を示す。 具体的には、最も頻繁に使用されるSOTS屋内セットにおいて、私たちの小さなモデルは、25%の#Paramと5%の計算コストでFFA-Netより優れています。 我々の知る限り、我々の大きなモデルはSOTS屋内セットのPSNRが40dBを超える最初の手法であり、従来の最先端手法よりも劇的に優れている。 また,高度に非均質なヘイズを除去する方法の能力を評価するために,大規模リモートセンシングデヘイジングデータセットを収集した。

Image dehazing is a representative low-level vision task that estimates latent haze-free images from hazy images. In recent years, convolutional neural network-based methods have dominated image dehazing. However, vision Transformers, which has recently made a breakthrough in high-level vision tasks, has not brought new dimensions to image dehazing. We start with the popular Swin Transformer and find that several of its key designs are unsuitable for image dehazing. To this end, we propose DehazeFormer, which consists of various improvements, such as the modified normalization layer, activation function, and spatial information aggregation scheme. We train multiple variants of DehazeFormer on various datasets to demonstrate its effectiveness. Specifically, on the most frequently used SOTS indoor set, our small model outperforms FFA-Net with only 25% #Param and 5% computational cost. To the best of our knowledge, our large model is the first method with the PSNR over 40 dB on the SOTS indoor set, dramatically outperforming the previous state-of-the-art methods. We also collect a large-scale realistic remote sensing dehazing dataset for evaluating the method's capability to remove highly non-homogeneous haze.
翻訳日:2022-04-11 13:09:35 公開日:2022-04-08
# ハンドジオメトリとニューラルネット分類器による生体認証

Biometric identification by means of hand geometry and a neural net classifier ( http://arxiv.org/abs/2204.03925v1 )

ライセンス: Link先を確認
Marcos Faundez-Zanuy, Guillermo Mar Navarro M\'erida(参考訳) 本論文は手形生体認証システムについて述べる。 従来の文書スキャナを用いて22人のデータベースを取得した。 実験セクションは、異なる特徴の識別能力と、ニューラルネットワークに基づく異なる分類器を用いた識別率についての研究から成っている。

This Paper describes a hand geometry biometric identification system. We have acquired a database of 22 people using a conventional document scanner. The experimental section consists of a study about the discrimination capability of different extracted features, and the identification rate using different classifiers based on neural networks.
翻訳日:2022-04-11 13:09:15 公開日:2022-04-08
# 単色ドット投影を用いた深部視線深度再構成

Deep Hyperspectral-Depth Reconstruction Using Single Color-Dot Projection ( http://arxiv.org/abs/2204.03929v1 )

ライセンス: Link先を確認
Chunyu Li, Yusuke Monno, Masatoshi Okutomi(参考訳) 深度再構成と高スペクトル反射率再構成はコンピュータビジョンと画像処理における2つの研究課題である。 従来,これら2つの話題は独立した撮像装置を用いて別々に研究されてきたが,特別なハードウェアを使わずに1ショットで深度とスペクトルの反射率を同時に取得できる手法は存在しない。 本稿では,市販のRGBカメラとプロジェクタを用いた単発ハイパースペクトル深度再構成手法を提案する。 提案手法は,高スペクトル反射率再構成のための奥行き再構成と空間的に異なるカラー照明のための構造光として同時に機能する単一ドット投影法に基づく。 単一色ドット画像から深度と高スペクトル反射率を協調的に再構成するために,幾何的な色ドットパターン損失と光度ハイパースペクトル反射率損失を効果的に組み込んだエンドツーエンドネットワークアーキテクチャを提案する。 実験により,提案手法は既存の単一ショット高反射率再構成法と深度再構成法を併用した場合よりも優れることを示した。

Depth reconstruction and hyperspectral reflectance reconstruction are two active research topics in computer vision and image processing. Conventionally, these two topics have been studied separately using independent imaging setups and there is no existing method which can acquire depth and spectral reflectance simultaneously in one shot without using special hardware. In this paper, we propose a novel single-shot hyperspectral-depth reconstruction method using an off-the-shelf RGB camera and projector. Our method is based on a single color-dot projection, which simultaneously acts as structured light for depth reconstruction and spatially-varying color illuminations for hyperspectral reflectance reconstruction. To jointly reconstruct the depth and the hyperspectral reflectance from a single color-dot image, we propose a novel end-to-end network architecture that effectively incorporates a geometric color-dot pattern loss and a photometric hyperspectral reflectance loss. Through the experiments, we demonstrate that our hyperspectral-depth reconstruction method outperforms the combination of an existing state-of-the-art single-shot hyperspectral reflectance reconstruction method and depth reconstruction method.
翻訳日:2022-04-11 13:09:11 公開日:2022-04-08
# ビデオコントラスト学習のための確率的表現

Probabilistic Representations for Video Contrastive Learning ( http://arxiv.org/abs/2204.03946v1 )

ライセンス: Link先を確認
Jungin Park, Jiyoung Lee, Ig-Jae Kim, Kwanghoon Sohn(参考訳) 本稿では,コントラスト学習と確率的表現を橋渡しする自己教師あり表現学習手法であるprobabilistic video contrastive learningを提案する。 ビデオを構成するクリップは、短い期間で異なる分布を持つが、共通の埋め込み空間で組み合わせることで、複雑で洗練された映像分布を表現できると仮定する。 そこで,提案手法では,ビデオクリップを正規分布として表現し,ガウス分布を混合して映像分布全体をモデル化する。 ビデオ配信全体から埋め込みをサンプリングすることにより、注意深いサンプリング戦略や変換を回避してクリップの強化ビューを生成することができる。 さらに,適切な映像分布を学習し,生映像の性質から固有の不確実性を扱う確率的コントラスト損失を提案する。 実験結果から,UCF101やHMDB51など,最もポピュラーなベンチマークにおいて,動作認識と映像検索のための最先端のビデオ表現学習として,我々の確率的埋め込みが有効であることが確認された。

This paper presents Probabilistic Video Contrastive Learning, a self-supervised representation learning method that bridges contrastive learning with probabilistic representation. We hypothesize that the clips composing the video have different distributions in short-term duration, but can represent the complicated and sophisticated video distribution through combination in a common embedding space. Thus, the proposed method represents video clips as normal distributions and combines them into a Mixture of Gaussians to model the whole video distribution. By sampling embeddings from the whole video distribution, we can circumvent the careful sampling strategy or transformations to generate augmented views of the clips, unlike previous deterministic methods that have mainly focused on such sample generation strategies for contrastive learning. We further propose a stochastic contrastive loss to learn proper video distributions and handle the inherent uncertainty from the nature of the raw video. Experimental results verify that our probabilistic embedding stands as a state-of-the-art video representation learning for action recognition and video retrieval on the most popular benchmarks, including UCF101 and HMDB51.
翻訳日:2022-04-11 13:08:52 公開日:2022-04-08
# points to patch: 3次元形状認識におけるセルフアテンションの利用

Points to Patches: Enabling the Use of Self-Attention for 3D Shape Recognition ( http://arxiv.org/abs/2204.03957v1 )

ライセンス: Link先を確認
Axel Berg, Magnus Oskarsson, Mark O'Connor(参考訳) 機械学習の分野ではトランスフォーマーアーキテクチャが普及しているが、3d形状認識への適応は自明ではない。 二次計算の複雑さのため、自己注意演算子は入力点の集合が大きくなるとすぐに非効率になる。 さらに,注意機構は,グローバルスケールで個々の点間の有用な接続を見出すのに苦労していることがわかった。 これらの問題を緩和するために,局所的およびグローバルな注意機構を組み合わせた2段階のPoint Transformer-in-Transformer(Point-TnT)アプローチを提案する。 形状分類の実験は、このような手法がベースライントランスフォーマーよりも下流タスクに有用な機能を提供する一方で、計算効率も良いことを示している。 また,シーン再構築のための特徴マッチングにも拡張し,既存のシーン再構築パイプラインと組み合わせて使用できることを示す。

While the Transformer architecture has become ubiquitous in the machine learning field, its adaptation to 3D shape recognition is non-trivial. Due to its quadratic computational complexity, the self-attention operator quickly becomes inefficient as the set of input points grows larger. Furthermore, we find that the attention mechanism struggles to find useful connections between individual points on a global scale. In order to alleviate these problems, we propose a two-stage Point Transformer-in-Transformer (Point-TnT) approach which combines local and global attention mechanisms, enabling both individual points and patches of points to attend to each other effectively. Experiments on shape classification show that such an approach provides more useful features for downstream tasks than the baseline Transformer, while also being more computationally efficient. In addition, we also extend our method to feature matching for scene reconstruction, showing that it can be used in conjunction with existing scene reconstruction pipelines.
翻訳日:2022-04-11 13:08:35 公開日:2022-04-08
# ゲーム固有のアノテーションの少ないチームスポーツ選手の効率的な追跡

Efficient tracking of team sport players with few game-specific annotations ( http://arxiv.org/abs/2204.04049v1 )

ライセンス: Link先を確認
Adrien Maglo, Astrid Orcesi, Quoc-Cuong Pham(参考訳) チームスポーツ分析の要件の1つは、選手を追跡し認識することである。 多くの追跡・再同定手法がビデオ監視の文脈で提案されている。 MOTチャレンジのような公開データセットでテストすると、非常に説得力のある結果が得られる。 しかし,これらの手法の性能はプレイヤー追跡に適用しても不十分である。 実際、非常に速く、しばしば無視されるのに加えて、プレイヤーは同じジャージを着ており、再識別の作業は非常に複雑である。 最近の追跡手法はチームスポーツの文脈に特化して開発されている。 公開データがないため、これらのメソッドはプライベートデータセットを使用し、それと比較することは不可能である。 本稿では,半対話型システムを用いて収集した人間アノテーションを用いて,全試合中のチームスポーツ選手を追跡する新しい汎用的手法を提案する。 非曖昧なトラックレットとその外観特徴は、両方の公開データセットで事前訓練された検出と再識別ネットワークによって自動的に生成される。 次に、インクリメンタル学習機構がトランスフォーマーを訓練して、ゲーム固有の人間のアノテーションをほとんど使わずにアイデンティティを分類する。 最後に、トラックレットはアソシエーションアルゴリズムによってリンクされる。 我々は,ラグビーセブンズデータセットに対するアプローチの有効性を実証する。 パブリックスポーツ追跡データセットの欠如を克服するため、このデータセットをhttps://kalisteo.cea.fr/index.php/free-resources/で公開しています。 また,本手法は,選手1人あたり6秒間の長さのトラックレットをアノテーションとして,最小限の解像度で観測可能であれば,全試合中にラグビーセブンス選手を追跡することができることを示す。

One of the requirements for team sports analysis is to track and recognize players. Many tracking and reidentification methods have been proposed in the context of video surveillance. They show very convincing results when tested on public datasets such as the MOT challenge. However, the performance of these methods are not as satisfactory when applied to player tracking. Indeed, in addition to moving very quickly and often being occluded, the players wear the same jersey, which makes the task of reidentification very complex. Some recent tracking methods have been developed more specifically for the team sport context. Due to the lack of public data, these methods use private datasets that make impossible a comparison with them. In this paper, we propose a new generic method to track team sport players during a full game thanks to few human annotations collected via a semi-interactive system. Non-ambiguous tracklets and their appearance features are automatically generated with a detection and a reidentification network both pre-trained on public datasets. Then an incremental learning mechanism trains a Transformer to classify identities using few game-specific human annotations. Finally, tracklets are linked by an association algorithm. We demonstrate the efficiency of our approach on a challenging rugby sevens dataset. To overcome the lack of public sports tracking dataset, we publicly release this dataset at https://kalisteo.cea.fr/index.php/free-resources/. We also show that our method is able to track rugby sevens players during a full match, if they are observable at a minimal resolution, with the annotation of only 6 few seconds length tracklets per player.
翻訳日:2022-04-11 13:08:19 公開日:2022-04-08
# 意味マッチングによるあいまいな類似性条件の同定

Identifying Ambiguous Similarity Conditions via Semantic Matching ( http://arxiv.org/abs/2204.04053v1 )

ライセンス: Link先を確認
Han-Jia Ye, Yi Shi, De-Chuan Zhan(参考訳) 画像内のリッチセマンティクスは、他のものと曖昧な関係を生じさせる。つまり、2つのイメージは、ある条件では似ているが、別の条件では似ていない可能性がある。 航空機」のような三重項は「列車」よりも「鳥」に似ているが、弱い教師付き条件付き類似性学習(ws-csl)は「飛べる」などの明示的な条件ラベルなしで意味的条件にマッチする複数の組込みを学習する。 しかし、三重項における類似性関係は条件を与える以外は不確実である。 例えば、条件ラベルが"is vehicle"に変更されると、以前の比較は無効になる。 そこで本研究では,WS-CSLが教師付きモデルとして潜在意味論をどの程度カバーできるかを測定するため,学習した埋め込みを最適条件に割り当てた後,比較の正しさを予測し,新しい評価基準を導入する。 さらに, インスタンスインスタンスと三重項条件の関係を「分解・融合」的に特徴付ける, 距離誘起セマンティック・コンディション検証ネットワーク (DiscoverNet) を提案する。 学習された埋め込みがすべてのセマンティクスをカバーするようにするために、discoverynetは三重項と条件の対応の上にセットモジュールまたは追加の正規化子を利用する。 DiscoverNetはUT-Zappos-50kやCeleb-A w.r.t.といったベンチマークで最先端のパフォーマンスを実現している。

Rich semantics inside an image result in its ambiguous relationship with others, i.e., two images could be similar in one condition but dissimilar in another. Given triplets like "aircraft" is similar to "bird" than "train", Weakly Supervised Conditional Similarity Learning (WS-CSL) learns multiple embeddings to match semantic conditions without explicit condition labels such as "can fly". However, similarity relationships in a triplet are uncertain except providing a condition. For example, the previous comparison becomes invalid once the conditional label changes to "is vehicle". To this end, we introduce a novel evaluation criterion by predicting the comparison's correctness after assigning the learned embeddings to their optimal conditions, which measures how much WS-CSL could cover latent semantics as the supervised model. Furthermore, we propose the Distance Induced Semantic COndition VERification Network (DiscoverNet), which characterizes the instance-instance and triplets-condition relations in a "decompose-and-fuse" manner. To make the learned embeddings cover all semantics, DiscoverNet utilizes a set module or an additional regularizer over the correspondence between a triplet and a condition. DiscoverNet achieves state-of-the-art performance on benchmarks like UT-Zappos-50k and Celeb-A w.r.t. different criteria.
翻訳日:2022-04-11 13:07:57 公開日:2022-04-08
# 固有反射率最適化のための不変ディスクリプタ

Invariant Descriptors for Intrinsic Reflectance Optimization ( http://arxiv.org/abs/2204.04076v1 )

ライセンス: Link先を確認
Anil S. Baslamisli, Theo Gevers(参考訳) 内在的な画像分解は、画像をアルベド(反射)とシェーディング(照明)サブコンポーネントに分解することを目的としている。 不適切で訓練が不足しているため、非常に難しいコンピュータビジョンの問題である。 同じ入力を再構築できる反射率と陰影画像の無限対が存在する。 この問題に対処するため、WildのIntrinsic Imagesは、長距離物質関係を考慮した密度条件付きランダムフィールド(CRF)の定式化に基づく最適化フレームワークを提供する。 照明不変画像記述子:色比を導入することにより,そのモデルを改善する。 色比と反射固有性はどちらも照明に不変であり、高い相関関係にある。 詳細な実験を通して、高密度CRF最適化に色比を注入する方法を提供する。 我々のアプローチは物理ベース、学習フリーであり、より正確で堅牢な反射率分解をもたらす。

Intrinsic image decomposition aims to factorize an image into albedo (reflectance) and shading (illumination) sub-components. Being ill-posed and under-constrained, it is a very challenging computer vision problem. There are infinite pairs of reflectance and shading images that can reconstruct the same input. To address the problem, Intrinsic Images in the Wild provides an optimization framework based on a dense conditional random field (CRF) formulation that considers long-range material relations. We improve upon their model by introducing illumination invariant image descriptors: color ratios. The color ratios and the reflectance intrinsic are both invariant to illumination and thus are highly correlated. Through detailed experiments, we provide ways to inject the color ratios into the dense CRF optimization. Our approach is physics-based, learning-free and leads to more accurate and robust reflectance decompositions.
翻訳日:2022-04-11 13:07:32 公開日:2022-04-08
# ドメイン対応カテゴリー表現を用いた一般インクリメンタルラーニング

General Incremental Learning with Domain-aware Categorical Representations ( http://arxiv.org/abs/2204.04078v1 )

ライセンス: Link先を確認
Jiangwei Xie, Shipeng Yan, Xuming He(参考訳) エージェントは、ストリーミングデータ/タスクに対する知識を継続的に蓄積する必要があるため、現実世界のアプリケーションにおいて人間レベルの知性を達成する上で、継続的な学習は重要な問題である。 本研究では,クラス分布とクラス固有ドメイン分布の両方が時間とともに変化する,一般かつ未熟な漸進学習問題を考える。 クラスインクリメンタル学習の典型的な課題に加えて、この設定はクラス内安定性-可塑性ジレンマとクラス内ドメインの不均衡の問題にも直面している。 上記の課題に対処するため,EMフレームワークに基づくドメイン対応連続学習手法を開発した。 具体的には,von mises-fisher混合モデルに基づくフレキシブルなクラス表現を導入し,クラス内構造をキャプチャし,クラス複雑性に応じてコンポーネント数を動的に増加させる拡張・還元戦略を提案する。 さらに, クラス内およびクラス間のデータ不均衡に対処するバイレベルバランスメモリを設計し, 蒸留損失と組み合わせることで, クラス間およびクラス内安定性・塑性トレードオフを改善する。 iDigits、iDomainNet、iCIFAR-20の3つのベンチマークで徹底的な実験を行った。 その結果,提案手法は従来手法よりも有意な差を示し,その優位性を示した。

Continual learning is an important problem for achieving human-level intelligence in real-world applications as an agent must continuously accumulate knowledge in response to streaming data/tasks. In this work, we consider a general and yet under-explored incremental learning problem in which both the class distribution and class-specific domain distribution change over time. In addition to the typical challenges in class incremental learning, this setting also faces the intra-class stability-plasticity dilemma and intra-class domain imbalance problems. To address above issues, we develop a novel domain-aware continual learning method based on the EM framework. Specifically, we introduce a flexible class representation based on the von Mises-Fisher mixture model to capture the intra-class structure, using an expansion-and-reduction strategy to dynamically increase the number of components according to the class complexity. Moreover, we design a bi-level balanced memory to cope with data imbalances within and across classes, which combines with a distillation loss to achieve better inter- and intra-class stability-plasticity trade-off. We conduct exhaustive experiments on three benchmarks: iDigits, iDomainNet and iCIFAR-20. The results show that our approach consistently outperforms previous methods by a significant margin, demonstrating its superiority.
翻訳日:2022-04-11 13:07:17 公開日:2022-04-08
# Visible-Thermal UAV Tracking:大規模ベンチマークと新しいベースライン

Visible-Thermal UAV Tracking: A Large-Scale Benchmark and New Baseline ( http://arxiv.org/abs/2204.04120v1 )

ライセンス: Link先を確認
Pengyu Zhang, Jie Zhao, Dong Wang, Huchuan Lu, Xiang Ruan(参考訳) マルチモーダルセンサの普及に伴い、可視熱量(RGB-T)オブジェクトトラッキングは、オブジェクトの温度情報のガイダンスを用いて、堅牢なパフォーマンスとより広いアプリケーションシナリオを実現する。 しかし、ペアのトレーニングサンプルがないことが、RGB-Tトラッキングのパワーをアンロックする主なボトルネックとなっている。 高品質なRGB-Tシーケンスの収集には熱心であるため、最近のベンチマークはテストシーケンスのみを提供する。 本稿では,高解像度(1920$\times$1080 pixels)のフレーム対を持つ500のシーケンスを含む可視熱UAV追跡(VTUAV)の多様性の高い大規模ベンチマークを構築した。 さらに,多種多様なカテゴリやシーンを含む包括的アプリケーション(短期追跡,長期追跡,セグメンテーションマスク予測)を網羅的に評価する。 さらに,難解なトラッカーの可能性を活かすために,フレームレベルの属性を提供する粗い属性アノテーションを提供する。 さらに,様々なレベルでRGB-Tデータを融合するHMFT(Hierarchical Multi-modal Fusion Tracker)という新しいRGB-Tベースラインを設計する。 いくつかのデータセットに対する多数の実験を行い、HMFTの有効性と異なる融合型の相補性を明らかにする。 このプロジェクトはここで入手できる。

With the popularity of multi-modal sensors, visible-thermal (RGB-T) object tracking is to achieve robust performance and wider application scenarios with the guidance of objects' temperature information. However, the lack of paired training samples is the main bottleneck for unlocking the power of RGB-T tracking. Since it is laborious to collect high-quality RGB-T sequences, recent benchmarks only provide test sequences. In this paper, we construct a large-scale benchmark with high diversity for visible-thermal UAV tracking (VTUAV), including 500 sequences with 1.7 million high-resolution (1920 $\times$ 1080 pixels) frame pairs. In addition, comprehensive applications (short-term tracking, long-term tracking and segmentation mask prediction) with diverse categories and scenes are considered for exhaustive evaluation. Moreover, we provide a coarse-to-fine attribute annotation, where frame-level attributes are provided to exploit the potential of challenge-specific trackers. In addition, we design a new RGB-T baseline, named Hierarchical Multi-modal Fusion Tracker (HMFT), which fuses RGB-T data in various levels. Numerous experiments on several datasets are conducted to reveal the effectiveness of HMFT and the complement of different fusion types. The project is available at here.
翻訳日:2022-04-11 13:06:57 公開日:2022-04-08
# Sat2lod2:衛星写真とデジタル表面モデルによるLod-2自動モデリングソフトウェア

Sat2lod2: A Software For Automated Lod-2 Modeling From Satellite-Derived Orthophoto And Digital Surface Model ( http://arxiv.org/abs/2204.04139v1 )

ライセンス: Link先を確認
Shengxi Gui, Rongjun Qin, Yang Tang(参考訳) 衛星画像から再構成された正光およびデジタル表面モデル(DSM)からLoD2モデルを抽出することは難しい課題である。 既存のソリューションは主に、ヒューリスティックな幾何学的操作だけでなく、機械学習ベースのセマンティックセグメンテーションやビルディング検出といった高度なステップを含む複雑なステップワイズプロセスを必要とするシステムアプローチである。 本稿では, SAT2LOD2というオープンソースツールについて述べる。 sat2lod2は、完全にオープンソースでgui(graphics user interface)ベースのソフトウェアで、pythonでコーディングされ、オルソ写真とdsmを入力として個々のビルモデルを出力する。 我々はその方法の堅牢性をさらに向上する。 1) HRNetV2に基づく建物セグメンテーションのソフトウェアへの中間化 2)複雑な建物を識別し,システムの観点から誤ったlod2再構成を避けるためにメッシュを直接生成する決定戦略を実施している。 このソフトウェアは、CUDAをサポートするグラフィックカードを備えたPCを用いて、適度なレベルのデータ(約5000*5000の正写真とDSM)を処理できる。 さらに、GUIは自己完結型であり、研究者が容易に学習し、必要に応じて中間ファイルを再利用できるように中間処理結果を格納する。 更新されたコードとソフトウェアは、GitHubのこのページで入手できる。

Deriving LoD2 models from orthophoto and digital surface models (DSM) reconstructed from satellite images is a challenging task. Existing solutions are mostly system approaches that require complicated step-wise processes, including not only heuristic geometric operations, but also high-level steps such as machine learning-based semantic segmentation and building detection. Here in this paper, we describe an open-source tool, called SAT2LOD2, built based on a minorly modified version of our recently published work. SAT2LoD2 is a fully open-source and GUI (Graphics User Interface) based software, coded in Python, which takes an orthophoto and DSM as inputs, and outputs individual building models, and it can additionally take road network shapefiles, and customized classification maps to further improve the reconstruction results. We further improve the robustness of the method by 1) intergrading building segmentation based on HRNetV2 into our software; and 2) having implemented a decision strategy to identify complex buildings and directly generate mesh to avoid erroneous LoD2 reconstruction from a system point of view. The software can process a moderate level of data (around 5000*5000 size of orthophoto and DSM) using a PC with a graphics card supporting CUDA. Furthermore, the GUI is self-contained and stores the intermediate processing results facilitating researchers to learn the process easily and reuse intermediate files as needed. The updated codes and software are available under this GitHub page: https://github.com/GDAOSU/LOD2BuildingModel.
翻訳日:2022-04-11 13:06:35 公開日:2022-04-08
# 多視点ステレオ3次元再構成のための球面エピポラリゼーションの検討

Investigating Spherical Epipolar Rectification for Multi-View Stereo 3D Reconstruction ( http://arxiv.org/abs/2204.04141v1 )

ライセンス: Link先を確認
Mostafa Elhashash, Rongjun Qin(参考訳) マルチビューステレオ(MVS)再構成は3次元モデル作成に不可欠である。 このアプローチでは、エピポーラ整流法を適用後、不一致推定のための密マッチングを行う。 しかし、既存のアプローチでは、主にオブジェクトスケールが大きく異なるため、異なる視点のイメージに密なマッチングを適用するという課題に直面している。 本稿では,主光の差による歪みを最小限に抑えるための球面補正モデルを提案する。 提案手法は,マルチカメラヘッドシステムからなる2つの空中ベースデータセットを用いて評価する。 提案手法は, 点雲の完全度を最大4.05%向上させ, 地上真実としてLiDARデータを用いて最大10.23%の精度向上を図ることにより, フレームベースのエピポーラ補正よりも優れた性能を示すことを示す。

Multi-view stereo (MVS) reconstruction is essential for creating 3D models. The approach involves applying epipolar rectification followed by dense matching for disparity estimation. However, existing approaches face challenges in applying dense matching for images with different viewpoints primarily due to large differences in object scale. In this paper, we propose a spherical model for epipolar rectification to minimize distortions caused by differences in principal rays. We evaluate the proposed approach using two aerial-based datasets consisting of multi-camera head systems. We show through qualitative and quantitative evaluation that the proposed approach performs better than frame-based epipolar correction by enhancing the completeness of point clouds by up to 4.05% while improving the accuracy by up to 10.23% using LiDAR data as ground truth.
翻訳日:2022-04-11 13:06:08 公開日:2022-04-08
# フォトグラメトリー処理における空中画像のアルベド回収のための新しい固有画像分解法

A Novel Intrinsic Image Decomposition Method to Recover Albedo for Aerial Images in Photogrammetry Processing ( http://arxiv.org/abs/2204.04142v1 )

ライセンス: Link先を確認
Shuang Song and Rongjun Qin(参考訳) リアルなレンダリングと合成環境のためのフォトグラム画像から表面アルベドを回収することで、VR/AR/MRおよびデジタルツインにおける下流の応用を大幅に促進することができる。 これらのテクスチャは、太陽の光、方向、表面の異なる外観を生じさせる方向など、空間的および時間的に変化する環境照明情報を内包し、合成照明下での3dレンダリングに使用する場合、そのようなモデルが現実的ではないため、これらの応用には最適である。 一方、アルベド画像は環境光による変化が少ないため、基本的なフォトグラム処理の恩恵を受けることができる。 本稿では,フォトグラメトリーにおける空中画像のアルベド回収の問題に挑戦し,高機能マッチングと高密度マッチングによるフォトグラメトリーデータ処理におけるアルベド回収の利点を実証する。 そこで我々は,自然照度条件下での屋外空間画像に対する画像形成モデルを提案し,その逆モデルを導出して,典型的なフォトグラム積を幾何学の初期近似として利用してアルベドを推定する。 推定アルベド画像は、本質的な画像分解、リライティング、特徴マッチング、密集したマッチング/ポイントクラウド生成結果において試験される。 合成実験と実世界の実験の両方で,本手法が既存の手法より優れ,光グラム処理を向上できることが実証されている。

Recovering surface albedos from photogrammetric images for realistic rendering and synthetic environments can greatly facilitate its downstream applications in VR/AR/MR and digital twins. The textured 3D models from standard photogrammetric pipelines are suboptimal to these applications because these textures are directly derived from images, which intrinsically embedded the spatially and temporally variant environmental lighting information, such as the sun illumination, direction, causing different looks of the surface, making such models less realistic when used in 3D rendering under synthetic lightings. On the other hand, since albedo images are less variable by environmental lighting, it can, in turn, benefit basic photogrammetric processing. In this paper, we attack the problem of albedo recovery for aerial images for the photogrammetric process and demonstrate the benefit of albedo recovery for photogrammetry data processing through enhanced feature matching and dense matching. To this end, we proposed an image formation model with respect to outdoor aerial imagery under natural illumination conditions; we then, derived the inverse model to estimate the albedo by utilizing the typical photogrammetric products as an initial approximation of the geometry. The estimated albedo images are tested in intrinsic image decomposition, relighting, feature matching, and dense matching/point cloud generation results. Both synthetic and real-world experiments have demonstrated that our method outperforms existing methods and can enhance photogrammetric processing.
翻訳日:2022-04-11 13:05:54 公開日:2022-04-08
# 非校正型マルチカメラシステムによる移動構造制約付きバンドル調整

Constrained Bundle Adjustment for Structure From Motion Using Uncalibrated Multi-Camera Systems ( http://arxiv.org/abs/2204.04145v1 )

ライセンス: Link先を確認
Debao Huang, Mostafa Elhashash, Rongjun Qin(参考訳) 非対応マルチカメラシステムによる動作からの構造構築は難しい課題である。 本稿では,これらのカメラが静的であることを示すベースライン制約を実装したバンドル調整ソリューションを提案する。 これらのカメラはモバイルプラットフォームに搭載され、非対応で、粗く同期していると仮定します。 そこで本研究では,カメラのビューが重なり合うシナリオを定式化したベースライン制約を提案する。 制約は、異なるカメラの相対運動を静的に保つために、バンドル調整ソリューションに組み込まれる。 システムキャリブレーションのない車両に搭載された2台のgoproカメラのビデオフレームを用いて実験を行った。 この2台のカメラは重なり合う内容を捉えた。 提案する制約を用いてバンドル調整を行い,3次元高密度点雲を作成した。 これらの高密度点雲とLiDAR参照データを比較して評価を行った。 従来のバンドル調整と比較して,提案手法は29.38%の改善を実現した。

Structure from motion using uncalibrated multi-camera systems is a challenging task. This paper proposes a bundle adjustment solution that implements a baseline constraint respecting that these cameras are static to each other. We assume these cameras are mounted on a mobile platform, uncalibrated, and coarsely synchronized. To this end, we propose the baseline constraint that is formulated for the scenario in which the cameras have overlapping views. The constraint is incorporated in the bundle adjustment solution to keep the relative motion of different cameras static. Experiments were conducted using video frames of two collocated GoPro cameras mounted on a vehicle with no system calibration. These two cameras were placed capturing overlapping contents. We performed our bundle adjustment using the proposed constraint and then produced 3D dense point clouds. Evaluations were performed by comparing these dense point clouds against LiDAR reference data. We showed that, as compared to traditional bundle adjustment, our proposed method achieved an improvement of 29.38%.
翻訳日:2022-04-11 13:05:26 公開日:2022-04-08
# 出現動作のセマンティック表現一貫性に基づくビデオ異常検出フレームワーク

A Video Anomaly Detection Framework based on Appearance-Motion Semantics Representation Consistency ( http://arxiv.org/abs/2204.04151v1 )

ライセンス: Link先を確認
Xiangyu Huang, Caidan Zhao, Yilin Wang, Zhiqiang Wu(参考訳) ビデオ異常検出(video anomaly detection)は、期待された行動から逸脱する事象の識別を指す。 トレーニングに異常なサンプルがないため、ビデオ異常検出は非常に難しい課題となる。 既存の方法は、再構成または将来のフレーム予測モードにほぼ従う。 しかし,これらの手法は,標本の出現と運動情報の一貫性を無視し,異常検出性能を制限している。 監視映像の移動フォアグラウンドでのみ異常が発生するため,背景情報のない映像フレームシーケンスと光フローで表現される意味論は,異常検出において高い一貫性と意義を持つべきである。 そこで本研究では,正規データの出現と動作意味表現の一貫性を用いて異常検出を行うフレームワークであるaspect-motion semantics representation consistency (amsrc)を提案する。 まず,通常サンプルの外観・動作情報表現を符号化する2ストリームエンコーダを設計し,正常サンプルの外観・動作情報間の特徴意味の一貫性をさらに高めることにより,異常サンプルの出現・動作特徴表現の特定を可能にする。 また,異常標本の出現・運動特性の一貫性を低下させることで,復元誤差が大きい予測フレームの生成が可能となり,異常検出が容易になる。 実験の結果,提案手法の有効性が示された。

Video anomaly detection refers to the identification of events that deviate from the expected behavior. Due to the lack of anomalous samples in training, video anomaly detection becomes a very challenging task. Existing methods almost follow a reconstruction or future frame prediction mode. However, these methods ignore the consistency between appearance and motion information of samples, which limits their anomaly detection performance. Anomalies only occur in the moving foreground of surveillance videos, so the semantics expressed by video frame sequences and optical flow without background information in anomaly detection should be highly consistent and significant for anomaly detection. Based on this idea, we propose Appearance-Motion Semantics Representation Consistency (AMSRC), a framework that uses normal data's appearance and motion semantic representation consistency to handle anomaly detection. Firstly, we design a two-stream encoder to encode the appearance and motion information representations of normal samples and introduce constraints to further enhance the consistency of the feature semantics between appearance and motion information of normal samples so that abnormal samples with low consistency appearance and motion feature representation can be identified. Moreover, the lower consistency of appearance and motion features of anomalous samples can be used to generate predicted frames with larger reconstruction error, which makes anomalies easier to spot. Experimental results demonstrate the effectiveness of the proposed method.
翻訳日:2022-04-11 13:05:15 公開日:2022-04-08
# 粒子ビデオ再考:点軌道を用いたオクルージョンの追跡

Particle Videos Revisited: Tracking Through Occlusions Using Point Trajectories ( http://arxiv.org/abs/2204.04153v1 )

ライセンス: Link先を確認
Adam W. Harley, Zhaoyuan Fang, Katerina Fragkiadaki(参考訳) ビデオ中のピクセルの追跡は、通常光学フロー推定問題として研究され、各ピクセルは次のフレームに位置決めする変位ベクトルで記述される。 より広い時間的文脈は自由に利用できるが、それを考慮する以前の取り組みは、2フレームメソッドよりもわずかに利益しか得られなかった。 本稿では,砂とテラーの「粒子ビデオ」アプローチを再検討し,各画素を複数のフレームに配置する軌道で記述する長距離運動推定問題として画素追跡について検討する。 私たちはこの古典的なアプローチを、高コストマップや反復最適化、外見の更新など、現在の最先端のフローとオブジェクト追跡を駆動するコンポーネントを使って再構築します。 従来のオプティカルフローデータセットから抽出した遠距離アモーダルポイントトラジェクタを用いて,オクルージョンにより合成的に拡張したモデルを構築する。 提案手法を軌道推定ベンチマークやキーポイントラベル伝搬タスクで検証し,現状の光学的流れや特徴追跡手法と比較した。

Tracking pixels in videos is typically studied as an optical flow estimation problem, where every pixel is described with a displacement vector that locates it in the next frame. Even though wider temporal context is freely available, prior efforts to take this into account have yielded only small gains over 2-frame methods. In this paper, we revisit Sand and Teller's "particle video" approach, and study pixel tracking as a long-range motion estimation problem, where every pixel is described with a trajectory that locates it in multiple future frames. We re-build this classic approach using components that drive the current state-of-the-art in flow and object tracking, such as dense cost maps, iterative optimization, and learned appearance updates. We train our models using long-range amodal point trajectories mined from existing optical flow datasets that we synthetically augment with occlusions. We test our approach in trajectory estimation benchmarks and in keypoint label propagation tasks, and compare favorably against state-of-the-art optical flow and feature tracking methods.
翻訳日:2022-04-11 13:04:53 公開日:2022-04-08
# 低音源多言語音声認識のための階層型ソフトマックス

Hierarchical Softmax for End-to-End Low-resource Multilingual Speech Recognition ( http://arxiv.org/abs/2204.03855v1 )

ライセンス: Link先を確認
Qianying Liu, Yuhang Yang, Zhuo Gong, Sheng Li, Chenchen Ding, Nobuaki Minematsu, Hao Huang, Fei Cheng, Sadao Kurohashi(参考訳) 低リソース音声認識は、不十分なトレーニングデータから長い間悩まされてきた。 近隣言語はしばしば補助訓練データとして使用されるが、モデルが類似した単位(文字、サブワードなど)を言語全体に誘導することは困難である。 本稿では、近隣言語における類似単位が類似項周波数を共有し、Huffman木を形成し、多言語階層型Softmax復号を行う。 復号化の間、階層構造は低リソース言語のトレーニングに役立つ。 実験の結果,本手法の有効性が示された。

Low resource speech recognition has been long-suffering from insufficient training data. While neighbour languages are often used as assistant training data, it would be difficult for the model to induct similar units (character, subword, etc.) across the languages. In this paper, we assume similar units in neighbour language share similar term frequency and form a Huffman tree to perform multi-lingual hierarchical Softmax decoding. During decoding, the hierarchical structure can benefit the training of low-resource languages. Experimental results show the effectiveness of our method.
翻訳日:2022-04-11 13:04:35 公開日:2022-04-08
# (参考訳) KCD:ニュースメディアにおける知識ウォークとテキストキューによる政治的視点の検出

KCD: Knowledge Walks and Textual Cues Enhanced Political Perspective Detection in News Media ( http://arxiv.org/abs/2204.04046v1 )

ライセンス: CC BY 4.0
Wenqian Zhang, Shangbin Feng, Zilong Chen, Zhenyu Lei, Jundong Li, Minnan Luo(参考訳) 政治的視点検出は、エコーチェンバーや政治的分極と戦うのに役立つ、ますます重要なタスクになっている。 従来のアプローチは一般的に、背景知識の推論や、ニュース記事のリッチなセマンティックなテキストラベルの活用に失敗しながら、スタンスを識別するためにテキストコンテンツを活用することに重点を置いていた。 これらの制約を考慮し,多目的知識推論を可能にする政治的視点検出手法であるKCDを提案し,段落レベルのラベルとしてテキストキューを組み込む。 具体的には,まず外部知識グラフ上でランダムなウォークを生成し,ニューステキスト表現を付与する。 そこで我々は,ニュースコンテンツとセマンティック,構文,実体的手がかりを協調的にモデル化する異種情報ネットワークを構築した。 最後に,グラフレベルの表現学習に関係グラフニューラルネットワークを適用し,政治的視点検出を行う。 大規模な実験により、我々の手法は2つのベンチマークデータセット上で最先端の手法より優れていることが示された。 さらに,知識ウォークとテキスト手がかりの効果と,その効果がデータ効率に与える影響について検討した。

Political perspective detection has become an increasingly important task that can help combat echo chambers and political polarization. Previous approaches generally focus on leveraging textual content to identify stances, while they fail to reason with background knowledge or leverage the rich semantic and syntactic textual labels in news articles. In light of these limitations, we propose KCD, a political perspective detection approach to enable multi-hop knowledge reasoning and incorporate textual cues as paragraph-level labels. Specifically, we firstly generate random walks on external knowledge graphs and infuse them with news text representations. We then construct a heterogeneous information network to jointly model news content as well as semantic, syntactic and entity cues in news articles. Finally, we adopt relational graph neural networks for graph-level representation learning and conduct political perspective detection. Extensive experiments demonstrate that our approach outperforms state-of-the-art methods on two benchmark datasets. We further examine the effect of knowledge walks and textual cues and how they contribute to our approach's data efficiency.
翻訳日:2022-04-11 13:03:57 公開日:2022-04-08
# サイテーション市場は再現可能な仕事を取り戻すか?

Does the Market of Citations Reward Reproducible Work? ( http://arxiv.org/abs/2204.03829v1 )

ライセンス: Link先を確認
Edward Raff(参考訳) 引用と行動を研究する書誌学の分野は再現性に関する議論に不可欠である。 サイテーションは学術研究の主要なインセンティブと報酬システムの一つであり、このインセンティブが再現可能な作業に報いるかどうかを知りたい。 しかし、私たちの知る限りでは、この組み合わせ空間を考察しようとする試みはたった1つで、再生不能な作業がより高く引用されていることを結論付けている。 この質問に答えることは、最初に提案されたよりも難しいことを示し、微妙な問題が堅牢な結論を阻害する可能性がある。 よりロバストな振る舞いを持つ推論を行うために,一定時間経過後の引用数ではなく,時間経過の引用率を組み込んだ階層ベイズモデルを提案する。 そのような中で、現在の証拠の下では、医学や機械学習(ML)のような特定の分野の研究が再現可能な作品とより多くの引用を関連付ける可能性が高いが、他の分野には関係がないと考えられる。 さらに,コードの公開と事前作業の徹底的な参照は,引用の増加と正の相関関係にあると考えられる。 私たちのコードとデータは https://github.com/EdwardRaff/ReproducibleCitations で確認できます。

The field of bibliometrics, studying citations and behavior, is critical to the discussion of reproducibility. Citations are one of the primary incentive and reward systems for academic work, and so we desire to know if this incentive rewards reproducible work. Yet to the best of our knowledge, only one work has attempted to look at this combined space, concluding that non-reproducible work is more highly cited. We show that answering this question is more challenging than first proposed, and subtle issues can inhibit a robust conclusion. To make inferences with more robust behavior, we propose a hierarchical Bayesian model that incorporates the citation rate over time, rather than the total number of citations after a fixed amount of time. In doing so we show that, under current evidence the answer is more likely that certain fields of study such as Medicine and Machine Learning (ML) do correlate reproducible works with more citations, but other fields appear to have no relationship. Further, we find that making code available and thoroughly referencing prior works appear to also positively correlate with increased citations. Our code and data can be found at https://github.com/EdwardRaff/ReproducibleCitations .
翻訳日:2022-04-11 12:47:41 公開日:2022-04-08
# タンカーターミナルの協調スケジューリングの最適化:知的空間時間データ駆動アプローチ -その1-

Optimizing Coordinative Schedules for Tanker Terminals: An Intelligent Large Spatial-Temporal Data-Driven Approach -- Part 1 ( http://arxiv.org/abs/2204.03899v1 )

ライセンス: Link先を確認
Deqing Zhai and Xiuju Fu and Xiao Feng Yin and Haiyan Xu and Wanbing Zhang and Ning Li(参考訳) 本研究では, 平均待ち時間とターンアラウンド時間を削減し, ポート効率を向上させるために, 新たなコーディネートスケジューリング最適化手法を提案する。 提案手法は,カーネルとしての強化粒子群最適化 (epso) とグローバル最適探索としての拡張fireflyアルゴリズム (afa) から構成される。 提案手法の2つのパラダイム法について検討し, バッチ法とローリングホライズン法について検討した。 実験の結果, 提案手法のパラダイム手法は, ポート効率を効果的に向上できることがわかった。 平均待ち時間は86.0%から95.5%に大幅に減少し、平均折り返し時間は最終的に過去のベンチマークから38.2%から42.4%節約できる。 さらに, 最大性能のバッチ法では4時間ではなく, 3ヶ月のデータセット上での走行時間を20分に短縮することができた。

In this study, a novel coordinative scheduling optimization approach is proposed to enhance port efficiency by reducing average wait time and turnaround time. The proposed approach consists of enhanced particle swarm optimization (ePSO) as kernel and augmented firefly algorithm (AFA) as global optimal search. Two paradigm methods of the proposed approach are investigated, which are batch method and rolling horizon method. The experimental results show that both paradigm methods of proposed approach can effectively enhance port efficiency. The average wait time could be significantly reduced by 86.0% - 95.5%, and the average turnaround time could eventually save 38.2% - 42.4% with respect to historical benchmarks. Moreover, the paradigm method of rolling horizon could reduce to 20 mins on running time over 3-month datasets, rather than 4 hrs on batch method at corresponding maximum performance.
翻訳日:2022-04-11 12:47:18 公開日:2022-04-08
# タンカーターミナルの協調スケジューリング最適化: インテリジェントな空間時間データ駆動アプローチ -その2-

Optimizing Coordinative Schedules for Tanker Terminals: An Intelligent Large Spatial-Temporal Data-Driven Approach -- Part 2 ( http://arxiv.org/abs/2204.03955v1 )

ライセンス: Link先を確認
Deqing Zhai and Xiuju Fu and Xiao Feng Yin and Haiyan Xu and Wanbing Zhang and Ning Li(参考訳) 本研究では,重み付き平均ターンアラウンド時間を短縮し,ポート効率を向上させるために,新たな座標最適化手法を提案する。 提案手法は, 週次圧延水平法を用いて異なる観測窓を用いて, ヒューリスティックなアルゴリズムを適用し, 検討した。 実験の結果,提案手法が有効であり,船舶の旋回時間を緩和できる可能性が示唆された。 その結果,1週間の観測基準では17時間(28%),2週間の観測基準では45時間(7%),3週間の観測基準では70時間(40%)の削減が得られた。 実験結果は過去のデータセットに基づいているが、リアルタイムアプリケーションが二次計算の複雑さの下で適用された場合、この結果は大きなメリットをもたらす可能性がある。

In this study, a novel coordinative scheduling optimization approach is proposed to enhance port efficiency by reducing weighted average turnaround time. The proposed approach is developed as a heuristic algorithm applied and investigated through different observation windows with weekly rolling horizon paradigm method. The experimental results show that the proposed approach is effective and promising on mitigating the turnaround time of vessels. The results demonstrate that largest potential savings of turnaround time (weighted average) are around 17 hours (28%) reduction on baseline of 1-week observation, 45 hours (37%) reduction on baseline of 2-week observation and 70 hours (40%) reduction on baseline of 3-week observation. Even though the experimental results are based on historical datasets, the results potentially present significant benefits if real-time applications were applied under a quadratic computational complexity.
翻訳日:2022-04-11 12:47:02 公開日:2022-04-08
# ディープラーニングモデルのラベルフリー比較試験

Labeling-Free Comparison Testing of Deep Learning Models ( http://arxiv.org/abs/2204.03994v1 )

ライセンス: Link先を確認
Yuejun Guo, Qiang Hu, Maxime Cordy, Xiaofei Xie, Mike Papadakis, Yves Le Traon(参考訳) 様々なディープニューラルネットワーク(DNN)が開発され、複数のドメインで大きな成功を収めたと報告されている。 特定のタスクが与えられたら、開発者はパブリックソースから大量のDNNを収集して効率的に再利用し、スクラッチから冗長な作業を避けることができる。 しかし、複数のDNNのパフォーマンス(例えば精度と堅牢性)をテストし、どのモデルを使うべきかを合理的に推奨することは、ラベル付きデータの不足とドメインの専門知識の要求に関して難しい。 既存のテストアプローチは主に、サンプリング後、DNNを識別するためにいくつかのテストデータがラベル付けされている。 したがって、サンプリングのランダム性のため、性能ランキングは決定論的ではない。 本稿では,ラベリングの限界を克服し,ランダム性をサンプリングするためのラベリングフリー比較試験手法を提案する。 主なアイデアは、予測されたラベルのみに基づいてモデルの専門性を推測するベイズモデルを学ぶことである。 提案手法の有効性を評価するため,画像,テキスト,ソースコードの領域にまたがる9つのベンチマークデータセットと165個のDNNの総合的な実験を行った。 精度に加えて、合成および自然分布シフトに対する堅牢性についても検討する。 実験の結果,既存手法の性能は分布シフトにより低下することが示された。 提案手法は,spiermanの相関値とkendallの$\tau$を,データセットと分布シフトによらず,0.74 と 0.53 のベースライン法を上回った。 さらに,モデル品質(正確性とロバスト性)と多様性(品質の標準偏差)がテスト有効性に与える影響を調査し,品質が50\%以上で多様性が18\%以上の場合,良好な結果が得られる確率が高いことを観察した。

Various deep neural networks (DNNs) are developed and reported for their tremendous success in multiple domains. Given a specific task, developers can collect massive DNNs from public sources for efficient reusing and avoid redundant work from scratch. However, testing the performance (e.g., accuracy and robustness) of multiple DNNs and giving a reasonable recommendation that which model should be used is challenging regarding the scarcity of labeled data and demand of domain expertise. Existing testing approaches are mainly selection-based where after sampling, a few of the test data are labeled to discriminate DNNs. Therefore, due to the randomness of sampling, the performance ranking is not deterministic. In this paper, we propose a labeling-free comparison testing approach to overcome the limitations of labeling effort and sampling randomness. The main idea is to learn a Bayesian model to infer the models' specialty only based on predicted labels. To evaluate the effectiveness of our approach, we undertook exhaustive experiments on 9 benchmark datasets spanning in the domains of image, text, and source code, and 165 DNNs. In addition to accuracy, we consider the robustness against synthetic and natural distribution shifts. The experimental results demonstrate that the performance of existing approaches degrades under distribution shifts. Our approach outperforms the baseline methods by up to 0.74 and 0.53 on Spearman's correlation and Kendall's $\tau$, respectively, regardless of the dataset and distribution shift. Additionally, we investigated the impact of model quality (accuracy and robustness) and diversity (standard deviation of the quality) on the testing effectiveness and observe that there is a higher chance of a good result when the quality is over 50\% and the diversity is larger than 18\%.
翻訳日:2022-04-11 12:46:46 公開日:2022-04-08
# タンカーターミナルのベルト定常予測:システム的および動的アプローチ

Predicting Berth Stay for Tanker Terminals: A Systematic and Dynamic Approach ( http://arxiv.org/abs/2204.04085v1 )

ライセンス: Link先を確認
Deqing Zhai and Xiuju Fu and Xiao Feng Yin and Haiyan Xu and Wanbing Zhang(参考訳) デジタル化の傾向と海上輸送の増加を踏まえ,海洋ビッグデータ時代における運用研究とスケジューリング最適化の要件を満たすため,船舶の停泊の予測が引き起こされ,港湾効率と海運物流の強化に大きく寄与した。 本研究は,タンカー端末のバース滞留を予測するための系統的および動的アプローチを提案する。 このアプローチには3つの革新的な側面がある。 1)タンカー端末からの貨物運行データ、自動識別システム(ais)からの時系列データなど、使用するデータソースは多面的である。 2)データ解析と情報抽出にしたがってberth stayのプロセスは複数のブロックに分解され、それに応じて実用的な運用シナリオも開発される。 3) 回帰と分解分布を含む2つの手法による事前データ解析と情報抽出に基づいて, berth stayの予測モデルを開発した。 モデルは2つの異なる端末間で指定された貨物を持つ4つの動的シナリオで評価される。 評価結果は,提案手法が過去の基準値から98.81%の精度でバース滞在を予測できることを示し,また,提案手法がシナリオ間のバース滞在を予測する動的能力を有することを示した。 このモデルは、短期的なパイロット予約や、ポートインテリジェンスとロジスティクス効率の向上のための適切な時間枠内でのスケジューリングに応用される可能性がある。

Given the trend of digitization and increasing number of maritime transport, prediction of vessel berth stay has been triggered for requirements of operation research and scheduling optimization problem in the era of maritime big data, which takes a significant part in port efficiency and maritime logistics enhancement. This study proposes a systematic and dynamic approach of predicting berth stay for tanker terminals. The approach covers three innovative aspects: 1) Data source employed is multi-faceted, including cargo operation data from tanker terminals, time-series data from automatic identification system (AIS), etc. 2) The process of berth stay is decomposed into multiple blocks according to data analysis and information extraction innovatively, and practical operation scenarios are also developed accordingly. 3) The predictive models of berth stay are developed on the basis of prior data analysis and information extraction under two methods, including regression and decomposed distribution. The models are evaluated under four dynamic scenarios with certain designated cargoes among two different terminals. The evaluation results show that the proposed approach can predict berth stay with the accuracy up to 98.81% validated by historical baselines, and also demonstrate the proposed approach has dynamic capability of predicting berth stay among the scenarios. The model may be potentially applied for short-term pilot-booking or scheduling optimizations within a reasonable time frame for advancement of port intelligence and logistics efficiency.
翻訳日:2022-04-11 12:46:16 公開日:2022-04-08
# 多項式変換の学習

Learning Polynomial Transformations ( http://arxiv.org/abs/2204.04209v1 )

ライセンス: Link先を確認
Sitan Chen, Jerry Li, Yuanzhi Li, Anru R. Zhang(参考訳) ガウスの高次元多項式変換を学習する問題を考察する。 x\sim N(0, \mathrm{Id}_r)$ は隠され、$p: \mathbb{R}^r \to \mathbb{R}^d$ は全ての出力座標が低次多項式である函数であり、その目標は$p(x)$ 上の分布を学ぶことである。 この問題はそれ自体は自然だが、多項式活性化を持つ2層ニューラルネットワークの下でガウスのプッシュフォワード(pushforwards of gaussian)と呼ばれる深層生成モデルを学ぶ重要な特別なケースでもある。 このような生成モデルの学習可能性を理解することは、なぜそれが実際にうまく機能するのかを理解するために重要である。 最初の主な結果は、ガウスの二次変換を滑らかな設定で学習するための多項式時間アルゴリズムである。 第2の主な結果は、関連するテンソルのランクが小さいとき、ガウスの定数多項式変換を滑らかな設定で学習するための多項式時間アルゴリズムである。 実際、我々の結果はガウス分布だけでなく回転不変な入力分布にまで拡張される。 これらは、複数の層を持つニューラルネットワークの下でプッシュフォワードを学ぶための最初のエンドツーエンド保証である。 その過程では、テンソル環分解の証明可能な保証を持つ最初の多項式時間アルゴリズムも与え、これはテンソル環分解の一般的な一般化であり、実際には大きなテンソルを暗黙的に保存するために使われる。

We consider the problem of learning high dimensional polynomial transformations of Gaussians. Given samples of the form $p(x)$, where $x\sim N(0, \mathrm{Id}_r)$ is hidden and $p: \mathbb{R}^r \to \mathbb{R}^d$ is a function where every output coordinate is a low-degree polynomial, the goal is to learn the distribution over $p(x)$. This problem is natural in its own right, but is also an important special case of learning deep generative models, namely pushforwards of Gaussians under two-layer neural networks with polynomial activations. Understanding the learnability of such generative models is crucial to understanding why they perform so well in practice. Our first main result is a polynomial-time algorithm for learning quadratic transformations of Gaussians in a smoothed setting. Our second main result is a polynomial-time algorithm for learning constant-degree polynomial transformations of Gaussian in a smoothed setting, when the rank of the associated tensors is small. In fact our results extend to any rotation-invariant input distribution, not just Gaussian. These are the first end-to-end guarantees for learning a pushforward under a neural network with more than one layer. Along the way, we also give the first polynomial-time algorithms with provable guarantees for tensor ring decomposition, a popular generalization of tensor decomposition that is used in practice to implicitly store large tensors.
翻訳日:2022-04-11 12:44:42 公開日:2022-04-08
# Marginalized Annealed Importance Smpling を用いた自由エネルギー評価

Free Energy Evaluation Using Marginalized Annealed Importance Sampling ( http://arxiv.org/abs/2204.03784v1 )

ライセンス: Link先を確認
Muneki Yasuda and Chako Takahashi(参考訳) 確率モデルの自由エネルギーの評価は、物理学や機械学習の様々な分野において重要な問題であると考えられている。 しかし、正確な自由エネルギー評価は、難解な分割関数を含むため、計算上不可能である。 annealed importance sampling (ais) は、マルコフ連鎖モンテカルロ法に基づく重要サンプリングの一種であり、シミュレーションアニーリングと類似しており、自由エネルギーを効果的に近似することができる。 本研究は,mAISと呼ばれる新たなAISベースのアプローチを提案する。 maisの統計効率は理論的および数値的な観点から詳細に研究されている。 調査の結果,mAISは特定の条件下でAISよりも有効であることが確認された。

The evaluation of the free energy of a stochastic model is considered to be a significant issue in various fields of physics and machine learning. However, the exact free energy evaluation is computationally infeasible because it includes an intractable partition function. Annealed importance sampling (AIS) is a type of importance sampling based on the Markov chain Monte Carlo method, which is similar to a simulated annealing, and can effectively approximate the free energy. This study proposes a new AIS-based approach, referred to as marginalized AIS (mAIS). The statistical efficiency of mAIS is investigated in detail based on a theoretical and numerical perspectives. Based on the investigation, it has been proved that mAIS is more effective than AIS under a certain condition.
翻訳日:2022-04-11 12:43:35 公開日:2022-04-08
# クロスリンガル・トランスファー学習におけるMarvelous Agglutinative Languageの効果

Marvelous Agglutinative Language Effect on Cross Lingual Transfer Learning ( http://arxiv.org/abs/2204.03831v1 )

ライセンス: Link先を確認
Wooyoung Kim, Chaerin Jo, Minjung Kim and Wooju Kim(参考訳) 多言語モデルについては、多言語性の呪いから訓練用言語を選択することが重要である。 (Conneau et al., 2020)。 類似言語構造を持つ言語を使用することは、言語間移動学習に有効であることが知られている(Pires et al., 2019)。 しかし,韓国語などの凝集言語の使用は,言語間移動学習においてより効果的であることを示す。 これは、言語間移行学習のトレーニング戦略を変える素晴らしい発見です。

As for multilingual language models, it is important to select languages for training because of the curse of multilinguality. (Conneau et al., 2020). It is known that using languages with similar language structures is effective for cross lingual transfer learning (Pires et al., 2019). However, we demonstrate that using agglutinative languages such as Korean is more effective in cross lingual transfer learning. This is a great discovery that will change the training strategy of cross lingual transfer learning.
翻訳日:2022-04-11 12:42:53 公開日:2022-04-08
# 自動後編集の半教師付き学習に向けて--誤字マスクによるデータ合成

Towards Semi-Supervised Learning of Automatic Post-Editing: Data-Synthesis by Infilling Mask with Erroneous Tokens ( http://arxiv.org/abs/2204.03896v1 )

ライセンス: Link先を確認
WonKee Lee, Seong-Hwan Heo, Baikjin Jung, Jong-Hyeok Lee(参考訳) 自動後編集(APE)の分野では,人工訓練データを活用した半教師あり学習が広く採用されている。 この文脈では、高品質な合成データを生成するデータ合成手法も注目されている。 APEは、翻訳誤りを含む機械翻訳出力を入力として取り込んでおり、マスク言語モデルを用いて、偽のトークンでマスクされたトークンを置換してノイズの多いテキストを生成するが、真のAPEデータに現れる誤り量統計に従う。 また,有利なサンプルのみを採取して2つの別個の合成データを統合するコーパスインターリーブを提案し,ノーミング法で作成した合成データの品質をさらに向上させる。 実験の結果,提案手法で作成した合成データを用いることで,既存のデータ合成法が異なる合成データを用いた場合,apの性能が大幅に向上することが判明した。

Semi-supervised learning that leverages synthetic training data has been widely adopted in the field of Automatic post-editing (APE) to overcome the lack of human-annotated training data. In that context, data-synthesis methods to create high-quality synthetic data have also received much attention. Considering that APE takes machine-translation outputs containing translation errors as input, we propose a noising-based data-synthesis method that uses a mask language model to create noisy texts through substituting masked tokens with erroneous tokens, yet following the error-quantity statistics appearing in genuine APE data. In addition, we propose corpus interleaving, which is to combine two separate synthetic data by taking only advantageous samples, to further enhance the quality of the synthetic data created with our noising method. Experimental results reveal that using the synthetic data created with our approach results in significant improvements in APE performance upon using other synthetic data created with different existing data-synthesis methods.
翻訳日:2022-04-11 12:41:33 公開日:2022-04-08
# biobart: 生物医学的生成言語モデルの事前学習と評価

BioBART: Pretraining and Evaluation of A Biomedical Generative Language Model ( http://arxiv.org/abs/2204.03905v1 )

ライセンス: Link先を確認
Hongyi Yuan, Zheng Yuan, Ruyi Gan, Jiaxing Zhang, Yutao Xie and Sheng Yu(参考訳) 事前訓練された言語モデルは、自然言語処理の重要なバックボーンとして機能している。 近年、ドメイン内プリトレーニングは様々なドメイン固有のダウンストリームタスクに役立つことが示されている。 バイオメディカル領域では、自然言語生成(NLG)タスクが重要であり、検討されている。 NLGとしての自然言語理解(NLU)タスクへのアプローチは、制約付き言語生成や言語プロンプトを通じて、一般的なドメインのパフォーマンスを満足させる。 我々は、生物医学領域におけるドメイン内生成言語モデルと非体系的生成下流ベンチマークの欠如を強調し、研究コミュニティの発展を妨げる。 本稿では,BARTを生物医学領域に適応させる生成言語モデルBioBARTを紹介する。 対話,要約,エンティティリンク,名前付きエンティティ認識など,様々な生物医学的言語生成タスクを協調させる。 PubMedの抽象化で事前訓練されたBioBARTは、BARTと比較してパフォーマンスを向上し、いくつかのタスクに強いベースラインを設定している。 さらに,BioBARTの事前学習タスクに関するアブレーション研究を行い,文置換が下流タスクに悪影響を及ぼすことを見出した。

Pretrained language models have served as important backbones for natural language processing. Recently, in-domain pretraining has been shown to benefit various domain-specific downstream tasks. In the biomedical domain, natural language generation (NLG) tasks are of critical importance, while understudied. Approaching natural language understanding (NLU) tasks as NLG achieves satisfying performance in the general domain through constrained language generation or language prompting. We emphasize the lack of in-domain generative language models and the unsystematic generative downstream benchmarks in the biomedical domain, hindering the development of the research community. In this work, we introduce the generative language model BioBART that adapts BART to the biomedical domain. We collate various biomedical language generation tasks including dialogue, summarization, entity linking, and named entity recognition. BioBART pretrained on PubMed abstracts has enhanced performance compared to BART and set strong baselines on several tasks. Furthermore, we conduct ablation studies on the pretraining tasks for BioBART and find that sentence permutation has negative effects on downstream tasks.
翻訳日:2022-04-11 12:41:17 公開日:2022-04-08
# 単一ラベルと複数ラベルテキストの分類におけるバガ-オブ-ワード対シーケンス対グラフ対階層

Bag-of-Words vs. Sequence vs. Graph vs. Hierarchy for Single- and Multi-Label Text Classification ( http://arxiv.org/abs/2204.03954v1 )

ライセンス: Link先を確認
Andor Diera, Bao Xin Lin, Bhakti Khera, Tim Meuser, Tushar Singhal, Lukas Galke, Ansgar Scherp(参考訳) グラフニューラルネットワークは、今日の最先端技術を定義するグラフベースのテキスト分類方法を復活させた。 本稿では,Bag of Words (BoW) を用いたシンプルな多層パーセプトロン (MLP) が,最近のグラフベースモデルである TextGCN と HeteGCN をインダクティブテキスト分類設定で上回り,シングルラベル分類では HyperGAT に匹敵する性能を示した。 また,マルチラベル分類の実験も行っており,単純なmlpは最近の逐次型gmlpおよびamlpモデルよりも優れている。 さらに、シーケンスベースのbertと軽量ディチルベルトモデルを微調整し、ほとんどのデータセットにおいて、シングルラベル設定とマルチラベル設定の両方で全てのモデルよりも優れています。 これらの結果は、現代テキスト分類器で使われる合成グラフの重要性に疑問を呈する。 パラメータの面では、 DistilBERT は BoW ベースのワイド MLP の2倍の大きさであり、TextGCN のようなグラフベースのモデルでは $\mathcal{O}(N^2)$ graph をセットアップする必要があります。

Graph neural networks have triggered a resurgence of graph-based text classification methods, defining today's state of the art. We show that a simple multi-layer perceptron (MLP) using a Bag of Words (BoW) outperforms the recent graph-based models TextGCN and HeteGCN in an inductive text classification setting and is comparable with HyperGAT in single-label classification. We also run our own experiments on multi-label classification, where the simple MLP outperforms the recent sequential-based gMLP and aMLP models. Moreover, we fine-tune a sequence-based BERT and a lightweight DistilBERT model, which both outperform all models on both single-label and multi-label settings in most datasets. These results question the importance of synthetic graphs used in modern text classifiers. In terms of parameters, DistilBERT is still twice as large as our BoW-based wide MLP, while graph-based models like TextGCN require setting up an $\mathcal{O}(N^2)$ graph, where $N$ is the vocabulary plus corpus size.
翻訳日:2022-04-11 12:41:02 公開日:2022-04-08
# マスク言語モデリングを超えた文脈表現学習

Contextual Representation Learning beyond Masked Language Modeling ( http://arxiv.org/abs/2204.04163v1 )

ライセンス: Link先を確認
Zhiyi Fu, Wangchunshu Zhou, Jingjing Xu, Hao Zhou, Lei Li(参考訳) BERTのようなマスキング言語モデル(MLM)はどのようにコンテキスト表現を学ぶのか? 本研究では,MLMの学習力学を解析する。 MLMの効率と有効性を制限するために, サンプル埋め込みをアンカーとして, 文脈意味論を表現に注入することを発見した。 これらの課題に対処するため,グローバルな意味論を直接モデル化するシンプルな表現学習手法であるTACOを提案する。 tacoはコンテキスト化された表現に隠されたコンテキストセマンティクスを抽出・調整し、モデルがコンテキスト化された表現を生成する際にグローバルセマンティクスに出席するよう促す。 GLUEベンチマークの実験では、TACOは既存のMLMよりも最大5倍のスピードアップと1.2ポイントの平均的な改善を実現している。 コードはhttps://github.com/FUZHIYI/TACO.comで公開されている。

How do masked language models (MLMs) such as BERT learn contextual representations? In this work, we analyze the learning dynamics of MLMs. We find that MLMs adopt sampled embeddings as anchors to estimate and inject contextual semantics to representations, which limits the efficiency and effectiveness of MLMs. To address these issues, we propose TACO, a simple yet effective representation learning approach to directly model global semantics. TACO extracts and aligns contextual semantics hidden in contextualized representations to encourage models to attend global semantics when generating contextualized representations. Experiments on the GLUE benchmark show that TACO achieves up to 5x speedup and up to 1.2 points average improvement over existing MLMs. The code is available at https://github.com/FUZHIYI/TACO.
翻訳日:2022-04-11 12:40:38 公開日:2022-04-08
# (参考訳) Hmong, Lahu, Chineseにおける協調化合物の順序付けと協調表現の学習

Learning the Ordering of Coordinate Compounds and Elaborate Expressions in Hmong, Lahu, and Chinese ( http://arxiv.org/abs/2204.04080v1 )

ライセンス: CC BY 4.0
Chenxuan Cui, Katherine J. Zhang, David R. Mortensen(参考訳) 座標化合物 (ccs) と精巧な表現 (ees) は、東アジアや東南アジアの言語で一般的な座標構成である。 Mortensen (2006) は、(1)Hmong, Lahu, Chinese におけるEE と CC の線形順序付けは音韻的階層によって予測でき、(2)これらの音韻的階層は明確な音韻論的論理を欠いていると主張している。 これらの主張は、モルフォシンタクスは、しばしば音韻学とフィードフォワードの関係にあると見なされ、音韻論的一般化はしばしば音声学的に「自然」であると仮定された。 CCとEEの順序付けが実証的に学べるかどうか、計算モデル(分類器とシーケンスラベル付けモデル)がモーテンセン(2006)と類似した非自然的階層を学習できるかを検討する。 決定木とsvmは音韻学に基づいてccs/eeの順序を予測し、dtsはmortensenが提案したものと非常に類似した階層を学習する。 しかし,ニューラルシーケンスラベリングモデルでは,音韻情報を用いずに,ハンセンの精巧な表現の順序を極めて効果的に学習できることがわかった。 脳の順序付けは、音韻学と語彙分布という2つの独立した経路を通して学べると我々は主張する。 [ISO 639-3:hmn, lhu, cmn]

Coordinate compounds (CCs) and elaborate expressions (EEs) are coordinate constructions common in languages of East and Southeast Asia. Mortensen (2006) claims that (1) the linear ordering of EEs and CCs in Hmong, Lahu, and Chinese can be predicted via phonological hierarchies and (2) these phonological hierarchies lack a clear phonetic rationale. These claims are significant because morphosyntax has often been seen as in a feed-forward relationship with phonology, and phonological generalizations have often been assumed to be phonetically "natural". We investigate whether the ordering of CCs and EEs can be learned empirically and whether computational models (classifiers and sequence labeling models) learn unnatural hierarchies similar to those posited by Mortensen (2006). We find that decision trees and SVMs learn to predict the order of CCs/EEs on the basis of phonology, with DTs learning hierarchies strikingly similar to those proposed by Mortensen. However, we also find that a neural sequence labeling model is able to learn the ordering of elaborate expressions in Hmong very effectively without using any phonological information. We argue that EE ordering can be learned through two independent routes: phonology and lexical distribution, presenting a more nuanced picture than previous work. [ISO 639-3:hmn, lhu, cmn]
翻訳日:2022-04-11 12:38:50 公開日:2022-04-08
# 機械学習サロゲートモデルを用いた不均質化空間における一般化潜時同化

Generalised Latent Assimilation in Heterogeneous Reduced Spaces with Machine Learning Surrogate Models ( http://arxiv.org/abs/2204.03497v2 )

ライセンス: Link先を確認
Sibo Cheng and Jianhua Chen and Charitos Anastasiou and Panagiota Angeli and Omar K. Matar and Yi-Ke Guo and Christopher C. Pain and Rossella Arcucci(参考訳) 機械学習アルゴリズムを用いた低次元代用モデルと低次元代用モデルが高次元力学系に広く応用され,アルゴリズムの効率が向上した。 本稿では,低次サロゲートモデルと,異なる物理空間からのリアルタイム観測を組み込んだ新しいデータ同化(DA)技術を組み合わせたシステムを開発する。 我々は、符号化されたシステム変数の空間と現在の観測の空間をリンクする局所的滑らかな代理関数を用いて、計算コストの低い変分DAを実行する。 一般化潜在同化(Generalized Latent Assimilation)と呼ばれる新しいシステムは、低次モデリングによって提供される効率とデータ同化の精度の両方に恩恵をもたらす。 局所的なトレーニングセットのサイズに応じて上界が与えられるこの論文では, 代理関数と原同化コスト関数の差に関する理論的解析も行う。 新しいアプローチは、現在のラテント同化法では扱えない非線形観測演算子を持つ二相液体流の高次元CFD応用で検証された。 数値計算により,提案手法はCFDシミュレーションの1000倍近く高速な深層学習サロゲートモデルの再構成と予測精度を大幅に向上させることができることが示された。

Reduced-order modelling and low-dimensional surrogate models generated using machine learning algorithms have been widely applied in high-dimensional dynamical systems to improve the algorithmic efficiency. In this paper, we develop a system which combines reduced-order surrogate models with a novel data assimilation (DA) technique used to incorporate real-time observations from different physical spaces. We make use of local smooth surrogate functions which link the space of encoded system variables and the one of current observations to perform variational DA with a low computational cost. The new system, named Generalised Latent Assimilation can benefit both the efficiency provided by the reduced-order modelling and the accuracy of data assimilation. A theoretical analysis of the difference between surrogate and original assimilation cost function is also provided in this paper where an upper bound, depending on the size of the local training set, is given. The new approach is tested on a high-dimensional CFD application of a two-phase liquid flow with non-linear observation operators that current Latent Assimilation methods can not handle. Numerical results demonstrate that the proposed assimilation approach can significantly improve the reconstruction and prediction accuracy of the deep learning surrogate model which is nearly 1000 times faster than the CFD simulation.
翻訳日:2022-04-11 12:22:04 公開日:2022-04-08
# SnapMode: ビッグデータとDeep Generative Adversarial Network技術に基づく,インテリジェントで分散的な大規模ファッションイメージ検索プラットフォーム

SnapMode: An Intelligent and Distributed Large-Scale Fashion Image Retrieval Platform Based On Big Data and Deep Generative Adversarial Network Technologies ( http://arxiv.org/abs/2204.03998v1 )

ライセンス: Link先を確認
Narges Norouzi, Reza Azmi, Sara Saberi Tehrani Moghadam, Maral Zarvani(参考訳) ファッションは今や世界最大級の産業のひとつであり、人類の歴史を表現し、世界の物語を語るのに役立っている。 第4次産業革命の結果として、インターネットはますますファッション情報の重要な源となっている。 しかし、Webページやソーシャルデータの増加に伴い、人間がこの領域の継続的な進化と継続的な変化に手動で追いつくことはほとんど不可能である。 ビッグデータの適切な管理と活用は、世界経済の実質的な成長と市民満足への道を開く可能性がある。 それゆえ、コンピュータ科学者はビッグデータと機械学習技術を用いてeコマースファッションのウェブサイトを扱うことが困難であることに気付いた。 本稿では,電子商取引サイトにおけるファッションデータの抽出と処理を行う分散コンピューティングプラットフォームに基づく,スケーラブルなWebクローラエンジンを提案する。 提案するプラットフォームの役割は,コンテンツに基づく画像インデックス作成と検索に深層畳み込み生成対向ネットワーク(DCGAN)を用いることで,不整合特徴抽出法の開発において説明される。 最後に最先端ソリューションを比較し,提案手法の結果を標準データセット上で解析する。 提案されたソリューションの現実の実装のために、Webベースのアプリケーションは、Apache Storm、Kafka、Solr、Milvusプラットフォーム上で開発され、SnapModeと呼ばれるファッション検索エンジンを作成する。

Fashion is now among the largest industries worldwide, for it represents human history and helps tell the worlds story. As a result of the Fourth Industrial Revolution, the Internet has become an increasingly important source of fashion information. However, with a growing number of web pages and social data, it is nearly impossible for humans to manually catch up with the ongoing evolution and the continuously variable content in this domain. The proper management and exploitation of big data can pave the way for the substantial growth of the global economy as well as citizen satisfaction. Therefore, computer scientists have found it challenging to handle e-commerce fashion websites by using big data and machine learning technologies. This paper first proposes a scalable focused Web Crawler engine based on the distributed computing platforms to extract and process fashion data on e-commerce websites. The role of the proposed platform is then described in developing a disentangled feature extraction method by employing deep convolutional generative adversarial networks (DCGANs) for content-based image indexing and retrieval. Finally, the state-of-the-art solutions are compared, and the results of the proposed approach are analyzed on a standard dataset. For the real-life implementation of the proposed solution, a Web-based application is developed on Apache Storm, Kafka, Solr, and Milvus platforms to create a fashion search engine called SnapMode.
翻訳日:2022-04-11 12:21:43 公開日:2022-04-08
# pharmmt: 処方の指示を単純化するニューラルネットワーク翻訳手法

PharmMT: A Neural Machine Translation Approach to Simplify Prescription Directions ( http://arxiv.org/abs/2204.03830v1 )

ライセンス: Link先を確認
Jiazhao Li, Corey Lester, Xinyan Zhao, Yuting Ding, Yun Jiang, V.G.Vinod Vydiswaran(参考訳) 処方の指示で医師や医療専門家が使用する言語には、医学用語や暗黙の指示が含まれており、患者の間に多くの混乱を引き起こす。 薬局での言語を単純化するための人間の介入は、深刻な健康結果につながる可能性のある追加のエラーをもたらす可能性がある。 患者フレンドリーな言語への処方指示を自動的かつ確実に単純化し,薬剤師の作業負荷を大幅に削減する,新しい機械翻訳ベースのアプローチであるpharmmtを提案する。 大規模な郵便注文薬局から得られた530K以上の処方薬からなるデータセットに対する提案手法の評価を行った。 エンドツーエンドシステムは、薬剤師による基準方向に対するBLEUスコアが60.27であり、規則に基づく正規化よりも39.6%改善されている。 薬剤師は、単純化された方向の94.3%を、使用可能な、または最小限の変更で判断した。 本研究は,実生活における処方の方向を簡略化する機械翻訳ツールの実現可能性を示す。

The language used by physicians and health professionals in prescription directions includes medical jargon and implicit directives and causes much confusion among patients. Human intervention to simplify the language at the pharmacies may introduce additional errors that can lead to potentially severe health outcomes. We propose a novel machine translation-based approach, PharmMT, to automatically and reliably simplify prescription directions into patient-friendly language, thereby significantly reducing pharmacist workload. We evaluate the proposed approach over a dataset consisting of over 530K prescriptions obtained from a large mail-order pharmacy. The end-to-end system achieves a BLEU score of 60.27 against the reference directions generated by pharmacists, a 39.6% relative improvement over the rule-based normalization. Pharmacists judged 94.3% of the simplified directions as usable as-is or with minimal changes. This work demonstrates the feasibility of a machine translation-based tool for simplifying prescription directions in real-life.
翻訳日:2022-04-11 12:21:20 公開日:2022-04-08
# 共同学習トークン抽出とテキスト生成による不完全発話の復元

Enhance Incomplete Utterance Restoration by Joint Learning Token Extraction and Text Generation ( http://arxiv.org/abs/2204.03958v1 )

ライセンス: Link先を確認
Shumpei Inoue, Tsungwei Liu, Nguyen Hong Son, Minh-Tien Nguyen(参考訳) 本稿では,不完全発話回復モデル(IUR)を提案する。 データセットの抽出や抽象化のみに取り組む先行研究とは異なり、iurの両シナリオで動作する、シンプルだが効果的なモデルを設計します。 我々の設計はIURの性質をシミュレートし、文脈から省略されたトークンが復元に寄与する。 これにより,省略されたトークンを識別するピッカーを構築する。 ピッカーをサポートするために,省略されたトークンのアノテーションがない場合に使用可能な2つのラベル生成メソッド(ソフトラベルとハードラベル)を設計した。 この修復は、共同学習においてピッカーの助けを借りて発電機を用いて行う。 抽出および抽象化シナリオにおける4つのベンチマークデータセットの結果から、我々のモデルは、リッチかつ限られたトレーニングデータ設定において、事前訓練されたT5および非生成言語モデルメソッドよりも優れていることが分かる。 コードも利用可能になる。

This paper introduces a model for incomplete utterance restoration (IUR). Different from prior studies that only work on extraction or abstraction datasets, we design a simple but effective model, working for both scenarios of IUR. Our design simulates the nature of IUR, where omitted tokens from the context contribute to restoration. From this, we construct a Picker that identifies the omitted tokens. To support the picker, we design two label creation methods (soft and hard labels), which can work in cases of no annotation of the omitted tokens. The restoration is done by using a Generator with the help of the Picker on joint learning. Promising results on four benchmark datasets in extraction and abstraction scenarios show that our model is better than the pretrained T5 and non-generative language model methods in both rich and limited training data settings. The code will be also available.
翻訳日:2022-04-11 12:21:05 公開日:2022-04-08
# 比較・重み付けによる特徴的画像キャプションについて

On Distinctive Image Captioning via Comparing and Reweighting ( http://arxiv.org/abs/2204.03938v1 )

ライセンス: Link先を確認
Jiuniu Wang, Wenjia Xu, Qingzhong Wang, Antoni B. Chan(参考訳) 最近の画像キャプションモデルは、BLEU、CIDEr、SPICEといった一般的な指標に基づいて印象的な結果を得ている。 しかし、生成したキャプションと人間の注釈の重なりしか考慮しない最も一般的な指標に注目すると、共通する単語やフレーズが使用され、その特徴性に欠ける、すなわち、類似した画像の多くが同じキャプションを持つ。 本稿では,類似画像の集合との比較と再重み付けにより,画像キャプションの特異性を向上させることを目的とする。 まず,類似画像に対する字幕の識別性を評価するために,セットcider(ciderbtw)間の識別性指標を提案する。 MSCOCOデータセットの各画像の人間のアノテーションは、特徴性に基づいて等価ではないことが明らかとなったが、従来の研究では、トレーニング中に人間のアノテーションを等しく扱うことが特徴的でないキャプションを生成する理由となり得る。 対照的に、トレーニング中の特徴に応じて、各接頭辞を重み付けする。 さらに,より詳細な情報を含む希少な単語を強調するために長尾重み戦略を取り入れ,類似画像集合からのキャプションを負の例としてサンプリングし,生成文の独特化を促す。 最後に,提案手法は,CIDErBtwで測定した特徴量と,CIDErで測定した精度(例えば,CIDErで測定した精度)を,多種多様な画像キャプションベースラインに対して有意に改善することを示す。 これらの結果はユーザ調査によってさらに確認される。

Recent image captioning models are achieving impressive results based on popular metrics, i.e., BLEU, CIDEr, and SPICE. However, focusing on the most popular metrics that only consider the overlap between the generated captions and human annotation could result in using common words and phrases, which lacks distinctiveness, i.e., many similar images have the same caption. In this paper, we aim to improve the distinctiveness of image captions via comparing and reweighting with a set of similar images. First, we propose a distinctiveness metric -- between-set CIDEr (CIDErBtw) to evaluate the distinctiveness of a caption with respect to those of similar images. Our metric reveals that the human annotations of each image in the MSCOCO dataset are not equivalent based on distinctiveness; however, previous works normally treat the human annotations equally during training, which could be a reason for generating less distinctive captions. In contrast, we reweight each ground-truth caption according to its distinctiveness during training. We further integrate a long-tailed weight strategy to highlight the rare words that contain more information, and captions from the similar image set are sampled as negative examples to encourage the generated sentence to be unique. Finally, extensive experiments are conducted, showing that our proposed approach significantly improves both distinctiveness (as measured by CIDErBtw and retrieval metrics) and accuracy (e.g., as measured by CIDEr) for a wide variety of image captioning baselines. These results are further confirmed through a user study.
翻訳日:2022-04-11 12:19:10 公開日:2022-04-08
# POSTER:表情認識のためのピラミッド型クロスフュージョントランスネットワーク

POSTER: A Pyramid Cross-Fusion Transformer Network for Facial Expression Recognition ( http://arxiv.org/abs/2204.04083v1 )

ライセンス: Link先を確認
Ce Zheng, Matias Mendieta, and Chen Chen(参考訳) 顔の表情認識(FER)はコンピュータビジョンコミュニティへの関心が高まっている。 特にFERでは、クラス間の類似性、クラス内の不一致、スケール感度の3つの重要な課題がある。 既存のメソッドは通常これらの問題に対処するが、全てを統一されたフレームワークで対処しない。 そこで本稿では,これらの問題を解決することを目的とした2ストリームのピラミッド crOss-fuSion TransformER ネットワーク (POSTER) を提案する。 具体的には,顔ランドマークと直接画像の特徴を効果的に協調し,正常な顔領域への注意を最大化するトランスフォーマーベースのクロスフュージョンパラダイムを考案する。 さらに、POSTERはスケール不変性を促進するためにピラミッド構造を採用している。 広範な実験結果から,raf-db の sota メソッドは 92.05%,ferplus は 91.62%, affectnet (7 cls) は 67.31%, affectnet (8 cls) はそれぞれ 63.34% であった。

Facial Expression Recognition (FER) has received increasing interest in the computer vision community. As a challenging task, there are three key issues especially prevalent in FER: inter-class similarity, intra-class discrepancy, and scale sensitivity. Existing methods typically address some of these issues, but do not tackle them all in a unified framework. Therefore, in this paper, we propose a two-stream Pyramid crOss-fuSion TransformER network (POSTER) that aims to holistically solve these issues. Specifically, we design a transformer-based cross-fusion paradigm that enables effective collaboration of facial landmark and direct image features to maximize proper attention to salient facial regions. Furthermore, POSTER employs a pyramid structure to promote scale invariance. Extensive experimental results demonstrate that our POSTER outperforms SOTA methods on RAF-DB with 92.05%, FERPlus with 91.62%, AffectNet (7 cls) with 67.31%, and AffectNet (8 cls) with 63.34%, respectively.
翻訳日:2022-04-11 12:18:42 公開日:2022-04-08
# チームスポーツにおける光トラッキング

Optical tracking in team sports ( http://arxiv.org/abs/2204.04143v1 )

ライセンス: Link先を確認
Pegah Rahimian and Laszlo Toka(参考訳) スポーツ分析はコーチ、スカウト、ファンにとって重要視されている。 近年,コンピュータビジョン研究者は,自動演奏とボールトラッキングの手法を複数提案することにより,必要なデータ収集の課題に取り組んでいる。 収集された追跡データに基づいて、データマイナーはプレイヤーとチームのパフォーマンスを定量的に分析することができる。 本調査の目的は,入力データの作成過程とその特性について,定量的データ分析者に対して基礎的理解を提供することである。 そこで本研究では,従来の学習法と深層学習法の包括的分類法を別途提供し,近年の光学追跡法を概説する。 さらに,この領域におけるデータ追跡のプロセス前ステップ,最も一般的な課題,スポーツチームへのデータ追跡の適用について論じる。 最後に,その手法を費用と限界で比較し,今後の研究の方向性を強調することで結論づける。

Sports analysis has gained paramount importance for coaches, scouts, and fans. Recently, computer vision researchers have taken on the challenge of collecting the necessary data by proposing several methods of automatic player and ball tracking. Building on the gathered tracking data, data miners are able to perform quantitative analysis on the performance of players and teams. With this survey, our goal is to provide a basic understanding for quantitative data analysts about the process of creating the input data and the characteristics thereof. Thus, we summarize the recent methods of optical tracking by providing a comprehensive taxonomy of conventional and deep learning methods, separately. Moreover, we discuss the preprocessing steps of tracking, the most common challenges in this domain, and the application of tracking data to sports teams. Finally, we compare the methods by their cost and limitations, and conclude the work by highlighting potential future research directions.
翻訳日:2022-04-11 12:18:22 公開日:2022-04-08
# GRAM:コンテンツベース協調フィルタリングのための事前学習言語モデルの高速微調整

GRAM: Fast Fine-tuning of Pre-trained Language Models for Content-based Collaborative Filtering ( http://arxiv.org/abs/2204.04179v1 )

ライセンス: Link先を確認
Yoonseok Yang, Kyu Seok Kim, Minsam Kim, Juneyoung Park(参考訳) コンテンツベースの協調フィルタリング(CCF)は、ユーザのインタラクション履歴とアイテムのコンテンツ情報の両方に基づいて、パーソナライズされたアイテムレコメンデーションを提供する。 近年、CCFのための高品質なアイテムエンコーディングの抽出にPLM(Pre-trained Language Model)が用いられている。 しかし、マルチモーダルな性質から、plmをエンド・ツー・エンド(e2e)方式でccfで微調整することはリソース集約的である。 そこで本研究では,(1)E2Eとの理論的等価性を保ちながら各項目の勾配を集約するシングルステップGRAM,(2)E2Eの40倍のGPUメモリフットプリントを有する複数のトレーニングステップにまたがって勾配を蓄積するマルチステップGRAMを提案する。 GRAMは2つのタスク領域である知識トラシングとニュースレコメンデーションの5つのデータセットに基づいて,それぞれ1ステップのGRAMと複数ステップのGRAMが平均4倍,45倍のトレーニングスピードアップを達成することにより,トレーニング効率が著しく向上することを確認した。

Content-based collaborative filtering (CCF) provides personalized item recommendations based on both users' interaction history and items' content information. Recently, pre-trained language models (PLM) have been used to extract high-quality item encodings for CCF. However, it is resource-intensive to finetune PLM in an end-to-end (E2E) manner in CCF due to its multi-modal nature: optimization involves redundant content encoding for interactions from users. For this, we propose GRAM (GRadient Accumulation for Multi-modality): (1) Single-step GRAM which aggregates gradients for each item while maintaining theoretical equivalence with E2E, and (2) Multi-step GRAM which further accumulates gradients across multiple training steps, with less than 40\% GPU memory footprint of E2E. We empirically confirm that GRAM achieves a remarkable boost in training efficiency based on five datasets from two task domains of Knowledge Tracing and News Recommendation, where single-step and multi-step GRAM achieve 4x and 45x training speedup on average, respectively.
翻訳日:2022-04-11 12:18:09 公開日:2022-04-08
# ECGバイオメトリック認識:レビュー,システム提案,ベンチマーク評価

ECG Biometric Recognition: Review, System Proposal, and Benchmark Evaluation ( http://arxiv.org/abs/2204.03992v1 )

ライセンス: Link先を確認
Pietro Melzi, Ruben Tolosana, Ruben Vera-Rodriguez(参考訳) 心電図 (ECGs) は, 偽造の困難さ, 生存度検出, ユビキティなど, 他の生体特性と比較して, 異なる被験者を識別し, 重要な優位性を示す特異なパターンを示す。 また、ディープラーニング技術の成功により、近年ECGバイオメトリック認識への関心が高まっている。 しかし,公的なデータや標準実験プロトコルが欠如していることから,新しいECG法の改良を評価することは容易ではない。 本研究では,ECGバイオメトリック認識における様々なシナリオの広範囲な分析と比較を行う。 検証と識別のタスクとシングルセッションとマルチセッションのシナリオの両方を調べます。 最後に、胸と手足の電極と現在のユーザフレンドリーなウェアラブルデバイスを用いた従来のシナリオを考慮し、単葉ECG実験も行います。 さらに、社内の大規模データベースでトレーニングされた堅牢なディープラーニング技術であるECGXtractorを、さまざまなシナリオや複数のデータベースでうまく動作させることができる。 提案する特徴抽出器は,55,967名からなる複数の正弦波拍動を訓練し,詳細な実験プロトコルを用いて一般のベンチマーク評価を行う。 4つの異なるデータベースでシステム性能を評価する。 i) 社内データベース。 ii) PTB 三 ECG-ID及び iv)CYBHi。 広く使われているptbデータベースでは、検証で0.14%と2.06%、識別で100%と96.46%の誤り率を達成している。 この分野を進めるために、ソースコード、実験プロトコルの詳細、および事前トレーニングされたモデルをgithubにリリースします。

Electrocardiograms (ECGs) have shown unique patterns to distinguish between different subjects and present important advantages compared to other biometric traits, such as difficulty to counterfeit, liveness detection, and ubiquity. Also, with the success of Deep Learning technologies, ECG biometric recognition has received increasing interest in recent years. However, it is not easy to evaluate the improvements of novel ECG proposed methods, mainly due to the lack of public data and standard experimental protocols. In this study, we perform extensive analysis and comparison of different scenarios in ECG biometric recognition. Both verification and identification tasks are investigated, as well as single- and multi-session scenarios. Finally, we also perform single- and multi-lead ECG experiments, considering traditional scenarios using electrodes in the chest and limbs and current user-friendly wearable devices. In addition, we present ECGXtractor, a robust Deep Learning technology trained with an in-house large-scale database and able to operate successfully across various scenarios and multiple databases. We introduce our proposed feature extractor, trained with multiple sinus-rhythm heartbeats belonging to 55,967 subjects, and provide a general public benchmark evaluation with detailed experimental protocol. We evaluate the system performance over four different databases: i) our in-house database, ii) PTB, iii) ECG-ID, and iv) CYBHi. With the widely used PTB database, we achieve Equal Error Rates of 0.14% and 2.06% in verification, and accuracies of 100% and 96.46% in identification, respectively in single- and multi-session analysis. We release the source code, experimental protocol details, and pre-trained models in GitHub to advance in the field.
翻訳日:2022-04-11 12:17:25 公開日:2022-04-08
# フェデレート学習におけるモデルパーソナライズのためのcd$^2$-pfed: cyclic distillation-guided channel decoupling

CD$^2$-pFed: Cyclic Distillation-guided Channel Decoupling for Model Personalization in Federated Learning ( http://arxiv.org/abs/2204.03880v1 )

ライセンス: Link先を確認
Yiqing Shen, Yuyin Zhou, Lequan Yu(参考訳) フェデレートラーニング(Federated Learning, FL)は、複数のクライアントが共同でグローバルモデルを共有することのできる分散ラーニングパラダイムである。 最近の進歩にもかかわらず、異種データクライアントを扱うことは依然として困難であり、異種データ分散は、通常、グローバルモデルが各クライアントに優れた一般化能力を提供するのを妨げている。 本稿では,CD^2-pFedを提案する。このCD^2-pFedは,FLにおけるグローバルモデルのパーソナライズを,データヘテロジニティ(異種性)のさまざまな設定の下で行う。 異なるクライアントにまたがる非IIDデータを克服するために階層的パーソナライズを確立する従来の作業とは異なり、チャネルデカップリングと呼ばれるモデルパーソナライズのためのチャネル的パーソナライズの最初の試みを行う。 プライベートウェイトと共有ウェイトの協調をさらに促進するため, フェデレーション期間中に局所モデル表現とグローバルモデル表現の一貫した規則化を課す新しい循環蒸留スキームを提案する。 循環蒸留によって導かれる, チャネル分離フレームワークは, 特徴スキュー, ラベル分布スキュー, 概念シフトなど, 異なる種類の異種性に対して, より正確かつ汎用的な結果を提供できる。 自然画像および医用画像解析タスクを含む4つのベンチマークの総合的な実験により,本手法の局所的および外部的検証における一貫した有効性を示した。

Federated learning (FL) is a distributed learning paradigm that enables multiple clients to collaboratively learn a shared global model. Despite the recent progress, it remains challenging to deal with heterogeneous data clients, as the discrepant data distributions usually prevent the global model from delivering good generalization ability on each participating client. In this paper, we propose CD^2-pFed, a novel Cyclic Distillation-guided Channel Decoupling framework, to personalize the global model in FL, under various settings of data heterogeneity. Different from previous works which establish layer-wise personalization to overcome the non-IID data across different clients, we make the first attempt at channel-wise assignment for model personalization, referred to as channel decoupling. To further facilitate the collaboration between private and shared weights, we propose a novel cyclic distillation scheme to impose a consistent regularization between the local and global model representations during the federation. Guided by the cyclical distillation, our channel decoupling framework can deliver more accurate and generalized results for different kinds of heterogeneity, such as feature skew, label distribution skew, and concept shift. Comprehensive experiments on four benchmarks, including natural image and medical image analysis tasks, demonstrate the consistent effectiveness of our method on both local and external validations.
翻訳日:2022-04-11 12:14:31 公開日:2022-04-08
# imagenetのダウンストリームタスクへのロバスト性は?

Does Robustness on ImageNet Transfer to Downstream Tasks? ( http://arxiv.org/abs/2204.03934v1 )

ライセンス: Link先を確認
Yutaro Yamada, Mayu Otani(参考訳) ImageNetの精度が天井に近づくにつれ、研究コミュニティは、分散シフトの下で堅牢な精度をますます懸念している。 ニューラルネットワークを堅牢化するための様々な手法が提案されているが、これらの手法はしばしばImageNet分類に基づいてトレーニングされたモデルをターゲットにしている。 同時に、オブジェクト検出、セマンティックセグメンテーション、異なるドメインからのイメージ分類といった下流タスクにImageNet事前訓練されたバックボーンを使用するのが一般的である。 これらのロバストなイメージ分類器は、下流のタスクにロバストを転送できるか? オブジェクトの検出とセマンティックセマンティックセグメンテーションでは、高密度な予測タスクに適したVision Transformerの変種であるバニラSwin Transformerが、ImageNetの破損したバージョンに対して堅牢であるようにトレーニングされた畳み込みニューラルネットワークよりも堅牢性を伝達することがわかった。 CIFAR10分類では、ImageNetで頑健なモデルでは、完全に微調整された場合、頑健さを保たない。 これらの結果は,現在のロバスト化手法がイメージネット評価を強調する傾向があることを示唆する。 さらに、ネットワークアーキテクチャは、転送学習を考えるときの堅牢性の強い源である。

As clean ImageNet accuracy nears its ceiling, the research community is increasingly more concerned about robust accuracy under distributional shifts. While a variety of methods have been proposed to robustify neural networks, these techniques often target models trained on ImageNet classification. At the same time, it is a common practice to use ImageNet pretrained backbones for downstream tasks such as object detection, semantic segmentation, and image classification from different domains. This raises a question: Can these robust image classifiers transfer robustness to downstream tasks? For object detection and semantic segmentation, we find that a vanilla Swin Transformer, a variant of Vision Transformer tailored for dense prediction tasks, transfers robustness better than Convolutional Neural Networks that are trained to be robust to the corrupted version of ImageNet. For CIFAR10 classification, we find that models that are robustified for ImageNet do not retain robustness when fully fine-tuned. These findings suggest that current robustification techniques tend to emphasize ImageNet evaluations. Moreover, network architecture is a strong source of robustness when we consider transfer learning.
翻訳日:2022-04-11 12:14:02 公開日:2022-04-08
# 生体計測ハンドジオメトリ認識のためのニューラルネットワーク委員会に関する研究

Study of a committee of neural networks for biometric hand-geometry recognition ( http://arxiv.org/abs/2204.03935v1 )

ライセンス: Link先を確認
Marcos Faundez-Zanuy(参考訳) 本稿では,生体パターン認識のためのニューラルネットワーク委員会について検討する。 ニューラルネットを識別と検証のために分類器として使用する。 ネットワーク委員会では,最高のパフォーマンスを提供するニューラルネットを拾い上げるマルチスタート初期化アルゴリズムと比較して,認識率を向上させることができることを示す。 一方,identifi-cationと同一の分類器を用いた検証アプリケーションとの間には,強い相関関係が認められなかった。

This Paper studies different committees of neural networks for biometric pattern recognition. We use the neural nets as classifiers for identification and verification purposes. We show that a committee of nets can improve the recognition rates when compared with a multi-start initialization algo-rithm that just picks up the neural net which offers the best performance. On the other hand, we found that there is no strong correlation between identifi-cation and verification applications using the same classifier.
翻訳日:2022-04-11 12:13:42 公開日:2022-04-08
# (参考訳) Habitat-Web: スケールでの人間デモから身体的オブジェクト検索戦略を学ぶ

Habitat-Web: Learning Embodied Object-Search Strategies from Human Demonstrations at Scale ( http://arxiv.org/abs/2204.03514v2 )

ライセンス: CC BY 4.0
Ram Ramrakhya and Eric Undersander and Dhruv Batra and Abhishek Das(参考訳) 本研究では, 仮想ロボットが新しい環境の物体を探索するために必要なタスクにおいて, 人間の実演を模倣する大規模な研究について述べる。(1) オブジェクトゴールナビゲーション(例えば, 椅子へ行きなさい)と(2) ピック&プレイス(例えば, フィンドマグ、ピックマグ、カウンタ、ポットマグ、カウンターをカウンターに置きます)。 First, we develop a virtual teleoperation data-collection infrastructure -- connecting Habitat simulator running in a web browser to Amazon Mechanical Turk, allowing remote users to teleoperate virtual robots, safely and at scale. We collect 80k demonstrations for ObjectNav and 12k demonstrations for Pick&Place, which is an order of magnitude larger than existing human demonstration datasets in simulation or on real robots. Second, we attempt to answer the question -- how does large-scale imitation learning (IL) (which hasn't been hitherto possible) compare to reinforcement learning (RL) (which is the status quo)? ObjectNavでは,70k人の実演を用いたIL(ベルや笛のない)が240kのエージェント収集軌道でRLを上回っていることがわかった。 ILで訓練されたエージェントは、効率的な物体探索の振る舞いを示します -- 部屋を覗き込み、小さな物体の隅を覗き込み、パノラマ的な視界を得るために回転します -- これらはいずれもRLエージェントによって顕著に示されません。 最後に、正確性とトレーニングデータサイズプロットは有望なスケーリング動作を示し、より多くのデモンストレーションを収集するだけで、さらなる最先端技術がもたらされる可能性が示唆されている。 ピック&プレースでは、ilエージェントが9.5kの人間のデモンストレーションで訓練された場合、新しいオブジェクトレセプタクルロケーションでエピソードで${\sim}$18%の成功を収める一方、rlエージェントは0%を超えない。 全体として、我々の研究は大規模な模倣学習に投資するための説得力のある証拠を提供する。 プロジェクトページ: https://ram81.github.io/projects/habitat-web

We present a large-scale study of imitating human demonstrations on tasks that require a virtual robot to search for objects in new environments -- (1) ObjectGoal Navigation (e.g. 'find & go to a chair') and (2) Pick&Place (e.g. 'find mug, pick mug, find counter, place mug on counter'). First, we develop a virtual teleoperation data-collection infrastructure -- connecting Habitat simulator running in a web browser to Amazon Mechanical Turk, allowing remote users to teleoperate virtual robots, safely and at scale. We collect 80k demonstrations for ObjectNav and 12k demonstrations for Pick&Place, which is an order of magnitude larger than existing human demonstration datasets in simulation or on real robots. Second, we attempt to answer the question -- how does large-scale imitation learning (IL) (which hasn't been hitherto possible) compare to reinforcement learning (RL) (which is the status quo)? On ObjectNav, we find that IL (with no bells or whistles) using 70k human demonstrations outperforms RL using 240k agent-gathered trajectories. The IL-trained agent demonstrates efficient object-search behavior -- it peeks into rooms, checks corners for small objects, turns in place to get a panoramic view -- none of these are exhibited as prominently by the RL agent, and to induce these behaviors via RL would require tedious reward engineering. Finally, accuracy vs. training data size plots show promising scaling behavior, suggesting that simply collecting more demonstrations is likely to advance the state of art further. On Pick&Place, the comparison is starker -- IL agents achieve ${\sim}$18% success on episodes with new object-receptacle locations when trained with 9.5k human demonstrations, while RL agents fail to get beyond 0%. Overall, our work provides compelling evidence for investing in large-scale imitation learning. Project page: https://ram81.github.io/projects/habitat-web.
翻訳日:2022-04-11 12:12:20 公開日:2022-04-08
# マルチモーダルコントラスト学習とソフトデータ拡張による意味的コード検索の強化

Enhancing Semantic Code Search with Multimodal Contrastive Learning and Soft Data Augmentation ( http://arxiv.org/abs/2204.03293v2 )

ライセンス: Link先を確認
Ensheng Shi, Wenchao Gub, Yanlin Wang, Lun Du, Hongyu Zhang, Shi Han, Dongmei Zhang, Hongbin Sun(参考訳) コード検索は、ある自然言語クエリに対して最も意味のあるコードスニペットを取得することを目的としている。 近年,CodeBERTやGraphCodeBERTといった大規模コード事前学習モデルでは,ソースコードの汎用表現を学習し,コード検索タスクを大幅に改善している。 しかし、コードスニペットの高品質なシーケンスレベル表現は十分に検討されていない。 本稿では,コード探索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しいアプローチを提案する。 マルチモーダルコントラスト学習は、コードクエリペアの表現をまとめて、未実装のコードスニペットとクエリを分離するために使用される。 さらに、データ拡張は、ハイクオリティな表現を学ぶためのコントラスト学習において重要である。 しかし、既存の作業ではソースコードの意味保存拡張のみが検討されている。 本研究では,コードシーケンス内のトークンを動的にマスキングし,置き換えることで,ペアクエリの正のサンプルとして必ずしも意味保存されないコードスニペットを生成することを提案する。 6つのプログラミング言語を用いた大規模データセットにおいて,提案手法の有効性を評価するための広範な実験を行った。 実験の結果,本手法は最先端手法よりも優れていた。 また,RoBERTaやCodeBERTなどの事前学習モデルにも適用し,コード検索タスクの性能を大幅に向上させる。

Code search aims to retrieve the most semantically relevant code snippet for a given natural language query. Recently, large-scale code pre-trained models such as CodeBERT and GraphCodeBERT learn generic representations of source code and have achieved substantial improvement on code search task. However, the high-quality sequence-level representations of code snippets have not been sufficiently explored. In this paper, we propose a new approach with multimodal contrastive learning and soft data augmentation for code search. Multimodal contrastive learning is used to pull together the representations of code-query pairs and push apart the unpaired code snippets and queries. Moreover, data augmentation is critical in contrastive learning for learning high-quality representations. However, only semantic-preserving augmentations for source code are considered in existing work. In this work, we propose to do soft data augmentation by dynamically masking and replacing some tokens in code sequences to generate code snippets that are similar but not necessarily semantic-preserving as positive samples for paired queries. We conduct extensive experiments to evaluate the effectiveness of our approach on a large-scale dataset with six programming languages. The experimental results show that our approach significantly outperforms the state-of-the-art methods. We also adapt our techniques to several pre-trained models such as RoBERTa and CodeBERT, and significantly boost their performance on the code search task.
翻訳日:2022-04-11 11:42:15 公開日:2022-04-08
# VNIbCReg: VICRegによる非定常地震信号時系列の評価

VNIbCReg: VICReg with Neighboring-Invariance and better-Covariance Evaluated on Non-stationary Seismic Signal Time Series ( http://arxiv.org/abs/2204.02697v3 )

ライセンス: Link先を確認
Daesoo Lee, Erlend Aune, Nad\`ege Langet, and Jo Eidsvik(参考訳) 最新の自己教師付き学習(SSL)手法であるVICRegは線形評価と微調整評価の両方において優れた性能を示した。 しかし、VICRegはコンピュータビジョンにおいて提案され、分散と共分散損失による表現空間を維持しながら、画像のランダムな作物の表現を引いて学習する。 しかし、VICRegは、入力の異なる部分/クロップが非定常性を考えるために異なるエンコードされるような非定常時系列では効果がない。 もうひとつの最近のSSL提案であるTNC(Temporal Neighborhood Coding)は、非定常時系列の符号化に有効である。 本研究では,非定常地震信号時系列を評価データセットとして使用する非定常時系列上で,VICReg方式とTNCの組み合わせがSSLに非常に有効であることを示す。

One of the latest self-supervised learning (SSL) methods, VICReg, showed a great performance both in the linear evaluation and the fine-tuning evaluation. However, VICReg is proposed in computer vision and it learns by pulling representations of random crops of an image while maintaining the representation space by the variance and covariance loss. However, VICReg would be ineffective on non-stationary time series where different parts/crops of input should be differently encoded to consider the non-stationarity. Another recent SSL proposal, Temporal Neighborhood Coding (TNC) is effective for encoding non-stationary time series. This study shows that a combination of a VICReg-style method and TNC is very effective for SSL on non-stationary time series, where a non-stationary seismic signal time series is used as an evaluation dataset.
翻訳日:2022-04-11 11:41:54 公開日:2022-04-08
# シーングラフ生成のためのきめ細かい述語学習

Fine-Grained Predicates Learning for Scene Graph Generation ( http://arxiv.org/abs/2204.02597v2 )

ライセンス: Link先を確認
Xinyu Lyu and Lianli Gao and Yuyu Guo and Zhou Zhao and Hao Huang and Heng Tao Shen and Jingkuan Song(参考訳) 現在のScene Graph Generationモデルのパフォーマンスは、"woman-on/standing on-beach"や"woman-near/ look at-child"といった、区別が難しい述語によって著しく妨げられている。 一般的なSGGモデルは、頭部の述語を予測する傾向があり、既存の再バランス戦略は尾の分類を好むが、これら区別が難しい述語を適切に扱うことはできない。 そこで本研究では,難解なオブジェクトクラス間の識別に焦点を当てたきめ細かい画像分類から着想を得たFGPL(Fined Predicates Learning)という手法を提案する。 具体的には,SGGモデルによる詳細な述語対の探索を支援するPredicate Latticeを導入する。 そして、述語格子を用いて、認識可能なものよりも学習された識別力を維持しながら、粒度の細かい述語を識別するのに寄与するカテゴリー識別損失とエンティティ識別損失を提案する。 提案するモデル非依存戦略により、3つのベンチマークモデル(transformer, vctree, モチーフ)の性能は、それぞれ、述語分類サブタスクで22.8\%、24.1\%、平均リコール(mr@100)の21.7\%向上する。 当社のモデルは,Visual Genomeデータセット上での最先端メソッド(すなわち,6.1\%,4.6\%,および3.2\%のMean Recall(mR@100))よりも優れています。

The performance of current Scene Graph Generation models is severely hampered by some hard-to-distinguish predicates, e.g., "woman-on/standing on/walking on-beach" or "woman-near/looking at/in front of-child". While general SGG models are prone to predict head predicates and existing re-balancing strategies prefer tail categories, none of them can appropriately handle these hard-to-distinguish predicates. To tackle this issue, inspired by fine-grained image classification, which focuses on differentiating among hard-to-distinguish object classes, we propose a method named Fine-Grained Predicates Learning (FGPL) which aims at differentiating among hard-to-distinguish predicates for Scene Graph Generation task. Specifically, we first introduce a Predicate Lattice that helps SGG models to figure out fine-grained predicate pairs. Then, utilizing the Predicate Lattice, we propose a Category Discriminating Loss and an Entity Discriminating Loss, which both contribute to distinguishing fine-grained predicates while maintaining learned discriminatory power over recognizable ones. The proposed model-agnostic strategy significantly boosts the performances of three benchmark models (Transformer, VCTree, and Motif) by 22.8\%, 24.1\% and 21.7\% of Mean Recall (mR@100) on the Predicate Classification sub-task, respectively. Our model also outperforms state-of-the-art methods by a large margin (i.e., 6.1\%, 4.6\%, and 3.2\% of Mean Recall (mR@100)) on the Visual Genome dataset.
翻訳日:2022-04-11 11:41:39 公開日:2022-04-08
# 歩行認識のための文脈感応型時間特徴学習

Context-Sensitive Temporal Feature Learning for Gait Recognition ( http://arxiv.org/abs/2204.03270v2 )

ライセンス: Link先を確認
Xiaohu Huang, Duowang Zhu, Xinggang Wang, Hao Wang, Bo Yang, Botao He, Wenyu Liu, and Bin Feng(参考訳) 歩行認識は近年研究の注目を集めているが,空間領域ではシルエットの違いが非常に微妙であるため,識別的時間的表現を学習することは依然として困難である。 異なる時間スケールの時間的クリップに適応的に焦点を合わせることで、人間が異なる被験者の歩行を区別できるという観察に着想を得て、歩行認識のための文脈依存型時間的特徴学習(CSTL)ネットワークを提案する。 CSTLは3つの尺度で時間的特徴を生成し、局所的およびグローバル的視点からコンテキスト情報に基づいて適応的にそれらを集約する。 具体的には、CSTLは適応時間アグリゲーションモジュールを含み、その後、局所関係モデリングとグローバル関係モデリングを行い、マルチスケールの特徴を融合させる。 また,時間的操作による空間的特徴の破損を解消するため,CSTLは空間的特徴を識別するグループを選択するために,空間的特徴学習(SSFL)モジュールを組み込んでいる。 特に,グローバルリレーションモデリングとssflモジュールの実装にトランスフォーマーを利用する。 私たちの知る限りでは、これは歩行認識にtransformerを採用する最初の仕事です。 3つのデータセットで広範な実験が行われ、最先端のパフォーマンスが実証された。 具体的には,CASIA-Bでは98.7%,96.2%,88.7%,OU-MVLPでは97.5%,GREWでは50.6%である。

Although gait recognition has drawn increasing research attention recently, it remains challenging to learn discriminative temporal representation, since the silhouette differences are quite subtle in spatial domain. Inspired by the observation that human can distinguish gaits of different subjects by adaptively focusing on temporal clips with different time scales, we propose a context-sensitive temporal feature learning (CSTL) network for gait recognition. CSTL produces temporal features in three scales, and adaptively aggregates them according to the contextual information from local and global perspectives. Specifically, CSTL contains an adaptive temporal aggregation module that subsequently performs local relation modeling and global relation modeling to fuse the multi-scale features. Besides, in order to remedy the spatial feature corruption caused by temporal operations, CSTL incorporates a salient spatial feature learning (SSFL) module to select groups of discriminative spatial features. Particularly, we utilize transformers to implement the global relation modeling and the SSFL module. To the best of our knowledge, this is the first work that adopts transformer in gait recognition. Extensive experiments conducted on three datasets demonstrate the state-of-the-art performance. Concretely, we achieve rank-1 accuracies of 98.7%, 96.2% and 88.7% under normal-walking, bag-carrying and coat-wearing conditions on CASIA-B, 97.5% on OU-MVLP and 50.6% on GREW.
翻訳日:2022-04-11 11:41:05 公開日:2022-04-08
# マルチラベル分類のための韓国のオンラインヘイトスピーチデータセット : 社会科学がヘイトスピーチのデータセットをどのように改善するか

Korean Online Hate Speech Dataset for Multilabel Classification: How Can Social Science Improve Dataset on Hate Speech? ( http://arxiv.org/abs/2204.03262v2 )

ライセンス: Link先を確認
TaeYoung Kang, Eunrang Kwon, Junbum Lee, Youngeun Nam, Junmo Song, JeongKyu Suh(参考訳) 本研究では,(1)人種と国籍,(2)宗教,(3)地域主義,(4)年齢,(5)ミソジニー,(6)性マイノリティ,(7)男性という7つのカテゴリーを網羅した韓国のネットヘイトスピーチデータセットを提案する。 私たちの35Kデータセットは、Krippendorff氏のAlphaラベルによる24Kのオンラインコメントから成り、ウィキペディアの2.2Kの中立文、Human-in-the-Loopの手順によって生成された1.7Kのラベル付き文、ルール生成の7.1Kの中立文で構成されています。 24Kの初期データセットを持つベースモデルはLRAP .892の精度を達成したが、1Kの追加データと組み合わせて.919に改善された。 従来の二分二分法や二分法と異なり、西洋文化に基づく英語テキストの制限を克服するために、文化的・言語的文脈を考慮したデータセットを設計した。 そこで,本稿は,局所ヘイトスピーチデータセットの提示に限らず,社会科学的な視点に基づく多様な文化的背景を持つ,より汎用的なヘイトスピーチデータセット構築マニュアルとして拡張されている。

We suggest a multilabel Korean online hate speech dataset that covers seven categories of hate speech: (1) Race and Nationality, (2) Religion, (3) Regionalism, (4) Ageism, (5) Misogyny, (6) Sexual Minorities, and (7) Male. Our 35K dataset consists of 24K online comments with Krippendorff's Alpha label accordance of .713, 2.2K neutral sentences from Wikipedia, 1.7K additionally labeled sentences generated by the Human-in-the-Loop procedure and rule-generated 7.1K neutral sentences. The base model with 24K initial dataset achieved the accuracy of LRAP .892, but improved to .919 after being combined with 11K additional data. Unlike the conventional binary hate and non-hate dichotomy approach, we designed a dataset considering both the cultural and linguistic context to overcome the limitations of western culture-based English texts. Thus, this paper is not only limited to presenting a local hate speech dataset but extends as a manual for building a more generalized hate speech dataset with diverse cultural backgrounds based on social science perspectives.
翻訳日:2022-04-11 11:40:41 公開日:2022-04-08
# Interval Bound Propagation$\unicode{x2013}$aided Few$\unicode{x002d}$shot Learning

Interval Bound Propagation$\unicode{x2013}$aided Few$\unicode{x002d}$shot Learning ( http://arxiv.org/abs/2204.03511v2 )

ライセンス: Link先を確認
Shounak Datta, Sankha Subhra Mullick, Swagatam Das(参考訳) 少数ショット学習は、与えられたタスク分散から、ラベル付きデータの限られた量で、さまざまなタスクのトレーニングから得られた知識を、同じ分散から未認識のタスクに一般化することを目的としている。 効果的な少数ショット一般化の基本的な要件は、タスク多様体のよい表現を学ぶことである。 これを奨励する1つの方法は、数発の学習者が学習した特徴空間内の地域を保存することである。 そこで本研究では,頑健な学習文献から少人数学習への区間境界の概念を導入する。 インターバルバウンダリは、トレーニングタスクの周辺を特徴付けるために使用される。 これらの近傍はタスクとそれぞれの境界の間の距離を最小化することで保存することができる。 さらに,利用可能なタスクとそれぞれのインターバル境界を補間して,新たなタスクを人工的に形成し,タスクが不足している場合に支援する新たな戦略を提案する。 このフレームワークをモデルに依存しないメタラーニングとプロトタイプベースのメトリックラーニングの両方に適用する。 提案手法の有効性は,近年の競争相手数に比べて,様々な分野のデータセットのパフォーマンスが向上していることから明らかである。

Few-shot learning aims to transfer the knowledge acquired from training on a diverse set of tasks, from a given task distribution, to generalize to unseen tasks, from the same distribution, with a limited amount of labeled data. The underlying requirement for effective few-shot generalization is to learn a good representation of the task manifold. One way to encourage this is to preserve local neighborhoods in the feature space learned by the few-shot learner. To this end, we introduce the notion of interval bounds from the provably robust training literature to few-shot learning. The interval bounds are used to characterize neighborhoods around the training tasks. These neighborhoods can then be preserved by minimizing the distance between a task and its respective bounds. We further introduce a novel strategy to artificially form new tasks for training by interpolating between the available tasks and their respective interval bounds, to aid in cases with a scarcity of tasks. We apply our framework to both model-agnostic meta-learning as well as prototype-based metric-learning paradigms. The efficacy of our proposed approach is evident from the improved performance on several datasets from diverse domains in comparison to a sizable number of recent competitors.
翻訳日:2022-04-11 11:40:14 公開日:2022-04-08
# MDA GAN: 逆学習に基づく3次元地震データ補間と複雑な欠損の復元

MDA GAN: Adversarial-Learning-based 3-D Seismic Data Interpolation and Reconstruction for Complex Missing ( http://arxiv.org/abs/2204.03197v2 )

ライセンス: Link先を確認
Yimin Dou, Kewen Li, Hongjie Duan, Timing Li, Lin Dong, Zongchao Huang(参考訳) 欠失跡の補間と復元は, 地震データ処理において重要なステップであり, さらに, 高率ランダム離散欠失, 連続欠失, 断層富度, 塩分体調査における欠失などの複雑なケースにおいても, 非常に不適切な問題である。 これらの複雑なケースは、現在のスパースや低ランクの事前ベース、ディープラーニングベースのアプローチではほとんど言及されない。 複雑なケースに対処するために,新しい3次元GANフレームワークであるMDA GAN(MDA GAN)を提案する。 各次元における元のデータ分布と再構成されたデータの一貫性を確保するために、3つの識別器を用いる。 特徴スプライシングモジュール(FSM)は、このフレームワークのジェネレータに設計され、組み込まれ、非許容部の機能を再構成部(欠部)のものと自動的にスプライシングし、非許容部の情報を完全保存する。 対向学習による地震データにおける画素歪みを防止するため, よりスムーズな勾配を与えるため, 新たな再構成損失Tanh Cross Entropy(TCE)損失を提案する。 本研究の個々の構成要素の有効性を実験的に検証し,複数の公開データ上で検証した。 この手法は、最大95%のランダムな離散欠失、100の連続欠失、さらに複雑なハイブリッド欠失に対する合理的な再構成を実現する。 断層に富んだ岩体や塩分を含む調査では、各3方向(合計98.2%)に75%の欠落がある有望な復元が可能となる。

The interpolation and reconstruction of missing traces is a crucial step in seismic data processing, moreover it is also a highly ill-posed problem, especially for complex cases such as high-ratio random discrete missing, continuous missing and missing in fault-rich or salt body surveys. These complex cases are rarely mentioned in current sparse or low-rank priorbased and deep learning-based approaches. To cope with complex missing cases, we propose Multi-Dimensional Adversarial GAN (MDA GAN), a novel 3-D GAN framework. It employs three discriminators to ensure the consistency of the reconstructed data with the original data distribution in each dimension. The feature splicing module (FSM) is designed and embedded into the generator of this framework, which automatically splices the features of the unmissing part with those of the reconstructed part (missing part), thus fully preserving the information of the unmissing part. To prevent pixel distortion in the seismic data caused by the adversarial learning process, we propose a new reconstruction loss Tanh Cross Entropy (TCE) loss to provide smoother gradients. We experimentally verified the effectiveness of the individual components of the study and then tested the method on multiple publicly available data. The method achieves reasonable reconstructions for up to 95% of random discrete missing, 100 traces of continuous missing and more complex hybrid missing. In surveys of fault-rich and salt bodies, the method can achieve promising reconstructions with up to 75% missing in each of the three directions (98.2% in total).
翻訳日:2022-04-11 11:39:55 公開日:2022-04-08