このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210721となっている論文です。

PDF登録状況(公開日: 20210721)

TitleAuthorsAbstract論文公表日・翻訳日
# 量子化学のための量子コンピュータ上の資源最適化フェルミオン局所ハミルトニアンシミュレーション

Resource-Optimized Fermionic Local-Hamiltonian Simulation on Quantum Computer for Quantum Chemistry ( http://arxiv.org/abs/2004.04151v3 )

ライセンス: Link先を確認
Qingfeng Wang, Ming Li, Christopher Monroe, Yunseong Nam(参考訳) 量子コンピュータ上でフェルミイオン系をシミュレートする能力は、化学工学、材料設計、核物理学に革命をもたらすと期待されている。 したがって、シミュレーション回路の最適化は量子コンピュータのパワーを活用する上で重要である。 ここでは,この問題を2つの側面から解決する。 フォールトトレラントなシステムでは、実装に製品形式アルゴリズムを用いることを前提として、$\rzgate$と$\tgate$のゲートカウントと、必要なアンシラキュービットカウントを最適化します。 ゲート数に2つの貯蓄率と、アートの状態に対して必要となるアンシラキュービット数に11の貯蓄率を求める。 プレフォールト・トレラント・レジームでは、変分量子固有解法(vqe)を用いて2量子ビットのゲート数を最適化する。 後者に特化して、フェルミオン系の基底状態エネルギーの収束に向けたVQE進行のブートストラップを可能にする枠組みを提案する。 摂動理論に基づくこの枠組みは、水分子の古典的に到達可能な試験層における標準的なVQEアプローチと比較して、既知の基底状態エネルギーの約3倍近くで、VQE進行の各サイクルにおけるエネルギー推定を改善することができる。 改良されたエネルギー推定は、既知の基底状態エネルギーからの既定許容範囲内にある必要がある量子ビット数や量子ゲート数などの量子資源の持続的な貯蓄レベルをもたらす。 また、量子ビット演算子へのフェルミオンの一般化された変換のスイートを探索し、20 %以上のリソース要求の節約が小さなインスタンスで可能であることを示す。

The ability to simulate a fermionic system on a quantum computer is expected to revolutionize chemical engineering, materials design, nuclear physics, to name a few. Thus, optimizing the simulation circuits is of significance in harnessing the power of quantum computers. Here, we address this problem in two aspects. In the fault-tolerant regime, we optimize the $\rzgate$ and $\tgate$ gate counts along with the ancilla qubit counts required, assuming the use of a product-formula algorithm for implementation. We obtain a savings ratio of two in the gate counts and a savings ratio of eleven in the number of ancilla qubits required over the state of the art. In the pre-fault tolerant regime, we optimize the two-qubit gate counts, assuming the use of the variational quantum eigensolver (VQE) approach. Specific to the latter, we present a framework that enables bootstrapping the VQE progression towards the convergence of the ground-state energy of the fermionic system. This framework, based on perturbation theory, is capable of improving the energy estimate at each cycle of the VQE progression, by about a factor of three closer to the known ground-state energy compared to the standard VQE approach in the test-bed, classically-accessible system of the water molecule. The improved energy estimate in turn results in a commensurate level of savings of quantum resources, such as the number of qubits and quantum gates, required to be within a pre-specified tolerance from the known ground-state energy. We also explore a suite of generalized transformations of fermion to qubit operators and show that resource-requirement savings of up to more than $20\%$, in small instances, is possible.
翻訳日:2023-05-25 11:32:24 公開日:2021-07-21
# 分子ナノマグネットの時間遷移における量子コヒーレントスピン電界制御

Quantum coherent spin-electric control in a molecular nanomagnet at clock transitions ( http://arxiv.org/abs/2005.01029v2 )

ライセンス: Link先を確認
Junjie Liu, Jakub Mrozek, Aman Ullah, Yan Duan, Jos\'e J. Baldov\'i, Eugenio Coronado, Alejandro Gaita-Ari\~no, Arzhang Ardavan(参考訳) ナノスケールでのスピンの電気的制御は、磁場よりも短いスケールで電場を制限することができるため、スピントロニクスにおいて重要なアーキテクチャ上の利点をもたらす。 このように、近年の分子スピン材料における電界(E-場)感度の実証は、マクロ磁気デバイスにおける量子アナログの生存可能性を高めつつあるが、これまで報告されたE-場感度はかなり弱いため、より強いスピン-電界カップリングを持つ分子の設計法が疑問視されている。 ここで、1つの経路は、大きな電気的ポーラリサビリティを持つ構造的自由度に関連付けられたスピンスペクトルのエネルギースケールを特定することである。 スピンスペクトルにおいて、小さな構造的歪みがクロック遷移(すなわち、磁場とは無関係にエネルギーが1次となる遷移)を成立させる分子ナノマグネットの例として、この歪みが電気双極子と関係しているという事実は、クロック遷移エネルギーを前例のない程度に制御できる。 量子スピン状態のコヒーレントな電気的制御を実証し、結晶の単位セル内の2つの磁気同一性を持つ反転関連分子を独立に操作する。 我々の発見は、量子技術やスピントロニクスにおける分子スピンの利用の道を開いた。

Electrical control of spins at the nanoscale offers significant architectural advantages in spintronics, because electric fields can be confined over shorter length scales than magnetic fields. Thus, recent demonstrations of electric-field (E-field) sensitivities in molecular spin materials are tantalising, raising the viability of the quantum analogues of macroscopic magneto-electric devices.However, the E-field sensitivities reported so far are rather weak, prompting the question of how to design molecules with stronger spin-electric couplings. Here we show that one path is to identify an energy scale in the spin spectrum that is associated with a structural degree of freedom with a significant electrical polarisability. We study an example of a molecular nanomagnet in which a small structural distortion establishes clock transitions (i.e. transitions whose energy is to first order independent of magnetic field) in the spin spectrum; the fact that this distortion is associated with an electric dipole allows us to control the clock transition energy to an unprecedented degree. We demonstrate coherent electrical control of the quantum spin state and exploit it to manipulate independently the two magnetically-identical but inversion-related molecules in the unit cell of the crystal. Our findings pave the way for the use of molecular spins in quantum technologies and spintronics.
翻訳日:2023-05-21 07:24:40 公開日:2021-07-21
# 量子絡み合いによるターゲット検出

Detecting a target with quantum entanglement ( http://arxiv.org/abs/2005.07116v5 )

ライセンス: Link先を確認
Giacomo Sorelli, Nicolas Treps, Frederic Grosshans, and Fabrice Boust(参考訳) 過去10年間、多くの研究活動は、リモートターゲット検出のためのリソースとして量子絡み合い(quantum entanglement)の使用、すなわち量子レーダの設計に焦点を当てた。 この問題に関する文献では、量子光学と量子情報理論のツールが使われており、しばしばレーダー技術者に不明瞭な結果をもたらす。 このレビューは、この不明瞭さを取り除く目的で書かれており、量子レーダー文学における主要な進歩のレビューと、その理解に必要な量子光学的背景の徹底的な紹介が含まれている。

In the last decade a lot of research activity focused on the use of quantum entanglement as a resource for remote target detection, i.e. on the design of a quantum radar. The literature on this subject uses tools of quantum optics and quantum information theory, and therefore it often results obscure to radar engineers. This review has been written with the purpose of removing this obscurity.As such, it contains a review of the main advances in the quantum radar literature accompanied by a thorough introduction of the quantum optics background necessary for its understanding.
翻訳日:2023-05-20 05:21:32 公開日:2021-07-21
# 局所デコヒーレンスが量子臨界メトロロジーに及ぼす影響

Effects of local decoherence on quantum critical metrology ( http://arxiv.org/abs/2008.04879v3 )

ライセンス: Link先を確認
Chong Chen, Ping Wang, Ren-Bao Liu(参考訳) 量子臨界点におけるシステムのパラメータ変動に対する応答のばらつきは、システムサイズ(例えば粒子数)に対する感度のサブハイゼンベルクスケーリングを特徴とする量子距離論のスキームを動機付けている。 この感度増強は、量子臨界点におけるSchr\"odinger cat状態またはマクロな重ね合わせ状態の形成に根ざしている。 しかし、猫状態は個々の粒子の局所的なノイズや局所的な環境とのカップリングによって生じるデコヒーレンスに対して脆弱である。 したがって、量子臨界メトロロジーのサブハイゼンベルクスケーリングが局所的デコヒーレンスに対して堅牢であるかどうかは不明である。 本稿では,一次元逆場イジングモデルを用いて,局所デコヒーレンスが量子臨界距離論に与える影響について検討する。 従来の研究(Phys. Rev. 94, 047201 (2005))に基づき、量子臨界性の普遍性クラスがデコヒーレンスによって修正されることを示すノイズイジングモデルの臨界挙動を考察し、標準量子極限は、環境が行う局所量子測定と等価な単一粒子デコヒーレンスによって回復され、量子臨界点における基底状態における多体絡みを破壊されることを見出した。 renormalization group analysis [phys. rev. b 69, 054426 (2004)] に従い、量子臨界メトロロジーにおけるノイズ効果は普遍的であるべきであると論じた。 この研究は、臨界行動に基づく量子センシングにおいて、マクロ的な量子コヒーレンスを保護することの重要性を示す。

The diverging responses to parameter variations of systems at quantum critical points motivate schemes of quantum metrology that feature sub-Heisenberg scaling of the sensitivity with the system size (e.g., the number of particles). This sensitivity enhancement is fundamentally rooted in the formation of Schr\"odinger cat states, or macroscopic superposition states at the quantum critical points. The cat states, however, are fragile to decoherence caused by local noises on individual particles or coupling to local environments, since the local decoherence of any particle would cause the collapse of the whole cat state. Therefore, it is unclear whether the sub-Heisenberg scaling of quantum critical metrology is robust against the local decoherence. Here we study the effects of local decoherence on the quantum critical metrology, using a one-dimensional transverse-field Ising model as a representative example. Based on a previous work [Phys. Rev. Lett. 94, 047201 (2005)] on the critical behaviors of the noisy Ising model, which shows that the universality class of the quantum criticality is modified by the decoherence, we find that the standard quantum limit is recovered by the single-particle decoherence, which is equivalent to local quantum measurement conducted by the environment and destroys the many-body entanglement in the ground state at the quantum critical point. Following the renormalization group analysis [Phys. Rev. B 69, 054426 (2004)], we argue that the noise effects on quantum critical metrology should be universal. This works demonstrates the importance of protecting macroscopic quantum coherence for quantum sensing based on critical behaviors.
翻訳日:2023-05-06 13:49:52 公開日:2021-07-21
# 遅延時間帯の量子消去器は選択の余地がない

The Delayed-Choice Quantum Eraser Leaves No Choice ( http://arxiv.org/abs/2010.00049v3 )

ライセンス: Link先を確認
Tabish Qureshi(参考訳) 改良されたマッハ・ツェンダー干渉計(MZ)と偏光絡み合った光子を用いた量子消光器を理論的に解析した。 信号光子は修正されたmz干渉計を通過し、アイドラ光子の偏光は信号光子の経路情報を提供する。 この設定はウィーン群によって実験的に研究された遅延チョイス量子消去器と非常によく似ている。 離散出力状態を持つ量子消去器のクラスでは、遅延モードは実験者にとって選択の余地がないことが容易に分かる。 方向情報は常に消去され、検出された信号光子はアイドラの偏光状態を補正し、信号光子が2つの経路をまたいだ正確な情報を与える。 この分析によると、ウィーンの遅延選択量子消去器は、遅延モードが実験者にとって選択の余地がなく、一方の情報が常に消去されるという最初の実験的な実証である。 さらに、この議論は従来の2スリット量子消去器でも成り立つことが示されている。 スクリーン上のどこにでも登録された光子はすべて、2状態の両方向検出器の状態を、互いに偏りなく固定する。 遅延チョイス量子消去器実験では、相互に偏りのない検出器の基底集合の役割は、これまで見過ごされてきた。

A realizable delayed-choice quantum eraser, using a modified Mach-Zehnder (MZ) interferometer and polarization entangled photons, is theoretically analyzed here. The signal photon goes through a modified MZ interferometer, and the polarization of the idler photon provides path information for the signal photon. The setup is very similar to the delayed-choice quantum eraser experimentally studied by the Vienna group. In the class of quantum erasers with discrete output states, it is easy to see that the delayed mode leaves no choice for the experimenter. The which-way information is always erased, and every detected signal photon fixes the polarization state of the idler, and thus gives information on precisely how the signal photon traversed the two paths. The analysis shows that the Vienna delayed-choice quantum eraser is the first experimental demonstration of the fact that the delayed mode leaves no choice for the experimenter, and the which-way information is always erased. Additionally it is shown that this argument holds even in a conventional two-slit quantum eraser. Every photon registered anywhere on the screen, fixes the state of the two-state which-way detector in a unique mutually unbiased basis. In the delayed-choice quantum eraser experiments, the role of mutually unbiased basis sets for the which-way detector, has been overlooked till now.
翻訳日:2023-04-30 14:12:15 公開日:2021-07-21
# 変動量子生成逆ネットワークを用いた異常検出

Anomaly detection with variational quantum generative adversarial networks ( http://arxiv.org/abs/2010.10492v2 )

ライセンス: Link先を確認
Daniel Herr, Benjamin Obert, Matthias Rosenkranz(参考訳) generative adversarial network(gans)は、対象分布からサンプリングするための生成モデルと、対象分布へのサンプルの近接を評価する識別モデルとからなる機械学習フレームワークである。 GANは画像や異常検出において強い性能を示す。 しかし、それらはトレーニングの不安定性に苦しめられ、サンプリング効率は古典的なサンプリング手順によって制限される可能性がある。 我々は,これらの問題に対処するために変分量子古典的waserstein gansを導入し,このモデルを古典的機械学習フレームワークに組み込んで異常検出を行う。 古典的なワッサースタイン GANは勾配降下に適したコスト関数を用いることで訓練安定性を向上させる。 我々のモデルは、wasserstein gansのジェネレータをハイブリッド量子古典型ニューラルネットワークに置き換え、古典的判別モデルを変更しない。 このようにして、高次元の古典データは古典モデルにのみ入力され、量子回路で準備される必要はない。 本手法の有効性をクレジットカード詐欺データセットで実証する。 このデータセットでは、従来のメソッドと同等のパフォーマンスを$F_1$スコアで示します。 我々は,回路アンサッツ,層幅と深さ,ニューラルネットアーキテクチャパラメータの初期化戦略,サンプリングノイズが収束と性能に与える影響を分析する。

Generative adversarial networks (GANs) are a machine learning framework comprising a generative model for sampling from a target distribution and a discriminative model for evaluating the proximity of a sample to the target distribution. GANs exhibit strong performance in imaging or anomaly detection. However, they suffer from training instabilities, and sampling efficiency may be limited by the classical sampling procedure. We introduce variational quantum-classical Wasserstein GANs to address these issues and embed this model in a classical machine learning framework for anomaly detection. Classical Wasserstein GANs improve training stability by using a cost function better suited for gradient descent. Our model replaces the generator of Wasserstein GANs with a hybrid quantum-classical neural net and leaves the classical discriminative model unchanged. This way, high-dimensional classical data only enters the classical model and need not be prepared in a quantum circuit. We demonstrate the effectiveness of this method on a credit card fraud dataset. For this dataset our method shows performance on par with classical methods in terms of the $F_1$ score. We analyze the influence of the circuit ansatz, layer width and depth, neural net architecture parameter initialization strategy, and sampling noise on convergence and performance.
翻訳日:2023-04-28 05:33:27 公開日:2021-07-21
# 量子コンピュータ上でのスーパーストリング/m理論のシミュレーションに向けて

Toward simulating Superstring/M-theory on a quantum computer ( http://arxiv.org/abs/2011.06573v2 )

ライセンス: Link先を確認
Hrant Gharibyan, Masanori Hanada, Masazumi Honda, Junyu Liu(参考訳) 量子コンピュータ上で行列モデルをシミュレートするための新しい枠組みを提案する。 超対称行列モデルは、パラメータの適切な極限において、超弦/M理論および重力物理学に自然な応用を持つ。 さらに、Berenstein-Maldacena-Nastase(BMN)行列モデルのある状態の場合、超弦/M理論に双対する超対称量子場理論が量子デバイス上で実現される。 我々の処方は、ヒルベルト空間の正則化、断熱状態の準備、実時間ダイナミクスのシミュレーション、測定の4つのステップからなる。 BMN行列モデルに対して、Fock空間の切り欠きによるエネルギーカットオフを導入して正規化を行う。 wan-kimアルゴリズムを高速デジタル断熱準備に使用し, このモデルの低エネルギー固有状態と熱場二重状態を生成する。 そこで,ブロックエンコーディング,量子化,量子信号処理といった手法を用いたリアルタイムダイナミクスのシミュレーションを行う。 最後に、量子コンピュータ上で実施可能な一連の測定と実験を行い、解析結果以上のスーパーストリング/M理論の理解を深める。

We present a novel framework for simulating matrix models on a quantum computer. Supersymmetric matrix models have natural applications to superstring/M-theory and gravitational physics, in an appropriate limit of parameters. Furthermore, for certain states in the Berenstein-Maldacena-Nastase (BMN) matrix model, several supersymmetric quantum field theories dual to superstring/M-theory can be realized on a quantum device. Our prescription consists of four steps: regularization of the Hilbert space, adiabatic state preparation, simulation of real-time dynamics, and measurements. Regularization is performed for the BMN matrix model with the introduction of energy cut-off via the truncation in the Fock space. We use the Wan-Kim algorithm for fast digital adiabatic state preparation to prepare the low-energy eigenstates of this model as well as thermofield double state. Then, we provide an explicit construction for simulating real-time dynamics utilizing techniques of block-encoding, qubitization, and quantum signal processing. Lastly, we present a set of measurements and experiments that can be carried out on a quantum computer to further our understanding of superstring/M-theory beyond analytic results.
翻訳日:2023-04-24 07:29:14 公開日:2021-07-21
# 絡み合い測定による誤差の計数と位置推定による絡み合い浄化

Entanglement purification by counting and locating errors with entangling measurements ( http://arxiv.org/abs/2011.07084v2 )

ライセンス: Link先を確認
Ferran Riera S\`abat, Pavel Sekatski, Alexander Pirker and Wolfgang D\"ur(参考訳) 量子状態の複数コピーに対する絡み合い除去プロトコルを検討する。 高次元の補助絡み合いシステムを用いて、ノイズアンサンブルにおける誤りの数と位置を明示的かつ制御された方法で学習し、アンサンブル内のノイズ量を減らし、残りの状態を浄化する。 これにより、期待される少数のエラー、すなわち初期状態の高忠実性に対して特にうまく機能するコピー数に対して、絡み合った浄化プロトコルを設計することができる。 主なツールは、必要な非局所的な情報を高次元の絡み合いqudit補助状態へ転送できるカウンターゲートである。 我々は,本手法を,一対のコピーを運用する標準的な反復プロトコルと,(漸近的に)多数のコピーを運用するハッシュおよび育種プロトコルと比較する。 当社のプロトコルはこれらの2つの体制の間に介在し、達成可能な忠実度と収率を高めます。 両部量子状態に対する我々のアプローチを説明し、それを一般化して多党GHZ状態の浄化を行う。

We consider entanglement purification protocols for multiple copies of qubit states. We use high-dimensional auxiliary entangled systems to learn about number and positions of errors in the noisy ensemble in an explicit and controlled way, thereby reducing the amount of noise in the ensemble and purifying the remaining states. This allows us to design entanglement purification protocols for any number of copies that work particularly well for a small number of expected errors, i.e. high fidelity of initial states. The main tool is a counter gate with which the required non-local information can be transferred into the high-dimensional entangled qudit auxiliary states. We compare our schemes to standard recurrence protocols that operate on pairs of copies, and hashing and breeding protocols that operate on a (asymptotically) large number of copies. Our protocols interpolate between these two regimes, leading to a higher achievable fidelity and yield. We illustrate our approach for bipartite qubit states, and generalize it to purify multi-party GHZ states.
翻訳日:2023-04-24 05:19:50 公開日:2021-07-21
# 絡み合い支援型絡み合い浄化

Entanglement-assisted entanglement purification ( http://arxiv.org/abs/2011.07078v2 )

ライセンス: Link先を確認
Ferran Riera S\`abat, Pavel Sekatski, Alexander Pirker and Wolfgang D\"ur(参考訳) 高忠実な絡み合った状態の効率的な生成は、長距離量子通信、量子計算、その他の量子技術の鍵要素であり、同時に多くのスキームにおいて最も資源を消費する部分である。 本稿では,従来の手法に比べて,収率と忠実度が向上した,うるさい有限サイズのアンサンブルから高忠実度エンタングルメントを生成する,エンタングルメント支援エンタングルメント浄化プロトコルの新たなクラスを提案する。 高次元の補助絡み合いを利用して非局所的な計測を行い、良対の絡み合いを乱すことなく、アンサンブル内の誤りの数と位置を制御的かつ効率的な方法で決定する。 我々のプロトコルは任意の誤りに対処できるが、少ない誤りに最も適しており、特に減衰雑音に向いている。 本手法は中規模のアンサンブルに適用可能であり,短期量子デバイスでは重要となる。

The efficient generation of high-fidelity entangled states is the key element for long-distance quantum communication, quantum computation and other quantum technologies, and at the same time the most resource-consuming part in many schemes. We present a new class of entanglement-assisted entanglement purification protocols that can generate high-fidelity entanglement from noisy, finite-size ensembles with improved yield and fidelity as compared to previous approaches. The scheme utilizes high-dimensional auxiliary entanglement to perform entangling non-local measurements and determine the number and positions of errors in an ensemble in a controlled and efficient way, without disturbing the entanglement of good pairs. Our protocols can deal with arbitrary errors, but are best suited for few errors, and work particularly well for decay noise. Our methods are applicable to moderate sized ensembles, as will be important for near term quantum devices.
翻訳日:2023-04-24 05:19:16 公開日:2021-07-21
# ニューラルネットワーク時間量子ラグランジュダイナミクス(NNTQLD)を用いた9リンク二足歩行ロボットのアントコロニー最適化による階段上の周期軌道実現

Cycloidal Trajectory Realization on Staircase based on Neural Network Temporal Quantized Lagrange Dynamics (NNTQLD) with Ant Colony Optimization for a 9-Link Bipedal Robot ( http://arxiv.org/abs/2012.01417v3 )

ライセンス: Link先を確認
Gaurav Bhardwaj, Utkarsh A. Mishra, N. Sukavanam and R. Balasubramanian(参考訳) 本稿では,足足をもつ二足歩行ロボットのエネルギー最適化による関節角度軌跡追跡制御のための新しい手法を提案する。 9リンク二足歩行モデルによる階段上り作業では, サイクロイド変数が階段次元に依存するように, 揺動位相に対するサイクロイド軌道が提案されている。 安定性制約を満たすため、ゼロモーメントポイント(ZMP)基準を用いる。 本論文は主に以下の3段階に分けられる。 1)ジャーク最小化のための結び目シフト手順を備えた教師なし人工ニューラルネットワークを用いた,初期およびその後の2階および逆運動学の安定サイクロイド軌道計画 2)ラグランジュダイナミクスを用いた足指二足歩行モデルのモデリングダイナミクスとスプリングダンパーシステムを用いた接触モデル、ニューラルネットワークから出力される逆運動学を入力とするニューラルネットワーク時空間量子ラグランジュダイナミクスの開発。 3)Ant Colony Optimizationを用いてPD(Proportional Derivative)コントローラパラメータと胴体角度を調整し,関節空間軌道誤差と総エネルギー消費を最小化する。 提案手法の有効性を検証するために, 可変階段寸法の3つの事例と簡単な比較を行い, 生成パターンをMATLABでシミュレートした。

In this paper, a novel optimal technique for joint angles trajectory tracking control with energy optimization for a biped robot with toe foot is proposed. For the task of climbing stairs by a 9-link biped model, a cycloid trajectory for swing phase is proposed in such a way that the cycloid variables depend on the staircase dimensions. Zero Moment Point(ZMP) criteria is taken for satisfying stability constraint. This paper mainly can be divided into 3 steps: 1) Planning stable cycloid trajectory for initial step and subsequent step for climbing upstairs and Inverse Kinematics using an unsupervised artificial neural network with knot shifting procedure for jerk minimization. 2) Modeling Dynamics for Toe foot biped model using Lagrange Dynamics along with contact modeling using spring-damper system followed by developing Neural Network Temporal Quantized Lagrange Dynamics which takes inverse kinematics output from neural network as its inputs. 3) Using Ant Colony Optimization to tune PD (Proportional Derivative) controller parameters and torso angle with the objective to minimize joint space trajectory errors and total energy consumed. Three cases with variable staircase dimensions have been taken and a brief comparison is done to verify the effectiveness of our proposed work Generated patterns have been simulated in MATLAB .
翻訳日:2023-04-22 07:48:45 公開日:2021-07-21
# 量子アルゴリズム計測

Quantum Algorithmic Measurement ( http://arxiv.org/abs/2101.04634v2 )

ライセンス: Link先を確認
Dorit Aharonov, Jordan Cotler, Xiao-Liang Qi(参考訳) 計算複雑性の観点から実験量子物理学の体系的研究を開始する。 この目的のために、我々は、ブラックボックス量子アルゴリズムとインタラクティブプロトコルのハイブリッドである量子アルゴリズム計測(qualms)の枠組みを定義する。 量子多体物理学における2つの重要な実験問題(ハミルトニアンが時間非依存か時間非依存かの判定、系の力学の対称性のクラスの決定)を研究するためにqualmフレームワークを用いる。 これらの問題の抽象化を考察し,実験者が実験サンプルを(空間と時間の両方において)連続的に使用できる場合,各実験サンプルが別々にアクセスされる標準状況と比較して,証明可能な指数的スピードアップが達成されることを示す。 我々の研究は、量子コンピュータが新しいタイプの指数的優位性をもたらすことを示唆している。

We initiate the systematic study of experimental quantum physics from the perspective of computational complexity. To this end, we define the framework of quantum algorithmic measurements (QUALMs), a hybrid of black box quantum algorithms and interactive protocols. We use the QUALM framework to study two important experimental problems in quantum many-body physics: determining whether a system's Hamiltonian is time-independent or time-dependent, and determining the symmetry class of the dynamics of the system. We study abstractions of these problem and show for both cases that if the experimentalist can use her experimental samples coherently (in both space and time), a provable exponential speedup is achieved compared to the standard situation in which each experimental sample is accessed separately. Our work suggests that quantum computers can provide a new type of exponential advantage: exponential savings in resources in quantum experiments.
翻訳日:2023-04-17 00:34:41 公開日:2021-07-21
# 量子制約問題は$\mathsf{BQP}$、$\mathsf{QCMA}$などに対して完備することができる。

Quantum Constraint Problems can be complete for $\mathsf{BQP}$, $\mathsf{QCMA}$, and more ( http://arxiv.org/abs/2101.08381v3 )

ライセンス: Link先を確認
Alex Meiburg(参考訳) 量子制約問題はフラストレーションのないハミルトニアン問題である: 局所作用素の集合が与えられたとき、各作用素の基底状態にある状態は存在するか? これらの問題は、P、NP-完全、MA-完全、QMA_1-完全と示されているが、このリストは完全ではない。 1) BQP_1-完全(coRQPとも呼ばれる)、(2) QCMA_1-完全、(3) coRP-完全である。 これはbqp_1に対する最初の自然完全問題である。 また,量子制約問題はすべて,古典制約問題と共有しない特性である量子ビット上で実現可能であることを示した。 これらの結果は、量子制約問題に存在する複雑性クラスにかなりの多様性があることを示唆する。

A quantum constraint problem is a frustration-free Hamiltonian problem: given a collection of local operators, is there a state that is in the ground state of each operator simultaneously? It has previously been shown that these problems can be in P, NP-complete, MA-complete, or QMA_1-complete, but this list has not been shown to be exhaustive. We present three quantum constraint problems, that are (1) BQP_1-complete (also known as coRQP), (2) QCMA_1-complete and (3) coRP-complete. This provides the first natural complete problem for BQP_1. We also show that all quantum constraint problems can be realized on qubits, a trait not shared with classical constraint problems. These results suggest a significant diversity of complexity classes present in quantum constraint problems.
翻訳日:2023-04-14 08:44:15 公開日:2021-07-21
# 受動画像における物体の局在の量子制限精度の達成

Attaining quantum limited precision of localizing an object in passive imaging ( http://arxiv.org/abs/2102.02228v3 )

ライセンス: Link先を確認
Aqil Sajjad, Michael R Grace, Quntao Zhuang, Saikat Guha(参考訳) 連続限界が一様放射対象の中心を推定する問題である光の等光非コヒーレント点源の線形配列の平均位置、すなわちセントロイドを決定する能力について検討する。 本稿では,画像面にHermite-Gaussian (HG) Space-mode Demultiplexing (SPADE) を用いた画像面の理想的直接検出撮像器と受信機の2つを検討する。 我々は,この2つの受信機が達成した遠心波を推定するためのFisher Information (FI) を比較し,物理で取得した光の任意の選択による最大到達可能なFIであるQuantum Fisher Information (QFI) と比較した。 焦点面の直接像は、大きなマージンを伴わないが、厳密には準最適である。 また,点源(あるいは線の長さ)間の分離を推定するための最適測定であるhgモードソータは,準最適であるだけでなく,直接撮像よりも性能が悪くなることがわかった。 連続的かつ一様ブライトな物体に対するqfiおよび直接イメージングのfiのスケーリング挙動について,その長さの観点から検討し,レイリー長より十分大きい場合,両者とも物体の長さに反比例することを発見した。 最後に,センタロイド推定のためのQFIを実現する2段階適応型モードレシーバの設計を提案する。

We investigate our ability to determine the mean position, or centroid, of a linear array of equally-bright incoherent point sources of light, whose continuum limit is the problem of estimating the center of a uniformly-radiating object. We consider two receivers: an image-plane ideal direct-detection imager and a receiver that employs Hermite-Gaussian (HG) Spatial-mode Demultiplexing (SPADE) in the image plane, prior to shot-noise-limited photon detection. We compare the Fisher Information (FI) for estimating the centroid achieved by these two receivers, which quantifies the information-accrual rate per photon, and compare those with the Quantum Fisher Information (QFI): the maximum attainable FI by any choice of measurement on the collected light allowed by physics. We find that focal-plane direct imaging is strictly sub-optimal, although not by a large margin. We also find that the HG mode sorter, which is the optimal measurement for estimating the separation between point sources (or the length of a line object) is not only suboptimal, but it performs worse than direct imaging. We study the scaling behavior of the QFI and direct imaging's FI for a continuous, uniformly-bright object in terms of its length, and find that both are inversely proportional to the object's length when it is sufficiently larger than the Rayleigh length. Finally, we propose a two-stage adaptive modal receiver design that attains the QFI for centroid estimation.
翻訳日:2023-04-12 22:13:56 公開日:2021-07-21
# プログラマブル2次元62量子ビット超伝導プロセッサの量子ウォーク

Quantum walks on a programmable two-dimensional 62-qubit superconducting processor ( http://arxiv.org/abs/2102.02573v3 )

ライセンス: Link先を確認
Ming Gong, Shiyu Wang, Chen Zha, Ming-Cheng Chen, He-Liang Huang, Yulin Wu, Qingling Zhu, Youwei Zhao, Shaowei Li, Shaojun Guo, Haoran Qian, Yangsen Ye, Fusheng Chen, Chong Ying, Jiale Yu, Daojin Fan, Dachao Wu, Hong Su, Hui Deng, Hao Rong, Kaili Zhang, Sirui Cao, Jin Lin, Yu Xu, Lihua Sun, Cheng Guo, Na Li, Futian Liang, V. M. Bastidas, Kae Nemoto, W. J. Munro, Yong-Heng Huo, Chao-Yang Lu, Cheng-Zhi Peng, Xiaobo Zhu, and Jian-Wei Pan(参考訳) 量子ウォークは古典的なランダムウォークの量子力学的アナログであり、量子シミュレーション、量子探索アルゴリズム、さらには普遍的な量子コンピューティングにおいて非常に強力なツールである。 本研究では,62個の機能量子ビットからなる8x8の2次元超伝導量子ビットアレイの設計と製造を行った。 この装置を用いて、高忠実度シングルと2つの粒子量子ウォークを実証した。 さらに、量子プロセッサのプログラム性が高いことから、量子ウォーカーが干渉・退避する前に2経路でコヒーレントに進行するマッハ・ツェンダー干渉計を実装した。 進化経路の障害を調整し,単一歩行と二重歩行の干渉縞を観察した。 我々の研究はこの分野における重要なマイルストーンであり、これらのノイズの多い中間スケール量子プロセッサの実現に近づきつつある。

Quantum walks are the quantum mechanical analogue of classical random walks and an extremely powerful tool in quantum simulations, quantum search algorithms, and even for universal quantum computing. In our work, we have designed and fabricated an 8x8 two-dimensional square superconducting qubit array composed of 62 functional qubits. We used this device to demonstrate high fidelity single and two particle quantum walks. Furthermore, with the high programmability of the quantum processor, we implemented a Mach-Zehnder interferometer where the quantum walker coherently traverses in two paths before interfering and exiting. By tuning the disorders on the evolution paths, we observed interference fringes with single and double walkers. Our work is an essential milestone in the field, brings future larger scale quantum applications closer to realization on these noisy intermediate-scale quantum processors.
翻訳日:2023-04-12 20:01:58 公開日:2021-07-21
# 実用超解像イメージングのための最適観測値と推定値

Optimal observables and estimators for practical superresolution imaging ( http://arxiv.org/abs/2102.05611v2 )

ライセンス: Link先を確認
Giacomo Sorelli, Manuel Gessner, Mattia Walschaers, and Nicolas Treps(参考訳) 最近の研究では、不整点源間距離の分解能限界が特定されている。 しかし、実際の状況でこれらの限界に達するのに適切な観測値や推定値を選択するかは定かではない。 ここでは,2つの熱源間の距離でClam\'er-Rao境界を飽和させる推定器を,誤調整,クロストーク,ディテクターノイズなどの実用上の欠陥の存在下で最適に設計した観測器を用いて構築する方法を示す。

Recent works identified resolution limits for the distance between incoherent point sources. However, it remains unclear how to choose suitable observables and estimators to reach these limits in practical situations. Here, we show how estimators saturating the Cram\'er-Rao bound for the distance between two thermal point sources can be constructed using an optimally designed observable in the presence of practical imperfections, such as misalignment, crosstalk and detector noise.
翻訳日:2023-04-12 00:38:38 公開日:2021-07-21
# 静止軸対称時空が干渉可視性に及ぼす影響

The Effect of Stationary Axisymmetric Spacetimes in Interferometric Visibility ( http://arxiv.org/abs/2102.09623v2 )

ライセンス: Link先を確認
Marcos L. W. Basso and Jonas Maziero(参考訳) この写本では、スピン-1/2量子が、静止時と軸対称時空におけるマッハ-ツェンダー干渉計の経路の役割を担う、共回転および逆回転の測地線経路の重ね合わせを経るシナリオを考える。 粒子のスピンが量子時計の役割を担っているため、量子が重畳された経路に移動すると運動量(または経路)と絡み合い、このことが干渉可視性(または内部量子コヒーレンス)を低下させる。 しかし、ここで示すように、各経路の固有時間は対応する局所ウィグナー回転と一致し、重畳された粒子のスピンにおける効果は両方の組み合わせとなる。 さらに、円軌道の一般定常軸対称時空におけるスピン-1/2粒子の局所ウィグナー回転を研究するための一般的な枠組みについて論じる。

In this manuscript, we consider a scenario in which a spin-1/2 quanton goes through a superposition of co-rotating and counter-rotating geodetic circular paths, which play the role of the paths of a Mach-Zehnder interferometer in a stationary and axisymmetric spacetime. Since the spin of the particle plays the role of a quantum clock, as the quanton moves in a superposed path it gets entangled with the momentum (or the path), and this will cause the interferometric visibility (or the internal quantum coherence) to drop, since, in stationary axisymmetric spacetimes there is a difference in proper time elapsed along the two trajectories. However, as we show here, the proper time of each path will couple to the corresponding local Wigner rotation, and the effect in the spin of the superposed particle will be a combination of both. Besides, we discuss a general framework to study the local Wigner rotations of spin-1/2 particles in general stationary axisymmetric spacetimes for circular orbits.
翻訳日:2023-04-10 19:50:31 公開日:2021-07-21
# 分解性拡大によるガウスチャネルの量子容量とプライベート容量の推定

Estimating Quantum and Private capacities of Gaussian channels via degradable extensions ( http://arxiv.org/abs/2103.09569v2 )

ライセンス: Link先を確認
Marco Fanizza, Farzad Kianvash, Vittorio Giovannetti(参考訳) 我々は,分解性拡張に基づく単モード位相型ボソニックガウスチャネルの量子容量とプライベート容量の上限を示す。 その結果, 熱減衰器の低温・高透過率, 添加ガウス雑音の低温, 熱増幅器の高温・中間増幅といったパラメータ領域における最新技術が得られた。

We present upper bounds on the quantum and private capacity of single-mode, phase-insentitive Bosonic Gaussian Channels based on degradable extensions. Our findings are state-of-the-art in the following parameter regions: low temperature and high transmissivity for the thermal attenuator, low temperature for additive Gaussian noise, high temperature and intermediate amplification for the thermal amplifier.
翻訳日:2023-04-07 21:20:46 公開日:2021-07-21
# 非エルミート位相端呼吸器

Non-Hermitian topological end breathers ( http://arxiv.org/abs/2104.02906v2 )

ライセンス: Link先を確認
Li-Jun Lang, Shi-Liang Zhu, and Y. D. Chong(参考訳) 位相的非自明なバンド構造を持つ格子の非線形性は、従来の格子ソリトンと線形トポロジカル境界状態の両方とは異なるトポロジカルソリトンをもたらす。 非線形性および非相反性を持つSu-Schrieffer-Heeger型格子が新しい振動ソリトンを担っていることを示す。 端呼気器は格子の端付近の自己誘起トポロジー領域に強く局在し、以前は1次元格子で見られた拡張トポロジーソリトンとは対照的である。 その安定な振動ダイナミクスは、2つの自己誘導的位相境界状態の間のラビ振動と解釈することができ、キラル格子対称性と非エルミート皮膚効果の組み合わせから生じる。 これは、非エルミート効果が以前に知られていたよりも幅広いトポロジカルソリトンを生み出すことを証明している。

Nonlinearities in lattices with topologically nontrivial band structures can give rise to topological solitons, whose properties differ from both conventional lattice solitons and linear topological boundary states. We show that a Su-Schrieffer-Heeger-type lattice with both nonlinearity and nonreciprocal non-Hermiticity hosts a novel oscillatory soliton, which we call a topological end breather. The end breather is strongly localized to a self-induced topological domain near the end of the lattice, in sharp contrast to the extended topological solitons previously found in one-dimensional lattices. Its stable oscillatory dynamics can be interpreted as a Rabi oscillation between two self-induced topological boundary states, emerging from a combination of chiral lattice symmetry and the non-Hermitian skin effect. This demonstrates that non-Hermitian effects can give rise to a wider variety of topological solitons than was previously known to exist.
翻訳日:2023-04-05 02:28:01 公開日:2021-07-21
# 非エルミート系における対称性指標

Symmetry indicator in non-Hermitian systems ( http://arxiv.org/abs/2105.00677v2 )

ライセンス: Link先を確認
Ken Shiozaki and Seishiro Ono(参考訳) 近年、非エルミート系における位相位相は、非エルミート性がハーミート系を含まない一意的な位相を生じることがあるため、多くの注目を集めている。 非エルミートブロッホハミルトニアンは常にキラル対称性を持つ二重ヘルミートハミルトニアンに写像できるので、既存のヘルミート系の枠組みを非エルミート位相の分類に利用することができる。 この戦略は内部対称性の存在下で非エルミート的ブロッホ・ハミルトン多様体の位相的分類に成功しているが、トポロジカル位相を効率的に診断する方法である対称性指標の非エルミート系への一般化はいまだ解明されていない。 本研究では,非エルミート系に対する対称性インジケータの理論を考察する。 我々は、非エルミートブロッホハミルトニアンの空間群対称性を二重化されたエルミートハミルトニアンの1つとして定義する。 したがって、キラル対称エルミート系の対称性指示群は非エルミート系と等価である。 この同値性に基づき、空間群対称性の存在下で非エルミート系に対する対称性指標群を列挙する。 また、いくつかの対称性クラスに対する対称性指標の物理的含意についても論じる。 さらに、スピンフル電子系の対称性指標の明示的な公式が付録に含まれる。

Recently, topological phases in non-Hermitian systems have attracted much attention because non-Hermiticity sometimes gives rise to unique phases with no Hermitian counterparts. Non-Hermitian Bloch Hamiltonians can always be mapped to doubled Hermitianized Hamiltonians with chiral symmetry, which enables us to utilize the existing framework for Hermitian systems into the classification of non-Hermitian topological phases. While this strategy succeeded in the topological classification of non-Hermitian Bloch Hamiltonians in the presence of internal symmetries, the generalization of symmetry indicators -- a way to efficiently diagnose topological phases -- to non-Hermitian systems is still elusive. In this work, we study a theory of symmetry indicators for non-Hermitian systems. We define space group symmetries of non-Hermitian Bloch Hamiltonians as ones of the doubled Hermitianized Hamiltonians. Consequently, symmetry indicator groups for chiral symmetric Hermitian systems are equivalent to those for non-Hermitian systems. Based on this equivalence, we list symmetry indicator groups for non-Hermitian systems in the presence of space group symmetries. We also discuss the physical implications of symmetry indicators for some symmetry classes. Furthermore, explicit formulas of symmetry indicators for spinful electronic systems are included in appendices.
翻訳日:2023-04-01 17:57:27 公開日:2021-07-21
# モーメントに基づく超解像:形式と応用

Moment-based superresolution: Formalism and applications ( http://arxiv.org/abs/2105.12396v2 )

ライセンス: Link先を確認
Giacomo Sorelli, Manuel Gessner, Mattia Walschaers, and Nicolas Treps(参考訳) 感度限界は通常、Cram\'er-Rao 境界を用いて決定される。 近年,この手法を用いて2つの不整点源間の分離を推定するための最終的な分解限界が得られた。 しかしながら、これらの解像度制限を飽和させる手法は、通常、完全な測定統計を必要とする。 本研究では,観測可能な1つの平均値のみに依存する2つの熱源間の分離を推定する,単純な超解像プロトコルを提案する。 本手法が任意の熱源に最適であることを示すとともに,空間的に分解された強度測定(ダイレクトイメージング)や光子計数にアクセスできる場合の感度について検討した。 デマルチプレキシング(demultiplexing)では、我々の手法は最適であり、すなわち量子クラム=ラオ境界を飽和させる。 また,可溶性分離の最小光子数による最適観測値,測定感度,スケーリングに対するノイズの影響についても検討した。 画像平面内の低信号に対して,ノイズが存在する場合でもクレーア・ラオ境界を飽和させることを実証する。

Sensitivity limits are usually determined using the Cram\'er-Rao bound. Recently this approach has been used to obtain the ultimate resolution limit for the estimation of the separation between two incoherent point sources. However, methods that saturate these resolution limits, usually require the full measurement statistics, which can be challenging to access. In this work, we introduce a simple superresolution protocol to estimate the separation between two thermal sources which relies only on the average value of a single accessible observable. We show how optimal observables for this technique may be constructed for arbitrary thermal sources, and we study their sensitivities when one has access to spatially resolved intensity measurements (direct imaging) and photon counting after spatial mode demultiplexing. For demultiplexing, our method is optimal, i.e. it saturates the quantum Cram\'er-Rao bound. We also investigate the impact of noise on the optimal observables, their measurement sensitivity and on the scaling with the number of detected photons of the smallest resolvable separation. For low signals in the image plane, we demonstrate that our method saturates the Cram\'er-Rao bound even in the presence of noise.
翻訳日:2023-03-29 11:50:49 公開日:2021-07-21
# 量子情報伝達の運動論的理論

A kinetic theory for quantum information transport ( http://arxiv.org/abs/2106.00385v2 )

ライセンス: Link先を確認
F. Anza(参考訳) 本研究では,量子システムにおける情報伝達に関する理論的枠組みを構築する。 これは、輸送理論に触発されたアプローチを用いて、平衡の開量子システムからどのように情報を状態空間に移動させるかを記述することを目的としたフレームワークである。 主な目標は、量子系における非平衡現象の理解を改善するために、物理直観とともに新しい数学的ツールを構築することである。 特に,動的特性と情報理論的特徴の相互作用を解き明かすことを目指している。 ここでの主な根拠は、非平衡現象のモデリングにおける輸送理論の成功の数十年間の歴史を模倣し、それを再現できる枠組みを持つことである。

In this work we build a theoretical framework for the transport of information in quantum systems. This is a framework aimed at describing how out of equilibrium open quantum systems move information around their state space, using an approach inspired by transport theories. The main goal is to build new mathematical tools, together with physical intuition, to improve our understanding of non-equilibrium phenomena in quantum systems. In particular, we are aiming at unraveling the interplay between dynamical properties and information-theoretic features. The main rationale here is to have a framework that can imitate, and potentially replicate, the decades-long history of success of transport theories in modeling non-equilibrium phenomena.
翻訳日:2023-03-28 03:39:30 公開日:2021-07-21
# 密度汎関数理論における正確な二階補正と正確な準粒子エネルギー計算

The Exact Second Order Corrections and Accurate Quasiparticle Energy Calculations in Density Functional Theory ( http://arxiv.org/abs/2106.10358v2 )

ライセンス: Link先を確認
Yuncai Mei, Zehua Chen, Weitao Yang(参考訳) 密度汎関数近似 (dfa) を用いた2次補正法を開発し, 系統的非局在化誤差を解消した。 この方法は、以前に開発されたグローバルスケーリング補正(gsc)に基づいて、分数電荷挙動に対するdfaの正確な2次補正であり、標準分子軌道の分数占有数に関して全エネルギーの分析的な第2導関数を用いる。 中小分子では、この補正は準粒子エネルギーに非常に正確に近似する基底状態軌道エネルギーに繋がる。 これは、電離電位、電子親和性、光電子スペクトル、光励起エネルギーの予測に優れたものであり、計算分光法における幅広い応用の可能性を示している。

We develop a second order correction to commonly used density functional approximations (DFA) to eliminate the systematic delocalization error. The method, based on the previously developed global scaling correction (GSC), is an exact quadratic correction to the DFA for the fractional charge behavior and uses the analytical second derivatives of the total energy with respect to fractional occupation numbers of the canonical molecular orbitals. For small and medium-size molecules, this correction leads to ground-state orbital energies that are highly accurate approximation to the corresponding quasiparticle energies. It provides excellent predictions of ionization potentials, electron affinities, photoemission spectrum and photoexcitation energies beyond previous approximate second order approaches, thus showing potential for broad applications in computational spectroscopy.
翻訳日:2023-03-26 08:07:30 公開日:2021-07-21
# 振動格子における強化学習に基づく物質波干渉計

Reinforcement-learning based matterwave interferometer in a shaken optical lattice ( http://arxiv.org/abs/2106.11434v2 )

ライセンス: Link先を確認
Liang-Ying Chih and Murray Holland(参考訳) 本研究では,1次元の加速度を高精度に計測するマターウェーブ干渉計の設計を示す。 これをベースとするシステムは、レーザービームを干渉させることによって生成された光学格子電位の超低温原子からなる。 本手法では,ビームスプリッタ,ミラー,リコンビネータなどの光学部品の格子ベースアナログを実現するために必要なプロトコルを生成する機械学習の一分野である強化学習を用いる。 これらの部品の性能は光学アナログと比較して評価される。 干渉計の加速度に対する感度はベイズ統計手法を用いて定量的に評価される。 標準ブラッグ干渉計を超越した感度が得られ、この設計手法の将来の可能性を示す。

We demonstrate the design of a matterwave interferometer to measure acceleration in one dimension with high precision. The system we base this on consists of ultracold atoms in an optical lattice potential created by interfering laser beams. Our approach uses reinforcement learning, a branch of machine learning, that generates the protocols needed to realize lattice-based analogs of optical components including a beam splitter, a mirror, and a recombiner. The performance of these components is evaluated by comparison with their optical analogs. The interferometer's sensitivity to acceleration is quantitatively evaluated using a Bayesian statistical approach. We find the sensitivity to surpass that of standard Bragg interferometry, demonstrating the future potential for this design methodology.
翻訳日:2023-03-25 22:55:33 公開日:2021-07-21
# 条件波動関数理論:分子構造と非断熱力学の統一的処理

Conditional wavefunction theory: a unified treatment of molecular structure and nonadiabatic dynamics ( http://arxiv.org/abs/2107.01094v2 )

ライセンス: Link先を確認
Guillermo Albareda, Kevin Lively, Shunsuke A. Sato, Aaron Kelly, Angel Rubio(参考訳) 条件付き波動関数理論は、相関電子-イオン系の平衡構造と非断熱力学の統一的かつ効率的な処理を可能にする。 多体波動関数の条件分解は、閉系の完全な相互作用する波動関数を低次元(条件付き)結合された「スライス」の集合として正式に再キャストする。 条件付き波動関数スライスのセットに基づいて変分波動関数 ansatz を定式化し,水素分子の構造および時間依存応答特性を決定することによりその精度を示す。 この手法を時間依存条件波動関数を含むように拡張し、強電界分子イオン化、レーザー駆動陽子移動、円錐交差によって誘起されるベリー相効果を含むパラダイム的非平衡過程に対処する。 この研究は、有限系および拡張系の平衡および平衡ab-イニシアト分子シミュレーションにおける条件波動関数理論の適用の道を開く。

We demonstrate that a conditional wavefunction theory enables a unified and efficient treatment of the equilibrium structure and nonadiabatic dynamics of correlated electron-ion systems. The conditional decomposition of the many-body wavefunction formally recasts the full interacting wavefunction of a closed system as a set of lower dimensional (conditional) coupled `slices'. We formulate a variational wavefunction ansatz based on a set of conditional wavefunction slices, and demonstrate its accuracy by determining the structural and time-dependent response properties of the hydrogen molecule. We then extend this approach to include time-dependent conditional wavefunctions, and address paradigmatic nonequilibrium processes including strong-field molecular ionization, laser driven proton transfer, and Berry phase effects induced by a conical intersection. This work paves the road for the application of conditional wavefunction theory in equilibrium and out of equilibrium ab-initio molecular simulations of finite and extended systems.
翻訳日:2023-03-23 18:34:10 公開日:2021-07-21
# IoTデータディスカバリルーティングのためのInto Summarizationテクニック

Into Summarization Techniques for IoT Data Discovery Routing ( http://arxiv.org/abs/2107.09558v2 )

ライセンス: Link先を確認
Hieu Tran, Son Nguyen, I-Ling Yen, Farokh Bastani(参考訳) 本稿では,大規模・大規模ネットワークにおけるIoTデータ発見問題について考察する。 具体的には、効率的な空間効率の高いIoTデータ探索ルーティングを支援するために、ルーティングテーブルの要約手法を深く検討する。 アルファベットベース,ハッシュベース,意味に基づく要約とそれに対応する符号化方式を含む新しい要約アルゴリズムを提案する。 また,要約による経路の誤解の可能性についても検討した。 その後、ルーティングテーブル圧縮率とミスリーディングルーティングを引き起こす可能性とのトレードオフをバランスさせるために、いつ要約するかの戦略を分析する。 実験的研究のために、さまざまなIoTデータベースから100万のIoTデータストリームを入力データセットとして収集した。 実験結果から,要約のない類似のピア・ツー・ピア探索ルーティングアルゴリズムと比較して2-5%のレイテンシで,ルーティングテーブルのサイズを20~30倍に削減できることがわかった。 また、DHTベースのアプローチはレイテンシとトラフィックの点で2倍から6倍に優れています。

In this paper, we consider the IoT data discovery problem in very large and growing scale networks. Specifically, we investigate in depth the routing table summarization techniques to support effective and space-efficient IoT data discovery routing. Novel summarization algorithms, including alphabetical based, hash based, and meaning based summarization and their corresponding coding schemes are proposed. The issue of potentially misleading routing due to summarization is also investigated. Subsequently, we analyze the strategy of when to summarize in order to balance the tradeoff between the routing table compression rate and the chance of causing misleading routing. For experimental study, we have collected 100K IoT data streams from various IoT databases as the input dataset. Experimental results show that our summarization solution can reduce the routing table size by 20 to 30 folds with 2-5% increase in latency when compared with similar peer-to-peer discovery routing algorithms without summarization. Also, our approach outperforms DHT based approaches by 2 to 6 folds in terms of latency and traffic.
翻訳日:2023-03-21 11:58:13 公開日:2021-07-21
# 指数的に大きなオンオフ比を有する超電導カプラ

Superconducting coupler with exponentially large on-off ratio ( http://arxiv.org/abs/2107.09861v1 )

ライセンス: Link先を確認
Catherine Leroux, Agustin Di Paolo and Alexandre Blais(参考訳) Tunable two-qubit couplersは、マルチキュービット超伝導量子プロセッサにおけるエラーを軽減するための道を提供する。 しかし、ほとんどのカップルは狭い周波数帯域で動作し、ZZ$相互作用のような特定の結合をターゲットにしている。 これらの制限を緩和する超伝導カプラを導入し、指数関数的に大きなオンオフ比を持つ2量子ビット相互作用をすべて抑制し、微調整を不要とする。 本手法は,非線形共振器モードを付加したバスモードに基づく。 アシラリーモードを駆動すると、共振器のカプラ状態に依存した磁場変位が発生し、駆動力に関して実と仮想の2ビット相互作用が指数関数的に抑制される。 提案機構をサポートする超伝導回路実装を提案する。

Tunable two-qubit couplers offer an avenue to mitigate errors in multiqubit superconducting quantum processors. However, most couplers operate in a narrow frequency band and target specific couplings, such as the spurious $ZZ$ interaction. We introduce a superconducting coupler that alleviates these limitations by suppressing all two-qubit interactions with an exponentially large on-off ratio and without the need for fine-tuning. Our approach is based on a bus mode supplemented by an ancillary nonlinear resonator mode. Driving the ancillary mode leads to a coupler-state-dependent field displacement in the resonator which, in turn, results in an exponential suppression of real and virtual two-qubit interactions with respect to the drive power. A superconducting circuit implementation supporting the proposed mechanism is presented.
翻訳日:2023-03-21 07:51:56 公開日:2021-07-21
# 光再相光子エコーにおけるノイズ除去

Elimination of Noise in Optically Rephased Photon Echoes ( http://arxiv.org/abs/2107.09857v1 )

ライセンス: Link先を確認
You-Zhi Ma, Ming Jin, Duo-Lun Chen, Zong-Quan Zhou, Chuan-Feng Li, Guang-Can Guo(参考訳) フォトンエコーは電磁場を操作するための基本的なツールである。 避けられない自然発振ノイズは、強い強調パルスによって発生し、達成可能な信号と雑音の比率を制限し、量子状態におけるそれらの応用に対する根本的な障害を示す。 本稿では,4レベル原子系に基づくノイズレス光子エチョプロトコルを提案する。 我々はこのプロトコルをEu3+:Y2SiO5bcrystalで実装し、光量子メモリとして機能する。 単一光子レベルのコヒーレントパルスで符号化されたタイムビン量子ビットに対して0.952の記憶忠実度が得られる。 この研究で実証された無ノイズ光子エコー量子メモリは、スピン波ストレージ、簡単な操作、高ストレージ忠実性を備えており、他の物理システムにも容易に拡張できる。

Photon echo is a fundamental tool for the manipulation of electromagnetic fields. Unavoidable spontaneous emission noise is generated in this process due to the strong rephasing pulse, which limits the achievable signal-to-noise ratio and represents a fundamental obstacle towards their applications in the quantum regime. Here we propose a noiseless photon-echo protocol based on a four-level atomic system. We implement this protocol in a Eu3+:Y2SiO5bcrystal to serve as an optical quantum memory. A storage fidelity of 0.952 is obtained for time-bin qubits encoded with single-photon-level coherent pulses, which is far beyond the maximal fidelity achievable using the classical measure-and-prepare strategy. In this work, the demonstrated noiseless photon-echo quantum memory features spin-wave storage, easy operation and high storage fidelity, which should be easily extended to other physical systems.
翻訳日:2023-03-21 07:51:43 公開日:2021-07-21
# 量子ステアリング楕円体によるXXZモデルにおける量子相転移の可視化

Visualizing quantum phase transitions in the XXZ model via the quantum steering ellipsoid ( http://arxiv.org/abs/2107.09839v1 )

ライセンス: Link先を確認
Ming-Ming Du, Da-Jian Zhang, Zhao-Yi Zhou, D. M. Tong(参考訳) 過去20年間、量子情報理論から量子相転移(qpts)を研究するツールを借りることへの関心が高まってきた。 最もよく知られた例は、臨界点における非解析性が多くの物理モデルにおいてQPTに結びついている絡み合い測度である。 ここでは、XXZモデルに着目し、化合物系の2つのサブシステム間の量子相関の強さと型の両方を特徴づける幾何学的ツールである量子ステアリング楕円体(QSE)を用いてQPTがどのように明らかにできるかを示す。 その結果, xxzモデルに関連するqseは, qpts, 強磁性相針, 無ギャップ相オブレートスフェロイド, 反強磁性相プロレートスフェロイドと形状が変化することがわかった。 この発見は、幾何学的に見える方法でQPTを公開することの興味深い可能性を示す例を示す。 結果と以前の結果とのいくつかの関連について論じる。

The past two decades have witnessed a surge of interest in borrowing tools from quantum information theory to investigate quantum phase transitions (QPTs). The best known examples are entanglement measures whose nonanalyticities at critical points were tied to QPTs in a plethora of physical models. Here, focusing on the XXZ model, we show how QPTs can be revealed through the quantum steering ellipsoid (QSE), which is a geometric tool capable of characterizing both the strength and type of quantum correlations between two subsystems of a compound system. We find that the QSE associated with the XXZ model changes in shape with the QPTs, that is, it is a needle in the ferromagnetic phase, an oblate spheroid in the gapless phase, and a prolate spheroid in the antiferromagnetic phase. This finding offers an example demonstrating the intriguing possibility of unveiling QPTs in a geometrically visible fashion. Some connections between our results and previous ones are discussed.
翻訳日:2023-03-21 07:51:28 公開日:2021-07-21
# 量子ゲート実装のためのrydberg原子の非選択的基底状態遮断

Unselective ground-state blockade of Rydberg atoms for implementing quantum gates ( http://arxiv.org/abs/2107.09975v1 )

ライセンス: Link先を確認
Jin-Lei Wu, Yan Wang, Jin-Xuan Han, Shi-Lei Su, Yan Xia, Yongyuan Jiang, and Jie Song(参考訳) リドベルク原子の動的機構、非選択的基底状態遮断(英語版)(UGSB)は、リドベルク反遮断(英語版)(RAB)の文脈で提案され、2つの原子の進化が同じ基底状態にあるときに抑制される。 UGSBは、原子を個別にアドレス付けせずにSWAPゲートを1ステップで実装するために使用される。 原子崩壊,ドップラー脱落,原子間結合強度の変動などのRAB系ゲートの共通問題を回避することを目的として,従来のRAB系では非断熱ホロノミックゲートよりも頑健な動的SWAPゲートを実現するためにRAB条件を変更した。 さらに,提案するスワップゲートに基づき,ライドバーグ封鎖とrabを組み合わせることにより,三原子フレドキンゲートの実装をさらに検討する。 本研究は、実験において強結合原子のrab系ゲートの実装を容易にする。

A dynamics regime of Rydberg atoms, unselective ground-state blockade (UGSB), is proposed in the context of Rydberg antiblockade (RAB), where the evolution of two atoms is suppressed when they populate in an identical ground state. UGSB is used to implement a SWAP gate in one step without individual addressing of atoms. Aiming at circumventing common issues in RAB-based gates including atomic decay, Doppler dephasing, and fluctuations in the interatomic coupling strength, we modify the RAB condition to achieve a dynamical SWAP gate whose robustness is much greater than that of the nonadiabatic holonomic one in the conventional RAB regime. In addition, on the basis of the proposed SWAP gates, we further investigate the implementation of a three-atom Fredkin gate by combining Rydberg blockade and RAB. The present work may facilitate to implement the RAB-based gates of strongly coupled atoms in experiment.
翻訳日:2023-03-21 07:48:47 公開日:2021-07-21
# 量子ネットワークによる実験的多状態量子識別

Experimental multi-state quantum discrimination through a Quantum network ( http://arxiv.org/abs/2107.09968v1 )

ライセンス: Link先を確認
Alessandro Laneve, Andrea Geraldi, Frenkli Hamiti, Paolo Mataloni and Filippo Caruso(参考訳) 異なる量子状態の区別の必要性は、量子情報と通信の根本的な問題である。 このタスクにおける一般に最適な戦略の実現は、しばしば補助資源と非常に複雑な受信機の必要性によって制限される。 ネットワーク構造を特徴とする受信機と情報の動的処理に基づく最小エラーシナリオにおいて,2つの識別方式を実験的に実装した。 我々の実験で実装された最初のプロトコルは、最近の理論的な提案に直接インスパイアされ、バイナリ最適識別を実現し、第2プロトコルは、ネットワークライクな受信機の動的特徴に依存する、多状態量子差別に対する新しいアプローチを提供する。 この戦略は符号化変数として到着時間自由度を利用し、補足的なシステムや装置を必要とせずに最適な結果を得る。 さらに,量子状態識別タスクに対する動的アプローチの可能性を明らかにし,現在の実験戦略に代わる効率的な選択肢の出発点となる可能性を示した。

The need of discriminating between different quantum states is a fundamental issue in Quantum Information and Communication. The actual realization of generally optimal strategies in this task is often limited by the need of supplemental resources and very complex receivers. We have experimentally implemented two discrimination schemes in a minimum-error scenario based on a receiver featured by a network structure and a dynamical processing of information. The first protocol implemented in our experiment, directly inspired to a recent theoretical proposal, achieves binary optimal discrimination, while the second one provides a novel approach to multi-state quantum discrimination, relying on the dynamical features of the network-like receiver. This strategy exploits the arrival time degree of freedom as an encoding variable, achieving optimal results, without the need for supplemental systems or devices. Our results further reveal the potential of dynamical approaches to Quantum State Discrimination tasks, providing a possible starting point for efficient alternatives to current experimental strategies.
翻訳日:2023-03-21 07:48:28 公開日:2021-07-21
# ニオブプラズモンナノアンテナアレイを用いたオンチップ可視光通信バンド形表面変調器

On-chip visible light communication-band metasurface modulators with niobium plasmonic nano-antenna arrays ( http://arxiv.org/abs/2107.09939v1 )

ライセンス: Link先を確認
Kaveh Delfanazari and Otto L. Muskens(参考訳) ニオブ(Nb)金属プラズモンナノアンテナアレイを用いたチップ集積可視光通信バンド変調器を提案する。 我々のプラズモニックナノデバイスは、入射可視光の偏光と、そのサブ波長ナノスケール構造ブロックの幾何学的パラメータに強い感度を与える。 さらに、共振波長ラムダ=716nmにおける変調深さmd=60%の光変調特性を室温で提供する。 nbナノデバイスアレイの光応答を工学的に設計することにより、共振波長 {\lambda}=650nmにおいて最大消滅a(lambda)=1-r(lambda})=95 %を観測する。 以上の結果から, nbナノアンテナアレイを集積したデバイスは, 極低温量子回路やファイバーベースの通信システム, 量子コンピューティング, 量子通信, 量子処理などにおいて, チップ規模光電子デバイスの実現に適したプラットフォームと考えられる。

We introduce chip-integrated visible light communication-band modulators based on niobium (Nb) metallic plasmonic nano-antenna arrays. Our plasmonic nano-devices provide strong sensitivity to the polarization of the incident visible light and the geometrical parameters of their subwavelength nanoscale building blocks. Moreover, they offer optical modulation properties with modulation depth MD = 60% at resonant wavelength lambda= 716 nm, at room temperature. By engineering the photo response of the Nb nano-device arrays, we observe a maximum extinction A(lambda)= 1- R(lambda}) = 95 % at resonant wavelength {\lambda}= 650 nm. Our results suggest that the integrated Nb nano-antenna array devices can be considered as suitable platforms for the realisation of chip-scale optoelectronic devices interfacing cryogenics quantum circuits, and fibre-based communication systems, for applications in quantum computing, quantum communication, and quantum processing.
翻訳日:2023-03-21 07:48:05 公開日:2021-07-21
# ドイツの政治問題でYouTubeが実施したヘイズ(動画)

Auditing the Biases Enacted by YouTube for Political Topics in Germany ( http://arxiv.org/abs/2107.09922v1 )

ライセンス: Link先を確認
Hendrik Heuer, Hendrik Hoch, Andreas Breiter, Yannis Theocharis(参考訳) ニュースプラットフォームとしてのYouTubeの重要性が高まり、レコメンデーションシステムはより精査された。 メディアのブロードキャスターとしてのyoutubeのレコメンデーションシステムを認識し、放送局が重要な政治的、イデオロギー的、社会的グループに対して、サービスのブロードキャスティングされた番組で自己を表現できる十分な機会を与えるよう要求する法律の適用性について検討する。 我々は、こうした法律を施行し、システムが公益に作用することを確実にするための重要な手段として監査を提示する。 youtubeが特定の偏見を犯すかどうかを調べるために、私たちは、ビデオごとに10のレコメンデーションのチェーンに従うことで、政治トピックに関するビデオレコメンデーションを収集した。 われわれはYouTubeのレコメンデーションシステムが重要なバイアスを課していることを示唆している。 YouTubeは人気が高まっているが、無関係なビデオを推奨している。 推奨ビデオによって引き起こされる悲しみは減少し、幸福度は増加する。 我々は,コンテンツの人気傾向と感情の関係を考察し,その傾向を分析した。 また、監査によって研究者や市民ハッカーがYouTubeのレコメンデーションシステムのような複雑な機械学習(ML)ベースのシステムを監視する方法についても議論する。

With YouTube's growing importance as a news platform, its recommendation system came under increased scrutiny. Recognizing YouTube's recommendation system as a broadcaster of media, we explore the applicability of laws that require broadcasters to give important political, ideological, and social groups adequate opportunity to express themselves in the broadcasted program of the service. We present audits as an important tool to enforce such laws and to ensure that a system operates in the public's interest. To examine whether YouTube is enacting certain biases, we collected video recommendations about political topics by following chains of ten recommendations per video. Our findings suggest that YouTube's recommendation system is enacting important biases. We find that YouTube is recommending increasingly popular but topically unrelated videos. The sadness evoked by the recommended videos decreases while the happiness increases. We discuss the strong popularity bias we identified and analyze the link between the popularity of content and emotions. We also discuss how audits empower researchers and civic hackers to monitor complex machine learning (ML)-based systems like YouTube's recommendation system.
翻訳日:2023-03-21 07:47:33 公開日:2021-07-21
# Audit, Don't Explain -- MLベースのシステムの社会技術的理解に基づく勧告

Audit, Don't Explain -- Recommendations Based on a Socio-Technical Understanding of ML-Based Systems ( http://arxiv.org/abs/2107.09917v1 )

ライセンス: Link先を確認
Hendrik Heuer(参考訳) 本稿では,機械学習に基づくシステムに関する社会技術的視点を提案する。 また、体系的な監査が説明可能なAIシステムよりも望ましい理由についても説明します。 私は、ドイツのT\"UV"やStiftung Warentestと同様の公共法によって統治される機関が、公共の利益のためにMLシステムが機能することを確実にするための具体的な勧告を行います。

In this position paper, I provide a socio-technical perspective on machine learning-based systems. I also explain why systematic audits may be preferable to explainable AI systems. I make concrete recommendations for how institutions governed by public law akin to the German T\"UV and Stiftung Warentest can ensure that ML systems operate in the interest of the public.
翻訳日:2023-03-21 07:47:11 公開日:2021-07-21
# ビットストリングの隠れ構造を持つ量子状態の証明

Certification of quantum states with hidden structure of their bitstrings ( http://arxiv.org/abs/2107.09894v1 )

ライセンス: Link先を確認
O. M. Sotnikov, I. A. Iakovlev, A. A. Iliasov, M. I. Katsnelson, A. A. Bagrov, V. V. Mazurenko(参考訳) 量子コンピューティング技術の急速な発展により、数十の量子ビットの集団状態を操作できるようになった。 この成功は、大規模多体量子状態の評価と検証のための効率的で信頼性の高い手法に強い需要をもたらす。 量子トモグラフィーのような従来の手法は、古典的コンピュータに波動関数を保存し、操作する必要があるが、多くの自由度を持つシステムでは問題となる。 本稿では、少なくとも2つの異なる基底における単純な射影測定の限られた数に基づいて量子状態を記述・識別し、粗粒化による結果のビットストリングパターンの大規模差を計算するための数値的に安価な手順を提案する。 この手順によって得られる情報は量子状態の「ハッシュ関数」と見なすことができ、これは具体的な多体波動関数に特有で認証に使用できる単純な数の集合である。 考古学的な例を多数研究することにより、カオス量子状態を含む異なる絡み合い構造を持つ量子状態を特徴づけるには十分であることを示す。 フォン・ノイマンエントロピーのような量子相関の標準測度との相似性の関連について論じる。 また,多体量子磁気システムにおいて,異なる性質の相転移を検出できることを示した。

The rapid development of quantum computing technologies already made it possible to manipulate a collective state of several dozen of qubits. This success poses a strong demand on efficient and reliable methods for characterization and verification of large-scale many-body quantum states. Traditional methods, such as quantum tomography, which require storing and operating wave functions on classical computers, become problematic to use in the regime of large number of degrees of freedom. In this paper, we propose a numerically cheap procedure to describe and distinguish quantum states which is based on a limited number of simple projective measurements in at least two different bases and computing inter-scale dissimilarities of the resulting bit-string patterns via coarse-graining. The information one obtains through this procedure can be viewed as a "hash function" of quantum state -- a simple set of numbers which is specific for a concrete many-body wave function and can be used for certification. By studying a number of archetypal examples, we show that it is enough to characterize quantum states with different structure of entanglement, including the chaotic quantum states. The connection of the dissimilarity to standard measures of quantum correlations such as von Neumann entropy is discussed. We also demonstrate that our approach can be employed to detect phase transitions of different nature in many-body quantum magnetic systems.
翻訳日:2023-03-21 07:47:03 公開日:2021-07-21
# 量子状態の重ね合わせと粒子の波動粒子双対性に関する新しい見解

A new view on the superposition of quantum states and the wave-particle duality of particles ( http://arxiv.org/abs/2107.09884v1 )

ライセンス: Link先を確認
Yong-Jun Qiao and Guo-Feng Zhang(参考訳) 実際の物理系では非線形効果のため線形シュロディンガー方程式は利用できないため、結合量子渦重畳状態(CVSS)を構築する。 CVSSの動的進化を解析的および数値的に研究することにより、渦状態の重ね合わせは数学的代数的和であるだけでなく、形成の物理過程にも一致することを示す。 さらに,CVSS研究において量子渦格子を生成する新しい手法を提案する。 量子渦状態の密度プロファイルと位相分布を比較することで、渦状態の新たな理解が得られ、これは粒子の角運動量の空間的縮退が存在することを意味する。 この考えによれば、自由粒子は空間における環状物質の質量の中心として理解することができる。 そこで,二重スリット干渉実験を再検討し,新たな解釈を行う。

We construct a coupled quantum vortex superposition state (CVSS), since in actual physical systems, linear Schrodinger equations will not be available because of a nonlinear effect. By studying the dynamic evolution of CVSS both analytically and numerically, we show that the superposition of vortex states is not only a mathematical algebraic sum, but also corresponds to a physical process of formation. Moreover, a new method to generate quantum vortex lattice in CVSS research is given. By comparing with the density profiles and phase distributions of quantum vortex state, we have a new understanding of vortex state, which means that there is spatial degeneracy of angular momentum of a particle. According to this idea, a free particle can be understood as the center of mass of a ring-shaped matter in space. Thus, we revisit the double-slit interference experiment and give a new interpretation.
翻訳日:2023-03-21 07:46:42 公開日:2021-07-21
# 量子エネルギー景観とVQA最適化

Quantum Energy Landscape and VQA Optimization ( http://arxiv.org/abs/2107.10166v1 )

ライセンス: Link先を確認
Joonho Kim, Yaron Oz(参考訳) エンタングルメントと制御パラメータが変動量子回路のエネルギーランドスケープと最適化性能に及ぼす影響について検討した。 ヘシアンスペクトルの系統的解析を通じて、エネルギー景観の局所的な幾何学をランダムな点と最適化軌道に沿って特徴づける。 我々は、絡み合い能力の低下と回路パラメータの増加がヘッセン固有スペクトルに同じ質的効果をもたらすと主張している。 低絡み合い能力と制御パラメータの豊富さは、非平坦な方向の曲率を増大させ、最適化精度と収束速度に関して、エリアロー絡み合い状態の効率的な探索に寄与する。

We study the effects of entanglement and control parameters on the energy landscape and optimization performance of the variational quantum circuit. Through a systematic analysis of the Hessian spectrum, we characterize the local geometry of the energy landscape at a random point and along an optimization trajectory. We argue that decreasing the entangling capability and increasing the number of circuit parameters have the same qualitative effect on the Hessian eigenspectrum. Both the low-entangling capability and the abundance of control parameters increase the curvature of non-flat directions, contributing to the efficient search of area-law entangled ground states as to the optimization accuracy and the convergence speed.
翻訳日:2023-03-21 07:39:33 公開日:2021-07-21
# 分子ナノ構造による界面量子状態と電子景観

Engineering interfacial quantum states and electronic landscapes by molecular nanoarchitectures ( http://arxiv.org/abs/2107.10141v1 )

ライセンス: Link先を確認
Ignacio Piquero-Zulaica, Jorge Lobo-Checa, Zakaria M. Abd El-Fattah, J. Enrique Ortega, Florian Klappenberger, Willi Auw\"arter, Johannes V. Barth(参考訳) 表面は既知の全ての固体のフロンティアにある。 機能性ナノ構造のための汎用的な支持を提供し、重要な物理化学的過程を媒介する。 2d材料と密接な関係にあるため、界面や原子性薄膜はバルクに対して異なる電子状態を示すことが多く、触媒活性、界面電荷移動、結晶成長機構など多くの関連する性質の鍵となる。 特に興味深いのは、表面電子の次元を減少させ、原子の精度で広がり、横散乱と閉じ込めによって新しい量子特性を誘導することである。 原子操作と超分子原理の両方がカスタム設計の分子超格子へのアクセスを提供し、表面の電子的景観を調整し、ナノスケールにおける基本的な化学的および物理的性質に影響を与える。 本稿では,超高真空条件下での分子操作と自己組立プロトコルによる分子ベースの足場との相互作用に着目した表面状態電子の閉じ込めについて概説する。 貴金属の(111)-終端面に存在する準自由な2次元電子ガスから始め、単純な原子と比較して分子ベースの構造的複雑さと多目的性を示す。 本研究では, 人工格子, 分子ナノグリッド, 量子ドットアレイなどの構造を, 構造成分の適切な選択に基づいて構成する。 実現された(金属)有機ネットワークが長距離秩序を示すと、特徴的な特徴を持つ修飾表面バンド構造が出現し、離散化、量子カップリング、エネルギー、有効質量正規化といった興味深い物理的性質が明らかにされる。 このような集合的電子状態は、オープンナノ構造[...]の空洞にゲスト種を配置することで、さらに修正することができる。

Surfaces are at the frontier of every known solid. They provide versatile supports for functional nanostructures and mediate essential physicochemical processes. Being intimately related with 2D materials, interfaces and atomically thin films often feature distinct electronic states with respect to the bulk, which are key for many relevant properties, such as catalytic activity, interfacial charge-transfer, or crystal growth mechanisms. Of particular interest is reducing the surface electrons' dimensionality and spread with atomic precision, to induce novel quantum properties via lateral scattering and confinement. Both atomic manipulation and supramolecular principles provide access to custom-designed molecular superlattices, which tailor the surface electronic landscape and influence fundamental chemical and physical properties at the nanoscale. Herein, we review the confinement of surface state electrons focusing on their interaction with molecule-based scaffolds created by molecular manipulation and self-assembly protocols under ultrahigh vacuum conditions. Starting from the quasi-free 2D electron gas present at the (111)-terminated surface planes of noble metals, we illustrate the enhanced molecule-based structural complexity and versatility compared to simple atoms. We survey low-dimensional confining structures in the form of artificial lattices, molecular nanogratings or quantum dot arrays, which are constructed upon appropriate choice of their building constituents. Whenever the realized (metal-)organic networks exhibit long-range order, modified surface band structures with characteristic features emerge, revealing intriguing physical properties, such as discretization, quantum coupling or energy and effective mass renormalization. Such collective electronic states can be additionally modified by positioning guest species at the voids of open nanoarchitectures [...].
翻訳日:2023-03-21 07:39:23 公開日:2021-07-21
# 高次トポロジカル量子パラマグネット

Higher-order topological quantum paramagnets ( http://arxiv.org/abs/2107.10122v1 )

ライセンス: Link先を確認
Daniel Gonz\'alez-Cuadra(参考訳) 量子パラマグネット(quantum paramagnets)は、相互作用が磁気秩序をゼロ温度まで押し下げる物質の強相関相である。 ある場合、量子揺らぎは代わりに位相秩序を誘導し、特に分数化準粒子励起をサポートする。 本研究では, 古典的スピンモデルについて検討し, 磁気フラストレーションが高次位相特性をもたらすことを示す。 まず, 正方格子内のフラストレーションハイゼンベルク模型を初めて検討し, プラーペット原子価結合固体は, 並進不変性の自発的破断によって現れる。 この段階の研究に費やされた努力にもかかわらず、その位相的性質はこれまでに見過ごされてきた。 テンソルネットワークシミュレーションにより、このような状態が、長距離プラケット秩序と非自明なトポロジーが共存する高次対称性保護位相に属するかを確立する。 この相互作用により、システムは、動的トポロジカルな欠陥に付随するバルク内のコーナーのような状態など、他にない励起をサポートすることができる。 最後に、この高次トポロジカル量子パラマグネットが双極子相互作用によってどのように引き起こされるかを示し、原子量子シミュレータを用いて直接この位相を観測できることを示す。

Quantum paramagnets are strongly-correlated phases of matter where competing interactions frustrate magnetic order down to zero temperature. In certain cases, quantum fluctuations induce instead topological order, supporting, in particular, fractionalized quasi-particle excitations. In this work, we investigate paradigmatic spin models and show how magnetic frustration can also give rise to higher-order topological properties. We first study the frustrated Heisenberg model in a square lattice, where a plaquette valence bond solid appears through the spontaneous breaking of translational invariance. Despite the amount of effort that has been devoted to study this phase, its topological nature has so far been overlooked. By means of tensor network simulations, we establish how such state belongs to a higher-order symmetry-protected topological phase, where long-range plaquette order and non-trivial topology coexist. This interplay allows the system to support excitations that would be absent otherwise, such as corner-like states in the bulk attached to dynamical topological defects. Finally, we demonstrate how this higher-order topological quantum paramagnet can also be induced by dipolar interactions, indicating the possibility to directly observe this phase using atomic quantum simulators.
翻訳日:2023-03-21 07:38:39 公開日:2021-07-21
# 量子科学での戦い-トンネル

Quantum Battles in Attoscience -- Tunnelling ( http://arxiv.org/abs/2107.10084v1 )

ライセンス: Link先を確認
Cornelia Hofmann, Alexander Bray, Werner Koch, Hongcheng Ni and Nikolay I. Shvetsov-Shilovski(参考訳) トンネルの性質は何ですか。 この未解決の問題は、量子力学の夜明けのときと同じくらい、今日まで続く。 本稿では,attoscience virtual workshop 2020の量子バトルで議論された,attosecond物理におけるトンネル過程の解釈,計算モデリング,数値的研究に関する現在の視点の断面を紹介する。

What is the nature of tunnelling? This yet unanswered question is as pertinent today as it was at the dawn of quantum mechanics. This article presents a cross section of current perspectives on the interpretation, computational modelling, and numerical investigation of tunnelling processes in attosecond physics as debated in the Quantum Battles in Attoscience virtual workshop 2020.
翻訳日:2023-03-21 07:38:08 公開日:2021-07-21
# 双極子磁場中のフェルミオンについて

Remarks on Fermions in a Dipole Magnetic Field ( http://arxiv.org/abs/2107.10076v1 )

ライセンス: Link先を確認
Jeff Murugan, Jonathan P. Shock, Ruach Pillay Slayen(参考訳) この研究は、磁気双極子を中心に囲む球に閉じ込められた非相対論的荷電粒子の最近の研究の継続である。 この続編では、計算を2つの重要な方法で拡張する。 第一は相対論的スピン-$\frac{1}{2}$ フェルミオンであり、第二は物理学の解釈に関するものである。 前回の論文では、中性子星のような超強磁場源の天体物理学において、そのような凝縮物質系を観測できる可能性について推測したが、この研究の物理系は、電流ループを囲むフラーリンのようなより下向きの天体である。 我々は、双極子球面上のスピンレスフェルミオンに関する以前の解析の詳細を解き、それを単粒子ディラックハミルトニアンの固有値問題に適用する。 強磁場/小半径極限において、スピン-$\tfrac{1}{2}$ハミルトニアンのスペクトルは、スピンレスの場合と同様に、$|m|\ll Q$ 状態のランダウ準位構造を示す。 これは、$|m|<q$レジームに持続する、新しい(ほぼ)ゼロエネルギーの最低ランダウレベルを特徴としている。 スピンレス系と同様に、スペクトルは磁場の強さが増加するにつれて水平交差を示し、波動関数は強磁場/小半径限界の極に局在する。

This work is a continuation of our recent study of non-relativistic charged particles, confined to a sphere enclosing a magnetic dipole at its center. In this sequel, we extend our computations in two significant ways. The first is to a relativistic spin-$\frac{1}{2}$ fermion and the second concerns the interpretation of the physics. Whereas in a previous paper, we speculated on the possibility of observing such condensed matter systems in the astrophysics of extreme magnetic sources such as neutron stars, the physical systems in this study are more down-to-earth objects such as a $\mathsf{C}_{60}$ fullerine enclosing a current loop. We unpack some of the details of our previous analysis for the spinless fermion on the dipole sphere and adapt it to solve the eigenvalue problem for the single-particle Dirac Hamiltonian. In the strong-field/small-radius limit, the spectrum of the spin-$\tfrac{1}{2}$ Hamiltonian, like the spinless case, exhibits a Landau level structure in the $|m|\ll Q$ regime. It features a new, additional (approximately) zero-energy lowest Landau level which persists into the $|m|<Q$ regime. As in the spinless system, the spectrum exhibits level-crossing as the strength of the magnetic field increases, with the wavefunctions localising at the poles in the strong-field/small-radius limit.
翻訳日:2023-03-21 07:38:01 公開日:2021-07-21
# 単層および多層遷移金属ジカルコゲナイドにおけるバンドテール形成 : 詳細な評価とクイックリファレンスガイド

Band tail formation in mono and multilayered transition metal dichalcogenides: A detailed assessment and a quick-reference guide ( http://arxiv.org/abs/2107.10053v1 )

ライセンス: Link先を確認
Prasad Sarangapani, James Charles, Tillmann Kubis(参考訳) 遷移金属ジアルコゲナイド(英語版)(TMD)は、様々な超小型電子、量子計算、光電子応用の候補である。 バンドギャップ中の状態の電子密度の指数関数的減衰、すなわちバンドテールは、TMDアプリケーションの性能に強い影響を与える。 本研究では, 各種誘電体基板上に配置したTMD単層および多層系のバンドテールを, 密度汎関数理論に基づく非平衡グリーン関数を用いて予測する。 極性光フォノン上の電子の非局所散乱、荷電不純物、誘電体中のフォノンのリモート散乱は自己整合ボルン近似に含まれる。 バンドテールは層厚、温度、ドーピング濃度、特に選択された誘電体基板に依存することが判明した。 基礎となる物理機構は詳細に研究され、解析的補間公式は、$MoS_2$, $WS_2$および$WSe_2$におけるウルバッハパラメータのクイック参照を提供するために与えられる。

Transition metal dichalcogenides (TMDs) are promising candidates for a wide variety of ultrascaled electronic, quantum computation, and optoelectronic applications. The exponential decay of electronic density of states into the bandgap, i.e. the band tail has a strong impact on the performance of TMD applications. In this work, the band tails of various TMD monolayer and multilayer systems when placed on various dielectric substrates is predicted with density functional theory based nonequilibrium Green's functions. Nonlocal scattering of electrons on polar optical phonons, charged impurities and remote scattering on phonons in the dielectric materials is included in the self-consistent Born approximation. The band tails are found to critically depend on the layer thickness, temperature, doping concentration and particularly on the chosen dielectric substrate. The underlying physical mechanisms are studied in high detail and an analytical interpolation formula is given to provide a quick-reference for Urbach parameters in $MoS_2$, $WS_2$ and $WSe_2$.
翻訳日:2023-03-21 07:37:07 公開日:2021-07-21
# サイバーセキュリティの課題:生物防御システムからの教訓

Challenges in cybersecurity: Lessons from biological defense systems ( http://arxiv.org/abs/2107.10344v1 )

ライセンス: Link先を確認
Edward Schrom, Ann Kinzig, Stephanie Forrest, Andrea L. Graham, Simon A. Levin, Carl T. Bergstrom, Carlos Castillo-Chavez, James P. Collins, Rob J. de Boer, Adam Doup\'e, Roya Ensafi, Stuart Feldman, Bryan T. Grenfell. Alex Halderman, Silvie Huijben, Carlo Maley, Melanie Mosesr, Alan S. Perelson, Charles Perrings, Joshua Plotkin, Jennifer Rexford, Mohit Tiwari(参考訳) コンピュータシステム(サイバーセキュリティ)のセキュリティを確保する方法と、脊椎動物を病原体から守るための自然選択を通じて進化してきたメカニズムの共通点と、自然防衛の進化の研究から得られた洞察が、より効果的なサイバーセキュリティシステムの設計にどのように役立つかを検討する。 より一般的には、金融システムを含む幅広い複雑な適応システムを維持するためには、セキュリティ上の課題が不可欠であり、また、自然防衛の進化の研究から学んだ教訓は、そのようなシステムを保護するためのガイダンスを提供することができる。

We explore the commonalities between methods for assuring the security of computer systems (cybersecurity) and the mechanisms that have evolved through natural selection to protect vertebrates against pathogens, and how insights derived from studying the evolution of natural defenses can inform the design of more effective cybersecurity systems. More generally, security challenges are crucial for the maintenance of a wide range of complex adaptive systems, including financial systems, and again lessons learned from the study of the evolution of natural defenses can provide guidance for the protection of such systems.
翻訳日:2023-03-21 07:30:48 公開日:2021-07-21
# 高インピーダンス超伝導共振器と半導体量子ドット一重項スピン量子ビットのパラメトリック縦結合

Parametric longitudinal coupling between a high-impedance superconducting resonator and a semiconductor quantum dot singlet-triplet spin qubit ( http://arxiv.org/abs/2107.10269v1 )

ライセンス: Link先を確認
C. G. L. B{\o}ttcher, S. P. Harvey, S. Fallahi, G. C. Gardner, M. J. Manfra, U. Vool, S. D. Bartlett, and A. Yacoby(参考訳) 超伝導共振器を媒介とする長距離2量子ビットカップリングは、半導体材料のスピンに基づく量子コンピュータにおける絡み合い動作を行うための主要なパラダイムである。 本稿では、スピン量子ビットと共振器の縦相互作用に基づく新しい制御可能なスピン光子カップリングを示す。 共振器の周波数付近で量子ビットが駆動されるとき,シングルトリップキュービットを高インピーダンス超伝導共振器に結合させることで,所望の長手結合を実現できることを示す。 共振器反極近傍で印加されたマイクロ波信号の駆動振幅と周波数の関数としてキュービットのエネルギー分割を測定し、縦方向結合による共振器周波数に近い顕著な効果を明らかにする。 駆動の振幅を調整することで、縦方向の結合が1MHzを超える状態に達する。 これは量子共振器結合の新しい機構を示し、超伝導共振器を介する高忠実性2量子ゲートの創出に向けたステップストーンを表す。

Long-distance two-qubit coupling, mediated by a superconducting resonator, is a leading paradigm for performing entangling operations in a quantum computer based on spins in semiconducting materials. Here, we demonstrate a novel, controllable spin-photon coupling based on a longitudinal interaction between a spin qubit and a resonator. We show that coupling a singlet-triplet qubit to a high-impedance superconducting resonator can produce the desired longitudinal coupling when the qubit is driven near the resonator's frequency. We measure the energy splitting of the qubit as a function of the drive amplitude and frequency of a microwave signal applied near the resonator antinode, revealing pronounced effects close to the resonator frequency due to longitudinal coupling. By tuning the amplitude of the drive, we reach a regime with longitudinal coupling exceeding $1$ MHz. This demonstrates a new mechanism for qubit-resonator coupling, and represents a stepping stone towards producing high-fidelity two-qubit gates mediated by a superconducting resonator.
翻訳日:2023-03-21 07:29:35 公開日:2021-07-21
# 光学アナログ白色ブラックホールの量子的側面の刺激

Stimulating the Quantum Aspects of an Optical Analog White-Black Hole ( http://arxiv.org/abs/2107.10217v1 )

ライセンス: Link先を確認
Ivan Agullo, Anthony J. Brady and Dimitrios Kranas(参考訳) 本研究は, ホワイトブラックホールのアナログを含む光学媒体において, 弱いウェーブパケットモードの伝播を研究するための解析手法と数値シミュレーションの相乗的組み合わせを紹介する。 私たちのツールを使って進化のいくつかの側面を分析します (i)ホーキング効果のアナロジーが固い地面と接するパラメータ空間の領域 (ii)環境熱雑音と検出器の非効率性がホーキング効果の観測性に及ぼす影響 量子エンタングルメントのような量子起源のホーキング効果の側面は、非効率性やノイズの影響に対して非常に脆弱である。 我々は,シングルモードの入力でプロセスをシードすることに基づいて,これらの量子的な側面を増幅・観察するプロトコルを提案する。

This work introduces a synergistic combination of analytical methods and numerical simulations to study the propagation of weak wave-packet modes in an optical medium containing the analog of a pair white-black hole. We apply our tools to analyze several aspects of the evolution, such as (i) the region of the parameter space where the analogy with the Hawking effect is on firm ground and (ii) the influence that ambient thermal noise and detector inefficiencies have on the observability of the Hawking effect. We find that aspects of the Hawking effect that are of quantum origin, such as quantum entanglement, are extremely fragile to the influence of inefficiencies and noise. We propose a protocol to amplify and observe these quantum aspects, based on seeding the process with a single-mode squeezed input.
翻訳日:2023-03-21 07:28:22 公開日:2021-07-21
# 量子スピン鎖における偽真空崩壊

False vacuum decay in quantum spin chains ( http://arxiv.org/abs/2107.10176v1 )

ライセンス: Link先を確認
Gianluca Lagnese, Federica Maria Surace, M\'arton Kormos, Pasquale Calabrese(参考訳) 偽真空崩壊は半世紀にわたって物理学の中心的なテーマであり、宇宙論や基本相互作用の理論に応用された。 この興味深い現象は、素粒子の閉じ込めと組み合わせるとさらに興味深い。 天文学的な時間スケールによって、この崩壊の理論的な側面に焦点を当てている。 このレターの目的は、高エネルギー現象学を模倣する基本励起を閉じ込めたスピン鎖の量子アナログシミュレータとして、現在の光学実験に偽真空崩壊がアクセス可能であることを示すことである。 量子イジング鎖およびXXZはしごにおける偽真空の非平衡ダイナミクスについて検討する。 偽真空は、対称性が縦方向の磁場によって明示的に破壊されるときにモデルの強磁性相で生じる準安定状態である。 この状態は真の真空の「気泡」の形成によって崩壊する。 itebdシミュレーションを用いて,熱力学的限界のリアルタイム発展を解析し,局所観測器の減衰速度を測定した。 数値計算の結果は, 崩壊速度が縦方向の逆数で指数関数的に小さいという理論予測と一致することがわかった。

The false vacuum decay has been a central theme in physics for half a century with applications to cosmology and to the theory of fundamental interactions. This fascinating phenomenon is even more intriguing when combined with the confinement of elementary particles. Due to the astronomical time scales involved, the research has so far focused on theoretical aspects of this decay. The purpose of this Letter is to show that the false vacuum decay is accessible to current optical experiments as quantum analog simulators of spin chains with confinement of the elementary excitations, which mimic the high energy phenomenology but in one spatial dimension. We study the non-equilibrium dynamics of the false vacuum in a quantum Ising chain and in an XXZ ladder. The false vacuum is the metastable state that arises in the ferromagnetic phase of the model when the symmetry is explicitly broken by a longitudinal field. This state decays through the formation of "bubbles" of true vacuum. Using iTEBD simulations, we are able to study the real-time evolution in the thermodynamic limit and measure the decay rate of local observables. We find that the numerical results agree with the theoretical prediction that the decay rate is exponentially small in the inverse of the longitudinal field.
翻訳日:2023-03-21 07:28:09 公開日:2021-07-21
# ノイマン絡み合いエントロピーのクルトーシス

Kurtosis of von Neumann entanglement entropy ( http://arxiv.org/abs/2107.10978v1 )

ライセンス: Link先を確認
Youyi Huang, Lu Wei, and Bjordis Collaku(参考訳) 本研究では、ヒルベルト・シュミットアンサンブルの下で量子二成分系における絡み合いの統計的挙動を標準測度であるフォン・ノイマンエントロピーによって評価した。 フォン・ノイマンエントロピーの最初の3つの正確な累積表現は文献で知られている。 本研究の主な貢献は、分布のテール挙動を制御する対応する第4の累積体の正確な公式である。 結果の導出に重要な要素として,新たに観測された単純化不可能な要約ベースを用い,完全なキャンセルに導く。 フォン・ノイマンエントロピーの予想されたガウス極限のさらなる証拠を与えるのに加えて、得られた公式は分布に対する改良された有限サイズ近似も提供する。

In this work, we study the statistical behavior of entanglement in quantum bipartite systems under the Hilbert-Schmidt ensemble as assessed by the standard measure - the von Neumann entropy. Expressions of the first three exact cumulants of von Neumann entropy are known in the literature. The main contribution of the present work is the exact formula of the corresponding fourth cumulant that controls the tail behavior of the distribution. As a key ingredient in deriving the result, we make use of newly observed unsimplifiable summation bases that lead to a complete cancellation. In addition to providing further evidence of the conjectured Gaussian limit of the von Neumann entropy, the obtained formula also provides an improved finite-size approximation to the distribution.
翻訳日:2023-03-21 07:19:46 公開日:2021-07-21
# ラジカル対は概日時計の磁場とリチウム効果を説明することができる

Radical pairs can explain magnetic field and lithium effects on the circadian clock ( http://arxiv.org/abs/2107.10677v1 )

ライセンス: Link先を確認
Hadi Zadeh-Haghighi and Christoph Simon(参考訳) ショウジョウバエの概日時計は、磁場やリチウムの投与によって摂動することができる。 クリプトクロムは概日時計にとって重要である。 さらに、クリプトクロムのラジカル対は動物の磁気受容を説明することもできる。 動物磁気コンパスの単純なラジカル対機構モデルに基づき、磁場とリチウムは天然に存在するラジカル対のスピンダイナミクスに影響を与え、したがって概日時計のリズムを変調できることを示した。 概日時計の単純な化学発振器モデルを用いて、スピンダイナミクスが化学発振器モデルの速度に影響を与え、概日時計の周期の変化に繋がることを示した。 本モデルは,2つの独立実験,磁場とリチウムの影響を概日時計上で再現することができる。 我々のモデルは、強い磁場が時計の周期を短縮すると予想する。 また,リチウムが時計に与える影響を同位体依存的に予測する。 さらに、我々のモデルは、磁場と超微粒子相互作用が酸化ストレスを変調すると予想する。 この研究の知見は、キセノン麻酔とリチウムの過活動への影響に関する最近の結果に加えて、ラジカル対の量子的性質と絡み合いが脳での役割を担っていることを示唆している。

Drosophila's circadian clock can be perturbed by magnetic fields, as well as by lithium administration. Cryptochromes are critical for the circadian clock. Further, the radical pairs in cryptochrome also can explain magnetoreception in animals. Based on a simple radical pair mechanism model of the animal magnetic compass, we show that both magnetic fields and lithium can influence the spin dynamics of the naturally occurring radical pairs and hence modulate the circadian clock's rhythms. Using a simple chemical oscillator model for the circadian clock, we show that the spin dynamics influence a rate in the chemical oscillator model, which translates into a change in the circadian period. Our model can reproduce the results of two independent experiments, magnetic fields and lithium effects on the circadian clock. Our model predicts that stronger magnetic fields would shorten the clock's period. We also predict that lithium influences the clock in an isotope-dependent manner. Furthermore, our model also predicts that magnetic fields and hyperfine interactions modulate oxidative stress. The findings of this work suggest that quantum nature and entanglement of radical pairs might play roles in the brain, as another piece of evidence in addition to recent results on xenon anesthesia and lithium effects on hyperactivity.
翻訳日:2023-03-21 07:19:36 公開日:2021-07-21
# 例外点周辺の固有状態クラスタリング」へのコメント

Comment on "Eigenstate clustering around exceptional points" ( http://arxiv.org/abs/2107.10674v1 )

ライセンス: Link先を確認
Francisco M. Fern\'andez(参考訳) 最近の論文(arxiv:2008.04929)の著者は、エルミート系と非エルミート系の固有状態に関する虚偽のステートメントを提出した。 一次元格子に対する非エルミート的ハミルトニアンの一つがエルミート的格子と類似しており、したがって真の固有値を示す。 固有値方程式の理論的解析により,批判論文における数値結果の組の1つが正しくない可能性が示唆された。

We show that the author of a recent paper [arXiv:2008.04929] put forward some false statements about the eigenstates of Hermitian and non-Hermitian systems. We conjecture that one of the non-Hermitian Hamiltonians for a one-dimensional lattice is similar to an Hermitian one and, consequently, exhibits real eigenvalues. Present theoretical analysis of the eigenvalue equation suggests that one of the sets of numerical results in the criticized paper may not be correct.
翻訳日:2023-03-21 07:19:18 公開日:2021-07-21
# 集合光ポンピングによる最大絡み合い状態の生成

Generation of a maximally entangled state using collective optical pumping ( http://arxiv.org/abs/2107.10374v1 )

ライセンス: Link先を確認
M. Malinowski, C. Zhang, V. Negnevitsky, I. Rojkov, F. Reiter, T.-L. Nguyen, M. Stadler, D. Kienzler, K. K. Mehta, and J. P. Home(参考訳) 2つの量子ビットを一重項ベル状態に散逸的に励起する新しいスキームを提案し,実装する。 この方法は、一重項以外の全ての状態が結合される励起レベルへの集合的な光ポンピングの過程に依存する。 本手法は,9,3(1)\%$の忠実度を持つ2つの閉じ込められた${}^{40}\text{Ca}^+$イオンを決定論的に絡み合わせるために適用する。 理論的には,提案手法の性能と誤差を解析し,実験的なノイズ源の多種多様な種類に無関心であることを示す。

We propose and implement a novel scheme for dissipatively pumping two qubits into a singlet Bell state. The method relies on a process of collective optical pumping to an excited level, to which all states apart from the singlet are coupled. We apply the method to deterministically entangle two trapped ${}^{40}\text{Ca}^+$ ions with a fidelity of $93(1)\%$. We theoretically analyze the performance and error susceptibility of the scheme and find it to be insensitive to a large class of experimentally relevant noise sources.
翻訳日:2023-03-21 07:18:50 公開日:2021-07-21
# ディラック材料のカシミール相互作用へのバルク貢献

Bulk contributions to the Casimir interaction of Dirac materials ( http://arxiv.org/abs/2107.10369v1 )

ライセンス: Link先を確認
M. Bordag, I. Fialkovsky, N. Khusnutdinov, and D. Vassilevich(参考訳) 量子場理論の爆発的方法として、質量ギャップ、化学ポテンシャル、有限温度の存在下でのディラック材料のバルク偏極テンソルとバルク誘電関数を計算する。 これらの結果(および最終的な境界効果の無視)を用いて、ディラック材料のカシミール相互作用を研究する。 誘電関数の特性とそのカシミール圧力への影響について詳述する。

Exploiting methods of Quantum Field Theory we compute the bulk polarization tensor and bulk dielectric functions for Dirac materials in the presence of a mass gap, chemical potential, and finite temperature. Using these results (and neglecting eventual boundary effects), we study the Casimir interaction of Dirac materials. We describe in detail the characteristic features of the dielectric functions and their influence on the Casimir pressure.
翻訳日:2023-03-21 07:18:40 公開日:2021-07-21
# 量子ビットとして働く六方晶窒化ホウ素の常磁性置換炭素欠陥の同定への$\textit{ab initio}$のアプローチ

Towards $\textit{ab initio}$ identification of paramagnetic substitutional carbon defects in hexagonal boron nitride acting as quantum bits ( http://arxiv.org/abs/2107.10366v1 )

ライセンス: Link先を確認
Philipp Auburger and Adam Gali(参考訳) 六方晶窒化ホウ素(hBN)の常磁性置換炭素(C$_\text{B}$,C$_\text{N}$)欠陥を量子ビットの候補として論じる。 光ルミネッセンス(PL)、電荷遷移、電子常磁性共鳴、光学的に検出された磁気共鳴(ODMR)スペクトルによって、それらの識別と適合性にアプローチする。 これらのいくつかの明確な傾向は、効率的な平面波周期スーパーセル \textit{ab initio} 密度汎関数理論のアプローチによって明らかにされる。 特に、c$_\text{b}$ と c$_\text{n}$ の間の分離の役割についての洞察が得られる。 ほとんどのケースでは、電荷遷移レベル(ctl)の位置がバンドギャップ内にあるため、欠陥の中間状態と単独電荷の基底状態との間の電荷遷移は実験的にアクセス可能であると予測される。 \textit{A reari} の電荷補正についても論じる。 実験的に孤立した単一スピン中心を中性c$_\text{b}$点欠陥として同定し,最近観測されたplスペクトルとodmrスペクトルとの比較を行った。

Paramagnetic substitutional carbon (C$_\text{B}$, C$_\text{N}$) defects in hexagonal boron nitride (hBN) are discussed as candidates for quantum bits. Their identification and suitability are approached by means of photoluminescence (PL), charge transitions, electron paramagnetic resonance, and optically detected magnetic resonance (ODMR) spectra. Several clear trends in these are revealed by means of an efficient plane wave periodic supercell \textit{ab initio} density functional theory approach. In particular, this yields insight into the role of the separation between C$_\text{B}$ and C$_\text{N}$. In most of the cases the charge transition between the neutral and a singly charged ground state of a defect is predicted to be experimentally accessible, since the charge transition level (CTL) position lies within the band gap. \textit{A posteriori} charge corrections are also discussed. A near-identification of an experimentally isolated single spin center as the neutral C$_\text{B}$ point defect was found via comparison of results to recently observed PL and ODMR spectra.
翻訳日:2023-03-21 07:18:31 公開日:2021-07-21
# 正規化進化的人口ベーストレーニング

Regularized Evolutionary Population-Based Training ( http://arxiv.org/abs/2002.04225v4 )

ライセンス: Link先を確認
Jason Liang, Santiago Gonzalez, Hormoz Shahrzad, and Risto Miikkulainen(参考訳) ディープニューラルネットワーク(DNN)アーキテクチャとハイパーパラメータのメタラーニングは、ますます重要な研究領域になりつつある。 同時に、ネットワークの正規化はDNNの効果的なトレーニングの重要な要素として認識されている。 しかし、効果的な正規化を確立するためのメタラーニングの役割はまだ十分に検討されていない。 損失関数最適化がこの役割を果たすという最近の証拠があるが、完全な訓練の外側ループとして計算的に非現実的である。 本稿では、DNNの重みのトレーニングと損失関数のメタラーニングをインターリーブするEPBT(Evolutionary Population-Based Training)アルゴリズムを提案する。 これらはEPBTが直接最適化できる多変量テイラー拡張を用いてパラメータ化される。 このような重みと損失関数の同時適応は欺くことができるため、EPBTはノベルティ・パルセーションと呼ばれる品質多様性のヒューリスティックと知識蒸留を用いてトレーニング中の過度な適合を防ぐ。 CIFAR-10とSVHN画像分類ベンチマークでは、EPBTはより高速で正確な学習をもたらす。 発見されたハイパーパラメータはトレーニングプロセスに適応し、ラベルへの過度な適合を回避して学習タスクを規則化する。 EPBTは同時学習に基づく正規化メタラーニングの実践的インスタンス化を示す。

Metalearning of deep neural network (DNN) architectures and hyperparameters has become an increasingly important area of research. At the same time, network regularization has been recognized as a crucial dimension to effective training of DNNs. However, the role of metalearning in establishing effective regularization has not yet been fully explored. There is recent evidence that loss-function optimization could play this role, however it is computationally impractical as an outer loop to full training. This paper presents an algorithm called Evolutionary Population-Based Training (EPBT) that interleaves the training of a DNN's weights with the metalearning of loss functions. They are parameterized using multivariate Taylor expansions that EPBT can directly optimize. Such simultaneous adaptation of weights and loss functions can be deceptive, and therefore EPBT uses a quality-diversity heuristic called Novelty Pulsation as well as knowledge distillation to prevent overfitting during training. On the CIFAR-10 and SVHN image classification benchmarks, EPBT results in faster, more accurate learning. The discovered hyperparameters adapt to the training process and serve to regularize the learning task by discouraging overfitting to the labels. EPBT thus demonstrates a practical instantiation of regularization metalearning based on simultaneous training.
翻訳日:2023-01-02 01:09:07 公開日:2021-07-21
# 空間領域とスペクトル領域の間のギャップを埋める:グラフニューラルネットワークに関する調査

Bridging the Gap between Spatial and Spectral Domains: A Survey on Graph Neural Networks ( http://arxiv.org/abs/2002.11867v4 )

ライセンス: Link先を確認
Zhiqian Chen, Fanglan Chen, Lei Zhang, Taoran Ji, Kaiqun Fu, Liang Zhao, Feng Chen, Lingfei Wu, Charu Aggarwal and Chang-Tien Lu(参考訳) ディープラーニングの成功は、画像分類、音声認識、自然言語処理など、さまざまな機械学習タスクで広く認識されている。 これらの領域を超えたディープラーニングの拡張として、グラフニューラルネットワーク(GNN)は、従来のディープラーニング技術に難解な非ユークリッドグラフ構造を扱うように設計されている。 既存のGNNは様々な手法を用いて提示され、直接比較と相互参照がより複雑になる。 既存の研究は、gnnを空間ベースおよびスペクトルベース技術に分類しているが、それらの関係について徹底的な検討は行われていない。 このギャップを埋めるために,ほとんどのGNNを体系的に組み込んだ単一のフレームワークを提案する。 既存のgnnを空間領域とスペクトル領域に整理し、各ドメイン内の接続を露出させる。 スペクトルグラフ理論と近似理論のレビューは、さらなる研究において空間領域とスペクトル領域の間に強い関係を築く。

Deep learning's success has been widely recognized in a variety of machine learning tasks, including image classification, audio recognition, and natural language processing. As an extension of deep learning beyond these domains, graph neural networks (GNNs) are designed to handle the non-Euclidean graph-structure which is intractable to previous deep learning techniques. Existing GNNs are presented using various techniques, making direct comparison and cross-reference more complex. Although existing studies categorize GNNs into spatial-based and spectral-based techniques, there hasn't been a thorough examination of their relationship. To close this gap, this study presents a single framework that systematically incorporates most GNNs. We organize existing GNNs into spatial and spectral domains, as well as expose the connections within each domain. A review of spectral graph theory and approximation theory builds a strong relationship across the spatial and spectral domains in further investigation.
翻訳日:2022-12-28 07:11:02 公開日:2021-07-21
# 直交初期化を伴うディープネットワークのニューラルタンジェントカーネルについて

On the Neural Tangent Kernel of Deep Networks with Orthogonal Initialization ( http://arxiv.org/abs/2004.05867v4 )

ライセンス: Link先を確認
Wei Huang and Weitao Du and Richard Yi Da Xu(参考訳) 一般的な考え方は、直交重みは力学の等長化とトレーニングのスピードアップに不可欠であるということである。 線形ネットワークにおける直交初期化による学習速度の増加はよく証明されている。 しかし, 動的等尺条件が満たされた場合, 非線形ネットワークについても同様のことが考えられるが, この競合の背後にあるトレーニング力学は十分に解明されていない。 本研究では,ニューラルネットワーク(NTK)による直交初期化によるFCN(Fully Connected Networks)やCNN(Convolutional Neural Networks)など,さまざまなアーキテクチャにおける超広帯域ネットワークのダイナミクスについて検討する。 一連の命題と補題を通して、ネットワーク幅が無限であるときに、ガウス重みと直交重みに対応する2つのNTKが等しいことを証明する。 さらに、トレーニング中は、直交初期化無限幅ネットワークのNTKは理論的に一定である。 これは、直交初期化がNTK(lazy training)体制でのトレーニングをスピードアップできないことを示唆している。 直交学習を加速させる状況を探るため,NTK体制外における徹底的な実証調査を実施している。 非線形アクティベーションにおける線形状態を達成するためにハイパーパラメータが設定されると、直交初期化は学習速度を大きくして学習速度を向上させることができる。

The prevailing thinking is that orthogonal weights are crucial to enforcing dynamical isometry and speeding up training. The increase in learning speed that results from orthogonal initialization in linear networks has been well-proven. However, while the same is believed to also hold for nonlinear networks when the dynamical isometry condition is satisfied, the training dynamics behind this contention have not been thoroughly explored. In this work, we study the dynamics of ultra-wide networks across a range of architectures, including Fully Connected Networks (FCNs) and Convolutional Neural Networks (CNNs) with orthogonal initialization via neural tangent kernel (NTK). Through a series of propositions and lemmas, we prove that two NTKs, one corresponding to Gaussian weights and one to orthogonal weights, are equal when the network width is infinite. Further, during training, the NTK of an orthogonally-initialized infinite-width network should theoretically remain constant. This suggests that the orthogonal initialization cannot speed up training in the NTK (lazy training) regime, contrary to the prevailing thoughts. In order to explore under what circumstances can orthogonality accelerate training, we conduct a thorough empirical investigation outside the NTK regime. We find that when the hyper-parameters are set to achieve a linear regime in nonlinear activation, orthogonal initialization can improve the learning speed with a large learning rate or large depth.
翻訳日:2022-12-13 23:27:29 公開日:2021-07-21
# dureader_robust: 実世界アプリケーションにおける機械読解の堅牢性と一般化を評価するための中国データセット

DuReader_robust: A Chinese Dataset Towards Evaluating Robustness and Generalization of Machine Reading Comprehension in Real-World Applications ( http://arxiv.org/abs/2004.11142v2 )

ライセンス: Link先を確認
Hongxuan Tang, Hongyu Li, Jing Liu, Yu Hong, Hua Wu, Haifeng Wang(参考訳) 機械読解(MRC)は自然言語処理において重要な課題であり、目覚ましい進歩を遂げている。 しかしながら、ほとんどのニューラルネットワークMCCモデルは、まだ堅牢には程遠いため、現実世界のアプリケーションではうまく一般化できない。 MRCモデルの堅牢性と一般化を包括的に検証するために,実世界の中国語データセットDuReader_robustを導入する。 MRCモデルを過感度、過安定性、一般化の3つの側面から評価するように設計されている。 以前の研究と比較すると、DuReader_robustのインスタンスは、変更された不自然なテキストではなく、自然なテキストである。 MRCモデルを現実世界のアプリケーションに適用する際の課題を示す。 実験の結果, MRCモデルは課題テストセットではうまく動作しないことがわかった。 さらに, 課題テストセットにおける既存モデルの挙動を解析し, 今後のモデル開発への提案を提供する。 データセットとコードはhttps://github.com/baidu/dureaderで公開されている。

Machine reading comprehension (MRC) is a crucial task in natural language processing and has achieved remarkable advancements. However, most of the neural MRC models are still far from robust and fail to generalize well in real-world applications. In order to comprehensively verify the robustness and generalization of MRC models, we introduce a real-world Chinese dataset -- DuReader_robust. It is designed to evaluate the MRC models from three aspects: over-sensitivity, over-stability and generalization. Comparing to previous work, the instances in DuReader_robust are natural texts, rather than the altered unnatural texts. It presents the challenges when applying MRC models to real-world applications. The experimental results show that MRC models do not perform well on the challenge test set. Moreover, we analyze the behavior of existing models on the challenge test set, which may provide suggestions for future model development. The dataset and codes are publicly available at https://github.com/baidu/DuReader.
翻訳日:2022-12-10 09:38:25 公開日:2021-07-21
# 二重主成分探索と直交辞書学習のためのマニフォールド近点アルゴリズム

Manifold Proximal Point Algorithms for Dual Principal Component Pursuit and Orthogonal Dictionary Learning ( http://arxiv.org/abs/2005.02356v2 )

ライセンス: Link先を確認
Shixiang Chen, Zengde Deng, Shiqian Ma, Anthony Man-Cho So(参考訳) 直交辞書学習 (ODL) やロバスト部分空間回復 (RSR) などの機械学習アプリケーションにおいて, 球面上の線形写像の$\ell_1$ノルムを最大化する問題を考える。 この問題は非滑らかな目的と非凸制約のために数値的に困難であり、そのアルゴリズム的側面はよく研究されていない。 本稿では,球面の多様体構造を利用して,この問題に対処するための高速アルゴリズムを設計する方法について述べる。 特に、私たちの貢献は3倍です。 まず,問題に対する多様体近位点アルゴリズム(ManPPA)を提案する。 さらに,ODL問題とRSR問題に適用した場合,ManPPAは2次収束率が得られることを示す。 第2に,大規模計算に好適なManPPAの確率的変種StManPPAを提案し,そのサブ線形収束率を確立する。 ManPPA と StManPPA はどちらも、既存の下降型手法よりも明らかに高速な収束速度を持つ。 第3に,manppa をビルディングブロックとして用いることにより,球面をスティーフェル多様体に置き換えた問題に対する行列アナログの解法を提案する。 ODLおよびRSR問題に関する広範な数値実験の結果,提案手法の有効性と有効性を示した。

We consider the problem of maximizing the $\ell_1$ norm of a linear map over the sphere, which arises in various machine learning applications such as orthogonal dictionary learning (ODL) and robust subspace recovery (RSR). The problem is numerically challenging due to its nonsmooth objective and nonconvex constraint, and its algorithmic aspects have not been well explored. In this paper, we show how the manifold structure of the sphere can be exploited to design fast algorithms for tackling this problem. Specifically, our contribution is threefold. First, we present a manifold proximal point algorithm (ManPPA) for the problem and show that it converges at a sublinear rate. Furthermore, we show that ManPPA can achieve a quadratic convergence rate when applied to the ODL and RSR problems. Second, we propose a stochastic variant of ManPPA called StManPPA, which is well suited for large-scale computation, and establish its sublinear convergence rate. Both ManPPA and StManPPA have provably faster convergence rates than existing subgradient-type methods. Third, using ManPPA as a building block, we propose a new approach to solving a matrix analog of the problem, in which the sphere is replaced by the Stiefel manifold. The results from our extensive numerical experiments on the ODL and RSR problems demonstrate the efficiency and efficacy of our proposed methods.
翻訳日:2022-12-06 13:15:16 公開日:2021-07-21
# インダクティブ幾何行列ミッドレンジ

Inductive Geometric Matrix Midranges ( http://arxiv.org/abs/2006.01508v3 )

ライセンス: Link先を確認
Graham W. Van Goffrier, Cyrus Mostajeran, Rodolphe Sepulchre(参考訳) 対称正定値(spd)行列で表される共分散データは、相互依存系の効率的な記述子として技術研究を通して普遍的である。 SPD行列のユークリッド解析は計算が速いが、歪んだり非物理的なデータ解釈に繋がることがある。 リーマン法は高価な固有値計算のコストでSPDデータの幾何学的構造を保存する。 本稿ではトンプソン計量に基づくSPDデータの教師なしクラスタリングのための幾何学的手法を提案する。 この手法はSPDデータに対する新しい「誘導中距離」セントロイド計算に依存し、その特性を検証し数値的に確認する。 我々はトンプソン計量と帰納的中間域をX平均およびK平均++クラスタリングアルゴリズムに組み込むことを実証する。

Covariance data as represented by symmetric positive definite (SPD) matrices are ubiquitous throughout technical study as efficient descriptors of interdependent systems. Euclidean analysis of SPD matrices, while computationally fast, can lead to skewed and even unphysical interpretations of data. Riemannian methods preserve the geometric structure of SPD data at the cost of expensive eigenvalue computations. In this paper, we propose a geometric method for unsupervised clustering of SPD data based on the Thompson metric. This technique relies upon a novel "inductive midrange" centroid computation for SPD data, whose properties are examined and numerically confirmed. We demonstrate the incorporation of the Thompson metric and inductive midrange into X-means and K-means++ clustering algorithms.
翻訳日:2022-11-25 23:53:03 公開日:2021-07-21
# 確率最適化によるモンテカルロ法のスケーラブルな制御変数

Scalable Control Variates for Monte Carlo Methods via Stochastic Optimization ( http://arxiv.org/abs/2006.07487v2 )

ライセンス: Link先を確認
Shijing Si, Chris. J. Oates, Andrew B. Duncan, Lawrence Carin, Fran\c{c}ois-Xavier Briol(参考訳) 制御変動はモンテカルロ推定器の分散を減らすための確立されたツールである。 しかし、高次元および大サンプル設定を含む大規模問題では、その利点は相当な計算コストで上回ることができる。 本稿では,Stein演算子に基づく制御変数について考察し,多項式,カーネル,ニューラルネットワークを用いた既存のアプローチを包含・一般化する枠組みを提案する。 確率的最適化による変分目標の最小化に基づく学習戦略を提案し,スケーラブルで効果的な制御変数を導出する。 新たな理論的結果は、達成可能な分散還元に関する洞察を与えるために提示され、ベイズ推定への応用を含む経験的評価が支持される。

Control variates are a well-established tool to reduce the variance of Monte Carlo estimators. However, for large-scale problems including high-dimensional and large-sample settings, their advantages can be outweighed by a substantial computational cost. This paper considers control variates based on Stein operators, presenting a framework that encompasses and generalizes existing approaches that use polynomials, kernels and neural networks. A learning strategy based on minimising a variational objective through stochastic optimization is proposed, leading to scalable and effective control variates. Novel theoretical results are presented to provide insight into the variance reduction that can be achieved, and an empirical assessment, including applications to Bayesian inference, is provided in support.
翻訳日:2022-11-22 03:07:08 公開日:2021-07-21
# 深部残留混合モデル

Deep Residual Mixture Models ( http://arxiv.org/abs/2006.12063v3 )

ライセンス: Link先を確認
Perttu H\"am\"al\"ainen and Martin Trapp and Tuure Saloheimo and Arno Solin(参考訳) 本稿では,新しい生成モデルアーキテクチャであるDRMM(Deep Residual Mixture Models)を提案する。 他の深層モデルと比較すると、drmmはより柔軟な条件付きサンプリングを可能にする: モデルは、すべての変数で一度トレーニングされ、条件付き変数、ガウス前駆、および(in)品質制約の任意の組み合わせでサンプリングに使用される。 これにより、インタラクティブで探索的な機械学習の機会が生まれ、モデルの再トレーニングを待つユーザを最小限に抑えることができる。 制約付きマルチリンブ逆運動学と制御可能なアニメーション生成においてDRMMを実証する。

We propose Deep Residual Mixture Models (DRMMs), a novel deep generative model architecture. Compared to other deep models, DRMMs allow more flexible conditional sampling: The model can be trained once with all variables, and then used for sampling with arbitrary combinations of conditioning variables, Gaussian priors, and (in)equality constraints. This provides new opportunities for interactive and exploratory machine learning, where one should minimize the user waiting for retraining a model. We demonstrate DRMMs in constrained multi-limb inverse kinematics and controllable generation of animations.
翻訳日:2022-11-18 04:43:54 公開日:2021-07-21
# DanHAR:ウェアラブルセンサを用いたマルチモーダルヒューマンアクティビティ認識のためのデュアルアテンションネットワーク

DanHAR: Dual Attention Network For Multimodal Human Activity Recognition Using Wearable Sensors ( http://arxiv.org/abs/2006.14435v4 )

ライセンス: Link先を確認
Wenbin Gao, Lei Zhang, Qi Teng, Jun He, Hao Wu(参考訳) ユビキタスコンピューティングにおけるヒューマンアクティビティ認識(HAR)は、加速度計やジャイロスコープなどのマルチモーダルセンサーからのリッチなセンシングデータを人間の活動を推測するディープニューラルネットワーク(DNN)の文脈に注意を向けるようになってきている。 近年,空間領域と時間領域の両方におけるセンシング信号の依存性を同時に捉えるゲートリカレントユニット (gru) とlong short-term memory (lstm) ネットワークを組み合わせた2つの注意手法が提案されている。 しかし、リカレントネットワークは畳み込みニューラルネットワーク(cnns)に比べて電力を表す弱い特徴を持つことが多い。 一方、CNNと組み合わせることで、時間領域において2つの注意、すなわちハード・アテンションとソフト・アテンションが適用され、長いシーケンスからターゲット活動により多くの注意が払われる。 しかし、どこに焦点を合わせるべきかを判断し、どのチャンネルに焦点を合わせるかを決めるのに重要な役割を担っている。 その結果、注意に基づくGRUやLSTMと比較して、マルチモーダルセンシング信号の時空間依存性に対処できなかった。 本稿では,cnn上でチャンネルの注意と時間的注意をブレンドする枠組みを導入し,マルチモーダルharの理解性を向上させる上で優れていることを示す,danharと呼ばれる新しい二重注意手法を提案する。 4つの公開HARデータセットと弱いラベル付きデータセットに関する大規模な実験は、DanHARがパラメータの無視可能なオーバーヘッドで最先端のパフォーマンスを達成することを示している。 さらに, 視覚的分析により, 人間の直感とよく一致する, 分類中のセンサのモダリティやタイムステップを, より重要視できることが示される。

Human activity recognition (HAR) in ubiquitous computing has been beginning to incorporate attention into the context of deep neural networks (DNNs), in which the rich sensing data from multimodal sensors such as accelerometer and gyroscope is used to infer human activities. Recently, two attention methods are proposed via combining with Gated Recurrent Units (GRU) and Long Short-Term Memory (LSTM) network, which can capture the dependencies of sensing signals in both spatial and temporal domains simultaneously. However, recurrent networks often have a weak feature representing power compared with convolutional neural networks (CNNs). On the other hand, two attention, i.e., hard attention and soft attention, are applied in temporal domains via combining with CNN, which pay more attention to the target activity from a long sequence. However, they can only tell where to focus and miss channel information, which plays an important role in deciding what to focus. As a result, they fail to address the spatial-temporal dependencies of multimodal sensing signals, compared with attention-based GRU or LSTM. In the paper, we propose a novel dual attention method called DanHAR, which introduces the framework of blending channel attention and temporal attention on a CNN, demonstrating superiority in improving the comprehensibility for multimodal HAR. Extensive experiments on four public HAR datasets and weakly labeled dataset show that DanHAR achieves state-of-the-art performance with negligible overhead of parameters. Furthermore, visualizing analysis is provided to show that our attention can amplifies more important sensor modalities and timesteps during classification, which agrees well with human common intuition.
翻訳日:2022-11-17 04:17:26 公開日:2021-07-21
# 単一画像と感情条件からの音声駆動型発話顔生成

Speech Driven Talking Face Generation from a Single Image and an Emotion Condition ( http://arxiv.org/abs/2008.03592v2 )

ライセンス: Link先を確認
Sefik Emre Eskimez, You Zhang, Zhiyao Duan(参考訳) 視覚的感情表現は音声視覚音声通信において重要な役割を果たす。 本研究では,音声駆動型発話表情生成における視覚感情表現の新たな手法を提案する。 具体的には、音声発話、単一顔画像、カテゴリー感情ラベルを入力として、音声に同期した話し顔映像をレンダリングし、条件付感情を表現するエンドツーエンドの話し顔生成システムを設計する。 映像品質,視聴覚同期,視覚表情の客観的評価は,提案手法が最先端のベースラインシステムよりも優れていることを示す。 視覚的感情表現と映像現実性の主観的評価は,提案システムの優越性を示す。 さらに,音声と視覚のモダリティにミスマッチした映像を用いた人間の感情認識パイロット実験を行った。 その結果、人間はこの課題の音声モダリティよりも視覚モダリティに反応することがわかった。

Visual emotion expression plays an important role in audiovisual speech communication. In this work, we propose a novel approach to rendering visual emotion expression in speech-driven talking face generation. Specifically, we design an end-to-end talking face generation system that takes a speech utterance, a single face image, and a categorical emotion label as input to render a talking face video synchronized with the speech and expressing the conditioned emotion. Objective evaluation on image quality, audiovisual synchronization, and visual emotion expression shows that the proposed system outperforms a state-of-the-art baseline system. Subjective evaluation of visual emotion expression and video realness also demonstrates the superiority of the proposed system. Furthermore, we conduct a human emotion recognition pilot study using generated videos with mismatched emotions among the audio and visual modalities. Results show that humans respond to the visual modality more significantly than the audio modality on this task.
翻訳日:2022-11-01 11:58:02 公開日:2021-07-21
# アドバンテージ重み付きオフラインメタ強化学習

Offline Meta-Reinforcement Learning with Advantage Weighting ( http://arxiv.org/abs/2008.06043v3 )

ライセンス: Link先を確認
Eric Mitchell, Rafael Rafailov, Xue Bin Peng, Sergey Levine, Chelsea Finn(参考訳) 本稿では,オフラインメタ強化学習(オフラインメタRL)問題設定を導入し,この設定でよく機能するアルゴリズムを提案する。 オフラインメタRLは、(おそらく様々なタスクから)修正済みデータの大規模なバッチ上でモデルを事前学習し、モデルを比較的少ないデータで新しいタスクに微調整するという、広く成功した教師付き学習戦略に類似している。 すなわち、オフラインのメタRLでは、新しいタスクからのデータ量が非常に少ない(5トラジェクトリ未満)新しいタスクに適応するために、いくつかのタスクから固定された事前コンパイルされたデータをメタトレーニングします。 オフラインである性質から、オフラインのmeta-rlのアルゴリズムは利用可能な最大のトレーニングデータのプールを活用でき、メタトレーニング中に潜在的に安全でコストのかかるデータ収集を取り除くことができる。 この設定は、オフラインRLの課題を継承するが、オフラインRLが一般的に考慮しないため、大きな違いがある。 a) 新しい仕事への移転 b) オフラインのmeta-rlで直面するテストタスクからの限られたデータ。 オフラインのメタrl設定をターゲットとして,メタ学習のループ内外の両方に対して,単純な教師付き回帰目標を用いた最適化型メタ学習アルゴリズムmacawを提案する。 共通メタRLベンチマークのオフライン変種について、本手法が完全にオフラインのメタ強化学習を可能にし、先行手法よりも顕著なゲインを達成することを実証的に見出した。

This paper introduces the offline meta-reinforcement learning (offline meta-RL) problem setting and proposes an algorithm that performs well in this setting. Offline meta-RL is analogous to the widely successful supervised learning strategy of pre-training a model on a large batch of fixed, pre-collected data (possibly from various tasks) and fine-tuning the model to a new task with relatively little data. That is, in offline meta-RL, we meta-train on fixed, pre-collected data from several tasks in order to adapt to a new task with a very small amount (less than 5 trajectories) of data from the new task. By nature of being offline, algorithms for offline meta-RL can utilize the largest possible pool of training data available and eliminate potentially unsafe or costly data collection during meta-training. This setting inherits the challenges of offline RL, but it differs significantly because offline RL does not generally consider a) transfer to new tasks or b) limited data from the test task, both of which we face in offline meta-RL. Targeting the offline meta-RL setting, we propose Meta-Actor Critic with Advantage Weighting (MACAW), an optimization-based meta-learning algorithm that uses simple, supervised regression objectives for both the inner and outer loop of meta-training. On offline variants of common meta-RL benchmarks, we empirically find that this approach enables fully offline meta-reinforcement learning and achieves notable gains over prior methods.
翻訳日:2022-10-30 22:20:47 公開日:2021-07-21
# 限られた場所における施設立地の戦略実証機構

Strategy Proof Mechanisms for Facility Location at Limited Locations ( http://arxiv.org/abs/2009.07982v2 )

ライセンス: Link先を確認
Toby Walsh(参考訳) 施設の立地問題は、施設が任意の位置に置かれることをしばしば許可する。 しかし、もしこれが実際にはそうでないとしたら? 高速道路の出口やバス停の近くなど、特定の場所にしか設備が配置できないとしたらどうだろう? We consider here the impact of such constraints on the location of facilities on the performance of strategy proof mechanisms for locating facilities.We study four different performance objectives: the total distance agents must travel to their closest facility, the maximum distance any agent must travel to their closest facility, and the utilitarian and egalitarian welfare.We show that constraining facilities to a limited set of locations makes all four objectives harder to approximate in general.

Facility location problems often permit facilities to be located at any position. But what if this is not the case in practice? What if facilities can only be located at particular locations like a highway exit or close to a bus stop? We consider here the impact of such constraints on the location of facilities on the performance of strategy proof mechanisms for locating facilities.We study four different performance objectives: the total distance agents must travel to their closest facility, the maximum distance any agent must travel to their closest facility, and the utilitarian and egalitarian welfare.We show that constraining facilities to a limited set of locations makes all four objectives harder to approximate in general.
翻訳日:2022-10-17 11:56:06 公開日:2021-07-21
# Deep4Air:空港の上空監視のための新しいディープラーニングフレームワーク

Deep4Air: A Novel Deep Learning Framework for Airport Airside Surveillance ( http://arxiv.org/abs/2010.00806v2 )

ライセンス: Link先を確認
Phat Thai, Sameer Alam, Nimrod Lilith, Phu N. Tran, Binh Nguyen Thanh(参考訳) 空港滑走路・タクシー道(エアサイド)エリアは、可視性と交通状況の異なる様々な種類の車両(速度と寸法)間の相互作用を特徴とする、非常にダイナミックで複雑な環境である。 空港の地上移動は安全クリティカルな活動と見なされ、安全分離手順は航空管制官(atc)によって維持されなければならない。 複雑な滑走路税制の空港は高度な地上監視システムを使用している。 しかし、これらのシステムには固有の制限とリアルタイム分析の欠如がある。 本稿では,滑走路やタクシーの航空機位置の自動監視による地上監視システムを強化するだけでなく,滑走路やタクシーにおける航空機のリアルタイム速度と距離分析を提供する,新しいコンピュータビジョンベースのフレームワーク「deep4air」を提案する。 提案するフレームワークは、航空機を効率的に検出・追跡する適応型ディープニューラルネットワークを含む。 実験の結果、ジョージ・ブッシュ大陸間空港のデジタルタワーからの監視ビデオの検証を行い、シミュレーションデータから最大99.8%の精度で検出と追跡を行うことができた。 また,「ディープ4エア」は空港滑走路やタクシーのインフラに対して高い精度で航空機の位置を特定できることを示した。 さらに、航空機の速度と分離距離をリアルタイムで監視し、安全管理を強化する。

An airport runway and taxiway (airside) area is a highly dynamic and complex environment featuring interactions between different types of vehicles (speed and dimension), under varying visibility and traffic conditions. Airport ground movements are deemed safety-critical activities, and safe-separation procedures must be maintained by Air Traffic Controllers (ATCs). Large airports with complicated runway-taxiway systems use advanced ground surveillance systems. However, these systems have inherent limitations and a lack of real-time analytics. In this paper, we propose a novel computer-vision based framework, namely "Deep4Air", which can not only augment the ground surveillance systems via the automated visual monitoring of runways and taxiways for aircraft location, but also provide real-time speed and distance analytics for aircraft on runways and taxiways. The proposed framework includes an adaptive deep neural network for efficiently detecting and tracking aircraft. The experimental results show an average precision of detection and tracking of up to 99.8% on simulated data with validations on surveillance videos from the digital tower at George Bush Intercontinental Airport. The results also demonstrate that "Deep4Air" can locate aircraft positions relative to the airport runway and taxiway infrastructure with high accuracy. Furthermore, aircraft speed and separation distance are monitored in real-time, providing enhanced safety management.
翻訳日:2022-10-12 01:42:43 公開日:2021-07-21
# AbdomenCT-1K:腹部臓器切開は解決の問題か?

AbdomenCT-1K: Is Abdominal Organ Segmentation A Solved Problem? ( http://arxiv.org/abs/2010.14808v2 )

ライセンス: Link先を確認
Jun Ma, Yao Zhang, Song Gu, Cheng Zhu, Cheng Ge, Yichi Zhang, Xingle An, Congcong Wang, Qiyuan Wang, Xin Liu, Shucheng Cao, Qi Zhang, Shangqing Liu, Yunpeng Wang, Yuhui Li, Jian He, Xiaoping Yang(参考訳) 深層学習における前例のない進歩により,多くのベンチマークデータセットにおいて,最先端のSOTA (State-of-the-art) 手法がレータ間変動に匹敵する結果を得たため,主腹部臓器の自動分割は解決された問題であると考えられる。 しかし,既存の腹部データセットの多くは単一中心,単相,単相,単相のケースのみを含んでおり,優れたパフォーマンスが多様なデータセットで一般化できるかどうかは不明である。 本稿では,多段階,多ベンダ,多疾患を含む12の医療センターから1000 (1K) 以上のCTスキャンを行い,AbdomenCT-1Kとよばれる腹部CT臓器分割データセットを提案する。 さらに, 肝臓, 腎臓, 脾臓, 膵臓のセグメンテーションを大規模に検討し, 異なる医療センター, フェーズ, 未確認疾患に対する限定的な一般化能力など, SOTA法の未解決セグメンテーション問題を明らかにする。 未解決問題を進めるため,我々は,現在挑戦的で活発な研究課題である,完全教師あり,半教師あり,弱い教師あり,継続的な学習のための4つの臓器分節ベンチマークを構築した。 そこで本研究では,各ベンチマークに対する簡易かつ効果的な手法を開発し,既定の手法と強力なベースラインとして使用できる。 abdomenct-1kデータセットは,臨床応用腹部臓器分画法に関する今後の詳細な研究を促進するものと思われる。 データセット、コード、トレーニングされたモデルはhttps://github.com/JunMa11/AbdomenCT-1Kで公開されている。

With the unprecedented developments in deep learning, automatic segmentation of main abdominal organs seems to be a solved problem as state-of-the-art (SOTA) methods have achieved comparable results with inter-rater variability on many benchmark datasets. However, most of the existing abdominal datasets only contain single-center, single-phase, single-vendor, or single-disease cases, and it is unclear whether the excellent performance can generalize on diverse datasets. This paper presents a large and diverse abdominal CT organ segmentation dataset, termed AbdomenCT-1K, with more than 1000 (1K) CT scans from 12 medical centers, including multi-phase, multi-vendor, and multi-disease cases. Furthermore, we conduct a large-scale study for liver, kidney, spleen, and pancreas segmentation and reveal the unsolved segmentation problems of the SOTA methods, such as the limited generalization ability on distinct medical centers, phases, and unseen diseases. To advance the unsolved problems, we further build four organ segmentation benchmarks for fully supervised, semi-supervised, weakly supervised, and continual learning, which are currently challenging and active research topics. Accordingly, we develop a simple and effective method for each benchmark, which can be used as out-of-the-box methods and strong baselines. We believe the AbdomenCT-1K dataset will promote future in-depth research towards clinical applicable abdominal organ segmentation methods. The datasets, codes, and trained models are publicly available at https://github.com/JunMa11/AbdomenCT-1K.
翻訳日:2022-10-02 05:30:22 公開日:2021-07-21
# 深いガウス過程の変分推論における信号対雑音比問題について

On Signal-to-Noise Ratio Issues in Variational Inference for Deep Gaussian Processes ( http://arxiv.org/abs/2011.00515v2 )

ライセンス: Link先を確認
Tim G. J. Rudner, Oscar Key, Yarin Gal, Tom Rainforth(参考訳) 重み付き変分推論を用いたDGP(Deep Gaussian Processs)の訓練で用いられる勾配推定は,信号-雑音比(SNR)問題の影響を受けやすいことを示す。 具体的には,潜伏変数の変動パラメータの勾配推定のSNRが,重要サンプル数の増加とともに減少することを示す。 結果として、これらの勾配推定は、重要サンプルの数が大きすぎると純粋なノイズに劣化する。 この病理学に対処するために、もともと変分オートエンコーダをトレーニングするために提案された2倍のパラメータ化勾配推定器をDGP設定に適用し、その結果の推定器がSNR問題を完全に修復し、より信頼性の高いトレーニングを行う方法を示す。 最後に、この修正により、dgpモデルの予測性能が一貫して改善できることを実証する。

We show that the gradient estimates used in training Deep Gaussian Processes (DGPs) with importance-weighted variational inference are susceptible to signal-to-noise ratio (SNR) issues. Specifically, we show both theoretically and via an extensive empirical evaluation that the SNR of the gradient estimates for the latent variable's variational parameters decreases as the number of importance samples increases. As a result, these gradient estimates degrade to pure noise if the number of importance samples is too large. To address this pathology, we show how doubly reparameterized gradient estimators, originally proposed for training variational autoencoders, can be adapted to the DGP setting and that the resultant estimators completely remedy the SNR issue, thereby providing more reliable training. Finally, we demonstrate that our fix can lead to consistent improvements in the predictive performance of DGP models.
翻訳日:2022-09-30 22:44:48 公開日:2021-07-21
# 不確実性向上に向けて:マルチタスク感情認識のための効率的なネットワークの反復学習

Towards Better Uncertainty: Iterative Training of Efficient Networks for Multitask Emotion Recognition ( http://arxiv.org/abs/2108.04228v1 )

ライセンス: Link先を確認
Didan Deng, Liang Wu, Bertram E. Shi(参考訳) 感情を認識するとき、感情の微妙なニュアンスはしばしば感情知覚の曖昧さや不確実性を引き起こす。 残念ながら、曖昧さや不確実性はハードな感情ラベルには反映できない。 不確実性を伴う感情予測はリスクコントロールに有用であるが、現在の感情認識の深層モデルでは比較的少ない。 この問題に対処するために,多世代自己蒸留アルゴリズムを感情認識タスクに適用し,不確実性推定性能を向上させることを提案する。 まずディープアンサンブルを用いて不確実性を捉え、ベイズ法を近似する。 第二に、deep ensembleは学生モデルにソフトラベルを提供し、学生モデルはソフトラベルに埋め込まれた不確実性から学ぶことができる。 第3に,深いアンサンブルを反復的に訓練し,感情認識と不確実性評価のさらなる向上を図る。 最後に、アルゴリズムは、ドメイン内不確かさを推定できる単一の学生モデルと、ドメイン外サンプルを検出できる学生アンサンブルを生成する。 aff-wild2データセット上で効率的なマルチタスク感情ネットワーク(emenet)をトレーニングし,感情認識と不確実性推定に関する広範な実験を行った。 本アルゴリズムは,温度スケールやモンテキャロルドロップアウトよりも信頼性の高い不確実性推定を行う。

When recognizing emotions, subtle nuances of emotion displays often cause ambiguity or uncertainty in emotion perception. Unfortunately, the ambiguity or uncertainty cannot be reflected in hard emotion labels. Emotion predictions with uncertainty can be useful for risk controlling, but they are relatively scarce in current deep models for emotion recognition. To address this issue, we propose to apply the multi-generational self-distillation algorithm to emotion recognition task towards better uncertainty estimation performance. We firstly use deep ensembles to capture uncertainty, as an approximation to Bayesian methods. Secondly, the deep ensemble provides soft labels to its student models, while the student models can learn from the uncertainty embedded in those soft labels. Thirdly, we iteratively train deep ensembles to further improve the performance of emotion recognition and uncertainty estimation. In the end, our algorithm results in a single student model that can estimate in-domain uncertainty and a student ensemble that can detect out-of-domain samples. We trained our Efficient Multitask Emotion Networks (EMENet) on the Aff-wild2 dataset, and conducted extensive experiments on emotion recognition and uncertainty estimation. Our algorithm gives more reliable uncertainty estimates than Temperature Scaling and Monte Carol Dropout.
翻訳日:2021-08-15 11:30:05 公開日:2021-07-21
# サインを探す - 連続ビデオで孤立したサインインスタンスを識別する

Looking for the Signs: Identifying Isolated Sign Instances in Continuous Video Footage ( http://arxiv.org/abs/2108.04229v1 )

ライセンス: Link先を確認
Tao Jiang, Necati Cihan Camgoz, Richard Bowden(参考訳) 本稿では,ワンショットサインスポッティングの課題,すなわち,課題に焦点を当てる。 孤立した記号(クエリ)の例が与えられると、この記号が連続した共言語手話ビデオ(target)に現れるかどうかを識別したい。 この目的を達成するために、SignLookupと呼ばれるトランスフォーマーベースのネットワークを提案する。 ビデオクリップから時空間表現を抽出するために3次元畳み込みニューラルネットワーク(CNN)を用いる。 問合せと対象ビデオの時間スケールの相違を解決するために,異なるフレームレベルのストライドを用いて,単一のビデオクリップから複数のクエリを構築する。 これらのクエリクリップに自己注意を適用して、連続的なスケール空間をシミュレートする。 また,ターゲットビデオ上の別のセルフアテンションモジュールを使用して,シーケンス内のコンテキストを学習する。 最後に、相互アテンションを使用して時間スケールを一致させ、クエリをターゲットシーケンス内でローカライズする。 広範な実験により,提案手法は,シグナーの出現によらず,連続映像中の孤立した記号を確実に識別できるだけでなく,異なるシグナー言語に一般化できることが示された。 本モデルでは,注意機構と適応的特徴を生かして,難解なベンチマークデータセットの精度を96%まで向上させ,他の手法を著しく上回っている。

In this paper, we focus on the task of one-shot sign spotting, i.e. given an example of an isolated sign (query), we want to identify whether/where this sign appears in a continuous, co-articulated sign language video (target). To achieve this goal, we propose a transformer-based network, called SignLookup. We employ 3D Convolutional Neural Networks (CNNs) to extract spatio-temporal representations from video clips. To solve the temporal scale discrepancies between the query and the target videos, we construct multiple queries from a single video clip using different frame-level strides. Self-attention is applied across these query clips to simulate a continuous scale space. We also utilize another self-attention module on the target video to learn the contextual within the sequence. Finally a mutual-attention is used to match the temporal scales to localize the query within the target sequence. Extensive experiments demonstrate that the proposed approach can not only reliably identify isolated signs in continuous videos, regardless of the signers' appearance, but can also generalize to different sign languages. By taking advantage of the attention mechanism and the adaptive features, our model achieves state-of-the-art performance on the sign spotting task with accuracy as high as 96% on challenging benchmark datasets and significantly outperforming other approaches.
翻訳日:2021-08-15 11:29:45 公開日:2021-07-21
# GAN法による夜間の合成気象衛星可視光画像の作成

Creating synthetic meteorology satellite visible light images during night based on GAN method ( http://arxiv.org/abs/2108.04330v1 )

ライセンス: Link先を確認
CHENG Wencong (1) ((1) Beijing Aviation Meteorological Institute)(参考訳) 気象衛星可視光画像は気象支援と予測に不可欠である。 しかし、夜間にはそのようなデータは存在しない。 そこで本研究では,夜間に合成衛星可視光画像を作成するための深層学習に基づく手法を提案する。 具体的には、より現実的な製品を製造するために、GANモデルを訓練し、対応する衛星赤外線画像と数値気象予測(NWP)製品から可視光画像を生成する。 赤外線データとNWP生成物から可視光画像への非線形関係をモデル化するために,SEBlockなどのチャネルワイドアテンション機構を用いて入力チャネルを定量的に重み付けする手法を提案する。 ecmwf nwp製品とfy-4a気象衛星可視光と赤外線チャネルを用いた実験は、提案手法が夜間に合成衛星可視光画像を作成するのに有効であることを示した。

Meteorology satellite visible light images is critical for meteorology support and forecast. However, there is no such kind of data during night time. To overcome this, we propose a method based on deep learning to create synthetic satellite visible light images during night. Specifically, to produce more realistic products, we train a Generative Adversarial Networks (GAN) model to generate visible light images given the corresponding satellite infrared images and numerical weather prediction(NWP) products. To better model the nonlinear relationship from infrared data and NWP products to visible light images, we propose to use the channel-wise attention mechanics, e.g., SEBlock to quantitative weight the input channels. The experiments based on the ECMWF NWP products and FY-4A meteorology satellite visible light and infrared channels date show that the proposed methods can be effective to create realistic synthetic satellite visible light images during night.
翻訳日:2021-08-15 11:28:58 公開日:2021-07-21
# (参考訳) ラフセットに基づくスパンニングセットを用いた意思決定システム

Decision Making Using Rough Set based Spanning Sets for a Decision System ( http://arxiv.org/abs/2107.12477v1 )

ライセンス: CC BY 4.0
Nidhika Yadav(参考訳) ラフセットに基づくスパンとスパンニングセットの概念は、データの不確実性を扱うために最近提案された。 本稿では,決定表にRough Setをベースとしたスパンを用いた一般的な意思決定プロセスの新しい概念を提案する。 人工知能における問題の多くは意思決定に対処する。 本稿では,決定表に対するラフセットに基づくスパンの実際の応用について述べる。 ここでは, 洪水救助と救助隊の任務の実例を例に, 決定表のためのスパンという新しい概念を提案する。 その用途、応用、特性を探求する。 論文の主な貢献は主に、事前の作業における情報システムに対して、決定表にRough SetベースのSpanを用いた意思決定を研究することである。 ここでの主な貢献は、決定クラスが特定の問題に対してラフセットベースのスパンのテクニックによって自動的に学習され、意思決定プロセスが自動化されることである。 spanに基づくこれらの意思決定ツールは、厳しい状況と時間的な状況における意思決定の専門家を導くことができる。

Rough Set based concepts of Span and Spanning Sets were recently proposed to deal with uncertainties in data. Here, this paper, presents novel concepts for generic decision-making process using Rough Set based span for a decision table. Majority of problems in Artificial Intelligence deal with decision making. This paper provides real life applications of proposed Rough Set based span for decision tables. Here, novel concept of span for a decision table is proposed, illustrated with real life example of flood relief and rescue team assignment. Its uses, applications and properties are explored. The key contribution of paper is primarily to study decision making using Rough Set based Span for a decision tables, as against an information system in prior works. Here, the main contribution is that decision classes are automatically learned by the technique of Rough Set based span, for a particular problem, hence automating the decision-making process. These decision-making tools based on span can guide an expert in taking decisions in tough and time-bound situations.
翻訳日:2021-08-01 12:24:03 公開日:2021-07-21
# ガラス基板上のポリスチレン薄膜厚みの最適化のための脳インスパイアコンピューティングアプローチ

Brain Inspired Computing Approach for the Optimization of the Thin Film Thickness of Polystyrene on the Glass Substrates ( http://arxiv.org/abs/2107.12156v1 )

ライセンス: Link先を確認
Akshansh Mishra and Devarrishi Dixit(参考訳) 機械学習の出現は、マテリアルサイエンスの分野を含むさまざまな分野に大きな影響を与えている。 本稿では, 多項式回帰, 決定木回帰アルゴリズム, ランダムフォレストアルゴリズム, 支持ベクトル回帰アルゴリズム, 人工ニューラルネットワークアルゴリズムなどの教師付き機械学習回帰アルゴリズムを適用し, ガラス基板上のポリスチレンの薄膜厚を決定する。 その結果,多項式回帰機械学習アルゴリズムは0.96の判定係数と平均2乗誤差0.04の判定係数をそれぞれ与え,他の機械学習モデルよりも優れていた。

Advent in machine learning is leaving a deep impact on various sectors including the material science domain. The present paper highlights the application of various supervised machine learning regression algorithms such as polynomial regression, decision tree regression algorithm, random forest algorithm, support vector regression algorithm, and artificial neural network algorithm to determine the thin film thickness of Polystyrene on the glass substrates. The results showed that the polynomial regression machine learning algorithm outperforms all other machine learning models by yielding the coefficient of determination of 0.96 approximately and mean square error of 0.04 respectively.
翻訳日:2021-08-01 11:06:19 公開日:2021-07-21
# ディープニューラルネットワークを用いた経済活動予測

Economic Recession Prediction Using Deep Neural Network ( http://arxiv.org/abs/2107.10980v1 )

ライセンス: Link先を確認
Zihao Wang, Kun Li, Steve Q. Xia, Hongfu Liu(参考訳) 異なる機械学習手法による経済サイクル予測の有効性について検討する。 我々は,米国における景気後退の開始と終了を予測するための最も正確なモデルとして,Bi-LSTMとAutoencoderのディープラーニング手法を同定する。 予測変数とモデル係数が時間とともに変化する場合,提案モデルは柔軟かつ動的である。 過去2回の景気後退と、新型コロナウイルス(COVID-19)の景気後退について早期に警告した。

We investigate the effectiveness of different machine learning methodologies in predicting economic cycles. We identify the deep learning methodology of Bi-LSTM with Autoencoder as the most accurate model to forecast the beginning and end of economic recessions in the U.S. We adopt commonly-available macro and market-condition features to compare the ability of different machine learning models to generate good predictions both in-sample and out-of-sample. The proposed model is flexible and dynamic when both predictive variables and model coefficients vary over time. It provided good out-of-sample predictions for the past two recessions and early warning about the COVID-19 recession.
翻訳日:2021-07-26 14:12:42 公開日:2021-07-21
# (参考訳) 音声映像感情認識のためのマルチモーダル残留パーセプトロンネットワーク

Multi-modal Residual Perceptron Network for Audio-Video Emotion Recognition ( http://arxiv.org/abs/2107.10742v1 )

ライセンス: CC BY 4.0
Xin Chang and W{\l}adys{\l}aw Skarbek(参考訳) 感情認識はヒューマン・コンピュータ・インタラクション(HCI)にとって重要な研究分野である。 AVER(Audio-Video Emotion Recognition)は現在、Deep Neural Network (DNN)モデリングツールで攻撃されている。 出版論文では、原則として、著者らは、オーディオのみまたはビデオのみのモダリティよりも、複数のモダリティが優れているケースのみを示す。 しかし、単一モダリティにおいて優位なケースもある。 本研究では,感情事象のファジィカテゴリに対して,一方のモダリティのノイズが高ければ高いほど,モデリングニューラルネットワークのパラメータに間接的に表される第2のモダリティの低ノイズが増幅する,という仮説を定式化する。 このようなクロスモーダルな情報干渉を避けるために、ノイズを低減した深い特徴表現を生成するマルチモーダルネットワークブランチから学習するMRPN(Multi-modal Residual Perceptron Network)を定義する。 提案するmrpnモデルとストリーミングされたデジタル映画の平均認識率は,ryerson audio-visual database of emotional speech and song(ravdess)データセットの91.4%,クラウドソース感情多モーダルアクタデータセット(crema-d)の83.15%に向上した。 さらに、mrpnの概念は、光学的および音響的タイプだけでなく、信号源を扱うマルチモーダル分類器にその可能性を示す。

Emotion recognition is an important research field for Human-Computer Interaction(HCI). Audio-Video Emotion Recognition (AVER) is now attacked with Deep Neural Network (DNN) modeling tools. In published papers, as a rule, the authors show only cases of the superiority of multi modalities over audio-only or video-only modalities. However, there are cases superiority in single modality can be found. In our research, we hypothesize that for fuzzy categories of emotional events, the higher noise of one modality can amplify the lower noise of the second modality represented indirectly in the parameters of the modeling neural network. To avoid such cross-modal information interference we define a multi-modal Residual Perceptron Network (MRPN) which learns from multi-modal network branches creating deep feature representation with reduced noise. For the proposed MRPN model and the novel time augmentation for streamed digital movies, the state-of-art average recognition rate was improved to 91.4% for The Ryerson Audio-Visual Database of Emotional Speech and Song(RAVDESS) dataset and to 83.15% for Crowd-sourced Emotional multi-modal Actors Dataset(Crema-d). Moreover, the MRPN concept shows its potential for multi-modal classifiers dealing with signal sources not only of optical and acoustical type.
翻訳日:2021-07-24 01:20:38 公開日:2021-07-21
# (参考訳) Fed-ensemble:フェデレーション学習におけるモデル構成による一般化の改善

Fed-ensemble: Improving Generalization through Model Ensembling in Federated Learning ( http://arxiv.org/abs/2107.10663v1 )

ライセンス: CC BY 4.0
Naichen Shi, Fan Lai, Raed Al Kontar, Mosharaf Chowdhury(参考訳) 本稿では,federated learning(fl)にモデルセンスリングをもたらす単純な手法であるfederated-ensembleを提案する。 単一のグローバルモデルを更新するためにローカルモデルを集約する代わりに、feed-ensembleはランダムな置換を使ってkモデルのグループを更新し、モデル平均化によって予測を得る。 fed-ensembleは確立されたflメソッド内で容易に利用することができ、各通信ラウンド毎にクライアントに送信されるkモデルの1つだけを必要とするため、計算オーバーヘッドを課さない。 理論的には、全てのkモデルからのnewdataの予測は、神経接核系下で同じ予測後続分布に属する。 この結果、モデル平均化の一般化の利点に光を当てる。 また、Fed-ensembleはエレガントなベイズ解釈を持つ。 実験結果から,本モデルは複数のFLアルゴリズムよりも優れた性能を示し,様々なデータセットにおいて,FLアプリケーションでしばしば発生する不均一な設定において優れることがわかった。

In this paper we propose Fed-ensemble: a simple approach that bringsmodel ensembling to federated learning (FL). Instead of aggregating localmodels to update a single global model, Fed-ensemble uses random permutations to update a group of K models and then obtains predictions through model averaging. Fed-ensemble can be readily utilized within established FL methods and does not impose a computational overhead as it only requires one of the K models to be sent to a client in each communication round. Theoretically, we show that predictions on newdata from all K models belong to the same predictive posterior distribution under a neural tangent kernel regime. This result in turn sheds light onthe generalization advantages of model averaging. We also illustrate thatFed-ensemble has an elegant Bayesian interpretation. Empirical results show that our model has superior performance over several FL algorithms,on a wide range of data sets, and excels in heterogeneous settings often encountered in FL applications.
翻訳日:2021-07-24 01:01:40 公開日:2021-07-21
# (参考訳) 機械学習アルゴリズムによる極端条件下でのパワーエレクトロニクスデバイスの信頼性予測

Predicting Power Electronics Device Reliability under Extreme Conditions with Machine Learning Algorithms ( http://arxiv.org/abs/2107.10292v1 )

ライセンス: CC BY 4.0
Carlos Olivares, Raziur Rahman, Christopher Stankus, Jade Hampton, Andrew Zedwick, Moinuddin Ahmed(参考訳) 電力デバイスの信頼性は極端な環境下での運用において大きな関心事であり、これにより電力システムやセンシングインフラストラクチャの運用寿命が削減される。 システム障害の可能性があるため、デバイスは実装前に実験的に検証されなければならない。 本稿では,機械学習アルゴリズムを用いてデバイスの信頼性を予測し,実験を行う必要性を著しく低減した。 モデルを訓練するために、我々は10の異なるメーカーの224の電源デバイスをテストした。 まず,モデリングのためにデータを処理する方法について述べる。 社内試験データに基づいて各種MLモデルを実装し,グラディエントブースティングやLSTMエンコーダデコーダネットワークなどの計算モデルにより,高精度で電源装置故障を予測できることを示した。

Power device reliability is a major concern during operation under extreme environments, as doing so reduces the operational lifetime of any power system or sensing infrastructure. Due to a potential for system failure, devices must be experimentally validated before implementation, which is expensive and time-consuming. In this paper, we have utilized machine learning algorithms to predict device reliability, significantly reducing the need for conducting experiments. To train the models, we have tested 224 power devices from 10 different manufacturers. First, we describe a method to process the data for modeling purposes. Based on the in-house testing data, we implemented various ML models and observed that computational models such as Gradient Boosting and LSTM encoder-decoder networks can predict power device failure with high accuracy.
翻訳日:2021-07-24 00:14:44 公開日:2021-07-21
# (参考訳) mmPose-NLP:mmWaveレーダを用いた精密骨格電位推定のための自然言語処理手法

mmPose-NLP: A Natural Language Processing Approach to Precise Skeletal Pose Estimation using mmWave Radars ( http://arxiv.org/abs/2107.10327v1 )

ライセンス: CC BY 4.0
Arindam Sengupta and Siyang Cao(参考訳) 本稿では,ミリ波(mmwave)レーダデータを用いた,新たな自然言語処理(nlp)を応用した,骨格キーポイント推定器mmpose-nlpを提案する。 著者の知る限りでは、これはmmWaveレーダーデータだけで25個の骨格キーポイントを正確に推定する最初の方法である。 骨格のポーズ推定は、自動運転車、交通監視、患者モニタリング、歩行分析、防衛セキュリティ法医学、予防的かつ行動可能な意思決定の支援など、いくつかのアプリケーションにおいて重要である。 この作業にmmWaveレーダーを用いることは、従来の光学センサーよりも多くの利点をもたらし、主に照明の運用上の堅牢さと、光学センサーの性能が著しく低下する悪天候条件に寄与する。 提案したmmPose-NLPアーキテクチャでは、25個の骨格キーポイント(NLPのキーワード抽出に類似)のボクセル指標を予測し、まず、mWaveレーダポイントクラウド(PCL)データを最初にボクセル化(NLPのトークン化と類似)し、このボクセル化レーダデータのN$フレーム(NLPのテキスト段落と類似)を推定する。 ボクセルインデックスは、トークン化プロセスで使用されるボクセル辞書を用いて実世界の3次元座標に変換される。 平均絶対誤差 (MAE) 測定値を用いて, 提案手法の精度を実測し, 提案したmmPose-NLPは深さ, 水平軸, 垂直軸に<3cmの局所誤差を与える。 n = {1,2,..,10} に対して,入力フレーム数とパフォーマンス/精度の影響も検討した。 本論文では,包括的な方法論,結果,議論,限界について述べる。 ソースコードと結果はすべてGitHubで公開されており、mWaveレーダを使用した骨格キーポイント推定という重要な領域の研究と開発が進められている。

In this paper we presented mmPose-NLP, a novel Natural Language Processing (NLP) inspired Sequence-to-Sequence (Seq2Seq) skeletal key-point estimator using millimeter-wave (mmWave) radar data. To the best of the author's knowledge, this is the first method to precisely estimate upto 25 skeletal key-points using mmWave radar data alone. Skeletal pose estimation is critical in several applications ranging from autonomous vehicles, traffic monitoring, patient monitoring, gait analysis, to defense security forensics, and aid both preventative and actionable decision making. The use of mmWave radars for this task, over traditionally employed optical sensors, provide several advantages, primarily its operational robustness to scene lighting and adverse weather conditions, where optical sensor performance degrade significantly. The mmWave radar point-cloud (PCL) data is first voxelized (analogous to tokenization in NLP) and $N$ frames of the voxelized radar data (analogous to a text paragraph in NLP) is subjected to the proposed mmPose-NLP architecture, where the voxel indices of the 25 skeletal key-points (analogous to keyword extraction in NLP) are predicted. The voxel indices are converted back to real world 3-D coordinates using the voxel dictionary used during the tokenization process. Mean Absolute Error (MAE) metrics were used to measure the accuracy of the proposed system against the ground truth, with the proposed mmPose-NLP offering <3 cm localization errors in the depth, horizontal and vertical axes. The effect of the number of input frames vs performance/accuracy was also studied for N = {1,2,..,10}. A comprehensive methodology, results, discussions and limitations are presented in this paper. All the source codes and results are made available on GitHub for furthering research and development in this critical yet emerging domain of skeletal key-point estimation using mmWave radars.
翻訳日:2021-07-24 00:02:42 公開日:2021-07-21
# (参考訳) マルチストリームトランス

Multi-Stream Transformers ( http://arxiv.org/abs/2107.10342v1 )

ライセンス: CC BY 4.0
Mikhail Burtsev and Anna Rumshisky(参考訳) トランスフォーマーベースのエンコーダデコーダモデルは、各エンコーダ層の後、融合トークン単位の表現を生成する。 本稿では,エンコーダが符号化プロセスの最後に組み合わされた代替仮説の保存と探索を可能にする効果について検討する。 そこで我々は、$\textit{Multi-stream Transformer}$アーキテクチャの設計と検討を行い、Transformerエンコーダを複数のエンコーダストリームに分割し、複数の表現仮説をマージできるようにすることで性能が向上し、第1層と最終エンコーダ層の間にスキップ接続を追加することでさらなる改善が得られた。

Transformer-based encoder-decoder models produce a fused token-wise representation after every encoder layer. We investigate the effects of allowing the encoder to preserve and explore alternative hypotheses, combined at the end of the encoding process. To that end, we design and examine a $\textit{Multi-stream Transformer}$ architecture and find that splitting the Transformer encoder into multiple encoder streams and allowing the model to merge multiple representational hypotheses improves performance, with further improvement obtained by adding a skip connection between the first and the final encoder layer.
翻訳日:2021-07-23 23:42:02 公開日:2021-07-21
# (参考訳) 読み人種:aiは医療画像で患者の人種的アイデンティティを認識する

Reading Race: AI Recognises Patient's Racial Identity In Medical Images ( http://arxiv.org/abs/2107.10356v1 )

ライセンス: CC BY 4.0
Imon Banerjee, Ananth Reddy Bhimireddy, John L. Burns, Leo Anthony Celi, Li-Ching Chen, Ramon Correa, Natalie Dullerud, Marzyeh Ghassemi, Shih-Cheng Huang, Po-Chih Kuo, Matthew P Lungren, Lyle Palmer, Brandon J Price, Saptarshi Purkayastha, Ayis Pyrros, Luke Oakden-Rayner, Chima Okechukwu, Laleh Seyyed-Kalantari, Hari Trivedi, Ryan Wang, Zachary Zaiman, Haoran Zhang, Judy W Gichoya(参考訳) 背景: 医学画像学では、先行研究では、人種ごとにAIのパフォーマンスが異なることが示されているが、画像を理解する人間の専門家にとって明らかな、医療画像の人種に関する相関関係は知られていない。 Methods: Using private and public datasets we evaluate: A) performance quantification of deep learning models to detect race from medical images, including the ability of these models to generalize to external environments and across multiple imaging modalities, B) assessment of possible confounding anatomic and phenotype population features, such as disease distribution and body habitus as predictors of race, and C) investigation into the underlying mechanism by which AI models can recognize race. 結果: 標準的なディープラーニングモデルは、複数の画像モードにまたがる高いパフォーマンスを持つ医療画像から人種を予測するように訓練することができる。 臨床的に動機づけられたタスクの実行にモデルが最適化された場合と同様に, 外部の検証条件下でも有効である。 この検出は, 疾患の分布など, 自明なプロキシや画像関連サロゲート共変体によるものではないことを実証する。 最後に, 画像の解剖学的領域および周波数スペクトルについて, 緩和努力は困難であり, さらなる研究が必要であることを示す。 解釈: 自己報告された人種を予測するモデル能力は、それ自体が重要ではないことを強調する。 しかし、臨床の専門家ができないような環境では、AIが自己申告された人種 ― 腐敗、収穫、ノイズのある医療画像からでも -- を自覚的に予測できるという私たちの発見は、医療画像におけるすべてのモデル展開に対して巨大なリスクを生じさせます。

Background: In medical imaging, prior studies have demonstrated disparate AI performance by race, yet there is no known correlation for race on medical imaging that would be obvious to the human expert interpreting the images. Methods: Using private and public datasets we evaluate: A) performance quantification of deep learning models to detect race from medical images, including the ability of these models to generalize to external environments and across multiple imaging modalities, B) assessment of possible confounding anatomic and phenotype population features, such as disease distribution and body habitus as predictors of race, and C) investigation into the underlying mechanism by which AI models can recognize race. Findings: Standard deep learning models can be trained to predict race from medical images with high performance across multiple imaging modalities. Our findings hold under external validation conditions, as well as when models are optimized to perform clinically motivated tasks. We demonstrate this detection is not due to trivial proxies or imaging-related surrogate covariates for race, such as underlying disease distribution. Finally, we show that performance persists over all anatomical regions and frequency spectrum of the images suggesting that mitigation efforts will be challenging and demand further study. Interpretation: We emphasize that model ability to predict self-reported race is itself not the issue of importance. However, our findings that AI can trivially predict self-reported race -- even from corrupted, cropped, and noised medical images -- in a setting where clinical experts cannot, creates an enormous risk for all model deployments in medical imaging: if an AI model secretly used its knowledge of self-reported race to misclassify all Black patients, radiologists would not be able to tell using the same data the model has access to.
翻訳日:2021-07-23 23:35:29 公開日:2021-07-21
# (参考訳) アンサンブルに基づく不確実性定量化:ベイジアン対クレダル推論

Ensemble-based Uncertainty Quantification: Bayesian versus Credal Inference ( http://arxiv.org/abs/2107.10384v1 )

ライセンス: CC BY 4.0
Mohammad Hossein Shaker and Eyke H\"ullermeier(参考訳) 2つの重要な不確実性を区別し、定量化するアイデアは、しばしばアレタリック(aleatoric)とてんかん( epistemic)と呼ばれ、ここ数年で機械学習の研究で注目を集めている。 本稿では,不確実性定量化に対するアンサンブルに基づくアプローチを検討する。 異なるタイプの不確実性認識学習アルゴリズムを区別するため,我々はベイズ的手法と,いわゆるクレダル集合に基づくアプローチに着目し,自然にアンサンブル学習の観点から自らを示唆する。 どちらのアプローチも、アラート性およびてんかん性不確実性をどのように定量化するかという問題に対処する。 拒否オプションを用いた分類に関する実証的研究において, 対応する尺度の有効性を評価し, 比較した。

The idea to distinguish and quantify two important types of uncertainty, often referred to as aleatoric and epistemic, has received increasing attention in machine learning research in the last couple of years. In this paper, we consider ensemble-based approaches to uncertainty quantification. Distinguishing between different types of uncertainty-aware learning algorithms, we specifically focus on Bayesian methods and approaches based on so-called credal sets, which naturally suggest themselves from an ensemble learning point of view. For both approaches, we address the question of how to quantify aleatoric and epistemic uncertainty. The effectiveness of corresponding measures is evaluated and compared in an empirical study on classification with a reject option.
翻訳日:2021-07-23 23:34:14 公開日:2021-07-21
# 不確実性を考慮した分散自律ロボットのタスク割り当て

Uncertainty-Aware Task Allocation for Distributed Autonomous Robots ( http://arxiv.org/abs/2107.10350v1 )

ライセンス: Link先を確認
Liang Sun and Leonardo Escamilla(参考訳) 本稿では,分散自律ロボット(DAR)の状況認識における不確実性を伴うタスク配置問題に対処する。 タスク割り当てプロセス上の不確実性伝搬は、Sigma-Pointサンプリング機構を用いたUnscented変換を用いて行われる。 状況認識の不確実性を考慮することなく開発されている既存のタスクアロケーション法を変更する必要がないという意味で、汎用的なタスクアロケーションスキームに採用される可能性は非常に大きい。 提案したフレームワークは,複数の移動体飛行ロボットに割り当てられた複数の位置を,既知の平均と共分散のランダムな変数として最適に割り当てる必要がある,というシミュレーション環境でテストされた。 シミュレーションの結果,提案手法は不確実性を考慮せずに,全体のコストを30%削減した割当を生成することがわかった。

This paper addresses task-allocation problems with uncertainty in situational awareness for distributed autonomous robots (DARs). The uncertainty propagation over a task-allocation process is done by using the Unscented transform that uses the Sigma-Point sampling mechanism. It has great potential to be employed for generic task-allocation schemes, in the sense that there is no need to modify an existing task-allocation method that has been developed without considering the uncertainty in the situational awareness. The proposed framework was tested in a simulated environment where the decision-maker needs to determine an optimal allocation of multiple locations assigned to multiple mobile flying robots whose locations come as random variables of known mean and covariance. The simulation result shows that the proposed stochastic task allocation approach generates an assignment with 30% less overall cost than the one without considering the uncertainty.
翻訳日:2021-07-23 15:25:21 公開日:2021-07-21
# 電子顕微鏡データのFew-Shot Machine Learning分類のためのグラフィカルユーザインタフェースの設計

Design of a Graphical User Interface for Few-Shot Machine Learning Classification of Electron Microscopy Data ( http://arxiv.org/abs/2107.10387v1 )

ライセンス: Link先を確認
Christina Doty, Shaun Gallagher, Wenqi Cui, Wenya Chen, Shweta Bhushan, Marjolein Oostrom, Sarah Akers, Steven R. Spurgeon(参考訳) 最近の電子顕微鏡によるデータ量の増加は、画像のセグメンテーションと分析に迅速でスケーラブルで柔軟なアプローチを必要とする。 少数のユーザが提供する例から画像をリッチに分類できる、ショットの少ない機械学習は、ハイスループット分析への有望な道のりだ。 しかし、このようなアプローチの現在のコマンドライン実装は、効果的に分類を行うのに必要なリアルタイムのフィードバックが欠如しているため、使用が遅くて直感的です。 本稿では,Python ベースのグラフィカルユーザインタフェースの開発について報告する。 このインターフェースは軽量で、ローカルまたはweb上でホストすることができ、再現性のある分析、共有、クラウドソースのマイナショット分析の機会を提供する。

The recent growth in data volumes produced by modern electron microscopes requires rapid, scalable, and flexible approaches to image segmentation and analysis. Few-shot machine learning, which can richly classify images from a handful of user-provided examples, is a promising route to high-throughput analysis. However, current command-line implementations of such approaches can be slow and unintuitive to use, lacking the real-time feedback necessary to perform effective classification. Here we report on the development of a Python-based graphical user interface that enables end users to easily conduct and visualize the output of few-shot learning models. This interface is lightweight and can be hosted locally or on the web, providing the opportunity to reproducibly conduct, share, and crowd-source few-shot analyses.
翻訳日:2021-07-23 15:24:45 公開日:2021-07-21
# 特徴選択アルゴリズムを用いた教育データマイニングの精度解析

Accuracy analysis of Educational Data Mining using Feature Selection Algorithm ( http://arxiv.org/abs/2107.10669v1 )

ライセンス: Link先を確認
Ali Almalki, Pawel Wocjan(参考訳) 要約 - 学生の学業進捗を予測するために関連する情報を集めるのは面倒な作業です。 不正確な結果を提供するデータベースに存在する大量の無関係なデータのために。 現在、データには無関係な属性や特徴が多すぎるため、学生データを正確に測定し分析することは不可能である。 教育データマイニング(EDM)の助けを借りて、情報の質を向上させることができる。 本研究は、EDMが関連する属性と機械学習アルゴリズムを用いてデータの精度を測定する方法を示す。 EDMでは、元のデータを変更することなく、無関係な機能は削除される。 本研究で使用したデータセットはkaggle.comから取得した。 その結果,学生データの正確性を確認するために,リコール,精度,f-測定に基づいて比較した。 この研究の重要性は、研究者により正確な結果を提供することで、教育研究の質を向上させることである。

Abstract - Gathering relevant information to predict student academic progress is a tedious task. Due to the large amount of irrelevant data present in databases which provides inaccurate results. Currently, it is not possible to accurately measure and analyze student data because there are too many irrelevant attributes and features in the data. With the help of Educational Data Mining (EDM), the quality of information can be improved. This research demonstrates how EDM helps to measure the accuracy of data using relevant attributes and machine learning algorithms performed. With EDM, irrelevant features are removed without changing the original data. The data set used in this study was taken from Kaggle.com. The results compared on the basis of recall, precision and f-measure to check the accuracy of the student data. The importance of this research is to help improve the quality of educational research by providing more accurate results for researchers.
翻訳日:2021-07-23 15:22:11 公開日:2021-07-21
# 早期出力パラダイムによる不確かさによる高周波脳波アーチファクト検出

High Frequency EEG Artifact Detection with Uncertainty via Early Exit Paradigm ( http://arxiv.org/abs/2107.10746v1 )

ライセンス: Link先を確認
Lorena Qendro, Alexander Campbell, Pietro Li\`o, Cecilia Mascolo(参考訳) 脳波検査(EEG)は脳疾患のモニタリングと診断に重要である。 しかし、脳波信号は、その効果を制限する非ケレブラルアーティファクトによって引き起こされる摂動に苦しむ。 現在のアーティファクト検出パイプラインはリソース不足であり、手作りの機能に大きく依存している。 さらに、これらのパイプラインは本質的に決定論的であり、予測の不確実性を捉えることができない。 高周波脳波アーチファクト検出のためのディープラーニングフレームワークであるE4Gを提案する。 我々のフレームワークは初期の出口パラダイムを利用して、不確実性を捉えることのできるモデルの暗黙のアンサンブルを構築します。 我々は,テンプル大学病院脳波アーティファクトコーパス(v2.0)へのアプローチを評価し,最先端の分類結果を得た。 さらに、E4Gはモンテカルロのドロップアウトのようなサンプリングテクニックに匹敵する、十分な校正された不確実性指標を提供する。 E4Gは、臨床医のためのループフレームワークをサポートする不確実性を認識したアーティファクト検出への扉を開く。

Electroencephalography (EEG) is crucial for the monitoring and diagnosis of brain disorders. However, EEG signals suffer from perturbations caused by non-cerebral artifacts limiting their efficacy. Current artifact detection pipelines are resource-hungry and rely heavily on hand-crafted features. Moreover, these pipelines are deterministic in nature, making them unable to capture predictive uncertainty. We propose E4G, a deep learning framework for high frequency EEG artifact detection. Our framework exploits the early exit paradigm, building an implicit ensemble of models capable of capturing uncertainty. We evaluate our approach on the Temple University Hospital EEG Artifact Corpus (v2.0) achieving state-of-the-art classification results. In addition, E4G provides well-calibrated uncertainty metrics comparable to sampling techniques like Monte Carlo dropout in just a single forward pass. E4G opens the door to uncertainty-aware artifact detection supporting clinicians-in-the-loop frameworks.
翻訳日:2021-07-23 15:21:43 公開日:2021-07-21
# スパルシティーアルゴリズムと企業信用格付けへの応用

A Sparsity Algorithm with Applications to Corporate Credit Rating ( http://arxiv.org/abs/2107.10306v1 )

ライセンス: Link先を確認
Dan Wang, Zhi Chen, Ionut Florescu(参考訳) 人工知能では、しばしばブラックボックスと呼ばれる機械学習技術の結果を解釈することは難しい課題である。 特定の「ブラックボックス」の反事実的な説明は、元のもの以外の特定の出力に予測を変更する入力値の最小の変更を見つけようとするものである。 本研究では,最適化問題として反事実的説明を求める問題を定式化する。 最適化問題を解く新しい「スパーシティアルゴリズム」を提案し,反事実説明のスパーシティを最大化する。 本アルゴリズムは、公開企業に対して、信用格付けを改善するための簡単な提案を行うために適用される。 我々は、合成データセットを用いてスパーシリティアルゴリズムを検証し、さらに米国の金融、医療、IT分野の企業からの四半期毎の財務報告に適用する。 評価が改善した今四半期から翌四半期に変化した実話の特徴を,反実的な説明で捉えることができることを示す。 実証的な結果は、企業の格付けが高ければ高いほど、信用格付けをさらに向上させるために必要な「努力」が大きくなることを示している。

In Artificial Intelligence, interpreting the results of a Machine Learning technique often termed as a black box is a difficult task. A counterfactual explanation of a particular "black box" attempts to find the smallest change to the input values that modifies the prediction to a particular output, other than the original one. In this work we formulate the problem of finding a counterfactual explanation as an optimization problem. We propose a new "sparsity algorithm" which solves the optimization problem, while also maximizing the sparsity of the counterfactual explanation. We apply the sparsity algorithm to provide a simple suggestion to publicly traded companies in order to improve their credit ratings. We validate the sparsity algorithm with a synthetically generated dataset and we further apply it to quarterly financial statements from companies in financial, healthcare and IT sectors of the US market. We provide evidence that the counterfactual explanation can capture the nature of the real statement features that changed between the current quarter and the following quarter when ratings improved. The empirical results show that the higher the rating of a company the greater the "effort" required to further improve credit rating.
翻訳日:2021-07-23 15:21:16 公開日:2021-07-21
# 2層ReLUニューラルネットワークにおけるスプリアスミニマの家族解析

Analytic Study of Families of Spurious Minima in Two-Layer ReLU Neural Networks ( http://arxiv.org/abs/2107.10370v1 )

ライセンス: Link先を確認
Yossi Arjevani, Michael Field(参考訳) ターゲットネットワークによってラベルが生成される2層ReLUニューラルネットワークの2乗損失に関する最適化問題について検討する。 我々は,スプリアスミニマの家族を研究するための新しいツールセットを開発するために,リッチ対称性構造を利用する。 制限レシエーションを運用する既存のアプローチとは対照的に、我々の手法は有限個の入力に対して$d$とニューロン$k$の非凸ロスランドスケープを直接処理し、ヒューリスティックな情報よりも解析的な情報を提供する。 特に、異なるミニマでの損失に関する解析的推定を導出し、モジュラー $o(d^{-1/2})$-項が小さな正の定数の近くに集中することを証明し、ただし$\theta(d)$ の固有値を除いて、−$d$ で線形に成長する。 さらに、大域的および散発的ミニマにおけるヘッセンスペクトルは、o(d^{-1/2})$-order と一致することを示し、局所曲率による統計的一般化について議論する能力に挑戦する。 最後に、我々の手法は、臨界点の族がサドルからスプリアスミニマへと変化する正確な 'emph{fractional} 次元性を提供する。 これにより、等変分岐理論の強力なツールを用いて、スプリアスミニマの生成と消滅の研究が可能になる。

We study the optimization problem associated with fitting two-layer ReLU neural networks with respect to the squared loss, where labels are generated by a target network. We make use of the rich symmetry structure to develop a novel set of tools for studying families of spurious minima. In contrast to existing approaches which operate in limiting regimes, our technique directly addresses the nonconvex loss landscape for a finite number of inputs $d$ and neurons $k$, and provides analytic, rather than heuristic, information. In particular, we derive analytic estimates for the loss at different minima, and prove that modulo $O(d^{-1/2})$-terms the Hessian spectrum concentrates near small positive constants, with the exception of $\Theta(d)$ eigenvalues which grow linearly with~$d$. We further show that the Hessian spectrum at global and spurious minima coincide to $O(d^{-1/2})$-order, thus challenging our ability to argue about statistical generalization through local curvature. Lastly, our technique provides the exact \emph{fractional} dimensionality at which families of critical points turn from saddles into spurious minima. This makes possible the study of the creation and the annihilation of spurious minima using powerful tools from equivariant bifurcation theory.
翻訳日:2021-07-23 15:20:57 公開日:2021-07-21
# モデル自由制御のためのオンライン学習型ディープニューロ適応動的インバージョン制御

Online-Learning Deep Neuro-Adaptive Dynamic Inversion Controller for Model Free Control ( http://arxiv.org/abs/2107.10383v1 )

ライセンス: Link先を確認
Nathan Lutes and K. Krishnamurthy and Venkata Sriram Siddhardh Nadendla and S. N. Balakrishnan(参考訳) 適応的手法は、モデリングの領域で提供される柔軟性と許しのために制御文学の中で人気がある。 ニューラルネットワーク適応制御は、未知の関数を近似する機械学習アルゴリズムの強力な性質と、従来の適応制御における特定の制約を緩和する能力に特に好ましい。 ディープニューラルネットワークは、浅いフレームワークに比べて近似特性が非常に優れている大規模なフレームワークネットワークである。 しかし,深層ニューラルネットワークの実装は,学習中の勾配の消失・爆発などの複雑度が大きいため困難である。 本稿では,新しい重み更新法に基づいて訓練された深層ニューラルネットワークを特徴とするニューロ適応制御器を実装し,勾配の符号のみを組み込むことで,消失・爆発勾配問題から逃れる。 設計したコントローラのタイプは、二次推定ループの修正状態オブザーバを利用してネットワークをトレーニングする適応動的インバージョンコントローラである。 ディープニューラルネットワークは、植物モデル全体をオンラインで学習し、完全にモデルフリーのコントローラを作成する。 コントローラの設計は、2リンクの平面ロボットアームでシミュレーションでテストされる。 コントローラは非線形植物を素早く学習でき、トラッキング制御問題において優れた性能を示す。

Adaptive methods are popular within the control literature due to the flexibility and forgiveness they offer in the area of modelling. Neural network adaptive control is favorable specifically for the powerful nature of the machine learning algorithm to approximate unknown functions and for the ability to relax certain constraints within traditional adaptive control. Deep neural networks are large framework networks with vastly superior approximation characteristics than their shallow counterparts. However, implementing a deep neural network can be difficult due to size specific complications such as vanishing/exploding gradients in training. In this paper, a neuro-adaptive controller is implemented featuring a deep neural network trained on a new weight update law that escapes the vanishing/exploding gradient problem by only incorporating the sign of the gradient. The type of controller designed is an adaptive dynamic inversion controller utilizing a modified state observer in a secondary estimation loop to train the network. The deep neural network learns the entire plant model on-line, creating a controller that is completely model free. The controller design is tested in simulation on a 2 link planar robot arm. The controller is able to learn the nonlinear plant quickly and displays good performance in the tracking control problem.
翻訳日:2021-07-23 15:20:29 公開日:2021-07-21
# starganv2-vc:自然音声変換のための多様な教師なし非並列フレームワーク

StarGANv2-VC: A Diverse, Unsupervised, Non-parallel Framework for Natural-Sounding Voice Conversion ( http://arxiv.org/abs/2107.10394v1 )

ライセンス: Link先を確認
Yinghao Aaron Li, Ali Zare, Nima Mesgarani(参考訳) 本稿では, StarGAN v2 と呼ばれるGAN (Generative Adversarial Network) を用いた非並列多人数音声変換手法を提案する。 逆方向のソース分類器の損失と知覚的損失の組み合わせにより、我々のモデルは従来のVCモデルよりも大幅に優れていた。 我々のモデルは、20人の英語話者でしか訓練されていないが、任意の対多、多言語、歌唱変換など、様々な音声変換タスクに一般化されている。 また, スタイルエンコーダを用いて, 平易な読み上げ音声を, 情緒的, 虚偽的音声などのスタイリスティックな音声に変換する。 非並列多言語音声変換タスクの主観的および客観的評価実験により,テキストラベルを必要とせずに,TTSに基づく音声変換手法の音質に近い自然な音声を生成できることが明らかになった。 さらに,本モデルは完全に畳み込み型であり,Parallel WaveGANのような高速なボコーダでリアルタイム音声変換を行うことができる。

We present an unsupervised non-parallel many-to-many voice conversion (VC) method using a generative adversarial network (GAN) called StarGAN v2. Using a combination of adversarial source classifier loss and perceptual loss, our model significantly outperforms previous VC models. Although our model is trained only with 20 English speakers, it generalizes to a variety of voice conversion tasks, such as any-to-many, cross-lingual, and singing conversion. Using a style encoder, our framework can also convert plain reading speech into stylistic speech, such as emotional and falsetto speech. Subjective and objective evaluation experiments on a non-parallel many-to-many voice conversion task revealed that our model produces natural sounding voices, close to the sound quality of state-of-the-art text-to-speech (TTS) based voice conversion methods without the need for text labels. Moreover, our model is completely convolutional and with a faster-than-real-time vocoder such as Parallel WaveGAN can perform real-time voice conversion.
翻訳日:2021-07-23 15:20:09 公開日:2021-07-21
# digital einstein experience: 会話型aiのための高速テキスト合成

Digital Einstein Experience: Fast Text-to-Speech for Conversational AI ( http://arxiv.org/abs/2107.10658v1 )

ライセンス: Link先を確認
Joanna Rownicka, Kilian Sprenkamp, Antonio Tripiana, Volodymyr Gromoglasov, Timo P Kunz(参考訳) 会話型aiユースケースのためのカスタム音声の作成と提供のアプローチについて説明する。 より具体的には、デジタル会話体験の中で人間とコンピュータのインタラクションを可能にするデジタルアインシュタインキャラクタの音声を提供する。 文脈によく適合する音声を作成するために,まず音声キャラクタをデザインし,所望の音声属性に対応する録音を生成する。 声をモデル化します 本稿では,Fastspeech 2を用いて音素とパラレルウェーブGANからのメログラムのログスケール予測を行い,波形を生成する。 このシステムは、文字入力をサポートし、出力に音声波形を与える。 適切な発音を保証するために、選択した単語のカスタム辞書を使用します。 提案したクラウドアーキテクチャは,高速な音声配信を可能にするため,Albert Einsteinのディジタルバージョンとリアルタイムに通信することができる。

We describe our approach to create and deliver a custom voice for a conversational AI use-case. More specifically, we provide a voice for a Digital Einstein character, to enable human-computer interaction within the digital conversation experience. To create the voice which fits the context well, we first design a voice character and we produce the recordings which correspond to the desired speech attributes. We then model the voice. Our solution utilizes Fastspeech 2 for log-scaled mel-spectrogram prediction from phonemes and Parallel WaveGAN to generate the waveforms. The system supports a character input and gives a speech waveform at the output. We use a custom dictionary for selected words to ensure their proper pronunciation. Our proposed cloud architecture enables for fast voice delivery, making it possible to talk to the digital version of Albert Einstein in real-time.
翻訳日:2021-07-23 13:01:33 公開日:2021-07-21
# Small-text: Pythonのテキスト分類のためのアクティブラーニング

Small-text: Active Learning for Text Classification in Python ( http://arxiv.org/abs/2107.10314v1 )

ライセンス: Link先を確認
Christopher Schr\"oder, Lydia M\"uller, Andreas Niekler, Martin Potthast(参考訳) 我々は,Pythonのテキスト分類にプールベースのアクティブラーニングを提供する,シンプルなモジュール型アクティブラーニングライブラリであるSmall-textを紹介する。 GPUを活用できるものなど、さまざまな実装済みの最先端クエリ戦略を備えている。 明確に定義されたインターフェースは、複数のクエリ戦略を異なる分類器と組み合わせることで、迅速な混合とマッチングを容易にし、アクティブな学習実験とアプリケーションの両方の迅速な開発を可能にする。 さまざまな分類器を一貫した方法でアクセスできるようにするため、Scikit-learn、PyTorch、Huggingface transformerなど、よく知られた機械学習ライブラリを統合している。 このライブラリはMIT Licenseのhttps://github.com/webis-de/small-textで入手できる。

We present small-text, a simple modular active learning library, which offers pool-based active learning for text classification in Python. It comes with various pre-implemented state-of-the-art query strategies, including some which can leverage the GPU. Clearly defined interfaces allow to combine a multitude of such query strategies with different classifiers, thereby facilitating a quick mix and match, and enabling a rapid development of both active learning experiments and applications. To make various classifiers accessible in a consistent way, it integrates several well-known machine learning libraries, namely, scikit-learn, PyTorch, and huggingface transformers -- for which the latter integrations are available as optionally installable extensions. The library is available under the MIT License at https://github.com/webis-de/small-text.
翻訳日:2021-07-23 13:00:29 公開日:2021-07-21
# cofee:オンラインアノテーションツールによるテキストからのイベント抽出のための包括的なオントロジー

COfEE: A Comprehensive Ontology for Event Extraction from text, with an online annotation tool ( http://arxiv.org/abs/2107.10326v1 )

ライセンス: Link先を確認
Ali Balali, Masoud Asadpour, Seyed Hossein Jafari(参考訳) データは時間とともに膨大な量でweb上に公開されるが、データの大部分は構造化されていないため、理解が難しく、解釈が難しい。 情報抽出(ie)法は、構造化されていないデータから構造化情報を抽出する。 IEの課題のひとつは、特定のインシデントとそのアクターに関する情報をテキストから導き出そうとするイベント抽出(EE)である。 EEは知識ベースの構築、情報検索、要約、オンライン監視システムなど、多くの領域で有用である。 過去数十年間、ACE、CAMEO、ICEWSのようなイベントオントロジーは、テキストで観察されるイベントの形式、アクター、次元を定義するために開発された。 これらのイベントオントロジーには、政治イベントや議論の役割の定義における柔軟性のない構造、分析的な次元の欠如、イベントサブタイプを選択する際の複雑さなど、いくつかのトピックのみをカバーする、いくつかの欠点がある。 これらの問題に対処するために、専門家のドメイン知識、以前のオントロジー、およびテキストからイベントを識別するためのデータ駆動アプローチの両方を組み込んだイベントオントロジー、すなわち、COfEEを提案する。 COfEEは2つの階層レベル(イベントタイプとイベントサブタイプ)から構成されており、環境問題、サイバースペース、犯罪活動、自然災害に関連する新しいカテゴリーがすぐに監視される必要がある。 また、イベントサブタイプごとに動的ロールを定義し、イベントのさまざまな次元をキャプチャする。 追従実験において,提案したオントロジーはウィキペディアのイベント上で評価され,総合的かつ包括的であることが示されている。 また、イベント抽出のためのゴールドスタンダードデータの作成を容易にするため、COfEEに基づく言語に依存しないオンラインツールを提示する。

Data is published on the web over time in great volumes, but majority of the data is unstructured, making it hard to understand and difficult to interpret. Information Extraction (IE) methods extract structured information from unstructured data. One of the challenging IE tasks is Event Extraction (EE) which seeks to derive information about specific incidents and their actors from the text. EE is useful in many domains such as building a knowledge base, information retrieval, summarization and online monitoring systems. In the past decades, some event ontologies like ACE, CAMEO and ICEWS were developed to define event forms, actors and dimensions of events observed in the text. These event ontologies still have some shortcomings such as covering only a few topics like political events, having inflexible structure in defining argument roles, lack of analytical dimensions, and complexity in choosing event sub-types. To address these concerns, we propose an event ontology, namely COfEE, that incorporates both expert domain knowledge, previous ontologies and a data-driven approach for identifying events from text. COfEE consists of two hierarchy levels (event types and event sub-types) that include new categories relating to environmental issues, cyberspace, criminal activity and natural disasters which need to be monitored instantly. Also, dynamic roles according to each event sub-type are defined to capture various dimensions of events. In a follow-up experiment, the proposed ontology is evaluated on Wikipedia events, and it is shown to be general and comprehensive. Moreover, in order to facilitate the preparation of gold-standard data for event extraction, a language-independent online tool is presented based on COfEE.
翻訳日:2021-07-23 13:00:13 公開日:2021-07-21
# SO(3)-等変不等形状表現による対応自由点雲の登録

Correspondence-Free Point Cloud Registration with SO(3)-Equivariant Implicit Shape Representations ( http://arxiv.org/abs/2107.10296v1 )

ライセンス: Link先を確認
Minghan Zhu, Maani Ghaffari, Huei Peng(参考訳) 本稿では,点雲回転登録のための対応のない手法を提案する。 我々は,SO(3)-等分散性を保持する特徴空間における各点雲の埋め込みを学習し,近年の同変ニューラルネットワークの発展によって実現された。 提案手法は,同変特徴学習と暗黙的形状モデルを組み合わせた3つの長所を実現する。 まず、PointNetに似たネットワークアーキテクチャにおける置換不変性のため、データアソシエーションの必要性を除去する。 第二に、特徴空間の登録はSO(3)-等分散性によりホルン法を用いて閉形式で解くことができる。 第三に、登録は暗黙の形状学習のため、点雲のノイズに対して堅牢である。 実験の結果,既存の対応なし深層登録法と比較して優れた性能を示した。

This paper proposes a correspondence-free method for point cloud rotational registration. We learn an embedding for each point cloud in a feature space that preserves the SO(3)-equivariance property, enabled by recent developments in equivariant neural networks. The proposed shape registration method achieves three major advantages through combining equivariant feature learning with implicit shape models. First, the necessity of data association is removed because of the permutation-invariant property in network architectures similar to PointNet. Second, the registration in feature space can be solved in closed-form using Horn's method due to the SO(3)-equivariance property. Third, the registration is robust to noise in the point cloud because of implicit shape learning. The experimental results show superior performance compared with existing correspondence-free deep registration methods.
翻訳日:2021-07-23 12:58:31 公開日:2021-07-21
# 私たちが知っているディープニューラルネットワークをどう伝えるか

How to Tell Deep Neural Networks What We Know ( http://arxiv.org/abs/2107.10295v1 )

ライセンス: Link先を確認
Tirtharaj Dash, Sharad Chitlangia, Aditya Ahuja, Ashwin Srinivasan(参考訳) 本稿では,ニューラルネットワークを用いたモデル構築において,既存の科学的知識を含める方法について簡単な調査を行う。 ドメイン知識の導入は、科学的アシスタントの構築だけでなく、人間と機械の協調によるデータの理解に関わる多くの分野にも特に関心がある。 多くの場合、マシンベースのモデル構築は、十分に正確な形式で符号化されたドメインの人間知識を提供することで、大きな恩恵を受けることができる。 本稿では、入力、損失関数、深層ネットワークのアーキテクチャの変更によるドメイン知識の包含について検討する。 分類は公開の容易さのためのもので、実際にはこのような変更の組み合わせが採用されることを期待しています。 各カテゴリにおいて,ネットワーク性能に大きな変化をもたらすことを示す技術について述べる。

We present a short survey of ways in which existing scientific knowledge are included when constructing models with neural networks. The inclusion of domain-knowledge is of special interest not just to constructing scientific assistants, but also, many other areas that involve understanding data using human-machine collaboration. In many such instances, machine-based model construction may benefit significantly from being provided with human-knowledge of the domain encoded in a sufficiently precise form. This paper examines the inclusion of domain-knowledge by means of changes to: the input, the loss-function, and the architecture of deep networks. The categorisation is for ease of exposition: in practice we expect a combination of such changes will be employed. In each category, we describe techniques that have been shown to yield significant changes in network performance.
翻訳日:2021-07-23 12:57:47 公開日:2021-07-21
# 振動分光法による癌患者由来細胞外小胞の機械学習解析

Machine Learning Characterization of Cancer Patients-Derived Extracellular Vesicles using Vibrational Spectroscopies ( http://arxiv.org/abs/2107.10332v1 )

ライセンス: Link先を確認
Abicumaran Uthamacumaran, Samir Elouatik, Mohamed Abdouh, Michael Berteau-Rainville, Zhu- Hua Gao, and Goffredo Arena(参考訳) 癌の早期発見は医学において難しい問題である。 がん患者の血液の血清には、異種な分泌脂質結合型細胞外小胞(evs)が富まれており、それらは、その起源細胞を表す情報とバイオマーカーの複雑なレパートリーを示し、液体生検およびがんスクリーニングの分野で現在研究されている。 振動分光法は、複雑な生体試料の構造と生体物性の評価に非侵襲的なアプローチを提供する。 本研究では,4種類の癌サブタイプ(大腸癌,肝細胞癌,乳癌,膵癌)と5種類の健常患者(対照群)からなる9例の血液血清から抽出したEVを用いて,複数のラマン分光測定を行った。 FTIR(Fourier Transform Infrared)測定はRaman解析の相補的アプローチとして4種類の癌サブタイプのうち2種類を用いて行った。 AdaBoost Random Forest Classifier, Decision Trees, and Support Vector Machines (SVM) は、がんEVのベースライン修正ラマンスペクトルを、1800~1940 inverse cmのスペクトル周波数範囲に減少すると90%以上の分類精度で識別し、0.5のトレーニング/テスト分割を受けた。 14スペクトルのFTIR分類精度は80%であった。 以上の結果から, 基礎的機械学習アルゴリズムは, がん患者EVと健常患者EVの複雑な振動スペクトルを識別する強力なツールであることがわかった。 これらの実験方法は、マシンインテリジェンスによる早期がん検診における有効かつ効率的な液体生検である。

The early detection of cancer is a challenging problem in medicine. The blood sera of cancer patients are enriched with heterogeneous secretory lipid bound extracellular vesicles (EVs), which present a complex repertoire of information and biomarkers, representing their cell of origin, that are being currently studied in the field of liquid biopsy and cancer screening. Vibrational spectroscopies provide non-invasive approaches for the assessment of structural and biophysical properties in complex biological samples. In this study, multiple Raman spectroscopy measurements were performed on the EVs extracted from the blood sera of 9 patients consisting of four different cancer subtypes (colorectal cancer, hepatocellular carcinoma, breast cancer and pancreatic cancer) and five healthy patients (controls). FTIR(Fourier Transform Infrared) spectroscopy measurements were performed as a complementary approach to Raman analysis, on two of the four cancer subtypes. The AdaBoost Random Forest Classifier, Decision Trees, and Support Vector Machines (SVM) distinguished the baseline corrected Raman spectra of cancer EVs from those of healthy controls (18 spectra) with a classification accuracy of greater than 90% when reduced to a spectral frequency range of 1800 to 1940 inverse cm, and subjected to a 0.5 training/testing split. FTIR classification accuracy on 14 spectra showed an 80% classification accuracy. Our findings demonstrate that basic machine learning algorithms are powerful tools to distinguish the complex vibrational spectra of cancer patient EVs from those of healthy patients. These experimental methods hold promise as valid and efficient liquid biopsy for machine intelligence-assisted early cancer screening.
翻訳日:2021-07-23 12:57:33 公開日:2021-07-21
# 構造認識型インタラクティブグラフニューラルネットワークによるタンパク質結合親和性予測

Structure-aware Interactive Graph Neural Networks for the Prediction of Protein-Ligand Binding Affinity ( http://arxiv.org/abs/2107.10670v1 )

ライセンス: Link先を確認
Shuangli Li, Jingbo Zhou, Tong Xu, Liang Huang, Fan Wang, Haoyi Xiong, Weili Huang, Dejing Dou, Hui Xiong(参考訳) 創薬はしばしばタンパク質リガンド結合親和性の予測に依拠する。 近年の進歩は、タンパク質-リガンド複合体の表現を学習することで、グラフニューラルネットワーク(GNN)をより良い親和性予測に応用する大きな可能性を示している。 しかし、既存の溶液は通常タンパク質-リガンド複合体をトポロジカルグラフデータとして扱うため、生体分子構造情報は十分に利用されていない。 原子間の重要な長距離相互作用もGNNモデルでは無視される。 そこで本研究では,極性グラフ注意層 (PGAL) と相互対話型プール (PiPool) の2つのコンポーネントから構成される構造対応グラフニューラルネットワーク (SIGN) を提案する。 具体的には、PGALは、原子間の距離と角度情報を保存しながら、ノードとエッジの埋め込みを更新するノードエッジ集約プロセスを反復的に実行する。 次に、PiPoolを使用して対話的なエッジを収集し、その後の再構築損失を処理して、グローバルなインタラクションを反映する。 SIGNの優位性を検証した2つのベンチマークに関する実験的研究。

Drug discovery often relies on the successful prediction of protein-ligand binding affinity. Recent advances have shown great promise in applying graph neural networks (GNNs) for better affinity prediction by learning the representations of protein-ligand complexes. However, existing solutions usually treat protein-ligand complexes as topological graph data, thus the biomolecular structural information is not fully utilized. The essential long-range interactions among atoms are also neglected in GNN models. To this end, we propose a structure-aware interactive graph neural network (SIGN) which consists of two components: polar-inspired graph attention layers (PGAL) and pairwise interactive pooling (PiPool). Specifically, PGAL iteratively performs the node-edge aggregation process to update embeddings of nodes and edges while preserving the distance and angle information among atoms. Then, PiPool is adopted to gather interactive edges with a subsequent reconstruction loss to reflect the global interactions. Exhaustive experimental study on two benchmarks verifies the superiority of SIGN.
翻訳日:2021-07-23 12:57:00 公開日:2021-07-21
# 軌道予測評価の再考

Rethinking Trajectory Forecasting Evaluation ( http://arxiv.org/abs/2107.10297v1 )

ライセンス: Link先を確認
Boris Ivanovic and Marco Pavone(参考訳) 他のエージェントの振る舞いを予測することは、特に自律運転のような人間とロボットの相互作用を伴う安全クリティカルなシナリオにおいて、現代ロボット自律スタックの不可欠な部分である。 結果として、軌道予測に対するかなりの関心と研究が行われ、様々なアプローチが生み出された。 しかし、すべての作業に共通しているのは、変位誤差やログライクな状態など、精度に基づいた測定基準がほとんどないことだ。 これらの指標は情報的であるが、それらはタスクに依存しず、等しく評価される予測は、下流の計画や意思決定など、非常に異なる結果をもたらす。 本研究では,現在の軌道予測指標を一歩引いて批判的に評価し,予測がデプロイされているシステムの性能の指標としてタスク対応メトリクスを提案する。 さらに、既存の軌道予測メトリクスに計画認識機能を組み込んだメトリクスの例も提示する。

Forecasting the behavior of other agents is an integral part of the modern robotic autonomy stack, especially in safety-critical scenarios with human-robot interaction, such as autonomous driving. In turn, there has been a significant amount of interest and research in trajectory forecasting, resulting in a wide variety of approaches. Common to all works, however, is the use of the same few accuracy-based evaluation metrics, e.g., displacement error and log-likelihood. While these metrics are informative, they are task-agnostic and predictions that are evaluated as equal can lead to vastly different outcomes, e.g., in downstream planning and decision making. In this work, we take a step back and critically evaluate current trajectory forecasting metrics, proposing task-aware metrics as a better measure of performance in systems where prediction is being deployed. We additionally present one example of such a metric, incorporating planning-awareness within existing trajectory forecasting metrics.
翻訳日:2021-07-23 12:56:25 公開日:2021-07-21
# 実世界の課題を目標とした強化学習エージェントトレーニング

Reinforcement Learning Agent Training with Goals for Real World Tasks ( http://arxiv.org/abs/2107.10390v1 )

ライセンス: Link先を確認
Xuan Zhao and Marcos Campos(参考訳) 強化学習(RL)は、様々な制御、最適化、シーケンシャルな意思決定タスクを解決するための有望なアプローチである。 しかし、複雑なタスク(例えば、複数の目的と安全性の制約がある)に対する報酬関数の設計は、ほとんどのユーザにとって困難であり、通常、複数の高価なトライアル(リワード関数ハッキング)を必要とする。 本稿では,複雑な制御タスクと最適化タスクのための仕様言語(Inkling Goal Specification)を提案する。 フレームワークの中核となる要素は、(i)高レベル言語を制御および最適化タスクに適した述語時間論理にマッピングすること、(ii)RLアルゴリズムの駆動に使用できる新しいオートマトン誘導密度の報酬生成を行うこと、(iii)システムの動作を評価するためのパフォーマンス指標のセットであることである。 提案手法が幅広い実世界のタスクを特定するのに非常に便利であることを示す実験のセットと、生成された報酬が、特定の目標を達成するためのポリシートレーニングを駆動できることを示す実験を含む。

Reinforcement Learning (RL) is a promising approach for solving various control, optimization, and sequential decision making tasks. However, designing reward functions for complex tasks (e.g., with multiple objectives and safety constraints) can be challenging for most users and usually requires multiple expensive trials (reward function hacking). In this paper we propose a specification language (Inkling Goal Specification) for complex control and optimization tasks, which is very close to natural language and allows a practitioner to focus on problem specification instead of reward function hacking. The core elements of our framework are: (i) mapping the high level language to a predicate temporal logic tailored to control and optimization tasks, (ii) a novel automaton-guided dense reward generation that can be used to drive RL algorithms, and (iii) a set of performance metrics to assess the behavior of the system. We include a set of experiments showing that the proposed method provides great ease of use to specify a wide range of real world tasks; and that the reward generated is able to drive the policy training to achieve the specified goal.
翻訳日:2021-07-23 12:55:40 公開日:2021-07-21
# 手書き回路図画像のための公開基底データセット

A Public Ground-Truth Dataset for Handwritten Circuit Diagram Images ( http://arxiv.org/abs/2107.10373v1 )

ライセンス: Link先を確認
Felix Thoma, Johannes Bayer, Yakun Li(参考訳) 線画(特に電気工学の分野で)のデジタル化手法の開発は、公開されているトレーニングや評価データの利用可能性に依存している。 本稿ではアノテーションとともにそのようなイメージを提示する。 データセットは、12の起草者による144の回路の1152の画像と48の563のアノテーションで構成されている。 これらの画像はそれぞれ、照明条件や視点の異なる消費者グレードカメラによって撮影された電気回路図を描いている。 様々な種類の鉛筆や表面材料が使用されている。 各画像に対して、個々の電気部品にはバウンディングボックスと45種類のラベルのうちの1つがアノテートされる。 グラフ抽出プロセスを単純化するために、接合点やクロスオーバーといった異なるヘルパーシンボルが導入され、テキストも注釈付けされる。 この課題から生じる幾何学的・分類学的問題や、クラス自体や外観の統計が述べられている。 データセット上での標準のFaster RCNNのパフォーマンスは、オブジェクト検出ベースラインとして提供される。

The development of digitization methods for line drawings (especially in the area of electrical engineering) relies on the availability of publicly available training and evaluation data. This paper presents such an image set along with annotations. The dataset consists of 1152 images of 144 circuits by 12 drafters and 48 563 annotations. Each of these images depicts an electrical circuit diagram, taken by consumer grade cameras under varying lighting conditions and perspectives. A variety of different pencil types and surface materials has been used. For each image, all individual electrical components are annotated with bounding boxes and one out of 45 class labels. In order to simplify a graph extraction process, different helper symbols like junction points and crossovers are introduced, while texts are annotated as well. The geometric and taxonomic problems arising from this task as well as the classes themselves and statistics of their appearances are stated. The performance of a standard Faster RCNN on the dataset is provided as an object detection baseline.
翻訳日:2021-07-23 12:54:45 公開日:2021-07-21
# 超スペクトルイメージングデータの規則に基づく分類

Rule-Based Classification of Hyperspectral Imaging Data ( http://arxiv.org/abs/2107.10638v1 )

ライセンス: Link先を確認
Songuel Polat, Alain Tremeau, Frank Boochs(参考訳) 空間的およびスペクトル的な情報量が高いため、ハイパースペクトルイメージングは様々なアプリケーションでデータやシーンをよりよく理解するための新たな可能性を開く。 この理解過程の重要な部分は分類部分である。 本稿ではスペクトルシグネチャの形状に基づく一般的な分類手法を提案する。 古典的な分類アプローチとは対照的に(例えば) svm, knn), 反射率値だけでなく, 曲率点, 曲率値, スペクトルシグネチャの曲率挙動などのパラメータも考慮し, if-thenクエリを用いた規則ベースの手順による分類に使用するために, 形状記述規則を開発する。 方法論の柔軟性と効率性は、2つの異なるアプリケーションフィールドのデータセットを使用して実証され、優れたパフォーマンスで結果を説得する。

Due to its high spatial and spectral information content, hyperspectral imaging opens up new possibilities for a better understanding of data and scenes in a wide variety of applications. An essential part of this process of understanding is the classification part. In this article we present a general classification approach based on the shape of spectral signatures. In contrast to classical classification approaches (e.g. SVM, KNN), not only reflectance values are considered, but also parameters such as curvature points, curvature values, and the curvature behavior of spectral signatures are used to develop shape-describing rules in order to use them for classification by a rule-based procedure using IF-THEN queries. The flexibility and efficiency of the methodology is demonstrated using datasets from two different application fields and leads to convincing results with good performance.
翻訳日:2021-07-23 12:53:11 公開日:2021-07-21
# 顧客評価に基づくホスピタリティ部門におけるサービス品質評価のための機械学習

Machine learning for assessing quality of service in the hospitality sector based on customer reviews ( http://arxiv.org/abs/2107.10328v1 )

ライセンス: Link先を確認
Vladimir Vargas-Calder\'on, Andreina Moros Ochoa, Gilmer Yovani Castro Nieto and Jorge E. Camargo(参考訳) オンラインホスピタリティプラットフォームの利用の増加は、ホテルサービスの改善とサービス認知の質向上に不可欠な、クライアントの好みに関する直接情報を提供する。 カスタマーレビューは、ホスピタリティクライアントのサービス品質の最も関連性の高い側面を自動的に抽出するために使用できます。 本稿では,自然言語処理と機械学習による顧客レビューの活用に基づく,ホスピタリティ部門におけるサービス品質評価の枠組みを提案する。 提案フレームワークは,ホテル顧客に関連するサービス品質を自動的に検出する。 Bogot\'a と Madrid のホテルレビューは Booking.com から自動的に削除される。 意味情報は潜在ディリクレ割当とfasttextによって推測され、テキストレビューをベクトルとして表現することができる。 大量の顧客レビューを可視化し,解釈するために,次元還元手法を適用した。 サービス側面の最も重要な品質の可視化が生成され、サービス品質を質的に定量的に評価することができる。 結果から,大規模な顧客レビューデータセットから,顧客が認識するサービス面の主品質を自動的に抽出できることが示唆された。 これらの発見は、ホスピタリティマネージャが顧客をよりよく理解し、サービスの質を改善するために利用することができる。

The increasing use of online hospitality platforms provides firsthand information about clients preferences, which are essential to improve hotel services and increase the quality of service perception. Customer reviews can be used to automatically extract the most relevant aspects of the quality of service for hospitality clientele. This paper proposes a framework for the assessment of the quality of service in the hospitality sector based on the exploitation of customer reviews through natural language processing and machine learning methods. The proposed framework automatically discovers the quality of service aspects relevant to hotel customers. Hotel reviews from Bogot\'a and Madrid are automatically scrapped from Booking.com. Semantic information is inferred through Latent Dirichlet Allocation and FastText, which allow representing text reviews as vectors. A dimensionality reduction technique is applied to visualise and interpret large amounts of customer reviews. Visualisations of the most important quality of service aspects are generated, allowing to qualitatively and quantitatively assess the quality of service. Results show that it is possible to automatically extract the main quality of service aspects perceived by customers from large customer review datasets. These findings could be used by hospitality managers to understand clients better and to improve the quality of service.
翻訳日:2021-07-23 12:51:46 公開日:2021-07-21
# (参考訳) Bayesian Controller Fusion:ロボットの深部強化学習における制御の活用

Bayesian Controller Fusion: Leveraging Control Priors in Deep Reinforcement Learning for Robotics ( http://arxiv.org/abs/2107.09822v1 )

ライセンス: CC BY 4.0
Krishan Rana, Vibhavari Dasagi, Jesse Haviland, Ben Talbot, Michael Milford and Niko S\"underhauf(参考訳) 本稿では,従来の手作りコントローラの強みとモデルフリー深部強化学習(RL)を組み合わせたハイブリッド制御戦略であるBayesian Controller Fusion(BCF)を紹介する。 BCFはロボティクス領域で成長し、多くのタスクに対して信頼性はあるが最適でない制御が優先されるが、スクラッチからのRLは安全でデータ非効率である。 各システムからの不確実性を認識した分布出力を融合することにより、BCFはそれらの間の制御を調停し、それぞれの強みを利用する。 我々は,広大かつ長期にわたる環境下でのナビゲーションと,マニピュラビリティの最大化を伴う複雑な到達タスクの2つの実世界のロボティクスタスクについてBCFを研究する。 どちらの領域においても、手持ちのタスクをリスク回避的な方法で解くことができる単純な手作りのコントローラが存在するが、必ずしも分析モデリングやコントローラのミスキャリブレーション、タスクのばらつきといった制限が与えられた最適解を示すわけではない。 訓練の初期段階における事前の指導が自然に行われるため、BCFは学習を加速し、政策がより経験を積むにつれて、事前の制御性能よりも大幅に改善する。 さらに重要なことは、コントロールの事前のリスクの多様性を考えると、BCFはセキュアな探索 \emph{and} デプロイメントを保証する。 また,BCF のゼロショット sim-to-real 設定への適用性と,実世界の分布外状態を扱う能力についても述べる。 BCFは、深いRLと従来のロボット制御の相補的な強みを組み合わせるための、有望なアプローチである。 コードと追加ビデオは \url{https://krishanrana.github.io/bcf} で公開されている。

We present Bayesian Controller Fusion (BCF): a hybrid control strategy that combines the strengths of traditional hand-crafted controllers and model-free deep reinforcement learning (RL). BCF thrives in the robotics domain, where reliable but suboptimal control priors exist for many tasks, but RL from scratch remains unsafe and data-inefficient. By fusing uncertainty-aware distributional outputs from each system, BCF arbitrates control between them, exploiting their respective strengths. We study BCF on two real-world robotics tasks involving navigation in a vast and long-horizon environment, and a complex reaching task that involves manipulability maximisation. For both these domains, there exist simple handcrafted controllers that can solve the task at hand in a risk-averse manner but do not necessarily exhibit the optimal solution given limitations in analytical modelling, controller miscalibration and task variation. As exploration is naturally guided by the prior in the early stages of training, BCF accelerates learning, while substantially improving beyond the performance of the control prior, as the policy gains more experience. More importantly, given the risk-aversity of the control prior, BCF ensures safe exploration \emph{and} deployment, where the control prior naturally dominates the action distribution in states unknown to the policy. We additionally show BCF's applicability to the zero-shot sim-to-real setting and its ability to deal with out-of-distribution states in the real-world. BCF is a promising approach for combining the complementary strengths of deep RL and traditional robotic control, surpassing what either can achieve independently. The code and supplementary video material are made publicly available at \url{https://krishanrana.github.io/bcf}.
翻訳日:2021-07-22 22:13:56 公開日:2021-07-21
# (参考訳) 原因と効果の誘導

Guided Generation of Cause and Effect ( http://arxiv.org/abs/2107.09846v1 )

ライセンス: CC BY 4.0
Zhongyang Li, Xiao Ding, Ting Liu, J. Edward Hu, Benjamin Van Durme(参考訳) 本稿では,原因や影響のセンテンシャル表現を提示する条件付きテキスト生成フレームワークを提案する。 このフレームワークは、この作業の過程で私たちが開発した2つの新しいリソースに依存しています。因果パターンを表現した非常に大規模な英文の集合と、大きな語彙因果知識グラフの構築に関する以前の作業に対する改良です。 さらに,解離正の制約をサポートするために,語彙制約付き復号法における先行作業を延長する。 人間の評価は、我々のアプローチが高品質で多様なアウトプットをもたらすことを確認します。 最後に、CausalBankを使用して、最近の因果推論の最先端モデルをサポートするエンコーダの継続的なトレーニングを行い、モデルアーキテクチャの変更なしにCOPAチャレンジセットを3ポイント改善しました。

We present a conditional text generation framework that posits sentential expressions of possible causes and effects. This framework depends on two novel resources we develop in the course of this work: a very large-scale collection of English sentences expressing causal patterns CausalBank; and a refinement over previous work on constructing large lexical causal knowledge graphs Cause Effect Graph. Further, we extend prior work in lexically-constrained decoding to support disjunctive positive constraints. Human assessment confirms that our approach gives high-quality and diverse outputs. Finally, we use CausalBank to perform continued training of an encoder supporting a recent state-of-the-art model for causal reasoning, leading to a 3-point improvement on the COPA challenge set, with no change in model architecture.
翻訳日:2021-07-22 21:42:23 公開日:2021-07-21
# (参考訳) CausalBERT:最小限のスーパービジョンを持つ事前学習モデルに因果知識を注入する

CausalBERT: Injecting Causal Knowledge Into Pre-trained Models with Minimal Supervision ( http://arxiv.org/abs/2107.09852v1 )

ライセンス: CC BY 4.0
Zhongyang Li, Xiao Ding, Kuo Liao, Ting Liu, Bing Qin(参考訳) 最近の研究は、NLPシステムを改善するためにBERTのような事前訓練されたモデルを導入することに成功している。 しかし、既存の訓練済みモデルには、今日のNLPシステムが人間のように考えるのを防ぐ因果知識がない。 本稿では,事前学習モデルに因果知識を注入する問題について検討する。 1)非構造化テキストから大規模因果的資源の収集方法,2)事前学習されたモデルに因果的知識を効果的に注入する方法。 これらの問題に対処するため、我々は因果関係の正確なパターンと因果関係の埋め込み技術を用いて、最大規模の因果関係資源を収集するCausalBERTを提案する。 さらに,すでに習得済みの知識を余分な正規化項で保存し,因果的知識を注入する正規化ベース手法を採用する。 4つの因果ペア分類タスク、2つの因果QAタスク、1つの因果推論タスクを含む7つのデータセットに対する大規模な実験は、CausalBERTが豊富な因果知識をキャプチャし、事前訓練されたモデルに基づくすべての最先端メソッドを上回り、新しい因果推論ベンチマークを達成することを実証している。

Recent work has shown success in incorporating pre-trained models like BERT to improve NLP systems. However, existing pre-trained models lack of causal knowledge which prevents today's NLP systems from thinking like humans. In this paper, we investigate the problem of injecting causal knowledge into pre-trained models. There are two fundamental problems: 1) how to collect a large-scale causal resource from unstructured texts; 2) how to effectively inject causal knowledge into pre-trained models. To address these issues, we propose CausalBERT, which collects the largest scale of causal resource using precise causal patterns and causal embedding techniques. In addition, we adopt a regularization-based method to preserve the already learned knowledge with an extra regularization term while injecting causal knowledge. Extensive experiments on 7 datasets, including four causal pair classification tasks, two causal QA tasks and a causal inference task, demonstrate that CausalBERT captures rich causal knowledge and outperforms all pre-trained models-based state-of-the-art methods, achieving a new causal inference benchmark.
翻訳日:2021-07-22 21:26:50 公開日:2021-07-21
# (参考訳) 重み付き対合(wIoU):画像分割のための新しい評価基準

Weighted Intersection over Union (wIoU): A New Evaluation Metric for Image Segmentation ( http://arxiv.org/abs/2107.09858v1 )

ライセンス: CC BY 4.0
Yeong-Jun Cho(参考訳) 本稿では,セマンティックセグメンテーションの性能評価のための新しい評価指標を提案する。 近年,大規模画像データセット上でピクセルレベルの分類器を訓練し,正確なセマンティクスセグメンテーションを行う研究が数多く行われている。 セマンティックセグメンテーションの目的は、シーンの各ピクセルのクラスラベルを割り当てることである。 コンピュータビジョンの分野では、オブジェクト検出、分類、シーン理解など、さまざまな潜在的な応用がある。 提案したwIoU評価指標を検証するために,提案したwIoU指標に基づいて,公開ベンチマークデータセット(KITTIなど)上で,従来の評価指標と比較した。

In this paper, we propose a novel evaluation metric for performance evaluation of semantic segmentation. In recent years, many studies have tried to train pixel-level classifiers on large-scale image datasets to perform accurate semantic segmentation. The goal of semantic segmentation is to assign a class label of each pixel in the scene. It has various potential applications in computer vision fields e.g., object detection, classification, scene understanding and Etc. To validate the proposed wIoU evaluation metric, we tested state-of-the art methods on public benchmark datasets (e.g., KITTI) based on the proposed wIoU metric and compared with other conventional evaluation metrics.
翻訳日:2021-07-22 21:08:15 公開日:2021-07-21
# (参考訳) マルチモーダル融合を用いた心電図心拍分類

ECG Heartbeat Classification Using Multimodal Fusion ( http://arxiv.org/abs/2107.09869v1 )

ライセンス: CC BY 4.0
Zeeshan Ahmad, Anika Tabassum, Ling Guan, Naimul Khan(参考訳) 心電図(ECG)は、不整脈や心筋梗塞(MI)などの重症心血管症候群を診断し、治療するための権威源である。 現在の機械学習技術は、手動で抽出した特徴や、1d ecg信号を直接利用する大規模で複雑なディープラーニングネットワークに依存する。 そこで本稿では,心電図の拍動分類のための2つの計算効率の良いマルチモーダル融合フレームワークであるMultimodal Image Fusion (MIF)とMultimodal Feature Fusion (MFF)を提案する。 これらのフレームワークの入力では、生のecgデータをグラミアン角場(gaf)、再帰プロット(rp)、マルコフ遷移場(mtf)を用いて3つの異なる画像に変換する。 mifでは,3つのイメージモダリティを組み合わせて,畳み込みニューラルネットワーク(cnn)への入力となる1つのイメージモダリティを生成することにより,画像融合を行う。 MFFでは,CNNの垂直層から特徴を抽出し,識別器の性能向上に必要なユニークかつ相互依存的な情報を得る。 これらの情報機能は、心電図の心拍分類のためのSVM(Support Vector Machine)分類器のトレーニングに最終的に使用される。 我々は、AAMI EC57プロトコルと整合した5つの不整脈条件と、心筋梗塞(MI)分類のためのPTB診断データセットに対して、PhyloNets MIT-BIHデータセットを用いて実験を行うことにより、提案した融合モデルの優位性を示す。 不整脈とmi分類において,99.7%,99.2%の分類精度が得られた。

Electrocardiogram (ECG) is an authoritative source to diagnose and counter critical cardiovascular syndromes such as arrhythmia and myocardial infarction (MI). Current machine learning techniques either depend on manually extracted features or large and complex deep learning networks which merely utilize the 1D ECG signal directly. Since intelligent multimodal fusion can perform at the stateof-the-art level with an efficient deep network, therefore, in this paper, we propose two computationally efficient multimodal fusion frameworks for ECG heart beat classification called Multimodal Image Fusion (MIF) and Multimodal Feature Fusion (MFF). At the input of these frameworks, we convert the raw ECG data into three different images using Gramian Angular Field (GAF), Recurrence Plot (RP) and Markov Transition Field (MTF). In MIF, we first perform image fusion by combining three imaging modalities to create a single image modality which serves as input to the Convolutional Neural Network (CNN). In MFF, we extracted features from penultimate layer of CNNs and fused them to get unique and interdependent information necessary for better performance of classifier. These informational features are finally used to train a Support Vector Machine (SVM) classifier for ECG heart-beat classification. We demonstrate the superiority of the proposed fusion models by performing experiments on PhysioNets MIT-BIH dataset for five distinct conditions of arrhythmias which are consistent with the AAMI EC57 protocols and on PTB diagnostics dataset for Myocardial Infarction (MI) classification. We achieved classification accuracy of 99.7% and 99.2% on arrhythmia and MI classification, respectively.
翻訳日:2021-07-22 21:04:12 公開日:2021-07-21
# (参考訳) Pedophilesはどうやってつぶやくのか? フィリピンにおける児童サイバーセックストラッカーの書き方とオンラインペルソナに関する研究

How Do Pedophiles Tweet? Investigating the Writing Styles and Online Personas of Child Cybersex Traffickers in the Philippines ( http://arxiv.org/abs/2107.09881v1 )

ライセンス: CC BY 4.0
Joseph Marvin Imperial(参考訳) すべての個人の最も重要な人道的責任の1つは、子供の未来を守ることである。 これは身体的福祉の保護だけでなく、性的強制や虐待などの子どもの精神的健康に影響を及ぼす可能性のある出来事も伴うが、最悪の場合、生涯の外傷につながる可能性がある。 本研究では,児童性愛者が違法なポルノコンテンツを拡散し,自然言語処理技術を用いてフィリピンのtwitter上で未成年者を対象とする予備調査を行った。 調査の結果,児童ポルノの拡散に寄与する4つの主な役割だけでなく,人身売買者がコンテンツの拡散に使用する単語が多用され,共起していることが明らかとなった。

One of the most important humanitarian responsibility of every individual is to protect the future of our children. This entails not only protection of physical welfare but also from ill events that can potentially affect the mental well-being of a child such as sexual coercion and abuse which, in worst-case scenarios, can result to lifelong trauma. In this study, we perform a preliminary investigation of how child sex peddlers spread illegal pornographic content and target minors for sexual activities on Twitter in the Philippines using Natural Language Processing techniques. Results of our studies show frequently used and co-occurring words that traffickers use to spread content as well as four main roles played by these entities that contribute to the proliferation of child pornography in the country.
翻訳日:2021-07-22 20:41:24 公開日:2021-07-21
# (参考訳) 物理に基づく不確実性を考慮したマルチモーダル学習を用いた低線量PETに向けて

Towards Lower-Dose PET using Physics-Based Uncertainty-Aware Multimodal Learning with Robustness to Out-of-Distribution Data ( http://arxiv.org/abs/2107.09892v1 )

ライセンス: CC BY 4.0
Viswanath P. Sudarshan, Uddeshya Upadhyay, Gary F. Egan, Zhaolin Chen, Suyash P. Awate(参考訳) ポジトロン・エミッション・トモグラフィ(pet)における放射線被曝は、放射線に敏感な集団(例えば、妊婦、子供、および縦方向イメージングを必要とする成人)の研究における使用を制限する。 PET線量や取得時間を減らすことで光子数が少なくなり、画質が低下する。 近年のディープ・ニューラル・ネットワーク(DNN)を用いた画像・画像間の翻訳手法により、低品質PET画像(実質的に低線量で取得される)とそれに関連するMRI画像の高画質PET画像へのマッピングが可能となった。 しかし、これらのDNN手法は、トレーニングデータの統計的特性に非常によく適合するテストデータを含むアプリケーションに焦点を合わせ、新しいアウト・オブ・ディストリビューション(OOD)取得によるこれらのDNNの性能評価にはほとんど注意を払わない。 そこで本研究では, PET 画像のシノグラムに基づく物理をモデルとした新しい DNN の定式化と, (ii) 予測された基準画像と高品質な基準画像間の残差のボクセル単位のヘテロセシスティック性による DNN 出力の不確かさをモデル化する。 我々のシングラムに基づく不確実性を考慮したDNNフレームワークであるSuDNNは、(i)低線量/低線数PET画像と(ii)対応するマルチコントラストMRI画像の形式で、マルチモーダル入力を用いた標準線量PET画像を推定し、SuDNNのOOD取得に対する堅牢性を向上させる。 In vivo PET-MRIおよびPET-MRIにおける様々なOODデータの結果は, 定量的, 定性的に, 現状のSuDNNの利点を示している。

Radiation exposure in positron emission tomography (PET) imaging limits its usage in the studies of radiation-sensitive populations, e.g., pregnant women, children, and adults that require longitudinal imaging. Reducing the PET radiotracer dose or acquisition time reduces photon counts, which can deteriorate image quality. Recent deep-neural-network (DNN) based methods for image-to-image translation enable the mapping of low-quality PET images (acquired using substantially reduced dose), coupled with the associated magnetic resonance imaging (MRI) images, to high-quality PET images. However, such DNN methods focus on applications involving test data that match the statistical characteristics of the training data very closely and give little attention to evaluating the performance of these DNNs on new out-of-distribution (OOD) acquisitions. We propose a novel DNN formulation that models the (i) underlying sinogram-based physics of the PET imaging system and (ii) the uncertainty in the DNN output through the per-voxel heteroscedasticity of the residuals between the predicted and the high-quality reference images. Our sinogram-based uncertainty-aware DNN framework, namely, suDNN, estimates a standard-dose PET image using multimodal input in the form of (i) a low-dose/low-count PET image and (ii) the corresponding multi-contrast MRI images, leading to improved robustness of suDNN to OOD acquisitions. Results on in vivo simultaneous PET-MRI, and various forms of OOD data in PET-MRI, show the benefits of suDNN over the current state of the art, quantitatively and qualitatively.
翻訳日:2021-07-22 20:33:32 公開日:2021-07-21
# (参考訳) 自己組織化マップによる異常検出

Anomaly Detection via Self-organizing Map ( http://arxiv.org/abs/2107.09903v1 )

ライセンス: CC BY 4.0
Ning Li, Kaitao Jiang, Zhiheng Ma, Xing Wei, Xiaopeng Hong, Yihong Gong(参考訳) 異常検出は製品品質管理のための工業生産において重要な役割を果たす。 従来の異常検出方法は、限定的な一般化能力を持つルールベースである。 教師付きディープラーニングに基づく最近の手法はより強力だが、訓練には大規模な注釈付きデータセットが必要である。 実際、異常な生成物は稀であり、完全に監督された方法で深層モデルを訓練することは極めて困難である。 本稿では,自己組織化マップ(SOM)に基づく新しい教師なし異常検出手法を提案する。 提案手法は,マルチスケール特徴量に基づくトポロジカルメモリを用いて,異常検出のための自己組織化マップ(SOMAD)の正常な特性を維持する。 SOMADはMVTecデータセット上の教師なし異常検出とローカライゼーションの最先端性能を達成する。

Anomaly detection plays a key role in industrial manufacturing for product quality control. Traditional methods for anomaly detection are rule-based with limited generalization ability. Recent methods based on supervised deep learning are more powerful but require large-scale annotated datasets for training. In practice, abnormal products are rare thus it is very difficult to train a deep model in a fully supervised way. In this paper, we propose a novel unsupervised anomaly detection approach based on Self-organizing Map (SOM). Our method, Self-organizing Map for Anomaly Detection (SOMAD) maintains normal characteristics by using topological memory based on multi-scale features. SOMAD achieves state-of the-art performance on unsupervised anomaly detection and localization on the MVTec dataset.
翻訳日:2021-07-22 20:32:08 公開日:2021-07-21
# (参考訳) コード切り換え自然言語理解における中間タスク学習の有効性

The Effectiveness of Intermediate-Task Training for Code-Switched Natural Language Understanding ( http://arxiv.org/abs/2107.09931v1 )

ライセンス: CC BY-SA 4.0
Archiki Prasad, Mohammad Ali Rehan, Shreya Pathak, Preethi Jyothi(参考訳) 最近のベンチマークでは、事前訓練された多言語言語モデルの多言語タスクへの一般化に関する多くの新しい研究が進められているが、コード変更の自然言語理解タスクを改善する技術は、あまり研究されていない。 本研究では,コードスイッチトテキストを用いた3つの異なるNLPタスクに対して,大規模かつ一貫した性能向上を導出する信頼性の高い手法としてバイリンガル中間訓練を提案する。 ヒンディー語・英語の自然言語推論(NLI)、質問回答(QA)タスク、スペイン語の感性分析(SA)に対して、平均精度が7.87%、20.15%、F1スコアが10.99%向上した。 SAの4つの言語ペア(ヒンディー語、スペイン語、タミル語、マラヤラム語)において、一貫したパフォーマンス向上を示す。 また,実コード切替テキストを用いた標準的なMLM事前学習と比較して,一貫したSAの恩恵を受けるコード切替マスク言語モデリング(MLM)について述べる。

While recent benchmarks have spurred a lot of new work on improving the generalization of pretrained multilingual language models on multilingual tasks, techniques to improve code-switched natural language understanding tasks have been far less explored. In this work, we propose the use of bilingual intermediate pretraining as a reliable technique to derive large and consistent performance gains on three different NLP tasks using code-switched text. We achieve substantial absolute improvements of 7.87%, 20.15%, and 10.99%, on the mean accuracies and F1 scores over previous state-of-the-art systems for Hindi-English Natural Language Inference (NLI), Question Answering (QA) tasks, and Spanish-English Sentiment Analysis (SA) respectively. We show consistent performance gains on four different code-switched language-pairs (Hindi-English, Spanish-English, Tamil-English and Malayalam-English) for SA. We also present a code-switched masked language modelling (MLM) pretraining technique that consistently benefits SA compared to standard MLM pretraining using real code-switched text.
翻訳日:2021-07-22 20:24:25 公開日:2021-07-21
# (参考訳) 単語ランク進化の統計的モデル

A Statistical Model of Word Rank Evolution ( http://arxiv.org/abs/2107.09948v1 )

ライセンス: CC BY 4.0
Alex John Quijano, Rick Dale, and Suzanne Sindi(参考訳) 大規模な言語データセットが利用できることで、言語変化を研究するためのデータ駆動アプローチが可能になる。 本研究は,Google Books corpus unigram frequency data を用いて,8言語における単語ランクのダイナミクスについて検討する。 1900年から2008年にかけてのユニグラムの階数変化を観察し、分析のために開発したライト・フィッシャーモデルと比較した。 このモデルは、消失する単語を持たないことの制限により、中立的な進化過程をシミュレートする。 この研究は、多項遷移確率を持つマルコフ連鎖として記述されたモデルの数学的枠組みを説明し、単語の頻度が時間とともにどのように変化するかを示す。 データとモデルでの観察から,単語ランクの安定性は,(1)ランクの上昇・減少が単調であること,あるいは(2)平均階数が同じであること,の2つの特徴を示す。 本モデルでは,高ランク語は安定性が高く,低ランク語は揮発性が高い傾向にある。 a)小さな増加/減少の累積による階数の変化と(b)階数の増加/減少の衝撃による階数の変化である。 ストップワードとスワデシュ語の単語のほとんどは、8つの言語で安定している。 これらの署名は、すべての言語のユニグラム周波数が純粋に中立な進化過程と矛盾する方法で変化したことを示唆している。

The availability of large linguistic data sets enables data-driven approaches to study linguistic change. This work explores the word rank dynamics of eight languages by investigating the Google Books corpus unigram frequency data set. We observed the rank changes of the unigrams from 1900 to 2008 and compared it to a Wright-Fisher inspired model that we developed for our analysis. The model simulates a neutral evolutionary process with the restriction of having no disappearing words. This work explains the mathematical framework of the model - written as a Markov Chain with multinomial transition probabilities - to show how frequencies of words change in time. From our observations in the data and our model, word rank stability shows two types of characteristics: (1) the increase/decrease in ranks are monotonic, or (2) the average rank stays the same. Based on our model, high-ranked words tend to be more stable while low-ranked words tend to be more volatile. Some words change in ranks in two ways: (a) by an accumulation of small increasing/decreasing rank changes in time and (b) by shocks of increase/decrease in ranks. Most of the stopwords and Swadesh words are observed to be stable in ranks across eight languages. These signatures suggest unigram frequencies in all languages have changed in a manner inconsistent with a purely neutral evolutionary process.
翻訳日:2021-07-22 20:03:14 公開日:2021-07-21
# (参考訳) モバイルヘルスのためのオンライン構造カーネル選択

Online structural kernel selection for mobile health ( http://arxiv.org/abs/2107.09949v1 )

ライセンス: CC BY 4.0
Eura Shin, Pedja Klasnja, Susan Murphy, Finale Doshi-Velez(参考訳) モバイルヘルスにおける効率的でパーソナライズされた学習の必要性から,マルチタスク環境におけるガウス過程回帰のオンラインカーネル選択の問題を検討した。 この目的のために,カーネル構成に関する新しい生成過程を提案する。 本手法は,カーネル進化の軌跡をユーザ間で伝達して学習を改善するとともに,カーネル自体がmHealth予測目標に意味があることを実証する。

Motivated by the need for efficient and personalized learning in mobile health, we investigate the problem of online kernel selection for Gaussian Process regression in the multi-task setting. We propose a novel generative process on the kernel composition for this purpose. Our method demonstrates that trajectories of kernel evolutions can be transferred between users to improve learning and that the kernels themselves are meaningful for an mHealth prediction goal.
翻訳日:2021-07-22 20:02:00 公開日:2021-07-21
# (参考訳) 配電支援発電機(BDSG)の境界:境界のサンプル生成

Boundary of Distribution Support Generator (BDSG): Sample Generation on the Boundary ( http://arxiv.org/abs/2107.09950v1 )

ライセンス: CC BY 4.0
Nikolaos Dionelis(参考訳) GAN(Generative Adversarial Networks)のような生成モデルは、教師なしの異常検出に使用されている。 性能は改善され続けているが、いくつかの制限は特にマルチモーダルサポートの取得が困難であることや、基礎となる分布をテールに近づける能力に起因している。 流通支援の境界線です 本稿では,このような欠点を緩和するアプローチを提案する。 本稿では,BDSG(Bundary of Distribution Support Generator)モデルを提案する。 GANは一般に確率分布の存在を保証せず,最近開発されたInvertible Residual Network (IResNet) とResidual Flow (ResFlow) を用いて密度推定を行う。 これらのモデルはまだ異常検出に使われていない。 We leverage IResNet and ResFlow for Out-of-Distribution (OoD) sample detection and for sample generation on the boundary using a compound loss function that the sample to lie on the boundary。 BDSGは非凸サポート、解離コンポーネント、マルチモーダル分布に対処する。 MNIST や CIFAR-10 などのマルチモーダル分布からの合成データとデータの結果は,文献の手法と比較して競合性能を示した。

Generative models, such as Generative Adversarial Networks (GANs), have been used for unsupervised anomaly detection. While performance keeps improving, several limitations exist particularly attributed to difficulties at capturing multimodal supports and to the ability to approximate the underlying distribution closer to the tails, i.e. the boundary of the distribution's support. This paper proposes an approach that attempts to alleviate such shortcomings. We propose an invertible-residual-network-based model, the Boundary of Distribution Support Generator (BDSG). GANs generally do not guarantee the existence of a probability distribution and here, we use the recently developed Invertible Residual Network (IResNet) and Residual Flow (ResFlow), for density estimation. These models have not yet been used for anomaly detection. We leverage IResNet and ResFlow for Out-of-Distribution (OoD) sample detection and for sample generation on the boundary using a compound loss function that forces the samples to lie on the boundary. The BDSG addresses non-convex support, disjoint components, and multimodal distributions. Results on synthetic data and data from multimodal distributions, such as MNIST and CIFAR-10, demonstrate competitive performance compared to methods from the literature.
翻訳日:2021-07-22 19:45:12 公開日:2021-07-21
# (参考訳) 電子健康記録における時間データ表現のための深層学習:課題と方法論の体系的考察

Deep learning for temporal data representation in electronic health records: A systematic review of challenges and methodologies ( http://arxiv.org/abs/2107.09951v1 )

ライセンス: CC BY 4.0
Feng Xie, Han Yuan, Yilin Ning, Marcus Eng Hock Ong, Mengling Feng, Wynne Hsu, Bibhas Chakraborty, Nan Liu(参考訳) 目的: 時間的電子健康記録(EHR)は、臨床イベント予測や慢性疾患管理など、二次的使用のための豊富な情報である。 しかし、時間的データ表現には課題がある。 そこで我々は,これらの課題を特定し,深層学習ソリューションの体系的検証を通じて課題に取り組むための新しい手法を評価することを試みた。 方法: 5つのデータベース(pubmed, embase, the institute of electrical and electronics engineers [ieee] xplore digital library, the association for computing machinery [acm] digital library, and web of science)を検索し,いくつかの著名なコンピュータサイエンス会議の議事録で手書き検索を行った。 我々は,2010年1月1日から2020年8月30日までに,構造化EHRデータにおける時間的データ表現に関する深層学習手法を報告した論文を求めた。 時系列の性質,方法論,モデル実装という3つの視点から,選択した記事の要約と分析を行った。 結果: 深層学習を用いた時間データ表現に関する98の論文を収録した。 データ不規則性、データ不均一性、データの分散性、モデル不透明性を含む4つの大きな課題が特定された。 そして、これらの課題にどのように深層学習技術を適用したかを研究した。 最後に,ディープラーニングから生じるオープンな課題について論じる。 結論: 時間的EHRデータは, 臨床予測モデルとデータ利用におけるいくつかの大きな課題を提示する。 ある程度は、現在のディープラーニングソリューションはこれらの課題に対処できる。 将来の研究は包括的で統合されたソリューションの設計を考えることができる。 さらに, 臨床領域の知識を研究設計に取り入れ, モデルの解釈可能性を高め, 臨床実践における実装を促進することが必要である。

Objective: Temporal electronic health records (EHRs) can be a wealth of information for secondary uses, such as clinical events prediction or chronic disease management. However, challenges exist for temporal data representation. We therefore sought to identify these challenges and evaluate novel methodologies for addressing them through a systematic examination of deep learning solutions. Methods: We searched five databases (PubMed, EMBASE, the Institute of Electrical and Electronics Engineers [IEEE] Xplore Digital Library, the Association for Computing Machinery [ACM] digital library, and Web of Science) complemented with hand-searching in several prestigious computer science conference proceedings. We sought articles that reported deep learning methodologies on temporal data representation in structured EHR data from January 1, 2010, to August 30, 2020. We summarized and analyzed the selected articles from three perspectives: nature of time series, methodology, and model implementation. Results: We included 98 articles related to temporal data representation using deep learning. Four major challenges were identified, including data irregularity, data heterogeneity, data sparsity, and model opacity. We then studied how deep learning techniques were applied to address these challenges. Finally, we discuss some open challenges arising from deep learning. Conclusion: Temporal EHR data present several major challenges for clinical prediction modeling and data utilization. To some extent, current deep learning solutions can address these challenges. Future studies can consider designing comprehensive and integrated solutions. Moreover, researchers should incorporate additional clinical domain knowledge into study designs and enhance the interpretability of the model to facilitate its implementation in clinical practice.
翻訳日:2021-07-22 19:36:41 公開日:2021-07-21
# (参考訳) ファサード画像におけるウィンドウ検出:Mask R-CNNを用いた深層学習手法

Window Detection In Facade Imagery: A Deep Learning Approach Using Mask R-CNN ( http://arxiv.org/abs/2107.10006v1 )

ライセンス: CC BY 4.0
Nils Nordmark and Mola Ayenew(参考訳) ファサード建築における窓のパーシングは、コンピュータビジョンにおいて長年望まれてきたが難しい課題である。 都市分析、セマンティック再構築、ライフサイクル分析、デジタル双生児、および高品質なセマンティックデータを必要とする他の建物関連タスクのシーン解析に不可欠である。 本稿では、ファサード画像入力のウィンドウ検出に使用するマスクR-CNNフレームワークについて検討する。 我々はトランスファーラーニングを利用してCOCO重みに関する提案手法を、ファサードのストリートビュー画像の収集データセットを用いて学習し、新しいウィンドウクラスのインスタンスセグメンテーションを作成する。 実験の結果, 比較的小さなデータセットを用いた提案手法は, 移動学習と拡張のみでネットワークを訓練し, 従来の最先端ウィンドウ検出手法と同等の結果が得られることがわかった。

The parsing of windows in building facades is a long-desired but challenging task in computer vision. It is crucial to urban analysis, semantic reconstruction, lifecycle analysis, digital twins, and scene parsing amongst other building-related tasks that require high-quality semantic data. This article investigates the usage of the mask R-CNN framework to be used for window detection of facade imagery input. We utilize transfer learning to train our proposed method on COCO weights with our own collected dataset of street view images of facades to produce instance segmentations of our new window class. Experimental results show that our suggested approach with a relatively small dataset trains the network only with transfer learning and augmentation achieves results on par with prior state-of-the-art window detection approaches, even without post-optimization techniques.
翻訳日:2021-07-22 19:35:14 公開日:2021-07-21
# (参考訳) Delving Into Deep Walkers: ランダムウォークに基づく頂点埋め込みの収束解析

Delving Into Deep Walkers: A Convergence Analysis of Random-Walk-Based Vertex Embeddings ( http://arxiv.org/abs/2107.10014v1 )

ライセンス: CC BY 4.0
Dominik Kloepfer, Angelica I. Aviles-Rivero, Daniel Heydecker(参考訳) ランダムウォークに基づくグラフ頂点埋め込みは近年ますます影響力を増しており、関連する情報を保存しながら、グラフを効率的に計算的に消化可能な形式に変換することにより、いくつかのタスクで優れたパフォーマンスを示している。 しかし、そのようなアルゴリズムの理論的性質、特にハイパーパラメータとグラフ構造が収束挙動に与える影響は、今のところ十分に理解されていない。 本研究では,ランダムウォークに基づく埋め込み手法に関する理論的解析を行う。 まず、いくつかの弱い仮定の下で、ランダムウォークに由来する頂点埋め込みは、ランダムウォークの数の唯一の極限である$n \to \infty$と、$n$と各ランダムウォークの2倍の極限である$l\to\infty$の両方に収束する。 第二に、単一および二重極限に対するコーパスの収束率を定量化する濃度境界を導出する。 第3に、これらの結果を用いて超パラメータを$N$と$L$を選択するヒューリスティックを導出する。 実世界のアプリケーションから抽出したいくつかのグラフについて,数値的および視覚的実験を行い,本研究の実用的重要性を検証・実証した。

Graph vertex embeddings based on random walks have become increasingly influential in recent years, showing good performance in several tasks as they efficiently transform a graph into a more computationally digestible format while preserving relevant information. However, the theoretical properties of such algorithms, in particular the influence of hyperparameters and of the graph structure on their convergence behaviour, have so far not been well-understood. In this work, we provide a theoretical analysis for random-walks based embeddings techniques. Firstly, we prove that, under some weak assumptions, vertex embeddings derived from random walks do indeed converge both in the single limit of the number of random walks $N \to \infty$ and in the double limit of both $N$ and the length of each random walk $L\to\infty$. Secondly, we derive concentration bounds quantifying the converge rate of the corpora for the single and double limits. Thirdly, we use these results to derive a heuristic for choosing the hyperparameters $N$ and $L$. We validate and illustrate the practical importance of our findings with a range of numerical and visual experiments on several graphs drawn from real-world applications.
翻訳日:2021-07-22 19:21:40 公開日:2021-07-21
# (参考訳) リレーショナルグラフの畳み込み型ネットワーク

Relational Graph Convolutional Networks: A Closer Look ( http://arxiv.org/abs/2107.10015v1 )

ライセンス: CC BY 4.0
Thiviyan Thanapalasingam, Lucas van Berkel, Peter Bloem, Paul Groth(参考訳) 本稿では,rgcn(relational graph convolutional network)の再現について述べる。 再現を用いて、モデルの背後にある直感を説明する。 その結果,ノード分類とリンク予測タスクにおけるベンチマークナレッジグラフデータセットを用いて,実装の正確性を実証的に検証した。 我々の説明は、RGCNアプローチを拡張したユーザと研究者の両方に対して、RGCNの異なるコンポーネントについて友好的な理解を提供する。 さらに,よりパラメータ効率の良いrscnの2つの新しい構成を導入する。 コードとデータセットはhttps://github.com/thiviyant/torch-rgcnで入手できる。

In this paper, we describe a reproduction of the Relational Graph Convolutional Network (RGCN). Using our reproduction, we explain the intuition behind the model. Our reproduction results empirically validate the correctness of our implementations using benchmark Knowledge Graph datasets on node classification and link prediction tasks. Our explanation provides a friendly understanding of the different components of the RGCN for both users and researchers extending the RGCN approach. Furthermore, we introduce two new configurations of the RGCN that are more parameter efficient. The code and datasets are available at https://github.com/thiviyanT/torch-rgcn.
翻訳日:2021-07-22 18:52:59 公開日:2021-07-21
# (参考訳) 神経放射線学における情報抽出のための人工知能自然言語処理パイプライン

An artificial intelligence natural language processing pipeline for information extraction in neuroradiology ( http://arxiv.org/abs/2107.10021v1 )

ライセンス: CC BY 4.0
Henry Watkins, Robert Gray, Ashwani Jha, Parashkev Nachev(参考訳) 医療研究における電子健康記録の利用は、非構造化フォーマットのため困難である。 レポート内の情報抽出と患者のプレゼンテーションの要約は,ダウンストリーム分析に適した方法で行うことは,手術研究や臨床研究に非常に有益である。 本稿では,神経学における放射線情報抽出のための自然言語処理パイプラインを提案する。 当社のパイプラインでは、ルールベースと人工知能モデルのハイブリッドシーケンスを使用して、神経学的レポートの抽出と要約を高精度に行います。 われわれは, ロンドン・MRIの国立神経外科・神経外科病院からの150万件の放射線学的報告に基づいて, カスタム言語モデルを訓練し, 評価した。 また、ドメイン固有の神経放射線学データセット上での標準NLPタスクの結果も提示する。 これらの報告から臨床的に関連のある情報を確実に抽出し,報告の下流モデル化と,これまでにない規模の画像化を可能にした。

The use of electronic health records in medical research is difficult because of the unstructured format. Extracting information within reports and summarising patient presentations in a way amenable to downstream analysis would be enormously beneficial for operational and clinical research. In this work we present a natural language processing pipeline for information extraction of radiological reports in neurology. Our pipeline uses a hybrid sequence of rule-based and artificial intelligence models to accurately extract and summarise neurological reports. We train and evaluate a custom language model on a corpus of 150000 radiological reports from National Hospital for Neurology and Neurosurgery, London MRI imaging. We also present results for standard NLP tasks on domain-specific neuroradiology datasets. We show our pipeline, called `neuroNLP', can reliably extract clinically relevant information from these reports, enabling downstream modelling of reports and associated imaging on a heretofore unprecedented scale.
翻訳日:2021-07-22 18:29:53 公開日:2021-07-21
# (参考訳) 学習定理証明成分

Learning Theorem Proving Components ( http://arxiv.org/abs/2107.10034v1 )

ライセンス: CC BY 4.0
Karel Chvalovsk\'y, Jan Jakub\r{u}v, Miroslav Ol\v{s}\'ak, Josef Urban(参考訳) 与えられた節手続きに基づく飽和型自動定理プロバー(atp)は、古典一階述語論理の最も一般的な推論器である。 しかしながら、そのようなシステムにおける節選択ヒューリスティックスは、しばしば独立した節を評価し、他の節を無視している。 これは、最近E/ENIGMAシステムにグラフニューラルネットワーク(GNN)を装備し、前述した節の文脈での評価に基づいて次の節を選択することで変化している。 本稿では,enigmaを用いたいくつかのアルゴリズムと実験について述べるとともに,節のグラフの重要な要素の学習に基づく文脈評価のアイデアを前進させる。

Saturation-style automated theorem provers (ATPs) based on the given clause procedure are today the strongest general reasoners for classical first-order logic. The clause selection heuristics in such systems are, however, often evaluating clauses in isolation, ignoring other clauses. This has changed recently by equipping the E/ENIGMA system with a graph neural network (GNN) that chooses the next given clause based on its evaluation in the context of previously selected clauses. In this work, we describe several algorithms and experiments with ENIGMA, advancing the idea of contextual evaluation based on learning important components of the graph of clauses.
翻訳日:2021-07-22 18:16:42 公開日:2021-07-21
# (参考訳) You Better Look Twice: 少ない計算で正確な検出器を設計するための新しい視点

You Better Look Twice: a new perspective for designing accurate detectors with reduced computations ( http://arxiv.org/abs/2107.10050v1 )

ライセンス: CC BY 4.0
Alexandra Dana, Maor Shutman, Yotam Perlitz, Ran Vitek, Tomer Peleg, Roy Jevnisek(参考訳) 一般的な物体検出器は強力なバックボーンを使用して画像から特徴を均一に抽出し、膨大な種類の物体を検出する。 しかし、特定のオブジェクトタイプ向けに開発されたオブジェクト検出アプリケーションにおけるそのようなバックボーンの利用は、必要以上に大量のバックグラウンドを過剰に処理することができる。 さらに、オブジェクトスケールに依存しないため、同じ解像度ですべての画像領域を冗長に処理する。 本研究では,BLT-netという低計算の2段階オブジェクト検出アーキテクチャを導入し,画像の背景とオブジェクトを可変スケールで処理する。 blt-netは、非常にライトな第一段階を使ってオブジェクトを背景から分離することで、計算を減らす。 BLT-netは、処理されたバックグラウンドをさらに減らし、その解像度を動的に減らして計算を最小化する提案を効率よくマージする。 結果のイメージ提案は、高度に正確なモデルによって第2段階で処理される。 我々は,物体が異なるサイズで,画像が高解像度で,オブジェクト検出がリアルタイムに必要となる歩行者検出問題のアーキテクチャを実証する。 本設計では,少ない精度で精度の劣化を考慮し,Citypersons と Caltech のデータセットの x4-x7 で計算を削減できることが示されている。 この手法は,背景や物体の大きさの異なるシーンにおける他の物体検出アプリケーションにも適用でき,計算量を削減することができる。

General object detectors use powerful backbones that uniformly extract features from images for enabling detection of a vast amount of object types. However, utilization of such backbones in object detection applications developed for specific object types can unnecessarily over-process an extensive amount of background. In addition, they are agnostic to object scales, thus redundantly process all image regions at the same resolution. In this work we introduce BLT-net, a new low-computation two-stage object detection architecture designed to process images with a significant amount of background and objects of variate scales. BLT-net reduces computations by separating objects from background using a very lite first-stage. BLT-net then efficiently merges obtained proposals to further decrease processed background and then dynamically reduces their resolution to minimize computations. Resulting image proposals are then processed in the second-stage by a highly accurate model. We demonstrate our architecture on the pedestrian detection problem, where objects are of different sizes, images are of high resolution and object detection is required to run in real-time. We show that our design reduces computations by a factor of x4-x7 on the Citypersons and Caltech datasets with respect to leading pedestrian detectors, on account of a small accuracy degradation. This method can be applied on other object detection applications in scenes with a considerable amount of background and variate object sizes to reduce computations.
翻訳日:2021-07-22 18:01:48 公開日:2021-07-21
# (参考訳) 低リソース手書き文字認識のためのプログレッシブなFew Shot Learningアプローチ

Few Shots Is All You Need: A Progressive Few Shot Learning Approach for Low Resource Handwriting Recognition ( http://arxiv.org/abs/2107.10064v1 )

ライセンス: CC BY 4.0
Mohamed Ali Souibgui, Alicia Forn\'es, Yousri Kessentini, Be\'ata Megyesi(参考訳) 希少なアルファベットの写本のような低資源シナリオにおける手書き文字認識は難しい問題である。 主な難しさは、わずかな注釈付きデータと限られた言語情報(例)から生じる。 辞書と言語モデル)。 そこで本研究では,人為的作業のアノテーション処理を大幅に削減し,アルファベット記号の少ない画像のみを必要とする,数ショットの学習に基づく手書き文字認識手法を提案する。 まず,与えられたアルファベットのすべての記号をテキストライン画像で検出し,符号化ステップで記号類似度スコアを書き起こされた記号の最終列にマップする。 我々のモデルは、ターゲット領域と異なるが、まず任意のアルファベットから生成された合成線画像に基づいて事前訓練される。 次に、第2のトレーニングステップを適用して、ソースとターゲットデータのギャップを小さくする。 このリトレーニングには,数千の手書き記号と境界ボックスのアノテーションが必要であるため,非注釈データに擬似ラベルを自動的に割り当てる教師なしのプログレッシブラーニングアプローチによる人的作業を回避することを提案する。 異なる写本データセットに対する評価は、我々のモデルが人間の労力を大幅に削減することで競争結果をもたらすことを示している。

Handwritten text recognition in low resource scenarios, such as manuscripts with rare alphabets, is a challenging problem. The main difficulty comes from the very few annotated data and the limited linguistic information (e.g. dictionaries and language models). Thus, we propose a few-shot learning-based handwriting recognition approach that significantly reduces the human labor annotation process, requiring only few images of each alphabet symbol. First, our model detects all symbols of a given alphabet in a textline image, then a decoding step maps the symbol similarity scores to the final sequence of transcribed symbols. Our model is first pretrained on synthetic line images generated from any alphabet, even though different from the target domain. A second training step is then applied to diminish the gap between the source and target data. Since this retraining would require annotation of thousands of handwritten symbols together with their bounding boxes, we propose to avoid such human effort through an unsupervised progressive learning approach that automatically assigns pseudo-labels to the non-annotated data. The evaluation on different manuscript datasets show that our model can lead to competitive results with a significant reduction in human effort.
翻訳日:2021-07-22 17:44:37 公開日:2021-07-21
# (参考訳) ガウス過程に対する適応誘導点選択

Adaptive Inducing Points Selection For Gaussian Processes ( http://arxiv.org/abs/2107.10066v1 )

ライセンス: CC BY 4.0
Th\'eo Galy-Fajou, Manfred Opper(参考訳) ガウス過程 (Gaussian Processes) は、強い確率論的解釈を持つフレキシブルな非パラメトリックモデルである。 時系列で推論を行うための標準的な選択肢であるが、GPにはストリーミング環境で動作させる技術がほとんどない。 \cite{bui2017streaming}は、スパーシティ技術を用いてオンラインgpsをトレーニングするための効率的な変分法を開発した。 IPの数と位置は、アルゴリズムの性能に大きな影響を与えるだろう。 位置の最適化に加えて,GPの特性とデータ構造に基づいて,新たな点を適応的に追加することを提案する。

Gaussian Processes (\textbf{GPs}) are flexible non-parametric models with strong probabilistic interpretation. While being a standard choice for performing inference on time series, GPs have few techniques to work in a streaming setting. \cite{bui2017streaming} developed an efficient variational approach to train online GPs by using sparsity techniques: The whole set of observations is approximated by a smaller set of inducing points (\textbf{IPs}) and moved around with new data. Both the number and the locations of the IPs will affect greatly the performance of the algorithm. In addition to optimizing their locations, we propose to adaptively add new points, based on the properties of the GP and the structure of the data.
翻訳日:2021-07-22 17:32:03 公開日:2021-07-21
# (参考訳) 機構スパーシティによる潜在因果変数の発見:非線形icaの新しい原理

Discovering Latent Causal Variables via Mechanism Sparsity: A New Principle for Nonlinear ICA ( http://arxiv.org/abs/2107.10098v1 )

ライセンス: CC BY 4.0
S\'ebastien Lachapelle, Pau Rodr\'iguez L\'opez, R\'emi Le Priol, Alexandre Lacoste, Simon Lacoste-Julien(参考訳) 潜在的に高次元現象の解釈可能な低次元表現を見つけることは、科学的な企業の中心であると主張することができる。 ICA(Independent component analysis)は、この目的を定式化し、実用的な応用のための推定手順を提供する手法の集合を指す。 本研究は, 観測された補助変数および/または過去の潜在因子に依存しない潜時因子が非線形icaを実現するための新しい原理として, 機構スパーシティ正規化を提案する。 そこで本研究では,潜伏変数がスパースに正規化され,データ生成プロセスによってグラフィカルな基準が満たされる場合,変分まで回復可能であることを示す。 特殊な場合として、我々のフレームワークは、潜伏要因の未知の介入を利用してそれらを解き放つ方法を示し、ICAと因果関係をさらに深める。 おもちゃの実験で理論結果を検証した。

It can be argued that finding an interpretable low-dimensional representation of a potentially high-dimensional phenomenon is central to the scientific enterprise. Independent component analysis (ICA) refers to an ensemble of methods which formalize this goal and provide estimation procedure for practical application. This work proposes mechanism sparsity regularization as a new principle to achieve nonlinear ICA when latent factors depend sparsely on observed auxiliary variables and/or past latent factors. We show that the latent variables can be recovered up to a permutation if one regularizes the latent mechanisms to be sparse and if some graphical criterion is satisfied by the data generating process. As a special case, our framework shows how one can leverage unknown-target interventions on the latent factors to disentangle them, thus drawing further connections between ICA and causality. We validate our theoretical results with toy experiments.
翻訳日:2021-07-22 17:18:57 公開日:2021-07-21
# (参考訳) 事前誘導ゼロ次最適化アルゴリズムの収束について

On the Convergence of Prior-Guided Zeroth-Order Optimization Algorithms ( http://arxiv.org/abs/2107.10110v1 )

ライセンス: CC BY 4.0
Shuyu Cheng, Guoqiang Wu, Jun Zhu(参考訳) zeroth-order (zo)最適化は、クエリベースのブラックボックス攻撃や強化学習など、難しいタスクを処理するために広く使われている。 有限差分に基づく勾配推定手法に事前情報を統合する様々な試みが行われ、有望な実験結果が得られた。 しかし、それらの収束性はよく分かっていない。 本稿では,様々な勾配推定器を用いて,先行誘導ZOアルゴリズムの収束度を分析し,このギャップを埋める試みを行う。 我々は,事前誘導型ランダム勾配フリー(PRGF)アルゴリズムに対する収束保証を提供する。 さらに,グリーディ降下法をさらに高速化するために,先行情報と収束解析を組み込んだ新しい高速化ランダムサーチ(ARS)アルゴリズムを提案する。 最後に,いくつかの数値ベンチマークおよび敵攻撃実験により理論的結果を確認した。

Zeroth-order (ZO) optimization is widely used to handle challenging tasks, such as query-based black-box adversarial attacks and reinforcement learning. Various attempts have been made to integrate prior information into the gradient estimation procedure based on finite differences, with promising empirical results. However, their convergence properties are not well understood. This paper makes an attempt to fill this gap by analyzing the convergence of prior-guided ZO algorithms under a greedy descent framework with various gradient estimators. We provide a convergence guarantee for the prior-guided random gradient-free (PRGF) algorithms. Moreover, to further accelerate over greedy descent methods, we present a new accelerated random search (ARS) algorithm that incorporates prior information, together with a convergence analysis. Finally, our theoretical results are confirmed by experiments on several numerical benchmarks as well as adversarial attacks.
翻訳日:2021-07-22 16:42:37 公開日:2021-07-21
# (参考訳) コントラスト型adversarial trainingによるテキスト分類の改善

Improved Text Classification via Contrastive Adversarial Training ( http://arxiv.org/abs/2107.10137v1 )

ライセンス: CC BY 4.0
Lin Pan, Chung-Wei Hang, Avirup Sil, Saloni Potdar, Mo Yu(参考訳) 本稿では,テキスト分類タスクのためのトランスコーダの微調整を簡易かつ汎用的に行う手法を提案する。 具体的には,ノイズ不変表現の学習をモデルに教えるために,モデルの単語埋め込みを摂動させ,クリーンな例と反対の例の対比学習を行うことで,その逆の例を生成する。 クリーンな例と逆向きな例を同時にトレーニングすることにより、クリーンな例の標準的な微調整よりも一貫した改善を観察する。 いくつかのGLUEベンチマークタスクでは、調整済みのBERT LargeモデルはBERT Largeベースラインを平均1.7%上回り、調整済みのRoBERTa LargeはRoBERTa Largeベースラインを1.3%上回る。 さらに3つの意図分類データセットを用いて,本手法を異なる領域で検証し,RoBERTa Largeの細調整によるベースライン平均1-2%の精度でRoBERTa Largeを性能良くする。

We propose a simple and general method to regularize the fine-tuning of Transformer-based encoders for text classification tasks. Specifically, during fine-tuning we generate adversarial examples by perturbing the word embeddings of the model and perform contrastive learning on clean and adversarial examples in order to teach the model to learn noise-invariant representations. By training on both clean and adversarial examples along with the additional contrastive objective, we observe consistent improvement over standard fine-tuning on clean examples. On several GLUE benchmark tasks, our fine-tuned BERT Large model outperforms BERT Large baseline by 1.7% on average, and our fine-tuned RoBERTa Large improves over RoBERTa Large baseline by 1.3%. We additionally validate our method in different domains using three intent classification datasets, where our fine-tuned RoBERTa Large outperforms RoBERTa Large baseline by 1-2% on average.
翻訳日:2021-07-22 16:41:27 公開日:2021-07-21
# (参考訳) s4t: 自己教師付き選択的自己学習による意味セグメンテーションのためのソースフリードメイン適応

S4T: Source-free domain adaptation for semantic segmentation via self-supervised selective self-training ( http://arxiv.org/abs/2107.10140v1 )

ライセンス: CC BY 4.0
Viraj Prabhu, Shivam Khare, Deeksha Kartik, Judy Hoffman(参考訳) ドメイン適応セマンティックセグメンテーションの現代的なアプローチのほとんどは、適応中のソースデータへの継続的なアクセスに依存しているが、計算やプライバシの制約のために実現不可能である。 我々は、意味セグメンテーションのためのソースフリーなドメイン適応にフォーカスし、ソースモデルはラベルなしのターゲットデータのみを与えられた新しいターゲットドメインに適応しなければならない。 まず,各対象画像の多様なビューにまたがる画素レベルの予測一貫性と,モデル信頼度を用いて,信頼度または信頼性の低い画素予測を分類する,ソースフリー適応アルゴリズムであるs4tを提案する。 次に、モデルが自己学習され、予測された擬似ラベルを用いて信頼できる予測と、信頼できないものに対する選択的補間戦略によって推定される疑似ラベルを用いる。 S4Tは、単一の適応のエポック内でセマンティックセグメンテーションのための3つの標準ベンチマークに対して、ソースフリー適応の最先端を一致または改善する。

Most modern approaches for domain adaptive semantic segmentation rely on continued access to source data during adaptation, which may be infeasible due to computational or privacy constraints. We focus on source-free domain adaptation for semantic segmentation, wherein a source model must adapt itself to a new target domain given only unlabeled target data. We propose Self-Supervised Selective Self-Training (S4T), a source-free adaptation algorithm that first uses the model's pixel-level predictive consistency across diverse views of each target image along with model confidence to classify pixel predictions as either reliable or unreliable. Next, the model is self-trained, using predicted pseudolabels for reliable predictions and pseudolabels inferred via a selective interpolation strategy for unreliable ones. S4T matches or improves upon the state-of-the-art in source-free adaptation on 3 standard benchmarks for semantic segmentation within a single epoch of adaptation.
翻訳日:2021-07-22 16:27:48 公開日:2021-07-21
# (参考訳) JEFL:形式証明ライブラリの共同埋め込み

JEFL: Joint Embedding of Formal Proof Libraries ( http://arxiv.org/abs/2107.10188v1 )

ライセンス: CC BY 4.0
Qingxiang Wang, Cezary Kaliszyk(参考訳) 異なる対話型証明アシスタントライブラリで使用される論理的基盤の異質性は、類似した数学的概念の発見を困難にしている。 本稿では,従来提案されていたライブラリ間の概念マッチングアルゴリズムと,類似概念の検索を支援する非教師なし埋め込み手法を比較した。 我々のアプローチは、Word2Vecの高速テキスト実装に基づいており、その上にツリートラバーサルモジュールを追加して、そのアルゴリズムをデータエクスポートパイプラインの表現形式に適応させる。 我々は、アプローチの説明可能性、カスタマイズ性、オンライン可観測性を比較し、ニューラル埋め込みアプローチは、対話型証明アシスタントに統合される可能性が高いと主張している。

The heterogeneous nature of the logical foundations used in different interactive proof assistant libraries has rendered discovery of similar mathematical concepts among them difficult. In this paper, we compare a previously proposed algorithm for matching concepts across libraries with our unsupervised embedding approach that can help us retrieve similar concepts. Our approach is based on the fasttext implementation of Word2Vec, on top of which a tree traversal module is added to adapt its algorithm to the representation format of our data export pipeline. We compare the explainability, customizability, and online-servability of the approaches and argue that the neural embedding approach has more potential to be integrated into an interactive proof assistant.
翻訳日:2021-07-22 15:58:59 公開日:2021-07-21
# (参考訳) 分類マージンの分布:すべてのデータが等しいか?

Distribution of Classification Margins: Are All Data Equal? ( http://arxiv.org/abs/2107.10199v1 )

ライセンス: CC BY 4.0
Andrzej Banburski, Fernanda De La Torre, Nishka Pant, Ishana Shastri, Tomaso Poggio(参考訳) 最近の理論的結果は、指数損失関数の下でのディープニューラルネットワークの勾配降下が局所的に分類マージンを最大化することを示しており、これはマージン制約の下で重み行列のノルムを最小化するのと同値である。 しかし、この解の性質は一般化性能を完全に特徴づけるものではない。 我々は理論的に動機付け、トレーニングセット上のマージン分布の曲線の下の領域が実際は一般化のよい尺度であることを示す。 次に、データ分離が達成されれば、パフォーマンスを著しく損なうことなく、トレーニングセットを99%以上動的に削減できることを示す。 興味深いことに、"高容量"特徴のサブセットは、異なるトレーニング実行間で一貫性がなく、すべてのトレーニングポイントはsgd下で同じ漸近的なマージンに収束し、バッチ正規化と重量減少の両方が存在するべきであるという理論的な主張と一致している。

Recent theoretical results show that gradient descent on deep neural networks under exponential loss functions locally maximizes classification margin, which is equivalent to minimizing the norm of the weight matrices under margin constraints. This property of the solution however does not fully characterize the generalization performance. We motivate theoretically and show empirically that the area under the curve of the margin distribution on the training set is in fact a good measure of generalization. We then show that, after data separation is achieved, it is possible to dynamically reduce the training set by more than 99% without significant loss of performance. Interestingly, the resulting subset of "high capacity" features is not consistent across different training runs, which is consistent with the theoretical claim that all training points should converge to the same asymptotic margin under SGD and in the presence of both batch normalization and weight decay.
翻訳日:2021-07-22 15:44:42 公開日:2021-07-21
# (参考訳) 一般ReLU活性化を用いた深度2ニューラルネットの学習アルゴリズム

Efficient Algorithms for Learning Depth-2 Neural Networks with General ReLU Activations ( http://arxiv.org/abs/2107.10209v1 )

ライセンス: CC BY 4.0
Pranjal Awasthi, Alex Tang, Aravindan Vijayaraghavan(参考訳) 一般のReLUアクティベーションを持つ未知の深さ2フィードフォワードニューラルネットワークを,軽度の非退化仮定の下で学習するための多項式時間とサンプル効率的なアルゴリズムを提案する。 特に、$x$ がガウス分布から引き出される$f(x) = {a}^{\mathsf{t}}\sigma({w}^\mathsf{t}x+b)$、$\sigma(t) := \max(t,0)$ という形の未知のネットワークを学習することを考える。 reluアクティベーションを持つ学習ネットワークに対する事前の作業は、バイアス$b$がゼロであると仮定する。 バイアス項の存在に対処するために,提案アルゴリズムは,関数 $f(x)$ のエルミート展開から生じる複数の高次テンソルをロバストに分解する。 これらの概念を用いて,ネットワークパラメータの最小仮定下での識別性を確立する。

We present polynomial time and sample efficient algorithms for learning an unknown depth-2 feedforward neural network with general ReLU activations, under mild non-degeneracy assumptions. In particular, we consider learning an unknown network of the form $f(x) = {a}^{\mathsf{T}}\sigma({W}^\mathsf{T}x+b)$, where $x$ is drawn from the Gaussian distribution, and $\sigma(t) := \max(t,0)$ is the ReLU activation. Prior works for learning networks with ReLU activations assume that the bias $b$ is zero. In order to deal with the presence of the bias terms, our proposed algorithm consists of robustly decomposing multiple higher order tensors arising from the Hermite expansion of the function $f(x)$. Using these ideas we also establish identifiability of the network parameters under minimal assumptions.
翻訳日:2021-07-22 15:21:55 公開日:2021-07-21
# (参考訳) 単語埋め込みからバイアスを除去する逆行性デバイアス

Using Adversarial Debiasing to Remove Bias from Word Embeddings ( http://arxiv.org/abs/2107.10251v1 )

ライセンス: CC BY-SA 4.0
Dana Kenna(参考訳) 単語埋め込みは、元のコーパスに存在する社会的バイアスを含むことが示されており、この問題に対処する既存の方法は、表面的バイアスを除去するだけである。 Themethod of Adversarial Debiasingwas も同様に表面的であると推定されるが、これは以前の作品では確認されていない。 他の方法での浅い除去を実証した実験から、逆脱バイアスは偏見の除去により効果的であり、従って逆脱バイアスの有用性を動機づける。

Word Embeddings have been shown to contain the societal biases present in the original corpora.Existing methods to deal with this problem have been shown to only remove superficial biases. Themethod ofAdversarial Debiasingwas presumed to be similarly superficial, but this is was not verifiedin previous works. Using the experiments that demonstrated the shallow removal in other methods, Ishow results that suggestAdversarial Debiasingis more effective at removing bias and thus motivatefurther investigation on the utility ofAdversarial Debiasing.
翻訳日:2021-07-22 15:20:35 公開日:2021-07-21
# (参考訳) 学習スキルを用いた実演指導強化学習

Demonstration-Guided Reinforcement Learning with Learned Skills ( http://arxiv.org/abs/2107.10253v1 )

ライセンス: CC BY 4.0
Karl Pertsch, Youngwoon Lee, Yue Wu, Joseph J. Lim(参考訳) デモンストレーションガイド強化学習(rl)は、報酬フィードバックと目的とするタスクのデモンストレーションの両方を活用することで、複雑な行動を学ぶための有望なアプローチである。 デモガイドされたrlの以前のアプローチは、すべての新しいタスクを独立した学習問題として扱い、デモ参加者の正確な筋肉の動きに従うことによって、完全に見えない行動を模倣しようとする人間に似た、提供されたデモを段階的に追おうとするものだ。 当然、そのような学習は遅くなりますが、新しい行動は完全には見えません。 本研究では,この共有サブタスク構造を利用して実演誘導RLの効率を向上させることを目的とする。 私たちはまず、多くのタスクにまたがって収集された以前の経験の大規模なオフラインデータセットから再利用可能なスキルセットを学びます。 そこで本研究では,実演指導rlのアルゴリズムであるskill-based learning with demonstrations(skild)を提案する。 本研究では,長期迷路ナビゲーションと複雑なロボット操作タスクにおけるアプローチの有効性を検証する。

Demonstration-guided reinforcement learning (RL) is a promising approach for learning complex behaviors by leveraging both reward feedback and a set of target task demonstrations. Prior approaches for demonstration-guided RL treat every new task as an independent learning problem and attempt to follow the provided demonstrations step-by-step, akin to a human trying to imitate a completely unseen behavior by following the demonstrator's exact muscle movements. Naturally, such learning will be slow, but often new behaviors are not completely unseen: they share subtasks with behaviors we have previously learned. In this work, we aim to exploit this shared subtask structure to increase the efficiency of demonstration-guided RL. We first learn a set of reusable skills from large offline datasets of prior experience collected across many tasks. We then propose Skill-based Learning with Demonstrations (SkiLD), an algorithm for demonstration-guided RL that efficiently leverages the provided demonstrations by following the demonstrated skills instead of the primitive actions, resulting in substantial performance improvements over prior demonstration-guided RL approaches. We validate the effectiveness of our approach on long-horizon maze navigation and complex robot manipulation tasks.
翻訳日:2021-07-22 15:10:01 公開日:2021-07-21
# ディープニューラルネットワークにおける記憶:損失関数は重要か?

Memorization in Deep Neural Networks: Does the Loss Function matter? ( http://arxiv.org/abs/2107.09957v1 )

ライセンス: Link先を確認
Deep Patel and P.S. Sastry(参考訳) 深部ニューラルネットワークは、しばしば過パラメータ化のため、ランダムにラベル付けされたデータを正確に記憶することができる。 実証的な研究により、標準正規化技術はいずれも過剰適合を緩和するものではないことが示されている。 損失関数の選択がこの記憶に影響を及ぼすかどうかを検討する。 ベンチマークデータセット mnist と cifar-10 では、クロスエントロピーあるいは二乗誤差損失とは対照的に対称損失関数が、ネットワークがそのような過剰適合に抵抗する能力を大幅に改善することを示した。 次に,記憶に対するロバスト性に関する形式的定義と,対称損失がこのロバスト性をもたらす理由に関する理論的説明を与える。 本研究の結果から, この記憶現象において, 損失関数のみが果たす役割が明らかとなった。

Deep Neural Networks, often owing to the overparameterization, are shown to be capable of exactly memorizing even randomly labelled data. Empirical studies have also shown that none of the standard regularization techniques mitigate such overfitting. We investigate whether the choice of the loss function can affect this memorization. We empirically show, with benchmark data sets MNIST and CIFAR-10, that a symmetric loss function, as opposed to either cross-entropy or squared error loss, results in significant improvement in the ability of the network to resist such overfitting. We then provide a formal definition for robustness to memorization and provide a theoretical explanation as to why the symmetric losses provide this robustness. Our results clearly bring out the role loss functions alone can play in this phenomenon of memorization.
翻訳日:2021-07-22 14:24:57 公開日:2021-07-21
# CogME:ビデオ理解インテリジェンスのための新しい評価基準

CogME: A Novel Evaluation Metric for Video Understanding Intelligence ( http://arxiv.org/abs/2107.09847v1 )

ライセンス: Link先を確認
Minjung Shin (1), Jeonghoon Kim (1 and 2), Seongho Choi (3), Yu-Jung Heo (3), Donghyun Kim (1 and 4), Minsu Lee (3 and 5), Byoung-Tak Zhang (3 and 5) and Jeh-Kwang Ryu (1 and 4) ((1) Laboratory for Natural and Artificial Kin\"asthese, Convergence Research Center for Artificial Intelligence (CRC4AI), Dongguk University, Seoul, South Korea, (2) Department of Artificial Intelligence, Dongguk University, Seoul, South Korea, (3) Biointelligence Laboratory, Department of Computer Science and Engineering, Seoul National University, Seoul, South Korea, (4) Department of Physical Education, College of Education, Dongguk University, Seoul, South Korea, (5) AI Institute of Seoul National University (AIIS), Seoul, South Korea)(参考訳) 映像理解インテリジェンスの開発は、自然言語処理、時間依存、推論に基づく画像、スクリプト、音声の総合的な統合を必要とするため、非常に難しい。 近年,大規模に質問応答(qa)を伴う複数のビデオデータセットにおいて,相当な試みがなされている。 しかし,ビデオ質問応答(VideoQA)の既存の評価基準は,有意義な分析を提供していない。 進歩させるためには、人間が理解する方法で確立された優れたフレームワークは、詳細な理解のパフォーマンスを説明し、評価する必要があると論じる。 次に,人間とストーリー要素の認知過程に基づくビデオqaのためのトップダウン評価システム,cognitive modules for evaluation (cogme)を提案する。 CogMEは、ターゲット、内容、思考の3つの認知モジュールで構成されている。 理解手続きにおけるモジュール間の相互作用は,「THINKINGを通じてTARGETの内容を理解する」という文で表すことができる。 各モジュールはストーリー要素から派生したサブコンポーネントを持つ。 サブコンポーネントを個別の質問にアノテートすることで、必要な理解の側面を特定できる。 CogMEは、VideoQAデータセットの詳細な仕様のためのフレームワークを提供する。 映像理解インテリジェンスを検証するためのVideoQAデータセットの適合性を検討するために,CogMEを適用してDramaQAデータセットのベースラインモデルを評価した。 評価の結果、ストーリー要素が既存のデータセットに不均一に反映されていることが明らかとなり、データセットに基づくモデルはバイアス付き予測を引き起こす可能性がある。 この研究は限られた範囲のストーリーしか把握できなかったが、人間とAIの映像理解における人間の認知過程を考えるための第一歩になると期待している。

Developing video understanding intelligence is quite challenging because it requires holistic integration of images, scripts, and sounds based on natural language processing, temporal dependency, and reasoning. Recently, substantial attempts have been made on several video datasets with associated question answering (QA) on a large scale. However, existing evaluation metrics for video question answering (VideoQA) do not provide meaningful analysis. To make progress, we argue that a well-made framework, established on the way humans understand, is required to explain and evaluate the performance of understanding in detail. Then we propose a top-down evaluation system for VideoQA, based on the cognitive process of humans and story elements: Cognitive Modules for Evaluation (CogME). CogME is composed of three cognitive modules: targets, contents, and thinking. The interaction among the modules in the understanding procedure can be expressed in one sentence as follows: "I understand the CONTENT of the TARGET through a way of THINKING." Each module has sub-components derived from the story elements. We can specify the required aspects of understanding by annotating the sub-components to individual questions. CogME thus provides a framework for an elaborated specification of VideoQA datasets. To examine the suitability of a VideoQA dataset for validating video understanding intelligence, we evaluated the baseline model of the DramaQA dataset by applying CogME. The evaluation reveals that story elements are unevenly reflected in the existing dataset, and the model based on the dataset may cause biased predictions. Although this study has only been able to grasp a narrow range of stories, we expect that it offers the first step in considering the cognitive process of humans on the video understanding intelligence of humans and AI.
翻訳日:2021-07-22 14:24:46 公開日:2021-07-21
# 模倣学習による電気自動車充電制御装置の訓練

Training Electric Vehicle Charging Controllers with Imitation Learning ( http://arxiv.org/abs/2107.10111v1 )

ライセンス: Link先を確認
Martin Pil\'at(参考訳) 電気自動車の充電調整の問題は、そのような車両の数が増加するにつれてより重要になる。 本稿では,ev充電のコーディネーションのための制御器のトレーニング手法を提案する。 このトピックに関するほとんどの既存の作業とは対照的に、私たちはコントローラにユーザのプライバシーを守るよう要求するので、コントローラからサードパーティへの通信は許可しません。 コントローラの学習には,まず2次最適化を用いて緩和された問題の最適解を見つけ,次に,この解を模倣するようにコントローラを訓練する。 また,最適解の正規化が制御器の性能に及ぼす影響についても検討する。 この手法は現実的なデータに基づいて評価され、進化的アルゴリズムを用いて訓練された類似のコントローラと比較して、パフォーマンスとトレーニング速度が向上する。

The problem of coordinating the charging of electric vehicles gains more importance as the number of such vehicles grows. In this paper, we develop a method for the training of controllers for the coordination of EV charging. In contrast to most existing works on this topic, we require the controllers to preserve the privacy of the users, therefore we do not allow any communication from the controller to any third party. In order to train the controllers, we use the idea of imitation learning -- we first find an optimum solution for a relaxed version of the problem using quadratic optimization and then train the controllers to imitate this solution. We also investigate the effects of regularization of the optimum solution on the performance of the controllers. The method is evaluated on realistic data and shows improved performance and training speed compared to similar controllers trained using evolutionary algorithms.
翻訳日:2021-07-22 14:23:53 公開日:2021-07-21
# 公平な交通信号制御のための深層強化学習手法

A Deep Reinforcement Learning Approach for Fair Traffic Signal Control ( http://arxiv.org/abs/2107.10146v1 )

ライセンス: Link先を確認
Majid Raeis and Alberto Leon-Garcia(参考訳) 交通信号制御は都市部における交通管理の最も効果的な方法の1つである。 近年,従来の手作り手法ではよく使われていないリアルタイムの交通データを活用できることから,深層強化学習(DRL)に基づく交通制御手法が注目されている。 最近のDRL方式では、車両の平均走行時間の最大化や最小化に重点を置いているが、信号制御装置の公正性はしばしば無視されている。 これは特に重要であり、公平さを怠ると、一部の車両が待ち時間が極端に長い場合や、交差点で衝突する別の流れの変動によって、特定の交通の流れのスループットに大きな影響を受ける場合に繋がる可能性がある。 これらの問題に対処するために,上記の2つの問題に対応する遅延ベースとスループットベースのフェアネスという2つのフェアネス概念を導入する。 さらに,これらのフェアネスの概念を実装するために,DRLに基づく2つの信号制御手法を提案する。 提案手法の性能を3つのトラフィック到着分布を用いて評価し,本手法がテストシナリオのベースラインより優れていることを示す。

Traffic signal control is one of the most effective methods of traffic management in urban areas. In recent years, traffic control methods based on deep reinforcement learning (DRL) have gained attention due to their ability to exploit real-time traffic data, which is often poorly used by the traditional hand-crafted methods. While most recent DRL-based methods have focused on maximizing the throughput or minimizing the average travel time of the vehicles, the fairness of the traffic signal controllers has often been neglected. This is particularly important as neglecting fairness can lead to situations where some vehicles experience extreme waiting times, or where the throughput of a particular traffic flow is highly impacted by the fluctuations of another conflicting flow at the intersection. In order to address these issues, we introduce two notions of fairness: delay-based and throughput-based fairness, which correspond to the two issues mentioned above. Furthermore, we propose two DRL-based traffic signal control methods for implementing these fairness notions, that can achieve a high throughput as well. We evaluate the performance of our proposed methods using three traffic arrival distributions, and find that our methods outperform the baselines in the tested scenarios.
翻訳日:2021-07-22 14:23:44 公開日:2021-07-21
# 空間領域とスペクトル領域の間のギャップを埋める:グラフニューラルネットワークの理論的枠組み

Bridging the Gap between Spatial and Spectral Domains: A Theoretical Framework for Graph Neural Networks ( http://arxiv.org/abs/2107.10234v1 )

ライセンス: Link先を確認
Zhiqian Chen, Fanglan Chen, Lei Zhang, Taoran Ji, Kaiqun Fu, Liang Zhao, Feng Chen, Lingfei Wu, Charu Aggarwal and Chang-Tien Lu(参考訳) 過去10年間、ディープラーニングのパフォーマンスは、画像分類、音声認識、自然言語理解など、さまざまな機械学習タスクで広く認識されてきた。 グラフニューラルネットワーク(GNN)は、従来のディープラーニング技術では解決が難しいグラフ構造化データを用いて、非ユークリッド問題を扱うために設計されたディープラーニングの一種である。 GNNの大部分はランダムウォーク、PageRank、グラフ畳み込み、熱拡散など、さまざまなプロセスを使用して作成されており、直接比較は不可能である。 これまでの研究は主に、現在のモデルを異なるカテゴリに分類することに焦点を当ててきたが、その内部関係についてはほとんど研究されていない。 本研究は,既存のGNNを我々のフレームワークに方法論的に統合できる統一理論フレームワークと新たな視点を提案する。 既存のGNNモデルを空間領域とスペクトル領域に分類し,各領域内のサブカテゴリ間のリンクを示す。 さらなる調査により、これらの領域の空間的、スペクトル的、および部分群の間の強い関係が明らかになる。

During the past decade, deep learning's performance has been widely recognized in a variety of machine learning tasks, ranging from image classification, speech recognition to natural language understanding. Graph neural networks (GNN) are a type of deep learning that is designed to handle non-Euclidean issues using graph-structured data that are difficult to solve with traditional deep learning techniques. The majority of GNNs were created using a variety of processes, including random walk, PageRank, graph convolution, and heat diffusion, making direct comparisons impossible. Previous studies have primarily focused on classifying current models into distinct categories, with little investigation of their internal relationships. This research proposes a unified theoretical framework and a novel perspective that can methodologically integrate existing GNN into our framework. We survey and categorize existing GNN models into spatial and spectral domains, as well as show linkages between subcategories within each domain. Further investigation reveals a strong relationship between the spatial, spectral, and subgroups of these domains.
翻訳日:2021-07-22 14:23:26 公開日:2021-07-21
# 確率的文脈線形バンディット実験の設計

Design of Experiments for Stochastic Contextual Linear Bandits ( http://arxiv.org/abs/2107.09912v1 )

ライセンス: Link先を確認
Andrea Zanette, Kefan Dong, Jonathan Lee, Emma Brunskill(参考訳) 確率線形文脈帯域設定では、取得されたデータに反応するポリシーで探索するためのいくつかのミニマックス手順が存在する。 実際には、これらのアルゴリズムをデプロイする上で、特にデータセットが分散形式で収集された場合や、異なるポリシーを実装するためにループ内の人間が必要な場合には、大きなエンジニアリングオーバーヘッドが発生する可能性がある。 このような場合、単一の非反応ポリシーで探索することは有益である。 いくつかのバッチコンテキストが利用可能であると仮定すると、我々は、最適に近いポリシーを抽出できる優れたデータセットを収集するための単一の確率的ポリシーを設計する。 合成および実世界の両方のデータセットに関する数値実験と同様に理論的解析を行う。

In the stochastic linear contextual bandit setting there exist several minimax procedures for exploration with policies that are reactive to the data being acquired. In practice, there can be a significant engineering overhead to deploy these algorithms, especially when the dataset is collected in a distributed fashion or when a human in the loop is needed to implement a different policy. Exploring with a single non-reactive policy is beneficial in such cases. Assuming some batch contexts are available, we design a single stochastic policy to collect a good dataset from which a near-optimal policy can be extracted. We present a theoretical analysis as well as numerical experiments on both synthetic and real-world datasets.
翻訳日:2021-07-22 14:23:10 公開日:2021-07-21
# 正規化フローを用いた拡散スコアマッチングの解釈

Interpreting diffusion score matching using normalizing flow ( http://arxiv.org/abs/2107.10072v1 )

ライセンス: Link先を確認
Wenbo Gong, Yingzhen Li(参考訳) Scoring matching (SM) とそれに関連する Stein discrepancy (SD) は、モデルトレーニングと評価において大きな成功を収めた。 しかし、近年の研究は特定の種類の分布を扱う際の限界を示している。 1つの可能な修正は、元のスコアマッチング(またはスタインの差分)を拡散行列に組み込むことであり、これは拡散スコアマッチング(DSM)と呼ばれる(あるいは拡散スタインの差分(DSD)と呼ばれる)。 しかし、拡散の解釈の欠如は、単純な分布と手動で選択された行列内での使用を制限する。 本研究では,拡散行列を正規化フローを用いて解釈することで,このギャップを埋める計画である。 具体的には、拡散行列がフローのヤコビ行列の逆行列である正規化フローによって定義される変換空間で評価されたDSM(またはDSD)が元のスコアマッチング(またはスタイン差分)と等価であることを理論的に証明する。 さらに、リーマン多様体への接続を構築し、それをさらに連続的な流れへと拡張し、dsmの変化は ode によって特徴づけられる。

Scoring matching (SM), and its related counterpart, Stein discrepancy (SD) have achieved great success in model training and evaluations. However, recent research shows their limitations when dealing with certain types of distributions. One possible fix is incorporating the original score matching (or Stein discrepancy) with a diffusion matrix, which is called diffusion score matching (DSM) (or diffusion Stein discrepancy (DSD)). However, the lack of interpretation of the diffusion limits its usage within simple distributions and manually chosen matrix. In this work, we plan to fill this gap by interpreting the diffusion matrix using normalizing flows. Specifically, we theoretically prove that DSM (or DSD) is equivalent to the original score matching (or Stein discrepancy) evaluated in the transformed space defined by the normalizing flow, where the diffusion matrix is the inverse of the flow's Jacobian matrix. In addition, we also build its connection to Riemannian manifolds and further extend it to continuous flows, where the change of DSM is characterized by an ODE.
翻訳日:2021-07-22 14:23:01 公開日:2021-07-21
# 深部ウィッシュアート過程における変分近似後方法

A variational approximate posterior for the deep Wishart process ( http://arxiv.org/abs/2107.10125v1 )

ライセンス: Link先を確認
Sebastian W. Ober, Laurence Aitchison(参考訳) 最近の研究は、NNの完全なカーネルベースの代替としてディープカーネルプロセスを導入した(Aitchison et al)。 2020). 深いカーネルプロセスは、正の半定値行列上の分布からカーネルを交互にサンプリングし、非線形変換を行うことで、優れたトップ層表現を柔軟に学習する。 特定の深いカーネルプロセスであるディープ・ウィッシュアート・プロセス(dwp)は、その前処理がディープ・ガウス・プロセス(dgp)前処理と等価であるため、特に興味深い。 しかし、正の半定値行列上の十分柔軟な分布が欠如しているため、DWPの推論はまだ不可能である。 本稿では、ウィッシュアート確率密度のバーレット分解を一般化し、正の半定値行列上の柔軟な分布を得るための新しいアプローチを提案する。 この新たな分布を用いて、層間依存性を含むDWPの近似後部を構築する。 本研究では,DWPの2つの確率的インジェクションポイント推論手法を開発し,DWPの推論がDGPの推論よりも優れた性能を示すことを示す。

Recent work introduced deep kernel processes as an entirely kernel-based alternative to NNs (Aitchison et al. 2020). Deep kernel processes flexibly learn good top-layer representations by alternately sampling the kernel from a distribution over positive semi-definite matrices and performing nonlinear transformations. A particular deep kernel process, the deep Wishart process (DWP), is of particular interest because its prior is equivalent to deep Gaussian process (DGP) priors. However, inference in DWPs has not yet been possible due to the lack of sufficiently flexible distributions over positive semi-definite matrices. Here, we give a novel approach to obtaining flexible distributions over positive semi-definite matrices by generalising the Bartlett decomposition of the Wishart probability density. We use this new distribution to develop an approximate posterior for the DWP that includes dependency across layers. We develop a doubly-stochastic inducing-point inference scheme for the DWP and show experimentally that inference in the DWP gives improved performance over doing inference in a DGP with the equivalent prior.
翻訳日:2021-07-22 14:22:45 公開日:2021-07-21
# コントラスト学習の記憶特性について

On the Memorization Properties of Contrastive Learning ( http://arxiv.org/abs/2107.10143v1 )

ライセンス: Link先を確認
Ildus Sadrtdinov, Nadezhda Chirkova, Ekaterina Lobacheva(参考訳) ディープニューラルネットワーク(DNN)の記憶研究は、DNNがどのようなパターンとどのように学習するかを理解し、DNNトレーニングアプローチの改善を動機付ける。 本研究では,コントラスト型自己教師型学習手法であるSimCLRの記憶特性について検討し,教師付き学習とランダムラベル学習の記憶特性と比較する。 トレーニングオブジェクトと拡張の両方が、SimCLRがそれらをどのように学習するかという意味で、異なる複雑さを持つことが分かりました。 さらに,SimCLRはトレーニング対象の複雑さの分布の観点から,ランダムラベルのトレーニングに似ていることを示す。

Memorization studies of deep neural networks (DNNs) help to understand what patterns and how do DNNs learn, and motivate improvements to DNN training approaches. In this work, we investigate the memorization properties of SimCLR, a widely used contrastive self-supervised learning approach, and compare them to the memorization of supervised learning and random labels training. We find that both training objects and augmentations may have different complexity in the sense of how SimCLR learns them. Moreover, we show that SimCLR is similar to random labels training in terms of the distribution of training objects complexity.
翻訳日:2021-07-22 14:22:26 公開日:2021-07-21
# 微分可能なアニール化重要度サンプリングと勾配雑音のペリル

Differentiable Annealed Importance Sampling and the Perils of Gradient Noise ( http://arxiv.org/abs/2107.10211v1 )

ライセンス: Link先を確認
Guodong Zhang, Kyle Hsu, Jianing Li, Chelsea Finn, Roger Grosse(参考訳) annealed importance sampling (ais) と関連するアルゴリズムは、限界確率推定に非常に効果的なツールであるが、メトロポリス・ハスティング (mh) の補正ステップによって完全には区別できない。 微分可能性(英: differentiability)は、勾配に基づく手法を用いて、目標として限界可能性を最適化する可能性を認めるため、望ましい性質である。 そこで本研究では,MH ステップを廃止した微分可能なAISアルゴリズムを提案し,さらにミニバッチ計算を解き放つ。 ベイズ線形回帰の詳細な収束解析を,非完全遷移を明示的に計算することにより,従来の解析を超越する。 この分析により,本アルゴリズムは全バッチ設定で一貫したものであり,線形収束率が得られることを示す。 しかし,このアルゴリズムは,後段へのラストイテレート収束の目標とパスワイズ確率誤差の除去との間に根本的な不整合があるため,ミニバッチ勾配を用いると矛盾することを示した。 この結果は、我々の確率的最適化と確率的勾配ランジュバンダイナミクスの経験とは全く対照的で、グラデーションノイズの影響はより小さなサイズのステップを踏むことで洗い流すことができる。 我々の負の結果は、定常分布への収束の明示的な考察に大きく依存しており、ミニバッチ勾配を利用する実用的なAISライクなアルゴリズムを開発することの難しさを説明するのに役立ちます。

Annealed importance sampling (AIS) and related algorithms are highly effective tools for marginal likelihood estimation, but are not fully differentiable due to the use of Metropolis-Hastings (MH) correction steps. Differentiability is a desirable property as it would admit the possibility of optimizing marginal likelihood as an objective using gradient-based methods. To this end, we propose a differentiable AIS algorithm by abandoning MH steps, which further unlocks mini-batch computation. We provide a detailed convergence analysis for Bayesian linear regression which goes beyond previous analyses by explicitly accounting for non-perfect transitions. Using this analysis, we prove that our algorithm is consistent in the full-batch setting and provide a sublinear convergence rate. However, we show that the algorithm is inconsistent when mini-batch gradients are used due to a fundamental incompatibility between the goals of last-iterate convergence to the posterior and elimination of the pathwise stochastic error. This result is in stark contrast to our experience with stochastic optimization and stochastic gradient Langevin dynamics, where the effects of gradient noise can be washed out by taking more steps of a smaller size. Our negative result relies crucially on our explicit consideration of convergence to the stationary distribution, and it helps explain the difficulty of developing practically effective AIS-like algorithms that exploit mini-batch gradients.
翻訳日:2021-07-22 14:22:16 公開日:2021-07-21
# 不確実性下における電力貯蔵システムの最適運用:戦略サンプリングを用いたシナリオベース手法

Optimal Operation of Power Systems with Energy Storage under Uncertainty: A Scenario-based Method with Strategic Sampling ( http://arxiv.org/abs/2107.10013v1 )

ライセンス: Link先を確認
Ren Hu and Qifeng Li(参考訳) エネルギー貯蔵(ES)、断続再生可能エネルギー、制御不能電力負荷の多周期ダイナミクスは、電力系統運用(PSO)の最適化を困難にしている。 不確実性下での多周期最適PSOは、非線形エネルギー貯蔵と交流電力フローモデルを含む確率制約最適化(CCO)モデルパラダイムを用いて定式化される。 本稿では, 既知確率分布関数に依存しない新たなシナリオ最適化手法を考案し, この問題に対する新しい解法を提案する。 提案手法は,主に2つの理由から有効である。 まず、最初の交流電力フロー制約は、一般化された最小絶対収縮選択演算子に基づく学習支援二次凸不等式によって近似される。 第2に,データの物理的パターンと学習に基づくサンプリングの動機を考慮し,異なるサンプリング戦略によって要求されるシナリオ数を著しく削減する戦略サンプリング手法を開発した。 IEEE標準システムのシミュレーション結果から,1) 提案した戦略サンプリングは, 確率制約付き最適PSO問題の解法におけるシナリオベースアプローチの計算効率を著しく向上し, 2) 電力フローのデータ駆動凸近似は非線形および非凸交流流の代替となる可能性が示唆された。

The multi-period dynamics of energy storage (ES), intermittent renewable generation and uncontrollable power loads, make the optimization of power system operation (PSO) challenging. A multi-period optimal PSO under uncertainty is formulated using the chance-constrained optimization (CCO) modeling paradigm, where the constraints include the nonlinear energy storage and AC power flow models. Based on the emerging scenario optimization method which does not rely on pre-known probability distribution functions, this paper develops a novel solution method for this challenging CCO problem. The proposed meth-od is computationally effective for mainly two reasons. First, the original AC power flow constraints are approximated by a set of learning-assisted quadratic convex inequalities based on a generalized least absolute shrinkage and selection operator. Second, considering the physical patterns of data and motived by learning-based sampling, the strategic sampling method is developed to significantly reduce the required number of scenarios through different sampling strategies. The simulation results on IEEE standard systems indicate that 1) the proposed strategic sampling significantly improves the computational efficiency of the scenario-based approach for solving the chance-constrained optimal PSO problem, 2) the data-driven convex approximation of power flow can be promising alternatives of nonlinear and nonconvex AC power flow.
翻訳日:2021-07-22 14:21:50 公開日:2021-07-21
# 補助識別分類器付きCGAN

CGANs with Auxiliary Discriminative Classifier ( http://arxiv.org/abs/2107.10060v1 )

ライセンス: Link先を確認
Liang Hou, Qi Cao, Huawei Shen, Xueqi Cheng(参考訳) 条件付き生成モデルの目的は、データとラベルの結合分布を学習し、条件付き生成を実現することである。 それらのうち, 補助的分類器生成敵ネットワーク (ac-gan) は広く用いられてきたが, 生成試料におけるクラス内多様性の低さに苦しめられている。 本稿では,AC-GANの分類器がジェネレータに依存しないため,対象の関節分布を推定するための情報的ガイダンスが得られず,条件エントロピーの最小化によるクラス内多様性の低下を招いたことを指摘する。 そこで本研究では,AC-GANの問題に対処するために,ADC-GANを用いた新しいcGANを提案する。 具体的には、ラベルを認識しながら実データと偽データとを区別することにより、補助判別分類器が生成者対応となる。 次に, 副分類器と原判別器を併用した生成器を最適化し, 生成した試料と実試料との結合分布と辺縁分布を一致させる。 提案したADC-GANが競合するcGANよりも優れていることを示すために,合成および実世界のデータセットに関する理論的解析および実証的証拠を提供する。

Conditional generative models aim to learn the underlying joint distribution of data and labels, and thus realize conditional generation. Among them, auxiliary classifier generative adversarial networks (AC-GAN) have been widely used, but suffer from the issue of low intra-class diversity on generated samples. In this paper, we point out that the fundamental reason is that the classifier of AC-GAN is generator-agnostic, and thus cannot provide informative guidance to the generator to approximate the target joint distribution, leading to a minimization of conditional entropy that decreases the intra-class diversity. Based on this finding, we propose novel cGANs with auxiliary discriminative classifier (ADC-GAN) to address the issue of AC-GAN. Specifically, the auxiliary discriminative classifier becomes generator-aware by distinguishing between the real and fake data while recognizing their labels. We then optimize the generator based on the auxiliary classifier along with the original discriminator to match the joint and marginal distributions of the generated samples with those of the real samples. We provide theoretical analysis and empirical evidence on synthetic and real-world datasets to demonstrate the superiority of the proposed ADC-GAN compared to competitive cGANs.
翻訳日:2021-07-22 14:21:25 公開日:2021-07-21
# MarsExplorer:Deep Reinforcement LearningとProcedurally Generated Environmentによる未知地探査

MarsExplorer: Exploration of Unknown Terrains via Deep Reinforcement Learning and Procedurally Generated Environments ( http://arxiv.org/abs/2107.09996v1 )

ライセンス: Link先を確認
Dimitrios I. Koutras, Athanasios Ch. Kapoutsis, Angelos A. Amanatiadis, Elias B. Kosmatopoulos(参考訳) 本論文は,強大な深層強化学習手法と未知の地形の探索・探索問題とのギャップを埋めるための最初の試みである。 この範囲内では、未知の領域の探索/探索に適したopenai-gym互換環境であるmarsexplorerが紹介されている。 MarsExplorerは、オリジナルのロボティクス問題をReinforcement Learning(強化学習)のセットアップに翻訳する。 学習方針は、ロボットのダイナミクスの精巧なシミュレーションモデルなしで、ロボットプラットフォームに直接適用でき、異なる学習/適応フェーズを適用することができる。 その中核となる特徴の1つは制御可能な多次元地形の手続き的生成であり、これは強力な一般化能力を持つポリシーを作成する鍵である。 A3C, PPO, Rainbow, SACの4種類のRLアルゴリズムをMarsExplorer環境で訓練し, 平均的な人間レベルの性能と比較して, 結果の適切な評価を行った。 追従実験分析では,PPOの学習能力に及ぼす多次元的難易度設定の影響を解析した。 マイルストーンの成果は、ヒルベルト曲線に従う探索ポリシーの生成であり、この情報を環境に提供したり、直接的あるいは間接的にヒルベルト曲線のような軌道に報酬を与えることはない。 PPO学習政策結果とフロンティアに基づく広域地形探査コンテキストを比較して, 実験解析を行った。 ソースコードはhttps://github.com/dimikout3/generalexplorationpolicyにある。

This paper is an initial endeavor to bridge the gap between powerful Deep Reinforcement Learning methodologies and the problem of exploration/coverage of unknown terrains. Within this scope, MarsExplorer, an openai-gym compatible environment tailored to exploration/coverage of unknown areas, is presented. MarsExplorer translates the original robotics problem into a Reinforcement Learning setup that various off-the-shelf algorithms can tackle. Any learned policy can be straightforwardly applied to a robotic platform without an elaborate simulation model of the robot's dynamics to apply a different learning/adaptation phase. One of its core features is the controllable multi-dimensional procedural generation of terrains, which is the key for producing policies with strong generalization capabilities. Four different state-of-the-art RL algorithms (A3C, PPO, Rainbow, and SAC) are trained on the MarsExplorer environment, and a proper evaluation of their results compared to the average human-level performance is reported. In the follow-up experimental analysis, the effect of the multi-dimensional difficulty setting on the learning capabilities of the best-performing algorithm (PPO) is analyzed. A milestone result is the generation of an exploration policy that follows the Hilbert curve without providing this information to the environment or rewarding directly or indirectly Hilbert-curve-like trajectories. The experimental analysis is concluded by comparing PPO learned policy results with frontier-based exploration context for extended terrain sizes. The source code can be found at: https://github.com/dimikout3/GeneralExplorationPolicy.
翻訳日:2021-07-22 14:20:49 公開日:2021-07-21
# 対実的介入に関する推論プログラムと分類のための責任スコア

Answer-Set Programs for Reasoning about Counterfactual Interventions and Responsibility Scores for Classification ( http://arxiv.org/abs/2107.10159v1 )

ライセンス: Link先を確認
Leopoldo Bertossi and Gabriela Reyes(参考訳) 分類対象のエンティティに対する反事実的介入を宣言的に特定し,その原因を解明するために,回答セットプログラムをどのように利用できるかを説明する。 特に、分類モデルからの結果の帰結に基づく説明として責任スコアを定義し計算するのに使うことができる。 このアプローチはドメイン知識の導入を可能にし、クエリ応答をサポートする。 Naive-Bayes分類器の詳細な例を示す。

We describe how answer-set programs can be used to declaratively specify counterfactual interventions on entities under classification, and reason about them. In particular, they can be used to define and compute responsibility scores as attribution-based explanations for outcomes from classification models. The approach allows for the inclusion of domain knowledge and supports query answering. A detailed example with a naive-Bayes classifier is presented.
翻訳日:2021-07-22 14:20:22 公開日:2021-07-21
# 凸最適化のためのニューラル固定点加速

Neural Fixed-Point Acceleration for Convex Optimization ( http://arxiv.org/abs/2107.10254v1 )

ライセンス: Link先を確認
Shobha Venkataraman, Brandon Amos(参考訳) 固定点反復は数値計算の中心であり、しばしばリアルタイムアプリケーションにおける計算ボトルネックであり、代わりに適度な精度の高速解を必要とする。 固定点問題に対する古典的な加速法は、任意の固定点問題に適用可能な理論的保証を持つアルゴリズムの設計に焦点を当てる。 本稿では,分布から引き出される凸不動点問題を,メタラーニングや古典的加速度アルゴリズムのアイデアを用いて自動的に学習するフレームワークであるneural fixed-point accelerationを提案する。 我々は,convex coneプログラミングの最先端解法であるscsと設計モデルと損失関数に適用し,未熟な最適化と高速化の不安定性よりも学習の課題を克服した。 我々の研究は、CVXPYで表現可能な最適化問題に神経加速度をもたらす。 この論文のソースコードはhttps://github.com/facebookresearch/neural-scsで入手できる。

Fixed-point iterations are at the heart of numerical computing and are often a computational bottleneck in real-time applications, which typically instead need a fast solution of moderate accuracy. Classical acceleration methods for fixed-point problems focus on designing algorithms with theoretical guarantees that apply to any fixed-point problem. We present neural fixed-point acceleration, a framework to automatically learn to accelerate convex fixed-point problems that are drawn from a distribution, using ideas from meta-learning and classical acceleration algorithms. We apply our framework to SCS, the state-of-the-art solver for convex cone programming, and design models and loss functions to overcome the challenges of learning over unrolled optimization and acceleration instabilities. Our work brings neural acceleration into any optimization problem expressible with CVXPY. The source code behind this paper is available at https://github.com/facebookresearch/neural-scs
翻訳日:2021-07-22 14:20:15 公開日:2021-07-21
# スケール混合確率生成モデルを用いたベイズ推論によるEMGパターン認識

EMG Pattern Recognition via Bayesian Inference with Scale Mixture-Based Stochastic Generative Models ( http://arxiv.org/abs/2107.09853v1 )

ライセンス: Link先を確認
Akira Furui, Takuya Igaue, Toshio Tsuji(参考訳) 筋電図(EMG)は、人間の動きの意図を反映する能力により、義手や情報機器の信号のインタフェースに利用されてきた。 様々なemg分類法がemg制御系に導入されているが、emg信号の確率的特性を完全に考慮していない。 本稿では,大規模混合モデルを用いたEMGパターン分類手法を提案する。 スケール混合モデルは、emg分散を確率変数と見なす確率的emgモデルであり、分散における不確かさを表現することができる。 本研究では,このモデルを拡張し,EMGパターン分類に利用した。 提案手法は変分ベイズ学習を用いて学習し,モデル複雑性の自動決定を可能にする。 さらに,提案手法のハイパーパラメータを部分的判別手法で最適化するために,相互情報に基づく決定法を提案する。 シミュレーションおよびemg解析実験により,提案手法のハイパーパラメータと分類精度の関係および提案手法の有効性が実証された。 公開EMGデータセットを用いて比較した結果,提案手法は従来の分類器よりも優れていた。 これらの結果は,提案手法の有効性とEMG制御システムへの適用性を示した。 EMGパターン認識において、EMG信号の確率特性を反映した生成モデルに基づく分類器は、従来の汎用分類器よりも優れている。

Electromyogram (EMG) has been utilized to interface signals for prosthetic hands and information devices owing to its ability to reflect human motion intentions. Although various EMG classification methods have been introduced into EMG-based control systems, they do not fully consider the stochastic characteristics of EMG signals. This paper proposes an EMG pattern classification method incorporating a scale mixture-based generative model. A scale mixture model is a stochastic EMG model in which the EMG variance is considered as a random variable, enabling the representation of uncertainty in the variance. This model is extended in this study and utilized for EMG pattern classification. The proposed method is trained by variational Bayesian learning, thereby allowing the automatic determination of the model complexity. Furthermore, to optimize the hyperparameters of the proposed method with a partial discriminative approach, a mutual information-based determination method is introduced. Simulation and EMG analysis experiments demonstrated the relationship between the hyperparameters and classification accuracy of the proposed method as well as the validity of the proposed method. The comparison using public EMG datasets revealed that the proposed method outperformed the various conventional classifiers. These results indicated the validity of the proposed method and its applicability to EMG-based control systems. In EMG pattern recognition, a classifier based on a generative model that reflects the stochastic characteristics of EMG signals can outperform the conventional general-purpose classifier.
翻訳日:2021-07-22 14:19:42 公開日:2021-07-21
# 微分可能特徴選択 -再パラメータ化アプローチ-

Differentiable Feature Selection, a Reparameterization Approach ( http://arxiv.org/abs/2107.10030v1 )

ライセンス: Link先を確認
J\'er\'emie Dona (MLIA), Patrick Gallinari (MLIA)(参考訳) データインスタンス全体を再構築できる機能の小さなサブセットを選択することからなる、リストラのための機能選択のタスクについて検討する。 これは、コストのかかる物理的測定、センサー配置、情報圧縮など、いくつかの文脈において特に重要である。 この問題の本質的組合せの性質を破るために,我々は,正確な再構成を可能にするバイナリマスク分布を最適化するタスクを定式化する。 そして、2つの大きな課題に直面します。 1つはバイナリ分布による微分可能性の問題である。 第2の方法は、二分分布の共分散をモデル化する必要のある相関した方法で変数を選択することで冗長情報の排除に対応する。 本稿では,ロジットNormal分布の再パラメータ化による問題を緩和することで,両問題に対処する。 本研究では,提案手法が効率的な探索手法を提供し,高次元画像ベンチマークの評価により,効率的な特徴選択を実現することを示す。 本手法は,データの内在的な形状を活用し,再構成を容易にすることを示す。

We consider the task of feature selection for reconstruction which consists in choosing a small subset of features from which whole data instances can be reconstructed. This is of particular importance in several contexts involving for example costly physical measurements, sensor placement or information compression. To break the intrinsic combinatorial nature of this problem, we formulate the task as optimizing a binary mask distribution enabling an accurate reconstruction. We then face two main challenges. One concerns differentiability issues due to the binary distribution. The second one corresponds to the elimination of redundant information by selecting variables in a correlated fashion which requires modeling the covariance of the binary distribution. We address both issues by introducing a relaxation of the problem via a novel reparameterization of the logitNormal distribution. We demonstrate that the proposed method provides an effective exploration scheme and leads to efficient feature selection for reconstruction through evaluation on several high dimensional image benchmarks. We show that the method leverages the intrinsic geometry of the data, facilitating reconstruction.
翻訳日:2021-07-22 14:19:24 公開日:2021-07-21
# KalmanNet:部分的に知られたダイナミクスのためのニューラルネットワーク支援Kalman Filtering

KalmanNet: Neural Network Aided Kalman Filtering for Partially Known Dynamics ( http://arxiv.org/abs/2107.10043v1 )

ライセンス: Link先を確認
Guy Revach, Nir Shlezinger, Xiaoyong Ni, Adria Lopez Escoriza, Ruud J. G. van Sloun, and Yonina C. Eldar(参考訳) 動的システムのリアルタイム状態推定は信号処理と制御の基本的なタスクである。 完全に既知の線型ガウス状態空間 (SS) モデルでよく表現される系では、有名なカルマンフィルタ (KF) は低複雑性の最適解である。 しかし、基礎となるSSモデルの線形性とそれに関する正確な知識は、実際は遭遇しないことが多い。 本稿では,データから学習し,部分的情報を含む非線形ダイナミクス下でkalmanフィルタを実行するリアルタイム状態推定器であるkalmannetを提案する。 構造SSモデルと専用リカレントニューラルネットワークモジュールをKFの流れに組み込むことで、データから複雑な力学を暗黙的に学習しながら、古典的アルゴリズムのデータ効率と解釈可能性を維持する。 我々は、KalmanNetが非線形性とモデルミスマッチを克服し、ミスマッチと正確なドメイン知識の両方で動作する古典的なフィルタリング手法より優れていることを数値的に示す。

Real-time state estimation of dynamical systems is a fundamental task in signal processing and control. For systems that are well-represented by a fully known linear Gaussian state space (SS) model, the celebrated Kalman filter (KF) is a low complexity optimal solution. However, both linearity of the underlying SS model and accurate knowledge of it are often not encountered in practice. Here, we present KalmanNet, a real-time state estimator that learns from data to carry out Kalman filtering under non-linear dynamics with partial information. By incorporating the structural SS model with a dedicated recurrent neural network module in the flow of the KF, we retain data efficiency and interpretability of the classic algorithm while implicitly learning complex dynamics from data. We numerically demonstrate that KalmanNet overcomes nonlinearities and model mismatch, outperforming classic filtering methods operating with both mismatched and accurate domain knowledge.
翻訳日:2021-07-22 14:19:10 公開日:2021-07-21
# 高分解能骨盤MRI : 意図と周期的損失を伴い, 生成的対向ネットワークを用いた再建

High-Resolution Pelvic MRI Reconstruction Using a Generative Adversarial Network with Attention and Cyclic Loss ( http://arxiv.org/abs/2107.09989v1 )

ライセンス: Link先を確認
Guangyuan Li, Jun Lv, Xiangrong Tong, Chengyan Wang, Guang Yang(参考訳) 磁気共鳴画像(MRI)は重要な医用画像のモダリティであるが、その取得速度は生理的限界のため非常に遅い。 近年,超解像法はMRIの高速化に優れた性能を示している。 スキャン時間が長い場合でも高解像度画像を得るのは難しい場合もある。 そこで我々は,低分解能MR画像から高分解能MR画像を生成するために,周期的損失と注意機構を有するGAN(Generative Adversarial Network)を用いた新しい超解像法を提案した。 健康な被験者の骨盤像をトレーニング・検証データとして実装し, 患者からのデータを検査に使用した。 MRデータセットは,T2,T2W SPAIR,mDIXON-Wを含む異なる画像系列を用いて得られた。 提案手法の性能評価のための計算指標として,構造的類似性,ピーク信号と雑音比,根平均二乗誤差,分散インフレーション係数を用いた。 様々な実験結果から,mr画像の高分解能化が他の手法と比較して良好に再現できることが得られた。 さらに、再構成された高分解能mr画像は、腫瘍患者の病変のテクスチャが向上し、臨床診断に使用されることが期待される。

Magnetic resonance imaging (MRI) is an important medical imaging modality, but its acquisition speed is quite slow due to the physiological limitations. Recently, super-resolution methods have shown excellent performance in accelerating MRI. In some circumstances, it is difficult to obtain high-resolution images even with prolonged scan time. Therefore, we proposed a novel super-resolution method that uses a generative adversarial network (GAN) with cyclic loss and attention mechanism to generate high-resolution MR images from low-resolution MR images by a factor of 2. We implemented our model on pelvic images from healthy subjects as training and validation data, while those data from patients were used for testing. The MR dataset was obtained using different imaging sequences, including T2, T2W SPAIR, and mDIXON-W. Four methods, i.e., BICUBIC, SRCNN, SRGAN, and EDSR were used for comparison. Structural similarity, peak signal to noise ratio, root mean square error, and variance inflation factor were used as calculation indicators to evaluate the performances of the proposed method. Various experimental results showed that our method can better restore the details of the high-resolution MR image as compared to the other methods. In addition, the reconstructed high-resolution MR image can provide better lesion textures in the tumor patients, which is promising to be used in clinical diagnosis.
翻訳日:2021-07-22 14:18:31 公開日:2021-07-21
# 深部反復2D/3Dレジストレーション

Deep Iterative 2D/3D Registration ( http://arxiv.org/abs/2107.10004v1 )

ライセンス: Link先を確認
Srikrishna Jaganathan, Jian Wang, Anja Borsdorf, Karthik Shetty, Andreas Maier(参考訳) 深層学習に基づく2d/3d登録法は非常に堅牢であるが、臨床応用に必要な登録精度を欠くことが多い。 古典的最適化に基づく2d/3d登録法と深層学習に基づく手法を組み合わせることで、必要な精度が得られる。 しかし、ランタイムも増加します。 本研究では,新たなDeep Learningによる2D/3D登録フレームワークを提案する。 我々は2D/3D登録フレームワークの更新ステップをPoint-to-Plane 対応を用いて学習する。 更新ステップは、既知演算子として埋め込まれたPoint-to-Plane対応解決器と組み合わせて、繰り返し残差補正に基づく光フロー推定を用いて学習する。 提案手法は,平均8秒間隔,平均再投射距離誤差0.60$\pm$ 0.40mm,成功率97パーセント,捕獲範囲60mmという平均ランタイムを実現する。 高い登録精度、高い堅牢性、高速なランタイムの組み合わせは、私たちのソリューションを臨床アプリケーションにとって理想的なものにします。

Deep Learning-based 2D/3D registration methods are highly robust but often lack the necessary registration accuracy for clinical application. A refinement step using the classical optimization-based 2D/3D registration method applied in combination with Deep Learning-based techniques can provide the required accuracy. However, it also increases the runtime. In this work, we propose a novel Deep Learning driven 2D/3D registration framework that can be used end-to-end for iterative registration tasks without relying on any further refinement step. We accomplish this by learning the update step of the 2D/3D registration framework using Point-to-Plane Correspondences. The update step is learned using iterative residual refinement-based optical flow estimation, in combination with the Point-to-Plane correspondence solver embedded as a known operator. Our proposed method achieves an average runtime of around 8s, a mean re-projection distance error of 0.60 $\pm$ 0.40 mm with a success ratio of 97 percent and a capture range of 60 mm. The combination of high registration accuracy, high robustness, and fast runtime makes our solution ideal for clinical applications.
翻訳日:2021-07-22 14:18:08 公開日:2021-07-21
# ゼロショット言語間伝達のためのメタラーニングによる軟層選択

Soft Layer Selection with Meta-Learning for Zero-Shot Cross-Lingual Transfer ( http://arxiv.org/abs/2107.09840v1 )

ライセンス: Link先を確認
Weijia Xu, Batool Haider, Jason Krone and Saab Mansour(参考訳) 多言語事前学習された文脈埋め込みモデル(devlin et al., 2019)は、ゼロショットの言語間転送タスクで印象的なパフォーマンスを達成している。 ゼロショット言語にうまく移行できるように、これらのモデルを高リソース言語で微調整する最も効果的な微調整戦略を見つけることは、非自明な作業です。 本稿では,事前学習したモデルの層を微調整時に凍結させるソフト選択のための新しいメタ最適化器を提案する。 我々はゼロショット転送シナリオをシミュレートしてメタ最適化を訓練する。 言語横断的自然言語推論の結果,単純な微調整ベースラインとx-maml(nooralahzadeh et al., 2020)よりも改善が見られた。

Multilingual pre-trained contextual embedding models (Devlin et al., 2019) have achieved impressive performance on zero-shot cross-lingual transfer tasks. Finding the most effective fine-tuning strategy to fine-tune these models on high-resource languages so that it transfers well to the zero-shot languages is a non-trivial task. In this paper, we propose a novel meta-optimizer to soft-select which layers of the pre-trained model to freeze during fine-tuning. We train the meta-optimizer by simulating the zero-shot transfer scenario. Results on cross-lingual natural language inference show that our approach improves over the simple fine-tuning baseline and X-MAML (Nooralahzadeh et al., 2020).
翻訳日:2021-07-22 14:17:31 公開日:2021-07-21
# テキスト分類タスクにおけるチェコ語トランスフォーマーの比較

Comparison of Czech Transformers on Text Classification Tasks ( http://arxiv.org/abs/2107.10042v1 )

ライセンス: Link先を確認
Jan Lehe\v{c}ka, Jan \v{S}vec(参考訳) 本稿では,チェコ語用モノリンガルトランスフォーマーの事前学習の進捗について述べるとともに,我々のモデルを公開して研究コミュニティに貢献する。 このようなモデルの必要性は、言語固有のタスクにTransformerを使うという我々の取り組みから生まれましたが、公開された多言語モデルの性能は非常に限られていることに気付きました。 多言語モデルは通常100以上の言語から事前学習されているため、チェコ語を含むほとんどの低ソース言語はこれらのモデルでは過小評価されている。 同時に、common crawlのようなwebアーカイブで利用可能な、大量の単言語トレーニングデータが存在している。 チェコ語トランスフォーマー2台を事前訓練して公開し、チェコ語用に訓練された(少なくとも一部は)関連する公開モデルと比較した。 本稿では,トランスフォーマーの事前学習手法と,テキスト分類タスクにおける事前学習モデルの比較について述べる。

In this paper, we present our progress in pre-training monolingual Transformers for Czech and contribute to the research community by releasing our models for public. The need for such models emerged from our effort to employ Transformers in our language-specific tasks, but we found the performance of the published multilingual models to be very limited. Since the multilingual models are usually pre-trained from 100+ languages, most of low-resourced languages (including Czech) are under-represented in these models. At the same time, there is a huge amount of monolingual training data available in web archives like Common Crawl. We have pre-trained and publicly released two monolingual Czech Transformers and compared them with relevant public models, trained (at least partially) for Czech. The paper presents the Transformers pre-training procedure as well as a comparison of pre-trained models on text classification task from various domains.
翻訳日:2021-07-22 14:17:18 公開日:2021-07-21
# 多言語単語埋め込みの嫌悪:3つのインド語を事例として

Debiasing Multilingual Word Embeddings: A Case Study of Three Indian Languages ( http://arxiv.org/abs/2107.10181v1 )

ライセンス: Link先を確認
Srijan Bansal, Vishal Garimella, Ayush Suhane, Animesh Mukherjee(参考訳) 本稿では, 単言語単語の埋め込みを, 多言語環境でうまく一般化するために, 最先端の手法を推し進める。 単言語および多言語設定に対する偏りと偏りの異なるアプローチの定量化について検討する。 下流NLPアプリケーションにおけるバイアス緩和手法の重要性を示す。 提案手法は,ヒンディー語,ベンガル語,テルグ語に加えて,ヒンディー語,ベンガル語,テルグ語という3つの言語に対する多言語埋め込みを嫌悪する手法である。 私たちは、使用した単語の埋め込みの品質に本質的に依存する、非バイアスのない下流のNLPアプリケーションを構築する新たな機会を、我々の作業が開くと信じています。

In this paper, we advance the current state-of-the-art method for debiasing monolingual word embeddings so as to generalize well in a multilingual setting. We consider different methods to quantify bias and different debiasing approaches for monolingual as well as multilingual settings. We demonstrate the significance of our bias-mitigation approach on downstream NLP applications. Our proposed methods establish the state-of-the-art performance for debiasing multilingual embeddings for three Indian languages - Hindi, Bengali, and Telugu in addition to English. We believe that our work will open up new opportunities in building unbiased downstream NLP applications that are inherently dependent on the quality of the word embeddings used.
翻訳日:2021-07-22 14:17:05 公開日:2021-07-21
# situationCO v1.2 の用語、特性、関係、公理 -- 部分的および属的状況の中核オントロジー

SituationCO v1.2's Terms, Properties, Relationships and Axioms -- A Core Ontology for Particular and Generic Situations ( http://arxiv.org/abs/2107.10083v1 )

ライセンス: Link先を確認
Luis Olsina, Guido Tebes, Pablo Becker(参考訳) 現在のプレプリントは、新しいバージョン1.2を表すCourseCO v1.1(Situation Core Ontology)のアップデートである。 これは、FCD-OntoArch(Foundational, Core, and Domain Ontological Architecture for Sciences)と呼ばれる4層オントロジーアーキテクチャ(英語版)の文脈において、中核に置かれる特定のおよび一般的な状況に対するオントロジーであり、CourseCO v1.2のすべての用語、性質、関係、公理を定義し、定義する。 これは4層のオントロジーアーキテクチャであり、基礎、コア、ドメイン、インスタンスレベルを考慮に入れている。 ドメインレベルは、トップドメインとロードメインのオントロジレベルという2つのサブレベルに分割される。 実際、私たちはこれを5層アーキテクチャと考えることができます。 同じレベルのオントロジーは、ThingFO(Thing Foundational Ontology)のみが見つかる基礎レベルを除いて、相互に関連付けられる。 さらに、より低いレベルのオントロジの用語と関係は、上位レベルのオントロジの用語と関係によって意味的に富むことができる。 matterco、processcoなどのコアレベルの thingfo と ontologie の両方がドメインに依存しないことに注意してください。 situationCOの用語と関係は主にThingFOに特化している。 また、主にProcessCO、ProjectCO、GoalCOオントロジーから用語を完全に再利用している。 ステレオタイプは状況語を豊かにするために使われるメカニズムである。 この文書の最後には、状況コ対モノフォ非分類学的関係検証行列について論じる。

The current preprint is an update to SituationCO v1.1 (Situation Core Ontology), which represents its new version 1.2. It specifies and defines all the terms, properties, relationships and axioms of SituationCO v1.2, being an ontology for particular and generic Situations placed at the core level in the context of a four-layered ontological architecture called FCD-OntoArch (Foundational, Core, and Domain Ontological Architecture for Sciences). This is a four-layered ontological architecture, which considers Foundational, Core, Domain and Instance levels. In turn, the domain level is split down in two sub-levels, namely: Top-domain and Low-domain ontological levels. So in fact, we can consider it to be a five-tier architecture. Ontologies at the same level can be related to each other, except for the foundational level where only ThingFO (Thing Foundational Ontology) is found. In addition, ontologies' terms and relationships at lower levels can be semantically enriched by ontologies' terms and relationships from the higher levels. Note that both ThingFO and ontologies at the core level such as SituationCO, ProcessCO, among others, are domain independent. SituationCO's terms and relationships are specialized primarily from ThingFO. It also completely reuses terms primarily from ProcessCO, ProjectCO and GoalCO ontologies. Stereotypes are the used mechanism for enriching SituationCO terms. Note that in the end of this document, we address the SituationCO vs. ThingFO non-taxonomic relationship verification matrix.
翻訳日:2021-07-22 14:16:53 公開日:2021-07-21
# tumorCP: 腫瘍分離のための単純だが効果的なオブジェクトレベルデータ拡張

TumorCP: A Simple but Effective Object-Level Data Augmentation for Tumor Segmentation ( http://arxiv.org/abs/2107.09843v1 )

ライセンス: Link先を確認
Jiawei Yang, Yao Zhang, Yuan Liang, Yang Zhang, Lei He, and Zhiqiang He(参考訳) ディープラーニングモデルは、データ不足で有名だ。 したがって、医用画像分析におけるデータ効率のよい技術の必要性が高まっており、十分な注釈付きデータは費用がかかり、収集に要する時間がかかる。 最近復活した "Copy-Paste" 拡張を契機に,腫瘍のセグメンテーションに適した簡便かつ効果的なオブジェクトレベルのデータ拡張法である tumorCP を提案する。 tumorcpはオンラインかつ確率的であり、腫瘍の被検者、場所、外観、形態について無制限に拡張できる。 腎腫瘍セグメンテーションタスクの実験では、腫瘍CPが強いベースラインを7.12%の差で越えていることが示されている。 さらに、画像レベルのデータ拡張と合わせて、腫瘍のダイスで現在の最先端を2.32%上回っている。 腫瘍CPの有効性を検証するための包括的アブレーション研究を行った。 一方,腫瘍CPは極めて低データ状態において顕著な改善をもたらす可能性が示唆された。 10%のラベル付きデータで評価すると、腫瘍CPは腫瘍のDiceを21.87%増加させる。 私たちの知る限りでは、医療画像領域における「コピー・ペースト」デザインの探求と拡張はこれが初めてです。 コードは、https://github.com/YaoZhang93/TumorCPで入手できる。

Deep learning models are notoriously data-hungry. Thus, there is an urging need for data-efficient techniques in medical image analysis, where well-annotated data are costly and time consuming to collect. Motivated by the recently revived "Copy-Paste" augmentation, we propose TumorCP, a simple but effective object-level data augmentation method tailored for tumor segmentation. TumorCP is online and stochastic, providing unlimited augmentation possibilities for tumors' subjects, locations, appearances, as well as morphologies. Experiments on kidney tumor segmentation task demonstrate that TumorCP surpasses the strong baseline by a remarkable margin of 7.12% on tumor Dice. Moreover, together with image-level data augmentation, it beats the current state-of-the-art by 2.32% on tumor Dice. Comprehensive ablation studies are performed to validate the effectiveness of TumorCP. Meanwhile, we show that TumorCP can lead to striking improvements in extremely low-data regimes. Evaluated with only 10% labeled data, TumorCP significantly boosts tumor Dice by 21.87%. To the best of our knowledge, this is the very first work exploring and extending the "Copy-Paste" design in medical imaging domain. Code is available at: https://github.com/YaoZhang93/TumorCP.
翻訳日:2021-07-22 14:15:44 公開日:2021-07-21
# 混合増補法と増補戦略の概観

An overview of mixing augmentation methods and augmentation strategies ( http://arxiv.org/abs/2107.09887v1 )

ライセンス: Link先を確認
Dominik Lewy and Jacek Ma\'ndziuk(参考訳) 深層畳み込みニューラルネットワークは多くのコンピュータビジョンタスクで驚くべき進歩を遂げた。 しかし、この進歩は多くの場合、過度な適合を防ぐために必要な大量のトレーニングデータの可用性に依存しており、多くのドメインでは手動データラベリングのかなりのコストがかかる。 別のアプローチとして、データ拡張(da)技術の適用があり、利用可能なデータから追加の観察を作成することによって、モデル正規化を目標としている。 この調査は、イメージ混合と拡張戦略の自動選択という2つのda研究ストリームに焦点を当てている。 まず,提案手法を簡潔に記述し,その重要特性について質的に比較する。 近年のDA文献で報告された結果から,様々な定量的比較も含んでいる。 このレビューは、主に2017-2021年の上位会議や主要ジャーナルの資料に掲載されている手法を取り上げている。

Deep Convolutional Neural Networks have made an incredible progress in many Computer Vision tasks. This progress, however, often relies on the availability of large amounts of the training data, required to prevent over-fitting, which in many domains entails significant cost of manual data labeling. An alternative approach is application of data augmentation (DA) techniques that aim at model regularization by creating additional observations from the available ones. This survey focuses on two DA research streams: image mixing and automated selection of augmentation strategies. First, the presented methods are briefly described, and then qualitatively compared with respect to their key characteristics. Various quantitative comparisons are also included based on the results reported in recent DA literature. This review mainly covers the methods published in the materials of top-tier conferences and in leading journals in the years 2017-2021.
翻訳日:2021-07-22 14:15:25 公開日:2021-07-21
# 3次元ケパロメトリランドマーク検出のための構造対応長期記憶ネットワーク

Structure-Aware Long Short-Term Memory Network for 3D Cephalometric Landmark Detection ( http://arxiv.org/abs/2107.09899v1 )

ライセンス: Link先を確認
Runnan Chen, Yuexin Ma, Nenglun Chen, Lingjie Liu, Zhiming Cui, Yanhong Lin, Wenping Wang(参考訳) コーンビームCT(CBCT)における3Dランドマークの検出は,3次元脳波解析における解剖学的異常の評価と定量化に重要である。 しかし、現在の手法は時間がかかり、ランドマークの局在に大きなバイアスを被り、信頼性の低い診断結果をもたらす。 本研究では,効率的な3次元ランドマーク検出のための構造対応長短期記憶フレームワーク(SA-LSTM)を提案する。 計算負担を軽減するため、SA-LSTMは2段階設計されている。 まず、ダウンサンプリングされたCBCTボリュームのヒートマップレグレッションを用いて粗いランドマークを発見、次に高解像度のトリミングパッチを用いて、注意深いオフセットレグレッションによってランドマークを徐々に洗練する。 精度を高めるため、SA-LSTMは自己注意によって収穫パッチのグローバルな局所的依存を捉える。 具体的には、グラフアテンションモジュールがランドマークのグローバル構造を暗黙的にエンコードして予測位置を合理化する。 さらに,新たなアテンションゲートモジュールは,無関係な局所的特徴を再帰的にフィルタリングし,最終結果を集約するための高信頼な局所的予測を維持する。 実験の結果,本手法は内部データセットと公開データセットの効率と精度において,それぞれ1.64mm,2.37mmの平均誤差を達成し,CBCT全体の解像度768*768*576を0.5秒で推定できることがわかった。 さらに、予測された全てのランドマークは8mm以内の誤差であり、許容される脳波分析に不可欠である。

Detecting 3D landmarks on cone-beam computed tomography (CBCT) is crucial to assessing and quantifying the anatomical abnormalities in 3D cephalometric analysis. However, the current methods are time-consuming and suffer from large biases in landmark localization, leading to unreliable diagnosis results. In this work, we propose a novel Structure-Aware Long Short-Term Memory framework (SA-LSTM) for efficient and accurate 3D landmark detection. To reduce the computational burden, SA-LSTM is designed in two stages. It first locates the coarse landmarks via heatmap regression on a down-sampled CBCT volume and then progressively refines landmarks by attentive offset regression using high-resolution cropped patches. To boost accuracy, SA-LSTM captures global-local dependence among the cropping patches via self-attention. Specifically, a graph attention module implicitly encodes the landmark's global structure to rationalize the predicted position. Furthermore, a novel attention-gated module recursively filters irrelevant local features and maintains high-confident local predictions for aggregating the final result. Experiments show that our method significantly outperforms state-of-the-art methods in terms of efficiency and accuracy on an in-house dataset and a public dataset, achieving 1.64 mm and 2.37 mm average errors, respectively, and using only 0.5 seconds for inferring the whole CBCT volume of resolution 768*768*576. Moreover, all predicted landmarks are within 8 mm error, which is vital for acceptable cephalometric analysis.
翻訳日:2021-07-22 14:15:13 公開日:2021-07-21
# DRDF:デュアルルータ動的フレームワークによる異なるマルチモーダル情報の重要性の決定

DRDF: Determining the Importance of Different Multimodal Information with Dual-Router Dynamic Framework ( http://arxiv.org/abs/2107.09909v1 )

ライセンス: Link先を確認
Haiwen Hong, Xuan Jin, Yin Zhang, Yunqing Hu, Jingfeng Zhang, Yuan He, Hui Xue(参考訳) マルチモーダルタスクでは,テキストと画像のモーダル情報の重要性が入力ケースによって異なることが判明し,このモチベーションのために,デュアルルータ,mwf層,エキスパート,エキスパート融合ユニットからなる高性能かつ高汎用なデュアルルータ動的フレームワーク(drdf)を提案する。 Dual-Routerのテキストルータと画像ルータは、テキストモーダル情報と画像モーダル情報を受け入れ、MWF-Layerを用いてモーダル情報の重要性を決定する。 決定の結果に基づき、MWF-Layerは専門家の融合のために融合重量を生成する。 エキスパートは現在のタスクにマッチするモデルバックボーンです。 DRDFは高い性能と汎用性を持ち、マルチモーダルデータセットHateful Memes上のVisual BERT、非モーダルデータセットCIFAR10、CIFAR100、TinyImagenetなどの12のバックボーンをテストした。 私たちのDRDFはすべてのベースラインを上回ります。 また,DRDF の設計の理由と考え方を整理して,DRDF の構成要素を詳細に検証した。

In multimodal tasks, we find that the importance of text and image modal information is different for different input cases, and for this motivation, we propose a high-performance and highly general Dual-Router Dynamic Framework (DRDF), consisting of Dual-Router, MWF-Layer, experts and expert fusion unit. The text router and image router in Dual-Router accept text modal information and image modal information, and use MWF-Layer to determine the importance of modal information. Based on the result of the determination, MWF-Layer generates fused weights for the fusion of experts. Experts are model backbones that match the current task. DRDF has high performance and high generality, and we have tested 12 backbones such as Visual BERT on multimodal dataset Hateful memes, unimodal dataset CIFAR10, CIFAR100, and TinyImagenet. Our DRDF outperforms all the baselines. We also verified the components of DRDF in detail by ablations, compared and discussed the reasons and ideas of DRDF design.
翻訳日:2021-07-22 14:14:45 公開日:2021-07-21
# 早期アルツハイマー病予測のためのマルチモーダル表現学習と逆行性ハイパーグラフ融合

Multimodal Representations Learning and Adversarial Hypergraph Fusion for Early Alzheimer's Disease Prediction ( http://arxiv.org/abs/2107.09928v1 )

ライセンス: Link先を確認
Qiankun Zuo, Baiying Lei, Yanyan Shen, Yong Liu, Zhiguang Feng, Shuqiang Wang(参考訳) マルチモーダルニューロイメージは認知症に関する補完的な情報を提供するが、完全なマルチモーダルデータのサイズは表現学習の能力を制限する。 さらに、異なるモダリティからのデータ分散の不整合は、非効率的な融合につながる可能性があり、モダリティ内およびモダリティ間相互作用を十分に探求できず、疾患診断性能を損なう。 そこで本研究では, アルツハイマー病の診断にmrl-ahf(multimodal representation learning and adversarial hypergraph fusion)フレームワークを提案する。 まず,マルチモーダルデータから潜在表現を抽出するMRLに,逆戦略と事前学習モデルを組み込む。 次に、潜在表現から2つのハイパーグラフを構築し、グラフ畳み込みに基づく逆ネットワークを用いてハイパーエッジ特徴の分布差を狭める。 最後に、ハイパーエッジ不変機能はハイパーエッジ畳み込みによる疾患予測のために融合される。 adni(public alzheimer's disease neuroimaging initiative)データベースを用いた実験により,本モデルがアルツハイマー病の検出において,他の関連モデルと比較して優れた性能を発揮することを示し,異常脳結合の分析による障害進行の根本的メカニズムの理解を可能にする。

Multimodal neuroimage can provide complementary information about the dementia, but small size of complete multimodal data limits the ability in representation learning. Moreover, the data distribution inconsistency from different modalities may lead to ineffective fusion, which fails to sufficiently explore the intra-modal and inter-modal interactions and compromises the disease diagnosis performance. To solve these problems, we proposed a novel multimodal representation learning and adversarial hypergraph fusion (MRL-AHF) framework for Alzheimer's disease diagnosis using complete trimodal images. First, adversarial strategy and pre-trained model are incorporated into the MRL to extract latent representations from multimodal data. Then two hypergraphs are constructed from the latent representations and the adversarial network based on graph convolution is employed to narrow the distribution difference of hyperedge features. Finally, the hyperedge-invariant features are fused for disease prediction by hyperedge convolution. Experiments on the public Alzheimer's Disease Neuroimaging Initiative(ADNI) database demonstrate that our model achieves superior performance on Alzheimer's disease detection compared with other related models and provides a possible way to understand the underlying mechanisms of disorder's progression by analyzing the abnormal brain connections.
翻訳日:2021-07-22 14:14:22 公開日:2021-07-21
# アルツハイマー病解析のためのハイパーグラフganによる脳ネットワークのマルチモーダル接続の解析

Characterization Multimodal Connectivity of Brain Network by Hypergraph GAN for Alzheimer's Disease Analysis ( http://arxiv.org/abs/2107.09953v1 )

ライセンス: Link先を確認
Junren Pan, Baiying Lei, Yanyan Shen, Yong Liu, Zhiguang Feng, Shuqiang Wang(参考訳) マルチモーダルニューロイメージングデータを使用して脳ネットワークを特徴付けることは、現在アルツハイマー病(ad)分析のための高度な技術である。 近年では、血液酸素レベル依存性(BOLD)シグナルと白質繊維トラクトグラフィー由来の拡散テンソルイメージング(DTI)から得られる静止状態機能型磁気共鳴画像(rs-fMRI)の研究が著しく進展している。 しかし、BOLD信号とファイバートラクトグラフィーの不均一性と複雑さのため、既存のマルチモーダルデータ融合アルゴリズムは、rs-fMRIとDTIの相補的な情報を十分に活用できない。 この問題を解決するために,対話型ハイパーエッジニューロンモジュール(IHEN)と最適ハイパーグラフホモモルフィズムアルゴリズム(OHGH)を用いて,rs-fMRIとDTIを組み合わせることで,Brain Networkのマルチモーダル接続を生成する新しいHypergraph Generative Adversarial Networks(HGGAN)を提案する。 このモデルの性能を評価するために,adniデータベースから公開されているデータを用いて,adの識別的脳領域を識別できるだけでなく,分類性能を効果的に向上できることを示す。

Using multimodal neuroimaging data to characterize brain network is currently an advanced technique for Alzheimer's disease(AD) Analysis. Over recent years the neuroimaging community has made tremendous progress in the study of resting-state functional magnetic resonance imaging (rs-fMRI) derived from blood-oxygen-level-dependent (BOLD) signals and Diffusion Tensor Imaging (DTI) derived from white matter fiber tractography. However, Due to the heterogeneity and complexity between BOLD signals and fiber tractography, Most existing multimodal data fusion algorithms can not sufficiently take advantage of the complementary information between rs-fMRI and DTI. To overcome this problem, a novel Hypergraph Generative Adversarial Networks(HGGAN) is proposed in this paper, which utilizes Interactive Hyperedge Neurons module (IHEN) and Optimal Hypergraph Homomorphism algorithm(OHGH) to generate multimodal connectivity of Brain Network from rs-fMRI combination with DTI. To evaluate the performance of this model, We use publicly available data from the ADNI database to demonstrate that the proposed model not only can identify discriminative brain regions of AD but also can effectively improve classification performance.
翻訳日:2021-07-22 14:13:58 公開日:2021-07-21
# 単一から複数へ:ビデオ予測にマルチレベル予測空間を活用する

From Single to Multiple: Leveraging Multi-level Prediction Spaces for Video Forecasting ( http://arxiv.org/abs/2107.10068v1 )

ライセンス: Link先を確認
Mengcheng Lan, Shuliang Ning, Yanran Li, Qian Chen, Xunlai Chen, Xiaoguang Han, Shuguang Cui(参考訳) 近年、ビデオ予測は広く話題となっているが、既存の研究の主流は、単一の予測空間でモデルを制限するが、複数の予測空間でモデルを活用する方法を完全に無視している。 この仕事はこのギャップを埋める。 我々は,複数の予測空間でビデオ予測を行い,それらの結果を融合して性能を向上させるための多くの戦略を初めて深く研究した。 ピクセル空間での予測は、通常、ビデオの意味的および構造的内容を保存する能力が欠けているが、高レベル特徴空間での予測は、縮小および回復過程においてエラーを発生させる可能性が高い。 そこで我々は,異なる特徴空間間の繰り返し接続を構築し,その世代をアップサンプリングプロセスに組み込む。 意外なことに、この単純なアイデアはPhyDNetよりもはるかにパフォーマンスが向上した(MNIST-2データセットでは32.1%、KTHデータセットでは21.4%)。 4つのデータセットの質的および定量的評価は、我々のアプローチの一般化能力と有効性を示す。 本モデルでは, 難解な歪みやぼやけたアーチファクトを著しく低減し, 長期ビデオ予測における精度を著しく向上することを示す。 コードはまもなくリリースされる。

Despite video forecasting has been a widely explored topic in recent years, the mainstream of the existing work still limits their models with a single prediction space but completely neglects the way to leverage their model with multi-prediction spaces. This work fills this gap. For the first time, we deeply study numerous strategies to perform video forecasting in multi-prediction spaces and fuse their results together to boost performance. The prediction in the pixel space usually lacks the ability to preserve the semantic and structure content of the video however the prediction in the high-level feature space is prone to generate errors in the reduction and recovering process. Therefore, we build a recurrent connection between different feature spaces and incorporate their generations in the upsampling process. Rather surprisingly, this simple idea yields a much more significant performance boost than PhyDNet (performance improved by 32.1% MAE on MNIST-2 dataset, and 21.4% MAE on KTH dataset). Both qualitative and quantitative evaluations on four datasets demonstrate the generalization ability and effectiveness of our approach. We show that our model significantly reduces the troublesome distortions and blurry artifacts and brings remarkable improvements to the accuracy in long term video prediction. The code will be released soon.
翻訳日:2021-07-22 14:13:33 公開日:2021-07-21
# 医用画像セグメンテーションのための雑音ラベルからのスーパーピクセル誘導反復学習

Superpixel-guided Iterative Learning from Noisy Labels for Medical Image Segmentation ( http://arxiv.org/abs/2107.10100v1 )

ライセンス: Link先を確認
Shuailin Li, Zhitong Gao, Xuming He(参考訳) ノイズラベルからのセグメンテーションは,高品質なアノテーションの取得が困難であるため,医用画像解析において重要な課題である。 既存のほとんどの手法は、セグメンテーションにおける画素相関と構造的先行を無視し、しばしばオブジェクト境界に関するノイズの多い予測を生成する。 そこで我々は,スーパーピクセル表現を採用し,セグメンテーションネットワークの雑音認識学習と,スーパーピクセルが指導するノイズラベル改善を組み合わせた,堅牢な反復学習戦略を開発した。 この設計により、セグメンテーションラベルの構造的制約を活用でき、学習におけるラベルノイズの影響を効果的に軽減できる。 2つのベンチマーク実験の結果,本手法は最近の最先端手法よりも優れており,幅広いラベル雑音において優れたロバスト性を実現する。 コードはhttps://github.com/gaozhitong/SP_guided_Noisy_Label_Segで公開されている。

Learning segmentation from noisy labels is an important task for medical image analysis due to the difficulty in acquiring highquality annotations. Most existing methods neglect the pixel correlation and structural prior in segmentation, often producing noisy predictions around object boundaries. To address this, we adopt a superpixel representation and develop a robust iterative learning strategy that combines noise-aware training of segmentation network and noisy label refinement, both guided by the superpixels. This design enables us to exploit the structural constraints in segmentation labels and effectively mitigate the impact of label noise in learning. Experiments on two benchmarks show that our method outperforms recent state-of-the-art approaches, and achieves superior robustness in a wide range of label noises. Code is available at https://github.com/gaozhitong/SP_guided_Noisy_Label_Seg.
翻訳日:2021-07-22 14:13:12 公開日:2021-07-21
# オープンセット行動認識のための証拠深層学習

Evidential Deep Learning for Open Set Action Recognition ( http://arxiv.org/abs/2107.10161v1 )

ライセンス: Link先を確認
Wentao Bao, Qi Yu, Yu Kong(参考訳) 現実のシナリオでは、人間のアクションはトレーニングデータから分布外であり、既知のアクションを認識し、未知のアクションを拒否するモデルを必要とする。 画像データと異なり、不確実な時間的ダイナミクスと人間の行動の静的バイアスにより、ビデオアクションはオープンな設定で認識することがより困難である。 本稿では,オープンテストセットにおける行動認識のためのdear(deep obviousial action recognition)手法を提案する。 具体的には、顕在的深層学習(EDL)の観点から行動認識問題を定式化し、EDLトレーニングを正規化するための新しいモデル校正法を提案する。 また,映像表現の静的バイアスを軽減するために,コントラスト学習による学習表現の偏りを解消するプラグ・アンド・プレイモジュールを提案する。 実験の結果,複数のメインストリーム行動認識モデルとベンチマークで一貫した性能向上が得られた。 コードと事前訓練された重量は、受理時に利用可能になる。

In a real-world scenario, human actions are typically out of the distribution from training data, which requires a model to both recognize the known actions and reject the unknown. Different from image data, video actions are more challenging to be recognized in an open-set setting due to the uncertain temporal dynamics and static bias of human actions. In this paper, we propose a Deep Evidential Action Recognition (DEAR) method to recognize actions in an open testing set. Specifically, we formulate the action recognition problem from the evidential deep learning (EDL) perspective and propose a novel model calibration method to regularize the EDL training. Besides, to mitigate the static bias of video representation, we propose a plug-and-play module to debias the learned representation through contrastive learning. Experimental results show that our DEAR method achieves consistent performance gain on multiple mainstream action recognition models and benchmarks. Codes and pre-trained weights will be made available upon paper acceptance.
翻訳日:2021-07-22 14:12:58 公開日:2021-07-21
# DRIVE:視覚的説明による深い強化された事故予測

DRIVE: Deep Reinforced Accident Anticipation with Visual Explanation ( http://arxiv.org/abs/2107.10189v1 )

ライセンス: Link先を確認
Wentao Bao, Qi Yu, Yu Kong(参考訳) 交通事故予知は、自動運転システムにとって必須のdashcamビデオから、将来の事故の発生を正確かつ迅速に予測することを目的としている。 早期かつ正確な意思決定を促進するために、既存のアプローチは、将来の事故が起こる前に空間的および時間的文脈の手がかりを捉えることに重点を置いている。 しかし、その決定は視覚的な説明に欠け、環境との動的相互作用を無視している。 本稿では,DRIVE と命名された視覚表現を用いた深部強化事故予測手法を提案する。 ダッシュカム観察環境におけるボトムアップとトップダウンの両方の視覚注意機構をシミュレートし、提案する確率的マルチタスクエージェントからの判断を注意領域で視覚的に説明できるようにする。 また,強化学習アルゴリズムを改良したドライブモデルの学習には,提案する密集型予測報酬とスパース固定報酬が有効である。 実験結果から,DRIVEモデルが複数の実世界の交通事故データセットに対して最先端の性能を達成することが示された。 コードと事前トレーニングされたモデルは、紙の受け入れ時に利用可能になる。

Traffic accident anticipation aims to accurately and promptly predict the occurrence of a future accident from dashcam videos, which is vital for a safety-guaranteed self-driving system. To encourage an early and accurate decision, existing approaches typically focus on capturing the cues of spatial and temporal context before a future accident occurs. However, their decision-making lacks visual explanation and ignores the dynamic interaction with the environment. In this paper, we propose Deep ReInforced accident anticipation with Visual Explanation, named DRIVE. The method simulates both the bottom-up and top-down visual attention mechanism in a dashcam observation environment so that the decision from the proposed stochastic multi-task agent can be visually explained by attentive regions. Moreover, the proposed dense anticipation reward and sparse fixation reward are effective in training the DRIVE model with our improved reinforcement learning algorithm. Experimental results show that the DRIVE model achieves state-of-the-art performance on multiple real-world traffic accident datasets. The code and pre-trained model will be available upon paper acceptance.
翻訳日:2021-07-22 14:12:43 公開日:2021-07-21
# CycleMLP: ディエンス予測のためのMLPライクなアーキテクチャ

CycleMLP: A MLP-like Architecture for Dense Prediction ( http://arxiv.org/abs/2107.10224v1 )

ライセンス: Link先を確認
Shoufa Chen, Enze Xie, Chongjian Ge, Ding Liang, Ping Luo(参考訳) 本稿では,MLP-Mixer,ResMLP,gMLPなどの最新のMLPアーキテクチャとは異なり,視覚認識や高密度な予測のための汎用バックボーンであるCycleMLPを提案する。 CycleMLPは、現代的なアプローチに比べて2つの利点がある。 1)様々な画像サイズに対応できる。 2)局所窓を用いた画像サイズに対する線形計算複雑性を実現する。 対照的に、以前のMLPは空間的接続が完全であるために二次計算をしていた。 我々は既存のMLPを超えるモデル群を構築し、ImageNet-1K分類の精度(83.2%)をSwin Transformer(83.3%)のような最先端のトランスフォーマーと比較するが、パラメータやFLOPは少ない。 我々は、MDPのようなモデルの適用性を拡大し、高密度予測タスクのための汎用的なバックボーンとなる。 CycleMLPは、MLPモデルのオブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーションの競合するベースラインを提供することを目的としている。 特に、CycleMLPはADE20K val上で45.1 mIoUを達成し、Swin (45.2 mIOU)に匹敵する。 コードは \url{https://github.com/shoufachen/cyclemlp} で入手できる。

This paper presents a simple MLP-like architecture, CycleMLP, which is a versatile backbone for visual recognition and dense predictions, unlike modern MLP architectures, e.g., MLP-Mixer, ResMLP, and gMLP, whose architectures are correlated to image size and thus are infeasible in object detection and segmentation. CycleMLP has two advantages compared to modern approaches. (1) It can cope with various image sizes. (2) It achieves linear computational complexity to image size by using local windows. In contrast, previous MLPs have quadratic computations because of their fully spatial connections. We build a family of models that surpass existing MLPs and achieve a comparable accuracy (83.2%) on ImageNet-1K classification compared to the state-of-the-art Transformer such as Swin Transformer (83.3%) but using fewer parameters and FLOPs. We expand the MLP-like models' applicability, making them a versatile backbone for dense prediction tasks. CycleMLP aims to provide a competitive baseline on object detection, instance segmentation, and semantic segmentation for MLP models. In particular, CycleMLP achieves 45.1 mIoU on ADE20K val, comparable to Swin (45.2 mIOU). Code is available at \url{https://github.com/ShoufaChen/CycleMLP}.
翻訳日:2021-07-22 14:12:26 公開日:2021-07-21
# Recursive Neural Tensor Networks を用いた自然言語要求からの細粒度因果抽出

Fine-Grained Causality Extraction From Natural Language Requirements Using Recursive Neural Tensor Networks ( http://arxiv.org/abs/2107.09980v1 )

ライセンス: Link先を確認
Jannik Fischbach, Tobias Springer, Julian Frattini, Henning Femmer, Andreas Vogelsang, and Daniel Mendez(参考訳) [コンテキスト:] 因果関係(例えば、A ならば B)は、機能的要求において一般的である。 AI4REの様々な応用、例えば、適切なテストケースを要件から自動的に導出し、そのような因果的ステートメントを自動的に抽出することが基本的な必要性である。 [problem:] きめ細かな形で自然言語要件から因果関係を抽出することのできるアプローチに欠けています。 具体的には、既存のアプローチは原因と効果の組合せを考慮していない。 また、原因や効果をより粒度の細かいテキスト断片(変数や条件など)に分割することはできず、抽出された関係は自動テストケースの導出には適さない。 目的とコントリビューション:] この研究ギャップに対処し、以下の貢献をする。 まず、完全なラベル付きバイナリパースツリーの最初のコーパスであるCausality Treebankを紹介します。 次に,再帰型ニューラルテンソルネットワークに基づく微粒化因果抽出器を提案する。 提案手法は,自然言語で記述した因果文の合成を復元し,因果木バンクの評価においてF1スコアが74 %に達する。 第3に,オープンデータセットとコードを公開し,reコミュニティにおける因果関係の自動抽出に関する議論を促進する。

[Context:] Causal relations (e.g., If A, then B) are prevalent in functional requirements. For various applications of AI4RE, e.g., the automatic derivation of suitable test cases from requirements, automatically extracting such causal statements are a basic necessity. [Problem:] We lack an approach that is able to extract causal relations from natural language requirements in fine-grained form. Specifically, existing approaches do not consider the combinatorics between causes and effects. They also do not allow to split causes and effects into more granular text fragments (e.g., variable and condition), making the extracted relations unsuitable for automatic test case derivation. [Objective & Contributions:] We address this research gap and make the following contributions: First, we present the Causality Treebank, which is the first corpus of fully labeled binary parse trees representing the composition of 1,571 causal requirements. Second, we propose a fine-grained causality extractor based on Recursive Neural Tensor Networks. Our approach is capable of recovering the composition of causal statements written in natural language and achieves a F1 score of 74 % in the evaluation on the Causality Treebank. Third, we disclose our open data sets as well as our code to foster the discourse on the automatic extraction of causality in the RE community.
翻訳日:2021-07-22 14:12:01 公開日:2021-07-21
# CATE: 自然言語要求からの因果木エクストラクタ

CATE: CAusality Tree Extractor from Natural Language Requirements ( http://arxiv.org/abs/2107.10023v1 )

ライセンス: Link先を確認
Noah Jadallah, Jannik Fischbach, Julian Frattini, and Andreas Vogelsang(参考訳) 因果関係(A ならば B)は要求アーティファクトでよく見られる。 要件から因果関係を自動的に抽出することは、様々なRE活動(例えば、適切なテストケースの自動導出)において大きな可能性を秘めている。 しかし,自然言語からの因果関係を合理的な性能で抽出できる手法が欠如している。 本稿では,木構造としての因果関係の構成を解析できるツールCATE(CAusality Tree Extractor)を提案する。 CATEは、文における原因と効果の概要を提供するだけでなく、因果関係を二分木に翻訳することで意味的一貫性を明らかにする。 私たちは同僚の研究者や実践者が https://causalitytreeextractor.com/ で CATE を使用するように勧めています。

Causal relations (If A, then B) are prevalent in requirements artifacts. Automatically extracting causal relations from requirements holds great potential for various RE activities (e.g., automatic derivation of suitable test cases). However, we lack an approach capable of extracting causal relations from natural language with reasonable performance. In this paper, we present our tool CATE (CAusality Tree Extractor), which is able to parse the composition of a causal relation as a tree structure. CATE does not only provide an overview of causes and effects in a sentence, but also reveals their semantic coherence by translating the causal relation into a binary tree. We encourage fellow researchers and practitioners to use CATE at https://causalitytreeextractor.com/
翻訳日:2021-07-22 14:11:38 公開日:2021-07-21
# マルチラベル分類のためのオートエンコーダと機能的リンクニューラルネットワークの統合

Integration of Autoencoder and Functional Link Artificial Neural Network for Multi-label Classification ( http://arxiv.org/abs/2107.09904v1 )

ライセンス: Link先を確認
Anwesha Law and Ashish Ghosh(参考訳) マルチラベル(ml)分類は、現在活発に研究されているトピックであり、特定のデータインスタンスで複数のラベルがアクティブであるため発生する、畳み込みと重なり合う境界を扱う。 複雑な決定境界を扱うために,基礎となる特徴を抽出し,データに非線形性を導入することができる分類器を提案する。 入力特徴を多ラベル機能リンク人工ニューラルネットワークとオートエンコーダの2つの変換に適応させる新しいニューラルネットワークモデルが開発されている。 まず、基本機能を用いて、元の機能の機能拡張を行う。 この後、オートエンコーダによる変換と拡張機能の削減が行われる。 このネットワークは、2層変換によるマルチラベルデータの分離性を向上し、拡張された特徴空間をより管理可能な量に削減することができる。 これは、限られた量のデータであってもより良い分類性能をもたらす入力次元のバランスをとる。 提案したネットワークは、5つのMLデータセットで検証され、6つの確立されたML分類器と比較して優れた性能を示している。 さらに,提案ネットワークの単一ラベル変動も同時に定式化され,既存の3つの分類器に対して4つの関連するデータセットで検証され,その有効性が確認されている。

Multi-label (ML) classification is an actively researched topic currently, which deals with convoluted and overlapping boundaries that arise due to several labels being active for a particular data instance. We propose a classifier capable of extracting underlying features and introducing non-linearity to the data to handle the complex decision boundaries. A novel neural network model has been developed where the input features are subjected to two transformations adapted from multi-label functional link artificial neural network and autoencoders. First, a functional expansion of the original features are made using basis functions. This is followed by an autoencoder-aided transformation and reduction on the expanded features. This network is capable of improving separability for the multi-label data owing to the two-layer transformation while reducing the expanded feature space to a more manageable amount. This balances the input dimension which leads to a better classification performance even for a limited amount of data. The proposed network has been validated on five ML datasets which shows its superior performance in comparison with six well-established ML classifiers. Furthermore, a single-label variation of the proposed network has also been formulated simultaneously and tested on four relevant datasets against three existing classifiers to establish its effectiveness.
翻訳日:2021-07-22 14:11:07 公開日:2021-07-21
# glime: 解釈可能なモデル非依存な説明のための新しいグラフィカル方法論

GLIME: A new graphical methodology for interpretable model-agnostic explanations ( http://arxiv.org/abs/2107.09927v1 )

ライセンス: Link先を確認
Zoumpolia Dikopoulou, Serafeim Moustakidis, Patrik Karlsson(参考訳) 説明可能な人工知能(XAI)は、プロセスとツールのセットが、ブラックボックスモデルによって生成された決定をよりよく理解できるようにする、新たなドメインである。 しかしながら、利用可能なXAIツールのほとんどは、主にモデルの出力に対する個々の特徴の影響を定量化する単純な説明に限られることが多い。 したがって、人間のユーザは、機能がどのように相互に関連しているかを理解して予測できないが、トレーニングされたモデルの内部動作は隠されている。 本稿では,モデルの重要な特徴を示すだけでなく,特徴間の条件付き関係や,特徴の直接的および間接的影響をモデル決定に反映する推論も示す,新しいグラフィカルな説明可能性ツールの開発に寄与する。 gLIMEと呼ばれる提案されたXAI方法論は、グローバル(データセット全体)またはローカルスケール(特定のデータポイント)でグラフィカルなモデルに依存しない説明を提供する。 局所的な解釈可能なモデルに依存しない説明(LIME)と、非直交ガウス図形モデルを生成する最小絶対縮小と選択演算子(GLASSO)の組み合わせに依存している。 正規化は、小さな部分相関係数をゼロに縮小することで、スパーザーとより解釈可能なグラフィカルな説明を提供する。 2つのよく知られた分類データセット(BIOPSYとOAI)が選択され、複数の置換に対する堅牢性と一貫性の両方の観点から、LIMEに対するgLIMEの優位性が確認された。 特に、gLIMEは機能の重要性に関して2つのデータセットの安定性を向上した(LIMEを使用する52%-77%に比べて76%~96%)。 gLIMEは、ブラックボックスをアンロックできる情報的な説明を提供することで、XAIにおける現在の最先端の機能を拡張するユニークな可能性を示している。

Explainable artificial intelligence (XAI) is an emerging new domain in which a set of processes and tools allow humans to better comprehend the decisions generated by black box models. However, most of the available XAI tools are often limited to simple explanations mainly quantifying the impact of individual features to the models' output. Therefore, human users are not able to understand how the features are related to each other to make predictions, whereas the inner workings of the trained models remain hidden. This paper contributes to the development of a novel graphical explainability tool that not only indicates the significant features of the model but also reveals the conditional relationships between features and the inference capturing both the direct and indirect impact of features to the models' decision. The proposed XAI methodology, termed as gLIME, provides graphical model-agnostic explanations either at the global (for the entire dataset) or the local scale (for specific data points). It relies on a combination of local interpretable model-agnostic explanations (LIME) with graphical least absolute shrinkage and selection operator (GLASSO) producing undirected Gaussian graphical models. Regularization is adopted to shrink small partial correlation coefficients to zero providing sparser and more interpretable graphical explanations. Two well-known classification datasets (BIOPSY and OAI) were selected to confirm the superiority of gLIME over LIME in terms of both robustness and consistency over multiple permutations. Specifically, gLIME accomplished increased stability over the two datasets with respect to features' importance (76%-96% compared to 52%-77% using LIME). gLIME demonstrates a unique potential to extend the functionality of the current state-of-the-art in XAI by providing informative graphically given explanations that could unlock black boxes.
翻訳日:2021-07-22 14:10:48 公開日:2021-07-21
# モデル転送を伴わない教師なし領域適応のためのブラックボックスプローブ

Black-box Probe for Unsupervised Domain Adaptation without Model Transferring ( http://arxiv.org/abs/2107.10174v1 )

ライセンス: Link先を確認
Kunhong Wu, Yucheng Shi, Yahong Han, Yunfeng Shao, Bingshuai Li(参考訳) 近年、ディープラーニングモデルによるデータセキュリティとプライバシへの脅威、特にドメイン適応の分野では、研究者はますます注意を払っている。 既存のunsupervised domain adaptation (uda)メソッドは、ソースドメインからターゲットドメインにデータを転送することなく、有望なパフォーマンスを達成できる。 しかし、表現アライメントや自己教師付き擬似ラベルを持つUDAは、転送元モデルに依存している。 多くのデータクリティカルなシナリオでは、モデル転送に基づくメソッドはメンバーシップ推論攻撃に苦しめられ、プライベートデータを公開する。 本稿では,ソースモデルがクエリ可能であるだけでなく,対象ドメインに転送できないような,新たな課題を克服することを目的とする。 我々は、サードパーティのデータセットを用いてソースモデルからの情報を探索・精査するためのクエリ機構を採用したブラックボックスプローブドメイン適応(BPDA)を提案する。 より情報的なクエリ結果を得るためには、さらにDAT(Distributally Adversarial Training)を提案し、サードパーティデータの分布とターゲットデータの分布を整合させる。 BPDAは、ソースドメインとターゲットドメインの間の情報キャリアとして、DATに基づく公開サードパーティデータセットと敵の例を使用し、ソースデータやモデルを転送する必要がない。 Digit-Five、Office-Caltech、Office-31、Office-Home、DomainNetのベンチマーク実験の結果、BPDAはモデル転送なしで実現可能であることが示された。

In recent years, researchers have been paying increasing attention to the threats brought by deep learning models to data security and privacy, especially in the field of domain adaptation. Existing unsupervised domain adaptation (UDA) methods can achieve promising performance without transferring data from source domain to target domain. However, UDA with representation alignment or self-supervised pseudo-labeling relies on the transferred source models. In many data-critical scenarios, methods based on model transferring may suffer from membership inference attacks and expose private data. In this paper, we aim to overcome a challenging new setting where the source models are only queryable but cannot be transferred to the target domain. We propose Black-box Probe Domain Adaptation (BPDA), which adopts query mechanism to probe and refine information from source model using third-party dataset. In order to gain more informative query results, we further propose Distributionally Adversarial Training (DAT) to align the distribution of third-party data with that of target data. BPDA uses public third-party dataset and adversarial examples based on DAT as the information carrier between source and target domains, dispensing with transferring source data or model. Experimental results on benchmarks of Digit-Five, Office-Caltech, Office-31, Office-Home, and DomainNet demonstrate the feasibility of BPDA without model transferring.
翻訳日:2021-07-22 14:10:20 公開日:2021-07-21
# オンライン陰謀論コミュニティにおける社会的想像力と不協和音の自己開示

Characterizing Social Imaginaries and Self-Disclosures of Dissonance in Online Conspiracy Discussion Communities ( http://arxiv.org/abs/2107.10204v1 )

ライセンス: Link先を確認
Shruti Phadke, Mattia Samory, Tanushree Mitra(参考訳) オンライン議論プラットフォームは、誤報陰謀説の信条を強化し、広めるためのフォーラムを提供している。 しかし、彼らは陰謀論者に対して、彼らの疑念や認知的不協和の経験を表現する道筋を提供する。 このような不協和の表現は、誰が誤った信念を捨てるか、どのような状況下なのかに光を当てることができる。 本稿では, 謎の指導者Qの陰謀論であるQAnonに関する不協和の自己開示を特徴とする。 共謀コミュニティにおける不協和と不信感を理解するために、我々はまず彼らの社会的想像を特徴づけ、人々が彼らの社会的存在をどのように想像するかを広く理解する。 4chanと8chanの2つのイメージボードからの2Kポストと、QAnon専用の12のサブレディットからの1.2Mコメントと投稿に注目して、QAnonコミュニティのムーブメント、期待、プラクティス、ヒーロー、フェースを表す象徴的言語を明らかにするための混合手法を採用した。 我々はこれらのソーシャル・イマジナリーを用いて、QAnonに関する一般的な議論から信念と不協和を区別する計算フレームワークを作成する。 さらに,QAnon陰謀未遂者のユーザエンゲージメントを分析したところ,不協和の自己開示は,ユーザの貢献が著しく減少し,最終的にはコミュニティからの離脱と相関していることがわかった。 我々は、不協和音の自己開示を識別し、不協和音を取り巻くユーザの関与の変化を測定するための計算フレームワークを提供する。 我々の研究は、不協和に基づく介入の設計に関する洞察を与え、オンライン陰謀論のコミュニティから共謀者を遠ざける可能性がある。

Online discussion platforms offer a forum to strengthen and propagate belief in misinformed conspiracy theories. Yet, they also offer avenues for conspiracy theorists to express their doubts and experiences of cognitive dissonance. Such expressions of dissonance may shed light on who abandons misguided beliefs and under which circumstances. This paper characterizes self-disclosures of dissonance about QAnon, a conspiracy theory initiated by a mysterious leader Q and popularized by their followers, anons in conspiracy theory subreddits. To understand what dissonance and disbelief mean within conspiracy communities, we first characterize their social imaginaries, a broad understanding of how people collectively imagine their social existence. Focusing on 2K posts from two image boards, 4chan and 8chan, and 1.2 M comments and posts from 12 subreddits dedicated to QAnon, we adopt a mixed methods approach to uncover the symbolic language representing the movement, expectations, practices, heroes and foes of the QAnon community. We use these social imaginaries to create a computational framework for distinguishing belief and dissonance from general discussion about QAnon. Further, analyzing user engagement with QAnon conspiracy subreddits, we find that self-disclosures of dissonance correlate with a significant decrease in user contributions and ultimately with their departure from the community. We contribute a computational framework for identifying dissonance self-disclosures and measuring the changes in user engagement surrounding dissonance. Our work can provide insights into designing dissonance-based interventions that can potentially dissuade conspiracists from online conspiracy discussion communities.
翻訳日:2021-07-22 14:09:48 公開日:2021-07-21
# マルチモーダル医用画像分割のためのモダリティ・アウェア相互学習

Modality-aware Mutual Learning for Multi-modal Medical Image Segmentation ( http://arxiv.org/abs/2107.09842v1 )

ライセンス: Link先を確認
Yao Zhang, Jiawei Yang, Jiang Tian, Zhongchao Shi, Cheng Zhong, Yang Zhang, and Zhiqiang He(参考訳) 肝臓がんは世界中で最も多いがんの1つである。 肝腫瘍の異常なテクスチャー変化のため,造影CTが肝癌の診断に有用である。 本稿では,マルチモーダルCT画像の統合による肝腫瘍切除の自動化に焦点をあてる。 そこで本研究では,マルチモーダル肝腫瘍セグメンテーションのための新たな相互学習(ML)戦略を提案する。 異なるモダリティから情報を単一のモデルで融合する既存のマルチモーダル法とは異なり、MLでは、モダリティ固有のモデルのアンサンブルが協調的に学習し、異なるモダリティの高レベル表現間の特性と共通性の両方を融合させるように互いに教える。 提案したMLは,マルチモーダル学習の優位性を実現するだけでなく,既存のモーダルから欠落したモーダルへ知識を伝達することで,欠落したモーダルを扱える。 さらに,モダリティ固有モデルとアダプティブ情報交換のための注意重み付けを相互に結合して調整するモダリティ認識(ma)モジュールを提案する。 提案手法は, 大規模臨床データセットを用いた肝腫瘍セグメンテーションにおいて有望な結果が得られた。 さらに,肝腫瘍および公共脳腫瘍(BRATS 2018)データセットの欠如に対するMAMLの有効性とロバスト性を示した。 私たちのコードはhttps://github.com/YaoZhang93/MAMLで利用可能です。

Liver cancer is one of the most common cancers worldwide. Due to inconspicuous texture changes of liver tumor, contrast-enhanced computed tomography (CT) imaging is effective for the diagnosis of liver cancer. In this paper, we focus on improving automated liver tumor segmentation by integrating multi-modal CT images. To this end, we propose a novel mutual learning (ML) strategy for effective and robust multi-modal liver tumor segmentation. Different from existing multi-modal methods that fuse information from different modalities by a single model, with ML, an ensemble of modality-specific models learn collaboratively and teach each other to distill both the characteristics and the commonality between high-level representations of different modalities. The proposed ML not only enables the superiority for multi-modal learning but can also handle missing modalities by transferring knowledge from existing modalities to missing ones. Additionally, we present a modality-aware (MA) module, where the modality-specific models are interconnected and calibrated with attention weights for adaptive information exchange. The proposed modality-aware mutual learning (MAML) method achieves promising results for liver tumor segmentation on a large-scale clinical dataset. Moreover, we show the efficacy and robustness of MAML for handling missing modalities on both the liver tumor and public brain tumor (BRATS 2018) datasets. Our code is available at https://github.com/YaoZhang93/MAML.
翻訳日:2021-07-22 14:09:17 公開日:2021-07-21
# 3次元脳形状再構成のための木構造グラフ畳み込みによる点雲生成モデル

A Point Cloud Generative Model via Tree-Structured Graph Convolutions for 3D Brain Shape Reconstruction ( http://arxiv.org/abs/2107.09923v1 )

ライセンス: Link先を確認
Bowen Hu, Baiying Lei, Yanyan Shen, Yong Liu, Shuqiang Wang(参考訳) 医用画像とそれに対応する3次元形状表現は、補完的な情報と微細構造の詳細を提供し、脳外科手術の手術性能と精度を向上させる。 しかし,実際の画像データと比較すると,特に低侵襲手術やロボット誘導手術において,センサスキャンなどの物理的手法を用いて術中3次元形状情報を得ることはほとんど不可能である。 本稿では, グラフ畳み込みネットワークに基づくgan(general generative adversarial network)アーキテクチャを提案し, 1つの2次元画像を用いて脳の3次元点雲(pcs)を再構成し, 手術中の3次元形状データ獲得の限界を緩和する。 具体的には、木構造生成機構を構築し、潜伏ベクトルを効果的に利用し、隠蔽層間の特徴を正確に伝達する。 提案する生成モデルにより,自然画像からpcへの変換がリアルタイムに完了する。 本モデルでは, 比較定性的, 定量的な実験結果を得た。 複数の評価手法において、提案モデルは別の共通点クラウド生成モデルであるPointOutNetより優れている。

Fusing medical images and the corresponding 3D shape representation can provide complementary information and microstructure details to improve the operational performance and accuracy in brain surgery. However, compared to the substantial image data, it is almost impossible to obtain the intraoperative 3D shape information by using physical methods such as sensor scanning, especially in minimally invasive surgery and robot-guided surgery. In this paper, a general generative adversarial network (GAN) architecture based on graph convolutional networks is proposed to reconstruct the 3D point clouds (PCs) of brains by using one single 2D image, thus relieving the limitation of acquiring 3D shape data during surgery. Specifically, a tree-structured generative mechanism is constructed to use the latent vector effectively and transfer features between hidden layers accurately. With the proposed generative model, a spontaneous image-to-PC conversion is finished in real-time. Competitive qualitative and quantitative experimental results have been achieved on our model. In multiple evaluation methods, the proposed model outperforms another common point cloud generative model PointOutNet.
翻訳日:2021-07-22 14:08:52 公開日:2021-07-21
# カーポエント製造におけるリバースエンジニアリング

Fabrication-Aware Reverse Engineering for Carpentry ( http://arxiv.org/abs/2107.09965v1 )

ライセンス: Link先を確認
James Noeckel, Haisen Zhao, Brian Curless, Adriana Schulz(参考訳) 本稿では,大工品の画像から創製青写真を生成する新しい手法を提案する。 画像からの3d再構成はよく研究されている問題であるが、典型的な手法はコンピュータ支援の設計や製造に不向きな表現を生成する。 我々の重要な洞察は、造形プロセスが大工オブジェクトの設計空間を定義し、制約し、新しい再構築手法を開発するために活用できるということである。 本手法では,画像ベースと幾何最適化の組み合わせを用いて,有効形状だけでなく,部品の意味的に妥当な集合を復元する。 様々な木製物や家具について本手法を実演し, 容易に編集でき, 正確な真理を再現できるデザインを自動で得ることができることを示した。 さらに本手法は,cadソフトウェアで再構成されたモデルを直接編集することで生成可能なカスタマイズされたバージョンだけでなく,キャプチャしたオブジェクトの物理的レプリカの作成にも利用できることを示す。

We propose a novel method to generate fabrication blueprints from images of carpentered items. While 3D reconstruction from images is a well-studied problem, typical approaches produce representations that are ill-suited for computer-aided design and fabrication applications. Our key insight is that fabrication processes define and constrain the design space for carpentered objects, and can be leveraged to develop novel reconstruction methods. Our method makes use of domain-specific constraints to recover not just valid geometry, but a semantically valid assembly of parts, using a combination of image-based and geometric optimization techniques. We demonstrate our method on a variety of wooden objects and furniture, and show that we can automatically obtain designs that are both easy to edit and accurate recreations of the ground truth. We further illustrate how our method can be used to fabricate a physical replica of the captured object as well as a customized version, which can be produced by directly editing the reconstructed model in CAD software.
翻訳日:2021-07-22 14:08:34 公開日:2021-07-21
# HistoCartography: デジタル病理におけるグラフ解析のためのツールキット

HistoCartography: A Toolkit for Graph Analytics in Digital Pathology ( http://arxiv.org/abs/2107.10073v1 )

ライセンス: Link先を確認
Guillaume Jaume, Pushpak Pati, Valentin Anklin, Antonio Foncubierta, Maria Gabrani(参考訳) 組織病理画像のエンティティグラフに基づく解析の進歩は、組織構成を記述し、組織構造と機能の関係を学ぶ新しいパラダイムをもたらした。 エンティティグラフは、組織組織を特徴付けるために柔軟でスケーラブルな表現を提供し、また、事前の病理学知識を組み込むことにより、モデルの解釈可能性と説明可能性をさらに支援できる。 しかし、エンティティグラフ分析には、画像からグラフへの翻訳と、グラフ構造データに適用される最先端機械学習アルゴリズムの知識の前提条件が必要である。 本研究では, 計算病理学におけるグラフ解析を容易にするために, 必要な前処理, 機械学習, 説明ツールを備えた標準python api であるhistocartography を開発した。 さらに,様々な撮像型と病理組織学タスクにまたがる複数のデータセットの計算時間と性能をベンチマークし,計算病理ワークフロー構築のためのapiの適用性を強調した。

Advances in entity-graph based analysis of histopathology images have brought in a new paradigm to describe tissue composition, and learn the tissue structure-to-function relationship. Entity-graphs offer flexible and scalable representations to characterize tissue organization, while allowing the incorporation of prior pathological knowledge to further support model interpretability and explainability. However, entity-graph analysis requires prerequisites for image-to-graph translation and knowledge of state-of-the-art machine learning algorithms applied to graph-structured data, which can potentially hinder their adoption. In this work, we aim to alleviate these issues by developing HistoCartography, a standardized python API with necessary preprocessing, machine learning and explainability tools to facilitate graph-analytics in computational pathology. Further, we have benchmarked the computational time and performance on multiple datasets across different imaging types and histopathology tasks to highlight the applicability of the API for building computational pathology workflows.
翻訳日:2021-07-22 14:08:19 公開日:2021-07-21
# セグメンテーションとベンチマークのための3次元蛍光顕微鏡データ合成

3D fluorescence microscopy data synthesis for segmentation and benchmarking ( http://arxiv.org/abs/2107.10180v1 )

ライセンス: Link先を確認
Dennis Eschweiler, Malte Rethwisch, Mareike Jarchow, Simon Koppers, Johannes Stegmaier(参考訳) 多くのバイオメディカル実験には自動画像処理アプローチが不可欠であり、高速かつ再現可能な方法で顕微鏡画像データの増大に対応するのに役立つ。 特に最先端のディープラーニングベースのアプローチでは、正確で汎用的なアウトプットを生成するために大量のアノテートトレーニングデータを必要とすることが多いが、これらのアノテートデータセットの一般的な欠如によって、しばしば妥協される。 本研究では,3次元セル構造のアノテーションマスクから3次元蛍光顕微鏡の現実的な画像データを生成するために,条件付き生成対向ネットワークを利用する方法を提案する。 マスクシミュレーション手法と組み合わせて、トレーニングやベンチマークのために公開している完全アノテーション付き3D顕微鏡データセットを実演する。 セル構造のさらなる位置コンディショニングにより、位置依存的な強度特性の再構成が可能となり、品質レベルの異なる画像データを生成することができる。 パッチワイド動作原理とその後のフルサイズ再組み立て戦略を用いて、任意のサイズと異なる生物の画像データを生成する。 これは、手動アノテーションの必要性を軽減するために、最低限の手動操作しか必要としない完全アノテーション付きトレーニングデータセットの自動生成のための概念実証として提示する。

Automated image processing approaches are indispensable for many biomedical experiments and help to cope with the increasing amount of microscopy image data in a fast and reproducible way. Especially state-of-the-art deep learning-based approaches most often require large amounts of annotated training data to produce accurate and generalist outputs, but they are often compromised by the general lack of those annotated data sets. In this work, we propose how conditional generative adversarial networks can be utilized to generate realistic image data for 3D fluorescence microscopy from annotation masks of 3D cellular structures. In combination with mask simulation approaches, we demonstrate the generation of fully-annotated 3D microscopy data sets that we make publicly available for training or benchmarking. An additional positional conditioning of the cellular structures enables the reconstruction of position-dependent intensity characteristics and allows to generate image data of different quality levels. A patch-wise working principle and a subsequent full-size reassemble strategy is used to generate image data of arbitrary size and different organisms. We present this as a proof-of-concept for the automated generation of fully-annotated training data sets requiring only a minimum of manual interaction to alleviate the need of manual annotations.
翻訳日:2021-07-22 14:07:52 公開日:2021-07-21
# ビデオコーデック比較における客観的映像品質指標の適用:主観的品質推定のためのベストの選択

Objective video quality metrics application to video codecs comparisons: choosing the best for subjective quality estimation ( http://arxiv.org/abs/2107.10220v1 )

ライセンス: Link先を確認
Anastasia Antsiferova, Alexander Yakovenko, Nickolay Safonov, Dmitriy Kulikov, Alexander Gushin, and Dmitriy Vatolin(参考訳) 画質評価はビデオ圧縮アルゴリズムの作成と比較において重要な役割を果たす。 品質評価のための多くの新しい手法の開発にもかかわらず、一般に受け入れられ、よく知られたコーデック比較は主にPSNR、SSIM、新しいVMAFといった古典的な手法を使用している。 これらの手法は、異なるフレーム・バイ・フレーム平均化技術または異なるカラー成分の和を用いることができる。 本稿では,コーデック比較に使用される映像品質指標の最も重要かつ推奨されるバージョンを見出すために,一般に受け入れられる指標の各種バージョンについて基礎的な比較を行う。 比較のために、さまざまな標準のビデオコーデックでエンコードされたビデオセットと、2018年から2021年までのストリームの視覚的品質スコアを使用した。

Quality assessment plays a key role in creating and comparing video compression algorithms. Despite the development of a large number of new methods for assessing quality, generally accepted and well-known codecs comparisons mainly use the classical methods like PSNR, SSIM and new method VMAF. These methods can be calculated following different rules: they can use different frame-by-frame averaging techniques or different summation of color components. In this paper, a fundamental comparison of various versions of generally accepted metrics is carried out to find the most relevant and recommended versions of video quality metrics to be used in codecs comparisons. For comparison, we used a set of videos encoded with video codecs of different standards, and visual quality scores collected for the resulting set of streams since 2018 until 2021
翻訳日:2021-07-22 14:07:32 公開日:2021-07-21
# CL4AC:オーディオキャプションのコントラスト損失

CL4AC: A Contrastive Loss for Audio Captioning ( http://arxiv.org/abs/2107.09990v1 )

ライセンス: Link先を確認
Xubo Liu, Qiushi Huang, Xinhao Mei, Tom Ko, H Lilian Tang, Mark D. Plumbley and Wenwu Wang(参考訳) 自動音声キャプション (Automated Audio Casting, AAC) は、音声クリップの内容を自然言語で記述することを目的としたクロスモーダル翻訳タスクである。 dcase 2021チャレンジのタスク6で受け取った提案に示されているように、この問題はコミュニティの関心を集めている。 既存のAACシステムは通常、エンコーダ・デコーダアーキテクチャに基づいており、そこでは音声信号が潜在表現に符号化され、対応するテキスト記述と一致し、デコーダを使用してキャプションを生成する。 しかし、AACシステムのトレーニングはデータ不足の問題にしばしば遭遇し、不正確な表現や音声テキストのアライメントにつながる可能性がある。 この問題に対処するため,CL4AC (Contrastive Loss for Audio Captioning) と呼ばれる新しいエンコーダデコーダフレームワークを提案する。 CL4ACでは、元の音声テキストペアデータから導出される自己超越信号を用いて、サンプルを対比することで音声とテキストの対応を利用して、限られたデータで訓練しながら、潜時表現の質と音声とテキストのアライメントを改善することができる。 提案手法の有効性を示すため,布地データセット上で実験を行った。

Automated Audio captioning (AAC) is a cross-modal translation task that aims to use natural language to describe the content of an audio clip. As shown in the submissions received for Task 6 of the DCASE 2021 Challenges, this problem has received increasing interest in the community. The existing AAC systems are usually based on an encoder-decoder architecture, where the audio signal is encoded into a latent representation, and aligned with its corresponding text descriptions, then a decoder is used to generate the captions. However, training of an AAC system often encounters the problem of data scarcity, which may lead to inaccurate representation and audio-text alignment. To address this problem, we propose a novel encoder-decoder framework called Contrastive Loss for Audio Captioning (CL4AC). In CL4AC, the self-supervision signals derived from the original audio-text paired data are used to exploit the correspondences between audio and texts by contrasting samples, which can improve the quality of latent representation and the alignment between audio and texts, while trained with limited data. Experiments are performed on the Clotho dataset to show the effectiveness of our proposed approach.
翻訳日:2021-07-22 14:06:32 公開日:2021-07-21
# ニューラル離散時間周波数表現学習を用いた条件音生成

Conditional Sound Generation Using Neural Discrete Time-Frequency Representation Learning ( http://arxiv.org/abs/2107.09998v1 )

ライセンス: Link先を確認
Xubo Liu, Turab Iqbal, Jinzheng Zhao, Qiushi Huang, Mark D. Plumbley, Wenwu Wang(参考訳) 深層生成モデルは近年,音声合成と音楽生成において顕著な性能を達成している。 しかし、それらドメイン固有の音の生成と比較すると、一般的な音(カーホーン、犬の鳴き声、銃声など)の生成は、幅広い応用可能性にもかかわらず、あまり注目されていない。 前回の研究では、SampleRNNを使用して時間領域で音が生成される。 しかし、この方法では録音中の長距離依存性を捉えることは困難である。 本研究では,ニューラル離散時間周波数表現学習を用いて,音のクラスに調和した音を生成することを提案する。 これにより、長距離依存性のモデル化や、サウンドクリップ内の局所的なきめ細かな構造保持にメリットがある。 本研究では,提案手法であるurbansound8kデータセットを,sampernnベースラインと比較し,生成音の質と多様性を計測する性能指標を用いて評価した。 実験の結果,提案手法はベースライン法と比較して,多様性と品質の同等の性能が有意に向上することがわかった。

Deep generative models have recently achieved impressive performance in speech synthesis and music generation. However, compared to the generation of those domain-specific sounds, the generation of general sounds (such as car horn, dog barking, and gun shot) has received less attention, despite their wide potential applications. In our previous work, sounds are generated in the time domain using SampleRNN. However, it is difficult to capture long-range dependencies within sound recordings using this method. In this work, we propose to generate sounds conditioned on sound classes via neural discrete time-frequency representation learning. This offers an advantage in modelling long-range dependencies and retaining local fine-grained structure within a sound clip. We evaluate our proposed approach on the UrbanSound8K dataset, as compared to a SampleRNN baseline, with the performance metrics measuring the quality and diversity of the generated sound samples. Experimental results show that our proposed method offers significantly better performance in diversity and comparable performance in quality, as compared to the baseline method.
翻訳日:2021-07-22 14:06:09 公開日:2021-07-21
# 雑音評価によるピアセレクション

Peer Selection with Noisy Assessments ( http://arxiv.org/abs/2107.10121v1 )

ライセンス: Link先を確認
Omer Lev, Nicholas Mattei, Paolo Turrini, Stanislav Zhydkov(参考訳) ピア選択問題では、エージェントのグループは自身のサブセットを、例えばピアレビューされた賞や賞の勝者として選ばなければならない。 ここでは,この集約問題に対するコンドルチェットの見解,すなわちエージェントに対する根本的な秩序があり,仲間の騒々しい評価を受けながら,最高のエージェントを選択することを望んでいる。 このモデルを考えると、一部のエージェントは信頼できないかもしれないが、他のエージェントは自己関心を持ち、彼らの好む結果に影響を与えようとする。 本稿では,これまで最も正確なピアレビューアルゴリズムであるpeernominationを,ノイズや不正確なエージェントを処理可能な重み付きpeernominationに拡張する。 これを実現するために,我々は評価者の信頼度重み付けを,戦略保証性に違反しない方法で明示的に定式化し,この情報を用いてスコアの重み付けを行う。 重み付け方式が選択の全体的な精度を大幅に向上できることを分析的に示す。 最後に,重み付け手法の例をいくつか実装し,ノイズ評価に対してロバストな手法であることを実証的に示す。

In the peer selection problem a group of agents must select a subset of themselves as winners for, e.g., peer-reviewed grants or prizes. Here, we take a Condorcet view of this aggregation problem, i.e., that there is a ground-truth ordering over the agents and we wish to select the best set of agents, subject to the noisy assessments of the peers. Given this model, some agents may be unreliable, while others might be self-interested, attempting to influence the outcome in their favour. In this paper we extend PeerNomination, the most accurate peer reviewing algorithm to date, into WeightedPeerNomination, which is able to handle noisy and inaccurate agents. To do this, we explicitly formulate assessors' reliability weights in a way that does not violate strategyproofness, and use this information to reweight their scores. We show analytically that a weighting scheme can improve the overall accuracy of the selection significantly. Finally, we implement several instances of reweighting methods and show empirically that our methods are robust in the face of noisy assessments.
翻訳日:2021-07-22 14:05:52 公開日:2021-07-21
# オープン量子認知モデルドライバーにおけるエージェント不注意の戦略的緩和

Strategic Mitigation of Agent Inattention in Drivers with Open-Quantum Cognition Models ( http://arxiv.org/abs/2107.09888v1 )

ライセンス: Link先を確認
Qizi Zhang and Venkata Sriram Siddhardh Nadendla and S. N. Balakrishnan and Jerome Busemeyer(参考訳) 最先端の運転支援システムは、ドライバーの不注意を効果的に軽減することができず、成長を続ける道路事故の数(例)に最小限の影響しか与えていない。 運転者の不注意につながる様々な要因による事故による生命喪失、身体的な怪我。 これは、従来の人間と機械の相互作用設定が、2つのユーティリティ最大化エージェントまたは人間の意思決定者間の戦略的相互作用を技術的に特徴付けるのに適した古典的および行動論的領域でモデル化されているためである。 そこで,ドライバ・アシストシステムの説得力を高めるために,ドライバーの精神状態や選択行動に適応した,新しい戦略的でパーソナライズされたドライバ・アシストシステムを開発した。 まず,人間のシステム間相互作用ゲームにおいて,システムが期待する実用性と人的決定を最大化し,任意の一般的な決定モデルを用いて特徴付けることのできる新しい均衡概念を提案する。 そして、この新たな均衡概念を用いて、より安全な運転決定に向けてドライバーを操る説得力のある推奨を与える戦略的なドライバーと車両の相互作用ゲームを調査する。 ドライバは、人間の意思決定の複雑な側面を捉えたオープン量子システム認知モデルを採用しており、それは、情報の特定の精神的表現の古典的法則や不適合性に違反していると仮定する。 我々は,プレイヤー同士の戦略に対する最終応答に対する閉形式表現を提示することにより,純粋および混合平衡を数値的に計算できる。 両種類の平衡を示すために数値的な結果が示される。

State-of-the-art driver-assist systems have failed to effectively mitigate driver inattention and had minimal impacts on the ever-growing number of road mishaps (e.g. life loss, physical injuries due to accidents caused by various factors that lead to driver inattention). This is because traditional human-machine interaction settings are modeled in classical and behavioral game-theoretic domains which are technically appropriate to characterize strategic interaction between either two utility maximizing agents, or human decision makers. Therefore, in an attempt to improve the persuasive effectiveness of driver-assist systems, we develop a novel strategic and personalized driver-assist system which adapts to the driver's mental state and choice behavior. First, we propose a novel equilibrium notion in human-system interaction games, where the system maximizes its expected utility and human decisions can be characterized using any general decision model. Then we use this novel equilibrium notion to investigate the strategic driver-vehicle interaction game where the car presents a persuasive recommendation to steer the driver towards safer driving decisions. We assume that the driver employs an open-quantum system cognition model, which captures complex aspects of human decision making such as violations to classical law of total probability and incompatibility of certain mental representations of information. We present closed-form expressions for players' final responses to each other's strategies so that we can numerically compute both pure and mixed equilibria. Numerical results are presented to illustrate both kinds of equilibria.
翻訳日:2021-07-22 14:05:34 公開日:2021-07-21
# 非ガウス確率力学系のサンプルパスデータから法則を抽出する

Extracting Governing Laws from Sample Path Data of Non-Gaussian Stochastic Dynamical Systems ( http://arxiv.org/abs/2107.10127v1 )

ライセンス: Link先を確認
Yang Li and Jinqiao Duan(参考訳) データサイエンスの進歩は、実験データと観測データを持つシステムの複雑なダイナミクスの分析と理解に新たな進歩をもたらしている。 バースト、飛行、ホッピング、断続的な特徴を示す多くの物理現象があるが、非ガウス型l\'evyノイズを持つ確率微分方程式はこれらの系をモデル化するのに適している。 したがって、利用可能なデータからそのような方程式を推測し、動的挙動を合理的に予測することが望ましい。 本研究では,非ガウシアン非対称な(対称な)l\'evy過程やガウシアンブラウン運動を持つ確率力学系を抽出するためのデータ駆動法を考える。 理論的枠組みを確立し,非対称なL\'evyジャンプ測度,ドリフト,拡散(非局所クラマース・モヤル式)を計算する数値アルゴリズムを設計し,ノイズデータから確率的支配則を得る。 いくつかの原型例に対する数値実験により,本手法の有効性と精度が確認できた。 この方法は、利用可能なデータセットから規制法則を発見し、複雑なランダム現象のメカニズムを理解するのに有効なツールとなる。

Advances in data science are leading to new progresses in the analysis and understanding of complex dynamics for systems with experimental and observational data. With numerous physical phenomena exhibiting bursting, flights, hopping, and intermittent features, stochastic differential equations with non-Gaussian L\'evy noise are suitable to model these systems. Thus it is desirable and essential to infer such equations from available data to reasonably predict dynamical behaviors. In this work, we consider a data-driven method to extract stochastic dynamical systems with non-Gaussian asymmetric (rather than the symmetric) L\'evy process, as well as Gaussian Brownian motion. We establish a theoretical framework and design a numerical algorithm to compute the asymmetric L\'evy jump measure, drift and diffusion (i.e., nonlocal Kramers-Moyal formulas), hence obtaining the stochastic governing law, from noisy data. Numerical experiments on several prototypical examples confirm the efficacy and accuracy of this method. This method will become an effective tool in discovering the governing laws from available data sets and in understanding the mechanisms underlying complex random phenomena.
翻訳日:2021-07-22 14:05:07 公開日:2021-07-21
# 因子グラフに基づく車両側面スリップ角推定法

A Factor Graph-based approach to vehicle sideslip angle estimation ( http://arxiv.org/abs/2107.09815v1 )

ライセンス: Link先を確認
Antonio Leanza, Giulio Reina and Jose-Luis Blanco-Claraco(参考訳) サイドスリップ角は車両のダイナミクスを理解し監視するための重要な変数であるが、安価な直接測定方法が欠けている。 したがって、通常はカルマンフィルタのファミリーのフィルタ法を用いて、慣性や他のプロバイオセプティブセンサーから推定される。 新たな方法として,オフライン処理のデータセットバッチ最適化やオンライン操作の固定ラグスムーズ化など,さまざまな手法を用いて最適化可能なグラフィカルモデル(ファクタグラフ)として,この問題を直接モデル化することを提案する。 実車用データセットによる実験結果から,提案手法を推定値と実際のサイドリップ角度とで良好な一致で検証し,最新技術と同等の性能を示し,フレキシブルな数学的枠組みによる将来の拡張の可能性を示した。

Sideslip angle is an important variable for understanding and monitoring vehicle dynamics but it lacks an inexpensive method for direct measurement. Therefore, it is typically estimated from inertial and other proprioceptive sensors onboard using filtering methods from the family of the Kalman Filter. As a novel alternative, this work proposes modelling the problem directly as a graphical model (factor graph), which can then be optimized using a variety of methods, such as whole dataset batch optimization for offline processing or fixed-lag smoother for on-line operation. Experimental results on real vehicle datasets validate the proposal with a good agreement between estimated and actual sideslip angle, showing similar performance than the state-of-the-art with a great potential for future extensions due to the flexible mathematical framework.
翻訳日:2021-07-22 14:04:48 公開日:2021-07-21
# mg-net: 擬似画像を用いたマルチモーダルメタジェノミー解析

MG-NET: Leveraging Pseudo-Imaging for Multi-Modal Metagenome Analysis ( http://arxiv.org/abs/2107.09883v1 )

ライセンス: Link先を確認
Sathyanarayanan N. Aakur, Sai Narayanan, Vineela Indla, Arunkumar Bagavathi, Vishalini Laguduva Ramnath, Akhilesh Ramachandran(参考訳) SARS-CoV-2のような新規病原体や動物病原体の出現は、少量のラベル付きデータから迅速に学習できる新しい診断と介入パイプラインを開発する必要性を低くしている。 次世代シークエンシングの技術進歩と相まって、メタゲノームベースの診断ツールは迅速なケアポイント・オブ・ケアの診断に革命を起こすという大きな約束を持っている。 しかし、このようなアプローチを開発する上で重要な課題は、ラベル付きデータが非常に少ない新規な病原体シグネチャを検出できる自己教師付き表現を学習することにある。 近縁な病原体がゲノム構造の90%以上を共有できることを考えると、これは特に難しい課題である。 本研究では,臨床メタジェノム配列から得られた擬似画像データを用いて,マルチモーダルコンテキストを活用する自己教師付き表現学習フレームワークMG-Netを提案する。 提案手法はラベルなしデータからロバスト表現を学習し,ラベル付きデータへのアクセスが制限されたメタジェノムシーケンス分類などの下流タスクに使用できることを示す。 大規模な実験により、学習された特徴は、クラス当たり1000のサンプルしか与えられず、現在のベースラインメタジェノム表現より優れていることが示された。

The emergence of novel pathogens and zoonotic diseases like the SARS-CoV-2 have underlined the need for developing novel diagnosis and intervention pipelines that can learn rapidly from small amounts of labeled data. Combined with technological advances in next-generation sequencing, metagenome-based diagnostic tools hold much promise to revolutionize rapid point-of-care diagnosis. However, there are significant challenges in developing such an approach, the chief among which is to learn self-supervised representations that can help detect novel pathogen signatures with very low amounts of labeled data. This is particularly a difficult task given that closely related pathogens can share more than 90% of their genome structure. In this work, we address these challenges by proposing MG-Net, a self-supervised representation learning framework that leverages multi-modal context using pseudo-imaging data derived from clinical metagenome sequences. We show that the proposed framework can learn robust representations from unlabeled data that can be used for downstream tasks such as metagenome sequence classification with limited access to labeled data. Extensive experiments show that the learned features outperform current baseline metagenome representations, given only 1000 samples per class.
翻訳日:2021-07-22 14:04:33 公開日:2021-07-21
# 垂直連合学習における再構築攻撃に対する防御

Defending against Reconstruction Attack in Vertical Federated Learning ( http://arxiv.org/abs/2107.09898v1 )

ライセンス: Link先を確認
Jiankai Sun and Yuanshun Yao and Weihao Gao and Junyuan Xie and Chong Wang(参考訳) 近年、悪意ある者が共有勾配からユーザが提供するセンシティブなトレーニング入力を再構築できるフェデレートラーニング(FL)における入力リーク問題の研究が行われている。 入力リークはFLを使用するプライバシー保護の意図と矛盾するため、FLに関する懸念を提起する。 水平flにおける入力再構成の防御と攻撃に関する比較的豊かな文献にもかかわらず、垂直flにおける入力リークと保護は近年研究者の注目を集め始めている。 本稿では,垂直FLにおける入力漏洩攻撃の防御方法について検討する。 我々は,3つのモジュールを含む,敵対的トレーニングに基づくフレームワークをデザインする。 これらのモジュールは個別に使用できるだけでなく、互いに独立しているため、一緒に適用することもできる。 大規模産業向けオンライン広告データセットの広範な実験を通じて、我々のフレームワークはモデルユーティリティを維持しながら入力プライバシーを保護するのに有効であることを示す。

Recently researchers have studied input leakage problems in Federated Learning (FL) where a malicious party can reconstruct sensitive training inputs provided by users from shared gradient. It raises concerns about FL since input leakage contradicts the privacy-preserving intention of using FL. Despite a relatively rich literature on attacks and defenses of input reconstruction in Horizontal FL, input leakage and protection in vertical FL starts to draw researcher's attention recently. In this paper, we study how to defend against input leakage attacks in Vertical FL. We design an adversarial training-based framework that contains three modules: adversarial reconstruction, noise regularization, and distance correlation minimization. Those modules can not only be employed individually but also applied together since they are independent to each other. Through extensive experiments on a large-scale industrial online advertising dataset, we show our framework is effective in protecting input privacy while retaining the model utility.
翻訳日:2021-07-22 14:04:10 公開日:2021-07-21
# GitHubのイシュータイプ予測

Predicting Issue Types on GitHub ( http://arxiv.org/abs/2107.09936v1 )

ライセンス: Link先を確認
Rafael Kallis, Andrea Di Sorbo, Gerardo Canfora, Sebastiano Panichella(参考訳) ソフトウェアのメンテナンスと進化は、ソフトウェアプロジェクトの成功のために重要な活動を伴う。 このようなアクティビティをサポートし、コードを最新かつエラーフリーに保つために、ソフトウェアコミュニティは、イシュートラッカ、すなわち、ソフトウェアシステムで発生した問題をシグナリング、ハンドリング、対処するためのツールを利用する。 しかし、人気のあるプロジェクトでは、毎日数十、数百の発行レポートが提出される。 この文脈では、提出された各レポートのタイプ(例えば、バグレポート、機能要求など)を識別する。 対処すべき課題の管理と優先順位付けを容易にするのです 本稿では,課題ハンドリング活動を支援するために,GitHubで発行されたレポートのタイプを自動的に認識し,各課題にラベルを割り当てる,機械学習技術を用いて課題タイトルと説明を分析するGitHubアプリTicket Taggerを提案する。 私たちは、約30,000のGitHubイシューに対して、ツールの予測パフォーマンスを実証的に評価しました。 その結果,チケットタガーはgithubイシューにアサインする正しいラベルを適度に高い効率で識別できることがわかった。 これらの結果と、ツールがGitHubのイシュー管理プロセスに簡単に統合できるように設計されているという事実を考えると、Ticket Taggerは開発者にとって便利なソリューションである。

Software maintenance and evolution involves critical activities for the success of software projects. To support such activities and keep code up-to-date and error-free, software communities make use of issue trackers, i.e., tools for signaling, handling, and addressing the issues occurring in software systems. However, in popular projects, tens or hundreds of issue reports are daily submitted. In this context, identifying the type of each submitted report (e.g., bug report, feature request, etc.) would facilitate the management and the prioritization of the issues to address. To support issue handling activities, in this paper, we propose Ticket Tagger, a GitHub app analyzing the issue title and description through machine learning techniques to automatically recognize the types of reports submitted on GitHub and assign labels to each issue accordingly. We empirically evaluated the tool's prediction performance on about 30,000 GitHub issues. Our results show that the Ticket Tagger can identify the correct labels to assign to GitHub issues with reasonably high effectiveness. Considering these results and the fact that the tool is designed to be easily integrated in the GitHub issue management process, Ticket Tagger consists in a useful solution for developers.
翻訳日:2021-07-22 14:03:54 公開日:2021-07-21
# 二重確率勾配によるカーネルSVMの高速かつスケーラブルな学習

Fast and Scalable Adversarial Training of Kernel SVM via Doubly Stochastic Gradients ( http://arxiv.org/abs/2107.09937v1 )

ライセンス: Link先を確認
Huimin Wu and Zhengmian Hu and Bin Gu(参考訳) 自然例とほとんど区別できない例を生成することで敵攻撃は、学習モデルに深刻な脅威をもたらす。 敵攻撃に対する防御は、信頼できる学習システムにとって重要な要素である。 サポートベクトルマシン(SVM)は、現在のディープラーニング時代においても、古典的ながら重要な学習アルゴリズムである。 近年、学習モデルの敵対的堅牢性を改善するために、幅広い研究が行われてきたが、その多くはディープニューラルネットワーク(DNN)に限られており、カーネルSVMの研究はいまだに空いている。 本稿では,カーネルSVMを目標とし,最も有望な防御技術である敵の訓練を通じて,敵の堅牢性を改善するためにadv-SVMを提案する。 私たちの知る限りでは、これはカーネルSVMの高速でスケーラブルな対角トレーニングに傾注した最初の作品です。 具体的には、最初に、元の空間とカーネル空間の間のサンプルの摂動の接続を構築し、その接続に基づいてカーネルSVMの対角的トレーニングの縮小と等価な定式化を与える。 次に、2つの偏りのない確率近似(つまり、訓練点に1つ、ランダム特徴にもう1つ)に基づく二重確率勾配(dsg)を適用し、目的関数の解を更新する。 最後に、DSGにより最適化されたアルゴリズムが、定数と減少段数の下でO(1/t)の速度で最適解に収束することを証明した。 総合的な実験結果から,我々の対戦学習アルゴリズムは様々な攻撃に対して頑健であり,一方,従来のDSGアルゴリズムと同様の効率性とスケーラビリティを有することが示された。

Adversarial attacks by generating examples which are almost indistinguishable from natural examples, pose a serious threat to learning models. Defending against adversarial attacks is a critical element for a reliable learning system. Support vector machine (SVM) is a classical yet still important learning algorithm even in the current deep learning era. Although a wide range of researches have been done in recent years to improve the adversarial robustness of learning models, but most of them are limited to deep neural networks (DNNs) and the work for kernel SVM is still vacant. In this paper, we aim at kernel SVM and propose adv-SVM to improve its adversarial robustness via adversarial training, which has been demonstrated to be the most promising defense techniques. To the best of our knowledge, this is the first work that devotes to the fast and scalable adversarial training of kernel SVM. Specifically, we first build connection of perturbations of samples between original and kernel spaces, and then give a reduced and equivalent formulation of adversarial training of kernel SVM based on the connection. Next, doubly stochastic gradients (DSG) based on two unbiased stochastic approximations (i.e., one is on training points and another is on random features) are applied to update the solution of our objective function. Finally, we prove that our algorithm optimized by DSG converges to the optimal solution at the rate of O(1/t) under the constant and diminishing stepsizes. Comprehensive experimental results show that our adversarial training algorithm enjoys robustness against various attacks and meanwhile has the similar efficiency and scalability with classical DSG algorithm.
翻訳日:2021-07-22 14:03:34 公開日:2021-07-21
# アルゴリズム機器によるコンプライアンスのインセンティブ化

Incentivizing Compliance with Algorithmic Instruments ( http://arxiv.org/abs/2107.10093v1 )

ライセンス: Link先を確認
Daniel Ngo, Logan Stapleton, Vasilis Syrgkanis, Zhiwei Steven Wu(参考訳) ランダム化実験は、参加者による潜在的非コンプライアンスによる選択バイアスの影響を受けやすい。 既存の研究の多くは静的な振る舞いとしてコンプライアンスを研究してきたが、時間とともに変化する動的な振る舞いとしてコンプライアンスを研究するゲーム理論モデルを提案する。 ラウンドでは、社会的プランナーが不均一なエージェントの連続と相互作用し、未観測のプライベートタイプが、アクション(例えば、制御と治療)とベースラインの報酬の両方を、治療を受けずに決定する。 プランナーは各エージェントに、信念と行動選択を変える可能性のあるランダムな推奨を与える。 提案手法は,エージェントの行動選択にのみ影響するが,観察された報酬には影響しない機器変数(IV)の形式として,プランナーの推薦を反映する。 我々は、プランナーと前のエージェント間のインタラクションである履歴をランダムなレコメンデーションに慎重にマッピングすることで、そのようなIVを構築する。 初期薬品が完全に非適合であるとしても、この機構は経時的にコンプライアンスをインセンティブ化し、各治療の処置効果を推定し、最適な治療の特定を目標とするプランナーの累積的後悔を最小化することができる。

Randomized experiments can be susceptible to selection bias due to potential non-compliance by the participants. While much of the existing work has studied compliance as a static behavior, we propose a game-theoretic model to study compliance as dynamic behavior that may change over time. In rounds, a social planner interacts with a sequence of heterogeneous agents who arrive with their unobserved private type that determines both their prior preferences across the actions (e.g., control and treatment) and their baseline rewards without taking any treatment. The planner provides each agent with a randomized recommendation that may alter their beliefs and their action selection. We develop a novel recommendation mechanism that views the planner's recommendation as a form of instrumental variable (IV) that only affects an agents' action selection, but not the observed rewards. We construct such IVs by carefully mapping the history -- the interactions between the planner and the previous agents -- to a random recommendation. Even though the initial agents may be completely non-compliant, our mechanism can incentivize compliance over time, thereby enabling the estimation of the treatment effect of each treatment, and minimizing the cumulative regret of the planner whose goal is to identify the optimal treatment.
翻訳日:2021-07-22 14:03:06 公開日:2021-07-21
# Leave-one-out Unfairness

Leave-one-out Unfairness ( http://arxiv.org/abs/2107.10171v1 )

ライセンス: Link先を確認
Emily Black, Matt Fredrikson(参考訳) モデルのトレーニングデータに,他者が1人含まれたり取り除かれたりすることで,個人に対するモデルの予測がどの程度変化するかを特徴とする,一対一の不公平性を導入する。 公平な決定は任意のものではなく、訓練データに誰かの参加の機会イベントに基づいてはならない、という考え方に不公平さは訴える。 残される不公平さはアルゴリズムの安定性と密接に関連しているが、集約されたモデルのエラーではなく、トレーニングデータに対する単位変化に対する個々の点の予測結果の一貫性に焦点を当てている。 残欠不公平を定式化するだけでなく、一般化誤差が小さい場合を含む実データに対して、深いモデルが残欠不公平に振る舞う程度を特徴付ける。 さらに, 学習とランダム化平滑化手法は, 頑健性, 記憶力, 個々人の公平性, および深層モデルにおける個々人の公平性との関係に光を当てている。 最後に,不公平な離脱によって負の影響を受ける可能性のある健全な実践的応用について論じる。

We introduce leave-one-out unfairness, which characterizes how likely a model's prediction for an individual will change due to the inclusion or removal of a single other person in the model's training data. Leave-one-out unfairness appeals to the idea that fair decisions are not arbitrary: they should not be based on the chance event of any one person's inclusion in the training data. Leave-one-out unfairness is closely related to algorithmic stability, but it focuses on the consistency of an individual point's prediction outcome over unit changes to the training data, rather than the error of the model in aggregate. Beyond formalizing leave-one-out unfairness, we characterize the extent to which deep models behave leave-one-out unfairly on real data, including in cases where the generalization error is small. Further, we demonstrate that adversarial training and randomized smoothing techniques have opposite effects on leave-one-out fairness, which sheds light on the relationships between robustness, memorization, individual fairness, and leave-one-out fairness in deep models. Finally, we discuss salient practical applications that may be negatively affected by leave-one-out unfairness.
翻訳日:2021-07-22 14:02:42 公開日:2021-07-21
# 混合整数プログラムのための大規模近傍探索アルゴリズムの学習

Learning a Large Neighborhood Search Algorithm for Mixed Integer Programs ( http://arxiv.org/abs/2107.10201v1 )

ライセンス: Link先を確認
Nicolas Sonnerat, Pengming Wang, Ira Ktena, Sergey Bartunov, Vinod Nair(参考訳) large neighborhood search (lns) は組合せ最適化ヒューリスティックであり、最適化される変数の値の割り当てから始まり、現在の割り当ての周りに大きな近傍を探索することで反復的に改善する。 本稿では、混合整数プログラム(MIP)に対する学習に基づくLSSアプローチを検討する。 我々は、既存のMIPソルバとともに初期割り当てを生成する代入よりも確率分布を表現するために、ニューラルダイビングモデルを訓練する。 その後の探索ステップをマルコフ決定プロセスとして定式化し、神経近傍選択ポリシーを訓練し、各ステップで探索近傍を選択し、mipソルバを用いて探索して次の課題を見つける。 政策ネットワークは模倣学習を用いて訓練される。 我々は,十分な計算資源が与えられた場合,任意の大きさの近傍に対して,最適な次の割り当てを含む近傍を選択することを保証した,模倣のためのターゲットポリシーを提案する。 当社のアプローチは,Googleの2つの実運用アプリケーションを含む,さまざまなアプリケーションからの大規模インスタンスを備えた,5つの実世界のMIPデータセットのベースラインをすべて一致あるいは上回るものです。 大規模な実行時には、データセットの3つの最良ベースラインよりも平均的プリミティブギャップが2ドルから37.8ドルに向上する。

Large Neighborhood Search (LNS) is a combinatorial optimization heuristic that starts with an assignment of values for the variables to be optimized, and iteratively improves it by searching a large neighborhood around the current assignment. In this paper we consider a learning-based LNS approach for mixed integer programs (MIPs). We train a Neural Diving model to represent a probability distribution over assignments, which, together with an existing MIP solver, generates an initial assignment. Formulating the subsequent search steps as a Markov Decision Process, we train a Neural Neighborhood Selection policy to select a search neighborhood at each step, which is searched using a MIP solver to find the next assignment. The policy network is trained using imitation learning. We propose a target policy for imitation that, given enough compute resources, is guaranteed to select the neighborhood containing the optimal next assignment across all possible choices for the neighborhood of a specified size. Our approach matches or outperforms all the baselines on five real-world MIP datasets with large-scale instances from diverse applications, including two production applications at Google. At large running times it achieves $2\times$ to $37.8\times$ better average primal gap than the best baseline on three of the datasets.
翻訳日:2021-07-22 14:02:21 公開日:2021-07-21
# 多様体学習に基づく高次元サロゲートモデルに対する多項式カオス展開

Manifold learning-based polynomial chaos expansions for high-dimensional surrogate models ( http://arxiv.org/abs/2107.09814v1 )

ライセンス: Link先を確認
Katiana Kontolati, Dimitrios Loukrezis, Ketson R. M. dos Santos, Dimitrios G. Giovanis, Michael D. Shields(参考訳) 本研究では,複素時空間過程を記述するシステムにおいて,多様体学習に基づく不確実性定量化法(uq)を提案する。 最初の目的は、計算モデルや解析モデルの興味の量を表す高次元データの集合の埋め込みを特定することである。 本研究では,2段階の非線形次元縮小手法であるグラスマン拡散写像を用いて,データの次元性を低減し,有意義な幾何学的記述を包括的かつ安価に識別する。 多項式カオス展開は、確率的入力パラメータと還元空間の拡散座標の間の写像を構築するために使われる。 適応的クラスタリング手法は、潜在空間内の点の最適な数のクラスタを特定するために提案される。 点の類似性によって幾何調和エミュレータが構築され、最終的に安価な事前学習モデルのセットとして利用され、周囲の空間への潜在特徴の実現の逆マップを実行し、正確なサンプル外予測を行うことができる。 そこで,提案手法はエンコーダ・デコーダシステムとして機能し,超高次元データを自動的に処理し,同時に小型データ方式で動作させる。 この方法は2つのベンチマーク問題および2つの種間の1次化学反応をモデル化した対流拡散反応方程式の系上で実証される。 すべてのテストケースにおいて,提案手法は高精度な近似を達成でき,UQタスクの大幅な高速化につながる。

In this work we introduce a manifold learning-based method for uncertainty quantification (UQ) in systems describing complex spatiotemporal processes. Our first objective is to identify the embedding of a set of high-dimensional data representing quantities of interest of the computational or analytical model. For this purpose, we employ Grassmannian diffusion maps, a two-step nonlinear dimension reduction technique which allows us to reduce the dimensionality of the data and identify meaningful geometric descriptions in a parsimonious and inexpensive manner. Polynomial chaos expansion is then used to construct a mapping between the stochastic input parameters and the diffusion coordinates of the reduced space. An adaptive clustering technique is proposed to identify an optimal number of clusters of points in the latent space. The similarity of points allows us to construct a number of geometric harmonic emulators which are finally utilized as a set of inexpensive pre-trained models to perform an inverse map of realizations of latent features to the ambient space and thus perform accurate out-of-sample predictions. Thus, the proposed method acts as an encoder-decoder system which is able to automatically handle very high-dimensional data while simultaneously operating successfully in the small-data regime. The method is demonstrated on two benchmark problems and on a system of advection-diffusion-reaction equations which model a first-order chemical reaction between two species. In all test cases, the proposed method is able to achieve highly accurate approximations which ultimately lead to the significant acceleration of UQ tasks.
翻訳日:2021-07-22 14:02:00 公開日:2021-07-21
# オーディオキャプション変換器

Audio Captioning Transformer ( http://arxiv.org/abs/2107.09817v1 )

ライセンス: Link先を確認
Xinhao Mei, Xubo Liu, Qiushi Huang, Mark D. Plumbley and Wenwu Wang(参考訳) 音声キャプションは、音声クリップの自然言語記述を自動的に生成することを目的としている。 ほとんどのキャプションモデルはエンコーダ-デコーダアーキテクチャに従っており、デコーダはエンコーダによって抽出された音声特徴に基づいて単語を予測する。 畳み込みニューラルネットワーク(CNN)と繰り返しニューラルネットワーク(RNN)は、しばしばオーディオエンコーダとして使用される。 しかし、CNNは音声信号の時間フレーム間の時間的関係をモデル化する場合に限られ、RNNは時間フレーム間の長距離依存性をモデル化する場合に限られる。 本稿では,エンコーダ・デコーダアーキテクチャに基づく完全トランスフォーマネットワークであるオーディオキャプショントランスフォーマ(act)を提案する。 提案手法は,音声信号内のグローバル情報をモデル化し,音声イベント間の時間的関係を捉えることができる。 音声キャプションデータセットとしては最大規模であるaudiocapsについて評価を行った。 我々のモデルは、他の最先端のアプローチと比較して競争性能を示している。

Audio captioning aims to automatically generate a natural language description of an audio clip. Most captioning models follow an encoder-decoder architecture, where the decoder predicts words based on the audio features extracted by the encoder. Convolutional neural networks (CNNs) and recurrent neural networks (RNNs) are often used as the audio encoder. However, CNNs can be limited in modelling temporal relationships among the time frames in an audio signal, while RNNs can be limited in modelling the long-range dependencies among the time frames. In this paper, we propose an Audio Captioning Transformer (ACT), which is a full Transformer network based on an encoder-decoder architecture and is totally convolution-free. The proposed method has a better ability to model the global information within an audio signal as well as capture temporal relationships between audio events. We evaluate our model on AudioCaps, which is the largest audio captioning dataset publicly available. Our model shows competitive performance compared to other state-of-the-art approaches.
翻訳日:2021-07-22 14:01:35 公開日:2021-07-21
# 機械学習バイオマーカーの破壊からデータセットシフトの防止

Preventing dataset shift from breaking machine-learning biomarkers ( http://arxiv.org/abs/2107.09947v1 )

ライセンス: Link先を確認
J\'ero\^ome Dock\`es, Ga\"el Varoquaux (PARIETAL), Jean-Baptiste Poline(参考訳) 機械学習は、豊富なバイオメディカル測定でコホートから抽出された新しいバイオマーカーを見つけるという希望をもたらす。 良いバイオマーカーは、対応する条件を確実に検出するものである。 しかし、バイオマーカーはしばしば標的個体群とは異なるコホートから抽出される。 このようなミスマッチはデータセットシフトと呼ばれ、新しい個人へのバイオマーカーの適用を損なう可能性がある。 データセットシフトは、例えば、生物医学研究において頻繁に発生する。 採用バイアスのせいでした データセットのシフトが発生すると、標準的な機械学習技術はバイオマーカーの抽出と検証に十分ではない。 この記事では、データセットが機械学習で抽出されたバイオマーカーを壊す時期と方法の概要と、検出と修正戦略について説明する。

Machine learning brings the hope of finding new biomarkers extracted from cohorts with rich biomedical measurements. A good biomarker is one that gives reliable detection of the corresponding condition. However, biomarkers are often extracted from a cohort that differs from the target population. Such a mismatch, known as a dataset shift, can undermine the application of the biomarker to new individuals. Dataset shifts are frequent in biomedical research, e.g. because of recruitment biases. When a dataset shift occurs, standard machine-learning techniques do not suffice to extract and validate biomarkers. This article provides an overview of when and how dataset shifts breaks machine-learning extracted biomarkers, as well as detection and correction strategies.
翻訳日:2021-07-22 14:01:20 公開日:2021-07-21
# 機械学習不変多様体による軌道挙動予測

Predicting trajectory behaviour via machine-learned invariant manifolds ( http://arxiv.org/abs/2107.10154v1 )

ライセンス: Link先を確認
Vladim\'ir Kraj\v{n}\'ak, Shibabrat Naik, Stephen Wiggins(参考訳) 本稿では,支援ベクトルマシン(SVM)を用いて,異なる反応経路を区別できる位相空間構造を発見するための機械学習フレームワークを開発する。 機械学習モデルはハミルトン方程式の軌跡からのデータを用いて訓練されるが、分子動力学シミュレーションでの使用に役立てられる。 このフレームワークは、システムのダイナミクスに関する最小限の事前知識を必要とするように設計されている。 我々は、Chesnavich によるイオンと分子の反応のモデルであるハミルトニアンと、$\text{CH}_3^{+}$イオンを表す硬く対称なトップと、移動体 $\text{H}$原子の2つの部分からなるモデルを用いて、我々のアプローチをベンチマークした。 トラジェクタから始めて,異なるトラジェクタクラスに対応する初期条件間の境界を決定するためにサポートベクタマシンを使用する。 その結果, 軌跡の異なるクラス間の境界が, チェスナビッチモデルの初期解析で観測された同タイプの不変位相空間構造に近似することを示した。 当社のアプローチは,高次元アプリケーションの拡張を念頭に置いて設計されています。 SVMは少量のデータでもうまく機能することが知られており, トラジェクトリの統合が高価である既存の高次元システムやシステムよりも計算に適している。

In this paper we use support vector machines (SVM) to develop a machine learning framework to discover the phase space structure that can distinguish between distinct reaction pathways. The machine learning model is trained using data from trajectories of Hamilton's equations but lends itself for use in molecular dynamics simulation. The framework is specifically designed to require minimal a priori knowledge of the dynamics in a system. We benchmark our approach with a model Hamiltonian for the reaction of an ion and a molecule due to Chesnavich consisting of two parts: a rigid, symmetric top representing the $\text{CH}_3^{+}$ ion, and a mobile $\text{H}$ atom. We begin with trajectories and use support vector machines to determine the boundaries between initial conditions corresponding to different classes of trajectories. We then show that these boundaries between different classes of trajectories approximate invariant phase space structures of the same type observed in earlier analyses of Chesnavich's model. Our approach is designed with extensions to higher-dimensional applications in mind. SVM is known to work well even with small amounts of data, therefore our approach is computationally better suited than existing methods for high-dimensional systems and systems where integrating trajectories is expensive.
翻訳日:2021-07-22 14:01:11 公開日:2021-07-21
# (参考訳) megaverse: 身体的なエージェントを毎秒100万の経験でシミュレートする

Megaverse: Simulating Embodied Agents at One Million Experiences per Second ( http://arxiv.org/abs/2107.08170v2 )

ライセンス: CC BY 4.0
Aleksei Petrenko, Erik Wijmans, Brennan Shacklett, Vladlen Koltun(参考訳) 強化学習と具体化されたai研究のための新しい3dシミュレーションプラットフォームであるmegaverseを提案する。 本エンジンの効率的な設計により,1つの8GPUノード上での1秒あたり1,000,000アクション以上の高次元自我中心観測による物理シミュレーションが可能となった。 megaverseはdeepmind labより最大で70倍高速で、インタラクティブなオブジェクトで完全にシェードされた3dシーンだ。 この高いシミュレーション性能をバッチシミュレーションを利用して実現し,最新のgpuの大規模並列処理を最大限に活用する。 私たちはMegaverseを使って、さまざまな認知課題をカバーする複数の単一エージェントとマルチエージェントタスクからなる新しいベンチマークを構築します。 このベンチマークでモデルフリーRLを評価し、ベースラインを提供し、将来の研究を促進する。 ソースコードはhttps://www.megaverse.infoで入手できる。

We present Megaverse, a new 3D simulation platform for reinforcement learning and embodied AI research. The efficient design of our engine enables physics-based simulation with high-dimensional egocentric observations at more than 1,000,000 actions per second on a single 8-GPU node. Megaverse is up to 70x faster than DeepMind Lab in fully-shaded 3D scenes with interactive objects. We achieve this high simulation performance by leveraging batched simulation, thereby taking full advantage of the massive parallelism of modern GPUs. We use Megaverse to build a new benchmark that consists of several single-agent and multi-agent tasks covering a variety of cognitive challenges. We evaluate model-free RL on this benchmark to provide baselines and facilitate future research. The source code is available at https://www.megaverse.info
翻訳日:2021-07-22 11:57:25 公開日:2021-07-21
# (参考訳) 多領域海馬セグメンテーションのための相反連続学習

Adversarial Continual Learning for Multi-Domain Hippocampal Segmentation ( http://arxiv.org/abs/2107.08751v3 )

ライセンス: CC BY 4.0
Marius Memmel, Camila Gonzalez, Anirban Mukhopadhyay(参考訳) 医学画像のディープラーニングは、時間的およびプライバシーに関連したデータ可用性の制限に苦しむ。 まだ実行可能なモデルを得るために、連続学習は、データが利用可能でいつ、連続的にトレーニングすることを目的としている。 連続学習法が直面する主な課題は、破滅的な忘れ、すなわち、先に遭遇したデータの性能低下を防ぐことである。 この問題により,医療用セグメンテーションモデルの継続的トレーニングが極めて困難になる。 しかし、多くの場合、ドメイン固有の情報を無視した方法でモデルをトレーニングするために、少なくとも2つの異なるドメインからのデータが利用可能です。 本稿では,2つ以上のデータセットを同時利用して,コンテンツとドメインの絡み合いを対角的に学習するアーキテクチャを提案する。 ドメイン不変のコンテンツ表現は、連続的なセマンティックセグメンテーションの基盤を置く。 提案手法は,脳MRIにおける海馬セグメンテーションの連続学習と,ドメイン適応からインスピレーションを得たものである。 本手法は破滅的な忘れ込みを減らし,最先端の継続的学習方法より優れていることを示す。

Deep learning for medical imaging suffers from temporal and privacy-related restrictions on data availability. To still obtain viable models, continual learning aims to train in sequential order, as and when data is available. The main challenge that continual learning methods face is to prevent catastrophic forgetting, i.e., a decrease in performance on the data encountered earlier. This issue makes continuous training of segmentation models for medical applications extremely difficult. Yet, often, data from at least two different domains is available which we can exploit to train the model in a way that it disregards domain-specific information. We propose an architecture that leverages the simultaneous availability of two or more datasets to learn a disentanglement between the content and domain in an adversarial fashion. The domain-invariant content representation then lays the base for continual semantic segmentation. Our approach takes inspiration from domain adaptation and combines it with continual learning for hippocampal segmentation in brain MRI. We showcase that our method reduces catastrophic forgetting and outperforms state-of-the-art continual learning methods.
翻訳日:2021-07-22 11:35:52 公開日:2021-07-21
# (参考訳) 小空間における学習表検索と静的指数:実験による方法論的・実践的考察

Learned Sorted Table Search and Static Indexes in Small Space: Methodological and Practical Insights via an Experimental Study ( http://arxiv.org/abs/2107.09480v2 )

ライセンス: CC BY 4.0
Domenico Amato and Raffaele Giancarlo and Giosu\`e Lo Bosco(参考訳) Sorted Table Search proceduresは、検索エンジン(Google Chrome)など、非常に有用なクエリー回答ツールである。 検索されるテーブルに関して、小さな追加スペースでそれらをスピードアップすることは、依然として非常に大きな成果です。 静的学習インデックスはこのようなスピードアップを達成するのに非常に成功していますが、大きな疑問が残っています。 学習指標に関する最近のベンチマーク研究の実験方法論を一般化することにより、2つのシナリオを考慮し、この問題に光を当てた。 第一は、非常に初歩的な、すなわち教科書のコードで、第二は高度な学習インデックスアルゴリズムと高度なソフトウェアプラットフォームを使用する。 どちらの場合も肯定的な答えを期待するが、その達成は見かけほど単純ではない。 実際、我々の広範な実験のセットは、クエリ時間とモデル空間の間の複雑な関係を明らかにする。 この関係に関する知見と、それに対応するメモリレベルの定量的推定は、アルゴリズム設計者や実践者にとっても興味深いものである。 私たちの研究の重要な部分として、独自の関心を持つ2つの新しいモデルを紹介します。 1つは定数空間モデルであり、$k$-ary searchの一般化と見なすことができ、もう1つはシントロピック {\bf RMI} であり、モデル空間の使用を制御できる。

Sorted Table Search Procedures are the quintessential query-answering tool, still very useful, e.g, Search Engines (Google Chrome). Speeding them up, in small additional space with respect to the table being searched into, is still a quite significant achievement. Static Learned Indexes have been very successful in achieving such a speed-up, but leave open a major question: To what extent one can enjoy the speed-up of Learned Indexes while using constant or nearly constant additional space. By generalizing the experimental methodology of a recent benchmarking study on Learned Indexes, we shed light on this question, by considering two scenarios. The first, quite elementary, i.e., textbook code, and the second using advanced Learned Indexing algorithms and the supporting sophisticated software platforms. Although in both cases one would expect a positive answer, its achievement is not as simple as it seems. Indeed, our extensive set of experiments reveal a complex relationship between query time and model space. The findings regarding this relationship and the corresponding quantitative estimates, across memory levels, can be of interest to algorithm designers and of use to practitioners as well. As an essential part of our research, we introduce two new models that are of interest in their own right. The first is a constant space model that can be seen as a generalization of $k$-ary search, while the second is a synoptic {\bf RMI}, in which we can control model space usage.
翻訳日:2021-07-22 11:21:39 公開日:2021-07-21
# テキストベース自然言語を通してコミュニケーションする協調強化学習エージェントを目指して

Toward Collaborative Reinforcement Learning Agents that Communicate Through Text-Based Natural Language ( http://arxiv.org/abs/2107.09356v2 )

ライセンス: Link先を確認
Kevin Eloff, Herman A. Engelbrecht(参考訳) 協調的なマルチエージェント設定におけるエージェント間の通信は一般的に暗黙的あるいは直接データストリームである。 本稿では,テキストベースの自然言語を,強化学習で訓練された複数のエージェント間のコミュニケーションの新たな形態とみなす。 これは、限られた命令セットや人間とロボットの自然な協調を定義することなく、真に自律的なコミュニケーションへの第一歩と考えることができる。 ブラインドリードのゲームに触発されて,あるエージェントが自然言語命令を使って,別のエージェントを迷路で案内する環境を提案する。 強化学習エージェントが個別の単語レベルのシンボルを通して効果的にコミュニケーションできることをテストし、限られた語彙で自然言語を介して十分にコミュニケーションできることを示す。 コミュニケーションは常に完璧であるとは限らないが、エージェントは迷路をナビゲートすることができる。 BLEUスコアは0.85で、100%迷路完了率を維持しつつランダムに生成されたシーケンスよりも0.61向上している。 これは、基準セットを用いたランダムベースラインのパフォーマンスの3.5倍です。

Communication between agents in collaborative multi-agent settings is in general implicit or a direct data stream. This paper considers text-based natural language as a novel form of communication between multiple agents trained with reinforcement learning. This could be considered first steps toward a truly autonomous communication without the need to define a limited set of instructions, and natural collaboration between humans and robots. Inspired by the game of Blind Leads, we propose an environment where one agent uses natural language instructions to guide another through a maze. We test the ability of reinforcement learning agents to effectively communicate through discrete word-level symbols and show that the agents are able to sufficiently communicate through natural language with a limited vocabulary. Although the communication is not always perfect English, the agents are still able to navigate the maze. We achieve a BLEU score of 0.85, which is an improvement of 0.61 over randomly generated sequences while maintaining a 100% maze completion rate. This is a 3.5 times the performance of the random baseline using our reference set.
翻訳日:2021-07-22 11:18:50 公開日:2021-07-21
# MIMO:医療表象学習のための患者ガイドと医療オントロジーの相互統合

MIMO: Mutual Integration of Patient Journey and Medical Ontology for Healthcare Representation Learning ( http://arxiv.org/abs/2107.09288v2 )

ライセンス: Link先を確認
Xueping Peng and Guodong Long and Tao Shen and Sen Wang and Zhendong Niu and Chengqi Zhang(参考訳) EHR(Electronic Health Record)における医療表現学習は、医療分野における予測分析に不可欠であると考えられている。 word2vec, RNN, self-attention などの自然言語処理技術は階層的および時間的にスタンプされた EHR データに適応しているが、汎用データやタスク固有のデータがない場合には失敗する。 そのため、医療オントロジー(a.k.a.)を取り入れて医療表現を訓練する最近の作品もある。 ナレッジグラフ)は, 診断予測などの自己監督タスクにより, (1) 小規模単調なオントロジーは頑健な学習には不十分であり, (2) 患者旅行の基礎となる重要な文脈や依存関係は, オントロジー学習を強化するために利用されない。 そこで本研究では,医療表現学習と予測分析のためのエンドツーエンドのロバストなトランスフォーマーソリューション,患者旅行と医療オントロジー(mimo)の相互統合を提案する。 具体的には、タスク固有の表現学習と、患者旅行と医療オントロジーの両方を対話的に学習するグラフ埋め込みモジュールから構成される。 これにより、医療表現学習と医療オントロジー埋め込みの両方に利益をもたらす相互統合が生まれます。 さらに,2つのモジュールの融合埋め込みに基づいて,タスク固有の予測型とオントロジーに基づく疾患タイピングタスクを共同でトレーニングすることで,そのような統合を実現する。 2つの実世界の診断予測データセットを用いて行った実験により、我々の医療表現モデルMIMOは、十分なトレーニングデータや不十分なトレーニングデータにかかわらず、過去の最先端アプローチよりも優れた予測結果を得るだけでなく、診断の解釈可能な埋め込みも導き出すことが示された。

Healthcare representation learning on the Electronic Health Record (EHR) is seen as crucial for predictive analytics in the medical field. Many natural language processing techniques, such as word2vec, RNN and self-attention, have been adapted for use in hierarchical and time stamped EHR data, but fail when they lack either general or task-specific data. Hence, some recent works train healthcare representations by incorporating medical ontology (a.k.a. knowledge graph), by self-supervised tasks like diagnosis prediction, but (1) the small-scale, monotonous ontology is insufficient for robust learning, and (2) critical contexts or dependencies underlying patient journeys are never exploited to enhance ontology learning. To address this, we propose an end-to-end robust Transformer-based solution, Mutual Integration of patient journey and Medical Ontology (MIMO) for healthcare representation learning and predictive analytics. Specifically, it consists of task-specific representation learning and graph-embedding modules to learn both patient journey and medical ontology interactively. Consequently, this creates a mutual integration to benefit both healthcare representation learning and medical ontology embedding. Moreover, such integration is achieved by a joint training of both task-specific predictive and ontology-based disease typing tasks based on fused embeddings of the two modules. Experiments conducted on two real-world diagnosis prediction datasets show that, our healthcare representation model MIMO not only achieves better predictive results than previous state-of-the-art approaches regardless of sufficient or insufficient training data, but also derives more interpretable embeddings of diagnoses.
翻訳日:2021-07-22 11:18:34 公開日:2021-07-21
# P分類を用いた擬似ラベル選択による不完全アノテーションからの細胞検出

Cell Detection from Imperfect Annotation by Pseudo Label Selection Using P-classification ( http://arxiv.org/abs/2107.09289v2 )

ライセンス: Link先を確認
Kazuma Fujii, Daiki Suehiro, Kazuya Nishimura, Ryoma Bise(参考訳) 細胞検出は細胞画像解析において重要な課題である。 近年のディープラーニングに基づく検出手法は非常に有望な成果を上げている。 一般に、これらの方法は全画像中の細胞に徹底的にアノテートする必要がある。 細胞の一部に注釈が付かない場合(不完全アノテーション)、ノイズラベルによる検出性能は著しく低下する。 これはしばしば生物学者と実際のコラボレーションや、公開データセットでも発生する。 提案手法は,不完全なアノテートデータからの細胞検出に擬似ラベリング手法を用いる。 このようなラベル付きデータを用いてトレーニングされた検出畳み込みニューラルネットワーク(CNN)は、しばしば過剰検出を生成する。 部分標識細胞を正の試料とし, 検出された位置を未標識細胞として処理した。 次に,最近の機械学習手法であるp-unlabeled(pu)学習とp-classificationを用いて,ラベルなしデータから信頼できる擬似ラベルを選択する。 5つの異なる条件における顕微鏡画像を用いた実験により,提案手法の有効性が示された。

Cell detection is an essential task in cell image analysis. Recent deep learning-based detection methods have achieved very promising results. In general, these methods require exhaustively annotating the cells in an entire image. If some of the cells are not annotated (imperfect annotation), the detection performance significantly degrades due to noisy labels. This often occurs in real collaborations with biologists and even in public data-sets. Our proposed method takes a pseudo labeling approach for cell detection from imperfect annotated data. A detection convolutional neural network (CNN) trained using such missing labeled data often produces over-detection. We treat partially labeled cells as positive samples and the detected positions except for the labeled cell as unlabeled samples. Then we select reliable pseudo labels from unlabeled data using recent machine learning techniques; positive-and-unlabeled (PU) learning and P-classification. Experiments using microscopy images for five different conditions demonstrate the effectiveness of the proposed method.
翻訳日:2021-07-22 11:18:04 公開日:2021-07-21
# 野生の瞬間的ストレス検出におけるモダリティ融合ネットワークとパーソナライズされた注意

Modality Fusion Network and Personalized Attention in Momentary Stress Detection in the Wild ( http://arxiv.org/abs/2107.09510v2 )

ライセンス: Link先を確認
Han Yu, Thomas Vaessen, Inez Myin-Germeys, Akane Sano(参考訳) 日常生活におけるマルチモーダルウェアラブルの生理データは、自己報告されたストレスラベルの推定に使われている。 しかしながら、データ収集におけるデータモダリティの欠如は、収集されたすべてのサンプルを活用するのを難しくする。 さらに、個人間の異種センサデータやラベルは、堅牢なストレス検出モデルを構築する上での課題をもたらす。 本稿では,完全・不完全両条件下でモデルと自己申告された2値応力ラベルを推定するためのモーダリティ融合ネットワーク(MFN)を提案する。 さらに、パーソナライズされた注目(PA)戦略を適用し、パーソナライズされた表現と一般化されたワンサイズフィットオールモデルを適用した。 本手法を,GSR (Galvanic skin response) と心電図 (ECG) を含むマルチモーダルウェアラブルセンサデータセット (N=41) を用いて評価した。 完全なモダリティを持つ試料を用いたベースライン法と比較して、MFNの性能はf1スコアで1.6%向上した。 一方,提案するpa戦略では,ストレス検出f1-scoreが2.3%高く,パーソナライズされたモデルパラメータサイズ(9.1mb)が約70%削減された。

Multimodal wearable physiological data in daily life have been used to estimate self-reported stress labels. However, missing data modalities in data collection makes it challenging to leverage all the collected samples. Besides, heterogeneous sensor data and labels among individuals add challenges in building robust stress detection models. In this paper, we proposed a modality fusion network (MFN) to train models and infer self-reported binary stress labels under both complete and incomplete modality conditions. In addition, we applied personalized attention (PA) strategy to leverage personalized representation along with the generalized one-size-fits-all model. We evaluated our methods on a multimodal wearable sensor dataset (N=41) including galvanic skin response (GSR) and electrocardiogram (ECG). Compared to the baseline method using the samples with complete modalities, the performance of the MFN improved by 1.6% in f1-scores. On the other hand, the proposed PA strategy showed a 2.3% higher stress detection f1-score and approximately up to 70% reduction in personalized model parameter size (9.1 MB) compared to the previous state-of-the-art transfer learning strategy (29.3 MB).
翻訳日:2021-07-22 11:17:53 公開日:2021-07-21