このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200819となっている論文です。

PDF登録状況(公開日: 20200819)

TitleAuthorsAbstract論文公表日・翻訳日
# グローバル接続型イオン量子コンピュータのための効率的な量子ルーティング

Efficient Qubit Routing for a Globally Connected Trapped Ion Quantum Computer ( http://arxiv.org/abs/2002.12782v3 )

ライセンス: Link先を確認
Mark Webber, Steven Herbert, Sebastian Weidt, and Winfried K. Hensinger(参考訳) Noisy-Intermediate-Scale-Quantumデバイスにおける接続のコストは、計算能力を決定する上で重要な要素である。 これまで提案してきたイオン量子コンピューティングアーキテクチャにおいて,効率的なグローバル接続を実現する量子ビットルーティングアルゴリズムを開発した。 ルーティングアルゴリズムは、厳密な下限と位置スワップに基づくルーティングアルゴリズムの両方との比較により特徴づけられた。 本稿では,実験パラメータの関数として,達成可能な回路深さと量子体積を推定できる誤差モデルを提案する。 量子体積に基づく新しい計量を用いるが、ネイティブな2つの量子ビットゲートを用いて、すべての接続に対して、自由な上限の上限に対する接続コストを評価する。 この計量は正方形格子超伝導デバイスの評価にも用いられた。 これら2つのアーキテクチャを比較して,使用中のシャットリングパラメータについて,トラップ型イオン設計の接続コストが極めて低いことを発見した。

The cost of enabling connectivity in Noisy-Intermediate-Scale-Quantum devices is an important factor in determining computational power. We have created a qubit routing algorithm which enables efficient global connectivity in a previously proposed trapped ion quantum computing architecture. The routing algorithm was characterized by comparison against both a strict lower bound, and a positional swap based routing algorithm. We propose an error model which can be used to estimate the achievable circuit depth and quantum volume of the device as a function of experimental parameters. We use a new metric based on quantum volume, but with native two qubit gates, to assess the cost of connectivity relative to the upper bound of free, all to all connectivity. The metric was also used to assess a square grid superconducting device. We compare these two architectures and find that for the shuttling parameters used, the trapped ion design has a substantially lower cost associated with connectivity.
翻訳日:2023-06-01 07:51:50 公開日:2020-08-19
# ダイヤモンドの高効率核スピン検出のためのアルゴリズム分解

Algorithmic decomposition for efficient multiple nuclear spin detection in diamond ( http://arxiv.org/abs/2003.00178v4 )

ライセンス: Link先を確認
Hyunseok Oh, Jiwon Yun, M.H. Abobeih, Kyung-Hoon Jung, Kiho Kim, T.H. Taminiau, Dohun Kim(参考訳) 固体ホスト内の個々のスピンを効率的に検出し特徴付けることは、量子センシングと量子情報処理の分野を広げる上で必須のステップである。 ダイヤモンド中の数個の13c原子核スピンの選択的検出と制御はnv中心の電子スピンを用いて実証されているが、信頼性が高く効率的な自動キャラクタリゼーション法が求められている。 本稿では,ダイヤモンド中の複数の核スピンを識別・特徴付けるために,スペクトルデータを分解するアルゴリズム手法を開発した。 仮想および実験的な核分光データに対して、効率的な核スピン同定と超微粒子相互作用成分の正確な再現を実証する。 本手法の系統的解析を行い,その手法が効率的に検出できる核スピンの超微細相互作用成分の範囲について考察する。 その結果、計算手法を用いて自動的に核スピンを検出するシステム的アプローチが示され、デバイスの将来のスケーラビリティが促進される。

Efficiently detecting and characterizing individual spins in solid-state hosts is an essential step to expand the fields of quantum sensing and quantum information processing. While selective detection and control of a few 13C nuclear spins in diamond have been demonstrated using the electron spin of nitrogen-vacancy (NV) centers, a reliable, efficient, and automatic characterization method is desired. Here, we develop an automated algorithmic method for decomposing spectral data to identify and characterize multiple nuclear spins in diamond. We demonstrate efficient nuclear spin identification and accurate reproduction of hyperfine interaction components for both virtual and experimental nuclear spectroscopy data. We conduct a systematic analysis of this methodology and discuss the range of hyperfine interaction components of each nuclear spin that the method can efficiently detect. The result demonstrates a systematic approach that automatically detects nuclear spins with the aid of computational methods, facilitating the future scalability of devices.
翻訳日:2023-06-01 05:43:40 公開日:2020-08-19
# 分割代数からの量子ゲートのブレイディング

Braiding quantum gates from partition algebras ( http://arxiv.org/abs/2003.00244v3 )

ライセンス: Link先を確認
Pramod Padmanabhan, Fumihiko Sugino, Diego Trancanelli(参考訳) ユニタリブレイディング作用素は、堅牢な量子ゲートとして使用できる。 我々は,$(d,m,l)$- Generalized Yang-Baxter 方程式を$m/2\leq l \leq m$ で解く解生成手法を導入する。 これは、統計力学で見られるテンペルリー・リーブ代数の一般化である分割代数を用いて達成される。 我々は、完全ブレイド群を生成するユニタリおよび非ユニタリブレイディング作用素の族を得る。 明示的な例は、確率的局所演算と古典的通信に基づいてこれらの演算子によって生成される絡み合った状態の分類を含む、2-、3、および4-量子ビットシステムに対して与えられる。

Unitary braiding operators can be used as robust entangling quantum gates. We introduce a solution-generating technique to solve the $(d,m,l)$-generalized Yang-Baxter equation, for $m/2\leq l \leq m$, which allows to systematically construct such braiding operators. This is achieved by using partition algebras, a generalization of the Temperley-Lieb algebra encountered in statistical mechanics. We obtain families of unitary and non-unitary braiding operators that generate the full braid group. Explicit examples are given for a 2-, 3-, and 4-qubit system, including the classification of the entangled states generated by these operators based on Stochastic Local Operations and Classical Communication.
翻訳日:2023-06-01 05:35:32 公開日:2020-08-19
# 量子物質の機械学習

Machine Learning for Quantum Matter ( http://arxiv.org/abs/2003.11040v2 )

ライセンス: Link先を確認
Juan Carrasquilla(参考訳) 量子物質は、本質的に量子力学の性質を持つ物質の研究分野であり、ハード凝縮物質物理学、物質科学、統計力学、量子情報、量子重力、大規模数値シミュレーションといった分野から来ている。 近年、量子物質と強い相関を持つ量子システムに興味を持つ研究者は、その分野の進歩に注目して、現代の機械学習の基礎となるアルゴリズムに注目を向けている。 本稿では、量子物質の研究を進めるための機械学習のアイデアの最近の開発と適応について、実験データにおける従来の物質の状態とトポロジ的状態を認識するアルゴリズムから、ニューラルネットワークによる量子状態の表現、量子システムのシミュレーションと制御への応用までを含む、短いレビューを行う。 機械学習と量子多体物理学の交わる領域における今後の発展の展望について論じる。

Quantum matter, the research field studying phases of matter whose properties are intrinsically quantum mechanical, draws from areas as diverse as hard condensed matter physics, materials science, statistical mechanics, quantum information, quantum gravity, and large-scale numerical simulations. Recently, researchers interested quantum matter and strongly correlated quantum systems have turned their attention to the algorithms underlying modern machine learning with an eye on making progress in their fields. Here we provide a short review on the recent development and adaptation of machine learning ideas for the purpose advancing research in quantum matter, including ideas ranging from algorithms that recognize conventional and topological states of matter in synthetic an experimental data, to representations of quantum states in terms of neural networks and their applications to the simulation and control of quantum systems. We discuss the outlook for future developments in areas at the intersection between machine learning and quantum many-body physics.
翻訳日:2023-05-28 00:57:03 公開日:2020-08-19
# 最小ゲート忠実度の直接推定

Direct estimation of minimum gate fidelity ( http://arxiv.org/abs/2004.02422v2 )

ライセンス: Link先を確認
Yiping Lu, Jun Yan Sim, Jun Suzuki, Berthold-Georg Englert, Hui Khoon Ng(参考訳) 現在の量子コンピュータ構築への関心から、量子ゲート実装におけるノイズの正確かつ効率的なキャラクタリゼーションの必要性が高まっている。 量子ゲートの性能の重要な尺度は最小ゲート忠実度(すなわちゲートの忠実度)であり、全ての入力状態にわたって最小化される。 従来、量子プロセストモグラフィ(qpt)の実験手法を用いて、最初にフルゲートプロセスマトリックスを正確に再構成することにより、最小忠実度を推定する。 そして、最小忠実度を求めるために数値最小化を行う。 しかし、QPTは費用がかかることで知られており、もし目標が1つの数だけを見積もることであるなら、私たちはもっとうまくできるかもしれない。 本研究では,プロセスマトリックスを再構築することなく最小忠実度を直接推定するための数値勾配自由最小化(gfm)と実験目標忠実度推定手法を用いたハイブリッド数値実験スキームを提案する。 我々はこれをQPTを用いたQPTフィデリティ推定と呼ばれる代替スキームと比較するが、終端基準として最小ゲートフィデリティを直接利用する。 したがって、どちらのアプローチも直接推定スキームと見なすことができる。 一般理論的バウンダリは、QPTフィデリティ推定よりも GFM スキームの大幅なリソース節約を示唆している; しかし、特定のノイズのクラスに対する数値シミュレーションでは、どちらのスキームも同様の性能を示しており、特定の例に対して一般バウンダリを使用する際に注意が必要であることを思い出させる。 しかし、GFMスキームは、より効率的なGFMアルゴリズムの開発とともに、将来の資源コストの改善の可能性を示している。

With the current interest in building quantum computers, there is a strong need for accurate and efficient characterization of the noise in quantum gate implementations. A key measure of the performance of a quantum gate is the minimum gate fidelity, i.e., the fidelity of the gate, minimized over all input states. Conventionally, the minimum fidelity is estimated by first accurately reconstructing the full gate process matrix using the experimental procedure of quantum process tomography (QPT). Then, a numerical minimization is carried out to find the minimum fidelity. QPT is, however, well known to be costly, and it might appear that we can do better, if the goal is only to estimate one single number. In this work, we propose a hybrid numerical-experimental scheme that employs a numerical gradient-free minimization (GFM) and an experimental target-fidelity estimation procedure to directly estimate the minimum fidelity without reconstructing the process matrix. We compare this to an alternative scheme, referred to as QPT fidelity estimation, that does use QPT, but directly employs the minimum gate fidelity as the termination criterion. Both approaches can thus be considered as direct estimation schemes. General theoretical bounds suggest a significant resource savings for the GFM scheme over QPT fidelity estimation; numerical simulations for specific classes of noise, however, show that both schemes have similar performance, reminding us of the need for caution when using general bounds for specific examples. The GFM scheme, however, presents potential for future improvements in resource cost, with the development of even more efficient GFM algorithms.
翻訳日:2023-05-26 06:36:53 公開日:2020-08-19
# 不純物付着によるコールドフェルミガスのその場温度測定

In situ thermometry of a cold Fermi gas via dephasing impurities ( http://arxiv.org/abs/2004.02911v3 )

ライセンス: Link先を確認
Mark T. Mitchison, Thom\`as Fogarty, Giacomo Guarnieri, Steve Campbell, Thomas Busch, and John Goold(参考訳) 低温の正確な測定は、量子科学にとって挑戦的で重要で基本的な課題である。 特に、その場温度測定は量子シミュレーションの可能性から、低温原子系にとって非常に望ましい。 ここでは,非相互作用フェルミ気体の温度を,干渉法と実験手法を用いて,内部に浸漬した不純物の非平衡ダイナミクスから正確に推定できることを実証する。 提案手法は, 量子パラメータ推定理論を応用し, 現在の実験において, フェルミガスを退化させるための関連する温度状態の最適精度を実現する。 また,不純物とガスのカップリングによって制御される測定時間と温度測定精度との間には,結合性が弱いため,最も感度が高い。 これはアンダーソン直交カタストロフィの開始に伴う緩やかなデコヒーレンスの結果として説明され、これは没入不純物との局所的な相互作用によってガス力学を支配している。

The precise measurement of low temperatures is a challenging, important and fundamental task for quantum science. In particular, in-situ thermometry is highly desirable for cold atomic systems due to their potential for quantum simulation. Here we demonstrate that the temperature of a non-interacting Fermi gas can be accurately inferred from the non-equilibrium dynamics of impurities immersed within it, using an interferometric protocol and established experimental methods. Adopting tools from the theory of quantum parameter estimation, we show that our proposed scheme achieves optimal precision in the relevant temperature regime for degenerate Fermi gases in current experiments. We also discover an intriguing trade-off between measurement time and thermometric precision that is controlled by the impurity-gas coupling, with weak coupling leading to the greatest sensitivities. This is explained as a consequence of the slow decoherence associated with the onset of the Anderson orthogonality catastrophe, which dominates the gas dynamics following its local interaction with the immersed impurity.
翻訳日:2023-05-26 06:17:43 公開日:2020-08-19
# ミニマルツイスト二層グラフェンのホフスタッター蝶とフロケトポロジカル絶縁体

Hofstadter butterfly and Floquet topological insulators in minimally twisted bilayer graphene ( http://arxiv.org/abs/2004.15022v2 )

ライセンス: Link先を確認
Yang-Zhi Chou and Fengcheng Wu and Sankar Das Sarma(参考訳) 極小ねじれ二層グラフェン (mtblg) における三角ネットワークモデルのホフシュタッター・バタフライを理論的に研究した。 バンド構造はフロッケ系を模倣してエネルギーの周期性を示す。 蝶図はモデルパラメータの指紋を提供し、隠されたバンドトポロジーを明らかにする。 強磁場下では, チャーン数ゼロの低エネルギーフロケトポロジカル絶縁体 (FTI) を実現するとともに, バルクギャップ内のキラルエッジ状態をホストする。 ホフシュタッターバタフライの非自明なスペクトル流れを分析し,カイラルエッジ状態を明示的に計算することにより,ftisを同定する。 我々の理論は、平衡固体系におけるFTIの効果的な実践的実現の道を開くものである。

We theoretically study the Hofstadter butterfly of a triangular network model in minimally twisted bilayer graphene (mTBLG). The band structure manifests periodicity in energy, mimicking that of Floquet systems. The butterfly diagrams provide fingerprints of the model parameters and reveal the hidden band topology. In a strong magnetic field, we establish that mTBLG realizes low-energy Floquet topological insulators (FTIs) carrying zero Chern number, while hosting chiral edge states in bulk gaps. We identify the FTIs by analyzing the nontrivial spectral flow in the Hofstadter butterfly, and by explicitly computing the chiral edge states. Our theory paves the way for an effective practical realization of FTIs in equilibrium solid state systems.
翻訳日:2023-05-21 17:04:31 公開日:2020-08-19
# 服装原子スピンの高調波微調整と3軸空間異方性

Harmonic fine tuning and triaxial spatial anisotropy of dressed atomic spins ( http://arxiv.org/abs/2005.07279v3 )

ライセンス: Link先を確認
Giuseppe Bevilacqua, Valerio Biancalana, Antonio Vigilante, Thomas Zanon-Willette and Ennio Arimondo(参考訳) 強い服装のスピンを修飾する弱い振動場の追加は、系の量子力学を強化し、強化する。 低次調和混合により、バイクロマティック駆動はスピン系に作用する追加の整流静電場を生成する。 二次場は原子反応の微調整を可能にし、スピンカップリング定数の空間的3軸異方性やスピンダイナミクスの加速のような単一のドレッシング場ではアクセスできない効果を生み出す。 このチューニング式構成は、量子制御アプリケーションのためのシステムフルエンジニアリングのための追加のハンドルを導入する。 調整振幅、調和度、空間配向、位相関係は制御パラメータである。 摂動アプローチに基づく理論的解析は、光学励起cs原子蒸気にバイクロマティックな周波数場を適用することで実験的に検証される。 第3高調波までの場をチューニングすることで生じる共鳴シフトを測定する。

The addition of a weak oscillating field modifying strongly dressed spins enhances and enriches the system quantum dynamics. Through low-order harmonic mixing the bichromatic driving generates additional rectified static field acting on the spin system. The secondary field allows for a fine tuning of the atomic response and produces effects not accessible with a single dressing field, such as a spatial triaxial anisotropy of the spin coupling constants and acceleration of the spin dynamics. This tuning-dressed configuration introduces an extra handle for the system full engineering for quantum control applications. Tuning amplitude, harmonic content, spatial orientation and phase relation are control parameters. A theoretical analysis, based on perturbative approach, is experimentally validated by applying a bichromatic radiofrequency field to an optically pumped Cs atomic vapour. We measure the resonance shifts produced by tuning fields up to the third harmonic.
翻訳日:2023-05-20 05:11:29 公開日:2020-08-19
# 平面バンド系における2つのボソンの相互作用誘起トポロジー特性

Interaction-induced topological properties of two bosons in flat-band systems ( http://arxiv.org/abs/2005.10810v3 )

ライセンス: Link先を確認
G. Pelegr\'i, A. M. Marques, V. Ahufinger, J. Mompart, R. G. Dias(参考訳) 平らなバンド系では、破壊的な干渉は非相互作用粒子の局在をもたらし、格子を通して運動を妨害する。 しかし、相互作用が存在する場合、近傍の単粒子局在固有状態間の重なりは、粒子の束縛対の伝播を可能にする可能性がある。 本研究では,これらの相互作用誘起ホッピングをチューニングして,種々の2体位相状態を得る方法を示す。 特に、ダイヤモンド鎖格子の軌道角運動量$l=1$状態にロードされる2つの相互作用するボソンを考える。 弱い相互作用の極限では、2ボソン準粒子に対して有効な単一粒子モデルが導出され、トポロジカルな状態がどのように生じるかが直感的に表される。 正確な対角化計算により、これらの状態をベンチマークし、それらが強い相互作用と厳密なフラットバンド制限から遠ざかっていることを示す。 さらに,任意の相互作用に対するアハラノフ・ボームケージの特別なインスタンスを生じさせる,二重局在化された2粒子フラットバンド状態の組を同定する。

In flat-band systems, destructive interference leads to the localization of non-interacting particles and forbids their motion through the lattice. However, in the presence of interactions the overlap between neighbouring single-particle localized eigenstates may enable the propagation of bound pairs of particles. In this work, we show how these interaction-induced hoppings can be tuned to obtain a variety of two-body topological states. In particular, we consider two interacting bosons loaded into the orbital angular momentum $l=1$ states of a diamond-chain lattice, wherein an effective $\pi$ flux may yield a completely flat single-particle energy landscape. In the weakly-interacting limit, we derive effective single-particle models for the two-boson quasiparticles which provide an intuitive picture of how the topological states arise. By means of exact diagonalization calculations, we benchmark these states and we show that they are also present for strong interactions and away from the strict flat-band limit. Furthermore, we identify a set of doubly localized two-boson flat-band states that give rise to a special instance of Aharonov-Bohm cages for arbitrary interactions.
翻訳日:2023-05-19 03:38:23 公開日:2020-08-19
# 積分型XXZ鎖および局所摂動型量子カオスXXZ鎖における外対角行列要素の低周波挙動

Low-frequency behavior of off-diagonal matrix elements in the integrable XXZ chain and in a locally perturbed quantum-chaotic XXZ chain ( http://arxiv.org/abs/2005.12309v2 )

ライセンス: Link先を確認
Marlon Brenes, John Goold and Marcos Rigol(参考訳) 積分可能なXXZ鎖の固有状態における局所作用素の行列要素と、XXZ鎖を磁気不純物で局所摂動することによって得られる量子カオスモデルについて検討する。 システムサイズが多項式的に小さい周波数では、外対角行列要素の分散の挙動は作用素によって大きく異なることが示されている。 可積分モデルでは、周波数 $\omega\rightarrow0$ として、分散は非消滅(ジェネリックな振る舞い)または消滅(特別な作用素のクラス)である。 一方、量子カオスモデルでは、分散は_\omega\rightarrow0$として非有界であり、微分力学を示す。 局所作用素の行列要素のどの性質が、選択された特定の作用素とは独立に積分可能モデルと量子カオスモデルの間に異なるかを強調する。

We study the matrix elements of local operators in the eigenstates of the integrable XXZ chain and of the quantum-chaotic model obtained by locally perturbing the XXZ chain with a magnetic impurity. We show that, at frequencies that are polynomially small in the system size, the behavior of the variances of the off-diagonal matrix elements can be starkly different depending on the operator. In the integrable model we find that, as the frequency $\omega\rightarrow0$, the variances are either nonvanishing (generic behavior) or vanishing (for a special class of operators). In the quantum-chaotic model, on the other hand, we find the variances to be nonvanishing as $\omega\rightarrow0$ and to indicate diffusive dynamics. We highlight which properties of the matrix elements of local operators are different between the integrable and quantum-chaotic models independently of the specific operator selected.
翻訳日:2023-05-18 12:11:00 公開日:2020-08-19
# 波動関数の対称性、トランザクション、および崩壊機構

Symmetry, Transactions, and the Mechanism of Wave Function Collapse ( http://arxiv.org/abs/2006.11365v4 )

ライセンス: Link先を確認
John G. Cramer and Carver A. Mead(参考訳) 量子力学のトランザクショナル解釈は、波動力学の固有の時間対称性を利用して、全ての波動力学計算に存在する$\psi$と$\psi$*の波動関数を、量子「ハンドシェイク」またはトランザクションを形成する反対の時間方向に移動する進行波および進行波を表すものとして解釈する。 このハンドシェイクは4dスタンディングウェーブで、時空を横切ることで、相互作用の中で保存されたエネルギー、運動量、角運動量を伝える。 ここでは、トランザクションを記述する2原子量子形式を導出する。 我々は、原子間の双方向の電磁結合を、一対のベクトルポテンシャルグリーンの関数に分解できることを示し、この組み合わせがトランザクションにおけるエネルギーの保存を一意に強制することを示した。 したがって、電磁結合原子の単一電子波動関数はシュル=オディンガーの波力学を用いて解析することができる。 この手法は電磁結合した任意の単電子状態に一般化されており、--高次元空間は必要ない。 この手法を用いて, 励起状態の水素原子から基底状態の近傍の水素原子へエネルギーを移動させる実験例を示す。 初期交換は完成したトランザクションに雪崩をもたらす動的に不安定な状態を生じさせ、文献で神秘的と見なされる波動関数の崩壊は、シュル=オディンガーのもともとの波動力学の解と共に実装できることを示した。 また、光子分裂およびフリードマン・クレーザー3電子実験の簡略化版を分析し、この形式によってそれらの結果が予測できることを示した。

The Transactional Interpretation of quantum mechanics exploits the intrinsic time-symmetry of wave mechanics to interpret the $\psi$ and $\psi$* wave functions present in all wave mechanics calculations as representing retarded and advanced waves moving in opposite time directions that form a quantum "handshake" or transaction. This handshake is a 4D standing-wave that builds up across space-time to transfer the conserved quantities of energy, momentum, and angular momentum in an interaction. Here we derive a two-atom quantum formalism describing a transaction. We show that the bi-directional electromagnetic coupling between atoms can be factored into a matched pair of vector potential Green's functions: one retarded and one advanced, and that this combination uniquely enforces the conservation of energy in a transaction. Thus factored, the single-electron wave functions of electromagnetically-coupled atoms can be analyzed using Schr\"odinger's original wave mechanics. The technique generalizes to any number of electromagnetically coupled single-electron states---no higher-dimensional space is needed. Using this technique, we show a worked example of the transfer of energy from a hydrogen atom in an excited state to a nearby hydrogen atom in its ground state. It is seen that the initial exchange creates a dynamically unstable situation that avalanches to the completed transaction, demonstrating that wave function collapse, considered mysterious in the literature, can be implemented with solutions of Schr\"odinger's original wave mechanics, coupled by this unique combination of retarded/advanced vector potentials, without the introduction of any additional mechanism or formalism. We also analyse a simplified version of the photon-splitting and Freedman-Clauser three-electron experiments and show that their results can be predicted by this formalism.
翻訳日:2023-05-13 09:13:25 公開日:2020-08-19
# 低温磁気浮上型マイクロオシレータを用いた1$\mu$Hz以下の機械的消散

Mechanical dissipation below 1$\mu$Hz with a cryogenic diamagnetic-levitated micro-oscillator ( http://arxiv.org/abs/2008.07940v2 )

ライセンス: Link先を確認
Yingchun Leng, Rui Li, Xi Kong, Han Xie, Di Zheng, Peiran Yin, Fang Xiong, Tong Wu, Chang Kui Duan, Youwei Du, Zhang qi Yin, Pu Huang, and Jiangfeng Du(参考訳) 超低散逸は、マイクロ・ナノ・メカニカル・システムを用いた応用とマクロ量子現象の探索において重要な役割を果たしている。 磁気浮上型マイクロメカニカル発振器を3kの低温で動作させ,0.59$\mu$hz,2 \times 10^7$という品質係数を計測した。 我々の知る限りでは、達成された散逸は、これまでのマイクロ・ナノメカニカルシステムの中で最低であり、異なる原理に基づく最先端のシステムよりも桁違いに改善されている。 ここで説明する低温磁気浮上発振器は幅広い質量に適用でき、超高感度で力と加速度の両方を測定するのに良い候補となる。 自然に存在する強磁場勾配により、この系は量子スピン力学の研究において大きなポテンシャルを持つ。

Ultralow dissipation plays an important role in sensing applications and exploring macroscopic quantum phenomena using micro-and nano-mechanical systems. We report a diamagnetic-levitated micro-mechanical oscillator operating at a low temperature of 3K with measured dissipation as low as 0.59 $\mu$Hz and a quality factor as high as $2 \times 10^7$. To the best of our knowledge the achieved dissipation is the lowest in micro- and nano-mechanical systems to date, orders of magnitude improvement over the reported state-of-the-art systems based on different principles. The cryogenic diamagnetic-levitated oscillator described here is applicable to a wide range of mass, making it a good candidate for measuring both force and acceleration with ultra-high sensitivity. By virtue of the naturally existing strong magnetic gradient, this system has great potential in quantum spin mechanics study.
翻訳日:2023-05-05 22:57:58 公開日:2020-08-19
# ハッカソンを組織する方法 - 計画キット

How to organize a hackathon -- A planning kit ( http://arxiv.org/abs/2008.08025v2 )

ライセンス: Link先を確認
Alexander Nolte, Ei Pa Pa Pe-Than, Abasi-amefon Obot Affia, Chalalai Chaihirunkarn, Anna Filippova, Arun Kalyanasundaram, Maria Angelica Medina Angarita, Erik Trainer, James D. Herbsleb(参考訳) ハッカソンや同様の時限イベントが世界的な現象となっている。 様々な領域におけるそれらの増殖と、様々な目標に対する有用性は、その後、異なるフォーマットの出現につながった。 ハッカソンの準備と実行に関するガイドラインはたくさんありますが、その多くは特定の種類の参加者のためにドメイン内で特定の目的のために作成された特定のフォーマットに焦点を当てています。 これにより、初心者のオーガナイザがニーズに合ったイベントの実行方法を決定することが特に難しくなります。 このギャップに対処するために、私たちは、ハッカソンの準備と実行時に主催者が行わなければならない12の重要決定と、意思決定を促進するトレードオフを中心に編成されたプランニングキットを開発しました。 主要な計画キットはオンラインで入手できるが、このレポートはダウンロード可能でcitableのリソースである。

Hackathons and similar time-bounded events have become a global phenomenon. Their proliferation in various domains and their usefulness for a variety of goals has subsequently led to the emergence of different formats. While there are a multitude of guidelines available on how to prepare and run a hackathon, most of them focus on a particular format that was created for a specific purpose within a domain for a certain type of participants. This makes it difficult in particular for novice organizers to decide how to run an event that fits their needs. To address this gap we developed a planning kit that is organized around 12 key decision that organizers need to make when preparing and running a hackathon, and the tradeoffs that drive decision-making. The main planning kit is available online while this report is meant as a downloadable and citable resource.
翻訳日:2023-05-05 22:47:02 公開日:2020-08-19
# 相互作用系における動的デカップリング:信号強調ハイパーポーラライズド読み出しへの応用

Dynamical decoupling in interacting systems: applications to signal-enhanced hyperpolarized readout ( http://arxiv.org/abs/2008.08323v1 )

ライセンス: Link先を確認
A. Ajoy, R. Nirodi, A. Sarkar, P. Reshetikhin, E. Druga, A. Akkiraju, M. McAllister, G. Maineri, S. Le, A. Lin, A. M. Souza, C. A. Meriles, B. Gilbert, D. Suter, J. A. Reimer, A. Pines(参考訳) コヒーレンスを保存する手法は、すべての量子情報処理およびメトロロジー応用に広く影響する。 動的デカップリング法はノイズの多い環境でキュービットを保護することでこれを達成しているが、通常、キュービット自体が相互作用しない極限に制限される。 ここでは、量子ビット間カップリングが環境との相互作用を強調するのと同じ順序である代替的な構造を考える。 本研究では, スピン間結合を適切に設計し, 量子ビット上の劣化雑音を同時に抑制し, 横スピン状態を保護するマルチパルスプロトコルを提案する。 提案手法は, ダイヤモンド中の13C核スピン量子ビット, 双極子を結合し, ノイズの多い電子スピン浴に埋め込まれ, 光ポンピングされたNV中心を介して過分極化されている。 室温で13c原子核$t_2^{\prime}\approx$2.5sの有効寿命を観測し、従来の$t_2^{\ast}$自由誘導崩壊よりも4700倍大きい値を示した。 スピンは適用された量子制御中に連続的に疑問視され、寿命延長により13CのNMR線が狭まり、SNRが500ドル以上上昇する。 超分極スピン尋問と共に、従来の7T NMRよりも$>10^{11}$で加速される。 この研究は、様々な実験プラットフォームでの応用と結合量子ビット系の動的疎結合の戦略を提案する。

Methods that preserve coherence broadly impact all quantum information processing and metrology applications. Dynamical decoupling methods accomplish this by protecting qubits in noisy environments but are typically constrained to the limit where the qubits themselves are non-interacting. Here we consider the alternate regime wherein the inter-qubit couplings are of the same order as dephasing interactions with the environment. We propose and demonstrate a multi-pulse protocol that protects transverse spin states by suitably Hamiltonian engineering the inter-spin coupling while simultaneously suppressing dephasing noise on the qubits. We benchmark the method on 13C nuclear spin qubits in diamond, dipolar coupled to each other and embedded in a noisy electronic spin bath, and hyperpolarized via optically pumped NV centers. We observe effective state lifetimes of 13C nuclei $T_2^{\prime}\approx$2.5s at room temperature, an extension of over 4700-fold over the conventional $T_2^{\ast}$ free induction decay. The spins are continuously interrogated during the applied quantum control, resulting in 13C NMR line narrowing and an $>$500-fold boost in SNR due to the lifetime extension. Together with hyperpolarization spin interrogation is accelerated by $>10^{11}$ over conventional 7T NMR. This work suggests strategies for the dynamical decoupling of coupled qubit systems with applications in a variety of experimental platforms.
翻訳日:2023-05-05 20:45:46 公開日:2020-08-19
# ミラーによる仮想会議の開催:acm e-energy 2020

Organizing Virtual Conferences through Mirrors: The ACM e-Energy 2020 Experience ( http://arxiv.org/abs/2008.08318v1 )

ライセンス: Link先を確認
Dan Wang, Arun Vishwanath, Ramesh Sitaraman, Iven Mareels(参考訳) 世界規模の新型コロナウイルス(COVID-19)パンデミックの出現により、学術会議を完全に仮想的に開催せざるを得なくなった。 これまでの研究では、エネルギーとコストの節約の観点から仮想会議のメリットを提唱してきたが、主催者は、すべての参加者に豊富な会議参加体験を提供するために、計画と実行の見通しにますます直面している。 2020年3月からは、数十の会議が事実上開催されている。 過去のカンファレンスでは、予算計画からサポート対象の仮想プラットフォームの選択に至るまで、数多くの課題が明らかになった。 このうち、2つの特別な課題が特定された。 1)地理的に分散した参加者への講演の仕方 2)参加者間の交流を刺激する方法。 これらは学術会議の重要な2つの目標です。 本稿では,学術会議におけるミラープログラムアプローチを提唱する。 より具体的には、会議プログラムは複数の並列(ミラー)プログラムで実行され、各ミラープログラムは異なるタイムゾーンに収まることができる。 これは、最初の課題に効果的に対処できる。

The emergence of the world-wide COVID-19 pandemic has forced academic conferences to be held entirely in a virtual manner. While prior studies have advocated the merits of virtual conferences in terms of energy and cost savings, organizers are increasingly facing the prospect of planning and executing them systematically, in order to deliver a rich conference-attending-experience for all participants. Starting from March 2020, tens of conferences have been held virtually. Past conferences have revealed numerous challenges, from budget planning, to selecting the supporting virtual platforms. Among these, two special challenges were identified: 1) how to deliver talks to geo-distributed attendees and 2) how to stimulate social interactions among attendees. These are the two important goals of an academic conference. In this paper, we advocate a mirror program approach for academic conferences. More specifically, the conference program is executed in multiple parallel (mirrored) programs, so that each mirror program can fit a different time zone. This can effectively address the first challenge.
翻訳日:2023-05-05 20:45:24 公開日:2020-08-19
# Threshy: インテリジェントWebサービスの安全な利用を支援する

Threshy: Supporting Safe Usage of Intelligent Web Services ( http://arxiv.org/abs/2008.08252v1 )

ライセンス: Link先を確認
Alex Cummaudo, Scott Barnett, Rajesh Vasa and John Grundy(参考訳) intelligent' の web サービスの人気が高まり、エンドユーザは少ない労力でマシン主導の機能を提供するようになった。 しかし、これらのサービスは、問題固有のデータに依存する決定しきい値を設定する必要がある。 開発者はインテリジェントなサービスを評価するための体系的なアプローチを欠いている。 本稿では,ソフトウェア開発者が問題領域に適した決定しきい値を選択するためのワークフローおよびサポートツールであるthreshyを提案する。 既存のツールとは異なり、threshyは開発前、リリース前、サポートを含む複数のワークフローで動作するように設計されている。 ThreshyはインテリジェントなWebサービスによって返される信頼性スコアを調整するために設計されており、MLモデルで使用されるハイパーパラメータ最適化には対応しない。 さらに、偽陽性の経済的影響も考慮している。 ThreshyがエクスポートしたThreshold構成ファイルは、クライアントアプリケーションや監視インフラストラクチャに統合できる。 デモ: https://bit.ly/2ykeyhe。

Increased popularity of `intelligent' web services provides end-users with machine-learnt functionality at little effort to developers. However, these services require a decision threshold to be set which is dependent on problem-specific data. Developers lack a systematic approach for evaluating intelligent services and existing evaluation tools are predominantly targeted at data scientists for pre-development evaluation. This paper presents a workflow and supporting tool, Threshy, to help software developers select a decision threshold suited to their problem domain. Unlike existing tools, Threshy is designed to operate in multiple workflows including pre-development, pre-release, and support. Threshy is designed for tuning the confidence scores returned by intelligent web services and does not deal with hyper-parameter optimisation used in ML models. Additionally, it considers the financial impacts of false positives. Threshold configuration files exported by Threshy can be integrated into client applications and monitoring infrastructure. Demo: https://bit.ly/2YKeYhE.
翻訳日:2023-05-05 20:44:21 公開日:2020-08-19
# ペニングトラップにおける2次元閉じ込めイオン結晶の面内熱揺らぎによるドラムヘッドモードスペクトルの拡大

Broadening of the drumhead mode spectrum due to in-plane thermal fluctuations of two-dimensional trapped ion crystals in a Penning trap ( http://arxiv.org/abs/2008.08239v1 )

ライセンス: Link先を確認
Athreya Shankar, Chen Tang, Matthew Affolter, Kevin Gilmore, Daniel H. E. Dubin, Scott Parker, Murray J. Holland and John J. Bollinger(参考訳) ペニングトラップに蓄えられたイオンの2次元結晶は、量子シミュレーションとセンシング実験の主要なプラットフォームである。 小さな振幅では、そのような結晶の面外運動は、ドラムヘッドモードと呼ばれる離散的なノーマルモードのセットで記述することができ、様々な量子情報プロトコルを実装するのに使うことができる。 しかし、ドップラー冷却および近地冷却ドラムヘッドモードによる結晶の実験的観察により、未解決ドラムヘッドモードスペクトルが明らかとなった。 本研究では, ドラムヘッドモードスペクトルの拡大に寄与する主要な要因として, イオン位置の面内熱揺らぎを確立する。 このプロセスでは、磁場の収束が、平均電位と運動エネルギーが等しくない非伝統的な平面内正規モードにどのように導かれるかを示す。 この性質は、分子動力学シミュレーションのために平面内初期条件を選択するのに必要なサンプリング手順に意味を持つ。 NISTペニングトラップの現在の運転条件については,このトラップで生成した2次元結晶が10ドルmKの平面内ポテンシャルエネルギー変動を受けることを示唆している。 したがって,本研究は,平面内自由度を冷やすための改良技術設計の必要性を示唆する。

Two-dimensional crystals of ions stored in Penning traps are a leading platform for quantum simulation and sensing experiments. For small amplitudes, the out-of-plane motion of such crystals can be described by a discrete set of normal modes called the drumhead modes, which can be used to implement a range of quantum information protocols. However, experimental observations of crystals with Doppler-cooled and even near-ground-state-cooled drumhead modes reveal an unresolved drumhead mode spectrum. In this work, we establish in-plane thermal fluctuations in ion positions as a major contributor to the broadening of the drumhead mode spectrum. In the process, we demonstrate how the confining magnetic field leads to unconventional in-plane normal modes, whose average potential and kinetic energies are not equal. This property, in turn, has implications for the sampling procedure required to choose the in-plane initial conditions for molecular dynamics simulations. For current operating conditions of the NIST Penning trap, our study suggests that the two dimensional crystals produced in this trap undergo in-plane potential energy fluctuations of the order of $10$ mK. Our study therefore motivates the need for designing improved techniques to cool the in-plane degrees of freedom.
翻訳日:2023-05-05 20:43:53 公開日:2020-08-19
# 完全溶解性非線形ナノメカニカルシステムにおけるコヒーレンス生成

Generation of coherence in an exactly solvable nonlinear nanomechanical system ( http://arxiv.org/abs/2008.08562v1 )

ライセンス: Link先を確認
A. K. Singh, L. Chotorlishvili, S. Srivastava, I. Tralle, Z. Toklikishvili, J. Berakdar and S. K. Mishra(参考訳) 本研究は、非線形周期駆動機械発振器と結合した窒素空隙(nv)中心の量子力学に焦点をあてた。 振動子の位置に依存する連続周期駆動の場合、機械運動はマチュー楕円関数によって記述される。 この解は、環境効果を含む量子スピン系のダイナミクスを研究し、nvスピンの純度とフォン・ノイマンエントロピーを評価するために用いられる。 コヒーレンスの統一世代に対処する。 ユニタリ変換によるコヒーレンスの生成は、システムが最初に混合状態で準備されるかどうかに依存することが観察される。 コヒーレンスの生成は、システムが最初にセパラトリクスの領域(つまり、古典的システムが動的カオスを示す領域)で準備されるときに効率的である。 動的カオスの理論から、ホモクリニック・タングルを通過する系の位相軌道はメモリが限られており、初期状態に関する情報が失われることがわかっている。 我々は、量子カオスと混合初期状態に関する情報の減少が、ユニタリ進化を通じて量子コヒーレンスの生成を好むことを証明した。 我々はホモクリニックトライアングルから量子距離を導入し、コヒーレンスを効率的に生成できる初期状態の場合、この距離は最小であることを示した。

This study is focused on the quantum dynamics of a nitrogen-vacancy (NV) center coupled to a nonlinear, periodically driven mechanical oscillator. For a continuous periodic driving that depends on the position of the oscillator, the mechanical motion is described by Mathieu elliptic functions. This solution is employed to study the dynamics of the quantum spin system including environmental effects and to evaluate the purity and the von Neumann entropy of the NV-spin. The unitary generation of coherence is addressed. We observe that the production of coherence through a unitary transformation depends on whether the system is prepared initially in mixed state. Production of coherence is efficient when the system initially is prepared in the region of the separatrix (i.e., the region where classical systems exhibit dynamical chaos). From the theory of dynamical chaos, we know that phase trajectories of the system passing through the homoclinic tangle have limited memory, and therefore the information about the initial conditions is lost. We proved that quantum chaos and diminishing of information about the mixed initial state favors the generation of quantum coherence through the unitary evolution. We introduced quantum distance from the homoclinic tangle and proved that for the initial states permitting efficient generation of coherence, this distance is minimal.
翻訳日:2023-05-05 20:37:07 公開日:2020-08-19
# 集団的デコヒーレンス下におけるフェルミオン系における絡み合いの突然死

Sudden death of entanglement in fermionic systems under collective decoherence ( http://arxiv.org/abs/2008.08545v1 )

ライセンス: Link先を確認
D. G. Bussandri, A. P. Majtey and A. Vald\'es-Hern\'andez(参考訳) グローバルなボゾン環境と相互作用するスピン3/2$の2つの同一フェルミオン系における非コヒーレンスによる絡み合いのダイナミクスを解析する。 我々は、フェルミイオン相関を定量化するためにフェルミイオンの絡み合い(fermionic entanglement)と呼ばれる適切な尺度を用い、そのダイナミクスを同一環境に浸漬した2つの識別可能な量子ビットのそれと比較する。 システムの初期状態により、3種類の定性的異なるダイナミクスが識別される。 i) \textit{invariant regime}は、進化を通じてその絡み合いとコヒーレンスを維持する非コヒーレンス自由部分空間(DFS)に属する初期状態に対応する。 二 dfsに直交する初期状態に対応し、絡み合い及びコヒーレンスが指数関数的に減少する状態に向かって発展する \textit{exponential decay} iii) dfsと何らかの重なりを持ち、特にフェルミオンの絡み合いの突然の死亡につながるより豊かなダイナミクスを示す初期状態に対応し、コヒーレンスが指数関数的に崩壊する。 本分析は,同一粒子の開放系における絡み合いのダイナミクス,識別可能な粒子の場合との比較,および識別不能フェルミオン系における非一貫性フリー部分空間の存在,および絡み合い急死に関する知見を提供する。

We analyze the dynamics of entanglement due to decoherence in a system of two identical fermions with spin $3/2$ interacting with a global bosonic environment. We resort to an appropriate measure of the so-called fermionic entanglement to quantify the fermionic correlations, and compare its dynamics with that of a pair of distinguishable qubits immersed in the same environment. According to the system's initial state, three types of qualitatively different dynamics are identified: i) \textit{invariant regime}, corresponding to initial states that belong to a decoherence free subspace (DFS), which maintain invariant their entanglement and coherence throughout the evolution; ii) \textit{exponential decay}, corresponding to initial states orthogonal to the DFS, and evolve towards states whose entanglement and coherence decrease exponentially; iii) \textit{entanglement sudden death}, corresponding to initial states that have some overlap with the DFS and exhibit a richer dynamics leading, in particular, to the sudden death of the fermionic entanglement, while the coherence decays exponentially. Our analysis offers insights into the dynamics of entanglement in open systems of identical particles, into its comparison with the distinguishable-party case, and into the existence of decoherence free subspaces and entanglement sudden death in indistinguishable-fermion systems.
翻訳日:2023-05-05 20:36:48 公開日:2020-08-19
# スピン軌道結合のない運動量依存スピン分裂を有する低Zコリナーおよび非コリナー反強磁性化合物の予測

Prediction of low-Z collinear and noncollinear antiferromagnetic compounds having momentum-dependent spin splitting even without spin-orbit coupling ( http://arxiv.org/abs/2008.08532v1 )

ライセンス: Link先を確認
Lin-Ding Yuan, Zhi Wang, Jun-Wei Luo, Alex Zunger(参考訳) 最近の研究(ユアン等) とPhysは言う。 B 102, 014422 (2020)は、反強磁性秩序によって誘導されるSOC非依存のスピン分裂とスピン偏極効果を明らかにし、これは逆対称性の破れやSOCの存在を必ずしも必要とせず、したがって、中心対称で低Zの軽元素化合物でも存在し、スピン偏極の材料基盤を大きく広げることができる。 本研究は、1651個の磁気空間群を7つの異なるスピン分割プロトタイプ(SST-1からSST-7)に分割する磁気対称性条件を開発する。 対象特性を第一に定式化する「逆設計」アプローチ(以下、低対称性構造に制限されない低Z化合物のスピン分割)を用いて、これらの先行設計原理を満たす実現可能な化合物を探索する物理設計原理を導出する。 この過程は、afmによって誘導されるsoc非依存スピン分割とスピン偏光を保持することができる422の磁気空間群(160センチ対称と262非中心対称)を明らかにする。 次に、このような対称性の可能な安定な化合物を探索する。 そこで, 密度汎関数理論 (DFT) により選択された化合物の電子的およびスピン的構造を調査し, 従来のRashba-Dresselhausパターンとは異なるスピンテクスチャを求める。 我々は、全ての反強磁性スピンスプリッティングプロトタイプ(SST-1〜SST-4)に対するDFT結果を提供し、AFM誘起スピンスプリッティングプロトタイプ(SST-4)の開示に集中する。 対称性設計の原則は、その逆設計の材料探索アプローチへの変換と、DFT検証によって実験への道を開くことができる。 対称性設計の原則は、逆設計の材料探索アプローチへの変換と、DFT検証によって実験への道を開くことができる。

Recent study (Yuan et. al., Phys. Rev. B 102, 014422 (2020)) revealed a SOC-independent spin splitting and spin polarization effect induced by antiferromagnetic ordering which do not necessarily require breaking of inversion symmetry or the presence of SOC, hence can exist even in centrosymmetric, low-Z light element compounds, considerably broadening the material base for spin polarization. In the present work we develop the magnetic symmetry conditions enabling such effect, dividing the 1651 magnetic space groups into 7 different spin splitting prototypes (SST-1 to SST-7). We use the 'Inverse Design' approach of first formulating the target property (here, spin splitting in low-Z compounds not restricted to low symmetry structures), then derive the enabling physical design principles to search realizable compounds that satisfy these a priori design principles. This process uncovers 422 magnetic space groups (160 centrosymmetric and 262 non-centrosymmetric) that could hold AFM-induced, SOC-independent spin splitting and spin polarization. We then search for stable compounds following such enabling symmetries. We investigate the electronic and spin structures of some selected prototype compounds by density functional theory (DFT) and find spin textures that are different than the traditional Rashba-Dresselhaus patterns. We provide the DFT results for all antiferromagnetic spin splitting prototypes (SST-1 to SST-4) and concentrate on revealing of the AFM-induced spin splitting prototype (SST-4). The symmetry design principles along with their transformation into an Inverse Design material search approach and DFT verification could open the way to their experimental examination.M). The symmetry design principles along with their transformation into an Inverse Design material search approach and DFT verification could open the way to their experimental examination.
翻訳日:2023-05-05 20:36:16 公開日:2020-08-19
# 多光子ベル型不等式:連続可変量子光学系の非局所性を明らかにするツール

Multiphoton Bell-type inequality: a tool to unearth nonlocality of continuous variable quantum optical systems ( http://arxiv.org/abs/2008.08426v1 )

ライセンス: Link先を確認
Chandan Kumar and Gaurav Saxena and Arvind(参考訳) 多光子ベル型不等式 (multiphoton bell-type inequality) は、2光子状態を超えて変動する光子数を持つ状態だけでなく混合状態にも適用できる4モード連続変数系における非局所性の研究である。 この不等式を純粋および混合ガウス状態(圧縮された熱状態を含む)や非ガウス状態のような幅広い状態に適用する。 我々はビームスプリッタを漏れのモデルとみなし、不等式がガウス状態の非古典性も検出可能であることを示す。 最後に,非古典的,非ガウス的状態の顕著な例であるペアコヒーレント状態と絡み合ったコヒーレント状態の非局所性について検討する。

We consider a multiphoton Bell-type inequality to study nonlocality in four-mode continuous variable systems, which goes beyond two-photon states and can be applied to mixed as well as states with fluctuating photon number. We apply the inequality to a wide variety of states such as pure and mixed Gaussian states (including squeezed thermal states) and non-Gaussian states. We consider beam splitters as a model for leakage and show that the inequality is able to detect nonclassicality of noisy Gaussian states as well. Finally, we investigate nonlocality in pair-coherent states and entangled coherent states, which are prominent examples of nonclassical, non-Gaussian states.
翻訳日:2023-05-05 20:34:48 公開日:2020-08-19
# マルチモード状態用無ノイズ線形増幅器

Noiseless Linear Amplifiers for Multimode States ( http://arxiv.org/abs/2008.08376v1 )

ライセンス: Link先を確認
Mingjian He, Robert Malaney, Benjamin A. Burnett(参考訳) 広帯域量子光パルス内の異なる周波数成分間の絡み合い構造は、絡み合い発生時に鍛えられ、多くの多部量子情報アプリケーションの実現に期待できるルートである。 しかし、そのようなアプリケーションのスケーラビリティは光子損失に起因する絡み合いのデコヒーレンスによって大きく制限される。 このような損失と戦う有望な方法の1つは、無ノイズ線形増幅である。 しかしながら、単一モード状態にノイズレス線形増幅を実装する様々な手順があるが、これまでマルチモード構造を持つ量子状態にノイズレス線形増幅を行う方法が提案されていない。 本研究ではこのギャップを埋め、光触媒(PC)を用いた新しいノイズレス線形増幅器(NLA)、すなわちPC-NLAを提案する。 QS-NLAの量子シザー(QS)を用いた既存NLAのマルチモードバージョンを構築し,PC-NLAがQS-NLAとどのように互換性があるかを示す。 次に,新たに開発した多モードNLAフレームワークを連続可変(CV)絡み込み蒸留問題に適用し,その多モード構造がNLAの性能に与える影響を判定する。 単一モードNLA解析と異なり, チャネル損失が一定の閾値を超えた場合, マルチモードNLAはCVエンタングルメント蒸留戦略としてのみ有効であることが判明した。 ここで得られた結果は、ブロードバンド光パルス内の複雑な絡み合い構造を利用する多部量子情報アプリケーションの実現に有用である。

The entanglement structure between different frequency components within broadband quantum light pulses, forged at entanglement creation, represents a promising route to the practical delivery of many multipartite quantum information applications. However, the scalability of such applications is largely limited by the entanglement decoherence caused by photon loss. One promising method to combat such losses is noiseless linear amplification. However, while there have been various procedures that implement noiseless linear amplification on single-mode states, no realization has thus far been proposed for noiseless linear amplification on quantum states carrying a multimode structure. In this work we close this gap, proposing a novel Noiseless Linear Amplifier (NLA) with Photon Catalysis (PC), namely, the PC-NLA. Constructing a multimode version of an existing NLA that uses Quantum Scissors (QS), the QS-NLA, we then show how the PC-NLA is compatible with the QS-NLA, even though the former uses half the physical resources of the latter. We then apply our newly developed multimode NLA frameworks to the problem of Continuous-Variable (CV) entanglement distillation, determining how the multimode structure of the entanglement impacts the performance of the NLAs. Different from single-mode NLA analyses, we find that a multimode NLA is only effective as a CV entanglement distillation strategy when the channel loss is beyond some threshold - a threshold largely dependent on the multimode structure. The results provided here will be valuable for real-world implementations of multipartite quantum information applications that utilize complex entanglement structure within broadband light pulses.
翻訳日:2023-05-05 20:34:34 公開日:2020-08-19
# 古典アルゴリズムと量子アルゴリズムを用いた60株のポートフォリオ最適化

Portfolio Optimization of 60 Stocks Using Classical and Quantum Algorithms ( http://arxiv.org/abs/2008.08669v1 )

ライセンス: Link先を確認
Jeffrey Cohen, Alex Khan, Clark Alexander(参考訳) 我々は、米国上場の60の液体株式からなる宇宙から最適なポートフォリオを構築するための量子コンピュータの使用について引き続き調査している。 歴史的市場データからD-Wave Systems Inc.に独自の問題定式化を適用する。 d-wave 2000q (tm) 量子アニーリングシステム(以下d-waveと呼ぶ)は、最適リスク対リターンポートフォリオを見つける。 まずこれを古典的に、次にD-Waveを使って、効率的な購入とポートフォリオ保持を選択します。 その結果、実践者は古典的または量子的なアニーリング手法を使って魅力的なポートフォリオを選択できることがわかった。 これは40株の最適化に関するこれまでの取り組みに基づいている。

We continue to investigate the use of quantum computers for building an optimal portfolio out of a universe of 60 U.S. listed, liquid equities. Starting from historical market data, we apply our unique problem formulation on the D-Wave Systems Inc. D-Wave 2000Q (TM) quantum annealing system (hereafter called D-Wave) to find the optimal risk vs return portfolio. We approach this first classically, then using the D-Wave, to select efficient buy and hold portfolios. Our results show that practitioners can use either classical or quantum annealing methods to select attractive portfolios. This builds upon our prior work on optimization of 40 stocks.
翻訳日:2023-05-05 20:27:36 公開日:2020-08-19
# 非線形量子力学、時空波動関数、一般相対性理論との相性について

On Non-Linear Quantum Mechanics, Space-Time Wavefunctions, and Compatibility with General Relativity ( http://arxiv.org/abs/2008.08663v1 )

ライセンス: Link先を確認
W. David Wick(参考訳) 以前の論文では、測定問題の解として非線形シュロディンガー量子力学を記述した。 ここで、NLQMはアインシュタインの一般相対性理論と相容れないことを示す。 曲った時空への拡張は、時空波動関数(時には「多重時間波動関数」と呼ばれる)と、アインシュタインの計量テンソルを補う「バイテンソル」という代数的構造の導入を前提としている。 この種の物質は、質量項がなくても強いエネルギー条件に反し、ブラックホール内の特異点の形成につながる可能性がある。

In previous papers I expounded non-linear Schrodingerist quantum mechanics as a solution of the Measurement Problem. Here I show that NLQM is compatible with Einstein's theory of General Relativity. The extension to curved space-times presumes adoption of "space-time wavefunctions" (sometimes called "multi-time wavefunctions") and some additional algebraic structure: a "bitensor" supplementing Einstein's metric tensor. This kind of matter may violate the Strong Energy Condition even without a mass term, possibly with implications for the formation of singularities within Black Holes.
翻訳日:2023-05-05 20:27:24 公開日:2020-08-19
# パリティ作用素:量子メソロジーにおける応用

The Parity Operator: applications in quantum metrology ( http://arxiv.org/abs/2008.08658v1 )

ライセンス: Link先を確認
Richard J. Birrittella, Paul M. Alsing and Christopher C. Gerry(参考訳) 本稿では,量子メートル法で観測可能な検出法としてのパリティの使用を概観するとともに,ラムゼイ分光法における測定分解能と原子パリティの量子非分解(QND)測定に関する元の知見を紹介する。 パリティは原子状態検出の代替としてラムゼー分光法の文脈で初めて導入された。 後者は量子光学干渉計に応用され、経路対称状態に対する量子Cram\'{e}r-Rao境界を飽和させた観測可能な最適検出であることが示されている。 本稿では、位相推定の基礎とパリティに基づく検出と量子光干渉法に適用される量子フィッシャー情報との接続について概説する。 また,光子数パリティ測定における実験手法の取組みを議論し,マルチ原子スペクトロスコピーにおけるパリティ測定の精度向上につながるパリティの利用に関する議論を締めくくった。 高精度マルチ原子原子時計の構築において、これがどのように用いられるかを示す。

In this paper, we review the use of parity as a detection observable in quantum metrology as well as introduce some original findings with regards to measurement resolution in Ramsey spectroscopy and quantum non-demolition (QND) measures of atomic parity. Parity was first introduced in the context of Ramsey spectroscopy as an alternative to atomic state detection. It was latter adapted for use in quantum optical interferometry where it has been shown to be the optimal detection observable saturating the quantum Cram\'{e}r-Rao bound for path symmetric states. We include a brief review of the basics of phase estimation and the connection between parity-based detection and the quantum Fisher information as it applies to quantum optical interferometry. We also discuss the efforts made in experimental methods of measuring photon-number parity and close the paper with a discussion on the use of parity leading to enhanced measurement resolution in multi-atom spectroscopy. We show how this may be of use in the construction of high-precision multi-atom atomic clocks.
翻訳日:2023-05-05 20:27:13 公開日:2020-08-19
# ソーシャルメディアにおける悪意ある攻撃者に対するロバストオピニオンスパム検出法

A Robust Opinion Spam Detection Method Against Malicious Attackers in Social Media ( http://arxiv.org/abs/2008.08650v1 )

ライセンス: Link先を確認
Amir Jalaly Bidgolya, Zoleikha Rahmaniana(参考訳) オンラインレビューは、業界オーナーや購入者にとって強力な情報源だが、機会に恵まれる人々は、スパム意見という偽のコメントを公表することで、自分たちの製品を破壊または宣伝しようとするかもしれない。 これまで、スパムの意見を検出するために多くのモデルが開発されてきたが、スパム攻撃の問題には対処していない。 これは、スマートスパマーがシステムによって検出され、ブロックされることを恐れずにスパムを生成し続けるように、システムをだますことができる方法である。 本稿では,スパム攻撃について述べる。 さらに,ロバストグラフに基づくスパム検出手法を提案する。 提案手法は, 疑似シナリオを考慮したレビュー, レビュー, レビュー, 製品の誠実さ, 信頼度, 信頼性値を推定する。 また,いくつかのケーススタディを通して,他のグラフベース手法と比較して,提案手法の有効性を示す。

Online reviews are potent sources for industry owners and buyers, however opportunistic people may try to destruct or promote their desired product by publishing fake comments named spam opinion. So far, many models have been developed to detect spam opinions, but none have addressed the issue of spam attack. It is a way a smart spammer can deceive the system in a manner in which he can continue generating spams without the fear of being detected and blocked by the system. In this paper, the spam attacks are discussed. Moreover, a robust graph-based spam detection method is proposed. The method respectively estimates honesty, trust and reliability values of reviews, reviewers, and products considering possible deception scenarios. The paper also presents the efficiency of the proposed method as compared to other graph-based methods through some case studies.
翻訳日:2023-05-05 20:26:54 公開日:2020-08-19
# 量子最適化のための低深さ機構

Low depth mechanisms for quantum optimization ( http://arxiv.org/abs/2008.08615v1 )

ライセンス: Link先を確認
Jarrod R. McClean, Matthew P. Harrigan, Masoud Mohseni, Nicholas C. Rubin, Zhang Jiang, Sergio Boixo, Vadim N. Smelyanskiy, Ryan Babbush, Hartmut Neven(参考訳) 短期的およびフォールトトレラントな量子コンピュータの主要な応用分野の1つは、古典的目的関数の最適化である。 本研究では,量子システムの単純なダイナミクス,量子ウォーク,古典的連続緩和とのつながりに基づいて,これらのアルゴリズムの大規模クラスに対する直感的な構成法を開発した。 我々は、成功の物理的メカニズムとアルゴリズム改善の導出の失敗を理解するために、グラフ上の運動エネルギーに関連する言語とツールの開発に注力する。 この物理的言語とユニタリティに関連する一意性の結果を組み合わせることで、最適化の目標に基本的に反対する運動エネルギーから潜在的な落とし穴を特定できる。 これは波動関数の閉じ込め、位相ランダム化、理想解から遠く離れた目標に潜む影欠陥の影響と関係している。 一例として、未結合のスピン問題の解法における多くの量子メソッドの驚くべき欠如と、これがより複雑なシステムの性能の予測でありながら、即座に単純な解法を提案する方法を探る。 hamming ramp や bush of impact のような正準問題に対するさらなる検討は、qaoa のようなアプローチにおける解の根底にあるメカニズムから、エンタングルメントがパフォーマンスに厳密に有害であることを示している。 運動エネルギーとグラフラプラシアの視点は、QAOAにおける共通の初期化と最適解に対する新しい洞察と、より効果的なレイヤーワイドトレーニングのための新しい方法を提供する。 古典的拡張法、ホモトピー法、繰り返し丸め法への接続は、量子最適化の研究の新しい方向性を示唆する。 全体を通して、新しい量子最適化アルゴリズムの開発を促進することを目的として、物理視点を用いた量子最適化における多くの落とし穴とメカニズムを披露する。

One of the major application areas of interest for both near-term and fault-tolerant quantum computers is the optimization of classical objective functions. In this work, we develop intuitive constructions for a large class of these algorithms based on connections to simple dynamics of quantum systems, quantum walks, and classical continuous relaxations. We focus on developing a language and tools connected with kinetic energy on a graph for understanding the physical mechanisms of success and failure to guide algorithmic improvement. This physical language, in combination with uniqueness results related to unitarity, allow us to identify some potential pitfalls from kinetic energy fundamentally opposing the goal of optimization. This is connected to effects from wavefunction confinement, phase randomization, and shadow defects lurking in the objective far away from the ideal solution. As an example, we explore the surprising deficiency of many quantum methods in solving uncoupled spin problems and how this is both predictive of performance on some more complex systems while immediately suggesting simple resolutions. Further examination of canonical problems like the Hamming ramp or bush of implications show that entanglement can be strictly detrimental to performance results from the underlying mechanism of solution in approaches like QAOA. Kinetic energy and graph Laplacian perspectives provide new insights to common initialization and optimal solutions in QAOA as well as new methods for more effective layerwise training. Connections to classical methods of continuous extensions, homotopy methods, and iterated rounding suggest new directions for research in quantum optimization. Throughout, we unveil many pitfalls and mechanisms in quantum optimization using a physical perspective, which aim to spur the development of novel quantum optimization algorithms and refinements.
翻訳日:2023-05-05 20:25:41 公開日:2020-08-19
# 変動重力浴からの物質波干渉計のコヒーレンス損失

Loss of coherence of matter-wave interferometer from fluctuating graviton bath ( http://arxiv.org/abs/2008.08609v1 )

ライセンス: Link先を確認
Marko Toro\v{s}, Anupam Mazumdar, Sougato Bose(参考訳) 本稿では,非相対論的物質波干渉計を量子重力浴$\mathord{-}$と組み合わせて検討し,物質-重力頂点による物質セクタにおけるコヒーレンス損失について考察する。 まず第一に、そのような過程はいかなる絡み合いをもたらさないが、それでもオンシェル散乱図は、私たちが示すようにコヒーレンスを失う可能性がある。 重要なことは、グラビトン放出が、支配的な位数$\sim\mathcal{O}(c^{-2})$におけるエネルギーと運動量の保存と一致する唯一の頂点であることを示す。 結果として生じる劣化は極めて軽度であり、メソスコピック系における物質波干渉計に制約を課すことはほとんどない。 特に、2つのマター波干渉計である$\mathord{-}$の絡み合いによって重力子の量子的側面をテストする、最近提案された実験におけるコヒーレンスの損失は、完全に無視できることを示している。

In this paper we consider non-relativistic matter-wave interferometer coupled with a quantum graviton bath $\mathord{-}$ and discuss the loss of coherence in the matter sector due to the matter-graviton vertex. First of all, such a process does not lead to any entanglement, but nonetheless the on-shell scattering diagram can lead to loss of coherence as we will show. Importantly, we will show that graviton emission is the only one-vertex Feynman-diagram $\sim\sqrt{G}$ which is consistent with the conservation of energy and momentum at the dominant order $\sim\mathcal{O}(c^{-2})$. We will find that the resulting dephasing is extremely mild and hardly places any constraints on matter-wave interferometers in the mesoscopic regime. In particular, the show that the corresponding loss of coherence in the recently proposed experiment which would test quantum aspects of graviton $\mathord{-}$ via entanglement of two matter-wave interferometers $\mathord{-}$ is completely negligible.
翻訳日:2023-05-05 20:25:13 公開日:2020-08-19
# 多体局在相間の遷移における創発的エルゴディティ

Emergent ergodicity at the transition between many-body localized phases ( http://arxiv.org/abs/2008.08585v1 )

ライセンス: Link先を確認
Rahul Sahay, Francisco Machado, Bingtian Ye, Chris R. Laumann, Norman Y. Yao(参考訳) 多体局在化(MBL)相の強い乱れは、高励起固有状態において基底状態秩序を示す。 局在化、対称性、トポロジーの相互作用により、スピングラスや時間結晶から対称性保護トポロジー相まで幅広いMBL相の風景が特徴づけられるようになった。 これらの異なる形の固有状態秩序の間の相転移の性質を理解することは、依然として必須のオープンな問題である。 ここでは、異なるMBL位数間の直接的な遷移は起こらないと推測する。 rydberg-atomに基づく量子シミュレーションの最近の進歩に動機づけられ,局所観測器の動力学を用いて干渉熱位相を診断する実験プロトコルを提案する。

Strongly disordered systems in the many-body localized (MBL) phase can exhibit ground state order in highly excited eigenstates. The interplay between localization, symmetry, and topology has led to the characterization of a broad landscape of MBL phases ranging from spin glasses and time crystals to symmetry protected topological phases. Understanding the nature of phase transitions between these different forms of eigenstate order remains an essential open question. Here, we conjecture that no direct transition between distinct MBL orders can occur; rather, a thermal phase always intervenes. Motivated by recent advances in Rydberg-atom-based quantum simulation, we propose an experimental protocol where the intervening thermal phase can be diagnosed via the dynamics of local observables.
翻訳日:2023-05-05 20:24:52 公開日:2020-08-19
# 幾何学量子熱力学

Geometric Quantum Thermodynamics ( http://arxiv.org/abs/2008.08683v1 )

ライセンス: Link先を確認
Fabio Anza and James P. Crutchfield(参考訳) 幾何学的量子力学と古典力学の並列性に基づいて、基底状態空間の微分幾何学を利用する量子熱力学の代替基盤を探索する。 量子状態の多様体上の分布として連続混合状態を導入するマイクロカノニカルアンサンブルと正準アンサンブルの両方を開発する。 実験の結果をクウディッツのガスの 実験結果と呼びます 我々は、量子熱を定義し、単軌跡の仕事を含む本質的な方法で働き、古典的、量子的、情報論的エントロピーと一致する方法で熱力学的エントロピーを再構成する。 熱力学の第一法則と第二法則とジャジンキのゆらぎ理論の両方を与える。 この結果は従来よりも透明な物理学であり、古典力学と量子力学の基礎となる数学的構造と物理的直観は密接に整合している。

Building on parallels between geometric quantum mechanics and classical mechanics, we explore an alternative basis for quantum thermodynamics that exploits the differential geometry of the underlying state space. We develop both microcanonical and canonical ensembles, introducing continuous mixed states as distributions on the manifold of quantum states. We call out the experimental consequences for a gas of qudits. We define quantum heat and work in an intrinsic way, including single-trajectory work, and reformulate thermodynamic entropy in a way that accords with classical, quantum, and information-theoretic entropies. We give both the First and Second Laws of Thermodynamics and Jarzynki's Fluctuation Theorem. The result is a more transparent physics, than conventionally available, in which the mathematical structure and physical intuitions underlying classical and quantum dynamics are seen to be closely aligned.
翻訳日:2023-05-05 20:15:57 公開日:2020-08-19
# 密度行列を超える:幾何学的量子状態

Beyond Density Matrices: Geometric Quantum States ( http://arxiv.org/abs/2008.08682v1 )

ライセンス: Link先を確認
Fabio Anza and James P. Crutchfield(参考訳) 量子系の状態は密度行列と同一視される。 確率論的解釈はアンサンブル理論に根ざしているが、密度行列は既知の欠点を具現化している。 彼らはアンサンブルの物理的実現を完全に表現していない。 都合の良いことに、射影的および正の演算子値測定の統計結果のみを扱う場合、これは妨げにならない。 アンサンブル実現を追跡し、欠点を取り除くために、幾何学的量子状態を調べ、その物理的意義を説明する。 量子状態操作における1つと、量子熱力学における1つである。

A quantum system's state is identified with a density matrix. Though their probabilistic interpretation is rooted in ensemble theory, density matrices embody a known shortcoming. They do not completely express an ensemble's physical realization. Conveniently, when working only with the statistical outcomes of projective and positive operator-valued measurements this is not a hindrance. To track ensemble realizations and so remove the shortcoming, we explore geometric quantum states and explain their physical significance. We emphasize two main consequences: one in quantum state manipulation and one in quantum thermodynamics.
翻訳日:2023-05-05 20:15:42 公開日:2020-08-19
# 幾何学的量子状態推定

Geometric Quantum State Estimation ( http://arxiv.org/abs/2008.08679v1 )

ライセンス: Link先を確認
Fabio Anza and James P. Crutchfield(参考訳) 密度行列は、射影的および正の演算子値の測定により、量子系の統計を全て取得する。 しかし、彼らはアンサンブルの物理的実現を無視するため、その状態を完全には決定しない。 幸いなことに、幾何学的量子状態の概念は物理的アンサンブルを適切に記述している。 ここでは、トモグラフィープロトコルから生じるであろう密度行列の知識を考慮し、幾何学的に適切なエントロピーに基づいて最大エントロピー原理を用いて幾何量子状態を推定する方法を示す。

Density matrices capture all of a quantum system's statistics accessible through projective and positive operator-valued measurements. They do not completely determine its state, however, as they neglect the physical realization of ensembles. Fortunately, the concept of geometric quantum state does properly describe physical ensembles. Here, given knowledge of a density matrix, possibly arising from a tomography protocol, we show how to estimate the geometric quantum state using a maximum entropy principle based on a geometrically-appropriate entropy.
翻訳日:2023-05-05 20:15:34 公開日:2020-08-19
# sympnets: ハミルトン系同定のための構造保存型シンプレクティックネットワーク

SympNets: Intrinsic structure-preserving symplectic networks for identifying Hamiltonian systems ( http://arxiv.org/abs/2001.03750v3 )

ライセンス: Link先を確認
Pengzhan Jin, Zhen Zhang, Aiqing Zhu, Yifa Tang and George Em Karniadakis(参考訳) 本稿では,線形,活性化,勾配モジュールの構成に基づくデータからハミルトン系を同定する新しいシンプレクティックネットワーク(シンプレクティックネットワーク)を提案する。 具体的には、線形および活性化モジュールからなるLA-SympNetsと勾配モジュールからなるG-SympNetsの2つのクラスを定義する。 これに対応して、SympNetsが適切なアクティベーション関数に基づいて任意のシンプレクティックマップを近似できることを示す2つの新しい普遍近似定理を証明した。 次に, 振子, 二重振子, 3体問題などの実験を行い, シンプネットの表現性と一般化能力について検討した。 シミュレーション結果から,非常に小型のシンプネットでもよく一般化でき,分離性および分離性のないハミルトニアン系の両方を,短時間または長時間のステップから得られるデータポイントで処理できることがわかった。 すべてのテストケースにおいて、sympnetsはベースラインモデルよりも優れており、トレーニングと予測においてはるかに高速である。 また、不規則なサンプルデータからダイナミックスを学ぶためのSympNetsの拡張版も開発した。 この拡張されたシンプネットは、任意のハミルトニアン系の解を表す普遍モデルと考えることができる。

We propose new symplectic networks (SympNets) for identifying Hamiltonian systems from data based on a composition of linear, activation and gradient modules. In particular, we define two classes of SympNets: the LA-SympNets composed of linear and activation modules, and the G-SympNets composed of gradient modules. Correspondingly, we prove two new universal approximation theorems that demonstrate that SympNets can approximate arbitrary symplectic maps based on appropriate activation functions. We then perform several experiments including the pendulum, double pendulum and three-body problems to investigate the expressivity and the generalization ability of SympNets. The simulation results show that even very small size SympNets can generalize well, and are able to handle both separable and non-separable Hamiltonian systems with data points resulting from short or long time steps. In all the test cases, SympNets outperform the baseline models, and are much faster in training and prediction. We also develop an extended version of SympNets to learn the dynamics from irregularly sampled data. This extended version of SympNets can be thought of as a universal model representing the solution to an arbitrary Hamiltonian system.
翻訳日:2023-01-12 09:25:02 公開日:2020-08-19
# 空間認識の4次元認識における顔以外の読み方

Towards Reading Beyond Faces for Sparsity-Aware 4D Affect Recognition ( http://arxiv.org/abs/2002.03157v4 )

ライセンス: Link先を確認
Muzammil Behzad, Nhat Vo, Xiaobai Li, Guoying Zhao(参考訳) 本稿では,4次元表情自動認識(fer)のための分散認識深層ネットワークを提案する。 4次元データに対して,まず,深層学習におけるデータ制限問題に対処する新しい拡張法を提案する。 入力データをRGBおよび深度マップイメージに投影し、ランダム化されたチャネル結合を反復的に実行する。 得られた3次元ランドマークにエンコードされた3つの直交平面(TOP)から顔の筋肉の動きを多視点で捉える効果的な方法も導入した。 重要なのは,マルチビュー上の畳み込み特徴のスパース表現を計算するために,スパース性を考慮したディープネットワークを提案することだ。 これは高い認識精度に有効であるだけでなく、計算上も便利である。 トレーニングでは、長い短期記憶(LSTM)ネットワークをトレーニングするためにTOPランドマークとスパース表現を使用する。 洗練された予測は、学習した機能が複数ビューで協調して達成される。 BU-4DFEデータセットによる大規模な実験結果から,4D FERの99.69%の精度を達成し,最先端手法に対する本手法の意義が示された。

In this paper, we present a sparsity-aware deep network for automatic 4D facial expression recognition (FER). Given 4D data, we first propose a novel augmentation method to combat the data limitation problem for deep learning. This is achieved by projecting the input data into RGB and depth map images and then iteratively performing randomized channel concatenation. Encoded in the given 3D landmarks, we also introduce an effective way to capture the facial muscle movements from three orthogonal plans (TOP), the TOP-landmarks over multi-views. Importantly, we then present a sparsity-aware deep network to compute the sparse representations of convolutional features over multi-views. This is not only effective for a higher recognition accuracy but is also computationally convenient. For training, the TOP-landmarks and sparse representations are used to train a long short-term memory (LSTM) network. The refined predictions are achieved when the learned features collaborate over multi-views. Extensive experimental results achieved on the BU-4DFE dataset show the significance of our method over the state-of-the-art methods by reaching a promising accuracy of 99.69% for 4D FER.
翻訳日:2023-01-02 22:55:16 公開日:2020-08-19
# K-bMOM:Meansのブートストラップに基づくロッド型クラスタリングアルゴリズム

K-bMOM: a robust Lloyd-type clustering algorithm based on bootstrap Median-of-Means ( http://arxiv.org/abs/2002.03899v2 )

ライセンス: Link先を確認
Camille Brunet-Saumard, Edouard Genetay, Adrien Saumard(参考訳) 本稿では,データセットの外れ値の存在に頑健な新しいクラスタリングアルゴリズムを提案する。 我々は、セントロイドの頑健な推定でロイド型反復を行う。 より正確には、中央値統計のアイデアに基づいて、セントロイドを推定するが、ブロックを構築しながら置き換えることができる。 この手法をbootstrap median-of-means(bmom)と呼び、bootstrapサンプリングによって十分なブロックが生成されるならば、ブロックがデータセットのパーティションを形成する古典的な middle-of-means(mom)よりも平均推定のブレークダウンポイントが優れていることを証明します。 クラスタリングの観点からは、bMOMは所望の大きさの多くのブロックを取ることができるため、いくつかのブロックにおけるクラスタの消失を避けることができる。 シミュレーションデータセットの実験により、提案手法はK-bMOMと呼ばれ、既存のロバストなK-meansベースの手法よりも優れていることが示された。 ハイパーパラメータK-bMOMを実際にチューニングするためのガイドラインが提供されている。 また、クラスタリングアルゴリズムの初期化にこのような堅牢なアプローチを使用することも推奨されている。 最後に,この推定器の簡易化と理論的バージョンを考えると,k-平均偏差のロバストな収束率を導出することにより,その対向汚染に対するロバスト性が証明される。 我々の知る限り、これはK-平均歪曲の最初の結果である。

We propose a new clustering algorithm that is robust to the presence of outliers in the dataset. We perform Lloyd-type iterations with robust estimates of the centroids. More precisely, we build on the idea of median-of-means statistics to estimate the centroids, but allow for replacement while constructing the blocks. We call this methodology the bootstrap median-of-means (bMOM) and prove that if enough blocks are generated through the bootstrap sampling, then it has a better breakdown point for mean estimation than the classical median-of-means (MOM), where the blocks form a partition of the dataset. From a clustering perspective, bMOM enables to take many blocks of a desired size, thus avoiding possible disappearance of clusters in some blocks, a pitfall that can occur for the partition-based generation of blocks of the classical median-of-means. Experiments on simulated datasets show that the proposed approach, called K-bMOM, performs better than existing robust K-means based methods. Guidelines are provided for tuning the hyper-parameters K-bMOM in practice. It is also recommended to the practitionner to use such a robust approach to initialize their clustering algorithm. Finally, considering a simplified and theoretical version of our estimator, we prove its robustness to adversarial contamination by deriving robust rates of convergence for the K-means distorsion. To our knowledge, it is the first result of this kind for the K-means distorsion.
翻訳日:2023-01-02 09:30:57 公開日:2020-08-19
# 因果機構伝達による小ショット領域適応

Few-shot Domain Adaptation by Causal Mechanism Transfer ( http://arxiv.org/abs/2002.03497v2 )

ライセンス: Link先を確認
Takeshi Teshima, Issei Sato, Masashi Sugiyama(参考訳) 我々は,少数のラベル付き対象ドメインデータと多数のラベル付きソースドメインデータしか利用できない回帰問題に対して,数ショットの教師付きドメイン適応(DA)について検討する。 現在のda法の多くは、パラメトリライズド分布シフトまたは見かけの分布類似性(例えば、同一条件または小さな分布の不一致)に基づく伝達仮定に基づいている。 しかし、これらの仮定は、複雑なシフトや明らかに異なる分布への適応を妨げうる。 この問題を解決するために,データ生成機構がドメイン間で不変なメタ分散シナリオであるメカニズム転送を提案する。 この転移仮定は、DAの統計的基盤を提供しながら、明らかに異なる分布をもたらす非パラメトリックシフトを許容することができる。 因果モデリングにおける構造方程式を例とし,理論的および実験的に有用であることを示す新しいda法を提案する。 本手法は, DAの構造因果モデルを完全に活用するための最初の試みであると考えられる。

We study few-shot supervised domain adaptation (DA) for regression problems, where only a few labeled target domain data and many labeled source domain data are available. Many of the current DA methods base their transfer assumptions on either parametrized distribution shift or apparent distribution similarities, e.g., identical conditionals or small distributional discrepancies. However, these assumptions may preclude the possibility of adaptation from intricately shifted and apparently very different distributions. To overcome this problem, we propose mechanism transfer, a meta-distributional scenario in which a data generating mechanism is invariant among domains. This transfer assumption can accommodate nonparametric shifts resulting in apparently different distributions while providing a solid statistical basis for DA. We take the structural equations in causal modeling as an example and propose a novel DA method, which is shown to be useful both theoretically and experimentally. Our method can be seen as the first attempt to fully leverage the structural causal models for DA.
翻訳日:2023-01-02 07:30:08 公開日:2020-08-19
# メッセージパッシングによる論理的・算術的制約によるハイブリッド確率推論のスケールアップ

Scaling up Hybrid Probabilistic Inference with Logical and Arithmetic Constraints via Message Passing ( http://arxiv.org/abs/2003.00126v2 )

ライセンス: Link先を確認
Zhe Zeng, Paolo Morettin, Fanqi Yan, Antonio Vergari, Guy Van den Broeck(参考訳) 重み付きモデル統合(WMI)は確率的推論のための非常に魅力的なフレームワークであり、変数が連続的かつ離散的である実世界の問題の複雑な依存関係を、Satifiability Modulo Theories(SMT)言語を介して表現し、複雑な論理的および算術的制約で確率的クエリを計算することができる。 しかし、既存のWMIソルバはこれらの問題にスケールする準備ができていない。 彼らは問題の本質的な依存関係構造を全く無視するか、あるいは過度に制限された構造に制限される。 このギャップを狭めるために、メッセージパッシング(MP-WMI)に基づいてスケーラブルなWMIソルバを設計できるWMIの分解形式を導出する。 すなわち、MP-WMIは、次のように可能な最初のWMIソルバである。 1) 木構造WMI問題の全クラスについて正確な推論を行う。 2) すべての限界密度を線形時間で計算する。 3) 推論を償却する 問合せ。 実験結果から,既存のWMIソルバを大規模ベンチマークで劇的に上回る結果が得られた。

Weighted model integration (WMI) is a very appealing framework for probabilistic inference: it allows to express the complex dependencies of real-world problems where variables are both continuous and discrete, via the language of Satisfiability Modulo Theories (SMT), as well as to compute probabilistic queries with complex logical and arithmetic constraints. Yet, existing WMI solvers are not ready to scale to these problems. They either ignore the intrinsic dependency structure of the problem at all, or they are limited to too restrictive structures. To narrow this gap, we derive a factorized formalism of WMI enabling us to devise a scalable WMI solver based on message passing, MP-WMI. Namely, MP-WMI is the first WMI solver which allows to: 1) perform exact inference on the full class of tree-structured WMI problems; 2) compute all marginal densities in linear time; 3) amortize inference inter query. Experimental results show that our solver dramatically outperforms the existing WMI solvers on a large set of benchmarks.
翻訳日:2022-12-28 02:23:29 公開日:2020-08-19
# 森林火災科学・管理における機械学習応用の展望

A review of machine learning applications in wildfire science and management ( http://arxiv.org/abs/2003.00646v2 )

ライセンス: Link先を確認
Piyush Jain, Sean C P Coogan, Sriram Ganapathi Subramanian, Mark Crowley, Steve Taylor, Mike D Flannigan(参考訳) 人工知能は1990年代からワイルドファイア科学や管理に応用され、ニューラルネットワークやエキスパートシステムなどの初期の応用例がある。 それ以来、環境科学における機械学習(ML)の普及に伴い、この分野は急速に進展してきた。 本稿では,山火事の科学とマネジメントにおけるMLのスコーピングレビューを紹介する。 私たちの目標は、山火事の科学者やマネージャのmlに対する意識の向上と、データサイエンティストが利用可能な山火事の科学における課題範囲の明確化です。 まず,これまでのワイルドファイア科学における一般的なmlアプローチの概要を述べるとともに,6つの問題領域におけるワイルドファイア科学におけるその利用について概観する。 1) 燃料のキャラクタリゼーション、火災検知及びマッピング 2 火災の天候及び気候変動 3) 火災の発生,感受性及びリスク 4) 火災行動予測 5) 火災の影響,及び 6) 火災管理。 また、様々なmlアプローチの利点と限界を議論し、データサイエンスのコンテキストにおけるワイルドファイア科学とマネジメントの将来の発展の機会を特定する。 そこでは,ランダムフォレスト,マゼント,ニューラルネットワーク,意思決定木,サポートベクターマシン,遺伝的アルゴリズムなど,ml手法が最も多く使用されている298の出版物を特定した。 より現在のML手法(例えばディープラーニングやエージェントベースの学習)を山火事科学に適用する機会がある。 しかし、機械学習モデルが独自の学習を行う能力があるにもかかわらず、複数のスケールにわたるファイヤープロセスの現実的なモデリングを保証するためには、山火事科学の専門知識が必要である。 最後に,野火研究・管理コミュニティが,ML手法の実践者による関連性の高い高品質なデータ提供に積極的な役割を担っていることを強調する。

Artificial intelligence has been applied in wildfire science and management since the 1990s, with early applications including neural networks and expert systems. Since then the field has rapidly progressed congruently with the wide adoption of machine learning (ML) in the environmental sciences. Here, we present a scoping review of ML in wildfire science and management. Our objective is to improve awareness of ML among wildfire scientists and managers, as well as illustrate the challenging range of problems in wildfire science available to data scientists. We first present an overview of popular ML approaches used in wildfire science to date, and then review their use in wildfire science within six problem domains: 1) fuels characterization, fire detection, and mapping; 2) fire weather and climate change; 3) fire occurrence, susceptibility, and risk; 4) fire behavior prediction; 5) fire effects; and 6) fire management. We also discuss the advantages and limitations of various ML approaches and identify opportunities for future advances in wildfire science and management within a data science context. We identified 298 relevant publications, where the most frequently used ML methods included random forests, MaxEnt, artificial neural networks, decision trees, support vector machines, and genetic algorithms. There exists opportunities to apply more current ML methods (e.g., deep learning and agent based learning) in wildfire science. However, despite the ability of ML models to learn on their own, expertise in wildfire science is necessary to ensure realistic modelling of fire processes across multiple scales, while the complexity of some ML methods requires sophisticated knowledge for their application. Finally, we stress that the wildfire research and management community plays an active role in providing relevant, high quality data for use by practitioners of ML methods.
翻訳日:2022-12-27 04:23:23 公開日:2020-08-19
# 脳波に基づく運動画像分類のための注意点付きマイトショット関係学習

Few-Shot Relation Learning with Attention for EEG-based Motor Imagery Classification ( http://arxiv.org/abs/2003.01300v2 )

ライセンス: Link先を確認
Sion An, Soopil Kim, Philip Chikontwe and Sang Hyun Park(参考訳) 脳波(EEG)信号に基づくBCI(Brain-Computer Interfaces)は、特に運動画像(MI)データに大きな注目を集めており、医療や他の産業において重要な技術の設計への可能性を示している。 MIデータは、被験者が手足の動きを想像したときに生成され、自律運転のシナリオと同様にリハビリテーションを助けるために使用できる。 したがって、脳波に基づくbciシステムではmi信号の分類が不可欠である。 近年,深層学習を用いたMI EEG分類技術では,従来の手法よりも性能が向上している。 しかし, サブジェクト間変動, 被写体データ不足, 信号対雑音比の低さなどにより, 頑健な特徴抽出と精度向上はいまだに困難である。 そこで本研究では,未確認対象カテゴリの代表的特徴の学習方法と,限られたMIEEGデータで分類する方法について,効果的に学習できる2方向スプリットショットネットワークを提案する。 このパイプラインは、一連のサンプルから特徴表現を学習する埋め込みモジュールと、キー信号特徴発見のための注意機構と、サポートセットとクエリ信号との間の関係スコアに基づいて最終分類を行う関係モジュールとを含む。 特徴類似性の統一学習といくつかのショット分類器に加えて,提案手法は,クエリデータに関連するサポートデータにおいて,情報的特徴を強調し,不明瞭な対象を一般化する。 評価にはbci competition iv 2bデータセットを用い,最新性能の20ショット分類タスクにおいて9.3%の精度向上を達成した。 実験の結果,注意力の利用の有効性と手法の全体的な一般化が示された。

Brain-Computer Interfaces (BCI) based on Electroencephalography (EEG) signals, in particular motor imagery (MI) data have received a lot of attention and show the potential towards the design of key technologies both in healthcare and other industries. MI data is generated when a subject imagines movement of limbs and can be used to aid rehabilitation as well as in autonomous driving scenarios. Thus, classification of MI signals is vital for EEG-based BCI systems. Recently, MI EEG classification techniques using deep learning have shown improved performance over conventional techniques. However, due to inter-subject variability, the scarcity of unseen subject data, and low signal-to-noise ratio, extracting robust features and improving accuracy is still challenging. In this context, we propose a novel two-way few shot network that is able to efficiently learn how to learn representative features of unseen subject categories and how to classify them with limited MI EEG data. The pipeline includes an embedding module that learns feature representations from a set of samples, an attention mechanism for key signal feature discovery, and a relation module for final classification based on relation scores between a support set and a query signal. In addition to the unified learning of feature similarity and a few shot classifier, our method leads to emphasize informative features in support data relevant to the query data, which generalizes better on unseen subjects. For evaluation, we used the BCI competition IV 2b dataset and achieved an 9.3% accuracy improvement in the 20-shot classification task with state-of-the-art performance. Experimental results demonstrate the effectiveness of employing attention and the overall generality of our method.
翻訳日:2022-12-26 23:28:23 公開日:2020-08-19
# 回転機械知能診断のためのディープラーニングアルゴリズム:オープンソースのベンチマーク研究

Deep Learning Algorithms for Rotating Machinery Intelligent Diagnosis: An Open Source Benchmark Study ( http://arxiv.org/abs/2003.03315v3 )

ライセンス: Link先を確認
Zhibin Zhao, Tianfu Li, Jingyao Wu, Chuang Sun, Shibin Wang, Ruqiang Yan, Xuefeng Chen(参考訳) 深層学習(DL)技術の発展に伴い、機械知能診断の回転は極めて進歩し、多くのDLベースの知能診断アルゴリズムの分類精度は100倍になる傾向にある。 しかしながら、異なるデータセット、設定、ハイパーパラメータは、しばしば異なるタイプのモデルのパフォーマンス検証に使用されるように推奨され、評価と比較のために公開されるオープンソースコードはほとんどない。 したがって、この分野の進歩を制限する回転機械知能診断において、不公平な比較と非効率な改善が存在する可能性がある。 これらの問題に対処するために,マルチレイヤ知覚(mlp),オートエンコーダ(ae),畳み込みニューラルネットワーク(cnn),リカレントニューラルネットワーク(rnn)の4種類のモデルについて,さまざまなデータセットを用いて広範な評価を行い,同じフレームワーク内でベンチマークスタディを提供する。 まず、利用可能なデータセットのほとんどを収集し、2つのデータ分割戦略、5つの入力形式、3つの正規化方法、4つの拡張方法の下で、DLベースのインテリジェントアルゴリズムの完全なベンチマーク研究を行う。 次に、評価コード全体をコードライブラリに統合し、このフィールドの開発を改善するために、このコードライブラリを一般公開します。 第3に、クラス不均衡、一般化能力、解釈可能性、少数ショット学習、モデル選択など、既存の問題を指摘するために、特定の設計ケースを使用します。 これらの作業によって、モデルの比較とテストを公平かつ迅速に行うための統一コードフレームワークをリリースし、オープンソースコードの重要性を強調し、無駄な改善を避けるためのベースライン精度(下限)を提供し、この分野の今後の方向性について議論します。 コードライブラリはhttps://github.com/zhaozhibin/dlベースのintelligent-diagnosis-benchmarkで入手できる。

With the development of deep learning (DL) techniques, rotating machinery intelligent diagnosis has gone through tremendous progress with verified success and the classification accuracies of many DL-based intelligent diagnosis algorithms are tending to 100\%. However, different datasets, configurations, and hyper-parameters are often recommended to be used in performance verification for different types of models, and few open source codes are made public for evaluation and comparisons. Therefore, unfair comparisons and ineffective improvement may exist in rotating machinery intelligent diagnosis, which limits the advancement of this field. To address these issues, we perform an extensive evaluation of four kinds of models, including multi-layer perception (MLP), auto-encoder (AE), convolutional neural network (CNN), and recurrent neural network (RNN), with various datasets to provide a benchmark study within the same framework. We first gather most of the publicly available datasets and give the complete benchmark study of DL-based intelligent algorithms under two data split strategies, five input formats, three normalization methods, and four augmentation methods. Second, we integrate the whole evaluation codes into a code library and release this code library to the public for better development of this field. Third, we use specific-designed cases to point out the existing issues, including class imbalance, generalization ability, interpretability, few-shot learning, and model selection. By these works, we release a unified code framework for comparing and testing models fairly and quickly, emphasize the importance of open source codes, provide the baseline accuracy (a lower bound) to avoid useless improvement, and discuss potential future directions in this field. The code library is available at https://github.com/ZhaoZhibin/DL-based-Intelligent-Diagnosis-Benchmark.
翻訳日:2022-12-26 01:46:38 公開日:2020-08-19
# 多様体解析による報酬の欠如によるオプション発見

Option Discovery in the Absence of Rewards with Manifold Analysis ( http://arxiv.org/abs/2003.05878v2 )

ライセンス: Link先を確認
Amitay Bar, Ronen Talmon and Ron Meir(参考訳) 選択肢は強化学習に有効なツールであり、探索と学習の改善を促進することが示されている。 本稿では,スペクトルグラフ理論に基づくアプローチを提案し,特定の報酬やタスク割り当てを使わずに選択肢を体系的に発見するアルゴリズムを導出する。 従来の手法とは対照的に,本アルゴリズムはグラフラプラシアンのスペクトルをフル活用する。 高いグラフ周波数に関連するモードを組み込むことで、オプション発見に有用であることが示されている。 幾何学的および多様体的解析を用いて,アルゴリズムの理論的正当性を示す。 さらに,いくつかの領域でその性能を実演し,競合する手法と比較して明らかに改善した。

Options have been shown to be an effective tool in reinforcement learning, facilitating improved exploration and learning. In this paper, we present an approach based on spectral graph theory and derive an algorithm that systematically discovers options without access to a specific reward or task assignment. As opposed to the common practice used in previous methods, our algorithm makes full use of the spectrum of the graph Laplacian. Incorporating modes associated with higher graph frequencies unravels domain subtleties, which are shown to be useful for option discovery. Using geometric and manifold-based analysis, we present a theoretical justification for the algorithm. In addition, we showcase its performance in several domains, demonstrating clear improvements compared to competing methods.
翻訳日:2022-12-24 14:04:21 公開日:2020-08-19
# OS2D:アンカー機能マッチングによるワンステップワンショットオブジェクト検出

OS2D: One-Stage One-Shot Object Detection by Matching Anchor Features ( http://arxiv.org/abs/2003.06800v2 )

ライセンス: Link先を確認
Anton Osokin, Denis Sumin, Vasily Lomakin(参考訳) 本稿では,1つの実演で定義された物体を検知するワンショット物体検出の課題について考察する。 標準的なオブジェクト検出とは異なり、トレーニングやテストに使用されるオブジェクトのクラスは重複しない。 ローカライズと認識を共同で行うワンステージシステムを構築している。 学習した局所特徴の密相関マッチングを用いて対応関係を求め,特徴を整列するフィードフォワード幾何変換モデルを用いて相関テンソルの双線型再サンプリングを行い,対応特徴の検出スコアを計算する。 すべてのコンポーネントは微分可能であり、エンドツーエンドのトレーニングを可能にする。 いくつかの挑戦的ドメイン(小売品,3Dオブジェクト,建物,ロゴ)を実験的に評価したところ,本手法は未確認のクラス(例えば,食料品で訓練した場合の歯磨き粉)を検出し,いくつかのベースラインを著しく上回っている。 私たちのコードはオンラインで利用可能です。

In this paper, we consider the task of one-shot object detection, which consists in detecting objects defined by a single demonstration. Differently from the standard object detection, the classes of objects used for training and testing do not overlap. We build the one-stage system that performs localization and recognition jointly. We use dense correlation matching of learned local features to find correspondences, a feed-forward geometric transformation model to align features and bilinear resampling of the correlation tensor to compute the detection score of the aligned features. All the components are differentiable, which allows end-to-end training. Experimental evaluation on several challenging domains (retail products, 3D objects, buildings and logos) shows that our method can detect unseen classes (e.g., toothpaste when trained on groceries) and outperforms several baselines by a significant margin. Our code is available online: https://github.com/aosokin/os2d .
翻訳日:2022-12-23 08:54:37 公開日:2020-08-19
# 畳み込みニューラルネットワークを用いた乳癌検出

Breast Cancer Detection Using Convolutional Neural Networks ( http://arxiv.org/abs/2003.07911v3 )

ライセンス: Link先を確認
Simon Hadush, Yaecob Girmay, Abiot Sinamo, Gebrekirstos Hagos(参考訳) エチオピアでは女性がん患者の34%を占める乳がんが一般的である。 エチオピアの診断技術は、退屈で主観的で困難であることが証明されたマニュアルである。 そこで本研究では,手動画像解析のオーバーヘッドを最小限に抑えるために,乳房腫瘤検出のための畳み込みニューラルネットワーク(CNN)を提案する。 CNNアーキテクチャは特徴抽出段階のために設計されており、乳腺自動異常検出のための高速なR-CNNの地域提案ネットワーク(RPN)と地域関心(ROI)の両方に適応している。 マンモグラム(mg)画像中の腫瘤領域を検出し,良性または悪性の異常を一度に分類する。 提案したモデルでは, 局所的に異なる病院からMG画像を収集し, ガウスフィルター, 中央フィルタ, 両側フィルタなどの異なる前処理段階を通過し, MG画像の背景から乳房領域を抽出した。 テストデータセットにおけるモデルの性能は、検出精度91.86%、感度94.67%、AUC-ROC92.2%である。

Breast cancer is prevalent in Ethiopia that accounts 34% among women cancer patients. The diagnosis technique in Ethiopia is manual which was proven to be tedious, subjective, and challenging. Deep learning techniques are revolutionizing the field of medical image analysis and hence in this study, we proposed Convolutional Neural Networks (CNNs) for breast mass detection so as to minimize the overheads of manual analysis. CNN architecture is designed for the feature extraction stage and adapted both the Region Proposal Network (RPN) and Region of Interest (ROI) portion of the faster R-CNN for the automated breast mass abnormality detection. Our model detects mass region and classifies them into benign or malignant abnormality in mammogram(MG) images at once. For the proposed model, MG images were collected from different hospitals, locally.The images were passed through different preprocessing stages such as gaussian filter, median filter, bilateral filters and extracted the region of the breast from the background of the MG image. The performance of the model on test dataset is found to be: detection accuracy 91.86%, sensitivity of 94.67% and AUC-ROC of 92.2%.
翻訳日:2022-12-22 21:41:11 公開日:2020-08-19
# 環境中毒による政策指導--強化学習に対する時間的敵意攻撃

Policy Teaching via Environment Poisoning: Training-time Adversarial Attacks against Reinforcement Learning ( http://arxiv.org/abs/2003.12909v2 )

ライセンス: Link先を確認
Amin Rakhsha, Goran Radanovic, Rati Devidze, Xiaojin Zhu, Adish Singla(参考訳) 攻撃者が学習環境を汚染してエージェントに攻撃者が選択したターゲットポリシーの実行を強制する強化学習に対するセキュリティ脅威について検討する。 被害者として,無限ホリゾン問題設定において平均報酬を最大化する方針を目標とするrlエージェントを検討する。 攻撃者は、学習環境における報酬や遷移ダイナミクスを訓練時に操作でき、ステルスな方法で行うことに興味がある。 本稿では,攻撃コストの異なる指標に対して,emph{optimal stealthy attack} を求めるための最適化フレームワークを提案する。 我々は,攻撃が実現可能な十分な技術的条件と,攻撃コストの低/高域を提供する。 2つの設定で攻撃をインスタンス化します (i)有毒環境において、エージェントが計画している \emph{offline} の設定 (ii)被毒フィードバックを伴う後悔最小化フレームワークを用いて、エージェントがポリシーを学習する「emph{online}」設定。 本研究の結果から,攻撃者は軽度条件下での標的方針の指導に容易に成功し,実際は強化学習エージェントに対する重大なセキュリティ上の脅威を浮き彫りにすることができることがわかった。

We study a security threat to reinforcement learning where an attacker poisons the learning environment to force the agent into executing a target policy chosen by the attacker. As a victim, we consider RL agents whose objective is to find a policy that maximizes average reward in undiscounted infinite-horizon problem settings. The attacker can manipulate the rewards or the transition dynamics in the learning environment at training-time and is interested in doing so in a stealthy manner. We propose an optimization framework for finding an \emph{optimal stealthy attack} for different measures of attack cost. We provide sufficient technical conditions under which the attack is feasible and provide lower/upper bounds on the attack cost. We instantiate our attacks in two settings: (i) an \emph{offline} setting where the agent is doing planning in the poisoned environment, and (ii) an \emph{online} setting where the agent is learning a policy using a regret-minimization framework with poisoned feedback. Our results show that the attacker can easily succeed in teaching any target policy to the victim under mild conditions and highlight a significant security threat to reinforcement learning agents in practice.
翻訳日:2022-12-18 23:20:45 公開日:2020-08-19
# NukeBERT: 低資源核ドメインのための事前訓練型言語モデル

NukeBERT: A Pre-trained language model for Low Resource Nuclear Domain ( http://arxiv.org/abs/2003.13821v2 )

ライセンス: Link先を確認
Ayush Jain, Dr. N.M. Meenachi, Dr. B. Venkatraman(参考訳) 近年、自然言語処理における重要な進歩は、質問回答を含む多くのタスクにおいて、機械が人間のパフォーマンスを上回っている。 質問回答のためのディープラーニング手法の大半は、大きなデータセットと高度に成熟した文献を持つドメインを対象としている。 原子力と原子力の分野は、ほとんど未開拓のままであり、無注釈のデータを産業の実用的応用に役立てている。 データセットの欠如により、核ドメインに関する7000の研究論文から新しいデータセットが作成された。 本研究は,核領域の専門家が作成した核質問応答データセット(NQuAD)に基づいて評価した核領域知識の理解に関する研究に貢献する。 NQuADには、IGCAR研究論文コーパスからランダムに選択された181段落で開発された612の質問が含まれている。 本稿では,核双方向エンコーダ表現変換器(nukebert)を提案し,学習データが少ないタスクに適したbert語彙を構築するための新しい手法を提案する。 NQuADで評価した結果、NukeBERTはBERTを著しく上回り、採用手法を検証できた。 NukeBERTの訓練は計算に費用がかかるため、核領域でのさらなる研究を促進するため、NukeBERTの事前訓練重量とNQuADをオープンソース化する。

Significant advances have been made in recent years on Natural Language Processing with machines surpassing human performance in many tasks, including but not limited to Question Answering. The majority of deep learning methods for Question Answering targets domains with large datasets and highly matured literature. The area of Nuclear and Atomic energy has largely remained unexplored in exploiting non-annotated data for driving industry viable applications. Due to lack of dataset, a new dataset was created from the 7000 research papers on nuclear domain. This paper contributes to research in understanding nuclear domain knowledge which is then evaluated on Nuclear Question Answering Dataset (NQuAD) created by nuclear domain experts as part of this research. NQuAD contains 612 questions developed on 181 paragraphs randomly selected from the IGCAR research paper corpus. In this paper, the Nuclear Bidirectional Encoder Representational Transformers (NukeBERT) is proposed, which incorporates a novel technique for building BERT vocabulary to make it suitable for tasks with less training data. The experiments evaluated on NQuAD revealed that NukeBERT was able to outperform BERT significantly, thus validating the adopted methodology. Training NukeBERT is computationally expensive and hence we will be open-sourcing the NukeBERT pretrained weights and NQuAD for fostering further research work in the nuclear domain.
翻訳日:2022-12-18 06:49:11 公開日:2020-08-19
# 埋め込みモデルにおける情報漏洩

Information Leakage in Embedding Models ( http://arxiv.org/abs/2004.00053v2 )

ライセンス: Link先を確認
Congzheng Song and Ananth Raghunathan(参考訳) 埋め込みは、入力に関する重要な意味情報を保存しながら、生の入力データを低次元のベクトル表現にマッピングする関数である。 大量のラベルのないデータへの事前学習の埋め込みと、下流タスクのための微調整は、今や多くのドメインで最先端のアート学習を実現するためのデファクトスタンダードとなっている。 埋め込みは汎用意味論を符号化するだけでなく、入力データに関する機密情報を漏洩するベクトルもしばしば提示することを示した。 埋め込みによって漏洩する可能性のある情報を体系的に研究するために,攻撃の3つのクラスを開発する。 まず、埋め込みベクトルを逆転させて入力データの一部を部分的に復元する。 例えば、一般的な文埋め込みに対する攻撃は入力語の50\%--70\%で回復する(f1スコアは0.5--0.7)。 第二に、埋め込みは入力に固有のセンシティブな属性を明らかにし、手元にあるセマンティックタスクとは独立している。 テキストの著者のような属性は、少数のラベル付き埋め込みベクトル上で推論モデルを訓練することで容易に抽出できる。 第3に、埋め込みモデルは、頻繁なトレーニングデータ入力のための適度な量の会員情報をリークする。 我々は、テキストドメインにおける様々な最先端の埋め込みモデルに対する攻撃を広範囲に評価する。 また,小規模の費用である程度の漏洩を防止する防衛策を提案し,評価する。

Embeddings are functions that map raw input data to low-dimensional vector representations, while preserving important semantic information about the inputs. Pre-training embeddings on a large amount of unlabeled data and fine-tuning them for downstream tasks is now a de facto standard in achieving state of the art learning in many domains. We demonstrate that embeddings, in addition to encoding generic semantics, often also present a vector that leaks sensitive information about the input data. We develop three classes of attacks to systematically study information that might be leaked by embeddings. First, embedding vectors can be inverted to partially recover some of the input data. As an example, we show that our attacks on popular sentence embeddings recover between 50\%--70\% of the input words (F1 scores of 0.5--0.7). Second, embeddings may reveal sensitive attributes inherent in inputs and independent of the underlying semantic task at hand. Attributes such as authorship of text can be easily extracted by training an inference model on just a handful of labeled embedding vectors. Third, embedding models leak moderate amount of membership information for infrequent training data inputs. We extensively evaluate our attacks on various state-of-the-art embedding models in the text domain. We also propose and evaluate defenses that can prevent the leakage to some extent at a minor cost in utility.
翻訳日:2022-12-17 23:54:31 公開日:2020-08-19
# 人間-AIチームにおけるパーソナライズ : 適合性-精度トレードオフの改善

Personalization in Human-AI Teams: Improving the Compatibility-Accuracy Tradeoff ( http://arxiv.org/abs/2004.02289v2 )

ライセンス: Link先を確認
Jonathan Martinez (1), Kobi Gal (1 and 2), Ece Kamar (3), Levi H. S. Lelis (4) ((1) Ben-Gurion University, (2) University of Edinburgh, (3) Microsoft Research, (4) University of Alberta)(参考訳) ユーザと対話するAIシステムは、時間とともにモデルを更新して、新しい情報や環境の変化を反映することができる。 これらのアップデートはAIシステム全体のパフォーマンスを改善するかもしれないが、個々のユーザに対するパフォーマンスを実際に損なう可能性がある。 以前の作業では,更新後のシステムの精度向上と,以前のユーザエクスペリエンスとの互換性のトレードオフを検討した。 モデルが以前のバージョンと互換性を持たなければならなければならなければならなくなるほど、精度は高まるでしょう。 本稿では、特定のユーザに対して損失関数をパーソナライズすることにより、これらのユーザに対する互換性-正確性トレードオフを改善することができる(精度を低下させながらモデルの互換性を高める)ことを示す。 提案手法は, 平均で20%程度改善するが, 特定のユーザでは最大300%の大幅な改善が可能であることを示す実験結果を示す。

AI systems that model and interact with users can update their models over time to reflect new information and changes in the environment. Although these updates may improve the overall performance of the AI system, they may actually hurt the performance with respect to individual users. Prior work has studied the trade-off between improving the system's accuracy following an update and the compatibility of the updated system with prior user experience. The more the model is forced to be compatible with a prior version, the higher loss in accuracy it will incur. In this paper, we show that by personalizing the loss function to specific users, in some cases it is possible to improve the compatibility-accuracy trade-off with respect to these users (increase the compatibility of the model while sacrificing less accuracy). We present experimental results indicating that this approach provides moderate improvements on average (around 20%) but large improvements for certain users (up to 300%).
翻訳日:2022-12-16 12:16:37 公開日:2020-08-19
# 文脈に基づく引用勧告

Context-Based Quotation Recommendation ( http://arxiv.org/abs/2005.08319v2 )

ライセンス: Link先を確認
Ansel MacLaughlin, Tao Chen, Burcu Karagol Ayan, Dan Roth(参考訳) ニュース記事から電子メールやエッセイまで、新しい文書を作成している間、著者は様々な情報源から直接引用することが多い。 著者は作成したいポイントを知っているかもしれないが、特定のコンテキストに対する適切な引用を選択するのは時間がかかり、難しいかもしれない。 そこで本稿では,著者がすでに書いたコンテンツを利用して,引用可能な段落やトークンのランク付けリストを生成する,新しい文脈対応引用推薦システムを提案する。 提案手法は,オープンQAからタスクまで,最先端のBERTベースの手法を応用した,オープンドメイン質問応答の変種として引用レコメンデーションにアプローチする。 我々は,音声テキストと関連するニュース記事の収集実験を行い,モデルの段落ランキングと予測性能を評価する。 本研究は,このタスクにおけるBERTに基づく手法の強い性能を検証し,全てのランキング指標に対して,単語のバイン・オブ・ワードとニューラルネットワークのランキング基準を30%以上上回る性能を示した。 定性的な分析は、たとえ原ニュース記事から真に選択された引用ではないとしても、段落の難しさと推奨タスクの範囲を示し、最高のBERTモデルの予測の引用可能性を確認する。

While composing a new document, anything from a news article to an email or essay, authors often utilize direct quotes from a variety of sources. Although an author may know what point they would like to make, selecting an appropriate quote for the specific context may be time-consuming and difficult. We therefore propose a novel context-aware quote recommendation system which utilizes the content an author has already written to generate a ranked list of quotable paragraphs and spans of tokens from a given source document. We approach quote recommendation as a variant of open-domain question answering and adapt the state-of-the-art BERT-based methods from open-QA to our task. We conduct experiments on a collection of speech transcripts and associated news articles, evaluating models' paragraph ranking and span prediction performances. Our experiments confirm the strong performance of BERT-based methods on this task, which outperform bag-of-words and neural ranking baselines by more than 30% relative across all ranking metrics. Qualitative analyses show the difficulty of the paragraph and span recommendation tasks and confirm the quotability of the best BERT model's predictions, even if they are not the true selected quotes from the original news articles.
翻訳日:2022-12-02 05:36:07 公開日:2020-08-19
# 潜時可変カーネル学習

Deep Latent-Variable Kernel Learning ( http://arxiv.org/abs/2005.08467v2 )

ライセンス: Link先を確認
Haitao Liu, Yew-Soon Ong, Xiaomo Jiang, Xiaofang Wang(参考訳) ディープカーネル学習(DKL)は、ガウスプロセス(GP)とニューラルネットワーク(NN)の接続を利用して、エンドツーエンドのハイブリッドモデルを構築する。 大規模データの下でリッチ表現を学習するNNの能力とGPの非パラメトリック特性を組み合わせて、モデル適合とモデル複雑性のトレードオフを含む自動正規化を実現する。 しかし、決定論的エンコーダは、自由潜在表現のため、以下のgp部分、特に小さなデータセットのモデル正規化を弱める可能性がある。 そこで我々は,潜在変数が正規化表現に対して確率符号化を行う完全潜時可変カーネル学習(DLVKL)モデルを提案する。 我々はDLVKLをさらに2つの側面から強化する。 一 近似品質を向上させるための神経確率微分方程式(NSDE)による表現的変動後部 (二)SDE前及び後部から知識を得てフレキシブルなトレードオフにたどり着くハイブリッド 集中的な実験は、DLVKL-NSDEが小さなデータセット上でよく校正されたGPと同様に動作し、大きなデータセット上で既存のディープGPより優れていることを示唆している。

Deep kernel learning (DKL) leverages the connection between Gaussian process (GP) and neural networks (NN) to build an end-to-end, hybrid model. It combines the capability of NN to learn rich representations under massive data and the non-parametric property of GP to achieve automatic regularization that incorporates a trade-off between model fit and model complexity. However, the deterministic encoder may weaken the model regularization of the following GP part, especially on small datasets, due to the free latent representation. We therefore present a complete deep latent-variable kernel learning (DLVKL) model wherein the latent variables perform stochastic encoding for regularized representation. We further enhance the DLVKL from two aspects: (i) the expressive variational posterior through neural stochastic differential equation (NSDE) to improve the approximation quality, and (ii) the hybrid prior taking knowledge from both the SDE prior and the posterior to arrive at a flexible trade-off. Intensive experiments imply that the DLVKL-NSDE performs similarly to the well calibrated GP on small datasets, and outperforms existing deep GPs on large datasets.
翻訳日:2022-12-01 22:54:29 公開日:2020-08-19
# ZeroSpeech 2020チャレンジにおける音響ユニット検出のためのベクトル量子ニューラルネットワーク

Vector-quantized neural networks for acoustic unit discovery in the ZeroSpeech 2020 challenge ( http://arxiv.org/abs/2005.09409v2 )

ライセンス: Link先を確認
Benjamin van Niekerk, Leanne Nortje, Herman Kamper(参考訳) 本稿では,音響単位発見のためのベクトル量子化について検討する。 本研究の目的は,音声内容と話者固有の詳細を分離した音声の離散表現を学習することである。 この課題に対処する2つのニューラルモデルを提案する。どちらもベクトル量子化を用いて連続的な特徴を有限個のコードにマッピングする。 最初のモデルはベクトル量子化変分オートエンコーダ(VQ-VAE)の一種である。 vq-vaeは音声波形を再構成する前に音声を離散単位列に符号化する。 第2のモデルはベクトル量子化と対比予測符号化(VQ-CPC)を組み合わせる。 将来の音響単位を予測することによって音声表現を学習する。 我々は、ZeroSpeech 2020チャレンジにおいて、英語とインドネシア語のデータのモデルを評価する。 ABX電話の差別テストでは、どちらのモデルも2019年と2020年の課題への応募よりも優れており、相対的な改善は30%以上である。 モデルは下流の音声変換タスクでも競合的に機能する。 2つのうち、VQ-CPCは概して若干性能が良く、訓練も簡単で高速である。 最後に、探索実験によりベクトル量子化が効果的なボトルネックとなり、モデルに話者情報を捨てさせることが示されている。

In this paper, we explore vector quantization for acoustic unit discovery. Leveraging unlabelled data, we aim to learn discrete representations of speech that separate phonetic content from speaker-specific details. We propose two neural models to tackle this challenge - both use vector quantization to map continuous features to a finite set of codes. The first model is a type of vector-quantized variational autoencoder (VQ-VAE). The VQ-VAE encodes speech into a sequence of discrete units before reconstructing the audio waveform. Our second model combines vector quantization with contrastive predictive coding (VQ-CPC). The idea is to learn a representation of speech by predicting future acoustic units. We evaluate the models on English and Indonesian data for the ZeroSpeech 2020 challenge. In ABX phone discrimination tests, both models outperform all submissions to the 2019 and 2020 challenges, with a relative improvement of more than 30%. The models also perform competitively on a downstream voice conversion task. Of the two, VQ-CPC performs slightly better in general and is simpler and faster to train. Finally, probing experiments show that vector quantization is an effective bottleneck, forcing the models to discard speaker information.
翻訳日:2022-12-01 14:26:56 公開日:2020-08-19
# VGGNetを用いた重力加速度装置の予測モデルのための振動データ深層学習モデル

Apply VGGNet-based deep learning model of vibration data for prediction model of gravity acceleration equipment ( http://arxiv.org/abs/2005.10985v2 )

ライセンス: Link先を確認
SeonWoo Lee, HyeonTak Yu, HoJun Yang, JaeHeung Yang, GangMin Lim, KyuSung Kim, ByeongKeun Choi, and JangWoo Kwon(参考訳) ハイパーグラビティ加速器(hypergravity accelerators)は、重力トレーニングや医学研究に用いられる大型機械の一種である。 このような大型機器の故障は、安全性やコストの面で深刻な問題となる可能性がある。 本稿では,超重力加速器の故障を積極的に防止する予測モデルを提案する。 本稿では,振動信号をスペクトルに変換し,深層学習モデルを用いて分類訓練を行う手法を提案する。 本論文で提案する手法の性能を評価する実験を行った。 ロータである軸受ハウジングに4チャンネル加速度計を装着し,サンプリングにより測定値から時刻データを得た。 データは2次元スペクトログラムに変換され、機器の4つの条件(アンバランス、ミサライメント、シャフトラビング、ノーマル)についてディープラーニングモデルを用いて分類訓練を行った。 実験の結果,提案手法は99.5%f1-scoreであり,既存の機能ベース学習モデルの76.25%よりも最大23%高い値を示した。

Hypergravity accelerators are a type of large machinery used for gravity training or medical research. A failure of such large equipment can be a serious problem in terms of safety or costs. This paper proposes a prediction model that can proactively prevent failures that may occur in a hypergravity accelerator. The method proposed in this paper was to convert vibration signals to spectograms and perform classification training using a deep learning model. An experiment was conducted to evaluate the performance of the method proposed in this paper. A 4-channel accelerometer was attached to the bearing housing, which is a rotor, and time-amplitude data were obtained from the measured values by sampling. The data were converted to a two-dimensional spectrogram, and classification training was performed using a deep learning model for four conditions of the equipment: Unbalance, Misalignment, Shaft Rubbing, and Normal. The experimental results showed that the proposed method had a 99.5% F1-Score, which was up to 23% higher than the 76.25% for existing feature-based learning models.
翻訳日:2022-11-30 08:59:52 公開日:2020-08-19
# 順序データにおける潜在構造回復のためのスパースチョレスキー共分散パラメトリゼーション

Sparse Cholesky covariance parametrization for recovering latent structure in ordered data ( http://arxiv.org/abs/2006.01448v2 )

ライセンス: Link先を確認
Irene C\'ordoba and Concha Bielza and Pedro Larra\~naga and Gherardo Varando(参考訳) 逆共分散行列のスパースコレスキーパラメトリゼーションはガウスベイズネットワークと解釈できるが、その共分散コレスキー因子は、順序付き信号データの隠れ変数モデルとして自然に解釈されているにもかかわらず、ほとんど注目されていない。 このギャップを埋めるため,本論文では共分散行列のcholesky因子における任意のゼロパターンに着目した。 我々は,これらのモデルがガウス・ベイズネットワークと類似して,明らかな順序が存在しないデータにも拡張可能であることについて議論する。 順序付きシナリオでは,既存の回帰に基づく手法とは対照的に,行列損失ペナリゼーションに基づく新しい推定法を提案する。 コレスキー因子に対するこのスパースモデルの性能は、我々の新しい推定器とともに、変数間に自然な順序が現れる空間的・時間的実データと同様にシミュレーション設定で評価される。 実験結果に基づいて,どの手法が各設定に適しているかに関するガイドラインを提示する。

The sparse Cholesky parametrization of the inverse covariance matrix can be interpreted as a Gaussian Bayesian network; however its counterpart, the covariance Cholesky factor, has received, with few notable exceptions, little attention so far, despite having a natural interpretation as a hidden variable model for ordered signal data. To fill this gap, in this paper we focus on arbitrary zero patterns in the Cholesky factor of a covariance matrix. We discuss how these models can also be extended, in analogy with Gaussian Bayesian networks, to data where no apparent order is available. For the ordered scenario, we propose a novel estimation method that is based on matrix loss penalization, as opposed to the existing regression-based approaches. The performance of this sparse model for the Cholesky factor, together with our novel estimator, is assessed in a simulation setting, as well as over spatial and temporal real data where a natural ordering arises among the variables. We give guidelines, based on the empirical results, about which of the methods analysed is more appropriate for each setting.
翻訳日:2022-11-25 23:26:19 公開日:2020-08-19
# オフライン強化学習のための保守的Qラーニング

Conservative Q-Learning for Offline Reinforcement Learning ( http://arxiv.org/abs/2006.04779v3 )

ライセンス: Link先を確認
Aviral Kumar, Aurick Zhou, George Tucker, Sergey Levine(参考訳) 大規模で以前に収集されたデータセットを強化学習(RL)で効果的に活用することは、大規模な実世界のアプリケーションにとって重要な課題である。 オフラインのRLアルゴリズムは、事前コンパイルされた静的データセットから効果的なポリシーを、さらなるインタラクションなしで学習することを約束する。 しかし、実際にはオフラインRLは大きな課題であり、特に複雑なマルチモーダルデータ分散のトレーニングにおいて、データセットと学習ポリシーの間の分散シフトによって引き起こされる値の過大評価によって、標準的なオフポリティクスRLメソッドが失敗する可能性がある。 本稿では,保守的なQ-関数を学習することで,これらの制約に対処することを目的とした保守的なQ-ラーニング(CQL)を提案する。 理論的には、CQLは現在のポリシーの価値の低いバウンドを生成し、理論的な改善を保証する政策学習手順に組み込むことができることを示す。 実際には、cqlは標準的なベルマンエラーの目的を、既存の深いq-learningとアクタ-クリティックな実装の上に簡単に実装できる単純なq-value正規化で強化している。 離散制御ドメインと連続制御ドメインの両方において、CQLは既存のオフラインRLメソッドよりも大幅に優れており、特に複雑かつマルチモーダルなデータ分散から学ぶ場合、最終的なリターンの2~5倍に達するポリシーを学習することが多い。

Effectively leveraging large, previously collected datasets in reinforcement learning (RL) is a key challenge for large-scale real-world applications. Offline RL algorithms promise to learn effective policies from previously-collected, static datasets without further interaction. However, in practice, offline RL presents a major challenge, and standard off-policy RL methods can fail due to overestimation of values induced by the distributional shift between the dataset and the learned policy, especially when training on complex and multi-modal data distributions. In this paper, we propose conservative Q-learning (CQL), which aims to address these limitations by learning a conservative Q-function such that the expected value of a policy under this Q-function lower-bounds its true value. We theoretically show that CQL produces a lower bound on the value of the current policy and that it can be incorporated into a policy learning procedure with theoretical improvement guarantees. In practice, CQL augments the standard Bellman error objective with a simple Q-value regularizer which is straightforward to implement on top of existing deep Q-learning and actor-critic implementations. On both discrete and continuous control domains, we show that CQL substantially outperforms existing offline RL methods, often learning policies that attain 2-5 times higher final return, especially when learning from complex and multi-modal data distributions.
翻訳日:2022-11-24 01:01:11 公開日:2020-08-19
# 巡回線形因果モデルのための構造学習

Structure Learning for Cyclic Linear Causal Models ( http://arxiv.org/abs/2006.05978v2 )

ライセンス: Link先を確認
Carlos Am\'endola, Philipp Dettling, Mathias Drton, Federica Onori, Jun Wu(参考訳) 観測データに基づく線形因果モデルにおける構造学習の問題点を考察する。 循環型混成グラフによって与えられるモデルを扱うことで、フィードバックループと潜伏した共同設立者の影響を可能とします。 ボウフリー非巡回グラフに関する関連する研究を一般化し、基礎となるグラフは単純であると仮定する。 これは、2つの観測された変数を少なくとも1つの直接因果効果で関連付けることができ、構造方程式における誤り項間の(共起的)相関は直接因果効果がない場合にのみ起こることを意味する。 循環の場合の新たな微妙さにもかかわらず、単純な巡回モデルが期待される次元であり、従来は弓のない非循環グラフの分布同値性に対する基準が循環の場合に類似していることが示される。 モデル次元に関する我々の結果は、特にスコアに基づく線形ガウス混合グラフモデルの構造学習法を正当化する。

We consider the problem of structure learning for linear causal models based on observational data. We treat models given by possibly cyclic mixed graphs, which allow for feedback loops and effects of latent confounders. Generalizing related work on bow-free acyclic graphs, we assume that the underlying graph is simple. This entails that any two observed variables can be related through at most one direct causal effect and that (confounding-induced) correlation between error terms in structural equations occurs only in absence of direct causal effects. We show that, despite new subtleties in the cyclic case, the considered simple cyclic models are of expected dimension and that a previously considered criterion for distributional equivalence of bow-free acyclic graphs has an analogue in the cyclic case. Our result on model dimension justifies in particular score-based methods for structure learning of linear Gaussian mixed graph models, which we implement via greedy search.
翻訳日:2022-11-23 06:17:18 公開日:2020-08-19
# ヘテロジニアスデータセット上での通信効率の高いロバスト連合学習

Communication-Efficient Robust Federated Learning Over Heterogeneous Datasets ( http://arxiv.org/abs/2006.09992v3 )

ライセンス: Link先を確認
Yanjie Dong and Georgios B. Giannakis and Tianyi Chen and Julian Cheng and Md. Jahangir Hossain and Victor C. M. Leung(参考訳) 本研究は,データサンプルが不均一にワーカーに分散されている場合のフォールトレジリエントなフェデレーション学習を調査し,中央サーバに障害のあるワーカの数を未知数とする。 戦略的に不都合な労働者が存在する場合、交換されたローカルメッセージ(例えば、ローカル勾配および/またはローカルモデルパラメータ)は信頼できないため、バニラ確率勾配降下(sgd)アルゴリズムは収束することが保証されない。 近年,バニラSGDの収束速度を低下させるコストで,不良作業者に対して堅牢性を提供することによってアルゴリズムが改良されている。 この制限を解消するため,本研究では,nesterovの加速度法を応用したフォールトレジリエント近位勾配 (frpg) アルゴリズムを導入する。 FRPGの通信オーバヘッドを低減するため,サーバ間パラメータ交換が可能なローカル(L)FRPGアルゴリズムも開発された。 強凸損失関数に対して、frpg と lfrpg はベンチマークロバストな確率集約アルゴリズムよりも高速に収束する。 さらに、LFRPGは同じ通信ラウンドを使用しながらFRPGよりも早く収束する。 様々な実データセット上で実施された数値実験により、頑健な確率的集約ベンチマークと競合する代替手段に対するFRPGとLFRPGの加速収束が確認された。

This work investigates fault-resilient federated learning when the data samples are non-uniformly distributed across workers, and the number of faulty workers is unknown to the central server. In the presence of adversarially faulty workers who may strategically corrupt datasets, the local messages exchanged (e.g., local gradients and/or local model parameters) can be unreliable, and thus the vanilla stochastic gradient descent (SGD) algorithm is not guaranteed to converge. Recently developed algorithms improve upon vanilla SGD by providing robustness to faulty workers at the price of slowing down convergence. To remedy this limitation, the present work introduces a fault-resilient proximal gradient (FRPG) algorithm that relies on Nesterov's acceleration technique. To reduce the communication overhead of FRPG, a local (L) FRPG algorithm is also developed to allow for intermittent server-workers parameter exchanges. For strongly convex loss functions, FRPG and LFRPG have provably faster convergence rates than a benchmark robust stochastic aggregation algorithm. Moreover, LFRPG converges faster than FRPG while using the same communication rounds. Numerical tests performed on various real datasets confirm the accelerated convergence of FRPG and LFRPG over the robust stochastic aggregation benchmark and competing alternatives.
翻訳日:2022-11-19 19:42:26 公開日:2020-08-19
# 自動飛行画像を用いたコンクリート老化検出のための生成的損傷学習

Generative Damage Learning for Concrete Aging Detection using Auto-flight Images ( http://arxiv.org/abs/2006.15257v2 )

ライセンス: Link先を確認
Takato Yasuno, Akira Ishii, Junichiro Fujii, Masazumi Amakata, Yuta Takahashi(参考訳) 大規模インフラの状態を監視するため、自律飛行ドローンによる画像取得は、安定した角度と高品質の画像に効率的である。 教師あり学習は、画像と注釈ラベルからなる大きなデータセットを必要とする。 損傷した関心領域(ROI)を識別するなど、画像の蓄積には長い時間がかかる。 近年、異常検出アルゴリズムのためのgans(generative adversarial networks)のような教師なしディープラーニングアプローチが進められている。 損傷画像が発電機入力である場合には、損傷状態から健康状態生成画像に反転する傾向がある。 実際の損傷画像と生成したリバースエイジング健康状態フェイク画像との間の分布距離を用いて、教師なし学習から自動的にコンクリート損傷を検出することができる。 本稿では,損傷画像からの非ペア画像対画像変換マッピングを用いた異常検出法を提案する。 フィールド研究に本手法を適用し, コンクリート損傷の健康モニタリングにおける本手法の有用性について検討した。

In order to monitor the state of large-scale infrastructures, image acquisition by autonomous flight drones is efficient for stable angle and high-quality images. Supervised learning requires a large data set consisting of images and annotation labels. It takes a long time to accumulate images, including identifying the damaged regions of interest (ROIs). In recent years, unsupervised deep learning approaches such as generative adversarial networks (GANs) for anomaly detection algorithms have progressed. When a damaged image is a generator input, it tends to reverse from the damaged state to the healthy state generated image. Using the distance of distribution between the real damaged image and the generated reverse aging healthy state fake image, it is possible to detect the concrete damage automatically from unsupervised learning. This paper proposes an anomaly detection method using unpaired image-to-image translation mapping from damaged images to reverse aging fakes that approximates healthy conditions. We apply our method to field studies, and we examine the usefulness of our method for health monitoring of concrete damage.
翻訳日:2022-11-16 08:07:20 公開日:2020-08-19
# テキスト生成における品質多様性評価と配電目標の関係について

On the Relation between Quality-Diversity Evaluation and Distribution-Fitting Goal in Text Generation ( http://arxiv.org/abs/2007.01488v2 )

ライセンス: Link先を確認
Jianing Li, Yanyan Lan, Jiafeng Guo, Xueqi Cheng(参考訳) テキスト生成モデルの目標は、テキストの実際の確率分布に適合することである。 パフォーマンス評価には、通常品質と多様性のメトリクスが適用される。 しかし, 品質・多様性評価が分布適合目標を反映しているのかは, いまだ明らかでない。 本稿では,理論的アプローチでそのような関係を明らかにする。 ある条件下では、品質と多様性の線形結合は、生成した分布と実分布の間の分岐計量を構成する。 また,一般的に用いられるbleu/self-bleu計量対は発散計量と一致しないため,cr/nrrを品質/多様性計量対の代用として提案する。

The goal of text generation models is to fit the underlying real probability distribution of text. For performance evaluation, quality and diversity metrics are usually applied. However, it is still not clear to what extend can the quality-diversity evaluation reflect the distribution-fitting goal. In this paper, we try to reveal such relation in a theoretical approach. We prove that under certain conditions, a linear combination of quality and diversity constitutes a divergence metric between the generated distribution and the real distribution. We also show that the commonly used BLEU/Self-BLEU metric pair fails to match any divergence metric, thus propose CR/NRR as a substitute for quality/diversity metric pair.
翻訳日:2022-11-14 04:17:56 公開日:2020-08-19
# 大津法の一般化と最小誤差しきい値化

A Generalization of Otsu's Method and Minimum Error Thresholding ( http://arxiv.org/abs/2007.07350v3 )

ライセンス: Link先を確認
Jonathan T. Barron(参考訳) 単純かつ高速かつ効果的なヒストグラム画像しきい値取得技術である一般化ヒストグラム閾値法(GHT)を提案する。 GHT はガウスの混合と適切な先行を近似的に最大に推定することで機能する。 我々は,GHTが,大津法,最小誤差閾値(MET),重み付きパーセンタイルしきい値の3つの古典的しきい値法を特別な場合として仮定することを実証した。 これにより、3つのアルゴリズム間の連続的な補間が可能となり、しきい値の精度が大幅に向上する。 GHTはまた、閾値付け中にヒストグラムのビン幅を粗くする一般的な慣習を明確に解釈する。 GHTは、手書きの文書画像バイナライゼーション(ピクセル単位のバイナライゼーションを訓練したディープニューラルネットワークを含む)に対する最近の課題において、すべてのアルゴリズムの性能より優れているか、あるいは一致していることを示し、12行のコードで実装するか、あるいは大津の方法やMETの簡単な修正として実装可能である。

We present Generalized Histogram Thresholding (GHT), a simple, fast, and effective technique for histogram-based image thresholding. GHT works by performing approximate maximum a posteriori estimation of a mixture of Gaussians with appropriate priors. We demonstrate that GHT subsumes three classic thresholding techniques as special cases: Otsu's method, Minimum Error Thresholding (MET), and weighted percentile thresholding. GHT thereby enables the continuous interpolation between those three algorithms, which allows thresholding accuracy to be improved significantly. GHT also provides a clarifying interpretation of the common practice of coarsening a histogram's bin width during thresholding. We show that GHT outperforms or matches the performance of all algorithms on a recent challenge for handwritten document image binarization (including deep neural networks trained to produce per-pixel binarizations), and can be implemented in a dozen lines of code or as a trivial modification to Otsu's method or MET.
翻訳日:2022-11-10 15:10:23 公開日:2020-08-19
# 視覚言語ナビゲーションのためのアクティブビジュアル情報収集

Active Visual Information Gathering for Vision-Language Navigation ( http://arxiv.org/abs/2007.08037v3 )

ライセンス: Link先を確認
Hanqing Wang, Wenguan Wang, Tianmin Shu, Wei Liang and Jianbing Shen(参考訳) 視覚言語ナビゲーション(VLN)は、エージェントがフォトリアリスティックな環境の中でナビゲーションの指示を行うためのタスクである。 VLNの重要な課題の1つは、曖昧な指示による不確実性を緩和し、環境の観察を不十分にすることで、堅牢なナビゲーションを行う方法である。 現在のアプローチで訓練されたエージェントは通常、これに苦しむため、すべてのステップでランダムで非効率なアクションを避けるのに苦労する。 対照的に、人間がこのような課題に直面した場合でも、周囲を積極的に探索してより多くの情報を集め、より確実なナビゲーション決定を行うことで、堅牢なナビゲーションを維持することができる。 この研究は、人間のナビゲーション行動からインスピレーションを得て、よりインテリジェントな視覚言語ナビゲーションポリシーのためのアクティブな情報収集能力を持つエージェントを提供する。 これを実現するために,探索政策を学習するためのエンドツーエンドフレームワークを提案する。 i) いつどこで探検するか 二 探査中に収集する価値のある情報、及び 三 探検後の航法決定の調整方法 実験の結果,訓練から有望な探索戦略が出現し,ナビゲーション性能が大幅に向上した。 R2Rチャレンジのリーダーボードでは、エージェントは3つのVLN設定、すなわちシングルラン、事前探索、ビームサーチすべてに対して有望な結果を得る。

Vision-language navigation (VLN) is the task of entailing an agent to carry out navigational instructions inside photo-realistic environments. One of the key challenges in VLN is how to conduct a robust navigation by mitigating the uncertainty caused by ambiguous instructions and insufficient observation of the environment. Agents trained by current approaches typically suffer from this and would consequently struggle to avoid random and inefficient actions at every step. In contrast, when humans face such a challenge, they can still maintain robust navigation by actively exploring the surroundings to gather more information and thus make more confident navigation decisions. This work draws inspiration from human navigation behavior and endows an agent with an active information gathering ability for a more intelligent vision-language navigation policy. To achieve this, we propose an end-to-end framework for learning an exploration policy that decides i) when and where to explore, ii) what information is worth gathering during exploration, and iii) how to adjust the navigation decision after the exploration. The experimental results show promising exploration strategies emerged from training, which leads to significant boost in navigation performance. On the R2R challenge leaderboard, our agent gets promising results all three VLN settings, i.e., single run, pre-exploration, and beam search.
翻訳日:2022-11-10 06:11:52 公開日:2020-08-19
# 多チャンネル筋電図データから手の動きを分類する時空間深部畳み込みニューラルネットワーク

A temporal-to-spatial deep convolutional neural network for classification of hand movements from multichannel electromyography data ( http://arxiv.org/abs/2007.10879v2 )

ライセンス: Link先を確認
Adam Hartwell, Visakan Kadirkamanathan, Sean R. Anderson(参考訳) 深層畳み込みニューラルネットワーク(CNN)は、表面筋電図(SEMG)データから手の動きを分類する目的で、原データから人固有の自動抽出を行う能力を持っている。 本稿では,マルチチャネルsEMGのための深部CNNにおける初期処理層の設計を提案し,評価する新手法を提案する。 具体的には、第1層が各sEMGチャネル上で個別に畳み込みを行い、時間的特徴を抽出する新しい時間空間CNNアーキテクチャを提案する。 これは、各チャネルのsEMG信号が1つまたは少数の筋肉のサブセットによって媒介されるという考えに動機付けられており、その時間的活性化パターンはジェスチャーの署名的特徴と関連している。 時間層は、各チャネルのこれらのシグネチャ特徴を別々にキャプチャし、その後、連続層に空間的に混合して特定のジェスチャーを認識する。 実用的な利点は、このアプローチがcnnを異なるサンプルレートで設計しやすくすることである。 我々は,NinaProデータベース1(被験者27名,運動52名,静止52名)を100Hzで,データベース2(被験者40名,運動40名,静止40名)を2kHzで,提案したCNN設計を評価する。 我々は,機能ベースサポートベクトルマシン(SVM)分類器,文献からの2つのCNN,CNNのさらなる標準設計に対してベンチマークを行った。 我々は,新しいtts cnn設計により,データベース1では66.6%,データベース2では67.8%の精度を達成し,2%の重要度で統計的仮説テストを用いて,他のすべての比較分類器を上回った。

Deep convolutional neural networks (CNNs) are appealing for the purpose of classification of hand movements from surface electromyography (sEMG) data because they have the ability to perform automated person-specific feature extraction from raw data. In this paper, we make the novel contribution of proposing and evaluating a design for the early processing layers in the deep CNN for multichannel sEMG. Specifically, we propose a novel temporal-to-spatial (TtS) CNN architecture, where the first layer performs convolution separately on each sEMG channel to extract temporal features. This is motivated by the idea that sEMG signals in each channel are mediated by one or a small subset of muscles, whose temporal activation patterns are associated with the signature features of a gesture. The temporal layer captures these signature features for each channel separately, which are then spatially mixed in successive layers to recognise a specific gesture. A practical advantage is that this approach also makes the CNN simple to design for different sample rates. We use NinaPro database 1 (27 subjects and 52 movements + rest), sampled at 100 Hz, and database 2 (40 subjects and 40 movements + rest), sampled at 2 kHz, to evaluate our proposed CNN design. We benchmark against a feature-based support vector machine (SVM) classifier, two CNNs from the literature, and an additional standard design of CNN. We find that our novel TtS CNN design achieves 66.6% per-class accuracy on database 1, and 67.8% on database 2, and that the TtS CNN outperforms all other compared classifiers using a statistical hypothesis test at the 2% significance level.
翻訳日:2022-11-10 00:08:43 公開日:2020-08-19
# データ管理と機械学習におけるスコアベース説明

Score-Based Explanations in Data Management and Machine Learning ( http://arxiv.org/abs/2007.12799v2 )

ライセンス: Link先を確認
Leopoldo Bertossi(参考訳) データ管理と機械学習における観察結果の説明に対するいくつかのアプローチについて述べる。 これらは事前に定義され、潜在的に関連する入力に対する数値スコアの割り当てに基づいている。 より具体的には、データベースのクエリ応答と分類モデルの結果についての説明を検討する。 記述されたアプローチは、主に因果的かつ反事実的性質である。 我々は、ドメインとセマンティックな知識を計算に取り入れる必要性を主張し、これを行ういくつかの方法を提案する。

We describe some approaches to explanations for observed outcomes in data management and machine learning. They are based on the assignment of numerical scores to predefined and potentially relevant inputs. More specifically, we consider explanations for query answers in databases, and for results from classification models. The described approaches are mostly of a causal and counterfactual nature. We argue for the need to bring domain and semantic knowledge into score computations; and suggest some ways to do this.
翻訳日:2022-11-07 06:23:29 公開日:2020-08-19
# ニューラルネットのための正規化フレキシブルアクティベーション関数の組み合わせ

Regularized Flexible Activation Function Combinations for Deep Neural Networks ( http://arxiv.org/abs/2007.13101v2 )

ライセンス: Link先を確認
Renlong Jie, Junbin Gao, Andrey Vasnev, Min-ngoc Tran(参考訳) ディープニューラルネットワークにおける活性化は、非線形マッピングの実現に不可欠である。 伝統的な研究は、主に特定の学習タスクやモデルアーキテクチャの一定のアクティベーションを見つけることに焦点を当てている。 フレキシブルアクティベーションに関する研究は、設計哲学とアプリケーションシナリオの両方において極めて限定的です。 本研究では, フレキシブルアクティベーション成分の選択に関する3つの原則を提案し, 汎用的なフレキシブルアクティベーション関数の構成法を提案する。 これに基づいて、LSTM細胞のシグモイドやタンを置換できる新規なフレキシブルアクティベーション機能ファミリーが実装され、ReLUとELUを組み合わせた新しいファミリーが導入された。 また、事前知識としての仮定に基づく2つの新しい正規化用語を導入する。 フレキシブルアクティベーションが提案されたLSTMモデルは時系列予測において大幅に改善され,P-E2-ReLUは畳み込みオートエンコーダを用いた画像圧縮タスクにおいて,より優れた,より安定した性能を実現している。 さらに,提案する正規化項により,モデルの収束性,性能,安定性が向上した。

Activation in deep neural networks is fundamental to achieving non-linear mappings. Traditional studies mainly focus on finding fixed activations for a particular set of learning tasks or model architectures. The research on flexible activation is quite limited in both designing philosophy and application scenarios. In this study, three principles of choosing flexible activation components are proposed and a general combined form of flexible activation functions is implemented. Based on this, a novel family of flexible activation functions that can replace sigmoid or tanh in LSTM cells are implemented, as well as a new family by combining ReLU and ELUs. Also, two new regularisation terms based on assumptions as prior knowledge are introduced. It has been shown that LSTM models with proposed flexible activations P-Sig-Ramp provide significant improvements in time series forecasting, while the proposed P-E2-ReLU achieves better and more stable performance on lossy image compression tasks with convolutional auto-encoders. In addition, the proposed regularization terms improve the convergence, performance and stability of the models with flexible activation functions.
翻訳日:2022-11-06 19:36:14 公開日:2020-08-19
# ベイズ後方予測に基づくグループテストにおけるアクティブプール設計

Active pooling design in group testing based on Bayesian posterior prediction ( http://arxiv.org/abs/2007.13323v2 )

ライセンス: Link先を確認
Ayaka Sakata(参考訳) 集団で感染した患者を特定する際、集団検査は検査数を減らし、検査ミスを修正する効果的な方法である。 グループテストでは、患者から採取した標本のプール上でテストが行われ、プールの数は患者よりも少ない。 グループテストのパフォーマンスは、感染した患者を検査結果から推測するために使用されるプールやアルゴリズムの設計に大きく依存する。 本稿では,ベイズ推定の枠組みにおいて,予測分布に基づくプールの適応設計法を提案する。 信念伝達アルゴリズムを用いて行った提案手法は,事前に決定されたランダムプール上で行ったグループテストと比較して,感染した患者をより正確に同定する。

In identifying infected patients in a population, group testing is an effective method to reduce the number of tests and correct the test errors. In the group testing procedure, tests are performed on pools of specimens collected from patients, where the number of pools is lower than that of patients. The performance of group testing heavily depends on the design of pools and algorithms that are used in inferring the infected patients from the test outcomes. In this paper, an adaptive design method of pools based on the predictive distribution is proposed in the framework of Bayesian inference. The proposed method executed using the belief propagation algorithm results in more accurate identification of the infected patients, as compared to the group testing performed on random pools determined in advance.
翻訳日:2022-11-06 08:10:52 公開日:2020-08-19
# 機械学習ベンチマークのデコード

Decoding machine learning benchmarks ( http://arxiv.org/abs/2007.14870v2 )

ライセンス: Link先を確認
Lucas F. F. Cardoso, Vitor C. A. Santos, Regiane S. K. Franc\^es, Ricardo B. C. Prud\^encio and Ronnie C. O. Alves(参考訳) ベンチマーク機械学習(ML)レポジトリ(UCI、OpenMLなど)が利用可能であるにもかかわらず、異なるMLアルゴリズムをテストするためのゴールドスタンダードとして機能するデータセットのどれが最適であるかを指摘できる標準評価戦略はまだ存在しない。 最近の研究で、項目応答理論(IRT)は、良いMLベンチマークであるべきものを解明するための新しいアプローチとして登場した。 この研究はIRTを用いてよく知られたOpenML-CC18ベンチマークを調べ、それが分類器の評価にどの程度適しているかを特定した。 古典からアンサンブルまで、いくつかの分類器をIRTモデルを用いて評価し、データセットの難易度と分類器の能力を同時に推定した。 Glicko-2の評価システムはIRTの上部に応用され、分類器の能力と適性を要約した。 OpenML-CC18のすべてのデータセットが、分類器を評価するのに本当に役立つわけではないことが観察された。 この研究で評価されたほとんどのデータセット(84%)は一般に簡単なインスタンスを含んでいる(例えば、難しいインスタンスの約10%)。 また、このベンチマークの半分のインスタンスの80%は非常に差別的であり、ペアのアルゴリズム比較に非常に役立ちますが、分類器の能力を押し上げるには役に立ちません。 本稿では IRT に基づく新しい評価手法と IRT の評価をML ベンチマーク上で導くツール deodIRT を提案する。

Despite the availability of benchmark machine learning (ML) repositories (e.g., UCI, OpenML), there is no standard evaluation strategy yet capable of pointing out which is the best set of datasets to serve as gold standard to test different ML algorithms. In recent studies, Item Response Theory (IRT) has emerged as a new approach to elucidate what should be a good ML benchmark. This work applied IRT to explore the well-known OpenML-CC18 benchmark to identify how suitable it is on the evaluation of classifiers. Several classifiers ranging from classical to ensembles ones were evaluated using IRT models, which could simultaneously estimate dataset difficulty and classifiers' ability. The Glicko-2 rating system was applied on the top of IRT to summarize the innate ability and aptitude of classifiers. It was observed that not all datasets from OpenML-CC18 are really useful to evaluate classifiers. Most datasets evaluated in this work (84%) contain easy instances in general (e.g., around 10% of difficult instances only). Also, 80% of the instances in half of this benchmark are very discriminating ones, which can be of great use for pairwise algorithm comparison, but not useful to push classifiers abilities. This paper presents this new evaluation methodology based on IRT as well as the tool decodIRT, developed to guide IRT estimation over ML benchmarks.
翻訳日:2022-11-05 19:43:05 公開日:2020-08-19
# 野生の単一画像からの3次元物体空間配置の知覚

Perceiving 3D Human-Object Spatial Arrangements from a Single Image in the Wild ( http://arxiv.org/abs/2007.15649v2 )

ライセンス: Link先を確認
Jason Y. Zhang and Sam Pepose and Hanbyul Joo and Deva Ramanan and Jitendra Malik and Angjoo Kanazawa(参考訳) 制御不能な環境下で撮影された単一の画像から、グローバルに一貫した3Dシーンにおける人間と物体の空間配置と形状を推定する手法を提案する。 特に,本手法はシーンレベルの3D監視を伴わないデータセットで動作する。 私たちの重要な洞察は、人間と物体を共同で考えると、曖昧さを解決するために使用できる「3d common sense」の制約が生じるということです。 特に,データから物体サイズの分布を学習するスケール損失,物体のポーズを最適化するためのオクルージョンアウェアシルエット再投影損失,人間の相互作用する物体の空間配置をキャプチャするヒューマン・オブジェクト間インタラクション損失について紹介する。 私たちの制約は、おそらく3d空間構成の空間を劇的に削減できることを実証的に検証します。 我々は、大型物体(自転車、オートバイ、サーフボードなど)やハンドヘルド物体(ラップトップ、テニスラケット、スケートボードなど)と対話する人間の挑戦的で、野生のイメージに対する我々のアプローチを実証する。 我々は、人間とオブジェクトのアレンジメントを回復するアプローチの能力を定量化し、この相対的な領域に残る課題を概説する。 プロジェクトのWebページはhttps://jasonyzhang.com/phosa.comにある。

We present a method that infers spatial arrangements and shapes of humans and objects in a globally consistent 3D scene, all from a single image in-the-wild captured in an uncontrolled environment. Notably, our method runs on datasets without any scene- or object-level 3D supervision. Our key insight is that considering humans and objects jointly gives rise to "3D common sense" constraints that can be used to resolve ambiguity. In particular, we introduce a scale loss that learns the distribution of object size from data; an occlusion-aware silhouette re-projection loss to optimize object pose; and a human-object interaction loss to capture the spatial layout of objects with which humans interact. We empirically validate that our constraints dramatically reduce the space of likely 3D spatial configurations. We demonstrate our approach on challenging, in-the-wild images of humans interacting with large objects (such as bicycles, motorcycles, and surfboards) and handheld objects (such as laptops, tennis rackets, and skateboards). We quantify the ability of our approach to recover human-object arrangements and outline remaining challenges in this relatively domain. The project webpage can be found at https://jasonyzhang.com/phosa.
翻訳日:2022-11-05 14:36:23 公開日:2020-08-19
# ウェアラブルから人間活動の深層的クラスタリングに向けて

Towards Deep Clustering of Human Activities from Wearables ( http://arxiv.org/abs/2008.01659v2 )

ライセンス: Link先を確認
Alireza Abedin, Farbod Motlagh, Qinfeng Shi, Seyed Hamid Rezatofighi, Damith Chinthana Ranasinghe(参考訳) 人間の行動および健康および健康における活動監視のアプリケーションに対する低コストなウェアラブルセンシングモダリティを活用する能力は、教師付き学習体制に依存している。 しかし、センサアクティビティデータセットの収集と注釈付けのコストのかかる作業は、労働集約的で、時間がかかり、大量のデータに対してスケーラビリティがない。 既存の教師なしのディープクラスタリングの修正は、静的イメージデータセット用に調整されたネットワークアーキテクチャと最適化目標を活用するが、深層アーキテクチャは、オンボディセンサーによってキャプチャされた生のシーケンスデータからクラスタ構造を明らかにする。 本稿では,ウェアラブル端末からのヒューマンアクティビティ認識(HAR)の基本問題に対する教師なしエンドツーエンド学習戦略を開発する。 既存の手法との比較を含む広範な実験を通して,センサデータの教師なし表現を共同学習し,異なる人間の活動に強い意味的対応を持つクラスタ代入を生成する手法の有効性を示す。

Our ability to exploit low-cost wearable sensing modalities for critical human behaviour and activity monitoring applications in health and wellness is reliant on supervised learning regimes; here, deep learning paradigms have proven extremely successful in learning activity representations from annotated data. However, the costly work of gathering and annotating sensory activity datasets is labor-intensive, time consuming and not scalable to large volumes of data. While existing unsupervised remedies of deep clustering leverage network architectures and optimization objectives that are tailored for static image datasets, deep architectures to uncover cluster structures from raw sequence data captured by on-body sensors remains largely unexplored. In this paper, we develop an unsupervised end-to-end learning strategy for the fundamental problem of human activity recognition (HAR) from wearables. Through extensive experiments, including comparisons with existing methods, we show the effectiveness of our approach to jointly learn unsupervised representations for sensory data and generate cluster assignments with strong semantic correspondence to distinct human activities.
翻訳日:2022-11-03 20:01:45 公開日:2020-08-19
# 公理に基づくGrad-CAM:CNNの正確な可視化と説明に向けて

Axiom-based Grad-CAM: Towards Accurate Visualization and Explanation of CNNs ( http://arxiv.org/abs/2008.02312v4 )

ライセンス: Link先を確認
Ruigang Fu, Qingyong Hu, Xiaohu Dong, Yulan Guo, Yinghui Gao, Biao Li(参考訳) 畳み込みニューラルネットワーク(CNN)をよりよく理解し利用するために、近年CNNの可視化と解釈が注目されている。 特に,CNNの決定と画像領域の関連性を明らかにするために,いくつかのクラス活性化マッピング法が提案されている。 合理的な視覚化にもかかわらず、明確で十分な理論的サポートがないことが、これらの方法の主な制限である。 本稿では,CAM手法の可視化パラダイムに2つの公理(保存と感性)を導入する。 一方、これらの公理をできるだけ満たすために、専用公理ベースのGrad-CAM(XGrad-CAM)が提案されている。 実験により、XGrad-CAMは保存と感度の観点からGrad-CAMの強化版であることが示された。 また、Grad-CAM++やAblation-CAMと比較して、クラス識別と実装が容易である。 コードはhttps://github.com/Fu0511/XGrad-CAMで入手できる。

To have a better understanding and usage of Convolution Neural Networks (CNNs), the visualization and interpretation of CNNs has attracted increasing attention in recent years. In particular, several Class Activation Mapping (CAM) methods have been proposed to discover the connection between CNN's decision and image regions. In spite of the reasonable visualization, lack of clear and sufficient theoretical support is the main limitation of these methods. In this paper, we introduce two axioms -- Conservation and Sensitivity -- to the visualization paradigm of the CAM methods. Meanwhile, a dedicated Axiom-based Grad-CAM (XGrad-CAM) is proposed to satisfy these axioms as much as possible. Experiments demonstrate that XGrad-CAM is an enhanced version of Grad-CAM in terms of conservation and sensitivity. It is able to achieve better visualization performance than Grad-CAM, while also be class-discriminative and easy-to-implement compared with Grad-CAM++ and Ablation-CAM. The code is available at https://github.com/Fu0511/XGrad-CAM.
翻訳日:2022-11-02 17:27:16 公開日:2020-08-19
# レコメンダシステムからコールドスタート検索検索へのゼロショット異種変換学習

Zero-Shot Heterogeneous Transfer Learning from Recommender Systems to Cold-Start Search Retrieval ( http://arxiv.org/abs/2008.02930v2 )

ライセンス: Link先を確認
Tao Wu, Ellie Ka-In Chio, Heng-Tze Cheng, Yu Du, Steffen Rendle, Dima Kuzmin, Ritesh Agarwal, Li Zhang, John Anderson, Sarvjeet Singh, Tushar Chandra, Ed H. Chi, Wen Li, Ankit Kumar, Xiang Ma, Alex Soares, Nitin Jindal, Pei Cao(参考訳) クエリが与えられたトップk項目を予測するニューラル情報検索モデルにおける最近の多くの進歩は、大きなトレーニングセット(クエリ、アイテム)から直接学習する。 しかし、以前は見つからなかった(クエリ、アイテム)組み合わせが多数あり、しばしばコールドスタート問題と呼ばれる場合、それらは不十分である。 さらに、検索システムは、'リッチ・ゲット・リッチ(rich get rich)'(フィードバックループ)問題として知られる、クエリに頻繁に表示される項目に対してバイアスを負うことができる。 これらの問題を踏まえて、オンラインコンテンツプラットフォームの多くは検索とレコメンデータシステムを備えており、不均一な入力空間を持つにもかかわらず、共通の出力項目空間と共有セマンティック表現を介して接続することができる。 本稿では,コンテンツプラットフォームの検索コンポーネントを改善するために,推薦システムコンポーネントから学習知識を伝達するZero-Shot Heterogeneous Transfer Learningフレームワークを提案する。 まず,推薦システムから得られた相関グラフを補助タスクとして予測することにより,項目とその自然言語の特徴の表現を学習する。 そして、学習した表現を転送して、対象検索検索タスクを解決し、(クエリ、項目)ペアをトレーニング中に見ずに、クエリーから項目への予測を行う。 弊社は、Googleから世界最大の検索とレコメンデーションシステムのひとつで、オンラインとオフラインで実験を行い、得られた結果と教訓を提示する。 提案手法は,オフライン検索検索タスクにおいて高い性能を達成でき,さらにオンライン実験において,高度に最適化された生産システムに対する関連性やユーザインタラクションを大幅に改善できることを示す。

Many recent advances in neural information retrieval models, which predict top-K items given a query, learn directly from a large training set of (query, item) pairs. However, they are often insufficient when there are many previously unseen (query, item) combinations, often referred to as the cold start problem. Furthermore, the search system can be biased towards items that are frequently shown to a query previously, also known as the 'rich get richer' (a.k.a. feedback loop) problem. In light of these problems, we observed that most online content platforms have both a search and a recommender system that, while having heterogeneous input spaces, can be connected through their common output item space and a shared semantic representation. In this paper, we propose a new Zero-Shot Heterogeneous Transfer Learning framework that transfers learned knowledge from the recommender system component to improve the search component of a content platform. First, it learns representations of items and their natural-language features by predicting (item, item) correlation graphs derived from the recommender system as an auxiliary task. Then, the learned representations are transferred to solve the target search retrieval task, performing query-to-item prediction without having seen any (query, item) pairs in training. We conduct online and offline experiments on one of the world's largest search and recommender systems from Google, and present the results and lessons learned. We demonstrate that the proposed approach can achieve high performance on offline search retrieval tasks, and more importantly, achieved significant improvements on relevance and user interactions over the highly-optimized production system in online experiments.
翻訳日:2022-11-02 01:03:35 公開日:2020-08-19
# 新型コロナウイルス流行予測のための可変量子回路と量子バックプロパゲーション多層パーセプトロンの比較研究

Comparative study of variational quantum circuit and quantum backpropagation multilayer perceptron for COVID-19 outbreak predictions ( http://arxiv.org/abs/2008.07617v2 )

ライセンス: Link先を確認
Pranav Kairon and Siddhartha Bhattacharyya(参考訳) 画像分類やパターン認識など,様々な問題に応用された量子ニューラルネットワークのモデルが数多く存在する。 最近では、NISQ時代において、ハイブリッド量子古典モデルは有望な結果を示している。 多機能回帰は古典的な機械学習において一般的な問題である。 そこで本研究では,連続可変量子ニューラルネットワーク(可変回路)と量子バックプロパゲーション多層パーセプトロン(QBMLP)の比較解析を行った。 インドと米国でのcovid-19感染者の増加を予測するという、現代の問題を選択した。 従来のニューラルネットワークよりも優れた性能を示す2つのモデル間の統計的比較を行った。

There are numerous models of quantum neural networks that have been applied to variegated problems such as image classification, pattern recognition etc.Quantum inspired algorithms have been relevant for quite awhile. More recently, in the NISQ era, hybrid quantum classical models have shown promising results. Multi-feature regression is common problem in classical machine learning. Hence we present a comparative analysis of continuous variable quantum neural networks (Variational circuits) and quantum backpropagating multi layer perceptron (QBMLP). We have chosen the contemporary problem of predicting rise in COVID-19 cases in India and USA. We provide a statistical comparison between two models , both of which perform better than the classical artificial neural networks.
翻訳日:2022-11-01 12:22:15 公開日:2020-08-19
# ファウショット学習領域におけるディープラーニングアーキテクチャの概要

An Overview of Deep Learning Architectures in Few-Shot Learning Domain ( http://arxiv.org/abs/2008.06365v3 )

ライセンス: Link先を確認
Shruti Jadon(参考訳) 2012年以降、ディープラーニングは人工知能に革命をもたらし、画像分類から音声生成まで、さまざまな分野で最先端の成果を上げてきた。 多くの可能性を秘めていますが、現在のアーキテクチャには大量のデータの前提条件があります。 Few-Shot Learning(ワンショットラーニング、Few-Shot Learning)は、機械学習のサブフィールドであり、人間の学習方法と同様、少ないデータで望ましい目的を学習できるようなモデルを作成することを目的としている。 本稿では,近距離学習への深層学習に基づくアプローチについて概説する。 我々は,最近の成果,課題,および,数少ない学習ベースのディープラーニングアーキテクチャの改善の可能性について論じた。 本論文の目的は3つある。 (i)コア参照へのポインタによる数ショット学習のためのディープラーニングアーキテクチャの簡単な紹介。 2)データ準備からモデルトレーニングに至るまで,低データ体制にディープラーニングがどのように適用されたかを示す。 そして (iii) 実験に興味のある人にとっては、有用なリソースやオープンソースコードを指摘して、おそらくは少数の学習の分野に貢献するための出発点となる。 私たちのコードはGithubで公開されている。

Since 2012, Deep learning has revolutionized Artificial Intelligence and has achieved state-of-the-art outcomes in different domains, ranging from Image Classification to Speech Generation. Though it has many potentials, our current architectures come with the pre-requisite of large amounts of data. Few-Shot Learning (also known as one-shot learning) is a sub-field of machine learning that aims to create such models that can learn the desired objective with less data, similar to how humans learn. In this paper, we have reviewed some of the well-known deep learning-based approaches towards few-shot learning. We have discussed the recent achievements, challenges, and possibilities of improvement of few-shot learning based deep learning architectures. Our aim for this paper is threefold: (i) Give a brief introduction to deep learning architectures for few-shot learning with pointers to core references. (ii) Indicate how deep learning has been applied to the low-data regime, from data preparation to model training. and, (iii) Provide a starting point for people interested in experimenting and perhaps contributing to the field of few-shot learning by pointing out some useful resources and open-source code. Our code is available at Github: https://github.com/shruti-jadon/Hands-on-One-Shot-Learning.
翻訳日:2022-10-31 04:55:11 公開日:2020-08-19
# deepslicing: ネットワークスライシングのための深層強化学習支援リソース割り当て

DeepSlicing: Deep Reinforcement Learning Assisted Resource Allocation for Network Slicing ( http://arxiv.org/abs/2008.07614v2 )

ライセンス: Link先を確認
Qiang Liu, Tao Han, Ning Zhang, Ye Wang(参考訳) ネットワークスライシングにより、同じ物理インフラストラクチャ上で複数の仮想ネットワークが動作し、5G以降のさまざまなユースケースをサポートすることができる。 しかし、これらのユースケースには、通信や計算、レイテンシやスループットといった様々なパフォーマンス指標など、非常に多様なネットワークリソース要求があります。 ネットワークリソースをスライスに効果的に割り当てるために,乗算器の交互方向法(ADMM)と深部強化学習(DRL)を統合したDeepSlicingを提案する。 DeepSlicingはネットワークスライシング問題をマスター問題といくつかのスレーブ問題に分解する。 主問題は凸最適化に基づいて解決され、スレーブ問題は最適資源配分ポリシーを学習するDRL法で処理される。 提案アルゴリズムの性能はネットワークシミュレーションによって検証される。

Network slicing enables multiple virtual networks run on the same physical infrastructure to support various use cases in 5G and beyond. These use cases, however, have very diverse network resource demands, e.g., communication and computation, and various performance metrics such as latency and throughput. To effectively allocate network resources to slices, we propose DeepSlicing that integrates the alternating direction method of multipliers (ADMM) and deep reinforcement learning (DRL). DeepSlicing decomposes the network slicing problem into a master problem and several slave problems. The master problem is solved based on convex optimization and the slave problem is handled by DRL method which learns the optimal resource allocation policy. The performance of the proposed algorithm is validated through network simulations.
翻訳日:2022-10-28 04:27:30 公開日:2020-08-19
# 解釈モデルと分子機械学習を用いたリチウム媒質アンモニア合成のためのプロトンドナーの閉ループ設計

Closed-Loop Design of Proton Donors for Lithium-Mediated Ammonia Synthesis with Interpretable Models and Molecular Machine Learning ( http://arxiv.org/abs/2008.08078v2 )

ライセンス: Link先を確認
Dilip Krishnamurthy and Nikifar Lazouski and Michal L. Gala and Karthish Manthiram and Venkatasubramanian Viswanathan(参考訳) 本研究では, テトラヒドロフラン系電解質のリチウムによる電気化学的窒素還元に対する数種類のプロトンドナーの有効性を実験的に検討した。 次に,可溶性カムレット・タフトパラメータを同定するデータ駆動型分類モデルを構築し,プロトン供与体と非活性プロトンを識別した。 Kamlet-Taftパラメータのデータセットをキュレートした後、我々はKamlet-Taftパラメータを予測するためにディープラーニングモデルを訓練した。 分類モデルとディープラーニングモデルの組み合わせは、与えられたプロトンドナーからアンモニアを生成する能力への予測マッピングを提供する。 この分類モデルとディープラーニングの組み合わせは、純粋に機械的あるいはデータ駆動の手法よりも精度と実験データ効率が優れていることを示す。

In this work, we experimentally determined the efficacy of several classes of proton donors for lithium-mediated electrochemical nitrogen reduction in a tetrahydrofuran-based electrolyte, an attractive alternative method for producing ammonia. We then built an interpretable data-driven classification model which identified solvatochromic Kamlet-Taft parameters as important for distinguishing between active and inactive proton donors. After curating a dataset for the Kamlet-Taft parameters, we trained a deep learning model to predict the Kamlet-Taft parameters. The combination of classification model and deep learning model provides a predictive mapping from a given proton donor to the ability to produce ammonia. We demonstrate that this combination of classification model with deep learning is superior to a purely mechanistic or data-driven approach in accuracy and experimental data efficiency.
翻訳日:2022-10-27 22:32:32 公開日:2020-08-19
# 可視性を考慮したマルチビューステレオネットワーク

Visibility-aware Multi-view Stereo Network ( http://arxiv.org/abs/2008.07928v2 )

ライセンス: Link先を確認
Jingyang Zhang, Yao Yao, Shiwei Li, Zixin Luo, Tian Fang(参考訳) 学習型マルチビューステレオ(MVS)手法は有望な結果を示した。 しかし、既存のネットワークではピクセル単位の可視性を考慮に入れていないため、無視されたピクセルからの誤ったコスト集約が生じる。 本稿では,MVSネットワークにおける画素単位のオクルージョン情報を一致不確実性推定により明示的に推測し,統合する。 対方向の不確実性マップは、対方向深度マップと共同で推測され、マルチビューコストボリューム融合の間、さらに重み付けガイダンスとして用いられる。 これにより、コスト融合において、オクルード画素の悪影響が抑制される。 提案するフレームワークであるVis-MVSNetは,シーンの深度精度を著しく向上させる。 DTU, BlendedMVS, Tanks and Temples のデータセットで大規模な実験を行い,提案フレームワークの有効性を正当化した。

Learning-based multi-view stereo (MVS) methods have demonstrated promising results. However, very few existing networks explicitly take the pixel-wise visibility into consideration, resulting in erroneous cost aggregation from occluded pixels. In this paper, we explicitly infer and integrate the pixel-wise occlusion information in the MVS network via the matching uncertainty estimation. The pair-wise uncertainty map is jointly inferred with the pair-wise depth map, which is further used as weighting guidance during the multi-view cost volume fusion. As such, the adverse influence of occluded pixels is suppressed in the cost fusion. The proposed framework Vis-MVSNet significantly improves depth accuracies in the scenes with severe occlusion. Extensive experiments are performed on DTU, BlendedMVS, and Tanks and Temples datasets to justify the effectiveness of the proposed framework.
翻訳日:2022-10-27 21:39:20 公開日:2020-08-19
# インターネット動画からのモーションキャプチャ

Motion Capture from Internet Videos ( http://arxiv.org/abs/2008.07931v2 )

ライセンス: Link先を確認
Junting Dong, Qing Shuai, Yuanqing Zhang, Xian Liu, Xiaowei Zhou, Hujun Bao(参考訳) 画像に基づく人間のポーズ推定の最近の進歩により、単一のrgbビデオから3d人間の動きをキャプチャできる。 しかし、単一の視点における内在的な奥行きあいまいさと自己完結性は、マルチビューの再構築と同じくらいの高品質な動きの回復を禁止している。 マルチビュービデオは一般的ではないが、特定のアクションを行う有名人のビデオはインターネット上で多く見られる。 これらのビデオが異なる時間帯に記録されたとしても、同じ動き特性を符号化する。 そこで本研究では,単一の動画を別々に使用するのではなく,これらインターネット動画を共同分析することで,人間の動きを捉えることを提案する。 しかし、この新たな課題は、ビデオが非同期化され、カメラの視点が不明であり、背景のシーンが異なり、人間の動きがビデオと全く同じではないため、既存の方法で対処できない多くの新しい課題をもたらす。 これらの課題に対処するために,新しい最適化ベースフレームワークを提案し,単眼モーションキャプチャ法と比較して,複数のビデオからより高精度で詳細な動きを復元する能力について実験的に実証する。

Recent advances in image-based human pose estimation make it possible to capture 3D human motion from a single RGB video. However, the inherent depth ambiguity and self-occlusion in a single view prohibit the recovery of as high-quality motion as multi-view reconstruction. While multi-view videos are not common, the videos of a celebrity performing a specific action are usually abundant on the Internet. Even if these videos were recorded at different time instances, they would encode the same motion characteristics of the person. Therefore, we propose to capture human motion by jointly analyzing these Internet videos instead of using single videos separately. However, this new task poses many new challenges that cannot be addressed by existing methods, as the videos are unsynchronized, the camera viewpoints are unknown, the background scenes are different, and the human motions are not exactly the same among videos. To address these challenges, we propose a novel optimization-based framework and experimentally demonstrate its ability to recover much more precise and detailed motion from multiple videos, compared against monocular motion capture methods.
翻訳日:2022-10-27 21:38:50 公開日:2020-08-19
# SoDA:ソフトデータアソシエーションによる多目的追跡

SoDA: Multi-Object Tracking with Soft Data Association ( http://arxiv.org/abs/2008.07725v2 )

ライセンス: Link先を確認
Wei-Chih Hung, Henrik Kretzschmar, Tsung-Yi Lin, Yuning Chai, Ruichi Yu, Ming-Hsuan Yang, Dragomir Anguelov(参考訳) ロバストマルチオブジェクトトラッキング(MOT)は、自動運転車の安全な配置の前提条件である。 しかし、追跡対象は依然として非常に困難な問題であり、特に物体が複雑な方法で互いに相互作用し、頻繁に閉塞されるような、乱雑な自動運転シーンではなおさらだ。 観測対象間の時空間依存性を符号化したトラック埋め込みの計算に注目するMOTに対する新しいアプローチを提案する。 この注意度測定エンコーディングは,ハードデータ関連を緩和し,再定義不能なエラーを発生させる可能性がある。 代わりに、我々のモデルはソフトデータアソシエーションを介してすべてのオブジェクト検出から情報を集約します。 得られた潜在空間表現は、包括的データ駆動方式で包括性について推論し、包括された場合でもオブジェクトのトラック推定を維持できる。 waymo opendatasetにおける実験結果から,我々のアプローチは現代の大規模データセットを活用し,視覚マルチオブジェクトトラッキングの最先端技術と比較して好適に機能することが示唆された。

Robust multi-object tracking (MOT) is a prerequisite fora safe deployment of self-driving cars. Tracking objects, however, remains a highly challenging problem, especially in cluttered autonomous driving scenes in which objects tend to interact with each other in complex ways and frequently get occluded. We propose a novel approach to MOT that uses attention to compute track embeddings that encode the spatiotemporal dependencies between observed objects. This attention measurement encoding allows our model to relax hard data associations, which may lead to unrecoverable errors. Instead, our model aggregates information from all object detections via soft data associations. The resulting latent space representation allows our model to learn to reason about occlusions in a holistic data-driven way and maintain track estimates for objects even when they are occluded. Our experimental results on the Waymo OpenDataset suggest that our approach leverages modern large-scale datasets and performs favorably compared to the state of the art in visual multi-object tracking.
翻訳日:2022-10-27 21:30:18 公開日:2020-08-19
# ベイズ型ニューラルネットワークと次元性低減

Bayesian neural networks and dimensionality reduction ( http://arxiv.org/abs/2008.08044v2 )

ライセンス: Link先を確認
Deborshee Sen and Theodore Papamarkou and David Dunson(参考訳) 非線型次元減少と特徴学習を行う際、データは下次元多様体の近くにあると仮定することが一般的である。 そのような問題に対するモデルベースアプローチのクラスには、未知の非線形回帰関数における潜在変数が含まれ、ガウス過程潜在変数モデルと変分オートエンコーダ(vaes)を特別なケースとして含む。 vaesは、計算を扱いやすくするために近似を用いる人工ニューラルネットワーク(anns)であるが、現在の実装では、パラメータ、予測密度、低次元部分空間の推定において十分な不確かさの定量化が欠如しており、不安定であり、実際には解釈可能性に欠ける可能性がある。 我々はマルコフ連鎖モンテカルロサンプリングアルゴリズム(MCMC)を,潜伏変数を持つANNモデルにおけるベイズ推定のために配置することで,これらの問題を解決する。 我々は、ANNパラメータに制約を課し、アンカーポイントを使用することにより、識別可能性の問題に対処する。 これはシミュレーションおよび実データ例で実証される。 現在のMCMCサンプリングスキームは、潜伏変数を含むニューラルネットワークの基本的な課題に直面し、新しい研究方向性を動機付けている。

In conducting non-linear dimensionality reduction and feature learning, it is common to suppose that the data lie near a lower-dimensional manifold. A class of model-based approaches for such problems includes latent variables in an unknown non-linear regression function; this includes Gaussian process latent variable models and variational auto-encoders (VAEs) as special cases. VAEs are artificial neural networks (ANNs) that employ approximations to make computation tractable; however, current implementations lack adequate uncertainty quantification in estimating the parameters, predictive densities, and lower-dimensional subspace, and can be unstable and lack interpretability in practice. We attempt to solve these problems by deploying Markov chain Monte Carlo sampling algorithms (MCMC) for Bayesian inference in ANN models with latent variables. We address issues of identifiability by imposing constraints on the ANN parameters as well as by using anchor points. This is demonstrated on simulated and real data examples. We find that current MCMC sampling schemes face fundamental challenges in neural networks involving latent variables, motivating new research directions.
翻訳日:2022-10-27 21:11:55 公開日:2020-08-19
# 生涯にわたるオープンドメイン対話学習の展開

Deploying Lifelong Open-Domain Dialogue Learning ( http://arxiv.org/abs/2008.08076v2 )

ライセンス: Link先を確認
Kurt Shuster, Jack Urbanek, Emily Dinan, Arthur Szlam, Jason Weston(参考訳) NLP研究の多くは、クラウドソーシングされた静的データセットとトレーニングの教師付き学習パラダイムに焦点を合わせ、テストパフォーマンスを評価してきた。 de vries et al. (2020)で論じられているように、クラウドソーシングされたデータは、自然性と現実世界のユースケースとの関連性の欠如の問題を持っているが、静的データセットパラダイムでは、言語を使った経験からモデルを学ぶことはできない(silver et al., 2013)。 対照的に、人と対話するときにより便利になる機械学習システムが期待できるかもしれない。 本研究では,オープンドメインのファンタジー世界に位置する学習エージェントと人間のプレイヤーが会話するロールプレイングゲームを構築し,展開する。 自動メトリクスとオンラインエンゲージメントスコアから,ゲーム中の人間との会話に関するモデルをトレーニングすることで,モデルを段階的に改善することを示す。 この学習は、実際のユーザとの会話に適用した場合のクラウドソースデータよりも効率的であり、収集コストもはるかに安い。

Much of NLP research has focused on crowdsourced static datasets and the supervised learning paradigm of training once and then evaluating test performance. As argued in de Vries et al. (2020), crowdsourced data has the issues of lack of naturalness and relevance to real-world use cases, while the static dataset paradigm does not allow for a model to learn from its experiences of using language (Silver et al., 2013). In contrast, one might hope for machine learning systems that become more useful as they interact with people. In this work, we build and deploy a role-playing game, whereby human players converse with learning agents situated in an open-domain fantasy world. We show that by training models on the conversations they have with humans in the game the models progressively improve, as measured by automatic metrics and online engagement scores. This learning is shown to be more efficient than crowdsourced data when applied to conversations with real users, as well as being far cheaper to collect.
翻訳日:2022-10-27 20:36:35 公開日:2020-08-19
# EASTER: 効率的でスケーラブルなテキスト認識装置

EASTER: Efficient and Scalable Text Recognizer ( http://arxiv.org/abs/2008.07839v2 )

ライセンス: Link先を確認
Kartik Chaudhary and Raghav Bali(参考訳) 近年のディープラーニングの進歩により,光学文字認識(OCR)システムの開発が著しく進んでいる。 ほとんどの研究は、リカレントネットワークと、ソリューション全体を複雑でスケールが難しい複雑なゲート層に関するものだ。 本稿では,機械印刷版と手書き版の両方で光学文字認識を行うためのEASTER(Efficient And Scalable TExt Recognizer)を提案する。 本モデルは1次元畳み込み層を再帰なく利用し,データ量を大幅に削減した並列トレーニングを実現する。 我々は、アーキテクチャの複数のバリエーションを実験し、RNNに基づく複雑な選択に対して、最小のバリエーション(パラメータの深さと数)の1つを比較検討した。 当社の20層モデルでは,IIIT-5kやSVTといったベンチマークデータセットに対して,RNNアーキテクチャよりも優れています。 オフライン手書きテキスト認識タスクの現在のベスト結果に対する改善点も紹介する。 また,手書きテキストと機械印刷テキストの合成データセットを生成するために,拡張セットアップを備えたデータ生成パイプラインを提案する。

Recent progress in deep learning has led to the development of Optical Character Recognition (OCR) systems which perform remarkably well. Most research has been around recurrent networks as well as complex gated layers which make the overall solution complex and difficult to scale. In this paper, we present an Efficient And Scalable TExt Recognizer (EASTER) to perform optical character recognition on both machine printed and handwritten text. Our model utilises 1-D convolutional layers without any recurrence which enables parallel training with considerably less volume of data. We experimented with multiple variations of our architecture and one of the smallest variant (depth and number of parameter wise) performs comparably to RNN based complex choices. Our 20-layered deepest variant outperforms RNN architectures with a good margin on benchmarking datasets like IIIT-5k and SVT. We also showcase improvements over the current best results on offline handwritten text recognition task. We also present data generation pipelines with augmentation setup to generate synthetic datasets for both handwritten and machine printed text.
翻訳日:2022-10-27 20:36:18 公開日:2020-08-19
# 連合学習ネットワークのスマートセキュリティ向上に向けて

Toward Smart Security Enhancement of Federated Learning Networks ( http://arxiv.org/abs/2008.08330v1 )

ライセンス: Link先を確認
Junjie Tan, Ying-Chang Liang, Nguyen Cong Luong, Dusit Niyato(参考訳) 従来の集中型学習ネットワーク(CLN)は、プライバシ保護、通信オーバーヘッド、スケーラビリティの面でますます課題に直面しているため、機械学習(ML)モデルのトレーニングをサポートするための有望な代替パラダイムとして、フェデレーション型学習ネットワーク(FLN)が提案されている。 CLNの中央集権的なデータストレージや処理とは対照的に、FLNはデータを保存するために複数のエッジデバイス(ED)を利用している。 このように、FLNのEDはデータをローカルに保持し、プライバシを保護し、通信オーバーヘッドを減らすことができる。 しかし、FLN内のモデルトレーニングは全てのEDの貢献に依存しているため、EDが不正または偽装されたトレーニング結果、すなわち中毒攻撃をアップロードした場合、トレーニングプロセスが中断される可能性がある。 本稿では,FLNの脆弱性について概説し,特に中毒攻撃と主流対策について概説する。 それでも、既存の対策は受動的保護しか提供できず、EDの寄付に対して支払われる訓練費用を考慮できないため、不必要に高い訓練コストがかかる。 そこで我々はFLNのためのスマートセキュリティ強化フレームワークを提案する。 特に、EDから非良性トレーニング結果を特定し、除去するために、検証前集約(VBA)手順が開発されている。 その後、深層強化学習(DRL)を用いて、EDの挙動パターンを学習し、良質なトレーニング結果を提供し、低いトレーニング料金を請求できるEDを積極的に選択する。 シミュレーションの結果,提案フレームワークはFLNを効果的かつ効率的に保護できることがわかった。

As traditional centralized learning networks (CLNs) are facing increasing challenges in terms of privacy preservation, communication overheads, and scalability, federated learning networks (FLNs) have been proposed as a promising alternative paradigm to support the training of machine learning (ML) models. In contrast to the centralized data storage and processing in CLNs, FLNs exploit a number of edge devices (EDs) to store data and perform training distributively. In this way, the EDs in FLNs can keep training data locally, which preserves privacy and reduces communication overheads. However, since the model training within FLNs relies on the contribution of all EDs, the training process can be disrupted if some of the EDs upload incorrect or falsified training results, i.e., poisoning attacks. In this paper, we review the vulnerabilities of FLNs, and particularly give an overview of poisoning attacks and mainstream countermeasures. Nevertheless, the existing countermeasures can only provide passive protection and fail to consider the training fees paid for the contributions of the EDs, resulting in a unnecessarily high training cost. Hence, we present a smart security enhancement framework for FLNs. In particular, a verify-before-aggregate (VBA) procedure is developed to identify and remove the non-benign training results from the EDs. Afterward, deep reinforcement learning (DRL) is applied to learn the behaving patterns of the EDs and to actively select the EDs that can provide benign training results and charge low training fees. Simulation results reveal that the proposed framework can protect FLNs effectively and efficiently.
翻訳日:2022-10-27 12:46:00 公開日:2020-08-19
# HpRNet : 変分パラメトリック合成器におけるビオリンの残留雑音モデルの導入

HpRNet : Incorporating Residual Noise Modeling for Violin in a Variational Parametric Synthesizer ( http://arxiv.org/abs/2008.08405v1 )

ライセンス: Link先を確認
Krishna Subramani, Preeti Rao(参考訳) 音声合成のための生成モデルはこの数年間で勢いを増している。 近年,音声信号のパラメトリック表現が組み込まれ,合成された出力の楽譜制御が容易になった。 本研究では,ヴァイオリン音のパラメトリックモデル,特に残弦音の生成モデルについて検討し,より自然な音質を実現する。 本分析の助けとなるために,特定のジェスチャー環境下で高音域の演奏スタイルにおいて,弓音が不可欠な部分である,カルナティックビオリン記録のデータセットを導入する。 持続する音のスペクトルエンベロープの変動符号化の過程から導かれる潜時空間の観測を通して、信号の高調波成分と残差成分、およびそれらの相互依存性についての知見を得る。

Generative Models for Audio Synthesis have been gaining momentum in the last few years. More recently, parametric representations of the audio signal have been incorporated to facilitate better musical control of the synthesized output. In this work, we investigate a parametric model for violin tones, in particular the generative modeling of the residual bow noise to make for more natural tone quality. To aid in our analysis, we introduce a dataset of Carnatic Violin Recordings where bow noise is an integral part of the playing style of higher pitched notes in specific gestural contexts. We obtain insights about each of the harmonic and residual components of the signal, as well as their interdependence, via observations on the latent space derived in the course of variational encoding of the spectral envelopes of the sustained sounds.
翻訳日:2022-10-27 12:45:32 公開日:2020-08-19
# カモフラージュ詐欺師に対するグラフニューラルネットワークに基づく不正検出の強化

Enhancing Graph Neural Network-based Fraud Detectors against Camouflaged Fraudsters ( http://arxiv.org/abs/2008.08692v1 )

ライセンス: Link先を確認
Yingtong Dou, Zhiwei Liu, Li Sun, Yutong Deng, Hao Peng, Philip S. Yu(参考訳) 近年,グラフニューラルネットワーク(GNN)は不正検出問題に広く適用されており,近隣情報を異なる関係で集約することで,ノードの疑似性を明らかにする。 しかし、詐欺師のカモフラージュ行動に気付いていない先行研究は、集約プロセス中にGNNベースの詐欺検知器の性能を阻害する可能性がある。 本稿では,最近の実証研究に基づく2種類のカモフラージュ,すなわち特徴カモフラージュと関係カモフラージュを紹介する。 既存のGNNはこれらの2つのカモフラージュに対処していない。 また,CARE-GNN(CAmouflage-Resistant GNN)と呼ばれる新しいモデルを提案する。 具体的には,まず,情報的隣接ノードを見つけるためのラベル認識類似度尺度を考案する。 次に、強化学習(RL)を活用して、選択すべき隣人の最適な量を求める。 最後に、異なる関係にまたがる選択された隣人を集約する。 2つの実世界の不正データセットに関する総合実験は、RLアルゴリズムの有効性を示す。 提案されたCARE-GNNは、最先端のGNNやGNNベースの不正検知器よりも優れている。 我々は、すべてのGNNベースの不正検知器をオープンソースツールボックスとして統合する。 CARE-GNNのコードとデータセットはhttps://github.com/YingtongDou/CARE-GNNで公開されている。

Graph Neural Networks (GNNs) have been widely applied to fraud detection problems in recent years, revealing the suspiciousness of nodes by aggregating their neighborhood information via different relations. However, few prior works have noticed the camouflage behavior of fraudsters, which could hamper the performance of GNN-based fraud detectors during the aggregation process. In this paper, we introduce two types of camouflages based on recent empirical studies, i.e., the feature camouflage and the relation camouflage. Existing GNNs have not addressed these two camouflages, which results in their poor performance in fraud detection problems. Alternatively, we propose a new model named CAmouflage-REsistant GNN (CARE-GNN), to enhance the GNN aggregation process with three unique modules against camouflages. Concretely, we first devise a label-aware similarity measure to find informative neighboring nodes. Then, we leverage reinforcement learning (RL) to find the optimal amounts of neighbors to be selected. Finally, the selected neighbors across different relations are aggregated together. Comprehensive experiments on two real-world fraud datasets demonstrate the effectiveness of the RL algorithm. The proposed CARE-GNN also outperforms state-of-the-art GNNs and GNN-based fraud detectors. We integrate all GNN-based fraud detectors as an opensource toolbox: https://github.com/safe-graph/DGFraud. The CARE-GNN code and datasets are available at https://github.com/YingtongDou/CARE-GNN.
翻訳日:2022-10-27 12:44:48 公開日:2020-08-19
# 畳み込みニューラルネットワークを用いた音声分類によるaedes aegyptiモスキートの検出

Detecting Aedes Aegypti Mosquitoes through Audio Classification with Convolutional Neural Networks ( http://arxiv.org/abs/2008.09024v1 )

ライセンス: Link先を確認
Marcelo Schreiber Fernandes, Weverton Cordeiro, Mariana Recamonde-Mendoza(参考訳) 蚊が媒介する病気の発生は、主に蚊の増殖に対する攻撃的な制御測定を行うリソースが不足しているため、未発達の地域で顕著である。 蚊の増殖に関するコミュニティの認識を高める潜在的戦略は、スマートフォンアプリとクラウドソーシングを使って蚊の発生率のライブマップを構築することだ。 本稿では,市販スマートフォンから取得した機械学習技術と音声分析を用いて,Aedes aegypti 蚊の同定の可能性を検討する。 要約すると、aedes aegyptiのウィングビート記録をサンプリングし、教師付き学習による畳み込みニューラルネットワーク(cnn)のトレーニングに使用した。 特徴として,記録スペクトログラムを用いて蚊の羽ばたき回数を視覚的に表現した。 我々は、バイナリ、マルチクラス、バイナリ分類器のアンサンブルの3つの分類器を訓練し比較した。 評価では,バイナリモデルとアンサンブルモデルはそれぞれ97.65% (\pm$ 0.55) と94.56% (\pm$ 0.77) の精度を達成し,マルチクラスでは78.12% (\pm$ 2.09) の精度を示した。 最良の感度はアンサンブルアプローチ (96.82% $\pm$ 1.62) で観測され、次いで aedes aegypti (90.23% $\pm$ 3.83) とバイナリ (88.49% $\pm$ 6.68) の場合にはマルチクラスが観測された。 バイナリ分類器とマルチクラス分類器は精度とリコールの最良のバランスを示し、F1尺度は90%近くであった。 アンサンブル分類器は最も精度の低いF1測定器(79.95%$\pm$2.13)を欠いたものの、我々のデータセットでAedes aegyptiを検出する最も強力な分類器であった。

The incidence of mosquito-borne diseases is significant in under-developed regions, mostly due to the lack of resources to implement aggressive control measurements against mosquito proliferation. A potential strategy to raise community awareness regarding mosquito proliferation is building a live map of mosquito incidences using smartphone apps and crowdsourcing. In this paper, we explore the possibility of identifying Aedes aegypti mosquitoes using machine learning techniques and audio analysis captured from commercially available smartphones. In summary, we downsampled Aedes aegypti wingbeat recordings and used them to train a convolutional neural network (CNN) through supervised learning. As a feature, we used the recording spectrogram to represent the mosquito wingbeat frequency over time visually. We trained and compared three classifiers: a binary, a multiclass, and an ensemble of binary classifiers. In our evaluation, the binary and ensemble models achieved accuracy of 97.65% ($\pm$ 0.55) and 94.56% ($\pm$ 0.77), respectively, whereas the multiclass had an accuracy of 78.12% ($\pm$ 2.09). The best sensitivity was observed in the ensemble approach (96.82% $\pm$ 1.62), followed by the multiclass for the particular case of Aedes aegypti (90.23% $\pm$ 3.83) and the binary (88.49% $\pm$ 6.68). The binary classifier and the multiclass classifier presented the best balance between precision and recall, with F1-measure close to 90%. Although the ensemble classifier achieved the lowest precision, thus impairing its F1-measure (79.95% $\pm$ 2.13), it was the most powerful classifier to detect Aedes aegypti in our dataset.
翻訳日:2022-10-27 12:44:26 公開日:2020-08-19
# Blur-Attention:非一様ぼかし画像修復のための促進機構

Blur-Attention: A boosting mechanism for non-uniform blurred image restoration ( http://arxiv.org/abs/2008.08526v1 )

ライセンス: Link先を確認
Xiaoguang Li, Feifan Yang, Kin Man Lam, Li Zhuo, Jiafeng Li(参考訳) 動的シーンのデブロアリングはコンピュータビジョンにおいて難しい問題である。 従来の方法で空間的に変化するぼかし核を正確に推定することは困難である。 データ駆動型手法は通常カーネルフリーのエンドツーエンドマッピング方式を採用しており、カーネル推定を見落としやすい。 この問題に対処するため,不均一な画像の空間的変化を動的に捉えるためのぼかしアテンションモジュールを提案する。 モジュールは、DenseBlockユニットとマルチプール機能融合を備えた空間注意ユニットから構成されており、空間的に変化する複雑な特徴を効果的に抽出することができる。 マルチレベル残差接続構造を設計し、複数のブラーアテンションモジュールを接続し、ブラーアテンションネットワークを形成する。 本研究では,Blur-Attention-GAN (Blur-Attention-GAN) を1つの画像に対して終端から終端までのブラインド動作除去法を提案する。 本手法は,空間的に変化するボケ特徴に応じて抽出された特徴の重みを適応的に選択し,画像を動的に復元する。 実験結果から,PSNR, SSIM, 主観的視覚的品質の両面において, 本手法の劣化性能は優れていた。 さらに、ぼかしアテンションモジュールによって抽出された特徴を可視化することにより、その効果について総合的な議論を行う。

Dynamic scene deblurring is a challenging problem in computer vision. It is difficult to accurately estimate the spatially varying blur kernel by traditional methods. Data-driven-based methods usually employ kernel-free end-to-end mapping schemes, which are apt to overlook the kernel estimation. To address this issue, we propose a blur-attention module to dynamically capture the spatially varying features of non-uniform blurred images. The module consists of a DenseBlock unit and a spatial attention unit with multi-pooling feature fusion, which can effectively extract complex spatially varying blur features. We design a multi-level residual connection structure to connect multiple blur-attention modules to form a blur-attention network. By introducing the blur-attention network into a conditional generation adversarial framework, we propose an end-to-end blind motion deblurring method, namely Blur-Attention-GAN (BAG), for a single image. Our method can adaptively select the weights of the extracted features according to the spatially varying blur features, and dynamically restore the images. Experimental results show that the deblurring capability of our method achieved outstanding objective performance in terms of PSNR, SSIM, and subjective visual quality. Furthermore, by visualizing the features extracted by the blur-attention module, comprehensive discussions are provided on its effectiveness.
翻訳日:2022-10-27 12:37:39 公開日:2020-08-19
# 特定説明によるコミュニティAIインタラクションの仲介--AI主導のモデレーションを事例として

Mediating Community-AI Interaction through Situated Explanation: The Case of AI-Led Moderation ( http://arxiv.org/abs/2008.08202v1 )

ライセンス: Link先を確認
Yubo Kou and Xinning Gui(参考訳) 人工知能(AI)は私たちの日常技術で普及し、個人とコミュニティの両方に影響を与える。 説明可能なAI(XAI)奨学金は、説明と技術的な説明の哲学的な性質を探求してきた。 さらに、既存のXAI研究は個々のレベルに焦点を当てる傾向にある。 人々がAIによる意思決定をコミュニティの文脈で理解し、説明する方法については、ほとんど知られていない。 基本的HCI理論であるXAIとアクティビティ理論を参考に,コミュニティの共有価値,規範,知識,実践における説明の位置づけと,コミュニティとAIの相互作用をいかに仲介するかを論じる。 次に、AI主導のモデレーションのケーススタディを示し、コミュニティメンバーがAI主導の意思決定の説明をまとめて作成する。 最後に,CSCW,HCI,XAIの交差点において,この枠組みがもたらす意味について論じる。

Artificial intelligence (AI) has become prevalent in our everyday technologies and impacts both individuals and communities. The explainable AI (XAI) scholarship has explored the philosophical nature of explanation and technical explanations, which are usually driven by experts in lab settings and can be challenging for laypersons to understand. In addition, existing XAI research tends to focus on the individual level. Little is known about how people understand and explain AI-led decisions in the community context. Drawing from XAI and activity theory, a foundational HCI theory, we theorize how explanation is situated in a community's shared values, norms, knowledge, and practices, and how situated explanation mediates community-AI interaction. We then present a case study of AI-led moderation, where community members collectively develop explanations of AI-led decisions, most of which are automated punishments. Lastly, we discuss the implications of this framework at the intersection of CSCW, HCI, and XAI.
翻訳日:2022-10-27 12:37:05 公開日:2020-08-19
# 衝突事故に対する線形最適輸送

Linearized Optimal Transport for Collider Events ( http://arxiv.org/abs/2008.08604v1 )

ライセンス: Link先を確認
Tianji Cai, Junyi Cheng, Katy Craig, Nathaniel Craig(参考訳) 本稿では,Linearized Optimal Transport (LOT) のツールを用いて,コライダーイベント間の距離を計算するための効率的なフレームワークを提案する。 これは、最近導入されたEnergy Mover's Distanceの利点の多くを保存し、ある事象を別の事象に並べ替えるために必要な「作業」を定量化し、計算コストを大幅に削減する。 また、単純な機械学習アルゴリズムや可視化技術に使えるユークリッド埋め込みも備えており、様々なジェットタグの例で示している。 LOT近似は、コライダー物理学への最適輸送の理論の様々な応用の閾値を下げる。

We introduce an efficient framework for computing the distance between collider events using the tools of Linearized Optimal Transport (LOT). This preserves many of the advantages of the recently-introduced Energy Mover's Distance, which quantifies the "work" required to rearrange one event into another, while significantly reducing the computational cost. It also furnishes a Euclidean embedding amenable to simple machine learning algorithms and visualization techniques, which we demonstrate in a variety of jet tagging examples. The LOT approximation lowers the threshold for diverse applications of the theory of optimal transport to collider physics.
翻訳日:2022-10-27 12:35:41 公開日:2020-08-19
# 深い制御可能なバックライトディミング

Deep Controllable Backlight Dimming ( http://arxiv.org/abs/2008.08352v1 )

ライセンス: Link先を確認
Lvyin Duan, Demetris Marnerides, Alan Chalmers, Zhichun Lei and Kurt Debattista(参考訳) デュアルパネルディスプレイは、高い忠実度と高いダイナミックレンジのコンテンツを再現するために、ローカルディミングアルゴリズムを必要とする。 本研究では,デュアルパネルHDRディスプレイ上でのHDR画像のレンダリングのために,深層学習に基づく局所ディミング手法を提案する。 この方法は畳み込みニューラルネットワークを用いてバックライトの値を予測し、表示すべきHDR画像として利用する。 このモデルは、ユーザが電力と品質のトレードオフを可能にする制御可能なパワーパラメータによって設計および訓練される。 提案手法は, 各種量的品質指標を用いて, 105個のHDR画像に対して他の6つの手法と比較した。 その結果,提案手法を用いた場合の表示品質の向上と消費電力の向上が得られた。

Dual-panel displays require local dimming algorithms in order to reproduce content with high fidelity and high dynamic range. In this work, a novel deep learning based local dimming method is proposed for rendering HDR images on dual-panel HDR displays. The method uses a Convolutional Neural Network to predict backlight values, using as input the HDR image that is to be displayed. The model is designed and trained via a controllable power parameter that allows a user to trade off between power and quality. The proposed method is evaluated against six other methods on a test set of 105 HDR images, using a variety of quantitative quality metrics. Results demonstrate improved display quality and better power consumption when using the proposed method compared to the best alternatives.
翻訳日:2022-10-27 12:34:52 公開日:2020-08-19
# 離散レンズによるインドモンスーンにおける降雨と対流雲の時空間関係

Spatio-temporal relationships between rainfall and convective clouds during Indian Monsoon through a discrete lens ( http://arxiv.org/abs/2008.08251v1 )

ライセンス: Link先を確認
Arjun Sharma, Adway Mitra, Vishal Vasan, Rama Govindarajan(参考訳) インドモンスーン(英語: Indian monsoon)は、毎年6月から9月にかけて大雨を引き起こす多変量プロセスであり、空間と時間において非常に異質である。 2004年から2010年の間,モンスーンにおける降雨と長波放射(OLR,対流雲カバー)の関係について検討した。 降雨とOLRの空間パターンを特定し,分類し,可視化するために,マルコフ確率場に基づく統計モデルを用いて作成したデータの離散的かつ時空間的コヒーレントな表現を用いる。 我々のアプローチは、降雨とOLRの類似した空間分布を持つ日々を少数の空間パターンにまとめる。 その結果,1日あたりの降雨量,降雨量,降雨量,降雨量はそれぞれ9割以上を占めることがわかった。 これらのパターンを通して,OLRは一般的に降水量と負の相関が強いが,空間的変動は大きい。 特に、半島インド(西海岸を除く)は、大半は対流雲に覆われているが、雨は降らない。 また、モンスーンの降雨の多くは低天雲と共存しているが、6月のインド東部と北西部の降雨は、おそらくは浅い雲から起こると考えられている。 両量の日々の変動を研究するために,観測から計算した時間勾配の空間パターンを同定した。 インド全土の対流雲活動の変化は, 南北方向のOLR勾配が1~2日間持続し, 対流雲被覆が光から深部へ, あるいはその逆へと変化するため, 一般的に発生する。 このような変化には降水の空間分布の変化も伴う。 本研究は, 複雑な空間パターンとその日々の変動について, 高精度に記述し, 今後の簡易な記述に有用なツールとなる可能性がある。

The Indian monsoon, a multi-variable process causing heavy rains during June-September every year, is very heterogeneous in space and time. We study the relationship between rainfall and Outgoing Longwave Radiation (OLR, convective cloud cover) for monsoon between 2004-2010. To identify, classify and visualize spatial patterns of rainfall and OLR we use a discrete and spatio-temporally coherent representation of the data, created using a statistical model based on Markov Random Field. Our approach clusters the days with similar spatial distributions of rainfall and OLR into a small number of spatial patterns. We find that eight daily spatial patterns each in rainfall and OLR, and seven joint patterns of rainfall and OLR, describe over 90\% of all days. Through these patterns, we find that OLR generally has a strong negative correlation with precipitation, but with significant spatial variations. In particular, peninsular India (except west coast) is under significant convective cloud cover over a majority of days but remains rainless. We also find that much of the monsoon rainfall co-occurs with low OLR, but some amount of rainfall in Eastern and North-western India in June occurs on OLR days, presumably from shallow clouds. To study day-to-day variations of both quantities, we identify spatial patterns in the temporal gradients computed from the observations. We find that changes in convective cloud activity across India most commonly occur due to the establishment of a north-south OLR gradient which persists for 1-2 days and shifts the convective cloud cover from light to deep or vice versa. Such changes are also accompanied by changes in the spatial distribution of precipitation. The present work thus provides a highly reduced description of the complex spatial patterns and their day-to-day variations, and could form a useful tool for future simplified descriptions of this process.
翻訳日:2022-10-27 12:34:39 公開日:2020-08-19
# lira: 未知の混合歪みによる生涯画像復元

LIRA: Lifelong Image Restoration from Unknown Blended Distortions ( http://arxiv.org/abs/2008.08242v1 )

ライセンス: Link先を確認
Jianzhao Liu, Jianxin Lin, Xin Li, Wei Zhou, Sen Liu, Zhibo Chen(参考訳) 既存の画像復元ネットワークの多くは使い捨ての方法で設計されており、新しい歪み除去タスクでトレーニングされたときの学習した歪みを破滅的に忘れている。 この問題を軽減するために,ブレンド歪みに対する長寿命画像復元問題を提起する。 まず,個々の歪み除去タスクを専門とする複数の事前訓練されたエキスパートモデルが協調的かつ適応的に混合歪みを処理するベースフォークジョインモデルの設計を行った。 人間の記憶系における成人神経新生にインスパイアされた新たな歪みによって入力が劣化すると、トレーニング済みのモデルが新たなエキスパートブランチを組み込んで、学習知識に干渉することなく新たな知識を継続的に蓄積する神経成長戦略を開発する。 実験の結果,提案手法はpsnr/ssimメトリクスの混合歪み除去タスクにおいて最先端の性能を達成できるだけでなく,新しい復元タスクを学習しながら古い専門知識を維持できることがわかった。

Most existing image restoration networks are designed in a disposable way and catastrophically forget previously learned distortions when trained on a new distortion removal task. To alleviate this problem, we raise the novel lifelong image restoration problem for blended distortions. We first design a base fork-join model in which multiple pre-trained expert models specializing in individual distortion removal task work cooperatively and adaptively to handle blended distortions. When the input is degraded by a new distortion, inspired by adult neurogenesis in human memory system, we develop a neural growing strategy where the previously trained model can incorporate a new expert branch and continually accumulate new knowledge without interfering with learned knowledge. Experimental results show that the proposed approach can not only achieve state-of-the-art performance on blended distortions removal tasks in both PSNR/SSIM metrics, but also maintain old expertise while learning new restoration tasks.
翻訳日:2022-10-27 12:27:28 公開日:2020-08-19
# ビデオにおける弱修正モーメント検索のための正規化2分岐提案ネットワーク

Regularized Two-Branch Proposal Networks for Weakly-Supervised Moment Retrieval in Videos ( http://arxiv.org/abs/2008.08257v1 )

ライセンス: Link先を確認
Zhu Zhang, Zhijie Lin, Zhou Zhao, Jieming Zhu and Xiuqiang He(参考訳) ビデオモーメント検索は、所定の文に従って、ビデオ中のターゲットモーメントをローカライズすることを目的としている。 弱い教師付き設定は、トレーニング中にビデオレベルの文アノテーションのみを提供する。 既存の弱監督手法の多くは、MILベースのフレームワークを用いてサンプル間対位法を開発するが、意味的に類似した内容を持つモーメント間のサンプル間対位法を無視する。 したがって、これらの手法は目標モーメントと可算負モーメントとを区別することができない。 本稿では,サンプル間の対立とサンプル内対立を同時に考慮する,新しい正規化2分岐提案ネットワークを提案する。 具体的には,まず言語対応フィルタを考案し,拡張されたビデオストリームと抑制されたビデオストリームを生成する。 次に,2分岐提案モジュールを設計し,拡張ストリームから肯定的な提案を生成するとともに,抑圧された提案から肯定的な否定的提案を生成する。 さらに,提案手法をトレーニングプロセスの安定化とモデル性能の向上に応用する。 実験により,本手法の有効性が示された。 私たちのコードはここでリリースされます。

Video moment retrieval aims to localize the target moment in an video according to the given sentence. The weak-supervised setting only provides the video-level sentence annotations during training. Most existing weak-supervised methods apply a MIL-based framework to develop inter-sample confrontment, but ignore the intra-sample confrontment between moments with semantically similar contents. Thus, these methods fail to distinguish the target moment from plausible negative moments. In this paper, we propose a novel Regularized Two-Branch Proposal Network to simultaneously consider the inter-sample and intra-sample confrontments. Concretely, we first devise a language-aware filter to generate an enhanced video stream and a suppressed video stream. We then design the sharable two-branch proposal module to generate positive proposals from the enhanced stream and plausible negative proposals from the suppressed one for sufficient confrontment. Further, we apply the proposal regularization to stabilize the training process and improve model performance. The extensive experiments show the effectiveness of our method. Our code is released at here.
翻訳日:2022-10-27 12:27:11 公開日:2020-08-19
# DONet:皮膚病変セグメンテーションのための二重目的ネットワーク

DONet: Dual Objective Networks for Skin Lesion Segmentation ( http://arxiv.org/abs/2008.08278v1 )

ライセンス: Link先を確認
Yaxiong Wang, Yunchao Wei, Xueming Qian, Li Zhu, and Yi Yang(参考訳) 皮膚病変のセグメンテーションは,皮膚内視鏡画像のコンピュータ診断における重要なステップである。 近年,深層学習に基づく意味的セグメンテーション法は皮膚病変セグメンテーションの結果を大幅に進歩させた。 しかし, 病変面積の多様さや病変部位と背景のあいまいさなどの難易度が原因で, 現状の成績は相変わらず不満足である。 本稿では,皮膚病変の分節を改善するために,dual objective networks (donet) という簡易かつ効果的な枠組みを提案する。 我々のDONetは2つの対称デコーダを採用し、異なる目標に近づくための異なる予測を生成する。 具体的には、2つの目的は実際には異なる損失関数によって定義される。 このようにして、2つのデコーダは、異なる最適化ターゲットにマッチする微分確率マップを作成することを奨励され、結果として相補的な予測が生成される。 これらの2つの目的から得られた補足的な情報をさらに集約して最終予測を行い、セグメンテーションマップに存在する不確かさを著しく緩和する。 また,皮膚内視鏡画像における多種多様な病変スケールと形状の課題に対処するために,皮膚病変間の複雑な相関をモデル化するrecurrent context encoding module (rcem)を提案する。 2つの人気のあるベンチマークに関する大規模な実験は、提案されたDONetの有効性をよく示している。 特に, isic 2018 の 0.881 と 0.931 dice はそれぞれ $\text{ph}^2$ を達成している。 コードは公開される予定だ。

Skin lesion segmentation is a crucial step in the computer-aided diagnosis of dermoscopic images. In the last few years, deep learning based semantic segmentation methods have significantly advanced the skin lesion segmentation results. However, the current performance is still unsatisfactory due to some challenging factors such as large variety of lesion scale and ambiguous difference between lesion region and background. In this paper, we propose a simple yet effective framework, named Dual Objective Networks (DONet), to improve the skin lesion segmentation. Our DONet adopts two symmetric decoders to produce different predictions for approaching different objectives. Concretely, the two objectives are actually defined by different loss functions. In this way, the two decoders are encouraged to produce differentiated probability maps to match different optimization targets, resulting in complementary predictions accordingly. The complementary information learned by these two objectives are further aggregated together to make the final prediction, by which the uncertainty existing in segmentation maps can be significantly alleviated. Besides, to address the challenge of large variety of lesion scales and shapes in dermoscopic images, we additionally propose a recurrent context encoding module (RCEM) to model the complex correlation among skin lesions, where the features with different scale contexts are efficiently integrated to form a more robust representation. Extensive experiments on two popular benchmarks well demonstrate the effectiveness of the proposed DONet. In particular, our DONet achieves 0.881 and 0.931 dice score on ISIC 2018 and $\text{PH}^2$, respectively. Code will be made public available.
翻訳日:2022-10-27 12:26:52 公開日:2020-08-19
# Query Twice:ビデオ要約のためのデュアルミックスアテンションメタ学習

Query Twice: Dual Mixture Attention Meta Learning for Video Summarization ( http://arxiv.org/abs/2008.08360v1 )

ライセンス: Link先を確認
Junyan Wang, Yang Bai, Yang Long, Bingzhang Hu, Zhenhua Chai, Yu Guan and Xiaolin Wei(参考訳) ビデオ要約は、高レベルの情報を保持するために代表フレームを選択することを目的としており、通常はソフトマックス関数を介してセグメントワイドの重要度を予測することによって解決される。 しかし、ソフトマックス関数は、ソフトマックスボトルネック問題として知られる複雑な視覚情報やシーケンシャル情報に対するハイランク表現を保持するのに苦しむ。 In this paper, we propose a novel framework named Dual Mixture Attention (DMASum) model with Meta Learning for video summarization that tackles the softmax bottleneck problem, where the Mixture of Attention layer (MoA) effectively increases the model capacity by employing twice self-query attention that can capture the second-order changes in addition to the initial query-key attention, and a novel Single Frame Meta Learning rule is then introduced to achieve more generalization to small datasets with limited training sources. さらに、DMASumは、局所的なキーフレームとグローバルな注意を蓄積的に接続する視覚的およびシーケンシャルな注意の両方を著しく活用する。 我々は2つの公開データセット、SumMeとTVSumに新しい評価プロトコルを採用する。 定性的かつ定量的な実験は、最先端の手法よりも著しく改善された。

Video summarization aims to select representative frames to retain high-level information, which is usually solved by predicting the segment-wise importance score via a softmax function. However, softmax function suffers in retaining high-rank representations for complex visual or sequential information, which is known as the Softmax Bottleneck problem. In this paper, we propose a novel framework named Dual Mixture Attention (DMASum) model with Meta Learning for video summarization that tackles the softmax bottleneck problem, where the Mixture of Attention layer (MoA) effectively increases the model capacity by employing twice self-query attention that can capture the second-order changes in addition to the initial query-key attention, and a novel Single Frame Meta Learning rule is then introduced to achieve more generalization to small datasets with limited training sources. Furthermore, the DMASum significantly exploits both visual and sequential attention that connects local key-frame and global attention in an accumulative way. We adopt the new evaluation protocol on two public datasets, SumMe, and TVSum. Both qualitative and quantitative experiments manifest significant improvements over the state-of-the-art methods.
翻訳日:2022-10-27 12:25:50 公開日:2020-08-19
# 顕微鏡用ブラインドスポットデニュージングの改良

Improving Blind Spot Denoising for Microscopy ( http://arxiv.org/abs/2008.08414v1 )

ライセンス: Link先を確認
Anna S. Goncharova, Alf Honigmann, Florian Jug, Alexander Krull(参考訳) 多くの顕微鏡応用は、使用可能な光の総量によって制限され、その結果得られた画像のノイズレベルに挑戦される。 この問題は、しばしば(教師あり)ディープラーニングベースの推論によって解決される。 近年,騒音統計の仮定により,自己監視手法が出現している。 このような方法は、識別すべき画像に基づいて直接訓練され、追加のペアトレーニングデータを必要としない。 優れた結果が得られる一方で、自己管理手法は高周波のアーティファクトを生成でき、教師付き手法と比較して劣る結果が得られる。 ここでは,自己監督型認知の質を向上させる新しい方法を提案する。 光顕微鏡画像は通常回折制限されているので,この知識を分別プロセスに含める。 我々は、クリーンな画像がポイントスプレッド関数(PSF)との畳み込みの結果であり、ニューラルネットワークの最後にこの操作を明示的に含んでいると仮定する。 その結果、従来の教師付き手法と非常に近い自己監督的な結果を得ることができ、高周波アーチファクトを排除できる。

Many microscopy applications are limited by the total amount of usable light and are consequently challenged by the resulting levels of noise in the acquired images. This problem is often addressed via (supervised) deep learning based denoising. Recently, by making assumptions about the noise statistics, self-supervised methods have emerged. Such methods are trained directly on the images that are to be denoised and do not require additional paired training data. While achieving remarkable results, self-supervised methods can produce high-frequency artifacts and achieve inferior results compared to supervised approaches. Here we present a novel way to improve the quality of self-supervised denoising. Considering that light microscopy images are usually diffraction-limited, we propose to include this knowledge in the denoising process. We assume the clean image to be the result of a convolution with a point spread function (PSF) and explicitly include this operation at the end of our neural network. As a consequence, we are able to eliminate high-frequency artifacts and achieve self-supervised results that are very close to the ones achieved with traditional supervised methods.
翻訳日:2022-10-27 12:25:32 公開日:2020-08-19
# 質的形状推論について:幾何学からトポロジーへの旅

On Qualitative Shape Inferences: a journey from geometry to topology ( http://arxiv.org/abs/2008.08622v1 )

ライセンス: Link先を確認
Steven W Zucker(参考訳) 形状推論は、(2D)画像領域から(3D)世界への写像を含むため、古典的には正しくない。 標準的アプローチは、ライティングとレンダリングに先立って仮定するか、ドメインを制限するか、微分方程式や最適化解を開発することによってこの問題を定式化する。 エレガントだが、このような状況で現れるソリューションは極めて脆弱である。 形状を定性的に推測する観察を活用し,個体間には定量的な差異がある。 その結果、臨界輪郭とモース=スモール複体に基づく位相的アプローチが導かれる。 本稿では,研究のさまざまな段階におけるモチベーションを強調し,その理論の発展的考察を行う。

Shape inference is classically ill-posed, because it involves a map from the (2D) image domain to the (3D) world. Standard approaches regularize this problem by either assuming a prior on lighting and rendering or restricting the domain, and develop differential equations or optimization solutions. While elegant, the solutions that emerge in these situations are remarkably fragile. We exploit the observation that people infer shape qualitatively; that there are quantitative differences between individuals. The consequence is a topological approach based on critical contours and the Morse-Smale complex. This paper provides a developmental review of that theory, emphasizing the motivation at different stages of the research.
翻訳日:2022-10-27 12:19:03 公開日:2020-08-19
# 隠れ足跡:3次元人間の足跡から文脈的歩行性を学ぶ

Hidden Footprints: Learning Contextual Walkability from 3D Human Trails ( http://arxiv.org/abs/2008.08701v1 )

ライセンス: Link先を確認
Jin Sun, Hadar Averbuch-Elor, Qianqian Wang, and Noah Snavely(参考訳) 自律運転システムや人間の行動分析など、多くのタスクにおいて、人々が現場を歩ける場所を予測することが重要である。 しかし、この目的のために計算モデルを学ぶことは、セマンティックな曖昧さとラベル付きデータの欠如のために難しい。 既存のデータセットからの情報を活用することでこの問題に対処する。 まず,画像間の人物観察を広めることで,有効な歩行可能領域の組を強化し,隠れ足跡と呼ばれるものを3d情報を用いて作成する。 しかし、この拡張データはまだ少ない。 このようなスパースラベルのために設計されたトレーニング戦略を考案し、クラスバランスの分類損失と文脈逆転損失を組み合わせた。 この戦略を用いて、単一の画像から歩行可能性マップを予測するモデルを実証する。 WaymoとCityscapesのデータセットでモデルを評価し、ベースラインや最先端モデルと比較して優れたパフォーマンスを示す。

Predicting where people can walk in a scene is important for many tasks, including autonomous driving systems and human behavior analysis. Yet learning a computational model for this purpose is challenging due to semantic ambiguity and a lack of labeled data: current datasets only tell you where people are, not where they could be. We tackle this problem by leveraging information from existing datasets, without additional labeling. We first augment the set of valid, labeled walkable regions by propagating person observations between images, utilizing 3D information to create what we call hidden footprints. However, this augmented data is still sparse. We devise a training strategy designed for such sparse labels, combining a class-balanced classification loss with a contextual adversarial loss. Using this strategy, we demonstrate a model that learns to predict a walkability map from a single image. We evaluate our model on the Waymo and Cityscapes datasets, demonstrating superior performance compared to baselines and state-of-the-art models.
翻訳日:2022-10-27 12:18:52 公開日:2020-08-19
# エンティティの集合のカテゴリの生成

Generating Categories for Sets of Entities ( http://arxiv.org/abs/2008.08428v1 )

ライセンス: Link先を確認
Shuo Zhang and Krisztian Balog and Jamie Callan(参考訳) カテゴリーシステムは知識ベースの中心的な構成要素であり、意味論的に関連する概念と実体の階層的なグループ化を提供する。 それらはユニークで価値のあるリソースであり、幅広い情報アクセスタスクで利用されています。 本稿では,分類体系を拡大する手作業で知識編集者を支援するために,エンティティ集合のカテゴリを生成する手法を提案する。 まず,ニューラル抽象要約モデルを用いて候補カテゴリを生成する。 次に、各候補に対して階層内の位置を識別する。 最後に、構造、内容、階層に基づく特徴は、最も有望な特徴(特異性、階層、重要度の観点から測られる)によって候補をランク付けするために使用される。 ウィキペディアのカテゴリに基づいたテストコレクションを開発し,提案手法の有効性を実証する。

Category systems are central components of knowledge bases, as they provide a hierarchical grouping of semantically related concepts and entities. They are a unique and valuable resource that is utilized in a broad range of information access tasks. To aid knowledge editors in the manual process of expanding a category system, this paper presents a method of generating categories for sets of entities. First, we employ neural abstractive summarization models to generate candidate categories. Next, the location within the hierarchy is identified for each candidate. Finally, structure-, content-, and hierarchy-based features are used to rank candidates to identify by the most promising ones (measured in terms of specificity, hierarchy, and importance). We develop a test collection based on Wikipedia categories and demonstrate the effectiveness of the proposed approach.
翻訳日:2022-10-27 12:18:35 公開日:2020-08-19
# 次のベストアクションを推奨する規範的ビジネスプロセス監視

Prescriptive Business Process Monitoring for Recommending Next Best Actions ( http://arxiv.org/abs/2008.08693v1 )

ライセンス: Link先を確認
Sven Weinzierl and Sebastian Dunzer and Sandra Zilker and Martin Matzner(参考訳) 予測ビジネスプロセス監視(PBPM)技術は、過去のイベントログデータに基づく将来のプロセス挙動を予測し、運用ビジネスプロセスを改善する。 次のアクティビティ予測に関して、最近のpbpm技術は最先端のディープニューラルネットワーク(dnn)を使用して、実行中のプロセスインスタンスでより正確な予測を生成する予測モデルを学ぶ。 組織はキーパフォーマンス指標(KPI)によってプロセスのパフォーマンスを測定するが、DNNの学習手順は直接影響を受けない。 したがって、結果として得られる次の最も可能性の高い活動予測は、実際は利益が低い。 規範的ビジネスプロセス監視(PrBPM)は、プロセスパフォーマンス(典型的にはKPIによって測定される)への影響に関する予測を評価し、アラームを上げたり、アクションを推奨したりすることで、望ましくないプロセスアクティビティを防止する。 しかしながら、これらのアプローチのどれも、与えられたKPIに従って最適化されたアクションとして実際のプロセスアクティビティを推奨していない。 我々は、次に最も可能性が高いアクティビティを、与えられたKPIに関する次のベストアクションに変換するPrBPMテクニックを提案する。 これにより,提案手法はビジネスプロセスシミュレーションを用いて推奨動作の制御-フロー適合性を保証する。 2つの実生活イベントログによる評価に基づいて、我々のテクニックの次のベストアクションは、kpiの最適化と実際のプロセスインスタンスからの距離に関する次のアクティビティ予測よりも優れています。

Predictive business process monitoring (PBPM) techniques predict future process behaviour based on historical event log data to improve operational business processes. Concerning the next activity prediction, recent PBPM techniques use state-of-the-art deep neural networks (DNNs) to learn predictive models for producing more accurate predictions in running process instances. Even though organisations measure process performance by key performance indicators (KPIs), the DNN`s learning procedure is not directly affected by them. Therefore, the resulting next most likely activity predictions can be less beneficial in practice. Prescriptive business process monitoring (PrBPM) approaches assess predictions regarding their impact on the process performance (typically measured by KPIs) to prevent undesired process activities by raising alarms or recommending actions. However, none of these approaches recommends actual process activities as actions that are optimised according to a given KPI. We present a PrBPM technique that transforms the next most likely activities into the next best actions regarding a given KPI. Thereby, our technique uses business process simulation to ensure the control-flow conformance of the recommended actions. Based on our evaluation with two real-life event logs, we show that our technique`s next best actions can outperform next activity predictions regarding the optimisation of a KPI and the distance from the actual process instances.
翻訳日:2022-10-27 12:17:15 公開日:2020-08-19
# 認可され、認可されていない法律の実践:AI法推論の自律的レベルの役割

Authorized and Unauthorized Practices of Law: The Role of Autonomous Levels of AI Legal Reasoning ( http://arxiv.org/abs/2008.09507v1 )

ライセンス: Link先を確認
Lance Eliot(参考訳) 法的努力に応用されている人工知能(AI)と機械学習(ML)の進歩は、法律の実践に課される既存の制限に関する議論を巻き起こしている。 一般的には、法分野は、社会の利益のために均等に考案されるのではなく、しばしば非定型であり、一部の領域は有能で自己維持的であるにもかかわらず、APL対無認可の法律実践(UPL)を定義しようとしてきた。 これらの議論で欠落している要素は、AILR(Autonomous Legal Reasoning)の自律的なレベルを利用したフレームワークのレンズを通して、AIによる法的専門職の破壊がより堅牢に識別できることである。 本稿では,AILR自律レベルに適用されるAPLとUPLの根底にある重要な特徴を記述した,新たに考案された楽器グリッドについて検討し,これらの重要な実践と法的議論をさらに進めるための重要な洞察を提供する。

Advances in Artificial Intelligence (AI) and Machine Learning (ML) that are being applied to legal efforts have raised controversial questions about the existent restrictions imposed on the practice-of-law. Generally, the legal field has sought to define Authorized Practices of Law (APL) versus Unauthorized Practices of Law (UPL), though the boundaries are at times amorphous and some contend capricious and self-serving, rather than being devised holistically for the benefit of society all told. A missing ingredient in these arguments is the realization that impending legal profession disruptions due to AI can be more robustly discerned by examining the matter through the lens of a framework utilizing the autonomous levels of AI Legal Reasoning (AILR). This paper explores a newly derived instrumental grid depicting the key characteristics underlying APL and UPL as they apply to the AILR autonomous levels and offers key insights for the furtherance of these crucial practice-of-law debates.
翻訳日:2022-10-27 12:16:51 公開日:2020-08-19
# 運転試験から安全臨界システムを評価する:自律走行車に関する研究

Assessing Safety-Critical Systems from Operational Testing: A Study on Autonomous Vehicles ( http://arxiv.org/abs/2008.09510v1 )

ライセンス: Link先を確認
Xingyu Zhao, Kizito Salako, Lorenzo Strigini, Valentin Robu, David Flynn(参考訳) コンテキスト: 安全クリティカルシステム(SCS)の信頼性と安全性を示すことは、依然として難しい問題です。 特に、運用テストの結果と、設計と検証による他の証拠とは、厳密な方法で、さまざまな証拠を組み合わせる必要がある。 SCSにおける機械学習の利用の増加は、保証を得るために確立された最も確立された手法を先取りすることで、安全性と信頼性の主張をサポートするために運用テストがさらに重要になる。 目的: 自動運転車(avs)を現在の例に用いて、高い信頼性を示す問題を再検討しています。 avが公道でデビューする: avが十分に安全かどうかを評価する方法は緊急に必要である。 AVタイプを評価する際に生じる5つの質問にどのように答えるかを示す。 方法: ベイジアン推論(CBI)を拡張した新しい定理を適用し, ベイジアン手法の厳密さを生かし, ベイジアン推論に付随する不随意誤用のリスクを低減し, それらの手法をAVに適用するために必要な追加条件を定義する。 結果: AV設計が道路試験前の安全性を強く期待するならば,事前知識は大きなメリットをもたらす可能性がある。 また, 保守的評価の試みが過度な最適化につながること, 離脱傾向の補間が安全クレームに適さないこと, AVがストレスの少ない環境に移行した知識の利用, などを示す。 結論: 信頼性の目標のいくつかは、実際に検証するには高すぎるが、CBIは大きな疑問の源を排除している。 必要な信頼性と事前の信念の特定の範囲において、cbiは実現可能な健全な議論をサポートする。 有用な保守的主張は限定された事前知識から導かれる。

Context: Demonstrating high reliability and safety for safety-critical systems (SCSs) remains a hard problem. Diverse evidence needs to be combined in a rigorous way: in particular, results of operational testing with other evidence from design and verification. Growing use of machine learning in SCSs, by precluding most established methods for gaining assurance, makes operational testing even more important for supporting safety and reliability claims. Objective: We use Autonomous Vehicles (AVs) as a current example to revisit the problem of demonstrating high reliability. AVs are making their debut on public roads: methods for assessing whether an AV is safe enough are urgently needed. We demonstrate how to answer 5 questions that would arise in assessing an AV type, starting with those proposed by a highly-cited study. Method: We apply new theorems extending Conservative Bayesian Inference (CBI), which exploit the rigour of Bayesian methods while reducing the risk of involuntary misuse associated with now-common applications of Bayesian inference; we define additional conditions needed for applying these methods to AVs. Results: Prior knowledge can bring substantial advantages if the AV design allows strong expectations of safety before road testing. We also show how naive attempts at conservative assessment may lead to over-optimism instead; why extrapolating the trend of disengagements is not suitable for safety claims; use of knowledge that an AV has moved to a less stressful environment. Conclusion: While some reliability targets will remain too high to be practically verifiable, CBI removes a major source of doubt: it allows use of prior knowledge without inducing dangerously optimistic biases. For certain ranges of required reliability and prior beliefs, CBI thus supports feasible, sound arguments. Useful conservative claims can be derived from limited prior knowledge.
翻訳日:2022-10-27 12:16:32 公開日:2020-08-19
# segcodenet: ウェアラブルカメラからのアクティビティ検出のためのカラーコードセグメンテーションマスク

SegCodeNet: Color-Coded Segmentation Masks for Activity Detection from Wearable Cameras ( http://arxiv.org/abs/2008.08452v1 )

ライセンス: Link先を確認
Asif Shahriyar Sushmit, Partho Ghosh, Md.Abrar Istiak, Nayeeb Rashid, Ahsan Habib Akash, Taufiq Hasan(参考訳) ウェアラブルカメラで捉えたファーストパーソンビデオ(FPV)からのアクティビティ検出は、医療、法執行、リハビリテーションなど、多くの分野で応用される可能性のある、アクティブな研究分野である。 最先端の手法は、連続するフレームからの物体の動きに由来する特徴に依存する光フローベースのハイブリッド技術を用いる。 本研究では,RGBビデオストリームに加えて,関連オブジェクトのカラーコードセマンティックセマンティックセグメンテーションマスクを備えたビデオストリームを含むネットワークブランチを用いた2ストリームネットワーク「emph{SegCodeNet}」を開発した。 また,2つのストリーム間を優先するストリーム毎のアテンションゲーティングと,関連する機能を含むビデオフレームを優先するフレーム毎アテンションモジュールも備えています。 オフィス環境における18ドルのアクティビティクラスを含むFPVデータセットで実験を行う。 シングルストリームネットワークと比較して、提案手法は、平均F1スコアと精度でそれぞれ14.366\%と10.324\%の絶対的な改善を達成し、平均結果を3つの異なるフレームサイズで比較すると、24\times224$、12\times112$、64\times64$となる。 提案手法は, 入力次元が112\times112$と644\times64$に対して, 17\%$と26\%$を絶対的に改善した低解像度画像に対して, 顕著な性能向上を提供する。 最高性能は、フレームサイズが224\times224$であり、f1スコアと精度が90.176\%$と90.799\%$であり、それぞれ4.529\%$と2.419\%$という絶対マージンで最先端の3d convnet (i3d) \cite{carreira2017quo} 法を上回っている。

Activity detection from first-person videos (FPV) captured using a wearable camera is an active research field with potential applications in many sectors, including healthcare, law enforcement, and rehabilitation. State-of-the-art methods use optical flow-based hybrid techniques that rely on features derived from the motion of objects from consecutive frames. In this work, we developed a two-stream network, the \emph{SegCodeNet}, that uses a network branch containing video-streams with color-coded semantic segmentation masks of relevant objects in addition to the original RGB video-stream. We also include a stream-wise attention gating that prioritizes between the two streams and a frame-wise attention module that prioritizes the video frames that contain relevant features. Experiments are conducted on an FPV dataset containing $18$ activity classes in office environments. In comparison to a single-stream network, the proposed two-stream method achieves an absolute improvement of $14.366\%$ and $10.324\%$ for averaged F1 score and accuracy, respectively, when average results are compared for three different frame sizes $224\times224$, $112\times112$, and $64\times64$. The proposed method provides significant performance gains for lower-resolution images with absolute improvements of $17\%$ and $26\%$ in F1 score for input dimensions of $112\times112$ and $64\times64$, respectively. The best performance is achieved for a frame size of $224\times224$ yielding an F1 score and accuracy of $90.176\%$ and $90.799\%$ which outperforms the state-of-the-art Inflated 3D ConvNet (I3D) \cite{carreira2017quo} method by an absolute margin of $4.529\%$ and $2.419\%$, respectively.
翻訳日:2022-10-27 12:10:28 公開日:2020-08-19
# CosyPose: 一貫性のあるマルチビューマルチオブジェクト6Dポーズ推定

CosyPose: Consistent multi-view multi-object 6D pose estimation ( http://arxiv.org/abs/2008.08465v1 )

ライセンス: Link先を確認
Yann Labb\'e, Justin Carpentier, Mathieu Aubry, Josef Sivic(参考訳) カメラの視点が不明な入力画像の集合によって捉えられたシーンにおいて,複数の既知の物体の6次元ポーズを復元する手法を提案する。 まず, 単視点単体6次元ポーズ推定法を提案し, この手法を用いて6次元オブジェクトのポーズ推定を行う。 第2に、複数の入力画像にまたがる個々の6dオブジェクトのポーズを一致させるロバストな方法を開発し、カメラ視点と6dポーズを単一の一貫したシーンで共同で推定する。 提案手法は,オブジェクト対称性を明示的に処理し,深さ測定を必要とせず,不適切なオブジェクト仮説に対して頑健であり,シーン内のオブジェクト数を自動的に復元する。 第3に、複数のオブジェクト仮説とそれらの対応性を考慮したグローバルなシーン改善手法を開発した。 これは、すべてのビューにおける再投影誤差を最小限に抑えるために、カメラやオブジェクトのポーズを洗練するオブジェクトレベルのバンドル調整問題を解決することで達成される。 提案手法は,YCB-Video と T-LESS の2つのベンチマークにおいて,一視点および多視点の6Dオブジェクトに対して,現在最先端の結果よりも高い精度で推定できることを示す。 コードと事前トレーニングされたモデルは、プロジェクトwebページhttps://www.di.ens.fr/willow/research/cosypose/で入手できる。

We introduce an approach for recovering the 6D pose of multiple known objects in a scene captured by a set of input images with unknown camera viewpoints. First, we present a single-view single-object 6D pose estimation method, which we use to generate 6D object pose hypotheses. Second, we develop a robust method for matching individual 6D object pose hypotheses across different input images in order to jointly estimate camera viewpoints and 6D poses of all objects in a single consistent scene. Our approach explicitly handles object symmetries, does not require depth measurements, is robust to missing or incorrect object hypotheses, and automatically recovers the number of objects in the scene. Third, we develop a method for global scene refinement given multiple object hypotheses and their correspondences across views. This is achieved by solving an object-level bundle adjustment problem that refines the poses of cameras and objects to minimize the reprojection error in all views. We demonstrate that the proposed method, dubbed CosyPose, outperforms current state-of-the-art results for single-view and multi-view 6D object pose estimation by a large margin on two challenging benchmarks: the YCB-Video and T-LESS datasets. Code and pre-trained models are available on the project webpage https://www.di.ens.fr/willow/research/cosypose/.
翻訳日:2022-10-27 12:09:56 公開日:2020-08-19
# 熱可視顔認識のためのクロスドメイン同定

Cross-Domain Identification for Thermal-to-Visible Face Recognition ( http://arxiv.org/abs/2008.08473v1 )

ライセンス: Link先を確認
Cedric Nimpa Fondje, Shuowen Hu, Nathaniel J. Short, Benjamin S. Riggan(参考訳) ドメイン適応の最近の進歩、特にヘテロジニアス顔認識に適用されるものは、通常、2つの異なるドメイン(例えば可視および熱)の画像が共登録され、時間的に同期する場合に最適な制限付きユークリッド損失関数(例えば、$l_2$ norm)に依存する。 本稿では,修正されたネットワークアーキテクチャ(vgg16やresnet50など)に基づく,既存の深層特徴モデルと機能マッピングサブネットワークを組み合わせた新しいドメイン適応フレームワークを提案する。 このフレームワークは、熱可視顔認識のための新しいクロスドメインidとドメイン不分散損失関数を導入することで最適化される。 提案するドメイン適応フレームワークと最先端の特徴に基づくドメイン適応モデルを比較し,様々な範囲,ポーズ,表情で収集された顔画像を含む難解なデータセットを用いて,特徴と損失関数の両方を広範囲に分析する。 さらに,非正面熱可視顔認証などの課題に対して,提案手法の有効性を解析した。

Recent advances in domain adaptation, especially those applied to heterogeneous facial recognition, typically rely upon restrictive Euclidean loss functions (e.g., $L_2$ norm) which perform best when images from two different domains (e.g., visible and thermal) are co-registered and temporally synchronized. This paper proposes a novel domain adaptation framework that combines a new feature mapping sub-network with existing deep feature models, which are based on modified network architectures (e.g., VGG16 or Resnet50). This framework is optimized by introducing new cross-domain identity and domain invariance loss functions for thermal-to-visible face recognition, which alleviates the requirement for precisely co-registered and synchronized imagery. We provide extensive analysis of both features and loss functions used, and compare the proposed domain adaptation framework with state-of-the-art feature based domain adaptation models on a difficult dataset containing facial imagery collected at varying ranges, poses, and expressions. Moreover, we analyze the viability of the proposed framework for more challenging tasks, such as non-frontal thermal-to-visible face recognition.
翻訳日:2022-10-27 12:09:34 公開日:2020-08-19
# 学習したグラディエントDescentによる人体モデルフィッティング

Human Body Model Fitting by Learned Gradient Descent ( http://arxiv.org/abs/2008.08474v1 )

ライセンス: Link先を確認
Jie Song, Xu Chen, Otmar Hilliges(参考訳) 画像に3次元の人体形状を適合させる新しいアルゴリズムを提案する。 繰り返し勾配に基づく最適化手法の精度と改善能力と、深層ニューラルネットワークの堅牢性を組み合わせることで、ニューラルネットワークを利用して各イテレーションのパラメータ更新ルールを予測する勾配降下アルゴリズムを提案する。 このパラメータごとの更新と状態認識の更新は、最適化をいくつかのステップで良いソリューションへと導く。 トレーニング中、我々のアプローチはSMPLを介してパラメータ化された人間のポーズのMoCapデータのみを必要とする。 このデータからネットワークは、最適化がより効率的に実行される有効なポーズと形状のサブスペースを学習する。 このアプローチでは、画像から3D対応を取得するのが困難ではない。 テスト時には、さらなる事前条件や正規化条件を必要とせずに、2次元の関節再投射誤差を最適化するだけです。 このアルゴリズムは高速(約120ms収束)で、初期化とデータセットに頑健であり、挑戦的な3DPW in-theldベンチマーク(SMPLify 45%)や画像から3D対応を用いたアプローチを含む、公開評価データセットの最先端結果を得る。

We propose a novel algorithm for the fitting of 3D human shape to images. Combining the accuracy and refinement capabilities of iterative gradient-based optimization techniques with the robustness of deep neural networks, we propose a gradient descent algorithm that leverages a neural network to predict the parameter update rule for each iteration. This per-parameter and state-aware update guides the optimizer towards a good solution in very few steps, converging in typically few steps. During training our approach only requires MoCap data of human poses, parametrized via SMPL. From this data the network learns a subspace of valid poses and shapes in which optimization is performed much more efficiently. The approach does not require any hard to acquire image-to-3D correspondences. At test time we only optimize the 2D joint re-projection error without the need for any further priors or regularization terms. We show empirically that this algorithm is fast (avg. 120ms convergence), robust to initialization and dataset, and achieves state-of-the-art results on public evaluation datasets including the challenging 3DPW in-the-wild benchmark (improvement over SMPLify 45%) and also approaches using image-to-3D correspondences
翻訳日:2022-10-27 12:09:11 公開日:2020-08-19
# 全長映画におけるトレーラーモーメントの学習

Learning Trailer Moments in Full-Length Movies ( http://arxiv.org/abs/2008.08502v1 )

ライセンス: Link先を確認
Lezi Wang, Dong Liu, Rohit Puri, and Dimitris N. Metaxas(参考訳) 映画のキーモーメントは、観客の注意を引き、映画のブラウジングを効率的にするため、脚本から際立っている。 しかし、アノテーションがないため、既存のアプローチは映画のキーモーメント検出には適用できない。 人間のアノテーションを取り除くために、私たちは公開されたトレーラーを弱い監督として活用し、長編映画から重要な瞬間を検知するモデルを学びます。 映画とトレーラー間のコ・アテンションを利用してトレーニングペアを生成する新しいランキングネットワークを導入し、トレーラーで高度に補正されたモーメントは、非相関なモーメントよりも高いスコアが期待できる。 さらに、キーと非キーのモーメントの特徴間の比較コントラストが最大になるような特徴表現を強化するためのContrastive Attentionモジュールを提案する。 我々は,最初の映画トレーラデータセットを構築し,提案する協調支援ランキングネットワークは,教師付きアプローチよりも優れた性能を示す。 我々のContrastive Attentionモジュールの有効性は、公開ベンチマークの最先端よりもパフォーマンスが向上していることからも示される。

A movie's key moments stand out of the screenplay to grab an audience's attention and make movie browsing efficient. But a lack of annotations makes the existing approaches not applicable to movie key moment detection. To get rid of human annotations, we leverage the officially-released trailers as the weak supervision to learn a model that can detect the key moments from full-length movies. We introduce a novel ranking network that utilizes the Co-Attention between movies and trailers as guidance to generate the training pairs, where the moments highly corrected with trailers are expected to be scored higher than the uncorrelated moments. Additionally, we propose a Contrastive Attention module to enhance the feature representations such that the comparative contrast between features of the key and non-key moments are maximized. We construct the first movie-trailer dataset, and the proposed Co-Attention assisted ranking network shows superior performance even over the supervised approach. The effectiveness of our Contrastive Attention module is also demonstrated by the performance improvement over the state-of-the-art on the public benchmarks.
翻訳日:2022-10-27 12:08:50 公開日:2020-08-19
# 英語記事 star: sparse training articulated human body regressor)

STAR: Sparse Trained Articulated Human Body Regressor ( http://arxiv.org/abs/2008.08535v1 )

ライセンス: Link先を確認
Ahmed A. A. Osman, Timo Bolkart, Michael J. Black(参考訳) SMPLボディーモデルは3次元人間のポーズと形状の推定、合成、分析に広く利用されている。 SMPLにはいくつかの制限があり,SMPLよりも定量的に質的に優れているSTARが導入されている。 まず、smplは、グローバルブレンド形状を使用することによって生じる膨大なパラメータを持つ。 これらの密なポーズ補正オフセットは、メッシュ上のすべての頂点とキネマティックツリーの全ての関節を関連付け、散発的な長距離相関を捉えている。 これに対処するために,ジョイント毎のポーズ補正を定義し,各関節運動の影響を受けるメッシュ頂点のサブセットを学習する。 このスパース定式化はより現実的な変形をもたらし、モデルパラメータの数を SMPL の20% に大幅に減少させる。 SMPLと同じデータでトレーニングした場合、STARはパラメータが少ないにもかかわらず、より一般化される。 第二に、smpl因子は身体の形状に依存し、実際には異なる形状の人は異なる変形をする。 その結果,ボディポーズとBMIの両方に依存する形状依存型ポーズ補正ブレンド形状を学習した。 第3に,SMPLの形状空間はヒトの個体数の変動を捉えるのに十分でないことを示す。 私たちは、男性と女性の被験者を10,000スキャンし、トレーニングスターでこれに対処することで、より優れたモデル一般化をもたらすことを示します。 STARはコンパクトで、新しいボディをより一般化し、SMPLの代替品である。 STARは http://star.is.tue.mpg.de で研究目的で公開されている。

The SMPL body model is widely used for the estimation, synthesis, and analysis of 3D human pose and shape. While popular, we show that SMPL has several limitations and introduce STAR, which is quantitatively and qualitatively superior to SMPL. First, SMPL has a huge number of parameters resulting from its use of global blend shapes. These dense pose-corrective offsets relate every vertex on the mesh to all the joints in the kinematic tree, capturing spurious long-range correlations. To address this, we define per-joint pose correctives and learn the subset of mesh vertices that are influenced by each joint movement. This sparse formulation results in more realistic deformations and significantly reduces the number of model parameters to 20% of SMPL. When trained on the same data as SMPL, STAR generalizes better despite having many fewer parameters. Second, SMPL factors pose-dependent deformations from body shape while, in reality, people with different shapes deform differently. Consequently, we learn shape-dependent pose-corrective blend shapes that depend on both body pose and BMI. Third, we show that the shape space of SMPL is not rich enough to capture the variation in the human population. We address this by training STAR with an additional 10,000 scans of male and female subjects, and show that this results in better model generalization. STAR is compact, generalizes better to new bodies and is a drop-in replacement for SMPL. STAR is publicly available for research purposes at http://star.is.tue.mpg.de.
翻訳日:2022-10-27 12:08:32 公開日:2020-08-19
# あらゆるピクセル: ドメイン適応型オブジェクト検出のための中心認識機能アライメント

Every Pixel Matters: Center-aware Feature Alignment for Domain Adaptive Object Detector ( http://arxiv.org/abs/2008.08574v1 )

ライセンス: Link先を確認
Cheng-Chun Hsu, Yi-Hsuan Tsai, Yen-Yu Lin, Ming-Hsuan Yang(参考訳) ドメイン適応オブジェクト検出器は、オブジェクトの外観、視点、背景のバリエーションを含む可能性のある、見えないドメインに適応することを目的としている。 ほとんどの既存メソッドは、画像レベルまたはインスタンスレベルで機能アライメントを採用している。 しかし、グローバルな特徴に対する画像レベルのアライメントは、前景/バックグラウンドのピクセルを同時に絡め、インスタンスレベルのアライメントは背景ノイズに悩まされる可能性がある。 既存のソリューションとは違って,画素毎の客観性と中心性を予測することにより,各ピクセルを考慮に入れたドメイン適応フレームワークを提案する。 具体的には,前景画素に注意を払い,領域間の適応性を向上させることで,中心認識アライメントを実現する。 提案手法は,実験結果の広い多数の適応環境において実証し,既存の最先端アルゴリズムに対して良好な性能を示す。

A domain adaptive object detector aims to adapt itself to unseen domains that may contain variations of object appearance, viewpoints or backgrounds. Most existing methods adopt feature alignment either on the image level or instance level. However, image-level alignment on global features may tangle foreground/background pixels at the same time, while instance-level alignment using proposals may suffer from the background noise. Different from existing solutions, we propose a domain adaptation framework that accounts for each pixel via predicting pixel-wise objectness and centerness. Specifically, the proposed method carries out center-aware alignment by paying more attention to foreground pixels, hence achieving better adaptation across domains. We demonstrate our method on numerous adaptation settings with extensive experimental results and show favorable performance against existing state-of-the-art algorithms.
翻訳日:2022-10-27 12:07:20 公開日:2020-08-19
# トポロジカル視点から見たニューラルネットワークの接続性学習

Learning Connectivity of Neural Networks from a Topological Perspective ( http://arxiv.org/abs/2008.08261v1 )

ライセンス: Link先を確認
Kun Yuan, Quanquan Li, Jing Shao, Junjie Yan(参考訳) 効果的なニューラルネットワークを探すことは、ディープラーニングにおける批判的で実践的な分野である。 深度、畳み込みの種類、正規化、非線形性を設計するだけでなく、ニューラルネットワークのトポロジカル接続も重要である。 従来のルールベースのモジュラー設計の原則は、効率的なアーキテクチャを構築することの難しさを単純化するが、限られた空間で可能なトポロジを制約する。 本稿では,ニューラルネットワークにおけるコネクティビティの最適化を試みる。 本稿では,ノードが特徴の集約と変換を行い,エッジが情報の流れを決定する,解析のための完全なグラフにネットワークを表現するためのトポロジ的視点を提案する。 接続の規模を反映したエッジに学習可能なパラメータを割り当てることにより、学習プロセスを異なる方法で行うことができる。 さらに,連結度分布に余剰空間制約を付加し,臨界接続に着目した学習トポロジを促進する。 この学習プロセスは既存のネットワークと互換性があり、より大きな検索空間と異なるタスクへの適応性を持っている。 実験の定量的結果は、学習された接続性は、ランダム、残留、完全といった従来の規則に基づくものよりも優れていることを反映している。 さらに、過剰な計算負荷を伴わずに画像分類と物体検出を大幅に改善する。

Seeking effective neural networks is a critical and practical field in deep learning. Besides designing the depth, type of convolution, normalization, and nonlinearities, the topological connectivity of neural networks is also important. Previous principles of rule-based modular design simplify the difficulty of building an effective architecture, but constrain the possible topologies in limited spaces. In this paper, we attempt to optimize the connectivity in neural networks. We propose a topological perspective to represent a network into a complete graph for analysis, where nodes carry out aggregation and transformation of features, and edges determine the flow of information. By assigning learnable parameters to the edges which reflect the magnitude of connections, the learning process can be performed in a differentiable manner. We further attach auxiliary sparsity constraint to the distribution of connectedness, which promotes the learned topology focus on critical connections. This learning process is compatible with existing networks and owns adaptability to larger search spaces and different tasks. Quantitative results of experiments reflect the learned connectivity is superior to traditional rule-based ones, such as random, residual, and complete. In addition, it obtains significant improvements in image classification and object detection without introducing excessive computation burden.
翻訳日:2022-10-27 12:00:56 公開日:2020-08-19
# CCA:対象検出における文脈カモフラージュ攻撃の可能性を探る

CCA: Exploring the Possibility of Contextual Camouflage Attack on Object Detection ( http://arxiv.org/abs/2008.08281v1 )

ライセンス: Link先を確認
Shengnan Hu, Yang Zhang, Sumit Laha, Ankit Sharma, Hassan Foroosh(参考訳) 深層ニューラルネットワークに基づくオブジェクト検出は、多くの現実世界アプリケーションの基礎となっている。 この成功に伴い、脆弱性を悪用する攻撃が懸念される。 この問題に関するさらなる知見を得るため,我々は,物体検出器の性能に影響を及ぼすコンテキスト・カモフラージュ・アタック(cca)アルゴリズムを提案する。 本稿では,多種多様な物体の位置,カメラのポーズ,照明条件において有効な迷彩パターンを,フォトリアリスティックシミュレートした環境と対話する,進化的探索戦略と敵対的機械学習を用いた。 提案されたカモフラージュは、最先端の物体検出器の多くに有効である。

Deep neural network based object detection hasbecome the cornerstone of many real-world applications. Alongwith this success comes concerns about its vulnerability tomalicious attacks. To gain more insight into this issue, we proposea contextual camouflage attack (CCA for short) algorithm to in-fluence the performance of object detectors. In this paper, we usean evolutionary search strategy and adversarial machine learningin interactions with a photo-realistic simulated environment tofind camouflage patterns that are effective over a huge varietyof object locations, camera poses, and lighting conditions. Theproposed camouflages are validated effective to most of the state-of-the-art object detectors.
翻訳日:2022-10-27 12:00:36 公開日:2020-08-19
# FrankMocap: 回帰と統合による高速モノクロ3Dハンドとボディモーションキャプチャ

FrankMocap: Fast Monocular 3D Hand and Body Motion Capture by Regression and Integration ( http://arxiv.org/abs/2008.08324v1 )

ライセンス: Link先を確認
Yu Rong, Takaaki Shiratori, Hanbyul Joo(参考訳) 人間の動作の本質的なニュアンスはしばしば、身体の動きと手の動きの組み合わせとして伝えられるが、既存のモノクラーモーションキャプチャーアプローチは主に、身体の動きを考慮せずに、手の部分を無視したり、手の動きを捉えることだけに焦点を当てている。 本稿では,従来よりも高速 (9.5 fps) で高精度な単眼入力から3次元手と体の動きを推定できるモーションキャプチャシステムfrankmocapを提案する。 本手法は, ほぼリアルタイム(9.5 fps)で動作し, 統一パラメトリックモデル構造として3次元体および手の動きキャプチャ出力を生成する。 本手法は3次元物体と手の動きを同時に撮影することを目的としている。 我々は,FrankMocapを構築するために,全身パラメトリックモデル(SMPL-X)のハンド部分を取り込むことで,最先端のモノクラー3Dモーションキャプチャー法を構築した。 本研究の3次元手の動きキャプチャ出力は, 単球体の動きキャプチャ出力と効率よく統合することができ, 全身の動きを統一したパロメトリーモデル構造で生成する。 我々は,手の動きキャプチャシステムの最先端のパフォーマンスを公開ベンチマークで実演し,実演シナリオを含む様々な挑戦的な実世界シーンにおいて,身体の動きキャプチャの結果の質を実演する。

Although the essential nuance of human motion is often conveyed as a combination of body movements and hand gestures, the existing monocular motion capture approaches mostly focus on either body motion capture only ignoring hand parts or hand motion capture only without considering body motion. In this paper, we present FrankMocap, a motion capture system that can estimate both 3D hand and body motion from in-the-wild monocular inputs with faster speed (9.5 fps) and better accuracy than previous work. Our method works in near real-time (9.5 fps) and produces 3D body and hand motion capture outputs as a unified parametric model structure. Our method aims to capture 3D body and hand motion simultaneously from challenging in-the-wild monocular videos. To construct FrankMocap, we build the state-of-the-art monocular 3D "hand" motion capture method by taking the hand part of the whole body parametric model (SMPL-X). Our 3D hand motion capture output can be efficiently integrated to monocular body motion capture output, producing whole body motion results in a unified parrametric model structure. We demonstrate the state-of-the-art performance of our hand motion capture system in public benchmarks, and show the high quality of our whole body motion capture result in various challenging real-world scenes, including a live demo scenario.
翻訳日:2022-10-27 12:00:09 公開日:2020-08-19
# CFAD:時空間的行動局在のための粗い行動検出装置

CFAD: Coarse-to-Fine Action Detector for Spatiotemporal Action Localization ( http://arxiv.org/abs/2008.08332v1 )

ライセンス: Link先を確認
Yuxi Li, Weiyao Lin, John See, Ning Xu, Shugong Xu, Ke Yan and Cong Yang(参考訳) 時空間動作ローカライゼーションのための現在のパイプラインのほとんどは、フレームワイズまたはクリップワイズ検出結果を接続してアクション提案を生成する。 本稿では,効率的な時空間的行動ローカライゼーションを実現するために,従来のエンドツーエンドトレーニング可能なフレームワークであるCFAD(Coarse-to-Fine Action Detector)を提案する。 CFADは、まずビデオストリームから粗い時空間のアクションチューブを推定し、キータイムスタンプに基づいてチューブの位置を洗練する新しいパラダイムを導入する。 この概念は、我々のフレームワークの粗いモジュールと細かなモジュールという2つの重要なコンポーネントによって実装されます。 リファインモジュールはキータイムスタンプの誘導の下で管位置を選択的に調整するが、粗いモジュールの長時間時間情報のパラメータ化モデリングは正確な初期管推定を得るのに役立つ。 他の手法に対して、提案されたCFADは、UCF101-24、UCFSports、JHMDB-21のアクション検出ベンチマークにおいて、最も近い競合より3.3倍速い推論速度で競合する結果を得る。

Most current pipelines for spatio-temporal action localization connect frame-wise or clip-wise detection results to generate action proposals, where only local information is exploited and the efficiency is hindered by dense per-frame localization. In this paper, we propose Coarse-to-Fine Action Detector (CFAD),an original end-to-end trainable framework for efficient spatio-temporal action localization. The CFAD introduces a new paradigm that first estimates coarse spatio-temporal action tubes from video streams, and then refines the tubes' location based on key timestamps. This concept is implemented by two key components, the Coarse and Refine Modules in our framework. The parameterized modeling of long temporal information in the Coarse Module helps obtain accurate initial tube estimation, while the Refine Module selectively adjusts the tube location under the guidance of key timestamps. Against other methods, theproposed CFAD achieves competitive results on action detection benchmarks of UCF101-24, UCFSports and JHMDB-21 with inference speed that is 3.3x faster than the nearest competitors.
翻訳日:2022-10-27 11:59:43 公開日:2020-08-19
# 教師なしビデオ領域適応改善のための特徴空間における仮想的対立訓練

Virtual Adversarial Training in Feature Space to Improve Unsupervised Video Domain Adaptation ( http://arxiv.org/abs/2008.08369v1 )

ライセンス: Link先を確認
Artjoms Gorpincenko, Geoffrey French, Michal Mackiewicz(参考訳) Virtual Adversarial Trainingは最近、半教師付き学習や教師なしのドメイン適応で多くの成功を収めている。 しかし,これまでは画素空間の入力サンプルとして使用されてきたが,特徴ベクトルに直接適用することを提案する。 また,ドメイン適応の教師を伴って,エントロピーの最小化と決定境界反復精錬訓練の不安定な振る舞いについても論じ,同様の振る舞いを実現する代替案を提案する。 前述のテクニックをアートモデルTA$3$Nの状態に追加することにより、複数の教師なしビデオドメイン適応タスクにおいて、競争結果を維持するか、先行技術より優れているかのどちらかを達成できる。

Virtual Adversarial Training has recently seen a lot of success in semi-supervised learning, as well as unsupervised Domain Adaptation. However, so far it has been used on input samples in the pixel space, whereas we propose to apply it directly to feature vectors. We also discuss the unstable behaviour of entropy minimization and Decision-Boundary Iterative Refinement Training With a Teacher in Domain Adaptation, and suggest substitutes that achieve similar behaviour. By adding the aforementioned techniques to the state of the art model TA$^3$N, we either maintain competitive results or outperform prior art in multiple unsupervised video Domain Adaptation tasks
翻訳日:2022-10-27 11:59:10 公開日:2020-08-19
# 実測アノテーションを伴わないロバストなRGBベースの6-DoFポーズ推定

Robust RGB-based 6-DoF Pose Estimation without Real Pose Annotations ( http://arxiv.org/abs/2008.08391v1 )

ライセンス: Link先を確認
Zhigang Li, Yinlin Hu, Mathieu Salzmann, and Xiangyang Ji(参考訳) 単一のRGB画像から6-DoFオブジェクトのポーズ推定に多くの進歩があったが、現在の主要なアプローチは実際のアノテーションデータに大きく依存している。 したがって、全ての可能な咬合を注釈付きデータでカバーすることは難易度が高いため、重症咬合に敏感である。 本稿では,実ポーズアノテーションを使わずに,難易度の高い条件下で6自由度姿勢をロバストかつ正確に推定する手法を提案する。 この目的のために,画像からネットワークによって予測されるポーズと,それに対して合成的に変化して咬合を模倣するポーズとの直観を両立させ,これを自己教師付き損失関数に変換する。 LINEMOD, Occluded-LINEMOD, YCB, および新しいランダム化LINEMODデータセットを用いた実験により, 本手法の堅牢性が確認された。 LINEMOD と OccludedLINEMOD を実地設定なしで実現し、Occluded-LINEMOD のトレーニング中に実際のアノテーションに依存する方法よりも優れています。

While much progress has been made in 6-DoF object pose estimation from a single RGB image, the current leading approaches heavily rely on real-annotation data. As such, they remain sensitive to severe occlusions, because covering all possible occlusions with annotated data is intractable. In this paper, we introduce an approach to robustly and accurately estimate the 6-DoF pose in challenging conditions and without using any real pose annotations. To this end, we leverage the intuition that the poses predicted by a network from an image and from its counterpart synthetically altered to mimic occlusion should be consistent, and translate this to a self-supervised loss function. Our experiments on LINEMOD, Occluded-LINEMOD, YCB and new Randomization LINEMOD dataset evidence the robustness of our approach. We achieve state of the art performance on LINEMOD, and OccludedLINEMOD in without real-pose setting, even outperforming methods that rely on real annotations during training on Occluded-LINEMOD.
翻訳日:2022-10-27 11:58:58 公開日:2020-08-19
# マルチラベル分類のためのインスタンスアウェアグラフ畳み込みネットワーク

Instance-Aware Graph Convolutional Network for Multi-Label Classification ( http://arxiv.org/abs/2008.08407v1 )

ライセンス: Link先を確認
Yun Wang, Tong Zhang, Zhen Cui, Chunyan Xu, Jian Yang(参考訳) グラフ畳み込みニューラルネットワーク(GCN)は、統計ラベル共起データに基づくラベル依存を導入することにより、マルチラベル画像認識タスクを効果的に強化した。 しかし、従来の方法では、ラベル相関はデータの統計情報に基づいて計算されるため、全てのサンプルで同じであり、多くの画像インスタンスの膨大な変動を扱うにはラベル上のグラフ推論が不十分である。 本稿では,マルチラベル分類のためのインスタンス対応グラフ畳み込みニューラルネットワーク(IA-GCN)フレームワークを提案する。 全体として、サブネットワークの2つの融合ブランチは、全体像をモデル化するグローバルブランチと、関心領域(ROI)間の依存関係を探索するリージョンベースのブランチである。 統計的ラベル相関のみを用いるのではなく、グラフ畳み込みにおけるインスタンス認識性のラベル拡散のために、画像依存ラベル相関行列(lcm)を構築し、各画像インスタンスの統計的lcmと個々の画像インスタンスの両方を融合して、ラベル上のグラフ推論を行い、モデルの学習した特徴にラベル認識の適応情報を注入する。 具体的には、検出されたroisに関するラベルのスコアに基づいてラベル依存性をマイニングして各画像の個々のlcmを得る。 本稿では,roisのマルチラベル分類への寄与の違いを考慮し,これらのroisの適応的スケーリング因子を複素分布から学習するために,変分推論を導入する。 最後に、MS-COCOおよびVOCデータセットに関する広範な実験により、提案手法が既存の最先端手法よりも優れていることを示す。

Graph convolutional neural network (GCN) has effectively boosted the multi-label image recognition task by introducing label dependencies based on statistical label co-occurrence of data. However, in previous methods, label correlation is computed based on statistical information of data and therefore the same for all samples, and this makes graph inference on labels insufficient to handle huge variations among numerous image instances. In this paper, we propose an instance-aware graph convolutional neural network (IA-GCN) framework for multi-label classification. As a whole, two fused branches of sub-networks are involved in the framework: a global branch modeling the whole image and a region-based branch exploring dependencies among regions of interests (ROIs). For label diffusion of instance-awareness in graph convolution, rather than using the statistical label correlation alone, an image-dependent label correlation matrix (LCM), fusing both the statistical LCM and an individual one of each image instance, is constructed for graph inference on labels to inject adaptive information of label-awareness into the learned features of the model. Specifically, the individual LCM of each image is obtained by mining the label dependencies based on the scores of labels about detected ROIs. In this process, considering the contribution differences of ROIs to multi-label classification, variational inference is introduced to learn adaptive scaling factors for those ROIs by considering their complex distribution. Finally, extensive experiments on MS-COCO and VOC datasets show that our proposed approach outperforms existing state-of-the-art methods.
翻訳日:2022-10-27 11:58:38 公開日:2020-08-19
# BabelEnconding at SemEval-2020 Task 3:Contextual similarity as a Combination of Multilingualism and Language Models (英語)

BabelEnconding at SemEval-2020 Task 3: Contextual Similarity as a Combination of Multilingualism and Language Models ( http://arxiv.org/abs/2008.08439v1 )

ライセンス: Link先を確認
Lucas R. C. Pessutto, Tiago de Melo, Viviane P. Moreira, Altigran da Silva(参考訳) 本稿では,semeval-2020タスク3に提案するシステム(babelenconding)について述べる。 本稿では,単語対間の文脈的類似性を計算するために,翻訳モデルと多言語モデルを用いた手法を提案する。 我々の仮説は、追加の言語からの証拠が人間の生成したスコアとの相関を活用できるというものです。 BabelEncondingはサブタスクにも適用され、タスク/言語の組み合わせ8つのうち上位3つにランクインした。

This paper describes the system submitted by our team (BabelEnconding) to SemEval-2020 Task 3: Predicting the Graded Effect of Context in Word Similarity. We propose an approach that relies on translation and multilingual language models in order to compute the contextual similarity between pairs of words. Our hypothesis is that evidence from additional languages can leverage the correlation with the human generated scores. BabelEnconding was applied to both subtasks and ranked among the top-3 in six out of eight task/language combinations and was the highest scoring system three times.
翻訳日:2022-10-27 11:52:13 公開日:2020-08-19
# UoB at SemEval-2020 Task 12: Boosting BERT with Corpus Level Information (英語)

UoB at SemEval-2020 Task 12: Boosting BERT with Corpus Level Information ( http://arxiv.org/abs/2008.08547v1 )

ライセンス: Link先を確認
Wah Meng Lim and Harish Tayyar Madabushi(参考訳) BERTのような事前訓練された言語モデルワード表現は、いくつかの自然言語処理タスクにおいて、最先端技術において著しく改善されている。 これは、文に含まれる意味的情報をよりよく捉える能力によって引き起こされる。 しかし、いくつかのタスクは、TF-IDF(Term Frequency-Inverse Document Frequency)のようなコーパスレベルで利用できる情報から恩恵を受けることができる。 本研究は,ソーシャルメディア上での虐待を識別するタスクにおいて,bertとこの情報を統合することの有効性を検証し,bertと統合することでパフォーマンスが著しく向上することを示す。 我々はサブタスクa(異常検出)に参加し、トップパフォーマンスチームの2ポイント以内にスコアを達成し、サブタスクb(ターゲット検出)では44チームのうち4位にランクします。

Pre-trained language model word representation, such as BERT, have been extremely successful in several Natural Language Processing tasks significantly improving on the state-of-the-art. This can largely be attributed to their ability to better capture semantic information contained within a sentence. Several tasks, however, can benefit from information available at a corpus level, such as Term Frequency-Inverse Document Frequency (TF-IDF). In this work we test the effectiveness of integrating this information with BERT on the task of identifying abuse on social media and show that integrating this information with BERT does indeed significantly improve performance. We participate in Sub-Task A (abuse detection) wherein we achieve a score within two points of the top performing team and in Sub-Task B (target detection) wherein we are ranked 4 of the 44 participating teams.
翻訳日:2022-10-27 11:51:59 公開日:2020-08-19
# 命題決定図におけるトラクタブル推論

Tractable Inference in Credal Sentential Decision Diagrams ( http://arxiv.org/abs/2008.08524v1 )

ライセンス: Link先を確認
Lilith Mattei, Alessandro Antonucci, Denis Deratani Mau\'a, Alessandro Facchini, Julissa Villanueva Llerena(参考訳) 確率感性決定図は、解離ゲートの入力が確率値によってアノテートされる論理回路である。 これらはブール変数の集合上で定義される合同確率質量関数のコンパクトな表現を可能にし、これは回路によって定義される論理的制約とも一致する。 そのようなモデルにおける確率は通常、一連の観測から学習される。 これはデータが乏しい、信頼できない、あるいは矛盾している場合に、自信過剰で事前依存的な推論につながる。 本研究では,局所確率を(いわゆる「クレダル」と呼ばれる)質量関数の集合に置き換えることができる確率関数の一般化である,クレダル感性決定図を開発する。 これらのモデルはブール変数の集合上の合同クレダル集合を誘導し、論理的な制約と矛盾する状態に対して確率ゼロを鋭く割り当てる。 これらのモデルに対して3つの推論アルゴリズムが導出され、計算が可能となる。 (i)任意の数の変数に対する観測の下位及び上位の確率 二 単一の変数が観察された状態に対する下限及び上限の確率 (iii)credal仕様に適合する確率的センテンシャル決定図が、他の変数の観察によって与えられた変数の集合について、同じ最も可能性の高い説明を持つか否か。 これらの推論は、回路サイズに関して多項式時間で解くことができるため、全ての3つのアルゴリズムは、解離ゲート上の局所線形プログラミングタスクによるボトムアップトラバーサルに基づいている。 まず,ノイズの多い7セグメント表示画像に基づく簡単なアプリケーションについて検討する。 クレダルモデルは、容易に検出し難いインスタンスを適切に区別し、論理的制約に対処できない他の生成モデルより優れている。

Probabilistic sentential decision diagrams are logic circuits where the inputs of disjunctive gates are annotated by probability values. They allow for a compact representation of joint probability mass functions defined over sets of Boolean variables, that are also consistent with the logical constraints defined by the circuit. The probabilities in such a model are usually learned from a set of observations. This leads to overconfident and prior-dependent inferences when data are scarce, unreliable or conflicting. In this work, we develop the credal sentential decision diagrams, a generalisation of their probabilistic counterpart that allows for replacing the local probabilities with (so-called credal) sets of mass functions. These models induce a joint credal set over the set of Boolean variables, that sharply assigns probability zero to states inconsistent with the logical constraints. Three inference algorithms are derived for these models, these allow to compute: (i) the lower and upper probabilities of an observation for an arbitrary number of variables; (ii) the lower and upper conditional probabilities for the state of a single variable given an observation; (iii) whether or not all the probabilistic sentential decision diagrams compatible with the credal specification have the same most probable explanation of a given set of variables given an observation of the other variables. These inferences are tractable, as all the three algorithms, based on bottom-up traversal with local linear programming tasks on the disjunctive gates, can be solved in polynomial time with respect to the circuit size. For a first empirical validation, we consider a simple application based on noisy seven-segment display images. The credal models are observed to properly distinguish between easy and hard-to-detect instances and outperform other generative models not able to cope with logical constraints.
翻訳日:2022-10-27 11:51:27 公開日:2020-08-19
# 政策プロセス分析のための組合せ多様性指標

Combinatorial diversity metrics for the analysis of policy processes ( http://arxiv.org/abs/2008.10401v1 )

ライセンス: Link先を確認
Mark Dukes, Anthony A. Casey(参考訳) 我々は,公共政策決定プロセスにおける問題解決能力の定量化のために,完全に一般的な多様性指標をいくつか提示する。 これは、線形時間論理の式によってモデル化された制約と合わせて、宣言的プロセスパラダイムを使用してポリシープロセスをモデル化する。 我々は、宣言的プロセスの異なる実行を表現するために、first-passage tracesと呼ばれるトレースクラスを導入する。 そのようなプロセスの多様性測度が満たすべき特性のヒューリスティックスは、これらのプロセスの2つの異なる指標を、第1のパストレースの集合の観点で導出するために用いられる。 これらの指標は、プロセスのトレースの集合上の2つの異なる確率変数のエントロピーの観点から定式化されている。 さらに, 所定の線形時間論理式を満たす場合, トレースを「良い」と呼ぶような「良さ」の尺度を導入する。 これにより、「善」という所定の概念に対する政策プロセスの比較が可能になる。

We present several completely general diversity metrics to quantify the problem-solving capacity of any public policy decision making process. This is performed by modelling the policy process using a declarative process paradigm in conjunction with constraints modelled by expressions in linear temporal logic. We introduce a class of traces, called first-passage traces, to represent the different executions of the declarative processes. Heuristics of what properties a diversity measure of such processes ought to satisfy are used to derive two different metrics for these processes in terms of the set of first-passage traces. These metrics turn out to have formulations in terms of the entropies of two different random variables on the set of traces of the processes. In addition, we introduce a measure of `goodness' whereby a trace is termed {\it good} if it satisfies some prescribed linear temporal logic expression. This allows for comparisons of policy processes with respect to the prescribed notion of `goodness'.
翻訳日:2022-10-27 11:50:48 公開日:2020-08-19
# DeepHandMesh:高忠実ハンドメッシュモデリングのための弱教師付きディープエンコーダデコーダフレームワーク

DeepHandMesh: A Weakly-supervised Deep Encoder-Decoder Framework for High-fidelity Hand Mesh Modeling ( http://arxiv.org/abs/2008.08213v1 )

ライセンス: Link先を確認
Gyeongsik Moon, Takaaki Shiratori, Kyoung Mu Lee(参考訳) 人間の手は、他の人や物体との対話において中心的な役割を果たす。 このような手の動きを現実的に再現するには、高忠実度ハンドメッシュを再構築する必要がある。 本研究では、まず、高忠実度ハンドメッシュモデリングのための弱教師付きディープエンコーダデコーダフレームワークDeepHandMeshを提案する。 エンド・ツー・エンドで弱い教師付きでトレーニングするシステムを設計するので、基盤となるメッシュは必要ありません。 代わりに、3dジョイント座標やマルチビュー深度マップといった弱い監督に依存しており、これは接地メッシュよりも入手が容易であり、メッシュトポロジーに依存しない。 提案されたDeepHandMeshは、弱い教師付き方法でトレーニングされているが、以前の完全に教師付きハンドモデルよりもはるかに現実的なハンドメッシュを提供する。 新たに導入した侵入回避損失は,ハンドパーツ間の物理的インタラクションを複製することにより,さらに結果を改善する。 最後に,本システムは一般画像からの3次元手メッシュ推定にも有効であることを示す。 ハンドモデル、データセット、コードはhttps://mks0601.github.io/deephandmesh/で公開されています。

Human hands play a central role in interacting with other people and objects. For realistic replication of such hand motions, high-fidelity hand meshes have to be reconstructed. In this study, we firstly propose DeepHandMesh, a weakly-supervised deep encoder-decoder framework for high-fidelity hand mesh modeling. We design our system to be trained in an end-to-end and weakly-supervised manner; therefore, it does not require groundtruth meshes. Instead, it relies on weaker supervisions such as 3D joint coordinates and multi-view depth maps, which are easier to get than groundtruth meshes and do not dependent on the mesh topology. Although the proposed DeepHandMesh is trained in a weakly-supervised way, it provides significantly more realistic hand mesh than previous fully-supervised hand models. Our newly introduced penetration avoidance loss further improves results by replicating physical interaction between hand parts. Finally, we demonstrate that our system can also be applied successfully to the 3D hand mesh estimation from general images. Our hand model, dataset, and codes are publicly available at https://mks0601.github.io/DeepHandMesh/.
翻訳日:2022-10-27 11:50:34 公開日:2020-08-19
# 提示検出によるオープンソースのアイリス認識ハードウェアとソフトウェア

Open Source Iris Recognition Hardware and Software with Presentation Attack Detection ( http://arxiv.org/abs/2008.08220v1 )

ライセンス: Link先を確認
Zhaoyuan Fang, Adam Czajka(参考訳) 本稿では,raspberry piボードと周辺機器を用いて,75usdで容易に組み立て可能なプレゼンテーションアタック検出(pad)を備えた,米国初のオープンソースハードウェアおよびソフトウェア虹彩認識システムを提案する。 本研究の主な目的は,スプーフ耐性虹彩認識のための低コストベースラインを提供することである。 (a)アイリスパッドの研究を刺激し、安全なアイリス認識システムのプロトタイピングを容易にする。 (b)より高度なシステムに代わる低コストで安全な虹彩認識を提供し、 (c)教育プラットフォームとして機能する。 本研究では,高速かつ高精度な虹彩分節化のための軽量画像複雑度誘導畳み込みネットワーク,ドメイン固有二元化統計的画像特徴(bsif)を提案し,虹彩テンプレートの構築と,パッドのための2d(虹彩テクスチャ)と3d(光量ステレオベース)機能を組み合わせる。 提案された虹彩認識は約3.2秒で、提案されたPADはRaspberry Pi 3B+で4.5秒で実行される。 この論文とともに、ハードウェア仕様とパイプライン全体のすべてのソースコードが利用可能になっている。

This paper proposes the first known to us open source hardware and software iris recognition system with presentation attack detection (PAD), which can be easily assembled for about 75 USD using Raspberry Pi board and a few peripherals. The primary goal of this work is to offer a low-cost baseline for spoof-resistant iris recognition, which may (a) stimulate research in iris PAD and allow for easy prototyping of secure iris recognition systems, (b) offer a low-cost secure iris recognition alternative to more sophisticated systems, and (c) serve as an educational platform. We propose a lightweight image complexity-guided convolutional network for fast and accurate iris segmentation, domain-specific human-inspired Binarized Statistical Image Features (BSIF) to build an iris template, and to combine 2D (iris texture) and 3D (photometric stereo-based) features for PAD. The proposed iris recognition runs in about 3.2 seconds and the proposed PAD runs in about 4.5 seconds on Raspberry Pi 3B+. The hardware specifications and all source codes of the entire pipeline are made available along with this paper.
翻訳日:2022-10-27 11:49:59 公開日:2020-08-19
# disentangled representation learningによる顔のアンチスプーフィング

Face Anti-Spoofing Via Disentangled Representation Learning ( http://arxiv.org/abs/2008.08250v1 )

ライセンス: Link先を確認
Ke-Yue Zhang, Taiping Yao, Jian Zhang, Ying Tai, Shouhong Ding, Jilin Li, Feiyue Huang, Haichuan Song, Lizhuang Ma(参考訳) 顔認識システムのセキュリティには顔認識対策が不可欠である。 従来のアプローチでは、画像から抽出された特徴に基づく差別モデルの開発に焦点が当てられていた。 本稿では, 画像から生意気な特徴や内容的特徴を遠ざけ, さらにその生意気な特徴を分類するために利用する顔反偽造の新たな視点を提案する。 また,畳み込み処理を施した畳み込みニューラルネットワーク(convolutional neural network, cnn)アーキテクチャを展開し,一般化能力を向上させるために低レベルと高レベルの組み合わせを行った。 提案手法を公開ベンチマークデータセット上で評価し,提案手法が最先端の競合相手に対して有効であることを示す。 最後に, 絡み合いの効果と利点を理解するために, 結果の可視化を行う。

Face anti-spoofing is crucial to security of face recognition systems. Previous approaches focus on developing discriminative models based on the features extracted from images, which may be still entangled between spoof patterns and real persons. In this paper, motivated by the disentangled representation learning, we propose a novel perspective of face anti-spoofing that disentangles the liveness features and content features from images, and the liveness features is further used for classification. We also put forward a Convolutional Neural Network (CNN) architecture with the process of disentanglement and combination of low-level and high-level supervision to improve the generalization capabilities. We evaluate our method on public benchmark datasets and extensive experimental results demonstrate the effectiveness of our method against the state-of-the-art competitors. Finally, we further visualize some results to help understand the effect and advantage of disentanglement.
翻訳日:2022-10-27 11:49:39 公開日:2020-08-19
# 非対向画像変換GANモデルによる無スライドMUSE顕微鏡とH&E組織学のモダリティ変換

Slide-free MUSE Microscopy to H&E Histology Modality Conversion via Unpaired Image-to-Image Translation GAN Models ( http://arxiv.org/abs/2008.08579v1 )

ライセンス: Link先を確認
Tanishq Abraham, Andrew Shaw, Daniel O'Connor, Austin Todd, Richard Levenson(参考訳) MUSEは、従来の組織学の代替として機能する組織の組織学的検査のための新しいスライドフリーイメージング技術である。 MUSEと従来の組織学のギャップを埋めるため,本研究では,MUSE画像をヘマトキシリンおよびエオシン染色(H&E)画像に類似させる。 我々は,非機械学習に基づくカラーマッピングツール,CycleGAN,DualGAN,GANILLAの4つのモデルを評価した。 CycleGANとGANILLAは、H&EスタイルとMUSEコンテンツを適切に転送する視覚的に魅力的な結果を提供した。 実画像および生成されたH&E画像に対する自動批評家のトレーニングに基づいて,CycleGANが最高の性能を示した。 また,MUSE色インバージョンがH&Eへの正確なモダリティ変換に必要なステップであることも見出した。 我々はMUSE-to-H&Eモデルが,MUSE画像と従来の組織学の知覚的ギャップを埋めることで,新しいスライドフリー手法の採用を促進することができると考えている。

MUSE is a novel slide-free imaging technique for histological examination of tissues that can serve as an alternative to traditional histology. In order to bridge the gap between MUSE and traditional histology, we aim to convert MUSE images to resemble authentic hematoxylin- and eosin-stained (H&E) images. We evaluated four models: a non-machine-learning-based color-mapping unmixing-based tool, CycleGAN, DualGAN, and GANILLA. CycleGAN and GANILLA provided visually compelling results that appropriately transferred H&E style and preserved MUSE content. Based on training an automated critic on real and generated H&E images, we determined that CycleGAN demonstrated the best performance. We have also found that MUSE color inversion may be a necessary step for accurate modality conversion to H&E. We believe that our MUSE-to-H&E model can help improve adoption of novel slide-free methods by bridging a perceptual gap between MUSE imaging and traditional histology.
翻訳日:2022-10-27 11:44:12 公開日:2020-08-19
# zonaによるヒト胚盤胞の画像分割

Image Segmentation of Zona-Ablated Human Blastocysts ( http://arxiv.org/abs/2008.08673v1 )

ライセンス: Link先を確認
Md Yousuf Harun, M Arifur Rahman, Joshua Mellinger, Willy Chang, Thomas Huang, Brienne Walker, Kristen Hori, and Aaron T. Ohta(参考訳) ヒト胚移植の自動化は、新しい定量的かつ客観的な胚品質測定を提供することにより、体外受精(IVF)による高い成功率をもたらす可能性がある。 現在のIVFプロシージャは、通常、定性的手動グレーディングのみを使用し、遺伝的に異常な胚の同定に制限される。 胚盤胞拡張の自動定量評価は、持続妊娠率を向上し、遺伝的異常のより正確な同定によって異常妊娠からの健康リスクを低減する可能性がある。 胚盤胞の増殖速度は発育する胚の質を決定する重要な形態学的特徴である。 本研究は,不規則な形状の胚盤胞を分割することの難易度を高めることを目的として,深層学習に基づくヒト胚盤胞画像分割法を提案する。 ここで評価される胚盤嚢胞の種類は、眼窩生検の前に必要となる帯状骨化症をレーザーアブレーションしたものである。 これは伸長した胚盤胞の大きさの手動測定を複雑にし、遺伝的異常との相関を示す。 実験の結果、セグメンテーションは拡張測定の精度を大幅に向上させ、99.4%の精度、98.1%の精度、98.8%のリコール、98.4%のサイコロ係数、96.9%のjaccard指数が得られた。

Automating human preimplantation embryo grading offers the potential for higher success rates with in vitro fertilization (IVF) by providing new quantitative and objective measures of embryo quality. Current IVF procedures typically use only qualitative manual grading, which is limited in the identification of genetically abnormal embryos. The automatic quantitative assessment of blastocyst expansion can potentially improve sustained pregnancy rates and reduce health risks from abnormal pregnancies through a more accurate identification of genetic abnormality. The expansion rate of a blastocyst is an important morphological feature to determine the quality of a developing embryo. In this work, a deep learning based human blastocyst image segmentation method is presented, with the goal of facilitating the challenging task of segmenting irregularly shaped blastocysts. The type of blastocysts evaluated here has undergone laser ablation of the zona pellucida, which is required prior to trophectoderm biopsy. This complicates the manual measurements of the expanded blastocyst's size, which shows a correlation with genetic abnormalities. The experimental results on the test set demonstrate segmentation greatly improves the accuracy of expansion measurements, resulting in up to 99.4% accuracy, 98.1% precision, 98.8% recall, a 98.4% Dice Coefficient, and a 96.9% Jaccard Index.
翻訳日:2022-10-27 11:43:55 公開日:2020-08-19
# ディープニューラルネットを用いたヒト胚盤胞画像における内細胞量とトロフェクトフェムセグメンテーション

Inner Cell Mass and Trophectoderm Segmentation in Human Blastocyst Images using Deep Neural Network ( http://arxiv.org/abs/2008.08676v1 )

ライセンス: Link先を確認
Md Yousuf Harun, Thomas Huang, and Aaron T. Ohta(参考訳) 体外受精(IVF)による妊娠率の向上には,形態的特性に基づく胚品質評価が重要である。 胚の内部細胞塊(ICM)とトロフェクトーデスム上皮(TE)の正確なセグメンテーションは、これらのパラメータが胚の生存可能性と生存可能性を予測するのに役立つため重要である。 しかし, ICM と TE のセグメンテーションは, テクスチャの形状や類似性が異なるため, 両者のセグメンテーションは困難である。 この問題に対処するため、ディープニューラルネットワーク(DNN)ベースのセグメンテーションアプローチを実装した。 DNNはICM領域を99.1%の精度、94.9%の精度、93.8%のリコール、94.3%のディス係数、89.3%のジャカード指数で識別できる。 TE領域を98.3%の精度、91.8%の精度、93.2%のリコール、92.5%のディス係数、85.3%のジャカード指数で抽出することができる。

Embryo quality assessment based on morphological attributes is important for achieving higher pregnancy rates from in vitro fertilization (IVF). The accurate segmentation of the embryo's inner cell mass (ICM) and trophectoderm epithelium (TE) is important, as these parameters can help to predict the embryo viability and live birth potential. However, segmentation of the ICM and TE is difficult due to variations in their shape and similarities in their textures, both with each other and with their surroundings. To tackle this problem, a deep neural network (DNN) based segmentation approach was implemented. The DNN can identify the ICM region with 99.1% accuracy, 94.9% precision, 93.8% recall, a 94.3% Dice Coefficient, and a 89.3% Jaccard Index. It can extract the TE region with 98.3% accuracy, 91.8% precision, 93.2% recall, a 92.5% Dice Coefficient, and a 85.3% Jaccard Index.
翻訳日:2022-10-27 11:43:30 公開日:2020-08-19
# MRI胎児脳画像合成のための自己監督超音波

Self-Supervised Ultrasound to MRI Fetal Brain Image Synthesis ( http://arxiv.org/abs/2008.08698v1 )

ライセンス: Link先を確認
Jianbo Jiao, Ana I.L. Namburete, Aris T. Papageorghiou, J. Alison Noble(参考訳) 胎児脳MRI(Fetal brain magnetic resonance imaging)は、発達する脳の精細な画像を提供するが、超音波(US)を用いた第2トリメスター異常スクリーニングには適さない。 超音波の専門家はus画像を読むのに長けているが、解剖学的画像によく似たmr画像は、非専門家にとって解釈がはるかに容易である。 そこで本稿では,臨床画像から直接MRライクな画像を生成することを提案する。 医用画像解析では、例えばUS-MRIの自動登録や核融合などにも有用である。 提案モデルはエンドツーエンドでトレーニング可能で,外部アノテーションを使わずに自己監視可能である。 具体的には、米国とMRIのデータが類似の解剖学的潜伏空間を共有しているという仮定に基づいて、まずネットワークを利用して共有潜伏特徴を抽出し、MRI合成に使用する。 ペア化されたデータは我々の研究では利用できないため、ピクセルレベルの制約は適用できない。 そこで我々は,画像領域と特徴空間の両方における逆学習により,統計的に区別不能な分布を強制することを提案する。 合成中のUSとMRIの解剖学的構造を正則化するために,逆構造制約を提案する。 マルチモーダル知識の融合と伝播を奨励し,非局所空間情報を活用する新しいクロスモーダル注意手法を提案する。 ボリュームデータから3d補助情報(例えば3d近傍と3dロケーションインデックス)が利用可能である場合を考えるアプローチを拡張し、画像合成が改善されることを示す。 提案手法は, 胎児mr画像や他の合成手法と比較して定量的, 定性的に評価され, リアルmr画像合成の可能性を示す。

Fetal brain magnetic resonance imaging (MRI) offers exquisite images of the developing brain but is not suitable for second-trimester anomaly screening, for which ultrasound (US) is employed. Although expert sonographers are adept at reading US images, MR images which closely resemble anatomical images are much easier for non-experts to interpret. Thus in this paper we propose to generate MR-like images directly from clinical US images. In medical image analysis such a capability is potentially useful as well, for instance for automatic US-MRI registration and fusion. The proposed model is end-to-end trainable and self-supervised without any external annotations. Specifically, based on an assumption that the US and MRI data share a similar anatomical latent space, we first utilise a network to extract the shared latent features, which are then used for MRI synthesis. Since paired data is unavailable for our study (and rare in practice), pixel-level constraints are infeasible to apply. We instead propose to enforce the distributions to be statistically indistinguishable, by adversarial learning in both the image domain and feature space. To regularise the anatomical structures between US and MRI during synthesis, we further propose an adversarial structural constraint. A new cross-modal attention technique is proposed to utilise non-local spatial information, by encouraging multi-modal knowledge fusion and propagation. We extend the approach to consider the case where 3D auxiliary information (e.g., 3D neighbours and a 3D location index) from volumetric data is also available, and show that this improves image synthesis. The proposed approach is evaluated quantitatively and qualitatively with comparison to real fetal MR images and other approaches to synthesis, demonstrating its feasibility of synthesising realistic MR images.
翻訳日:2022-10-27 11:43:09 公開日:2020-08-19
# FinChat: 日々の話題におけるフィンランド語チャットのコーパスと評価設定

FinChat: Corpus and evaluation setup for Finnish chat conversations on everyday topics ( http://arxiv.org/abs/2008.08315v1 )

ライセンス: Link先を確認
Katri Leino, Juho Leinonen, Mittul Singh, Sami Virpioja, Mikko Kurimo(参考訳) オープンドメインチャットボットを作成するには、大量の会話データと関連するベンチマークタスクが必要である。 標準化された評価タスクは、モデル開発のための自動評価メトリクスを作成するために不可欠である。 チャットボットの課題は最近、英語にこのようなリソースの多さを提供しているが、他の言語のリソースはまだ利用できない。 本研究では,フィンランドのオープンドメインチャットボット研究の出発点となる。 我々は,フィンランドのチャット会話コーパスであるfinchatを作成するための収集作業について述べる。 FinChatには、異なる年齢の人々の7つのトピックに関する説明されていない会話が含まれている。 このコーパスを用いて,フィンランドのチャットボット開発のための検索ベース評価タスクを構築する。 対話型コーパスでトレーニングされた既成のチャットボットモデルでは,自動測定値に基づいて適切な回答を選択するチャンスが得られず,人間がほぼ完全に同じタスクを実行できる。 同様に、人間による評価では、チャットボットによって生成された評価セットからの質問に対する応答は、主に非一貫性としてマークされる。 このようにFinChatは、フィンランドのチャットボット開発を促進するために、挑戦的な評価セットを提供する。

Creating open-domain chatbots requires large amounts of conversational data and related benchmark tasks to evaluate them. Standardized evaluation tasks are crucial for creating automatic evaluation metrics for model development; otherwise, comparing the models would require resource-expensive human evaluation. While chatbot challenges have recently managed to provide a plethora of such resources for English, resources in other languages are not yet available. In this work, we provide a starting point for Finnish open-domain chatbot research. We describe our collection efforts to create the Finnish chat conversation corpus FinChat, which is made available publicly. FinChat includes unscripted conversations on seven topics from people of different ages. Using this corpus, we also construct a retrieval-based evaluation task for Finnish chatbot development. We observe that off-the-shelf chatbot models trained on conversational corpora do not perform better than chance at choosing the right answer based on automatic metrics, while humans can do the same task almost perfectly. Similarly, in a human evaluation, responses to questions from the evaluation set generated by the chatbots are predominantly marked as incoherent. Thus, FinChat provides a challenging evaluation set, meant to encourage chatbot development in Finnish.
翻訳日:2022-10-27 11:40:49 公開日:2020-08-19
# グラフ同型ネットワークにおけるトレーニング感度

Training Sensitivity in Graph Isomorphism Network ( http://arxiv.org/abs/2008.09020v1 )

ライセンス: Link先を確認
Md. Khaledur Rahman(参考訳) グラフニューラルネットワーク(GNN)は、グラフの低次元表現を学習するための一般的なツールである。 ドメイン固有の機能を組み込むことで、グラフ上の機械学習タスクの適用性を高める。 基礎となる手順(最適化関数、アクティベーション関数など)については、GNNの実装で考慮できる様々な選択肢がある。 しかし、既存のツールのほとんどは、分析なしで1つのアプローチに限定されている。 したがって、この出現する分野は実世界のグラフの非常に不規則な構造を無視した堅牢な実装を欠いている。 本稿では,多様なベンチマークデータセットを用いて,各モジュールの様々な代替関数を探索することにより,このギャップを埋めようとしている。 実験結果から,一般的に使用される手法は,グラフの集合から全体構造を捉えるのに必ずしもうまく機能しないことが示唆された。

Graph neural network (GNN) is a popular tool to learn the lower-dimensional representation of a graph. It facilitates the applicability of machine learning tasks on graphs by incorporating domain-specific features. There are various options for underlying procedures (such as optimization functions, activation functions, etc.) that can be considered in the implementation of GNN. However, most of the existing tools are confined to one approach without any analysis. Thus, this emerging field lacks a robust implementation ignoring the highly irregular structure of the real-world graphs. In this paper, we attempt to fill this gap by studying various alternative functions for a respective module using a diverse set of benchmark datasets. Our empirical results suggest that the generally used underlying techniques do not always perform well to capture the overall structure from a set of graphs.
翻訳日:2022-10-27 09:18:20 公開日:2020-08-19
# Auto-Surprise:Parzens Estimator (TPE)最適化を備えた自動レコメンダシステム(AutoRecSys)ライブラリ

Auto-Surprise: An Automated Recommender-System (AutoRecSys) Library with Tree of Parzens Estimator (TPE) Optimization ( http://arxiv.org/abs/2008.13532v1 )

ライセンス: Link先を確認
Rohan Anand and Joeran Beel(参考訳) 本稿では,自動レコメンダシステムライブラリであるAuto-Surpriseを紹介する。 Auto-SurpriseはSurpriseレコメンデータシステムライブラリの拡張であり、アルゴリズムの選択と設定プロセスを容易にする。 アウトオブボックスのサプライズライブラリと比較して、Auto-SurpriseはMovieLens、Book Crossing、Jester Datasetsで評価するとパフォーマンスが向上する。 また、実行時間を大幅に削減したアルゴリズムを選択することも可能である。 サプライズによるグリッド検索と比較して、オートサーベイはrmseでも同様に良く、あるいは少し良い性能を示し、最適なハイパーパラメータを見つけるのに非常に高速である。

We introduce Auto-Surprise, an Automated Recommender System library. Auto-Surprise is an extension of the Surprise recommender system library and eases the algorithm selection and configuration process. Compared to out-of-the-box Surprise library, Auto-Surprise performs better when evaluated with MovieLens, Book Crossing and Jester Datasets. It may also result in the selection of an algorithm with significantly lower runtime. Compared to Surprise's grid search, Auto-Surprise performs equally well or slightly better in terms of RMSE, and is notably faster in finding the optimum hyperparameters.
翻訳日:2022-10-27 09:17:53 公開日:2020-08-19
# ニューラルアーキテクチャサーチによるMRI再構成網の強化

Enhanced MRI Reconstruction Network using Neural Architecture Search ( http://arxiv.org/abs/2008.08248v1 )

ライセンス: Link先を確認
Qiaoying Huang, Dong Yang, Yikun Xian, Pengxiang Wu, Jingru Yi, Hui Qu, Dimitris Metaxas(参考訳) 現代のディープラーニング技術を用いて、アンダーサンプル磁気共鳴イメージング(MRI)データの正確な再構成を行うには、複雑なニューラルネットワークアーキテクチャの設計に多大な努力が必要である。 MRI再構成のためのカスケードネットワークアーキテクチャは広く使われてきたが、ネットワークが深くなった際には「消滅勾配」の問題に悩まされている。 さらに、均質なアーキテクチャはネットワークの表現能力を低下させる。 本研究では,残差基本ブロックを用いたMRI再構成ネットワークを提案する。 基本ブロックの各セルに対して、微分可能なニューラルネットワークサーチ(NAS)技術を用いて、高密度ブロックの8つの変種間の最適操作を自動的に選択する。 このニューヘテロジニアスネットワークは2つの公開データセット上で評価され,提案手法の有効性を示す最先端手法を上回っている。

The accurate reconstruction of under-sampled magnetic resonance imaging (MRI) data using modern deep learning technology, requires significant effort to design the necessary complex neural network architectures. The cascaded network architecture for MRI reconstruction has been widely used, while it suffers from the "vanishing gradient" problem when the network becomes deep. In addition, homogeneous architecture degrades the representation capacity of the network. In this work, we present an enhanced MRI reconstruction network using a residual in residual basic block. For each cell in the basic block, we use the differentiable neural architecture search (NAS) technique to automatically choose the optimal operation among eight variants of the dense block. This new heterogeneous network is evaluated on two publicly available datasets and outperforms all current state-of-the-art methods, which demonstrates the effectiveness of our proposed method.
翻訳日:2022-10-27 09:17:16 公開日:2020-08-19
# 乳房超音波画像における重み検出のための弱視・能動学習の段階的適用

Gradually Applying Weakly Supervised and Active Learning for Mass Detection in Breast Ultrasound Images ( http://arxiv.org/abs/2008.08416v1 )

ライセンス: Link先を確認
JooYeol Yun, JungWoo Oh, and IlDong Yun(参考訳) 乳房超音波画像の物体検出タスクにおいて弱い注釈付き画像データを有効に活用する手法を提案する。 小さい、強い注釈付きデータセットと、境界ボックス情報のない大きな、弱い注釈付きデータセットが利用できる問題設定を考えると、オブジェクト検出モデルのトレーニングは非自明な問題となる。 2段階物体検出モデルにおいて,弱い注釈付き画像の効果を扱うための制御重みを提案する。 また、トレーニングされたモデルを使用して、弱い注釈付きイメージに強いアノテーションを安全に割り当てる、その後のアクティブラーニングスキームも提示します。 実験の結果, 正確な局所化と分類画像の比率である正位置化(CorLoc)は, 適切に制御された重みを割り当てることで24倍に増加した。 モデル訓練後のアクティブラーニングの実行は、CorLocをさらに増加させた。 提案手法をstanford dogデータセットで検証し,類似した結果を得るために強いアノテーションが不十分な一般的なケースに適用できることを確認した。 提案手法は,より少ないアノテーションで高い性能が得られることを示した。

We propose a method for effectively utilizing weakly annotated image data in an object detection tasks of breast ultrasound images. Given the problem setting where a small, strongly annotated dataset and a large, weakly annotated dataset with no bounding box information are available, training an object detection model becomes a non-trivial problem. We suggest a controlled weight for handling the effect of weakly annotated images in a two stage object detection model. We~also present a subsequent active learning scheme for safely assigning weakly annotated images a strong annotation using the trained model. Experimental results showed a 24\% point increase in correct localization (CorLoc) measure, which is the ratio of correctly localized and classified images, by assigning the properly controlled weight. Performing active learning after a model is trained showed an additional increase in CorLoc. We tested the proposed method on the Stanford Dog datasets to assure that it can be applied to general cases, where strong annotations are insufficient to obtain resembling results. The presented method showed that higher performance is achievable with lesser annotation effort.
翻訳日:2022-10-27 09:17:04 公開日:2020-08-19
# 選択アンカーによるシーンテキスト検出

Scene Text Detection with Selected Anchor ( http://arxiv.org/abs/2008.08523v1 )

ライセンス: Link先を確認
Anna Zhu, Hang Du, Shengwu Xiong(参考訳) シーンテキスト検出のための密アンカー方式を用いたオブジェクト提案手法を頻繁に適用し,高いリコールを実現する。 その結果、精度は大幅に向上するが、計算検索、回帰、分類に費やされる。 本稿では,高密度アンカーの代わりに有効なアンカーを用いたアンカー選択型領域提案ネットワーク(AS-RPN)を提案する。 アンカーの中心、スケール、アスペクト比、配向は固定の代わりに学習可能であり、高いリコールとアンカー数の大幅な削減につながる。 Faster RCNN のアンカーベース RPN を置き換えることで、AS-RPN ベースの Faster RCNN は、COCO-Text, ICDAR2013, ICDAR2015, MSRA-TD500 など、従来の最先端のテキスト検出アプローチと同等のパフォーマンスを達成できる。

Object proposal technique with dense anchoring scheme for scene text detection were applied frequently to achieve high recall. It results in the significant improvement in accuracy but waste of computational searching, regression and classification. In this paper, we propose an anchor selection-based region proposal network (AS-RPN) using effective selected anchors instead of dense anchors to extract text proposals. The center, scales, aspect ratios and orientations of anchors are learnable instead of fixing, which leads to high recall and greatly reduced numbers of anchors. By replacing the anchor-based RPN in Faster RCNN, the AS-RPN-based Faster RCNN can achieve comparable performance with previous state-of-the-art text detecting approaches on standard benchmarks, including COCO-Text, ICDAR2013, ICDAR2015 and MSRA-TD500 when using single-scale and single model (ResNet50) testing only.
翻訳日:2022-10-27 09:16:21 公開日:2020-08-19
# 「そのメーカーを名乗る。」 ディープラーニングモデルの訓練における画像取得バイアスとタスク複雑性の関係:頭部CT実験

"Name that manufacturer". Relating image acquisition bias with task complexity when training deep learning models: experiments on head CT ( http://arxiv.org/abs/2008.08525v1 )

ライセンス: Link先を確認
Giorgio Pietro Biondetti, Romane Gauriau, Christopher P. Bridge, Charles Lu, Katherine P. Andriole(参考訳) 医療画像に機械学習技術を適用することへの関心は急速に高まり続けており、臨床応用のためのモデルの開発や展開が始まっている。 臨床AIモデル開発ライフサイクル(Lu et al. [1])において、機械学習科学者と臨床医にとって重要なフェーズは、データコホートの設計と収集である。 このステップでは、データセット内のさまざまな形式のバイアスと分散シフトを認識する能力が重要である。 全ての潜在的なバイアス源を考慮に入れるのは難しいが、その影響を緩和するために特定のバイアスの種類を特定する技術が開発されている。 本研究では、データセット内のスキャナーメーカーの分布がディープラーニングモデルの全体的なバイアスにどのように寄与するかを分析する。 分類タスクとセグメンテーションタスクの両方において畳み込みニューラルネットワーク(CNN)を評価し,特に2つの最先端モデル – 分類のためのResNet [2]とセグメンテーションのためのU-Net[3] – を評価する。 cnnが撮像スキャナーメーカーを識別することを学び、このバイアスが分類とセグメンテーションタスクの両方のモデル性能に大きな影響を与えることを実証する。 多かれ少なかれ微妙な病変の存在を模倣した脳データのオリジナルの合成データセットを作成することで、このバイアスがタスクの難易度に関連していることが分かる。 このようなバイアスの認識は、実世界のデータ分布における臨床応用に不可欠な堅牢で一般化可能なモデルを開発するために重要である。

As interest in applying machine learning techniques for medical images continues to grow at a rapid pace, models are starting to be developed and deployed for clinical applications. In the clinical AI model development lifecycle (described by Lu et al. [1]), a crucial phase for machine learning scientists and clinicians is the proper design and collection of the data cohort. The ability to recognize various forms of biases and distribution shifts in the dataset is critical at this step. While it remains difficult to account for all potential sources of bias, techniques can be developed to identify specific types of bias in order to mitigate their impact. In this work we analyze how the distribution of scanner manufacturers in a dataset can contribute to the overall bias of deep learning models. We evaluate convolutional neural networks (CNN) for both classification and segmentation tasks, specifically two state-of-the-art models: ResNet [2] for classification and U-Net [3] for segmentation. We demonstrate that CNNs can learn to distinguish the imaging scanner manufacturer and that this bias can substantially impact model performance for both classification and segmentation tasks. By creating an original synthesis dataset of brain data mimicking the presence of more or less subtle lesions we also show that this bias is related to the difficulty of the task. Recognition of such bias is critical to develop robust, generalizable models that will be crucial for clinical applications in real-world data distributions.
翻訳日:2022-10-27 09:16:00 公開日:2020-08-19
# Black Re-ID: 人物再識別問題のためのヘッドショルダー記述子

Black Re-ID: A Head-shoulder Descriptor for the Challenging Problem of Person Re-Identification ( http://arxiv.org/abs/2008.08528v1 )

ライセンス: Link先を確認
Boqiang Xu, Lingxiao He, Xingyu Liao, Wu Liu, Zhenan Sun, Tao Mei(参考訳) 人物再識別(Re-ID)は、複数のカメラが捉えた一連の画像から入力された人物画像を取得することを目的としている。 近年のRe-ID法は大きな成功を収めているが、そのほとんどが衣服の特徴(例えば、色、テクスチャ)から特徴を抽出している。 しかし、暗い照明で黒衣を着たり、監視システムによって捕獲されることが一般的であり、その場合、衣服の属性が著しく欠落している。 この問題をBlack Re-ID問題と呼ぶ。 この問題を解決するために,衣服情報に頼るのではなく,人のRe-IDを支援するためにヘッドシャダー機能を活用することを提案する。 ヘッドショルダーアダプティブアダプティブアテンションネットワーク(HAA)はヘッドショルダーの特徴を学習するために提案され、モデルの一般化を促進するために革新的なアンサンブル法が設計されている。 入力された人物像からすると、アンサンブル法は、画像の内部の個人が黒い服を着ている場合、より大きな重量を割り当てることでヘッドショルダーの特徴に焦点を当てる。 Black Re-ID問題の研究に適したベンチマークデータセットがないため、トレーニングセットに1274のIDを含む最初のBlack-reIDデータセットも提供します。 Black-reID, Market1501 および DukeMTMC-reID データセットの広範囲な評価により,我々のモデルは,Black および従来の Re-ID 問題に対する最先端の Re-ID 手法と比較して,最高の結果が得られることが示された。 また,本手法は類似の衣服における人物Re-ID処理にも有効であることが証明された。 私たちのコードとデータセットはhttps://github.com/xbq1994/で評価可能です。

Person re-identification (Re-ID) aims at retrieving an input person image from a set of images captured by multiple cameras. Although recent Re-ID methods have made great success, most of them extract features in terms of the attributes of clothing (e.g., color, texture). However, it is common for people to wear black clothes or be captured by surveillance systems in low light illumination, in which cases the attributes of the clothing are severely missing. We call this problem the Black Re-ID problem. To solve this problem, rather than relying on the clothing information, we propose to exploit head-shoulder features to assist person Re-ID. The head-shoulder adaptive attention network (HAA) is proposed to learn the head-shoulder feature and an innovative ensemble method is designed to enhance the generalization of our model. Given the input person image, the ensemble method would focus on the head-shoulder feature by assigning a larger weight if the individual insides the image is in black clothing. Due to the lack of a suitable benchmark dataset for studying the Black Re-ID problem, we also contribute the first Black-reID dataset, which contains 1274 identities in training set. Extensive evaluations on the Black-reID, Market1501 and DukeMTMC-reID datasets show that our model achieves the best result compared with the state-of-the-art Re-ID methods on both Black and conventional Re-ID problems. Furthermore, our method is also proved to be effective in dealing with person Re-ID in similar clothing. Our code and dataset are avaliable on https://github.com/xbq1994/.
翻訳日:2022-10-27 09:15:34 公開日:2020-08-19
# タスク指向グラフクラスタリングによる平衡順序バッチ

Balanced Order Batching with Task-Oriented Graph Clustering ( http://arxiv.org/abs/2008.09018v1 )

ライセンス: Link先を確認
Lu Duan, Haoyuan Hu, Zili Wu, Guozheng Li, Xinhang Zhang, Yu Gong, Yinghui Xu(参考訳) バランスド・オーダー・バッチリング問題(BOBP)は、中国最大の物流プラットフォームであるカイニアオで倉庫を拾う過程から生じる。 ピッキングプロセスで注文をまとめて1つのピッキングルートを形成することで、旅行距離を減少させる。 その重要性は、注文のピッキングは労働集約的なプロセスであり、良いバッチ手法を用いることでかなりの節約が得られるためである。 BOBPはNP-ハードな組合せ最適化問題であり、準リアルタイムシステム応答要求の下で優れた問題固有のヒューリスティックを設計するのは非自明である。 本稿では、ヒューリスティックスを設計する代わりに、バランスド・タスク指向グラフクラスタリングネットワーク(BTOGCN)と呼ばれるエンドツーエンドの学習・最適化フレームワークを提案し、バランスド・グラフクラスタリング最適化問題に還元してBOBPを解決する。 BTOGCNでは、BOBPの目的に関するより優れたクラスタリング結果を求めるために、タイプアウェアな異種グラフクラスタリングネットワークを誘導するタスク指向推定器ネットワークが導入された。 シングルグラフとマルチグラフの包括的実験を通じて、以下のことが示される。 1) バランスの取れたタスク指向グラフクラスタリングネットワークは, ターゲット信号の誘導を直接活用し, 2段階の深層埋め込みおよび深層クラスタリング手法よりも優れている。 2) 本手法は, 単グラフおよび多グラフ集合上のエキスパート設計アルゴリズムよりも平均4.57m, 0.13mピッキング距離(mはメートル(長さのsiベース単位)を短縮し, 実用的なシナリオに適用可能な一般化能力を有する。

Balanced order batching problem (BOBP) arises from the process of warehouse picking in Cainiao, the largest logistics platform in China. Batching orders together in the picking process to form a single picking route, reduces travel distance. The reason for its importance is that order picking is a labor intensive process and, by using good batching methods, substantial savings can be obtained. The BOBP is a NP-hard combinational optimization problem and designing a good problem-specific heuristic under the quasi-real-time system response requirement is non-trivial. In this paper, rather than designing heuristics, we propose an end-to-end learning and optimization framework named Balanced Task-orientated Graph Clustering Network (BTOGCN) to solve the BOBP by reducing it to balanced graph clustering optimization problem. In BTOGCN, a task-oriented estimator network is introduced to guide the type-aware heterogeneous graph clustering networks to find a better clustering result related to the BOBP objective. Through comprehensive experiments on single-graph and multi-graphs, we show: 1) our balanced task-oriented graph clustering network can directly utilize the guidance of target signal and outperforms the two-stage deep embedding and deep clustering method; 2) our method obtains an average 4.57m and 0.13m picking distance ("m" is the abbreviation of the meter (the SI base unit of length)) reduction than the expert-designed algorithm on single and multi-graph set and has a good generalization ability to apply in practical scenario.
翻訳日:2022-10-27 09:10:16 公開日:2020-08-19
# 並列分散推論のための深部モデルの再構成, 刈り取り, 調整

Restructuring, Pruning, and Adjustment of Deep Models for Parallel Distributed Inference ( http://arxiv.org/abs/2008.08289v1 )

ライセンス: Link先を確認
Afshin Abdi, Saeed Rashidi, Faramarz Fekri, Tushar Krishna(参考訳) 複数のノードと並列コンピューティングアルゴリズムを使用することで、深層ニューラルネットワークのトレーニングと実行時間を改善すると同時に、センサネットワークにおける効果的な集団知性も向上する。 本稿では,複数の処理ノード(例えばワーカ)上ですでに訓練済みの深層モデルを並列に実装し,その深層モデルを複数の並列サブモデルに分割し,それぞれをワーカで実行する。 作業者の同期とデータ転送によるレイテンシは並列実装の性能に悪影響を及ぼすため、並列サブモデル間の最小相互依存性を持つことが望ましい。 この目的を達成するために、ニューラルネットワーク内のニューロンを再構成して分割し(ニューラルネットワークの一般的なトポロジを変更することなく)、労働者の計算や通信制約の下でサブモデル間の相互依存性を最小限に抑えることを提案する。 並列化モデル全体の性能を保証するレイヤワイドモデル再構成およびプルーニング手法であるRePurposeを提案する。 RePurposeを効率的に適用するために、$\ell_0$最適化とMunkres代入アルゴリズムに基づくアプローチを提案する。 既存の手法と比較して,並列実装による分散推論の効率が,通信量と計算量の両方において大幅に向上することを示す。

Using multiple nodes and parallel computing algorithms has become a principal tool to improve training and execution times of deep neural networks as well as effective collective intelligence in sensor networks. In this paper, we consider the parallel implementation of an already-trained deep model on multiple processing nodes (a.k.a. workers) where the deep model is divided into several parallel sub-models, each of which is executed by a worker. Since latency due to synchronization and data transfer among workers negatively impacts the performance of the parallel implementation, it is desirable to have minimum interdependency among parallel sub-models. To achieve this goal, we propose to rearrange the neurons in the neural network and partition them (without changing the general topology of the neural network), such that the interdependency among sub-models is minimized under the computations and communications constraints of the workers. We propose RePurpose, a layer-wise model restructuring and pruning technique that guarantees the performance of the overall parallelized model. To efficiently apply RePurpose, we propose an approach based on $\ell_0$ optimization and the Munkres assignment algorithm. We show that, compared to the existing methods, RePurpose significantly improves the efficiency of the distributed inference via parallel implementation, both in terms of communication and computational complexity.
翻訳日:2022-10-27 09:09:25 公開日:2020-08-19
# DECE:機械学習モデルのための非現実的説明付き決定エクスプローラー

DECE: Decision Explorer with Counterfactual Explanations for Machine Learning Models ( http://arxiv.org/abs/2008.08353v1 )

ライセンス: Link先を確認
Furui Cheng, Yao Ming, Huamin Qu(参考訳) 機械学習モデルがさまざまな意思決定シナリオにますます適用されていく中、人々は機械学習モデルをより透明で説明しやすいものにするために、ますます努力を重ねてきた。 さまざまな説明手法の中で、反ファクト的な説明には、人間フレンドリで行動しやすいという利点がある -- 反ファクト的な説明は、入力に最小限の変更を加えて、望ましい予測を得る方法を教えてくれる。 さらに、反事実的説明はモデルの判断に対する効率的なプローブとしても機能する。 本研究では,反事実的説明の可能性を活用し,機械学習モデルの振る舞いを理解し探索する。 我々は、個別のインスタンスやデータサブセットに関するモデルの判断を理解し、探索するのに役立つインタラクティブな可視化システムDECEを設計し、意思決定対象からモデル開発者まで幅広いユーザーをサポートする。 DECEは、インスタンスレベルとサブグループレベルの反実的説明の強みを組み合わせることで、モデル決定の探索的分析を支援する。 また、ユーザによる反事実説明の生成をカスタマイズして、ニーズに合致するアクション可能なものを見つけるための、一連のインタラクションも導入しています。 3つのユースケースと専門家インタビューを通じて、意思決定探索タスクと事例説明を支援する上でのDCEの有効性を実証する。

With machine learning models being increasingly applied to various decision-making scenarios, people have spent growing efforts to make machine learning models more transparent and explainable. Among various explanation techniques, counterfactual explanations have the advantages of being human-friendly and actionable -- a counterfactual explanation tells the user how to gain the desired prediction with minimal changes to the input. Besides, counterfactual explanations can also serve as efficient probes to the models' decisions. In this work, we exploit the potential of counterfactual explanations to understand and explore the behavior of machine learning models. We design DECE, an interactive visualization system that helps understand and explore a model's decisions on individual instances and data subsets, supporting users ranging from decision-subjects to model developers. DECE supports exploratory analysis of model decisions by combining the strengths of counterfactual explanations at instance- and subgroup-levels. We also introduce a set of interactions that enable users to customize the generation of counterfactual explanations to find more actionable ones that can suit their needs. Through three use cases and an expert interview, we demonstrate the effectiveness of DECE in supporting decision exploration tasks and instance explanations.
翻訳日:2022-10-27 09:08:29 公開日:2020-08-19
# 広帯域畳み込みニューラルネットワークの漸近

Asymptotics of Wide Convolutional Neural Networks ( http://arxiv.org/abs/2008.08675v1 )

ライセンス: Link先を確認
Anders Andreassen, Ethan Dyer(参考訳) 広いニューラルネットワークは、理論と実践の両方において、リッチなアーキテクチャクラスであることが証明されている。 有限幅畳み込みネットワークが無限幅ネットワークを上回るという観測に動機づけられ,スキップ接続を持つ広帯域cnnおよびネットワークのスケーリング則について検討した。 我々は(dyer & gur-ari, 2019) のアプローチに従って,多量の利害に対して漸近的な幅依存性を導出するための単純な図式的レシピを提案する。 これらのスケーリング関係は、広い畳み込みネットワークのトレーニングダイナミクスの解決可能な記述を提供する。 これらの関係を幅広いアーキテクチャでテストします。 特に,有限幅モデルと無限幅モデルのパフォーマンス差は,モデル幅に対して一定の速度で消失することがわかった。 にもかかわらず、この関係は有限幅モデルと一致し、その無限幅モデルよりも良いか悪いかのどちらかを一般化し、相対的な性能が最適化の詳細に依存する例を示す。

Wide neural networks have proven to be a rich class of architectures for both theory and practice. Motivated by the observation that finite width convolutional networks appear to outperform infinite width networks, we study scaling laws for wide CNNs and networks with skip connections. Following the approach of (Dyer & Gur-Ari, 2019), we present a simple diagrammatic recipe to derive the asymptotic width dependence for many quantities of interest. These scaling relationships provide a solvable description for the training dynamics of wide convolutional networks. We test these relations across a broad range of architectures. In particular, we find that the difference in performance between finite and infinite width models vanishes at a definite rate with respect to model width. Nonetheless, this relation is consistent with finite width models generalizing either better or worse than their infinite width counterparts, and we provide examples where the relative performance depends on the optimization details.
翻訳日:2022-10-27 09:07:11 公開日:2020-08-19
# 胸部X線による肺疾患検出のためのデータ効率のよい深層学習スマートフォンアプリケーション

A Data-Efficient Deep Learning Based Smartphone Application For Detection Of Pulmonary Diseases Using Chest X-rays ( http://arxiv.org/abs/2008.08912v1 )

ライセンス: Link先を確認
Hrithwik Shalu, Harikrishnan P, Akash Das, Megdut Mandal, Harshavardhan M Sali, Juned Kadiwala(参考訳) 本稿では,医療サービスの提供方法に革命をもたらす可能性のある,スマートフォンアプリケーションに基づく疾患診断のパラダイムを紹介する。 新型コロナウイルスの感染拡大で医療サービスに支障を来すのが主な目的だが、患者が幅広い範囲の肺疾患に罹患している正確な疾患を特定できるよう拡張することもできる。 モバイルアプリは、モバイルカメラから撮影したChest X-Rayイメージを入力し、クラウドプラットフォームのAIアーキテクチャに中継し、その病気を最先端の最先端で診断する。 スマートフォンの医師はこのアプリケーションを利用すれば、新型コロナウイルス(COVID-19)の診断に要する時間を大幅に節約できる。 学習データの不足とクラス不均衡の問題は,データ拡張生成支援ネットワーク(DAGAN)と,注意機構を備えた畳み込みシームズネットワークを基盤としたモデルアーキテクチャを用いて,我々のアプローチに効果的に対処した。 バックエンドモデルは、最小限のデータとノイズの多い2つの異なる分類シナリオ(Binary/Multiclass)の下で、公開データセットの堅牢性をテストするためにテストされた。 このモデルは2つのシナリオで99.30%と98.40%の精度を達成し、ユーザーにとって完全に信頼された。 それに加えて、半生のトレーニングシナリオが導入され、データが蓄積されるにつれて、時間の経過とともにアプリのパフォーマンスが向上する。 全体として、複雑なモデルとデータ非効率の汎用性の問題は、モデルアーキテクチャを通して取り組まれます。 半ライブトレーニングによるアプリベースの設定は、社会における信頼できる医療へのアクセスを容易にし、最小限のデータ環境で希少な疾患の研究を効果的に行うのに役立つ。

This paper introduces a paradigm of smartphone application based disease diagnostics that may completely revolutionise the way healthcare services are being provided. Although primarily aimed to assist the problems in rendering the healthcare services during the coronavirus pandemic, the model can also be extended to identify the exact disease that the patient is caught with from a broad spectrum of pulmonary diseases. The app inputs Chest X-Ray images captured from the mobile camera which is then relayed to the AI architecture in a cloud platform, and diagnoses the disease with state of the art accuracy. Doctors with a smartphone can leverage the application to save the considerable time that standard COVID-19 tests take for preliminary diagnosis. The scarcity of training data and class imbalance issues were effectively tackled in our approach by the use of Data Augmentation Generative Adversarial Network (DAGAN) and model architecture based as a Convolutional Siamese Network with attention mechanism. The backend model was tested for robustness us-ing publicly available datasets under two different classification scenarios(Binary/Multiclass) with minimal and noisy data. The model achieved pinnacle testing accuracy of 99.30% and 98.40% on the two respective scenarios, making it completely reliable for its users. On top of that a semi-live training scenario was introduced, which helps improve the app performance over time as data accumulates. Overall, the problems of generalisability of complex models and data inefficiency is tackled through the model architecture. The app based setting with semi live training helps in ease of access to reliable healthcare in the society, as well as help ineffective research of rare diseases in a minimal data setting.
翻訳日:2022-10-27 09:06:55 公開日:2020-08-19
# RFMモデルと教師なし機械学習による銀行顧客のセグメンテーション

Segmenting Bank Customers via RFM Model and Unsupervised Machine Learning ( http://arxiv.org/abs/2008.08662v1 )

ライセンス: Link先を確認
Musadig Aliyev, Elvin Ahmadov, Habil Gadirli, Arzu Mammadova and Emin Alasgarov(参考訳) 近年、金融機関にとって大きな課題の1つは、信頼性と収益性のある分節化の新しい手法を用いて顧客の維持である。 銀行業界では、すべてのサービスを既存のすべての顧客に同時に提供するというアプローチは、必ずしもうまくいきません。 しかし、何を売るか、いつ売るか、誰が売るかを知ることは、新しいサービスへの応答と新製品の購入に対する顧客のコンバージョン率に大きな差をもたらす。 本稿では,アゼルバイジャン最大の民間銀行の実際の顧客データに適用したRAM手法と各種クラスタリングアルゴリズムを用いた。

In recent years, one of the major challenges for financial institutions is the retention of their customers using new methodologies of reliable and profitable segmentation. In the field of banking, the approach of offering all of the services to all the existing customers at the same time does not always work. However, being aware of what to sell, when to sell and whom to sell makes a huge difference in the conversion rate of the customers responding to new services and buying new products. In this paper, we used RFM technique and various clustering algorithms applied to the real customer data of one of the largest private banks of Azerbaijan.
翻訳日:2022-10-27 09:00:29 公開日:2020-08-19
# 分類のための神経近傍符号化

Neural Neighborhood Encoding for Classification ( http://arxiv.org/abs/2008.08685v1 )

ライセンス: Link先を確認
Kaushik Sinha and Parikshit Ram(参考訳) フルーツフライ嗅覚回路にインスパイアされたfly bloomフィルタ(dasgupta et al., 2018)は、データを単一のパスで効率的に要約することができ、新規な検出に使用されている。 本研究では,クラスごとのFly Bloomフィルタを用いて,各クラスごとに異なる局所近傍を効果的に符号化する新しい分類器を提案する。 テストデータ上での推論には、効率的な {\tt flyhash} [dasgupta, et al., 2017] 操作と、クラス毎のブルームフィルタを備えた高次元の {\em sparse} ドット積が必要である。 学習は自明に並列化できる。 理論的には,任意のテスト例における提案する分類器の予測が,最も近い隣接分類器の予測と高い確率で一致する条件を定式化する。 我々は,提案手法を50ドルを超える多様なデータ次元のデータセットを用いて広範囲に評価し,提案する神経科学に基づく分類器の予測性能が最接近型分類器と他の単一パス分類器に匹敵することを示した。

Inspired by the fruit-fly olfactory circuit, the Fly Bloom Filter [Dasgupta et al., 2018] is able to efficiently summarize the data with a single pass and has been used for novelty detection. We propose a new classifier (for binary and multi-class classification) that effectively encodes the different local neighborhoods for each class with a per-class Fly Bloom Filter. The inference on test data requires an efficient {\tt FlyHash} [Dasgupta, et al., 2017] operation followed by a high-dimensional, but {\em sparse}, dot product with the per-class Bloom Filters. The learning is trivially parallelizable. On the theoretical side, we establish conditions under which the prediction of our proposed classifier on any test example agrees with the prediction of the nearest neighbor classifier with high probability. We extensively evaluate our proposed scheme with over $50$ data sets of varied data dimensionality to demonstrate that the predictive performance of our proposed neuroscience inspired classifier is competitive the the nearest-neighbor classifiers and other single-pass classifiers.
翻訳日:2022-10-27 09:00:20 公開日:2020-08-19
# LOCUS:一様間隔を有する低ランク構造を用いた脳ネットワーク接続行列の新しい分解法

LOCUS: A Novel Decomposition Method for Brain Network Connectivity Matrices using Low-rank Structure with Uniform Sparsity ( http://arxiv.org/abs/2008.08915v1 )

ライセンス: Link先を確認
Yikai Wang and Ying Guo(参考訳) ネットワーク指向の研究は多くの科学分野で人気が高まっている。 神経科学研究において、画像に基づくネットワーク接続は、個々の神経指紋として機能する可能性のある脳組織を理解するための鍵となっている。 接続行列の分析には、脳ネットワークの高次元性、観測された接続の基盤となる未知の潜在源、スプリアスな発見につながる脳接続の多さなど、大きな課題がある。 本稿では,ネットワーク計測のための完全データ駆動分解法として,低ランク構造と均一性(LOCUS)を備えた新しいブラインドソース分離法を提案する。 脳ネットワークトポロジーを無視する接続行列をベクトル化する既存の方法と比較して、locusは低ランク構造を用いた接続行列をより効率的で正確なソース分離を実現する。 低ランクテンソル法における従来のスペーシティ制御よりも優れた性能を示すアングルに基づく一様スペーシティ正規化を提案する。 LOCUS学習のための非凸最適化問題を解くために,目的関数のブロック多重凸性を利用した高効率反復ノード回転アルゴリズムを提案する。 広範囲なシミュレーション研究を通じてLOCUSの利点を説明する。 LOCUSのフィラデルフィア神経発達コホート神経イメージング研究への応用は、既存の方法では見つからない生物学的に洞察に富んだ接続特性を明らかにしている。

Network-oriented research has been increasingly popular in many scientific areas. In neuroscience research, imaging-based network connectivity measures have become the key for understanding brain organizations, potentially serving as individual neural fingerprints. There are major challenges in analyzing connectivity matrices including the high dimensionality of brain networks, unknown latent sources underlying the observed connectivity, and the large number of brain connections leading to spurious findings. In this paper, we propose a novel blind source separation method with low-rank structure and uniform sparsity (LOCUS) as a fully data-driven decomposition method for network measures. Compared with the existing method that vectorizes connectivity matrices ignoring brain network topology, LOCUS achieves more efficient and accurate source separation for connectivity matrices using low-rank structure. We propose a novel angle-based uniform sparsity regularization that demonstrates better performance than the existing sparsity controls for low-rank tensor methods. We propose a highly efficient iterative Node-Rotation algorithm that exploits the block multi-convexity of the objective function to solve the non-convex optimization problem for learning LOCUS. We illustrate the advantage of LOCUS through extensive simulation studies. Application of LOCUS to Philadelphia Neurodevelopmental Cohort neuroimaging study reveals biologically insightful connectivity traits which are not found using the existing method.
翻訳日:2022-10-27 08:59:57 公開日:2020-08-19
# チャネルワイド・ヘシアンによるニューラルネットワークのトレース重み付き量子化

Channel-wise Hessian Aware trace-Weighted Quantization of Neural Networks ( http://arxiv.org/abs/2008.08284v1 )

ライセンス: Link先を確認
Xu Qian, Victor Li, Crews Darren(参考訳) 2次情報は、ニューラルネットワークの重みとアクティベーションの冗長性を決定するのに非常に効果的であることが証明されている。 近年,重みとアクティベーションのヘシアントレースを混合精度量子化に利用し,最先端の結果を得る。 しかしながら、以前の作業では各レイヤのビット選択にのみフォーカスする一方で、レイヤ内の異なるチャネルの冗長性も大きく異なる。 これは、各チャネルのビットを決定する複雑さが元のメソッドでは高すぎるためである。 本稿ではCW-HAWQ(Channel-wise Hessian Aware trace-Weighted Quantization)を紹介する。 CW-HAWQはヘシアントレースを用いて、活性化と重みの異なるチャネルの相対感度順序を決定する。 さらに、CW-HAWQは、ディープ強化学習(DRL)のDeep Deterministic Policy Gradient(DDPG)ベースのエージェントを使用して、異なる量子化ビットの最適比を見つけ、ヘッセントレース順序に従ってチャネルにビットを割り当てることを提案する。 cw-hawqにおける状態の数は、量子化ビットの検索比率のみを必要とするため、従来のautomlベースの混合精度法に比べてはるかに少ない。 CW-HAWQと最先端技術を比較すると、複数のネットワークでより良い結果が得られることが分かる。

Second-order information has proven to be very effective in determining the redundancy of neural network weights and activations. Recent paper proposes to use Hessian traces of weights and activations for mixed-precision quantization and achieves state-of-the-art results. However, prior works only focus on selecting bits for each layer while the redundancy of different channels within a layer also differ a lot. This is mainly because the complexity of determining bits for each channel is too high for original methods. Here, we introduce Channel-wise Hessian Aware trace-Weighted Quantization (CW-HAWQ). CW-HAWQ uses Hessian trace to determine the relative sensitivity order of different channels of activations and weights. What's more, CW-HAWQ proposes to use deep Reinforcement learning (DRL) Deep Deterministic Policy Gradient (DDPG)-based agent to find the optimal ratios of different quantization bits and assign bits to channels according to the Hessian trace order. The number of states in CW-HAWQ is much smaller compared with traditional AutoML based mix-precision methods since we only need to search ratios for the quantization bits. Compare CW-HAWQ with state-of-the-art shows that we can achieve better results for multiple networks.
翻訳日:2022-10-27 08:59:13 公開日:2020-08-19
# 音響誤差サンプリングを用いたクロス発話言語モデル

Cross-Utterance Language Models with Acoustic Error Sampling ( http://arxiv.org/abs/2009.01008v1 )

ライセンス: Link先を確認
G. Sun, C. Zhang and P. C. Woodland(参考訳) 言語モデル(LM)におけるよりリッチな文脈情報の効果的な活用は、音声認識(ASR)における長年の研究課題である。 本論文では,過去と将来の発話から抽出した文脈ベクトルを用いて,標準長短期メモリ(LSTM)LMへの入力を増大させるクロス発話LM(CULM)を提案する。 抽出ネットワークは、LSTMの最終隠れ状態のプロジェクションまたはマルチヘッド自己認識層を用いて、周囲の発話をコンテキストベクトルに統合したベクトルに符号化するために、別のLSTMを使用する。 また,実験時間とトレーニング時間のミスマッチを低減するため,音響誤差サンプリング手法を提案する。 これは、モデルトレーニング手順に可能なASRエラーを考慮し、従って単語エラー率(WER)を改善することで達成される。 AMIデータセットとSwitchboardデータセットの両方で実施された実験では、CULMがLSTM LMベースラインWERより優れていることが示された。 特に、自己減衰層に基づく抽出ネットワークと音響誤差サンプリングを備えたCULMは、AMIの0.6%のWER削減、Switchboard部の0.3%のWER削減、Eval2000テストセットのCallhome部の0.9%のWER削減を実現している。

The effective exploitation of richer contextual information in language models (LMs) is a long-standing research problem for automatic speech recognition (ASR). A cross-utterance LM (CULM) is proposed in this paper, which augments the input to a standard long short-term memory (LSTM) LM with a context vector derived from past and future utterances using an extraction network. The extraction network uses another LSTM to encode surrounding utterances into vectors which are integrated into a context vector using either a projection of LSTM final hidden states, or a multi-head self-attentive layer. In addition, an acoustic error sampling technique is proposed to reduce the mismatch between training and test-time. This is achieved by considering possible ASR errors into the model training procedure, and can therefore improve the word error rate (WER). Experiments performed on both AMI and Switchboard datasets show that CULMs outperform the LSTM LM baseline WER. In particular, the CULM with a self-attentive layer-based extraction network and acoustic error sampling achieves 0.6% absolute WER reduction on AMI, 0.3% WER reduction on the Switchboard part and 0.9% WER reduction on the Callhome part of Eval2000 test set over the respective baselines.
翻訳日:2022-10-27 08:58:04 公開日:2020-08-19
# 強化学習を用いたHDFSのインテリジェントレプリケーション管理

Intelligent Replication Management for HDFS Using Reinforcement Learning ( http://arxiv.org/abs/2008.08665v1 )

ライセンス: Link先を確認
Hyunsung Lee(参考訳) クラウドコンピューティングのためのストレージシステムは、多数のコモディティコンピュータを単一の大きなストレージプールに統合する。 信頼性の低い動的ネットワーク上で、大規模なメインフレームを購入し維持するよりも低コストで高性能なストレージを提供する。 本稿では,システム領域問題に強化学習(RL)を適用することが可能かどうかを検討する。 実験の結果,RLモデルはブロック管理問題に対する他のヒューリスティックよりも優れていることがわかった。 しかし、我々の実験はスケーラビリティと忠実さの点で限られています。 私たちの定式化はそれほど実用的ではないが、システムドメインへの強化学習の適用は、既存のヒューリスティックに優れた選択肢を提供する可能性がある。

Storage systems for cloud computing merge a large number of commodity computers into a single large storage pool. It provides high-performance storage over an unreliable, and dynamic network at a lower cost than purchasing and maintaining large mainframe. In this paper, we examine whether it is feasible to apply Reinforcement Learning(RL) to system domain problems. Our experiments show that the RL model is comparable, even outperform other heuristics for block management problem. However, our experiments are limited in terms of scalability and fidelity. Even though our formulation is not very practical,applying Reinforcement Learning to system domain could offer good alternatives to existing heuristics.
翻訳日:2022-10-27 08:57:39 公開日:2020-08-19
# sentiq: 感情分析ツールの品質向上のための確率論的論理アプローチ

SentiQ: A Probabilistic Logic Approach to Enhance Sentiment Analysis Tool Quality ( http://arxiv.org/abs/2008.08919v1 )

ライセンス: Link先を確認
Wissam Maamar Kouadri, Salima Benbernou, Mourad Ouziri, Themis Palpanas, Iheb Ben Amor(参考訳) 様々なWebサイトやソーシャルメディアで述べられている意見は、いくつかの組織の意思決定プロセスに不可欠な貢献である。 既存の感情分析ツールは、これらの意見内容から極性(正、負、中性)を抽出することを目的としている。 この分野の研究の進展にもかかわらず、感情分析ツールはビジネス決定に有害な「textit{inconsistent}」極性を与える。 本稿では,ルールを通してツールに意味的次元を注入する教師なしマルコフ論理ネットワークベースのアプローチであるsentiqを提案する。 不整合を検出して解決し、ツールの全体的な精度を改善することができる。 予備実験の結果, sentiqの有用性が示された。

The opinion expressed in various Web sites and social-media is an essential contributor to the decision making process of several organizations. Existing sentiment analysis tools aim to extract the polarity (i.e., positive, negative, neutral) from these opinionated contents. Despite the advance of the research in the field, sentiment analysis tools give \textit{inconsistent} polarities, which is harmful to business decisions. In this paper, we propose SentiQ, an unsupervised Markov logic Network-based approach that injects the semantic dimension in the tools through rules. It allows to detect and solve inconsistencies and then improves the overall accuracy of the tools. Preliminary experimental results demonstrate the usefulness of SentiQ.
翻訳日:2022-10-27 08:57:29 公開日:2020-08-19
# ランダム重みを持つニューラルネットの近似下界について

On the Approximation Lower Bound for Neural Nets with Random Weights ( http://arxiv.org/abs/2008.08427v1 )

ライセンス: Link先を確認
Sho Sonoda, Ming Li, Feilong Cao, Changqin Huang, Yu Guang Wang(参考訳) ランダムネットは、隠れた層がランダムな割り当てで凍結され、出力層が凸最適化によって訓練される浅いニューラルネットワークである。 隠蔽層にランダムウェイトを用いることは、標準勾配降下学習における避けられない非凸性を避けるための有効な方法である。 近年、深層学習理論の研究に採用されている。 本稿ではランダムネットの表現力について検討する。 浅層ニューラルネットワークが普遍近似器であるというよく知られている事実にもかかわらず、ランダムネットは滑らかな関数であってもゼロ近似誤差を達成できない。 特に、滑らかな関数のクラスに対して、提案分布がコンパクトにサポートされた場合、下界が正であることを証明する。 この証明は、ニューラルネットワークのリッジレット解析と調和解析に基づいて、パラメータ分布の切り裂かれた尾に対するプランシェレルの定理と推定値を用いる。 様々なシミュレーション研究で理論的結果が一致し、一般的に2つの主なメッセージが提供されます。 (i)ランダムな重みを選択するための分布は、普遍的近似器を構築することができない。 (ii) 乱重みの適切な割り当ては存在するが、ある程度は対象関数の複雑さと関連している。

A random net is a shallow neural network where the hidden layer is frozen with random assignment and the output layer is trained by convex optimization. Using random weights for a hidden layer is an effective method to avoid the inevitable non-convexity in standard gradient descent learning. It has recently been adopted in the study of deep learning theory. Here, we investigate the expressive power of random nets. We show that, despite the well-known fact that a shallow neural network is a universal approximator, a random net cannot achieve zero approximation error even for smooth functions. In particular, we prove that for a class of smooth functions, if the proposal distribution is compactly supported, then a lower bound is positive. Based on the ridgelet analysis and harmonic analysis for neural networks, the proof uses the Plancherel theorem and an estimate for the truncated tail of the parameter distribution. We corroborate our theoretical results with various simulation studies, and generally two main take-home messages are offered: (i) Not any distribution for selecting random weights is feasible to build a universal approximator; (ii) A suitable assignment of random weights exists but to some degree is associated with the complexity of the target function.
翻訳日:2022-10-27 08:50:48 公開日:2020-08-19
# NASCaps: 畳み込みカプセルネットワークの正確性とハードウェア効率を最適化するニューラルネットワーク検索フレームワーク

NASCaps: A Framework for Neural Architecture Search to Optimize the Accuracy and Hardware Efficiency of Convolutional Capsule Networks ( http://arxiv.org/abs/2008.08476v1 )

ライセンス: Link先を確認
Alberto Marchisio, Andrea Massa, Vojtech Mrazek, Beatrice Bussolino, Maurizio Martina, Muhammad Shafique(参考訳) Deep Neural Networks(DNN)は、幅広い機械学習(ML)アプリケーションで使用されるために望ましい精度に到達するために、大幅に改善されている。 最近Google Brainのチームは、カプセルネットワーク(Capsule Networks, CapsNets)を使って、異なる入力特徴間の空間的相関を符号化し学習し、従来の(非カプセルベース)DNNと比較して優れた学習能力を得ることができることを示した。 しかし、従来の手法によるcapsnetの設計は退屈な作業であり、大きなトレーニング努力を要している。 近年の研究では、与えられたアプリケーションとトレーニングデータセットに対して最適なDNNモデル構成を自動的に選択する強力な手法が、ニューラルネットワーク探索(NAS)アルゴリズムに基づいていることが示されている。 さらに、その極端な計算とメモリ要件のため、DNNはIoT-Edge/CPSデバイスに特別なハードウェアアクセラレータを使用する。 本稿では,従来の畳み込みDNNとCapsNetの両方をカバーする,異なるタイプのDNNのハードウェア対応NASの自動フレームワークであるNASCapsを提案する。 本稿では,多目的遺伝的アルゴリズム(NSGA-IIアルゴリズム)の展開の有効性について検討する。 提案フレームワークは、DNN推論を実行するハードウェアアクセラレーションのエネルギ、メモリ、レイテンシの観点から、ネットワークの精度とそれに対応するハードウェア効率を協調的に最適化することができる。 従来のDNNレイヤのサポートに加えて、当社のフレームワークはNASフローの特別なカプセルレイヤと動的ルーティングをモデル化し、サポートする最初のフレームワークです。 我々は、異なるデータセット上でフレームワークを評価し、異なるネットワーク構成を生成し、異なる出力メトリクス間のトレードオフを示す。 我々はpareto-optimal architecturesの完全なフレームワークと構成をhttps://github.com/ehw-fit/nascapsでオープンソース化する。

Deep Neural Networks (DNNs) have made significant improvements to reach the desired accuracy to be employed in a wide variety of Machine Learning (ML) applications. Recently the Google Brain's team demonstrated the ability of Capsule Networks (CapsNets) to encode and learn spatial correlations between different input features, thereby obtaining superior learning capabilities compared to traditional (i.e., non-capsule based) DNNs. However, designing CapsNets using conventional methods is a tedious job and incurs significant training effort. Recent studies have shown that powerful methods to automatically select the best/optimal DNN model configuration for a given set of applications and a training dataset are based on the Neural Architecture Search (NAS) algorithms. Moreover, due to their extreme computational and memory requirements, DNNs are employed using the specialized hardware accelerators in IoT-Edge/CPS devices. In this paper, we propose NASCaps, an automated framework for the hardware-aware NAS of different types of DNNs, covering both traditional convolutional DNNs and CapsNets. We study the efficacy of deploying a multi-objective Genetic Algorithm (e.g., based on the NSGA-II algorithm). The proposed framework can jointly optimize the network accuracy and the corresponding hardware efficiency, expressed in terms of energy, memory, and latency of a given hardware accelerator executing the DNN inference. Besides supporting the traditional DNN layers, our framework is the first to model and supports the specialized capsule layers and dynamic routing in the NAS-flow. We evaluate our framework on different datasets, generating different network configurations, and demonstrate the tradeoffs between the different output metrics. We will open-source the complete framework and configurations of the Pareto-optimal architectures at https://github.com/ehw-fit/nascaps.
翻訳日:2022-10-27 08:50:29 公開日:2020-08-19
# 長期短期記憶ニューラルネットを用いた需要予測

Demand Forecasting using Long Short-Term Memory Neural Networks ( http://arxiv.org/abs/2008.08522v1 )

ライセンス: Link先を確認
Marta Go{\l}\k{a}bek, Robin Senge, and Rainer Neumann(参考訳) 本稿では,e-grocery 小売業における需要予測に長期記憶ニューラルネットワーク(LSTM)がどの程度適しているかを検討する。 この目的のために、マスターズ論文の文脈において、無変量および多変量lstmベースのモデルが開発され、100個の高速移動消費者製品に対してテストされた。 平均すると, 食品製品に対する評価は, 統計学と機械学習の両ファミリーの比較モデルよりも良好であった。 飲料の無作為な森林面積と線形回帰は, わずかに良好な結果を得た。 この結果から,LSTMは製品レベルでの需要予測に有効であることが示唆された。 ここで提示されるモデルの性能は現在の研究状況を超えており、残念ながら今日まで公開されていないデータセットに基づく評価から見ることができる。

In this paper we investigate to what extent long short-term memory neural networks (LSTMs) are suitable for demand forecasting in the e-grocery retail sector. For this purpose, univariate as well as multivariate LSTM-based models were developed and tested for 100 fast-moving consumer goods in the context of a master's thesis. On average, the developed models showed better results for food products than the comparative models from both statistical and machine learning families. Solely in the area of beverages random forest and linear regression achieved slightly better results. This outcome suggests that LSTMs can be used for demand forecasting at product level. The performance of the models presented here goes beyond the current state of research, as can be seen from the evaluations based on a data set that unfortunately has not been publicly available to date.
翻訳日:2022-10-27 08:49:47 公開日:2020-08-19
# 非パラメトリック回帰モデルによる医療保険報酬の時差推定

Estimating the time-lapse between medical insurance reimbursement with non-parametric regression models ( http://arxiv.org/abs/2008.08624v1 )

ライセンス: Link先を確認
Mary Akinyemi, Chika Yinka-Banjo, Ogban-Asuquo Ugot, Akwarandu Ugo Nwachuku(参考訳) 非パラメトリック教師付き学習アルゴリズムは、学習パラメータが高度に柔軟で、その値がトレーニングデータのサイズに直接依存する教師付き学習アルゴリズムの簡潔クラスを表す。 本稿では, 4つの非パラメトリックアルゴリズム, K-Nearest Neighbours (KNNs), Support Vector Machines (SVMs), Decision Tree, Random Forestsの特性について比較検討する。 教師付き学習課題は、医療保険返済の時間経過の回帰推定である。 本研究は,非パラメトリック回帰モデルがトレーニングデータにどの程度適合するかを正確に検討する。 R-二乗計量を用いて適合の良さを定量化する。 その結果、トレーニングデータのサイズ、特徴空間次元、ハイパーパラメータ最適化の影響に焦点を当てた結果が得られた。

Non-parametric supervised learning algorithms represent a succinct class of supervised learning algorithms where the learning parameters are highly flexible and whose values are directly dependent on the size of the training data. In this paper, we comparatively study the properties of four nonparametric algorithms, K-Nearest Neighbours (KNNs), Support Vector Machines (SVMs), Decision trees and Random forests. The supervised learning task is a regression estimate of the time-lapse in medical insurance reimbursement. Our study is concerned precisely with how well each of the nonparametric regression models fits the training data. We quantify the goodness of fit using the R-squared metric. The results are presented with a focus on the effect of the size of the training data, the feature space dimension and hyperparameter optimization.
翻訳日:2022-10-27 08:49:14 公開日:2020-08-19
# Top2Vec: トピックの分散表現

Top2Vec: Distributed Representations of Topics ( http://arxiv.org/abs/2008.09470v1 )

ライセンス: Link先を確認
Dimo Angelov(参考訳) トピックモデリングは、ドキュメントの大規模なコレクションにおいて、通常トピックと呼ばれる潜在意味構造を発見するために使用される。 最も広く使われている方法は、潜在ディリクレ割当と確率的潜在意味分析である。 人気にもかかわらず、いくつかの弱点がある。 最適な結果を得るためには、しばしば既知のトピックの数、カスタムのストップワードリスト、スリーミング、補題化が必要となる。 さらに、これらの手法は、単語の順序や意味を無視する文書のバガオブワード表現に依存している。 文書や単語の分散表現は、単語や文書のセマンティクスをキャプチャする能力によって人気を博している。 これはjoint documentとword semantic embeddedを利用して$\textit{topic vectors}$を見つける。 このモデルは、ストーミングや補題化などの停止語リストを必要とせず、自動的にトピックの数を見つける。 得られた話題ベクトルは、意味的類似性を表す文書と単語ベクトルとを結合して埋め込む。 実験の結果, 確率的生成モデルよりも, 学習したコーパスのより情報的, 代表的なトピックを$\texttt{top2vec}$で見つけることができた。

Topic modeling is used for discovering latent semantic structure, usually referred to as topics, in a large collection of documents. The most widely used methods are Latent Dirichlet Allocation and Probabilistic Latent Semantic Analysis. Despite their popularity they have several weaknesses. In order to achieve optimal results they often require the number of topics to be known, custom stop-word lists, stemming, and lemmatization. Additionally these methods rely on bag-of-words representation of documents which ignore the ordering and semantics of words. Distributed representations of documents and words have gained popularity due to their ability to capture semantics of words and documents. We present $\texttt{top2vec}$, which leverages joint document and word semantic embedding to find $\textit{topic vectors}$. This model does not require stop-word lists, stemming or lemmatization, and it automatically finds the number of topics. The resulting topic vectors are jointly embedded with the document and word vectors with distance between them representing semantic similarity. Our experiments demonstrate that $\texttt{top2vec}$ finds topics which are significantly more informative and representative of the corpus trained on than probabilistic generative models.
翻訳日:2022-10-27 08:42:21 公開日:2020-08-19
# HeteGCN:テキスト分類のための不均一グラフ畳み込みネットワーク

HeteGCN: Heterogeneous Graph Convolutional Networks for Text Classification ( http://arxiv.org/abs/2008.12842v1 )

ライセンス: Link先を確認
Rahul Ragesh, Sundararajan Sellamanickam, Arun Iyer, Ram Bairi, Vijay Lingam(参考訳) テキスト分類における効率性および帰納的グラフ畳み込みネットワークの課題について,多くの例と特徴を用いて考察する。 予測テキスト埋め込み(PTE)やTextGCNのような既存の最先端グラフ埋め込み方式は、予測性能、スケーラビリティ、インダクティブ能力の面で欠点がある。 これらの制約に対処するために、PTEとTextGCNの最良の側面を統一するヘテロジニアスグラフ畳み込みネットワーク(HeteGCN)モデリング手法を提案する。 主なアイデアは、機能埋め込みを学び、レイヤ間で異なるグラフを使用したHeteGCNアーキテクチャを使ってドキュメント埋め込みを導出することである。 テキストGCNを複数のHeteGCNモデルに分割することで単純化する。 (a)個々のモデルの有用性を研究するのに役立ち、 (b)異なるモデルから学習した埋め込みを活用できる柔軟性を提供する。 結果として、モデルパラメータの数は大幅に削減され、小さなラベル付きトレーニングセットシナリオにおいて、より高速なトレーニングとパフォーマンス向上が可能になる。 本研究は,提案手法の有効性を実証するものである。

We consider the problem of learning efficient and inductive graph convolutional networks for text classification with a large number of examples and features. Existing state-of-the-art graph embedding based methods such as predictive text embedding (PTE) and TextGCN have shortcomings in terms of predictive performance, scalability and inductive capability. To address these limitations, we propose a heterogeneous graph convolutional network (HeteGCN) modeling approach that unites the best aspects of PTE and TextGCN together. The main idea is to learn feature embeddings and derive document embeddings using a HeteGCN architecture with different graphs used across layers. We simplify TextGCN by dissecting into several HeteGCN models which (a) helps to study the usefulness of individual models and (b) offers flexibility in fusing learned embeddings from different models. In effect, the number of model parameters is reduced significantly, enabling faster training and improving performance in small labeled training set scenario. Our detailed experimental studies demonstrate the efficacy of the proposed approach.
翻訳日:2022-10-27 08:42:01 公開日:2020-08-19
# コアセットによるニューラルネットワークの非依存構造解析

Data-Independent Structured Pruning of Neural Networks via Coresets ( http://arxiv.org/abs/2008.08316v1 )

ライセンス: Link先を確認
Ben Mussay, Daniel Feldman, Samson Zhou, Vladimir Braverman, Margarita Osadchy(参考訳) モデル圧縮は、計算資源とメモリ資源が限られているデバイスにニューラルネットワークを配置するために重要である。 多くの異なる方法が圧縮モデルと類似の圧縮速度の同等の精度を示している。 しかし、ほとんどの圧縮方法はヒューリスティックスに基づいており、任意に新しいサンプルの圧縮率と近似誤差とのトレードオフに関する最悪の保証を提供していない。 本稿では, 圧縮率と将来の試験試料の近似誤差とのトレードオフが証明可能な最初の効率的な構造化プルーニングアルゴリズムを提案する。 本手法はcoresetフレームワークに基づき,前層におけるニューロン/フィルタのコアセットによるニューロン/フィルタ層の出力を近似し,残りを破棄する。 このフレームワークは、下層から上層まで、レイヤ毎の方法で適用します。 これまでの研究とは異なり、コアセットはデータ独立であり、すなわち、逆数を含む任意の入力$x\in \mathbb{R}^d$に対して関数の精度を確実に保証する。

Model compression is crucial for deployment of neural networks on devices with limited computational and memory resources. Many different methods show comparable accuracy of the compressed model and similar compression rates. However, the majority of the compression methods are based on heuristics and offer no worst-case guarantees on the trade-off between the compression rate and the approximation error for an arbitrarily new sample. We propose the first efficient structured pruning algorithm with a provable trade-off between its compression rate and the approximation error for any future test sample. Our method is based on the coreset framework and it approximates the output of a layer of neurons/filters by a coreset of neurons/filters in the previous layer and discards the rest. We apply this framework in a layer-by-layer fashion from the bottom to the top. Unlike previous works, our coreset is data independent, meaning that it provably guarantees the accuracy of the function for any input $x\in \mathbb{R}^d$, including an adversarial one.
翻訳日:2022-10-27 08:41:44 公開日:2020-08-19
# 惑星間ミッションの低推力軌道設計のための強化学習

Reinforcement Learning for Low-Thrust Trajectory Design of Interplanetary Missions ( http://arxiv.org/abs/2008.08501v1 )

ライセンス: Link先を確認
Alessandro Zavoli and Lorenzo Federici(参考訳) 本稿では,低推力な惑星間軌道の頑健な設計にReinforcement Learningを用い,ガウス加法プロセスノイズ,観測ノイズ,スラストの大きさと方向の制御動作誤差,さらには複数回のスラストイベントをモデル化した。 最適制御問題は時間離散マルコフ決定過程として再キャストされ、強化学習の標準定式化に適合する。 最先端のアルゴリズムであるプロキシポリシー最適化のオープンソース実装が採用され、(観測された)宇宙船状態を最適制御ポリシーにマッピングするために使用されるディープニューラルネットワークのトレーニングプロセスを実行する。 その結果得られた誘導制御ネットワークは、堅牢な名目軌道と関連する閉ループ誘導法の両方を提供する。 典型的な地球-火星ミッションでは数値的な結果が示される。 まず,提案手法を検証するために,(決定論的)非摂動シナリオにおける解を間接的手法による最適解と比較する。 得られた閉ループ誘導法則のロバスト性と最適性は,不確実性を考慮したモンテカルロのキャンペーンによって評価される。 これらの予備的な結果は、惑星間ミッションの堅牢な設計に強化学習を使用するための新しい地平を開く。

This paper investigates the use of Reinforcement Learning for the robust design of low-thrust interplanetary trajectories in presence of severe disturbances, modeled alternatively as Gaussian additive process noise, observation noise, control actuation errors on thrust magnitude and direction, and possibly multiple missed thrust events. The optimal control problem is recast as a time-discrete Markov Decision Process to comply with the standard formulation of reinforcement learning. An open-source implementation of the state-of-the-art algorithm Proximal Policy Optimization is adopted to carry out the training process of a deep neural network, used to map the spacecraft (observed) states to the optimal control policy. The resulting Guidance and Control Network provides both a robust nominal trajectory and the associated closed-loop guidance law. Numerical results are presented for a typical Earth-Mars mission. First, in order to validate the proposed approach, the solution found in a (deterministic) unperturbed scenario is compared with the optimal one provided by an indirect technique. Then, the robustness and optimality of the obtained closed-loop guidance laws is assessed by means of Monte Carlo campaigns performed in the considered uncertain scenarios. These preliminary results open up new horizons for the use of reinforcement learning in the robust design of interplanetary missions.
翻訳日:2022-10-27 08:41:27 公開日:2020-08-19
# 混成学習と目標ラベル学習によるニューラルネットワークロバストネスの対応

Addressing Neural Network Robustness with Mixup and Targeted Labeling Adversarial Training ( http://arxiv.org/abs/2008.08384v1 )

ライセンス: Link先を確認
Alfred Laugros, Alice Caplier, Matthieu Ospici(参考訳) その性能にもかかわらず、Artificial Neural Networksは、ほとんどの産業アプリケーションに十分な信頼性を持っていない。 ノイズ、回転、ぼやけ、敵対的な例に敏感である。 幅広い摂動に対して防御を構築する必要があり、最も伝統的な一般的な汚職や敵対的な例をカバーしている。 本稿では,M-TLATと呼ばれる新しいデータ拡張戦略を提案する。 提案手法は,Mixup拡張と,Targeted Labeling Adversarial Training (TLAT)と呼ばれる新たな逆トレーニングアルゴリズムを組み合わせたものである。 TLATの考え方は、敵のサンプルのターゲットラベルと接地トラスラベルを補間することである。 M-TLATは、画像分類器の堅牢性を19の共通汚職と5つの敵攻撃に対して向上させ、クリーンサンプルの精度を低下させることなく得ることを示した。

Despite their performance, Artificial Neural Networks are not reliable enough for most of industrial applications. They are sensitive to noises, rotations, blurs and adversarial examples. There is a need to build defenses that protect against a wide range of perturbations, covering the most traditional common corruptions and adversarial examples. We propose a new data augmentation strategy called M-TLAT and designed to address robustness in a broad sense. Our approach combines the Mixup augmentation and a new adversarial training algorithm called Targeted Labeling Adversarial Training (TLAT). The idea of TLAT is to interpolate the target labels of adversarial examples with the ground-truth labels. We show that M-TLAT can increase the robustness of image classifiers towards nineteen common corruptions and five adversarial attacks, without reducing the accuracy on clean samples.
翻訳日:2022-10-27 08:41:09 公開日:2020-08-19
# 距離メトリック誘導特徴アライメントによる教師なしクロスドメイン画像分類

Unsupervised Cross-domain Image Classification by Distance Metric Guided Feature Alignment ( http://arxiv.org/abs/2008.08433v1 )

ライセンス: Link先を確認
Qingjie Meng and Daniel Rueckert and Bernhard Kainz(参考訳) 異なるドメインにまたがって一般化可能なディープニューラルネットワークの学習は、ドメインシフトの問題のために依然として課題である。 教師なしドメイン適応は、ソースドメインからターゲットドメインへの知識を、ターゲットドメインのラベルを使わずに転送する有望な道である。 現代の技術は、ドメインの敵対的訓練を用いて、ドメイン不変の特徴を抽出することに焦点を当てている。 しかし、これらの手法は対象領域の潜在表現空間における判別クラス境界を学習することを怠り、適応性能が制限される。 この問題に対処するため,我々は,ソース領域とターゲット領域の両方における識別的特徴とドメイン不変特徴を抽出するための距離メトリック誘導特徴アライメント(metfa)を提案する。 提案手法は, ドメイン逆学習を使わずに, 潜在表現を明示的に直接学習する。 我々のモデルは、クラス分布アライメントを統合し、ソースドメインからターゲットドメインにセマンティック知識を転送します。 デバイス間画像分類のための胎児超音波データセットの評価を行った。 実験の結果,提案手法は最先端技術よりも優れており,モデル一般化が可能となった。

Learning deep neural networks that are generalizable across different domains remains a challenge due to the problem of domain shift. Unsupervised domain adaptation is a promising avenue which transfers knowledge from a source domain to a target domain without using any labels in the target domain. Contemporary techniques focus on extracting domain-invariant features using domain adversarial training. However, these techniques neglect to learn discriminative class boundaries in the latent representation space on a target domain and yield limited adaptation performance. To address this problem, we propose distance metric guided feature alignment (MetFA) to extract discriminative as well as domain-invariant features on both source and target domains. The proposed MetFA method explicitly and directly learns the latent representation without using domain adversarial training. Our model integrates class distribution alignment to transfer semantic knowledge from a source domain to a target domain. We evaluate the proposed method on fetal ultrasound datasets for cross-device image classification. Experimental results demonstrate that the proposed method outperforms the state-of-the-art and enables model generalization.
翻訳日:2022-10-27 08:40:54 公開日:2020-08-19
# 履歴対話データを活用した会話推薦システムの改善

Leveraging Historical Interaction Data for Improving Conversational Recommender System ( http://arxiv.org/abs/2008.08247v1 )

ライセンス: Link先を確認
Kun Zhou, Wayne Xin Zhao, Hui Wang, Sirui Wang, Fuzheng Zhang, Zhongyuan Wang and Ji-Rong Wen(参考訳) 近年,会話レコメンデーションシステム(CRS)が,新たな,実践的な研究課題となっている。 既存のcrs手法のほとんどは、会話データのみからユーザの効果的な選好表現を学習することに焦点を当てている。 一方,CRSの改善に歴史的なインタラクションデータを活用するために,新たな視点を採っている。 そこで本研究では,アイテムベースの嗜好シーケンス(履歴対話データから)と属性ベースの選好シーケンス(会話データから)を事前学習手法で統合する,新しい事前学習手法を提案する。 我々は2つの事前学習タスクを慎重に設計し、アイテムと属性に基づく嗜好間の情報融合を強化する。 学習性能を向上させるため,高品質な負のサンプルを生成できる効果的な負のサンプル生成装置を開発した。 実世界の2つのデータセットにおける実験結果から,crs改善へのアプローチの有効性が示された。

Recently, conversational recommender system (CRS) has become an emerging and practical research topic. Most of the existing CRS methods focus on learning effective preference representations for users from conversation data alone. While, we take a new perspective to leverage historical interaction data for improving CRS. For this purpose, we propose a novel pre-training approach to integrating both item-based preference sequence (from historical interaction data) and attribute-based preference sequence (from conversation data) via pre-training methods. We carefully design two pre-training tasks to enhance information fusion between item- and attribute-based preference. To improve the learning performance, we further develop an effective negative sample generator which can produce high-quality negative samples. Experiment results on two real-world datasets have demonstrated the effectiveness of our approach for improving CRS.
翻訳日:2022-10-27 08:40:07 公開日:2020-08-19
# 信頼性工学と安全アプリケーションのための機械学習:現状と今後の展望

Machine Learning for Reliability Engineering and Safety Applications: Review of Current Status and Future Opportunities ( http://arxiv.org/abs/2008.08221v1 )

ライセンス: Link先を確認
Zhaoyi Xu, Joseph Homer Saleh(参考訳) 機械学習(ml)は、多くの学術分野や産業にまたがっている。 その影響は深く、いくつかの分野は、例えば自律性とコンピュータビジョンによって根本的に変更されている。 mlには、信頼性と安全性のアプリケーションのための、大きくて断片化された文献がすでに存在しており、コヒーレントな全体へのナビゲートと統合は圧倒的です。 本研究では,この解析的景観の合成とロードマップを提供し,その主要なランドマークと経路を強調することで,この課題を促進させる。 まず、さまざまなmlカテゴリとサブカテゴリやタスクの概要を説明し、対応するモデルやアルゴリズムをいくつか紹介する。 次に、信頼性と安全性のアプリケーションにおけるMLの使用を振り返り、レビューします。 カテゴリ/サブカテゴリごとにいくつかの出版物を調査し,その人気と特徴的優位性を強調する深層学習の利用に関する簡単な議論を含む。 最後に,信頼性と安全性を向上する上で,MLを活用した将来有望ないくつかの機会について概説する。 全体として、mlは信頼性と安全性のアプリケーションにおいて重要な課題を解決するための新しい洞察と機会を提供することができると主張している。 また、従来の分析ツールよりも事故データセットからより正確な洞察を得ることができ、その結果、より情報に富んだ意思決定とより効果的な事故防止につながる可能性がある。

Machine learning (ML) pervades an increasing number of academic disciplines and industries. Its impact is profound, and several fields have been fundamentally altered by it, autonomy and computer vision for example; reliability engineering and safety will undoubtedly follow suit. There is already a large but fragmented literature on ML for reliability and safety applications, and it can be overwhelming to navigate and integrate into a coherent whole. In this work, we facilitate this task by providing a synthesis of, and a roadmap to this ever-expanding analytical landscape and highlighting its major landmarks and pathways. We first provide an overview of the different ML categories and sub-categories or tasks, and we note several of the corresponding models and algorithms. We then look back and review the use of ML in reliability and safety applications. We examine several publications in each category/sub-category, and we include a short discussion on the use of Deep Learning to highlight its growing popularity and distinctive advantages. Finally, we look ahead and outline several promising future opportunities for leveraging ML in service of advancing reliability and safety considerations. Overall, we argue that ML is capable of providing novel insights and opportunities to solve important challenges in reliability and safety applications. It is also capable of teasing out more accurate insights from accident datasets than with traditional analysis tools, and this in turn can lead to better informed decision-making and more effective accident prevention.
翻訳日:2022-10-27 08:39:53 公開日:2020-08-19