このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20201130となっている論文です。

PDF登録状況(公開日: 20201130)

TitleAuthorsAbstract論文公表日・翻訳日
# 量子コンピュータ上の高齢者ゼロ空間における量子化学のシミュレーション

Simulating quantum chemistry in the seniority-zero space on qubit-based quantum computers ( http://arxiv.org/abs/2002.00035v2 )

ライセンス: Link先を確認
Vincent E. Elfving, Marta Millaruelo, Jos\'e A. G\'amez, Christian Gogolin(参考訳) 正確な量子化学シミュレーションは、工業的に関連する大きさの問題に対して古典的コンピュータでは依然として挑戦的であり、量子コンピューティングが技術的に実現可能なものの限界を押し上げるのに役立つと期待されている。 変分量子固有解法(VQE)アルゴリズムは、既にノイズの多い中間スケール量子(NISQ)デバイスを有用なマシンに変えることができるが、希少な量子資源をできるだけ効率的に利用するためには、あらゆる努力が必要である。 ゲートベースの量子コンピュータ上で分子化学をシミュレーションする手法と、計算量子化学の近似を組み合わせ、非常に資源効率のよい量子シミュレーションアルゴリズムを得る。 いくつかの精度は対電子近似によって失われるが、基底集合を増加させるために解放された量子資源を使用することにより、より正確な結果と必要な数の量子コンピューティングの実行数を数桁削減することができる。 また,与えられたハミルトニアン形式を考慮した場合の魅力的なスケーリングを示すポストセレクションに基づく誤り軽減スキームについても検討し,nisq実装の実現可能性を高めた。

Accurate quantum chemistry simulations remain challenging on classical computers for problems of industrially relevant sizes and there is reason for hope that quantum computing may help push the boundaries of what is technically feasible. While variational quantum eigensolver (VQE) algorithms may already turn noisy intermediate scale quantum (NISQ) devices into useful machines, one has to make all efforts to use the scarce quantum resources as efficiently as possible. We combine the so-called seniority-zero, or paired-electron, approximation of computational quantum chemistry with techniques for simulating molecular chemistry on gate-based quantum computers and obtain a very resource efficient quantum simulation algorithm. While some accuracy is lost through the paired-electron approximation, we show that using the freed-up quantum resources for increasing the basis set can lead to more accurate results and reductions in the necessary number of quantum computing runs by several orders of magnitude, already for a simple system like lithium hydride. We also discuss an error mitigation scheme based on post-selection which shows an attractive scaling when the given Hamiltonian format is considered, increasing the viability of its NISQ implementation.
翻訳日:2023-06-05 02:29:03 公開日:2020-11-30
# ヘッジとイジングモデルの学習のための量子アルゴリズム

Quantum algorithms for hedging and the learning of Ising models ( http://arxiv.org/abs/2002.06003v2 )

ライセンス: Link先を確認
Patrick Rebentrost, Yassine Hamoudi, Maharshi Ray, Xin Wang, Siyi Yang, Miklos Santha(参考訳) オンライン学習のためのパラダイムアルゴリズムは、FreundとSchapireのHedgeアルゴリズムである。 異なる戦略への割り当てが複数のラウンドに選択され、各ラウンドは各戦略に対応する損失を負う。 このアルゴリズムは、敵対的状況であっても、総損失に対する良好な保証を得る。 本稿では,このようなオンライン学習のための量子アルゴリズムをオラキュラ環境で提示する。 T$の時間ステップと$N$の戦略に対して、損失を推定し、サンプリングによって個々の戦略に賭けるためにおよそ$O \left ({\rm poly} (T) \sqrt{N} \right)$の実行時間を示す。 さらに,Hedgeアルゴリズムに基づく機械学習アルゴリズムであるSparsitronの量子アナログについても論じる。 量子アルゴリズムは古典的アルゴリズムから証明可能な学習保証を継承し、多項式スピードアップを示す。 このスピードアップは、例えばヘッジリスクや機械学習、例えば一般化された線形モデルやイジングモデルなどの金融の関連性を見出すことができる。

A paradigmatic algorithm for online learning is the Hedge algorithm by Freund and Schapire. An allocation into different strategies is chosen for multiple rounds and each round incurs corresponding losses for each strategy. The algorithm obtains a favorable guarantee for the total losses even in an adversarial situation. This work presents quantum algorithms for such online learning in an oracular setting. For $T$ time steps and $N$ strategies, we exhibit run times of about $O \left ({\rm poly} (T) \sqrt{N} \right)$ for estimating the losses and for betting on individual strategies by sampling. In addition, we discuss a quantum analogue of the Sparsitron, a machine learning algorithm based on the Hedge algorithm. The quantum algorithm inherits the provable learning guarantees from the classical algorithm and exhibits polynomial speedups. The speedups may find relevance in finance, for example for hedging risks, and machine learning, for example for learning generalized linear models or Ising models.
翻訳日:2023-06-03 17:05:41 公開日:2020-11-30
# 損失量子ビットアレイにおける長距離コヒーレンスと多重定常状態

Long-Range Coherence and Multiple Steady States in a Lossy Qubit Array ( http://arxiv.org/abs/2004.07981v2 )

ライセンス: Link先を確認
Shovan Dutta and Nigel R. Cooper(参考訳) 局所ポンピングと損失の大きい2レベル量子システムの単純な実験により、強い長距離コヒーレンスを持つ状態が安定化できることを示した。 実際、明示的な解析的構成により、相互作用する多体問題であるにもかかわらず、極小から極小に絡み合った定常密度作用素の広範な集合が存在することを示す。 このような非平衡定常状態は、ベル対を任意に長い距離で安定させる隠れ対称性から生じ、ユニークな実験的シグネチャを持つ。 我々は,これらの状態が消散によって選択的に準備できるプロトコルを示す。 私たちの発見は、今日の実験で利用できます。

We show that a simple experimental setting of a locally pumped and lossy array of two-level quantum systems can stabilize states with strong long-range coherence. Indeed, by explicit analytic construction, we show there is an extensive set of steady-state density operators, from minimally to maximally entangled, despite this being an interacting open many-body problem. Such nonequilibrium steady states arise from a hidden symmetry that stabilizes Bell pairs over arbitrarily long distances, with unique experimental signatures. We demonstrate a protocol by which one can selectively prepare these states using dissipation. Our findings are accessible in present-day experiments.
翻訳日:2023-05-23 06:30:04 公開日:2020-11-30
# 電磁誘導透過性に基づく超伝導共振器の可変・弱侵襲探傷

Tuneable and weakly-invasive probing of a superconducting resonator based onelectromagnetically induced transparency ( http://arxiv.org/abs/2005.01975v4 )

ライセンス: Link先を確認
Byoung-moo Ann, Gary A. Steele(参考訳) 高品質の超伝導キャビティは、回路量子力学や量子コンピューティングにおいて重要な役割を果たす。 高周波モードの内在的損失率の測定において、結果として得られる信号が十分に強くなるように、測定回路との適切な結合を設計することは困難であるが、この結合が内在的内部損失率を隠蔽して不要な負荷回路に繋がることはない。 本稿では,弱分散結合系における共振器と量子ビット間の電磁誘起透過(eit)現象に基づく高q共振器の分光プローブの提案と実証を行う。 キュービットにサイドバンド駆動信号を適用することで、キュービット分光法において、キュービットプローブ信号とサイドバンド遷移の間の量子干渉から、EITに由来する干渉ディップを観測する。 ディップの幅と深さから、分析モデルから共振器の単光子線幅を抽出することができる。 量子ビットが共振器よりも大きな線幅を持つ従来未検討の状態での動作は、高いコヒーレンス量子ビットを作る技術的課題を低減し、共振器との結合の弱い侵襲的限界に残るのに有利である。 さらに、共振器とキュービット間のサイドバンドと分散結合は、サイドバンド駆動パワーの強度を制御する$in~situ$と調整することができる。 この$in-situ$チューナビリティにより、この技術は、固定された上限未満の品質係数に対する共振器損失率の効率的な測定に、デバイスに10^8$の順番で適用することができ、単一の設計で幅広い品質因子を探索することができる。

Superconducting cavities with high quality factors play an essential role in circuit quantum electrodynamics and quantum computing. In measurements of the the intrinsic loss rates of high frequency modes, it can be challenging to design an appropriate coupling to the measurement circuit in such a way that the resulting signal is sufficiently strong but also that this coupling does not lead to unwanted loading circuit, obscuring the intrinsic internal loss rates. Here, we propose and demonstrate a spectroscopic probe of high-Q resonators based on the phenomena of electromagnetically-induced transparency (EIT) between the resonator and qubit in the weak dispersive coupling regime. Applying a sideband drive signal to the qubit, we observe an interference dip originated from EIT in the qubit spectroscopy, originating from the quantum interference between the qubit probe signal and sideband transition. From the width and the depth of the dip, we are able to extract the single-photon linewidth of the resonator from an analytical model. Working in a previously unexplored regime in which the qubit has a larger linewidth than the resonator reduces the technical challenge of making a high-coherence qubit and is advantageous for remaining in the weakly-invasive limit of coupling to the resonator. Furthermore, the sideband and the dispersive coupling between the resonator and the qubit can be tuned $in~situ$ controlling the strength of the sideband drive power. This $in-situ$ tuneability allows the technique to be applied for efficient measurement of the resonator loss rate for any quality factor below a fixed upper bound, on the order of $10^8$ for our device, allowing a wide range of quality factors to probed using a single design.
翻訳日:2023-05-21 03:08:46 公開日:2020-11-30
# マルコフ系における可逆性の幾何学的境界

Geometrical Bounds of the Irreversibility in Markovian Systems ( http://arxiv.org/abs/2005.02871v3 )

ライセンス: Link先を確認
Tan Van Vu and Yoshihiko Hasegawa(参考訳) 詳細バランス条件を満たす量子的および古典的マルコフ開系の可逆性に関する幾何学的境界を導出する。 情報幾何を用いて、可逆エントロピー生成は初期状態と最終状態の間の修正されたワッサーシュタイン距離によって下から境界づけられることを証明し、可逆-マルコフの場合のクラウシウス不等式を強化する。 修正された計量は、連続状態ランジュバン系の束縛散逸(bounded dissipation)に用いられるワッサーシュタイン計量の離散状態一般化と見なすことができる。 特に、導出された境界は量子および古典的速度限界として解釈でき、関連するエントロピー生成は系状態の変換の最小時間を制限することを意味する。 本稿では,いくつかの系での結果を説明し,量子熱エンジンの効率性を示すカルノバウンドよりも狭いバウンドが得られることを示す。

We derive geometrical bounds on the irreversibility in both quantum and classical Markovian open systems that satisfy the detailed balance condition. Using information geometry, we prove that irreversible entropy production is bounded from below by a modified Wasserstein distance between the initial and final states, thus strengthening the Clausius inequality in the reversible-Markov case. The modified metric can be regarded as a discrete-state generalization of the Wasserstein metric, which has been used to bound dissipation in continuous-state Langevin systems. Notably, the derived bounds can be interpreted as the quantum and classical speed limits, implying that the associated entropy production constrains the minimum time of transforming a system state. We illustrate the results on several systems and show that a tighter bound than the Carnot bound for the efficiency of quantum heat engines can be obtained.
翻訳日:2023-05-21 00:37:10 公開日:2020-11-30
# 量子相関エントロピー

Quantum correlation entropy ( http://arxiv.org/abs/2005.05408v3 )

ライセンス: Link先を確認
Joseph Schindler, Dominik \v{S}afr\'anek, Anthony Aguirre(参考訳) 量子粗粒エントロピーを研究し,局所粗粒界と大域粗粒界のエントロピー差は混合状態と多成分系への絡み合いエントロピーの自然な一般化であることを示した。 この量子相関エントロピー (quantum correlation entropy) $s^{\rm qc}$ は独立系に加法的であり、局所ユニタリ操作の下で不変であり、全非古典的相関(厳密には古典的相関を持つ状態に依存する)を測定し、二成分純粋状態の絡み合いエントロピーに還元する。 局所的な測定によって量子系がいかにうまく理解できるかを定量化し、熱力学エントロピー生成の量子部分の低い境界を表すことを含む非平衡熱力学に直接関連付ける。 このエントロピーが同値である非古典的相関の他の2つの測度について議論し、これらを合わせて一意な熱力学的に区別された測度を与えると論じる。

We study quantum coarse-grained entropy and demonstrate that the gap in entropy between local and global coarse-grainings is a natural generalization of entanglement entropy to mixed states and multipartite systems. This "quantum correlation entropy" $S^{\rm QC}$ is additive over independent systems, is invariant under local unitary operations, measures total nonclassical correlations (vanishing on states with strictly classical correlation), and reduces to the entanglement entropy for bipartite pure states. It quantifies how well a quantum system can be understood via local measurements, and ties directly to non-equilibrium thermodynamics, including representing a lower bound on the quantum part of thermodynamic entropy production. We discuss two other measures of nonclassical correlation to which this entropy is equivalent, and argue that together they provide a unique thermodynamically distinguished measure.
翻訳日:2023-05-20 13:53:48 公開日:2020-11-30
# トラップイオンの最適制御による非断熱型ホロノミック単一量子ゲートの実験的実現

Experimental Realization of Nonadiabatic Holonomic Single-Qubit Quantum Gates\\ with Optimal Control in a Trapped Ion ( http://arxiv.org/abs/2006.04609v2 )

ライセンス: Link先を確認
Ming-Zhong Ai, Sai Li, Zhibo Hou, Ran He, Zhong-Hua Qian, Zheng-Yuan Xue, Jin-Ming Cui, Yun-Feng Huang, Chuan-Feng Li, Guang-Can Guo(参考訳) 幾何位相によって誘導される量子ゲートを用いた量子計算は、運転騒音に対する堅牢性から、フォールトトレラント量子計算において有望な戦略とみなされる。 しかしながら、以前のスキームのパラメトリックな制限のため、ホロノミック量子ゲートの主な強固な利点は塗りつぶされている。 本稿では,共振駆動を持つ3レベルシステムに基づくybイオンを捕捉した非断熱ホロノミック単一量子ゲートの最適制御を実証し,高速進化と簡便な実装の利点をも有する解法を実験的に実証する。 従来の幾何ゲートや従来の動的ゲートと比較して、制御振幅誤差に対してより頑健であり、量子プロセストモグラフィーとランダムベンチマーク法の両方で測定されたゲート不忠実性によって確認される。 また,非自明な2量子ビットホロノミックゲートが現在の実験技術で実現可能であることも概説する。 そこで本実験は,この頑健かつ高速なホロノミック量子計算戦略の実現可能性を検証する。

Quantum computation with quantum gates induced by geometric phases is regarded as a promising strategy in fault tolerant quantum computation, due to its robustness against operational noises. However, because of the parametric restriction of previous schemes, the main robust advantage of holonomic quantum gates is smeared. Here, we experimentally demonstrate a solution scheme, demonstrating nonadiabatic holonomic single qubit quantum gates with optimal control in a trapped Yb ion based on three level systems with resonant drives, which also hold the advantages of fast evolution and convenient implementation. Compared with corresponding previous geometric gates and conventional dynamic gates, the superiority of our scheme is that it is more robust against control amplitude errors, which is confirmed by the measured gate infidelity through both quantum process tomography and random benchmarking methods. In addition, we also outline that nontrivial two qubit holonomic gates can also be realized within current experimental technologies. Therefore, our experiment validates the feasibility for this robust and fast holonomic quantum computation strategy.
翻訳日:2023-05-16 07:09:28 公開日:2020-11-30
# 多モードスクイーズ変換によるガウスクラスター状態の生成の可能性

Possibility to generate any Gaussian cluster state by a multi-mode squeezing transformation ( http://arxiv.org/abs/2007.12772v4 )

ライセンス: Link先を確認
Stefano Zippilli, David Vitali(参考訳) ガウスクラスター状態は理想的に無限に圧縮された状態である。 実際には、それらの近似バージョンのみを有限のスクイーズで構成することが可能である。 ここでは、任意のガウスクラスター状態の忠実な近似を生成する、特定のマルチモードスクイーズ変換を決定する方法を示す。

Gaussian cluster states are ideal infinitely squeezed states. In practice it is possible to construct only approximated version of them with finite squeezing. Here we show how to determine the specific multi-mode squeezing transformation, which generates a faithful approximation of any given Gaussian cluster state.
翻訳日:2023-05-08 08:20:26 公開日:2020-11-30
# 近似パリティのQAC$^0$複雑さに関する境界

Bounds on the QAC$^0$ Complexity of Approximating Parity ( http://arxiv.org/abs/2008.07470v3 )

ライセンス: Link先を確認
Gregory Rosenthal(参考訳) QAC回路は1量子ビットゲートと任意のアリティのトフォリゲートを持つ量子回路である。 QAC$^0$回路は一定の深さのQAC回路であり、AC$^0$回路の量子アナログである。 $\bullet$ For all $d \ge 7$ and $\varepsilon>0$ サイズ $\exp(\mathrm{poly}(n^{1/d}) \log(n/\varepsilon)$ の深さ-$$QAC回路が存在し、最悪の量子入力において、$n$-qubitパリティ関数を誤差$\varepsilon$ に近似する。 従来, 対数深度のQAC回路が, 大きさに関わらずパリティを近似できるか否かは分かっていなかった。 $\bullet$ 上界からの回路の主成分を含む古典的なQAC回路のクラスを導入し、この成分を近似する古典的なQAC回路である低深さのQAC回路のサイズに厳密な下界を証明します。 1/2 + \exp(-o(n/d))$パリティ近似を達成するには、少なくとも$\omega(n/d)$ multi-qubit ゲートを必要とする。 d = \Theta(\log n)$ のとき、これは計算パリティの計算上界の簡単な$O(n)$サイズとほぼ一致する。 マルチ量子ビットゲートの最大2層を持つ$\bullet$ qac回路は、パリティの1/2 + \exp(-o(n))$の近似は、非クリーンでも達成できない。 以前は、そのような回路は十分に大きな$n$のパリティを正確に計算できないことが知られていた。 この証明は、独立興味を持つ量子回路の新しい正規形を用いており、猫のy\=okaiの類似語にちなんで「ネコマタ」と命名する猫状態の特定の一般化問題への還元に基づいている。

QAC circuits are quantum circuits with one-qubit gates and Toffoli gates of arbitrary arity. QAC$^0$ circuits are QAC circuits of constant depth, and are quantum analogues of AC$^0$ circuits. We prove the following: $\bullet$ For all $d \ge 7$ and $\varepsilon>0$ there is a depth-$d$ QAC circuit of size $\exp(\mathrm{poly}(n^{1/d}) \log(n/\varepsilon))$ that approximates the $n$-qubit parity function to within error $\varepsilon$ on worst-case quantum inputs. Previously it was unknown whether QAC circuits of sublogarithmic depth could approximate parity regardless of size. $\bullet$ We introduce a class of "mostly classical" QAC circuits, including a major component of our circuit from the above upper bound, and prove a tight lower bound on the size of low-depth, mostly classical QAC circuits that approximate this component. $\bullet$ Arbitrary depth-$d$ QAC circuits require at least $\Omega(n/d)$ multi-qubit gates to achieve a $1/2 + \exp(-o(n/d))$ approximation of parity. When $d = \Theta(\log n)$ this nearly matches an easy $O(n)$ size upper bound for computing parity exactly. $\bullet$ QAC circuits with at most two layers of multi-qubit gates cannot achieve a $1/2 + \exp(-o(n))$ approximation of parity, even non-cleanly. Previously it was known only that such circuits could not cleanly compute parity exactly for sufficiently large $n$. The proofs use a new normal form for quantum circuits which may be of independent interest, and are based on reductions to the problem of constructing certain generalizations of the cat state which we name "nekomata" after an analogous cat y\=okai.
翻訳日:2023-05-06 00:59:50 公開日:2020-11-30
# 逆スピンホール効果によるマグノン熱エデルスタイン効果の検出

Magnon Thermal Edelstein Effect Detected by Inverse Spin Hall Effect ( http://arxiv.org/abs/2009.10703v2 )

ライセンス: Link先を確認
Hantao Zhang, Ran Cheng(参考訳) DMI (Dzyaloshinskii-Moriya interaction) を持つ平面反強磁性体では、マグノンは効果的なスピン-モーメントロックを受ける。 面内温度勾配は、特定の偏光でマグノンの界面蓄積を発生させ、マグノン熱エデルシュタイン効果を実現する。 強スピンホール効果を有する隣り合う重金属における熱駆動スピン偏極の注入と検出を理論的に検討した。 逆スピンホール電圧は温度とDMIの両方に単調に依存するが、ハード軸異方性には単調に依存しない。 反対に、マグノン熱エデルシュタイン効果は、N'eelベクトルに沿って印加された磁場の偶関数である。

In an easy-plane antiferromagnet with the Dzyaloshinskii-Moriya interaction (DMI), magnons are subject to an effective spin-momentum locking. An in-plane temperature gradient can generate interfacial accumulation of magnons with a specified polarization, realizing the magnon thermal Edelstein effect. We theoretically investigate the injection and detection of this thermally-driven spin polarization in an adjacent heavy metal with strong spin Hall effect. We find that the inverse spin Hall voltage depends monotonically on both temperature and the DMI but non-monotonically on the hard-axis anisotropy. Counterintuitively, the magnon thermal Edelstein effect is an even function of a magnetic field applied along the N\'eel vector.
翻訳日:2023-05-01 06:57:57 公開日:2020-11-30
# オントップ学習:電子相関の実空間可視化のためのオントップ対密度の回帰

Learning on-top: regressing the on-top pair density for real-space visualization of electron correlation ( http://arxiv.org/abs/2010.07116v2 )

ライセンス: Link先を確認
Alberto Fabrizio, Ksenia R. Briling, David D. Girardier and Clemence Corminboeuf(参考訳) オントップ対密度 (on-top pair density) [$\pi(\mathrm{\mathbf{r}})$] は、スピンの2つの電子が空間において同じ位置を占める確率を反映した局所量子化学的性質である。 2粒子密度行列に関連する最も単純な量であるため、オントップ対密度は電子相関効果の強力な指標であり、密度汎関数理論と多元参照波動関数理論を組み合わせるために広く用いられている。 現在、$\pi(\mathrm{\mathbf{r}})$ の広範な適用は、正確な評価のためにポストハートリー-フォックまたはマルチリファレンス計算の必要性によって妨げられている。 本研究では,分子の構造と組成からのみ,分子のcasscf品質のオントップ対密度を予測可能な機械学習モデルの構築を提案する。 gdb11-ad-3165データベースでトレーニングされたこのモデルは、最小限のエラーで有機分子のオントップペア密度を予測でき、$\textit{ab initio}$計算の必要性を完全に回避できます。 実空間における電子相関効果と結合破壊の視覚的指標として,オントップ比を用いて回帰の精度を示す。 さらに,単原子中心展開におけるオントップ対密度に適合する特殊な基底集合の構築について報告する。 このレグレッションの基礎であるこの基底は、電子密度の分解能の近似と同じ精神でも、潜在的に使用できる可能性がある。

The on-top pair density [$\Pi(\mathrm{\mathbf{r}})$] is a local quantum-chemical property that reflects the probability of two electrons of any spin to occupy the same position in space. Being the simplest quantity related to the two-particle density matrix, the on-top pair density is a powerful indicator of electron correlation effects, and as such, it has been extensively used to combine density functional theory and multireference wavefunction theory. The widespread application of $\Pi(\mathrm{\mathbf{r}})$ is currently hindered by the need for post-Hartree--Fock or multireference computations for its accurate evaluation. In this work, we propose the construction of a machine learning model capable of predicting the CASSCF-quality on-top pair density of a molecule only from its structure and composition. Our model, trained on the GDB11-AD-3165 database, is able to predict with minimal error the on-top pair density of organic molecules, bypassing completely the need for $\textit{ab initio}$ computations. The accuracy of the regression is demonstrated using the on-top ratio as a visual metric of electron correlation effects and bond-breaking in real-space. In addition, we report the construction of a specialized basis set, built to fit the on-top pair density in a single atom-centered expansion. This basis, cornerstone of the regression, could be potentially used also in the same spirit of the resolution-of-the-identity approximation for the electron density.
翻訳日:2023-04-29 02:45:27 公開日:2020-11-30
# 有限次元c*-代数上の状態に対するパラメトリック推定理論の微分幾何学的側面

Differential geometric aspects of parametric estimation theory for states on finite-dimensional C*-algebras ( http://arxiv.org/abs/2010.14394v2 )

ライセンス: Link先を確認
Florio M. Ciaglia, J\"urgen Jost, Lorenz Schwachh\"ofer(参考訳) 有限次元$C^{\star}$-代数に対する推定理論の幾何学的定式化について述べる。 この定式化により、古典的および量子的ケースを単一の統一数学的枠組みで扱うことができる。 離散および有限結果空間を持つパラメトリック統計モデルに対するクレイマー・ラオとヘルストロームの境界の導出を示す。

A geometrical formulation of estimation theory for finite-dimensional $C^{\star}$-algebras is presented. This formulation allows to deal with the classical and quantum case in a single, unifying mathematical framework. The derivation of the Cramer-Rao and Helstrom bounds for parametric statistical models with discrete and finite outcome spaces is presented.
翻訳日:2023-04-27 08:43:21 公開日:2020-11-30
# 原子干渉計のためのモーメントムエンタングルメント

Momentum Entanglement for Atom Interferometry ( http://arxiv.org/abs/2010.15796v2 )

ライセンス: Link先を確認
F. Anders, A. Idel, P. Feldmann, D. Bondarenko, S. Loriani, K. Lange, J. Peise, M. Gersemann, B. Meyer, S. Abend, N. Gaaloul, C. Schubert, D. Schlippert, L. Santos, E. Rasel, C. Klempt(参考訳) 光干渉計と比較して、低温原子干渉計のフラックスは低く、関連するショットノイズが大きい。 これらの制限を超える感度は、異なる運動量モードで絡み合った原子を作る必要がある。 ここでは、最先端の干渉計と互換性のある絡み合った原子の源を示す。 エンタングルメントはボース・アインシュタイン凝縮体のスピン自由度から、-3.1(8)dbのスクイージングパラメータによって観測されるよく分離された運動量モードに移される。 エンタングルメント強化原子干渉計は、量子勾配計や重力波検出器に対する前例のない感度を開放する。

Compared to light interferometers, the flux in cold-atom interferometers is low and the associated shot noise large. Sensitivities beyond these limitations require the preparation of entangled atoms in different momentum modes. Here, we demonstrate a source of entangled atoms that is compatible with state-of-the-art interferometers. Entanglement is transferred from the spin degree of freedom of a Bose-Einstein condensate to well-separated momentum modes, witnessed by a squeezing parameter of -3.1(8) dB. Entanglement-enhanced atom interferometers open up unprecedented sensitivities for quantum gradiometers or gravitational wave detectors.
翻訳日:2023-04-27 00:40:30 公開日:2020-11-30
# 4つの数学的視点による粗粒化と創発的量子力学の研究

Investigating Coarse-Grainings and Emergent Quantum Dynamics with Four Mathematical Perspectives ( http://arxiv.org/abs/2011.10349v2 )

ライセンス: Link先を確認
Cristhiano Duarte, Barbara Amaral, Marcelo Terra Cunha, Matthew Leifer(参考訳) 量子情報科学の誕生により、多体量子システムを扱うために多くのツールが開発された。 このようなシステムの完全な記述は望ましいが、そのような記述の複雑さは粒子の数によって増加する傾向があるため、常にこの目標を達成することは不可能である。 したがって、より深いスケールの記述から一つのスケールの記述がどのように出現するかを理解するために、効果的な量子理論を構築することが不可欠である。 この貢献は、系がユニタリ進化の対象となるシナリオにおける創発的有効力学の研究への異なる数学的ツールの研究であり、その粗い記述は、元の系をより小さな次元のヘールベルト空間へ取り込むCPTP写像によって与えられる。 基礎となるユニタリと粗粒度マップとのある種のマッチングが満たされた場合にのみ、明確に定義された有効動力学を定義することができる。 当社の主な目標は、これら異なるツールを使用して、一般的なケースでこのマッチングに必要な十分な条件を導出することにあります。

With the birth of quantum information science, many tools have been developed to deal with many-body quantum systems. Although a complete description of such systems is desirable, it will not always be possible to achieve this goal, as the complexity of such description tends to increase with the number of particles. It is thus crucial to build effective quantum theories aiming to understand how the description in one scale emerges from the description of a deeper scale. This contribution explores different mathematical tools to the study of emergent effective dynamics in scenarios where a system is subject to a unitary evolution and the coarse-grained description of it is given by a CPTP map taking the original system into an \emph{effective} Hilbert space of smaller dimension. We see that a well-defined effective dynamics can only be defined when some sort of matching between the underlying unitary and the coarse-graining map is satisfied. Our main goal is to use these different tools to derive necessary and sufficient conditions for this matching in the general case.
翻訳日:2023-04-23 15:04:36 公開日:2020-11-30
# 量子磁石の効果的なスピンハミルトニアンの学習

Learning Effective Spin Hamiltonian of Quantum Magnet ( http://arxiv.org/abs/2011.12282v2 )

ライセンス: Link先を確認
Sizhuo Yu, Yuan Gao, Bin-Bin Chen, Wei Li(参考訳) 相互作用する量子磁石のスピンは協力し、量子スピン液体のようなエキゾチックな状態を示すことができる。 このような興味深い状態の物質化を探求するために、量子磁石の有効なスピンハミルトニアンの決定は重要であるが、同時に非常に難しい逆多体問題である。 本稿では,マクロな実験測定から微視的スピンハミルトニアンを効率的に学習するために,自動微分やベイズ最適化など様々な最適化戦略と正確な対角化や多体熱テンソルネットワーク計算を組み合わせた非バイアスハミルトニアン探索手法を提案する。 スピンハミルトニアンから生成した熱データをトレーニングし, スピン鎖状化合物である銅硝酸銅および三角格子材料TmMgGaO4で測定した実測実験データに適用することにより, 精度と強度を実証する。 この自動ハミルトニアン探索は、興味深いスピン液体候補磁石と一般の相関電子材料の研究において非常に有望なアプローチとなっている。

Interacting spins in quantum magnet can cooperate and exhibit exotic states like the quantum spin liquid. To explore the materialization of such intriguing states, the determination of effective spin Hamiltonian of the quantum magnet is thus an important, while at the same time, very challenging inverse many-body problem. To efficiently learn the microscopic spin Hamiltonian from the macroscopic experimental measurements, here we propose an unbiased Hamiltonian searching approach that combines various optimization strategies, including the automatic differentiation and Bayesian optimization, etc, with the exact diagonalization and many-body thermal tensor network calculations. We showcase the accuracy and powerfulness by applying it to training thermal data generated from a given spin Hamiltonian, and then to realistic experimental data measured in the spin-chain compound Copper Nitrate and triangular-lattice materials TmMgGaO4. This automatic Hamiltonian searching constitutes a very promising approach in the studies of the intriguing spin liquid candidate magnets and correlated electron materials in general.
翻訳日:2023-04-23 06:32:08 公開日:2020-11-30
# lrsビアンチi量子宇宙論に適用される赤外一般不確実性原理

Infrared Generalized Uncertainty Principles Applied To LRS Bianchi I Quantum Cosmology ( http://arxiv.org/abs/2011.12442v2 )

ライセンス: Link先を確認
Daniel Berkowitz(参考訳) モーメントの最小不確実性を予測し、ハイゼンベルク代数の変形を LRS ビアンキ I モデルの位相空間の半分に応用する2つの高次一般化不確実性原理(GUP)を提案する。 結果のホイーラー・デウィット方程式を数値的に解いた後、我々の解を分析し、量子重力の潜在的なIR効果が、量子宇宙が持つ可能性のある圧倒的な幾何学的構成を選択するのに重要な役割を果たしたことを示す。 さらに、モーメントの最小不確実性と、固定された最大宇宙水平線として解釈できる最大測定可能な長さスケールの両方を予測するGUPを提案する。 この研究に含まれる結果は、より高次 GUP(s) が量子宇宙論にどのような影響を与えるかを研究するためのさらなるインセンティブを与え、量子重力が宇宙論の発展にどのように影響したかをよりよく理解することができる。

We propose two higher order generalized uncertainty principles(GUPs) which predict a minimum uncertainty in momentum and apply the deformations that they entail of the Heisenberg algebra to one half of the phase space of the LRS Bianchi I models. After numerically solving the resultant Wheeler Dewitt equations we analyze our solutions and provide evidence that potential IR effects of quantum gravity could have played a role in selecting an overwhelmingly likely geometrical configuration that a quantum universe can possess. In addition we propose a GUP which predicts both a minimum uncertainty in momentum and a maximal measurable length scale which can be interpreted as a fixed maximum cosmological horizon. The results contained in this work provide further incentives to study what effects higher order GUP(s) have on quantum cosmology so we can obtain a better understanding of how quantum gravity could have impacted cosmological evolution.
翻訳日:2023-04-23 06:21:11 公開日:2020-11-30
# ハイブリッドカップリング光機械支援非相反光子遮断

Hybrid coupling optomechanically assisted nonreciprocal photon blockade ( http://arxiv.org/abs/2011.14480v1 )

ライセンス: Link先を確認
Yong-Pan Gao, Chuan Wang(参考訳) 量子情報科学におけるオープン量子システムの性質は、様々な応用の基礎的な問題として、研究コミュニティによってより広く研究されている。 通常、オープン量子システムの状態は、量子情報処理の忠実度を低下させるデコヒーレンスによって妨害される可能性がある。 そのため、環境の影響を排除した方がよい。 しかし、複合システムの一部として、環境システムの合理的利用は量子情報処理に有用である可能性がある。 ここでは,光力学系における環境誘起量子非線形性とエネルギースペクトルチューニング法を理論的に検討した。 また, ハイブリッド散逸系と分散光学系の散逸結合は, カー間相互作用形態における環境とシステムとのカップリングを誘導できることがわかった。 指向性ポンピング環境で対称性が破壊されると、このシステムは、ささやき声モード微小キャビティの時計回り及び反時計回りモードにおける光子励起と光子遮断の間に非相互挙動を示す。 さらに,量子情報処理や量子シミュレーションにおいて,クロスカーカップリングがより広い領域で使用できると信じている。

The properties of open quantum system in quantum information science is now extensively investigated more generally by the research community as a fundamental issue for a variety of applications. Usually, the states of the open quantum system might be disturbed by the decoherence which will reduce the fidelity in the quantum information processing. So it is better to eliminate the influence of the environment. However, as part of the composite system, rational use of the environment system could be beneficial to quantum information processing. Here we theoretically studied the environment induced quantum nonlinearity and energy spectrum tuning method in the optomechanical system. And we found that the dissipation coupling of the hybrid dissipation and dispersion optomechanical system can induce the coupling between the environment and system in the cross- Kerr interaction form. When the symmetry is broken with a directional pumping environment, the system exhibits the non-reciprocal behavior during the photon excitation and photon blockade for the clockwise and counterclockwise modes of the whispering-gallery mode microcavity. Furthermore, we believe that the cross-Kerr coupling can also be used in a more widely region in quantum information processing and quantum simulation.
翻訳日:2023-04-22 14:53:56 公開日:2020-11-30
# 硬X線ベル状態のコンプトン散乱における偏光相関の増幅

Amplification of polarization correlations in Compton scattering of hard X-ray Bell states ( http://arxiv.org/abs/2011.14655v1 )

ライセンス: Link先を確認
Peter Caradonna(参考訳) 最大絡み合うベル光子のコンプトン散乱の理論断面は、まだ実験によって厳密には確認されていない。 コンプトン散乱実験で使用するベル状態のテストケースは、自発的パラメトリック・ダウン変換のプロセスによって硬x線領域で4つのベル状態が生成されたという報告から拡大することができる。 実験を概説し,位相整合角を用いたコンプトン散乱理論のパラメータ化に行列法を適用した。 2つの仮説的な光子カウンタの方位を0度90度の角度で記録し、その計数率の比が決定されると、方位比は511kevのベル光子よりも600倍大きいと期待される。

The theoretical cross section for Compton scattering of maximally entangled Bell photons has yet to be rigorously confirmed by experiments. Test cases of Bell states for use in Compton scattering experiments can now be expanded given reports of creating all 4 Bell states in the hard X-ray regime by the process of spontaneous parametric down-conversion. We outline an experiment and apply a matrix method to parameterize Compton scattering theory using the phase matching angles. When the azimuths of two hypothetical photon counters are recorded at angles of 0 degrees and 90 degrees, and the ratio of their counting rates determined, azimuthal ratios are expected to be 600 times larger compared to 511 keV Bell photons.
翻訳日:2023-04-22 14:50:43 公開日:2020-11-30
# 超強光-マターカップリングのテーラーサブサイクル非線形性

Tailored subcycle nonlinearities of ultrastrong light-matter coupling ( http://arxiv.org/abs/2011.14635v1 )

ライセンス: Link先を確認
J. Mornhinweg (1), M. Halbhuber (1), C. Ciuti (2), D. Bougeard (1), R. Huber (1), C. Lange (1 and 3) ((1) Department of Physics, University of Regensburg, Germany, (2) Universit\'e de Paris, Laboratoire Mat\'eriaux et Ph\'enom\`enes Quantiques, CNRS, France, (3) Fakult\"at Physik, Technische Universit\"at Dortmund, Germany)(参考訳) 本研究では,コヒーレント駆動場によって誘起されるラビ周波数とキャビティ場によって設定される真空ラビ周波数が,光のキャリア周波数に匹敵する新しい方法で,テーラーカット光マッターハイブリッド状態の非線形応答を探索する。 この非探索的な超弦結合の強磁場限界では、異なる偏光子状態間のサブサイクルポンププローブとマルチウェーブ混合非線形性が通常のモード近似に反し、超弦結合はそのままである。 ハイブリダライズされた初等励起のこのようなカスタムカット非線形性は、非古典的な光源、量子相転移、あるいは仮想光子によるキャビティ化学を促進することを期待する。

We explore the nonlinear response of tailor-cut light-matter hybrid states in a novel regime, where both the Rabi frequency induced by a coherent driving field and the vacuum Rabi frequency set by a cavity field are comparable to the carrier frequency of light. In this previously unexplored strong-field limit of ultrastrong coupling, subcycle pump-probe and multi-wave mixing nonlinearities between different polariton states violate the normal-mode approximation while ultrastrong coupling remains intact, as confirmed by our mean-field model. We expect such custom-cut nonlinearities of hybridized elementary excitations to facilitate non-classical light sources, quantum phase transitions, or cavity chemistry with virtual photons.
翻訳日:2023-04-22 14:50:29 公開日:2020-11-30
# 原子アンサンブルの共鳴散乱における協調状態とシフト

Cooperative states and shift in resonant scattering of an atomic ensemble ( http://arxiv.org/abs/2011.14634v1 )

ライセンス: Link先を確認
Ting Hsu, Kuan-Ting Lin, Guin-Dar Lin(参考訳) 概要 冷密な原子雲の集団前方散乱におけるスペクトルシフトについて検討する。 集団ラムシフトと呼ばれるこのシフトは、実光子交換と仮想光子交換によって媒介される共鳴双極子-双極子相互作用によって生じる。 散乱スペクトルはこれらの状態からの全体的な放射的挙動を反映する。 しかし、これはまた、単一の集合状態に関連する放射的な詳細を平均化し、スペクトルシフトの起源を説明し、そのスケーリング特性に関する論争を引き起こす。 我々はモンテカルロシミュレーションを用いて集団状態がどのように占有され、排出に寄与するかを研究する。 したがって、異なるスケーリング法則に従う2種類の集団シフトを区別する。 ほぼ共鳴状態の集団国家が支配的な結果となった。 このシフトは通常小さく、密度や参加する原子の数に敏感である。 もう一つはダイポールの空間的相関が大きく、高い放出度の状態と関連している。 これは光学深度にほぼ線形に依存するより大きな集団シフトに対応する。 我々の分析は、集団散乱におけるスペクトルの特徴に対する新しい視点を提供するだけでなく、異なる起源から報告されたスケーリング特性に関する論争に対する解決の可能性も提供する。

Abstract We investigate the spectral shift in collective forward scattering for a cold dense atomic cloud. The shift, sometimes called collective Lamb shift, results from resonant dipole-dipole interaction mediated by real and virtual photon exchange, forming many-body states displaying various super- and subradiant spectral behavior. The scattering spectrum reflects the overall radiative behavior from these states. However, it also averages out the radiative details associated with a single collective state, causing ambiguity in explaining the origin of the spectral shift and raising controversy on its scaling property. We employ a Monte-Carlo simulation to study how the collective states are occupied and contribute to emission. We thus distinguish two kinds of collective shift that follow different scaling laws. One results from dominant occupation of the near-resonant collective states. This shift is usually small and insensitive to the density or the number of participating atoms. The other comes from large spatial correlation of dipoles, associated with the states of higher degree of emission. This corresponds to larger collective shift that is approximately linearly dependent on the optical depth. Our analysis provides not only a novel perspective for the spectral features in collective scattering, but also a possible resolution to the controversy on the scaling property that has been reported elsewhere because of different origins.
翻訳日:2023-04-22 14:50:14 公開日:2020-11-30
# 1量子ビットシステムの厳密な非一貫性操作

Strictly incoherent operations for one-qubit systems ( http://arxiv.org/abs/2011.14602v1 )

ライセンス: Link先を確認
Shuanping Du, Zhaofang Bai(参考訳) 厳密な非一貫性操作(sio) [phys. rev. lett. 116, 120404 (2016)] は、量子コヒーレンスの資源理論における自由操作のよい候補であることを約束しており、局所的操作と古典的コミュニケーションの中心的な役割である量子エンタングルメントの資源理論に対抗している。 重要な開問題は、物理的領域における厳密な不整合操作の効率的な記述である。 このような記述は、量子コヒーレンスの資源理論の公理的研究において重要な役割を果たす。 一量子系に対するパウリ作用素と位相演算子の観点から、ビストチャティックなSIOの構造的特徴を与える。 この結果のいくつかの応用は、量子コンピュータによる量子熱平均の再構成やコヒーレンス操作にも応用されている。

Strictly incoherent operations (SIO) proposed in [Phys. Rev. Lett. 116, 120404 (2016)] are promising to be a good candidate of free operations in the resource theory of quantum coherence, setting against the central role of local operations and classical communication in the resource theory of quantum entanglement. An important open problem is an efficient description for strictly incoherent operations in physical region. Such a description plays key role for axiomatic study of resource theory of quantum coherence. We are aimed to give a structural characterization of bistochastic SIOs in terms of Pauli operators and the Phase operator for one-qubit systems. Some applications of our results are also sketched in reconstructing quantum thermal averages via a quantum computer and in coherence manipulation.
翻訳日:2023-04-22 14:49:55 公開日:2020-11-30
# 時間領域における測定に基づく非ガウス演算に対する非線形スキーズ

Nonlinear squeezing for measurement-based non-Gaussian operations in time domain ( http://arxiv.org/abs/2011.14576v1 )

ライセンス: Link先を確認
Shunya Konno, Atsushi Sakaguchi, Warit Asavanant, Hisashi Ogawa, Masaya Kobayashi, Petr Marek, Radim Filip, Jun-ichi Yoshikawa, Akira Furusawa(参考訳) 量子非ガウスゲート(quantum non-gaussian gate)は、光学系における連続変数の普遍量子演算を実現するための欠片である。 立方相ゲートの測定に基づく実装では、非線形スクイーズと呼ばれる性質を持つ最低階非ガウスゲート、非ガウス補助状態が要求される。 しかし、この性質は実験的に検証されていない。 本稿では、重ね合わせ係数の最適化により、非線形スクイージングを最大化する真空状態と単一光子状態との間の重ね合わせを生成する。 非線形スクイージングは実時間2次測定により観測され、生成した状態は実時間フィードフォワードと互換性があり、時間領域における立方相ゲートの補助状態として適している。 さらに,光子数を増やすことにより,非線形スクイーズをさらに改善することが期待される。 ここで提示されるアイデアは、高階位相ゲート (P. Marek et al., Phys. Rev. A 97, 022329 (2018)) まで容易に拡張できる。 この研究は、cv量子情報処理をガウス的レジームから非ガウス的レジームへ拡張するための重要なステップである。

Quantum non-Gaussian gate is a missing piece to the realization of continuous-variable universal quantum operations in the optical system. In a measurement-based implementation of the cubic phase gate, a lowest-order non-Gaussian gate, non-Gaussian ancillary states that has a property we call nonlinear squeezing are required. This property, however, has never been experimentally verified. In this paper, we generate a superposition between a vacuum state and a single photon state whose nonlinear squeezing are maximized by the optimization of the superposition coefficients. The nonlinear squeezing is observed via real-time quadrature measurements, meaning that the generated states are compatible with the real-time feedforward and are suitable as the ancillary states for the cubic phase gate in time domain. Moreover, by increasing the number of the photons, it is expected that nonlinear squeezing can be further improved. The idea presented here can be readily extended to the higher-order phase gates [P. Marek et al., Phys. Rev. A 97, 022329 (2018)]. As such, this work presents an important step to extend the CV quantum information processing from Gaussian regime to non-Gaussian regime.
翻訳日:2023-04-22 14:49:02 公開日:2020-11-30
# カスケードミシェルソン干渉計を用いたフェムト秒時間スケールにおけるブロードバンドカオス定常光の2光子重畳効果

Two-photon superbunching effect of broadband chaotic stationary light at femtosecond timescale based on cascaded Michelson interferometer ( http://arxiv.org/abs/2011.14550v1 )

ライセンス: Link先を確認
Sheng Luo, Yu Zhou, Huaibin Zheng, Jianbin Liu, Hui Chen, Yuchen He, Wanting Xu, Shuanghao Zhang, Fuli Li and Zhuo Xu(参考訳) そこで本研究では, カオス光の2光束効果の理論的上限2を超える2次コヒーレンスを, カスケードミッチェルソン干渉計(CMI)に基づくブロードバンド定常カオス光を用いて2次コヒーレンス度2.42の超バンチング効果を達成する方法を提案し, 実証する。 超高速2光子吸収検出器を用いてスーパーバンチング相関ピークを計測し、全幅が最大で約95fsに達する。 CMIにおける2光子重畳理論は、その効果を解釈するために開発され、実験結果と一致している。 この理論はまた、カオス光がCMIでN$倍の伝播を行う場合、二階コヒーレンス度が2ドル以上になると予測している。 最後に,CMI内を循環するブロードバンドカオス光を用いた弱信号検出装置を提案する。 理論的には、CMIで100回循環したカオス光の79倍の弱い信号の検出感度を高めることができる。

It is challenging for observing superbunching effect with true chaotic light, here we propose and demonstrate a method to achieve superbunching effect of the degree of second-order coherence is 2.42 with broadband stationary chaotic light based on a cascaded Michelson interferometer (CMI), exceeding the theoretical upper limit of 2 for the two-photon bunching effect of chaotic light. The superbunching correlation peak is measured with an ultrafast two-photon absorption detector which the full width at half maximum reaches about 95 fs. Two-photon superbunching theory in a CMI is developed to interpret the effect and is in agreement with experimental results. The theory also predicts that the degree of second-order coherence can be much greater than $2$ if chaotic light propagates $N$ times in a CMI. Finally, a new type of weak signals detection setup which employs broadband chaotic light circulating in a CMI is proposed. Theoretically, it can increase the detection sensitivity of weak signals 79 times after the chaotic light circulating 100 times in the CMI.
翻訳日:2023-04-22 14:48:40 公開日:2020-11-30
# 運動エネルギー分割法による多体schr\"odinger方程式の解法', ann。 Phys 388 (2018) y-hによる54-68。 チェンとs.d.チャオ

Comment on: "Solving many-body Schr\"odinger equations with kinetic energy partition method'', Ann. Phys. 388 (2018) 54-68 by Y-H. Chen and S. D. Chao ( http://arxiv.org/abs/2011.14769v1 )

ライセンス: Link先を確認
Francisco M. Fern\'andez(参考訳) 運動エネルギー分配法(KEP)の2つの分離可能な量子力学モデルへの適用による最近の性能試験について論じる。 ベンチマークモデルのうちの1つは、現実的な近似手法をテストするのに非常に単純であり、ほぼすべての妥当なアプローチがより良い結果をもたらすと論じる。 第2の例では、正確なベンチマーク固有値は、著者が比較のために選択したものと大きく異なっており、KEPアプローチの正確性に疑問を投げかける。

We discuss a recent test of the performance of the kinetic energy partition method (KEP) through its application to two separable quantum-mechanical models. We argue that one of the benchmark models is exceedingly simple for testing any realistic approximate method and that almost any reasonable approach yields better results. In the second example our exact benchmark eigenvalues disagree considerably with those chosen by the authors for comparison, which casts doubts on the accuracy of their KEP approach.
翻訳日:2023-04-22 14:40:32 公開日:2020-11-30
# 補助空間を有する低コストフレドキンゲート

Low-cost Fredkin gate with auxiliary space ( http://arxiv.org/abs/2011.14713v1 )

ライセンス: Link先を確認
Wen-Qiang Liu, Hai-Rui Wei and Leong-Chuan Kwek(参考訳) 効果的な量子情報処理は、量子論理ゲートが必要とする量子リソースの最小化の一因である。 本稿では、補助ヒルベルト空間を活用し、最大2n+1の2量子ビットゲートと2nの1量子ゲートを有するn制御量子ビットフレドキンゲートの最適化を提案する。 論理ゲートの数は、任意の n-量子ビットフレドキンゲートをシミュレートする以前の結果により改善される。 特に、(3つの量子ビット部分スワップゲートを必要とする) 1-制御量子ビットのフレドキンゲートの最適結果は、5つの2-量子ゲートの理論的非構成的下界を破る。 さらに,追加の空間モード自由度を用いて,線形光学素子を持つ偏光エンコードフレドキンゲートを実装するためのアーキテクチャを設計した。

Effective quantum information processing is tantamount in part to the minimization the quantum resources needed by quantum logic gates. Here, we propose an optimization of an n-controlled-qubit Fredkin gate with a maximum of 2n+1 two-qubit gates and 2n single-qudit gates by exploiting auxiliary Hilbert spaces. The number of logic gates required improves on earlier results on simulating arbitrary n-qubit Fredkin gates. In particular, the optimal result for one-controlled-qubit Fredkin gate (which requires three qutrit-qubit partial-swap gates) breaks the theoretical nonconstructive lower bound of five two-qubit gates. Furthermore, using an additional spatial-mode degree of freedom, we design a possible architecture to implement a polarization-encoded Fredkin gate with linear optical elements.
翻訳日:2023-04-22 14:39:33 公開日:2020-11-30
# 準ワーナー状態の量子相関の量子化と量子テレポーテーションへの応用

Quantifying quantum correlation of quasi-Werner state and probing its suitability for quantum teleportation ( http://arxiv.org/abs/2011.14703v1 )

ライセンス: Link先を確認
Arpita Chatterjee, Kishore Thapliyal and Anirban Pathak(参考訳) 量子状態の単モードおよび二モード(二成分相関)非古典的性質の工学における光子付加の意義について検討した。 具体的には, 2つの正規化二成分$m$-photon付加コヒーレント状態の重ね合わせにより理論的に構築された2つの準ヴェルナー状態のウィグナー関数の挙動を解析した。 これにより、Wigner logarithmic negativity (WLN) を用いて量子状態に存在する非古典性の量を定量化できる一方、量子相関は共起、形成の絡み合い、量子不協和によって測定される。 2モード状態の wln は、量子相関と同様に単モード非古典性の和に対応し、これらの両方は、エンタングルメント蒸留における光子付加の効果を示す光子付加によって強化される。 光子付加の有用性は、単一モードコヒーレントおよび圧縮状態のテレポーテーションにおける量子チャネルとしての準ヴェルナー状態の性能がテレポーテーション忠実度によって定量化され、光子付加により向上することを示すことによってさらに確立される。 さらに、既存の結果の集合とは対照的に、2モードのウィグナー関数の負の値は一般に量子相関の証人として利用できないことが示されている。

The significance of photon addition in engineering the single- and two-mode (bipartite correlations) nonclassical properties of a quantum state is investigated. Specifically, we analyzed the behavior of the Wigner function of two quasi-Werner states theoretically constructed by superposing two normalized bipartite $m$-photon added coherent states. This allowed us to quantify the amount of nonclassicality present in the quantum states using Wigner logarithmic negativity (WLN), while quantum correlations are measured in terms of concurrence, entanglement of formation, and quantum discord. The WLN for a two-mode state corresponds to the sum of the single-mode nonclassicality as well as quantum correlations, and both of these are observed to enhance with photon addition manifesting the efficacy of photon addition in the entanglement distillation. Usefulness of photon addition is further established by showing that the performance of the quasi-Werner states as quantum channel for the teleportation of a single-mode coherent and squeezed states, as quantified via teleportation fidelity, improves with the photon addition. Further, in contrast to a set of existing results, it is established that the negative values of two-mode Wigner function cannot be used in general as a witness of quantum correlation.
翻訳日:2023-04-22 14:38:20 公開日:2020-11-30
# 量子磁気センサの磁場方向検出には基底非依存のシステム環境コヒーレンスが必要である

Basis-independent system-environment coherence is necessary to detect magnetic field direction in an avian-inspired quantum magnetic sensor ( http://arxiv.org/abs/2011.15016v1 )

ライセンス: Link先を確認
Thao P. Le and Alexandra Olaya-Castro(参考訳) 生理的条件下での生体分子複合体における非自明な量子効果の理解の促進には、そのようなシステムに存在する可能性のある非古典性の精密な特徴化と、そのような特徴がロバストな機能に必要であるかどうかの主張が必要である。 ここでは,3番目の"スキャベンジャー"ラジカルを持つ2つのラジカルからなる,鳥類にインスパイアされた量子磁気センサを,様々なデコヒーレンス過程をキャプチャ可能な衝突環境の影響下で検討する。 我々は,初期システム環境状態が非最大混合である基底非依存コヒーレンスが,量子磁気センサの最適性能に必要であり,特定の状況において十分であることを示す。 このような非最大混合初期状態が、様々な生体分子シナリオにどのように共通であるかを論じる。 この結果から, 量子領域と古典領域の界面で動作する生体分子系の量子資源として, 基礎によらず, ある程度のコヒーレンスが存在する可能性が示唆された。

Advancing our understanding of non-trivial quantum effects in biomolecular complexes operating in physiological conditions requires the precise characterisation of the non-classicalities that may be present in such systems as well as asserting whether such features are required for robust function. Here we consider an avian-inspired quantum magnetic sensor composed of two radicals with a third "scavenger" radical under the influence of a collisional environment that allows to capture a variety of decoherence processes. We show that basis-independent coherence, in which the initial system-environment state is non-maximally mixed, is necessary for optimal performance of the quantum magnetic sensor, and appears to be sufficient in particular situations. We discuss how such non-maximally mixed initial states may be common for a variety of biomolecular scenarios. Our results therefore suggest that a small degree of coherence--regardless of basis--is likely to be a quantum resource for biomolecular systems operating at the interface between the quantum and classical domains.
翻訳日:2023-04-22 14:32:40 公開日:2020-11-30
# 多次元システムのための収束アイジネギー境界の生成:新しいモーメント表現、代数、量子化形式

Generating Converging Eigenenergy Bounds for Multidimensional Systems: A New Moment Representation, Algebraic, Quantization Formalism ( http://arxiv.org/abs/2011.15011v1 )

ライセンス: Link先を確認
Carlos R. Handy(参考訳) モーメント方程式表現(MER)を許容する低次元系では、すべての離散状態に適用可能な実効的なアイジネギー境界理論の開発は、これまでも決定的であった。 Handy et al (1988 Phys. Rev. Lett. 60 253) は、多次元、正、ボゾン基底状態への任意に厳密な境界を生成するための固有値モーメント法 (EMM) の有効性を示したが、任意の励起状態への拡張は難しそうであった。 我々は、これを達成する新しいモーメント表現に基づく量子化形式を発見した。 EMMとは異なり、凸最適化法は不要である。 全定式化は代数的である。 予備的な調査の結果、広範囲の磁場強度に対して、二次ゼーマン効果に関して、Kravchenko et al (1996 Phys. Rev. A 54 287) の優れた、しかし複雑な解析を一致または超えることができる。 それらの解析とは異なり、提案手法は単純であり、切り離しを伴わず、量子作用素の射影は各モーメント部分空間内で正確である。 我々の新しいアプローチである直交多項式投影量子化境界法(oppq-bm)は、handy and vrinceanu (2013 j. of phys. a: math. theor. 46 135202) によって開発された以前の手法の暗黙的境界機能を活用している。 現れるのは、物理系の量子化におけるモーメント方程式表現の重要性を検証する、全く新しいタイプの解析(すなわち制約付き二次形式最小化)である。 EMM の基本原理は OPPQ-BM よりも効率的であることを保証するが、非線形凸最適化法(線形計画法で緩和できる)を追求するのではなく、代数計算を実装する能力は OPPQ-BM を推奨している。 アプリケーションによる新しい手法の概要を示す。

For low dimension systems admitting a moment equation representation (MER), the development of an effective eigenenergy bounding theory applicable to all discrete states had remained elusive, until now. Whereas Handy et al (1988 Phys. Rev. Lett. 60 253) demonstrated the effectiveness of the {\it Moment Problem} based, Eigenvalue Moment Method (EMM), for generating arbitrarily tight bounds to the multidimensional, positive, bosonic ground state, its extension to arbitrary excited states seemed intractable. We have discovered a new, moment representation based, quantization formalism that achieves this. Unlike EMM, no convex optimization methods are required. The entire formulation is algebraic. As a result of our preliminary investigation, we are able to match, or surpass, the excellent, but intricate, analysis of Kravchenko et al (1996 Phys. Rev. A 54 287) with respect to the quadratic Zeeman effect, for a broad range of magnetic field strengths. Unlike their analysis, the proposed method is simple, involves no truncations, and the projection of the quantum operator is exact, within each moment subspace. Our new approach, the Orthogonal Polynomial Projection Quantization-Bounding Method (OPPQ-BM), exploits the implicit bounding capabilities of a previous method developed by Handy and Vrinceanu (2013 J. of Phys. A: Math. Theor. 46 135202). What emerges is a completely new type of analysis (i.e. constrained quadratic form minimization) that validates the importance of moment equation representations for quantizing physical systems. Whereas the underlying principles of EMM guarantee it to be more efficient than OPPQ-BM, the ability to implement algebraic computations, as opposed to pursuing nonlinear convex optimization methods (which can be relaxed through linear programming alternatives) recommends OPPQ-BM. We give an overview of the new method with applications.
翻訳日:2023-04-22 14:32:23 公開日:2020-11-30
# Oblivious TransferはMiniQCryptにある

Oblivious Transfer is in MiniQCrypt ( http://arxiv.org/abs/2011.14980v1 )

ライセンス: Link先を確認
Alex B. Grilo, Huijia Lin, Fang Song and Vinod Vaikuntanathan(参考訳) MiniQCryptは、量子セキュアな一方通行関数が存在し、量子通信が可能である世界である。 このプロトコルは,悪質な量子多項式時間敵に対する平易なモデルにおけるシミュレーションセキュリティを実現するもので,bennett,brasard,cr\'epeau,skubiszewska (crypto 1991) の基礎研究に基づいている。 OTプロトコルと先行処理を組み合わせることで,MiniQCryptでもセキュアな双方向およびマルチパーティ計算プロトコルが得られる。 これは古典的世界とは対照的であり、一方通行関数だけではOTを与えられないと広く信じられている。 共通乱数列モデルでは、普遍的にコンポーザブルな(uc)otプロトコルを実現する。

MiniQCrypt is a world where quantum-secure one-way functions exist, and quantum communication is possible. We construct an oblivious transfer (OT) protocol in MiniQCrypt that achieves simulation-security in the plain model against malicious quantum polynomial-time adversaries, building on the foundational work of Bennett, Brassard, Cr\'epeau and Skubiszewska (CRYPTO 1991). Combining the OT protocol with prior works, we obtain secure two-party and multi-party computation protocols also in MiniQCrypt. This is in contrast to the classical world, where it is widely believed that one-way functions alone do not give us OT. In the common random string model, we achieve a constant-round universally composable (UC) OT protocol.
翻訳日:2023-04-22 14:31:11 公開日:2020-11-30
# キャビティエンハンスド自発的パラメトリックダウンコンバージョンによるヘラルド単一光子の効率的な量子メモリ

Efficient quantum memory for heralded single photons generated by cavity-enhanced spontaneous parametric downconversion ( http://arxiv.org/abs/2011.14948v1 )

ライセンス: Link先を確認
Yu-Chih Tseng, Yan-Cheng Wei, Ying-Cheng Chen(参考訳) 我々は,自然パラメトリックダウン変換(SPDC)結晶と冷原子アンサンブルを接合し,偏光符号化単一光子量子ビットによる高効率量子メモリを実証する。 具体的には、空洞を拡張したSPDC源からの狭帯域共有型単一光子を冷原子アンサンブルで保存し、保存と検索の効率は70%程度、保存時間は50%程度である。 また, 保存後の劣化を防止するため, 回収した単光子の非古典性を保存するために, 単光子波動プロファイルを操作する。 一方、デュアルレールストレージは偏光符号化量子ビットの保存に使われ、保存後の飛行量子ビットの補正忠実度は97%に達する。 その結果、大規模量子ネットワークへの道が開けた。

We interface a spontaneous parametric down conversion (SPDC) crystal and a cold atomic ensemble and demonstrate a highly efficient quantum memory through polarization-encoded single-photon qubits. Specifically, narrowband heralded single photons from a cavity-enhanced SPDC source is stored using cold atomic ensemble, with ~70% storage-and-retrieval efficiency and ~10$\mu$s storage time at 50% efficiency. To prevent the degradation after storage, we also manipulate the single-photon wave profile so that the retrieved non-classical nature of single photon is preserved. On the other hand, the dual-rail storage is used for storing polarization-encoded qubits, and the corrected fidelity of flying qubits after storage reaches ~97%. The results pave the way toward large-scale quantum network.
翻訳日:2023-04-22 14:30:35 公開日:2020-11-30
# ゼロ-超低磁場核磁気共鳴とその応用

Zero- to ultralow-field nuclear magnetic resonance and its applications ( http://arxiv.org/abs/2011.14945v1 )

ライセンス: Link先を確認
Min Jiang, Ji Bian, Qing Li, Ze Wu, Haowen Su, Minxiang Xu, Yuanhong Wang, Xin Wang, Xinhua Peng(参考訳) 従来の高磁場NMRと相補的な解析ツールとして、ゼロから超低磁場(ZULF)NMRはサブミクロテトラ系における核磁化信号を検出する。 スピン交換緩和フリー(SERF)原子磁気センサは、zuLF NMRのための新しい感度検出器を提供する。 低コスト、高分解能、ポータビリティなどの特徴により、最近 ZULF NMR は化学、生物学、医学、基礎物理学のテストでかなりの注目を集めている。 本稿では,zulf nmrの基礎原理,方法論,最近の実験的・理論的発展,および分光,量子制御,イメージング,nmrベースの量子デバイス,基礎物理学のテストへの応用について述べる。 zuLF NMRの将来展望についても論じる。

As a complementary analysis tool to conventional high-field NMR, zero- to ultralow-field (ZULF) NMR detects nuclear magnetization signals in the sub-microtesla regime. Spin-exchange relaxation-free (SERF) atomic magnetometers provide a new generation of sensitive detector for ZULF NMR. Due to the features such as low-cost, high-resolution and potability, ZULF NMR has recently attracted considerable attention in chemistry, biology, medicine, and tests of fundamental physics. This review describes the basic principles, methodology and recent experimental and theoretical development of ZULF NMR, as well as its applications in spectroscopy, quantum control, imaging, NMR-based quantum devices, and tests of fundamental physics. The future prospects of ZULF NMR are also discussed.
翻訳日:2023-04-22 14:30:16 公開日:2020-11-30
# 測定誘起臨界における絡み合い負性

Entanglement Negativity at Measurement-Induced Criticality ( http://arxiv.org/abs/2012.00031v1 )

ライセンス: Link先を確認
Shengqi Sang, Yaodong Li, Tianci Zhou, Xiao Chen, Timothy H. Hsieh, Matthew P. A. Fisher(参考訳) 測定誘起臨界性の細粒度プローブとして,絡み合いネガティビティを提案する。 我々はこの提案を安定化状態において動機付け、この2つの非結合部分領域において、それらの「相互負性」とそれらの相互情報を比較し、二部類と多部類との絡み合いを正確に区別する。 2次元臨界パーコレーションに正確にマッピングする測定専用安定化回路において、相互情報と相互負性は長距離における異なるスケーリング次元の境界共形場によって制御されることを示す。 次に, 累進的な複雑性のゲートを持つ計測専用回路を摂動することで得られる「ハイブリッド」回路モデルについて考察する。 他の臨界指数は、それぞれの臨界点におけるユニタリゲートアンサンブルの異なる選択に対して大きく異なるが、相互否定性は、非常に多くのハイブリッド回路にまたがる拡大次元3を持ち、これはパーコレーションにおいて顕著に異なる。 我々は,幾何学的最小カット画像が利用可能である場合と対比する。

We propose entanglement negativity as a fine-grained probe of measurement-induced criticality. We motivate this proposal in stabilizer states, where for two disjoint subregions, comparing their "mutual negativity" and their mutual information leads to a precise distinction between bipartite and multipartite entanglement. In a measurement-only stabilizer circuit that maps exactly to two-dimensional critical percolation, we show that the mutual information and the mutual negativity are governed by boundary conformal fields of different scaling dimensions at long distances. We then consider a class of "hybrid" circuit models obtained by perturbing the measurement-only circuit with unitary gates of progressive levels of complexity. While other critical exponents vary appreciably for different choices of unitary gate ensembles at their respective critical points, the mutual negativity has scaling dimension 3 across remarkably many of the hybrid circuits, which is notably different from that in percolation. We contrast our results with limiting cases where a geometrical minimal-cut picture is available.
翻訳日:2023-04-22 14:22:01 公開日:2020-11-30
# オープン量子システムのためのハイゼンベルク画像

Heisenberg Picture for Open Quantum Systems ( http://arxiv.org/abs/2011.15118v1 )

ライセンス: Link先を確認
Nachiket Karve and R. Loganayagam(参考訳) 本稿では,開量子システムを記述するためのフレームワークをハイゼンベルク図,すなわち時間発展作用素代数を用いて開発する。 この点に関して、前回の提案の不完全性を指摘します。 オープン量子系に対する完全なハイゼンベルク像は、各系を観測可能な複数の画像ハイゼンベルク作用素を含むと論じる。 与えられた系が観測可能であれば、そのような画像作用素の数は環境ヒルベルト空間の次元に等しい。 単一の一点演算子の観点から、これらの画像演算子に対して、システム環境結合における任意の順序まで正確に摂動式を導出する。 この表現は環境の状態に非線形に依存する。 この摂動表現は、開量子系のヒルベルト空間上の作用素積を変形させるものと考えることができる。 マルコフ極限において、一点作用素は随伴リンドブラッド方程式によって進化する。 簡単なスピンシステムを用いてこれらのアイデアを説明する。

In this note, we develop a framework to describe open quantum systems in the Heisenberg picture, i.e., via time evolving operator algebras. We point out the incompleteness of the previous proposals in this regard. We argue that a complete Heisenberg picture for an open quantum system involves multiple image Heisenberg operators for each system observable. For a given system observable, the number of such image operators is equal to the dimension of the environment Hilbert space. We derive a perturbative expression, accurate upto arbitrary orders in the system environment coupling, for these image operators in terms of a single one point operator. This expression depends non-linearly on the state of the environment. This perturbative expression can equivalently be thought of as deforming the operator product on the Hilbert space of the open quantum system. In the Markovian limit, the one point operator evolves by an adjoint Lindblad equation. We illustrate these ideas using a simple spin system.
翻訳日:2023-04-22 14:21:32 公開日:2020-11-30
# 絡み合うために情報を漏らす

Leaking information to gain entanglement ( http://arxiv.org/abs/2011.15116v1 )

ライセンス: Link先を確認
Vikesh Siddhu(参考訳) 絡み合いは量子論の根本にある。 それは目覚ましい資源であり、絡み合ったシステムが環境と相互作用するときに減少すると考えられている。 逆に,システムと環境との関わりは,絡み合いを維持する能力を高めている。 エンタングルメントを保持する最大レートは、量子チャネル容量によって与えられる。 チャネルのほとんど全ての量子情報をチャネル環境にリークすることで、チャネルの量子容量を反故意に増強する。 この強化はチャネルのコヒーレント情報に2文字レベルの非加法性を利用する。 結果として生じる非付加性は、以前よりも遥かに大きく、定性的に広い範囲にある。 我々の発見は、量子鍵分布に驚くべき意味を持ち、eavesdropping環境に情報を漏洩させることで、鍵分布の最大速度を高めることができる。

Entanglement lies at the root of quantum theory. It is a remarkable resource that is generally believed to diminish when entangled systems interact with their environment. On the contrary, we find that engaging a system with its environment increases its ability to retain entanglement. The maximum rate of retaining entanglement is given by the quantum channel capacity. We counter-intuitively boost the quantum capacity of a channel by leaking almost all quantum information to the channel's environment. This boost exploits two-letter level non-additivity in the channel's coherent information. The resulting non-additivity has a far larger magnitude and a qualitatively wider extent than previously known. Our findings have a surprising implication for quantum key distribution: maximum rates for key distribution can be boosted by allowing leakage of information to the eavesdropping environment.
翻訳日:2023-04-22 14:21:21 公開日:2020-11-30
# シミュレーション量子アニーリングはスパイクハミルトニアンに有効である

Simulated Quantum Annealing is Efficient on the Spike Hamiltonian ( http://arxiv.org/abs/2011.15094v1 )

ライセンス: Link先を確認
Thiago Bergamaschi(参考訳) 本研究では、[FGG02]によって導入された量子力学トンネルのための特定のおもちゃモデルハミルトンのスパイク・ハミルトニアン上でのSQA(Simulated Quantum Annealing)と呼ばれる古典的アルゴリズムの収束について研究する。 この玩具モデルハミルトンは計算ベースで単純なビット対称コスト関数 f を符号化し、より複雑な最適化問題において局所ミニマをエミュレートするために用いられる。 前の研究[CH16]では、SQAはQAが行うスパイクの仕組みの多くにおいて多項式時間で動作し、トンネルによる指数的なスピードアップに対する証拠を示している。 本稿では,これらの解析をスパイクハミルトンのエネルギーギャップの残りの多項式状態にまで拡張し,この玩具模型のSQAに対して,QAが指数的速度アップを示さないことを示す。

In this work we study the convergence of a classical algorithm called Simulated Quantum Annealing (SQA) on the Spike Hamiltonian, a specific toy model Hamiltonian for quantum-mechanical tunneling introduced by [FGG02]. This toy model Hamiltonian encodes a simple bit-symmetric cost function f in the computational basis, and is used to emulate local minima in more complex optimization problems. In previous work [CH16] showed that SQA runs in polynomial time in much of the regime of spikes that QA does, pointing to evidence against an exponential speedup through tunneling. In this paper we extend their analysis to the remaining polynomial regime of energy gaps of the spike Hamiltonian, to show that indeed QA presents no exponential speedup with respect to SQA on this family of toy models.
翻訳日:2023-04-22 14:20:37 公開日:2020-11-30
# 小型及び巨大原子を用いた導波路QEDにおける制御場のない電磁誘導透過の合成

Synthesizing electromagnetically induced transparency without a control field in waveguide QED using small and giant atoms ( http://arxiv.org/abs/2011.15077v1 )

ライセンス: Link先を確認
Andreas Ask, Yao-Lung L. Fang, Anton Frisk Kockum(参考訳) 3レベル原子中の光子の吸収は、原子遷移の1つにコヒーレントドライブを適用することで制御および操作することができる。 吸収が完全にキャンセルされ、そのため原子は完全に透明になった状況は、電磁誘導透過(EIT)と呼ばれる。 EITの特徴は、その中心周波数における蛍光クエンチに付随する狭い透明窓であり、この特定の点における非弾性散乱が抑制されていることを示す。 EITのような透明窓の出現は、複数の近接した量子エミッタが導波路に結合された場合、導波路量子電磁力学(QED)において一般的である。 透明性は原子の分離とエネルギーの調整に依存する。 本研究では,導波路qed中の2レベル原子を用いて,eitライクな透過窓を示す様々なセットアップについて検討した。 真の3レベル原子の場合とは異なり、我々が考慮する系では駆動場は不要であり、エネルギー準位のコヒーレント結合は導波路によって媒介される。 具体的には、本物のEITライクな力学を持つシステムと、透明な窓を示すが蛍光クエンチを持たないシステムとを区別する。 私たちが考えるシステムは、小さな原子と巨大な原子の両方で構成され、光子とフォノンに結合した人工原子で実験的に実現することができる。 これらのシステムは、外部駆動の必要がなくなるため、多くのEITアプリケーションへの簡単な経路を提供することができる。

The absorption of photons in a three-level atom can be controlled and manipulated by applying a coherent drive at one of the atomic transitions. The situation where the absorption is fully canceled, and the atom thus has been turned completely transparent, has been coined electromagnetically induced transparency (EIT). The characteristics of EIT is a narrow transparency window associated with a fluorescence quench at its center frequency, indicating that inelastic scattering at this particular point is suppressed. The emergence of EIT-like transparency windows is common in waveguide quantum electrodynamics (QED) when multiple closely spaced quantum emitters are coupled to a waveguide. The transparency depends on the separation and energy detuning of the atoms. In this work, we study a number of different setups with two-level atoms in waveguide QED that all exhibit EIT-like transparency windows. Unlike the case of a genuine three-level atom, no drive fields are required in the systems we consider, and the coherent coupling of energy levels is mediated by the waveguide. We specifically distinguish between systems with genuine EIT-like dynamics and those that exhibit a transparency window but lack the fluorescence quench. The systems that we consider consist of both small and giant atoms, which can be experimentally realized with artificial atoms coupled to either photons or phonons. These systems can offer a simpler route to many EIT applications since the need for external driving is eliminated.
翻訳日:2023-04-22 14:19:53 公開日:2020-11-30
# 線形光学を持つユニタリ量子作用素に対する最適近似

Optimal approximation to unitary quantum operators with linear optics ( http://arxiv.org/abs/2011.15048v1 )

ライセンス: Link先を確認
Juan Carlos Garcia-Escartin, Vicent Gimeno and Julio Jos\'e Moyano-Fern\'andez(参考訳) 光子数に作用する線形光学系は多くの興味深い進化を生み出すが、入力状態の全ての許容量子演算を与えることはできない。 微分幾何学からのトポノゴフの定理を用いて、任意の量子演算子$u$が$m$モードで$n$の光子に作用すると、線形光学で実装可能な演算子$\widetilde{u}$を返す反復法を提案する。 近似法は局所最適であり収束する。 結果の演算子 $\widetilde{U}$ は、以前の結果を使って実験的な光学系に変換できる。

Linear optical systems acting on photon number states produce many interesting evolutions, but cannot give all the allowed quantum operations on the input state. Using Toponogov's theorem from differential geometry, we propose an iterative method that, for any arbitrary quantum operator $U$ acting on $n$ photons in $m$ modes, returns an operator $\widetilde{U}$ which can be implemented with linear optics. The approximation method is locally optimal and converges. The resulting operator $\widetilde{U}$ can be translated into an experimental optical setup using previous results.
翻訳日:2023-04-22 14:19:18 公開日:2020-11-30
# 人道工学におけるブロックチェーン技術のユースケース

Use-cases of Blockchain Technology for Humanitarian Engineering ( http://arxiv.org/abs/2012.01168v1 )

ライセンス: Link先を確認
Arvind W. Kiwelekar, Sanil S. Gandhi, Laxaman D. Netak, Shankar B. Deosarkar(参考訳) 人道的技術者は社会的な問題を解決するために技術的な介入を行うための革新的な方法を必要としている。 新興ブロックチェーン技術は、農業、教育、健康、交通など、様々な開発分野に効果的な介入を提供する大きな可能性を持っている。 これらの分野では、仲介者は開発作業の障害の1つとみなされてきた。 ブロックチェーン技術はピアツーピアのビジネストランザクションを促進し、仲介者の役割を排除します。 したがって、ブロックチェーン技術は、クライアントサーバベースのインターネット技術を採用する従来の仲介者中心のソリューションの代替として登場している。 ブロックチェーン技術と他のテクノロジを組み合わせることで、ドメイン固有の課題に対処することができる。 例えば、ブロックチェーン技術とIoT(Internet-of-Thing)の組み合わせは、地下水レベルやエネルギー消費量といった不足するリソースの使用を監視する可能性がある。 この章の目的は2つある。 まず、ブロックチェーン技術の主要な構成要素について説明する。 次に、農業、エネルギー健康などの分野におけるブロックチェーン技術のさまざまなユースケースシナリオについて説明する。

Humanitarian Engineers need innovative methods to make technological interventions for solving societal problems. The emerging blockchain technology has the enormous potential to provide effective interventions in various developmental sectors, including Agriculture, Education, Health, and Transportation. In these sectors, mediators have been considered as one of the impediments for developmental work. Blockchain technology facilitates peer-to-peer business transactions, thus eliminating the role of mediators. Hence, the blockchain technology is emerging as an alternative to conventional mediator-centred solutions adopting client-server based Internet technologies. A combination of blockchain technology with other technologies can be used to address domain-specific challenges. For example, the combination of blockchain technology and Internet-of-Thing (IoT) has the potential to monitor the usage of scarce resources such as the level of ground-water and amount of energy consumption. The aims of this chapter are twofold. Firstly, it describes the primary building blocks of blockchain technology. Secondly, it illustrates various use-case scenarios of blockchain technology in the fields of Agriculture, Energy Health and others.
翻訳日:2023-04-22 14:13:39 公開日:2020-11-30
# CROSSインキュベーター : RSEの資金調達とトレーニングを事例として

The CROSS Incubator: A Case Study for funding and training RSEs ( http://arxiv.org/abs/2012.01144v1 )

ライセンス: Link先を確認
Stephanie Lieggi and Ivo Jimenez and Jeff LeFevre and Carlos Maltzahn(参考訳) カリフォルニア大学サンタクルーズ校のcenter for research in open source software(cross, cross.ucsc.edu)が後援するインキュベーターと研究プロジェクトは、研究ソフトウェアエンジニアの専門的および技術的開発を促進するのに非常に効果的である。 カルロス・マルツァン(Carlos Maltzahn)は2015年に、カリフォルニア大学サンタクルーズ校の卒業生Sage Weilから2000,000ドルを寄付し、東芝アメリカ電子部品、SK Hynix Memory Solutions、Micron Technologyの設立メンバーとしてCROSSを設立した。 過去5年間で、CROSSの資金により、博士課程の学生は研究ソフトウェアプロジェクトを作るだけでなく、新しいコントリビュータを引き出す方法を学び、確立したオープンソースソフトウェアコミュニティを活用できるようになった。 本稿では,大学主導のオープンソースプロジェクトが,研究ソフトウェアエンジニアの効果的なトレーニング,資金提供,支援を行うための,実世界の再現可能なモデルを構築するためのケーススタディとして,CROSSフェローシップを紹介する。

The incubator and research projects sponsored by the Center for Research in Open Source Software (CROSS, cross.ucsc.edu) at UC Santa Cruz have been very effective at promoting the professional and technical development of research software engineers. Carlos Maltzahn founded CROSS in 2015 with a generous gift of $2,000,000 from UC Santa Cruz alumnus Dr. Sage Weil and founding memberships of Toshiba America Electronic Components, SK Hynix Memory Solutions, and Micron Technology. Over the past five years, CROSS funding has enabled PhD students to not only create research software projects but also learn how to draw in new contributors and leverage established open source software communities. This position paper will present CROSS fellowships as case studies for how university-led open source projects can create a real-world, reproducible model for effectively training, funding and supporting research software engineers.
翻訳日:2023-04-22 14:13:26 公開日:2020-11-30
# 波動関数における非解析性と特異点の存在と見えないデルタ電位の役割

The presence of non-analyticities and singularities in the wavefunction and the role of invisible delta potentials ( http://arxiv.org/abs/2012.00166v1 )

ライセンス: Link先を確認
Jorge Munzenmayer and Derek Frydel(参考訳) 本稿ではRefにおける提案について検討する。 [EPL, 115 (2016) 60001] 無限球面井戸モデルにおける粒子の解が平方積分可能であれば、特異点の正確な位置において、基礎となる物理的原因が存在しないとしても、物理的に有効な解であり、したがって、分岐は距離で壁を閉じることによって生じる非局所現象である。 本研究では,この主張をより慎重に検討する。 発散した二乗可積分解に対する正しい微分方程式を同定し、シュレーディンガー方程式の形で書き直すことにより、発散する波動関数は、ある種の魅力的なデルタポテンシャルであるポテンシャル V(r)=-r デルタ(r) によって引き起こされると推測する。 その特異な形と、それが発散ポテンシャルエネルギー <V> = -無限大につながるという事実により、ポテンシャル V(r) とそれに関連する発散波動関数は物理的に意味を持たない。

This article examines the suggestion made in Ref. [EPL, 115 (2016) 60001] that a solution to a particle in an infinite spherical well model, if it is square-integrable, is a physically valid solution, even if at the precise location of the singularity there is no underlying physical cause, therefore, the divergence would have to be a nonlocal phenomenon caused by confining walls at a distance. In this work we examine this claim more carefully. By identifying the correct differential equation for a divergent square-integrable solution and rewriting it in the form of the Schroedinger equation, we infer that the divergent wavefunction would be caused by the potential V(r)=-r delta(r), which is a kind of attractive delta potential. Because of its peculiar form and the fact that it leads to a divergent potential energy <V> = - infinity, the potential V(r) and the divergent wavefunction associated with it are not physically meaningful.
翻訳日:2023-04-22 14:12:37 公開日:2020-11-30
# 免疫パスポートとW3C分散識別子の批判

A Critique of Immunity Passports and W3C Decentralized Identifiers ( http://arxiv.org/abs/2012.00136v1 )

ライセンス: Link先を確認
Harry Halpin(参考訳) 新型コロナウイルス(COVID-19)のパンデミックの影響で、「免疫パスポート」や技術提案も推進されている。 免疫パスポートの医学的・倫理的問題に関する議論は広く行われているが、免疫パスポート制度の技術的基礎の検査は少ない。 これらのスキームは、一般的に新型コロナウイルスの検査とワクチン接種の結果を共有するために使用される。 最も顕著な免疫パスポートスキームには、DID(Decentralized Identifiers)やW3C(World Wide Web Consortium)のVC(Verifiable Credentials)など、あまり知られていない標準が多数含まれている。 当社の分析によると、この技術的アイデンティティ標準は、セキュリティとプライバシに重大な問題を抱える、不特定でしばしば標準化されていないドキュメントに基づいている。 免疫パスポートに関する具体的な提案は、辞書攻撃の影響を受けやすい。 暗号化がユーザーのプライバシーの懸念を和らげるために使用される免疫パスポートのような取り組みにおける「暗号劇場」の使用は、標準化において妨げられるべきである。 免疫パスポートのようなユースケースにおける「自己主権のアイデンティティ」のためのこれらのW3C標準の展開は、危険形態のアイデンティティ全体主義につながる。

Due to the widespread COVID-19 pandemic, there has been a push for `immunity passports' and even technical proposals. Although the debate about the medical and ethical problems of immunity passports has been widespread, there has been less inspection of the technical foundations of immunity passport schemes. These schemes are envisaged to be used for sharing COVID-19 test and vaccination results in general. The most prominent immunity passport schemes have involved a stack of little-known standards, such as Decentralized Identifiers (DIDs) and Verifiable Credentials (VCs) from the World Wide Web Consortium (W3C). Our analysis shows that this group of technical identity standards are based on under-specified and often non-standardized documents that have substantial security and privacy issues, due in part to the questionable use of blockchain technology. One concrete proposal for immunity passports is even susceptible to dictionary attacks. The use of `cryptography theater' in efforts like immunity passports, where cryptography is used to allay the privacy concerns of users, should be discouraged in standardization. Deployment of these W3C standards for `self-sovereign identity' in use-cases like immunity passports could just as well lead to a dangerous form identity totalitarianism.
翻訳日:2023-04-22 14:11:53 公開日:2020-11-30
# ガウス混合モデルの完全回復のためのカットオフ

Cutoff for exact recovery of Gaussian mixture models ( http://arxiv.org/abs/2001.01194v3 )

ライセンス: Link先を確認
Xiaohui Chen and Yun Yang(参考訳) クラスタサイズが等しいk$-component gaussian mixモデルにおいて、クラスタラベルの正確な回復のためにクラスタ中心の分離に関する情報理論的なカットオフ値を決定する。 さらに,K$-meansクラスタリング手法の半定値プログラミング(SDP)緩和により,クラスタ中心の対称性を仮定することなく,正確なリカバリを実現することを示す。

We determine the information-theoretic cutoff value on separation of cluster centers for exact recovery of cluster labels in a $K$-component Gaussian mixture model with equal cluster sizes. Moreover, we show that a semidefinite programming (SDP) relaxation of the $K$-means clustering method achieves such sharp threshold for exact recovery without assuming the symmetry of cluster centers.
翻訳日:2023-01-14 08:08:41 公開日:2020-11-30
# ヘマトキシリンおよびエオシンによる10種類の癌組織像の分離核のデータセット

Dataset of Segmented Nuclei in Hematoxylin and Eosin Stained Histopathology Images of 10 Cancer Types ( http://arxiv.org/abs/2002.07913v2 )

ライセンス: Link先を確認
Le Hou, Rajarsi Gupta, John S. Van Arnam, Yuwei Zhang, Kaustubh Sivalenka, Dimitris Samaras, Tahsin M. Kurc, Joel H. Saltz(参考訳) 核の分布と出現は、がんの診断と研究に必須のマーカーである。 核形態学の重要性にもかかわらず、大規模で正確で一般にアクセス可能な核セグメンテーションデータが欠如している。 これに対処するために,複数のがんタイプからスライド組織画像全体の核を品質管理プロセスで分割する解析パイプラインを開発した。 The Cancer Genome Atlasの10種類の癌から5,060個の全スライド組織像を作成した。 我々の研究の重要な要素は、セグメント化結果の品質を評価するために、マルチレベル品質管理プロセス(WSIレベルとイメージパッチレベル)を実行したことです。 画像パッチレベルの品質管理では、1,356のサンプル画像パッチから手動のセグメンテーショングラウンド真理データを使用した。 この研究で公表したデータセットは、10種類のTCGAがんタイプから5,060以上のTCGA WSIから約50億個の品質制御された核と、同じ10種類の癌タイプから1,356個の手動分割されたTGAイメージパッチと、さらに4種類のがんタイプから成り立っている。 データはhttps://doi.org/10.7937/tcia.2019.4a4dkp9uで入手できる。

The distribution and appearance of nuclei are essential markers for the diagnosis and study of cancer. Despite the importance of nuclear morphology, there is a lack of large scale, accurate, publicly accessible nucleus segmentation data. To address this, we developed an analysis pipeline that segments nuclei in whole slide tissue images from multiple cancer types with a quality control process. We have generated nucleus segmentation results in 5,060 Whole Slide Tissue images from 10 cancer types in The Cancer Genome Atlas. One key component of our work is that we carried out a multi-level quality control process (WSI-level and image patch-level), to evaluate the quality of our segmentation results. The image patch-level quality control used manual segmentation ground truth data from 1,356 sampled image patches. The datasets we publish in this work consist of roughly 5 billion quality controlled nuclei from more than 5,060 TCGA WSIs from 10 different TCGA cancer types and 1,356 manually segmented TCGA image patches from the same 10 cancer types plus additional 4 cancer types. Data is available at https://doi.org/10.7937/tcia.2019.4a4dkp9u
翻訳日:2022-12-30 20:36:55 公開日:2020-11-30
# クラスタリングによる深いオープンワールド認識の促進

Boosting Deep Open World Recognition by Clustering ( http://arxiv.org/abs/2004.13849v2 )

ライセンス: Link先を確認
Dario Fontanel, Fabio Cermelli, Massimiliano Mancini, Samuel Rota Bul\`o, Elisa Ricci, Barbara Caputo(参考訳) 畳み込みニューラルネットワークはロボットビジョンに大きな進歩をもたらしたが、その能力は、認識すべき意味概念の数が利用可能なトレーニングセットによって決定されるクローズドワールドシナリオに限られることが多い。 実世界に存在するすべての意味概念を単一のトレーニングセットで捉えることは事実上不可能であるため、我々のロボットにオープンワールドで行動する能力を持たせることで、クローズドワールドの仮定を破る必要がある。 そのような能力を実現するために、ロボットビジョンシステムは (i)あるインスタンスが既知のカテゴリ(例えば、オープンセット認識)の集合に属していないかどうかを識別し、 (ii)その知識を時間とともに新しい授業(即興学習)を学ぶために拡張する。 本稿では,クラス固有機能のグローバルからローカルへのクラスタリングを強制する新たな損失定式化によって,深いオープンワールド認識アルゴリズムの性能を向上させる方法を示す。 特に、第1の損失項、すなわちグローバルクラスタリング(英語版)は、ネットワークにそれらの属するクラスセントロイドに近いサンプルをマッピングさせ、第2の損失項である局所クラスタリング(英語版)は、同じクラスのサンプルが他のクラスに属する隣人をプッシュしながら表現空間に近づくように表現空間を形成する。 さらに,先行研究のように,単一のグローバルしきい値をヒューリスティックに推定するのではなく,クラス固有の拒絶しきい値を学ぶ戦略を提案する。 RGB-D ObjectとCore50データセットの実験は、我々のアプローチの有効性を示している。

While convolutional neural networks have brought significant advances in robot vision, their ability is often limited to closed world scenarios, where the number of semantic concepts to be recognized is determined by the available training set. Since it is practically impossible to capture all possible semantic concepts present in the real world in a single training set, we need to break the closed world assumption, equipping our robot with the capability to act in an open world. To provide such ability, a robot vision system should be able to (i) identify whether an instance does not belong to the set of known categories (i.e. open set recognition), and (ii) extend its knowledge to learn new classes over time (i.e. incremental learning). In this work, we show how we can boost the performance of deep open world recognition algorithms by means of a new loss formulation enforcing a global to local clustering of class-specific features. In particular, a first loss term, i.e. global clustering, forces the network to map samples closer to the class centroid they belong to while the second one, local clustering, shapes the representation space in such a way that samples of the same class get closer in the representation space while pushing away neighbours belonging to other classes. Moreover, we propose a strategy to learn class-specific rejection thresholds, instead of heuristically estimating a single global threshold, as in previous works. Experiments on RGB-D Object and Core50 datasets show the effectiveness of our approach.
翻訳日:2022-12-11 19:14:27 公開日:2020-11-30
# CIAGAN: 条件付きID匿名化生成敵ネットワーク

CIAGAN: Conditional Identity Anonymization Generative Adversarial Networks ( http://arxiv.org/abs/2005.09544v2 )

ライセンス: Link先を確認
Maxim Maximov, Ismail Elezi and Laura Leal-Taix\'e(参考訳) 社会におけるコンピュータビジョン技術の利用が前例のない増加にともない、データのプライバシーに対する懸念が高まっている。 人々の追跡や行動認識といった現実のシナリオでは、人々のアイデンティティを保護するために慎重に考慮しながらデータを処理できることが重要です。 本研究では,条件付き生成対向ネットワークに基づく画像およびビデオの匿名化モデルであるCIAGANを提案する。 我々のモデルは、検出や追跡などのコンピュータビジョンタスクに使用できる高品質の画像やビデオを作成しながら、顔や体の識別特性を除去することができる。 従来の方法とは異なり、匿名化(匿名化)手続きを完全に制御し、匿名化と多様性の両方を保証する。 提案手法をいくつかのベースラインと比較し,最先端の結果を得る。

The unprecedented increase in the usage of computer vision technology in society goes hand in hand with an increased concern in data privacy. In many real-world scenarios like people tracking or action recognition, it is important to be able to process the data while taking careful consideration in protecting people's identity. We propose and develop CIAGAN, a model for image and video anonymization based on conditional generative adversarial networks. Our model is able to remove the identifying characteristics of faces and bodies while producing high-quality images and videos that can be used for any computer vision task, such as detection or tracking. Unlike previous methods, we have full control over the de-identification (anonymization) procedure, ensuring both anonymization as well as diversity. We compare our method to several baselines and achieve state-of-the-art results.
翻訳日:2022-12-01 14:16:28 公開日:2020-11-30
# DetectoRS: 再帰的特徴ピラミッドと切り替え可能なアトラス畳み込みによるオブジェクトの検出

DetectoRS: Detecting Objects with Recursive Feature Pyramid and Switchable Atrous Convolution ( http://arxiv.org/abs/2006.02334v2 )

ライセンス: Link先を確認
Siyuan Qiao, Liang-Chieh Chen, Alan Yuille(参考訳) 多くの近代的な物体検出器は、2回見て考えるメカニズムを用いて優れた性能を示した。 本稿では,物体検出のためのバックボーン設計において,この機構を考察する。 マクロレベルでは、Feature Pyramid Networksからボトムアップバックボーン層への追加のフィードバック接続を組み込んだRecursive Feature Pyramidを提案する。 マイクロレベルでは、機能を異なるatrousレートで結合し、switch関数を用いて結果を収集するswitchable atrous convolutionを提案する。 これらを組み合わせることで、オブジェクト検出のパフォーマンスが大幅に向上するDetectoRSが実現される。 COCOテストデブでは、オブジェクト検出のための最先端55.7%のボックスAP、インスタンスセグメンテーションのための48.5%のマスクAP、パン光学セグメンテーションのための50.0%のPQを達成する。 コードは公開されています。

Many modern object detectors demonstrate outstanding performances by using the mechanism of looking and thinking twice. In this paper, we explore this mechanism in the backbone design for object detection. At the macro level, we propose Recursive Feature Pyramid, which incorporates extra feedback connections from Feature Pyramid Networks into the bottom-up backbone layers. At the micro level, we propose Switchable Atrous Convolution, which convolves the features with different atrous rates and gathers the results using switch functions. Combining them results in DetectoRS, which significantly improves the performances of object detection. On COCO test-dev, DetectoRS achieves state-of-the-art 55.7% box AP for object detection, 48.5% mask AP for instance segmentation, and 50.0% PQ for panoptic segmentation. The code is made publicly available.
翻訳日:2022-11-25 18:12:04 公開日:2020-11-30
# セマンティックセグメンテーションのための3次元LiDARデータについて 調査と実験研究

Are We Hungry for 3D LiDAR Data for Semantic Segmentation? A Survey and Experimental Study ( http://arxiv.org/abs/2006.04307v2 )

ライセンス: Link先を確認
Biao Gao, Yancheng Pan, Chengkun Li, Sibo Geng, Huijing Zhao(参考訳) 3Dセマンティックセグメンテーションは、ロボットおよび自律運転アプリケーションの基本課題である。 近年,詳細な3次元LiDARデータセットの開発は極めて労働集約的であり,専門的なスキルを必要としている。 不十分なデータセットによって引き起こされるパフォーマンスの制限は、データ飢餓問題と呼ばれる。 この研究は、セマンティックセグメンテーションのための3D LiDARデータに飢えがあるか? 研究は3段階で行われる。 まず、主要な3dlidarデータセットの広範なレビューを行い、次に、3つの代表的なデータセットに関する統計分析を行い、深層モデルを学ぶ上で重要な要素であるデータセットのサイズと多様性について深い視点を得る。 第2に,最先端の3次元セマンティクスセグメンテーションを体系的にレビューし,次に3つの代表的なディープラーニング手法の実験と横断試験を行い,データセットのサイズと多様性がディープモデルのパフォーマンスにどのように影響するかを明らかにする。 最後に,既存のデータ飢餓問題の解決に向けた体系的な調査を,方法論とデータセットの両面から実施し,残る問題とオープンな質問に関する洞察に富んだ議論を行った。私たちの知識の最大限に活用するために,文献レビュー,統計解析,クロスデータセットおよびクロスアルゴリズム実験において,ディープラーニング技術を用いて3次元セマンティックセグメンテーションのためのデータ飢餓問題を解析する最初の試みである。 我々は発見と議論を共有しており、将来の作業において潜在的なトピックにつながる可能性がある。

3D semantic segmentation is a fundamental task for robotic and autonomous driving applications. Recent works have been focused on using deep learning techniques, whereas developing fine-annotated 3D LiDAR datasets is extremely labor intensive and requires professional skills. The performance limitation caused by insufficient datasets is called data hunger problem. This research provides a comprehensive survey and experimental study on the question: are we hungry for 3D LiDAR data for semantic segmentation? The studies are conducted at three levels. First, a broad review to the main 3D LiDAR datasets is conducted, followed by a statistical analysis on three representative datasets to gain an in-depth view on the datasets' size and diversity, which are the critical factors in learning deep models. Second, a systematic review to the state-of-the-art 3D semantic segmentation is conducted, followed by experiments and cross examinations of three representative deep learning methods to find out how the size and diversity of the datasets affect deep models' performance. Finally, a systematic survey to the existing efforts to solve the data hunger problem is conducted on both methodological and dataset's viewpoints, followed by an insightful discussion of remaining problems and open questions To the best of our knowledge, this is the first work to analyze the data hunger problem for 3D semantic segmentation using deep learning techniques that are addressed in the literature review, statistical analysis, and cross-dataset and cross-algorithm experiments. We share findings and discussions, which may lead to potential topics in future works.
翻訳日:2022-11-24 01:51:46 公開日:2020-11-30
# FrostNet: 量子化対応ネットワークアーキテクチャ検索を目指して

FrostNet: Towards Quantization-Aware Network Architecture Search ( http://arxiv.org/abs/2006.09679v4 )

ライセンス: Link先を確認
Taehoon Kim, YoungJoon Yoo, Jihoon Yang(参考訳) int8量子化は、メモリと計算リソースの使用を減らすために、畳み込みニューラルネットワーク(cnns)をエッジデバイスにデプロイする標準的な技術の一つとなっている。 既存のモバイルターゲットネットワークアーキテクチャの量子化性能を解析することにより、最適なINT8量子化のためのネットワークアーキテクチャの重要性に関する問題を提起することができる。 本稿では、フル精度(FLOAT32)と量子化(INT8)の両方の性能を保証するネットワークを見つけるための新しいネットワークアーキテクチャサーチ(NAS)手法を提案する。 まず、量子化対応トレーニング(QAT)を可能にするクリティカルだが簡単な最適化手法を提案し、浮動小数点統計アシスト(StatAssist)と確率勾配増強(GradBoost)を提案する。 勾配に基づくNASをStatAssistとGradBoostと組み合わせることで、量子化効率の高いネットワーク構築ブロックFrostのボトルネックを発見した。 さらに,ハードウェアアウェアnasのビルディングブロックとしてフロストボトルネックを用いて量子化効率の高いネットワークであるfrostnetsを取得し,他のモバイルターゲットネットワークに比べて量子化性能が向上し,float32の性能も向上した。 我々のフロストネットは、量子化時に同等のレイテンシを持つ既存のcnnよりも高い認識精度を実現している(平均65%)。

INT8 quantization has become one of the standard techniques for deploying convolutional neural networks (CNNs) on edge devices to reduce the memory and computational resource usages. By analyzing quantized performances of existing mobile-target network architectures, we can raise an issue regarding the importance of network architecture for optimal INT8 quantization. In this paper, we present a new network architecture search (NAS) procedure to find a network that guarantees both full-precision (FLOAT32) and quantized (INT8) performances. We first propose critical but straightforward optimization method which enables quantization-aware training (QAT) : floating-point statistic assisting (StatAssist) and stochastic gradient boosting (GradBoost). By integrating the gradient-based NAS with StatAssist and GradBoost, we discovered a quantization-efficient network building block, Frost bottleneck. Furthermore, we used Frost bottleneck as the building block for hardware-aware NAS to obtain quantization-efficient networks, FrostNets, which show improved quantization performances compared to other mobile-target networks while maintaining competitive FLOAT32 performance. Our FrostNets achieve higher recognition accuracy than existing CNNs with comparable latency when quantized, due to higher latency reduction rate (average 65%).
翻訳日:2022-11-19 19:07:43 公開日:2020-11-30
# CoSE: 組成ストローク埋め込み

CoSE: Compositional Stroke Embeddings ( http://arxiv.org/abs/2006.09930v2 )

ライセンス: Link先を確認
Emre Aksan, Thomas Deselaers, Andrea Tagliasacchi, Otmar Hilliges(参考訳) 本稿では,ストロークに基づく描画タスクなどの複雑な自由形式構造に対する生成モデルを提案する。 従来のアプローチでは,基本オブジェクトの描画や手書きテキストの描画にシーケンスベースモデルを採用しているが,図形(フローチャートなど)のような複雑な構造に構成可能なストロークの集合として描画を扱うモデルを提案する。 アプローチの中心には、可変長ストロークを固定次元の潜在空間に投影する新しいオートエンコーダがある。 この表現空間により、潜在空間で動作する関係モデルは、ストローク間の関係をよりよく捉え、その後のストロークを予測することができる。 我々は,提案手法が個々のストロークの出現や,より大きな図面の構成構造をモデル化できることを定性的かつ定量的に示す。 我々のアプローチは、自動補完図のようなインタラクティブなユースケースに適している。 コードとモデルをhttps://eth-ait.github.io/coseで公開しています。

We present a generative model for complex free-form structures such as stroke-based drawing tasks. While previous approaches rely on sequence-based models for drawings of basic objects or handwritten text, we propose a model that treats drawings as a collection of strokes that can be composed into complex structures such as diagrams (e.g., flow-charts). At the core of the approach lies a novel autoencoder that projects variable-length strokes into a latent space of fixed dimension. This representation space allows a relational model, operating in latent space, to better capture the relationship between strokes and to predict subsequent strokes. We demonstrate qualitatively and quantitatively that our proposed approach is able to model the appearance of individual strokes, as well as the compositional structure of larger diagram drawings. Our approach is suitable for interactive use cases such as auto-completing diagrams. We make code and models publicly available at https://eth-ait.github.io/cose.
翻訳日:2022-11-19 19:06:10 公開日:2020-11-30
# 高速行列平方根とガウス過程とベイズ最適化への応用

Fast Matrix Square Roots with Applications to Gaussian Processes and Bayesian Optimization ( http://arxiv.org/abs/2006.11267v2 )

ライセンス: Link先を確認
Geoff Pleiss, Martin Jankowiak, David Eriksson, Anil Damle, Jacob R. Gardner(参考訳) 行列の平方根とその逆元は機械学習において頻繁に発生する(例えば、高次元ガウス群から$\mathcal{n}(\mathbf 0, \mathbf k)$ または共分散行列 $\mathbf k$ に対してベクトル $\mathbf b$ をホワイトニングする場合など)。 既存の方法は一般に$O(N^3)$計算を必要とするが、$\mathbf K^{1/2} \mathbf b$, $\mathbf K^{-1/2} \mathbf b$とその微分は行列ベクトル乗算(MVM)によって計算される。 本手法は, krylov 部分空間法と有理近似を組み合わせることで, 100 ドルの mvm 未満の精度で 4 桁の十進位置を実現する。 さらに、後方通過は、計算をほとんど必要としない。 50,\! 行列に対する本手法の適用性を示す。 000 \times 50,\! 000$ – 従来の方法をはるかに超える – 近似誤差はほとんどありません。 この拡張性を変分ガウス過程、ベイズ最適化、ギブスサンプリングに適用すると、より高精度なモデルが得られる。

Matrix square roots and their inverses arise frequently in machine learning, e.g., when sampling from high-dimensional Gaussians $\mathcal{N}(\mathbf 0, \mathbf K)$ or whitening a vector $\mathbf b$ against covariance matrix $\mathbf K$. While existing methods typically require $O(N^3)$ computation, we introduce a highly-efficient quadratic-time algorithm for computing $\mathbf K^{1/2} \mathbf b$, $\mathbf K^{-1/2} \mathbf b$, and their derivatives through matrix-vector multiplication (MVMs). Our method combines Krylov subspace methods with a rational approximation and typically achieves $4$ decimal places of accuracy with fewer than $100$ MVMs. Moreover, the backward pass requires little additional computation. We demonstrate our method's applicability on matrices as large as $50,\!000 \times 50,\!000$ - well beyond traditional methods - with little approximation error. Applying this increased scalability to variational Gaussian processes, Bayesian optimization, and Gibbs sampling results in more powerful models with higher accuracy.
翻訳日:2022-11-19 04:07:35 公開日:2020-11-30
# 無限混合ガウス過程を用いたタスク非依存オンライン強化学習

Task-Agnostic Online Reinforcement Learning with an Infinite Mixture of Gaussian Processes ( http://arxiv.org/abs/2006.11441v3 )

ライセンス: Link先を確認
Mengdi Xu, Wenhao Ding, Jiacheng Zhu, Zuxin Liu, Baiming Chen, Ding Zhao(参考訳) メタラーニングや継続的学習では、未確認のタスクを限られた経験で解決するための継続的学習が広く追求されているが、アクセス可能なタスク分布、独立的で同一の分散タスク、明確なタスク記述といった仮定は限られている。 しかし、現実世界の物理タスクはこれらの仮定にしばしば違反し、性能が低下する。 本稿では,未知のタスク境界を持つタスク非依存な問題を解決するために,事前学習を必要としないオンラインモデルに基づく強化学習手法を提案する。 非定常性を扱うための専門家の混合を維持し、ガウス過程を用いて各種類のダイナミクスを表現し、収集したデータを効率的に活用し、不確実性を表現的にモデル化する。 本稿では,ストリーミングデータの時間的依存性を考慮する前の遷移を提案し,逐次変分推論により混合をオンラインで更新する。 提案手法は,従来は見つからなかったダイナミックスに対する新しいモデルの生成と,それ以前のダイナミックスに対する古いモデル再利用により,タスク分散シフトを確実に処理する。 実験では、動的に変化する古典的な制御や、異なる駆動シナリオでの意思決定など、非定常タスクにおける代替手法よりも優れている。

Continuously learning to solve unseen tasks with limited experience has been extensively pursued in meta-learning and continual learning, but with restricted assumptions such as accessible task distributions, independently and identically distributed tasks, and clear task delineations. However, real-world physical tasks frequently violate these assumptions, resulting in performance degradation. This paper proposes a continual online model-based reinforcement learning approach that does not require pre-training to solve task-agnostic problems with unknown task boundaries. We maintain a mixture of experts to handle nonstationarity, and represent each different type of dynamics with a Gaussian Process to efficiently leverage collected data and expressively model uncertainty. We propose a transition prior to account for the temporal dependencies in streaming data and update the mixture online via sequential variational inference. Our approach reliably handles the task distribution shift by generating new models for never-before-seen dynamics and reusing old models for previously seen dynamics. In experiments, our approach outperforms alternative methods in non-stationary tasks, including classic control with changing dynamics and decision making in different driving scenarios.
翻訳日:2022-11-19 03:20:17 公開日:2020-11-30
# Tensor Programs II: あらゆるアーキテクチャのためのニューラルネットワークカーネル

Tensor Programs II: Neural Tangent Kernel for Any Architecture ( http://arxiv.org/abs/2006.14548v4 )

ライセンス: Link先を確認
Greg Yang(参考訳) 任意のアーキテクチャのランダムに初期化されたニューラルネットワーク*は、ネットワーク幅が無限大になる傾向があるため、そのTangent Kernel(NTK)が決定論的極限に収束することを示す。 この限界を計算する方法を実証する。 以前の文献では、ニューラルネットワーク勾配のヒューリスティックな研究は、前方伝播で使われるすべての重み行列は、バックプロパゲーションで使われるトランスポーズとは独立であるとしばしば仮定している(schoenholz et al. 2017)。 これは *gradient independence assumption (gia)* として知られている。 GIA に基づく NTK 制限計算が正しいことを *Simple GIA Check* と呼ぶ一般的な条件を同定する。 逆に、単純なGAAチェックが失敗した場合、GAAが間違った答えをもたらす可能性があることを示す。 本稿では,Yang (2019a) のNTK結果を親しみやすい方法で提示し,広義のニューラルネットワークを理解するための *tensor program* テクニックを紹介する。 我々は、リカレントニューラルネットワーク、トランスフォーマー、バッチ正規化の無限幅ntkをhttps://github.com/thegregyang/ntk4aで参照実装する。

We prove that a randomly initialized neural network of *any architecture* has its Tangent Kernel (NTK) converge to a deterministic limit, as the network widths tend to infinity. We demonstrate how to calculate this limit. In prior literature, the heuristic study of neural network gradients often assumes every weight matrix used in forward propagation is independent from its transpose used in backpropagation (Schoenholz et al. 2017). This is known as the *gradient independence assumption (GIA)*. We identify a commonly satisfied condition, which we call *Simple GIA Check*, such that the NTK limit calculation based on GIA is correct. Conversely, when Simple GIA Check fails, we show GIA can result in wrong answers. Our material here presents the NTK results of Yang (2019a) in a friendly manner and showcases the *tensor programs* technique for understanding wide neural networks. We provide reference implementations of infinite-width NTKs of recurrent neural network, transformer, and batch normalization at https://github.com/thegregyang/NTK4A.
翻訳日:2022-11-17 02:37:39 公開日:2020-11-30
# smpr: 単段多人数ポーズ回帰

SMPR: Single-Stage Multi-Person Pose Regression ( http://arxiv.org/abs/2006.15576v2 )

ライセンス: Link先を確認
Junqi Lin, Huixin Miao, Junjie Cao, Zhixun Su, Risheng Liu(参考訳) 既存の多人数ポーズ推定器は、2段階のアプローチ(トップダウンとボトムアップ)と1段階のアプローチに大別できる。 2段階の手法は、追加の人物検出器に対する高い計算冗長性を被るか、全てのインスタンスフリーキーポイントを予測した後、ヒューリスティックにグループキーポイントを被る。 最近提案された単段法は、上記の2つの追加ステージに依存しないが、最新のボトムアップアプローチよりも低いパフォーマンスを持つ。 本研究では,SMPRと呼ばれる新しい一段階多人数ポーズレグレッションについて述べる。 これは密集予測のパラダイムに従い、すべての場所からインスタンス対応キーポイントを予測する。 特徴集合の他に,重み付けされたポーズ推定において重要な役割を果たす正のポーズ仮説を定義するためのより良い戦略を提案する。 ネットワークは推定されたポーズのスコアも学習する。 ポーズスコア戦略は、非最大抑制(NMS)時に優れたポーズを優先順位付けすることにより、ポーズ推定性能をさらに向上する。 提案手法は,既存の単段法に勝るだけでなく,COCOテストデブポーズベンチマークで70.2 APおよび77.5 AP75を用いて,最新のボトムアップ手法と競合することを示す。 コードはhttps://github.com/cmdi-dlut/SMPRで入手できる。

Existing multi-person pose estimators can be roughly divided into two-stage approaches (top-down and bottom-up approaches) and one-stage approaches. The two-stage methods either suffer high computational redundancy for additional person detectors or group keypoints heuristically after predicting all the instance-free keypoints. The recently proposed single-stage methods do not rely on the above two extra stages but have lower performance than the latest bottom-up approaches. In this work, a novel single-stage multi-person pose regression, termed SMPR, is presented. It follows the paradigm of dense prediction and predicts instance-aware keypoints from every location. Besides feature aggregation, we propose better strategies to define positive pose hypotheses for training which all play an important role in dense pose estimation. The network also learns the scores of estimated poses. The pose scoring strategy further improves the pose estimation performance by prioritizing superior poses during non-maximum suppression (NMS). We show that our method not only outperforms existing single-stage methods and but also be competitive with the latest bottom-up methods, with 70.2 AP and 77.5 AP75 on the COCO test-dev pose benchmark. Code is available at https://github.com/cmdi-dlut/SMPR.
翻訳日:2022-11-16 02:53:16 公開日:2020-11-30
# fNIRSを用いたセッションと課題間のロバストなワークロードレベルアライメントのためのドメイン適応

Domain Adaptation for Robust Workload Level Alignment Between Sessions and Subjects using fNIRS ( http://arxiv.org/abs/2007.06706v2 )

ライセンス: Link先を確認
Boyang Lyu, Thao Pham, Giles Blaney, Zachary Haga, Angelo Sassaroli, Sergio Fantini, Shuchin Aeron(参考訳) 意義: 機能的近赤外分光法(fNIRS)データに領域適応を応用し, 作業記憶に関わる様々なn-backタスクを分類する可能性を実証した。 目的: fnirsデータのドメインシフトは、さまざまな実験セッションと課題にわたるワークロードレベルのアライメントにおける課題である。 この問題に対処するために、Gromov-Wasserstein (G-W) とFused Gromov-Wasserstein (FG-W) という2つのドメイン適応手法が用いられた。 アプローチ: 1つのセッションまたは1つのセッションのラベル付きデータを用いて、別のセッション(同じテーマ)または別のテーマのトライアルを分類した。 我々はセッション・バイ・セッション・アライメントにG-Wを適用し,異なるn-backタスクレベルで取得したfNIRSデータに対して主観的アライメントにFG-Wを適用した。 我々はこれらの手法を,マルチクラスサポートベクトルマシン(SVM),畳み込みニューラルネットワーク(CNN),リカレントニューラルネットワーク(RNN)の3つの教師付き手法と比較した。 結果: 6名の被験者のサンプルでは、g-w はセッション毎アライメントのアライメント精度が68$\pm$ 4 %(強調平均$\pm$ standard error)となり、fg-w はサブジェクト・バイ・サブジェクトアライメントのアライメント精度が55$\pm$ 2 %となった。 それぞれのケースでは、25%の精度がチャンスを表す。 G-WとFG-Wのアライメント精度は、SVM、CNN、RNNのアライメント精度よりもかなり大きい。 また,fNIRSデータからの運動アーティファクトの除去がアライメント性能向上に重要な役割を果たすことを示した。 結論: ドメイン適応は、fNIRSデータを用いて、メンタルワークロードのセッション・バイ・セッションとサブジェクト・バイ・オブジェクトアライメントの可能性を秘めている。

Significance: We demonstrated the potential of using domain adaptation on functional Near-Infrared Spectroscopy (fNIRS) data to classify different levels of n-back tasks that involve working memory. Aim: Domain shift in fNIRS data is a challenge in the workload level alignment across different experiment sessions and subjects. In order to address this problem, two domain adaptation approaches -- Gromov-Wasserstein (G-W) and Fused Gromov-Wasserstein (FG-W) were used. Approach: Specifically, we used labeled data from one session or one subject to classify trials in another session (within the same subject) or another subject. We applied G-W for session-by-session alignment and FG-W for subject-by-subject alignment to fNIRS data acquired during different n-back task levels. We compared these approaches with three supervised methods: multi-class Support Vector Machine (SVM), Convolutional Neural Network (CNN), and Recurrent Neural Network (RNN). Results: In a sample of six subjects, G-W resulted in an alignment accuracy of 68 $\pm$ 4 % (weighted mean $\pm$ standard error) for session-by-session alignment, FG-W resulted in an alignment accuracy of 55 $\pm$ 2 % for subject-by-subject alignment. In each of these cases, 25 % accuracy represents chance. Alignment accuracy results from both G-W and FG-W are significantly greater than those from SVM, CNN and RNN. We also showed that removal of motion artifacts from the fNIRS data plays an important role in improving alignment performance. Conclusions: Domain adaptation has potential for session-by-session and subject-by-subject alignment of mental workload by using fNIRS data.
翻訳日:2022-11-14 14:09:45 公開日:2020-11-30
# AutoBayes:Nuisance-Robust推論のためのベイズグラフの自動探索

AutoBayes: Automated Bayesian Graph Exploration for Nuisance-Robust Inference ( http://arxiv.org/abs/2007.01255v3 )

ライセンス: Link先を確認
Andac Demir, Toshiaki Koike-Akino, Ye Wang, Deniz Erdogmus(参考訳) タスクに関連した特徴をキャプチャするが、迷惑変動に不変なデータ表現の学習は、機械学習において依然として重要な課題である。 分類器,エンコーダ,デコーダ,推定器,敵ネットワークブロックをリンクして,ニュアサンス不変機械学習パイプラインを最適化する,さまざまなグラフィカルモデルを探索するautobayesと呼ばれる自動ベイズ推論フレームワークを導入する。 autobayesはまた、潜在変数を複数の要素に分割することで、迷惑変動とタスクラベルとのさまざまな関係を課す、不連続表現の学習を可能にする。 我々は,このフレームワークをいくつかの公開データセット上でベンチマークし,変動モデリングと逆行訓練を伴わずに,その主題移動学習能力の分析を行う。 探索されたグラフィカルモデル間でのアンサンブル学習による大幅な性能向上を示す。

Learning data representations that capture task-related features, but are invariant to nuisance variations remains a key challenge in machine learning. We introduce an automated Bayesian inference framework, called AutoBayes, that explores different graphical models linking classifier, encoder, decoder, estimator and adversarial network blocks to optimize nuisance-invariant machine learning pipelines. AutoBayes also enables learning disentangled representations, where the latent variable is split into multiple pieces to impose various relationships with the nuisance variation and task labels. We benchmark the framework on several public datasets, and provide analysis of its capability for subject-transfer learning with/without variational modeling and adversarial training. We demonstrate a significant performance improvement with ensemble learning across explored graphical models.
翻訳日:2022-11-14 13:50:54 公開日:2020-11-30
# ADMMに応用したアンダーソン加速度の漸近線形収束速度について

On the Asymptotic Linear Convergence Speed of Anderson Acceleration Applied to ADMM ( http://arxiv.org/abs/2007.02916v3 )

ライセンス: Link先を確認
Dawei Wang, Yunhui He, Hans De Sterck(参考訳) 実験の結果,ADMM自体が線形収束する場合,アンダーソン加速度(AA)は交互乗算器の交互方向収束法(ADMM)の漸近線形収束速度を改善する強力な機構であることが示された。 しかし、この改良を定量化する理論的な結果はまだ存在しない。 本稿では,ADMMに適用された定常バージョンのAAの特別な場合に対する線形漸近収束速度の改善について説明し,定量化する。 本稿では,ADMM のヤコビアンスペクトル特性と固定点で評価された AA の定常バージョンを考察し,その漸近線形収束係数が最適となるような定常 AA 法の係数を計算する。 この定常AA-ADMM法の最適線形収束係数は、前回の定常AA加速度に基づく解析的または最適化によって計算される。 このスペクトル図とそれらの解析結果を用いて,ADMMの漸近線形収束係数をどの程度向上させることができるか,またその方法によって新たな知見が得られる。 また, 定常 aa 法の最適線形収束係数は, 非定常 aa 法の漸近的線形収束速度の予測に有用であることを示した。

Empirical results show that Anderson acceleration (AA) can be a powerful mechanism to improve the asymptotic linear convergence speed of the Alternating Direction Method of Multipliers (ADMM) when ADMM by itself converges linearly. However, theoretical results to quantify this improvement do not exist yet. In this paper we explain and quantify this improvement in linear asymptotic convergence speed for the special case of a stationary version of AA applied to ADMM. We do so by considering the spectral properties of the Jacobians of ADMM and the stationary version of AA evaluated at the fixed point, where the coefficients of the stationary AA method are computed such that its asymptotic linear convergence factor is optimal. The optimal linear convergence factors of this stationary AA-ADMM method are computed analytically or by optimization, based on previous work on optimal stationary AA acceleration. Using this spectral picture and those analytical results, our approach provides new insight into how and by how much the stationary AA method can improve the asymptotic linear convergence factor of ADMM. Numerical results also indicate that the optimal linear convergence factor of the stationary AA methods gives a useful estimate for the asymptotic linear convergence speed of the non-stationary AA method that is used in practice.
翻訳日:2022-11-13 03:28:30 公開日:2020-11-30
# マトリックス分解によるエコーフォア時系列の時間過程のコンパクト表現

Compact representation of temporal processes in echosounder time series via matrix decomposition ( http://arxiv.org/abs/2007.02906v2 )

ライセンス: Link先を確認
Wu-Jung Lee, Valentina Staneva(参考訳) 近年、海面プラットフォームからのエコー音データの利用が爆発的に増加し、海洋生態系を広範囲に観測する前例のない機会が生まれている。 しかし、顕著な時空間エコーグラム構造を自動的に発見し要約できる手法の欠如は、これらのリッチデータセットの有効かつ広範な使用を制限している。 この課題に対処するため,我々は,データに内在する特徴を用いて,長期的なエコーフォア時系列のコンパクト表現を構築する行列分解に基づくデータ駆動手法を開発した。 2段階のアプローチでは、まず主成分探索によってデータからノイズの多い外れ値を取り除き、その後、時間的に滑らかな非負の行列因子分解を用いて、時間変化線形結合(アクティベーション)によって支配的なエコーグラム構造が再構成される少数の異なる日次エコーグラムパターンを自動的に発見する。 この低ランク表現は、元のデータよりも扱いやすく解釈可能な生物学的情報を提供し、他の海洋変数との可視化と系統解析に適している。 固定された手作りのルールに依存する既存の方法とは異なり、教師なしの機械学習アプローチは、馴染みのない、あるいは急速に変化するエコシステムから収集されたデータから情報を抽出するのに適しています。 この研究は、海洋における大規模で音響に基づく生物学的観測のための堅牢な時系列解析を構築する基盤となる。

The recent explosion in the availability of echosounder data from diverse ocean platforms has created unprecedented opportunities to observe the marine ecosystems at broad scales. However, the critical lack of methods capable of automatically discovering and summarizing prominent spatio-temporal echogram structures has limited the effective and wider use of these rich datasets. To address this challenge, we develop a data-driven methodology based on matrix decomposition that builds compact representation of long-term echosounder time series using intrinsic features in the data. In a two-stage approach, we first remove noisy outliers from the data by Principal Component Pursuit, then employ a temporally smooth Nonnegative Matrix Factorization to automatically discover a small number of distinct daily echogram patterns, whose time-varying linear combination (activation) reconstructs the dominant echogram structures. This low-rank representation provides biological information that is more tractable and interpretable than the original data, and is suitable for visualization and systematic analysis with other ocean variables. Unlike existing methods that rely on fixed, handcrafted rules, our unsupervised machine learning approach is well-suited for extracting information from data collected from unfamiliar or rapidly changing ecosystems. This work forms the basis for constructing robust time series analytics for large-scale, acoustics-based biological observation in the ocean.
翻訳日:2022-11-13 03:22:35 公開日:2020-11-30
# 一般化ゼロショット学習のための2レベル対向的ビジュアルセマンティック結合

Two-Level Adversarial Visual-Semantic Coupling for Generalized Zero-shot Learning ( http://arxiv.org/abs/2007.07757v2 )

ライセンス: Link先を確認
Shivam Chandhok and Vineeth N Balasubramanian(参考訳) 生成ゼロショット法の性能は、生成した特徴の品質と、そのモデルが視覚領域と意味領域間の知識伝達をいかに促進するかに大きく依存する。 生成された機能の品質は、モデルが基盤となるデータ分散の複数のモードをキャプチャする能力の直接の結果である。 そこで本研究では,学習中に生成ネットワークを推論ネットワークで強化し,モデルがデータの複数のモードをキャプチャし,基礎となるデータ分布をよりよく表現する機能を生成するための,新たな2段階統合最大化手法を提案する。 これにより、ビジュアルドメインとセマンティックドメイン間の効果的な知識伝達のための強力な相互モーダル相互作用が提供される。 さらに、既存の手法では、表現学習を利用して合成画像特徴を生成するか、潜在埋め込みを生成するためにゼロショット分類器を訓練している。 本研究では,これらのパラダイムを,画像特徴の合成に加えて,推論ネットワークの表現学習機能を利用して,最終的なゼロショット認識タスクの識別機能を提供する単一モデルに統一する。 我々は,cub,flo,awa1,awa2の4つのベンチマークデータセットに対するアプローチを評価し,その性能を示す。 また,一般ゼロショット学習タスクにおいて,この手法をより慎重に分析し,理解するためにアブレーション研究を行う。

The performance of generative zero-shot methods mainly depends on the quality of generated features and how well the model facilitates knowledge transfer between visual and semantic domains. The quality of generated features is a direct consequence of the ability of the model to capture the several modes of the underlying data distribution. To address these issues, we propose a new two-level joint maximization idea to augment the generative network with an inference network during training which helps our model capture the several modes of the data and generate features that better represent the underlying data distribution. This provides strong cross-modal interaction for effective transfer of knowledge between visual and semantic domains. Furthermore, existing methods train the zero-shot classifier either on generate synthetic image features or latent embeddings produced by leveraging representation learning. In this work, we unify these paradigms into a single model which in addition to synthesizing image features, also utilizes the representation learning capabilities of the inference network to provide discriminative features for the final zero-shot recognition task. We evaluate our approach on four benchmark datasets i.e. CUB, FLO, AWA1 and AWA2 against several state-of-the-art methods, and show its performance. We also perform ablation studies to analyze and understand our method more carefully for the Generalized Zero-shot Learning task.
翻訳日:2022-11-10 05:09:06 公開日:2020-11-30
# レヴィオサではなくレヴィオサだ! Valence-Arousal Structure Alignmentのための潜時符号化

It's LeVAsa not LevioSA! Latent Encodings for Valence-Arousal Structure Alignment ( http://arxiv.org/abs/2007.10058v3 )

ライセンス: Link先を確認
Surabhi S. Nath, Vishaal Udandarao, Jainendra Shukla(参考訳) 近年は、感情コンピューティングの分野で大きな進歩を遂げている。 感情を表現し、定量化するためにいくつかのモデルが開発されている。 2つの人気がある。 (i)感情を離散ラベルとして表わす分類モデル、 (II)Valence-Arousal (VA) 領域における感情を表現する次元モデル。 しかし,2つのラベル付け手法間のアノテーションマッピングの標準は存在しない。 感情的な顔画像データセット間のアノテーション転送を用いた分類モデルラベルと次元モデルラベルをマッピングする新しいアルゴリズムを構築した。 さらに、変換されたアノテーションを用いて、変動オートエンコーダ(VAE)を用いてリッチで解釈可能なデータ表現を学習する。 本稿では、潜在空間とVA空間を整列させることにより暗黙構造を学習するVAEモデル「LeVAsa」を提案する。 本研究では,2つのベンチマークイメージデータセットの定量的および質的分析を用いて,Vanilla VAEとの比較によりLeVAsaの有効性を評価する。 以上の結果から,LeVAsaは低周波アライメントを実現し,下流のカテゴリー感情予測の改善につながることが明らかとなった。 作業はまた、アライメントの程度と再構築の質の間のトレードオフを示す。

In recent years, great strides have been made in the field of affective computing. Several models have been developed to represent and quantify emotions. Two popular ones include (i) categorical models which represent emotions as discrete labels, and (ii) dimensional models which represent emotions in a Valence-Arousal (VA) circumplex domain. However, there is no standard for annotation mapping between the two labelling methods. We build a novel algorithm for mapping categorical and dimensional model labels using annotation transfer across affective facial image datasets. Further, we utilize the transferred annotations to learn rich and interpretable data representations using a variational autoencoder (VAE). We present "LeVAsa", a VAE model that learns implicit structure by aligning the latent space with the VA space. We evaluate the efficacy of LeVAsa by comparing performance with the Vanilla VAE using quantitative and qualitative analysis on two benchmark affective image datasets. Our results reveal that LeVAsa achieves high latent-circumplex alignment which leads to improved downstream categorical emotion prediction. The work also demonstrates the trade-off between degree of alignment and quality of reconstructions.
翻訳日:2022-11-08 14:25:51 公開日:2020-11-30
# 画像・映像合成のための生成型adversarial network:アルゴリズムと応用

Generative Adversarial Networks for Image and Video Synthesis: Algorithms and Applications ( http://arxiv.org/abs/2008.02793v2 )

ライセンス: Link先を確認
Ming-Yu Liu, Xun Huang, Jiahui Yu, Ting-Chun Wang, Arun Mallya(参考訳) GAN(Generative Adversarial Network)フレームワークは、様々な画像およびビデオ合成タスクのための強力なツールとして登場し、無条件または入力条件で視覚コンテンツを合成することができる。 従来の手法では難しい、あるいは不可能だった、高解像度のフォトリアリスティック画像とビデオの生成を可能にした。 また、コンテンツ作成における多くの新しいアプリケーションの作成にも繋がった。 本稿では,アルゴリズムと視覚合成への応用に焦点をあてたGANの概要について述べる。 我々は,GANトレーニングを安定化させる重要なテクニックをいくつか紹介する。 また,画像翻訳,画像処理,映像合成,ニューラルレンダリングへの応用についても述べる。

The generative adversarial network (GAN) framework has emerged as a powerful tool for various image and video synthesis tasks, allowing the synthesis of visual content in an unconditional or input-conditional manner. It has enabled the generation of high-resolution photorealistic images and videos, a task that was challenging or impossible with prior methods. It has also led to the creation of many new applications in content creation. In this paper, we provide an overview of GANs with a special focus on algorithms and applications for visual synthesis. We cover several important techniques to stabilize GAN training, which has a reputation for being notoriously difficult. We also discuss its applications to image translation, image processing, video synthesis, and neural rendering.
翻訳日:2022-11-02 07:28:55 公開日:2020-11-30
# オンライン症状評価の鑑別診断におけるCOVID-19

COVID-19 in differential diagnosis of online symptom assessments ( http://arxiv.org/abs/2008.03323v3 )

ライセンス: Link先を確認
Anitha Kannan, Richard Chen, Vignesh Venkataraman, Geoffrey J. Tso, Xavier Amatriain(参考訳) 新型コロナウイルス(COVID-19)のパンデミックは、オンラインのヘルスケアソリューションを探している人たちの、既存の傾向を拡大した。 ソリューションの1つのクラスは症状チェッカーであり、COVID-19の文脈で非常に人気を博している。 しかし、従来の症状チェッカーは、手作業でキュレートされたエキスパートシステムに基づいており、特に現在直面しているような、急速に変化する状況において、柔軟で修正が難しい。 そのため、新型コロナウイルスの既存のソリューションはすべて手動の症状チェッカーであり、この疾患の確率を推測し、代替仮説を考えたり、鑑別診断を行うことができない。 機械学習は代替手段を提供するが、信頼できるデータがないため、COVID-19にも簡単に適用できない。 本稿では,従来のAIエキスパートシステムの強みと,新しいディープラーニングモデルを組み合わせたアプローチを提案する。 そうすることで、先行知識と既存のデータを活用することで、世界の現在の状況と最新の科学的知識に最も適応したモデルを素早く導き出すことができます。 このアプローチは、医師と患者の両方の医療的意思決定支援に使用できる、covid-19対応の鑑別診断モデルをトレーニングするために使用します。 当社のアプローチは、過去にモデル化された条件の正確性を保ちながら、新型コロナウイルスに関する新しい入ってくるデータを正確にモデル化できることを示します。 私たちのアプローチは、現在直面しているような極端な状況に対して明らかで明確な利点を示していますが、その柔軟性は、この具体的、しかし非常に重要なものであることも示しています。

The COVID-19 pandemic has magnified an already existing trend of people looking for healthcare solutions online. One class of solutions are symptom checkers, which have become very popular in the context of COVID-19. Traditional symptom checkers, however, are based on manually curated expert systems that are inflexible and hard to modify, especially in a quickly changing situation like the one we are facing today. That is why all COVID-19 existing solutions are manual symptom checkers that can only estimate the probability of this disease and cannot contemplate alternative hypothesis or come up with a differential diagnosis. While machine learning offers an alternative, the lack of reliable data does not make it easy to apply to COVID-19 either. In this paper we present an approach that combines the strengths of traditional AI expert systems and novel deep learning models. In doing so we can leverage prior knowledge as well as any amount of existing data to quickly derive models that best adapt to the current state of the world and latest scientific knowledge. We use the approach to train a COVID-19 aware differential diagnosis model that can be used for medical decision support both for doctors or patients. We show that our approach is able to accurately model new incoming data about COVID-19 while still preserving accuracy on conditions that had been modeled in the past. While our approach shows evident and clear advantages for an extreme situation like the one we are currently facing, we also show that its flexibility generalizes beyond this concrete, but very important, example.
翻訳日:2022-11-02 00:35:44 公開日:2020-11-30
# 可変長12レベル心電図の分類における雑音に対するCNNロバスト性

Enhance CNN Robustness Against Noises for Classification of 12-Lead ECG with Variable Length ( http://arxiv.org/abs/2008.03609v4 )

ライセンス: Link先を確認
Linhai Ma, Liang Liang(参考訳) 心電図(Electrocardiogram, ECG)は、心血管系の状態をモニターする最も広く用いられる診断ツールである。 ディープニューラルネットワーク(Deep Neural Network, DNN)は、心電図信号の自動解釈のために多くの研究室で開発されている。 十分な量のデータがあれば、DNNの分類精度は人間の専門的な心臓科医レベルに達する可能性がある。 しかし, 分類精度が優れているにもかかわらず, DNNは, DNNの入力の微妙な変化を伴い, 信頼度の高いクラスラベル予測の誤りにつながる敵対的雑音に対して非常に脆弱であることが示されている。 したがって、生命クリティカルな応用であるECG信号分類において、逆方向雑音に対するDNNの堅牢性を改善することは困難かつ不可欠である。 本研究では,12誘導ECG信号を可変長で分類するためのCNNを設計し,CNNの堅牢性を向上させるために3つの防御手法を適用した。 本研究のECGデータは非常に難しいのは,サンプルサイズが限られており,各ECG記録の長さが広い範囲で変化するためである。 評価の結果,cpsc2018 ecg分類チャレンジの上位6項目に匹敵するf1スコアと平均精度を満たし,cnnの逆雑音や白色雑音に対する頑健性を高め,クリーンデータにおける精度を最小に抑えることができた。

Electrocardiogram (ECG) is the most widely used diagnostic tool to monitor the condition of the cardiovascular system. Deep neural networks (DNNs), have been developed in many research labs for automatic interpretation of ECG signals to identify potential abnormalities in patient hearts. Studies have shown that given a sufficiently large amount of data, the classification accuracy of DNNs could reach human-expert cardiologist level. However, despite of the excellent performance in classification accuracy, it has been shown that DNNs are highly vulnerable to adversarial noises which are subtle changes in input of a DNN and lead to a wrong class-label prediction with a high confidence. Thus, it is challenging and essential to improve robustness of DNNs against adversarial noises for ECG signal classification, a life-critical application. In this work, we designed a CNN for classification of 12-lead ECG signals with variable length, and we applied three defense methods to improve robustness of this CNN for this classification task. The ECG data in this study is very challenging because the sample size is limited, and the length of each ECG recording varies in a large range. The evaluation results show that our customized CNN reached satisfying F1 score and average accuracy, comparable to the top-6 entries in the CPSC2018 ECG classification challenge, and the defense methods enhanced robustness of our CNN against adversarial noises and white noises, with a minimal reduction in accuracy on clean data.
翻訳日:2022-11-01 11:57:48 公開日:2020-11-30
# reval: 安定性ベースの相対クラスタリング検証で最高のクラスタリングソリューションを決定するpythonパッケージ

reval: a Python package to determine best clustering solutions with stability-based relative clustering validation ( http://arxiv.org/abs/2009.01077v2 )

ライセンス: Link先を確認
Isotta Landi, Veronica Mandelli, Michael V. Lombardo(参考訳) データセットの最良のパーティションを決定するのは難しい作業です。 1) 教師なし学習枠組みにおける事前情報の欠如,及び 2)クラスタリングソリューションを評価するためのユニークなクラスタリング検証アプローチがない。 Revalは、安定性に基づいた相対クラスタリング検証手法を利用して、最適なクラスタリングソリューションを、目に見えないデータに最も一般化したものとして決定するPythonパッケージです。 統計ソフトウェアは、RとPythonの両方で、典型的には、データに最も適したクラスタ数を選択するために、シルエットのような内部検証メトリクスに依存する。 一方、相対的なクラスタリング技術を簡単に実装するオープンソースソフトウェアソリューションは不足している。 内部検証手法は、データ自体の特性を利用して結果を生成するが、相対的なアプローチは、一般化可能で複製可能な結果を求めるデータポイントの未知の分布を活用する。 相対的検証手法の実装は、異なる状況や異なるデータ分布におけるクラスタリング結果を調べるのに使用できる既に利用可能な手法を豊かにすることにより、クラスタリングの理論をさらに強化することができる。 この研究は、教師付き学習を通じて、見えないデータのサブセットに複製する最適なクラスタリングソリューションを選択できる、安定性に基づく方法を開発することで、この取り組みに貢献することを目的としています。 このパッケージは複数のクラスタリングと分類アルゴリズムで動作するため、ラベル付けプロセスの自動化と異なるクラスタリング機構の安定性の評価が可能である。

Determining the best partition for a dataset can be a challenging task because of 1) the lack of a priori information within an unsupervised learning framework; and 2) the absence of a unique clustering validation approach to evaluate clustering solutions. Here we present reval: a Python package that leverages stability-based relative clustering validation methods to determine best clustering solutions as the ones that best generalize to unseen data. Statistical software, both in R and Python, usually rely on internal validation metrics, such as silhouette, to select the number of clusters that best fits the data. Meanwhile, open-source software solutions that easily implement relative clustering techniques are lacking. Internal validation methods exploit characteristics of the data itself to produce a result, whereas relative approaches attempt to leverage the unknown underlying distribution of data points looking for generalizable and replicable results. The implementation of relative validation methods can further the theory of clustering by enriching the already available methods that can be used to investigate clustering results in different situations and for different data distributions. This work aims at contributing to this effort by developing a stability-based method that selects the best clustering solution as the one that replicates, via supervised learning, on unseen subsets of data. The package works with multiple clustering and classification algorithms, hence allowing both the automatization of the labeling process and the assessment of the stability of different clustering mechanisms.
翻訳日:2022-10-24 07:17:02 公開日:2020-11-30
# 知覚深部ニューラルネットワーク:入力レクリエーションによる対向ロバスト性

Perceptual Deep Neural Networks: Adversarial Robustness through Input Recreation ( http://arxiv.org/abs/2009.01110v4 )

ライセンス: Link先を確認
Danilo Vasconcellos Vargas, Bingli Liao, Takahiro Kanzaki(参考訳) 逆の例では、機械によって学習されたモデルは、人間とは違って、非常に正確であるが、多くの弱点があることが示されている。 しかし、人間の知覚は、網膜に到着する信号を見るのではなく、かなり複雑なレクリエーションが見られるため、機械と根本的に異なる。 本稿では、機械が入力を再生成し、そのような拡張された知覚の利点を調べる方法について検討する。 本稿では、さらに処理する前に独自の入力を再現するPerceptual Deep Neural Networks(\varphi$DNN)を提案する。 この概念は数学的に定式化され、2つのバリエーションが開発されている(1つは画像全体ともう1つはノイズの多い再サイズされた超解像度レクリエーションに基づく)。 実験によると、$\varphi$DNNsとその敵対的トレーニングのバリエーションは、100%のテストで最先端の防御と前処理の防御の両方を上回っ、ロバスト性を大幅に向上させることができる。 $\varphi$dnnsは、より大きな画像サイズにスケールし、同等の精度を維持することが示され、最先端の技術は35%まで悪化する。 さらに、レクリエーション処理は、入力画像を意図的に破損させる。 興味深いことに、入力の破損は直感に反するが有益であることを示すアブレーションテストによって示される。 したがって、$\varphi$DNNsは、入力レクリエーションが生物学的ニューラルネットワークに類似した人工知能に強力な利点があることを明らかにし、入力を意図的に破壊することの重要性に光を当て、人工知能における堅牢な認識のためのGANとオートエンコーダに基づく知覚モデルの分野を開拓した。

Adversarial examples have shown that albeit highly accurate, models learned by machines, differently from humans, have many weaknesses. However, humans' perception is also fundamentally different from machines, because we do not see the signals which arrive at the retina but a rather complex recreation of them. In this paper, we explore how machines could recreate the input as well as investigate the benefits of such an augmented perception. In this regard, we propose Perceptual Deep Neural Networks ($\varphi$DNN) which also recreate their own input before further processing. The concept is formalized mathematically and two variations of it are developed (one based on inpainting the whole image and the other based on a noisy resized super resolution recreation). Experiments reveal that $\varphi$DNNs and their adversarial training variations can increase the robustness substantially, surpassing both state-of-the-art defenses and pre-processing types of defenses in 100% of the tests. $\varphi$DNNs are shown to scale well to bigger image sizes, keeping a similar high accuracy throughout; while the state-of-the-art worsen up to 35%. Moreover, the recreation process intentionally corrupts the input image. Interestingly, we show by ablation tests that corrupting the input is, although counter-intuitive, beneficial. Thus, $\varphi$DNNs reveal that input recreation has strong benefits for artificial neural networks similar to biological ones, shedding light into the importance of purposely corrupting the input as well as pioneering an area of perception models based on GANs and autoencoders for robust recognition in artificial intelligence.
翻訳日:2022-10-22 18:16:51 公開日:2020-11-30
# 新型コロナウイルス危機における意味ネットワーク分析による金融市場の予測

Forecasting financial markets with semantic network analysis in the COVID-19 crisis ( http://arxiv.org/abs/2009.04975v2 )

ライセンス: Link先を確認
A. Fronzetti Colladon, S. Grassi, F. Ravazzolo, F. Violante(参考訳) 本稿では,ストックマーケットデータの予測に新たなテキストデータインデックスを用いる。 インデックスは、テキストに現れる1つ以上の一般的な経済関連キーワードの重要性を評価するために、大量のニュースに適用される。 この指標は、その使用頻度と意味ネットワークの位置に基づいて、経済関連キーワードの重要性を評価する。 我々は、イタリアの報道機関に適用し、新型コロナウイルス危機を含む最近のサンプル期間におけるイタリア株と債券市場のリターンとボラティリティを予測する指標を構築します。 その証拠は、この指数が金融時系列の異なるフェーズをうまく捉えていることを示している。 さらに、債券市場のデータ、リターンとボラティリティ、短い熟成と長い熟成、株式市場のボラティリティの予測可能性の強い証拠が示されている。

This paper uses a new textual data index for predicting stock market data. The index is applied to a large set of news to evaluate the importance of one or more general economic related keywords appearing in the text. The index assesses the importance of the economic related keywords, based on their frequency of use and semantic network position. We apply it to the Italian press and construct indices to predict Italian stock and bond market returns and volatilities in a recent sample period, including the COVID-19 crisis. The evidence shows that the index captures the different phases of financial time series well. Moreover, results indicate strong evidence of predictability for bond market data, both returns and volatilities, short and long maturities, and stock market volatility.
翻訳日:2022-10-20 12:07:14 公開日:2020-11-30
# 頑健な自己学習を伴う言語・ドメイン間の事前学習言語モデルの特徴適応

Feature Adaptation of Pre-Trained Language Models across Languages and Domains with Robust Self-Training ( http://arxiv.org/abs/2009.11538v3 )

ライセンス: Link先を確認
Hai Ye, Qingyu Tan, Ruidan He, Juntao Li, Hwee Tou Ng, Lidong Bing(参考訳) プレトレーニング言語モデル(PrLM)(例えばBERT)を新しいドメインに適用することは近年注目を集めている。 従来のPrLMを微調整する代わりに、PrLMの特徴を微調整せずに新しいドメインに適応する方法を検討する。 本稿では,教師なしドメイン適応(UDA)について検討する。 PrLMの機能により、ソースドメインからラベル付きデータで訓練されたモデルを、ラベルなしのターゲットドメインに適応させる。 自己学習は、訓練対象のドメインデータ上の擬似ラベルを予測するUDAに広く使われている。 しかし、予測された擬似ラベルには必然的にノイズが含まれ、ロバストモデルのトレーニングに悪影響を及ぼす。 本稿では,prlmの特徴を特徴適応モジュールに自己蒸留し,同一クラスの特徴をより密集させたprlmから識別的特徴を学ぶために,自己学習のロバスト性を向上させるため,クラス認識機能自己蒸留(cfd)を提案する。 さらに、CFdを言語間セッティングに拡張し、言語差について研究する。 2つの単言語および多言語amazon reviewデータセットの実験により、cfdは、クロスドメインおよびクロス言語環境でのセルフトレーニングのパフォーマンスを一貫して向上できることが示された。

Adapting pre-trained language models (PrLMs) (e.g., BERT) to new domains has gained much attention recently. Instead of fine-tuning PrLMs as done in most previous work, we investigate how to adapt the features of PrLMs to new domains without fine-tuning. We explore unsupervised domain adaptation (UDA) in this paper. With the features from PrLMs, we adapt the models trained with labeled data from the source domain to the unlabeled target domain. Self-training is widely used for UDA which predicts pseudo labels on the target domain data for training. However, the predicted pseudo labels inevitably include noise, which will negatively affect training a robust model. To improve the robustness of self-training, in this paper we present class-aware feature self-distillation (CFd) to learn discriminative features from PrLMs, in which PrLM features are self-distilled into a feature adaptation module and the features from the same class are more tightly clustered. We further extend CFd to a cross-language setting, in which language discrepancy is studied. Experiments on two monolingual and multilingual Amazon review datasets show that CFd can consistently improve the performance of self-training in cross-domain and cross-language settings.
翻訳日:2022-10-15 04:49:28 公開日:2020-11-30
# マルチビュー2次元CMR画像による3次元心筋ひずみ推定

Enhanced 3D Myocardial Strain Estimation from Multi-View 2D CMR Imaging ( http://arxiv.org/abs/2009.12466v2 )

ライセンス: Link先を確認
Mohamed Abdelkhalek, Heba Aguib, Mohamed Moustafa, Khalil Elkhodary(参考訳) 本稿では,1つの画像モダリティの複数方向からの相補的変位情報(タグ付きCMR SSFP画像)を組み合わせた3次元心筋ひずみ推定手法を提案する。 左室の心筋ひずみを推定するために,商用ソフトウェア (セグメント, メドビソ) に実装された2次元非剛性登録アルゴリズムを用いて, 短軸, 四軸, 二軸ビューのセットを登録する。 次に,3つの運動方向の補間関数を作成し,それらを用いて患者固有の左室の四面体メッシュ表現を変形させる。 さらに,長軸に沿った変位に基づく重み付け方式を導入することにより,変位の過大評価を補正する。 健常者16名を対象に,CMR SSFP画像を含むSTACOM 2011データセットを用いて評価を行った。 本研究は,3つのひずみ成分(半径,周方向,縦方向)の算出において,関心のイメージング(SSFP)において,課題の報告結果と比較して精度が向上したことを示す。 また,本研究のピークひずみ推定は,文献におけるより大きなコホートと,セグメントひずみ解析モジュールを用いた地中真理測定から得られた結果にかなり近い。 提案手法は比較的高速で簡便な2d追跡手法を提供し,他の画像から再構成されたメッシュモデルを変形するか,cmrメッシュ再構成手順を組み込んだ場合の柔軟性が向上した。 提案法では, 追加的, 特別な撮像プロトコルを必要とせず, 臨床場面で日常的に投与される最も一般的な画像モダリティを用いて, 左室の定型化モデルを提案する。

In this paper, we propose an enhanced 3D myocardial strain estimation procedure, which combines complementary displacement information from multiple orientations of a single imaging modality (untagged CMR SSFP images). To estimate myocardial strain across the left ventricle, we register the sets of short-axis, four-chamber and two-chamber views via a 2D non-rigid registration algorithm implemented in a commercial software (Segment, Medviso). We then create a series of interpolating functions for the three orthogonal directions of motion and use them to deform a tetrahedral mesh representation of a patient-specific left ventricle. Additionally, we correct for overestimation of displacement by introducing a weighting scheme that is based on displacement along the long axis. The procedure was evaluated on the STACOM 2011 dataset containing CMR SSFP images for 16 healthy volunteers. We show increased accuracy in estimating the three strain components (radial, circumferential, longitudinal) compared to reported results in the challenge, for the imaging modality of interest (SSFP). Our peak strain estimates are also significantly closer to reported measurements from studies of a larger cohort in the literature and our own ground truth measurements using Segment Strain Analysis Module. Our proposed procedure provides a relatively fast and simple method to improve 2D tracking results, with the added flexibility in either deforming a reconstructed mesh model from other image modalities or using the built-in CMR mesh reconstruction procedure. Our, proposed scheme presents a deforming patient-specific model of the left ventricle, using the commonest imaging modality , routinely administered in clinical settings, without requiring additional or specialized imaging protocols.
翻訳日:2022-10-14 23:34:37 公開日:2020-11-30
# ハイブリッド畳み込みニューラルネットワークを用いた画像からの銀河スペクトル予測

Predicting galaxy spectra from images with hybrid convolutional neural networks ( http://arxiv.org/abs/2009.12318v2 )

ライセンス: Link先を確認
John F. Wu and J. E. G. Peek(参考訳) 銀河は、酸素放出線のような光学スペクトルの特徴、スパイラルアームのような形態的特徴によって説明できる。 分光は銀河の進化を司る物理過程の詳細な記述を提供するが、分光データは観測に費用がかかる。 初めて、広帯域イメージングから直接銀河スペクトルをロバストに予測できるようになりました。 我々は、バッチ正規化の代わりにデコンボリューションを伴うハイブリッド畳み込みニューラルネットワークを用いた強力な新しいアプローチを提案する。 銀河画像とスペクトルの間の学習されたマッピングは、ヴェラ・C・ルービン天文台やナンシー・グレース・ロマン宇宙望遠鏡のような将来の広視野探査のために、分光学的に制限された銀河のサンプルに対する科学的リターンを乗じることで変換される。

Galaxies can be described by features of their optical spectra such as oxygen emission lines, or morphological features such as spiral arms. Although spectroscopy provides a rich description of the physical processes that govern galaxy evolution, spectroscopic data are observationally expensive to obtain. For the first time, we are able to robustly predict galaxy spectra directly from broad-band imaging. We present a powerful new approach using a hybrid convolutional neural network with deconvolution instead of batch normalization; this hybrid CNN outperforms other models in our tests. The learned mapping between galaxy imaging and spectra will be transformative for future wide-field surveys, such as with the Vera C. Rubin Observatory and Nancy Grace Roman Space Telescope, by multiplying the scientific returns for spectroscopically-limited galaxy samples.
翻訳日:2022-10-14 22:49:37 公開日:2020-11-30
# 動きたい:アクション決定プロセスとしての6次元ポーズ推定

I Like to Move It: 6D Pose Estimation as an Action Decision Process ( http://arxiv.org/abs/2009.12678v2 )

ライセンス: Link先を確認
Benjamin Busam and Hyun Jun Jung and Nassir Navab(参考訳) オブジェクトポーズ推定はロボットビジョンとARの不可欠な部分である。 以前の6次元ポーズ検索パイプラインは、問題を回帰タスクとして扱うか、分類するポーズ空間を識別する。 我々はこのパラダイムを変更し、初期ポーズを段階的に離散的に更新し、仮想3Dレンダリングを正しい解へ順次移動させるアクション決定プロセスとして問題を再構築する。 ニューラルネットワークは、単一のRGBイメージから反復的に移動し、許容可能な最終ポーズを決定する。 オブジェクト固有のポーズモデルを訓練する他のアプローチと比較して、意思決定プロセスを学びます。 これは軽量なアーキテクチャを可能にするが、自然に見えないオブジェクトに一般化する。 プロセス終了のためのコヒーレントストップアクションは、ビデオシーケンスに重要な変更がある場合、計算コストを動的に削減することができる。 静的な推論時間の代わりに、オブジェクトの動きに応じてランタイムを自動的に増加させます。 動作決定ネットワークのロバスト性と正確性は,lavalおよびycbビデオシーンで評価され,最先端を著しく改善した。

Object pose estimation is an integral part of robot vision and AR. Previous 6D pose retrieval pipelines treat the problem either as a regression task or discretize the pose space to classify. We change this paradigm and reformulate the problem as an action decision process where an initial pose is updated in incremental discrete steps that sequentially move a virtual 3D rendering towards the correct solution. A neural network estimates likely moves from a single RGB image iteratively and determines so an acceptable final pose. In comparison to other approaches that train object-specific pose models, we learn a decision process. This allows for a lightweight architecture while it naturally generalizes to unseen objects. A coherent stop action for process termination enables dynamic reduction of the computation cost if there are insignificant changes in a video sequence. Instead of a static inference time, we thereby automatically increase the runtime depending on the object motion. Robustness and accuracy of our action decision network are evaluated on Laval and YCB video scenes where we significantly improve the state-of-the-art.
翻訳日:2022-10-14 08:28:42 公開日:2020-11-30
# ドライバ異常検出:データセットとコントラスト学習アプローチ

Driver Anomaly Detection: A Dataset and Contrastive Learning Approach ( http://arxiv.org/abs/2009.14660v2 )

ライセンス: Link先を確認
Okan K\"op\"ukl\"u, Jiapeng Zheng, Hang Xu, Gerhard Rigoll(参考訳) 気を取られたドライバーは、自動車事故を引き起こす危険を予見する傾向が強い。 したがって、運転者の動作の異常(つまり通常の運転から逸脱する行動)を検出することは、運転者関連の事故を減らすために最も重要である。 しかし、運転中に運転者ができる異常な動作が多数あり、これは「オープンセット認識」の問題につながる。 そこで本研究では,従来のデータセットプロバイダが共通に定義する異常動作のセットを認識する代わりに,正規運転と異常運転を区別する指標を学ぶための対比学習手法を提案する。 そこで本研究では,通常の運転ビデオと,そのトレーニングセットに異常動作のセットを含む,新しいビデオベースベンチマークであるドライバ異常検出(DAD)データセットを提案する。 DADデータセットのテストセットには、通常の運転から解放される必要のある異常なアクションがある。 本手法は,実験セット上で0.9673 aucに達し,異常検出タスクにおけるコントラスト学習手法の有効性を示す。 データセット、コード、事前訓練されたモデルは公開されています。

Distracted drivers are more likely to fail to anticipate hazards, which result in car accidents. Therefore, detecting anomalies in drivers' actions (i.e., any action deviating from normal driving) contains the utmost importance to reduce driver-related accidents. However, there are unbounded many anomalous actions that a driver can do while driving, which leads to an 'open set recognition' problem. Accordingly, instead of recognizing a set of anomalous actions that are commonly defined by previous dataset providers, in this work, we propose a contrastive learning approach to learn a metric to differentiate normal driving from anomalous driving. For this task, we introduce a new video-based benchmark, the Driver Anomaly Detection (DAD) dataset, which contains normal driving videos together with a set of anomalous actions in its training set. In the test set of the DAD dataset, there are unseen anomalous actions that still need to be winnowed out from normal driving. Our method reaches 0.9673 AUC on the test set, demonstrating the effectiveness of the contrastive learning approach on the anomaly detection task. Our dataset, codes and pre-trained models are publicly available.
翻訳日:2022-10-12 23:18:30 公開日:2020-11-30
# 教師付き機械学習における厳密でロバストな量子スピードアップ

A rigorous and robust quantum speed-up in supervised machine learning ( http://arxiv.org/abs/2010.02174v2 )

ライセンス: Link先を確認
Yunchao Liu, Srinivasan Arunachalam, Kristan Temme(参考訳) 過去数年間にわたり、量子速度アップを約束する量子機械学習アルゴリズムがいくつか提案されてきた。 これらの学習アルゴリズムの多くは、データへの量子アクセスを仮定するが、量子スピードアップがこれらの強い仮定を作らずにまだ存在するのか、あるいは古典的なアルゴリズムに対して証明可能な優位性を持たず、本質的にヒューリスティックなのかは明らかではない。 本稿では,データの古典的アクセスのみを必要とする汎用量子学習アルゴリズムを用いて,教師付き分類のための厳密な量子スピードアップを実現する。 我々の量子分類器は、フォールトトレラント量子コンピュータを用いてカーネル関数を推定する従来のサポートベクターマシンである。 データサンプルは量子特徴空間にマッピングされ、カーネルエントリは量子回路の遷移振幅として推定することができる。 我々は,従来の学習者が,離散対数問題において広く信じられている困難さを前提として,ランダムな推測よりも逆多項式的にデータを分類できないことを示す。 一方、量子分類器は高い精度を達成し、有限サンプリング統計から生じるカーネルエントリの加算誤差に対して堅牢である。

Over the past few years several quantum machine learning algorithms were proposed that promise quantum speed-ups over their classical counterparts. Most of these learning algorithms either assume quantum access to data -- making it unclear if quantum speed-ups still exist without making these strong assumptions, or are heuristic in nature with no provable advantage over classical algorithms. In this paper, we establish a rigorous quantum speed-up for supervised classification using a general-purpose quantum learning algorithm that only requires classical access to data. Our quantum classifier is a conventional support vector machine that uses a fault-tolerant quantum computer to estimate a kernel function. Data samples are mapped to a quantum feature space and the kernel entries can be estimated as the transition amplitude of a quantum circuit. We construct a family of datasets and show that no classical learner can classify the data inverse-polynomially better than random guessing, assuming the widely-believed hardness of the discrete logarithm problem. Meanwhile, the quantum classifier achieves high accuracy and is robust against additive errors in the kernel entries that arise from finite sampling statistics.
翻訳日:2022-10-10 22:24:44 公開日:2020-11-30
# DEMI: 相互情報の識別的推定

DEMI: Discriminative Estimator of Mutual Information ( http://arxiv.org/abs/2010.01766v2 )

ライセンス: Link先を確認
Ruizhi Liao, Daniel Moyer, Polina Golland, William M. Wells(参考訳) 連続確率変数間の相互情報の推定は、しばしば難解であり、高次元データでは極めて困難である。 近年の進歩では、ニューラルネットワークを利用して相互情報の変動下限を最適化している。 この難しい問題への期待を示す一方で、変分法は理論的にも経験的にも重大な統計的制限があることが証明されている。 1) 基礎となる相互情報が低い場合又は高い場合,多くの手法が正確な推定を行うのに苦労する。 2) 結果の予測者は高い分散に悩むことがある。 このアプローチは,データサンプルペアが限界分布の積からではなく,ジョイント分布から引き出される確率を提供する分類器の訓練に基づいている。 さらに,テストセット上で分類器が生成する平均ログオッズ推定値と相互情報との直接接続を確立することにより,相互情報の簡易かつ正確な推定を行う。 理論的には,本手法と他の変分法は最適解が得られたときに等価であることを示し,本手法は変分法を左右する。 実験結果から,提案手法の精度と,表現学習の文脈における推定器の利点が示された。 デモはhttps://github.com/rayruizhiliao/demi_mi_estimator.comで公開しています。

Estimating mutual information between continuous random variables is often intractable and extremely challenging for high-dimensional data. Recent progress has leveraged neural networks to optimize variational lower bounds on mutual information. Although showing promise for this difficult problem, the variational methods have been theoretically and empirically proven to have serious statistical limitations: 1) many methods struggle to produce accurate estimates when the underlying mutual information is either low or high; 2) the resulting estimators may suffer from high variance. Our approach is based on training a classifier that provides the probability that a data sample pair is drawn from the joint distribution rather than from the product of its marginal distributions. Moreover, we establish a direct connection between mutual information and the average log odds estimate produced by the classifier on a test set, leading to a simple and accurate estimator of mutual information. We show theoretically that our method and other variational approaches are equivalent when they achieve their optimum, while our method sidesteps the variational bound. Empirical results demonstrate high accuracy of our approach and the advantages of our estimator in the context of representation learning. Our demo is available at https://github.com/RayRuizhiLiao/demi_mi_estimator.
翻訳日:2022-10-10 20:40:42 公開日:2020-11-30
# HECT:気候モデルのための高次元アンサンブル一貫性テスト

HECT: High-Dimensional Ensemble Consistency Testing for Climate Models ( http://arxiv.org/abs/2010.04051v2 )

ライセンス: Link先を確認
Niccol\`o Dalmasso, Galen Vincent, Dorit Hammerling, Ann B. Lee(参考訳) 気候モデルは、気候変動と人為的な変化が気候変動に与える影響を理解する上で重要な役割を果たす。 全米大気研究センターによって開発されたコミュニティアース・システム・モデル(CESM)のような大規模な世界規模の気候モデルは、大気、陸、海、氷の相互作用を記述した数百万行のコードで非常に複雑である。 CESMの開発は継続中であるため、シミュレーション出力は品質のために継続的に制御する必要がある。 コードベースの"気候変化(climate-changing)"修正を真の気候変化の物理的プロセスや介入と区別するためには、空間的および時間的な高次元シミュレーションアウトプットを処理可能な統計再現性を評価する原則的な方法が必要となる。 提案研究は,木に基づくアルゴリズムやディープニューラルネットワークなどの確率的分類器を用いて,高次元時空間データの統計的に厳密な適合性テストを行う。

Climate models play a crucial role in understanding the effect of environmental and man-made changes on climate to help mitigate climate risks and inform governmental decisions. Large global climate models such as the Community Earth System Model (CESM), developed by the National Center for Atmospheric Research, are very complex with millions of lines of code describing interactions of the atmosphere, land, oceans, and ice, among other components. As development of the CESM is constantly ongoing, simulation outputs need to be continuously controlled for quality. To be able to distinguish a "climate-changing" modification of the code base from a true climate-changing physical process or intervention, there needs to be a principled way of assessing statistical reproducibility that can handle both spatial and temporal high-dimensional simulation outputs. Our proposed work uses probabilistic classifiers like tree-based algorithms and deep neural networks to perform a statistically rigorous goodness-of-fit test of high-dimensional spatio-temporal data.
翻訳日:2022-10-09 12:41:36 公開日:2020-11-30
# 双方向ロボットマニピュレーションのための深い模倣学習

Deep Imitation Learning for Bimanual Robotic Manipulation ( http://arxiv.org/abs/2010.05134v2 )

ライセンス: Link先を確認
Fan Xie, Alexander Chowdhury, M. Clara De Paolis Kaluza, Linfeng Zhao, Lawson L.S. Wong, Rose Yu(参考訳) 本稿では,連続状態動作空間におけるロボット操作のための深い模倣学習フレームワークを提案する。 主な課題は、異なる場所にあるオブジェクトに操作スキルを一般化することである。 我々は、環境における関係情報のモデリングが一般化を大幅に改善できると仮定する。 これを達成するために 提案します (i)多様運動のダイナミクスを要素運動プリミティブに分解する。 (ii)リカレントグラフニューラルネットワークを用いて各プリミティブをパラメータ化してインタラクションをキャプチャし、 (iii)プリミティブを逐次構成する高レベルプランナと、プリミティブダイナミクスと逆運動学制御を組み合わせた低レベルコントローラを統合する。 私たちのモデルは深く、階層的で、モジュール化されたアーキテクチャです。 ベースラインと比較して,本モデルはより一般化され,シミュレーションされた2次元ロボット操作タスクの成功率が向上する。 我々は、シミュレーション、データ、モデルのためのコードを、https://github.com/Rose-STL-Lab/HDR-ILでオープンソース化しました。

We present a deep imitation learning framework for robotic bimanual manipulation in a continuous state-action space. A core challenge is to generalize the manipulation skills to objects in different locations. We hypothesize that modeling the relational information in the environment can significantly improve generalization. To achieve this, we propose to (i) decompose the multi-modal dynamics into elemental movement primitives, (ii) parameterize each primitive using a recurrent graph neural network to capture interactions, and (iii) integrate a high-level planner that composes primitives sequentially and a low-level controller to combine primitive dynamics and inverse kinematics control. Our model is a deep, hierarchical, modular architecture. Compared to baselines, our model generalizes better and achieves higher success rates on several simulated bimanual robotic manipulation tasks. We open source the code for simulation, data, and models at: https://github.com/Rose-STL-Lab/HDR-IL.
翻訳日:2022-10-08 13:05:59 公開日:2020-11-30
# 全方位画像の歪み・アウェア単眼深度推定

Distortion-aware Monocular Depth Estimation for Omnidirectional Images ( http://arxiv.org/abs/2010.08942v2 )

ライセンス: Link先を確認
Hong-Xiang Chen and Kunhong Li and Zhiheng Fu and Mengyi Liu and Zonghao Chen and Yulan Guo(参考訳) パノラマにおけるタスクの主な課題は、画像間の物体の歪みにある。 本研究では,室内パノラマにおけるこの問題に対処するため,DAMO(Distortion-Aware Monocular Omnidirectional)の深度推定ネットワークを提案する。 まず、全方位画像から校正意味特徴を抽出する歪み認識モジュールを提案する。 具体的には,変形可能な畳み込みを利用して,そのサンプリング格子をパノラマ上の歪曲物体の幾何学的変動に調整し,逆グノーモン射影による水平歪みに対してストリッププーリングモジュールを用いてサンプリングする。 第二に、球面から投影される領域の不均一分布を扱うために、目的関数に対するプラグアンドプレイ球面対応重み行列を導入する。 360dデータセットを用いた実験により,提案手法は歪みパノラマから意味的特徴を効果的に抽出し,歪みに起因する監督バイアスを軽減できることがわかった。 360Dデータセットの最先端のパフォーマンスを高い効率で達成する。

A main challenge for tasks on panorama lies in the distortion of objects among images. In this work, we propose a Distortion-Aware Monocular Omnidirectional (DAMO) dense depth estimation network to address this challenge on indoor panoramas with two steps. First, we introduce a distortion-aware module to extract calibrated semantic features from omnidirectional images. Specifically, we exploit deformable convolution to adjust its sampling grids to geometric variations of distorted objects on panoramas and then utilize a strip pooling module to sample against horizontal distortion introduced by inverse gnomonic projection. Second, we further introduce a plug-and-play spherical-aware weight matrix for our objective function to handle the uneven distribution of areas projected from a sphere. Experiments on the 360D dataset show that the proposed method can effectively extract semantic features from distorted panoramas and alleviate the supervision bias caused by distortion. It achieves state-of-the-art performance on the 360D dataset with high efficiency.
翻訳日:2022-10-06 04:15:50 公開日:2020-11-30
# ツリーアンサンブルの多用途検証

Versatile Verification of Tree Ensembles ( http://arxiv.org/abs/2010.13880v2 )

ライセンス: Link先を確認
Laurens Devos, Wannes Meert, Jesse Davis(参考訳) 機械学習モデルはしばしば特定の要件(公正性や合法性など)に従わなければならない。 このことは、モデルが特定の特性を満たすかどうかを確実に検証できるアプローチの開発に興味を喚起している。 本稿では,ランダムフォレスト (rfs) や勾配ブースティング決定木 (gbdts) などのツリーアンサンブルモデルに対して,複数の異なる検証タスクを行う veritas という汎用アルゴリズムを提案する。 この汎用性は、逆の例生成かロバスト性チェックにのみ焦点を絞った以前の作業とは対照的である。 veritasは検証タスクを汎用最適化問題として定式化し、新しい探索空間表現を導入する。 Veritasには2つの大きな利点がある。 第一に、最適化問題が正確に解決できない場合、いつでも下限と上限を提供する。 対照的に、多くの既存手法は正確な解に焦点を合わせており、NP完全である検証問題によって制限されている。 第二に、Veritasは具体例を生成するために使用できる完全な(有界な部分最適)解を生成する。 ヴェリタスが以前の芸術水準を上回っていることを実験的に示します a) 正確な解をより頻繁に生成する b) より厳密な境界を作るとき (a)不可能であり、(c)桁違いのスピードアップを提供する。 その後、veritasはより大規模な実世界の検証シナリオに取り組むことができる。

Machine learned models often must abide by certain requirements (e.g., fairness or legal). This has spurred interested in developing approaches that can provably verify whether a model satisfies certain properties. This paper introduces a generic algorithm called Veritas that enables tackling multiple different verification tasks for tree ensemble models like random forests (RFs) and gradient boosting decision trees (GBDTs). This generality contrasts with previous work, which has focused exclusively on either adversarial example generation or robustness checking. Veritas formulates the verification task as a generic optimization problem and introduces a novel search space representation. Veritas offers two key advantages. First, it provides anytime lower and upper bounds when the optimization problem cannot be solved exactly. In contrast, many existing methods have focused on exact solutions and are thus limited by the verification problem being NP-complete. Second, Veritas produces full (bounded suboptimal) solutions that can be used to generate concrete examples. We experimentally show that Veritas outperforms the previous state of the art by (a) generating exact solutions more frequently, (b) producing tighter bounds when (a) is not possible, and (c) offering orders of magnitude speed ups. Subsequently, Veritas enables tackling more and larger real-world verification scenarios.
翻訳日:2022-10-02 18:03:18 公開日:2020-11-30
# 予測課題に対する敵対的訓練--決定論的場合の理論分析と限界

Adversarial training for predictive tasks: theoretical analysis and limitations in the deterministic case ( http://arxiv.org/abs/2011.00835v3 )

ライセンス: Link先を確認
Thibault Lesieur, J\'er\'emie Messud, Issa Hammoud, Hanyuan Peng, C\'eline Lacombe, Paulien Jeunesse(参考訳) ディープニューラルネットワークを訓練して処理シーケンスの結果を模倣するために、コンディション一般化適応ネットワーク(CGAN)のバージョンを使用することができる。 CGANは、与えられた入力の処理に1つの出力しか関連付けられていない決定論的シーケンスにおいても、結果を改善するのに有効である。 驚くべきことに、決定論的地球物理処理シーケンスに関するcganベースのテストは、$l_p$の損失を用いた場合に比べ、真の改善には至らなかった。 分析は非決定論的な場合から決定論的な場合へと進む。 これにより、私たちのデータにより良い結果をもたらすコンテンツ損失をトレーニングする逆の方法が開発されました。

To train a deep neural network to mimic the outcomes of processing sequences, a version of Conditional Generalized Adversarial Network (CGAN) can be used. It has been observed by others that CGAN can help to improve the results even for deterministic sequences, where only one output is associated with the processing of a given input. Surprisingly, our CGAN-based tests on deterministic geophysical processing sequences did not produce a real improvement compared to the use of an $L_p$ loss; we here propose a first theoretical explanation why. Our analysis goes from the non-deterministic case to the deterministic one. It led us to develop an adversarial way to train a content loss that gave better results on our data.
翻訳日:2022-09-30 11:12:01 公開日:2020-11-30
# ニューラルマシン翻訳の継続訓練における破滅的予測の検討

Investigating Catastrophic Forgetting During Continual Training for Neural Machine Translation ( http://arxiv.org/abs/2011.00678v3 )

ライセンス: Link先を確認
Shuhao Gu and Yang Feng(参考訳) ニューラルマシン翻訳(NMT)モデルは通常、連続的なトレーニング中に破滅的な忘れ込みに悩まされ、モデルが学習した知識を徐々に忘れ、異なる領域のように異なる分布を持つ可能性のある新たなデータに適合するように振る舞う傾向にある。 この問題を解決するために多くの方法が提案されているが、この現象の原因はまだ不明である。 ドメイン適応の背景として,モジュールとパラメータ(ニューロン)の観点から破滅的忘れの原因を考察する。 NMTモデルの加群についての調査は、いくつかの加群が一般領域の知識と密接な関係を持つ一方で、他の加群はドメイン適応においてより不可欠であることを示している。 また,パラメータの検討から,一般ドメイン翻訳とドメイン内翻訳の両面で重要なパラメータと,継続トレーニングにおけるパラメータの大きな変化が,一般ドメインの性能低下をもたらすことが示唆された。 結果の妥当性と信頼性を確保するため,異なる言語ペアとドメインをまたいで実験を行った。

Neural machine translation (NMT) models usually suffer from catastrophic forgetting during continual training where the models tend to gradually forget previously learned knowledge and swing to fit the newly added data which may have a different distribution, e.g. a different domain. Although many methods have been proposed to solve this problem, we cannot get to know what causes this phenomenon yet. Under the background of domain adaptation, we investigate the cause of catastrophic forgetting from the perspectives of modules and parameters (neurons). The investigation on the modules of the NMT model shows that some modules have tight relation with the general-domain knowledge while some other modules are more essential in the domain adaptation. And the investigation on the parameters shows that some parameters are important for both the general-domain and in-domain translation and the great change of them during continual training brings about the performance decline in general-domain. We conduct experiments across different language pairs and domains to ensure the validity and reliability of our findings.
翻訳日:2022-09-30 10:45:41 公開日:2020-11-30
# 連続サロゲートに基づく最適化アルゴリズムは高価な離散問題に適している

Continuous surrogate-based optimization algorithms are well-suited for expensive discrete problems ( http://arxiv.org/abs/2011.03431v2 )

ライセンス: Link先を確認
Rickard Karlsson, Laurens Bliek, Sicco Verwer, Mathijs de Weerdt(参考訳) 高価なブラックボックス最適化問題を解決する1つの方法は、以前の観測結果に基づいて目的を近似する代理モデルを使用することである。 評価が容易なsurrogateは、元の問題に対する近似解を見つけるために最適化されている。 離散問題の場合、最近の研究は離散構造を扱うために特別に構築された代理モデルを中心に展開している。 主な動機は、ガウス過程をサロゲートとしてベイズ最適化のような連続的手法を(特に高次元では)準最適(英語版)(sub-optimal)と考えることである。 しかし、これは真実ではないと主張する。 実際, 連続代理モデルを用いた場合, 実運用を含む高次元離散ベンチマーク問題に対して, 最先端の離散代理モデルに対する競合性能を示す実証的証拠を提示する。 異なる離散構造と時間的制約に関する我々の実験は、どのアルゴリズムがどの種類の問題でうまく機能するかについての洞察を与える。

One method to solve expensive black-box optimization problems is to use a surrogate model that approximates the objective based on previous observed evaluations. The surrogate, which is cheaper to evaluate, is optimized instead to find an approximate solution to the original problem. In the case of discrete problems, recent research has revolved around surrogate models that are specifically constructed to deal with discrete structures. A main motivation is that literature considers continuous methods, such as Bayesian optimization with Gaussian processes as the surrogate, to be sub-optimal (especially in higher dimensions) because they ignore the discrete structure by, e.g., rounding off real-valued solutions to integers. However, we claim that this is not true. In fact, we present empirical evidence showing that the use of continuous surrogate models displays competitive performance on a set of high-dimensional discrete benchmark problems, including a real-life application, against state-of-the-art discrete surrogate-based methods. Our experiments on different discrete structures and time constraints also give more insight into which algorithms work well on which type of problem.
翻訳日:2022-09-29 05:45:12 公開日:2020-11-30
# テキスト検索を用いた教師付きテキスト分類

Supervised Text Classification using Text Search ( http://arxiv.org/abs/2011.13832v2 )

ライセンス: Link先を確認
Nabarun Mondal, Mrunal Lohia(参考訳) 教師付きテキスト分類はML研究の古典的かつ活発な分野である。 大企業では、この問題に対する解決策が重要である。 これは、最適なルーティングを見つけるための新しいチケットテキストが与えられたチケットの種類とサブタイプの予測が数十億ドルの産業であるチケットシステムにおいて特に当てはまる。 本稿では,先行ラベル付きテキストデータから得られたテキストの分類を,新しいテキスト検索エンジンを用いて正確に(86\%以上)予測できる産業標準アルゴリズムのクラスについて述べる。 これらのアルゴリズムは、適切なチームへの発行チケットのルーティングを自動化するために使われた。 この種のアルゴリズムは、幅広い産業アプリケーション、ITサポート、RPAスクリプトのトリガー、さらには大量のラベル付きデータがすでに利用可能である法的な領域においても、はるかに大きな成果を上げています。

Supervised text classification is a classical and active area of ML research. In large enterprise, solutions to this problem has significant importance. This is specifically true in ticketing systems where prediction of the type and subtype of tickets given new incoming ticket text to find out optimal routing is a multi billion dollar industry. In this paper authors describe a class of industrial standard algorithms which can accurately ( 86\% and above ) predict classification of any text given prior labelled text data - by novel use of any text search engine. These algorithms were used to automate routing of issue tickets to the appropriate team. This class of algorithms has far reaching consequences for a wide variety of industrial applications, IT support, RPA script triggering, even legal domain where massive set of pre labelled data are already available.
翻訳日:2022-09-25 14:07:46 公開日:2020-11-30
# 逆強化学習によるフォールトアウェアロバスト制御

Fault-Aware Robust Control via Adversarial Reinforcement Learning ( http://arxiv.org/abs/2011.08728v2 )

ライセンス: Link先を確認
Fan Yang, Chao Yang, Di Guo, Huaping Liu, Fuchun Sun(参考訳) ロボットは損傷の場合、人間や動物に比べて適応能力に制限がある。 しかし、ロボットの損傷は現実のアプリケーション、特に極端な環境に配備されたロボットに多い。 ロボットの脆弱さは適用範囲を大幅に制限する。 本稿では,操作作業と移動作業の両方において,関節損傷に対するロボットの堅牢性を大幅に向上させる対向強化学習フレームワークを提案する。 エージェントは、性能が劣る関節損傷症例において反復的に訓練される。 我々は,本アルゴリズムを3本指ロボットと4本指ロボットで検証する。 我々のアルゴリズムはシミュレーションのみで訓練でき、微調整なしで実際のロボットに直接展開できる。 また、任意の関節損傷例よりも成功率が高いことも示している。

Robots have limited adaptation ability compared to humans and animals in the case of damage. However, robot damages are prevalent in real-world applications, especially for robots deployed in extreme environments. The fragility of robots greatly limits their widespread application. We propose an adversarial reinforcement learning framework, which significantly increases robot robustness over joint damage cases in both manipulation tasks and locomotion tasks. The agent is trained iteratively under the joint damage cases where it has poor performance. We validate our algorithm on a three-fingered robot hand and a quadruped robot. Our algorithm can be trained only in simulation and directly deployed on a real robot without any fine-tuning. It also demonstrates exceeding success rates over arbitrary joint damage cases.
翻訳日:2022-09-24 17:49:30 公開日:2020-11-30
# 深層学習に基づく画像再構成における不確かさ源の定量化

Quantifying Sources of Uncertainty in Deep Learning-Based Image Reconstruction ( http://arxiv.org/abs/2011.08413v2 )

ライセンス: Link先を確認
Riccardo Barbano, \v{Z}eljko Kereta, Chen Zhang, Andreas Hauptmann, Simon Arridge, Bangti Jin(参考訳) ディープニューラルネットに基づく画像再構成手法は,従来手法の最先端結果に匹敵する性能を示してきたが,再構成に関する不確実性情報を提供しないことが多い。 本研究では,学習反復画像再構成におけるアレタリックおよびエピステマティック不確かさを同時に定量化する,スケーラブルで効率的なフレームワークを提案する。 本研究では, 難聴の定量化のためのベイズ勾配勾配降下法を構築し, アレタリック不確実性を考慮した非定常的ノイズ分散を取り入れた。 本手法は,スパークビューと制限角度データの両方を用いて,従来の計算トモグラフィーのベンチマークと競合する性能を示す。 推定された不確実性は、制限された測定モデルによる再構成や、制限された角度幾何学による情報不足による変化を捉えている。

Image reconstruction methods based on deep neural networks have shown outstanding performance, equalling or exceeding the state-of-the-art results of conventional approaches, but often do not provide uncertainty information about the reconstruction. In this work we propose a scalable and efficient framework to simultaneously quantify aleatoric and epistemic uncertainties in learned iterative image reconstruction. We build on a Bayesian deep gradient descent method for quantifying epistemic uncertainty, and incorporate the heteroscedastic variance of the noise to account for the aleatoric uncertainty. We show that our method exhibits competitive performance against conventional benchmarks for computed tomography with both sparse view and limited angle data. The estimated uncertainty captures the variability in the reconstructions, caused by the restricted measurement model, and by missing information, due to the limited angle geometry.
翻訳日:2022-09-24 16:48:35 公開日:2020-11-30
# Gunrock 2.0: ユーザ適応型ソーシャル会話システム

Gunrock 2.0: A User Adaptive Social Conversational System ( http://arxiv.org/abs/2011.08906v2 )

ライセンス: Link先を確認
Kaihui Liang, Austin Chau, Yu Li, Xueyuan Lu, Dian Yu, Mingyang Zhou, Ishan Jain, Sam Davidson, Josh Arnold, Minh Nguyen, Zhou Yu(参考訳) Gunrock 2.0はGunrock上に構築されており、ユーザ適応に重点を置いている。 gunrock 2.0は、名前付きエンティティ検出、リンク、ダイアログact予測など、さまざまなニューラル自然言語理解モジュールを組み合わせることで、ユーザ理解を改善する。 ダイアログ管理は、映画、音楽、スポーツなどの様々なトピックを扱う階層モデルである。 システムレベルのダイアログマネージャは、質問検出、認識、エラー処理、追加機能を扱うことができ、下流モジュールの設計と実装がずっと簡単になる。 ダイアログマネージャは、性別や性格などの異なるユーザのプロファイル情報に対応するために、トピックの選択にも適応する。 生成モデルはテンプレートとニューラル生成モデルの混合である。 gunrock 2.0は5月29日から6月4日までの最新ビルドで平均3.73のレーティングを達成している。

Gunrock 2.0 is built on top of Gunrock with an emphasis on user adaptation. Gunrock 2.0 combines various neural natural language understanding modules, including named entity detection, linking, and dialog act prediction, to improve user understanding. Its dialog management is a hierarchical model that handles various topics, such as movies, music, and sports. The system-level dialog manager can handle question detection, acknowledgment, error handling, and additional functions, making downstream modules much easier to design and implement. The dialog manager also adapts its topic selection to accommodate different users' profile information, such as inferred gender and personality. The generation model is a mix of templates and neural generation models. Gunrock 2.0 is able to achieve an average rating of 3.73 at its latest build from May 29th to June 4th.
翻訳日:2022-09-24 15:45:03 公開日:2020-11-30
# 深層学習における論理ロックの安全性への挑戦--神経進化的アプローチ

Challenging the Security of Logic Locking Schemes in the Era of Deep Learning: A Neuroevolutionary Approach ( http://arxiv.org/abs/2011.10389v2 )

ライセンス: Link先を確認
Dominik Sisejkovic, Farhad Merchant, Lennart M. Reimann, Harshit Srivastava, Ahmed Hallawa and Rainer Leupers(参考訳) 論理ロックは、集積回路設計と製造フロー全体を通してハードウェア設計の完全性を保護するための顕著な技術である。 しかし、近年では様々な難読化攻撃の導入によって、ロックスキームのセキュリティが徹底的に脅かされている。 多くの研究分野と同様に、ディープラーニングは論理ロックの分野でも導入されている。 そこで,本稿では,論理ロックに対する新たな攻撃であるSnapShotを提案する。この攻撃は,人工ニューラルネットワークを用いて,黄金の基準を使わずに,ロックされた合成ゲートレベルのネットリストから鍵ビット値を直接予測する手法である。 この攻撃は、既存の作業よりもシンプルで柔軟な学習モデルを使用する。 2つの異なるアプローチが評価される。 最初のアプローチは、単純なフィードフォワード完全接続ニューラルネットワークに基づいている。 第2のアプローチは、与えられたタスクに特化したより複雑な畳み込みニューラルネットワークアーキテクチャを進化させるために、遺伝的アルゴリズムを利用する。 攻撃フローは、機械学習技術を使用してロックスキームを攻撃するための汎用的でカスタマイズ可能なフレームワークを提供する。 我々は,参照ベンチマーク回路とシリコン製risc-vコアモジュールの両方を含む,現実的な2つの攻撃シナリオのスナップショットを広範囲に評価する。 評価の結果、スナップショットは選択された攻撃シナリオの平均鍵予測精度が82.60%に達し、その性能向上率は10.49ポイントであった。 さらに、SnapShotは、すべての評価されたベンチマークで既存のテクニックよりも優れています。 その結果,共通論理ロッキングスキームのセキュリティ基盤は疑わしい仮定に基づいて構築されていることが示唆された。 評価の結論は、マシンラーニング攻撃に耐性のある将来の論理ロックスキームを設計する際の課題に関する洞察を提供する。

Logic locking is a prominent technique to protect the integrity of hardware designs throughout the integrated circuit design and fabrication flow. However, in recent years, the security of locking schemes has been thoroughly challenged by the introduction of various deobfuscation attacks. As in most research branches, deep learning is being introduced in the domain of logic locking as well. Therefore, in this paper we present SnapShot: a novel attack on logic locking that is the first of its kind to utilize artificial neural networks to directly predict a key bit value from a locked synthesized gate-level netlist without using a golden reference. Hereby, the attack uses a simpler yet more flexible learning model compared to existing work. Two different approaches are evaluated. The first approach is based on a simple feedforward fully connected neural network. The second approach utilizes genetic algorithms to evolve more complex convolutional neural network architectures specialized for the given task. The attack flow offers a generic and customizable framework for attacking locking schemes using machine learning techniques. We perform an extensive evaluation of SnapShot for two realistic attack scenarios, comprising both reference benchmark circuits as well as silicon-proven RISC-V core modules. The evaluation results show that SnapShot achieves an average key prediction accuracy of 82.60% for the selected attack scenario, with a significant performance increase of 10.49 percentage points compared to the state of the art. Moreover, SnapShot outperforms the existing technique on all evaluated benchmarks. The results indicate that the security foundation of common logic locking schemes is build on questionable assumptions. The conclusions of the evaluation offer insights into the challenges of designing future logic locking schemes that are resilient to machine learning attacks.
翻訳日:2022-09-23 05:03:48 公開日:2020-11-30
# マルチデコーダDPRNN:高精度ソースカウントと分離

Multi-Decoder DPRNN: High Accuracy Source Counting and Separation ( http://arxiv.org/abs/2011.12022v2 )

ライセンス: Link先を確認
Junzhe Zhu, Raymond Yeh, Mark Hasegawa-Johnson(参考訳) 本稿では,未知数の話者による単一チャネル音声分離のためのエンドツーエンド学習可能な手法を提案する。 提案手法はMulCatソース分離バックボーンを拡張して出力ヘッドを追加し,話者数を推定するカウントヘッドと,元の信号を再構成するデコーダヘッドを出力する。 モデル以外にも,話者数可変による音源分離の評価方法に関する指標も提案する。 具体的には,モデルによって予測されるものよりも,音質が急速あるいは低くなる場合の音質を評価する方法について議論した。 我々は、WSJ0-mixデータセットに対するアプローチを最大5つの話者で評価した。 提案手法は, 話者数を計測し, 再建された信号の品質に競争力を有することを示す。

We propose an end-to-end trainable approach to single-channel speech separation with unknown number of speakers. Our approach extends the MulCat source separation backbone with additional output heads: a count-head to infer the number of speakers, and decoder-heads for reconstructing the original signals. Beyond the model, we also propose a metric on how to evaluate source separation with variable number of speakers. Specifically, we cleared up the issue on how to evaluate the quality when the ground-truth hasmore or less speakers than the ones predicted by the model. We evaluate our approach on the WSJ0-mix datasets, with mixtures up to five speakers. We demonstrate that our approach outperforms state-of-the-art in counting the number of speakers and remains competitive in quality of reconstructed signals.
翻訳日:2022-09-21 14:31:28 公開日:2020-11-30
# 組合せ制約満足度による言語生成:木探索によるモンテカルロアプローチ

Language Generation via Combinatorial Constraint Satisfaction: A Tree Search Enhanced Monte-Carlo Approach ( http://arxiv.org/abs/2011.12334v2 )

ライセンス: Link先を確認
Maosen Zhang, Nan Jiang, Lei Li, and Yexiang Xue(参考訳) 複雑な制約の下で自然言語を生成することは、制御可能なテキスト生成への原則的な定式化である。 文生成のための組合せ制約の指定を可能にするフレームワークを提案する。 本稿では,制約を満たしながら事前学習した言語モデルに対して,高い確率文を生成する効率的な手法であるtsmhを提案する。 我々のアプローチは非常に柔軟で、タスク固有のトレーニングを必要とせず、効率的な制約満足度解決技術を活用する。 組合せ制約をよりうまく扱うために、マルコフ連鎖モンテカルロ(mcmc)の提案プロセスに木探索アルゴリズムを組み込んで、より多くの制約を満たす候補を探索する。 既存のMCMC手法と比較して,サンプリング手法の方が混合性能がよい。 実験により、TSMHは複数の言語生成タスクにおいて一貫性と大幅な改善を実現することが示された。

Generating natural language under complex constraints is a principled formulation towards controllable text generation. We present a framework to allow specification of combinatorial constraints for sentence generation. We propose TSMH, an efficient method to generate high likelihood sentences with respect to a pre-trained language model while satisfying the constraints. Our approach is highly flexible, requires no task-specific training, and leverages efficient constraint satisfaction solving techniques. To better handle the combinatorial constraints, a tree search algorithm is embedded into the proposal process of the Markov chain Monte Carlo (MCMC) to explore candidates that satisfy more constraints. Compared to existing MCMC approaches, our sampling approach has a better mixing performance. Experiments show that TSMH achieves consistent and significant improvement on multiple language generation tasks.
翻訳日:2022-09-21 12:16:54 公開日:2020-11-30
# ダンスを学ぶ:音声からリアルなダンスの動きを生成するグラフ畳み込み対向ネットワーク

Learning to dance: A graph convolutional adversarial network to generate realistic dance motions from audio ( http://arxiv.org/abs/2011.12999v2 )

ライセンス: Link先を確認
Jo\~ao P. Ferreira, Thiago M. Coutinho, Thiago L. Gomes, Jos\'e F. Neto, Rafael Azevedo, Renato Martins, Erickson R. Nascimento(参考訳) 人間の動きを学習技術で合成することは、アニメーションを作るための新しいデータキャプチャーの必要性を軽減するために、ますます人気が高まっている。 音楽、すなわちダンスから自然に動くことを学ぶことは、人間がしばしば無力に行うより複雑な動きの1つだ。 それぞれの舞踊は独特だが、こうした動きは舞踊スタイルの中核的な特徴を保っている。 古典的畳み込み・再帰的ニューラルモデルを用いてこの問題に取り組むほとんどのアプローチは、運動多様体構造の非ユークリッド幾何学による訓練と可変性の問題に対処し、本論文では、音声情報からの自動ダンス生成の問題に取り組むために、グラフ畳み込みネットワークに基づく新しい手法を考案する。 提案手法は,入力音楽音声に条件付き逆学習方式を用いて,異なる音楽スタイルの鍵となる動きを保存した自然な動きを生成する。 本手法を3つの定量的指標を用いて評価し,ユーザ調査を行った。 その結果,提案するgcnモデルは,異なる実験で楽曲を条件とした最先端のダンス生成法よりも優れていることが示唆された。 さらに、グラフ畳み込みのアプローチはよりシンプルで、訓練が容易で、質的および異なるメトリクスに関するより現実的な動きスタイルを生成することができる。 また、実際の動きデータに匹敵する視覚運動知覚質も提示した。

Synthesizing human motion through learning techniques is becoming an increasingly popular approach to alleviating the requirement of new data capture to produce animations. Learning to move naturally from music, i.e., to dance, is one of the more complex motions humans often perform effortlessly. Each dance movement is unique, yet such movements maintain the core characteristics of the dance style. Most approaches addressing this problem with classical convolutional and recursive neural models undergo training and variability issues due to the non-Euclidean geometry of the motion manifold structure.In this paper, we design a novel method based on graph convolutional networks to tackle the problem of automatic dance generation from audio information. Our method uses an adversarial learning scheme conditioned on the input music audios to create natural motions preserving the key movements of different music styles. We evaluate our method with three quantitative metrics of generative methods and a user study. The results suggest that the proposed GCN model outperforms the state-of-the-art dance generation method conditioned on music in different experiments. Moreover, our graph-convolutional approach is simpler, easier to be trained, and capable of generating more realistic motion styles regarding qualitative and different quantitative metrics. It also presented a visual movement perceptual quality comparable to real motion data.
翻訳日:2022-09-21 03:56:54 公開日:2020-11-30
# TLeague: 競争力のあるセルフプレイベースの分散マルチエージェント強化学習フレームワーク

TLeague: A Framework for Competitive Self-Play based Distributed Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2011.12895v2 )

ライセンス: Link先を確認
Peng Sun, Jiechao Xiong, Lei Han, Xinghai Sun, Shuxing Li, Jiawei Xu, Meng Fang, Zhengyou Zhang(参考訳) 競合型セルフプレイ(CSP)に基づくマルチエージェント強化学習(MARL)は,近年,驚くべきブレークスルーを示している。 Dota 2、Glory of Kings、Quake III、StarCraft IIなど、いくつかのベンチマークで強力なAIが実現されている。 成功にもかかわらず、marlトレーニングは非常にデータ渇きが強く、ハイパフォーマンスエージェントを学ぶためには、トレーニング中に数十億フレーム(数兆フレームではないにせよ)を環境から見る必要がある。 これは研究者やエンジニアにとってささいな困難をもたらし、より広い範囲の現実世界の問題にmarlを適用することを防ぐ。 この問題に対処するため,本論文では,大規模トレーニングを目的としたTLeagueと呼ばれるフレームワークを記述し,いくつかの主ストリームCSP-MARLアルゴリズムを実装している。 トレーニングは、標準的なkubernetesがクラウドネイティブな方法でサポートされている単一のマシンまたはハイブリッドマシン(cpuとgpu)のクラスタにデプロイすることができる。 tleagueは、分散トレーニングを行う際に高いスループットと合理的なスケールアップを実現する。 モジュール設計のおかげで、他のマルチエージェント問題の解決やMARLアルゴリズムの実装や検証にも容易に拡張できる。 我々は、TLeagueの効率性と有効性を示すために、StarCraft II、ViZDoom、Pommermanについて実験を行った。 コードはオープンソースで、https://github.com/tencent-ailab/tleague_projpageで入手できる。

Competitive Self-Play (CSP) based Multi-Agent Reinforcement Learning (MARL) has shown phenomenal breakthroughs recently. Strong AIs are achieved for several benchmarks, including Dota 2, Glory of Kings, Quake III, StarCraft II, to name a few. Despite the success, the MARL training is extremely data thirsty, requiring typically billions of (if not trillions of) frames be seen from the environment during training in order for learning a high performance agent. This poses non-trivial difficulties for researchers or engineers and prevents the application of MARL to a broader range of real-world problems. To address this issue, in this manuscript we describe a framework, referred to as TLeague, that aims at large-scale training and implements several main-stream CSP-MARL algorithms. The training can be deployed in either a single machine or a cluster of hybrid machines (CPUs and GPUs), where the standard Kubernetes is supported in a cloud native manner. TLeague achieves a high throughput and a reasonable scale-up when performing distributed training. Thanks to the modular design, it is also easy to extend for solving other multi-agent problems or implementing and verifying MARL algorithms. We present experiments over StarCraft II, ViZDoom and Pommerman to show the efficiency and effectiveness of TLeague. The code is open-sourced and available at https://github.com/tencent-ailab/tleague_projpage
翻訳日:2022-09-21 02:18:34 公開日:2020-11-30
# (参考訳) ファウショット学習のためのマルチスケール適応タスク注意ネットワーク

Multi-scale Adaptive Task Attention Network for Few-Shot Learning ( http://arxiv.org/abs/2011.14479v1 )

ライセンス: CC BY 4.0
Haoxing Chen and Huaxiong Li and Yaohui Li and Chunlin Chen(参考訳) 少数ショット学習の目標は、ラベル付きサンプルの少ない未確認カテゴリを分類することである。 近年,局所表現(LR)は目に見えるクラスと目に見えないクラスの間でより一貫性があるため,低レベルのメトリック学習に基づく手法が性能を満足している。 しかし,これらの手法の多くは,各カテゴリを個別に扱うものであり,特に特定のタスクにおいて,特徴間の関係を測るには不十分である。 さらに、複雑な背景に異なるスケールの支配的対象が存在する場合、低レベル情報に基づく計量学習手法が苦しむ。 この問題に対処するため,本論文では,マイナショット学習のためのマルチスケール適応タスクアテンションネットワーク (matanet) を提案する。 具体的には、まずマルチスケールの機能生成器を使用して、異なるスケールで複数の機能を生成する。 次に,タスク全体の中で最も重要なLRを選択するために,適応型タスクアテンションモジュールを提案する。 その後、類似度−クラスモジュールと融合層とを用いて、クエリ画像とサポートセットとのジョイント多スケール類似度を算出する。 一般的なベンチマークでの大規模な実験は、提案したMATANetの有効性を最先端の手法と比較して明らかに示している。

The goal of few-shot learning is to classify unseen categories with few labeled samples. Recently, the low-level information metric-learning based methods have achieved satisfying performance, since local representations (LRs) are more consistent between seen and unseen classes. However, most of these methods deal with each category in the support set independently, which is not sufficient to measure the relation between features, especially in a certain task. Moreover, the low-level information-based metric learning method suffers when dominant objects of different scales exist in a complex background. To address these issues, this paper proposes a novel Multi-scale Adaptive Task Attention Network (MATANet) for few-shot learning. Specifically, we first use a multi-scale feature generator to generate multiple features at different scales. Then, an adaptive task attention module is proposed to select the most important LRs among the entire task. Afterwards, a similarity-to-class module and a fusion layer are utilized to calculate a joint multi-scale similarity between the query image and the support set. Extensive experiments on popular benchmarks clearly show the effectiveness of the proposed MATANet compared with state-of-the-art methods.
翻訳日:2021-06-07 08:11:23 公開日:2020-11-30
# (参考訳) 価値関数に基づくディープラーニングワークロードの性能最適化

Value Function Based Performance Optimization of Deep Learning Workloads ( http://arxiv.org/abs/2011.14486v1 )

ライセンス: CC BY 4.0
Benoit Steiner and Chris Cummins and Horace He and Hugh Leather(参考訳) 機械学習技術がユビキタス化するにつれ、ニューラルネットワークの実装の効率性が最重要になっている。 HalideやTVMのようなフレームワークは、ネットワークのアルゴリズム表現を、その実装を決定するスケジュールから切り離している。 しかし、良いスケジュールを見つけるのは非常に難しい。 このスケジューリング問題を最適化選択のシーケンスとしてモデル化し,部分スケジュールの期待性能を正確に予測する新しい手法を提案する。 これらの予測を活用することで、これらの最適化決定を欲深く、迅速に効率的なスケジュールを特定できます。 これにより、深いニューラルネットワークのスループットをHalideの2.6倍、TVMの1.5倍向上させるスケジュールを見つけることができる。 さらに,本手法はこれらのツールよりも2~3桁高速で,数時間ではなく数秒で完了する。

As machine learning techniques become ubiquitous, the efficiency of neural network implementations is becoming correspondingly paramount. Frameworks, such as Halide and TVM, separate out the algorithmic representation of the network from the schedule that determines its implementation. Finding good schedules, however, remains extremely challenging. We model this scheduling problem as a sequence of optimization choices, and present a new technique to accurately predict the expected performance of a partial schedule. By leveraging these predictions we can make these optimization decisions greedily and rapidly identify an efficient schedule. This enables us to find schedules that improve the throughput of deep neural networks by 2.6x over Halide and 1.5x over TVM. Moreover, our technique is two to three orders of magnitude faster than that of these tools, and completes in seconds instead of hours.
翻訳日:2021-06-07 07:57:02 公開日:2020-11-30
# (参考訳) 結合と個人差分に基づく各種単語埋め込みのブラインド信号分解

Blind signal decomposition of various word embeddings based on join and individual variance explained ( http://arxiv.org/abs/2011.14496v1 )

ライセンス: CC BY 4.0
Yikai Wang and Weijian Li(参考訳) 近年、自然言語処理(NLP)は、人間の生活に様々な応用をもたらす最も重要な分野の一つとなっている。 最も基本的なタスクとして、単語埋め込みの分野は依然としてより多くの注意と研究が必要である。 現在、単語埋め込みに関する既存の研究は、新しい埋め込みアルゴリズムとよく訓練された単語埋め込みにおける次元削減技術の提案に焦点を当てている。 本稿では,様々な訓練済み単語を結合成分と個別成分に分解する新しいジョイント信号分離法(jive)を提案する。 この分解フレームワークを通して、異なる単語埋め込み間の類似性と相違を簡単に調査できる。 我々は,2vec,FastText,GLoVEの異なるコーパスと異なる次元で訓練を行った。 我々はTwitterとスタンフォードの感情木バンクの感情分析に基づいて,異なる分解成分の性能を比較した。 その結果,異なる単語の埋め込みを結合成分にマッピングすることにより,従来の単語埋め込みよりも低性能で感情性能を大幅に向上できることがわかった。 さらに、異なるコンポーネントを結合することで、同じモデルがより良いパフォーマンスを達成できることが分かりました。 これらの発見は単語埋め込みに関する洞察を与え、我々の研究は単語埋め込みを生成する新しい方法を提供する。

In recent years, natural language processing (NLP) has become one of the most important areas with various applications in human's life. As the most fundamental task, the field of word embedding still requires more attention and research. Currently, existing works about word embedding are focusing on proposing novel embedding algorithms and dimension reduction techniques on well-trained word embeddings. In this paper, we propose to use a novel joint signal separation method - JIVE to jointly decompose various trained word embeddings into joint and individual components. Through this decomposition framework, we can easily investigate the similarity and difference among different word embeddings. We conducted extensive empirical study on word2vec, FastText and GLoVE trained on different corpus and with different dimensions. We compared the performance of different decomposed components based on sentiment analysis on Twitter and Stanford sentiment treebank. We found that by mapping different word embeddings into the joint component, sentiment performance can be greatly improved for the original word embeddings with lower performance. Moreover, we found that by concatenating different components together, the same model can achieve better performance. These findings provide great insights into the word embeddings and our work offer a new of generating word embeddings by fusing.
翻訳日:2021-06-07 07:35:16 公開日:2020-11-30
# (参考訳) 整数型意味セグメンテーションネットワークのトレーニングと推論

Training and Inference for Integer-Based Semantic Segmentation Network ( http://arxiv.org/abs/2011.14504v1 )

ライセンス: CC BY 4.0
Jiayi Yang, Lei Deng, Yukuan Yang, Yuan Xie, Guoqi Li(参考訳) セマンティックセグメンテーションは近年、研究と産業において主要なトピックとなっている。 しかし、画素方向予測とバックプロパゲーションアルゴリズムの計算の複雑さにより、セマンティクスセグメンテーションは計算リソースを要求され、トレーニングと推論の速度が遅く、モデルを保存するための大きなストレージスペースが確保されている。 セグメント化ネットワークを高速化する既存のスキームはネットワーク構造を変え、顕著な精度劣化をもたらす。 しかし、ニューラルネットワーク量子化は、同等の精度と元のネットワーク構造を維持しながら計算負荷を削減するために使用できる。 セマンティックセグメンテーションネットワークは、多くの点で従来のディープ畳み込みニューラルネットワーク(DCNN)とは異なる。 本稿では,セグメンテーションネットワークのトレーニングと推論のための新しい量子化フレームワークを提案し,パラメータと演算を8ビット整数ベースの値に初めて制約する。 データフローの完全量子化とバッチ正規化における正方形およびルート操作の除去により、固定点デバイス上で推論を行うことができる。 提案手法はFCN-VGG16やDeepLabv3-ResNet50などのセマンティックセグメンテーションネットワーク上で評価され,ADE20KデータセットとPASCAL VOC 2012データセット上での浮動小数点フレームワークと同等の精度を実現している。

Semantic segmentation has been a major topic in research and industry in recent years. However, due to the computation complexity of pixel-wise prediction and backpropagation algorithm, semantic segmentation has been demanding in computation resources, resulting in slow training and inference speed and large storage space to store models. Existing schemes that speed up segmentation network change the network structure and come with noticeable accuracy degradation. However, neural network quantization can be used to reduce computation load while maintaining comparable accuracy and original network structure. Semantic segmentation networks are different from traditional deep convolutional neural networks (DCNNs) in many ways, and this topic has not been thoroughly explored in existing works. In this paper, we propose a new quantization framework for training and inference of segmentation networks, where parameters and operations are constrained to 8-bit integer-based values for the first time. Full quantization of the data flow and the removal of square and root operations in batch normalization give our framework the ability to perform inference on fixed-point devices. Our proposed framework is evaluated on mainstream semantic segmentation networks like FCN-VGG16 and DeepLabv3-ResNet50, achieving comparable accuracy against floating-point framework on ADE20K dataset and PASCAL VOC 2012 dataset.
翻訳日:2021-06-07 07:12:11 公開日:2020-11-30
# (参考訳) ニューラルアーキテクチャ探索における層間遷移

Inter-layer Transition in Neural Architecture Search ( http://arxiv.org/abs/2011.14525v1 )

ライセンス: CC BY 4.0
Benteng Ma, Jing Zhang, Yong Xia, Dacheng Tao(参考訳) 微分ニューラルネットワーク探索(NAS)法は、ネットワークアーキテクチャを反復的プロキシ指向非巡回グラフ(DAG)として表現し、ネットワーク重みとアーキテクチャ重みを微分的に最適化する。 しかし、既存の手法では各エッジ(すなわちネットワーク内の層)のアーキテクチャの重み付けを統計的に独立な変数としてモデル化し、その有向位相接続によって引き起こされるdag内のエッジ間の依存性を無視している。 本稿では,新しい層間遷移nas法を提案することで,その依存性を調べる最初の試みを行う。 アーキテクチャ最適化は、接続されたエッジのアーキテクチャ重み間の依存関係を明示的にモデル化するシーケンシャルな決定プロセスに置かれる。 具体的には、エッジが同一セル内にあるか否かに応じて、内側と外側のグループに分割される。 外縁のアーキテクチャ重みは独立に最適化されるが、内縁のアーキテクチャ重みは前縁のアーキテクチャ重みと学習可能な遷移行列の注意的確率遷移法に基づいて順次導出される。 5つのベンチマーク実験で、層間依存性のモデリングの価値を確認し、提案手法が最先端手法よりも優れていることを示す。

Differential Neural Architecture Search (NAS) methods represent the network architecture as a repetitive proxy directed acyclic graph (DAG) and optimize the network weights and architecture weights alternatively in a differential manner. However, existing methods model the architecture weights on each edge (i.e., a layer in the network) as statistically independent variables, ignoring the dependency between edges in DAG induced by their directed topological connections. In this paper, we make the first attempt to investigate such dependency by proposing a novel Inter-layer Transition NAS method. It casts the architecture optimization into a sequential decision process where the dependency between the architecture weights of connected edges is explicitly modeled. Specifically, edges are divided into inner and outer groups according to whether or not their predecessor edges are in the same cell. While the architecture weights of outer edges are optimized independently, those of inner edges are derived sequentially based on the architecture weights of their predecessor edges and the learnable transition matrices in an attentive probability transition manner. Experiments on five benchmarks confirm the value of modeling inter-layer dependency and demonstrate the proposed method outperforms state-of-the-art methods.
翻訳日:2021-06-07 06:56:26 公開日:2020-11-30
# (参考訳) Heuristic Domain Adaptation

Heuristic Domain Adaptation ( http://arxiv.org/abs/2011.14540v1 )

ライセンス: CC BY-SA 4.0
Shuhao Cui, Xuan Jin, Shuhui Wang, Yuan He, Qingming Huang(参考訳) 視覚領域適応(da)では、ドメイン固有の特性をドメイン不変表現から分離することは不適切な問題である。 既存の方法は、異なる種類の先例を適用したり、ドメインの相違を直接最小化してこの問題に対処する。 別の研究パイプラインでは、ドメイン固有の情報を段階的な転送プロセスとして表現している。 本稿では,ヒューリスティック検索の観点からのドメイン不変およびドメイン固有情報のモデル化について述べる。 我々は、既存の表現の特徴をヒューリスティック表現として、より広い領域の不一致に繋がる特徴を識別する。 ヒューリスティック表現の指導により、よく確立された理論的保証を持つヒューリスティックドメイン適応(hda)の原理的枠組みを定式化する。 HDAを実行するには、学習手順中の初期状態と最終状態の制約に、ドメイン不変量とドメイン固有表現との間のコサイン類似度スコアと独立性の測定を投入する。 ヒューリスティック検索の最終条件と同様に、我々はさらに、ヒューリスティックネットワークの最終的な出力範囲を小さくする制約を導出する。 そこで本稿では,上記の制約でドメイン不変およびドメイン固有表現を明示的に学習するHuristic Domain Adaptation Network (HDAN)を提案する。 大規模実験の結果,HDANは非教師付きDA,マルチソースDA,半教師付きDAの最先端を超えていることがわかった。 コードはhttps://github.com/cuishuhao/hdaで入手できる。

In visual domain adaptation (DA), separating the domain-specific characteristics from the domain-invariant representations is an ill-posed problem. Existing methods apply different kinds of priors or directly minimize the domain discrepancy to address this problem, which lack flexibility in handling real-world situations. Another research pipeline expresses the domain-specific information as a gradual transferring process, which tends to be suboptimal in accurately removing the domain-specific properties. In this paper, we address the modeling of domain-invariant and domain-specific information from the heuristic search perspective. We identify the characteristics in the existing representations that lead to larger domain discrepancy as the heuristic representations. With the guidance of heuristic representations, we formulate a principled framework of Heuristic Domain Adaptation (HDA) with well-founded theoretical guarantees. To perform HDA, the cosine similarity scores and independence measurements between domain-invariant and domain-specific representations are cast into the constraints at the initial and final states during the learning procedure. Similar to the final condition of heuristic search, we further derive a constraint enforcing the final range of heuristic network output to be small. Accordingly, we propose Heuristic Domain Adaptation Network (HDAN), which explicitly learns the domain-invariant and domain-specific representations with the above mentioned constraints. Extensive experiments show that HDAN has exceeded state-of-the-art on unsupervised DA, multi-source DA and semi-supervised DA. The code is available at https://github.com/cuishuhao/HDA.
翻訳日:2021-06-07 06:36:39 公開日:2020-11-30
# (参考訳) 自律運転のためのカスタマイズ可能な動的シナリオモデリングとデータ生成プラットフォーム

A Customizable Dynamic Scenario Modeling and Data Generation Platform for Autonomous Driving ( http://arxiv.org/abs/2011.14551v1 )

ライセンス: CC BY-SA 4.0
Jay Shenoy, Edward Kim, Xiangyu Yue, Taesung Park, Daniel Fremont, Alberto Sangiovanni-Vincentelli, Sanjit Seshia(参考訳) 人間と安全に対話することは、自動運転にとって大きな課題である。 この相互作用のパフォーマンスは、知覚、行動予測、計画といった自動操縦の機械学習ベースのモジュールに依存する。 これらのモジュールは、高品質なラベルを持つトレーニングデータセットと、さまざまな現実的な動的振る舞いを必要とする。 したがって、珍しいシナリオを扱うためにそのようなモジュールをトレーニングするのは、定義上は現実のデータセットではほとんど表現されないため、難しい。 したがって、これらのまれなシナリオをカバーする合成データでデータセットを補強する実用的なニーズがある。 本稿では,動的かつインタラクティブなシナリオをモデル化し,ラベル付きセンサデータの異なるモダリティを持つシミュレーションシナリオを生成し,データ拡張のための情報収集を行うプラットフォームを提案する。 私たちの知る限り、これは自動運転ドメインに特化したこれらのタスクのための最初の統合プラットフォームです。

Safely interacting with humans is a significant challenge for autonomous driving. The performance of this interaction depends on machine learning-based modules of an autopilot, such as perception, behavior prediction, and planning. These modules require training datasets with high-quality labels and a diverse range of realistic dynamic behaviors. Consequently, training such modules to handle rare scenarios is difficult because they are, by definition, rarely represented in real-world datasets. Hence, there is a practical need to augment datasets with synthetic data covering these rare scenarios. In this paper, we present a platform to model dynamic and interactive scenarios, generate the scenarios in simulation with different modalities of labeled sensor data, and collect this information for data augmentation. To our knowledge, this is the first integrated platform for these tasks specialized to the autonomous driving domain.
翻訳日:2021-06-07 06:21:59 公開日:2020-11-30
# (参考訳) ニューラルネットワークモデルのための揮発性知識蒸留パラダイムの選択的調査

A Selective Survey on Versatile Knowledge Distillation Paradigm for Neural Network Models ( http://arxiv.org/abs/2011.14554v1 )

ライセンス: CC BY 4.0
Jeong-Hoe Ku, JiHun Oh, YoungYoon Lee, Gaurav Pooniwala, SangJeong Lee(参考訳) 本稿では,知識蒸留(KD)フレームワークを研究者や実践者が活用し,深層ニューラルネットワーク分野における新しい最適化モデルの開発を目的とする。 この目的のために,我々は知識蒸留の概要と,特権情報を用いた学習(lupi)や一般化蒸留(gd)を含む関連研究について述べる。 教師-学生アーキテクチャに基づく知識蒸留は、当初はモデル圧縮技術として考案されたが、様々なフレームワークにまたがって多用途に応用されている。 本稿では,知識蒸留の重要な成分は,知識と損失の3つ,教師と学生のパラダイム,そして蒸留プロセスである,という仮説から,知識蒸留の特徴を考察する。 さらに,その直接的応用と,他の深層学習パラダイムと組み合わせて,知識蒸留の汎用性について検討した。 最後に,演奏利得の分析分析を研究するための説明可能な知識蒸留や,深層学習コミュニティにおけるホットな研究テーマである自己教師あり学習など,今後の知識蒸留の研究について述べる。

This paper aims to provide a selective survey about knowledge distillation(KD) framework for researchers and practitioners to take advantage of it for developing new optimized models in the deep neural network field. To this end, we give a brief overview of knowledge distillation and some related works including learning using privileged information(LUPI) and generalized distillation(GD). Even though knowledge distillation based on the teacher-student architecture was initially devised as a model compression technique, it has found versatile applications over various frameworks. In this paper, we review the characteristics of knowledge distillation from the hypothesis that the three important ingredients of knowledge distillation are distilled knowledge and loss,teacher-student paradigm, and the distillation process. In addition, we survey the versatility of the knowledge distillation by studying its direct applications and its usage in combination with other deep learning paradigms. Finally we present some future works in knowledge distillation including explainable knowledge distillation where the analytical analysis of the performance gain is studied and the self-supervised learning which is a hot research topic in deep learning community.
翻訳日:2021-06-07 06:15:51 公開日:2020-11-30
# (参考訳) どこに行くべきか? 深層ニューラルネットワークの量子化挙動に及ぼす重み初期化効果の低レベル探索

Where Should We Begin? A Low-Level Exploration of Weight Initialization Impact on Quantized Behaviour of Deep Neural Networks ( http://arxiv.org/abs/2011.14578v1 )

ライセンス: CC BY 4.0
Stone Yun and Alexander Wong(参考訳) モバイル処理のためのディープ畳み込みニューラルネットワーク(CNN)アルゴリズムの普及により、限られた精度の量子化がCNN効率にとって重要なツールとなっている。 その結果,固定精度量子化アルゴリズムの設計や,量子化による性能劣化を最小限に抑える量子化重視最適化手法が提案されている。 しかしながら、様々なcnn設計決定/ベストプラクティスが量子化推論行動にどのように影響するか、具体的な理解はほとんどない。 重みの初期化戦略は、しばしば勾配の消失や爆発といった問題を解決することに関連づけられるが、しばしば見過ごされている側面は、各層の最終的な訓練された分布に与える影響である。 異なる重みの初期化が重みの最終的な分布と異なるCNNアーキテクチャの活性化に与える影響について、詳細なアブレーション研究を行う。 きめ細かい層解析により、初期重み分布が最終的な精度と定量化行動にどのように影響するかについての深い洞察を得ることができる。 われわれの知る限りでは、ウェイトの初期化とその量子化行動に対する影響について、そのような低レベルで詳細な定量分析を行うのは初めてである。

With the proliferation of deep convolutional neural network (CNN) algorithms for mobile processing, limited precision quantization has become an essential tool for CNN efficiency. Consequently, various works have sought to design fixed precision quantization algorithms and quantization-focused optimization techniques that minimize quantization induced performance degradation. However, there is little concrete understanding of how various CNN design decisions/best practices affect quantized inference behaviour. Weight initialization strategies are often associated with solving issues such as vanishing/exploding gradients but an often-overlooked aspect is their impact on the final trained distributions of each layer. We present an in-depth, fine-grained ablation study of the effect of different weights initializations on the final distributions of weights and activations of different CNN architectures. The fine-grained, layerwise analysis enables us to gain deep insights on how initial weights distributions will affect final accuracy and quantized behaviour. To our best knowledge, we are the first to perform such a low-level, in-depth quantitative analysis of weights initialization and its effect on quantized behaviour.
翻訳日:2021-06-07 05:38:04 公開日:2020-11-30
# (参考訳) ScaleNAS: 視覚認識のためのスケールアウェア表現のワンショット学習

ScaleNAS: One-Shot Learning of Scale-Aware Representations for Visual Recognition ( http://arxiv.org/abs/2011.14584v1 )

ライセンス: CC BY 4.0
Hsin-Pai Cheng, Feng Liang, Meng Li, Bowen Cheng, Feng Yan, Hai Li, Vikas Chandra, Yiran Chen(参考訳) 体部や物体のサイズの違いによるスケールのばらつきは、視覚認識タスクにとって難しい問題である。 既存の作業は通常、専用のバックボーンを設計するか、それぞれのタスクにNeural Architecture Search(NAS)を適用する。 しかし、既存の作品では、設計や探索空間にかなりの制限が課されている。 そこで本研究では,スケール認識表現を探索するワンショット学習手法であるscalenasを提案する。 ScaleNASは、マルチスケール機能アグリゲーションを検索することで、複数のタスクを同時に解決する。 ScaleNASはフレキシブルな検索スペースを採用しており、任意のブロック数とクロススケール機能融合を可能にする。 フレキシブルスペースによって引き起こされる高い探索コストに対応するため、ScaleNASはグループサンプリングと進化探索によって駆動されるマルチスケールスーパーネットに対してワンショット学習を採用している。 さらなる再トレーニングなしに、ScaleNetは、優れたパフォーマンスで、さまざまな視覚認識タスクに対して直接デプロイできる。 本研究では,2つのタスクに対する高解像度モデルの作成にScaleNAS,人間のポーズ推定にScaleNet-P,セマンティックセグメンテーションにScaleNet-Sを使用する。 ScaleNet-PとScaleNet-Sは、両方のタスクで既存の手作業およびNASベースのメソッドより優れている。 ボトムアップの人間のポーズ推定にScaleNet-Pを適用すると、最先端のHigherHRNetを超える。 特に、ScaleNet-P4 は COCO test-dev で71.6% AP を獲得し、新しい最先端の結果を達成した。

Scale variance among different sizes of body parts and objects is a challenging problem for visual recognition tasks. Existing works usually design dedicated backbone or apply Neural architecture Search(NAS) for each task to tackle this challenge. However, existing works impose significant limitations on the design or search space. To solve these problems, we present ScaleNAS, a one-shot learning method for exploring scale-aware representations. ScaleNAS solves multiple tasks at a time by searching multi-scale feature aggregation. ScaleNAS adopts a flexible search space that allows an arbitrary number of blocks and cross-scale feature fusions. To cope with the high search cost incurred by the flexible space, ScaleNAS employs one-shot learning for multi-scale supernet driven by grouped sampling and evolutionary search. Without further retraining, ScaleNet can be directly deployed for different visual recognition tasks with superior performance. We use ScaleNAS to create high-resolution models for two different tasks, ScaleNet-P for human pose estimation and ScaleNet-S for semantic segmentation. ScaleNet-P and ScaleNet-S outperform existing manually crafted and NAS-based methods in both tasks. When applying ScaleNet-P to bottom-up human pose estimation, it surpasses the state-of-the-art HigherHRNet. In particular, ScaleNet-P4 achieves 71.6% AP on COCO test-dev, achieving new state-of-the-art result.
翻訳日:2021-06-07 05:14:23 公開日:2020-11-30
# (参考訳) FactorizeNet: 量子化制約下での効率的なネットワークアーキテクチャ探索のためのプログレッシブ深さ分解

FactorizeNet: Progressive Depth Factorization for Efficient Network Architecture Exploration Under Quantization Constraints ( http://arxiv.org/abs/2011.14586v1 )

ライセンス: CC BY 4.0
Stone Yun and Alexander Wong(参考訳) 深度分解と量子化は、エッジ上の低電力推論に適した効率的な深層畳み込みニューラルネットワーク(CNN)アーキテクチャを設計するための2つの主要な戦略として登場した。 しかし、深度分解の選択がCNNにおける各層の最終的な、訓練された分布にどのように影響するか、特に量子化された重みと活性化の状況において、詳細は分かっていない。 本研究では、量子化制約下での効率的なCNNアーキテクチャ探索のためのプログレッシブな深度分解戦略を提案する。 アルゴリズムによって深度分解の粒度を漸進的に増大させることで,層状分布の微細で低レベルな解析が可能となる。 これにより、固定精度量子化の下での効率-精度トレードオフに関する層レベルでの深い洞察を得られる。 このようなプログレッシブな深度分解戦略は、所望の効率精度要求に基づいて最適深度分解マクロアーキテクチャ設計(ここではFactizeNetと呼ぶ)の効率的な識別を可能にする。

Depth factorization and quantization have emerged as two of the principal strategies for designing efficient deep convolutional neural network (CNN) architectures tailored for low-power inference on the edge. However, there is still little detailed understanding of how different depth factorization choices affect the final, trained distributions of each layer in a CNN, particularly in the situation of quantized weights and activations. In this study, we introduce a progressive depth factorization strategy for efficient CNN architecture exploration under quantization constraints. By algorithmically increasing the granularity of depth factorization in a progressive manner, the proposed strategy enables a fine-grained, low-level analysis of layer-wise distributions. Thus enabling the gain of in-depth, layer-level insights on efficiency-accuracy tradeoffs under fixed-precision quantization. Such a progressive depth factorization strategy also enables efficient identification of the optimal depth-factorized macroarchitecture design (which we will refer to here as FactorizeNet) based on the desired efficiency-accuracy requirements.
翻訳日:2021-06-07 04:58:30 公開日:2020-11-30
# (参考訳) REaL:ユークリッド空間と類似度推定を用いたリアルタイム顔検出・認識

REaL: Real-time Face Detection and Recognition Using Euclidean Space and Likelihood Estimation ( http://arxiv.org/abs/2011.14603v1 )

ライセンス: CC BY-SA 4.0
Sandesh Ramesh, Manoj Kumar M V, and K Aditya Shastry(参考訳) 顔を正確に検出し、認識することは常に課題だった。 顔の特徴の差別化、イメージのトレーニング、迅速な結果の生成には多くの計算が必要です。 本稿では,本論文で提案する実システムとその機能と計算を短時間で行える方法について述べる。 実際の実験は実画像上で行われ、その認識率は有望である。 このシステムは、計算から人間以外の物体を取り除くことにも成功している。 システムはローカルデータベースを使用してキャプチャした画像を保存し、ニューラルネットワークを頻繁に供給する。 撮影した画像は自動的に収集され、不要なノイズを取り除く。 システムは、顔が微笑んでいるか、左目を持っているか、右目が開いているかのオイラー角度と確率を算出する。

Detecting and recognizing faces accurately has always been a challenge. Differentiating facial features, training images, and producing quick results require a lot of computation. The REaL system we have proposed in this paper discusses its functioning and ways in which computations can be carried out in a short period. REaL experiments are carried out on live images and the recognition rates are promising. The system is also successful in removing non-human objects from its calculations. The system uses a local database to store captured images and feeds the neural network frequently. The captured images are cropped automatically to remove unwanted noise. The system calculates the Euler angles and the probability of whether the face is smiling, has its left eye, and right eyes open or not.
翻訳日:2021-06-07 04:30:00 公開日:2020-11-30
# (参考訳) インド5州における性労働者のHIV感染軽減のための説明可能な介入

Learning Explainable Interventions to Mitigate HIV Transmission in Sex Workers Across Five States in India ( http://arxiv.org/abs/2012.01930v1 )

ライセンス: CC BY 4.0
Raghav Awasthi, Prachi Patel, Vineet Joshi, Shama Karkal, Tavpritesh Sethi(参考訳) 女性性労働者(FSWs)は、社会で最も脆弱で便宜的な集団である。 結果として、ケアへの品質アクセスの欠如に悩まされることが多い。 健康サービスの改善に携わる草の根組織は、複雑な影響によって介入の有効性を向上させるという課題に直面することが多い。 この研究は、構造学習、差別的モデリング、および5つの異なるインドの州にまたがる介入を設計する草の根レベルの専門知識を組み合わせて、FSWにおける安全なセックスの実践を改善するために、有害でない要因の影響を発見する。 モデルから明らかになったようにコンドームの使用を最大化できる要因を定量化するために,ブートストラップ付き平均ベイズネットワーク構造を学習した。 識別モデルはxgboostとランダムフォレストを用いてコンドーム使用行動を予測するために構築され、最良のモデルは83%の感度、99%の特異性、そして99%の面積を予測のための精度-リコール曲線の下で達成した。 生成的および差別的モデリングアプローチの両方により、金融リテラシー訓練がfswsにおけるコンドーム使用の主な影響と予測要因であることが明らかとなった。 これらの洞察は、このアプローチの実世界の有用性を評価するための現在進行中のフィールドトライアルにつながった。 本研究は、女性性労働者におけるHIV感染防止対策の透明性発見と優先順位付けのための、リソース制限による説明可能なモデルの可能性を強調した。

Female sex workers(FSWs) are one of the most vulnerable and stigmatized groups in society. As a result, they often suffer from a lack of quality access to care. Grassroot organizations engaged in improving health services are often faced with the challenge of improving the effectiveness of interventions due to complex influences. This work combines structure learning, discriminative modeling, and grass-root level expertise of designing interventions across five different Indian states to discover the influence of non-obvious factors for improving safe-sex practices in FSWs. A bootstrapped, ensemble-averaged Bayesian Network structure was learned to quantify the factors that could maximize condom usage as revealed from the model. A discriminative model was then constructed using XgBoost and random forest in order to predict condom use behavior The best model achieved 83% sensitivity, 99% specificity, and 99% area under the precision-recall curve for the prediction. Both generative and discriminative modeling approaches revealed that financial literacy training was the primary influence and predictor of condom use in FSWs. These insights have led to a currently ongoing field trial for assessing the real-world utility of this approach. Our work highlights the potential of explainable models for transparent discovery and prioritization of anti-HIV interventions in female sex workers in a resource-limited setting.
翻訳日:2021-06-07 04:26:38 公開日:2020-11-30
# (参考訳) CovidExplorer: COVID-19情報のための多面的なAIベースの検索と可視化エンジン

CovidExplorer: A Multi-faceted AI-based Search and Visualization Engine for COVID-19 Information ( http://arxiv.org/abs/2011.14618v1 )

ライセンス: CC BY 4.0
Heer Ambavi (1), Kavita Vaishnaw (1), Udit Vyas (1), Abhisht Tiwari (1) and Mayank Singh (1) ((1) Indian Institute of Technology Gandhinagar)(参考訳) 世界全体が新型コロナウイルス(COVID-19)のパンデミックとの戦いに巻き込まれており、研究実験や政府の政策、ソーシャルメディアの議論が急増している。 マルチモーダル情報アクセスとデータ可視化プラットフォームは、パンデミックの予防対策の理解と開発を目的とした研究を支援する上で重要な役割を果たす可能性がある。 本稿では,多面AIを用いた検索・可視化エンジンであるCovidExplorerを提案する。 本システムの目的は、現在最先端の新型コロナウイルス研究の理解、ドメインに関する研究論文の特定、リアルタイムのトレンドと統計の可視化である。 他の既存のシステムとは対照的に、CovidExplorerは、インド固有のソーシャルメディアに関するトピックに関する議論を、COVID-19のさまざまな側面を研究するためにもたらしている。 システム、デモビデオ、データセットはhttp://covidexplorer.in.com/で入手できる。

The entire world is engulfed in the fight against the COVID-19 pandemic, leading to a significant surge in research experiments, government policies, and social media discussions. A multi-modal information access and data visualization platform can play a critical role in supporting research aimed at understanding and developing preventive measures for the pandemic. In this paper, we present a multi-faceted AI-based search and visualization engine, CovidExplorer. Our system aims to help researchers understand current state-of-the-art COVID-19 research, identify research articles relevant to their domain, and visualize real-time trends and statistics of COVID-19 cases. In contrast to other existing systems, CovidExplorer also brings in India-specific topical discussions on social media to study different aspects of COVID-19. The system, demo video, and the datasets are available at http://covidexplorer.in.
翻訳日:2021-06-07 04:20:38 公開日:2020-11-30
# (参考訳) 畳み込み復号化オートエンコーダによるSAR画像の復号化

SAR Image Despeckling Based on Convolutional Denoising Autoencoder ( http://arxiv.org/abs/2011.14627v1 )

ライセンス: CC BY 4.0
Qianqian Zhang and Ruizhi Sun(参考訳) 合成開口レーダ(SAR)イメージングでは、スペックルはコヒーレントイメージングシステムによって引き起こされる乗法ノイズの一種として知られており、画像解析に非常に重要である。 過去30年間、様々なアルゴリズムがSAR画像に悪影響を及ぼすために提案されてきた。 一般的に、BM3Dはスペックルノイズを除去する技術として優れた性能で評価されている。 最近では、ディープラーニングが画像の認知に成功し、大規模なデータセットを必要とする従来の手法よりも改善された。 多くの画像SAR画像非特定アプローチとは異なり、提案手法は破損した画像から直接スペックルを学習する。 本稿では,C-DAE(Convolutioal Denoising Autoencoder)を用いて,スペックルフリーなSAR画像の再構成を行う。 バッチ正規化戦略はC-DAEと統合され、列車時間を短縮する。 さらに,標準指標であるPSNRとSSIMの画質を計算した。 私たちのアプローチは他の方法よりも優れていることが判明した。

In Synthetic Aperture Radar (SAR) imaging, despeckling is very important for image analysis,whereas speckle is known as a kind of multiplicative noise caused by the coherent imaging system. During the past three decades, various algorithms have been proposed to denoise the SAR image. Generally, the BM3D is considered as the state of art technique to despeckle the speckle noise with excellent performance. More recently, deep learning make a success in image denoising and achieved a improvement over conventional method where large train dataset is required. Unlike most of the images SAR image despeckling approach, the proposed approach learns the speckle from corrupted images directly. In this paper, the limited scale of dataset make a efficient exploration by using convolutioal denoising autoencoder (C-DAE) to reconstruct the speckle-free SAR images. Batch normalization strategy is integrated with C- DAE to speed up the train time. Moreover, we compute image quality in standard metrics, PSNR and SSIM. It is revealed that our approach perform well than some others.
翻訳日:2021-06-07 04:15:05 公開日:2020-11-30
# (参考訳) 畳み込みネットワークが帯域通過フィルタを学習する理由:理論と実証的支援

Why Convolutional Networks Learn Oriented Bandpass Filters: Theory and Empirical Support ( http://arxiv.org/abs/2011.14665v1 )

ライセンス: CC BY 4.0
Isma Hadji and Richard P. Wildes(参考訳) 画像理解タスクに適用された畳み込みアーキテクチャは、指向する帯域通過フィルタを学習する。 この結果の標準的な説明として、これらのフィルタは訓練中に露呈した画像の構造を反映している: 自然画像は通常、様々なスケールの配向輪郭で局所的に構成され、配向バンドパスフィルタはそのような構造にマッチする。 我々は、画像の構造ではなく、畳み込みアーキテクチャの構造に基づく別の説明を提供する。 特に複素指数関数は畳み込みの固有函数である。 これらの固有関数はグローバルに定義されるが、畳み込み構造は局所的に作用する。 局所性を強制するために、固有関数にウィンドウ関数を適用することができ、畳み込みアーキテクチャで学ぶ自然作用素として向き付けられた帯域通過フィルタが導かれる。 表現の観点からは、これらのフィルタは局所的な体系的な方法で画像や他の信号の特徴付けや操作を可能にする。 我々は,畳み込みネットワークが畳み込み層すべてでそのようなフィルタを学習するという仮説を実証的に支持する。 前回の研究では、初期層における指向性帯域通過特性を有するフィルタの証拠が示されているが、これらのフィルタ特性のすべての層における優位性を示す最初の研究である。 従来の研究では, 各層に存在するフィルタ特性について検討する一方で, 層間フィルタリングの累積構成効果に重点を置いているため, この観察を欠いている。

It has been repeatedly observed that convolutional architectures when applied to image understanding tasks learn oriented bandpass filters. A standard explanation of this result is that these filters reflect the structure of the images that they have been exposed to during training: Natural images typically are locally composed of oriented contours at various scales and oriented bandpass filters are matched to such structure. We offer an alternative explanation based not on the structure of images, but rather on the structure of convolutional architectures. In particular, complex exponentials are the eigenfunctions of convolution. These eigenfunctions are defined globally; however, convolutional architectures operate locally. To enforce locality, one can apply a windowing function to the eigenfunctions, which leads to oriented bandpass filters as the natural operators to be learned with convolutional architectures. From a representational point of view, these filters allow for a local systematic way to characterize and operate on an image or other signal. We offer empirical support for the hypothesis that convolutional networks learn such filters at all of their convolutional layers. While previous research has shown evidence of filters having oriented bandpass characteristics at early layers, ours appears to be the first study to document the predominance of such filter characteristics at all layers. Previous studies have missed this observation because they have concentrated on the cumulative compositional effects of filtering across layers, while we examine the filter characteristics that are present at each layer.
翻訳日:2021-06-07 03:55:45 公開日:2020-11-30
# (参考訳) UWB @ DIACR-Ita: CCAと直交変換を用いた語彙意味変化検出

UWB @ DIACR-Ita: Lexical Semantic Change Detection with CCA and Orthogonal Transformation ( http://arxiv.org/abs/2011.14678v1 )

ライセンス: CC BY 4.0
Ond\v{r}ej Pra\v{z}\'ak, Pavel P\v{r}ib\'a\v{n}, and Stephen Taylor(参考訳) 本稿では,diacr-ita共有タスクにおける語彙意味変化(つまり,時間経過に伴う単語意味変化)の検出手法について述べる。 異なる時期から選択した2つのイタリア語コーパスにおける単語間の意味的差異について検討した。 本手法は完全に教師なしであり,言語に依存しない。 各コーパスに対する意味ベクトル空間(semantic vector space)を、前後で準備する。 次に、CCAと直交変換を用いて、初期空間と後期空間の間の線形変換を計算する。 最後に、変換ベクトル間のコサインを測定する。

In this paper, we describe our method for detection of lexical semantic change (i.e., word sense changes over time) for the DIACR-Ita shared task, where we ranked $1^{st}$. We examine semantic differences between specific words in two Italian corpora, chosen from different time periods. Our method is fully unsupervised and language independent. It consists of preparing a semantic vector space for each corpus, earlier and later. Then we compute a linear transformation between earlier and later spaces, using CCA and Orthogonal Transformation. Finally, we measure the cosines between the transformed vectors.
翻訳日:2021-06-07 03:42:47 公開日:2020-11-30
# (参考訳) UWB at SemEval-2020 Task 1: Lexical Semantic Change Detection

UWB at SemEval-2020 Task 1: Lexical Semantic Change Detection ( http://arxiv.org/abs/2012.00004v1 )

ライセンス: CC BY 4.0
Ond\v{r}ej Pra\v{z}\'ak, Pavel P\v{r}ib\'a\v{n}, Stephen Taylor, and Jakub Sido(参考訳) 本稿では,語彙的意味変化,すなわち単語感覚の変化を時間とともに検出する手法について述べる。 英語,ドイツ語,ラテン語,スウェーデン語の2つのコーパスの特定の単語間の意味的差異について検討した。 本手法はSemEval 2020 Task 1: \textit{Unsupervised Lexical Semantic Change Detection} のために作成された。 私たちはSub-task 1 で $1^{st}$ を、Sub-task 2 で 4^{th}$ をランク付けしました。 本手法は完全に教師なしであり,言語に依存しない。 各コーパスに対して、前後に意味ベクトル空間を作成すること、正準相関解析と直交変換を用いて、前空間と後空間の間の線形変換を計算すること、前コーパスからの目標語に対する変換ベクトルと後のコーパスにおける対象語に対するベクトルとの間のコサインを測定することからなる。

In this paper, we describe our method for the detection of lexical semantic change, i.e., word sense changes over time. We examine semantic differences between specific words in two corpora, chosen from different time periods, for English, German, Latin, and Swedish. Our method was created for the SemEval 2020 Task 1: \textit{Unsupervised Lexical Semantic Change Detection.} We ranked $1^{st}$ in Sub-task 1: binary change detection, and $4^{th}$ in Sub-task 2: ranked change detection. Our method is fully unsupervised and language independent. It consists of preparing a semantic vector space for each corpus, earlier and later; computing a linear transformation between earlier and later spaces, using Canonical Correlation Analysis and Orthogonal Transformation; and measuring the cosines between the transformed vector for the target word from the earlier corpus and the vector for the target word in the later corpus.
翻訳日:2021-06-07 03:33:44 公開日:2020-11-30
# (参考訳) ニューラルネットワークは永続的ホモロジーの特徴を学習できるのか?

Can neural networks learn persistent homology features? ( http://arxiv.org/abs/2011.14688v1 )

ライセンス: CC BY 4.0
Guido Mont\'ufar, Nina Otter, Yuguang Wang(参考訳) トポロジカルデータ分析は、データの表現を作成するために、形状を研究する数学的領域であるトポロジーのツールを使用する。 特に、永続ホモロジーにおいて、データに関連する空間の1パラメータ族の研究と、永続図は1パラメータ族をまたぐ連結成分や穴のような位相不変量の寿命を記述する。 多くのアプリケーションでは、ダイアグラム自体よりも永続化ダイアグラムに関連する機能を扱うことに興味があります。 本研究では,ニューラルネットワークを用いて永続性図から抽出したいくつかの特徴を学習する可能性を検討する。

Topological data analysis uses tools from topology -- the mathematical area that studies shapes -- to create representations of data. In particular, in persistent homology, one studies one-parameter families of spaces associated with data, and persistence diagrams describe the lifetime of topological invariants, such as connected components or holes, across the one-parameter family. In many applications, one is interested in working with features associated with persistence diagrams rather than the diagrams themselves. In our work, we explore the possibility of learning several types of features extracted from persistence diagrams using neural networks.
翻訳日:2021-06-07 03:22:04 公開日:2020-11-30
# (参考訳) KD-Lib: 知識蒸留・処理・量子化のためのPyTorchライブラリ

KD-Lib: A PyTorch library for Knowledge Distillation, Pruning and Quantization ( http://arxiv.org/abs/2011.14691v1 )

ライセンス: CC BY 4.0
Het Shah, Avishree Khare, Neelay Shah, Khizir Siddiqui(参考訳) 近年,ニューラルネットワークの規模が大きくなるにつれ,圧縮技術に関する研究が盛んに行われ,大規模化の欠点が軽減されている。 これらの研究の大部分は、知識蒸留、刈り取り、量子化の3つの広いファミリーに分類できる。 この領域では着実に研究が進んでいるが、提案手法の採用と商業利用は、そのペースではまだ進んでいない。 我々は、オープンソースのPyTorchベースのライブラリであるKD-Libを紹介した。 KD-Libはモデルとアルゴリズムに依存しないもので、ロギングとモニタリングにOptunaとTensorboardを使用したハイパーパラメータチューニングの拡張サポートがある。 ライブラリは https://github.com/SforAiDl/KD_Lib で見ることができる。

In recent years, the growing size of neural networks has led to a vast amount of research concerning compression techniques to mitigate the drawbacks of such large sizes. Most of these research works can be categorized into three broad families : Knowledge Distillation, Pruning, and Quantization. While there has been steady research in this domain, adoption and commercial usage of the proposed techniques has not quite progressed at the rate. We present KD-Lib, an open-source PyTorch based library, which contains state-of-the-art modular implementations of algorithms from the three families on top of multiple abstraction layers. KD-Lib is model and algorithm-agnostic, with extended support for hyperparameter tuning using Optuna and Tensorboard for logging and monitoring. The library can be found at - https://github.com/SforAiDl/KD_Lib.
翻訳日:2021-06-07 03:11:16 公開日:2020-11-30
# (参考訳) 二分分類:回帰モデルと片面ラベルシフトを併用した逆バランスクラス不均衡

Binary Classification: Counterbalancing Class Imbalance by Applying Regression Models in Combination with One-Sided Label Shifts ( http://arxiv.org/abs/2011.14764v1 )

ライセンス: CC BY 4.0
Peter Bellmann, Heinke Hihn, Daniel A. Braun, Friedhelm Schwenker(参考訳) 医学応用のような現実世界のパターン認識のシナリオでは、対応する分類タスクは不均衡な性質を持つ。 本研究は,2つのクラスのうちの1つが非表現的(マイノリティクラス)であり,他のクラス(マイノリティクラス)と比較して非表現的(マイノリティクラス)な分類タスクである。 文献では、クラス不均衡に対処するアンダーサンプリングやオーバーサンプリングなど、多くの異なるアプローチが提案されている。 そこで本研究では,クラス不均衡の問題に対処する新しい手法を提案する。 この目的のために、まず二項分類タスクを等価回帰タスクに転送する。 その後、再定義されたターゲットラベルセットに対して、対応する回帰タスクがバランスをとるように、負のターゲットラベルと正のターゲットラベルのセットを生成する。 我々は,Support Vector Machinesと組み合わせて,利用可能な多数のデータセットに対するアプローチを評価した。 さらに,提案手法を,最も一般的なオーバーサンプリング手法の一つであるSMOTEと比較した。 実験評価の結果の詳細な議論に基づいて,今後の研究方向性に期待できるアイデアを提供する。

In many real-world pattern recognition scenarios, such as in medical applications, the corresponding classification tasks can be of an imbalanced nature. In the current study, we focus on binary, imbalanced classification tasks, i.e.~binary classification tasks in which one of the two classes is under-represented (minority class) in comparison to the other class (majority class). In the literature, many different approaches have been proposed, such as under- or oversampling, to counter class imbalance. In the current work, we introduce a novel method, which addresses the issues of class imbalance. To this end, we first transfer the binary classification task to an equivalent regression task. Subsequently, we generate a set of negative and positive target labels, such that the corresponding regression task becomes balanced, with respect to the redefined target label set. We evaluate our approach on a number of publicly available data sets in combination with Support Vector Machines. Moreover, we compare our proposed method to one of the most popular oversampling techniques (SMOTE). Based on the detailed discussion of the presented outcomes of our experimental evaluation, we provide promising ideas for future research directions.
翻訳日:2021-06-07 02:37:22 公開日:2020-11-30
# (参考訳) 深部学習による左室非反応測定

Deep learning approach to left ventricular non-compaction measurement ( http://arxiv.org/abs/2011.14773v1 )

ライセンス: CC BY 4.0
Jes\'us M. Rodr\'iguez-de-Vera and Josefa Gonz\'alez-Carrillo and Jos\'e M. Garc\'ia and Gregorio Bernab\'e(参考訳) 左室非作用 (LVNC) は左室腔の異常な気管狭窄を特徴とする稀な心筋症である。 従来のコンピュータビジョンのアプローチはlvnc診断には存在するが、深層学習ベースのツールは文献には見出せない。 本稿では,畳み込みニューラルネットワーク(CNN)を用いた最初のアプローチを提案する。 肥大型心筋症(hypertrophic cardiomyopathy)と診断された患者の集団に対して,4つのcnnが左室のコンパクト領域とトラベクラー領域を自動的に分割するように訓練されている。 推論結果は,LVNCの診断と測定において,深層学習に基づくアプローチが優れた結果が得られることを確認した。 2つの最高のCNN(U-NetとEfficient U-Net B1)は、CPUでは0.2秒未満、GPUでは0.01秒未満で画像分割を行う。 さらに、特定ゾーンによる出力画像の主観評価は、専門家心臓医によって行われ、すべてのスライスに対して完全な視覚的合意が得られ、既存の自動ツールよりも優れている。

Left ventricular non-compaction (LVNC) is a rare cardiomyopathy characterized by abnormal trabeculations in the left ventricle cavity. Although traditional computer vision approaches exist for LVNC diagnosis, deep learning-based tools could not be found in the literature. In this paper, a first approach using convolutional neural networks (CNNs) is presented. Four CNNs are trained to automatically segment the compacted and trabecular areas of the left ventricle for a population of patients diagnosed with Hypertrophic cardiomyopathy. Inference results confirm that deep learning-based approaches can achieve excellent results in the diagnosis and measurement of LVNC. The two best CNNs (U-Net and Efficient U-Net B1) perform image segmentation in less than 0.2 s on a CPU and in less than 0.01 s on a GPU. Additionally, a subjective evaluation of the output images with the identified zones is performed by expert cardiologists, with a perfect visual agreement for all the slices, outperforming already existing automatic tools.
翻訳日:2021-06-07 02:25:47 公開日:2020-11-30
# (参考訳) NeuralFusion: 潜在空間におけるオンライン深部核融合

NeuralFusion: Online Depth Fusion in Latent Space ( http://arxiv.org/abs/2011.14791v1 )

ライセンス: CC BY-SA 4.0
Silvan Weder, Johannes L. Sch\"onberger, Marc Pollefeys, Martin R. Oswald(参考訳) 潜在特徴空間における深度マップアグリゲーションを学習する新しいオンライン深度マップ融合手法を提案する。 従来の融合手法では符号付き距離関数 (sdfs) のような明示的なシーン表現を用いるが, 融合の学習的特徴表現を提案する。 鍵となるアイデアは、融合に使用されるシーン表現と出力シーン表現を、追加のトランスレータネットワークを介して分離することである。 我々のニューラルネットワークアーキテクチャは、深さと特徴融合サブネットワークという2つの主要な部分から構成されており、次にトランスレータサブネットワークが続き、最終的な表面表現(例)を生成する。 TSDF) - 可視化などのタスク。 提案手法は,高騒音レベルを処理し,特に測光ステレオベース深度マップに共通する粗悪なアウトレージを扱うことができる。 実データと合成データの実験は、特に大量のノイズと外れ値を持つ挑戦的なシナリオにおいて、技術の現状と比較して改善された結果を示す。

We present a novel online depth map fusion approach that learns depth map aggregation in a latent feature space. While previous fusion methods use an explicit scene representation like signed distance functions (SDFs), we propose a learned feature representation for the fusion. The key idea is a separation between the scene representation used for the fusion and the output scene representation, via an additional translator network. Our neural network architecture consists of two main parts: a depth and feature fusion sub-network, which is followed by a translator sub-network to produce the final surface representation (e.g. TSDF) for visualization or other tasks. Our approach is real-time capable, handles high noise levels, and is particularly able to deal with gross outliers common for photometric stereo-based depth maps. Experiments on real and synthetic data demonstrate improved results compared to the state of the art, especially in challenging scenarios with large amounts of noise and outliers.
翻訳日:2021-06-07 02:14:12 公開日:2020-11-30
# (参考訳) 制御可能な画像キャプションのための言語駆動型領域ポインタの進歩

Language-Driven Region Pointer Advancement for Controllable Image Captioning ( http://arxiv.org/abs/2011.14901v1 )

ライセンス: CC BY 4.0
Annika Lindh, Robert J. Ross, John D. Kelleher(参考訳) 制御可能な画像キャプションは、画像キャプションのマルチモーダルタスクにおける最近のサブフィールドであり、画像内の領域を生成した自然言語キャプションに記述する制約が置かれている。 これにより、より詳細な説明の作成に焦点が当てられ、結果よりもエンドユーザがよりコントロールできるようになる。 制御可能な画像キャプションアーキテクチャの重要な構成要素は、領域ポインタの進行を通じて各領域に出席するタイミングを決定する機構である。 本論文では,学習データにおける文構造との強い相関によって動機付けられたNEXTトークンを用いて,言語構造の自然な部分として進行段階を扱い,領域ポインター進行のタイミングを予測する新しい手法を提案する。 flickr30kエンティティのテストデータでは、精度86.55%、リコール97.92%のタイミングが一致した。 この手法を実装したモデルは、標準キャプションメトリクスの最先端を改善しつつ、より効果的な語彙サイズを示す。

Controllable Image Captioning is a recent sub-field in the multi-modal task of Image Captioning wherein constraints are placed on which regions in an image should be described in the generated natural language caption. This puts a stronger focus on producing more detailed descriptions, and opens the door for more end-user control over results. A vital component of the Controllable Image Captioning architecture is the mechanism that decides the timing of attending to each region through the advancement of a region pointer. In this paper, we propose a novel method for predicting the timing of region pointer advancement by treating the advancement step as a natural part of the language structure via a NEXT-token, motivated by a strong correlation to the sentence structure in the training data. We find that our timing agrees with the ground-truth timing in the Flickr30k Entities test data with a precision of 86.55% and a recall of 97.92%. Our model implementing this technique improves the state-of-the-art on standard captioning metrics while additionally demonstrating a considerably larger effective vocabulary size.
翻訳日:2021-06-07 01:44:03 公開日:2020-11-30
# (参考訳) 3D ConvNet を用いた動画像からの運転行動抽出

Driver Behavior Extraction from Videos in Naturalistic Driving Datasets with 3D ConvNets ( http://arxiv.org/abs/2011.14922v1 )

ライセンス: CC BY 4.0
Hanwen Miao, Shengan Zhang, Carol Flannagan(参考訳) 自然主義運転データ(NDD)は、衝突因果関係と人的要因を理解し、さらに事故回避対策を開発するために重要な情報源である。 運転中に記録されたビデオは、しばしばそのようなデータセットに含まれる。 nddには大量のビデオデータがあることが多いが、そのごく一部だけが人間のコードによって注釈付けされ、研究に利用され、すべてのビデオデータを過小評価している。 本稿では,ビデオから必要な情報を自動的に抽出するコンピュータビジョン手法について検討する。 具体的には,ビデオから携帯電話関連行動を自動的に抽出する3D ConvNetアルゴリズムを開発した。 実験の結果,提案手法はビデオからチャンクを抽出でき,そのほとんどは(約79%)自動ラベル付き携帯電話の動作を含むことがわかった。 抽出したチャンクの人間によるレビューと合わせて、ビデオを見ることよりも、携帯電話関連ドライバの振る舞いをより効率的に見つけることができる。

Naturalistic driving data (NDD) is an important source of information to understand crash causation and human factors and to further develop crash avoidance countermeasures. Videos recorded while driving are often included in such datasets. While there is often a large amount of video data in NDD, only a small portion of them can be annotated by human coders and used for research, which underuses all video data. In this paper, we explored a computer vision method to automatically extract the information we need from videos. More specifically, we developed a 3D ConvNet algorithm to automatically extract cell-phone-related behaviors from videos. The experiments show that our method can extract chunks from videos, most of which (~79%) contain the automatically labeled cell phone behaviors. In conjunction with human review of the extracted chunks, this approach can find cell-phone-related driver behaviors much more efficiently than simply viewing video.
翻訳日:2021-06-07 01:29:38 公開日:2020-11-30
# (参考訳) Twitterテキストと画像における洪水検出

Floods Detection in Twitter Text and Images ( http://arxiv.org/abs/2011.14943v1 )

ライセンス: CC BY 4.0
Naina Said, Kashif Ahmad, Asma Gul, Nasir Ahmad, Ala Al-Fuqaha(参考訳) 本稿では,ソーシャルメディアからテキストコンテンツとビジュアルコンテンツを分析し統合し,実世界の洪水イベントを検出することを目的とした,mediaeval 2020 flood related multimedia taskの手法を提案する。 このタスクは主に、特定の地域に関連する洪水に関連するツイートを特定することに焦点を当てている。 この課題に対処するためのいくつかのスキームを提案する。 テキストベースの洪水イベント検出には,BOW(Bog of Words)とBertのイタリア版を個別に,それぞれ0.77%,0.68%,0.70%のF1スコアを達成する3つの異なる手法を用いる。 ビジュアル分析には、imagenetで事前トレーニングされた複数の最先端のディープモデルから抽出された機能を利用する。 抽出された特徴は、複数の個別の分類器を訓練するために使用され、スコアは後期融合によって0.75%のf1スコアに達する。 必須のマルチモーダル実行に対しては,テキストと視覚の最良のスキームを,後期融合方式で比較した分類スコアを併用する。 全体としては、開発セット上で0.80%のf1-scoreを達成するマルチモーダルスキームによりより良い結果が得られる。

In this paper, we present our methods for the MediaEval 2020 Flood Related Multimedia task, which aims to analyze and combine textual and visual content from social media for the detection of real-world flooding events. The task mainly focuses on identifying floods related tweets relevant to a specific area. We propose several schemes to address the challenge. For text-based flood events detection, we use three different methods, relying on Bog of Words (BOW) and an Italian Version of Bert individually and in combination, achieving an F1-score of 0.77%, 0.68%, and 0.70% on the development set, respectively. For the visual analysis, we rely on features extracted via multiple state-of-the-art deep models pre-trained on ImageNet. The extracted features are then used to train multiple individual classifiers whose scores are then combined in a late fusion manner achieving an F1-score of 0.75%. For our mandatory multi-modal run, we combine the classification scores obtained with the best textual and visual schemes in a late fusion manner. Overall, better results are obtained with the multimodal scheme achieving an F1-score of 0.80% on the development set.
翻訳日:2021-06-07 01:24:22 公開日:2020-11-30
# (参考訳) テキストとビジュアル機能を用いたTwitterストリームによる洪水検出

Flood Detection via Twitter Streams using Textual and Visual Features ( http://arxiv.org/abs/2011.14944v1 )

ライセンス: CC BY 4.0
Firoj Alam, Zohaib Hassan, Kashif Ahmad, Asma Gul, Michael Reiglar, Nicola Conci, Ala AL-Fuqaha(参考訳) 本稿では,Twitter上で共有されるマルチメディアコンテンツにおける洪水イベントの分析と検出を目的とした,メディアEval 2020 Flood-Related Multimedia Taskのソリューションを提案する。 総じて,必須実行のためのテキスト情報と視覚情報を組み合わせたマルチモーダルソリューションと,オプション実行時の1つのモーダルイメージとテキストベースソリューションの3つを含む,4つの異なるソリューションを提案した。 マルチモーダル方式では、初期融合におけるテキストと視覚の特徴を組み合わせた教師付きマルチモーダルバイコンバータモデルに頼り、開発データセット上で.859のマイクロF1スコアを達成する。 テキストベースの洪水イベント検出には、変圧器ネットワーク(例えば、事前訓練されたイタリアのBERTモデル)を使用し、F1スコアは.853である。 画像ベースソリューションでは、ImageNetと配置データセットの両方で事前訓練された複数の深層モデルを用いて、開発セット上でそれぞれ.816と.805のF1スコアを達成する早期融合を個別に組み合わせた。

The paper presents our proposed solutions for the MediaEval 2020 Flood-Related Multimedia Task, which aims to analyze and detect flooding events in multimedia content shared over Twitter. In total, we proposed four different solutions including a multi-modal solution combining textual and visual information for the mandatory run, and three single modal image and text-based solutions as optional runs. In the multimodal method, we rely on a supervised multimodal bitransformer model that combines textual and visual features in an early fusion, achieving a micro F1-score of .859 on the development data set. For the text-based flood events detection, we use a transformer network (i.e., pretrained Italian BERT model) achieving an F1-score of .853. For image-based solutions, we employed multiple deep models, pre-trained on both, the ImageNet and places data sets, individually and combined in an early fusion achieving F1-scores of .816 and .805 on the development set, respectively.
翻訳日:2021-06-07 01:19:50 公開日:2020-11-30
# (参考訳) グラフニューラルネットワークとNLP技術を用いたソーシャルメディアにおけるフェイクニュース検出:COVID-19利用事例

Fake News Detection in Social Media using Graph Neural Networks and NLP Techniques: A COVID-19 Use-case ( http://arxiv.org/abs/2012.07517v1 )

ライセンス: CC BY 4.0
Abdullah Hamid, Nasrullah Shiekh, Naina Said, Kashif Ahmad, Asma Gul, Laiq Hassan, Ala Al-Fuqaha(参考訳) 本稿では,MediaEval 2020タスク,すなわちFakeNews: Corona Virusと5G Conspiracy Multimedia Twitter-Data-Based Analysisのソリューションについて述べる。 このタスクは、新型コロナウイルスと5G陰謀説に関連するツイートを分析し、誤報の拡散を検出することを目的としている。 このタスクは、(i)テキストベースと(ii)構造ベースの偽ニュース検出という2つのサブタスクから構成される。 最初の課題として,Bag of Words (BoW) とBERT の埋め込みに依存する6つの異なるソリューションを提案する。 3つの方法は、5G陰謀と他のCOVID-19関連ツイートを区別することでバイナリ分類タスクを目標とし、残りは第三次分類問題として扱う。 第3次分類タスクでは,BoW法とBERT法がそれぞれF1スコアの.606%と.566%を得た。 バイナリ分類では、BoWとBERTベースの解はそれぞれ平均F1スコア .666% と .693% を得た。 一方で、構造に基づく偽ニュース検出では、開発セットで平均.95%のrocを達成するグラフニューラルネットワーク(gnns)に依存しています。

The paper presents our solutions for the MediaEval 2020 task namely FakeNews: Corona Virus and 5G Conspiracy Multimedia Twitter-Data-Based Analysis. The task aims to analyze tweets related to COVID-19 and 5G conspiracy theories to detect misinformation spreaders. The task is composed of two sub-tasks namely (i) text-based, and (ii) structure-based fake news detection. For the first task, we propose six different solutions relying on Bag of Words (BoW) and BERT embedding. Three of the methods aim at binary classification task by differentiating in 5G conspiracy and the rest of the COVID-19 related tweets while the rest of them treat the task as ternary classification problem. In the ternary classification task, our BoW and BERT based methods obtained an F1-score of .606% and .566% on the development set, respectively. On the binary classification, the BoW and BERT based solutions obtained an average F1-score of .666% and .693%, respectively. On the other hand, for structure-based fake news detection, we rely on Graph Neural Networks (GNNs) achieving an average ROC of .95% on the development set.
翻訳日:2021-06-07 00:53:54 公開日:2020-11-30
# (参考訳) 知覚的画像復元のための画像品質評価 : 新しいデータセット,ベンチマーク,メトリクス

Image Quality Assessment for Perceptual Image Restoration: A New Dataset, Benchmark and Metric ( http://arxiv.org/abs/2011.15002v1 )

ライセンス: CC BY 4.0
Jinjin Gu, Haoming Cai, Haoyu Chen, Xiaoxing Ye, Jimmy Ren, Chao Dong(参考訳) 画像品質評価(IQA)は、画像復元アルゴリズム(IR)の急速な発展の鍵となる要素である。 GAN(Generative Adversarial Network)に基づく直近の知覚赤外線アルゴリズムは、視覚性能に大きな改善をもたらしたが、定量的評価には大きな課題が伴っている。 特に,知覚的品質と評価結果との間には不整合が増大している。 既存のIQA手法は、最近のIRアルゴリズムを客観的に評価できるか? 現在のベンチマークを上回ることに集中することで、より優れたIRアルゴリズムが得られますか? 質問に回答し, iqa手法の開発を促進するため,我々は,perceptual image processing algorithms (pipal) データセットと呼ばれる大規模 iqa データセットをコントリビュートする。 特に、このデータセットには、以前のデータセットに欠けているGANベースのIRアルゴリズムの結果が含まれている。 我々は、より信頼性の高いEloシステムを用いて、PIPAL画像の主観的なスコアを割り当てるために、113万以上の人的判断を収集する。 PIPALに基づいて、IQA法とSR法の両方の新しいベンチマークを示す。 その結果,既存のIQA法では,GANベースのIRアルゴリズムを十分に評価できないことがわかった。 適切な評価手法が重要である一方で、IRアルゴリズムの開発とともにIQA法も更新されるべきである。 最終的に、GANに基づく歪みに対してIQA性能を改善する方法について光を当てた。 既存のIQA法は空間的不整合に対する耐性が低い部分もあり,GANに基づく歪みに対して不整合性を有するという発見に触発されて,GANに基づく歪みに対するIQAネットワークの性能を改善することを提案する。 本稿では, 新規なl_2プーリング層と空間ワーピング差分層を含む空間ワーピング差分ネットワークを提案する。 提案手法の有効性を示す実験を行った。

Image quality assessment (IQA) is the key factor for the fast development of image restoration (IR) algorithms. The most recent perceptual IR algorithms based on generative adversarial networks (GANs) have brought in significant improvement on visual performance, but also pose great challenges for quantitative evaluation. Notably, we observe an increasing inconsistency between perceptual quality and the evaluation results. We present two questions: Can existing IQA methods objectively evaluate recent IR algorithms? With the focus on beating current benchmarks, are we getting better IR algorithms? To answer the questions and promote the development of IQA methods, we contribute a large-scale IQA dataset, called Perceptual Image Processing ALgorithms (PIPAL) dataset. Especially, this dataset includes the results of GAN-based IR algorithms, which are missing in previous datasets. We collect more than 1.13 million human judgments to assign subjective scores for PIPAL images using the more reliable Elo system. Based on PIPAL, we present new benchmarks for both IQA and SR methods. Our results indicate that existing IQA methods cannot fairly evaluate GAN-based IR algorithms. While using appropriate evaluation methods is important, IQA methods should also be updated along with the development of IR algorithms. At last, we shed light on how to improve the IQA performance on GAN-based distortion. Inspired by the find that the existing IQA methods have an unsatisfactory performance on the GAN-based distortion partially because of their low tolerance to spatial misalignment, we propose to improve the performance of an IQA network on GAN-based distortion by explicitly considering this misalignment. We propose the Space Warping Difference Network, which includes the novel l_2 pooling layers and Space Warping Difference layers. Experiments demonstrate the effectiveness of the proposed method.
翻訳日:2021-06-07 00:29:13 公開日:2020-11-30
# (参考訳) 生体可塑性ニューラルネットワークによる皮質微小循環の局所的監視

A biologically plausible neural network for local supervision in cortical microcircuits ( http://arxiv.org/abs/2011.15031v1 )

ライセンス: CC BY 4.0
Siavash Golkar, David Lipshutz, Yanis Bahroun, Anirvan M. Sengupta, Dmitri B. Chklovskii(参考訳) バックプロパゲーションアルゴリズムは、ニューラルネットワークをトレーニングするための貴重なツールであるが、ウェイトシェアリングの要件のため、脳機能の妥当なモデルを提供していない。 ここで、二層ネットワークの文脈において、明示的な誤り計算とバックプロパゲーションを必要とせず、この問題を回避するニューラルネットワークのトレーニングアルゴリズムを導出する。 さらに、我々のアルゴリズムは、大脳皮質の接続構造や学習規則に顕著な類似性を持つニューラルネットワークにマップする。 提案アルゴリズムは,複数のデータセットのバックプロップに対して,実験的に比較可能な性能を示す。

The backpropagation algorithm is an invaluable tool for training artificial neural networks; however, because of a weight sharing requirement, it does not provide a plausible model of brain function. Here, in the context of a two-layer network, we derive an algorithm for training a neural network which avoids this problem by not requiring explicit error computation and backpropagation. Furthermore, our algorithm maps onto a neural network that bears a remarkable resemblance to the connectivity structure and learning rules of the cortex. We find that our algorithm empirically performs comparably to backprop on a number of datasets.
翻訳日:2021-06-06 23:59:41 公開日:2020-11-30
# (参考訳) 物体知覚のためのメタ認知の学習

Learning a metacognition for object perception ( http://arxiv.org/abs/2011.15067v1 )

ライセンス: CC BY 4.0
Marlene Berke, Mario Belledonne, and Julian Jara-Ettinger(参考訳) 外部世界を表現するだけでなく、人間は自身の認知過程も表わす。 知覚の文脈では、このメタ認知は、私たちが幻想を見ていると認識しているときなど、信頼できない知覚を特定するのに役立ちます。 本稿ではメタ認知の教師なし学習モデルであるMetaGenを提案する。 MetaGenでは、メタ認知は知覚システムがノイズの多い知覚をいかに生み出すかの生成モデルとして表現される。 世界がどのように機能するかという基本的な原則(幼児のコア知識の一部であるオブジェクトの永続性など)を用いて、メタゲンは共に知覚と自己の知覚システムの表現を引き起こす世界のオブジェクトを推論する。 MetaGenはこのメタ認知を使って、どのオブジェクトが実際に世界に存在するのかを推測することができる。 シミュレーションデータから,メタゲンはメタ認知を素早く学習し,全体的な精度を向上し,メタ認知に欠けるモデルよりも優れることがわかった。

Beyond representing the external world, humans also represent their own cognitive processes. In the context of perception, this metacognition helps us identify unreliable percepts, such as when we recognize that we are seeing an illusion. Here we propose MetaGen, a model for the unsupervised learning of metacognition. In MetaGen, metacognition is expressed as a generative model of how a perceptual system produces noisy percepts. Using basic principles of how the world works (such as object permanence, part of infants' core knowledge), MetaGen jointly infers the objects in the world causing the percepts and a representation of its own perceptual system. MetaGen can then use this metacognition to infer which objects are actually present in the world. On simulated data, we find that MetaGen quickly learns a metacognition and improves overall accuracy, outperforming models that lack a metacognition.
翻訳日:2021-06-06 23:48:51 公開日:2020-11-30
# (参考訳) FPGA上のグラフニューラルネットワークを用いた加速荷電粒子追跡

Accelerated Charged Particle Tracking with Graph Neural Networks on FPGAs ( http://arxiv.org/abs/2012.01563v1 )

ライセンス: CC BY 4.0
Aneesh Heintz and Vesal Razavimaleki and Javier Duarte and Gage DeZoort and Isobel Ojalvo and Savannah Thais and Markus Atkinson and Mark Neubauer and Lindsey Gray and Sergo Jindariani and Nhan Tran and Philip Harris and Dylan Rankin and Thea Aarrestad and Vladimir Loncar and Maurizio Pierini and Sioni Summers and Jennifer Ngadiuba and Mia Liu and Edward Kreinar and Zhenbin Wu(参考訳) 我々は,グラフニューラルネットワークに基づく荷電粒子追跡アルゴリズムのfpga実装を開発・研究する。 2つの補完的なFPGA設計は、異種プラットフォーム間で実行されるプログラムを記述するためのフレームワークであるOpenCLと、ニューラルネットワークからファームウェア変換への高レベル合成ベースのコンパイラであるhls4mlに基づいている。 ベンチマークデータセットに基づいて、リソース使用量、レイテンシ、実装のトラッキングパフォーマンスを評価し、比較します。 我々は、将来の計算ワークフローやCERN Large Hadron ColliderのFPGAベースのLevel-1トリガにおいて、そのようなアルゴリズムを効果的に利用できるようになる可能性があり、CPUベースの実行を大幅に高速化できると考えている。

We develop and study FPGA implementations of algorithms for charged particle tracking based on graph neural networks. The two complementary FPGA designs are based on OpenCL, a framework for writing programs that execute across heterogeneous platforms, and hls4ml, a high-level-synthesis-based compiler for neural network to firmware conversion. We evaluate and compare the resource usage, latency, and tracking performance of our implementations based on a benchmark dataset. We find a considerable speedup over CPU-based execution is possible, potentially enabling such algorithms to be used effectively in future computing workflows and the FPGA-based Level-1 trigger at the CERN Large Hadron Collider.
翻訳日:2021-06-06 23:36:59 公開日:2020-11-30
# (参考訳) フローベース軌道予測の正規化のための横サンプリング

Diverse Sampling for Normalizing Flow Based Trajectory Forecasting ( http://arxiv.org/abs/2011.15084v1 )

ライセンス: CC BY 4.0
Yecheng Jason Ma, Jeevana Priya Inala, Dinesh Jayaraman, Osbert Bastani(参考訳) 自動運転車が安全かつ効果的に運転するためには、歩行者や他の車など、現場の他のエージェントの確率的未来の軌跡を予測しなければならない。 このような複雑なマルチモーダル分布の予測には強力な確率的アプローチが必要である。 正規化フローは、そのような分布をモデル化するための魅力的なツールとして最近登場した。 しかしながら、フローモデルから軌道予測を生成する場合、独立したサンプルが基盤となる分布の全てのモードを適切に捉えていないことが鍵となる。 本研究では,事前学習フローモデルからトラジェクトリサンプルの品質と多様性を向上させる手法として,DSF(Diversity Smpling for Flow)を提案する。 個々のサンプルを生成するのではなく、dsfは1ショットで一連の軌道を生成する。 事前学習した予測フローモデルを用いて、モデルからの勾配を用いてDSFを訓練し、予測集合内の個々の軌道に対して高い確率を付与する目的関数を、高い空間的分離とともに最適化する。 dsfは実装が容易であり、既存のフローベースの予測モデルに簡単なプラグイン改善を提供し、2つの挑戦的な車両と歩行者予測ベンチマークで最先端の結果を得る。

For autonomous cars to drive safely and effectively, they must anticipate the stochastic future trajectories of other agents in the scene, such as pedestrians and other cars. Forecasting such complex multi-modal distributions requires powerful probabilistic approaches. Normalizing flows have recently emerged as an attractive tool to model such distributions. However, when generating trajectory predictions from a flow model, a key drawback is that independent samples often do not adequately capture all the modes in the underlying distribution. We propose Diversity Sampling for Flow (DSF), a method for improving the quality and the diversity of trajectory samples from a pre-trained flow model. Rather than producing individual samples, DSF produces a set of trajectories in one shot. Given a pre-trained forecasting flow model, we train DSF using gradients from the model, to optimize an objective function that rewards high likelihood for individual trajectories in the predicted set, together with high spatial separation between trajectories. DSF is easy to implement, and we show that it offers a simple plug-in improvement for several existing flow-based forecasting models, achieving state-of-art results on two challenging vehicle and pedestrian forecasting benchmarks.
翻訳日:2021-06-06 23:26:07 公開日:2020-11-30
# (参考訳) ハイクラッタにおけるベイズ非パラメトリック法による測定値の推定

Use of Bayesian Nonparametric methods for Estimating the Measurements in High Clutter ( http://arxiv.org/abs/2012.09785v1 )

ライセンス: CC BY 4.0
Bahman Moraffah, Christ Richmond, Raha Moraffah, and Antonia Papandreou-Suppappola(参考訳) 乱雑な環境における標的のロバストな追跡は重要かつ困難な課題である。 近年,最寄りの手法と確率的データアソシエーションフィルタが提案されている。 しかし,測定回数の増加に伴い,これらの手法の性能は低下する。 本稿では,マルチセンサ計測を効果的にモデル化し,高クラッタ環境下での移動目標を追跡するためのロバスト生成手法を提案する。 我々は、未知の起源を持つセンサによる観測を含む、時間に依存した測定数を仮定する。 ベイズ非パラメトリックモデルを用いて, 未知数のクラッタを有する高クラッタ環境における移動目標の軌跡をロバストかつ高精度に推定する。 特に, 条件分布がディリクレ過程に従うように, 目標およびクラッタ測定の合同事前分布を構成するために, ジョイントベイズ非パラメトリックモデルを用いた。 目標測定に先立って辺縁化されたディリクレプロセスはベイズトラッカーで動的に変化する目標状態を推定するために使用される。 提案するフレームワークの追跡性能と有効性は,高いクラッタ測定を抑えることにより向上することを示す。 さらに, 提案手法は, 隣り合うフィルタや確率データアソシエーションフィルタなどの既存手法よりも優れていることを示す。

Robust tracking of a target in a clutter environment is an important and challenging task. In recent years, the nearest neighbor methods and probabilistic data association filters were proposed. However, the performance of these methods diminishes as the number of measurements increases. In this paper, we propose a robust generative approach to effectively model multiple sensor measurements for tracking a moving target in an environment with high clutter. We assume a time-dependent number of measurements that include sensor observations with unknown origin, some of which may only contain clutter with no additional information. We robustly and accurately estimate the trajectory of the moving target in a high clutter environment with an unknown number of clutters by employing Bayesian nonparametric modeling. In particular, we employ a class of joint Bayesian nonparametric models to construct the joint prior distribution of target and clutter measurements such that the conditional distributions follow a Dirichlet process. The marginalized Dirichlet process prior of the target measurements is then used in a Bayesian tracker to estimate the dynamically-varying target state. We show through experiments that the tracking performance and effectiveness of our proposed framework are increased by suppressing high clutter measurements. In addition, we show that our proposed method outperforms existing methods such as nearest neighbor and probability data association filters.
翻訳日:2021-06-06 23:03:09 公開日:2020-11-30
# (参考訳) mdpポリシーのモデルベース制御学習とロスサール在庫管理への応用

Model-based controlled learning of MDP policies with an application to lost-sales inventory control ( http://arxiv.org/abs/2011.15122v1 )

ライセンス: CC BY 4.0
Willem van Jaarsveld(参考訳) 近年の文献では、ニューラルネットワークはサプライチェーンとロジスティクスにおける様々な確率的力学モデルにまたがる優れたMDPポリシーを表現できることが確認されている。 このようなニューラルネットワークポリシーの学習・精算に使用されるモデルフリーアルゴリズムの限界を克服するために,分散低減手法を取り入れたモデルベースアルゴリズムを提案する。 従来の失われた販売在庫モデルでは、このアルゴリズムはモデルフリーのアルゴリズムで学んだものよりも優れたニューラルネットワークポリシーを学習し、ヒューリスティックなベンチマークも上回っている。 このアルゴリズムは、サプライチェーンとロジスティクスの他の確率的動的問題に適用する興味深い候補となるかもしれない。

Recent literature established that neural networks can represent good MDP policies across a range of stochastic dynamic models in supply chain and logistics. To overcome limitations of the model-free algorithms typically employed to learn/find such neural network policies, a model-based algorithm is proposed that incorporates variance reduction techniques. For the classical lost sales inventory model, the algorithm learns neural network policies that are superior to those learned using model-free algorithms, while also outperforming heuristic benchmarks. The algorithm may be an interesting candidate to apply to other stochastic dynamic problems in supply chain and logistics.
翻訳日:2021-06-06 21:52:01 公開日:2020-11-30
# (参考訳) ノイズの少ないショット例を用いたインテントとスロットラベルの分類のためのメタ学習

Meta learning to classify intent and slot labels with noisy few shot examples ( http://arxiv.org/abs/2012.07516v1 )

ライセンス: CC BY 4.0
Shang-Wen Li, Jason Krone, Shuyan Dong, Yi Zhang, and Yaser Al-onaizan(参考訳) 近年のディープラーニングは、音声言語理解(SLU)を含む多くの機械学習領域を支配している。 しかし、ディープラーニングモデルはデータ処理で有名であり、高度に最適化されたモデルは通常、提供されるトレーニング例の品質と、トレーニングと推論条件の一貫性に敏感である。 そこで本研究では,SLUが意図分類(IC)とスロットラベリング(SL)という2つの中核的問題から構成される,少数のロバストなSLUのベンチマークタスクを提案する。 この課題は,ATIS,SNIPS,TOPの3つの公開IC/SLデータセット上で,数発スプリットを定義し,そのスプリットに2種類の自然雑音(適応例,欠落/リプレース,モダリティミスマッチ)を付加することで解決する。 さらに,prototypepical networkに基づく新しいノイズロバスト数発sluモデルを提案する。 本稿では,従来の微調整ベースラインと,他のメタラーニング手法であるMAML(Model-Agnostic Meta-Learning)より優れたIC精度とSL F1を実現し,ノイズ発生時の性能変化の低減を図る。

Recently deep learning has dominated many machine learning areas, including spoken language understanding (SLU). However, deep learning models are notorious for being data-hungry, and the heavily optimized models are usually sensitive to the quality of the training examples provided and the consistency between training and inference conditions. To improve the performance of SLU models on tasks with noisy and low training resources, we propose a new SLU benchmarking task: few-shot robust SLU, where SLU comprises two core problems, intent classification (IC) and slot labeling (SL). We establish the task by defining few-shot splits on three public IC/SL datasets, ATIS, SNIPS, and TOP, and adding two types of natural noises (adaptation example missing/replacing and modality mismatch) to the splits. We further propose a novel noise-robust few-shot SLU model based on prototypical networks. We show the model consistently outperforms the conventional fine-tuning baseline and another popular meta-learning method, Model-Agnostic Meta-Learning (MAML), in terms of achieving better IC accuracy and SL F1, and yielding smaller performance variation when noises are present.
翻訳日:2021-06-06 21:38:11 公開日:2020-11-30
# (参考訳) 微粒パラフレージングによる政治コミュニケーションの実現

Facilitating the Communication of Politeness through Fine-Grained Paraphrasing ( http://arxiv.org/abs/2012.00012v1 )

ライセンス: CC BY 4.0
Liye Fu, Susan R. Fussell and Cristian Danescu-Niculescu-Mizil(参考訳) テクノロジーによって、人々は地理的、文化的、言語的障壁を越えてコミュニケーションできるようになる。 この能力は、ますます多様な状況にコミュニケーションアプローチを適用する必要があるため、新たな課題をもたらす。 本研究は,言語を特定のコミュニケーション状況に適応させる作業を支援するための第一歩である。 事例研究として,実用的意図の正確な伝達を容易にすることに着目し,与えられたコミュニケーション状況下での丁寧さのレベルを達成するためのパラフレーズの提案手法を提案する。 本手法を2つの現実的なコミュニケーションシナリオで評価することにより,本手法の有効性を実証し,両事例における話者の意図と聞き手の知覚の誤認を低減できることを示す。

Aided by technology, people are increasingly able to communicate across geographical, cultural, and language barriers. This ability also results in new challenges, as interlocutors need to adapt their communication approaches to increasingly diverse circumstances. In this work, we take the first steps towards automatically assisting people in adjusting their language to a specific communication circumstance. As a case study, we focus on facilitating the accurate transmission of pragmatic intentions and introduce a methodology for suggesting paraphrases that achieve the intended level of politeness under a given communication circumstance. We demonstrate the feasibility of this approach by evaluating our method in two realistic communication scenarios and show that it can reduce the potential for misalignment between the speaker's intentions and the listener's perceptions in both cases.
翻訳日:2021-06-06 21:25:55 公開日:2020-11-30
# (参考訳) 文書要約における冗長性の体系的探索

Systematically Exploring Redundancy Reduction in Summarizing Long Documents ( http://arxiv.org/abs/2012.00052v1 )

ライセンス: CC BY 4.0
Wen Xiao, Giuseppe Carenini(参考訳) 大規模要約データセットの解析から,冗長性は長い文書を要約する場合,非常に深刻な問題であることが示された。 しかし, 神経要約では冗長性低下は十分に研究されていない。 本研究では,長い文書を要約する際に,冗長性に対処する方法を体系的に検討し,比較する。 具体的には,既存の手法を時間と冗長性を考慮したカテゴリに分類する。 次に,これらのカテゴリの文脈において,非冗長性と重要さのバランスをとる3つの追加手法を提案する。 提案手法は,2つの学術論文データセット,Pubmed と arXiv のROUGEスコアに対して,冗長性を著しく低減し,最先端の手法を実現することを実証した。

Our analysis of large summarization datasets indicates that redundancy is a very serious problem when summarizing long documents. Yet, redundancy reduction has not been thoroughly investigated in neural summarization. In this work, we systematically explore and compare different ways to deal with redundancy when summarizing long documents. Specifically, we organize the existing methods into categories based on when and how the redundancy is considered. Then, in the context of these categories, we propose three additional methods balancing non-redundancy and importance in a general and flexible way. In a series of experiments, we show that our proposed methods achieve the state-of-the-art with respect to ROUGE scores on two scientific paper datasets, Pubmed and arXiv, while reducing redundancy significantly.
翻訳日:2021-06-06 20:33:20 公開日:2020-11-30
# (参考訳) 障害物のある部屋の緊急避難に応用した粒子動力学環境による深部強化学習

Deep reinforcement learning with a particle dynamics environment applied to emergency evacuation of a room with obstacles ( http://arxiv.org/abs/2012.00065v1 )

ライセンス: CC BY 4.0
Yihao Zhang, Zhaojie Chai and George Lykotrafitis(参考訳) 緊急避難をシミュレーションする非常に成功したモデルが社会力モデルである。 モデルの中心は、エージェントに適用される自己駆動力であり、出口に向かっている。 しかし、特に障害物のある複雑な環境において、この力の適用が最適避難をもたらすかどうかは明らかでない。 そこで,我々は,ソーシャルフォースモデルと連動して,エージェントの避難経路を学習する深層強化学習アルゴリズムを開発した。 訓練中、私たちは部屋のエージェントのすべてのステップを罰し、出口で報酬をゼロにします。 私たちはDyna-Q学習アプローチを採用しています。 まず, 障害物のない部屋の場合, 自己駆動力は社会力モデルのように出口に直接向けられ, 2つの方法によって計算される中央の出口時間間隔はそれほど大きく異なるものではないことを示す。 そして,1つの障害物と1つの出口を有する部屋の避難を調査した。 本手法は,障害物が凸である場合に,社会力モデルと類似した結果が得られることを示す。 しかし,社会力モデルによって純粋に支配されるエージェントの罠として機能し,完全な部屋退避を禁止しているコンケーブ障害の場合,追加の仮定なしにオブジェクト回避と完全な部屋退避をもたらす方針を導出するため,我々のアプローチは明らかに有利である。 また,出口が複数ある部屋の避難についても検討した。 エージェントは1つのエージェントのために訓練された共有ネットワークを介して最寄りの出口から効率的に避難できることを示す。 最後に、複数の出口と障害物のある複雑な環境でDyna-Q学習アプローチの堅牢性をテストする。 本研究では,複数の部屋の出口や障害物のある複雑な環境下での緊急避難を効果的にシミュレートし,迅速な避難のための直感的なルールを得るのが困難であることを示す。

A very successful model for simulating emergency evacuation is the social-force model. At the heart of the model is the self-driven force that is applied to an agent and is directed towards the exit. However, it is not clear if the application of this force results in optimal evacuation, especially in complex environments with obstacles. Here, we develop a deep reinforcement learning algorithm in association with the social force model to train agents to find the fastest evacuation path. During training, we penalize every step of an agent in the room and give zero reward at the exit. We adopt the Dyna-Q learning approach. We first show that in the case of a room without obstacles the resulting self-driven force points directly towards the exit as in the social force model and that the median exit time intervals calculated using the two methods are not significantly different. Then, we investigate evacuation of a room with one obstacle and one exit. We show that our method produces similar results with the social force model when the obstacle is convex. However, in the case of concave obstacles, which sometimes can act as traps for agents governed purely by the social force model and prohibit complete room evacuation, our approach is clearly advantageous since it derives a policy that results in object avoidance and complete room evacuation without additional assumptions. We also study evacuation of a room with multiple exits. We show that agents are able to evacuate efficiently from the nearest exit through a shared network trained for a single agent. Finally, we test the robustness of the Dyna-Q learning approach in a complex environment with multiple exits and obstacles. Overall, we show that our model can efficiently simulate emergency evacuation in complex environments with multiple room exits and obstacles where it is difficult to obtain an intuitive rule for fast evacuation.
翻訳日:2021-06-06 19:56:56 公開日:2020-11-30
# (参考訳) TimeSHAP: シーケンス摂動によるリカレントモデルの説明

TimeSHAP: Explaining Recurrent Models through Sequence Perturbations ( http://arxiv.org/abs/2012.00073v1 )

ライセンス: CC BY 4.0
Jo\~ao Bento, Pedro Saleiro, Andr\'e F. Cruz, M\'ario A.T. Figueiredo, Pedro Bizarro(参考訳) リカレントニューラルネットワークは、自然言語処理から時系列分類に至るまで、多くの機械学習領域で標準的な構築ブロックである。 彼らのアプリケーションはユビキタスに成長してきたが、内部動作の理解はいまだに不足している。 実際には、これらのモデルの複雑な決定はブラックボックスと見なされ、正確性と解釈可能性の間の緊張を生み出す。 さらに、モデルの推論プロセスを理解する能力は、それをデバッグし、それ以上に、その決定に対する信頼を構築するために重要である。 近年、ブラックボックスモデルの説明にかなりの研究努力が注がれているが、リカレントモデルはあまり注目されていない。 一連のインスタンスからの決定を説明することを目的としたメソッドは、機能の重要性だけでなく、イベントの重要性も評価すべきである。 本研究では,KernelSHAPの音響的足場と強い経験的結果を活用するモデルに依存しない再帰的説明器であるTimeSHAPを提示することにより,これらのギャップを埋めることに貢献した。 入力シーケンスが任意に長い場合がありうるので、我々はさらに、実際の効率を劇的に向上させるプルーニング法を提案する。

Recurrent neural networks are a standard building block in numerous machine learning domains, from natural language processing to time-series classification. While their application has grown ubiquitous, understanding of their inner workings is still lacking. In practice, the complex decision-making in these models is seen as a black-box, creating a tension between accuracy and interpretability. Moreover, the ability to understand the reasoning process of a model is important in order to debug it and, even more so, to build trust in its decisions. Although considerable research effort has been guided towards explaining black-box models in recent years, recurrent models have received relatively little attention. Any method that aims to explain decisions from a sequence of instances should assess, not only feature importance, but also event importance, an ability that is missing from state-of-the-art explainers. In this work, we contribute to filling these gaps by presenting TimeSHAP, a model-agnostic recurrent explainer that leverages KernelSHAP's sound theoretical footing and strong empirical results. As the input sequence may be arbitrarily long, we further propose a pruning method that is shown to dramatically improve its efficiency in practice.
翻訳日:2021-06-06 19:34:24 公開日:2020-11-30
# (参考訳) なぜロボットは道路を渡ったのか? 人間-ロボットインタラクションにおける説明のユーザスタディ

Why Did the Robot Cross the Road? A User Study of Explanation in Human-Robot Interaction ( http://arxiv.org/abs/2012.00078v1 )

ライセンス: CC BY 4.0
Zachary Taschdjian(参考訳) 本研究は,人間ロボットインタラクションhriシナリオにおけるaiの人間理解支援における対照的,因果的,事例的説明の有効性を評価するパイロットユーザ研究である。 この研究は、社会科学の文脈で説明可能なAI XAIを定め、社会科学から情報を得ると、HRIの説明が改善されることを示唆している。

This work documents a pilot user study evaluating the effectiveness of contrastive, causal and example explanations in supporting human understanding of AI in a hypothetical commonplace human robot interaction HRI scenario. In doing so, this work situates explainable AI XAI in the context of the social sciences and suggests that HRI explanations are improved when informed by the social sciences.
翻訳日:2021-06-06 19:16:43 公開日:2020-11-30
# (参考訳) 機械学習時空間疫学モデルによるドイツにおける新型コロナウイルスリスクの評価

Machine learning spatio-temporal epidemiological model to evaluate Germany-county-level COVID-19 risk ( http://arxiv.org/abs/2012.00082v1 )

ライセンス: CC BY 4.0
Lingxiao Wang, Tian Xu, Till Hannes Stoecker, Horst Stoecker, Yin Jiang and Kai Zhou(参考訳) 新型コロナウイルス(covid-19)のパンデミックが世界を破壊し続ける中、covid-19を多レベルにタイムリーなリスク予測を提供することは重要な意味を持つ。 そこで本研究では,空間的セルラ・オートマトン(ca)と時間的感受性未認識感染除去モデル(suir)を組み合わせた,郡レベルの時空間疫学モデルを含む感染症データから流行動態を抽出するための機械学習を用いた枠組みを開発した。 既存の時刻リスク予測モデルと比較すると,提案するca-suirモデルは,政府に対する郡と,異なる政策下での新型コロナウイルスの感染パターンに対する多レベルリスクを示している。 この新しいツールボックスは、t-day-aheadリスク予測や旅行制限政策のリスクアセスメントなど、ドイツの412の地方(国)で発生した多レベルcovid-19の予測に初めて利用される。 実例として、最悪の死者が35万件、効果的な政策が2万件未満に抑えられるクリスマスの状況を予測します。 このような介入可能な評価システムは、パンデミックにおける経済再開と公衆衛生政策の決定に役立てることができる。

As the COVID-19 pandemic continues to ravage the world, it is of critical significance to provide a timely risk prediction of the COVID-19 in multi-level. To implement it and evaluate the public health policies, we develop a framework with machine learning assisted to extract epidemic dynamics from the infection data, in which contains a county-level spatiotemporal epidemiological model that combines a spatial Cellular Automaton (CA) with a temporal Susceptible-Undiagnosed-Infected-Removed (SUIR) model. Compared with the existing time risk prediction models, the proposed CA-SUIR model shows the multi-level risk of the county to the government and coronavirus transmission patterns under different policies. This new toolbox is first utilized to the projection of the multi-level COVID-19 prevalence over 412 Landkreis (counties) in Germany, including t-day-ahead risk forecast and the risk assessment to the travel restriction policy. As a practical illustration, we predict the situation at Christmas where the worst fatalities are 34.5 thousand, effective policies could contain it to below 21 thousand. Such intervenable evaluation system could help decide on economic restarting and public health policies making in pandemic.
翻訳日:2021-06-06 19:09:25 公開日:2020-11-30
# (参考訳) 超音波検査によるcovid-19診断 : 堅牢性と説明可能性

Ultrasound Diagnosis of COVID-19: Robustness and Explainability ( http://arxiv.org/abs/2012.01145v1 )

ライセンス: CC BY 4.0
Jay Roberts, Theodoros Tsiligkaridis(参考訳) 新型コロナウイルス(covid-19)の診断は、世界的なパンデミックの封じ込めに不可欠である。 ポイント・オブ・ケア・超音波(pocus)は、肺の迅速な画像を提供し、繰り返しかつ費用対効果の高い方法で患者のcovid-19を検出する。 これまでの研究では、POCUSビデオの公開データセットを使用して、高感度の診断のためのAIモデルをトレーニングしてきた。 高利得の応用のため、我々は堅牢で説明可能な手法を提案する。 我々は、ロバストモデルがより安定した予測を持ち、解釈性の向上をもたらすことを実験的に実証する。 逆摂動に基づく対比的説明の枠組みは、人間の視覚知覚と整合するモデル予測を説明するために用いられる。

Diagnosis of COVID-19 at point of care is vital to the containment of the global pandemic. Point of care ultrasound (POCUS) provides rapid imagery of lungs to detect COVID-19 in patients in a repeatable and cost effective way. Previous work has used public datasets of POCUS videos to train an AI model for diagnosis that obtains high sensitivity. Due to the high stakes application we propose the use of robust and explainable techniques. We demonstrate experimentally that robust models have more stable predictions and offer improved interpretability. A framework of contrastive explanations based on adversarial perturbations is used to explain model predictions that aligns with human visual perception.
翻訳日:2021-06-06 18:35:25 公開日:2020-11-30
# (参考訳) インクリメンタルなマイナショットセグメンテーションのためのいくつかのガイドライン

A Few Guidelines for Incremental Few-Shot Segmentation ( http://arxiv.org/abs/2012.01415v1 )

ライセンス: CC BY 4.0
Fabio Cermelli, Massimiliano Mancini, Yongqin Xian, Zeynep Akata, Barbara Caputo(参考訳) セマンティックセグメンテーションの文脈では、ニューラルネットワークが必要とする監督の量を減らすことが特に重要であり、高濃度のピクセルレベルのアノテーションの収集は特に高価である。 本稿では,この問題を新たな視点から解決する。 特に,事前学習されたセグメンテーションモデルと,新しいクラスを含む画像の少ない場合には,これまで見られたクラスをセグメンテーションする能力を維持しながら,新しいクラスをセグメンテーションすることを学ぶことが目的である。 この文脈では、すべての信念に反して、これらの少数の画像でアーキテクチャ全体を微調整することは有意義であるだけでなく、非常に効果的である。 このシナリオにおけるエンドツーエンドトレーニングの主な問題は、i)バッチ再正規化で解決できる新しいクラスへのバッチ正規化統計のドリフト、ii)古いクラスを忘れること、そして正規化戦略で修正できることである。 我々は,COCO と Pascal-VOC 2012 のデータセットについて,クラス毎に異なる画像数,複数の学習エピソードを含む技術の現状を一貫して導く5つのガイドラインで要約した。

Reducing the amount of supervision required by neural networks is especially important in the context of semantic segmentation, where collecting dense pixel-level annotations is particularly expensive. In this paper, we address this problem from a new perspective: Incremental Few-Shot Segmentation. In particular, given a pretrained segmentation model and few images containing novel classes, our goal is to learn to segment novel classes while retaining the ability to segment previously seen ones. In this context, we discover, against all beliefs, that fine-tuning the whole architecture with these few images is not only meaningful, but also very effective. We show how the main problems of end-to-end training in this scenario are i) the drift of the batch-normalization statistics toward novel classes that we can fix with batch renormalization and ii) the forgetting of old classes, that we can fix with regularization strategies. We summarize our findings with five guidelines that together consistently lead to the state of the art on the COCO and Pascal-VOC 2012 datasets, with different number of images per class and even with multiple learning episodes.
翻訳日:2021-06-06 18:30:23 公開日:2020-11-30
# (参考訳) 多様体学習のための伝染ダイナミクス

Contagion Dynamics for Manifold Learning ( http://arxiv.org/abs/2012.00091v1 )

ライセンス: CC BY 4.0
Barbara I. Mahler(参考訳) 伝染マップはしきい値の活性化時間を利用して、高次元ユークリッド空間のベクトルをネットワークのノードに割り当てる。 感染マップの画像である点雲は、ネットワークの基盤となる構造と感染の拡散挙動の両方を反映している。 直感的には、そのような点雲は、その構造に沿って伝染が広がると、ネットワークの基盤となる構造の特徴を示す。 我々は,様々な実世界および合成データセット上で,多様体学習ツールとしての伝染マップをテストし,それらの性能を最もよく知られた多様体学習アルゴリズムであるisomapと比較した。 特定の条件下では、汚染マップはノイズによるエラーのためにisomapが失敗するのに対して、ノイズデータ中の基盤となる多様体構造を確実に検出することができる。 これにより、多様体学習のテクニックとして、伝染マップが統合される。

Contagion maps exploit activation times in threshold contagions to assign vectors in high-dimensional Euclidean space to the nodes of a network. A point cloud that is the image of a contagion map reflects both the structure underlying the network and the spreading behaviour of the contagion on it. Intuitively, such a point cloud exhibits features of the network's underlying structure if the contagion spreads along that structure, an observation which suggests contagion maps as a viable manifold-learning technique. We test contagion maps as a manifold-learning tool on a number of different real-world and synthetic data sets, and we compare their performance to that of Isomap, one of the most well-known manifold-learning algorithms. We find that, under certain conditions, contagion maps are able to reliably detect underlying manifold structure in noisy data, while Isomap fails due to noise-induced error. This consolidates contagion maps as a technique for manifold learning.
翻訳日:2021-06-06 18:13:02 公開日:2020-11-30
# (参考訳) なぜモデルなのか? LIMEの強さと限界を評価する

Why model why? Assessing the strengths and limitations of LIME ( http://arxiv.org/abs/2012.00093v1 )

ライセンス: CC BY 4.0
J\"urgen Dieber, Sabrina Kirrane(参考訳) 複雑な機械学習モデル(一般的にブラックボックスと呼ばれる)に関しては、医療や金融サービスといったドメインや、自動運転車などの安全上重要なシステムに関連して使用される場合には、その基盤となる意思決定プロセスを理解することが重要です。 近年,説明可能な人工知能(xAI)ツールや技術への関心が高まっている。 しかし、既存のxaiフレームワーク、特に画像ではなくデータを扱うアルゴリズムの有効性については、まだ研究の余地がある。 このギャップに対処するため,本稿では,本文献で最もよく見られるモデル非依存フレームワークの一つである局所解釈モデル非依存記述(LIME)xAIフレームワークの有効性について検討する。 特に,グラフ型データセットに最先端の機械学習アルゴリズムを適用し,従来の性能評価手法を補完するためにlimeをどのように利用できるかを示す。 また,LIME に馴染みのない参加者によるユーザビリティスタディと,国際標準化機構 9241-11:1998 標準に基づく評価枠組みによる総合ユーザビリティの両面から,LIME が生み出すアウトプットの理解可能性を評価する。

When it comes to complex machine learning models, commonly referred to as black boxes, understanding the underlying decision making process is crucial for domains such as healthcare and financial services, and also when it is used in connection with safety critical systems such as autonomous vehicles. As such interest in explainable artificial intelligence (xAI) tools and techniques has increased in recent years. However, the effectiveness of existing xAI frameworks, especially concerning algorithms that work with data as opposed to images, is still an open research question. In order to address this gap, in this paper we examine the effectiveness of the Local Interpretable Model-Agnostic Explanations (LIME) xAI framework, one of the most popular model agnostic frameworks found in the literature, with a specific focus on its performance in terms of making tabular models more interpretable. In particular, we apply several state of the art machine learning algorithms on a tabular dataset, and demonstrate how LIME can be used to supplement conventional performance assessment methods. In addition, we evaluate the understandability of the output produced by LIME both via a usability study, involving participants who are not familiar with LIME, and its overall usability via an assessment framework, which is derived from the International Organisation for Standardisation 9241-11:1998 standard.
翻訳日:2021-06-06 18:07:39 公開日:2020-11-30
# (参考訳) IV-Posterior:解釈可能な政策証明書の逆値推定

IV-Posterior: Inverse Value Estimation for Interpretable Policy Certificates ( http://arxiv.org/abs/2012.01925v1 )

ライセンス: CC BY 4.0
Tatiana Lopez-Guevara, Michael Burke, Nicholas K. Taylor, Kartic Subr(参考訳) モデルフリー強化学習(RL)は、幅広いロボットのスキルとポリシーを学ぶための強力なツールである。 しかしながら、政策解釈可能性の欠如は、特に環境条件の違いが予測不可能な振る舞いや一般化の失敗をもたらす場合、下流アプリケーションへの展開の成功を抑制することができる。 その結果、一般化を改善するためにモデルに強い帰納的バイアスを含むことに関して、機械学習に重点が置かれている。 本稿では,プリトレーニングされたポリシがすでに保持している帰納的バイアスや理想化された動作条件を識別し,この情報を用いてデプロイメントを導くための,解釈可能なポリシ証明書(iv-posterior)の逆値推定手法を提案する。 IV-PosteriorはMaskedAutoregressive Flowsを使用して、ポリシーが有効になる可能性のある条件や環境パラメータのセット上の分散を適合させる。 このディストリビューションは、下流アプリケーションでポリシー証明書として使用できる。 我々は,2つの環境におけるiv-posteriorの使用を例示し,これらのポリシーが持つ帰納的バイアスの知識を取り入れることで,実質的なパフォーマンス向上が得られることを示す。

Model-free reinforcement learning (RL) is a powerful tool to learn a broad range of robot skills and policies. However, a lack of policy interpretability can inhibit their successful deployment in downstream applications, particularly when differences in environmental conditions may result in unpredictable behaviour or generalisation failures. As a result, there has been a growing emphasis in machine learning around the inclusion of stronger inductive biases in models to improve generalisation. This paper proposes an alternative strategy, inverse value estimation for interpretable policy certificates (IV-Posterior), which seeks to identify the inductive biases or idealised conditions of operation already held by pre-trained policies, and then use this information to guide their deployment. IV-Posterior uses MaskedAutoregressive Flows to fit distributions over the set of conditions or environmental parameters in which a policy is likely to be effective. This distribution can then be used as a policy certificate in downstream applications. We illustrate the use of IV-Posterior across a two environments, and show that substantial performance gains can be obtained when policy selection incorporates knowledge of the inductive biases that these policies hold.
翻訳日:2021-06-06 17:48:09 公開日:2020-11-30
# (参考訳) オンデバイス自然言語理解のためのエクストリームモデル圧縮

Extreme Model Compression for On-device Natural Language Understanding ( http://arxiv.org/abs/2012.00124v1 )

ライセンス: CC BY 4.0
Kanthashree Mysore Sathyendra, Samridhi Choudhary, Leah Nicolich-Henkin(参考訳) 本稿では,神経自然言語理解モデル(neural natural language understanding:nlu)モデルの極端な圧縮のための手法を提案し,実験を行う。 NLUタスク学習と協調して単語埋め込み圧縮を行うタスク認識エンドツーエンド圧縮手法を提案する。 我々は,大語彙の多種多様なインテントで学習した大規模商用nluシステムについて,実験結果を示す。 提案手法は、ベースラインの範囲を上回り、予測性能の3.7%未満で97.4%の圧縮率を達成している。 解析の結果,下流タスクからの信号は,性能の低下を最小限に抑えた効率的な圧縮に重要であることが示された。

In this paper, we propose and experiment with techniques for extreme compression of neural natural language understanding (NLU) models, making them suitable for execution on resource-constrained devices. We propose a task-aware, end-to-end compression approach that performs word-embedding compression jointly with NLU task learning. We show our results on a large-scale, commercial NLU system trained on a varied set of intents with huge vocabulary sizes. Our approach outperforms a range of baselines and achieves a compression rate of 97.4% with less than 3.7% degradation in predictive performance. Our analysis indicates that the signal from the downstream task is important for effective compression with minimal degradation in performance.
翻訳日:2021-06-06 17:36:20 公開日:2020-11-30
# (参考訳) HydroNet:分子データの予測および生成モデルにおける分子間相互作用と構造モチーフの保存のためのベンチマークタスク

HydroNet: Benchmark Tasks for Preserving Intermolecular Interactions and Structural Motifs in Predictive and Generative Models for Molecular Data ( http://arxiv.org/abs/2012.00131v1 )

ライセンス: CC BY 4.0
Sutanay Choudhury, Jenna A. Bilbrey, Logan Ward, Sotiris S. Xantheas, Ian Foster, Joseph P. Heindel, Ben Blaiszik, Marcus E. Schwarting(参考訳) 分子間相互作用と長距離相互作用は、遺伝子調節、量子物質のトポロジー状態、電池中の電解質輸送、水の普遍的な溶媒和特性といった様々な現象の中心である。 化学問題に対する機械学習アプローチにおける分子間相互作用と構造モチーフの保存には,水素結合相互作用によって保持された495万の水クラスターのデータセットを用いて,より広い範囲の構造パターンを導出した。 データセットは、さまざまな機械学習プラクティスに対応するために、空間座標と2種類のグラフ表現を提供する。

Intermolecular and long-range interactions are central to phenomena as diverse as gene regulation, topological states of quantum materials, electrolyte transport in batteries, and the universal solvation properties of water. We present a set of challenge problems for preserving intermolecular interactions and structural motifs in machine-learning approaches to chemical problems, through the use of a recently published dataset of 4.95 million water clusters held together by hydrogen bonding interactions and resulting in longer range structural patterns. The dataset provides spatial coordinates as well as two types of graph representations, to accommodate a variety of machine-learning practices.
翻訳日:2021-06-06 17:22:56 公開日:2020-11-30
# (参考訳) 特徴選択法の選択における安定性基準の利用による微生物データの再現性向上

Utilizing stability criteria in choosing feature selection methods yields reproducible results in microbiome data ( http://arxiv.org/abs/2012.00001v1 )

ライセンス: CC BY 4.0
Lingjing Jiang, Niina Haiminen, Anna-Paola Carrieri, Shi Huang, Yoshiki Vazquez-Baeza, Laxmi Parida, Ho-Cheol Kim, Austin D. Swafford, Rob Knight, Loki Natarajan(参考訳) マイクロバイオームデータ分析には特徴選択が不可欠であるが, マイクロバイオームのデータセットは高次元, 過小評価, スパース, 構成的であるため, 特に困難である。 近年,上記のデータ特性に対処する特徴選択手法の開発が盛んに行われているが,ほぼすべての手法がモデル予測の性能に基づいて評価されている。 しかし、その評価基準がどの程度適切かという根本的な疑問に答えるためにはほとんど注意が払われていない。 ほとんどの特徴選択法はモデル適合性を制御するが、特徴の有意義な部分集合を識別する能力は単に予測精度に基づいて評価することはできない。 トレーニングデータの小さな変更が選択した機能サブセットに大きな変化をもたらす場合、アルゴリズムが発見した生物学的特徴の多くは、実際の生物学的信号ではなく、データアーティファクトである可能性が高い。 この重要かつ再現可能な特徴を特定する必要性は、データの摂動に対するメソッドの頑健さを定量化する安定性などの再現性評価基準を導いた。 本稿では,汎用モデル予測指標mseの性能と再現性基準の安定性を比較し,シミュレーションおよび実験的マイクロバイオーム応用における4つの特徴選択手法の評価を行った。 MSEよりも安定度が望ましい特徴選択基準であると結論付け,特徴選択法の再現性をよりよく評価する。

Feature selection is indispensable in microbiome data analysis, but it can be particularly challenging as microbiome data sets are high-dimensional, underdetermined, sparse and compositional. Great efforts have recently been made on developing new methods for feature selection that handle the above data characteristics, but almost all methods were evaluated based on performance of model predictions. However, little attention has been paid to address a fundamental question: how appropriate are those evaluation criteria? Most feature selection methods often control the model fit, but the ability to identify meaningful subsets of features cannot be evaluated simply based on the prediction accuracy. If tiny changes to the training data would lead to large changes in the chosen feature subset, then many of the biological features that an algorithm has found are likely to be a data artifact rather than real biological signal. This crucial need of identifying relevant and reproducible features motivated the reproducibility evaluation criterion such as Stability, which quantifies how robust a method is to perturbations in the data. In our paper, we compare the performance of popular model prediction metric MSE and proposed reproducibility criterion Stability in evaluating four widely used feature selection methods in both simulations and experimental microbiome applications. We conclude that Stability is a preferred feature selection criterion over MSE because it better quantifies the reproducibility of the feature selection method.
翻訳日:2021-06-06 16:50:24 公開日:2020-11-30
# (参考訳) 言語障害克服のための転職者への翻訳者の正確かつスケーラブルなマッチング

Accurate and Scalable Matching of Translators to Displaced Persons for Overcoming Language Barriers ( http://arxiv.org/abs/2012.02595v1 )

ライセンス: CC BY 4.0
Divyansh Agarwal, Yuta Baba, Pratik Sachdeva, Tanya Tandon, Thomas Vetterli, Aziz Alghunaim(参考訳) 発展途上国の住民は、人道的危機の結果として、不均等に変位に悩まされる。 このような危機の間、言語障壁は転職者へのサービス提供を援助労働者に妨げた。 レジリエンスを構築するためには、可能な言語のホストに対して、柔軟性と堅牢性が必要です。 \textit{tarjimly} は、バイリンガルのボランティアと、翻訳を必要とする人または労働者の移動をマッチングできるプラットフォームを提供することで、障壁を克服することを目的としている。 しかし、Tarjimlyの大規模なトランスレータプールは、リクエストごとに正しいトランスレータを選択するという課題を伴っている。 本稿では,大規模なボランティアに翻訳者要求をマッチングする機械学習システムについて述べる。 単純なロジスティック回帰は,容易に計算可能な機能上で動作し,翻訳者の応答を正確に予測しランク付けできることを実証する。 デプロイメントでは、この軽量システムはリクエストの82\%と、平均応答時間59秒に一致し、エイドワーカーは、解雇された人をサポートするサービスを加速することができる。

Residents of developing countries are disproportionately susceptible to displacement as a result of humanitarian crises. During such crises, language barriers impede aid workers in providing services to those displaced. To build resilience, such services must be flexible and robust to a host of possible languages. \textit{Tarjimly} aims to overcome the barriers by providing a platform capable of matching bilingual volunteers to displaced persons or aid workers in need of translating. However, Tarjimly's large pool of translators comes with the challenge of selecting the right translator per request. In this paper, we describe a machine learning system that matches translator requests to volunteers at scale. We demonstrate that a simple logistic regression, operating on easily computable features, can accurately predict and rank translator response. In deployment, this lightweight system matches 82\% of requests with a median response time of 59 seconds, allowing aid workers to accelerate their services supporting displaced persons.
翻訳日:2021-06-06 16:13:41 公開日:2020-11-30
# (参考訳) MUSCLE:相互情報最大化を用いた同時教師なし学習による半教師付き学習の強化

MUSCLE: Strengthening Semi-Supervised Learning Via Concurrent Unsupervised Learning Using Mutual Information Maximization ( http://arxiv.org/abs/2012.00150v1 )

ライセンス: CC BY 4.0
Hanchen Xie, Mohamed E. Hussein, Aram Galstyan, Wael Abd-Almageed(参考訳) ディープニューラルネットワークは強力なパラメータ化された機械学習モデルであり、教師付き学習タスクでうまく機能することが示されている。 しかしながら、ディープニューラルネットワークのトレーニングには、非常に大量のラベル付きデータが必要となる。 ラベルなしデータの少ないデータを使ってニューラルネットワークを訓練するために、いくつかの半教師付き学習手法が提案されている。 これらの半教師付き手法の性能はラベル付きデータのサイズが減少するにつれて著しく低下する。 相互情報を用いた教師なし学習と半教師なし学習を併用するハイブリッド学習手法であるMUSCLE(Unsupervised & Semi-supervised Concurrent LEarning)を導入する。 MUSCLEはニューラルネットワークのスタンドアロントレーニングスキームとして使用することができ、他の学習手法にも組み込むことができる。 提案手法は,CIFAR-10,CIFAR-100,Mini-Imagenetなど,いくつかの標準ベンチマークにおいて,その性能に優れることを示す。 さらに、ラベル付きデータ量の減少やバイアスの存在により、性能向上は一貫して増加する。 また,ラベルなしデータのみを事前学習したモデルにおいて,微調整段階での筋力により分類性能が向上する可能性が示唆された。

Deep neural networks are powerful, massively parameterized machine learning models that have been shown to perform well in supervised learning tasks. However, very large amounts of labeled data are usually needed to train deep neural networks. Several semi-supervised learning approaches have been proposed to train neural networks using smaller amounts of labeled data with a large amount of unlabeled data. The performance of these semi-supervised methods significantly degrades as the size of labeled data decreases. We introduce Mutual-information-based Unsupervised & Semi-supervised Concurrent LEarning (MUSCLE), a hybrid learning approach that uses mutual information to combine both unsupervised and semi-supervised learning. MUSCLE can be used as a stand-alone training scheme for neural networks, and can also be incorporated into other learning approaches. We show that the proposed hybrid model outperforms state of the art on several standard benchmarks, including CIFAR-10, CIFAR-100, and Mini-Imagenet. Furthermore, the performance gain consistently increases with the reduction in the amount of labeled data, as well as in the presence of bias. We also show that MUSCLE has the potential to boost the classification performance when used in the fine-tuning phase for a model pre-trained only on unlabeled data.
翻訳日:2021-06-06 16:07:43 公開日:2020-11-30
# (参考訳) グラディエントDescentが学習したモデルはすべてカーネルマシン

Every Model Learned by Gradient Descent Is Approximately a Kernel Machine ( http://arxiv.org/abs/2012.00152v1 )

ライセンス: CC BY 4.0
Pedro Domingos(参考訳) ディープラーニングの成功は、他の学習方法のような手作りの機能に頼るのではなく、データの新しい表現を自動的に発見する能力に起因することが多い。 しかし, 標準勾配勾配アルゴリズムで学習した深層ネットワークは, 単にデータを記憶し, 類似性関数(カーネル)を介して直接予測する学習手法であるカーネルマシンと数学的にほぼ同値であることを示す。 これにより、深層ネットワーク重みの解釈性が大幅に向上し、トレーニング例の重み付けとなることが分かる。 ネットワークアーキテクチャは、ターゲット関数の知識をカーネルに組み込む。 この理解の向上は、学習アルゴリズムの改善につながるはずだ。

Deep learning's successes are often attributed to its ability to automatically discover new representations of the data, rather than relying on handcrafted features like other learning methods. We show, however, that deep networks learned by the standard gradient descent algorithm are in fact mathematically approximately equivalent to kernel machines, a learning method that simply memorizes the data and uses it directly for prediction via a similarity function (the kernel). This greatly enhances the interpretability of deep network weights, by elucidating that they are effectively a superposition of the training examples. The network architecture incorporates knowledge of the target function into the kernel. This improved understanding should lead to better learning algorithms.
翻訳日:2021-06-06 15:53:31 公開日:2020-11-30
# (参考訳) マルチフィジィマルチフィジカルデータを用いたポロ弾性問題に対するハイブリッドデータ駆動/モデルベースアプローチの高速化

An accelerated hybrid data-driven/model-based approach for poroelasticity problems with multi-fidelity multi-physics data ( http://arxiv.org/abs/2012.00165v1 )

ライセンス: CC BY 4.0
Bahador Bahmani, WaiChing Sun(参考訳) 本稿では,多弾性問題を解くためのハイブリッドモデル/モデルフリーデータ駆動手法を提案する。 kirchdoerfer と ortiz (2016) を起源とするデータ駆動型モデリングフレームワークを拡張し,多孔質多孔質媒体の混合拡散変形を異なるデータ量でシミュレート可能な,モデルフリーと2つのハイブリッドモデルベース/データ駆動型定式法を提案する。 モデルフリーデータ探索の効率を向上させるため,k次元木探索により高速化された距離最小化アルゴリズムを提案する。 固体弾性と流体構成応答の異なるフィダリティを扱うために, 固体と流体ソルバのいずれでも, 可用性と特性に応じてモデルベースからモデルフリーアプローチに切り替えることができるハイブリダライズモデルを提案する。 数値実験は,提案モデルの実装を検証し,他の代替モデルと比較するために設計されている。

We present a hybrid model/model-free data-driven approach to solve poroelasticity problems. Extending the data-driven modeling framework originated from Kirchdoerfer and Ortiz (2016), we introduce one model-free and two hybrid model-based/data-driven formulations capable of simulating the coupled diffusion-deformation of fluid-infiltrating porous media with different amounts of available data. To improve the efficiency of the model-free data search, we introduce a distance-minimized algorithm accelerated by a k-dimensional tree search. To handle the different fidelities of the solid elasticity and fluid hydraulic constitutive responses, we introduce a hybridized model in which either the solid and the fluid solver can switch from a model-based to a model-free approach depending on the availability and the properties of the data. Numerical experiments are designed to verify the implementation and compare the performance of the proposed model to other alternatives.
翻訳日:2021-06-06 15:33:27 公開日:2020-11-30
# (参考訳) スパースニューラルネットワークの構造を分解する

Deconstructing the Structure of Sparse Neural Networks ( http://arxiv.org/abs/2012.00172v1 )

ライセンス: CC BY 4.0
Maxwell Van Gelder, Mitchell Wortsman, Kiana Ehsani(参考訳) スパースニューラルネットワークは広く研究されているが、主に精度に焦点を当てている。 本研究では,ネットワーク構造に着目し,3つのアルゴリズムを解析する。 まず,構造が持続し,重みが異なるランダム初期化にリセットされた場合のパフォーマンスを測定し,宝くじを分解する実験を延長する(zhou et al., 2019)。 この実験により、精度は構造のみから得られることが明らかとなった。 第2に、構造的ロバスト性を測定するために、スパースニューラルネットワークの感度を調べ、トレーニング後のさらなる刈り取りを行い、アルゴリズム間の激しいコントラストを見出した。 最後に,最近の動的スパーシティアルゴリズムでは,構造学習の早期発生について検討する。 1つのエポック後でも構造はほとんど決定され、トレーニングを通して密度勾配を必要としないより効率的なアルゴリズムが提案できることがわかった。 スパースニューラルネットワークのアルゴリズムを振り返り、異なるレンズからの性能を分析しながら、いくつかの興味深い特性と将来の研究への有望な方向性を明らかにした。

Although sparse neural networks have been studied extensively, the focus has been primarily on accuracy. In this work, we focus instead on network structure, and analyze three popular algorithms. We first measure performance when structure persists and weights are reset to a different random initialization, thereby extending experiments in Deconstructing Lottery Tickets (Zhou et al., 2019). This experiment reveals that accuracy can be derived from structure alone. Second, to measure structural robustness we investigate the sensitivity of sparse neural networks to further pruning after training, finding a stark contrast between algorithms. Finally, for a recent dynamic sparsity algorithm we investigate how early in training the structure emerges. We find that even after one epoch the structure is mostly determined, allowing us to propose a more efficient algorithm which does not require dense gradients throughout training. In looking back at algorithms for sparse neural networks and analyzing their performance from a different lens, we uncover several interesting properties and promising directions for future research.
翻訳日:2021-06-06 15:24:28 公開日:2020-11-30
# 潜在意味空間における短いテキストの権威的クラスタリングのためのフレームワーク

A Framework for Authorial Clustering of Shorter Texts in Latent Semantic Spaces ( http://arxiv.org/abs/2011.15038v1 )

ライセンス: Link先を確認
Rafi Trad, Myra Spiliopoulou(参考訳) 権威クラスタリングは、著者の執筆スタイルや主題的好みの事前の肯定的な例のない、同一の著者または著者のチームによって書かれた文書をグループ化する。 短いテキスト(通常従来の文書よりも短いパラグラフ長のテキスト)の著者によるクラスタリングでは、文書表現は特に重要であり、非常に高次元の特徴空間はデータ空間を生じ、次元の呪いのような深刻な結果に悩まされる一方、特徴選択は情報損失につながる可能性がある。 非パラメトリックなトピックモデリングから導出した潜在特徴空間におけるコンパクトなデータ表現を利用する高レベルフレームワークを提案する。 a) 完全に教師されない、(b) 少数の短いテキストが同じ著者(マスリンクの制約)に属していることが知られている半教師の2つのシナリオで、権威的クラスタが識別される。 3つの言語と2つのジャンルの120のコレクションを用いた実験を報告し、トピックベースの潜在機能空間が、最先端に比べて次元を1500倍に削減しながら、有望なパフォーマンスを提供することを示した。 また、著者の正確な数(すなわち、著者数)について事前の知識が得られている。 権威あるクラスタ)は、追加の品質にはあまり寄与しないが、権威あるクラスタの制約に関する知識の不足は、この困難なタスクの前に、パフォーマンスの改善を明確にする。 標準的な指標による徹底的な実験は、権威的クラスタリング、特に短いテキストで改善の余地がまだ残っていることを示している。

Authorial clustering involves the grouping of documents written by the same author or team of authors without any prior positive examples of an author's writing style or thematic preferences. For authorial clustering on shorter texts (paragraph-length texts that are typically shorter than conventional documents), the document representation is particularly important: very high-dimensional feature spaces lead to data sparsity and suffer from serious consequences like the curse of dimensionality, while feature selection may lead to information loss. We propose a high-level framework which utilizes a compact data representation in a latent feature space derived with non-parametric topic modeling. Authorial clusters are identified thereafter in two scenarios: (a) fully unsupervised and (b) semi-supervised where a small number of shorter texts are known to belong to the same author (must-link constraints) or not (cannot-link constraints). We report on experiments with 120 collections in three languages and two genres and show that the topic-based latent feature space provides a promising level of performance while reducing the dimensionality by a factor of 1500 compared to state-of-the-arts. We also demonstrate that, while prior knowledge on the precise number of authors (i.e. authorial clusters) does not contribute much to additional quality, little knowledge on constraints in authorial clusters memberships leads to clear performance improvements in front of this difficult task. Thorough experimentation with standard metrics indicates that there still remains an ample room for improvement for authorial clustering, especially with shorter texts
翻訳日:2021-06-06 15:04:51 公開日:2020-11-30
# RegFlow: 将来予測のための確率的フローベース回帰

RegFlow: Probabilistic Flow-based Regression for Future Prediction ( http://arxiv.org/abs/2011.14620v1 )

ライセンス: Link先を確認
Maciej Zi\k{e}ba, Marcin Przewi\k{e}\'zlikowski, Marek \'Smieja, Jacek Tabor, Tomasz Trzcinski, Przemys{\l}aw Spurek(参考訳) システムの将来の状態や動作を予測することは、特に人間のモデリング行動のような複雑で非決定論的シナリオの範囲において、知能の基本的な、しかし未解決の課題である。 既存のアプローチは、将来の状態の一様性に関する強い仮定の下で結果を与えるか、あるいは少なくとも実生活条件に適さない特定の確率分布を仮定する。 本研究では,モダリティや根底確率分布に関する制約をほとんど持たず,将来の予測をモデル化できるロバストで柔軟な確率フレームワークを提案する。 この目標を達成するために、ハイパーネットワークアーキテクチャを活用して、連続正規化フローモデルをトレーニングします。 RegFlowと呼ばれる結果のメソッドは、いくつかのベンチマークデータセットで最先端の結果を達成する。

Predicting future states or actions of a given system remains a fundamental, yet unsolved challenge of intelligence, especially in the scope of complex and non-deterministic scenarios, such as modeling behavior of humans. Existing approaches provide results under strong assumptions concerning unimodality of future states, or, at best, assuming specific probability distributions that often poorly fit to real-life conditions. In this work we introduce a robust and flexible probabilistic framework that allows to model future predictions with virtually no constrains regarding the modality or underlying probability distribution. To achieve this goal, we leverage a hypernetwork architecture and train a continuous normalizing flow model. The resulting method dubbed RegFlow achieves state-of-the-art results on several benchmark datasets, outperforming competing approaches by a significant margin.
翻訳日:2021-06-06 15:04:13 公開日:2020-11-30
# レート削減によるインクリメンタル学習

Incremental Learning via Rate Reduction ( http://arxiv.org/abs/2011.14593v1 )

ライセンス: Link先を確認
Ziyang Wu, Christina Baek, Chong You, Yi Ma(参考訳) 現在のディープラーニングアーキテクチャは、新しいクラスで漸進的にトレーニングされた場合、以前の学習したクラスに関する知識の保持に失敗し、破滅的な忘れに苦しむ。 ディープラーニング手法が直面する基本的な障害は、ディープラーニングモデルが“ブラックボックス”として最適化されていることだ。 そこで本研究では,ネットワークの各層がバック伝搬を伴わずに明示的に計算される,レート低減の原理に基づく代替の「ホワイトボックス」アーキテクチャの活用を提案する。 このパラダイムの下では、事前学習されたネットワークと新しいデータクラスを前提として、過去のクラスと新しいクラスとの共同トレーニングをエミュレートする新しいネットワークを構築することができることを示す。 最後に,提案する学習アルゴリズムは分類性能の低下が著しく減少し,mnistとcifar-10のアートメソッドが有意な差を示し,複雑な画像データにおいても「ホワイトボックス」アルゴリズムを用いたインクリメンタル学習を正当化することを示した。

Current deep learning architectures suffer from catastrophic forgetting, a failure to retain knowledge of previously learned classes when incrementally trained on new classes. The fundamental roadblock faced by deep learning methods is that deep learning models are optimized as "black boxes," making it difficult to properly adjust the model parameters to preserve knowledge about previously seen data. To overcome the problem of catastrophic forgetting, we propose utilizing an alternative "white box" architecture derived from the principle of rate reduction, where each layer of the network is explicitly computed without back propagation. Under this paradigm, we demonstrate that, given a pre-trained network and new data classes, our approach can provably construct a new network that emulates joint training with all past and new classes. Finally, our experiments show that our proposed learning algorithm observes significantly less decay in classification performance, outperforming state of the art methods on MNIST and CIFAR-10 by a large margin and justifying the use of "white box" algorithms for incremental learning even for sufficiently complex image data.
翻訳日:2021-06-06 15:03:59 公開日:2020-11-30
# 事前流れ変動オートエンコーダ:非侵入負荷モニタリングのための密度推定モデル

Prior Flow Variational Autoencoder: A density estimation model for Non-Intrusive Load Monitoring ( http://arxiv.org/abs/2011.14870v1 )

ライセンス: Link先を確認
Luis Felipe M.O. Henriques, Eduardo Morgan, Sergio Colcher, Ruy Luiz Milidi\'u(参考訳) 非侵入負荷モニタリング(Non-Intrusive Load Monitoring, NILM)は、電力負荷のアプライアンスを1メートル単位で測定した全消費から推定する計算手法である。 本稿では,各機器の電力需要を推定するために,条件付き変分正規化フローモデルと条件付き変分オートエンコーダを結合する,ディープニューラルネットワークに基づく条件付き密度推定モデルを提案する。 結果として得られるモデルは、Presideed Flow Variational Autoencoderまたは単純PFVAEと呼ばれる。 したがって、アプライアンスごとに1つのモデルを持つ代わりに、結果のモデルは、アプライアンス毎の電力需要を一度に見積もる責任を負う。 我々は,ブラジルの養鶏施設から供給される電力需要対策からなる公開データセットで,提案モデルを訓練し,評価する。 得られた正規化分解誤差(NDE)と信号集約誤差(SAE)を同一データセット上の前の作業値と比較することにより,提案モデルの品質を評価する。 提案手法は高い競合性を実現し,データセットに属する8台のマシンのうち6台では,ndeでは28%から81%,saeでは27%から86%という一貫した改善が観察されている。

Non-Intrusive Load Monitoring (NILM) is a computational technique to estimate the power loads' appliance-by-appliance from the whole consumption measured by a single meter. In this paper, we propose a conditional density estimation model, based on deep neural networks, that joins a Conditional Variational Autoencoder with a Conditional Invertible Normalizing Flow model to estimate the individual appliance's power demand. The resulting model is called Prior Flow Variational Autoencoder or, for simplicity PFVAE. Thus, instead of having one model per appliance, the resulting model is responsible for estimating the power demand, appliance-by-appliance, at once. We train and evaluate our proposed model in a publicly available dataset composed of power demand measures from a poultry feed factory located in Brazil. The proposed model's quality is evaluated by comparing the obtained normalized disaggregation error (NDE) and signal aggregated error (SAE) with the previous work values on the same dataset. Our proposal achieves highly competitive results, and for six of the eight machines belonging to the dataset, we observe consistent improvements that go from 28% up to 81% in NDE and from 27% up to 86% in SAE.
翻訳日:2021-06-06 15:03:12 公開日:2020-11-30
# 3次元mri画像アルツハイマー病分類のための動的画像

Dynamic Image for 3D MRI Image Alzheimer's Disease Classification ( http://arxiv.org/abs/2012.00119v1 )

ライセンス: Link先を確認
Xin Xing, Gongbo Liang, Hunter Blanton, Muhammad Usman Rafique, Chris Wang, Ai-Ling Lin, Nathan Jacobs(参考訳) 3次元mri画像アルツハイマー病分類に2次元cnnアーキテクチャを適用することを提案する。 3D畳み込みニューラルネットワーク(CNN)のトレーニングには時間と計算コストがかかる。 我々は3次元MRI画像の体積を2次元画像に変換して2次元CNNの入力として利用する。 提案するcnnモデルは3dモデルよりもアルツハイマー病の分類精度が9.5\%向上することを示した。 また、3d cnnモデルと比較してトレーニング時間の20%しか必要とせず,効率的なトレーニングが可能であった。 コードは、https://github.com/ukyvision/alzheimer-project。

We propose to apply a 2D CNN architecture to 3D MRI image Alzheimer's disease classification. Training a 3D convolutional neural network (CNN) is time-consuming and computationally expensive. We make use of approximate rank pooling to transform the 3D MRI image volume into a 2D image to use as input to a 2D CNN. We show our proposed CNN model achieves $9.5\%$ better Alzheimer's disease classification accuracy than the baseline 3D models. We also show that our method allows for efficient training, requiring only 20% of the training time compared to 3D CNN models. The code is available online: https://github.com/UkyVision/alzheimer-project.
翻訳日:2021-06-06 15:02:51 公開日:2020-11-30
# 確率的経路積分型微分推定最大化アルゴリズム

A Stochastic Path-Integrated Differential EstimatoR Expectation Maximization Algorithm ( http://arxiv.org/abs/2012.01929v1 )

ライセンス: Link先を確認
Gersende Fort (IMT), Eric Moulines (X-DEP-MATHAPP), Hoi-To Wai(参考訳) 予測最大化(EM)アルゴリズムは、回帰器と専門家の混合を含む潜在変数モデルにおける推論において重要な要素である。 本稿では,サイズが$n$,$n \gg 1$のトレーニングセットから推論するために,新しいemアルゴリズムである \texttt{spider-em} を導入する。 我々のアルゴリズムの核心は、確率的経路積分微分推定器({\tt spider})の手法を応用し、 {\sf e}-ステップにおける条件付き期待値の完全な推定器である。 We derive finite-time complexity bounds for smooth non-convex likelihood: we show that for convergence to an $\epsilon$-approximate stationary point, the complexity scales as $K_{\operatorname{Opt}} (n,\epsilon )={\cal O}(\epsilon^{-1})$ and $K_{\operatorname{CE}}( n,\epsilon ) = n+ \sqrt{n} {\cal O}(\epsilon^{-1} )$, where $K_{\operatorname{Opt}}( n,\epsilon )$ and $K_{\operatorname{CE}}(n, \epsilon )$ are respectively the number of {\sf M}-steps and the number of per-sample conditional expectations evaluations. これにより最先端のアルゴリズムが改善される。 数値的な結果は我々の発見を裏付ける。

The Expectation Maximization (EM) algorithm is of key importance for inference in latent variable models including mixture of regressors and experts, missing observations. This paper introduces a novel EM algorithm, called \texttt{SPIDER-EM}, for inference from a training set of size $n$, $n \gg 1$. At the core of our algorithm is an estimator of the full conditional expectation in the {\sf E}-step, adapted from the stochastic path-integrated differential estimator ({\tt SPIDER}) technique. We derive finite-time complexity bounds for smooth non-convex likelihood: we show that for convergence to an $\epsilon$-approximate stationary point, the complexity scales as $K_{\operatorname{Opt}} (n,\epsilon )={\cal O}(\epsilon^{-1})$ and $K_{\operatorname{CE}}( n,\epsilon ) = n+ \sqrt{n} {\cal O}(\epsilon^{-1} )$, where $K_{\operatorname{Opt}}( n,\epsilon )$ and $K_{\operatorname{CE}}(n, \epsilon )$ are respectively the number of {\sf M}-steps and the number of per-sample conditional expectations evaluations. This improves over the state-of-the-art algorithms. Numerical results support our findings.
翻訳日:2021-06-06 15:02:22 公開日:2020-11-30
# 映像解説の現状と課題の包括的考察

A Comprehensive Review on Recent Methods and Challenges of Video Description ( http://arxiv.org/abs/2011.14752v1 )

ライセンス: Link先を確認
Alok Singh, Thoudam Doren Singh, Sivaji Bandyopadhyay(参考訳) ビデオ記述には、ビデオ内のアクション、イベント、オブジェクトの自然言語記述の生成が含まれる。 視覚障害者のための言語とビジョンのギャップを埋めること、コンテンツに基づくタイトルの自動提案、コンテンツに基づくビデオ閲覧、ビデオガイドによる機械翻訳[86]など、ビデオ記述のさまざまな応用があり、過去10年間、ビデオ記述のアプローチや手法、評価メトリクス、データセットなどの分野でいくつかの研究が行われてきた。 ビデオ記述タスクの進捗を分析するためには,最近のディープラーニングアプローチを中心に,ビデオ記述アプローチの全フェーズをカバーする包括的調査が必要である。 本稿では,映像記述手法の段階,映像記述のためのデータセット,評価指標,映像記述研究のモチベーションとなるオープンコンペティション,この分野におけるオープンチャレンジ,今後の研究方向性について総合的な調査を行う。 本調査では,各データセットに対して提案する最先端のアプローチについて,その長所と短所を概説する。 この研究領域の成長のためには、多数のベンチマークデータセットが利用できることが基本的なニーズである。 さらに、すべてのデータセットをopen domain datasetとdomain-specific datasetの2つのクラスに分類します。 本調査から,コンピュータビジョンと自然言語処理の交差点に映像記述のタスクが存在するため,この分野の課題は急速に進展していることが明らかとなった。 しかし、ビデオ記述の作業は、視覚特徴の質に影響を与える類似のフレームによる冗長性、より多様なコンテンツを含むデータセットの可用性、効果的な評価指標の可用性など、さまざまな課題により、飽和段階には程遠い。

Video description involves the generation of the natural language description of actions, events, and objects in the video. There are various applications of video description by filling the gap between languages and vision for visually impaired people, generating automatic title suggestion based on content, browsing of the video based on the content and video-guided machine translation [86] etc.In the past decade, several works had been done in this field in terms of approaches/methods for video description, evaluation metrics,and datasets. For analyzing the progress in the video description task, a comprehensive survey is needed that covers all the phases of video description approaches with a special focus on recent deep learning approaches. In this work, we report a comprehensive survey on the phases of video description approaches, the dataset for video description, evaluation metrics, open competitions for motivating the research on the video description, open challenges in this field, and future research directions. In this survey, we cover the state-of-the-art approaches proposed for each and every dataset with their pros and cons. For the growth of this research domain,the availability of numerous benchmark dataset is a basic need. Further, we categorize all the dataset into two classes: open domain dataset and domain-specific dataset. From our survey, we observe that the work in this field is in fast-paced development since the task of video description falls in the intersection of computer vision and natural language processing. But still, the work in the video description is far from saturation stage due to various challenges like the redundancy due to similar frames which affect the quality of visual features, the availability of dataset containing more diverse content and availability of an effective evaluation metric.
翻訳日:2021-06-06 15:02:02 公開日:2020-11-30
# 音声とテキストによるアルツハイマー病のマルチモーダル検出

Multi-Modal Detection of Alzheimer's Disease from Speech and Text ( http://arxiv.org/abs/2012.00096v1 )

ライセンス: Link先を確認
Amish Mittal, Sourav Sahoo, Arnhav Datar, Juned Kadiwala, Hrithwik Shalu and Jimson Mathew(参考訳) 他の神経認知障害とは異なり、in vivoではadの正確な診断がないため、アルツハイマー病(ad)の予防段階の信頼できる検出はいまだに困難である。 このような状況下では, 軽度AD状態においても, 言語障害が頻発することが少なくない。 音声と対応するテキストを同時に利用してADを検出するマルチモーダル深層学習法を提案する。 音声信号に対して,提案する畳み込みニューラルネットワーク(cnn)モデルである音声ベースネットワークは,最終予測のために合成された複数の音声セグメントの診断を予測する。 同様に、BERTから抽出したコンテキスト埋め込みとCNN生成した埋め込みを用いて、転写を分類する。 2つのモデルの個々の予測を組み合わせることで、最終的な分類を行う。 また,テキストベースモデルにおける手書き文字の代わりに自動音声認識(ASR)システム生成文字を用いた場合のモデル性能解析実験を行った。 提案手法は,Dementiabank Pitt corpus のトレーニングおよび評価において,85.3%のクロスバリデーション精度を実現する。

Reliable detection of the prodromal stages of Alzheimer's disease (AD) remains difficult even today because, unlike other neurocognitive impairments, there is no definitive diagnosis of AD in vivo. In this context, existing research has shown that patients often develop language impairment even in mild AD conditions. We propose a multimodal deep learning method that utilizes speech and the corresponding transcript simultaneously to detect AD. For audio signals, the proposed audio-based network, a convolutional neural network (CNN) based model, predicts the diagnosis for multiple speech segments, which are combined for the final prediction. Similarly, we use contextual embedding extracted from BERT concatenated with a CNN-generated embedding for classifying the transcript. The individual predictions of the two models are then combined to make the final classification. We also perform experiments to analyze the model performance when Automated Speech Recognition (ASR) system generated transcripts are used instead of manual transcription in the text-based model. The proposed method achieves 85.3% 10-fold cross-validation accuracy when trained and evaluated on the Dementiabank Pitt corpus.
翻訳日:2021-06-06 15:01:23 公開日:2020-11-30
# FCM-RDpA:Fzzy C-Means Clustering, Regularization, DropRule, Powerball AdaBeliefを用いたTSKファジィ回帰モデルの構築

FCM-RDpA: TSK Fuzzy Regression Model Construction Using Fuzzy C-Means Clustering, Regularization, DropRule, and Powerball AdaBelief ( http://arxiv.org/abs/2012.00060v1 )

ライセンス: Link先を確認
Zhenhua Shi, Dongrui Wu, Chenfeng Guo, Changming Zhao, Yuqi Cui, and Fei-Yue Wang(参考訳) 回帰問題に対する高木スゲノカン(TSK)ファジィシステムを効果的に最適化するために, 正規化, DropRule および AdaBound (MBGD-RDA) アルゴリズムを用いたミニバッチ勾配降下法を提案する。 本稿ではさらに,ファジィc-meansクラスタリングによるルール初期化におけるグリッド分割アプローチと,最近提案されたpowerballgradientとadabeliefを統合したpowerball adabeliefによるadaboundの置き換えにより,mbgd-rdaを改善するfcm-rdpaを提案する。 FCM-RDpA が MBGD-RDA よりも優れていること,特に特徴次元が高ければ, 様々なサイズと次元を持つ22の回帰データセットに対する大規模な実験を行った。 また,前置詞と前置詞の両方に拡張機能を用いることにより,さらに fcm-rdpa を改良する手法である fcm-rdpax を提案する。

To effectively optimize Takagi-Sugeno-Kang (TSK) fuzzy systems for regression problems, a mini-batch gradient descent with regularization, DropRule, and AdaBound (MBGD-RDA) algorithm was recently proposed. This paper further proposes FCM-RDpA, which improves MBGD-RDA by replacing the grid partition approach in rule initialization by fuzzy c-means clustering, and AdaBound by Powerball AdaBelief, which integrates recently proposed Powerball gradient and AdaBelief to further expedite and stabilize parameter optimization. Extensive experiments on 22 regression datasets with various sizes and dimensionalities validated the superiority of FCM-RDpA over MBGD-RDA, especially when the feature dimensionality is higher. We also propose an additional approach, FCM-RDpAx, that further improves FCM-RDpA by using augmented features in both the antecedents and consequents of the rules.
翻訳日:2021-06-06 15:01:07 公開日:2020-11-30
# 人間対教師付き機械学習:誰がより早くパターンを学ぶのか?

Human vs. supervised machine learning: Who learns patterns faster? ( http://arxiv.org/abs/2012.03661v1 )

ライセンス: Link先を確認
Niklas K\"uhl, Marc Goutier, Lucas Baier, Clemens Wolff, Dominik Martin(参考訳) 教師あり機械学習(SML)の能力、特に人間の能力と比較して、科学的研究やSMLの利用について論じられている。 本研究は,トレーニングデータに制限がある場合,人間と機械の学習性能がどう異なるかを示す。 我々は、44人の人間と3つの異なる機械学習アルゴリズムがラベル付きトレーニングデータのパターンを識別し、発見したパターンに従ってインスタンスをラベル付けする実験を設計した。 結果は、パフォーマンスとタスクの根底にあるパターンの間に高い依存性を示す。 人間はあらゆるパターンに対して比較的よく似ているが、機械は実験において様々なパターンに対して大きな性能差を示す。 実験で20の事例を見た後、人間のパフォーマンスはもはや改善せず、認知的過負荷の理論に関連している。 機械はゆっくりと学習するが、同じレベルに達することもあれば、使用済みパターンの4つのうち2つで人間を上回ることもある。 しかし、同じ結果を得るためには、機械は人間よりも多くのインスタンスを必要とする。 入力特徴を組み合わせることが困難であるため、他の2パターンに比べて機械の性能は比較的に低い。

The capabilities of supervised machine learning (SML), especially compared to human abilities, are being discussed in scientific research and in the usage of SML. This study provides an answer to how learning performance differs between humans and machines when there is limited training data. We have designed an experiment in which 44 humans and three different machine learning algorithms identify patterns in labeled training data and have to label instances according to the patterns they find. The results show a high dependency between performance and the underlying patterns of the task. Whereas humans perform relatively similarly across all patterns, machines show large performance differences for the various patterns in our experiment. After seeing 20 instances in the experiment, human performance does not improve anymore, which we relate to theories of cognitive overload. Machines learn slower but can reach the same level or may even outperform humans in 2 of the 4 of used patterns. However, machines need more instances compared to humans for the same results. The performance of machines is comparably lower for the other 2 patterns due to the difficulty of combining input features.
翻訳日:2021-06-06 15:00:45 公開日:2020-11-30
# モンテカルロの分散に基づく感度解析とガウス過程を用いた重要サンプリング信頼性評価

Variance based sensitivity analysis for Monte Carlo and importance sampling reliability assessment with Gaussian processes ( http://arxiv.org/abs/2011.15001v1 )

ライセンス: Link先を確認
Morgane Menz, Sylvain Dubreuil, J\'er\^ome Morio, Christian Gogu, Nathalie Bartoli and Marie Chiron(参考訳) 複雑な数値モデルを含む工学的問題に対する信頼性解析の実行は、計算コストが非常に高く、全体的な数値コストを削減するために高度なシミュレーション手法を必要とする。 ガウス過程に基づく信頼度解析のための能動的学習手法が,この計算コストを削減するための有望な方法として登場した。 これらの手法の学習段階は、パフォーマンス関数のモデルにガウス過程サロゲートモデルを構築し、ガウス過程の不確かさ構造を用いて反復的にこのサロゲートモデルを強化することである。 この目的のために、学習基準を定義する必要があります。 次に, 最終サロゲートモデルを用いて評価した集団の分類により, 故障確率の推定を行う。 したがって、故障確率の推定者は、サロゲートモデル近似とサンプリングベース積分法に関連する2つの異なる不確実性源を持っている。 本稿では,両不確実性源に対する故障推定器の確率の感度を定量化する手法を提案する。 この分析により、故障確率推定に関連するエラー全体を制御することができ、推定の精度基準を提供する。 したがって、この分析を統合したアクティブな学習手法により、大域的変動性が十分に低い場合に、エラーや停止の主原因を低減できる。 本手法は, モンテカルロ法と重要サンプリング法の両方で提案され, 希少事象確率の推定を改善することを目的としている。 提案した戦略の性能はいくつかの例で評価される。

Running a reliability analysis on engineering problems involving complex numerical models can be computationally very expensive, requiring advanced simulation methods to reduce the overall numerical cost. Gaussian process based active learning methods for reliability analysis have emerged as a promising way for reducing this computational cost. The learning phase of these methods consists in building a Gaussian process surrogate model of the performance function and using the uncertainty structure of the Gaussian process to enrich iteratively this surrogate model. For that purpose a learning criterion has to be defined. Then, the estimation of the probability of failure is typically obtained by a classification of a population evaluated on the final surrogate model. Hence, the estimator of the probability of failure holds two different uncertainty sources related to the surrogate model approximation and to the sampling based integration technique. In this paper, we propose a methodology to quantify the sensitivity of the probability of failure estimator to both uncertainty sources. This analysis also enables to control the whole error associated to the failure probability estimate and thus provides an accuracy criterion on the estimation. Thus, an active learning approach integrating this analysis to reduce the main source of error and stopping when the global variability is sufficiently low is introduced. The approach is proposed for both a Monte Carlo based method as well as an importance sampling based method, seeking to improve the estimation of rare event probabilities. Performance of the proposed strategy is then assessed on several examples.
翻訳日:2021-06-06 15:00:17 公開日:2020-11-30
# フローベース生成モデリングのための一般可逆変換

General Invertible Transformations for Flow-based Generative Modeling ( http://arxiv.org/abs/2011.15056v1 )

ライセンス: Link先を確認
Jakub M. Tomczak(参考訳) 本稿では,新しい可逆変換のクラスを提案する。 我々は、可逆論理と可逆ニューラルネットワークにおける多くのよく知られた可逆変換が、我々の提案から導出できることを示す。 次に、フローベース生成モデルの重要な構成要素である2つの新しい結合層を提案する。 トイデジットデータに関する予備実験において,これらの新しい結合層が整数離散流れ(idf)においてどのように用いられるかを示し,idfおよびrealnvpで使用される標準結合層よりも優れた結果を得ることを示す。

In this paper, we present a new class of invertible transformations. We indicate that many well-known invertible tranformations in reversible logic and reversible neural networks could be derived from our proposition. Next, we propose two new coupling layers that are important building blocks of flow-based generative models. In the preliminary experiments on toy digit data, we present how these new coupling layers could be used in Integer Discrete Flows (IDF), and that they achieve better results than standard coupling layers used in IDF and RealNVP.
翻訳日:2021-06-06 14:59:55 公開日:2020-11-30
# 深部アクション認識の1フレーム攻撃は目立たない

Just One Moment: Inconspicuous One Frame Attack on Deep Action Recognition ( http://arxiv.org/abs/2011.14585v1 )

ライセンス: Link先を確認
Jaehui Hwang, Jun-Hyuk Kim, Jun-Ho Choi, and Jong-Seok Lee(参考訳) 近年,映像に基づく行動認識タスクが広く研究されている。 本稿では,ビデオクリップの1フレームのみに目立たない摂動を付加する新たな1フレーム攻撃を用いて,敵の攻撃に対する深層学習に基づく行動認識手法の脆弱性について検討する。 本研究では,現状の行動認識モデルに対する一フレーム攻撃の有効性について検討し,そのモデル構造と摂動の知覚可能性の観点から脆弱性の徹底的な解析を行った。 提案手法は, 高い騙し率を示し, 主観的テストにより評価される人間の観察者に対する知覚可能な摂動をほとんど生み出さない。 さらに,普遍的な摂動を見出すビデオ非依存手法を提案する。

The video-based action recognition task has been extensively studied in recent years. In this paper, we study the vulnerability of deep learning-based action recognition methods against the adversarial attack using a new one frame attack that adds an inconspicuous perturbation to only a single frame of a given video clip. We investigate the effectiveness of our one frame attack on state-of-the-art action recognition models, along with thorough analysis of the vulnerability in terms of their model structure and perceivability of the perturbation. Our method shows high fooling rates and produces hardly perceivable perturbation to human observers, which is evaluated by a subjective test. In addition, we present a video-agnostic approach that finds a universal perturbation.
翻訳日:2021-06-06 14:59:13 公開日:2020-11-30
# 深層学習のための初期プールについて

On Initial Pools for Deep Active Learning ( http://arxiv.org/abs/2011.14696v1 )

ライセンス: Link先を確認
Akshay L Chandra, Sai Vikas Desai, Chaitanya Devaguptapu, Vineeth N Balasubramanian(参考訳) アクティブラーニング(al)テクニックは、与えられたタスクのモデルのトレーニングに必要なトレーニングデータを最小化することを目的としている。 プールベースのalテクニックは、小さな初期ラベル付きプールから始まり、ラベル付けのために最も有用なサンプルのバッチを反復的に選択する。 一般に、初期プールはランダムにサンプリングされ、alイテレーションをシードするためにラベル付けされる。 近年,alにおける各種問合せ関数のロバスト性評価に注目が集まっているが,初期ラベル付きプールの設計にはほとんど注目されていない。 近年,自己指導型・教師なし型の学習表現の成功を踏まえ,インテリジェントな初期ラベル付きプールが深いAL性能を向上できるかどうかを検討する。 我々は,自己監督型および非監督型戦略の利用を含む,インテリジェントな初期ラベル付きプールの深層AL手法への影響について検討する。 本提案では,実験の詳細,実装の詳細,データセット,性能指標,および計画されたアブレーション研究について述べる。 インテリジェントにサンプルされた初期プールがalパフォーマンスを改善するならば、追加のアノテーションなしでalパフォーマンスの向上、より少ないアノテーションコストでデータセットの開発、alのための教師なし学習メソッドの使用に関するさらなる研究の促進に、私たちの研究は前向きに貢献できるでしょう。

Active Learning (AL) techniques aim to minimize the training data required to train a model for a given task. Pool-based AL techniques start with a small initial labeled pool and then iteratively pick batches of the most informative samples for labeling. Generally, the initial pool is sampled randomly and labeled to seed the AL iterations. While recent` studies have focused on evaluating the robustness of various query functions in AL, little to no attention has been given to the design of the initial labeled pool. Given the recent successes of learning representations in self-supervised/unsupervised ways, we propose to study if an intelligently sampled initial labeled pool can improve deep AL performance. We will investigate the effect of intelligently sampled initial labeled pools, including the use of self-supervised and unsupervised strategies, on deep AL methods. We describe our experimental details, implementation details, datasets, performance metrics as well as planned ablation studies in this proposal. If intelligently sampled initial pools improve AL performance, our work could make a positive contribution to boosting AL performance with no additional annotation, developing datasets with lesser annotation cost in general, and promoting further research in the use of unsupervised learning methods for AL.
翻訳日:2021-06-06 14:59:00 公開日:2020-11-30
# コスト関数アンロールを用いた教師なし光流

Unsupervised Optical Flow Using Cost Function Unrolling ( http://arxiv.org/abs/2011.14814v1 )

ライセンス: Link先を確認
Gal Lifshitz and Dan Raviv(参考訳) 2つの連続した画像間の動きを分析することは、コンピュータビジョンの基本的な課題の1つである。 ラベル付きデータの欠如により、損失関数は一貫性と滑らかさに分割され、自己教師付きトレーニングが可能になる。 本稿では, コスト関数の導出に焦点をあて, ハードL1のスムーズ性制約をソフトな多層反復スキームに伝達するアンローリング反復法を提案する。 より正確な勾配、特に非微分位置に近い位置は、ネットワークの収束を改善し、テストシナリオにおいて優れた結果をもたらす。 我々は MPI Sintel と KITTI 2015 の教師なし光フローベンチマークの両結果について報告する。 提供されたアプローチは、提示されたパイプラインに限らず、さまざまなアーキテクチャを強化するために使用できる。

Analyzing motion between two consecutive images is one of the fundamental tasks in computer vision. In the lack of labeled data, the loss functions are split into consistency and smoothness, allowing for self-supervised training. This paper focuses on the cost function derivation and presents an unrolling iterative approach, transferring the hard L1 smoothness constraint into a softer multi-layer iterative scheme. More accurate gradients, especially near non-differential positions, improve the network's convergence, providing superior results on tested scenarios. We report state-of-the-art results on both MPI Sintel and KITTI 2015 unsupervised optical flow benchmarks. The provided approach can be used to enhance various architectures and not limited just to the presented pipeline.
翻訳日:2021-06-06 14:58:26 公開日:2020-11-30
# 敵防御の評価と強化のための誘導敵攻撃

Guided Adversarial Attack for Evaluating and Enhancing Adversarial Defenses ( http://arxiv.org/abs/2011.14969v1 )

ライセンス: Link先を確認
Gaurang Sriramanan, Sravanti Addepalli, Arya Baburaj, R. Venkatesh Babu(参考訳) 敵対的攻撃の発展は、敵対的防御研究の進展に基礎を置いている。 効果的で効果的な攻撃は、防御の信頼性評価や堅牢なモデルの開発にも不可欠である。 逆攻撃はしばしば、射影勾配降下 (pgd) を用いた制約セット内のクロスエントロピー損失や最大マージン損失のような標準的損失を最大化することによって発生する。 本研究では,より適切な勾配方向を見いだし,攻撃効果を高め,より効率的な対向訓練へと導く標準損失に対する緩和項を導入する。 本稿では, クリーンイメージの関数マッピングを用いて, 敵生成を誘導し, より強力な攻撃をもたらすガイド・アタック(GAMA)を提案する。 我々は,複数攻撃に対する攻撃を評価し,既存攻撃と比較して性能が向上した。 さらに,攻撃発生と訓練の両面での緩和項を生かして,一段防衛における最先端性能を実現するガイド付き対人訓練(GAT)を提案する。

Advances in the development of adversarial attacks have been fundamental to the progress of adversarial defense research. Efficient and effective attacks are crucial for reliable evaluation of defenses, and also for developing robust models. Adversarial attacks are often generated by maximizing standard losses such as the cross-entropy loss or maximum-margin loss within a constraint set using Projected Gradient Descent (PGD). In this work, we introduce a relaxation term to the standard loss, that finds more suitable gradient-directions, increases attack efficacy and leads to more efficient adversarial training. We propose Guided Adversarial Margin Attack (GAMA), which utilizes function mapping of the clean image to guide the generation of adversaries, thereby resulting in stronger attacks. We evaluate our attack against multiple defenses and show improved performance when compared to existing attacks. Further, we propose Guided Adversarial Training (GAT), which achieves state-of-the-art performance amongst single-step defenses by utilizing the proposed relaxation term for both attack generation and training.
翻訳日:2021-06-06 14:58:02 公開日:2020-11-30
# 深層学習によるmri画像上軟骨欠損の診断の改善

Improved Diagnosis of Tibiofemoral Cartilage Defects on MRI Images Using Deep Learning ( http://arxiv.org/abs/2012.00144v1 )

ライセンス: Link先を確認
Gergo Merkely, Alireza Borjali, Molly Zgoda, Evan M. Farina, Simon Gortz, Orhun Muratoglu, Christian Lattermann, Kartik M. Varadarajan(参考訳) 背景:MRIは軟骨画像撮影における選択のモダリティであるが,診断性能はゴールド標準の膝関節鏡より変化し,有意に低かった。 近年、医学画像の自動解釈にディープラーニングが用いられており、診断精度と速度が向上している。 目的: 本研究の目的は, 膝関節MRI画像の解釈に応用した深層学習を用いて軟骨の欠陥を正確に同定できるかどうかを評価することである。 方法: 関節鏡下膝関節手術を行った症例(軟骨欠損207例, 軟骨欠損90例)のデータを解析した。 症例の鏡視下所見を術前mri画像と比較し, 分離軟骨欠損の有無について検討した。 我々は、MRI画像を分析するために3つの畳み込みニューラルネットワーク(CNN)を開発し、CNNの意思決定過程を可視化するために画像特異的な唾液マップを実装した。 cnnのパフォーマンスと人間の解釈を比較するために、経験豊富な整形外科医と整形外科患者に同じテストデータセットイメージを提供した。 結果:Saliency mapでは,CNNは意思決定過程におけるMRI画像における大腿骨関節軟骨の臨床的関連領域に焦点を当てることを学んだ。 片方のCNNは整形外科より高い成績を示し、より正確な診断はCNNが行った。 全てのCNNは整形外科患者より優れていた。 結論: CNNは, 今後, 関節鏡検査に代えて, 孤立性大腿骨軟骨欠損症を同定し, MRIの診断性能を高めるために用いられる。

Background: MRI is the modality of choice for cartilage imaging; however, its diagnostic performance is variable and significantly lower than the gold standard diagnostic knee arthroscopy. In recent years, deep learning has been used to automatically interpret medical images to improve diagnostic accuracy and speed. Purpose: The primary purpose of this study was to evaluate whether deep learning applied to the interpretation of knee MRI images can be utilized to identify cartilage defects accurately. Methods: We analyzed data from patients who underwent knee MRI evaluation and consequently had arthroscopic knee surgery (207 with cartilage defect, 90 without cartilage defect). Patients' arthroscopic findings were compared to preoperative MRI images to verify the presence or absence of isolated tibiofemoral cartilage defects. We developed three convolutional neural networks (CNNs) to analyze the MRI images and implemented image-specific saliency maps to visualize the CNNs' decision-making process. To compare the CNNs' performance against human interpretation, the same test dataset images were provided to an experienced orthopaedic surgeon and an orthopaedic resident. Results: Saliency maps demonstrated that the CNNs learned to focus on the clinically relevant areas of the tibiofemoral articular cartilage on MRI images during the decision-making processes. One CNN achieved higher performance than the orthopaedic surgeon, with two more accurate diagnoses made by the CNN. All the CNNs outperformed the orthopaedic resident. Conclusion: CNN can be used to enhance the diagnostic performance of MRI in identifying isolated tibiofemoral cartilage defects and may replace diagnostic knee arthroscopy in certain cases in the future.
翻訳日:2021-06-06 14:57:16 公開日:2020-11-30
# ReLUニューラルネットワークの局所線形属性

Locally Linear Attributes of ReLU Neural Networks ( http://arxiv.org/abs/2012.01940v1 )

ライセンス: Link先を確認
Ben Sattelberg, Renzo Cavalieri, Michael Kirby, Chris Peterson, Ross Beveridge(参考訳) reluニューラルネットワークは、入力空間から出力空間への連続的な区分線形写像を判定する。 ニューラルネットワークの重み付けは、入力空間の凸ポリトープへの分解を決定し、これらのポリトープのそれぞれについて、ネットワークを単一のアフィンマッピングで記述することができる。 各ポリトープに付加されたアフィンマップと共に分解の構造を解析し、関連するニューラルネットワークの挙動を調べることができる。

A ReLU neural network determines/is a continuous piecewise linear map from an input space to an output space. The weights in the neural network determine a decomposition of the input space into convex polytopes and on each of these polytopes the network can be described by a single affine mapping. The structure of the decomposition, together with the affine map attached to each polytope, can be analyzed to investigate the behavior of the associated neural network.
翻訳日:2021-06-06 14:56:49 公開日:2020-11-30
# 深層学習における公平性の監査に向けて

Towards Auditability for Fairness in Deep Learning ( http://arxiv.org/abs/2012.00106v1 )

ライセンス: Link先を確認
Ivoline C. Ngong, Krystal Maughan, Joseph P. Near(参考訳) グループフェアネスメトリクスは、ディープラーニングモデルが有利で不利なグループに対して異なる振舞いをするのを検出することができるが、これらのメトリクスをうまく評価するモデルであっても、不公平な予測を生じさせる可能性がある。 深層学習における解釈可能性から着想を得た深層学習モデルに対して,個別の公正度を効率よく計算したスムーズな予測感度を示す。 スムーズな予測感度により 個別の予測を公正に監査できる 本研究では,スムーズな予測感度が不公平な予測と不公平な予測の区別に役立ち,グループフェアモデルから不公平な予測を検出できる可能性が示唆された。

Group fairness metrics can detect when a deep learning model behaves differently for advantaged and disadvantaged groups, but even models that score well on these metrics can make blatantly unfair predictions. We present smooth prediction sensitivity, an efficiently computed measure of individual fairness for deep learning models that is inspired by ideas from interpretability in deep learning. smooth prediction sensitivity allows individual predictions to be audited for fairness. We present preliminary experimental results suggesting that smooth prediction sensitivity can help distinguish between fair and unfair predictions, and that it may be helpful in detecting blatantly unfair predictions from "group-fair" models.
翻訳日:2021-06-06 14:56:27 公開日:2020-11-30
# 可変選択のための正規化損失最小化の持続的削減

Persistent Reductions in Regularized Loss Minimization for Variable Selection ( http://arxiv.org/abs/2011.14549v1 )

ライセンス: Link先を確認
Amin Jalali(参考訳) 多面体ゲージによる正規化損失最小化の文脈では、幅広い損失関数(おそらく非スムースおよび非凸)と入力データ上の単純な幾何条件の下では、元の問題に対して反復最適化が行われる前に、そのクラスから損失関数を持つすべての問題において、すべての最適解において0係数であることが保証された特徴のサブセットを効率的に識別することができる。 この手順はスタンドアロンで、データのみを入力として取り、損失関数を呼び出す必要はない。 そこで我々は,この手順を,上述の正規化損失最小化問題に対する持続的削減とみなす。 この低減は、データポイントから形成された多面体円錐に適用される極端線識別サブルーチンを介して効率的に実装することができる。 我々は,超高次元問題に適用可能な,既存の極端線識別のための出力センシティブアルゴリズムを採用している。

In the context of regularized loss minimization with polyhedral gauges, we show that for a broad class of loss functions (possibly non-smooth and non-convex) and under a simple geometric condition on the input data it is possible to efficiently identify a subset of features which are guaranteed to have zero coefficients in all optimal solutions in all problems with loss functions from said class, before any iterative optimization has been performed for the original problem. This procedure is standalone, takes only the data as input, and does not require any calls to the loss function. Therefore, we term this procedure as a persistent reduction for the aforementioned class of regularized loss minimization problems. This reduction can be efficiently implemented via an extreme ray identification subroutine applied to a polyhedral cone formed from the datapoints. We employ an existing output-sensitive algorithm for extreme ray identification which makes our guarantee and algorithm applicable in ultra-high dimensional problems.
翻訳日:2021-06-06 14:56:14 公開日:2020-11-30
# ウェアラブルECG記録の表現と評価

Representing and Denoising Wearable ECG Recordings ( http://arxiv.org/abs/2012.00110v1 )

ライセンス: Link先を確認
Jeffrey Chan, Andrew C. Miller, Emily B. Fox(参考訳) 現代のウェアラブルデバイスには、さまざまな非侵襲バイオマーカーセンサーが組み込まれており、疾患の検出と治療の改善を約束している。 そのようなセンサーの1つは、心臓の電気信号を測定する単葉心電図(ECG)である。 ウェアラブルによって可能な、豊富な縦長構造を持つ心電図測定の膨大なボリュームの利点は、運動などによる臨床心電図と比較すると、潜在的にノイズの多い測定値となる。 本研究では,ウェアラブルセンサから導出されるECGの構造的ノイズ過程をシミュレートする統計モデルを構築し,変動を解析するためのビート・ツー・ビート表現を設計し,ECGを分解する因子分析に基づく手法を提案する。 現実的なECGシミュレータと構造化ノイズモデルを用いて合成データを生成する。 信号対雑音の異なるレベルでは、性能の上限を定量的に測定し、線形モデルと非線形モデルからの推定値を比較する。 最後に,モバイル健康調査においてウェアラブルが収集した心電図に本手法を適用した。

Modern wearable devices are embedded with a range of noninvasive biomarker sensors that hold promise for improving detection and treatment of disease. One such sensor is the single-lead electrocardiogram (ECG) which measures electrical signals in the heart. The benefits of the sheer volume of ECG measurements with rich longitudinal structure made possible by wearables come at the price of potentially noisier measurements compared to clinical ECGs, e.g., due to movement. In this work, we develop a statistical model to simulate a structured noise process in ECGs derived from a wearable sensor, design a beat-to-beat representation that is conducive for analyzing variation, and devise a factor analysis-based method to denoise the ECG. We study synthetic data generated using a realistic ECG simulator and a structured noise model. At varying levels of signal-to-noise, we quantitatively measure an upper bound on performance and compare estimates from linear and non-linear models. Finally, we apply our method to a set of ECGs collected by wearables in a mobile health study.
翻訳日:2021-06-06 14:55:29 公開日:2020-11-30
# DRDr II: Mask RCNN を用いた糖尿病網膜症の重症度検出と伝達学習

DRDr II: Detecting the Severity Level of Diabetic Retinopathy Using Mask RCNN and Transfer Learning ( http://arxiv.org/abs/2011.14733v1 )

ライセンス: Link先を確認
Farzan Shenavarmasouleh, Farid Ghareh Mohammadi, M. Hadi Amini, Hamid R. Arabnia(参考訳) DRDr IIは機械学習とディープラーニングのハイブリッドだ。 糖尿病網膜症患者(dr)の目にみられる2種類の病変(出芽体と微小神経痛)の検出、発見、およびセグメント化マスクの作成を訓練したdrdrの成功を基盤とし、モデル全体をパイプラインのコアの固形特徴抽出器として使用し、dr症例の重症度を検出する。 我々は,世界中から収集された35万枚以上のガウス画像からなる巨大なデータセットを用いて,特徴抽出とともに2段階の事前処理を行った後,精度92%以上の正重度レベルの予測に成功した。

DRDr II is a hybrid of machine learning and deep learning worlds. It builds on the successes of its antecedent, namely, DRDr, that was trained to detect, locate, and create segmentation masks for two types of lesions (exudates and microaneurysms) that can be found in the eyes of the Diabetic Retinopathy (DR) patients; and uses the entire model as a solid feature extractor in the core of its pipeline to detect the severity level of the DR cases. We employ a big dataset with over 35 thousand fundus images collected from around the globe and after 2 phases of preprocessing alongside feature extraction, we succeed in predicting the correct severity levels with over 92% accuracy.
翻訳日:2021-06-06 14:54:30 公開日:2020-11-30
# vidi:covid-19診断における放射線科助手としてのビジュアルデータの記述的クラスタリング

ViDi: Descriptive Visual Data Clustering as Radiologist Assistant in COVID-19 Streamline Diagnostic ( http://arxiv.org/abs/2011.14871v1 )

ライセンス: Link先を確認
Sahithya Ravi, Samaneh Khoshrou, Mykola Pechenizkiy(参考訳) 新型コロナウイルスの感染拡大を受け、胸部X線からの深層学習が広く研究されている。 しかし、医療診断にAIメソッドを適用するためのより実践的なアプローチは、人間と機械の相互作用と専門家による意思決定を促進するフレームワークを設計することである。 研究は、分類が現実世界の意思決定を加速する上で不可欠な規則であることを示した。 記述型文書クラスタリングに触発されて,文脈関連インスタンスをグループ化し,放射線科医の意思決定を支援する,ドメインに依存しない説明型クラスタリングフレームワークを提案する。 多くの記述的クラスタリング手法は意味のあるクラスタを形成するためにドメイン固有の特徴を用いるが、モデルレベルの説明はクラスタの均一性を達成するための学習プロセスのより汎用的な要素である。 我々はDeepSHAPを用いて、病気の重症度の観点から同種クラスタを生成し、画像の分類領域を可視化する好ましくないサリエンシマップを用いてクラスタを記述する。 これらの人間解釈マップは、放射線学者の知識を補完し、クラスタ全体を一度に調査する。 また,本研究の一環としてVGG-19をベースとしたモデルの評価を行い,新型コロナウイルスの診断に対する最近の説明可能なアプローチに匹敵する正の予測値が95%および97%の症例を同定した。

In the light of the COVID-19 pandemic, deep learning methods have been widely investigated in detecting COVID-19 from chest X-rays. However, a more pragmatic approach to applying AI methods to a medical diagnosis is designing a framework that facilitates human-machine interaction and expert decision making. Studies have shown that categorization can play an essential rule in accelerating real-world decision making. Inspired by descriptive document clustering, we propose a domain-independent explanatory clustering framework to group contextually related instances and support radiologists' decision making. While most descriptive clustering approaches employ domain-specific characteristics to form meaningful clusters, we focus on model-level explanation as a more general-purpose element of every learning process to achieve cluster homogeneity. We employ DeepSHAP to generate homogeneous clusters in terms of disease severity and describe the clusters using favorable and unfavorable saliency maps, which visualize the class discriminating regions of an image. These human-interpretable maps complement radiologist knowledge to investigate the whole cluster at once. Besides, as part of this study, we evaluate a model based on VGG-19, which can identify COVID and pneumonia cases with a positive predictive value of 95% and 97%, respectively, comparable to the recent explainable approaches for COVID diagnosis.
翻訳日:2021-06-06 14:53:55 公開日:2020-11-30
# H&E染色画像の高速, 自己監視, 完全畳み込み色正規化

Fast, Self Supervised, Fully Convolutional Color Normalization of H&E Stained Images ( http://arxiv.org/abs/2011.15000v1 )

ライセンス: Link先を確認
Abhijeet Patil, Mohd. Talha, Aniket Bhatia, Nikhil Cherian Kurian, Sammed Mangale, Sunil Patel, Amit Sethi(参考訳) トレーニングとテストセットのデータ分布が異なる場合、ディープラーニングアルゴリズムのパフォーマンスは大幅に低下する。 染色プロトコルの変化、試薬ブランド、技術者の習慣により、デジタル組織病理画像の色彩変化は極めて一般的である。 色の変化は、病理組織学における自動診断システムのための深層学習に基づくソリューションの展開に問題を引き起こす。 これまで提案してきたカラー正規化手法では、小さなパッチを正規化の基準として捉えており、分散元画像にアーティファクトを生成する。 計算のほとんどはGPUではなくCPU上で行われるため、これらの手法も遅い。 本稿では,自己教師付きトレーニングと推論において高速な色正規化手法を提案する。 本手法は,軽量な完全畳み込みニューラルネットワークをベースとして,深層学習に基づくパイプラインに前処理ブロックとして容易に取り付けることができる。 CAMELYON17 と MoNuSeg のデータセットの分類とセグメンテーションのタスクでは,提案手法はより高速で,工法の状態よりも精度が向上する。

Performance of deep learning algorithms decreases drastically if the data distributions of the training and testing sets are different. Due to variations in staining protocols, reagent brands, and habits of technicians, color variation in digital histopathology images is quite common. Color variation causes problems for the deployment of deep learning-based solutions for automatic diagnosis system in histopathology. Previously proposed color normalization methods consider a small patch as a reference for normalization, which creates artifacts on out-of-distribution source images. These methods are also slow as most of the computation is performed on CPUs instead of the GPUs. We propose a color normalization technique, which is fast during its self-supervised training as well as inference. Our method is based on a lightweight fully-convolutional neural network and can be easily attached to a deep learning-based pipeline as a pre-processing block. For classification and segmentation tasks on CAMELYON17 and MoNuSeg datasets respectively, the proposed method is faster and gives a greater increase in accuracy than the state of the art methods.
翻訳日:2021-06-06 14:53:35 公開日:2020-11-30
# UniCon:物理ベースのキャラクターモーションのためのユニバーサルニューラルコントローラ

UniCon: Universal Neural Controller For Physics-based Character Motion ( http://arxiv.org/abs/2011.15119v1 )

ライセンス: Link先を確認
Tingwu Wang, Yunrong Guo, Maria Shugrina, Sanja Fidler(参考訳) 物理学に基づくアニメーションの分野は、ビデオゲームや映画におけるリアリズムの需要の増加により重要性を増しており、最近では(人間の)デモンストレーションからコントロールを学ぶdeep reinforcement learning(rl)のようなデータ駆動技術が広く採用されている。 rlは個々の動きと対話的なロコモーションを再現する素晴らしい結果を示しているが、既存の方法は、新しい動きに一般化する能力と複雑な動き列を対話的に構成する能力に制限がある。 本稿では,大規模動作データセットから学習することで,異なるスタイルの何千もの動作を習得する物理ベースのユニバーサルニューラルコントローラ(UniCon)を提案する。 uniconは2段階のフレームワークで、高レベルモーションスケジューラとrlによる低レベルモーションエグゼキュータで構成されています。 既存のマルチモーションRLフレームワークを体系的に解析することにより,性能を飛躍的に向上させる新たな目標関数とトレーニング手法を導入する。 トレーニングが完了すると、モーションエグゼキュータをさまざまなハイレベルスケジューラと組み合わせることができ、さまざまなリアルタイムインタラクティブアプリケーションを可能にする。 我々は,UniConがキーボード駆動制御をサポートし,ロコモーションとアクロバティックスキルの大きなプールから引き出された動作シーケンスを合成し,ビデオで撮影した人物を物理ベースの仮想アバターにテレポートできることを示す。 数値的および定性的な結果から、UniConの効率性、堅牢性、一般化性は、先進的、目視不可能な動き、目視不可能なヒューマノイドモデル、目視的摂動に対して顕著に向上した。

The field of physics-based animation is gaining importance due to the increasing demand for realism in video games and films, and has recently seen wide adoption of data-driven techniques, such as deep reinforcement learning (RL), which learn control from (human) demonstrations. While RL has shown impressive results at reproducing individual motions and interactive locomotion, existing methods are limited in their ability to generalize to new motions and their ability to compose a complex motion sequence interactively. In this paper, we propose a physics-based universal neural controller (UniCon) that learns to master thousands of motions with different styles by learning on large-scale motion datasets. UniCon is a two-level framework that consists of a high-level motion scheduler and an RL-powered low-level motion executor, which is our key innovation. By systematically analyzing existing multi-motion RL frameworks, we introduce a novel objective function and training techniques which make a significant leap in performance. Once trained, our motion executor can be combined with different high-level schedulers without the need for retraining, enabling a variety of real-time interactive applications. We show that UniCon can support keyboard-driven control, compose motion sequences drawn from a large pool of locomotion and acrobatics skills and teleport a person captured on video to a physics-based virtual avatar. Numerical and qualitative results demonstrate a significant improvement in efficiency, robustness and generalizability of UniCon over prior state-of-the-art, showcasing transferability to unseen motions, unseen humanoid models and unseen perturbation.
翻訳日:2021-06-06 14:53:17 公開日:2020-11-30
# 動力学的インフォームドニューラルネットワーク

Kinetics-Informed Neural Networks ( http://arxiv.org/abs/2011.14473v1 )

ライセンス: Link先を確認
Gabriel S. Gusm\~ao, Adhika P. Retnanto, Shashwati C. da Cunha, Andrew J. Medford(参考訳) 化学力学は、反応機構の絡み合い、反応性能の最適化、化学プロセスの合理的設計のための現象論的枠組みから構成される。 そこで我々は,MKMを記述した常微分方程式(ODE)を解くために,サロゲートモデル構築の基盤関数としてフィードフォワード人工ニューラルネットワークを利用する。 本稿では,反応ネットワークの数学的記述と分類,初等反応の種類,化学種の代数的枠組みを提案する。 この枠組みの下で, 正規化多目的最適化設定におけるニューラルネットと運動モデルパラメータの同時学習は, 合成実験データから速度パラメータを推定することで逆問題の解を導くことを実証する。 本研究では, 化学系状態に関する知識の関数として, 速度論的パラメータを検索できる限界を探索し, 統計的ノイズに対する方法論の堅牢性を評価する。 この逆運動性オドへの代理的アプローチは、過渡的データに基づく反応機構の解明に役立つ。

Chemical kinetics consists of the phenomenological framework for the disentanglement of reaction mechanisms, optimization of reaction performance and the rational design of chemical processes. Here, we utilize feed-forward artificial neural networks as basis functions for the construction of surrogate models to solve ordinary differential equations (ODEs) that describe microkinetic models (MKMs). We present an algebraic framework for the mathematical description and classification of reaction networks, types of elementary reaction, and chemical species. Under this framework, we demonstrate that the simultaneous training of neural nets and kinetic model parameters in a regularized multiobjective optimization setting leads to the solution of the inverse problem through the estimation of kinetic parameters from synthetic experimental data. We probe the limits at which kinetic parameters can be retrieved as a function of knowledge about the chemical system states over time, and assess the robustness of the methodology with respect to statistical noise. This surrogate approach to inverse kinetic ODEs can assist in the elucidation of reaction mechanisms based on transient data.
翻訳日:2021-06-06 14:52:49 公開日:2020-11-30
# 低リソースニューラルマシン翻訳のための動的カリキュラム学習

Dynamic Curriculum Learning for Low-Resource Neural Machine Translation ( http://arxiv.org/abs/2011.14608v1 )

ライセンス: Link先を確認
Chen Xu, Bojie Hu, Yufan Jiang, Kai Feng, Zeyang Wang, Shen Huang, Qi Ju, Tong Xiao, Jingbo Zhu(参考訳) 大量のデータによって、近年ではニューラルマシン翻訳(nmt)が大きな成功を収めている。 しかし、小規模コーパスでこれらのモデルをトレーニングすれば、依然として課題です。 この場合、データの使い方の方が重要だと思われる。 本稿では,低リソースNMTにおけるトレーニングデータの有効利用について検討する。 特に、トレーニングのトレーニングサンプルを並べ替えるための動的カリキュラム学習(DCL)手法を提案する。 以前の作業とは異なり、リオーダリングには静的スコアリング機能を使用しない。 代わりに、トレーニングサンプルの順序は、損失減少とモデルの能力の2つの方法で動的に決定される。 これにより、現在のモデルが学習するのに十分な能力を持つ簡単なサンプルを強調することで、トレーニングが容易になる。 トランスフォーマーベースシステムでDCL法をテストする。 実験の結果、DCLはWMTの16 En-Deの3つの低リソース機械翻訳ベンチマークと異なるサイズのデータに対して、いくつかの強いベースラインを上回ります。

Large amounts of data has made neural machine translation (NMT) a big success in recent years. But it is still a challenge if we train these models on small-scale corpora. In this case, the way of using data appears to be more important. Here, we investigate the effective use of training data for low-resource NMT. In particular, we propose a dynamic curriculum learning (DCL) method to reorder training samples in training. Unlike previous work, we do not use a static scoring function for reordering. Instead, the order of training samples is dynamically determined in two ways - loss decline and model competence. This eases training by highlighting easy samples that the current model has enough competence to learn. We test our DCL method in a Transformer-based system. Experimental results show that DCL outperforms several strong baselines on three low-resource machine translation benchmarks and different sized data of WMT' 16 En-De.
翻訳日:2021-06-06 14:52:34 公開日:2020-11-30
# ロバストな教師なしバイリンガル辞書インダクションへの簡便かつ効果的なアプローチ

A Simple and Effective Approach to Robust Unsupervised Bilingual Dictionary Induction ( http://arxiv.org/abs/2011.14874v1 )

ライセンス: Link先を確認
Yanyang Li, Yingfeng Luo, Ye Lin, Quan Du, Huizhen Wang, Shujian Huang, Tong Xiao, Jingbo Zhu(参考訳) 初期化と自己学習に基づく教師なし二言語辞書誘導法は、類似の言語対(例えば英語とスペイン語)で大きな成功を収めている。 しかし、彼らはまだ失敗し、英語と日本語など、多くの遠い言語対で0%の精度を持つ。 本研究では,この失敗が,自己学習を成功させる上で,実際の初期化性能と最小初期化性能とのギャップに起因することを示す。 このギャップを埋めるために反復次元削減法を提案する。 本実験により, 類似言語対の性能を損なうことなく, 中国語, 日本語, ベトナム語, タイ語の4言語間で13.64~55.53%の精度が得られることがわかった。

Unsupervised Bilingual Dictionary Induction methods based on the initialization and the self-learning have achieved great success in similar language pairs, e.g., English-Spanish. But they still fail and have an accuracy of 0% in many distant language pairs, e.g., English-Japanese. In this work, we show that this failure results from the gap between the actual initialization performance and the minimum initialization performance for the self-learning to succeed. We propose Iterative Dimension Reduction to bridge this gap. Our experiments show that this simple method does not hamper the performance of similar language pairs and achieves an accuracy of 13.64~55.53% between English and four distant languages, i.e., Chinese, Japanese, Vietnamese and Thai.
翻訳日:2021-06-06 14:52:22 公開日:2020-11-30
# 変圧器時代の小説の機械翻訳

Machine Translation of Novels in the Age of Transformer ( http://arxiv.org/abs/2011.14979v1 )

ライセンス: Link先を確認
Antonio Toral, Antoni Oliver, Pau Ribas Ballest\'in(参考訳) 本章では,ニューラルMT(NMT)やトランスフォーマー(Vaswani et al., 2017)の最先端アーキテクチャに基づいて,文学領域,特に小説に合わせた機械翻訳(MT)システムを構築している。 その後,本システムと他の3つのシステム(リカレント・フレーズ・ベース・パラダイム下の2つのドメイン特化システムと一般的なオンライン・システム)を3つの評価で比較し,翻訳の評価により,システムの有用性を評価する。 最初の評価は自動であり、最も広く使われている自動評価指標BLEUを使用する。 残る2つの評価は手動で行われ、それぞれ、翻訳エラーをなくすのに必要な編集後の好みと量を評価する。 予想通り、ドメイン固有のトランスフォーマーベースのシステムは、すべてのケースにおいて3つの評価すべてにおいて、他の3つのシステムよりも大きな利益を上げた。

In this chapter we build a machine translation (MT) system tailored to the literary domain, specifically to novels, based on the state-of-the-art architecture in neural MT (NMT), the Transformer (Vaswani et al., 2017), for the translation direction English-to-Catalan. Subsequently, we assess to what extent such a system can be useful by evaluating its translations, by comparing this MT system against three other systems (two domain-specific systems under the recurrent and phrase-based paradigms and a popular generic on-line system) on three evaluations. The first evaluation is automatic and uses the most-widely used automatic evaluation metric, BLEU. The two remaining evaluations are manual and they assess, respectively, preference and amount of post-editing required to make the translation error-free. As expected, the domain-specific Transformer-based system outperformed the three other systems in all the three evaluations conducted, in all cases by a large margin.
翻訳日:2021-06-06 14:52:09 公開日:2020-11-30
# procode: スイスの職業と経済活動の自動コーディングと再コーディングのための多言語ソリューション

Procode: the Swiss Multilingual Solution for Automatic Coding and Recoding of Occupations and Economic Activities ( http://arxiv.org/abs/2012.07521v1 )

ライセンス: Link先を確認
Nenad Savic, Nicolas Bovio, Fabian Gilbert and Irina Guseva Canu(参考訳) 目的。 疫学的研究は、職業または経済活動のために確立された分類と一致したデータを必要とする。 分類は通常、数百のコードとタイトルを含んでいる。 生データの手作業によるコーディングは、誤った分類と時間の消費をもたらす可能性がある。 目的は、分類に対する自由テキストのコーディングと異なる分類間の再コーディングのための、Procodeという名前のWebツールの開発とテストであった。 方法。 3つのテキスト分類器、すなわち CNB (Complement Naive Bayes) とSVM (Support Vector Machine) とRFC (Random Forest Classifier) を k-fold クロスバリデーションを用いて検討した。 フランスの職業分類(PCS)とフランスの職業分類(NAF)を手動で指定した30000のフリーテキストが利用可能であった。 再コーディングのために、Procodeは、既存の横断歩道に従って、ある分類のコードを別の分類に変換するワークフローを統合した。 これは簡単な操作であるため、復号時間のみが測定された。 結果。 3つのテキスト分類器のうち、cnbは最良の性能を示し、分類器はpcsとnafの57-81%と63-83%の分類符号を正確に予測した。 SVMはやや低い結果(1-2%)をもたらし、RFCはデータの30%まで正確にコーディングした。 コーディング操作は10000レコードにつき1分間必要であり、再コーディングはより高速であった。 5-10秒 結論。 Procodeに統合されたアルゴリズムは、500から700の異なる選択を選択して適切なコードを割り当てる必要があったため、良好なパフォーマンスを示した。 結果に基づき、著者らはCNBをProcodeに実装することを決定した。 将来的には、他の分類器が優れたパフォーマンスを示す場合、更新には必要な修正が含まれる。

Objective. Epidemiological studies require data that are in alignment with the classifications established for occupations or economic activities. The classifications usually include hundreds of codes and titles. Manual coding of raw data may result in misclassification and be time consuming. The goal was to develop and test a web-tool, named Procode, for coding of free-texts against classifications and recoding between different classifications. Methods. Three text classifiers, i.e. Complement Naive Bayes (CNB), Support Vector Machine (SVM) and Random Forest Classifier (RFC), were investigated using a k-fold cross-validation. 30 000 free-texts with manually assigned classification codes of French classification of occupations (PCS) and French classification of activities (NAF) were available. For recoding, Procode integrated a workflow that converts codes of one classification to another according to existing crosswalks. Since this is a straightforward operation, only the recoding time was measured. Results. Among the three investigated text classifiers, CNB resulted in the best performance, where the classifier predicted accurately 57-81% and 63-83% classification codes for PCS and NAF, respectively. SVM lead to somewhat lower results (by 1-2%), while RFC coded accurately up to 30% of the data. The coding operation required one minute per 10 000 records, while the recoding was faster, i.e. 5-10 seconds. Conclusion. The algorithm integrated in Procode showed satisfactory performance, since the tool had to assign the right code by choosing between 500-700 different choices. Based on the results, the authors decided to implement CNB in Procode. In future, if another classifier shows a superior performance, an update will include the required modifications.
翻訳日:2021-06-06 14:51:51 公開日:2020-11-30
# Sim2SG:トランスファー学習のためのSim-to-Real Scene Graph生成

Sim2SG: Sim-to-Real Scene Graph Generation for Transfer Learning ( http://arxiv.org/abs/2011.14488v1 )

ライセンス: Link先を確認
Aayush Prakash, Shoubhik Debnath, Jean-Francois Lafleche, Eric Cameracci, Gavriel State, Marc T. Law(参考訳) シーングラフ(SG)生成は最近、多くの注目を集めています。 しかし、現在のSG生成技術は、高価で限られたラベル付きデータセットの可用性に依存している。 ラベルは基本的に無料であるため、合成データは有効な代替手段を提供する。 しかし、合成データに基づいてトレーニングされたニューラルネットワークモデルは、ドメインギャップのため、実際のデータではうまく動作しない。 そこで本研究では,シーングラフ生成のためのSim-to-realトランスファーのスケーラブルな手法であるSim2SGを提案する。 Sim2SGはドメインギャップを2つのドメイン間の相違点、ラベル、予測に分解することで解決する。 擬似統計に基づく自己学習と敵対的手法を導入することで、これらの相違に対処する。 Sim2SGは、現実世界のデータセットからの高価な監視を必要としない。 我々の実験は、質的および定量的にドメイン間ギャップを減らすために、ベースラインよりも大幅な改善を示しています。 本研究では,実世界データから評価した実環境シミュレータとともに,玩具シミュレータのアプローチを検証する。

Scene graph (SG) generation has been gaining a lot of traction recently. Current SG generation techniques, however, rely on the availability of expensive and limited number of labeled datasets. Synthetic data offers a viable alternative as labels are essentially free. However, neural network models trained on synthetic data, do not perform well on real data because of the domain gap. To overcome this challenge, we propose Sim2SG, a scalable technique for sim-to-real transfer for scene graph generation. Sim2SG addresses the domain gap by decomposing it into appearance, label and prediction discrepancies between the two domains. We handle these discrepancies by introducing pseudo statistic based self-learning and adversarial techniques. Sim2SG does not require costly supervision from the real-world dataset. Our experiments demonstrate significant improvements over baselines in reducing the domain gap both qualitatively and quantitatively. We validate our approach on toy simulators, as well as realistic simulators evaluated on real-world data.
翻訳日:2021-06-06 14:50:11 公開日:2020-11-30
# 対応プルーニングのための学習可能な運動コヒーレンス

Learnable Motion Coherence for Correspondence Pruning ( http://arxiv.org/abs/2011.14563v1 )

ライセンス: Link先を確認
Yuan Liu, Lingjie Liu, Cheng Lin, Zhen Dong, Wenping Wang(参考訳) 動きの一貫性は、真の対応と偽の対応を区別するための重要な手がかりである。 スパースな対応の運動コヒーレンスをモデル化することは、そのスパース性と不均一分布のため困難である。 動きコヒーレンスに関する既存の研究はパラメータ設定に敏感であり、複雑な動きパターンを扱うのに困難である。 本稿では,ラプラシアン運動コヒーレンスネットワーク(lmcnet)と呼ばれるネットワークを導入し,対応プラニングの動作コヒーレンス特性を学習する。 対応グラフ上の滑らかな関数を持つコヒーレント運動の新たな定式化を提案し、この定式化がグラフラプラシアンによる閉形式解を可能にすることを示す。 このクローズドフォームソリューションは,学習フレームワークにおける微分可能なレイヤの設計を可能にし,仮定対応からグローバル動作コヒーレンスをキャプチャする。 グローバルな動きコヒーレンスはさらに、他の局所層によって抽出された局所コヒーレンスと組み合わせて、不整合性対応を堅牢に検出する。 実験により、LCCNetは、ダイナミックシーンの相対的なポーズ推定と対応性において、技術の状態よりも優れた性能を有することが示された。

Motion coherence is an important clue for distinguishing true correspondences from false ones. Modeling motion coherence on sparse putative correspondences is challenging due to their sparsity and uneven distributions. Existing works on motion coherence are sensitive to parameter settings and have difficulty in dealing with complex motion patterns. In this paper, we introduce a network called Laplacian Motion Coherence Network (LMCNet) to learn motion coherence property for correspondence pruning. We propose a novel formulation of fitting coherent motions with a smooth function on a graph of correspondences and show that this formulation allows a closed-form solution by graph Laplacian. This closed-form solution enables us to design a differentiable layer in a learning framework to capture global motion coherence from putative correspondences. The global motion coherence is further combined with local coherence extracted by another local layer to robustly detect inlier correspondences. Experiments demonstrate that LMCNet has superior performances to the state of the art in relative camera pose estimation and correspondences pruning of dynamic scenes.
翻訳日:2021-06-06 14:49:59 公開日:2020-11-30
# DeepCloth: 形状とスタイル編集のためのニューラルガーメント表現

DeepCloth: Neural Garment Representation for Shape and Style Editing ( http://arxiv.org/abs/2011.14619v1 )

ライセンス: Link先を確認
Zhaoqi Su and Tao Yu and Yangang Wang and Yipeng Li and Yebin Liu(参考訳) 衣料品の表現、アニメーション、編集はコンピュータビジョンやグラフィックの分野で難しい話題である。 既存の手法では、異なる形状やトポロジーの下で滑らかで合理的な衣服の遷移はできない。 本稿では,自由かつ円滑な衣料スタイル移行を可能にする統一衣料表現フレームワークを構築するために,deepclothと呼ばれる新しい方法を提案する。 私たちのキーとなる考え方は、形状やトポロジの異なる様々な衣服を記述できる「マスク付きUV配置マップ」によって、衣服の幾何学を表現することです。 さらに、上記のUV空間からマッピングした連続的な特徴空間を学習し、衣服の特徴を制御して衣服形状の編集と遷移を可能にする。 最後に,ニューラルネットワークによる衣服表現と符号化手法に基づく衣服アニメーション,再構成,編集の応用例を示す。 結論として,提案するDeepClothでは,よりフレキシブルで汎用的な3D衣料デジタル化フレームワークの確立に向けて一歩前進する。 本手法は,従来手法と比較して最先端の衣服モデリング結果が得られることを示す実験である。

Garment representation, animation and editing is a challenging topic in the area of computer vision and graphics. Existing methods cannot perform smooth and reasonable garment transition under different shape styles and topologies. In this work, we introduce a novel method, termed as DeepCloth, to establish a unified garment representation framework enabling free and smooth garment style transition. Our key idea is to represent garment geometry by a "UV-position map with mask", which potentially allows the description of various garments with different shapes and topologies. Furthermore, we learn a continuous feature space mapped from the above UV space, enabling garment shape editing and transition by controlling the garment features. Finally, we demonstrate applications of garment animation, reconstruction and editing based on our neural garment representation and encoding method. To conclude, with the proposed DeepCloth, we move a step forward on establishing a more flexible and general 3D garment digitization framework. Experiments demonstrate that our method can achieve the state-of-the-art garment modeling results compared with the previous methods.
翻訳日:2021-06-06 14:48:15 公開日:2020-11-30
# CanonPose:野生での自己監督された単眼の3D人物の姿勢推定

CanonPose: Self-Supervised Monocular 3D Human Pose Estimation in the Wild ( http://arxiv.org/abs/2011.14679v1 )

ライセンス: Link先を確認
Bastian Wandt, Marco Rudolph, Petrissa Zell, Helge Rhodin, Bodo Rosenhahn(参考訳) 単一画像からの人間のポーズ推定は、大量のラベル付きトレーニングデータを正確に解く必要があるコンピュータビジョンにおいて難しい問題である。 残念なことに、多くの人的活動(屋外スポーツ)において、そのようなトレーニングデータは存在せず、伝統的なモーションキャプチャシステムで取得することは困難または不可能である。 ラベルのないマルチビューデータから1つの画像3Dポーズ推定器を学習する自己教師型アプローチを提案する。 この目的のために,マルチビューの一貫性制約を利用して,観察した2次元ポーズを基礎となる3次元ポーズとカメラ回転に絡ませる。 既存のほとんどの方法とは対照的に、校正カメラは必要とせず、移動カメラから学ぶことができる。 それにもかかわらず、静的なカメラ設定の場合、フレームワークに複数のビューで一定の相対的なカメラローテーションを含めるオプション拡張を示します。 成功の鍵は、ビューとトレーニングサンプルの情報を混ぜ合わせた、新しく偏見のない再建目標である。 提案手法は2つのベンチマークデータセット(human3.6mとmpii-inf-3dhp)とin-the-wild skiposeデータセットで評価した。

Human pose estimation from single images is a challenging problem in computer vision that requires large amounts of labeled training data to be solved accurately. Unfortunately, for many human activities (\eg outdoor sports) such training data does not exist and is hard or even impossible to acquire with traditional motion capture systems. We propose a self-supervised approach that learns a single image 3D pose estimator from unlabeled multi-view data. To this end, we exploit multi-view consistency constraints to disentangle the observed 2D pose into the underlying 3D pose and camera rotation. In contrast to most existing methods, we do not require calibrated cameras and can therefore learn from moving cameras. Nevertheless, in the case of a static camera setup, we present an optional extension to include constant relative camera rotations over multiple views into our framework. Key to the success are new, unbiased reconstruction objectives that mix information across views and training samples. The proposed approach is evaluated on two benchmark datasets (Human3.6M and MPII-INF-3DHP) and on the in-the-wild SkiPose dataset.
翻訳日:2021-06-06 14:45:20 公開日:2020-11-30
# 動画翻訳のための適応型コンパクトアテンション

Adaptive Compact Attention For Few-shot Video-to-video Translation ( http://arxiv.org/abs/2011.14695v1 )

ライセンス: Link先を確認
Risheng Huang, Li Shen, Xuan Wang, Cheng Lin, Hao-Zhi Huang(参考訳) 本稿では,映像翻訳のための適応型コンパクトアテンションモデルを提案する。 この領域における既存の作業では、複数の参照画像間の相関を考慮せずにピクセル単位の機能しか使用せず、計算量が多いが性能は限られている。 そこで本研究では,複数の参照画像からコンテキスト特徴を効率的に抽出する適応型コンパクトアテンション機構を提案する。 私たちの核となるアイデアは、すべての参照画像からより高レベルな表現としてコンパクトな基底集合を抽出することです。 さらに信頼性を向上させるため,提案手法はデラウネー三角法に基づく新しい手法で,入力ラベルに従って資源豊富な参照を自動的に選択する手法も提案する。 提案手法を大規模トーキングヘッドビデオデータセットとヒトダンスデータセットで広範囲に評価し, 実験結果から, 光写実的, 時間的に一貫したビデオを生成する手法の優れた性能を示し, 最先端の手法よりも大幅に改善した。

This paper proposes an adaptive compact attention model for few-shot video-to-video translation. Existing works in this domain only use features from pixel-wise attention without considering the correlations among multiple reference images, which leads to heavy computation but limited performance. Therefore, we introduce a novel adaptive compact attention mechanism to efficiently extract contextual features jointly from multiple reference images, of which encoded view-dependent and motion-dependent information can significantly benefit the synthesis of realistic videos. Our core idea is to extract compact basis sets from all the reference images as higher-level representations. To further improve the reliability, in the inference phase, we also propose a novel method based on the Delaunay Triangulation algorithm to automatically select the resourceful references according to the input label. We extensively evaluate our method on a large-scale talking-head video dataset and a human dancing dataset; the experimental results show the superior performance of our method for producing photorealistic and temporally consistent videos, and considerable improvements over the state-of-the-art method.
翻訳日:2021-06-06 14:44:59 公開日:2020-11-30
# rfd-net:semantic instance reconstructionによるポイントシーン理解

RfD-Net: Point Scene Understanding by Semantic Instance Reconstruction ( http://arxiv.org/abs/2011.14744v1 )

ライセンス: Link先を確認
Yinyu Nie, Ji Hou, Xiaoguang Han, Matthias Nie{\ss}ner(参考訳) 点雲からのセマンティックなシーン理解は、下層の3次元幾何学のスパースセットのみを反映しているため、特に困難である。 以前の作業はしばしば点雲を通常のグリッドに変換する(例)。 voxelsまたはbird-eye viewイメージ)、そしてシーン理解のためにグリッドベースの畳み込みを利用する。 本研究では,RfD-Netを導入し,原点雲から直接高密度物体表面を共同で検出・再構成する。 通常のグリッドでシーンを表現するのではなく、ポイントクラウドデータの空間性を活用し、高いオブジェクト性で認識される形状を予測することに重点を置いている。 この設計により、インスタンス再構成をグローバルオブジェクトの局所化と局所形状予測に分離する。 スパースな3d空間から2次元多様体曲面を学ぶことの難しさを和らげるだけでなく、各オブジェクトのポイントクラウドは、暗黙的な関数学習をサポートする形状の詳細を伝達し、あらゆる高分解能曲面を再構築する。 本実験は, 形状予測ヘッドが, 現代の3次元提案ネットワークバックボーンによる物体検出改善に一貫した効果を示す場合に, インスタンス検出と再構成が相補効果を示すことを示す。 定性的かつ定量的な評価は,我々の手法が物体再構成におけるメッシュIoUの11以上を一貫して上回っていることを示す。

Semantic scene understanding from point clouds is particularly challenging as the points reflect only a sparse set of the underlying 3D geometry. Previous works often convert point cloud into regular grids (e.g. voxels or bird-eye view images), and resort to grid-based convolutions for scene understanding. In this work, we introduce RfD-Net that jointly detects and reconstructs dense object surfaces directly from raw point clouds. Instead of representing scenes with regular grids, our method leverages the sparsity of point cloud data and focuses on predicting shapes that are recognized with high objectness. With this design, we decouple the instance reconstruction into global object localization and local shape prediction. It not only eases the difficulty of learning 2-D manifold surfaces from sparse 3D space, the point clouds in each object proposal convey shape details that support implicit function learning to reconstruct any high-resolution surfaces. Our experiments indicate that instance detection and reconstruction present complementary effects, where the shape prediction head shows consistent effects on improving object detection with modern 3D proposal network backbones. The qualitative and quantitative evaluations further demonstrate that our approach consistently outperforms the state-of-the-arts and improves over 11 of mesh IoU in object reconstruction.
翻訳日:2021-06-06 14:44:23 公開日:2020-11-30
# MVSNetの深部核融合はどんなものか

How Good MVSNets Are at Depth Fusion ( http://arxiv.org/abs/2011.14761v1 )

ライセンス: Link先を確認
Oleg Voynov, Aleksandr Safin, Savva Ignatyev and Evgeny Burnaev(参考訳) 低品質センサ深度形態における多視点ステレオ法への追加入力の効果について検討した。 入力深度で使用するための2つの最先端多視点ステレオ手法を改良する。 追加入力深度は、深層多視点ステレオの品質を向上させる可能性がある。

We study the effects of the additional input to deep multi-view stereo methods in the form of low-quality sensor depth. We modify two state-of-the-art deep multi-view stereo methods for using with the input depth. We show that the additional input depth may improve the quality of deep multi-view stereo.
翻訳日:2021-06-06 14:43:46 公開日:2020-11-30
# S2FGAN: 対話型スケッチ・ツー・フェイス翻訳をセマンティックに認識する

S2FGAN: Semantically Aware Interactive Sketch-to-Face Translation ( http://arxiv.org/abs/2011.14785v1 )

ライセンス: Link先を確認
Yan Yang and Md Zakir Hossain and Tom Gedeon and Shafin Rahman(参考訳) インタラクティブな顔画像操作は、フォトリアリスティックな顔と/またはセマンティックマスクを入力として、単一および複数の顔属性を編集しようとする。 フォトリアリスティック画像が存在しない場合(スケッチ/マスクのみ)、従来の手法は元の顔のみを検索するが、翻訳過程におけるモデル制御可能性や多様性を補助する可能性を無視する。 本稿では,簡単なスケッチから顔属性編集の解釈と柔軟性を向上させることを目的とした,s2fganと呼ばれるスケッチ対画像生成フレームワークを提案する。 提案フレームワークは,GAN(Generative Adversarial Networks)で訓練された制約付き潜在空間意味論を改良する。 2つの潜在空間を用いて顔の外観を制御し、生成した顔の所望の属性を調整する。 ユーザは、参照画像を用いて翻訳プロセスを制約するのではなく、生成プロセスに意味情報を取り込むことで、生成された画像に再タッチするようにモデルに指示することができる。 この方法では、変更すべき属性のみを指定することで、1つまたは複数の顔属性を操作できる。 CelebAMask-HQデータセットの大規模な実験結果は、このタスクにおける我々の優れたパフォーマンスと効果を実証的に示す。 提案手法は,属性強度の制御性を高めることで,属性操作における最先端の手法よりも優れている。

Interactive facial image manipulation attempts to edit single and multiple face attributes using a photo-realistic face and/or semantic mask as input. In the absence of the photo-realistic image (only sketch/mask available), previous methods only retrieve the original face but ignore the potential of aiding model controllability and diversity in the translation process. This paper proposes a sketch-to-image generation framework called S2FGAN, aiming to improve users' ability to interpret and flexibility of face attribute editing from a simple sketch. The proposed framework modifies the constrained latent space semantics trained on Generative Adversarial Networks (GANs). We employ two latent spaces to control the face appearance and adjust the desired attributes of the generated face. Instead of constraining the translation process by using a reference image, the users can command the model to retouch the generated images by involving the semantic information in the generation process. In this way, our method can manipulate single or multiple face attributes by only specifying attributes to be changed. Extensive experimental results on CelebAMask-HQ dataset empirically shows our superior performance and effectiveness on this task. Our method successfully outperforms state-of-the-art methods on attribute manipulation by exploiting greater control of attribute intensity.
翻訳日:2021-06-06 14:43:43 公開日:2020-11-30
# Trajformer: 自律運転のための局所自己注意コンテキストによる軌道予測

Trajformer: Trajectory Prediction with Local Self-Attentive Contexts for Autonomous Driving ( http://arxiv.org/abs/2011.14910v1 )

ライセンス: Link先を確認
Manoj Bhat, Jonathan Francis, Jean Oh(参考訳) 効果的な特徴抽出はモデルの文脈理解、特にマルチモーダル軌道予測のようなロボット工学や自動運転への応用において重要である。 しかし、最先端のジェネレーティブメソッドはシーンコンテキストの表現に制限があり、許容できない未来を予測することになる。 エージェントの社会的文脈を表現しやすくするセルフアテンションを用いることにより、これらの制限を緩和し、パラメータ効率を向上し、下流でより健全な情報を生成するローカルな特徴抽出パイプラインを提案する。 Argoverseデータセット上の各種ベースラインに対する標準メトリクス(minADE, minFDE, DAO, DAC)の改善を示す。 https://github.com/Manojbhat09/Trajformer.com/

Effective feature-extraction is critical to models' contextual understanding, particularly for applications to robotics and autonomous driving, such as multimodal trajectory prediction. However, state-of-the-art generative methods face limitations in representing the scene context, leading to predictions of inadmissible futures. We alleviate these limitations through the use of self-attention, which enables better control over representing the agent's social context; we propose a local feature-extraction pipeline that produces more salient information downstream, with improved parameter efficiency. We show improvements on standard metrics (minADE, minFDE, DAO, DAC) over various baselines on the Argoverse dataset. We release our code at: https://github.com/Manojbhat09/Trajformer
翻訳日:2021-06-06 14:43:24 公開日:2020-11-30
# 高性能自動ナンバープレート認識手法の再検討と設計

Rethinking and Designing a High-performing Automatic License Plate Recognition Approach ( http://arxiv.org/abs/2011.14936v1 )

ライセンス: Link先を確認
Yi Wang, Zhen-Peng Bian, Yunhao Zhou, Lap-Pui Chau(参考訳) 本稿では,リアルタイムかつ高精度な自動ライセンスプレート認識(alpr)手法を提案する。 Our study illustrates the outstanding design of ALPR with four insights: (1) the resampling-based cascaded framework is beneficial to both speed and accuracy; (2) the highly efficient license plate recognition should abundant additional character segmentation and recurrent neural network (RNN), but adopt a plain convolutional neural network (CNN); (3) in the case of CNN, taking advantage of vertex information on license plates improves the recognition performance; and (4) the weight-sharing character classifier addresses the lack of training images in small-scale datasets. これらの知見に基づき,VSNetと呼ばれる新しいALPR手法を提案する。 具体的には、VSNetには2つのCNN、すなわちライセンスプレート検出用のVertexNetとライセンスプレート認識用のSCR-Netが含まれている。 VertexNetでは,ライセンスプレートの空間的特徴を抽出する効率的な統合ブロックを提案する。 頂点監視情報を用いて,ライセンスプレートをSCR-Netの入力画像として修正できるように,VertexNetの頂点推定ブランチを提案する。 さらに、頂点に基づくデータ拡張により、トレーニングサンプルの多様性が向上する。 scr-netでは,左右特徴抽出のための水平符号化手法と文字認識のための重み付き分類器を提案する。 実験の結果,提案したVSNetは,誤差率を50%以上改善し,CCPDとAOLPの両方のデータセットの認識精度を149FPS推論速度で99%向上した。

In this paper, we propose a real-time and accurate automatic license plate recognition (ALPR) approach. Our study illustrates the outstanding design of ALPR with four insights: (1) the resampling-based cascaded framework is beneficial to both speed and accuracy; (2) the highly efficient license plate recognition should abundant additional character segmentation and recurrent neural network (RNN), but adopt a plain convolutional neural network (CNN); (3) in the case of CNN, taking advantage of vertex information on license plates improves the recognition performance; and (4) the weight-sharing character classifier addresses the lack of training images in small-scale datasets. Based on these insights, we propose a novel ALPR approach, termed VSNet. Specifically, VSNet includes two CNNs, i.e., VertexNet for license plate detection and SCR-Net for license plate recognition, which is integrated in a resampling-based cascaded manner. In VertexNet, we propose an efficient integration block to extract the spatial features of license plates. With vertex supervisory information, we propose a vertex-estimation branch in VertexNet such that license plates can be rectified as the input images of SCR-Net. Moreover, vertex-based data augmentation is employed to diverse the training samples. In SCR-Net, we propose a horizontal encoding technique for left-to-right feature extraction and a weight-sharing classifier for character recognition. Experimental results show that the proposed VSNet outperforms state-of-the-art methods by more than 50% relative improvement on error rate, achieving >99% recognition accuracy on both CCPD and AOLP datasets with 149 FPS inference speed.
翻訳日:2021-06-06 14:43:10 公開日:2020-11-30
# ビデオゲームにおけるアーティファクト検出の自動化

Automating Artifact Detection in Video Games ( http://arxiv.org/abs/2011.15103v1 )

ライセンス: Link先を確認
Parmida Davarmanesh, Kuanhao Jiang, Tingting Ou, Artem Vysogorets, Stanislav Ivashkevich, Max Kiehn, Shantanu H. Joshi, Nicholas Malaya(参考訳) ゲームハードウェアやソフトウェアの発展にもかかわらず、ゲームプレイにはグラフィックエラー、グリッチ、スクリーンアーティファクトが伴っていることが多い。 この概念実証研究は、ビデオゲームにおけるグラフィック破損の自動検出のための機械学習アプローチを示す。 代表的なスクリーン破損例のサンプルに基づいて、このモデルは、最も一般的に発生するスクリーンアーティファクトのうち10を妥当な精度で識別することができた。 データの特徴表現には、離散フーリエ変換、向き付け勾配のヒストグラム、グラフラプラシアンが含まれる。 これらの特徴の様々な組み合わせは、グラフィクスの個々のクラスを識別する機械学習モデルを訓練するために使用され、後に単一の混合専門家の"アンサンブル"分類器に組み立てられた。 アンサンブル分類器はホールドアウトテストセットでテストされ、これまで見たゲームでは84%、これまで見たことのないゲームでは69%の精度で出力された。

In spite of advances in gaming hardware and software, gameplay is often tainted with graphics errors, glitches, and screen artifacts. This proof of concept study presents a machine learning approach for automated detection of graphics corruptions in video games. Based on a sample of representative screen corruption examples, the model was able to identify 10 of the most commonly occurring screen artifacts with reasonable accuracy. Feature representation of the data included discrete Fourier transforms, histograms of oriented gradients, and graph Laplacians. Various combinations of these features were used to train machine learning models that identify individual classes of graphics corruptions and that later were assembled into a single mixed experts "ensemble" classifier. The ensemble classifier was tested on heldout test sets, and produced an accuracy of 84% on the games it had seen before, and 69% on games it had never seen before.
翻訳日:2021-06-06 14:42:20 公開日:2020-11-30
# SelectScale:選択型とソフトドロップアウトによる画像からのパターンのマイニング

SelectScale: Mining More Patterns from Images via Selective and Soft Dropout ( http://arxiv.org/abs/2012.15766v1 )

ライセンス: Link先を確認
Zhengsu Chen, Jianwei Niu, Xuefeng Liu and Shaojie Tang(参考訳) 畳み込みニューラルネットワーク(CNN)は画像認識において大きな成功を収めている。 入力画像の内部パターンはCNNによって効果的に学習されるが、これらのパターンは入力画像に含まれる有用なパターンのごく一部を構成する。 これは、CNNが学習パターンが正しい分類を行うのに十分であるかどうかを学ぶのをやめるという事実に起因する。 ドロップアウトやSpatialDropoutのようなネットワーク正規化手法はこの問題を緩和する。 トレーニング中は、ランダムに特徴を落とします。 これらのドロップアウト手法は本質的に、ネットワークが学習したパターンを変更し、ネットワークが他のパターンを学習して正しい分類を行うように強制する。 しかし、上記の方法には大きな欠点がある。 ランダムに削除する機能は一般的に効率が悪く、不要なノイズが発生する可能性がある。 この問題に対処するため,SelectScaleを提案する。 ランダムにユニットをドロップする代わりに、SelectScaleはネットワークの重要な機能を選択し、トレーニング中に調整する。 SelectScale を用いて,CIFAR および ImageNet 上での CNN の性能を向上する。

Convolutional neural networks (CNNs) have achieved remarkable success in image recognition. Although the internal patterns of the input images are effectively learned by the CNNs, these patterns only constitute a small proportion of useful patterns contained in the input images. This can be attributed to the fact that the CNNs will stop learning if the learned patterns are enough to make a correct classification. Network regularization methods like dropout and SpatialDropout can ease this problem. During training, they randomly drop the features. These dropout methods, in essence, change the patterns learned by the networks, and in turn, forces the networks to learn other patterns to make the correct classification. However, the above methods have an important drawback. Randomly dropping features is generally inefficient and can introduce unnecessary noise. To tackle this problem, we propose SelectScale. Instead of randomly dropping units, SelectScale selects the important features in networks and adjusts them during training. Using SelectScale, we improve the performance of CNNs on CIFAR and ImageNet.
翻訳日:2021-06-06 14:41:52 公開日:2020-11-30
# TSSRGCN:交通流予測のための時間スペクトル空間検索グラフ畳み込みネットワーク

TSSRGCN: Temporal Spectral Spatial Retrieval Graph Convolutional Network for Traffic Flow Forecasting ( http://arxiv.org/abs/2011.14638v1 )

ライセンス: Link先を確認
Xu Chen, Yuanxing Zhang, Lun Du, Zheng Fang, Yi Ren, Kaigui Bian, Kunqing Xie(参考訳) 交通流予測は交通システムの効率化と緊急事態の防止に非常に重要である。 短期的・長期的交通流の高度に非線形で複雑な進化パターンのため、既存の手法は時空間情報、特に時間変化の異なる様々な時間パターンや道路セグメントの特徴を十分に活用できないことが多い。 また、交通状況指標の絶対値を表すグローバル性と相対値を表す局所性を同時に考慮していない。 本稿では,トラヒックデータの時間パターンに加えて,トラヒックネットワークのグローバル性と局所性に注目したニューラルネットワークモデルを提案する。 サイクルベースの拡張可能な変形可能な畳み込みブロックは、各ノードの異なる時間変化傾向を正確に捉えるように設計されている。 ノードとエッジの表現を学習するために2つのグラフ畳み込みネットワーク法を組み合わせることにより,グローバル空間情報とローカル空間情報の両方を抽出できる。 2つの実世界のデータセットにおける実験により、このモデルがトラヒックデータの空間的-時間的相関を検証できることが示され、その性能は比較された最先端の手法よりも優れている。 さらに解析した結果,交通流予測には交通ネットワークの局所性とグローバル性が重要であり,提案したTSSRGCNモデルが時間的交通パターンに適応できることが示唆された。

Traffic flow forecasting is of great significance for improving the efficiency of transportation systems and preventing emergencies. Due to the highly non-linearity and intricate evolutionary patterns of short-term and long-term traffic flow, existing methods often fail to take full advantage of spatial-temporal information, especially the various temporal patterns with different period shifting and the characteristics of road segments. Besides, the globality representing the absolute value of traffic status indicators and the locality representing the relative value have not been considered simultaneously. This paper proposes a neural network model that focuses on the globality and locality of traffic networks as well as the temporal patterns of traffic data. The cycle-based dilated deformable convolution block is designed to capture different time-varying trends on each node accurately. Our model can extract both global and local spatial information since we combine two graph convolutional network methods to learn the representations of nodes and edges. Experiments on two real-world datasets show that the model can scrutinize the spatial-temporal correlation of traffic data, and its performance is better than the compared state-of-the-art methods. Further analysis indicates that the locality and globality of the traffic networks are critical to traffic flow prediction and the proposed TSSRGCN model can adapt to the various temporal traffic patterns.
翻訳日:2021-06-06 14:41:18 公開日:2020-11-30
# ディープラーニングを用いたハイブリッドマルチモーダル融合モデルによる抑うつ状態の推定

Depression Status Estimation by Deep Learning based Hybrid Multi-Modal Fusion Model ( http://arxiv.org/abs/2011.14966v1 )

ライセンス: Link先を確認
Hrithwik Shalu, Harikrishnan P, Hari Sankar CN, Akash Das, Saptarshi Majumder, Arnhav Datar, Subin Mathew MS, Anugyan Das and Juned Kadiwala(参考訳) 軽度のうつ病の予備的検出は、一般的な精神疾患の効果的な治療に大いに役立つ。 適切な意識の欠如と、社会内に存在するスティグマと誤解が混ざり合っているため、精神的な健康状態の推定は本当に難しい課題となっている。 人から人へのキャラクタレベルの特性の変化により、従来のディープラーニング手法は現実の環境では一般化できない。 本研究の目的は、特定のユーザに対して効率的に適応し、現実のシナリオで効果的に実行可能な、人間によるAIワークフローを作ることである。 本稿では,一発学習の本質,古典的教師付き深層学習法,適応のための人間関係インタラクションを組み合わせたハイブリッド深層学習手法を提案する。 最大情報をキャプチャし、効率的な診断ビデオ、音声、テキストモダリティを利用する。 ハイブリッド核融合モデルは,データセット上で96.3%の精度を達成し,複雑な実世界のシナリオにおけるクラス識別におけるロバスト性を証明し,診断中に軽度抑うつを見逃さないことを確認した。 提案手法は、堅牢なテストのためにクラウドベースのスマートフォンアプリケーションにデプロイされる。 ユーザ固有の適応と技術手法の状況から,ユーザフレンドリーな経験を持つ最先端のモデルを提案する。

Preliminary detection of mild depression could immensely help in effective treatment of the common mental health disorder. Due to the lack of proper awareness and the ample mix of stigmas and misconceptions present within the society, mental health status estimation has become a truly difficult task. Due to the immense variations in character level traits from person to person, traditional deep learning methods fail to generalize in a real world setting. In our study we aim to create a human allied AI workflow which could efficiently adapt to specific users and effectively perform in real world scenarios. We propose a Hybrid deep learning approach that combines the essence of one shot learning, classical supervised deep learning methods and human allied interactions for adaptation. In order to capture maximum information and make efficient diagnosis video, audio, and text modalities are utilized. Our Hybrid Fusion model achieved a high accuracy of 96.3% on the Dataset; and attained an AUC of 0.9682 which proves its robustness in discriminating classes in complex real-world scenarios making sure that no cases of mild depression are missed during diagnosis. The proposed method is deployed in a cloud-based smartphone application for robust testing. With user-specific adaptations and state of the art methodologies, we present a state-of-the-art model with user friendly experience.
翻訳日:2021-06-06 14:40:41 公開日:2020-11-30
# 誰が形に戻る準備ができていますか。

Who is more ready to get back in shape? ( http://arxiv.org/abs/2012.09617v1 )

ライセンス: Link先を確認
Rajius Idzalika(参考訳) この実証的研究は、2013年のカンボジア大洪水の前後でレジリエンス(適応能力)を推定する。 約120万マイクロファイナンス機関(MFI)の顧客データを使用し、教師なし学習手法を実装した。 以上の結果から,mfi顧客の特性や,適応性が向上する個々の選択や状況に基づいて,どの領域がレジリエントであるかをよりよく理解することで,レジリエンスを育む機会が浮き彫りになった。 このアプローチの限界についても論じる。

This empirical study estimates resilience (adaptive capacity) around the periods of the 2013 heavy flood in Cambodia. We use nearly 1.2 million microfinance institution (MFI) customer data and implement the unsupervised learning method. Our results highlight the opportunity to develop resilience by having a better understanding of which areas are likely to be more or less resilient based on the characteristics of the MFI customers, and the individual choices or situations that support stronger adaptiveness. We also discuss the limitation of this approach.
翻訳日:2021-06-06 14:39:25 公開日:2020-11-30
# Mint: MDLに基づく数値パターン集合のマイニング

Mint: MDL-based approach for Mining INTeresting Numerical Pattern Sets ( http://arxiv.org/abs/2011.14843v1 )

ライセンス: Link先を確認
Tatiana Makhalova, Sergei O. Kuznetsov, Amedeo Napoli(参考訳) パターンマイニングはデータマイニング研究、特にバイナリデータセットのマイニングにおいて確立されている。 驚くべきことに、数値パターンマイニングに関する作業は少なく、この研究領域は未調査のままである。 本稿では,数値データセットをマイニングする効率的なMDLアルゴリズムMintを提案する。 MDL原則は、パターンマイニングやサブグループ発見で広く使われている堅牢で信頼性の高いフレームワークである。 Mintでは、有用なパターンを発見し、明確に定義された境界を持つ非冗長な重複パターンのセットを返却し、意味のあるオブジェクトのグループをカバーするためにMDLを再利用します。 MDLに基づく数値パターンマイナのカテゴリでは,Mintのみではない。 論文で示された実験では、MintがSlimとRealKrimpの競合より優れていることを示した。

Pattern mining is well established in data mining research, especially for mining binary datasets. Surprisingly, there is much less work about numerical pattern mining and this research area remains under-explored. In this paper, we propose Mint, an efficient MDL-based algorithm for mining numerical datasets. The MDL principle is a robust and reliable framework widely used in pattern mining, and as well in subgroup discovery. In Mint we reuse MDL for discovering useful patterns and returning a set of non-redundant overlapping patterns with well-defined boundaries and covering meaningful groups of objects. Mint is not alone in the category of numerical pattern miners based on MDL. In the experiments presented in the paper we show that Mint outperforms competitors among which Slim and RealKrimp.
翻訳日:2021-06-06 14:38:53 公開日:2020-11-30
# アクティブ・パーセプションによる注意ベースプランニング

Attention-Based Planning with Active Perception ( http://arxiv.org/abs/2012.00053v1 )

ライセンス: Link先を確認
Haoxiang Ma, Jie Fu(参考訳) 注意制御は、人間が現在のタスクに関連する情報を選択するための重要な認知能力である。 本稿では,注意の計算モデルとマルコフ決定過程における注意に基づく確率計画のアルゴリズムについて述べる。 注意に基づく計画では、ロボットは異なる注意モードに置かれる。 注意モードは、ロボットによって監視される状態変数のサブセットに対応する。 異なる注意モードを切り替えることで、ロボットはタスク関連情報を積極的に認識し、ほぼ最適のタスク性能を達成しつつ、情報取得と処理のコストを削減する。 注意に基づくアクティブな知覚で計画することは、必然的に部分的な観察をもたらすが、部分的に観測可能なMDPの定式化により、計算コストがかかる。 その代わり,提案手法では,ロボットがどの点に注意を払うべきか,どの点に注意を向けるべきかを決定するための階層的計画手法を用いている。 注意維持フェーズの間、ロボットは、現在の注意を引いた最初のmdpの抽象化から計算されたサブポリシーを実行する。 我々は,ロボットが確率的グリッドワールドにおける侵入者の集合を捕獲する作業を行う例を用いる。 実験の結果,提案手法は確率環境における情報・計算効率の最適計画を可能にした。

Attention control is a key cognitive ability for humans to select information relevant to the current task. This paper develops a computational model of attention and an algorithm for attention-based probabilistic planning in Markov decision processes. In attention-based planning, the robot decides to be in different attention modes. An attention mode corresponds to a subset of state variables monitored by the robot. By switching between different attention modes, the robot actively perceives task-relevant information to reduce the cost of information acquisition and processing, while achieving near-optimal task performance. Though planning with attention-based active perception inevitably introduces partial observations, a partially observable MDP formulation makes the problem computational expensive to solve. Instead, our proposed method employs a hierarchical planning framework in which the robot determines what to pay attention to and for how long the attention should be sustained before shifting to other information sources. During the attention sustaining phase, the robot carries out a sub-policy, computed from an abstraction of the original MDP given the current attention. We use an example where a robot is tasked to capture a set of intruders in a stochastic gridworld. The experimental results show that the proposed method enables information- and computation-efficient optimal planning in stochastic environments.
翻訳日:2021-06-06 14:38:41 公開日:2020-11-30
# 継続的対人統合: 婚姻コミュニティにおけるAIを中心に

Continuous Subject-in-the-Loop Integration: Centering AI on Marginalized Communities ( http://arxiv.org/abs/2012.01128v1 )

ライセンス: Link先を確認
Francois Roewer-Despres, Janelle Berscheid(参考訳) ユートピアの約束が破壊的な平等化要因であるにもかかわらず、AIは、中立を意識したほとんどのツールと同様に、既存の社会構造を単に強化する傾向にある。 この傾向に対処するため、急進的なAIは、限界化に集中するよう求めている。 我々は、重要なインフラのギャップが急進的AIの普及を妨げていると論じ、これらのインフラのギャップを識別し、新しいインフラの提案が効果的に辺境化音声の中心となるかどうかを評価するための指針原則を提案する。

Despite its utopian promises as a disruptive equalizer, AI - like most tools deployed under the guise of neutrality - has tended to simply reinforce existing social structures. To counter this trend, radical AI calls for centering on the marginalized. We argue that gaps in key infrastructure are preventing the widespread adoption of radical AI, and propose a guiding principle for both identifying these infrastructure gaps and evaluating whether proposals for new infrastructure effectively center marginalized voices.
翻訳日:2021-06-06 14:38:23 公開日:2020-11-30
# unigram shallow fusionによるrnnトランスデューサ用レアワードの精度向上

Improving accuracy of rare words for RNN-Transducer through unigram shallow fusion ( http://arxiv.org/abs/2012.00133v1 )

ライセンス: Link先を確認
Vijay Ravi, Yile Gu, Ankur Gandhe, Ariya Rastrow, Linda Liu, Denis Filimonov, Scott Novotney, Ivan Bulyko(参考訳) recurrent neural network transducer (rnn-t) など、エンドツーエンドの自動音声認識 (asr) システムが普及しているが、稀な単語が課題となっている。 本稿では,rnn-tのレアワードを改善するために,unigram shallow fusion (usf) と呼ばれる単純かつ効果的な手法を提案する。 USFでは、ユニグラム数に基づいてRNN-T訓練データから稀な単語を抽出し、復号時に単語が遭遇した場合に一定の報酬を適用する。 本手法は,一般テストセットの劣化を伴わずに,レアワードのパフォーマンスを3.7%向上できることを示すとともに,usfによる改善は,追加言語モデルに基づくリコーリングに付加されることを示した。 その結果,USFは従来のハイブリッドシステムでは動作しないことがわかった。 最後に、サブワードベースのRNN-Tで復号する際に使用するビタビ探索による単語の確率推定における誤りを修正することでUSFが機能する理由について述べる。

End-to-end automatic speech recognition (ASR) systems, such as recurrent neural network transducer (RNN-T), have become popular, but rare word remains a challenge. In this paper, we propose a simple, yet effective method called unigram shallow fusion (USF) to improve rare words for RNN-T. In USF, we extract rare words from RNN-T training data based on unigram count, and apply a fixed reward when the word is encountered during decoding. We show that this simple method can improve performance on rare words by 3.7% WER relative without degradation on general test set, and the improvement from USF is additive to any additional language model based rescoring. Then, we show that the same USF does not work on conventional hybrid system. Finally, we reason that USF works by fixing errors in probability estimates of words due to Viterbi search used during decoding with subword-based RNN-T.
翻訳日:2021-06-06 14:38:12 公開日:2020-11-30
# 画像復調のための適応雑音模倣

Adaptive noise imitation for image denoising ( http://arxiv.org/abs/2011.14512v1 )

ライセンス: Link先を確認
Huangxing Lin, Yihong Zhuang, Yue Huang, Xinghao Ding, Yizhou Yu, Xiaoqing Liu and John Paisley(参考訳) 既存の denoising アルゴリズムの有効性は、通常、正確な事前定義されたノイズ統計や、その実用性を制限する大量のペアデータに依存する。 本研究は,ノイズ統計とペアデータの利用が不可能である,より一般的なケースにおける雑音除去に焦点をあてる。 雑音化cnnが監視を必要とすることを考慮し、自然雑音画像からノイズデータを合成する新しい \textbf{adaptive noise imitation (adani") アルゴリズムを開発した。 現実的なノイズを生成するため、ノイズ発生装置はノイズ発生のガイドとなる雑音/クリーン画像を入力として利用する。 ノイズの種類、レベル、勾配に明示的な制約を課すことで、アダニの出力ノイズは画像の本来の背景をきれいに保ちながら、ガイドノイズと類似する。 ADANIから出力されるノイズデータとそれに対応する基盤構造とを結合し、デノイングCNNを完全教師付きで訓練する。 実験の結果,adaniが生成するノイズデータは実データと視覚的および統計的に類似しており,外部対データで訓練された他のネットワークと競合することがわかった。

The effectiveness of existing denoising algorithms typically relies on accurate pre-defined noise statistics or plenty of paired data, which limits their practicality. In this work, we focus on denoising in the more common case where noise statistics and paired data are unavailable. Considering that denoising CNNs require supervision, we develop a new \textbf{adaptive noise imitation (ADANI)} algorithm that can synthesize noisy data from naturally noisy images. To produce realistic noise, a noise generator takes unpaired noisy/clean images as input, where the noisy image is a guide for noise generation. By imposing explicit constraints on the type, level and gradient of noise, the output noise of ADANI will be similar to the guided noise, while keeping the original clean background of the image. Coupling the noisy data output from ADANI with the corresponding ground-truth, a denoising CNN is then trained in a fully-supervised manner. Experiments show that the noisy data produced by ADANI are visually and statistically similar to real ones so that the denoising CNN in our method is competitive to other networks trained with external paired data.
翻訳日:2021-06-06 14:37:56 公開日:2020-11-30
# 仮想対応を用いた登録作業のためのエンドツーエンド3Dポイントクラウド学習

End-to-End 3D Point Cloud Learning for Registration Task Using Virtual Correspondences ( http://arxiv.org/abs/2011.14579v1 )

ライセンス: Link先を確認
Zhijian~Qiao, Zhe~Liu, Chuanzhe~Suo, Huanshu~Wei, Zhuowen~Shen, Hesheng~Wang(参考訳) 3dポイントクラウドの登録は、部分対応を持つ2つのポイントクラウド間の厳密な変換を見つけるのが困難であるため、依然として非常に難しいトピックであり、初期推定情報がないことがさらに困難である。 本稿では,ポイントクラウド登録問題を解決するために,エンドツーエンドのディープラーニングに基づくアプローチを提案する。 まず,改良したldp-netを用いて特徴抽出を行い,グラフネットワークに集約する。 次に、セルフアテンション機構を利用してポイントクラウドの構造情報を強化し、2つの入力ポイントクラウド間の対応情報を強化するクロスアテンション機構を設計する。 そこで,ソフトポインタ法により仮想対応点を生成することができ,最終的にSVD法を実装して点雲登録問題を解くことができる。 ModelNet40データセットの比較結果は、提案手法がポイントクラウド登録タスクの最先端に到達し、KITTIデータセットにおける実験的再試行が実際のアプリケーションにおける提案手法の有効性を検証した。

3D Point cloud registration is still a very challenging topic due to the difficulty in finding the rigid transformation between two point clouds with partial correspondences, and it's even harder in the absence of any initial estimation information. In this paper, we present an end-to-end deep-learning based approach to resolve the point cloud registration problem. Firstly, the revised LPD-Net is introduced to extract features and aggregate them with the graph network. Secondly, the self-attention mechanism is utilized to enhance the structure information in the point cloud and the cross-attention mechanism is designed to enhance the corresponding information between the two input point clouds. Based on which, the virtual corresponding points can be generated by a soft pointer based method, and finally, the point cloud registration problem can be solved by implementing the SVD method. Comparison results in ModelNet40 dataset validate that the proposed approach reaches the state-of-the-art in point cloud registration tasks and experiment resutls in KITTI dataset validate the effectiveness of the proposed approach in real applications.
翻訳日:2021-06-06 14:37:37 公開日:2020-11-30
# 魚眼カメラのゼロショットキャリブレーション

Zero-Shot Calibration of Fisheye Cameras ( http://arxiv.org/abs/2011.14607v1 )

ライセンス: Link先を確認
Jae-Yeong Lee(参考訳) 本稿では,キャリブレーション画像のないカメラパラメータを推定するゼロショットカメラキャリブレーション手法を提案する。 カメラのキャリブレーションには少なくとも1つ以上のパターン画像が必要であるのは常識である。 しかし,提案手法ではカメラの水平および垂直視野情報からカメラパラメータを画像取得せずに推定する。 提案手法は画像歪みが大きい広角カメラや魚眼カメラに特に有用である。 画像歪みは、画像センサの平方ピクセルの仮定に基づいて、魚眼レンズの設計と推定方法によってモデル化される。 提案手法の校正精度は8種類の商用カメラで定性的・定量的に評価し,従来の校正法と比較した。 実験の結果,ゼロショット法の校正精度は従来の全校正結果に匹敵することがわかった。 この方法は、個々のキャリブレーションが困難または実用的でない実アプリケーションや、キャリブレーション精度が重要でないほとんどのフィールドアプリケーションにおいて、実用的な代替手段として利用することができる。 さらに,既存のキャリブレーション手法を適切に初期化するためにカメラパラメータを推定することで,より安定に収束し,局所最小化を回避することができる。

In this paper, we present a novel zero-shot camera calibration method that estimates camera parameters with no calibration image. It is common sense that we need at least one or more pattern images for camera calibration. However, the proposed method estimates camera parameters from the horizontal and vertical field of view information of the camera without any image acquisition. The proposed method is particularly useful for wide-angle or fisheye cameras that have large image distortion. Image distortion is modeled in the way fisheye lenses are designed and estimated based on the square pixel assumption of the image sensors. The calibration accuracy of the proposed method is evaluated on eight different commercial cameras qualitatively and quantitatively, and compared with conventional calibration methods. The experimental results show that the calibration accuracy of the zero-shot method is comparable to conventional full calibration results. The method can be used as a practical alternative in real applications where individual calibration is difficult or impractical, and in most field applications where calibration accuracy is less critical. Moreover, the estimated camera parameters by the method can also be used to provide proper initialization of any existing calibration methods, making them to converge more stably and avoid local minima.
翻訳日:2021-06-06 14:37:20 公開日:2020-11-30
# SIR:複数の異なるレンズから同じシーンを見ることができる自己監督型画像整形

SIR: Self-supervised Image Rectification via Seeing the Same Scene from Multiple Different Lenses ( http://arxiv.org/abs/2011.14611v1 )

ライセンス: Link先を確認
Jinlong Fan and Jing Zhang and Dacheng Tao(参考訳) ディープラーニングは、大規模な合成データセットに基づいた教師付きトレーニングを通じて、ディープニューラルネットワークの表現能力を活用することで、画像修正におけるそのパワーを実証した。 しかし、このモデルは合成画像に過度に適合し、特定の歪みモデルの普遍性や歪みと整流過程を明示的にモデル化していないため、実世界の魚眼画像ではうまく一般化できない。 本稿では,同一場面の異なるレンズからの歪み画像の補正結果が同一であるべきという重要な知見に基づいて,新しい自己教師あり画像整流法を提案する。 具体的には、共有エンコーダと複数の予測ヘッドを併用した新しいネットワークアーキテクチャを考案し、それぞれが特定の歪みモデルの歪みパラメータを予測する。 さらに,変形パラメータから修正画像と再歪画像を生成するために微分可能なワーピングモジュールを利用し,トレーニング中にモデル内およびモデル間一貫性を活用し,接地歪パラメータや正規画像を必要としない自己教師あり学習方式を実現する。 人工データセットと実世界の魚眼画像を用いた実験により,本手法は教師ありベースライン法や代表的な最先端法と同等,あるいはさらに優れた性能が得られることを示した。 自己教師付き学習は、自己整合性を維持しながら歪みモデルの普遍性を向上する。

Deep learning has demonstrated its power in image rectification by leveraging the representation capacity of deep neural networks via supervised training based on a large-scale synthetic dataset. However, the model may overfit the synthetic images and generalize not well on real-world fisheye images due to the limited universality of a specific distortion model and the lack of explicitly modeling the distortion and rectification process. In this paper, we propose a novel self-supervised image rectification (SIR) method based on an important insight that the rectified results of distorted images of the same scene from different lens should be the same. Specifically, we devise a new network architecture with a shared encoder and several prediction heads, each of which predicts the distortion parameter of a specific distortion model. We further leverage a differentiable warping module to generate the rectified images and re-distorted images from the distortion parameters and exploit the intra- and inter-model consistency between them during training, thereby leading to a self-supervised learning scheme without the need for ground-truth distortion parameters or normal images. Experiments on synthetic dataset and real-world fisheye images demonstrate that our method achieves comparable or even better performance than the supervised baseline method and representative state-of-the-art methods. Self-supervised learning also improves the universality of distortion models while keeping their self-consistency.
翻訳日:2021-06-06 14:37:01 公開日:2020-11-30
# 次はどこを探検しますか。 ExHistCNNによる3次元自律探査

Where to Explore Next? ExHistCNN for History-aware Autonomous 3D Exploration ( http://arxiv.org/abs/2011.14669v1 )

ライセンス: Link先を確認
Yiming Wang and Alessio Del Bue(参考訳) 本研究では,奥行きカメラを用いた未知の室内環境の自律的3次元探索の問題に対処する。 我々はこの問題を,未知領域のカバレッジを最大化するnext best view (nbv) の推定として位置づけた。 我々は,NBV推定を分類問題として再定式化し,現在の3次元観察(深度フレーム)と現在進行中の再建の歴史の両方をエンコードする新しい学習基準を提案する。 この研究の主な貢献の1つは、現在の深度観測と効率的に結合した補助ユーティリティマップとして、3次元再構築履歴の新しい表現を導入することである。 両情報を用いて、我々は、深度センサが最も探索されていない領域を見つける方向のセットとしてNBVを推定する、ExHistCNNという軽量CNNを訓練する。 提案するExHistCNNは,3次元環境の完全知識を用いて,オラクルの探索性能にアプローチ可能であることを示す。

In this work we address the problem of autonomous 3D exploration of an unknown indoor environment using a depth camera. We cast the problem as the estimation of the Next Best View (NBV) that maximises the coverage of the unknown area. We do this by re-formulating NBV estimation as a classification problem and we propose a novel learning-based metric that encodes both, the current 3D observation (a depth frame) and the history of the ongoing reconstruction. One of the major contributions of this work is about introducing a new representation for the 3D reconstruction history as an auxiliary utility map which is efficiently coupled with the current depth observation. With both pieces of information, we train a light-weight CNN, named ExHistCNN, that estimates the NBV as a set of directions towards which the depth sensor finds most unexplored areas. We perform extensive evaluation on both synthetic and real room scans demonstrating that the proposed ExHistCNN is able to approach the exploration performance of an oracle using the complete knowledge of the 3D environment.
翻訳日:2021-06-06 14:36:39 公開日:2020-11-30
# パーセプションのバイアスが露呈:最初の印象データセットを再考

Person Perception Biases Exposed: Revisiting the First Impressions Dataset ( http://arxiv.org/abs/2011.14906v1 )

ライセンス: Link先を確認
Julio C. S. Jacques Junior, Agata Lapedriza, Cristina Palmero, Xavier Bar\'o and Sergio Escalera(参考訳) この研究はChaLearn First Impressionsデータベースを再考し、クラウドソーシングによるペアワイズ比較を用いてパーソナリティ知覚に注釈を付けた。 我々は,最初のペアワイズアノテーションを初めて分析し,性別,民族性,年齢,顔の魅力といった知覚的属性に関連する既存の人物知覚バイアスを明らかにする。 認知バイアスが主観的課題のデータラベリングにどのように影響するかを,コンピュータビジョンや機械学習コミュニティからほとんど注目されていない。 さらに,特別な扱いが考慮されない場合,ペアワイズアノテーションを連続値に変換するメカニズムはバイアスを増大させる可能性があることを示した。 本研究は,コンピュータビジョンのコミュニティにおいて,主観的タスクに関する新たなデータセットを作成し,これらのバイアスを無視した実践的応用に利用している。

This work revisits the ChaLearn First Impressions database, annotated for personality perception using pairwise comparisons via crowdsourcing. We analyse for the first time the original pairwise annotations, and reveal existing person perception biases associated to perceived attributes like gender, ethnicity, age and face attractiveness. We show how person perception bias can influence data labelling of a subjective task, which has received little attention from the computer vision and machine learning communities by now. We further show that the mechanism used to convert pairwise annotations to continuous values may magnify the biases if no special treatment is considered. The findings of this study are relevant for the computer vision community that is still creating new datasets on subjective tasks, and using them for practical applications, ignoring these perceptual biases.
翻訳日:2021-06-06 14:35:40 公開日:2020-11-30
# DEF:3次元形状におけるシャープ形状の深部推定

DEF: Deep Estimation of Sharp Geometric Features in 3D Shapes ( http://arxiv.org/abs/2011.15081v1 )

ライセンス: Link先を確認
Albert Matveev, Alexey Artemov, Ruslan Rakhimov, Gleb Bobrovskikh, Daniele Panozzo, Denis Zorin, Evgeny Burnaev(参考訳) シャープな特徴線は、人工物に関する重要な情報を持ち、コンパクトな3d形状表現、高品質の表面再構成を可能にし、メッシュ処理の信号源である。 ノイズやアンダーサンプルデータから高品質な行を抽出することは、従来の手法では難しいが、ディープラーニングによるアルゴリズムは、トレーニングデータからグローバルおよびセマンティック情報を活用して、プロセスを支援することができる。 サンプル3次元形状の鋭い幾何学的特徴を予測するための学習ベースのフレームワークであるDeep Estimators of Features (DEFs)を提案する。 この問題を特徴分類に還元する既存のデータ駆動手法とは違って,局所パッチ上の点検点から最も近い特徴線までの距離を表すスカラー場を回帰することを提案する。 個々のパッチの結果を融合させることで、そのサイズと複雑さのために既存のデータ駆動方式では処理できない大きな3Dモデルを処理できる。 合成および実世界の3次元形状データセット上でのDefの広範囲な実験的評価を行い、競合する手法に対する画像および点ベース推定器の利点と、我々のアプローチの耐雑音性とスケーラビリティの向上を提案する。

Sharp feature lines carry essential information about human-made objects, enabling compact 3D shape representations, high-quality surface reconstruction, and are a signal source for mesh processing. While extracting high-quality lines from noisy and undersampled data is challenging for traditional methods, deep learning-powered algorithms can leverage global and semantic information from the training data to aid in the process. We propose Deep Estimators of Features (DEFs), a learning-based framework for predicting sharp geometric features in sampled 3D shapes. Differently from existing data-driven methods, which reduce this problem to feature classification, we propose to regress a scalar field representing the distance from point samples to the closest feature line on local patches. By fusing the result of individual patches, we can process large 3D models, which are impossible to process for existing data-driven methods due to their size and complexity. Extensive experimental evaluation of DEFs is implemented on synthetic and real-world 3D shape datasets and suggests advantages of our image- and point-based estimators over competitor methods, as well as improved noise robustness and scalability of our approach.
翻訳日:2021-06-06 14:35:27 公開日:2020-11-30
# ディープセグメンテーションCNNのロバスト性を改善するテクスチャバイアス低減

Reducing Textural Bias Improves Robustness of Deep Segmentation CNNs ( http://arxiv.org/abs/2011.15093v1 )

ライセンス: Link先を確認
Seoin Chai, Daniel Rueckert, Ahmed E. Fetit(参考訳) ディープラーニングの進歩にもかかわらず、医療画像設定ではドメインシフトが一般的な問題である。 自然画像の最近の知見は、深層ニューラルネットワークは画像分類タスクを実行する際に、ますます複雑な形状表現を通じて物体を認識する畳み込みニューラルネットワーク(CNN)の共通理解に反する、テクスチャバイアスを示す可能性があることを示唆している。 本研究では,自然画像に関する最近の知見から着想を得て,三次元3次元医療データに適用した場合の深部セグメンテーションモデルのロバスト性と伝達性を実現するために,テクスチャバイアス現象に対処する方法を検討することを目的としている。 これを実現するために、Development Human Connectome Projectから公開されているMRIスキャンを使用して、複雑なセグメンテーションタスクで堅牢なモデルをトレーニングするのに役立つテクスチャノイズをシミュレートする方法を調査する。 本研究は, 学習前に特定の種類のテクスチャフィルタを適用することで, 従来見えなかった雑音によるスキャンのセグメント化能力を高めることができることを示す。

Despite current advances in deep learning, domain shift remains a common problem in medical imaging settings. Recent findings on natural images suggest that deep neural models can show a textural bias when carrying out image classification tasks, which goes against the common understanding of convolutional neural networks (CNNs) recognising objects through increasingly complex representations of shape. This study draws inspiration from recent findings on natural images and aims to investigate ways in which addressing the textural bias phenomenon could be used to bring up the robustness and transferability of deep segmentation models when applied to three-dimensional (3D) medical data. To achieve this, publicly available MRI scans from the Developing Human Connectome Project are used to investigate ways in which simulating textural noise can help train robust models in a complex segmentation task. Our findings illustrate how applying specific types of textural filters prior to training the models can increase their ability to segment scans corrupted by previously unseen noise.
翻訳日:2021-06-06 14:35:08 公開日:2020-11-30
# ユーレリア運動場を用いたアニメーション画像

Animating Pictures with Eulerian Motion Fields ( http://arxiv.org/abs/2011.15128v1 )

ライセンス: Link先を確認
Aleksander Holynski, Brian Curless, Steven M. Seitz, Richard Szeliski(参考訳) 本稿では,静止画をリアルなアニメーションループ映像に変換する完全自動手法を実証する。 流水や発煙などの連続的な流体運動を伴う場面を対象とする。 本手法は,静的ユーレリア運動記述から,このような自然運動を説得的に再現できるという観察に依存している。 与えられた2d位置における粒子の即時運動を定義する1つの時間的に一定な流れ場。 画像から画像への翻訳ネットワークを用いて,オンラインビデオから収集した自然シーンの先行動きをエンコードし,新しい写真では対応する動き場を合成できる。 ピクセルは深い特徴としてエンコードされ、それらの特徴はユーレリア運動によって歪められ、結果として得られた特徴マップは画像としてデコードされる。 連続的かつシームレスにループする映像テクスチャを生成するために,前向きと後向きの両方に特徴を流し,その結果をブレンドする新しいビデオループ技術を提案する。 本研究では,砂浜,滝,河川など多数の例に適用し,本手法の有効性とロバスト性を示す。

In this paper, we demonstrate a fully automatic method for converting a still image into a realistic animated looping video. We target scenes with continuous fluid motion, such as flowing water and billowing smoke. Our method relies on the observation that this type of natural motion can be convincingly reproduced from a static Eulerian motion description, i.e. a single, temporally constant flow field that defines the immediate motion of a particle at a given 2D location. We use an image-to-image translation network to encode motion priors of natural scenes collected from online videos, so that for a new photo, we can synthesize a corresponding motion field. The image is then animated using the generated motion through a deep warping technique: pixels are encoded as deep features, those features are warped via Eulerian motion, and the resulting warped feature maps are decoded as images. In order to produce continuous, seamlessly looping video textures, we propose a novel video looping technique that flows features both forward and backward in time and then blends the results. We demonstrate the effectiveness and robustness of our method by applying it to a large collection of examples including beaches, waterfalls, and flowing rivers.
翻訳日:2021-06-06 14:34:49 公開日:2020-11-30
# 幾何学的制約によらず--Articulated Object Pose Estimationのためのモデルフリー手法

Nothing But Geometric Constraints: A Model-Free Method for Articulated Object Pose Estimation ( http://arxiv.org/abs/2012.00088v1 )

ライセンス: Link先を確認
Qihao Liu, Weichao Qiu, Weiyao Wang, Gregory D. Hager, Alan L. Yuille(参考訳) そこで本研究では,ロボットアームの関節構成を,モデルに事前知識を持たずにRGBまたはRGB-D画像のシーケンスから推定し,カテゴリー非依存のオブジェクトポーズ推定のタスクに適応させる,教師なし視覚ベースシステムを提案する。 古典幾何学的定式化と深層学習を組み合わせることで,エピポーラ制約をマルチリジッド体系に拡張して解く。 ビデオシーケンスが与えられると、光学フローはピクセル単位で密度の高い対応を得ると推定される。 その後、6dポーズは修正pnpアルゴリズムによって計算される。 重要なアイデアは、幾何学的制約と複数のフレーム間の制約を活用することである。 さらに,視覚に基づくロボット制御とロボットビジョンの研究のために,様々な種類のロボットと多関節関節オブジェクトを用いた合成データセットを構築した。 本手法は,3つのベンチマークデータセットで有効であることを実証し,ロボットアームと関節物体の関節角度推定において,最先端の教師あり手法よりも精度が高いことを示す。

We propose an unsupervised vision-based system to estimate the joint configurations of the robot arm from a sequence of RGB or RGB-D images without knowing the model a priori, and then adapt it to the task of category-independent articulated object pose estimation. We combine a classical geometric formulation with deep learning and extend the use of epipolar constraint to multi-rigid-body systems to solve this task. Given a video sequence, the optical flow is estimated to get the pixel-wise dense correspondences. After that, the 6D pose is computed by a modified PnP algorithm. The key idea is to leverage the geometric constraints and the constraint between multiple frames. Furthermore, we build a synthetic dataset with different kinds of robots and multi-joint articulated objects for the research of vision-based robot control and robotic vision. We demonstrate the effectiveness of our method on three benchmark datasets and show that our method achieves higher accuracy than the state-of-the-art supervised methods in estimating joint angles of robot arms and articulated objects.
翻訳日:2021-06-06 14:34:31 公開日:2020-11-30
# ニューラルシミュレーションに基づく推論による星の流れによる温かいダークマターの拘束に向けて

Towards constraining warm dark matter with stellar streams through neural simulation-based inference ( http://arxiv.org/abs/2011.14923v1 )

ライセンス: Link先を確認
Joeri Hermans, Nilanjan Banik, Christoph Weniger, Gianfranco Bertone, Gilles Louppe(参考訳) 恒星の流れの密度における観測された摂動の統計的解析は、原理的には暗黒物質サブハローの質量関数に厳密な反則を設定でき、これは暗黒物質粒子の質量を制限するために用いられる。 しかし、ストリームとサブハロインパラメータに対する恒星密度の確率は、シミュレーションモデルによって暗黙的に定義される全ての可能な前進実現の積分にかかっている難解な逆問題を解くことを伴う。 半減期を推定するために、以前の分析は、ドメイン駆動だが手作りの要約統計と共に、近似ベイズ計算(ABC)に依存していた。 本稿では,データとシミュレータパラメータのマッピングを自動的に学習し,潜在的に不十分な要約統計を手作りする必要性を解消する,amortized approximation likelihood ratios(aalr)に基づく確率自由ベイズ推定パイプラインを提案する。 本手法は,暗黒物質サブハローによってのみ星の流れが乱れ,バリュニックなサブストラクチャーを無視する簡易な場合に適用し,新しい手法の有効性と学習した推定器の統計的品質を示すいくつかの診断法について述べる。

A statistical analysis of the observed perturbations in the density of stellar streams can in principle set stringent contraints on the mass function of dark matter subhaloes, which in turn can be used to constrain the mass of the dark matter particle. However, the likelihood of a stellar density with respect to the stream and subhaloes parameters involves solving an intractable inverse problem which rests on the integration of all possible forward realisations implicitly defined by the simulation model. In order to infer the subhalo abundance, previous analyses have relied on Approximate Bayesian Computation (ABC) together with domain-motivated but handcrafted summary statistics. Here, we introduce a likelihood-free Bayesian inference pipeline based on Amortised Approximate Likelihood Ratios (AALR), which automatically learns a mapping between the data and the simulator parameters and obviates the need to handcraft a possibly insufficient summary statistic. We apply the method to the simplified case where stellar streams are only perturbed by dark matter subhaloes, thus neglecting baryonic substructures, and describe several diagnostics that demonstrate the effectiveness of the new method and the statistical quality of the learned estimator.
翻訳日:2021-06-06 14:34:12 公開日:2020-11-30
# テンソルネットワークと変分量子回路に基づくハイブリッド量子古典分類器

Hybrid quantum-classical classifier based on tensor network and variational quantum circuit ( http://arxiv.org/abs/2011.14651v1 )

ライセンス: Link先を確認
Samuel Yen-Chi Chen, Chih-Min Huang, Chia-Wei Hsing and Ying-Jer Kao(参考訳) ノイズの多い中間スケール量子(NISQ)デバイス上で量子機械学習(QML)を実行するための重要なステップは、符号化に先立って入力データの次元削減である。 従来の原理コンポーネント分析(pca)とニューラルネットワークは、このタスクを実行するために使われてきたが、古典層と量子層は通常、別々に訓練される。 したがって、2つの主要なコンポーネントのより良い統合を可能にするフレームワークは非常に望ましい。 本稿では,量子インスパイアされたテンソルネットワーク (tn) と変分量子回路 (vqc) を組み合わせて教師あり学習タスクを行うハイブリッドモデルを提案する。 低結合次元の行列積状態に基づくTNは、MNISTデータセットのバイナリ分類において、VQCの入力のためのデータを圧縮する特徴抽出器としてPCAよりも優れていることを示す。 アーキテクチャは非常に適応性が高く、利用可能な時に余分な量子リソースを組み込むことができる。

One key step in performing quantum machine learning (QML) on noisy intermediate-scale quantum (NISQ) devices is the dimension reduction of the input data prior to their encoding. Traditional principle component analysis (PCA) and neural networks have been used to perform this task; however, the classical and quantum layers are usually trained separately. A framework that allows for a better integration of the two key components is thus highly desirable. Here we introduce a hybrid model combining the quantum-inspired tensor networks (TN) and the variational quantum circuits (VQC) to perform supervised learning tasks, which allows for an end-to-end training. We show that a matrix product state based TN with low bond dimensions performs better than PCA as a feature extractor to compress data for the input of VQCs in the binary classification of MNIST dataset. The architecture is highly adaptable and can easily incorporate extra quantum resource when available.
翻訳日:2021-06-06 14:33:50 公開日:2020-11-30
# 深部ニューラルネットワークを用いたSwarmデータからの電子散乱断面積の抽出

Extracting Electron Scattering Cross Sections from Swarm Data using Deep Neural Networks ( http://arxiv.org/abs/2011.14711v1 )

ライセンス: Link先を確認
Vishrut Jetly and Bhaskar Chaudhury(参考訳) 電子-中性散乱断面積は、今日の多くの技術応用に使用される低温プラズマのシミュレーションにおける基本的な量である。 これらの顕微鏡断面から、いくつかのマクロスケールの量("swarm"パラメータと呼ばれる)を計算することができる。 しかし, 断面積の測定や理論計算は困難である。 1960年代以降、研究者はSwarmデータから断面を求める逆Swarm問題の解決を試みたが、解は必ずしもユニークではない。 この問題に対処するために,LXCatのウェブサイトで利用可能な異なる気体に対する弾性運動量移動,イオン化,励起断面積の決定を用いてトレーニングした深層学習モデルと,弱イオン化ガス中の電子に対するボルツマン方程式の数値解に対するBOLSIG+ソルバを用いて計算した対応するスワムパラメータについて検討した。 本研究では,人工知能ニューラルネットワーク(ANN),畳み込みニューラルネットワーク(CNN),密結合畳み込みニューラルネットワーク(DenseNet)を実装した。 我々の知る限り、逆群問題に対するcnnとdungnetの使用についての研究は行われていない。 我々は,これら全ての訓練済みのガス種に対する予測の有効性を検証し,swarmデータから長期的および短期的特徴を効果的に抽出し,annと比較して断面積を有意に高い精度で予測する。 さらに,モンテカルロ・ドロップアウトをベイズ近似として適用し,断面の確率分布を推定し,この逆問題のすべての可能性解を求める。

Electron-neutral scattering cross sections are fundamental quantities in simulations of low temperature plasmas used for many technological applications today. From these microscopic cross sections, several macro-scale quantities (called "swarm" parameters) can be calculated. However, measurements as well as theoretical calculations of cross sections are challenging. Since the 1960s researchers have attempted to solve the inverse swarm problem of obtaining cross sections from swarm data; but the solutions are not necessarily unique. To address this issues, we examine the use of deep learning models which are trained using the previous determinations of elastic momentum transfer, ionization and excitation cross sections for different gases available on the LXCat website and their corresponding swarm parameters calculated using the BOLSIG+ solver for the numerical solution of the Boltzmann equation for electrons in weakly ionized gases. We implement artificial neural network (ANN), convolutional neural network (CNN) and densely connected convolutional network (DenseNet) for this investigation. To the best of our knowledge, there is no study exploring the use of CNN and DenseNet for the inverse swarm problem. We test the validity of predictions by all these trained networks for a broad range of gas species and we deduce that DenseNet effectively extracts both long and short term features from the swarm data and hence, it predicts cross sections with significantly higher accuracy compared to ANN. Further, we apply Monte Carlo dropout as Bayesian approximation to estimate the probability distribution of the cross sections to determine all plausible solutions of this inverse problem.
翻訳日:2021-06-06 14:33:34 公開日:2020-11-30
# 不均質グラフ埋め込みに関する調査研究:方法、技術、応用および情報源

A Survey on Heterogeneous Graph Embedding: Methods, Techniques, Applications and Sources ( http://arxiv.org/abs/2011.14867v1 )

ライセンス: Link先を確認
Xiao Wang and Deyu Bo and Chuan Shi and Shaohua Fan and Yanfang Ye and Philip S. Yu(参考訳) ヘテロジニアス・インフォメーション・ネットワークとしても知られるヘテロジニアス・グラフ(HG)は、現実のシナリオにおいてユビキタスなものとなっているため、下流タスク(ノード/グラフ分類、ノードクラスタリング、リンク予測など)のヘテロジニアス構造とセマンティクスを保ちながら、低次元空間での表現を学習することを目的としたHG埋め込みが近年注目されている。 本稿では,近年のHG埋込工法および技術開発に関する総合的なレビューを行う。 まず,HGの基本的な概念を紹介し,同種グラフ表現学習と比較してHGの組込みの不均一性に起因する固有の課題について考察し,HGの不均一性に起因する課題に対処するために,学習プロセスで使用する情報に基づいて,最先端HG組込み手法を体系的に調査・分類する。 特に, 各代表HG埋込方式について, より詳細な紹介を行い, その長所と短所を更に分析するとともに, 実環境における各種HG埋込方式の転換性と適用性についても検討した。 さらに,HG埋め込み技術の成功を実証した,より広範な影響で現実のアプリケーション問題を解決するシステムについても紹介する。 この領域における今後の研究と応用を促進するため、オープンソースコード、既存のグラフ学習プラットフォーム、ベンチマークデータセットもまとめます。 最後に,本分野におけるhg埋め込みの課題と課題について検討し,今後の研究方向性について予測する。

Heterogeneous graphs (HGs) also known as heterogeneous information networks have become ubiquitous in real-world scenarios; therefore, HG embedding, which aims to learn representations in a lower-dimension space while preserving the heterogeneous structures and semantics for downstream tasks (e.g., node/graph classification, node clustering, link prediction), has drawn considerable attentions in recent years. In this survey, we perform a comprehensive review of the recent development on HG embedding methods and techniques. We first introduce the basic concepts of HG and discuss the unique challenges brought by the heterogeneity for HG embedding in comparison with homogeneous graph representation learning; and then we systemically survey and categorize the state-of-the-art HG embedding methods based on the information they used in the learning process to address the challenges posed by the HG heterogeneity. In particular, for each representative HG embedding method, we provide detailed introduction and further analyze its pros and cons; meanwhile, we also explore the transformativeness and applicability of different types of HG embedding methods in the real-world industrial environments for the first time. In addition, we further present several widely deployed systems that have demonstrated the success of HG embedding techniques in resolving real-world application problems with broader impacts. To facilitate future research and applications in this area, we also summarize the open-source code, existing graph learning platforms and benchmark datasets. Finally, we explore the additional issues and challenges of HG embedding and forecast the future research directions in this field.
翻訳日:2021-06-06 14:33:08 公開日:2020-11-30
# 大規模会議における資格審査員の少人数対応のための初学者実験

A Novice-Reviewer Experiment to Address Scarcity of Qualified Reviewers in Large Conferences ( http://arxiv.org/abs/2011.15050v1 )

ライセンス: Link先を確認
Ivan Stelmakh, Nihar B. Shah, Aarti Singh, and Hal Daum\'e III(参考訳) 会議のピアレビューは、重要度が過大評価されない人間の計算プロセスを構成する。それは、受理のための最高の提出を識別するだけでなく、究極的には、いくつかのアイデアを奨励し、他を抑えることによって、研究領域の将来に影響を及ぼす。 主要なaiカンファレンスの応募数の増加は、ずっと遅いペースで成長している資格審査者のプールへの負担を増加させることで、レビュープロセスの持続可能性に異議を唱えている。 本研究では,大規模会議における資格審査者の不足に着目し,レビュアー採用の課題について考察する。 具体的には、(i)主要な会議でカバーされない人々からレビュワーを募集し、(ii)レビュアーパイプラインを通じてレビュアーを導く手順をデザインする。 大規模でトップクラスの機械学習カンファレンスであるICML 2020と合わせて、私たちの手順を通じて少数のレビュアーを募集し、ICMLレビュアーの一般人口とパフォーマンスを比較します。 本実験により,採用・指導機構を組み合わせることで,レビュアプールの原則的強化が可能となり,プログラム委員会(Meta-reviewers)の上級メンバが評価する従来のレビュープールと比較して,優れた品質のレビューが可能になることが明らかになった。

Conference peer review constitutes a human-computation process whose importance cannot be overstated: not only it identifies the best submissions for acceptance, but, ultimately, it impacts the future of the whole research area by promoting some ideas and restraining others. A surge in the number of submissions received by leading AI conferences has challenged the sustainability of the review process by increasing the burden on the pool of qualified reviewers which is growing at a much slower rate. In this work, we consider the problem of reviewer recruiting with a focus on the scarcity of qualified reviewers in large conferences. Specifically, we design a procedure for (i) recruiting reviewers from the population not typically covered by major conferences and (ii) guiding them through the reviewing pipeline. In conjunction with ICML 2020 -- a large, top-tier machine learning conference -- we recruit a small set of reviewers through our procedure and compare their performance with the general population of ICML reviewers. Our experiment reveals that a combination of the recruiting and guiding mechanisms allows for a principled enhancement of the reviewer pool and results in reviews of superior quality compared to the conventional pool of reviews as evaluated by senior members of the program committee (meta-reviewers).
翻訳日:2021-06-06 14:32:28 公開日:2020-11-30
# カリフォルニアisoエネルギー市場における収束入札戦略の発見・特徴化・分類のためのデータ駆動研究

A Data-Driven Study to Discover, Characterize, and Classify Convergence Bidding Strategies in California ISO Energy Market ( http://arxiv.org/abs/2012.00076v1 )

ライセンス: Link先を確認
Ehsan Samani and Hamed Mohsenian-Rad(参考訳) 近年、コンバージェンス入札は、米国のほとんどの独立系オペレーター(isos)によって、市場効率を高めるための比較的新しい市場メカニズムとして採用されている。 コンバージェンス入札は電力市場の運営の多くの側面に影響を与えており、現在市場参加者が実際にどのようにコンバージェンス入札を戦略的に選択するかを理解するための文献にギャップがある。 そこで,本稿では,カリフォルニア州のisoエネルギー市場における3年間の実世界の市場データについて検討する。 まず、提出されたコンバージェンス入札(CB)に関するデータ駆動概要と、提出したCBの件数、掲載したCBの件数、提出した供給または需要の件数、クリアされたCBの件数、利益または損失の件数に基づいて、各コンバージェンス入札者の業績を分析する。 次に、カリフォルニアのiso市場の全cbsの75%を占める13大市場プレーヤーの入札戦略について調査する。 定量的特徴を識別し,それぞれのコンバージェンス入札戦略を識別する。 この分析により、実際に使用されるCB戦略の3つの異なるクラスが明らかになった。 戦略的入札クラスの違いを特定し,そのメリットとデメリットを比較した。 また、最もアクティブな市場参加者の何人かが、現在文献に存在している戦略的入札方法に合致しない入札戦略をどのように使っているかを説明します。

Convergence bidding has been adopted in recent years by most Independent System Operators (ISOs) in the United States as a relatively new market mechanism to enhance market efficiency. Convergence bidding affects many aspects of the operation of the electricity markets and there is currently a gap in the literature on understanding how the market participants strategically select their convergence bids in practice. To address this open problem, in this paper, we study three years of real-world market data from the California ISO energy market. First, we provide a data-driven overview of all submitted convergence bids (CBs) and analyze the performance of each individual convergence bidder based on the number of their submitted CBs, the number of locations that they placed the CBs, the percentage of submitted supply or demand CBs, the amount of cleared CBs, and their gained profit or loss. Next, we scrutinize the bidding strategies of the 13 largest market players that account for 75\% of all CBs in the California ISO market. We identify quantitative features to characterize and distinguish their different convergence bidding strategies. This analysis results in revealing three different classes of CB strategies that are used in practice. We identify the differences between these strategic bidding classes and compare their advantages and disadvantages. We also explain how some of the most active market participants are using bidding strategies that do not match any of the strategic bidding methods that currently exist in the literature.
翻訳日:2021-06-06 14:32:05 公開日:2020-11-30
# 汎用相互情報(GMI)による長距離医療画像登録 : 完全自動ボリュームアライメントに向けて

Long-range medical image registration through generalized mutual information (GMI): toward a fully automatic volumetric alignment ( http://arxiv.org/abs/2011.15049v1 )

ライセンス: Link先を確認
Vinicius Pavanelli Vianna and Luiz Otavio Murta Jr(参考訳) 画像登録は医療画像処理における重要な操作であり、多くの応用が可能となる。 相互情報(mi)は、医療画像登録によく用いられる堅牢な類似度指標として統合される。 MIは、堅牢な医用画像登録を提供するが、MI局所的な最大トラップのため、必要な画像変換が大きすぎると、通常失敗する。 本稿では,一般パラメトリックMIをアフィン登録コスト関数として提案し,評価する。 分離可能なアフィン変換のための一般化MI (GMI) 関数を評価し, 勾配勾配シミュレーションを用いて最大登録範囲を求めるGMI数学的イメージを網羅的に評価した。 また,ランダム化t1対t2画像の翻訳登録をテストするためにモンテカルロシミュレーションエッセイを用いた。 GMI関数は、アルゴリズムを大域最大に駆動する滑らかな等曲面を持つことを示した。 その結果,局所極大の罠を回避し,登録範囲が著しく延長された。 本研究は, 回転の[-150mm, 150mm], 回転の[-180{\deg}, 180{\deg}], スケールの[0.5,2], 成功率99.99%, 97.58%, 99.99%, 99.99%のスキューの[-1,1]について検討した。 また、1,113件の被験者T1およびT2MRI画像を用いた2000件のランダム化翻訳試験からモンテカルロシミュレーションにおいて99.75%の成功を得た。 高速化された長距離登録におけるGMIの信頼性に関する知見

Image registration is a key operation in medical image processing, allowing a plethora of applications. Mutual information (MI) is consolidated as a robust similarity metric often used for medical image registration. Although MI provides a robust medical image registration, it usually fails when the needed image transform is too big due to MI local maxima traps. In this paper, we propose and evaluate a generalized parametric MI as an affine registration cost function. We assessed the generalized MI (GMI) functions for separable affine transforms and exhaustively evaluated the GMI mathematical image seeking the maximum registration range through a gradient descent simulation. We also employed Monte Carlo simulation essays for testing translation registering of randomized T1 versus T2 images. GMI functions showed to have smooth isosurfaces driving the algorithm to the global maxima. Results show significantly prolonged registration ranges, avoiding the traps of local maxima. We evaluated a range of [-150mm,150mm] for translations, [-180{\deg},180{\deg}] for rotations, [0.5,2] for scales, and [-1,1] for skew with a success rate of 99.99%, 97.58%, 99.99%, and 99.99% respectively for the transforms in the simulated gradient descent. We also obtained 99.75% success in Monte Carlo simulation from 2,000 randomized translations trials with 1,113 subjects T1 and T2 MRI images. The findings point towards the reliability of GMI for long-range registration with enhanced speed performance
翻訳日:2021-06-06 14:31:41 公開日:2020-11-30
# 三次元姿勢情報を含む光偏光パターンの探索

Exploration of Whether Skylight Polarization Patterns Contain Three-dimensional Attitude Information ( http://arxiv.org/abs/2012.09154v1 )

ライセンス: Link先を確認
Huaju Liang, Hongyang Bai and Tong Zhou(参考訳) これまでの研究では,光の偏光パターンを記述するために偏光ナビゲーションに広く用いられているレイリーモデルには,3次元の姿勢情報 [1] は含まれていないことを示した。 しかし,光の偏光パターンが3次元姿勢情報を含むかどうか,さらに検討する必要がある。 そこで本稿では,3つのオイラー角度を推定するソーシャルスパイダー最適化(sso)法を提案し,テンプレートマッチング(tm)に基づく偏光画像間の各画素の差を考慮し,取得した偏光情報を十分に活用する。 さらに,この問題を検討するために,偏光角(aop)と偏光度(dop)情報だけでなく,光強度(li)情報も利用する。 そこで,BerryモデルとHosekモデルを組み合わせて,空におけるAOP,DOP,LI情報を完全に記述し,4つの中立点,地上アルベド,大気の濁度,波長の影響を考察するスカイモデルを構築した。 シミュレーションの結果、SSOアルゴリズムは3次元姿勢を推定でき、確立された空モデルは3次元姿勢情報を含むことが示された。 しかし, 測定ノイズやモデル誤差がある場合, 3次元姿勢推定の精度は著しく低下する。 特に野外実験では3次元姿勢を推定することは極めて困難である。 最後に、結果は詳細に議論される。

Our previous work has demonstrated that Rayleigh model, which is widely used in polarized skylight navigation to describe skylight polarization patterns, does not contain three-dimensional (3D) attitude information [1]. However, it is still necessary to further explore whether the skylight polarization patterns contain 3D attitude information. So, in this paper, a social spider optimization (SSO) method is proposed to estimate three Euler angles, which considers the difference of each pixel among polarization images based on template matching (TM) to make full use of the captured polarization information. In addition, to explore this problem, we not only use angle of polarization (AOP) and degree of polarization (DOP) information, but also the light intensity (LI) information. So, a sky model is established, which combines Berry model and Hosek model to fully describe AOP, DOP, and LI information in the sky, and considers the influence of four neutral points, ground albedo, atmospheric turbidity, and wavelength. The results of simulation show that the SSO algorithm can estimate 3D attitude and the established sky model contains 3D attitude information. However, when there are measurement noise or model error, the accuracy of 3D attitude estimation drops significantly. Especially in field experiment, it is very difficult to estimate 3D attitude. Finally, the results are discussed in detail.
翻訳日:2021-06-06 14:31:11 公開日:2020-11-30
# 動的反復PCAによる誤り変数ARXモデルの同定

Identification of Errors-in-Variables ARX Models Using Modified Dynamic Iterative PCA ( http://arxiv.org/abs/2011.14645v1 )

ライセンス: Link先を確認
Deepak Maurya, Arun K. Tangirala and Shankar Narasimhan(参考訳) 外因性入力(ARX)を持つ自己回帰モデルの同定は、システム同定における古典的な問題である。 本稿では,入力計測にもノイズが伴うような誤り不変(EIV)ARXモデル同定問題について考察する。 最近提案されたDIPCA技術は、EIV識別問題を解くが、白色測定誤差にのみ適用できる。 本稿では,siso(single-input, single-output)システムにおけるeiv-arxモデルとarxモデルに整合した色付きノイズが出力測定値の劣化を識別するために,修正された動的反復主成分分析(dipca)に基づく新しい同定アルゴリズムを提案する。 既存の手法の多くは、入力出力順序、遅延、ノイズ分散などの重要なパラメータを想定している。 この研究の斬新さは、エラーの分散、プロセスの順序、遅延、モデルパラメータを共同で推定することにある。 これらのパラメータを理論的に厳密な方法で得られる中心的アイデアは、推定誤差分散とモデルパラメータを用いて得られる適切な誤差共分散行列を用いて、ラベル付き測定を変換することに基づいている。 提案手法の有効性を示すために, 2つのシステムに関するシミュレーション研究を行った。

Identification of autoregressive models with exogenous input (ARX) is a classical problem in system identification. This article considers the errors-in-variables (EIV) ARX model identification problem, where input measurements are also corrupted with noise. The recently proposed DIPCA technique solves the EIV identification problem but is only applicable to white measurement errors. We propose a novel identification algorithm based on a modified Dynamic Iterative Principal Components Analysis (DIPCA) approach for identifying the EIV-ARX model for single-input, single-output (SISO) systems where the output measurements are corrupted with coloured noise consistent with the ARX model. Most of the existing methods assume important parameters like input-output orders, delay, or noise-variances to be known. This work's novelty lies in the joint estimation of error variances, process order, delay, and model parameters. The central idea used to obtain all these parameters in a theoretically rigorous manner is based on transforming the lagged measurements using the appropriate error covariance matrix, which is obtained using estimated error variances and model parameters. Simulation studies on two systems are presented to demonstrate the efficacy of the proposed algorithm.
翻訳日:2021-06-06 14:30:06 公開日:2020-11-30
# pre and prejudice: the novice reviewers' bias against resubmissions in conference peer review

Prior and Prejudice: The Novice Reviewers' Bias against Resubmissions in Conference Peer Review ( http://arxiv.org/abs/2011.14646v1 )

ライセンス: Link先を確認
Ivan Stelmakh, Nihar B. Shah, Aarti Singh, and Hal Daum\'e III(参考訳) 現代の機械学習とコンピュータサイエンスのカンファレンスは、有能なレビュワーの数がずっと遅いペースで増えているため、ピアレビューの質に挑戦する応募数が急増している。 この傾向を抑え、レビュアーの負担を軽減するために、いくつかの会議が著者に論文の以前の提出履歴を宣言するよう促したり要求したりし始めた。 このようなイニシアティブは、この情報によって引き起こされるレビュアーの勧告の潜在的なバイアスに対する懸念を提起する著者の間では懐疑的になっている。 本研究では,機械学習やコンピュータサイエンスの会議において,レビュアープールの多数を占める初心者レビュアーの集団を対象に,レビュー対象の提出が以前同様の会場で拒否されたという知識から生じるバイアスが,レビュアーが示されるかどうかについて検討する。 私たちは、ピアレビューパイプラインの関連コンポーネントを、133ドルのレビュアー(マスターズ、ジュニア博士課程の学生、そして最近アメリカのトップ大学の卒業生)が19ドルの論文のレビューを書くように、ランダムに制御されたトライアルを設計し、実行します。 この分析により、レビュアーは再提出された紙についての信号を受け取ると、実際に負の偏りを呈し、そのような信号を受け取らないレビュアーよりも10ポイントのイコールアイテム(\Delta = -0.78, \ 95\% \ \text{CI} = [-1.30, -0.24]$)の総合スコアがほぼ1ポイント低い。 特定の基準スコア(オリジナリティ、品質、明快さ、重要性)を見ると、初心者は品質を過小評価する傾向があることが分かる。

Modern machine learning and computer science conferences are experiencing a surge in the number of submissions that challenges the quality of peer review as the number of competent reviewers is growing at a much slower rate. To curb this trend and reduce the burden on reviewers, several conferences have started encouraging or even requiring authors to declare the previous submission history of their papers. Such initiatives have been met with skepticism among authors, who raise the concern about a potential bias in reviewers' recommendations induced by this information. In this work, we investigate whether reviewers exhibit a bias caused by the knowledge that the submission under review was previously rejected at a similar venue, focusing on a population of novice reviewers who constitute a large fraction of the reviewer pool in leading machine learning and computer science conferences. We design and conduct a randomized controlled trial closely replicating the relevant components of the peer-review pipeline with $133$ reviewers (master's, junior PhD students, and recent graduates of top US universities) writing reviews for $19$ papers. The analysis reveals that reviewers indeed become negatively biased when they receive a signal about paper being a resubmission, giving almost 1 point lower overall score on a 10-point Likert item ($\Delta = -0.78, \ 95\% \ \text{CI} = [-1.30, -0.24]$) than reviewers who do not receive such a signal. Looking at specific criteria scores (originality, quality, clarity and significance), we observe that novice reviewers tend to underrate quality the most.
翻訳日:2021-06-06 14:29:46 公開日:2020-11-30
# インクリメンタルな方向補正から学ぶ

Learning from Incremental Directional Corrections ( http://arxiv.org/abs/2011.15014v1 )

ライセンス: Link先を確認
Wanxin Jin, Todd D. Murphey, Shaoshuai Mou(参考訳) 本稿では,ロボットが人間の修正から制御対象関数を段階的に学習できる手法を提案する。 人間の補正は、方向修正と同じくらい単純で、その大きさを示さずに制御の変化の方向を示す補正は、ロボットの動き中にある時点で適用される。 人間の修正は、その大きさに関係なく、暗黙の目的関数と比較してロボットの現在の動きを改善する方向を指していると仮定するのみである。 提案手法は,切削面法に基づく対象関数の推定値を更新するために補正の方向を用いる。 我々は,この漸進的修正と更新のプロセスが学習対象関数の暗黙的関数への収束を保証することを示す理論的結果を確立する。 この方法はシミュレーションと2つの人間ロボットゲームの両方で検証され、人間のプレイヤーが障害物のある環境での動作計画のための2リンクロボットアームと6-DoFクアドロータシステムを教える。

This paper proposes a technique which enables a robot to learn a control objective function incrementally from human user's corrections. The human's corrections can be as simple as directional corrections -- corrections that indicate the direction of a control change without indicating its magnitude -- applied at some time instances during the robot's motion. We only assume that each of the human's corrections, regardless of its magnitude, points in a direction that improves the robot's current motion relative to an implicit objective function. The proposed method uses the direction of a correction to update the estimate of the objective function based on a cutting plane technique. We establish the theoretical results to show that this process of incremental correction and update guarantees convergence of the learned objective function to the implicit one. The method is validated by both simulations and two human-robot games, where human players teach a 2-link robot arm and a 6-DoF quadrotor system for motion planning in environments with obstacles.
翻訳日:2021-06-06 14:28:52 公開日:2020-11-30
# ピアレビュー討論における大規模ランダム化制御試験

A Large Scale Randomized Controlled Trial on Herding in Peer-Review Discussions ( http://arxiv.org/abs/2011.15083v1 )

ライセンス: Link先を確認
Ivan Stelmakh, Charvi Rastogi, Nihar B. Shah, Aarti Singh, and Hal Daum\'e III(参考訳) ピアレビューはアカデミアのバックボーンであり、人間がこのプロセスの基盤となり、論文のレビューと最終的な受け入れ/排除の決定に責任を負う。 人間の意思決定は様々な認知バイアスに影響を受けやすいことが知られているので、ピアレビュープロセスにどのバイアスが存在するかを理解し、これらのバイアスの影響を最小限に抑えるようにパイプラインを設計することが重要である。 本研究は,司会者間の議論のダイナミクスに着目し,そこでの牧草行動の有無を考察する。 そこで本稿では,レビュアーや上級意思決定者が,(レビュアーの場合)論文に関する独立した意見を形成する際に,議論で提示された最初の議論によって不公平に影響されるかを理解することを目的とする。 具体的には、ICML 2020(大規模でトップクラスの機械学習カンファレンス)のレビュープロセスと合わせて、論文の結果に対する議論開始者の意見の条件因果効果をテストすることを目的として、ランダム化された制御されたトライアルを設計、実行しています。

Peer review is the backbone of academia and humans constitute a cornerstone of this process, being responsible for reviewing papers and making the final acceptance/rejection decisions. Given that human decision making is known to be susceptible to various cognitive biases, it is important to understand which (if any) biases are present in the peer-review process and design the pipeline such that the impact of these biases is minimized. In this work, we focus on the dynamics of between-reviewers discussions and investigate the presence of herding behaviour therein. In that, we aim to understand whether reviewers and more senior decision makers get disproportionately influenced by the first argument presented in the discussion when (in case of reviewers) they form an independent opinion about the paper before discussing it with others. Specifically, in conjunction with the review process of ICML 2020 -- a large, top tier machine learning conference -- we design and execute a randomized controlled trial with the goal of testing for the conditional causal effect of the discussion initiator's opinion on the outcome of a paper.
翻訳日:2021-06-06 14:28:35 公開日:2020-11-30