このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210107となっている論文です。

PDF登録状況(公開日: 20210107)

TitleAuthorsAbstract論文公表日・翻訳日
# ランダムユニタリ回路における真の多成分絡み合いの成長

Growth of genuine multipartite entanglement in random unitary circuits ( http://arxiv.org/abs/2003.12546v2 )

ライセンス: Link先を確認
Anindita Bera and Sudipto Singha Roy(参考訳) ランダムユニタリ回路モデルとランダムクリフォード回路を含むランダム量子回路モデルにおける真の多成分絡み合いの成長について検討する。 ランダムなクリフォード回路では、ランダムなユニタリの場合と比較してマルチパーティイトの絡み合いの増大が遅いことが分かる。 しかし、いずれの場合も、マルチパートエンタングルメントの最終飽和値はほぼ同じである。 この挙動は、適度に高い結合次元を持つランダム行列積状態において得られる真の多成分の絡み合いと比較される。 次に、多部交絡の挙動と系の他の大域的性質、例えばヒルベルト空間における多体波動関数の非局在化を関連付ける。 これとともに、弱測定下でランダムユニタリダイナミクスによって得られた高絡み合い量子状態のロバスト性を分析する。

We study the growth of genuine multipartite entanglement in random quantum circuit models, which include random unitary circuit models and the random Clifford circuit. We find that for the random Clifford circuit, the growth of multipartite entanglement remains slower in comparison to the random unitary case. However, the final saturation value of multipartite entanglement is almost the same in both cases. The behavior is then compared to the genuine multipartite entanglement obtained in random matrix product states with a moderately high bond dimension. We then relate the behavior of multipartite entanglement to other global properties of the system, viz. the delocalization of the many-body wavefunctions in Hilbert space. Along with this, we analyze the robustness of such highly entangled quantum states obtained through random unitary dynamics under weak measurements.
翻訳日:2023-05-27 18:24:43 公開日:2021-01-07
# フェルミオンハミルトニアンに対するselect(h)の指数関数的高速実装

Exponentially faster implementations of Select(H) for fermionic Hamiltonians ( http://arxiv.org/abs/2004.04170v3 )

ライセンス: Link先を確認
Kianna Wan(参考訳) 多重制御されたユニタリである$\text{select}(h) \equiv \sum_\ell |\ell\rangle\langle\ell|\otimes h_\ell$ を実装した量子回路を構築するための単純だが一般的な枠組みを示す。 $\text{select}(h)$ はいくつかの量子アルゴリズムの主要なサブルーチンの1つであり、ハミルトニアンシミュレーションの最先端技術を含む。 If each term in the second-quantised Hamiltonian involves at most $k$ spin-orbitals and $k$ is a constant independent of the total number of spin-orbitals $n$ (as is the case for the majority of quantum chemistry and condensed matter models considered in the literature, for which $k$ is typically 2 or 4), our implementation of $\text{Select}(H)$ requires no ancilla qubits and uses $\mathcal{O}(n)$ Clifford+T gates, with the Clifford gates applied in $\mathcal{O}(\log^2 n)$ layers and the $T$ gates in $O(\log n)$ layers. これにより、リニアゲート数を維持し、アシラの数をゼロに抑えつつ、以前の作業よりもクリフォードとT深度を指数関数的に改善する。

We present a simple but general framework for constructing quantum circuits that implement the multiply-controlled unitary $\text{Select}(H) \equiv \sum_\ell |\ell\rangle\langle\ell|\otimes H_\ell$, where $H = \sum_\ell H_\ell$ is the Jordan-Wigner transform of an arbitrary second-quantised fermionic Hamiltonian. $\text{Select}(H)$ is one of the main subroutines of several quantum algorithms, including state-of-the-art techniques for Hamiltonian simulation. If each term in the second-quantised Hamiltonian involves at most $k$ spin-orbitals and $k$ is a constant independent of the total number of spin-orbitals $n$ (as is the case for the majority of quantum chemistry and condensed matter models considered in the literature, for which $k$ is typically 2 or 4), our implementation of $\text{Select}(H)$ requires no ancilla qubits and uses $\mathcal{O}(n)$ Clifford+T gates, with the Clifford gates applied in $\mathcal{O}(\log^2 n)$ layers and the $T$ gates in $O(\log n)$ layers. This achieves an exponential improvement in both Clifford- and T-depth over previous work, while maintaining linear gate count and reducing the number of ancillae to zero.
翻訳日:2023-05-25 11:34:32 公開日:2021-01-07
# 量子チャネル状態マスキング

Quantum Channel State Masking ( http://arxiv.org/abs/2006.05925v4 )

ライセンス: Link先を確認
Uzi Pereg, Christian Deppe, and Holger Boche(参考訳) 量子状態に依存する量子チャネル上の通信は、エンコーダがチャネル側情報(CSI)を有しており、デコーダから量子チャネル状態に関する情報を隠蔽する必要があるときに考慮される。 エンタングルメント支援マスキング等価領域に対して完全なキャラクタリゼーションを定め、補助なしで量子容量-リーカゲ関数に対して正規化公式を与える。 補助のないハダマールチャネルについては、状態に依存しないチャネルの標準的な場合と一致する1文字の内界と外界を導出する。

Communication over a quantum channel that depends on a quantum state is considered when the encoder has channel side information (CSI) and is required to mask information on the quantum channel state from the decoder. A full characterization is established for the entanglement-assisted masking equivocation region, and a regularized formula is given for the quantum capacity-leakage function without assistance. For Hadamard channels without assistance, we derive single-letter inner and outer bounds, which coincide in the standard case of a channel that does not depend on a state.
翻訳日:2023-05-16 02:39:21 公開日:2021-01-07
# シュワルツシルトと崩壊シェル時空における収穫相関

Harvesting correlations in Schwarzschild and collapsing shell spacetimes ( http://arxiv.org/abs/2007.02955v4 )

ライセンス: Link先を確認
Erickson Tjoa and Robert B. Mann(参考訳) 本研究では,無質量スカラー場の真空状態から2つのunruh-dewitt静電検出器による相関を,シュワルツシルトブラックホール(以下,vaidya時空より)を形成する崩壊するヌルシェルからなるvaidya時空における相関関係の抽出について検討し,この結果と,永遠シュワルツシルトブラックホール時空に好まれる3つの空隙(boulware,unruh,hartle-hawking-israel vacua)との比較を行った。 これを実現するために、崩壊する時空とシュワルツシルト時空の (1+1) 次元モデルで利用できる無質量スカラー場に対して、明示的なワイトマン函数を用い、検出器は場の適切な時間微分と結合する。 まず、収穫プロトコルに関して、unruh真空は有限時間相互作用においても地平線近傍のvaidya真空と非常によく一致することが分かる。 第二に、全ての4つの真空は検出器間の相関を生み出すために異なる容量を持ち、地平線付近のウンルー真空と地平線から遠く離れたボールウェア真空の間を補間するvaidya真空である。 第三に、ブラックホールの地平線は単に絡み合いではなく、 \textit{any} の相関を阻害することを示す。 最後に, 収穫プロトコルの効率は検出器の信号伝達能力に強く依存しており, 曲率の存在下では非自明であることを示す。 本研究では,Vaidya真空の漸近解析を行い,地平線と早期・中期限界からのBoulware/Unruh補間と近・遠距離の関係を明らかにする。 すべての計算を行うために,数値輪郭積分の簡単な実装を示す。

We study the harvesting of correlations by two Unruh-DeWitt static detectors from the vacuum state of a massless scalar field in a background Vaidya spacetime consisting of a collapsing null shell that forms a Schwarzschild black hole (hereafter Vaidya spacetime for brevity), and we compare the results with those associated with the three preferred vacua (Boulware, Unruh, Hartle-Hawking-Israel vacua) of the eternal Schwarzschild black hole spacetime. To do this we make use of the explicit Wightman functions for a massless scalar field available in (1+1)-dimensional models of the collapsing spacetime and Schwarzschild spacetimes, and the detectors couple to the proper time derivative of the field. First we find that, with respect to the harvesting protocol, the Unruh vacuum agrees very well with the Vaidya vacuum near the horizon even for finite-time interactions. Second, all four vacua have different capacities for creating correlations between the detectors, with the Vaidya vacuum interpolating between the Unruh vacuum near the horizon and the Boulware vacuum far from the horizon. Third, we show that the black hole horizon inhibits \textit{any} correlations, not just entanglement. Finally, we show that the efficiency of the harvesting protocol depend strongly on the signalling ability of the detectors, which is highly non-trivial in presence of curvature. We provide an asymptotic analysis of the Vaidya vacuum to clarify the relationship between the Boulware/Unruh interpolation and the near/far from horizon and early/late-time limits. We demonstrate a straightforward implementation of numerical contour integration to perform all the calculations.
翻訳日:2023-05-11 04:03:03 公開日:2021-01-07
# ランダムマルチポーラ駆動:スペクトル工学による均一な加熱

Random multipolar driving: tunably slow heating through spectral engineering ( http://arxiv.org/abs/2007.07301v2 )

ライセンス: Link先を確認
Hongzheng Zhao, Florian Mintert, Roderich Moessner and Johannes Knolle(参考訳) 駆動型量子系は静的系に存在しない新しい現象を生じさせるが、駆動誘起加熱はこれらが持続する時間スケールを制限できる。 ランダムシーケンスと$n-$multipolar 相関で駆動される相互作用量子多体系の加熱について,多項式的に抑制された低周波数スペクトルに対応する。 n\geq1$ では、前熱的レジームを見つけ、そのライフタイムは駆動率で代数的に成長し、指数 ${2n+1}$ となる。 フェルミの黄金律に基づく単純な理論はこの行動を説明する。 準周期的なThue-Morse系列は$n\to \infty$制限に対応し、したがって指数関数的に長寿命の前熱状態を示す。 ドライブに周期性がなく、その最終的な熱死にもかかわらず、熱前領域は多彩な非平衡相をホストすることができ、これはランダムな多極離散時間結晶で示される。

Driven quantum systems may realize novel phenomena absent in static systems, but driving-induced heating can limit the time-scale on which these persist. We study heating in interacting quantum many-body systems driven by random sequences with $n-$multipolar correlations, corresponding to a polynomially suppressed low frequency spectrum. For $n\geq1$, we find a prethermal regime, the lifetime of which grows algebraically with the driving rate, with exponent ${2n+1}$. A simple theory based on Fermi's golden rule accounts for this behaviour. The quasiperiodic Thue-Morse sequence corresponds to the $n\to \infty$ limit, and accordingly exhibits an exponentially long-lived prethermal regime. Despite the absence of periodicity in the drive, and in spite of its eventual heat death, the prethermal regime can host versatile non-equilibrium phases, which we illustrate with a random multipolar discrete time crystal.
翻訳日:2023-05-10 01:59:13 公開日:2021-01-07
# 結び目と非エルミートブロックバンド

Knots and Non-Hermitian Bloch Bands ( http://arxiv.org/abs/2007.09311v2 )

ライセンス: Link先を確認
Haiping Hu and Erhai Zhao(参考訳) 結び目は量子物理学においてねじれた歴史を持つ。 これらは原子の失敗モデルとして放棄された。 しばらく後になって、トポロジカル場の量子論において結び目不変量とウィルソンループの間の関係が発見された。 ここで、固有エネルギー弦で結びついた結び目は、分離可能なバンドを持つ一次元非エルミート(nh)ハミルトニアンの完全な位相的分類を与える。 ウィルソンループ固有位相の和としての大域的生物直交ベリー位相 $Q$ である $\mathbb{Z}_2$ knot 不変量は、NHバンドの置換パリティに等しいことが証明されている。 異なる結び目によって特徴づけられる2つの相間の遷移は、例外点を通じて生じ、2つのタイプで現れる。 さらに,任意の所望の結び目に対して対応するタイト結合nhハミルトニアンを構築するアルゴリズムを開発し,量子クエンチによる結び目構造を探索する手法を提案する。 この理論とアルゴリズムは、ホップリンク、トレフォイル結び目、フィギュア8結び目、ホワイトヘッドリンクなどのモデルハミルトンによって実証されている。

Knots have a twisted history in quantum physics. They were abandoned as failed models of atoms. Only much later was the connection between knot invariants and Wilson loops in topological quantum field theory discovered. Here we show that knots tied by the eigenenergy strings provide a complete topological classification of one-dimensional non-Hermitian (NH) Hamiltonians with separable bands. A $\mathbb{Z}_2$ knot invariant, the global biorthogonal Berry phase $Q$ as the sum of the Wilson loop eigenphases, is proved to be equal to the permutation parity of the NH bands. We show the transition between two phases characterized by distinct knots occur through exceptional points and come in two types. We further develop an algorithm to construct the corresponding tight-binding NH Hamiltonian for any desired knot, and propose a scheme to probe the knot structure via quantum quench. The theory and algorithm are demonstrated by model Hamiltonians that feature for example the Hopf link, the trefoil knot, the figure-8 knot and the Whitehead link.
翻訳日:2023-05-09 03:04:48 公開日:2021-01-07
# 量子計算による支配的反応経路

Dominant Reaction Pathways by Quantum Computing ( http://arxiv.org/abs/2007.13788v2 )

ライセンス: Link先を確認
Philipp Hauke and Giovanni Mattiotti and Pietro Faccioli(参考訳) 高次元粗いエネルギー表面における熱活性化遷移を特徴づけることは、古典コンピュータにとって非常に難しい課題である。 ここでは、この問題を解決するために量子アニール法を開発する。 まず、構成空間における最も可能性の高い遷移経路を見つけるタスクを、適切な重み付きグラフ上で定義された最短経路問題に還元する。 次に、この最適化問題を一般化イジングモデルの基底状態の探索にマッピングする。 有限サイズのスケーリング解析は、このタスクが量子アニーリングマシンによって効率的に解くことができることを示唆する。 本手法は,量子ビットの量子化特性を利用して,異なるシステム構成間の遷移を記述する。 格子空間の離散化は含まないため、現実的な全原子モデルに基づく量子コンピューティングの将来の生物物理学的応用への道を開く。

Characterizing thermally activated transitions in high-dimensional rugged energy surfaces is a very challenging task for classical computers. Here, we develop a quantum annealing scheme to solve this problem. First, the task of finding the most probable transition paths in configuration space is reduced to a shortest-path problem defined on a suitable weighted graph. Next, this optimization problem is mapped into finding the ground state of a generalized Ising model. A finite-size scaling analysis suggests this task may be solvable efficiently by a quantum annealing machine. Our approach leverages on the quantized nature of qubits to describe transitions between different system's configurations. Since it does not involve any lattice space discretization, it paves the way towards future biophysical applications of quantum computing based on realistic all-atom models.
翻訳日:2023-05-08 02:28:00 公開日:2021-01-07
# 量子力学における自己整合方程式からの古典力学-拡張バージョン

Classical Dynamics from Self-Consistency Equations in Quantum Mechanics -- Extended Version ( http://arxiv.org/abs/2009.04969v2 )

ライセンス: Link先を確認
J.-B. Bru and W. de Siqueira Pedra(参考訳) この30年間、p. b\'{o}naは、通常の状態のシンプレクティック構造に基づいて、量子力学の非線形一般化を開発し、超微視的量子過程からのマクロ古典力学の出現を研究するのに便利な一般的な設定を提供した。 ここでは、ボナのそれに対する新しい数学的アプローチを提案する。 自己整合の中心的な役割を強調します。 これにより、古典世界と量子世界が自然に絡み合う数学的枠組みが導かれる。 我々は、エルミート弱$^{\ast }$連続函数上の多項式函数に対して、任意の$C^{\ast }$-アルゲブラ上のポアソンブラケットを構築する。 これは有限次元リー代数のよく知られた構成を思い起こさせる。 次に、このポアソンブラケットを、ポアソンイデアルに関して商を取ることによって、この$c^{\ast }$-algebraの状態に制限する。 これにより、状態の集合上の実値関数の可換 $c^{\ast }$-代数上の密に定義された対称導出が得られる。 閉包まで、これらは収縮の$C_{0}$-群を生成することが証明される。 実際、一般の可換 $c^{\ast }$-algebras において、非有界対称導出の閉包性さえも非自明な問題である。 凸弱$^{\ast }$ G\^{a}teaux微分、状態依存$C^{\ast }$-dynamical systems and the weak$^{\ast }$-Hausdorff hypertopologyは、凸弱$^{\ast }$-compact setが一般に無限次元の弱$^{\ast }$-dense極端境界を持つことを証明するために使われる新しいハイパートポロジーである。 格子フェルミオンおよび平均場を持つ量子スピン系のマクロ力学特性に関する最近の研究成果は、我々が提示する一般的なアプローチの関連性を裏付けるものである。

During the last three decades, P. B\'{o}na has developed a non-linear generalization of quantum mechanics, based on symplectic structures for normal states and offering a general setting which is convenient to study the emergence of macroscopic classical dynamics from microscopic quantum processes. We propose here a new mathematical approach to Bona's one, with much brother domain of applicability. It highlights the central role of self-consistency. This leads to a mathematical framework in which the classical and quantum worlds are naturally entangled. We build a Poisson bracket for the polynomial functions on the hermitian weak$^{\ast }$ continuous functionals on any $C^{\ast }$-algebra. This is reminiscent of a well-known construction for finite-dimensional Lie algebras. We then restrict this Poisson bracket to states of this $C^{\ast }$-algebra, by taking quotients with respect to Poisson ideals. This leads to densely defined symmetric derivations on the commutative $C^{\ast }$-algebras of real-valued functions on the set of states. Up to a closure, these are proven to generate $C_{0}$-groups of contractions. As a matter of fact, in general commutative $C^{\ast }$-algebras, even the closableness of unbounded symmetric derivations is a non-trivial issue. Some new mathematical concepts are introduced, which are possibly interesting by themselves: the convex weak $^{\ast }$ G\^{a}teaux derivative, state-dependent $C^{\ast }$-dynamical systems and the weak$^{\ast }$-Hausdorff hypertopology, a new hypertopology used to prove, among other things, that convex weak$^{\ast }$-compact sets generically have weak$^{\ast }$-dense extreme boundary in infinite dimension. Our recent results on macroscopic dynamical properties of lattice-fermion and quantum-spin systems with long-range, or mean-field, interactions corroborate the relevance of the general approach we present here.
翻訳日:2023-05-03 00:48:02 公開日:2021-01-07
# 非退化系に対するモリス・ショア変換

Morris-Shore transformation for non-degenerate systems ( http://arxiv.org/abs/2009.11191v2 )

ライセンス: Link先を確認
K. N. Zlatanov, G. S. Vasilev, and N. V. Vitanov(参考訳) モリス=ショア変換(MS)は、多状態量子系の力学を2状態系と非結合単一状態の集合に分解するための強力なツールである。 これは、第1集合の任意の状態が第2集合の任意の状態に結合できるが、各集合内の状態が互いに結合しない2つの状態の集合を仮定する。 もう一つの重要な条件は各集合における状態の縮退であるが、異なる集合からの状態間の全ての結合は同じ縮退によって共鳴から切り離すことができる。 縮退条件は、例えば、電気および/または磁場または光シフトの存在下で、様々な物理的に興味深い状況におけるms変換の適用を制限する。 本稿では、2つの集合の各状態が非退化状態であるような状況へのMS変換を拡張する。 この目的のために、モリス・ショア変換を導出する方法を開発し、非退化状態の集合に適用することができる。 一般化された固有値アプローチを提案し、デジェネリズムから小さなデチューニングの極限において、非退化ハミルトニアンと動的に等価な有効ハミルトニアンを生成することができる。 有効ハミルトニアンは2段階の類似性変換によりモリス・ショア基底に写像できる。 一般的なフレームワークの導出後、このテクニックを人気のあるlambda 3状態システム、および4状態三脚システム、ダブルラムダシステム、ダイアモンドシステムに適用する。 これらの全てのシステムにおいて、フォーマリズムは、外界の周波数ドリフトによって生成される様々なデチューニングが存在する場合のように、より単純な2状態システムに量子力学を還元することができる。

The Morris-Shore (MS) transformation is a powerful tool for decomposition of the dynamics of multistate quantum systems to a set of two-state systems and uncoupled single states. It assumes two sets of states wherein any state in the first set can be coupled to any state in the second set but the states within each set are not coupled between themselves. Another important condition is the degeneracy of the states in each set, although all couplings between the states from different sets can be detuned from resonance by the same detuning. The degeneracy condition limits the application of the MS transformation in various physically interesting situations, e.g. in the presence of electric and/or magnetic fields or light shifts, which lift the degeneracy in each set of states, e.g. when these sets comprise the magnetic sublevels of levels with nonzero angular momentum. This paper extends the MS transformation to such situations, in which the states in each of the two sets are nondegenerate. To this end, we develop an alternative way for the derivation of Morris-Shore transformation, which can be applied to non-degenerate sets of states. We present a generalized eigenvalue approach, by which, in the limit of small detunings from degeneracy, we are able to generate an effective Hamiltonian that is dynamically equivalent to the non-degenerate Hamiltonian. The effective Hamiltonian can be mapped to the Morris-Shore basis with a two-step similarity transformation. After the derivation of the general framework, we demonstrate the application of this technique to the popular Lambda three-state system, and the four-state tripod, double-Lambda and diamond systems. In all of these systems, our formalism allows us to reduce their quantum dynamics to simpler two-state systems even in the presence of various detunings, e.g. generated by external fields of frequency drifts.
翻訳日:2023-05-01 04:45:35 公開日:2021-01-07
# 量子誤り訂正符号のフォールトトレラント動作

Fault-Tolerant Operation of a Quantum Error-Correction Code ( http://arxiv.org/abs/2009.11482v2 )

ライセンス: Link先を確認
Laird Egan, Dripto M. Debroy, Crystal Noel, Andrew Risinger, Daiwei Zhu, Debopriyo Biswas, Michael Newman, Muyuan Li, Kenneth R. Brown, Marko Cetina, Christopher Monroe(参考訳) 量子誤差補正は、脆弱な量子情報をより大きな量子系にエンコードすることで保護する。 これらの余分な自由度はエラーの検出と修正を可能にするだけでなく、符号化された論理キュービットの操作の複雑さも増す。 フォールトトレラント回路は論理量子ビットの操作中にエラーの拡散を含み、実際はエラー抑制を実現するのに不可欠である。 耐故障設計は原則として機能するが、従来はネイティブノイズ特性を持つ誤り訂正物理系では実証されていない。 本研究では,13個のイオン量子ビットを用いたBacon-Shor論理量子ビットの耐故障性,測定,回転,安定度の測定実験を行った。 これらのフォールトトレラントプロトコルと非フォールトトレラントプロトコルを比較すると、ノイズの存在下での論理プリミティブのエラーレートが大幅に低下する。 耐故障設計の結果、平均状態準備と測定誤差は0.6%、クリフォードゲート誤差は0.3%である。 さらに, 蒸留しきい値を超える精細度を持つマジック状態を作成し, 普遍的フォールトトレラント操作に必要な1キュービット成分のすべてを示す。 これらの結果は、フォールトトレラント回路が現在の量子システムにおいて高精度な論理プリミティブを可能にすることを示している。 改良された2量子ゲートと中間測定の使用により、安定な論理量子ビットを実現することができる。

Quantum error correction protects fragile quantum information by encoding it into a larger quantum system. These extra degrees of freedom enable the detection and correction of errors, but also increase the operational complexity of the encoded logical qubit. Fault-tolerant circuits contain the spread of errors while operating the logical qubit, and are essential for realizing error suppression in practice. While fault-tolerant design works in principle, it has not previously been demonstrated in an error-corrected physical system with native noise characteristics. In this work, we experimentally demonstrate fault-tolerant preparation, measurement, rotation, and stabilizer measurement of a Bacon-Shor logical qubit using 13 trapped ion qubits. When we compare these fault-tolerant protocols to non-fault tolerant protocols, we see significant reductions in the error rates of the logical primitives in the presence of noise. The result of fault-tolerant design is an average state preparation and measurement error of 0.6% and a Clifford gate error of 0.3% after error correction. Additionally, we prepare magic states with fidelities exceeding the distillation threshold, demonstrating all of the key single-qubit ingredients required for universal fault-tolerant operation. These results demonstrate that fault-tolerant circuits enable highly accurate logical primitives in current quantum systems. With improved two-qubit gates and the use of intermediate measurements, a stabilized logical qubit can be achieved.
翻訳日:2023-05-01 02:51:28 公開日:2021-01-07
# 均質な位相秩序に束縛された退化性

A degeneracy bound for homogeneous topological order ( http://arxiv.org/abs/2009.13551v3 )

ライセンス: Link先を確認
Jeongwan Haah(参考訳) 我々は、量子スピン (qudits) 上のフラクトン位相を含む位相秩序のほとんどの例に従えば、同質な位相次数の概念を導入する。 この概念はハミルトニアンではなく基底状態部分空間上の条件であり、球状領域の集合が与えられたとき、球状領域を避ける作用素によって基底空間上の任意の線型変換を実現することを要求する。 次元 $d$ の任意の閉リーマン多様体上の均質な位相次数を持つ系に対する基底状態縮退値 $\mathcal d$ を導出し、これは \[ \log \mathcal d \le c \mu (l/a)^{d-2} と読む。 ここで、$l$ は系の直径であり、$a$ は格子間隔であり、$c$ は多様体の等長類のみに依存する定数であり、$\mu$ は自由度密度のみに依存する定数である。 d=2$ であれば、定数 $c$ は空間多様体の(準)元である。 この境界は既知の例によって定数に飽和する。

We introduce a notion of homogeneous topological order, which is obeyed by most, if not all, known examples of topological order including fracton phases on quantum spins (qudits). The notion is a condition on the ground state subspace, rather than on the Hamiltonian, and demands that given a collection of ball-like regions, any linear transformation on the ground space be realized by an operator that avoids the ball-like regions. We derive a bound on the ground state degeneracy $\mathcal D$ for systems with homogeneous topological order on an arbitrary closed Riemannian manifold of dimension $d$, which reads \[ \log \mathcal D \le c \mu (L/a)^{d-2}.\] Here, $L$ is the diameter of the system, $a$ is the lattice spacing, and $c$ is a constant that only depends on the isometry class of the manifold, and $\mu$ is a constant that only depends on the density of degrees of freedom. If $d=2$, the constant $c$ is the (demi)genus of the space manifold. This bound is saturated up to constants by known examples.
翻訳日:2023-04-30 18:31:49 公開日:2021-01-07
# 非バウンド量子粒子の吸収と解析 --一つずつ-

Absorption and analysis of unbound quantum particles -- one by one ( http://arxiv.org/abs/2010.02676v3 )

ライセンス: Link先を確認
S{\o}lve Selst{\o}(参考訳) 量子物理学において、非有界多体系の理論的研究は、その大きな空間拡張といわゆる次元の呪いの組み合わせにより、典型的には非常に複雑である。 多くの場合、そのようなシステムは、情報を失うコストで、切り詰められた数値領域で研究される。 ここでは、複素吸収ポテンシャルの対象となる非有界粒子の微分確率を計算する方法を提案する。 放出波の減衰に加え、この吸収器は単粒子散乱状態に投射することで、多粒子散乱状態の計算を超流動的に行うためにも用いられる。 リンドブラッド方程式に基づく形式論において、後続の吸収からの唯一の微分スペクトルは、第1の吸収後に残った粒子のダイナミクスを解いて得られる。 フレームワークは自然に任意の粒子に一般化するが、微分確率分布の明示的でコンパクトで直感的な表現は2粒子の場合に対して導出される。 本手法の適用性は, 2粒子モデル系を含む数値例で示される。 これらの例は散乱と光イオン化に言及しており、非有界粒子のエネルギー分布が系の実際の拡張よりもかなり小さい数値領域でどのように決定されるかを示している。

In quantum physics, the theoretical study of unbound many-body systems is typically quite complex -- owing to the combination of their large spatial extension and the so-called {\it curse of dimensionality}. Often, such systems are studied on truncated numerical domains -- at the cost of losing information. Here we present methods for calculating differential probabilities for unbound particles which are subjected to a {\it complex absorbing potential}. In addition to attenuating outgoing waves, this absorber is also used to probe them by projection onto single-particle scattering states, thus rendering the calculation of multi-particle scattering states superfluous. Within formalism based on the Lindblad equation, singly differential spectra from subsequent absorptions are obtained by resolving the dynamics of the remaining particles after the first absorption. While the framework generalizes naturally to any number of particles, explicit, compact and intuitive expressions for the differential probability distributions are derived for the two-particle case. The applicability of the method is illustrated by numerical examples involving two-particle model-systems. These examples, which address scattering and photo ionization, demonstrate how energy distributions of unbound particles may be determined on numerical domains considerably smaller than the actual extension of the system.
翻訳日:2023-04-29 20:24:25 公開日:2021-01-07
# 原子時計比較による局所的位置不変性違反の限界改善

Improved limits for violations of local position invariance from atomic clock comparisons ( http://arxiv.org/abs/2010.06620v2 )

ライセンス: Link先を確認
R. Lange, N. Huntemann, J. M. Rahm, C. Sanner, H. Shao, B. Lipphardt, Chr. Tamm, S. Weyers, and E. Peik(参考訳) 我々は、$^2$S$_{1/2}(F=0)\to {}^2$D$_{3/2}(F=2)$ electric quadrupole (E2)と$^2$S$_{1/2}(F=0)\to {}^2$F$_{7/2}(F=3)$ electric octupole (E3) transition of $^{171}$Yb$^{+}$と、周波数比$$\nu_{\mathrm{E3}}/\nu_{\mathrm{E2}}=0.932\,829\,404\,530\,965\,376(32)$の2つの光時計を比較する。 遷移周波数 $\nu_{E3}=642\,121\,496\,772\,645.10(8)$Hz を決定する。 両量を数年にわたって繰り返し測定し、局所位置不変性の潜在的な違反について分析する。 約20および2の因子により、超微細構造定数 $\alpha$ to $1.0(1.1)\times10^{-18}/\mathrm{yr}$ および陽子対電子質量比 $\mu$ to $-8(36)\times10^{-18}/\mathrm{yr}$ の分数時間変化の限界を改善する。 地球における太陽の重力ポテンシャルの年次変動を利用して、両方の定数の重力へのカップリングの限界を$(c^2/\alpha) (d\alpha/d\Phi)=14(11)\times 10^{-9}$と$(c^2/\mu) (d\mu/d\Phi)=7(45)\times 10^{-8}$で改善する。

We compare two optical clocks based on the $^2$S$_{1/2}(F=0)\to {}^2$D$_{3/2}(F=2)$ electric quadrupole (E2) and the $^2$S$_{1/2}(F=0)\to {}^2$F$_{7/2}(F=3)$ electric octupole (E3) transition of $^{171}$Yb$^{+}$ and measure the frequency ratio $\nu_{\mathrm{E3}}/\nu_{\mathrm{E2}}=0.932\,829\,404\,530\,965\,376(32)$. We determine the transition frequency $\nu_{E3}=642\,121\,496\,772\,645.10(8)$ Hz using two caesium fountain clocks. Repeated measurements of both quantities over several years are analyzed for potential violations of local position invariance. We improve by factors of about 20 and 2 the limits for fractional temporal variations of the fine structure constant $\alpha$ to $1.0(1.1)\times10^{-18}/\mathrm{yr}$ and of the proton-to-electron mass ratio $\mu$ to $-8(36)\times10^{-18}/\mathrm{yr}$. Using the annual variation of the Sun's gravitational potential at Earth $\Phi$, we improve limits for a potential coupling of both constants to gravity, $(c^2/\alpha) (d\alpha/d\Phi)=14(11)\times 10^{-9}$ and $(c^2/\mu) (d\mu/d\Phi)=7(45)\times 10^{-8}$.
翻訳日:2023-04-29 04:57:00 公開日:2021-01-07
# 相対論的フレームにおける量子速度制限時間

Quantum speed limit time in relativistic frame ( http://arxiv.org/abs/2012.13859v2 )

ライセンス: Link先を確認
N. A. Khan, M. Jan(参考訳) 振幅減衰チャネルを結合した量子系の進化速度に対する相対論的効果の役割について検討する。 相対論的効果は、減衰パラメータ $p_{\tau}\lesssim p_{\tau_{c0}} に対する開量子系の均一な進化速度に量子進化を高速化する。 さらに、減衰限界である $p_{\tau_{c0}}\lesssim p_{\tau}\lesssim p_{\tau_{c1}} で加速された量子速度制限時間(qslt)の非単調な挙動を指摘した。 減衰強度$p_{\tau_{c1}}\lesssim p_{\tau}$に対して、QSLTの単調増加挙動を観察し、減衰系の量子進化を遅くする。 さらに,位相減衰チャネルを結合した系の速度制限時間に対する相対論的効果の役割について検討した。

We investigate the roles of the relativistic effect on the speed of evolution of a quantum system coupled with amplitude damping channels. We find that the relativistic effect speed-up the quantum evolution to a uniform evolution speed of open quantum systems for the damping parameter $p_{\tau}\lesssim p_{\tau_{c0}}.$ Moreover, we point out a non-monotonic behavior of the quantum speed limit time (QSLT) with acceleration in the damping limit $p_{\tau_{c0}}\lesssim p_{\tau}\lesssim p_{\tau_{c1}},$ where the relativistic effect first speed-up and then slow down the quantum evolution process of the damped system. For the damping strength $p_{\tau_{c1}}\lesssim p_{\tau}$, we observe a monotonic increasing behavior of QSLT, leads to slow down the quantum evolution of the damped system. In addition, we examine the roles of the relativistic effect on the speed limit time for a system coupled with the phase damping channels.
翻訳日:2023-04-19 04:04:47 公開日:2021-01-07
# シリコン系量子ドットにおける高周波反射率

Radio frequency reflectometry in silicon-based quantum dots ( http://arxiv.org/abs/2012.14560v2 )

ライセンス: Link先を確認
Y.-Y. Liu, S. G. J. Philips, L. A. Orona, N. Samkharadze, T. McJunkin, E. R. MacQuarrie, M. A. Eriksson, L. M. K. Vandersypen, A. Yacoby(参考訳) RFリフレクションメトリーは、ゲート量子ドットにおける電荷検知とスピン読み出しのための高速で敏感な方法を提供する。 本研究は,大規模な寄生容量が課題となる集積モードゲート定義量子ドットにおけるRFリードアウトの実装に焦点を当てる。 本研究は, 寄生容量の影響を緩和する2つの方法, オンチップによる1つ, オフチップによる2つについて述べる。 これらの手法によりsi/sige量子ドットにおける高速電荷読み出しが可能となり、測定時間1$\mu$sで99.9%の忠実性が得られる。

RF reflectometry offers a fast and sensitive method for charge sensing and spin readout in gated quantum dots. We focus in this work on the implementation of RF readout in accumulation-mode gate-defined quantum dots, where the large parasitic capacitance poses a challenge. We describe and test two methods for mitigating the effect of the parasitic capacitance, one by on-chip modifications and a second by off-chip changes. We demonstrate that these methods enable high-performance charge readout in Si/SiGe quantum dots, achieving a fidelity of 99.9% for a measurement time of 1 $\mu$s.
翻訳日:2023-04-18 12:06:05 公開日:2021-01-07
# 強磁性および反強磁性相互作用を持つXYスピン鎖の量子クエンチダイナミクス

Quantum Quench dynamics in XY spin chain with ferromagnetic and antiferromagnetic interactions ( http://arxiv.org/abs/2101.00226v2 )

ライセンス: Link先を確認
Zhe Wang, Pan-Pan Fang, Yu-Liang Xu, Chun-Yang Wang, Rong-Tao Zhang, Han Zhang and Xiang-Mu Kong(参考訳) 本稿では強磁性と反強磁性の相互作用を持つ一次元異方性xyモデルについて検討し,より興味深い位相図と動的臨界挙動を与える。 量子的再正規化群法により, 反強磁性イジング相は「x方向」, スピン流体相は「y方向」, 強磁性イジング相は「y方向」の3つの相が存在することがわかった。 システムの動的臨界挙動を研究するために、2つの量子クエンチング法を用いる。 どちらの場合も、エンタングルメントの尺度であるコンカージェンスが周期的に周期的に振動する。 周期は同じであり、量子相転移の新しい順序パラメータとして使用できることを示す。 さらに, 進化期のスケーリング挙動から, スケーリング指数, {\theta} および相関長さ指数, {\nu} を導出する。

In this manuscript we investigate the one-dimensional anisotropic XY model with ferromagnetic and antiferromagnetic interactions, which gives more interesting phase diagrams and dynamic critical behaviors. By using quantum renormalization-group method, we find that there are three phases in the system: antiferromagnetic Ising phase ordered in "x direction", spin-fluid phase and ferromagnetic Ising phase ordered in "y direction". In order to study the dynamical critical behaviors of the system, two quantum quenching methods are used. In both cases, the concurrence, a measure of entanglement, oscillates periodically over time. We show that the periods are the same and can be used as a new order parameter for quantum phase transitions. For further discussion, we derive the scaling exponent, {\theta}, and correlation length exponent, {\nu}, from the scaling behavior of the evolution period.
翻訳日:2023-04-18 03:41:12 公開日:2021-01-07
# 2次元量子スピン系に対するオンサイト有限群対称性を持つ対称性保護位相の$H^{3}(G,{\mathbb T})$値指数

A $H^{3}(G,{\mathbb T})$-valued index of symmetry protected topological phases with on-site finite group symmetry for two-dimensional quantum spin systems ( http://arxiv.org/abs/2101.00426v3 )

ライセンス: Link先を確認
Yoshiko Ogata(参考訳) 2次元量子スピン系に対するオンサイト有限群$g$対称性$\beta$を持つspt相を考える。 H^{3}(G,{\mathbb T})$-値不変量を持つことを示す。

We consider SPT-phases with on-site finite group $G$ symmetry $\beta$ for two-dimensional quantum spin systems. We show that they have $H^{3}(G,{\mathbb T})$-valued invariant.
翻訳日:2023-04-18 01:54:56 公開日:2021-01-07
# 窒素空洞中心磁気測定のためのパルスロックイン法

A pulsed lock-in method for ensemble nitrogen-vacancy center magnetometry ( http://arxiv.org/abs/2101.01986v2 )

ライセンス: Link先を確認
Jixing Zhang, Heng Yuan, Tianzheng Liu, Lixia Xu, Guodong Bian, Pengcheng Fan, and Mingxin Li(参考訳) 本稿では, ロックイン検出の利点とパルス型スキームを組み合わせた窒素空洞中心磁化法を提案する。 提案手法の最適条件, 最適感度, 騒音抑制性能を, 理論およびシミュレーションの観点から従来の手法と比較した。 実験により, 感度の4倍改善と最小分解性磁場(mrmf)の60倍改善が得られた。 共焦点実験装置を用いて、3nT/Hz1/2の感度と100pTのMRMFを実現する。

This article proposes a scheme for nitrogen-vacancy (NV) center magnetometry that combines the advantages of lock-in detection and pulse-type scheme. The optimal conditions, optimal sensitivity, and noise-suppression capability of the proposed method are compared with those of the conventional methods from both theoretical and simulation points of view. Through experimental measurements, a four-time improvement in sensitivity and 60-times improvement in minimum resolvable magnetic field (MRMF) was obtained. By using a confocal experiment setup, proposed scheme achieves a sensitivity of 3 nT/Hz1/2 and a MRMF of 100 pT.
翻訳日:2023-04-17 18:00:29 公開日:2021-01-07
# コヒーレントスピン光子インタフェース用共振誘電体アンテナのフィールドベース設計

Field-based Design of a Resonant Dielectric Antenna for Coherent Spin-Photon Interfaces ( http://arxiv.org/abs/2101.02366v1 )

ライセンス: Link先を確認
Linsen Li, Hyeongrak Choi, Mikkel Heuck, Dirk Englund(参考訳) 本稿では,ダイヤモンド色中心とガウス伝搬遠方場を接続する誘電体アンテナのフィールドベース設計を提案する。 このアンテナ設計により、パーセル係数が400を超え、93%のモードが0.4の数値開口遠方ガウスモードと重なり合う効率的なスピン光子界面が可能となる。 アンテナ設計は、誘電体摂動の寸法やエミッタ双極子位置の変動など、製造の不完全性に対して堅牢である。 フィールドベースの誘電体アンテナの設計は、多重量子リピータ、配列量子センサ、モジュール量子コンピュータのための量子メモリの配列を密に詰め込んだ効率的な自由空間インタフェースを提供する。

We propose a field-based design for dielectric antennas to interface diamond color centers with a Gaussian propagating far field. This antenna design enables an efficient spin-photon interface with a Purcell factor exceeding 400 and a 93% mode overlap to a 0.4 numerical aperture far-field Gaussian mode. The antenna design is robust to fabrication imperfections, such as variations in the dimensions of the dielectric perturbations and the emitter dipole location. The field-based dielectric antenna design provides an efficient free-space interface to closely packed arrays of quantum memories for multiplexed quantum repeaters, arrayed quantum sensors, and modular quantum computers.
翻訳日:2023-04-17 11:06:23 公開日:2021-01-07
# 周期駆動rydberg原子上の弾力性量子ゲート

Resilient quantum gates on periodically driven Rydberg atoms ( http://arxiv.org/abs/2101.02328v1 )

ライセンス: Link先を確認
Jin-Lei Wu, Yan Wang, Jin-Xuan Han, Shi-Lei Su, Yan Xia, Yongyuan Jiang, and Jie Song(参考訳) 量子ゲートのフォールトトレラント実装は、量子計算を実現するための前提条件の1つである。 ライドバーグ原子のプラットフォームは、量子計算を達成する最も有望な候補の1つである。 本稿では,Rydberg のアンチブロッカドを誘導するために振幅変調場を用いて,Rydberg 原子に制御-$Z$ゲートを実装することを提案する。 Rydberg-Rydberg相互作用の揺らぎに対する門の堅牢性は振幅変調場を調整することで大きく向上することができる。 さらに,ターゲット原子にLandau-Zener-St\"{u}ckelberg遷移を導入し,ゲート時間のずれやパルス振幅のドリフトに対するゲートレジリエンスを向上させる。 実現可能な実験パラメータにより、原子崩壊、原子間双極子-双極子力、ドップラー効果による低い忠実度誤差でゲートを達成できる。 最後に、ゲートスキームをマルチキュービットのケースに一般化し、キュービット数が増加するにつれて、異なるゲート時間でレジリエントなマルチキュービット位相ゲートを1ステップで得ることができる。

Fault-tolerant implementation of quantum gates is one of preconditions for realizing quantum computation. The platform of Rydberg atoms is one of the most promising candidates for achieving quantum computation. We propose to implement a controlled-$Z$ gate on Rydberg atoms where an amplitude-modulated field is employed to induce Rydberg antiblockade. Gate robustness against the fluctuations in the Rydberg-Rydberg interaction can be largely enhanced by adjusting amplitude-modulated field. Furthermore, we introduce a Landau-Zener-St\"{u}ckelberg transition on the target atom so as to improve the gate resilience to the deviation in the gate time and the drift in the pulse amplitude. With feasible experimental parameters, one can achieve the gate with low fidelity errors caused by atomic decay, interatomic dipole-dipole force, and Doppler effects. Finally, we generalize the gate scheme into multiqubit cases, where resilient multiqubit phase gates can be obtained in one step with an unchanged gate time as the number of qubits increases.
翻訳日:2023-04-17 11:05:12 公開日:2021-01-07
# 量子アニーリングシステムにおけるセルオートマトン

Cellular Automata on Quantum Annealing Systems ( http://arxiv.org/abs/2101.02309v1 )

ライセンス: Link先を確認
Robert A. Dunn(参考訳) 本稿では,d-wave量子コンピュータなどの量子アニールシステムにおける2色セルオートマトンの実装について紹介する。 最寄りのセルオートマトンを実装できることを示す。 本稿では,これまでに普遍チューリングマシンとして証明されてきたwolframのセルオートマトンルール110を,量子アニーリングシステムに適したquboとして実装する。 セルオートマトンルールセットのバックプロパゲーションを行い、所望の後のシステム状態の初期細胞状態を決定する。 コンウェイのゲーム・オブ・ライフのような2次元2色セルオートマトンを量子アニール系に表現できることを示す。

We present herein an introduction to implementing 2-color cellular automata on quantum annealing systems, such as the D-Wave quantum computer. We show that implementing nearest-neighbor cellular automata is possible. We present an implementation of Wolfram's cellular automata Rule 110, which has previously been shown to be a universal Turing machine, as a QUBO suitable for use on quantum annealing systems. We demonstrate back-propagation of cellular automata rule sets to determine initial cell states for a desired later system state. We show 2-D 2-color cellular automata, such as Conway's Game of Life, can be expressed for quantum annealing systems.
翻訳日:2023-04-17 11:04:55 公開日:2021-01-07
# Qutrit-based semi-quantum key distribution Protocol

Qutrit-based semi-quantum key distribution protocol ( http://arxiv.org/abs/2101.02583v1 )

ライセンス: Link先を確認
Hasnaa Hajji, Morad El Baz(参考訳) 本稿では,3次元量子状態に基づくセミ量子鍵分布(SQKD)プロトコルの非条件セキュリティについて述べる。 量子チャネルの雑音の関数としての漸近的シナリオにおいて、鍵レートの低い境界を導出することにより、このプロトコルは、以前の2次元SQKDプロトコルよりもはるかに高いノイズ耐性を持つ秘密鍵レートを改善したことが分かる。 その結果、完全量子鍵分布プロトコルと同様に、システムの寸法を増大させることで、半量子鍵分布の耐雑音性も向上できることがわかった。

This article provides the unconditional security of a semi quantum key distribution (SQKD) protocol based on 3-dimensional quantum states. By deriving a lower bound for the key rate, in the asymptotic scenario, as a function of the quantum channel's noise, we find that this protocol has improved secret key rate with much more tolerance for noise compared to the previous 2-dimensional SQKD protocol. Our results highlight that, similar to the fully quantum key distribution protocol, increasing the dimension of the system can increase the noise tolerance in the semi-quantum key distribution, as well.
翻訳日:2023-04-17 10:58:51 公開日:2021-01-07
# ソフトウェアに対する適応免疫:自律的自己修復システムに向けて

Adaptive Immunity for Software: Towards Autonomous Self-healing Systems ( http://arxiv.org/abs/2101.02534v1 )

ライセンス: Link先を確認
Moeen Ali Naqvi and Merve Astekin and Sehrish Malik and Leon Moonen(参考訳) テストとコードレビューは、ソフトウェアの品質と堅牢性を改善するための既知のテクニックです。 残念なことに、現代のソフトウェアシステムの複雑さは、実行時に起こりうるすべての問題を予測することができない。 したがって、自動的な自己修復ソフトウェアシステムは、実行時に予期せぬ問題を自動的に検出し、診断し、含めることができる。 この領域のほとんどの研究はモデル駆動アプローチを採用しており、実際の振る舞いは意図した振る舞いを特定するモデルに対してチェックされ、コントローラはシステムが仕様の外で振る舞うときにアクションを取る。 しかし、これらの仕様を開発するのも、システムが進化するにつれてそれらを最新に保つことも容易ではない。 機械学習の最近の進歩により、そのようなモデルはシステムの観察によって学習される可能性がある。 さらに, 人工免疫システム(AIS)は, 異常検出と診断能力のため, 自己修復システム構築に特に適していると論じる。 我々は、これまで検討されてきた研究の方向性を調査し、自己修復システムおよびAISにおける最先端技術について紹介する。 そこで我々は,aissを用いた自己修復型ソフトウェアシステムの構築,必要な基盤の同定,研究の方向性に関する研究課題を策定する。

Testing and code reviews are known techniques to improve the quality and robustness of software. Unfortunately, the complexity of modern software systems makes it impossible to anticipate all possible problems that can occur at runtime, which limits what issues can be found using testing and reviews. Thus, it is of interest to consider autonomous self-healing software systems, which can automatically detect, diagnose, and contain unanticipated problems at runtime. Most research in this area has adopted a model-driven approach, where actual behavior is checked against a model specifying the intended behavior, and a controller takes action when the system behaves outside of the specification. However, it is not easy to develop these specifications, nor to keep them up-to-date as the system evolves. We pose that, with the recent advances in machine learning, such models may be learned by observing the system. Moreover, we argue that artificial immune systems (AISs) are particularly well-suited for building self-healing systems, because of their anomaly detection and diagnosis capabilities. We present the state-of-the-art in self-healing systems and in AISs, surveying some of the research directions that have been considered up to now. To help advance the state-of-the-art, we develop a research agenda for building self-healing software systems using AISs, identifying required foundations, and promising research directions.
翻訳日:2023-04-17 10:58:39 公開日:2021-01-07
# 相対論的加速放射の量子パワー分布:完全反射移動鏡を用いた古典電気力学アナロジー

Quantum power distribution of relativistic acceleration radiation: classical electrodynamic analogies with perfectly reflecting moving mirrors ( http://arxiv.org/abs/2101.02511v1 )

ライセンス: Link先を確認
Abay Zhakenuly, Maksat Temirkhan, Michael R.R. Good, Pisin Chen(参考訳) 古典電気力学における点電荷放射と近接する類似性を示すローレンツ不変性を用いた1つの完全反射鏡を用いて、相対論的加速放射の3+1-次元の量子パワーと分布を求める。

We find the quantum power emitted and distribution in $3+1$-dimensions of relativistic acceleration radiation using a single perfectly reflecting mirror via Lorentz invariance demonstrating close analogies to point charge radiation in classical electrodynamics.
翻訳日:2023-04-17 10:58:17 公開日:2021-01-07
# 加速VQEのための分散量子コンピューティングとネットワーク制御

Distributed Quantum Computing and Network Control for Accelerated VQE ( http://arxiv.org/abs/2101.02504v1 )

ライセンス: Link先を確認
Stephen DiAdamo, Marco Ghibaudi, James Cruise(参考訳) 小型量子コンピュータの相互接続は、将来、大規模で堅牢な量子コンピュータを作る上で不可欠である。 したがって、モノリシックな量子アルゴリズムを効率的に分散する手法が必要である。 本研究では, 量子コンピュータの分散量子コンピュータにおいて, 量子固有解法(AVQE)アルゴリズムを任意のサイズ(量子ビット数)に分散する手法を検討する。 並列化計算において、量子化学におけるハミルトン作用素の期待値の推定に必要なアンサッツ状態の量子ビット割り当てを分散する手法を検討し、分散量子計算のための分散量子回路を生成するための体系的アプローチを提案する。 さらに,集中型・分散型ネットワーク制御の設定において,分散量子制御システムのアーキテクチャを提案する。

Interconnecting small quantum computers will be essential in the future for creating large scale, robust quantum computers. Methods for distributing monolithic quantum algorithms efficiently are thus needed. In this work we consider an approach for distributing the accelerated variational quantum eigensolver (AVQE) algorithm over arbitrary sized - in terms of number of qubits - distributed quantum computers. We consider approaches for distributing qubit assignments of the Ansatz states required to estimate the expectation value of Hamiltonian operators in quantum chemistry in a parallelized computation and provide a systematic approach to generate distributed quantum circuits for distributed quantum computing. Moreover, we propose an architecture for a distributed quantum control system in the settings of centralized and decentralized network control.
翻訳日:2023-04-17 10:58:01 公開日:2021-01-07
# 時間依存ランダウ問題のコヒーレント状態に類似した光子付加バウトギラルデロ

Photon-added BarutGirardello like coherent states of time-dependent Landau problem ( http://arxiv.org/abs/2101.02462v1 )

ライセンス: Link先を確認
Lat\'evi Mohamed Lawson, Komi Sodoga and Gabriel Y. H. Avossevou(参考訳) 近年、時間依存の質量と周波数を持つランダウ粒子のハミルトニアンのスペクトルと波動関数が、一様時間依存電界 [j. math. phys. 56, 072104 (2018)] の影響下で決定されている。 本稿では,時間依存型ランダウ問題をコヒーレント状態の文脈へ拡張する。 一般化ラゲール多項式を用いて表されるこのシステムの固有関数の伝統的な分解法により、su(1,1) リー代数の生成元を導出し、コヒーレント状態 a を構成できる。 これらの状態は、コヒーレント状態を構築するためのクラウダーの数学的要求を満たすことが示され、それらの統計特性のいくつかは計算され分析される。 これらの状態は自然界においてポアソニアンである。 これらのコヒーレント状態からの光子の付加により、統計的性質が増加し、それらの状態の数学的性質が変化することを示す。

Recently, we have determined the spectrum and the wave functions of the Hamiltonian of a Landau particle with time-dependent mass and frequency undergoing the influence of a uniform time-dependent electric field[J. Math. Phys. 56, 072104 (2018)]. In the present paper we extend the study of this model that we name the time-dependent Landau problem into the context of coherent states. By means of the traditional factorization method of the eigenfunctions of this system expressed in terms of the generalized Laguerre polynomials, we derive the generators of the su(1,1) Lie algebra and we construct the coherent states a la Barut-Girardello. These states are shown to satisfy the Klauder's mathematical requirement to build coherent states and some of their statistical properties are calculated and analyzed. We find that these states are sub-Poissonian in nature. We show that, addition of photons from these coherent states, increases the statistical properties and changes the mathematical properties of these states.
翻訳日:2023-04-17 10:57:49 公開日:2021-01-07
# 蝶効果におけるアナログホーキング放射

Analogous Hawking Radiation in Butterfly Effect ( http://arxiv.org/abs/2101.02435v1 )

ライセンス: Link先を確認
Takeshi Morita(参考訳) 本研究では,バタフライ効果を示すシステムにおいて,ホーキング放射様現象が観測可能であることを提案する。 古典力学系が Lyapunov exponent $\lambda_L$ を持ち、決定論的かつ非熱的(T=0$)であると仮定する。 この系を量子化すれば、量子揺らぎは温度$t \sim \hbar \lambda_l/2 \pi $ で熱揺らぎを模倣し、類似のホーキング放射を引き起こす可能性がある。 また,本提案は,maldacena,shenker,stanfordによって提案されたカオス境界の存在を直感的に説明できるかもしれない。

We propose that Hawking radiation-like phenomena may be observed in systems that show butterfly effects. Suppose that a classical dynamical system has a Lyapunov exponent $\lambda_L$, and is deterministic and non-thermal ($T=0$). We argue that, if we quantize this system, the quantum fluctuations may imitate thermal fluctuations with temperature $T \sim \hbar \lambda_L/2 \pi $ in a semi-classical regime, and it may cause analogous Hawking radiation. We also discuss that our proposal may provide an intuitive explanation of the existence of the bound of chaos proposed by Maldacena, Shenker and Stanford.
翻訳日:2023-04-17 10:57:28 公開日:2021-01-07
# 経路同一性による量子不明瞭性:眠る美しさの覚醒

Quantum Indistinguishability by Path Identity: The awakening of a sleeping beauty ( http://arxiv.org/abs/2101.02431v1 )

ライセンス: Link先を確認
Armin Hochrainer, Mayukh Lahiri, Manuel Erhard, Mario Krenn, Anton Zeilinger(参考訳) 2つの光子対生成プロセスは、放出された光子の経路が同一であるように配置することができる。 これにより、経路情報は消去されるのではなく、そもそも生まれることはない。 基礎物理学におけるその意味に加えて、この概念は最近、イメージング、分光、量子情報科学の分野における一連の発見に繋がった。 本稿では,パスアイデンティティの考え方と最近の展開の包括的レビューを紹介する。

Two photon-pair creation processes can be arranged such that the paths of the emitted photons are identical. Thereby the path information is not erased but is never born in the first place. In addition to its implications for fundamental physics, this concept has recently led to a series of discoveries in the fields of imaging, spectroscopy, and quantum information science. Here we present the idea of path identity and provide a comprehensive review of the recent developments.
翻訳日:2023-04-17 10:57:15 公開日:2021-01-07
# スピン鎖化合物における平衡磁化の量子アニールシミュレーション

Quantum annealing simulation of out-of-equilibrium magnetization in a spin-chain compound ( http://arxiv.org/abs/2101.02769v1 )

ライセンス: Link先を確認
Andrew D. King, Cristian D. Batista, Jack Raymond, Trevor Lanting, Isil Ozfidan, Gabriel Poulin-Lamarre, Hao Zhang, Mohammad H. Amin(参考訳) Ca3Co2O6のような幾何学的にフラストレーションされたスピン鎖化合物は磁場変化下で非常に緩やかな緩和を示す。 その結果、低温実験実験とモンテカルロシミュレーションの両方で、準安定な形状のトラップから生じる特異な平衡外磁化曲線が示されている。 この研究では、超伝導量子アニーリングプロセッサでこの現象をシミュレートし、システムの平衡とダイナミクスに対する量子揺らぎの影響を調べることができる。 逆磁場による量子ゆらぎの増加は、平衡外サンプルにおける準安定トラップの影響を減少させ、三置換鉄磁性(アップアップダウン)長距離秩序の開発を支援する。 平衡では、量子ゆらぎによって促進される1/3-飽和相転移において、エントロピー起源を持つ有限温度肩を同定する。 本研究は,大規模プログラマブル量子システムを用いたフラストレーション磁力の平衡研究だけでなく,力学の存続可能性を示すものであり,量子ハードウェアを用いた材料力学のプログラマブルシミュレーションへの重要な一歩である。

Geometrically frustrated spin-chain compounds such as Ca3Co2O6 exhibit extremely slow relaxation under a changing magnetic field. Consequently, both low-temperature laboratory experiments and Monte Carlo simulations have shown peculiar out-of-equilibrium magnetization curves, which arise from trapping in metastable configurations. In this work we simulate this phenomenon in a superconducting quantum annealing processor, allowing us to probe the impact of quantum fluctuations on both equilibrium and dynamics of the system. Increasing the quantum fluctuations with a transverse field reduces the impact of metastable traps in out-of-equilibrium samples, and aids the development of three-sublattice ferrimagnetic (up-up-down) long-range order. At equilibrium we identify a finite-temperature shoulder in the 1/3-to-saturated phase transition, promoted by quantum fluctuations but with entropic origin. This work demonstrates the viability of dynamical as well as equilibrium studies of frustrated magnetism using large-scale programmable quantum systems, and is therefore an important step toward programmable simulation of dynamics in materials using quantum hardware.
翻訳日:2023-04-17 10:50:06 公開日:2021-01-07
# 非検出光子を用いた位置相関可能な量子イメージング

Position Correlation Enabled Quantum Imaging with Undetected Photons ( http://arxiv.org/abs/2101.02761v1 )

ライセンス: Link先を確認
Balakrishnan Viswanathan, Gabriela Barreto Lemos, and Mayukh Lahiri(参考訳) 非検出光子を用いた量子イメージング(qiup)は、物体の照明に用いられる光の検出を必要としないユニークな撮像技術である。 この技術は相関した光子を必要とする。 既存のQIUP実装では、ツイン光子間の運動量相関によって撮像が可能である。 本研究は,2つの光子の位置相関によって撮像が可能となる補完シナリオについて検討する。 本稿では,この2つの場合において得られた画像の性質が著しく異なることを示す。

Quantum imaging with undetected photons (QIUP) is a unique imaging technique that does not require the detection of the light used for illuminating the object. The technique requires a correlated pair of photons. In the existing implementations of QIUP, the imaging is enabled by the momentum correlation between the twin photons. We investigate the complementary scenario in which the imaging is instead enabled by the position correlation between the two photons. We present a general theory and show that the properties of the images obtained in these two cases are significantly distinct.
翻訳日:2023-04-17 10:49:47 公開日:2021-01-07
# 強い相互作用を持つ原子のエネルギーレベル

Dressed Energy Levels in Strongly Interacting Atoms ( http://arxiv.org/abs/2101.02741v1 )

ライセンス: Link先を確認
Seyed Mostafa Moniri, Marjan Fani, Elnaz Darsheshdar(参考訳) 2レベルエミッタの着衣エネルギーレベルにおける強い相互作用の影響について検討した。 強い双極子-双極子相互作用は、原子の空間配置に依存する集合的服装準位間の特定の結合により、蛍光スペクトルの新しいサイドバンドをもたらす。 これらのカップリングは、サイドバンドの周波数とバラエティの主な原因である。 強結合原子数を数える系における着衣エネルギー準位を求める一般的な方法を説明し、3つの結合した2レベルエミッタの2つの異なる空間配置の問題を解く。 その結果, 蛍光スペクトルにおいて, 着衣レベルの結合やエネルギー, サイドバンドの数は, 構成ごとに異なることがわかった。 このように、強く相互作用する原子の蛍光スペクトルは、原子の数と構成に関する情報を含んでいる。

We investigate the effect of strong interaction in the dressed energy levels of the two level emitters. Strong dipole-dipole interactions give rise to new sidebands in the fluorescence spectrum due to specific couplings among the collective dressed levels which in turn depends on the spatial configuration of atoms. These couplings are the main responsible for the frequencies and variety of sidebands. We explain the general method for finding the dressed energy levels for a system of any number of strongly coupled atoms and we solve this problem for two different spatial configurations of three coupled two-level emitters. We show that the coupling among dressed levels and consequently energies and number of sidebands in the fluorescence spectrum are different for each configuration. Thus the fluorescence spectrum of strongly interacting atoms contains information about the number and configuration of atoms.
翻訳日:2023-04-17 10:49:39 公開日:2021-01-07
# 情報バックフローのエントロピー境界

Entropic bounds on information backflow ( http://arxiv.org/abs/2101.02720v1 )

ライセンス: Link先を確認
Nina Megier, Andrea Smirne, Bassano Vacchini(参考訳) オープン量子システムのダイナミクスにおいて、研究中の還元系への情報のバックフローは、メモリを誘導し、非マルコフ量子力学に繋がる実際の物理的メカニズムとして提案されている。 この目的のために、異なる進化したシステム状態間のトレース距離またはバール距離のリバイバルは、システム環境相関や環境状態の変化の確立に従属することが示されている。 この解釈は、エントロピック量子化器のクラスにも適用可能であることを示す。 我々は、量子Jensen-Shannon発散と密接に結びついている、テレスコープ相対エントロピーとして知られる、梅垣の量子相対エントロピーの適切な規則化されたバージョンを利用する。 特に, 相関関係の形成と環境変化によって条件付き, 決定されたテレスコープ相対エントロピーリバイバルの一般上界を導出する。 本稿では,Jaynes-Cummings モデルと 2-qubit のダイナミクスを考慮し,実例を用いて解析を行った。

In the dynamics of open quantum systems, the backflow of information to the reduced system under study has been suggested as the actual physical mechanism inducing memory and thus leading to non-Markovian quantum dynamics. To this aim, the trace-distance or Bures-distance revivals between distinct evolved system states have been shown to be subordinated to the establishment of system-environment correlations or changes in the environmental state. We show that this interpretation can be substantiated also for a class of entropic quantifiers. We exploit a suitably regularized version of Umegaki's quantum relative entropy, known as telescopic relative entropy, that is tightly connected to the quantum Jensen-Shannon divergence. In particular, we derive general upper bounds on the telescopic relative entropy revivals conditioned and determined by the formation of correlations and changes in the environment. We illustrate our findings by means of examples, considering the Jaynes-Cummings model and a two-qubit dynamics.
翻訳日:2023-04-17 10:49:27 公開日:2021-01-07
# ダブルブラインドピアレビューはバイアスを減らすか? コンピュータサイエンスの トップ会議の証拠は

Does double-blind peer-review reduce bias? Evidence from a top computer science conference ( http://arxiv.org/abs/2101.02701v1 )

ライセンス: Link先を確認
Mengyi Sun, Jainabou Barry Danfa, Misha Teplitskiy(参考訳) ピアレビューは科学研究の進展に不可欠であると考えられている。 しかし、レビュアーは作家の威信や他の特徴に偏っているかもしれない。 著者のアイデンティティをレビュアーから隠蔽する二重盲検のピアレビューは、レビュアーのバイアスを減らす方法として提案されている。 直感的ではあるが、バイアスを減らすために二重盲検が有効であるという証拠は限られている。 本稿では,国際学習表現会議(iclr)に提出された5027論文のピアレビューファイルを分析し,評価方針を「単盲査」から「二重盲検」に変更した2018年の「二重盲検」から「ピアレビュー」へ変更した。 ダブルブラインドレビューに切り替えた後、最も名高い著者に与えられるスコアは大幅に減少した。 しかし,これらの論文の多くは受理基準を上回っていたため,受諾決定に大きな影響を与えなかった。 それでも、二重盲検レビューは、他の(非著者-先験的)バイアスを制限することによって、選択の品質を改善した可能性がある。 具体的には、シングルブラインドフォーマットで拒絶された論文は、ダブルブラインドフォーマットで拒絶された論文よりも多く引用され、ダブルブラインドレビューが品質の低い論文をよりよく識別することを示唆している。 興味深いことに、明らかに無関係な変更 - 評価尺度が10から4ポイントに変更されたことで、名声バイアスが大幅に減少し、論文の受け入れに影響を及ぼした可能性がある。 これらの結果は,ピアレビュー形式の影響に関する新たな研究指針を開きつつ,信頼性バイアス低減における二重盲検の有効性を裏付けるものである。

Peer review is widely regarded as essential for advancing scientific research. However, reviewers may be biased by authors' prestige or other characteristics. Double-blind peer review, in which the authors' identities are masked from the reviewers, has been proposed as a way to reduce reviewer bias. Although intuitive, evidence for the effectiveness of double-blind peer review in reducing bias is limited and mixed. Here, we examine the effects of double-blind peer review on prestige bias by analyzing the peer review files of 5027 papers submitted to the International Conference on Learning Representations (ICLR), a top computer science conference that changed its reviewing policy from single-blind peer review to double-blind peer review in 2018. We find that after switching to double-blind review, the scores given to the most prestigious authors significantly decreased. However, because many of these papers were above the threshold for acceptance, the change did not affect paper acceptance decisions significantly. Nevertheless, we show that double-blind peer review may have improved the quality of the selections by limiting other (non-author-prestige) biases. Specifically, papers rejected in the single-blind format are cited more than those rejected under the double-blind format, suggesting that double-blind review better identifies poorer quality papers. Interestingly, an apparently unrelated change - the change of rating scale from 10 to 4 points - likely reduced prestige bias significantly, to an extent that affected papers' acceptance. These results provide some support for the effectiveness of double-blind review in reducing prestige bias, while opening new research directions on the impact of peer review formats.
翻訳日:2023-04-17 10:49:10 公開日:2021-01-07
# 市民科学プロジェクトへの貢献の男女不均衡と時空間パターン--ゾニバースの場合

Gender Imbalance and Spatiotemporal Patterns of Contributions to Citizen Science Projects: the case of Zooniverse ( http://arxiv.org/abs/2101.02695v1 )

ライセンス: Link先を確認
Khairunnisa Ibrahim, Samuel Khodursky, Taha Yasseri(参考訳) 市民科学はプロの科学者と市民が協力して行う研究である。 科学の発展と市民科学者のコミュニティに対する市民科学の多くの恩恵にもかかわらず、貢献のパターンに関する包括的知識や、市民科学プロジェクトへの貢献者のデモグラフィーはいまだに存在しない。 本稿では,198か国から340万人以上の市民科学ボランティアが提供した5500万の分類を,最大の市民科学プラットフォームであるzoniverseに分析して,市民科学の時空間的・ジェンダー的分布を初めて概観する。 まず, 市民科学者の不均一な地理的分布を報告し, 社会経済的条件と各国の研究投資の水準に基づいて, 各国間の変動をモデル化する。 貢献の時間的特徴を分析した結果,参加事例の高「潜伏性」と,市民科学者が最も活発であった当時の参加者のゆるやかな性質について報告する。 最後に、市民科学者(約30%の女性)の男女不均衡を議論し、他の共同プロジェクトや、より正式な科学的活動における男女分布と比較する。 市民科学プロジェクトは学術コミュニティの外部からさらに注意を向ける必要があり、この発見は、公的および民間の利害関係者の関心を引き付けるだけでなく、プラットフォームの設計や科学政策の策定過程を知らせるのに役立つ。

Citizen Science is research undertaken by professional scientists and members of the public collaboratively. Despite numerous benefits of citizen science for both the advancement of science and the community of the citizen scientists, there is still no comprehensive knowledge of patterns of contributions, and the demography of contributors to citizen science projects. In this paper we provide a first overview of spatiotemporal and gender distribution of citizen science workforce by analyzing 54 million classifications contributed by more than 340 thousand citizen science volunteers from 198 countries to one of the largest citizen science platforms, Zooniverse. First we report on the uneven geographical distribution of the citizen scientist and model the variations among countries based on the socio-economic conditions as well as the level of research investment in each country. Analyzing the temporal features of contributions, we report on high "burstiness" of participation instances as well as the leisurely nature of participation suggested by the time of the day that the citizen scientists were the most active. Finally, we discuss the gender imbalance among citizen scientists (about 30% female) and compare it with other collaborative projects as well as the gender distribution in more formal scientific activities. Citizen science projects need further attention from outside of the academic community, and our findings can help attract the attention of public and private stakeholders, as well as to inform the design of the platforms and science policy making processes.
翻訳日:2023-04-17 10:48:41 公開日:2021-01-07
# 距離から出力ポートを決定する

Determining the output port from the distance ( http://arxiv.org/abs/2101.02642v1 )

ライセンス: Link先を確認
Iulia Ghiu(参考訳) 本稿では,以下のシナリオについて述べる。 2つの遠方の観測者が2つのD$レベルシステムの絡み合った状態を共有すると仮定する。 2人の観測者アリスとボブは、多入力マルチ出力デバイスを通してランダムに粒子を送る必要がある。 タスクは、アリスがボブの粒子の出力ポートを確実に決定できるように、この装置またはブラックボックスの性質を決定することである。 このブラックボックスがマルチインプットポート量子ソータであることを証明する。 さらに,グリーンバーガー・ホーネ・ザイリンガー状態 (GHZ) とW状態を用いた場合を解析することにより,3人の観測者が関与する場合に出力ポートを決定することができるかどうかを検討する。

In this paper we discuss the following scenario. Suppose that two distant observers share an entangled state of two $D$-level systems. The two observers, Alice and Bob, have to send randomly their particles through a multi-input multi-output device. The task is to determine the nature of this device or black-box, such that Alice will be able to determine with certainty the output port of Bob's particle. We prove that this black-box is the multi-input-port quantum sorter. Further, we investigate if it is possible to determine the output port in the case when three observers are involved by analyzing the cases when the Greenberger-Horne-Zeilinger (GHZ) state and the W state are used.
翻訳日:2023-04-17 10:47:44 公開日:2021-01-07
# 近赤外領域から紫外領域へのrbおよびcsのns$およびnd$ rydberg原子の光イオン化

Photoionization of $nS$ and $nD$ Rydberg atoms of Rb and Cs from the near-infrared to the ultraviolet spectral region ( http://arxiv.org/abs/2101.02617v1 )

ライセンス: Link先を確認
Michael A. Viray, Eric Paradis, Georg Raithel(参考訳) 我々は, [M. Marinescu, H. R. Sadeghpour, A. Dalgarno, Phys. A 49, 982 (1994)] のモデル電位を用いて, 可視光から紫外線までの波長の光に対するルビジウムとセシウムの光イオン化(PI)断面積の計算を行った。 PIミニマの発音の起源は自由電子波動関数の研究によって同定される。 例えば、Rb と Cs の両方の PI チャネルの$nS$ から $\epsilon P$ PI チャネルにおいて、自由電子エネルギー $\epsilon$ は Cooper minima と同一視される。 nd$から$\epsilon f$チャネルのpiミニマは自由電子状態の形状共鳴によるものである。 PIミニマの測定の可能な実験手順について述べるとともに,基礎原子物理学および実用応用におけるその意義について論じる。

We present calculations of the photoionization (PI) cross sections of rubidium and cesium Rydberg atoms for light with wavelengths ranging from the infrared to the ultraviolet, using model potentials from [M. Marinescu, H. R. Sadeghpour, and A. Dalgarno, Phys. Rev. A 49, 982 (1994)]. The origins of pronounced PI minima are identified by investigating the free-electron wavefunctions. These include broad PI minima in the $nS$ to $\epsilon P$ PI channels of both Rb and Cs, with free-electron energy $\epsilon$, which are identified as Cooper minima. Much narrower PI minima in the $nD$ to $\epsilon F$ channels are due to shape resonances of the free-electron states. We describe possible experimental procedures for measuring the PI minima, and we discuss their implications in fundamental atomic physics as well as in practical applications.
翻訳日:2023-04-17 10:47:33 公開日:2021-01-07
# 量子力学の別の認識論的解釈である現実の量子化

Quantization of Reality, another Epistemological Interpretation of Quantum Mechanics? ( http://arxiv.org/abs/2103.03733v1 )

ライセンス: Link先を確認
Carsten Reese(参考訳) 量子力学の認識論的解釈はまだ受け入れられない状態にある。 これは、現在議論中のさまざまな解釈を見れば明らかになる。 しかし、哲学者とともに物理社会は、量子物理学の数学的処理が完成し、それを使うのに完璧であると判断できるため、この問題に実際に向き合い、自然の基盤の奇性について説明する意思がないようである。 量子物理学の認識論は、しばしば無視可能な副作用として扱われるが、結果が計算結果に全く影響を与えないため、努力する価値はない。 人間の好奇心のために、そして我々が生きている宇宙をよりよく理解するために、この態度を変えるべきである。 この記事では、おそらく興味深い新しいアプローチが概説されており、焦点を調整するのに役立ちます。

The epistemological interpretation of quantum mechanics is still in an unacceptable status. This becomes obvious if looking on the variety of interpretations currently under discussion. However, the physical community together with philosophers seem not to be willing to really face the problem and to find an explanation for the oddness of the foundation of nature, as the mathematical treatment of quantum physics can be judged as finished and perfect for the use. The epistemology of quantum physics is often treated as a negligible side effect, not worth to put effort in, as any outcome will not affect the calculation results at all. For the sake of human curiosity and to get a better understanding of the universe we are living in, this attitude should be changed. A possibly interesting new approach is outlined in this article, which may help to adjust the focus.
翻訳日:2023-04-17 10:39:30 公開日:2021-01-07
# ギャップを埋める:AI政策に関する不完全な理論化された合意

Bridging the Gap: the case for an Incompletely Theorized Agreement on AI policy ( http://arxiv.org/abs/2101.06110v1 )

ライセンス: Link先を確認
Charlotte Stix and Matthijs M. Maas(参考訳) 人工知能(AI)の最近の進歩は、幅広い倫理的・社会的懸念を提起している。 そのため、現在では適切な政策アプローチが必要である。 この分野では奨学金の波が流れているが、研究コミュニティは短期的関心事を重視するものと、長期的関心事や対応政策に重点を置くものとに分かれている。 本稿では,AI政策におけるコミュニティ間コラボレーションの実践的空間の理解をめざして,この問題を地図化し,批判的に検証する。 これは、不完全な理論化された合意の法的概念を利用するという提案で終わる。 我々は、特定の課題領域において、短期的および長期的視点に取り組む研究者は、異なる視点を維持しながら、選択された相互に有益なai政策プロジェクトに収束し、協力することができると提案する。

Recent progress in artificial intelligence (AI) raises a wide array of ethical and societal concerns. Accordingly, an appropriate policy approach is needed today. While there has been a wave of scholarship in this field, the research community at times appears divided amongst those who emphasize near-term concerns, and those focusing on long-term concerns and corresponding policy measures. In this paper, we seek to map and critically examine this alleged gulf, with a view to understanding the practical space for inter-community collaboration on AI policy. This culminates in a proposal to make use of the legal notion of an incompletely theorized agreement. We propose that on certain issue areas, scholars working with near-term and long-term perspectives can converge and cooperate on selected mutually beneficial AI policy projects all the while maintaining divergent perspectives.
翻訳日:2023-04-17 10:39:17 公開日:2021-01-07
# 汎用的効率ミスマッチアタックによるバイパス検出・スクランブル対策

A generalized efficiency mismatch attack to bypass detection-scrambling countermeasure ( http://arxiv.org/abs/2101.03969v1 )

ライセンス: Link先を確認
M A Ruhul Fatin, Shihan Sajeed(参考訳) 入射光の角度を変えて量子通信システムのセキュリティを侵害する盗聴者の能力はよく知られている。 検出器の役割のランダム化は、この種の攻撃に対する効果的な対策として提案されている。 ここでは,攻撃変数をより多く含むことで攻撃を一般化すれば,提案手法を回避できることを示す。 既存の文献からの実験データを用いて,Eveが攻撃戦略を一般化した場合,ランダム化が初期攻撃を効果的に防ぐことを示す。 この結果と手法は,任意のタイプの検出器効率ミスマッチ型攻撃に対して,自由空間量子通信受信機をセキュリティ認証するために使用できる。

The ability of an eavesdropper to compromise the security of a quantum communication system by changing the angle of the incoming light is well-known. Randomizing the role of the detectors has been proposed to be an efficient countermeasure to this type of attack. Here we show that the proposed countermeasure can be bypassed if the attack is generalized by including more attack variables. Using the experimental data from existing literature, we show how randomization effectively prevents the initial attack but fails to do so when Eve generalizes her attack strategy. Our result and methodology could be used to security-certify a free-space quantum communication receiver against all types of detector-efficiency-mismatch type attacks.
翻訳日:2023-04-17 10:39:02 公開日:2021-01-07
# ダイヤモンド中の色中心をもつキャビティ量子電磁力学

Cavity quantum electrodynamics with color centers in diamond ( http://arxiv.org/abs/2101.02793v1 )

ライセンス: Link先を確認
Erika Janitz, Mihir K. Bhaskar, and Lilian Childress(参考訳) 光子と長寿命物質量子ビットのコヒーレントな界面は、幅広い量子技術にとって重要な資源となっている。 キャビティ量子電磁力学(cqed)は、キャビティに閉じ込められた光子と個々のエミッタとの相互作用を強化することによって、そのようなインターフェースを実現するための経路を提供する。 過去20年にわたって、ダイヤモンドの欠陥中心に基づく有望な新しいエミッターが出現し、長いスピンコヒーレンス時間と原子に似た光遷移が組み合わされた。 近年、光共振器技術の進歩により、ダイヤモンドにおけるcQEDの実現が可能になった。 本稿では,ダイヤモンドと光共振器のカラーセンターの結合に向けた進展を概観し,量子ネットワークと互換性のあるアプローチに焦点をあてる。 固体エミッタを用いたcqedの課題を考察し、マイクロンスケールファブリペロキャビティとダイヤモンドナノフォトニックキャビティの2つの定性的な異なる共振器設計を検討する前に、ダイヤモンド欠陥中心の関連特性を紹介する。 それぞれのアプローチについて,基礎となる理論と製作を考察し,強みと優れた課題を議論し,最先端の実験を強調する。

Coherent interfaces between optical photons and long-lived matter qubits form a key resource for a broad range of quantum technologies. Cavity quantum electrodynamics (cQED) offers a route to achieve such an interface by enhancing interactions between cavity-confined photons and individual emitters. Over the last two decades, a promising new class of emitters based on defect centers in diamond have emerged, combining long spin coherence times with atom-like optical transitions. More recently, advances in optical resonator technologies have made it feasible to realize cQED in diamond. This article reviews progress towards coupling color centers in diamond to optical resonators, focusing on approaches compatible with quantum networks. We consider the challenges for cQED with solid-state emitters and introduce the relevant properties of diamond defect centers before examining two qualitatively different resonator designs: micron-scale Fabry-Perot cavities and diamond nanophotonic cavities. For each approach, we examine the underlying theory and fabrication, discuss strengths and outstanding challenges, and highlight state-of-the-art experiments.
翻訳日:2023-04-17 10:38:40 公開日:2021-01-07
# CHAOS チャレンジ-CT-MRを併用した腹部組織分離

CHAOS Challenge -- Combined (CT-MR) Healthy Abdominal Organ Segmentation ( http://arxiv.org/abs/2001.06535v3 )

ライセンス: Link先を確認
A. Emre Kavur, N. Sinem Gezer, Mustafa Bar{\i}\c{s}, Sinem Aslan, Pierre-Henri Conze, Vladimir Groza, Duc Duy Pham, Soumick Chatterjee, Philipp Ernst, Sava\c{s} \"Ozkan, Bora Baydar, Dmitry Lachinov, Shuo Han, Josef Pauli, Fabian Isensee, Matthias Perkonigg, Rachana Sathish, Ronnie Rajan, Debdoot Sheet, Gurbandurdy Dovletov, Oliver Speck, Andreas N\"urnberger, Klaus H. Maier-Hein, G\"ozde Bozda\u{g}{\i} Akar, G\"ozde \"Unal, O\u{g}uz Dicle, M. Alper Selver(参考訳) 腹部臓器のセグメンテーションは、長年にわたって包括的かつ未解決の研究分野であった。 過去10年間で、ディープラーニング(DL)の発展は、新しい最先端のセグメンテーションシステムを導入してきた。 これらのトピックに関する知識の拡大を目的として,ieee international symposium on biomedical imaging (isbi, 2019) とともに,イタリアのヴェネチアにおいて,ct-mr(chaos- combined) health abdominal organ segmentation challenge が開催されている。 CHAOSは、健常者からの腹部CTとMRデータの両方を提供し、腹腔内臓器の分節化を図っている。 5つの異なる補完的なタスクは、複数の視点から現在のアプローチの能力を分析するように設計されている。 この結果は手動のアノテーションやインタラクティブな手法と比較して徹底的に研究されている。 分析の結果、単一モダリティ(CT/MR)のDLモデルの性能は信頼性の高いボリューム分析性能(DICE: 0.98 $\pm$ 0.00 / 0.95 $\pm$ 0.01)を示すが、最高のMSSD性能は21.89 $\pm$ 13.94 / 20.85 $\pm$ 10.63 mm)にとどまった。 DICE: 0.88 $\pm$ 0.15 MSSD: 36.33 $\pm$ 21.97 mm) と全ての臓器(DICE: 0.85 $\pm$ 0.21 MSSD: 33.17 $\pm$ 38.93 mm)において、参加モデルのパフォーマンスは大幅に低下する。 異なる応用例にもかかわらず、全ての臓器を分割するように設計されたマルチタスクdlモデルは、臓器固有のものに比べてパフォーマンスが悪く見える(パフォーマンス低下は約5\%)。 さらに、クロスモダリティセグメンテーションに関するさらなる研究の方向性は、実際の臨床応用を著しく支援するだろう。 さらに,1500名以上の参加者が参加し,論文のもうひとつの重要な貢献は,複数投稿の効果や覗き見現象などの課題組織の欠点の分析である。

Segmentation of abdominal organs has been a comprehensive, yet unresolved, research field for many years. In the last decade, intensive developments in deep learning (DL) have introduced new state-of-the-art segmentation systems. In order to expand the knowledge on these topics, the CHAOS - Combined (CT-MR) Healthy Abdominal Organ Segmentation challenge has been organized in conjunction with IEEE International Symposium on Biomedical Imaging (ISBI), 2019, in Venice, Italy. CHAOS provides both abdominal CT and MR data from healthy subjects for single and multiple abdominal organ segmentation. Five different but complementary tasks have been designed to analyze the capabilities of current approaches from multiple perspectives. The results are investigated thoroughly, compared with manual annotations and interactive methods. The analysis shows that the performance of DL models for single modality (CT / MR) can show reliable volumetric analysis performance (DICE: 0.98 $\pm$ 0.00 / 0.95 $\pm$ 0.01) but the best MSSD performance remain limited (21.89 $\pm$ 13.94 / 20.85 $\pm$ 10.63 mm). The performances of participating models decrease significantly for cross-modality tasks for the liver (DICE: 0.88 $\pm$ 0.15 MSSD: 36.33 $\pm$ 21.97 mm) and all organs (DICE: 0.85 $\pm$ 0.21 MSSD: 33.17 $\pm$ 38.93 mm). Despite contrary examples on different applications, multi-tasking DL models designed to segment all organs seem to perform worse compared to organ-specific ones (performance drop around 5\%). Besides, such directions of further research for cross-modality segmentation would significantly support real-world clinical applications. Moreover, having more than 1500 participants, another important contribution of the paper is the analysis on shortcomings of challenge organizations such as the effects of multiple submissions and peeking phenomena.
翻訳日:2023-01-10 12:53:49 公開日:2021-01-07
# List-Decodable Subspace Recovery: 多項式時間における次元独立誤差

List-Decodable Subspace Recovery: Dimension Independent Error in Polynomial Time ( http://arxiv.org/abs/2002.05139v3 )

ライセンス: Link先を確認
Ainesh Bakshi and Pravesh K. Kothari(参考訳) リスト化可能部分空間の回復において、入力は$n$ポイント$\alpha n$(ある$\alpha \ll 1/2$)の集合であり、これは分布$\mathcal{D}$と等方的ランク$r$ covariance$\Pi_*$(the \emph{inliers})から引き出される。 目標は、$\hat{\pi}$が$\pi_*$に近い候補共分散の$o(1/\alpha)$のサイズリストを復元することである。 最近の2つの独立した研究(Raghavendra-Yau, Bakshi-Kothari 2020)はこの問題に対する最初の効率的なアルゴリズムを与えた。 しかし、これらの結果は半多項ランニングタイムのコストで次元(線形に[ry] と bk に対数的に)で増加する誤差を得て、ガウス分布によって本質的に満たされる比較的厳密な条件である \emph{certizable anti-concentration} に依存する。 本研究は, より高速な固定ポリノミカルランニング時間による<emph{dimension-independent}エラーを, より限定的な分布仮定の下で行うことにより, これらの結果を改善するものである。 具体的には、$\hat{\Pi} -\Pi_*\|_F \leq O(1/\alpha)$を満たす$\hat{\Pi}$を含むリストを出力する$poly(1/\alpha) d^{O(1)}を出力する。 我々の結果は、次数 2 の多項式を持つために$\mathcal{D}$ しか必要としない。 その結果,gaussian に加えて,超立方体および q$-ary 立方体上の一様分布と,subgaussian marginals を持つ任意の積分布にも適用できる。 以前の研究(raghavendra and yau, 2020)は、そのような分布を潜在的なハードな例として認識しており、そのような分布は十分な反濃度を示すことができない。 任意の$\eta > 0$ in $d^{o(poly(1/\alpha) + \log (1/\eta))} $ time に対して、$\mathcal{d}$ が証明可能な反集中性を満たすと、より強いエラー保証が得られる。

In list-decodable subspace recovery, the input is a collection of $n$ points $\alpha n$ (for some $\alpha \ll 1/2$) of which are drawn i.i.d. from a distribution $\mathcal{D}$ with a isotropic rank $r$ covariance $\Pi_*$ (the \emph{inliers}) and the rest are arbitrary, potential adversarial outliers. The goal is to recover a $O(1/\alpha)$ size list of candidate covariances that contains a $\hat{\Pi}$ close to $\Pi_*$. Two recent independent works (Raghavendra-Yau, Bakshi-Kothari 2020) gave the first efficient algorithm for this problem. These results, however, obtain an error that grows with the dimension (linearly in [RY] and logarithmically in BK) at the cost of quasi-polynomial running time) and rely on \emph{certifiable anti-concentration} - a relatively strict condition satisfied essentially only by the Gaussian distribution. In this work, we improve on these results on all three fronts: \emph{dimension-independent} error via a faster fixed-polynomial running time under less restrictive distributional assumptions. Specifically, we give a $poly(1/\alpha) d^{O(1)}$ time algorithm that outputs a list containing a $\hat{\Pi}$ satisfying $\|\hat{\Pi} -\Pi_*\|_F \leq O(1/\alpha)$. Our result only needs $\mathcal{D}$ to have \emph{certifiably hypercontractive} degree 2 polynomials. As a result, in addition to Gaussians, our algorithm applies to the uniform distribution on the hypercube and $q$-ary cubes and arbitrary product distributions with subgaussian marginals. Prior work (Raghavendra and Yau, 2020) had identified such distributions as potential hard examples as such distributions do not exhibit strong enough anti-concentration. When $\mathcal{D}$ satisfies certifiable anti-concentration, we obtain a stronger error guarantee of $\|\hat{\Pi}-\Pi_*\|_F \leq \eta$ for any arbitrary $\eta > 0$ in $d^{O(poly(1/\alpha) + \log (1/\eta))}$ time.
翻訳日:2023-01-01 19:46:57 公開日:2021-01-07
# 弱信号に対する情報ベイズニューラルネットワークの事前予測

Informative Bayesian Neural Network Priors for Weak Signals ( http://arxiv.org/abs/2002.10243v2 )

ライセンス: Link先を確認
Tianyu Cui, Aki Havulinna, Pekka Marttinen, Samuel Kaski(参考訳) ニューラルネットワークの高次元重み空間上での事前知識のエンコーディングは難しいが、限られたデータと弱い信号を扱うアプリケーションでは必須である。 ドメイン知識の2つのタイプは科学的応用で一般的に利用可能である。 1. 特徴の空間性(関係とみなす特徴の分断) 2. 信号対雑音比は、例えば、分散の比率(PVE)として定量化される。 本稿では,2種類のドメイン知識を,自動関連度決定によるガウス規模混合にエンコードする方法を示す。 具体的には,特徴スパーシティに関する知識をエンコードする局所的(すなわち特徴特異的)スケールパラメータに先行する新しいジョイントと,モデルpveに誘導される分布が事前分布に一致するようにハイパーパラメータをチューニングするためのスタイン勾配最適化を提案する。 提案手法は,いくつかの公開データセットや,信号が弱く疎外であり,ハイパーパラメータチューニングのための計算集約的なクロスバリデーションよりも優れる遺伝学アプリケーションにおいて,既存のニューラルネットワークよりも予測精度が向上することを示す。

Encoding domain knowledge into the prior over the high-dimensional weight space of a neural network is challenging but essential in applications with limited data and weak signals. Two types of domain knowledge are commonly available in scientific applications: 1. feature sparsity (fraction of features deemed relevant); 2. signal-to-noise ratio, quantified, for instance, as the proportion of variance explained (PVE). We show how to encode both types of domain knowledge into the widely used Gaussian scale mixture priors with Automatic Relevance Determination. Specifically, we propose a new joint prior over the local (i.e., feature-specific) scale parameters that encodes knowledge about feature sparsity, and a Stein gradient optimization to tune the hyperparameters in such a way that the distribution induced on the model's PVE matches the prior distribution. We show empirically that the new prior improves prediction accuracy, compared to existing neural network priors, on several publicly available datasets and in a genetics application where signals are weak and sparse, often outperforming even computationally intensive cross-validation for hyperparameter tuning.
翻訳日:2022-12-29 03:01:00 公開日:2021-01-07
# 多義語の進化に関するもう1つの仮説

It Means More if It Sounds Good: Yet Another Hypothesis Concerning the Evolution of Polysemous Words ( http://arxiv.org/abs/2003.05758v2 )

ライセンス: Link先を確認
Ivan P. Yamshchikov, Cyrille Merleau Nono Saha, Igor Samenko, J\"urgen Jost(参考訳) 本稿では,言語の形成を考察し,英語における単語の構造的特性と多義性との関連性を示す。 Ollivier-Ricci曲率を同義語の大きなグラフ上で多節語を推定することで、発音し易い単語が複数の意味を持つ傾向があることを実証的に示す。

This position paper looks into the formation of language and shows ties between structural properties of the words in the English language and their polysemy. Using Ollivier-Ricci curvature over a large graph of synonyms to estimate polysemy it shows empirically that the words that arguably are easier to pronounce also tend to have multiple meanings.
翻訳日:2022-12-24 15:15:31 公開日:2021-01-07
# MIM-based GAN:情報メトリクスによる小さな確率事象の増幅 ジェネレーティブ・ディバイザ・ネットワークにおける重要度

MIM-Based GAN: Information Metric to Amplify Small Probability Events Importance in Generative Adversarial Networks ( http://arxiv.org/abs/2003.11285v2 )

ライセンス: Link先を確認
Rui She and Pingyi Fan(参考訳) GAN(Generative Adversarial Networks)の観点では、生成データを実データから識別する情報メトリクスは、生成効率の重要な点にあり、特に異常検出において、GANベースのアプリケーションにおいて重要な役割を果たす。 元のGANについては、敵ネットワークにおけるレアイベントの生成とトレーニング性能に関するKL分散に基づく隠れ情報尺度の欠点が存在する。 したがって、ganが生成能力を向上させるために使用するメトリクスを調査し、トレーニングプロセスに利益をもたらすことは重要である。 本稿では,情報測度(MIM)から引用される指数形式を採用し,元のGANの対数形式を置き換える。 このアプローチはMIMベースのGANと呼ばれ、ネットワークトレーニングやレアイベント生成のパフォーマンスが向上している。 具体的には、まず、このアプローチにおけるトレーニングプロセスの特徴について論じる。 また,理論上稀な事象を発生させることの利点も分析した。 さらに,MNIST と ODDS のデータセット上でシミュレーションを行い,MIM をベースとした GAN が,従来の GAN と比較して異常検出における最先端性能を達成できることを確認する。

In terms of Generative Adversarial Networks (GANs), the information metric to discriminate the generative data from the real data, lies in the key point of generation efficiency, which plays an important role in GAN-based applications, especially in anomaly detection. As for the original GAN, there exist drawbacks for its hidden information measure based on KL divergence on rare events generation and training performance for adversarial networks. Therefore, it is significant to investigate the metrics used in GANs to improve the generation ability as well as bring gains in the training process. In this paper, we adopt the exponential form, referred from the information measure, i.e. MIM, to replace the logarithm form of the original GAN. This approach is called MIM-based GAN, has better performance on networks training and rare events generation. Specifically, we first discuss the characteristics of training process in this approach. Moreover, we also analyze its advantages on generating rare events in theory. In addition, we do simulations on the datasets of MNIST and ODDS to see that the MIM-based GAN achieves state-of-the-art performance on anomaly detection compared with some classical GANs.
翻訳日:2022-12-20 03:16:37 公開日:2021-01-07
# 集合的観察から学ぶ

Learning from Aggregate Observations ( http://arxiv.org/abs/2004.06316v3 )

ライセンス: Link先を確認
Yivan Zhang, Nontawat Charoenphakdee, Zhenguo Wu, Masashi Sugiyama(参考訳) 本研究では,個別のインスタンスではなく,インスタンス群に対して監視信号が与えられている場合の総合観測から学習する問題について検討する。 有名な例として、Multiple Case Learning (MIL)がある。 本稿では、MILを二項分類を超えて、マルチクラス分類や回帰といった他の問題に拡張する。 本稿では,分類のためのペアワイズ類似性/トリプレット比較や回帰のための平均/差分/ランク観測など,様々な集計観測に対応する一般的な確率的枠組みを提案する。 単純な極大解は、ディープニューラルネットワークや勾配ブースティングマシンのような様々な微分可能なモデルに適用できる。 さらに、同値関係まで整合性の概念を発展させ、推定器を特徴づけ、穏やかな仮定の下で優れた収束特性を持つことを示す。 三重項比較による分類と平均/ランク観察による回帰は,提案手法の有効性を示す。

We study the problem of learning from aggregate observations where supervision signals are given to sets of instances instead of individual instances, while the goal is still to predict labels of unseen individuals. A well-known example is multiple instance learning (MIL). In this paper, we extend MIL beyond binary classification to other problems such as multiclass classification and regression. We present a general probabilistic framework that accommodates a variety of aggregate observations, e.g., pairwise similarity/triplet comparison for classification and mean/difference/rank observation for regression. Simple maximum likelihood solutions can be applied to various differentiable models such as deep neural networks and gradient boosting machines. Moreover, we develop the concept of consistency up to an equivalence relation to characterize our estimator and show that it has nice convergence properties under mild assumptions. Experiments on three problem settings -- classification via triplet comparison and regression via mean/rank observation indicate the effectiveness of the proposed method.
翻訳日:2022-12-13 08:55:54 公開日:2021-01-07
# 情報化ネットワークにおけるインフルエンシャルアクターの自動検出

Automatic Detection of Influential Actors in Disinformation Networks ( http://arxiv.org/abs/2005.10879v3 )

ライセンス: Link先を確認
Steven T. Smith, Edward K. Kao, Erika D. Mackin, Danelle C. Shah, Olga Simek, Donald B. Rubin(参考訳) デジタルコミュニケーションとソーシャルメディアの武器化により、大規模な、スピード、到達で偽情報キャンペーンが実施され、敵の影響力運用(IO)を識別し、対抗するための新たな課題が提示される。 本稿では,偽情報物語やネットワーク,影響力あるアクターの検出を自動化するエンドツーエンドフレームワークを提案する。 このフレームワークは自然言語処理、機械学習、グラフ分析、および新しいネットワーク因果推論アプローチを統合し、IO物語の拡散における個々のアクターの影響を定量化する。 我々は、2017年のフランス大統領選挙中に収集されたtwitterのデータセットと、twitterが2007年5月から2020年2月までの幅広いioキャンペーン(英語版)、50,000以上のアカウント、17か国、17か国、およびトロルとボットを含む異なるアカウントタイプに関して開示した、現実世界の敵対的なioキャンペーンでその能力を示す。 本システムでは,96%の精度,79%のリコール,96%のエリアアンダー・ザ・PRカーブでIOアカウントを検出し,アクティブカウントとネットワーク中心性に基づく従来のインパクト統計のレンズから逃れる高インパクトアカウントを検出する。 結果は、米国議会の報告書、調査ジャーナリズム、Twitterが提供するIOデータセットからの、既知のIOアカウントの独立したソースと相関している。

The weaponization of digital communications and social media to conduct disinformation campaigns at immense scale, speed, and reach presents new challenges to identify and counter hostile influence operations (IOs). This paper presents an end-to-end framework to automate detection of disinformation narratives, networks, and influential actors. The framework integrates natural language processing, machine learning, graph analytics, and a novel network causal inference approach to quantify the impact of individual actors in spreading IO narratives. We demonstrate its capability on real-world hostile IO campaigns with Twitter datasets collected during the 2017 French presidential elections, and known IO accounts disclosed by Twitter over a broad range of IO campaigns (May 2007 to February 2020), over 50,000 accounts, 17 countries, and different account types including both trolls and bots. Our system detects IO accounts with 96% precision, 79% recall, and 96% area-under-the-PR-curve, maps out salient network communities, and discovers high-impact accounts that escape the lens of traditional impact statistics based on activity counts and network centrality. Results are corroborated with independent sources of known IO accounts from U.S. Congressional reports, investigative journalism, and IO datasets provided by Twitter.
翻訳日:2022-11-30 23:14:08 公開日:2021-01-07
# 意味的夜間画像分割のためのマップガイド付きカリキュラム領域適応と不確実性評価

Map-Guided Curriculum Domain Adaptation and Uncertainty-Aware Evaluation for Semantic Nighttime Image Segmentation ( http://arxiv.org/abs/2005.14553v2 )

ライセンス: Link先を確認
Christos Sakaridis, Dengxin Dai, Luc Van Gool(参考訳) 夜間アノテーションを使わずに夜間モデルを夜間に適応させることにより、夜間画像のセグメンテーションの課題に対処し、その現状を改善する。 さらに,夜間画像における意味論の不確実性に対処するための新しい評価枠組みを設計する。 私たちの中心となる貢献は 1 暗黒領域におけるラベル推論の指針として、基準地図及び暗黒画像からの日中画像の相互対応を利用して、昼から夜にかけて、徐々に暗黒時間にセマンティックセグメンテーションモデルを適応させるカリキュラムの枠組み 2 原則的な方法での評価において、人間の認識能力を超えた画像領域を含む意味セグメンテーションのための新しい不確実性認識アノテーション評価フレームワーク及びメトリクス 3) the dark zurich dataset, 2416 unlabeled nighttime and 2920 unlabeled twilight images with correspondences with their daytime equivalents and a set of 201 nighttime images with fine pixel-level annotations created with our protocol, was a first benchmark for our novel evaluation。 実験により,マップガイド付きカリキュラム適応が,標準指標と不確実性対応指標の両方において,夜間集合の最先端手法を著しく上回っていることが示された。 さらに,不確実性を考慮した評価の結果,予測の選択的無効化は,ベンチマークや不正入力を含む利益安全指向のアプリケーションなど不明瞭な内容のデータに対する結果を改善することができることがわかった。

We address the problem of semantic nighttime image segmentation and improve the state-of-the-art, by adapting daytime models to nighttime without using nighttime annotations. Moreover, we design a new evaluation framework to address the substantial uncertainty of semantics in nighttime images. Our central contributions are: 1) a curriculum framework to gradually adapt semantic segmentation models from day to night through progressively darker times of day, exploiting cross-time-of-day correspondences between daytime images from a reference map and dark images to guide the label inference in the dark domains; 2) a novel uncertainty-aware annotation and evaluation framework and metric for semantic segmentation, including image regions beyond human recognition capability in the evaluation in a principled fashion; 3) the Dark Zurich dataset, comprising 2416 unlabeled nighttime and 2920 unlabeled twilight images with correspondences to their daytime counterparts plus a set of 201 nighttime images with fine pixel-level annotations created with our protocol, which serves as a first benchmark for our novel evaluation. Experiments show that our map-guided curriculum adaptation significantly outperforms state-of-the-art methods on nighttime sets both for standard metrics and our uncertainty-aware metric. Furthermore, our uncertainty-aware evaluation reveals that selective invalidation of predictions can improve results on data with ambiguous content such as our benchmark and profit safety-oriented applications involving invalid inputs.
翻訳日:2022-11-27 05:27:41 公開日:2021-01-07
# 深部ニューラルネットワーク訓練のための準ニュートン法

Practical Quasi-Newton Methods for Training Deep Neural Networks ( http://arxiv.org/abs/2006.08877v3 )

ライセンス: Link先を確認
Donald Goldfarb, Yi Ren, Achraf Bahamou(参考訳) 本研究は,応用確率的準ニュートン,特にKronecker-factored block-diagonal BFGSおよびL-BFGS法による深層ニューラルネットワーク(DNN)の訓練手法の開発について考察する。 DNNトレーニングでは、勾配$n$の変数と成分の数はしばしば数千万の順序のものであり、ヘッセン元は$n^2$要素を持つ。 したがって、L-BFGS実装で使用する、完全な$n \times n$ BFGS近似の計算と保存、あるいは、控えめな数の(ステップ、勾配の変化)ベクトル対の保存は問題外である。 提案手法では, ブロック対角行列によりヘッシアンを近似し, 勾配とヘッシアンの構造を用いてこれらのブロックをさらに近似する。 これはKFACのアプローチに類似しており、Kronecker によるブロック対角近似を確率的自然勾配法でフィッシャー行列に計算する。 DNNにおけるヘシアンの不確定かつ高度に可変な性質のため、BFGSとL-BFGSの近似の上限と下限を有界に保つための新しい減衰法も提案する。 3つのデータセットに9層または13層を適用したオートエンコーダフィードフォワードニューラルネットワークモデルのテストでは、kfacおよび最先端の1次確率的手法に比較して提案手法が適用可能であった。

We consider the development of practical stochastic quasi-Newton, and in particular Kronecker-factored block-diagonal BFGS and L-BFGS methods, for training deep neural networks (DNNs). In DNN training, the number of variables and components of the gradient $n$ is often of the order of tens of millions and the Hessian has $n^2$ elements. Consequently, computing and storing a full $n \times n$ BFGS approximation or storing a modest number of (step, change in gradient) vector pairs for use in an L-BFGS implementation is out of the question. In our proposed methods, we approximate the Hessian by a block-diagonal matrix and use the structure of the gradient and Hessian to further approximate these blocks, each of which corresponds to a layer, as the Kronecker product of two much smaller matrices. This is analogous to the approach in KFAC, which computes a Kronecker-factored block-diagonal approximation to the Fisher matrix in a stochastic natural gradient method. Because the indefinite and highly variable nature of the Hessian in a DNN, we also propose a new damping approach to keep the upper as well as the lower bounds of the BFGS and L-BFGS approximations bounded. In tests on autoencoder feed-forward neural network models with either nine or thirteen layers applied to three datasets, our methods outperformed or performed comparably to KFAC and state-of-the-art first-order stochastic methods.
翻訳日:2022-11-20 19:53:16 公開日:2021-01-07
# DOME:生物学における教師あり機械学習検証の勧告

DOME: Recommendations for supervised machine learning validation in biology ( http://arxiv.org/abs/2006.16189v4 )

ライセンス: Link先を確認
Ian Walsh, Dmytro Fishman, Dario Garcia-Gasulla, Tiina Titma, Gianluca Pollastri, The ELIXIR Machine Learning focus group, Jen Harrow, Fotis E. Psomopoulos and Silvio C.E. Tosatto(参考訳) 現代の生物学は、しばしば予測を提供し、意思決定プロセスを改善するために機械学習に依存している。 機械学習のパフォーマンスと潜在的な制限について、より精査を求める声が最近あった。 本稿では,生物学における機械学習の検証基準の確立を目的とした,コミュニティ全体の勧告のセットを提案する。 データ、最適化、モデル、評価(dome:structured methods description for machine learning based based data, optimization, model, evaluation)は、レビュアーと読者の両方が、メソッドや結果のパフォーマンスと限界を理解し、評価することを目的としている。 推奨事項は、機械学習アルゴリズムの実装を追求したい人なら誰でも質問として定式化される。 これらの質問に対する回答は、出版論文の補足資料に簡単に含めることができる。

Modern biology frequently relies on machine learning to provide predictions and improve decision processes. There have been recent calls for more scrutiny on machine learning performance and possible limitations. Here we present a set of community-wide recommendations aiming to help establish standards of supervised machine learning validation in biology. Adopting a structured methods description for machine learning based on data, optimization, model, evaluation (DOME) will aim to help both reviewers and readers to better understand and assess the performance and limitations of a method or outcome. The recommendations are formulated as questions to anyone wishing to pursue implementation of a machine learning algorithm. Answers to these questions can be easily included in the supplementary material of published papers.
翻訳日:2022-11-17 04:32:05 公開日:2021-01-07
# 多様な知識蒸留(dkd) : 敵対的攻撃に対するアンサンブルモデルのロバスト性向上のための解法

Diverse Knowledge Distillation (DKD): A Solution for Improving The Robustness of Ensemble Models Against Adversarial Attacks ( http://arxiv.org/abs/2006.15127v3 )

ライセンス: Link先を確認
Ali Mirzaeian, Jana Kosecka, Houman Homayoun, Tinoosh Mohsenin, Avesta Sasan(参考訳) 本稿では,敵攻撃に抵抗するアンサンブル学習モデルを提案する。 レジリエンスを構築するために、各メンバが根本的に異なる潜在空間を学習するトレーニングプロセスを導入しました。 メンバーモデルは一度に1つずつアンサンブルに追加される。 同時に、損失関数は、逆知識蒸留により制御され、新しい部材は、異なる特徴を学習させ、既存の部材から安全に離れた潜伏空間にマップする。 CIFAR10およびMNISTデータセットを用いて,画像分類タスクにおける提案手法のセキュリティと性能を評価し,アートディフェンス法と比較すると,セキュリティと性能が向上した。

This paper proposes an ensemble learning model that is resistant to adversarial attacks. To build resilience, we introduced a training process where each member learns a radically distinct latent space. Member models are added one at a time to the ensemble. Simultaneously, the loss function is regulated by a reverse knowledge distillation, forcing the new member to learn different features and map to a latent space safely distanced from those of existing members. We assessed the security and performance of the proposed solution on image classification tasks using CIFAR10 and MNIST datasets and showed security and performance improvement compared to the state of the art defense methods.
翻訳日:2022-11-16 22:16:18 公開日:2021-01-07
# AvE: エンパワーメントによる支援

AvE: Assistance via Empowerment ( http://arxiv.org/abs/2006.14796v5 )

ライセンス: Link先を確認
Yuqing Du, Stas Tiomkin, Emre Kiciman, Daniel Polani, Pieter Abbeel, Anca Dragan(参考訳) 人工エージェントを人間の補助的応用に使用することの難しさは、人の目標を正確に支援することにある。 既存の手法は人間の目標の推測に頼りがちであり、多くの潜在的な目標がある場合や、候補となる目標のセットを特定するのが難しい場合には困難である。 本研究では,環境制御能力を高めることで支援のための新しいパラダイムを提案し,強化学習を人間のエンパワーメントで強化することでそのアプローチを定式化する。 このタスク非依存の目標は、人の自律性と最終的な状態を達成する能力を維持する。 我々は,目標の曖昧さや不特定性から生じる障害モードを克服するシナリオを強調し,目標推定に基づく支援に対するアプローチをテストする。 連続領域におけるエンパワーメントを推定する既存の手法は、リアルタイムの学習支援での使用を除いて計算が困難であるため、効率的なエンパワーメントに着想を得たプロキシメトリックも提案する。 そこで,この手法を共有自律型ユーザスタディで実証し,人・人・ループ訓練による遠隔操作課題に挑戦することに成功した。

One difficulty in using artificial agents for human-assistive applications lies in the challenge of accurately assisting with a person's goal(s). Existing methods tend to rely on inferring the human's goal, which is challenging when there are many potential goals or when the set of candidate goals is difficult to identify. We propose a new paradigm for assistance by instead increasing the human's ability to control their environment, and formalize this approach by augmenting reinforcement learning with human empowerment. This task-agnostic objective preserves the person's autonomy and ability to achieve any eventual state. We test our approach against assistance based on goal inference, highlighting scenarios where our method overcomes failure modes stemming from goal ambiguity or misspecification. As existing methods for estimating empowerment in continuous domains are computationally hard, precluding its use in real time learned assistance, we also propose an efficient empowerment-inspired proxy metric. Using this, we are able to successfully demonstrate our method in a shared autonomy user study for a challenging simulated teleoperation task with human-in-the-loop training.
翻訳日:2022-11-16 21:32:28 公開日:2021-01-07
# 条件付き分類:計算エネルギー削減のための解法

Conditional Classification: A Solution for Computational Energy Reduction ( http://arxiv.org/abs/2006.15799v3 )

ライセンス: Link先を確認
Ali Mirzaeian, Sai Manoj, Ashkan Vakil, Houman Homayoun, Avesta Sasan(参考訳) 深い畳み込みニューラルネットワークは、コンピュータビジョンや他の応用において高い効率を示す。 しかし,ネットワーク深度の増加に伴い,計算複雑性は指数関数的に増大している。 本稿では,多くのクラス画像分類に使用される畳み込みニューラルネットワークモデルの計算複雑性を低減するための新しい手法を提案する。 提案手法は,分類タスクを2段階に分割する。 1) 入力サンプルが一連の超クラスに分類される粗粒分類。 2)第1段階で検出されたハイパークラスのうち最終ラベルが予測される細粒度分類。 提案する分類器は,画像分類に必要な部分のみを活性化することにより,計算量(フロップ数)の少ない最良なクラス分類モデルによって報告される精度のレベルに到達できることを示す。

Deep convolutional neural networks have shown high efficiency in computer visions and other applications. However, with the increase in the depth of the networks, the computational complexity is growing exponentially. In this paper, we propose a novel solution to reduce the computational complexity of convolutional neural network models used for many class image classification. Our proposed technique breaks the classification task into two steps: 1) coarse-grain classification, in which the input samples are classified among a set of hyper-classes, 2) fine-grain classification, in which the final labels are predicted among those hyper-classes detected at the first step. We illustrate that our proposed classifier can reach the level of accuracy reported by the best in class classification models with less computational complexity (Flop Count) by only activating parts of the model that are needed for the image classification.
翻訳日:2022-11-15 13:37:58 公開日:2021-01-07
# 逆問題における2レベルデータ駆動学習の一貫性解析

Consistency analysis of bilevel data-driven learning in inverse problems ( http://arxiv.org/abs/2007.02677v2 )

ライセンス: Link先を確認
Neil K. Chada, Claudia Schillings, Xin T. Tong and Simon Weissmann(参考訳) 逆問題を解決する際の根本的な問題は正規化パラメータを見つける方法である。 本稿では,データ駆動二レベル最適化によるこの問題,すなわち最適化によるデータからの正規化パラメータの適応学習について検討する。 このアプローチは,経験的リスク最小化問題の解法として解釈でき,一般非線形問題に対する大規模データサンプルサイズ制限での性能解析を行う。 線形逆問題に対する我々のフレームワークの実装方法を実証し、その逆精度が周囲空間次元に依存しないことを示す。 関連する計算コストを削減するため、確率勾配降下法を用いてオンライン数値スキームを導出する。 我々は,これらの数値スキームの収束性を,前方問題に対する適切な仮定の下で証明する。 数値実験により, ダシー流, 固有方程式, 画像のデノージング例など, 線形および非線形逆問題に対する提案手法の適用可能性と有効性を示す数値実験を行った。

One fundamental problem when solving inverse problems is how to find regularization parameters. This article considers solving this problem using data-driven bilevel optimization, i.e. we consider the adaptive learning of the regularization parameter from data by means of optimization. This approach can be interpreted as solving an empirical risk minimization problem, and we analyze its performance in the large data sample size limit for general nonlinear problems. We demonstrate how to implement our framework on linear inverse problems, where we can further show the inverse accuracy does not depend on the ambient space dimension. To reduce the associated computational cost, online numerical schemes are derived using the stochastic gradient descent method. We prove convergence of these numerical schemes under suitable assumptions on the forward problem. Numerical experiments are presented illustrating the theoretical results and demonstrating the applicability and efficiency of the proposed approaches for various linear and nonlinear inverse problems, including Darcy flow, the eikonal equation, and an image denoising example.
翻訳日:2022-11-13 03:19:31 公開日:2021-01-07
# グラフ畳み込みネットワークの分散トレーニング

Distributed Training of Graph Convolutional Networks ( http://arxiv.org/abs/2007.06281v2 )

ライセンス: Link先を確認
Simone Scardapane, Indro Spinelli, Paolo Di Lorenzo(参考訳) この研究の目的は、グラフ畳み込みネットワーク(gcns)を訓練するための完全分散アルゴリズムフレームワークを開発することである。 提案手法は,スパースネットワークトポロジ上で通信するエージェントの集合によって収集される入力データの有意義な関係構造を利用することができる。 集中型GCNトレーニング問題を定式化した後、まず、基礎となるデータグラフを異なるエージェントに分割した分散シナリオで推論する方法を示す。 そこで我々は,GCN学習問題を解くために,分散勾配降下法を提案する。 得られたモデルは、推論中、バックプロパゲーション中、最適化中、という3つの行に沿って計算を分散する。 また, 温和条件下でのGCNトレーニング問題の定常解の収束性も確立した。 最後に,データ関係を記述するグラフと一致するようにエージェント間の通信トポロジを設計するための最適化基準を提案する。 幅広い数値的な結果が我々の提案を裏付ける。 私たちの知る限りでは、グラフ畳み込みニューラルネットワークと分散最適化を組み合わせた最初の作業です。

The aim of this work is to develop a fully-distributed algorithmic framework for training graph convolutional networks (GCNs). The proposed method is able to exploit the meaningful relational structure of the input data, which are collected by a set of agents that communicate over a sparse network topology. After formulating the centralized GCN training problem, we first show how to make inference in a distributed scenario where the underlying data graph is split among different agents. Then, we propose a distributed gradient descent procedure to solve the GCN training problem. The resulting model distributes computation along three lines: during inference, during back-propagation, and during optimization. Convergence to stationary solutions of the GCN training problem is also established under mild conditions. Finally, we propose an optimization criterion to design the communication topology between agents in order to match with the graph describing data relationships. A wide set of numerical results validate our proposal. To the best of our knowledge, this is the first work combining graph convolutional neural networks with distributed optimization.
翻訳日:2022-11-10 22:29:43 公開日:2021-01-07
# 時間反転対称odeネットワーク

Time-Reversal Symmetric ODE Network ( http://arxiv.org/abs/2007.11362v3 )

ライセンス: Link先を確認
In Huh, Eunho Yang, Sung Ju Hwang, Jinwoo Shin(参考訳) 時間反転対称性(英: Time-reversal symmetric)は、系の力学が時間軸の反転によって変化しないことを要求するもので、古典力学や量子力学においてしばしば保持される基本的な性質である。 本稿では,我々の常微分方程式(ODE)ネットワークがこの時間-逆対称性にどの程度よく適合しているかを測定する新しい損失関数を提案する。 そして,提案した損失関数を用いて学習することで,物理系の力学をより効率的に学習できる,時間反転対称性ODEネットワーク (TRS-ODEN) と呼ばれる新しいフレームワークを設計する。 いくつかの古典力学でTRS-ODENを評価し,観測された雑音や複雑な軌道から所望の時間進化を学習できることを示した。 また, TRS-ODEN は, 時間反転対称性を完全に持たないシステムであっても, ベースラインよりも優れた予測性能が得られることを示す。

Time-reversal symmetry, which requires that the dynamics of a system should not change with the reversal of time axis, is a fundamental property that frequently holds in classical and quantum mechanics. In this paper, we propose a novel loss function that measures how well our ordinary differential equation (ODE) networks comply with this time-reversal symmetry; it is formally defined by the discrepancy in the time evolutions of ODE networks between forward and backward dynamics. Then, we design a new framework, which we name as Time-Reversal Symmetric ODE Networks (TRS-ODENs), that can learn the dynamics of physical systems more sample-efficiently by learning with the proposed loss function. We evaluate TRS-ODENs on several classical dynamics, and find they can learn the desired time evolution from observed noisy and complex trajectories. We also show that, even for systems that do not possess the full time-reversal symmetry, TRS-ODENs can achieve better predictive performances over baselines.
翻訳日:2022-11-07 22:21:04 公開日:2021-01-07
# 報酬型事前学習による低次元状態表現学習

Low Dimensional State Representation Learning with Reward-shaped Priors ( http://arxiv.org/abs/2007.16044v2 )

ライセンス: Link先を確認
Nicol\`o Botteghi, Ruben Obbink, Daan Geijs, Mannes Poel, Beril Sirmacek, Christoph Brune, Abeje Mersha and Stefano Stramigioli(参考訳) 強化学習は、機能工学をエンドツーエンドで必要とせずに、多くの複雑なロボティクスタスクを解決できる。 しかし、知覚入力、すなわち観察から直接最適なポリシーを学ぶには、膨大な量のデータの処理と保存が必要となる。 ロボット工学の文脈では、実際のロボティクスハードウェアからのデータのコストは通常非常に高く、高いサンプル効率を実現するソリューションが必要である。 観測結果から低次元状態空間への写像の学習を目的とした手法を提案する。 このマッピングは、環境とタスクの事前知識を組み込んだ損失関数を用いて教師なし学習によって学習される。 状態空間からのサンプルを用いて、最適なポリシーを迅速かつ効率的に学習する。 本手法は,シミュレーション環境における移動ロボットナビゲーションタスクおよび実ロボット上でのテストを行う。

Reinforcement Learning has been able to solve many complicated robotics tasks without any need for feature engineering in an end-to-end fashion. However, learning the optimal policy directly from the sensory inputs, i.e the observations, often requires processing and storage of a huge amount of data. In the context of robotics, the cost of data from real robotics hardware is usually very high, thus solutions that achieve high sample-efficiency are needed. We propose a method that aims at learning a mapping from the observations into a lower-dimensional state space. This mapping is learned with unsupervised learning using loss functions shaped to incorporate prior knowledge of the environment and the task. Using the samples from the state space, the optimal policy is quickly and efficiently learned. We test the method on several mobile robot navigation tasks in a simulation environment and also on a real robot.
翻訳日:2022-11-05 19:34:03 公開日:2021-01-07
# 終端から終端までのプロジェクター補償

End-to-end Full Projector Compensation ( http://arxiv.org/abs/2008.00965v3 )

ライセンス: Link先を確認
Bingyao Huang, Tao Sun, Haibin Ling(参考訳) 完全なプロジェクタ補償は、投影面の幾何学的および測光的乱れを補償するためにプロジェクタ入力画像を変更することを目的としている。 伝統的な方法は通常2つの部分を別々に解き、最適でない解に悩まされる。 本稿では,この2つの問題を共同で解くために,compennest++ という,エンドツーエンドの微分可能な最初のソリューションを提案する。 まず, 画像サンプリングから直接サンプリンググリッドを学習するために, カスケードした粗粒間構造を持つ新しい幾何補正サブネットwarpingnetを提案する。 第2に,射影面と投影像との測光相互作用を捉え,その情報を用いて幾何学的に補正された画像の補正を行うため,siamese アーキテクチャで設計した compennest という新しい測光補償サブネットを提案する。 WarpingNetをCompenNeStと結合することで、CompenNeSt++は完全なプロジェクタ補償を達成し、エンドツーエンドのトレーニングが可能である。 第3に,実践性を向上させるために,トレーニング画像数とトレーニング時間を大幅に削減する,新しい合成データに基づく事前学習戦略を提案する。 さらに,今後の研究を促進するために,最初のセットアップ独立型フル補償ベンチマークを構築した。 徹底的な実験において,提案手法は,有望な補償品質と実用的有用性を有する先行技術よりも明らかな優位性を示す。

Full projector compensation aims to modify a projector input image to compensate for both geometric and photometric disturbance of the projection surface. Traditional methods usually solve the two parts separately and may suffer from suboptimal solutions. In this paper, we propose the first end-to-end differentiable solution, named CompenNeSt++, to solve the two problems jointly. First, we propose a novel geometric correction subnet, named WarpingNet, which is designed with a cascaded coarse-to-fine structure to learn the sampling grid directly from sampling images. Second, we propose a novel photometric compensation subnet, named CompenNeSt, which is designed with a siamese architecture to capture the photometric interactions between the projection surface and the projected images, and to use such information to compensate the geometrically corrected images. By concatenating WarpingNet with CompenNeSt, CompenNeSt++ accomplishes full projector compensation and is end-to-end trainable. Third, to improve practicability, we propose a novel synthetic data-based pre-training strategy to significantly reduce the number of training images and training time. Moreover, we construct the first setup-independent full compensation benchmark to facilitate future studies. In thorough experiments, our method shows clear advantages over prior art with promising compensation quality and meanwhile being practically convenient.
翻訳日:2022-11-05 14:34:54 公開日:2021-01-07
# 胸部x線写真における肺浮腫の定量化のための深層学習

Deep Learning to Quantify Pulmonary Edema in Chest Radiographs ( http://arxiv.org/abs/2008.05975v2 )

ライセンス: Link先を確認
Steven Horng, Ruizhi Liao, Xin Wang, Sandeep Dalal, Polina Golland, Seth J Berkowitz(参考訳) 目的:胸部x線写真における肺浮腫重症度を分類する機械学習モデルを開発すること。 資料と方法: 胸部x線写真369,071例と,64,581例(平均年齢51.71例,女性54.51%例)の胸部x線写真データを用いて検討した。 このデータセットは、心不全(CHF)を伴わない患者に分割された。 肺浮腫の重症度は,CHF患者から0,非浮腫,1,血管詰まり,2,間質浮腫,3,肺胞浮腫の4つの異なる順に抽出された。 ディープラーニングモデルは,変分オートエンコーダを用いた半教師付きモデルと,高密度ニューラルネットワークを用いた事前訓練型教師付き学習モデルという2つのアプローチを用いて開発された。 両モデルとも受信機動作特性曲線解析を行った。 結果: 歯槽浮腫と非浮腫を鑑別するためのレシーバ操作特性曲線(AUC)の面積は, 半教師モデルでは0.99, 事前訓練モデルでは0.87であった。 2対0, 0.88, 0.81; 1対0, 0.79, 0.66; 3対1, 0.93, 0.82; 2対1, 0.69, 0.73; 3対2, 0.88, 0.63; 肺浮腫の軽度の状態の分類が困難であった。 結論: 深層学習モデルは胸部X線写真データセットを用いて訓練し, 肺浮腫の重症度を高い成績で評価することができた。

Purpose: To develop a machine learning model to classify the severity grades of pulmonary edema on chest radiographs. Materials and Methods: In this retrospective study, 369,071 chest radiographs and associated radiology reports from 64,581 (mean age, 51.71; 54.51% women) patients from the MIMIC-CXR chest radiograph dataset were included. This dataset was split into patients with and without congestive heart failure (CHF). Pulmonary edema severity labels from the associated radiology reports were extracted from patients with CHF as four different ordinal levels: 0, no edema; 1, vascular congestion; 2, interstitial edema; and 3, alveolar edema. Deep learning models were developed using two approaches: a semi-supervised model using a variational autoencoder and a pre-trained supervised learning model using a dense neural network. Receiver operating characteristic curve analysis was performed on both models. Results: The area under the receiver operating characteristic curve (AUC) for differentiating alveolar edema from no edema was 0.99 for the semi-supervised model and 0.87 for the pre-trained models. Performance of the algorithm was inversely related to the difficulty in categorizing milder states of pulmonary edema (shown as AUCs for semi-supervised model and pre-trained model, respectively): 2 versus 0, 0.88 and 0.81; 1 versus 0, 0.79 and 0.66; 3 versus 1, 0.93 and 0.82; 2 versus 1, 0.69 and 0.73; and, 3 versus 2, 0.88 and 0.63. Conclusion: Deep learning models were trained on a large chest radiograph dataset and could grade the severity of pulmonary edema on chest radiographs with high performance.
翻訳日:2022-10-30 23:48:46 公開日:2021-01-07
# 都市構成の再考--敵対的学習による都市計画の自動化

Reimagining City Configuration: Automated Urban Planning via Adversarial Learning ( http://arxiv.org/abs/2008.09912v2 )

ライセンス: Link先を確認
Dongjie Wang, Yanjie Fu, Pengyang Wang, Bo Huang, Chang-Tien Lu(参考訳) 都市計画は、土地利用形態を設計する努力を指す。 効果的な都市計画は、高い税、犯罪、交通渋滞と事故、公害、抑うつ、不安といった都市システムの運用的および社会的脆弱性を軽減するのに役立つ。 都市システムの複雑さが高いため、こうした仕事はプロのプランナーによってほとんど完了している。 しかし、人間のプランナーは時間がかかる。 機械は自動的かつ迅速に土地利用構成を計算できる人間の能力で学習できるので、人間プランナーは最終的に特定のニーズのためにマシン生成計画を調整することができるだろうか? この目的のために,都市の自動計画問題を,周囲の空間的文脈を考慮した土地利用設定の学習課題に定式化する。 タスクをセットアップするために、ランドユース構成を、各チャンネルがPOIのカテゴリであり、エントリの値がPOIの数である経度勾配チャネルテンソルとして定義する。 その目的は、計画外の領域に対してそのようなテンソルを自動的に生成できる、敵対的学習フレームワークを提案することである。 特に,まず,地理的・人的移動度データを用いて空間グラフから表現を学習することで,未計画領域の周辺領域の文脈を特徴付ける。 第2に、各未計画領域とその周囲の文脈表現をタプルとして結合し、すべてのタプルを正(よく計画された領域)と負のサンプル(しばしば計画された領域)に分類する。 第3に,周囲の文脈表現を生成器に供給して土地利用構成を生成し,判別者が正と負のサンプルを区別することを学ぶ,敵対的土地利用構成手法を開発する。

Urban planning refers to the efforts of designing land-use configurations. Effective urban planning can help to mitigate the operational and social vulnerability of a urban system, such as high tax, crimes, traffic congestion and accidents, pollution, depression, and anxiety. Due to the high complexity of urban systems, such tasks are mostly completed by professional planners. But, human planners take longer time. The recent advance of deep learning motivates us to ask: can machines learn at a human capability to automatically and quickly calculate land-use configuration, so human planners can finally adjust machine-generated plans for specific needs? To this end, we formulate the automated urban planning problem into a task of learning to configure land-uses, given the surrounding spatial contexts. To set up the task, we define a land-use configuration as a longitude-latitude-channel tensor, where each channel is a category of POIs and the value of an entry is the number of POIs. The objective is then to propose an adversarial learning framework that can automatically generate such tensor for an unplanned area. In particular, we first characterize the contexts of surrounding areas of an unplanned area by learning representations from spatial graphs using geographic and human mobility data. Second, we combine each unplanned area and its surrounding context representation as a tuple, and categorize all the tuples into positive (well-planned areas) and negative samples (poorly-planned areas). Third, we develop an adversarial land-use configuration approach, where the surrounding context representation is fed into a generator to generate a land-use configuration, and a discriminator learns to distinguish among positive and negative samples.
翻訳日:2022-10-26 07:48:06 公開日:2021-01-07
# 高分解能空中画像とDEMに基づく洪水物質マッピング:隠れマルコフ木アプローチ

Flood Extent Mapping based on High Resolution Aerial Imagery and DEM: A Hidden Markov Tree Approach ( http://arxiv.org/abs/2008.11230v2 )

ライセンス: Link先を確認
Zhe Jiang, Arpan Man Sainju(参考訳) 洪水拡大地図は災害管理と国家水量予測において重要な役割を担っている。 近年、多くの小型衛星やドローンが配備され、高解像度の光学画像が利用できるようになる。 しかし, 浸水範囲を抽出するための画像データの解析は, 豊かな騒音や影, 障害物(樹冠, 雲など), 空間的不均一性によるピクセルクラス(フッド, ドライ)間のスペクトルの混乱など, ユニークな課題を生じさせる。 既存の機械学習技術は、分類モデルに地形を完全に組み込むことなく、ラスタ画像からのスペクトルと空間の特徴に焦点を当てることが多い。 これとは対照的に,我々は最近,デジタル標高モデル(dem)データ(すなわち水流方向)からピクセルのスペクトル特徴と地形制約を総合的に統合した,地理的隠れマルコフ木と呼ばれる新しい機械学習モデルを提案した。 本稿では,国立海洋大気庁(NOAA)による高分解能空中画像のケーススタディを通じて,DEMとともにそのモデルを評価する。 2016年のハリケーン・マシューの洪水で、ノースカロライナ州グリムズランド市とキンストン市の近くで、3つのシーンが厳選された。 その結果,提案する隠れマルコフ木モデルは,f-score(ユーザの精度とプロデューサーの精度の調和平均)を約70%から80%から95%以上改善することで,アート機械学習アルゴリズム(例えばランダムフォレスト,勾配強化モデル)の状態を上回っていることがわかった。

Flood extent mapping plays a crucial role in disaster management and national water forecasting. In recent years, high-resolution optical imagery becomes increasingly available with the deployment of numerous small satellites and drones. However, analyzing such imagery data to extract flood extent poses unique challenges due to the rich noise and shadows, obstacles (e.g., tree canopies, clouds), and spectral confusion between pixel classes (flood, dry) due to spatial heterogeneity. Existing machine learning techniques often focus on spectral and spatial features from raster images without fully incorporating the geographic terrain within classification models. In contrast, we recently proposed a novel machine learning model called geographical hidden Markov tree that integrates spectral features of pixels and topographic constraints from Digital Elevation Model (DEM) data (i.e., water flow directions) in a holistic manner. This paper evaluates the model through case studies on high-resolution aerial imagery from the National Oceanic and Atmospheric Administration (NOAA) National Geodetic Survey together with DEM. Three scenes are selected in heavily vegetated floodplains near the cities of Grimesland and Kinston in North Carolina during Hurricane Matthew floods in 2016. Results show that the proposed hidden Markov tree model outperforms several state of the art machine learning algorithms (e.g., random forests, gradient boosted model) by an improvement of F-score (the harmonic mean of the user's accuracy and producer's accuracy) from around 70% to 80% to over 95% on our datasets.
翻訳日:2022-10-25 03:16:08 公開日:2021-01-07
# ベイズモデル選択のための参照熱力学統合:COVID-19モデル選択への応用

Referenced Thermodynamic Integration for Bayesian Model Selection: Application to COVID-19 Model Selection ( http://arxiv.org/abs/2009.03851v3 )

ライセンス: Link先を確認
Iwona Hawryluk, Swapnil Mishra, Seth Flaxman, Samir Bhatt and Thomas A. Mellan(参考訳) モデル選択は応用ベイズ統計方法論の基本的な部分である。 Akaike Information Criterionのようなメトリクスは、実際にモデルの選択に使用されるが、モデルのパラメータの不確実性は含まないため、誤った選択をすることができる。 完全な後方分布を用いる一つのアプローチは、ベイズ因子として知られる2つのモデルの正規化定数の比率を計算することである。 しばしば現実的な問題において、これは解析的に難解で高次元の分布の統合を伴うため、熱力学積分(TI)のような確率的手法を用いる必要がある。 本稿では,単一モデルの正規化定数を定量的に選択した基準密度を用いて効率的に計算する,ti法(参照ti法)の変種を適用する。 このアプローチの利点と理論的考察は、明示的な教育的1と2dの例とともに設定されている。 ベンチマークは同等の手法で示され、良好な収束性能が得られます。 このアプローチは、実際の問題に適用した場合、実際に有用であることが示されており、200D密度の統合を含む韓国における半機械的階層的ベイズモデルのモデル選択を実行する。

Model selection is a fundamental part of the applied Bayesian statistical methodology. Metrics such as the Akaike Information Criterion are commonly used in practice to select models but do not incorporate the uncertainty of the models' parameters and can give misleading choices. One approach that uses the full posterior distribution is to compute the ratio of two models' normalising constants, known as the Bayes factor. Often in realistic problems, this involves the integration of analytically intractable, high-dimensional distributions, and therefore requires the use of stochastic methods such as thermodynamic integration (TI). In this paper we apply a variation of the TI method, referred to as referenced TI, which computes a single model's normalising constant in an efficient way by using a judiciously chosen reference density. The advantages of the approach and theoretical considerations are set out, along with explicit pedagogical 1 and 2D examples. Benchmarking is presented with comparable methods and we find favourable convergence performance. The approach is shown to be useful in practice when applied to a real problem - to perform model selection for a semi-mechanistic hierarchical Bayesian model of COVID-19 transmission in South Korea involving the integration of a 200D density.
翻訳日:2022-10-20 21:29:56 公開日:2021-01-07
# オブジェクト検出における分類と位置を統一したランク付け型平衡損失関数

A Ranking-based, Balanced Loss Function Unifying Classification and Localisation in Object Detection ( http://arxiv.org/abs/2009.13592v4 )

ライセンス: Link先を確認
Kemal Oksuz and Baris Can Cam and Emre Akbas and Sinan Kalkan(参考訳) 本稿では,オブジェクト検出における分類と局所化タスクの両方において,統一的,境界的,均衡的,ランキングに基づく損失関数であるalrpを提案する。 aLRPは、Average Precision (AP) LossにインスパイアされたLocalisation-Recall-Precision (LRP)パフォーマンスメトリック(Oksuz et al., 2018)を、分類のためのランキングベースの損失関数(Chen et al., 2020)に拡張する。 aLRPには以下の明確な利点がある。 (i)alrpは分類と局所化タスクの両方において最初のランキングに基づく損失関数である。 (II)両タスクのランク付けにより,aLRPは自然に高精度分類のための高品質なローカライゼーションを強制する。 (iii)alrpは正と負のバランスを立証できる。 (4) 最先端検出器の損失関数における平均$\sim$6ハイパーパラメータと比較して、aLRPロスは1つのハイパーパラメータしか持たない。 COCOデータセットでは、aLRP Lossはランキングベースの前任者AP Lossを5ドルAPポイントまで改善し、テスト時間を増やすことなく48.9ドルAPを達成し、全1ステージ検出器を上回っている。 コードはhttps://github.com/kemaloksuz/alrploss。

We propose average Localisation-Recall-Precision (aLRP), a unified, bounded, balanced and ranking-based loss function for both classification and localisation tasks in object detection. aLRP extends the Localisation-Recall-Precision (LRP) performance metric (Oksuz et al., 2018) inspired from how Average Precision (AP) Loss extends precision to a ranking-based loss function for classification (Chen et al., 2020). aLRP has the following distinct advantages: (i) aLRP is the first ranking-based loss function for both classification and localisation tasks. (ii) Thanks to using ranking for both tasks, aLRP naturally enforces high-quality localisation for high-precision classification. (iii) aLRP provides provable balance between positives and negatives. (iv) Compared to on average $\sim$6 hyperparameters in the loss functions of state-of-the-art detectors, aLRP Loss has only one hyperparameter, which we did not tune in practice. On the COCO dataset, aLRP Loss improves its ranking-based predecessor, AP Loss, up to around $5$ AP points, achieves $48.9$ AP without test time augmentation and outperforms all one-stage detectors. Code available at: https://github.com/kemaloksuz/aLRPLoss .
翻訳日:2022-10-13 22:16:49 公開日:2021-01-07
# 等時データからの車両予測軌跡パターン

Vehicle predictive trajectory patterns from isochronous data ( http://arxiv.org/abs/2010.05026v2 )

ライセンス: Link先を確認
D. Damian(参考訳) センサデータの計測と解析は車両のダイナミックス開発における基本技術であり、組込みおよびデータ取得システムの進歩により、大規模なデータセットを解析することが可能である。 本稿では,ビデオ,ArduinoUno,コンパスセンサHDMM01からのデータ融合を用いて,グラーツ(オーストリア)における等時軌道パターンの評価とマッピングを行う。 予測等時軌道パターンは、予め定義された時間軸のデータ値から導出される。 極端な運転行動と危険な道路ジオメトリの両方を識別できる。 軌跡経路からのデータと異なる時刻のインスタンスを比較するのに使用できる即時道路センサデータを提供することができる。 本研究は, 軌道パターンが現在の軌道パターンの進化を予測することに成功し, 将来の走行状況を評価することができることを示した。 本研究から得られたデータは、省エネ運転経路の今後の都市計画や、定量的および関連する動的計測に基づく車両設計および工学的改善に参考に有用である。

Measuring and analyzing sensor data is the basic technique in vehicle dynamics development and with the advancement of embedded and data acquisition systems it is possible to analyze large data sets. In this paper a detailed method is presented for assessing and mapping isochronous trajectory patterns in Graz (Austria) by using data fusion from video, ArduinoUno and the compass sensor HDMM01. The predictive isochronous trajectory patterns are derived from the data values for a predefined time horizon. Both extreme driving behavior and hazardous road geometries can be identified. It is possible to provide instant road sensor data which can be used to compare the data from a trajectory path as well as for different time instances. Results of this study show that the trajectory patterns are successful in predicting the likely evolution of a current trajectory pattern and can provide assessment on future driving situations. The obtained data from this study can be useful as reference in future city planning for energy saving driving pathways as well as vehicle design and engineering improvements based on quantitative and relevant dynamic measurements.
翻訳日:2022-10-08 23:31:04 公開日:2021-01-07
# DIFER: 差別化可能な自動機能エンジニアリング

DIFER: Differentiable Automated Feature Engineering ( http://arxiv.org/abs/2010.08784v2 )

ライセンス: Link先を確認
Guanghui Zhu, Zhuoer Xu, Xu Guo, Chunfeng Yuan, Yihua Huang(参考訳) 機械学習の重要なステップである機能エンジニアリングは、データ品質を改善するために生データから有用な機能を抽出することを目的としている。 近年,高額な人的労働を代替するAutoFE(Automated Feature Engineering)に多大な努力が注がれている。 しかし、既存の手法は離散空間上の粗粒度ブラックボックス最適化問題としてAutoFEを扱い、計算的に要求されている。 本研究では、連続ベクトル空間における微分可能自動特徴工学を実現するために、DIFERと呼ばれる効率的な勾配法を提案する。 DIFERは進化的アルゴリズムに基づいて潜在的な機能を選択し、エンコーダ予測デコーダコントローラを利用して既存の機能を最適化する。 我々は,エンコーダを介して連続ベクトル空間に特徴をマップし,予測スコアによって誘導される勾配方向の埋め込みを最適化し,デコーダにより最適化された埋め込みからより良い特徴を回復する。 分類と回帰データセットに関する広範な実験は、diferが様々な機械学習アルゴリズムのパフォーマンスを著しく改善し、効率と性能の両面で現在のautofeメソッドを上回っていることを示している。

Feature engineering, a crucial step of machine learning, aims to extract useful features from raw data to improve data quality. In recent years, great efforts have been devoted to Automated Feature Engineering (AutoFE) to replace expensive human labor. However, existing methods are computationally demanding due to treating AutoFE as a coarse-grained black-box optimization problem over a discrete space. In this work, we propose an efficient gradient-based method called DIFER to perform differentiable automated feature engineering in a continuous vector space. DIFER selects potential features based on evolutionary algorithm and leverages an encoder-predictor-decoder controller to optimize existing features. We map features into the continuous vector space via the encoder, optimize the embedding along the gradient direction induced by the predicted score, and recover better features from the optimized embedding by the decoder. Extensive experiments on classification and regression datasets demonstrate that DIFER can significantly improve the performance of various machine learning algorithms and outperform current state-of-the-art AutoFE methods in terms of both efficiency and performance.
翻訳日:2022-10-06 09:02:26 公開日:2021-01-07
# 勧告のためのマルチモーダル側情報付き事前学習グラフ変換器

Pre-training Graph Transformer with Multimodal Side Information for Recommendation ( http://arxiv.org/abs/2010.12284v2 )

ライセンス: Link先を確認
Yong Liu, Susen Yang, Chenyi Lei, Guoxin Wang, Haihong Tang, Juyong Zhang, Aixin Sun, Chunyan Miao(参考訳) 画像やテキスト記述などの項目の側面情報は、正確な推奨に寄与することが示されている。 近年の自然言語と画像の事前学習モデルの成功に触発されて,項目情報とその関連を考慮し,項目表現を学習する事前学習戦略を提案する。 共通のユーザアクティビティ(例えば、共同購入)によってアイテムを関連付け、均質なアイテムグラフを構築する。 このグラフは、アイテム関係とその関連側情報を多モードで統一したビューを提供する。 我々はMCNSamplingという新しいサンプリングアルゴリズムを開発し、各項目のコンテキスト近傍を選択する。 PMGT (Pre-trained Multimodal Graph Transformer) は2つの目的を持つ項目表現を学習する。 1)グラフ構造再構築,及び 2)マスキングノード機能再構成。 実データを用いた実験結果から,提案したPMGTモデルは,項目推薦や項目分類,クリックスルー比の予測など,下流タスクの精度向上に有効であることが示された。 また,提案したPMGTモデルを6万人のユーザを対象としたオンライン環境でテストするケーススタディを報告する。

Side information of items, e.g., images and text description, has shown to be effective in contributing to accurate recommendations. Inspired by the recent success of pre-training models on natural language and images, we propose a pre-training strategy to learn item representations by considering both item side information and their relationships. We relate items by common user activities, e.g., co-purchase, and construct a homogeneous item graph. This graph provides a unified view of item relations and their associated side information in multimodality. We develop a novel sampling algorithm named MCNSampling to select contextual neighbors for each item. The proposed Pre-trained Multimodal Graph Transformer (PMGT) learns item representations with two objectives: 1) graph structure reconstruction, and 2) masked node feature reconstruction. Experimental results on real datasets demonstrate that the proposed PMGT model effectively exploits the multimodality side information to achieve better accuracies in downstream tasks including item recommendation, item classification, and click-through ratio prediction. We also report a case study of testing the proposed PMGT model in an online setting with 600 thousand users.
翻訳日:2022-10-04 00:03:53 公開日:2021-01-07
# ビザンチン耐性分散マルチタスク学習

Byzantine Resilient Distributed Multi-Task Learning ( http://arxiv.org/abs/2010.13032v2 )

ライセンス: Link先を確認
Jiani Li, Waseem Abbas, Xenofon Koutsoukos(参考訳) 分散マルチタスク学習は、エージェントが異なるが相関したモデルを同時に学習することを目的とした異種データソースを持つマルチエージェントネットワークにおいて大きな利点をもたらす。 本稿では,ビザンチンレジリエントな分散マルチタスク学習のためのアプローチを提案する。 エージェントのデータと近隣者のモデルを用いて,蓄積した損失を計測し,効率的なオンライン体重割当ルールを提案する。 小さい累積損失は2つのタスク間の大きな類似性を示している。 通常のエージェントでの凝集のビザンチン弾性を確保するために,より大きな損失をフィルタリングするステップを導入する。 我々は凸モデルに対するアプローチを分析し、通常のエージェントが大域的最小値に対して弾力的に収束することを示すが、提案された重み付け規則によるアグリゲーションは常に非協力的な場合よりも期待された後悔をもたらす。 最後に、回帰と分類問題を含む3つのケーススタディを用いて、本手法が畳み込みニューラルネットワークのような非凸モデルに対して良好な実験性能を示すことを示す。

Distributed multi-task learning provides significant advantages in multi-agent networks with heterogeneous data sources where agents aim to learn distinct but correlated models simultaneously.However, distributed algorithms for learning relatedness among tasks are not resilient in the presence of Byzantine agents. In this paper, we present an approach for Byzantine resilient distributed multi-task learning. We propose an efficient online weight assignment rule by measuring the accumulated loss using an agent's data and its neighbors' models. A small accumulated loss indicates a large similarity between the two tasks. In order to ensure the Byzantine resilience of the aggregation at a normal agent, we introduce a step for filtering out larger losses. We analyze the approach for convex models and show that normal agents converge resiliently towards the global minimum.Further, aggregation with the proposed weight assignment rule always results in an improved expected regret than the non-cooperative case. Finally, we demonstrate the approach using three case studies, including regression and classification problems, and show that our method exhibits good empirical performance for non-convex models, such as convolutional neural networks.
翻訳日:2022-10-03 04:21:28 公開日:2021-01-07
# lyapunovに基づく強化学習状態推定器

Lyapunov-Based Reinforcement Learning State Estimator ( http://arxiv.org/abs/2010.13529v2 )

ライセンス: Link先を確認
Liang Hu, Chengwei Wu, Wei Pan(参考訳) 本稿では,非線形確率離散時間系の状態推定問題について考察する。 制御理論におけるリャプノフの手法と深い強化学習を組み合わせて状態推定器を設計する。 モデルからシミュレーションしたデータのみを用いて, 有界推定誤差の収束を理論的に証明する。 ディープニューラルネットワークによって近似される状態推定器を学習するために,アクタ-クリティック強化学習アルゴリズムを提案する。 アルゴリズムの収束は解析される。 提案するリアプノフ型強化学習状態推定器をモンテカルロシミュレーションによる既存の非線形フィルタ法と比較し,システムノイズの共分散変化や無作為な測定値の欠如といったいくつかの不確かさの下でも推定収束の利点を示した。 我々の知る限り、これは有界推定誤差性能を保証する強化学習に基づく非線形状態推定器としては初めてのものである。

In this paper, we consider the state estimation problem for nonlinear stochastic discrete-time systems. We combine Lyapunov's method in control theory and deep reinforcement learning to design the state estimator. We theoretically prove the convergence of the bounded estimate error solely using the data simulated from the model. An actor-critic reinforcement learning algorithm is proposed to learn the state estimator approximated by a deep neural network. The convergence of the algorithm is analysed. The proposed Lyapunov-based reinforcement learning state estimator is compared with a number of existing nonlinear filtering methods through Monte Carlo simulations, showing its advantage in terms of estimate convergence even under some system uncertainties such as covariance shift in system noise and randomly missing measurements. To the best of our knowledge, this is the first reinforcement learning based nonlinear state estimator with bounded estimate error performance guarantee.
翻訳日:2022-10-02 20:25:31 公開日:2021-01-07
# チュニジア・アラビジ多層アノテーションのマルチタスクシーケンス予測

Multi-Task Sequence Prediction For Tunisian Arabizi Multi-Level Annotation ( http://arxiv.org/abs/2011.05152v3 )

ライセンス: Link先を確認
Elisa Gugliotta (1,2,3), Marco Dinarelli (2), Olivier Kraif (3) ((1) Sapienza University of Rome, (2) Universit\'e Grenoble Alpes - Laboratoire LIG (Getalp group), (3) Universit\'e Grenoble Alpes- Laboratoire LIDILEM)(参考訳) 本稿では,繰り返しニューラルネットワークに基づくマルチタスクシーケンス予測システムを提案し,アラビジチュニジアコーパスを複数レベルにアノテートする手法を提案する。 アノテーションは、テキスト分類、トークン化、PoSタグ付け、チュニジア・アラビジのCODA*アラビア正書法への符号化である。 このシステムは、アラビジ入力から始まるカスケードのすべてのアノテーションレベルを予測するために学習される。 我々はTIGERゲルマンコーパスのシステム評価を行い、ニューラルネットワークの有効性を示すため、マルチタスク問題のあるデータを適切に変換する。 また,その後手作業で修正され,チュニジアデータのシーケンスモデルをさらに評価するために用いられた,チュニジア・アラビジコーパスの注釈付けにシステムを用いた方法を示す。 本システムはFairseqフレームワーク向けに開発されており,他のシーケンス予測問題に対して高速かつ容易に利用できる。

In this paper we propose a multi-task sequence prediction system, based on recurrent neural networks and used to annotate on multiple levels an Arabizi Tunisian corpus. The annotation performed are text classification, tokenization, PoS tagging and encoding of Tunisian Arabizi into CODA* Arabic orthography. The system is learned to predict all the annotation levels in cascade, starting from Arabizi input. We evaluate the system on the TIGER German corpus, suitably converting data to have a multi-task problem, in order to show the effectiveness of our neural architecture. We show also how we used the system in order to annotate a Tunisian Arabizi corpus, which has been afterwards manually corrected and used to further evaluate sequence models on Tunisian data. Our system is developed for the Fairseq framework, which allows for a fast and easy use for any other sequence prediction problem.
翻訳日:2022-09-27 07:23:15 公開日:2021-01-07
# データストリームにおける効率的な部分空間探索

Efficient Subspace Search in Data Streams ( http://arxiv.org/abs/2011.06959v2 )

ライセンス: Link先を確認
Edouard Fouch\'e, Florian Kalinke, Klemens B\"ohm(参考訳) In the real world, data streams are ubiquitous -- think of network traffic or sensor data. Mining patterns, e.g., outliers or clusters, from such data must take place in real time. This is challenging because (1) streams often have high dimensionality, and (2) the data characteristics may change over time. Existing approaches tend to focus on only one aspect, either high dimensionality or the specifics of the streaming setting. For static data, a common approach to deal with high dimensionality -- known as subspace search -extracts low-dimensional, `interesting' projections (subspaces), in which patterns are easier to find. 本稿では,サブスペース探索をデータストリームに一般化することで,課題(1)と(2)の両方に対処する。 我々のアプローチであるStreaming Greedy Maximum Random Deviation (SGMRD)は、高次元データストリームにおける興味深い部分空間を監視する。 バンディット理論に基づく新しい多変量依存性推定とモニタリング技術を利用する。 SGMRDの利点は2つあります。 (i)サブスペースを効率的に監視し、 (ii)これは、異常検出などの下流データマイニングタスクの結果を改善する。 我々の実験は、合成および実世界のデータに対して行われ、SGMRDがライバルよりも大きなマージンで優れていることを示した。

In the real world, data streams are ubiquitous -- think of network traffic or sensor data. Mining patterns, e.g., outliers or clusters, from such data must take place in real time. This is challenging because (1) streams often have high dimensionality, and (2) the data characteristics may change over time. Existing approaches tend to focus on only one aspect, either high dimensionality or the specifics of the streaming setting. For static data, a common approach to deal with high dimensionality -- known as subspace search -- extracts low-dimensional, `interesting' projections (subspaces), in which patterns are easier to find. In this paper, we address both Challenge (1) and (2) by generalising subspace search to data streams. Our approach, Streaming Greedy Maximum Random Deviation (SGMRD), monitors interesting subspaces in high-dimensional data streams. It leverages novel multivariate dependency estimators and monitoring techniques based on bandit theory. We show that the benefits of SGMRD are twofold: (i) It monitors subspaces efficiently, and (ii) this improves the results of downstream data mining tasks, such as outlier detection. Our experiments, performed against synthetic and real-world data, demonstrate that SGMRD outperforms its competitors by a large margin.
翻訳日:2022-09-26 00:46:50 公開日:2021-01-07
# DIRL:Sim-to-Realトランスファーのためのドメイン不変表現学習

DIRL: Domain-Invariant Representation Learning for Sim-to-Real Transfer ( http://arxiv.org/abs/2011.07589v3 )

ライセンス: Link先を確認
Ajay Kumar Tanwani(参考訳) シミュレーションで大規模な合成データを生成することは、視覚に基づくディープラーニングモデルを訓練するための実際のデータを収集・ラップする代替手段である。 本稿では,実データ量が少ない物理環境に深層モデルを適用するためのdirl(domain-invariant representation learning)アルゴリズムを提案する。 領域全体の境界分布を整列し、条件分布をドメイン不変と仮定することで共変量シフトを緩和する既存のアプローチは、実際のシナリオにおいて曖昧な転移をもたらす可能性がある。 本稿では,境界領域(入力領域)と条件分布(出力ラベル)を協調的に整合させて,共変量と条件シフトを相反学習で緩和し,それを3重分布損失と組み合わせて,条件分布を共有特徴空間内で解離させる方法を提案する。 ディジットドメインの実験では、挑戦的なベンチマークで最先端のパフォーマンスが得られ、一方、移動ロボットによる視覚に基づくデカリングのためのオブジェクト認識のシミュレートは26.8 %から91.0 %に改善され、様々なオブジェクトの把握精度は86.5 %となる。 コードと追加の詳細はhttps://sites.google.com/view/dirlで確認できる。

Generating large-scale synthetic data in simulation is a feasible alternative to collecting/labelling real data for training vision-based deep learning models, albeit the modelling inaccuracies do not generalize to the physical world. In this paper, we present a domain-invariant representation learning (DIRL) algorithm to adapt deep models to the physical environment with a small amount of real data. Existing approaches that only mitigate the covariate shift by aligning the marginal distributions across the domains and assume the conditional distributions to be domain-invariant can lead to ambiguous transfer in real scenarios. We propose to jointly align the marginal (input domains) and the conditional (output labels) distributions to mitigate the covariate and the conditional shift across the domains with adversarial learning, and combine it with a triplet distribution loss to make the conditional distributions disjoint in the shared feature space. Experiments on digit domains yield state-of-the-art performance on challenging benchmarks, while sim-to-real transfer of object recognition for vision-based decluttering with a mobile robot improves from 26.8 % to 91.0 %, resulting in 86.5 % grasping accuracy of a wide variety of objects. Code and supplementary details are available at https://sites.google.com/view/dirl
翻訳日:2022-09-25 07:42:05 公開日:2021-01-07
# 発展途上国の都市環境を分類するための新しい分類法を併用した深層学習

Deep-learning coupled with novel classification method to classify the urban environment of the developing world ( http://arxiv.org/abs/2011.12847v2 )

ライセンス: Link先を確認
Qianwei Cheng, AKM Mahbubur Rahman, Anis Sarker, Abu Bakar Siddik Nayem, Ovi Paul, Amin Ahsan Ali, M Ashraful Amin, Ryosuke Shibasaki and Moinul Zaber(参考訳) 急速なグローバル化と人類の相互依存は、都市部への人的移住の膨大な流入を招いた。 高解像度衛星画像、高解像度データ、ディープニューラルネットワークのような計算手法、有能なハードウェアが出現し、都市計画はパラダイムシフトを遂げている。 都市環境のレガシーデータは、現在、大量の高周波データで補完されている。 本稿では,機械解析に容易に使用可能な新しい分類法を提案し,開発途上国における方法論の適用性を示す。 state-of-the-artは、主に建物構造、建築タイプなどの分類に支配されており、バングラデシュのような発展途上国にとって不十分な先進国を主に表現している。 さらに,従来の手法では,拡張性が低く計算が遅い限定的な情報を提供する小規模分類を提案する。 周辺を考慮に入れた非公式・形式的な空間の観点から都市部を分類する。 バングラデシュのダッカの50km×50kmGoogle Earthの画像は、専門家によって視覚的に注釈付けされ、分類された。 この分類は、都市化と都市環境の建築形態という2つの次元に基づいている。 都市空間は以下の4つのクラスに分けられる。 1) 高度に非公式な 2) 適度な非公式 3) 適度な形式,及び 4) 極めてフォーマルな領域。 合計16種が同定された。 セマンティックセグメンテーションのために、googleのdeeplabv3+モデルを使用して、より大きなコンテキストを取り込むためにフィルタの視野を増加させた。 都市空間の70%を含む画像はトレーニングに使われ、残りの30%はテストと検証に使用された。 このモデルは75%の精度と60%のMean IoUでセグメント化できる。

Rapid globalization and the interdependence of humanity that engender tremendous in-flow of human migration towards the urban spaces. With advent of high definition satellite images, high resolution data, computational methods such as deep neural network, capable hardware; urban planning is seeing a paradigm shift. Legacy data on urban environments are now being complemented with high-volume, high-frequency data. In this paper we propose a novel classification method that is readily usable for machine analysis and show applicability of the methodology on a developing world setting. The state-of-the-art is mostly dominated by classification of building structures, building types etc. and largely represents the developed world which are insufficient for developing countries such as Bangladesh where the surrounding is crucial for the classification. Moreover, the traditional methods propose small-scale classifications, which give limited information with poor scalability and are slow to compute. We categorize the urban area in terms of informal and formal spaces taking the surroundings into account. 50 km x 50 km Google Earth image of Dhaka, Bangladesh was visually annotated and categorized by an expert. The classification is based broadly on two dimensions: urbanization and the architectural form of urban environment. Consequently, the urban space is divided into four classes: 1) highly informal; 2) moderately informal; 3) moderately formal; and 4) highly formal areas. In total 16 sub-classes were identified. For semantic segmentation, Google's DeeplabV3+ model was used which increases the field of view of the filters to incorporate larger context. Image encompassing 70% of the urban space was used for training and the remaining 30% was used for testing and validation. The model is able to segment with 75% accuracy and 60% Mean IoU.
翻訳日:2022-09-21 02:11:04 公開日:2021-01-07
# ドメイン適応セグメンテーションにおける多様な特徴と逆アンビバレンスの利用

Exploiting Diverse Characteristics and Adversarial Ambivalence for Domain Adaptive Segmentation ( http://arxiv.org/abs/2012.05608v2 )

ライセンス: Link先を確認
Bowen Cai, Huan Fu, Rongfei Jia, Binqiang Zhao, Hua Li, Yinghui Xu(参考訳) セマンティックセグメンテーションモデルを新しいドメインに適応させることは重要だが、難しい問題である。 近年,新たなターゲットドメインが異質なサブドメイン(気象特性の多様性など)から構成される実際のデータセットでは,既存の手法の性能は不十分である。 対象領域における多重モダリティを慎重に推論することで、適応モデルのロバスト性を向上させることができることを指摘した。 そこで本研究では,apat(special attentive progressive adversarial training)機構と新しい自己学習方針により,条件付き適応フレームワークを提案する。 APAT戦略は、段階的に条件固有アライメントと注意深いグローバル特徴マッチングを実行する。 新たな自己学習方式は,容易かつハードな適応領域の逆アンバイバレンスと,対象サブドメイン間の相関を効果的に活用する。 気象条件の異なる様々な適応シナリオに対して,本手法(DCAA)を評価した。 ベースラインと最先端のアプローチの比較は、競合相手よりもDCAAの方が優れていることを示している。

Adapting semantic segmentation models to new domains is an important but challenging problem. Recently enlightening progress has been made, but the performance of existing methods are unsatisfactory on real datasets where the new target domain comprises of heterogeneous sub-domains (e.g., diverse weather characteristics). We point out that carefully reasoning about the multiple modalities in the target domain can improve the robustness of adaptation models. To this end, we propose a condition-guided adaptation framework that is empowered by a special attentive progressive adversarial training (APAT) mechanism and a novel self-training policy. The APAT strategy progressively performs condition-specific alignment and attentive global feature matching. The new self-training scheme exploits the adversarial ambivalences of easy and hard adaptation regions and the correlations among target sub-domains effectively. We evaluate our method (DCAA) on various adaptation scenarios where the target images vary in weather conditions. The comparisons against baselines and the state-of-the-art approaches demonstrate the superiority of DCAA over the competitors.
翻訳日:2021-05-15 06:22:40 公開日:2021-01-07
# 線形混合マルコフ決定過程に対する最短最適強化学習

Nearly Minimax Optimal Reinforcement Learning for Linear Mixture Markov Decision Processes ( http://arxiv.org/abs/2012.08507v2 )

ライセンス: Link先を確認
Dongruo Zhou and Quanquan Gu and Csaba Szepesvari(参考訳) 我々は,マルコフ決定過程(mdp)の根底となる遷移確率核が線形混合モデル(jia et al., 2020; ayoub et al., 2020; zhou et al., 2020)である線形関数近似による強化学習(rl)について検討し,学習エージェントが個々の基底核の統合あるいはサンプリング神託にアクセス可能であることを検証した。 有界雑音を伴う線形バンディット問題に対する自己正規化マーティンゲールに対するベルンシュタイン型濃度不等式を提案する。 この新しい不等式に基づき、エピソディックな未説明設定の線形混合mdpに対して $\text{ucrl-vtr}^{+}$ という線形関数近似を用いた計算効率の高い新しいアルゴリズムを提案する。 $\text{UCRL-VTR}^{+}$ は $\tilde O(dH\sqrt{T})$ regret となるが、$d$ は特徴写像の次元、$H$ はエピソードの長さ、$T$ は MDP との相互作用の数である。 この設定に対して、一致する下限の$\Omega(dH\sqrt{T})$を証明し、$\text{UCRL-VTR}^{+}$が対数因子まで最小値であることを示す。 さらに,同じmdp群に対して,割引下で$\text{uclk}^{+}$アルゴリズムを提案し,$\gamma\in [0,1)$がディスカウント係数である場合,$\tilde o(d\sqrt{t}/(1-\gamma)^{1.5})$ regret が得られることを示す。 我々の上界は、Zhouらによって証明された下界$\Omega(d\sqrt{T}/(1-\gamma)^{1.5})$と一致する。 (2020) 対数因子からすると、$\text{uclk}^{+}$ はほぼミニマックス最適である。 我々の知る限り、これらは線形関数近似を持つRLのための計算効率が良く、ほぼ最小のアルゴリズムである。

We study reinforcement learning (RL) with linear function approximation where the underlying transition probability kernel of the Markov decision process (MDP) is a linear mixture model (Jia et al., 2020; Ayoub et al., 2020; Zhou et al., 2020) and the learning agent has access to either an integration or a sampling oracle of the individual basis kernels. We propose a new Bernstein-type concentration inequality for self-normalized martingales for linear bandit problems with bounded noise. Based on the new inequality, we propose a new, computationally efficient algorithm with linear function approximation named $\text{UCRL-VTR}^{+}$ for the aforementioned linear mixture MDPs in the episodic undiscounted setting. We show that $\text{UCRL-VTR}^{+}$ attains an $\tilde O(dH\sqrt{T})$ regret where $d$ is the dimension of feature mapping, $H$ is the length of the episode and $T$ is the number of interactions with the MDP. We also prove a matching lower bound $\Omega(dH\sqrt{T})$ for this setting, which shows that $\text{UCRL-VTR}^{+}$ is minimax optimal up to logarithmic factors. In addition, we propose the $\text{UCLK}^{+}$ algorithm for the same family of MDPs under discounting and show that it attains an $\tilde O(d\sqrt{T}/(1-\gamma)^{1.5})$ regret, where $\gamma\in [0,1)$ is the discount factor. Our upper bound matches the lower bound $\Omega(d\sqrt{T}/(1-\gamma)^{1.5})$ proved by Zhou et al. (2020) up to logarithmic factors, suggesting that $\text{UCLK}^{+}$ is nearly minimax optimal. To the best of our knowledge, these are the first computationally efficient, nearly minimax optimal algorithms for RL with linear function approximation.
翻訳日:2021-05-07 05:30:43 公開日:2021-01-07
# 言語に基づく説得ゲームにおける決定の予測

Predicting Decisions in Language Based Persuasion Games ( http://arxiv.org/abs/2012.09966v2 )

ライセンス: Link先を確認
Reut Apel, Ido Erev, Roi Reichart, and Moshe Tennenholtz(参考訳) センダー・レシーバー相互作用、特に説得ゲームは、経済モデリングや人工知能の分野で広く研究されており、強力な応用のための強固な基盤となっている。 しかし、古典的な説得ゲームでは、専門家から意思決定者へ送られたメッセージは、自然言語は現実世界の説得設定において非常に一般的な通信信号であるが、自然言語よりも抽象的あるいはよく構造化されたアプリケーション固有の信号である。 本稿では, 説得ゲームにおける自然言語の利用について論じ, プレイヤーの意思決定への影響を探究し, それらの予測のための効果的なモデルの構築を目指す。 この目的のために,オンライン繰り返しインタラクション実験を行う。 対話の各試行において、インフォームド・エキスパートは、ホテルを記述したレビューを送ることで、無形意思決定者に対してホテルでの休暇を売ることを目指している。 専門家はいくつかの評価を受けたレビューに晒されるが、意思決定者は専門家が送ったレビューのみを観察し、ホテルを取ることを選択した場合の支払いは、専門家のみが利用できるレビュースコアの分布からランダムに引き出される。 専門家の支払いは、意思決定者がホテルを選ぶ回数に依存する。 モデルタイプ(ディープニューラルネットワーク(DNN)と線形分類器)、モデルで使用される機能の種類(テキスト, 行動, 両方)、およびテキスト機能(DNNベースと手作り)のソース(DNNベースと手作り)で異なる多くのモデリング手法を検討する。 その結果、インタラクションシーケンスのプレフィックスが与えられた場合、特に逐次モデリングアプローチと手作りのテキスト特徴が適用された場合に、モデルが意思決定者の将来的な決定を予測できることが示される。

Sender-receiver interactions, and specifically persuasion games, are widely researched in economic modeling and artificial intelligence, and serve as a solid foundation for powerful applications. However, in the classic persuasion games setting, the messages sent from the expert to the decision-maker are abstract or well-structured application-specific signals rather than natural (human) language messages, although natural language is a very common communication signal in real-world persuasion setups. This paper addresses the use of natural language in persuasion games, exploring its impact on the decisions made by the players and aiming to construct effective models for the prediction of these decisions. For this purpose, we conduct an online repeated interaction experiment. At each trial of the interaction, an informed expert aims to sell an uninformed decision-maker a vacation in a hotel, by sending her a review that describes the hotel. While the expert is exposed to several scored reviews, the decision-maker observes only the single review sent by the expert, and her payoff in case she chooses to take the hotel is a random draw from the review score distribution available to the expert only. The expert's payoff, in turn, depends on the number of times the decision-maker chooses the hotel. We consider a number of modeling approaches for this setup, differing from each other in the model type (deep neural network (DNN) vs. linear classifier), the type of features used by the model (textual, behavioral or both) and the source of the textual features (DNN-based vs. hand-crafted). Our results demonstrate that given a prefix of the interaction sequence, our models can predict the future decisions of the decision-maker, particularly when a sequential modeling approach and hand-crafted textual features are applied.
翻訳日:2021-05-02 07:38:58 公開日:2021-01-07
# (参考訳) 条件付き期待作用素の非パラメトリック近似

Nonparametric approximation of conditional expectation operators ( http://arxiv.org/abs/2012.12917v2 )

ライセンス: CC BY 4.0
Mattes Mollenhauer and P\'eter Koltai(参考訳) 局所コンパクトハウスドルフ空間上の 2 つの確率変数 $X,Y$ の合同分布を考えると、最小の仮定の下で、$[Pf](x) := \mathbb{E}[f(Y) \mid X = x ]$ で定義される$L^2$-operator の統計的近似を研究する。 その領域を変更することで、Hilbert-Schmidt作用素が再生カーネルヒルベルト空間に作用する作用素ノルムにおいて、$P$を任意に適切に近似できることを示す。 この事実は、高密度部分空間上の有限ランク作用素によって、$P$がコンパクトでない場合でも、$P$を均一に推定することができる。 収束モードの観点からは、ガレルキン法のような古典的なパラメトリック射影法よりもカーネルベース技術の方が優れている。 これはまた、非パラメトリックな推定値である$p$が収束するオブジェクトを制限する新しい視点を提供する。 応用として,これらの結果はマルコフ遷移作用素のスペクトル解析技術群において特に重要であることを示す。 本研究は,カーネルベース非パラメトリック推論における多種多様な手法の理論的基礎であるいわゆるカーネル条件平均埋め込みに対する新たな漸近的視点を与える。

Given the joint distribution of two random variables $X,Y$ on some second countable locally compact Hausdorff space, we investigate the statistical approximation of the $L^2$-operator defined by $[Pf](x) := \mathbb{E}[ f(Y) \mid X = x ]$ under minimal assumptions. By modifying its domain, we prove that $P$ can be arbitrarily well approximated in operator norm by Hilbert--Schmidt operators acting on a reproducing kernel Hilbert space. This fact allows to estimate $P$ uniformly by finite-rank operators over a dense subspace even when $P$ is not compact. In terms of modes of convergence, we thereby obtain the superiority of kernel-based techniques over classically used parametric projection approaches such as Galerkin methods. This also provides a novel perspective on which limiting object the nonparametric estimate of $P$ converges to. As an application, we show that these results are particularly important for a large family of spectral analysis techniques for Markov transition operators. Our investigation also gives a new asymptotic perspective on the so-called kernel conditional mean embedding, which is the theoretical foundation of a wide variety of techniques in kernel-based nonparametric inference.
翻訳日:2021-04-25 20:32:20 公開日:2021-01-07
# sg-net: 言語表現のための構文案内トランスフォーマー

SG-Net: Syntax Guided Transformer for Language Representation ( http://arxiv.org/abs/2012.13915v2 )

ライセンス: Link先を確認
Zhuosheng Zhang, Yuwei Wu, Junru Zhou, Sufeng Duan, Hai Zhao, Rui Wang(参考訳) 人間の言語を理解することは人工知能の重要なテーマの一つだ。 言語表現においては,言語知識を詳細で長大なテキストから効果的にモデル化し,ノイズを取り除く能力は,その性能向上に不可欠である。 従来の注意モデルでは、明示的な制約なしにすべての単語に従わなければならない。 そこで本研究では,言語的動機づけのある単語表現のための明示的な構文制約をアテンション機構に組み込むことで,テキストモデリングを導くための構文の利用を提案する。 詳細は、自己注意ネットワーク(SAN)が支援するTransformerベースのエンコーダについて、SANにSDOI設計の構文依存性を導入し、構文誘導型自己注意型SDOI-SANを形成する。 次に、SG-Net(Syntax-Guided Network)は、元のTransformerエンコーダのSDOI-SANとSANで構成され、言語学にインスパイアされた表現を改善するための2つのコンテキストアーキテクチャである。 提案するsg-netは、典型的なトランスフォーマーエンコーダに適用される。 機械読解、自然言語推論、ニューラルネットワーク翻訳など、一般的なベンチマークタスクに関する広範な実験は、提案したSG-Net設計の有効性を示している。

Understanding human language is one of the key themes of artificial intelligence. For language representation, the capacity of effectively modeling the linguistic knowledge from the detail-riddled and lengthy texts and getting rid of the noises is essential to improve its performance. Traditional attentive models attend to all words without explicit constraint, which results in inaccurate concentration on some dispensable words. In this work, we propose using syntax to guide the text modeling by incorporating explicit syntactic constraints into attention mechanisms for better linguistically motivated word representations. In detail, for self-attention network (SAN) sponsored Transformer-based encoder, we introduce syntactic dependency of interest (SDOI) design into the SAN to form an SDOI-SAN with syntax-guided self-attention. Syntax-guided network (SG-Net) is then composed of this extra SDOI-SAN and the SAN from the original Transformer encoder through a dual contextual architecture for better linguistics inspired representation. The proposed SG-Net is applied to typical Transformer encoders. Extensive experiments on popular benchmark tasks, including machine reading comprehension, natural language inference, and neural machine translation show the effectiveness of the proposed SG-Net design.
翻訳日:2021-04-24 20:15:11 公開日:2021-01-07
# 敵攻撃に対するパッチワイズ++摂動

Patch-wise++ Perturbation for Adversarial Targeted Attacks ( http://arxiv.org/abs/2012.15503v2 )

ライセンス: Link先を確認
Lianli Gao, Qilong Zhang, Jingkuan Song and Heng Tao Shen(参考訳) ディープ・ニューラル・ネットワーク(dnn)の敵対的攻撃では大きな進歩を遂げているが、特に標的攻撃においては、その移動性は依然として不十分である。 1) ステップサイズが$\epsilon/t$であるt$イテレーションを$\epsilon$-constraintに準拠させるように設定する。 この場合、ほとんどのピクセルは、非常に小さなノイズを付加することができ、$\epsilon$ 以下である。 しかし、DNNが抽出した画素の特徴はその周辺地域の影響を受けており、異なるDNNは認識において一般的に異なる識別領域に焦点を当てている。 これらの課題に対処するために,高い伝達性を有する逆例を作成することを目的としたパッチワイド反復法(PIM)を提案する。 具体的には、各イテレーションのステップサイズに増幅係数を導入し、$\epsilon$-constraintをオーバーフローする1ピクセルの全体的な勾配が、プロジェクトカーネルによってその周辺領域に適切に割り当てられる。 しかし、攻撃対象は、敵の例を特定のクラスの領域に押し込むことであり、増幅要因が不適合につながる可能性がある。 そこで本研究では,White-boxアタックの性能を著しく損なうことなく,転送性を向上させるパッチワイズ++イテレーティブ手法(PIM++)を提案する。 我々の手法は一般に任意の勾配に基づく攻撃法に統合できる。 現在の攻撃方法と比較すると、防御モデルでは35.9\%、通常訓練されたモデルでは32.7\%が成功率を大幅に向上させた。

Although great progress has been made on adversarial attacks for deep neural networks (DNNs), their transferability is still unsatisfactory, especially for targeted attacks. There are two problems behind that have been long overlooked: 1) the conventional setting of $T$ iterations with the step size of $\epsilon/T$ to comply with the $\epsilon$-constraint. In this case, most of the pixels are allowed to add very small noise, much less than $\epsilon$; and 2) usually manipulating pixel-wise noise. However, features of a pixel extracted by DNNs are influenced by its surrounding regions, and different DNNs generally focus on different discriminative regions in recognition. To tackle these issues, we propose a patch-wise iterative method (PIM) aimed at crafting adversarial examples with high transferability. Specifically, we introduce an amplification factor to the step size in each iteration, and one pixel's overall gradient overflowing the $\epsilon$-constraint is properly assigned to its surrounding regions by a project kernel. But targeted attacks aim to push the adversarial examples into the territory of a specific class, and the amplification factor may lead to underfitting. Thus, we introduce the temperature and propose a patch-wise++ iterative method (PIM++) to further improve transferability without significantly sacrificing the performance of the white-box attack. Our method can be generally integrated to any gradient-based attack method. Compared with the current state-of-the-art attack methods, we significantly improve the success rate by 35.9\% for defense models and 32.7\% for normally trained models on average.
翻訳日:2021-04-17 17:07:50 公開日:2021-01-07
# (参考訳) 圧縮映像における自己認識型表情認識

Identity-aware Facial Expression Recognition in Compressed Video ( http://arxiv.org/abs/2101.00317v2 )

ライセンス: CC BY 4.0
Xiaofeng Liu, Linghao Jin, Xu Han, Jun Lu, Jane You, Lingsheng Kong(参考訳) 本稿では,圧縮映像領域における表情表現を排除したオブジェクト間変化の探索を目的とする。 従来の方法のほとんどはrgb画像の配列を処理し、既成品や貴重な発現関連筋運動は圧縮フォーマットに埋め込まれている。 最大2桁の圧縮領域において、残留フレームから表現を明示的に推測し、事前訓練された顔認識ネットワークを用いてIフレームから識別因子を抽出することができる。 限界独立を強制することにより、表現特徴は表現に適しており、アイデンティティシフトに対して堅牢であることが期待される。 同一人物からの識別ラベルや複数の表現サンプルは不要である。 さらに、データセットに頂点フレームがアノテートされると、補足制約を追加して特徴レベルのゲームを正規化することができる。 実験では, 圧縮残枠のみを圧縮して表現予測を行う必要がある。 私たちのソリューションは、圧縮データで約3$\times$の推論を行う典型的なferベンチマークで、最近のデコードされたイメージベースメソッドと同等または優れたパフォーマンスを達成できます。

This paper targets to explore the inter-subject variations eliminated facial expression representation in the compressed video domain. Most of the previous methods process the RGB images of a sequence, while the off-the-shelf and valuable expression-related muscle movement already embedded in the compression format. In the up to two orders of magnitude compressed domain, we can explicitly infer the expression from the residual frames and possible to extract identity factors from the I frame with a pre-trained face recognition network. By enforcing the marginal independent of them, the expression feature is expected to be purer for the expression and be robust to identity shifts. We do not need the identity label or multiple expression samples from the same person for identity elimination. Moreover, when the apex frame is annotated in the dataset, the complementary constraint can be further added to regularize the feature-level game. In testing, only the compressed residual frames are required to achieve expression prediction. Our solution can achieve comparable or better performance than the recent decoded image based methods on the typical FER benchmarks with about 3$\times$ faster inference with compressed data.
翻訳日:2021-04-17 09:57:32 公開日:2021-01-07
# (参考訳) 雑多な背景下での群衆カウントのための地域的・意味的注意を伴うスケールアウェアネットワーク

Scale-Aware Network with Regional and Semantic Attentions for Crowd Counting under Cluttered Background ( http://arxiv.org/abs/2101.01479v2 )

ライセンス: CC BY 4.0
Qiaosi Yi, Yunxing Liu, Aiwen Jiang, Juncheng Li, Kangfu Mei, and Mingwen Wang(参考訳) クラウドカウンティングは,近年注目度が高まっている公共安全関連分野において,大きな応用価値を示す重要な課題である。 本研究は, 人口数と人口密度推定の精度が主な関心事である。 深層学習の出現はこの分野の発展を大いに促進してきたが、乱雑な背景下での群集数えは依然として深刻な課題である。 この問題を解決するために,地域的・意味的な注意を喚起したSACCN(ScaleAware Crowd Counting Network)を提案する。 提案するsaccnは,浅層と深層にそれぞれ局所的および意味的自己付着機構を適用し,群集と背景を区別する。 さらに,非対称多スケールモジュール (AMM) はスケールの多様性の問題に対処するために提案され,また,群集スケールの変動を軽減するために,地域的注目度に基づく高密度接続とスキップ接続が設計されている。 複数の公開ベンチマークにおける広範囲な実験結果から,本提案手法は優れた性能を達成し,最先端手法を上回っています。 すべてのコードと事前訓練されたモデルがまもなくリリースされる。

Crowd counting is an important task that shown great application value in public safety-related fields, which has attracted increasing attention in recent years. In the current research, the accuracy of counting numbers and crowd density estimation are the main concerns. Although the emergence of deep learning has greatly promoted the development of this field, crowd counting under cluttered background is still a serious challenge. In order to solve this problem, we propose a ScaleAware Crowd Counting Network (SACCN) with regional and semantic attentions. The proposed SACCN distinguishes crowd and background by applying regional and semantic self-attention mechanisms on the shallow layers and deep layers, respectively. Moreover, the asymmetric multi-scale module (AMM) is proposed to deal with the problem of scale diversity, and regional attention based dense connections and skip connections are designed to alleviate the variations on crowd scales. Extensive experimental results on multiple public benchmarks demonstrate that our proposed SACCN achieves satisfied superior performances and outperform most state-of-the-art methods. All codes and pretrained models will be released soon.
翻訳日:2021-04-11 18:21:54 公開日:2021-01-07
# 差分比較による実践的ブラインドメンバーシップ推論攻撃

Practical Blind Membership Inference Attack via Differential Comparisons ( http://arxiv.org/abs/2101.01341v2 )

ライセンス: Link先を確認
Bo Hui, Yuchen Yang, Haolin Yuan, Philippe Burlina, Neil Zhenqiang Gong and Yinzhi Cao(参考訳) メンバーシップ推論(MI)攻撃は、対象とする学習モデル(ディープニューラルネットワークなど)のトレーニングに与えられたデータサンプルを使用したかどうかを推測することで、ユーザのプライバシに影響を与える。 文献には2種類のMI攻撃があり、すなわちこれらは影モデルと無影モデルである。 前者の成功は、シャドーモデルの品質、すなわち、シャドーモデルとターゲット間の転送可能性に大きく依存する。後者は、ターゲットモデルにアクセスできるブラックボックスのみを与えられた場合、地上の真理メンバーシップ情報にラベル付けされた適格なサンプルが不足しているため、シャドーモデルを用いたMI攻撃と比較して、未知を効果的に推測することはできない。 本稿では,ターゲットモデルを調査し,新たなアプローチである差分比較によってメンバーシップセマンティクスを抽出する,ブラインドミ(blindmi)と呼ばれるmi攻撃を提案する。 ハイレベルなアイデアは、ブラインドミがまず既存のサンプルを新しいサンプルに変換することで非メンバーのデータセットを生成し、その後、ターゲットのデータセットから生成された非メンバーのセットに反復的にサンプルを移動させるというものだ。 サンプルの微分移動が設定距離を増大させると、BlindMIはサンプルを非メンバーとみなし、その逆とみなす。 BlindMIを最先端のMI攻撃アルゴリズムと比較して評価した。 本評価では,ターゲットモデルのアーキテクチャや対象データセットの基底真理ラベルを知らないブラインド設定において,boeing-50やbirds-200といった一部のデータセットの最先端と比較して,blindmiがf1-scoreを20%近く改善することを示す。 また、BlindMIが最先端の防衛を倒すことも示している。

Membership inference (MI) attacks affect user privacy by inferring whether given data samples have been used to train a target learning model, e.g., a deep neural network. There are two types of MI attacks in the literature, i.e., these with and without shadow models. The success of the former heavily depends on the quality of the shadow model, i.e., the transferability between the shadow and the target; the latter, given only blackbox probing access to the target model, cannot make an effective inference of unknowns, compared with MI attacks using shadow models, due to the insufficient number of qualified samples labeled with ground truth membership information. In this paper, we propose an MI attack, called BlindMI, which probes the target model and extracts membership semantics via a novel approach, called differential comparison. The high-level idea is that BlindMI first generates a dataset with nonmembers via transforming existing samples into new samples, and then differentially moves samples from a target dataset to the generated, non-member set in an iterative manner. If the differential move of a sample increases the set distance, BlindMI considers the sample as non-member and vice versa. BlindMI was evaluated by comparing it with state-of-the-art MI attack algorithms. Our evaluation shows that BlindMI improves F1-score by nearly 20% when compared to state-of-the-art on some datasets, such as Purchase-50 and Birds-200, in the blind setting where the adversary does not know the target model's architecture and the target dataset's ground truth labels. We also show that BlindMI can defeat state-of-the-art defenses.
翻訳日:2021-04-11 11:28:15 公開日:2021-01-07
# (参考訳) ISETAuto:深度・放射量情報による車両検出

ISETAuto: Detecting vehicles with depth and radiance information ( http://arxiv.org/abs/2101.01843v2 )

ライセンス: CC BY 4.0
Zhenyi Liu, Joyce Farrell, Brian Wandell(参考訳) 自律運転アプリケーションは、深度センサーのLiDARと放射センサーカメラの2種類のセンサーシステムを使用して車両を識別する。 本研究では、複雑な日中における車両検出のためのResNetの性能(平均精度)を比較し、入力が深度マップ(D = d(x,y))、放射画像(L = r(x,y))、または両方[D,L]である場合のシーンを駆動する。 1)深度マップと放射率画像の空間サンプリング解像度が典型的なカメラ解像度と等しい場合、resnetは、放射率よりも深さから平均精度の高い車両を検出する。 2) 深度マップの空間的サンプリングが現在のlidarデバイスの範囲に減少するにつれて, 放射輝度に対するresnet平均精度は深さよりも高くなる。 (3) 深度マップと放射率画像を組み合わせたハイブリッドシステムの場合, 平均精度は深度や放射率のみを用いた場合よりも高い。 これらの観測をシミュレーションで確立し,実世界データを用いて確認した。 深度と放射率を組み合わせる利点は、2種類の情報に相補的な弱点があることに注意して説明できる。 放射データは、ダイナミックレンジと動きのぼかしによって制限される。 LiDARデータは空間分解能が比較的低い。 ResNetは2つのデータソースを効果的に組み合わせ、全体の車両検出を改善する。

Autonomous driving applications use two types of sensor systems to identify vehicles - depth sensing LiDAR and radiance sensing cameras. We compare the performance (average precision) of a ResNet for vehicle detection in complex, daytime, driving scenes when the input is a depth map (D = d(x,y)), a radiance image (L = r(x,y)), or both [D,L]. (1) When the spatial sampling resolution of the depth map and radiance image are equal to typical camera resolutions, a ResNet detects vehicles at higher average precision from depth than radiance. (2) As the spatial sampling of the depth map declines to the range of current LiDAR devices, the ResNet average precision is higher for radiance than depth. (3) For a hybrid system that combines a depth map and radiance image, the average precision is higher than using depth or radiance alone. We established these observations in simulation and then confirmed them using realworld data. The advantage of combining depth and radiance can be explained by noting that the two type of information have complementary weaknesses. The radiance data are limited by dynamic range and motion blur. The LiDAR data have relatively low spatial resolution. The ResNet combines the two data sources effectively to improve overall vehicle detection.
翻訳日:2021-04-11 08:37:32 公開日:2021-01-07
# (参考訳) ケプラーデータの分類モデルの比較

Comparing Classification Models on Kepler Data ( http://arxiv.org/abs/2101.01904v2 )

ライセンス: CC BY 4.0
Rohan Saha(参考訳) ケプラーの最初のミッションは機械的な故障で終了したが、ケプラー衛星はデータを収集し続けている。 分類モデルを用いて、外惑星が持つ特徴を理解し、それらの特徴を使用して、候補惑星に関するさらなる情報を調べることができる。 分類モデルに基づいて、観測中の惑星の確率を外惑星候補または偽陽性候補として求める。 モデルが観測が太陽系外惑星の候補であると予測した場合、さらなる調査を行うことができる。 モデルから、候補と偽陽性の違いを説明するような特徴を絞り込み、最終的にはモデルの効率を高め、モデルを微調整し、最終的には将来の太陽系外惑星を探索するプロセスに役立つ。 モデルの比較は、重要度をチェックするMcNemarのテストによってサポートされている。

Even though the original Kepler mission ended due to mechanical failures, the Kepler satellite continues to collect data. Using classification models, we can understand the features exoplanets possess and then use those features to investigate further for any more information on the candidate planet. Based on the classification model, the idea is to find out the probability of the planet under observation being a candidate for an exoplanet or a false positive. If the model predicts that the observation is a candidate for being an exoplanet, then the further investigation can be conducted. From the model, we can narrow down the features that might explain the difference between a candidate and a false-positive which ultimately helps us to increase the efficiency of any model and fine-tune the model and ultimately the process of searching for any future exoplanets. The model comparison is supported by McNemar's test for checking significance.
翻訳日:2021-04-11 06:07:35 公開日:2021-01-07
# (参考訳) 持続的農業における病の予測--乳牛の乳房炎発生の予測と説明

Predicting Illness for a Sustainable Dairy Agriculture: Predicting and Explaining the Onset of Mastitis in Dairy Cows ( http://arxiv.org/abs/2101.02188v2 )

ライセンス: CC BY 4.0
Cathal Ryan and Christophe Gu\'eret and Donagh Berry and Medb Corcoran and Mark T. Keane and Brian Mac Namee(参考訳) マスト炎は現代の乳製品産業にとって10億ドルの健康問題であり、抗生物質耐性に影響を及ぼす。 この病気の早期発症を特定するためにAI技術を使用することは、この農業セクターの持続可能性に大きな影響を及ぼす。 現在の乳房炎治療のアプローチには抗生物質が関与しており、この習慣はますます精査されている。 機械学習モデルを用いて、乳房炎を発症するリスクのある牛を識別し、標的とする治療体制をこれらの動物にのみ適用することで、より持続可能なアプローチが促進される。 しかし、そのようなモデルによる誤った予測は、金銭的損失、抗生物質の不要使用、さらには動物が早死にすることにつながる可能性があるため、ユーザとの信頼関係の構築や意思決定のより良い支援を予測するための説得力のある説明を生み出すことが重要である。 本稿では,牛の乳房炎感染を予測するシステムを構築し,これらの予測を偽物を用いて説明する。 我々は,このシステムを実演し,その構築に携わった農家との関わりを述べる。

Mastitis is a billion dollar health problem for the modern dairy industry, with implications for antibiotic resistance. The use of AI techniques to identify the early onset of this disease, thus has significant implications for the sustainability of this agricultural sector. Current approaches to treating mastitis involve antibiotics and this practice is coming under ever increasing scrutiny. Using machine learning models to identify cows at risk of developing mastitis and applying targeted treatment regimes to only those animals promotes a more sustainable approach. Incorrect predictions from such models, however, can lead to monetary losses, unnecessary use of antibiotics, and even the premature death of animals, so it is important to generate compelling explanations for predictions to build trust with users and to better support their decision making. In this paper we demonstrate a system developed to predict mastitis infections in cows and provide explanations of these predictions using counterfactuals. We demonstrate the system and describe the engagement with farmers undertaken to build it.
翻訳日:2021-04-11 03:04:50 公開日:2021-01-07
# TextBox: テキスト生成のための統一的でモジュール化された拡張可能なフレームワーク

TextBox: A Unified, Modularized, and Extensible Framework for Text Generation ( http://arxiv.org/abs/2101.02046v2 )

ライセンス: Link先を確認
Junyi Li, Tianyi Tang, Gaole He, Jinhao Jiang, Xiaoxuan Hu, Puzhao Xie, Wayne Xin Zhao, Ji-Rong Wen(参考訳) TextBoxと呼ばれるオープンライブラリをリリースし、統一され、モジュール化され、拡張可能なテキスト生成フレームワークを提供します。 TextBoxは、幅広いテキスト生成タスクとモデルをサポートすることを目指している。 TextBoxでは、ベンチマークデータセット上に複数のテキスト生成モデルを実装し、VAE、GAN、事前訓練された言語モデルなどのカテゴリをカバーする。 一方,本ライブラリは,モデルアーキテクチャ,推論,学習プロセスを高度に再利用可能なモジュールに適切に分解することにより,十分なモジュール化と拡張性を維持します。 研究者や実践者がベースラインモデルを効率的に再現し、新しいモデルを開発するのに特に適している。 TextBoxはPyTorchをベースに実装され、Apache License 2.0でhttps://github.com/RUCAIBox/TextBoxでリリースされた。

We release an open library, called TextBox, which provides a unified, modularized, and extensible text generation framework. TextBox aims to support a broad set of text generation tasks and models. In TextBox, we implements several text generation models on benchmark datasets, covering the categories of VAE, GAN, pre-trained language models, etc. Meanwhile, our library maintains sufficient modularity and extensibility by properly decomposing the model architecture, inference, learning process into highly reusable modules, which allows easily incorporating new models into our framework. It is specially suitable for researchers and practitioners to efficiently reproduce baseline models and develop new models. TextBox is implemented based on PyTorch, and released under Apache License 2.0 at https://github.com/RUCAIBox/TextBox.
翻訳日:2021-04-11 00:08:56 公開日:2021-01-07
# 幾何学的エントロピー探査

Geometric Entropic Exploration ( http://arxiv.org/abs/2101.02055v2 )

ライセンス: Link先を確認
Zhaohan Daniel Guo, Mohammad Gheshlaghi Azar, Alaa Saade, Shantanu Thakoor, Bilal Piot, Bernardo Avila Pires, Michal Valko, Thomas Mesnard, Tor Lattimore, R\'emi Munos(参考訳) 複雑な強化学習(RL)タスクの解決には探索が不可欠である。 最大状態振動エントロピー (MSVE) は、全ての州をできるだけ均一に訪問することを目的とした、明確な政策最適化問題として探索問題を定式化する。 これは、探索が過渡的で最終的に消滅する標準的な不確実性ベースのアプローチとは対照的である。 しかし、MSVEに対する既存のアプローチは、連続領域の幾何学に従わないため、離散状態空間に対してのみ理論的に正当化される。 離散領域と連続領域の両方における状態ビジットの幾何認識シャノンエントロピーを最大化する新しいアルゴリズムであるGeometric Entropy Maximisation (GEM)を導入することでこの問題に対処する。 我々の理論上の重要な貢献は、単純で新しいノイズ共生目的関数を最適化するための扱いやすい問題として、幾何学を意識したmsve探索をキャスティングすることである。 実験では,他の深部RL探査手法と比較して,疎度な報酬を伴う複数のRL問題の解法におけるGEMの効率性を示した。

Exploration is essential for solving complex Reinforcement Learning (RL) tasks. Maximum State-Visitation Entropy (MSVE) formulates the exploration problem as a well-defined policy optimization problem whose solution aims at visiting all states as uniformly as possible. This is in contrast to standard uncertainty-based approaches where exploration is transient and eventually vanishes. However, existing approaches to MSVE are theoretically justified only for discrete state-spaces as they are oblivious to the geometry of continuous domains. We address this challenge by introducing Geometric Entropy Maximisation (GEM), a new algorithm that maximises the geometry-aware Shannon entropy of state-visits in both discrete and continuous domains. Our key theoretical contribution is casting geometry-aware MSVE exploration as a tractable problem of optimising a simple and novel noise-contrastive objective function. In our experiments, we show the efficiency of GEM in solving several RL problems with sparse rewards, compared against other deep RL exploration approaches.
翻訳日:2021-04-11 00:06:03 公開日:2021-01-07
# (参考訳) 機械学習による非平面周囲惑星の安定性解析

Analyzing the Stability of Non-coplanar Circumbinary Planets using Machine Learning ( http://arxiv.org/abs/2101.02316v1 )

ライセンス: CC BY 4.0
Zhihui Kong, Jonathan H. Jiang, Zong-Hong Zhu, Kristen A. Fahy, Remo Burn(参考訳) 過去10年間、nasaのケプラーとtessのミッションによる太陽系外惑星の検出は、我々の太陽系の惑星とは大きく異なる多くの世界を発見してきた。 これは太陽系外惑星の多様性に対する我々の理解を広げるだけでなく、複雑な二星系や多星系における太陽系外惑星の研究を促進し、その居住可能性を調査する動機を与えます。 本研究では, 様々な軌道パラメータが軌道安定性に与える影響を定量化するために, 多数の周囲惑星試料を生成する数値シミュレーション法を用いて, 非平面系外惑星の軌道安定性を解析した。 また、周囲惑星系の安定性を迅速に決定できる機械学習モデルを訓練する。 以上の結果から、惑星の大きな傾斜は軌道の安定性を増加させる傾向があるが、地球と木星の間の質量範囲の変化は系の安定性にほとんど影響を与えないことが示唆された。 さらに,深層ニューラルネットワーク(dnn)は他の機械学習アルゴリズムよりも精度と精度が高いことが判明した。

Exoplanet detection in the past decade by efforts including NASA's Kepler and TESS missions has discovered many worlds that differ substantially from planets in our own Solar system, including more than 400 exoplanets orbiting binary or multi-star systems. This not only broadens our understanding of the diversity of exoplanets, but also promotes our study of exoplanets in the complex binary and multi-star systems and provides motivation to explore their habitability. In this study, we analyze orbital stability of exoplanets in non-coplanar circumbinary systems using a numerical simulation method, with which a large number of circumbinary planet samples are generated in order to quantify the effects of various orbital parameters on orbital stability. We also train a machine learning model that can quickly determine the stability of the circumbinary planetary systems. Our results indicate that larger inclinations of the planet tend to increase the stability of its orbit, but change in the planet's mass range between Earth and Jupiter has little effect on the stability of the system. In addition, we find that Deep Neural Networks (DNNs) have higher accuracy and precision than other machine learning algorithms.
翻訳日:2021-04-10 22:45:21 公開日:2021-01-07
# (参考訳) GraphHop: ノード分類のための拡張ラベル伝搬方法

GraphHop: An Enhanced Label Propagation Method for Node Classification ( http://arxiv.org/abs/2101.02326v1 )

ライセンス: CC BY 4.0
Tian Xie, Bin Wang, C.-C. Jay Kuo(参考訳) 本稿では,グラフ構造データに対するスケーラブルな半教師付きノード分類法であるgraphhopを提案する。 グラフにはすべてのノードの属性が含まれているが、いくつかのノードのラベルがある。 古典的ラベル伝搬(LP)法と新しいグラフ畳み込みネットワーク(GCN)は、この問題に対する2つの一般的な半教師付きソリューションである。 LP法は,大規模グラフ上でノード属性やラベルを協調的にモデル化したり,収束速度を遅くしたりするのに有効ではない。 GraphHopはその欠点に対して提案されている。 適切な初期ラベルベクター埋め込みでは、GraphHopの各イテレーションは、1)ラベルアグリゲーションと2)ラベル更新の2つのステップを含む。 ステップ1では、各ノードは前回のイテレーションで得られた隣人のラベルベクトルを集約する。 ステップ2では、ステップ1で得られたノード自体のラベル情報と集約されたラベル情報に基づいて、ノード毎に新しいラベルベクトルを予測する。 この反復的な手順は、近隣の情報を活用し、グラフホップが非常に小さなラベルレート設定でうまく機能し、非常に大きなグラフに対してうまくスケールすることができる。 実験結果から,グラフホップは様々な大きさのグラフにおいて,様々なタスク(引用ネットワーク,ソーシャルグラフ,消費グラフなど)において,最先端のグラフ学習手法よりも優れていた。 私たちのコードはgithubで公開されている(https://github.com/tianxieusc/graphhop)。

A scalable semi-supervised node classification method on graph-structured data, called GraphHop, is proposed in this work. The graph contains attributes of all nodes but labels of a few nodes. The classical label propagation (LP) method and the emerging graph convolutional network (GCN) are two popular semi-supervised solutions to this problem. The LP method is not effective in modeling node attributes and labels jointly or facing a slow convergence rate on large-scale graphs. GraphHop is proposed to its shortcoming. With proper initial label vector embeddings, each iteration of GraphHop contains two steps: 1) label aggregation and 2) label update. In Step 1, each node aggregates its neighbors' label vectors obtained in the previous iteration. In Step 2, a new label vector is predicted for each node based on the label of the node itself and the aggregated label information obtained in Step 1. This iterative procedure exploits the neighborhood information and enables GraphHop to perform well in an extremely small label rate setting and scale well for very large graphs. Experimental results show that GraphHop outperforms state-of-the-art graph learning methods on a wide range of tasks (e.g., multi-label and multi-class classification on citation networks, social graphs, and commodity consumption graphs) in graphs of various sizes. Our codes are publicly available on GitHub (https://github.com/TianXieUSC/GraphHop).
翻訳日:2021-04-10 22:36:33 公開日:2021-01-07
# (参考訳) グラフモデル残差からの潜在変数の同定

Identification of Latent Variables From Graphical Model Residuals ( http://arxiv.org/abs/2101.02332v1 )

ライセンス: CC BY 4.0
Boris Hayete, Fred Gruber, Anna Decker, Raymond Yan(参考訳) グラフに基づく因果発見法は、観測されたデータと一致する条件付き無依存を捉え、間接的または誘導的な因果関係を区別することを目的としている。 データのグラフィカルモデルの構築の成功は、因果的十分性(英語版)の仮定に依存する:すなわち、すべての共起変数が測定される。 この仮定が満たされない場合、学習されたグラフィカルな構造は任意に誤りとなり、そのようなモデルによって暗示される影響は誤った帰属、誤った大きさ、あるいは相関の誤った表現方向を持つ可能性がある。 グラフィカルモデルのより少ない「ビッグデータ」への広範な適用は、保存されていない共同設立問題に新たな注目を集める。 本稿では,推定モデルの残差から潜時空間のプロキシを反復的に導出することにより,DAGを推定する際の潜時空間の制御を目的とした新しい手法を提案する。 軽度の仮定の下では,ガウス図形モデルの構造的推論を改善し,因果効果の同定性を高める。 さらに、モデルが結果を予測するために使用される場合、結果の親の係数を解き、サンプル外のレジームがトレーニングデータと大きく異なる場合の予測性能を改善する。 結果の予測の改善は本質的にカプセル化されており,既成モデルと比較して一定の限界を超えないことを示す。 我々はこの方法論をggmを超えて順序変数や非線形ケースにまで拡張する。 我々のRパッケージはPCAとオートエンコーダの両方の実装を提供しており、GGMにはいくつかの保証があり、一般的には性能が向上するが、そのような保証はない。

Graph-based causal discovery methods aim to capture conditional independencies consistent with the observed data and differentiate causal relationships from indirect or induced ones. Successful construction of graphical models of data depends on the assumption of causal sufficiency: that is, that all confounding variables are measured. When this assumption is not met, learned graphical structures may become arbitrarily incorrect and effects implied by such models may be wrongly attributed, carry the wrong magnitude, or mis-represent direction of correlation. Wide application of graphical models to increasingly less curated "big data" draws renewed attention to the unobserved confounder problem. We present a novel method that aims to control for the latent space when estimating a DAG by iteratively deriving proxies for the latent space from the residuals of the inferred model. Under mild assumptions, our method improves structural inference of Gaussian graphical models and enhances identifiability of the causal effect. In addition, when the model is being used to predict outcomes, it un-confounds the coefficients on the parents of the outcomes and leads to improved predictive performance when out-of-sample regime is very different from the training data. We show that any improvement of prediction of an outcome is intrinsically capped and cannot rise beyond a certain limit as compared to the confounded model. We extend our methodology beyond GGMs to ordinal variables and nonlinear cases. Our R package provides both PCA and autoencoder implementations of the methodology, suitable for GGMs with some guarantees and for better performance in general cases but without such guarantees.
翻訳日:2021-04-10 22:13:57 公開日:2021-01-07
# (参考訳) 感情とパーソナリティ検出のためのマルチタスク学習

Multitask Learning for Emotion and Personality Detection ( http://arxiv.org/abs/2101.02346v1 )

ライセンス: CC BY-SA 4.0
Yang Li, Amirmohammad Kazameini, Yash Mehta, Erik Cambria(参考訳) 近年,深層学習に基づく人格特徴の自動検出が注目されている。 さらに、多くの研究者がパーソナリティ特性と感情の間に強い関連があることを実証している。 本稿では,人格特性と感情行動の相関関係を解明し,両者を同時に予測する新しいマルチタスク学習フレームワークSoGMTLを提案する。 また,2つのタスク間の異なる情報共有機構を実証的に評価し,議論する。 学習プロセスの質を高めるために,モデル最適化のためのMAMLライクなフレームワークを採用する。 より計算効率のよいCNNベースのマルチタスクモデルは、複数の有名人格や感情データセットをまたいだ最先端のパフォーマンスを実現します。

In recent years, deep learning-based automated personality trait detection has received a lot of attention, especially now, due to the massive digital footprints of an individual. Moreover, many researchers have demonstrated that there is a strong link between personality traits and emotions. In this paper, we build on the known correlation between personality traits and emotional behaviors, and propose a novel multitask learning framework, SoGMTL that simultaneously predicts both of them. We also empirically evaluate and discuss different information-sharing mechanisms between the two tasks. To ensure the high quality of the learning process, we adopt a MAML-like framework for model optimization. Our more computationally efficient CNN-based multitask model achieves the state-of-the-art performance across multiple famous personality and emotion datasets, even outperforming Language Model based models.
翻訳日:2021-04-10 21:35:21 公開日:2021-01-07
# (参考訳) aaai 2021におけるテキスト変換の課題 - 英語による偽ニュース検出

Exploring Text-transformers in AAAI 2021 Shared Task: COVID-19 Fake News Detection in English ( http://arxiv.org/abs/2101.02359v1 )

ライセンス: CC BY 4.0
Xiangyang Li, Yu Xia, Xiang Long, Zheng Li, Sujian Li(参考訳) 本稿では,aaai 2021における偽ニュース検出のタスクを英語で共有し,f1の重み付けスコア0.9859で3位に到達した。 具体的には、bert, roberta, ernie など、さまざまな事前学習された言語モデルのアンサンブル法を提案する。 ウォームアップ、ラーニングレートスケジュール、k-foldクロスバリデーションなど、さまざまなトレーニング戦略で。 また, 適切に分類されていない試料を広範囲に分析した。 コードは以下の通り。https://github.com/archersama/3rd-solution-COVID19-Fake-News-Detection-in- English。

In this paper, we describe our system for the AAAI 2021 shared task of COVID-19 Fake News Detection in English, where we achieved the 3rd position with the weighted F1 score of 0.9859 on the test set. Specifically, we proposed an ensemble method of different pre-trained language models such as BERT, Roberta, Ernie, etc. with various training strategies including warm-up,learning rate schedule and k-fold cross-validation. We also conduct an extensive analysis of the samples that are not correctly classified. The code is available at:https://github.com/archersama/3rd-solution-COVID19-Fake-News-Detection-in-English.
翻訳日:2021-04-10 21:22:38 公開日:2021-01-07
# (参考訳) Dual-Teacher++: 心臓セグメンテーションのための信頼性トランスファーによるドメイン内知識とドメイン間知識のエクスプロイト

Dual-Teacher++: Exploiting Intra-domain and Inter-domain Knowledge with Reliable Transfer for Cardiac Segmentation ( http://arxiv.org/abs/2101.02375v1 )

ライセンス: CC0 1.0
Kang Li, Shujun Wang, Lequan Yu, Pheng-Ann Heng(参考訳) 注釈不足は医用画像解析領域における長年の問題である。 制限されたアノテーションを効率的に活用するために、半教師付き学習では豊富なラベルなしデータも活用され、ドメイン適応では十分に確立されたクロスモダリティデータが研究される。 本稿では,非ラベル付きデータと相互モダリティデータの両方を併用して,アノテーション効率の良い心臓セグメンテーションの実現可能性を検討する。 そこで我々は,最先端の半教師付きドメイン適応フレームワークであるDual-Teacher++を提案する。 従来の文献で採用した学生モデルを用いて,ラベル付き対象領域データ(例えばct)から直接学習するだけでなく,ソースドメイン(例えばmr)からのクロスモダリティを探索するドメイン間教師モデルや,ラベル付き対象領域の知識を調査するドメイン内教師モデルなど,新たな2つの教師モデルを設計する。 このようにして、二重教師モデルは獲得したドメイン内およびドメイン内知識を学生モデルに転送し、さらなる統合と活用を行う。 さらに、信頼性の高い二重ドメイン知識転送を促進するため、外観アライメント後の対象ドメインとの類似度の高いサンプルのドメイン間知識転送を強化し、予測信頼度の高い未ラベル対象データのドメイン内知識転送を強化する。 このようにして、学生モデルは信頼できる二重ドメイン知識を得て、ターゲットドメインデータのパフォーマンスを向上させることができる。 MM-WHS 2017 チャレンジデータセットにおいて,提案手法の有効性を広く評価した。 実験は、他の半教師付き学習法やドメイン適応法よりも、我々のフレームワークの優位性を実証した。 さらに,MRIからCTへの適応,CTからMRへの適応,両方向の成績向上が期待できる。

Annotation scarcity is a long-standing problem in medical image analysis area. To efficiently leverage limited annotations, abundant unlabeled data are additionally exploited in semi-supervised learning, while well-established cross-modality data are investigated in domain adaptation. In this paper, we aim to explore the feasibility of concurrently leveraging both unlabeled data and cross-modality data for annotation-efficient cardiac segmentation. To this end, we propose a cutting-edge semi-supervised domain adaptation framework, namely Dual-Teacher++. Besides directly learning from limited labeled target domain data (e.g., CT) via a student model adopted by previous literature, we design novel dual teacher models, including an inter-domain teacher model to explore cross-modality priors from source domain (e.g., MR) and an intra-domain teacher model to investigate the knowledge beneath unlabeled target domain. In this way, the dual teacher models would transfer acquired inter- and intra-domain knowledge to the student model for further integration and exploitation. Moreover, to encourage reliable dual-domain knowledge transfer, we enhance the inter-domain knowledge transfer on the samples with higher similarity to target domain after appearance alignment, and also strengthen intra-domain knowledge transfer of unlabeled target data with higher prediction confidence. In this way, the student model can obtain reliable dual-domain knowledge and yield improved performance on target domain data. We extensively evaluated the feasibility of our method on the MM-WHS 2017 challenge dataset. The experiments have demonstrated the superiority of our framework over other semi-supervised learning and domain adaptation methods. Moreover, our performance gains could be yielded in bidirections,i.e., adapting from MR to CT, and from CT to MR.
翻訳日:2021-04-10 21:16:22 公開日:2021-01-07
# (参考訳) サンプリング速度向上のための反復生成モデルの知識蒸留

Knowledge Distillation in Iterative Generative Models for Improved Sampling Speed ( http://arxiv.org/abs/2101.02388v1 )

ライセンス: CC BY-SA 4.0
Eric Luhman, Troy Luhman(参考訳) 雑音条件スコアネットワークや拡散確率モデルなどの反復生成モデルは、初期雑音ベクトルを徐々にノイズ化し、高品質なサンプルを生成する。 しかし、それらの分解過程は多くのステップがあり、GANやVAEのような他の生成モデルよりも2~3桁遅い。 本稿では,複数段階の脱離過程を単一ステップに蒸留し,他の単一ステップ生成モデルと類似したサンプリング速度を実現する手法を用いて,知識蒸留と画像生成との新たな接続を確立する。 我々のDenoising Studentsは、CIFAR-10とCelebAデータセットに比較して高品質なサンプルを生成する。 本手法は256 x 256 lsun実験により高分解能にスケールできることを実証する。 コードとチェックポイントはhttps://github.com/tcl9876/Denoising_Studentで入手できる。

Iterative generative models, such as noise conditional score networks and denoising diffusion probabilistic models, produce high quality samples by gradually denoising an initial noise vector. However, their denoising process has many steps, making them 2-3 orders of magnitude slower than other generative models such as GANs and VAEs. In this paper, we establish a novel connection between knowledge distillation and image generation with a technique that distills a multi-step denoising process into a single step, resulting in a sampling speed similar to other single-step generative models. Our Denoising Student generates high quality samples comparable to GANs on the CIFAR-10 and CelebA datasets, without adversarial training. We demonstrate that our method scales to higher resolutions through experiments on 256 x 256 LSUN. Code and checkpoints are available at https://github.com/tcl9876/Denoising_Student
翻訳日:2021-04-10 20:33:14 公開日:2021-01-07
# (参考訳) 深層学習における勾配降下の最適化戦略に関する包括的研究

A Comprehensive Study on Optimization Strategies for Gradient Descent In Deep Learning ( http://arxiv.org/abs/2101.02397v1 )

ライセンス: CC BY 4.0
Kaustubh Yadav(参考訳) ニューラルネットワークの最も重要な部分の1つは、モデルがどれほど良いか悪いかを示す損失関数を最小化することです。 これらの損失を最小限に抑えるには、重みとバイアスを調整する必要があります。 また、関数の最小値を計算するには勾配が必要である。 そして、重みを更新するには勾配降下が必要です。 しかし、正規勾配降下にはいくつかの問題がある。 かなり遅いし、それほど正確ではない。 この記事では,勾配降下の最適化戦略について紹介する。 さらに、これらのアルゴリズムのアーキテクチャや、ニューラルネットワーク全般のさらなる最適化についても論じる。

One of the most important parts of Artificial Neural Networks is minimizing the loss functions which tells us how good or bad our model is. To minimize these losses we need to tune the weights and biases. Also to calculate the minimum value of a function we need gradient. And to update our weights we need gradient descent. But there are some problems with regular gradient descent ie. it is quite slow and not that accurate. This article aims to give an introduction to optimization strategies to gradient descent. In addition, we shall also discuss the architecture of these algorithms and further optimization of Neural Networks in general
翻訳日:2021-04-10 20:18:37 公開日:2021-01-07
# (参考訳) クラスタリングアプローチを用いたbertを用いたホムニム識別

Homonym Identification using BERT -- Using a Clustering Approach ( http://arxiv.org/abs/2101.02398v1 )

ライセンス: CC BY 4.0
Rohan Saha(参考訳) 感覚の粗い分割を必要とするWSDにとって、ホモニムの識別は重要である。 このプロジェクトの目標は、文脈情報が偽語を識別するのに十分かどうかを判断することである。 コンテキストをキャプチャするために、BERTの埋め込みはWord2Vecとは対照的に使用される。 SemCorは埋め込みを取得するために利用される。 埋め込みに様々なクラスタリングアルゴリズムを適用する。 最後に、埋め込みを低次元空間に可視化し、クラスタリングプロセスの実現可能性を理解する。

Homonym identification is important for WSD that require coarse-grained partitions of senses. The goal of this project is to determine whether contextual information is sufficient for identifying a homonymous word. To capture the context, BERT embeddings are used as opposed to Word2Vec, which conflates senses into one vector. SemCor is leveraged to retrieve the embeddings. Various clustering algorithms are applied to the embeddings. Finally, the embeddings are visualized in a lower-dimensional space to understand the feasibility of the clustering process.
翻訳日:2021-04-10 19:54:51 公開日:2021-01-07
# (参考訳) 複合語変換器:動的指向型ハイパーグラフによる全曲音楽合成学習

Compound Word Transformer: Learning to Compose Full-Song Music over Dynamic Directed Hypergraphs ( http://arxiv.org/abs/2101.02402v1 )

ライセンス: CC BY 4.0
Wen-Yi Hsiao, Jen-Yu Liu, Yin-Cheng Yeh, Yi-Hsuan Yang(参考訳) 音楽生成タスクにトランスフォーマなどのニューラルシーケンスモデルを適用するには、予め定義された語彙の有限集合から引き出されたトークン列によって楽曲を表現しなければならない。 このような語彙は通常、様々な種類のトークンを含む。 例えば、音符を記述するには、音符のピッチ、持続時間、速度(力学)、および時間グリッドに沿った配置(セット時間)を示すために、別々のトークンが必要である。 異なる種類のトークンは異なる性質を持つ可能性があるが、既存のモデルは通常、自然言語で単語をモデル化するのと同じように、それらを扱う。 本稿では,メモ型やメトリック型といったトークンの型を明示的に考慮した,概念的に異なるアプローチを提案する。 また,異なるタイプのトークンをモデル化するために異なるフィードフォワードヘッドを使用するトランスフォーマーデコーダアーキテクチャを提案する。 拡張圧縮方式では,隣接するトークンをグループ化して楽曲を複合語列に変換し,トークン列の長さを大幅に削減する。 得られたモデルは動的有向ハイパーグラフの学習者と見なすことができることを示す。 また,曲の長さ(曲ごとに最大10万個のトークンを含む)の表現力のあるポップピアノを条件付き・無条件で作曲することを学ぶ。 実験では、最先端モデルと比較して、トレーニング時の5~10倍の高速化(つまり11gbのメモリを持つシングルgpu上で1日以内)と、生成した音楽のクオリティが同等であることを示す。

To apply neural sequence models such as the Transformers to music generation tasks, one has to represent a piece of music by a sequence of tokens drawn from a finite set of pre-defined vocabulary. Such a vocabulary usually involves tokens of various types. For example, to describe a musical note, one needs separate tokens to indicate the note's pitch, duration, velocity (dynamics), and placement (onset time) along the time grid. While different types of tokens may possess different properties, existing models usually treat them equally, in the same way as modeling words in natural languages. In this paper, we present a conceptually different approach that explicitly takes into account the type of the tokens, such as note types and metric types. And, we propose a new Transformer decoder architecture that uses different feed-forward heads to model tokens of different types. With an expansion-compression trick, we convert a piece of music to a sequence of compound words by grouping neighboring tokens, greatly reducing the length of the token sequences. We show that the resulting model can be viewed as a learner over dynamic directed hypergraphs. And, we employ it to learn to compose expressive Pop piano music of full-song length (involving up to 10K individual tokens per song), both conditionally and unconditionally. Our experiment shows that, compared to state-of-the-art models, the proposed model converges 5--10 times faster at training (i.e., within a day on a single GPU with 11 GB memory), and with comparable quality in the generated music.
翻訳日:2021-04-10 19:49:02 公開日:2021-01-07
# (参考訳) グラフィカルラッソに基づく大規模多変量空間データのモデリング

Modeling massive multivariate spatial data with the basis graphical lasso ( http://arxiv.org/abs/2101.02404v1 )

ライセンス: CC BY 4.0
Mitchell Krock, William Kleiber, Dorit Hammerling, and Stephen Becker(参考訳) 本稿では,近年のマルチスケールおよびスペクトルアプローチのアイデアをグラフィカルモデルで合成する多変量空間プロセスのための新しいモデリングフレームワークを提案する。 基礎グラフィカルラッソは、$\ell_1$ペナル化確率を最適化してグラフを推定するガウスグラフィカルベクトルのエントリを重み付けた基底関数の線形結合として、不定ガウス過程を記述する。 本稿では,基礎関数をガウスベクトルで重み付けする多変量ガウス過程に設定を拡張する。 基本関数が解像度の異なるレベルを表し、各レベルに対するグラフィカルベクターが独立であると仮定したモデルにモチベーションを与える。 直交基底を使用すると、空間的位置の数、基底関数の数、実現数における線形複雑性とメモリ使用量が得られる。 追加の融合ペナルティは、多レベルグラフィカルモデルにおける相似条件独立構造を促進する。 我々は,国立大気研究センターの地域大気モデルから,40の空間過程を含む大規模な気候アンサンブルについて概説した。

We propose a new modeling framework for highly multivariate spatial processes that synthesizes ideas from recent multiscale and spectral approaches with graphical models. The basis graphical lasso writes a univariate Gaussian process as a linear combination of basis functions weighted with entries of a Gaussian graphical vector whose graph is estimated from optimizing an $\ell_1$ penalized likelihood. This paper extends the setting to a multivariate Gaussian process where the basis functions are weighted with Gaussian graphical vectors. We motivate a model where the basis functions represent different levels of resolution and the graphical vectors for each level are assumed to be independent. Using an orthogonal basis grants linear complexity and memory usage in the number of spatial locations, the number of basis functions, and the number of realizations. An additional fusion penalty encourages a parsimonious conditional independence structure in the multilevel graphical model. We illustrate our method on a large climate ensemble from the National Center for Atmospheric Research's Community Atmosphere Model that involves 40 spatial processes.
翻訳日:2021-04-10 19:31:46 公開日:2021-01-07
# (参考訳) 乳牛の反すうの検出: ディープラーニングによるアプローチ

Dairy Cow rumination detection: A deep learning approach ( http://arxiv.org/abs/2101.10445v1 )

ライセンス: CC BY 4.0
Safa Ayadi, Ahmed ben said, Rateb Jabbar, Chafik Aloulou, Achraf Chabbouh, and Ahmed Ben Achballah(参考訳) 牛の活動は反響者の健康と福祉をモニタリングする上で不可欠な指標である。 したがって、家畜の行動の変化は、いくつかの疾患の早期発見と予防にとって重要な指標である。 ラミネート行動は、畜産業の発展と収量を追跡する重要な変数である。 そのため、牛の行動評価には様々なモニタリング方法や計測装置が用いられている。 しかし、現代のアタッチメント装置は牛にとって侵襲的でストレスが多く、不快であり、動物の福祉行動や昼行行動に悪影響を及ぼす可能性がある。 複数の研究が視覚的特徴に頼って新しい手法を採用することによりルミネーション検出の問題に対処した。 しかし、乳牛の姿勢は、反すう行動や摂食行動を認識するためにしか使われない。 本研究では,畳み込みニューラルネットワーク(CNN)に基づくディープラーニングモデルを用いた革新的なモニタリング手法を提案する。 分類プロセスは、監視カメラで撮影されたすべての牛の姿勢を用いて、ラミネートとその他の2つの主要なラベルで実行される。 提案システムは,ビデオのコンパクト化表現を1つの2次元画像に用いて,長期的ダイナミクスをキャプチャできる,シンプルで使いやすいシステムである。 この手法は, 95%, 98%, 98%の平均精度, 再現率, 精度のそれぞれで反すう行動の認識に有効であることを証明した。

Cattle activity is an essential index for monitoring health and welfare of the ruminants. Thus, changes in the livestock behavior are a critical indicator for early detection and prevention of several diseases. Rumination behavior is a significant variable for tracking the development and yield of animal husbandry. Therefore, various monitoring methods and measurement equipment have been used to assess cattle behavior. However, these modern attached devices are invasive, stressful and uncomfortable for the cattle and can influence negatively the welfare and diurnal behavior of the animal. Multiple research efforts addressed the problem of rumination detection by adopting new methods by relying on visual features. However, they only use few postures of the dairy cow to recognize the rumination or feeding behavior. In this study, we introduce an innovative monitoring method using Convolution Neural Network (CNN)-based deep learning models. The classification process is conducted under two main labels: ruminating and other, using all cow postures captured by the monitoring camera. Our proposed system is simple and easy-to-use which is able to capture long-term dynamics using a compacted representation of a video in a single 2D image. This method proved efficiency in recognizing the rumination behavior with 95%, 98% and 98% of average accuracy, recall and precision, respectively.
翻訳日:2021-04-10 19:30:22 公開日:2021-01-07
# (参考訳) 能動物体検出のためのプログレッシブ自己誘導損失

Progressive Self-Guided Loss for Salient Object Detection ( http://arxiv.org/abs/2101.02412v1 )

ライセンス: CC BY 4.0
Sheng Yang, Weisi Lin, Guosheng Lin, Qiuping Jiang, Zichuan Liu(参考訳) 本稿では,画像中のsod(deep learning-based salient object detection)を容易にするために,簡易かつ効果的な自己誘導損失関数を提案する。 最も関係のある作品によって生み出されるサリエンシーマップは、サルエント対象の内部複雑性のためにまだ不完全な予測に苦しめられている。 提案するプログレッシブ自己誘導損失は,学習過程を段階的に指導するプログレッシブおよび補助訓練監督を作成するためのモデル予測に関する形態的閉鎖操作をシミュレートする。 この新しい損失関数は、sodモデルがより完全なサルエントオブジェクトを段階的に強調すると同時に、サルエントオブジェクトピクセルの空間的依存性を、拡大する領域で解明するのに役立つことを実証する。 さらに,マルチスケールな特徴をキャプチャし,分岐的注意機構により適応的に集約する機能アグリゲーションモジュールを提案する。 このモジュールから恩恵を受けるため、当社のSODフレームワークは、適応的に集約されたマルチスケール機能を利用して、健全なオブジェクトの発見と検出を効果的に行う。 いくつかのベンチマークデータセットによる実験結果から、損失関数はアーキテクチャ変更なしに既存のSODモデルの性能を向上するだけでなく、提案したフレームワークが最先端のパフォーマンスを達成するのに役立ちます。

We present a simple yet effective progressive self-guided loss function to facilitate deep learning-based salient object detection (SOD) in images. The saliency maps produced by the most relevant works still suffer from incomplete predictions due to the internal complexity of salient objects. Our proposed progressive self-guided loss simulates a morphological closing operation on the model predictions for epoch-wisely creating progressive and auxiliary training supervisions to step-wisely guide the training process. We demonstrate that this new loss function can guide the SOD model to highlight more complete salient objects step-by-step and meanwhile help to uncover the spatial dependencies of the salient object pixels in a region growing manner. Moreover, a new feature aggregation module is proposed to capture multi-scale features and aggregate them adaptively by a branch-wise attention mechanism. Benefiting from this module, our SOD framework takes advantage of adaptively aggregated multi-scale features to locate and detect salient objects effectively. Experimental results on several benchmark datasets show that our loss function not only advances the performance of existing SOD models without architecture modification but also helps our proposed framework to achieve state-of-the-art performance.
翻訳日:2021-04-10 19:14:03 公開日:2021-01-07
# (参考訳) webから転送可能な属性抽出のための簡易domツリー

Simplified DOM Trees for Transferable Attribute Extraction from the Web ( http://arxiv.org/abs/2101.02415v1 )

ライセンス: CC BY 4.0
Yichao Zhou, Ying Sheng, Nguyen Vo, Nick Edmonds, Sandeep Tata(参考訳) ウェブから構造化された知識(すなわち)を正確に抽出する必要がある。 HTMLドキュメント)。 ウェブページが与えられたら、興味のある属性(例えば、)とともに構造化されたオブジェクトを抽出する。 price, publisher, author, and genre for a book)は、大規模な知識ベース構築、eコマース製品検索、パーソナライズドレコメンデーションなど、下流のさまざまなアプリケーションを促進することができる。 各WebページがHTML DOMツリーからレンダリングされていることを考慮すれば、既存のアプローチはDOMツリーノードタグタスクとして問題を定式化する。 しかしながら、計算コストの高いビジュアル機能工学に依存するか、ツリーノード間の関係をモデル化できないかのどちらかである。 本稿では,木構造を利用して各ノードの有用なコンテキストを効率よく検索し,その問題に対処するために,トランスファー可能な新しい手法であるSimplified DOM Trees for Attribute extract (SimpDOM)を提案する。 実験では,2つの難解な設定について検討した: (i) 逆数点抽出, (ii) 領域外知識を用いた逆数点抽出, アプローチの評価。 SWDEの公開データセットに関する大規模な実験によると、SimpDOMはF1スコアに対して、最先端(SOTA)メソッドを1.44%上回っている。 また、異なる垂直(垂直方向抽出)からの知識を活用することは驚くほど有用であり、SOTAをさらに1.37%上回るのに役立ちます。

There has been a steady need to precisely extract structured knowledge from the web (i.e. HTML documents). Given a web page, extracting a structured object along with various attributes of interest (e.g. price, publisher, author, and genre for a book) can facilitate a variety of downstream applications such as large-scale knowledge base construction, e-commerce product search, and personalized recommendation. Considering each web page is rendered from an HTML DOM tree, existing approaches formulate the problem as a DOM tree node tagging task. However, they either rely on computationally expensive visual feature engineering or are incapable of modeling the relationship among the tree nodes. In this paper, we propose a novel transferable method, Simplified DOM Trees for Attribute Extraction (SimpDOM), to tackle the problem by efficiently retrieving useful context for each node by leveraging the tree structure. We study two challenging experimental settings: (i) intra-vertical few-shot extraction, and (ii) cross-vertical fewshot extraction with out-of-domain knowledge, to evaluate our approach. Extensive experiments on the SWDE public dataset show that SimpDOM outperforms the state-of-the-art (SOTA) method by 1.44% on the F1 score. We also find that utilizing knowledge from a different vertical (cross-vertical extraction) is surprisingly useful and helps beat the SOTA by a further 1.37%.
翻訳日:2021-04-10 18:54:04 公開日:2021-01-07
# (参考訳) 高速情報流における疑わしい事象の検出

Detecting Suspicious Events in Fast Information Flows ( http://arxiv.org/abs/2101.02424v1 )

ライセンス: CC BY 4.0
Kristiaan Pelckmans, Moustafa Aboushady, Andreas Brosemyr(参考訳) 本稿では,HALFADOという計算羽根光と直感的かつ効率の良いアルゴリズムについて述べる。 HALFADOは、人間の判断の比較的少数の例に基づいて、複雑なエントリの高周波ストリームにおける不審事象を検出するように設計されている。 十分に正確な検知システムを運用することは、現代のデジタル社会の様々な分野の人間専門家のチームにとって不可欠である。 これらのシステムは本質的には遠い規範的効果を持ち、そのような技術の作業に関する公共知識は人権であるべきである。 概念レベルでは、本手法はその理論的性質を継承し、分類のための最も古典的な学習アルゴリズムの1つを拡張する。 しかし、人間と計算知性を統合する半監督的な方法で機能する。 実用レベルでは、このアルゴリズムは既存のアプローチ(エキスパートシステム)を超越し、その性能を単一のグローバル検出器に管理し、強化する。 本稿では,(1)ソーシャルメディア・プラットフォームから収集したテキスト・メッセージの流れ中における"em hate speech"メッセージの検出,(2)フィンテックにおける取引監視システム(tms)による金融取引の流れにおける不正取引の検出,という2つの課題に対して,valadoの有効性を示す。 このアルゴリズムは、一般的な信念に反して、高度な機械学習手法は高度な計算能力や高価なアノテーションの努力を必要としないことを示している。

We describe a computational feather-light and intuitive, yet provably efficient algorithm, named HALFADO. HALFADO is designed for detecting suspicious events in a high-frequency stream of complex entries, based on a relatively small number of examples of human judgement. Operating a sufficiently accurate detection system is vital for {\em assisting} teams of human experts in many different areas of the modern digital society. These systems have intrinsically a far-reaching normative effect, and public knowledge of the workings of such technology should be a human right. On a conceptual level, the present approach extends one of the most classical learning algorithms for classification, inheriting its theoretical properties. It however works in a semi-supervised way integrating human and computational intelligence. On a practical level, this algorithm transcends existing approaches (expert systems) by managing and boosting their performance into a single global detector. We illustrate HALFADO's efficacy on two challenging applications: (1) for detecting {\em hate speech} messages in a flow of text messages gathered from a social media platform, and (2) for a Transaction Monitoring System (TMS) in FinTech detecting fraudulent transactions in a stream of financial transactions. This algorithm illustrates that - contrary to popular belief - advanced methods of machine learning need not require neither advanced levels of computation power nor expensive annotation efforts.
翻訳日:2021-04-10 18:11:34 公開日:2021-01-07
# (参考訳) 画像分類のための分布外検出法の実際的評価

Practical Evaluation of Out-of-Distribution Detection Methods for Image Classification ( http://arxiv.org/abs/2101.02447v1 )

ライセンス: CC BY 4.0
Engkarat Techapanurak, Takayuki Okatani(参考訳) 我々は画像認識のためのOOD検出手法の評価を再考する。 より優れたOOD検出法を構築するために多くの研究が行われてきたが、そのほとんどはヘンドリックスとギンペルの実験的な評価法に追随している。 公正な比較には統一評価法が必要であるが、タスクとデータセットの選択が現実世界のアプリケーションに反映するかどうか、評価結果が他のOOD検出アプリケーションシナリオに一般化できるかどうかが疑問である。 本稿では,様々なデータセットや分類タスクにおいて,非関連な入力検出,新しいクラス検出,ドメインシフト検出の3つのシナリオに対して,代表OOD検出手法の性能を実験的に評価する。 その結果,シナリオとデータセットの違いにより,手法間の相対的な性能が変化することがわかった。 また,OOD検出法を選択するための実践者のためのガイドとしても利用できる。

We reconsider the evaluation of OOD detection methods for image recognition. Although many studies have been conducted so far to build better OOD detection methods, most of them follow Hendrycks and Gimpel's work for the method of experimental evaluation. While the unified evaluation method is necessary for a fair comparison, there is a question of if its choice of tasks and datasets reflect real-world applications and if the evaluation results can generalize to other OOD detection application scenarios. In this paper, we experimentally evaluate the performance of representative OOD detection methods for three scenarios, i.e., irrelevant input detection, novel class detection, and domain shift detection, on various datasets and classification tasks. The results show that differences in scenarios and datasets alter the relative performance among the methods. Our results can also be used as a guide for practitioners for the selection of OOD detection methods.
翻訳日:2021-04-10 18:03:46 公開日:2021-01-07
# (参考訳) 識別性向上のための散布イン・アウト・オブ・ディストリビューションサンプル

Bridging In- and Out-of-distribution Samples for Their Better Discriminability ( http://arxiv.org/abs/2101.02500v1 )

ライセンス: CC BY 4.0
Engkarat Techapanurak, Anh-Chuong Dang, Takayuki Okatani(参考訳) 本稿では,OOD検出手法を提案する。 IDとOODのサンプルは別々に分離されているというこれまでの研究の前提に疑問を呈し、2つの中間に位置するサンプルを検討し、それらをネットワークのトレーニングに利用した。 我々は複数の画像変換を用いて、様々な方法で入力を破損させ、重大度レベルが異なるようなサンプルを生成する。 クリーンなIDサンプルをトレーニングしたネットワークを用いて,単一の画像変換によって生成されたサンプルが,IDとOODの間にどこにあるかを推定する。 具体的には,ネットワークが生成したサンプルを分類し,その平均分類精度を算出し,ソフトターゲットラベルを作成する。 元のidサンプルと生成されたサンプルを使って、同じネットワークをスクラッチからトレーニングします。 我々は予測ソフトマックス確率のエントロピーをしきい値にすることでOODサンプルを検出する。 実験結果から,本手法は従来のベンチマークテストよりも優れた性能を示した。 また,画像劣化変換の回数と特定の組み合わせが性能に与える影響を解析した。

This paper proposes a method for OOD detection. Questioning the premise of previous studies that ID and OOD samples are separated distinctly, we consider samples lying in the intermediate of the two and use them for training a network. We generate such samples using multiple image transformations that corrupt inputs in various ways and with different severity levels. We estimate where the generated samples by a single image transformation lie between ID and OOD using a network trained on clean ID samples. To be specific, we make the network classify the generated samples and calculate their mean classification accuracy, using which we create a soft target label for them. We train the same network from scratch using the original ID samples and the generated samples with the soft labels created for them. We detect OOD samples by thresholding the entropy of the predicted softmax probability. The experimental results show that our method outperforms the previous state-of-the-art in the standard benchmark tests. We also analyze the effect of the number and particular combinations of image corrupting transformations on the performance.
翻訳日:2021-04-10 17:28:45 公開日:2021-01-07
# (参考訳) レンダーヒトからの人体計測の学習

Learning Anthropometry from Rendered Humans ( http://arxiv.org/abs/2101.02515v1 )

ライセンス: CC BY 4.0
Song Yan and Joni-Kristian K\"am\"ar\"ainen(参考訳) RGB画像からの人体計測の正確な推定は、産業デザイン、オンライン衣服、医療診断、エルゴノミクスに多くの可能性を持つ。 このトピックの研究は、商用CAESARデータセットの3Dボディスキャンに3Dボディメッシュを適合させることに基づいて生成されたデータセットのみが存在するという事実によって制限されている。 2dではシルエットのみが生成される。 データボトルネックを回避するために,2,675名の女性と1,474名の男性による新たな3dスキャンデータセットを導入する。 また,200枚のRGB画像とテープ計測地上真実の小さなデータセットも導入した。 2つの新しいデータセットの助けを借りて,2次元画像から人文計測を推定する部分型形状モデルと深層ニューラルネットワークを提案する。 すべてのデータは公開される予定だ。

Accurate estimation of anthropometric body measurements from RGB images has many potential applications in industrial design, online clothing, medical diagnosis and ergonomics. Research on this topic is limited by the fact that there exist only generated datasets which are based on fitting a 3D body mesh to 3D body scans in the commercial CAESAR dataset. For 2D only silhouettes are generated. To circumvent the data bottleneck, we introduce a new 3D scan dataset of 2,675 female and 1,474 male scans. We also introduce a small dataset of 200 RGB images and tape measured ground truth. With the help of the two new datasets we propose a part-based shape model and a deep neural network for estimating anthropometric measurements from 2D images. All data will be made publicly available.
翻訳日:2021-04-10 16:38:59 公開日:2021-01-07
# (参考訳) 信頼性の不明なマージ

Merging with unknown reliability ( http://arxiv.org/abs/2101.02516v1 )

ライセンス: CC BY 4.0
Paolo Liberatore(参考訳) 信念の融合は、ソースの相対的信頼性に依存する。 未知の場合、同等の信頼性を仮定することは不当である。 この記事では、すべての信頼性プロファイルが可能であり、すべてに応じて保持するもののみが受け入れられる、という解決策を提案します。 あるいは、あるソースは完全に信頼できるが、どれが不明である。 これらの2つのケースは、マキシコンベースのマージと仲裁という2つの既存のマージを動機付けている。

Merging beliefs depends on the relative reliability of their sources. When unknown, assuming equal reliability is unwarranted. The solution proposed in this article is that every reliability profile is possible, and only what holds according to all is accepted. Alternatively, one source is completely reliable, but which one is unknown. These two cases motivate two existing forms of merging: maxcons-based merging and arbitration.
翻訳日:2021-04-10 16:26:19 公開日:2021-01-07
# (参考訳) クラス不均衡による小数点学習

Few-Shot Learning with Class Imbalance ( http://arxiv.org/abs/2101.02523v1 )

ライセンス: CC BY 4.0
Mateusz Ochal, Massimiliano Patacchiola, Amos Storkey, Jose Vazquez, Sen Wang(参考訳) 少数ショット学習は、クエリセットから取得したサンプルを一般化するために、サポートセットに与えられた限られた数のラベル付きサンプルでモデルをトレーニングすることを目的としている。 標準設定では、サポートセットは各クラスに対して等しい量のデータポイントを含んでいる。 しかし、この仮定は、クラス不均衡のような実世界の動的な性質から生じる多くの実践的な考察を見落としている。 本稿では,メタデータセット対タスク不均衡,異なる不均衡分布の効果(線形,ステップ,ランダム),再バランス手法の効果の3つの軸に沿ったクラス不均衡について詳細に検討する。 非バランスなタスクとメタデータセットを用いた10以上の最先端のショットラーニングとメタラーニングを比較した。 Our analysis using Mini-ImageNet reveals that 1) compared to the balanced task, the performances on class-imbalance tasks counterparts always drop, by up to $18.0\%$ for optimization-based methods, and up to $8.4$ for metric-based methods, 2) contrary to popular belief, meta-learning algorithms, such as MAML, do not automatically learn to balance by being exposed to imbalanced tasks during (meta-)training time, 3) strategies used to mitigate imbalance in supervised learning, such as oversampling, can offer a stronger solution to the class imbalance problem, 4) the effect of imbalance at the meta-dataset level is less significant than the effect at the task level with similar imbalance magnitude. 実験を再現するコードはオープンソースライセンスでリリースされている。

Few-shot learning aims to train models on a limited number of labeled samples given in a support set in order to generalize to unseen samples from a query set. In the standard setup, the support set contains an equal amount of data points for each class. However, this assumption overlooks many practical considerations arising from the dynamic nature of the real world, such as class-imbalance. In this paper, we present a detailed study of few-shot class-imbalance along three axes: meta-dataset vs. task imbalance, effect of different imbalance distributions (linear, step, random), and effect of rebalancing techniques. We extensively compare over 10 state-of-the-art few-shot learning and meta-learning methods using unbalanced tasks and meta-datasets. Our analysis using Mini-ImageNet reveals that 1) compared to the balanced task, the performances on class-imbalance tasks counterparts always drop, by up to $18.0\%$ for optimization-based methods, and up to $8.4$ for metric-based methods, 2) contrary to popular belief, meta-learning algorithms, such as MAML, do not automatically learn to balance by being exposed to imbalanced tasks during (meta-)training time, 3) strategies used to mitigate imbalance in supervised learning, such as oversampling, can offer a stronger solution to the class imbalance problem, 4) the effect of imbalance at the meta-dataset level is less significant than the effect at the task level with similar imbalance magnitude. The code to reproduce the experiments is released under an open-source license.
翻訳日:2021-04-10 16:25:33 公開日:2021-01-07
# (参考訳) MRNet:脳波による睡眠安定のためのマルチスケール残留ネットワーク

MRNet: a Multi-scale Residual Network for EEG-based Sleep Staging ( http://arxiv.org/abs/2101.02538v1 )

ライセンス: CC BY 4.0
Xue Jiang(参考訳) 脳電図(EEG)に基づく睡眠ステージングは、睡眠障害の臨床的診断と治療において重要な役割を担っている。 重ラベル作業から人間の専門家を推定するために、ディープニューラルネットワークが近年、自動睡眠ステージシステムの構築に使用されている。 しかし、脳波信号は、深い特徴の表現に影響を与えるネットワーク伝播の詳細な情報を失う。 そこで本研究では,マルチスケール特徴融合モデルとマルコフに基づく逐次補正アルゴリズムを統合し,データ駆動睡眠ステージングのための新しいフレームワークmrnetを提案する。 MRNetのバックボーンは、特徴抽出器として機能する残留ブロックベースネットワークであり、融合モデルでは、バックボーンの異なる深さから出力を結合することで特徴ピラミッドを構築し、ネットワークが異なるスケールで信号を理解するのに役立つ。 マルコフに基づく逐次補正アルゴリズムは、分類器が生成する出力ジッタを減らすように設計されている。 このアルゴリズムは、睡眠段階遷移規則とマルコフ連鎖に関連する前段階分布に依存する。 実験の結果,提案手法の精度とF1得点(例えば,Sleep-EDFxでは85.14% Acc,78.91% F1得点,Sleep-EDFでは87.59% Acc,79.62% F1得点)の競合性能を示した。

Sleep staging based on electroencephalogram (EEG) plays an important role in the clinical diagnosis and treatment of sleep disorders. In order to emancipate human experts from heavy labeling work, deep neural networks have been employed to formulate automated sleep staging systems recently. However, EEG signals lose considerable detailed information in network propagation, which affects the representation of deep features. To address this problem, we propose a new framework, called MRNet, for data-driven sleep staging by integrating a multi-scale feature fusion model and a Markov-based sequential correction algorithm. The backbone of MRNet is a residual block-based network, which performs as a feature extractor.Then the fusion model constructs a feature pyramid by concatenating the outputs from the different depths of the backbone, which can help the network better comprehend the signals in different scales. The Markov-based sequential correction algorithm is designed to reduce the output jitters generated by the classifier. The algorithm depends on a prior stage distribution associated with the sleep stage transition rule and the Markov chain. Experiment results demonstrate the competitive performance of our proposed approach on both accuracy and F1 score (e.g., 85.14% Acc and 78.91% F1 score on Sleep-EDFx, and 87.59% Acc and 79.62% F1 score on Sleep-EDF).
翻訳日:2021-04-10 16:22:43 公開日:2021-01-07
# (参考訳) 深部ニューラルネットワークのための自己監督補助モデルを用いた文脈分類

Contextual Classification Using Self-Supervised Auxiliary Models for Deep Neural Networks ( http://arxiv.org/abs/2101.03057v1 )

ライセンス: CC BY 4.0
Sebastian Palacio, Philipp Engler, J\"orn Hees, Andreas Dengel(参考訳) ディープニューラルネットワーク(DNN)で解決された分類問題は、通常、閉世界パラダイムに依存し、単一の目的(例えば、クロスエントロピー損失の最小化)を最適化する。 この設定は、特定のパターンの存在や欠如を強化するために使用できるあらゆる種類のサポートシグナルを排除します。 設計によって解釈可能なモデルの必要性が高まっているため、そのコンテキスト信号を含めることが不可欠である。 そこで本稿では,自己指導型自己学習モデル(SSAL)について紹介する。 SSALの目的は、マルチタスク学習で見られるアーキテクチャ原則に従って、元の教師付き分類タスクに由来する1つ以上の追加目標によって実現される。 SSALブランチは最適化プロセス(グループ化など)に低レベルの事前を課す。 推論中にSSALブランチを使用する能力により、モデルはより早く収束し、よりリッチなクラス関連機能セットに集中できる。 ssalモデルが,より解釈可能な構造的予測を提供しながら,常に最先端を上回っていることを示す。

Classification problems solved with deep neural networks (DNNs) typically rely on a closed world paradigm, and optimize over a single objective (e.g., minimization of the cross-entropy loss). This setup dismisses all kinds of supporting signals that can be used to reinforce the existence or absence of a particular pattern. The increasing need for models that are interpretable by design makes the inclusion of said contextual signals a crucial necessity. To this end, we introduce the notion of Self-Supervised Autogenous Learning (SSAL) models. A SSAL objective is realized through one or more additional targets that are derived from the original supervised classification task, following architectural principles found in multi-task learning. SSAL branches impose low-level priors into the optimization process (e.g., grouping). The ability of using SSAL branches during inference, allow models to converge faster, focusing on a richer set of class-relevant features. We show that SSAL models consistently outperform the state-of-the-art while also providing structured predictions that are more interpretable.
翻訳日:2021-04-10 15:38:40 公開日:2021-01-07
# (参考訳) TrackFormer: トランスフォーマーによるマルチオブジェクトトラッキング

TrackFormer: Multi-Object Tracking with Transformers ( http://arxiv.org/abs/2101.02702v1 )

ライセンス: CC BY 4.0
Tim Meinhardt, Alexander Kirillov, Laura Leal-Taixe, Christoph Feichtenhofer(参考訳) 本稿では,エンコーダ・デコーダトランスフォーマアーキテクチャに基づく,エンドツーエンドのマルチオブジェクト追跡およびセグメンテーションモデルであるtrackformerを提案する。 提案手法では,自動回帰方式でビデオシーケンスを通じてオブジェクトを追従するトラッククエリ埋め込みを導入する。 新しいトラッククエリはDETRオブジェクト検出器によって生成され、時間とともに対応するオブジェクトの位置を埋め込む。 トランスデコーダは、フレームからフレームへのトラッククエリ埋め込みを調整し、変化したオブジェクト位置に従う。 TrackFormerは、ロケーション、オクルージョン、オブジェクトアイデンティティを同時に推論するセルフおよびエンコーダ・デコーダのアテンションメカニズムによって、新しいトラッキング・バイ・アテンション・パラダイムにおいて、フレーム間のシームレスなデータ結合を実現する。 TrackFormerは、マルチオブジェクトトラッキング(MOT17)とセグメンテーション(MOTS20)のタスクで最先端のパフォーマンスを得る。 検出と追跡の統一的な方法が、マルチオブジェクト追跡とビデオ理解の将来の研究を促進することを願っています。 コードは公開される予定だ。

We present TrackFormer, an end-to-end multi-object tracking and segmentation model based on an encoder-decoder Transformer architecture. Our approach introduces track query embeddings which follow objects through a video sequence in an autoregressive fashion. New track queries are spawned by the DETR object detector and embed the position of their corresponding object over time. The Transformer decoder adjusts track query embeddings from frame to frame, thereby following the changing object positions. TrackFormer achieves a seamless data association between frames in a new tracking-by-attention paradigm by self- and encoder-decoder attention mechanisms which simultaneously reason about location, occlusion, and object identity. TrackFormer yields state-of-the-art performance on the tasks of multi-object tracking (MOT17) and segmentation (MOTS20). We hope our unified way of performing detection and tracking will foster future research in multi-object tracking and video understanding. Code will be made publicly available.
翻訳日:2021-04-10 15:25:19 公開日:2021-01-07
# (参考訳) Distracting Control Suite -- Pixelからの強化学習のためのベンチマーク

The Distracting Control Suite -- A Challenging Benchmark for Reinforcement Learning from Pixels ( http://arxiv.org/abs/2101.02722v1 )

ライセンス: CC BY 4.0
Austin Stone, Oscar Ramirez, Kurt Konolige, Rico Jonschkowski(参考訳) ロボットは視点、照明、背景の変化など、困難な知覚設定に直面しなければならない。 DM Controlのような現在のシミュレーション強化学習(RL)ベンチマークは、そのような複雑さを伴わずに視覚的な入力を提供する。 本稿では,3種類の視覚的障害(背景,色,カメラポーズの変動)を伴ってDM制御を拡張し,視覚に基づく制御のための新しい挑戦的ベンチマークを作成し,これらの設定におけるアートRLアルゴリズムの状態を解析する。 実世界の視覚的複雑度に対処するためには,現在のRL法では注意散らしが不十分であり,その性能は邪魔散らしの複雑さの増加とともに低下することを示した。 また、複数の障害タイプの組み合わせは、個々の効果の組み合わせよりも難しいこともわかりました。

Robots have to face challenging perceptual settings, including changes in viewpoint, lighting, and background. Current simulated reinforcement learning (RL) benchmarks such as DM Control provide visual input without such complexity, which limits the transfer of well-performing methods to the real world. In this paper, we extend DM Control with three kinds of visual distractions (variations in background, color, and camera pose) to produce a new challenging benchmark for vision-based control, and we analyze state of the art RL algorithms in these settings. Our experiments show that current RL methods for vision-based control perform poorly under distractions, and that their performance decreases with increasing distraction complexity, showing that new methods are needed to cope with the visual complexities of the real world. We also find that combinations of multiple distraction types are more difficult than a mere combination of their individual effects.
翻訳日:2021-04-10 15:07:53 公開日:2021-01-07
# (参考訳) BDNNSurv:疑似値を用いた生存分析のためのベイズディープニューラルネットワーク

BDNNSurv: Bayesian deep neural networks for survival analysis using pseudo values ( http://arxiv.org/abs/2101.03170v1 )

ライセンス: CC BY-SA 4.0
Dai Feng and Lili Zhao(参考訳) 医学研究における深層学習を用いた生存データモデリングへの関心が高まっている。 本稿では,生存データのモデル化と予測のためのベイズ階層型深層ニューラルネットワークモデルを提案する。 従来研究されてきた手法と比較して,新たな提案では,生存確率の点推定だけでなく,予測モデルやその後の意思決定において重要な意味を持つ,対応する不確実性の定量化も可能である。 点推定と不確実性推定の統計的特性はシミュレーションと実データ解析によって実証された。 提案手法を実装したpythonコードが提供されている。

There has been increasing interest in modeling survival data using deep learning methods in medical research. In this paper, we proposed a Bayesian hierarchical deep neural networks model for modeling and prediction of survival data. Compared with previously studied methods, the new proposal can provide not only point estimate of survival probability but also quantification of the corresponding uncertainty, which can be of crucial importance in predictive modeling and subsequent decision making. The favorable statistical properties of point and uncertainty estimates were demonstrated by simulation studies and real data analysis. The Python code implementing the proposed approach was provided.
翻訳日:2021-04-10 14:54:10 公開日:2021-01-07
# (参考訳) 重み注入による異なるアーキテクチャ間のトランスファー学習

Transfer Learning Between Different Architectures Via Weights Injection ( http://arxiv.org/abs/2101.02757v1 )

ライセンス: CC BY 4.0
Maciej A. Czyzewski(参考訳) 本稿では,計算量的に安価なインジェクション手法(データを必要としない)を用いて,異なるアーキテクチャ間のパラメータ転送のためのナイーブなアルゴリズムを提案する。 第一の目的は、ニューラルネットワークのトレーニングをスクラッチからスピードアップすることだ。 この研究は、任意のアーキテクチャから知識を移すことが、初期化においてカイミングやザビエルよりも優れていることを発見した。 結論として,提案手法はより高速に収束し,古典的手法の代替となる。 1) マッチング: 事前訓練されたモデルの層と対象モデルとのマッチング; 2) 注入: テンソルは望ましい形に変換される。 この研究は、TLI(Transfer Learning by Injection)スコアを利用して、現在のSOTAアーキテクチャ(ImageNet)の類似性を比較する。

This work presents a naive algorithm for parameter transfer between different architectures with a computationally cheap injection technique (which does not require data). The primary objective is to speed up the training of neural networks from scratch. It was found in this study that transferring knowledge from any architecture was superior to Kaiming and Xavier for initialization. In conclusion, the method presented is found to converge faster, which makes it a drop-in replacement for classical methods. The method involves: 1) matching: the layers of the pre-trained model with the targeted model; 2) injection: the tensor is transformed into a desired shape. This work provides a comparison of similarity between the current SOTA architectures (ImageNet), by utilising TLI (Transfer Learning by Injection) score.
翻訳日:2021-04-10 14:41:21 公開日:2021-01-07
# (参考訳) 形態的演算子を用いたオフラインアラビア語手書き単語セグメンテーション

Off-Line Arabic Handwritten Words Segmentation using Morphological Operators ( http://arxiv.org/abs/2101.02797v1 )

ライセンス: CC BY 4.0
Nisreen AbdAllah and Serestina Viriri(参考訳) 本研究の主な目的は,手書きアラビア語のセグメンテーションによるモデルの評価と議論である。 このフレームワークは、前処理、セグメンテーション、評価の3つのステップに基づいて提案されている。 前処理のステップでは、形態論的演算子を記述された単語で接続ギャップ(CG)に適用する。 ギャップは、書き込みやドキュメントのスキャン、あるいはイメージをバイナリタイプに変換するときに発生する。 セグメンテーションのステップでは、まず小さなダイアクリティカルを取り除き、接続されたコンポーネントに境界を付けてオフラインの単語をセグメンテーションする。 提案モデルでは, 様々な手書きスタイルを適用し, 実際のアプリケーションとの互換性を高めるために, 膨大なデータを利用した。 その結果,IESK-ArDBデータベースからランダムに1,131個の画像を選択し,サブワードに分割する。 小さなギャップが接続された後、モデルの性能評価はデータベースの標準的真実に対して88%に達した。 提案手法は, 関連作品と比較して高い精度を達成した。

The main aim of this study is the assessment and discussion of a model for hand-written Arabic through segmentation. The framework is proposed based on three steps: pre-processing, segmentation, and evaluation. In the pre-processing step, morphological operators are applied for Connecting Gaps (CGs) in written words. Gaps happen when pen lifting-off during writing, scanning documents, or while converting images to binary type. In the segmentation step, first removed the small diacritics then bounded a connected component to segment offline words. Huge data was utilized in the proposed model for applying a variety of handwriting styles so that to be more compatible with real-life applications. Consequently, on the automatic evaluation stage, selected randomly 1,131 images from the IESK-ArDB database, and then segmented into sub-words. After small gaps been connected, the model performance evaluation had been reached 88% against the standard ground truth of the database. The proposed model achieved the highest accuracy when compared with the related works.
翻訳日:2021-04-10 14:14:29 公開日:2021-01-07
# 生成逆ネットワークの損失面に対するスピングラスモデル

A spin-glass model for the loss surfaces of generative adversarial networks ( http://arxiv.org/abs/2101.02524v1 )

ライセンス: Link先を確認
Nicholas P Baskerville and Jonathan P Keating and Francesco Mezzadri and Joseph Najnudel(参考訳) 本稿では,GAN (Generative Adversarial Network) の重要な設計特徴を捉えるための新しい数学的モデルを提案する。 我々のモデルは相互作用する2つのスピングラスから成り、ランダム行列理論の手法を用いてモデルの臨界点の複雑性を広範囲に理論的に解析する。 その結果、より単純なネットワークに対する事前の洞察に基づいて構築される大きなGANの損失面に関する洞察が、この設定に特有の新しい構造を明らかにする。

We present a novel mathematical model that seeks to capture the key design feature of generative adversarial networks (GANs). Our model consists of two interacting spin glasses, and we conduct an extensive theoretical analysis of the complexity of the model's critical points using techniques from Random Matrix Theory. The result is insights into the loss surfaces of large GANs that build upon prior insights for simpler networks, but also reveal new structure unique to this setting.
翻訳日:2021-04-10 14:03:36 公開日:2021-01-07
# oaae(adversarial autoencoder for novelty detection in multi-modal normality case via orthogonalized latent space)

OAAE: Adversarial Autoencoders for Novelty Detection in Multi-modal Normality Case via Orthogonalized Latent Space ( http://arxiv.org/abs/2101.02358v1 )

ライセンス: Link先を確認
Sungkwon An, Jeonghoon Kim, Myungjoo Kang, Shahbaz Razaei and Xin Liu(参考訳) 自己エンコーダなどの深層生成モデルを用いた新規性検出では, 画像再構成誤差を新規性スコア関数とすることが多い。 しかし、高次元の画像データには、クラス情報以外の多くの異なる特徴が含まれており、モデルが新奇なデータを検出するのを困難にしている。 マルチモーダル正規性の場合、問題は難しくなる。 この課題に対処するために,直交潜在空間を用いた多モード正規化の場合の新規性スコア測定法を提案する。 具体的には、直交低ランク埋め込みを用いて、相互クラス情報を用いて潜在空間の特徴をアンタングル化する。 直交潜在空間では、新規性スコアは各潜在ベクトルの変化によって定義される。 提案アルゴリズムは,RaPPやOCGANなどのGANを用いた最先端のノベルティ検出アルゴリズムと比較し,実験結果から,これらのアルゴリズムよりも優れていることが示された。

Novelty detection using deep generative models such as autoencoder, generative adversarial networks mostly takes image reconstruction error as novelty score function. However, image data, high dimensional as it is, contains a lot of different features other than class information which makes models hard to detect novelty data. The problem gets harder in multi-modal normality case. To address this challenge, we propose a new way of measuring novelty score in multi-modal normality cases using orthogonalized latent space. Specifically, we employ orthogonal low-rank embedding in the latent space to disentangle the features in the latent space using mutual class information. With the orthogonalized latent space, novelty score is defined by the change of each latent vector. Proposed algorithm was compared to state-of-the-art novelty detection algorithms using GAN such as RaPP and OCGAN, and experimental results show that ours outperforms those algorithms.
翻訳日:2021-04-10 13:51:38 公開日:2021-01-07
# msed : 臨床睡眠分析のためのマルチモーダル睡眠イベント検出モデル

MSED: a multi-modal sleep event detection model for clinical sleep analysis ( http://arxiv.org/abs/2101.02530v1 )

ライセンス: Link先を確認
Alexander Neergaard Olesen, Poul Jennum, Emmanuel Mignot and Helge B. D. Sorensen(参考訳) 研究目的: 臨床睡眠分析は、睡眠障害の正確な診断のために、睡眠パターンの手動分析を必要とする。 いくつかの研究は、個別の睡眠イベントを評価する際に有意な変動を示す。 本研究は, 覚醒(Ar), 脚運動(LM), 睡眠障害呼吸(SDB)イベントの検出に自動検出が有効であるか, およびこれらの事象の同時検出が3つの異なるモデルより優れているかを検討した。 方法:ポリソムノグラムで睡眠イベントを共同検出するために,単一のディープニューラルネットワークアーキテクチャを設計した。 モデルを1653個の記録からトレーニングし,1000個の記録に最適化したモデルをテストした。 モデルの性能はF1,精度,リコールスコアで定量化し,Pearsonの相関係数を用いて指標値と臨床値とを相関させた。 結果: 最適化モデルのF1スコアは, Ar, LM, SDBそれぞれ0.70, 0.63, 0.62であった。 イベント検出性能は, 単独イベントモデルと比較して高い結果を得た。 検出されたイベントから算出されたインデックス値は、手動アノテーション(r^2$ = 0.73, $r^2$ = 0.77, $r^2$ = 0.78)とよく相関した。 結論: 覚醒, 脚運動, 睡眠障害を伴う呼吸イベントを共同で検出することは可能であり, 算出された指標値は, 人間の注記とよく相関する。

Study objective: Clinical sleep analysis require manual analysis of sleep patterns for correct diagnosis of sleep disorders. Several studies show significant variability in scoring discrete sleep events. We wished to investigate, whether an automatic method could be used for detection of arousals (Ar), leg movements (LM) and sleep disordered breathing (SDB) events, and if the joint detection of these events performed better than having three separate models. Methods: We designed a single deep neural network architecture to jointly detect sleep events in a polysomnogram. We trained the model on 1653 recordings of individuals, and tested the optimized model on 1000 separate recordings. The performance of the model was quantified by F1, precision, and recall scores, and by correlating index values to clinical values using Pearson's correlation coefficient. Results: F1 scores for the optimized model was 0.70, 0.63, and 0.62 for Ar, LM, and SDB, respectively. The performance was higher, when detecting events jointly compared to corresponding single-event models. Index values computed from detected events correlated well with manual annotations ($r^2$ = 0.73, $r^2$ = 0.77, $r^2$ = 0.78, respectively). Conclusion: Detecting arousals, leg movements and sleep disordered breathing events jointly is possible, and the computed index values correlates well with human annotations.
翻訳日:2021-04-10 13:51:23 公開日:2021-01-07
# M\"{o}biusE:M\"{o}bius Ring上での知識グラフ埋め込み

M\"{o}biusE: Knowledge Graph Embedding on M\"{o}bius Ring ( http://arxiv.org/abs/2101.02352v1 )

ライセンス: Link先を確認
Yao Chen, Jiangang Liu, Zhe Zhang, Shiping Wen, Wenjun Xiong(参考訳) 本研究では、m\"{o}biuse と呼ばれる、m\"{o}bius 環の表面にエンティティと関係が埋め込まれる新しい知識グラフ埋め込み(kge)戦略を提案する。 そのような戦略の提案は古典的なトーラスEに触発され、2つの任意の要素の追加はモジュラー演算の対象となる。 この意味で、トーラスE は KGE に埋め込みベクトルの臨界有界性を自然に保証する。 しかしながら、トーラス環上の加算演算の非線形性は、トーラスの表現性をある程度制限する弾性演算によって一意に導かれる。 トーラスのさらなる一般化として、m\"{o}biuse は加法演算の近接性を保つためにモジュラス演算を用いるが、m\"{o}bius 環上の座標は次の方法で相互作用する: {\em \color{red} m\"{o}bius 環の表面上の任意のベクトルは、そのパラメトリックなトレースに沿って移動し、サイクルの後に右反対方向に移動する。 したがって、M\"{o}biusE は TorusE よりもはるかに非線形な代表性を仮定し、結果としてより正確な埋め込み結果を生成する。 我々の実験では、M\ "{o}biusE" は TorusE や他の古典的な埋め込み戦略をいくつかの重要な指標で上回っている。

In this work, we propose a novel Knowledge Graph Embedding (KGE) strategy, called M\"{o}biusE, in which the entities and relations are embedded to the surface of a M\"{o}bius ring. The proposition of such a strategy is inspired by the classic TorusE, in which the addition of two arbitrary elements is subject to a modulus operation. In this sense, TorusE naturally guarantees the critical boundedness of embedding vectors in KGE. However, the nonlinear property of addition operation on Torus ring is uniquely derived by the modulus operation, which in some extent restricts the expressiveness of TorusE. As a further generalization of TorusE, M\"{o}biusE also uses modulus operation to preserve the closeness of addition operation on it, but the coordinates on M\"{o}bius ring interacts with each other in the following way: {\em \color{red} any vector on the surface of a M\"{o}bius ring moves along its parametric trace will goes to the right opposite direction after a cycle}. Hence, M\"{o}biusE assumes much more nonlinear representativeness than that of TorusE, and in turn it generates much more precise embedding results. In our experiments, M\"{o}biusE outperforms TorusE and other classic embedding strategies in several key indicators.
翻訳日:2021-04-10 13:50:58 公開日:2021-01-07
# 深層学習に基づく皮膚病変分類のための低コスト・高性能データ拡張

Low-cost and high-performance data augmentation for deep-learning-based skin lesion classification ( http://arxiv.org/abs/2101.02353v1 )

ライセンス: Link先を確認
Shuwei Shen, Mengjuan Xu, Fan Zhang, Pengfei Shao, Honghong Liu, Liang Xu, Chi Zhang, Peng Liu, Zhihong Zhang, Peng Yao, Ronald X. Xu(参考訳) deep convolutional neural networks (dcnns) は皮膚科医と同等あるいはそれ以上の皮膚病変分類において有意な精度を達成したが、低リソース環境下での皮膚がんスクリーニングモデルの実践的実装は、計算コストとトレーニングデータセットの制限によって妨げられている。 これらの制限を克服するために,2段階の強化探索とネットワーク探索を含む低コストで高性能なデータ拡張戦略を提案する。 拡張探索段階では,5倍のクロスバリデーションによるバランス精度(BACC)の基準の下で,低コスト拡張(LCA)の探索空間において拡張戦略を最適化する。 ネットワーク検索段階では、DCNNは、最高のBACCを持つモデルを選択するために、完全なトレーニングセットで微調整される。 提案したデータ拡張戦略の効率は,EfficientNetsをベースラインとして,HAM10000データセット上で検証する。 提案手法では,外部データベースを使わずに単一のdcnnモデルを用いることで,検索空間を60に縮小し0.853の高baccを実現することが可能であり,低リソース環境でのdnnベースの皮膚病変検出のためのモバイルデバイスに実装できる。

Although deep convolutional neural networks (DCNNs) have achieved significant accuracy in skin lesion classification comparable or even superior to those of dermatologists, practical implementation of these models for skin cancer screening in low resource settings is hindered by their limitations in computational cost and training dataset. To overcome these limitations, we propose a low-cost and high-performance data augmentation strategy that includes two consecutive stages of augmentation search and network search. At the augmentation search stage, the augmentation strategy is optimized in the search space of Low-Cost-Augment (LCA) under the criteria of balanced accuracy (BACC) with 5-fold cross validation. At the network search stage, the DCNNs are fine-tuned with the full training set in order to select the model with the highest BACC. The efficiency of the proposed data augmentation strategy is verified on the HAM10000 dataset using EfficientNets as a baseline. With the proposed strategy, we are able to reduce the search space to 60 and achieve a high BACC of 0.853 by using a single DCNN model without external database, suitable to be implemented in mobile devices for DCNN-based skin lesion detection in low resource settings.
翻訳日:2021-04-10 13:50:29 公開日:2021-01-07
# 歩行認識のための時空間カプセルネットワーク

Associated Spatio-Temporal Capsule Network for Gait Recognition ( http://arxiv.org/abs/2101.02458v1 )

ライセンス: Link先を確認
Aite Zhao, Junyu Dong, Jianbo Li, Lin Qi, Huiyu Zhou(参考訳) 彼女の歩行パターンに基づいた人物を特定することは難しい課題である。 最先端のアプローチは、歩行の時間的または空間的特性の分析に依存し、歩行認識は通常、単一のモダリティデータ(画像、骨格関節座標、力信号など)で実行される。 エビデンスによれば、マルチモーダリティデータを使うことは、歩行研究に適している。 そこで本稿では,マルチセンサデータセットを用いて学習した時空間カプセルネットワーク(ASTCapsNet)を用いた自動学習システムを構築し,歩行認識のためのマルチモーダル情報を分析する。 具体的には,まず,新しいリカレントメモリユニットと関係層を用いて,歩行の時空間的特徴抽出のための低レベル特徴抽出器と高レベル特徴抽出器を設計する。 その後、クラスラベルの決定にはベイズモデルが使用される。 いくつかのパブリックデータセット(通常の歩行と異常歩行)での広範囲な実験は、提案されたastcapsnetの有効性を検証する。

It is a challenging task to identify a person based on her/his gait patterns. State-of-the-art approaches rely on the analysis of temporal or spatial characteristics of gait, and gait recognition is usually performed on single modality data (such as images, skeleton joint coordinates, or force signals). Evidence has shown that using multi-modality data is more conducive to gait research. Therefore, we here establish an automated learning system, with an associated spatio-temporal capsule network (ASTCapsNet) trained on multi-sensor datasets, to analyze multimodal information for gait recognition. Specifically, we first design a low-level feature extractor and a high-level feature extractor for spatio-temporal feature extraction of gait with a novel recurrent memory unit and a relationship layer. Subsequently, a Bayesian model is employed for the decision-making of class labels. Extensive experiments on several public datasets (normal and abnormal gait) validate the effectiveness of the proposed ASTCapsNet, compared against several state-of-the-art methods.
翻訳日:2021-04-10 13:50:08 公開日:2021-01-07
# 神経変性疾患に対するマルチモーダル歩行認識

Multimodal Gait Recognition for Neurodegenerative Diseases ( http://arxiv.org/abs/2101.02469v1 )

ライセンス: Link先を確認
Aite Zhao, Jianbo Li, Junyu Dong, Lin Qi, Qianni Zhang, Ning Li, Xin Wang, Huiyu Zhou(参考訳) 近年,医用画像やその他の感覚データの解析において,単一のモダリティに基づく歩行認識が広く研究されており,確立されたアプローチはそれぞれ強みと弱みを持っていることが認識されている。 重要な運動症状として、歩行障害は疾患の診断と評価に一般的に用いられ、また、患者の歩行パターンの多様性分析の使用は、単一の計測次元における歩行変化のみを学習する単一モード歩行認識法の一側面を補う。 複数の測定資源の融合は、個々の疾患に関連する歩行パターンの同定において有望な性能を示した。 本稿では,パーキンソン病の重症度が異なる患者と健常者との3つの神経変性疾患の歩容差を,複数のセンサからのデータを融合・集約することにより学習するための新しいハイブリッドモデルを提案する。 空間特徴抽出器(SFE)は、画像や信号の代表的な特徴を生成する。 2つのモードデータから時間情報をキャプチャするために、新しい相関型メモリニューラルネットワーク(CorrMNN)アーキテクチャを設計し、時間的特徴を抽出する。 その後、観察と個々の状態推定を関連付けるためにマルチスイッチ判別器を組み込む。 いくつかの最先端技術と比較して,提案手法はより正確な分類結果を示す。

In recent years, single modality based gait recognition has been extensively explored in the analysis of medical images or other sensory data, and it is recognised that each of the established approaches has different strengths and weaknesses. As an important motor symptom, gait disturbance is usually used for diagnosis and evaluation of diseases; moreover, the use of multi-modality analysis of the patient's walking pattern compensates for the one-sidedness of single modality gait recognition methods that only learn gait changes in a single measurement dimension. The fusion of multiple measurement resources has demonstrated promising performance in the identification of gait patterns associated with individual diseases. In this paper, as a useful tool, we propose a novel hybrid model to learn the gait differences between three neurodegenerative diseases, between patients with different severity levels of Parkinson's disease and between healthy individuals and patients, by fusing and aggregating data from multiple sensors. A spatial feature extractor (SFE) is applied to generating representative features of images or signals. In order to capture temporal information from the two modality data, a new correlative memory neural network (CorrMNN) architecture is designed for extracting temporal features. Afterwards, we embed a multi-switch discriminator to associate the observations with individual state estimations. Compared with several state-of-the-art techniques, our proposed framework shows more accurate classification results.
翻訳日:2021-04-10 13:49:52 公開日:2021-01-07
# L2PF -- Pruneの高速化を学ぶ

L2PF -- Learning to Prune Faster ( http://arxiv.org/abs/2101.02663v1 )

ライセンス: Link先を確認
Manoj-Rohit Vemparala, Nael Fasfous, Alexander Frickenstein, Mhd Ali Moraly, Aquib Jamal, Lukas Frickenstein, Christian Unger, Naveen-Shankar Nagaraja, Walter Stechele(参考訳) 自律運転分野における様々な応用は、特にカメラデータを処理するための畳み込みニューラルネットワーク(CNN)に基づいている。 このようなCNNの最適化は継続的開発において大きな課題である。 新しい学習された機能は、できるだけ早く車両に導入する必要があるため、圧縮中に余分なGPU時間を費やすことは不可能である。 この文脈では,複数タスクのtry-and-learnメソッドの詳細,cnnの冗長フィルタの離散学習,レイヤの微調整が必要な継続動作など,pruneを高速に学習する方法を提案する。 これにより、組込み型フィルタワイドプルーニングCNNの探索方法を学ぶための収束過程を大幅に高速化できる。 ResNet20では、圧縮比が3.84 xで、精度は最小限である。 最先端プルーニング法と比較して,GPU時間を1.71倍に短縮した。

Various applications in the field of autonomous driving are based on convolutional neural networks (CNNs), especially for processing camera data. The optimization of such CNNs is a major challenge in continuous development. Newly learned features must be brought into vehicles as quickly as possible, and as such, it is not feasible to spend redundant GPU hours during compression. In this context, we present Learning to Prune Faster which details a multi-task, try-and-learn method, discretely learning redundant filters of the CNN and a continuous action of how long the layers have to be fine-tuned. This allows us to significantly speed up the convergence process of learning how to find an embedded-friendly filter-wise pruned CNN. For ResNet20, we have achieved a compression ratio of 3.84 x with minimal accuracy degradation. Compared to the state-of-the-art pruning method, we reduced the GPU hours by 1.71 x.
翻訳日:2021-04-10 13:49:32 公開日:2021-01-07
# ディープニューラルネットワークによる複雑な活動の文法学習

Learning Grammar of Complex Activities via Deep Neural Networks ( http://arxiv.org/abs/2101.02774v1 )

ライセンス: Link先を確認
Becky Mashaido(参考訳) オンラインストリーミングサービス上の公開ビデオデータの増加と、自動運転などの連続ビデオストリームを分析するアプリケーションへの関心の高まりに動機づけられたこのテクニカルレポートは、ラベル制約下で、ビデオ学習のためのディープニューラルネットワークに関する理論的洞察を提供する。 コンピュータビジョンのためのビデオ学習におけるこれまでの成果を生かし、モデル性能の観察を行い、我々の観察を改善するためのさらなるメカニズムを提案する。

Motivated by the growing amount of publicly available video data on online streaming services and an increased interest in applications that analyze continuous video streams such as autonomous driving, this technical report provides a theoretical insight into deep neural networks for video learning, under label constraints. I build upon previous work in video learning for computer vision, make observations on model performance and propose further mechanisms to help improve our observations.
翻訳日:2021-04-10 13:49:17 公開日:2021-01-07
# 物体識別における人間型ロバストaiマシンの設計

A design of human-like robust AI machines in object identification ( http://arxiv.org/abs/2101.02327v1 )

ライセンス: Link先を確認
Bao-Gang Hu and Wei-Ming Dong(参考訳) これは1950年に A.M. Turing (1912年6月23日 - 1954年6月7日) が提唱したチューリングテストの研究から着想を得た遠近法である。 ヒューマンライクな動作やパフォーマンスを持つマシンを実現するためのチューリングテストの重要な意味に続き、AIマシンに対するヒューマンライクな堅牢性(HLR)を定義する。 新しい定義の目的は、HLRの観点で評価することを含む、AIマシンをHLRで強制することである。 特定のタスクは、日常のすべての人にとって最も一般的なタスクであるため、オブジェクトの識別についてのみ議論される。 チューリングによる視点や設計と同様に、我々はhlr aiマシンを構築し、実際の実験を行うことなく達成する方法のソリューションを提供する。 ソリューションは3つの重要な機能から構成されるべきである。 HLRマシンの最初の特徴は、人間からの常識を利用して因果推論を実現することである。 2つ目の特徴は、決定に解釈を持つための意味空間から決定を行うことである。 第3の機能は、HLRマシンを前進させるための"Human-in-the-loop"設定を含むことである。 提案するHLRマシンの設計を用いて「識別ゲーム」を示す。 本稿では、チューリングテストから人間のようなAIマシンの設計に向けて、さらに学び、探求する試みを示す。

This is a perspective paper inspired from the study of Turing Test proposed by A.M. Turing (23 June 1912 - 7 June 1954) in 1950. Following one important implication of Turing Test for enabling a machine with a human-like behavior or performance, we define human-like robustness (HLR) for AI machines. The objective of the new definition aims to enforce AI machines with HLR, including to evaluate them in terms of HLR. A specific task is discussed only on object identification, because it is the most common task for every person in daily life. Similar to the perspective, or design, position by Turing, we provide a solution of how to achieve HLR AI machines without constructing them and conducting real experiments. The solution should consists of three important features in the machines. The first feature of HLR machines is to utilize common sense from humans for realizing a causal inference. The second feature is to make a decision from a semantic space for having interpretations to the decision. The third feature is to include a "human-in-the-loop" setting for advancing HLR machines. We show an "identification game" using proposed design of HLR machines. The present paper shows an attempt to learn and explore further from Turing Test towards the design of human-like AI machines.
翻訳日:2021-04-10 13:49:10 公開日:2021-01-07
# IoTデバイスとML技術を用いた1型糖尿病の治療について

On the Management of Type 1 Diabetes Mellitus with IoT Devices and ML Techniques ( http://arxiv.org/abs/2101.02409v1 )

ライセンス: Link先を確認
Ignacio Rodriguez(参考訳) この会議の目的は、すでに数年前に始まった研究に基づいて設立された基礎プロジェクトの基本ラインを提示することである。 In this sense, this manuscript will present the main lines of research in Diabetes Mellitus type 1 and Machine Learning techniques in an Internet of Things environment, so that we can summarize the future lines to be developed as follows: data collection through biosensors, massive data processing in the cloud, interconnection of biodevices, local computing vs. cloud computing, and possibilities of machine learning techniques to predict blood glucose values, including both variable selection algorithms and predictive techniques.

The purpose of this Conference is to present the main lines of base projects that are founded on research already begun in previous years. In this sense, this manuscript will present the main lines of research in Diabetes Mellitus type 1 and Machine Learning techniques in an Internet of Things environment, so that we can summarize the future lines to be developed as follows: data collection through biosensors, massive data processing in the cloud, interconnection of biodevices, local computing vs. cloud computing, and possibilities of machine learning techniques to predict blood glucose values, including both variable selection algorithms and predictive techniques.
翻訳日:2021-04-10 13:48:51 公開日:2021-01-07
# 異常スコアに対するCopula Quadrant類似性

Copula Quadrant Similarity for Anomaly Scores ( http://arxiv.org/abs/2101.02330v1 )

ライセンス: Link先を確認
Matthew Davidow, David Matteson(参考訳) 実用的な異常検出には、教師なし学習が本質的に難しいため、多くのアプローチを適用する必要がある。 複雑または不透明な異常検出アルゴリズムの直接比較は難解であり、代わりに複数の手法のスコアを関連付ける枠組みを提案する。 異なる方法によって生成された異常スコアの類似性を測定するには、どうすればよいのか? スコアリング・クルークスは極端であり、最も異常な観測を識別する。 一対のアルゴリズムは、最も高いスコアをほぼ同じ観測値に割り当てる場合に類似するように定義されている。 そこで本研究では,新しい上四分法モデルによる得点分布の極値類似性に基づく尺度を提案し,尾部や他の依存尺度と対比する。 本手法をシミュレーションおよび実実験で示し,複数の異常検出手法のクラスタにスペクトル法を適用し,類似度尺度を他の手法と対比する。 本手法は,異常検出アルゴリズムのクラスタを検出することで,高精度でロバストなアンサンブルアルゴリズムを実現することができることを示す。

Practical anomaly detection requires applying numerous approaches due to the inherent difficulty of unsupervised learning. Direct comparison between complex or opaque anomaly detection algorithms is intractable; we instead propose a framework for associating the scores of multiple methods. Our aim is to answer the question: how should one measure the similarity between anomaly scores generated by different methods? The scoring crux is the extremes, which identify the most anomalous observations. A pair of algorithms are defined here to be similar if they assign their highest scores to roughly the same small fraction of observations. To formalize this, we propose a measure based on extremal similarity in scoring distributions through a novel upper quadrant modeling approach, and contrast it with tail and other dependence measures. We illustrate our method with simulated and real experiments, applying spectral methods to cluster multiple anomaly detection methods and to contrast our similarity measure with others. We demonstrate that our method is able to detect the clusters of anomaly detection algorithms to achieve an accurate and robust ensemble algorithm.
翻訳日:2021-04-10 13:48:44 公開日:2021-01-07
# ガウワー係数を修正した混合型変数を持つ距離

Distances with mixed type variables some modified Gower's coefficients ( http://arxiv.org/abs/2101.02481v1 )

ライセンス: Link先を確認
Marcello D'Orazio(参考訳) 最も近い近隣の手法は、主に計算や統計的マッチング問題において公式統計学で人気となり、多くの変種が提案されている機械学習においても重要な役割を担っている。 距離関数の選択は、主に選択された変数の種類に依存する。 残念なことに、混合型変数を扱うオプションは比較的少なく、公式統計では頻繁に発生する状況である。 混合型変数の最も一般的な距離は、ゴーワーの類似度係数の補数として導出される。 残念なことに、単一の変数のゴーワー距離への寄与を設定する非重み付き標準は、変数自体の異なる性質のためにバランスがとれない。 本稿は,間隔とスケールした変数間の距離を計算する際のいくつかの修正を提案することにより,非重み付けゴワー距離全体に影響を及ぼす主な欠点を解決しようとするものである。 単純な修正は、スケールされたマンハッタン距離に対する異常値の影響を弱めようとするが、その他の修正は、異なる種類の変数の不均衡な寄与を減らすために、カーネル密度推定法に依存している。 提案手法の性能は,近接距離ホットデッキ法による欠落値の予測を模倣したシミュレーションにより評価した。

Nearest neighbor methods have become popular in official statistics, mainly in imputation or in statistical matching problems; they play a key role in machine learning too, where a high number of variants have been proposed. The choice of the distance function depends mainly on the type of the selected variables. Unfortunately, relatively few options permit to handle mixed type variables, a situation frequently encountered in official statistics. The most popular distance for mixed type variables is derived as the complement of the Gower's similarity coefficient; it is appealing because ranges between 0 and 1 and allows to handle missing values. Unfortunately, the unweighted standard setting the contribution of the single variables to the overall Gower's distance is unbalanced because of the different nature of the variables themselves. This article tries to address the main drawbacks that affect the overall unweighted Gower's distance by suggesting some modifications in calculating the distance on the interval and ratio scaled variables. Simple modifications try to attenuate the impact of outliers on the scaled Manhattan distance; other modifications, relying on the kernel density estimation methods attempt to reduce the unbalanced contribution of the different types of variables. The performance of the proposals is evaluated in simulations mimicking the imputation of missing values through nearest neighbor distance hotdeck method.
翻訳日:2021-04-10 13:48:27 公開日:2021-01-07
# リカレントニューラルネットワークによるバイナリ検索の学習。 順序回帰分析への新しいアプローチ

Learning a binary search with a recurrent neural network. A novel approach to ordinal regression analysis ( http://arxiv.org/abs/2101.02609v1 )

ライセンス: Link先を確認
Louis Falissard, Karim Bounebache, Gr\'egoire Rey(参考訳) ディープニューラルネットワーク(Deep Neural Network)は、リカレントニューラルネットワークを用いたシーケンシャルデータなどの階層データの解析に自然に適する計算モデルの一群である。 一方、順序回帰は、心理測定からディープニューラルネットワークに基づく音声モデリングまで様々な分野で使われているよく知られた予測モデル問題である。 それらの特異性は結果変数の性質に関係しており、典型的には自然順序性を持つカテゴリー変数と見なされ、異なる状態間の比較が可能である(「少し」は「幾分」よりも小さいが、推移性は許容される)。 本稿では, 逐次二分探索として順序回帰問題を定式化することにより, 深層学習フレームワークが提供するシーケンス・ツー・シーケンス学習手法の適用について検討する。 線形判別解析といくつかの類似性を有する順序的目標変数に従ってモデルの説明変数を可視化する手法を提案する。 この手法は、多くのベンチマークデータセット上の従来の順序回帰法と比較され、同等またははるかに優れた予測力を持つことが示された。

Deep neural networks are a family of computational models that are naturally suited to the analysis of hierarchical data such as, for instance, sequential data with the use of recurrent neural networks. In the other hand, ordinal regression is a well-known predictive modelling problem used in fields as diverse as psychometry to deep neural network based voice modelling. Their specificity lies in the properties of their outcome variable, typically considered as a categorical variable with natural ordering properties, typically allowing comparisons between different states ("a little" is less than "somewhat" which is itself less than "a lot", with transitivity allowed). This article investigates the application of sequence-to-sequence learning methods provided by the deep learning framework in ordinal regression, by formulating the ordinal regression problem as a sequential binary search. A method for visualizing the model's explanatory variables according to the ordinal target variable is proposed, that bears some similarities to linear discriminant analysis. The method is compared to traditional ordinal regression methods on a number of benchmark dataset, and is shown to have comparable or significantly better predictive power.
翻訳日:2021-04-10 13:48:08 公開日:2021-01-07
# ベイズ型ニューラルネットワークの逆ロバスト性に及ぼす事前リプシッツ連続性の影響

The Effect of Prior Lipschitz Continuity on the Adversarial Robustness of Bayesian Neural Networks ( http://arxiv.org/abs/2101.02689v1 )

ライセンス: Link先を確認
Arno Blaas, Stephen J. Roberts(参考訳) 機械学習モデルが敵の攻撃に対して堅牢であることは望ましいものであり、しばしば必要である。 これは特にベイズモデルに当てはまり、敵の攻撃が壊滅的な結果をもたらす安全クリティカルな応用に適している。 本研究では,ベイズニューラルネットワーク(BNN)の対角的堅牢性について,より深く考察する。 特に,BNNの対角的ロバスト性は,モデル選択,特に前者が引き起こすリプシッツ連続性によって増大するか否かを考察する。 平均場変動推論により近似したゼロ平均ガウス前値と後値の場合の詳細な解析を行い、対向的ロバスト性が実際に先行分散に敏感であることを示す。

It is desirable, and often a necessity, for machine learning models to be robust against adversarial attacks. This is particularly true for Bayesian models, as they are well-suited for safety-critical applications, in which adversarial attacks can have catastrophic outcomes. In this work, we take a deeper look at the adversarial robustness of Bayesian Neural Networks (BNNs). In particular, we consider whether the adversarial robustness of a BNN can be increased by model choices, particularly the Lipschitz continuity induced by the prior. Conducting in-depth analysis on the case of i.i.d., zero-mean Gaussian priors and posteriors approximated via mean-field variational inference, we find evidence that adversarial robustness is indeed sensitive to the prior variance.
翻訳日:2021-04-10 13:47:49 公開日:2021-01-07
# 非パラメトリック不確実性最適化のための新しい回帰損失

A Novel Regression Loss for Non-Parametric Uncertainty Optimization ( http://arxiv.org/abs/2101.02726v1 )

ライセンス: Link先を確認
Joachim Sicking, Maram Akila, Maximilian Pintz, Tim Wirtz, Asja Fischer, Stefan Wrobel(参考訳) 不確実性の定量化は、安全な機械学習を確立する最も有望なアプローチの1つである。 その重要性にもかかわらず、特にニューラルネットワークでは、一般的な解決には程遠い。 これまでの最も一般的なアプローチの1つはモンテカルロドロップアウトで、計算量的に安価で、実際に簡単に適用できる。 しかし、不確実性は過小評価できる。 本稿では,この問題に対処するため,第2モーメント損失(SML)と呼ばれる新たな目標を提案する。 完全なネットワークは平均をモデル化するよう奨励されるが、ドロップアウトネットワークはモデル分散を最適化するために明示的に使用される。 様々なUCI回帰データセットを用いて,新しい目標の性能を集中的に研究する。 ディープアンサンブルの最先端と比較すると、SMLは単一のモデルのみを必要とする一方で、同等の予測精度と不確実性の推定につながる。 流通シフトでは,適度な改善が観察される。 その結果,非飽和な直感的なwasserstein距離に基づく不確実性尺度を導入し,任意の不確実性推定値間の品質差を解消する。

Quantification of uncertainty is one of the most promising approaches to establish safe machine learning. Despite its importance, it is far from being generally solved, especially for neural networks. One of the most commonly used approaches so far is Monte Carlo dropout, which is computationally cheap and easy to apply in practice. However, it can underestimate the uncertainty. We propose a new objective, referred to as second-moment loss (SML), to address this issue. While the full network is encouraged to model the mean, the dropout networks are explicitly used to optimize the model variance. We intensively study the performance of the new objective on various UCI regression datasets. Comparing to the state-of-the-art of deep ensembles, SML leads to comparable prediction accuracies and uncertainty estimates while only requiring a single model. Under distribution shift, we observe moderate improvements. As a side result, we introduce an intuitive Wasserstein distance-based uncertainty measure that is non-saturating and thus allows to resolve quality differences between any two uncertainty estimates.
翻訳日:2021-04-10 13:47:34 公開日:2021-01-07
# ナレーションビデオにおけるサイクルからの時間ダイナミクスの学習

Learning Temporal Dynamics from Cycles in Narrated Video ( http://arxiv.org/abs/2101.02337v1 )

ライセンス: Link先を確認
Dave Epstein, Jiajun Wu, Cordelia Schmid, Chen Sun(参考訳) 時間経過とともに世界がどう変化するかをモデル化することを学ぶことは、コンピュータビジョンコミュニティにとって難しい問題となっている。 本稿では,視覚と言語を併用した時間周期一貫性を用いた自己教師型手法を提案する。 私たちのモデルは、前方および後方の時間を予測するためにモダリティに依存しない関数を学習します。 この制約は、モーダル間で容易に逆転し共有されるため、時間内のモーメント間のハイレベルな遷移の発見につながる。 我々は,サイクル整合性問題の異なる構成に関するアブレーション研究により,モデルの設計を正当化する。 そして、我々のアプローチが未来と過去の意味のある高レベルモデルをもたらすことを質的に定量的に示す。 将来の行動予測や画像の時間的順序付けなど,様々なタスクに対して,学習されたダイナミクスモデルを適用する。

Learning to model how the world changes as time elapses has proven a challenging problem for the computer vision community. We propose a self-supervised solution to this problem using temporal cycle consistency jointly in vision and language, training on narrated video. Our model learns modality-agnostic functions to predict forward and backward in time, which must undo each other when composed. This constraint leads to the discovery of high-level transitions between moments in time, since such transitions are easily inverted and shared across modalities. We justify the design of our model with an ablation study on different configurations of the cycle consistency problem. We then show qualitatively and quantitatively that our approach yields a meaningful, high-level model of the future and past. We apply the learned dynamics model without further training to various tasks, such as predicting future action and temporally ordering sets of images.
翻訳日:2021-04-10 13:47:17 公開日:2021-01-07
# 逆例を用いたロバストテキストCAPTCHA

Robust Text CAPTCHAs Using Adversarial Examples ( http://arxiv.org/abs/2101.02483v1 )

ライセンス: Link先を確認
Rulin Shao, Zhouxing Shi, Jinfeng Yi, Pin-Yu Chen, Cho-Jui Hsieh(参考訳) CAPTCHA(Completely Automated Public Truing Test to tell Computers and Humans Apart)は、実際のユーザーとボットのような自動化されたユーザーを区別する技術である。 しかし、AI技術の進歩は多くのCAPTCHAテストを弱め、セキュリティ上の懸念を引き起こす可能性がある。 本稿では,ロバストテキストCAPTCHA(RTC)というユーザフレンドリーなテキストベースのCAPTCHA生成手法を提案する。 最初の段階では、フォアグラウンドと背景はランダムにサンプリングされたフォントと背景画像で構築され、擬似逆境CAPTCHAに合成される。 第2段階では、CAPTCHAの解法をより妨害するために、テキストCAPTCHAに対して高度に転送可能な逆攻撃を設計し、適用する。 実験は,kn,svm,ランダムフォレストなどの浅層モデル,様々な深層ニューラルネットワーク,ocrモデルを含む包括的モデルをカバーする。 実験の結果,CAPTCHAは一般的に100万分の1以下であり,ユーザビリティが高いことがわかった。 また、敵の訓練、データ前処理、手動タグ付けなど、攻撃者が採用する様々な防御技術に対して堅牢である。

CAPTCHA (Completely Automated Public Truing test to tell Computers and Humans Apart) is a widely used technology to distinguish real users and automated users such as bots. However, the advance of AI technologies weakens many CAPTCHA tests and can induce security concerns. In this paper, we propose a user-friendly text-based CAPTCHA generation method named Robust Text CAPTCHA (RTC). At the first stage, the foregrounds and backgrounds are constructed with randomly sampled font and background images, which are then synthesized into identifiable pseudo adversarial CAPTCHAs. At the second stage, we design and apply a highly transferable adversarial attack for text CAPTCHAs to better obstruct CAPTCHA solvers. Our experiments cover comprehensive models including shallow models such as KNN, SVM and random forest, various deep neural networks and OCR models. Experiments show that our CAPTCHAs have a failure rate lower than one millionth in general and high usability. They are also robust against various defensive techniques that attackers may employ, including adversarial training, data pre-processing and manual tagging.
翻訳日:2021-04-10 13:47:01 公開日:2021-01-07
# 複雑な自然画像のクラスタリングを促進するcnn特徴抽出器の試作

Combining pretrained CNN feature extractors to enhance clustering of complex natural images ( http://arxiv.org/abs/2101.02767v1 )

ライセンス: Link先を確認
Joris Guerin, Stephane Thiery, Eric Nyiri, Olivier Gibaru, Byron Boots(参考訳) 近年、複雑な教師なし画像分類タスクを解決するための共通の出発点は、大規模で汎用的なデータセット(ImageNet)で事前訓練された深層畳み込みニューラルネットワーク(CNN)で抽出された一般的な特徴を使用することである。 しかし、ほとんどの研究において、特徴抽出のためのcnnアーキテクチャは正当化なしで任意に選択される。 本稿では,画像クラスタリング(IC)における事前学習CNN機能の利用に関する知見を提供する。 まず、広範な実験を行い、与えられたデータセットに対して、特徴抽出のためのCNNアーキテクチャの選択が最終的なクラスタリングに大きな影響を与えることを示す。 これらの実験は、与えられたICタスクに対する適切な抽出器の選択が困難であることを示す。 この問題を解決するために,異なるアーキテクチャから抽出された特徴を同一データの異なる「ビュー」とみなすマルチビュークラスタリング(MVC)問題として,IC問題を言い換えることを提案する。 このアプローチは、同じデータで事前トレーニングされた場合でも、異なるcnnに含まれる情報は相補的であるかもしれないという仮定に基づいている。 次に、MVC問題を効果的に解くためにエンドツーエンドに訓練されたマルチインプットニューラルネットワークアーキテクチャを提案する。 このアプローチは9つの自然画像データセットでテストされ、ICの最先端結果を生成する。

Recently, a common starting point for solving complex unsupervised image classification tasks is to use generic features, extracted with deep Convolutional Neural Networks (CNN) pretrained on a large and versatile dataset (ImageNet). However, in most research, the CNN architecture for feature extraction is chosen arbitrarily, without justification. This paper aims at providing insight on the use of pretrained CNN features for image clustering (IC). First, extensive experiments are conducted and show that, for a given dataset, the choice of the CNN architecture for feature extraction has a huge impact on the final clustering. These experiments also demonstrate that proper extractor selection for a given IC task is difficult. To solve this issue, we propose to rephrase the IC problem as a multi-view clustering (MVC) problem that considers features extracted from different architectures as different "views" of the same data. This approach is based on the assumption that information contained in the different CNN may be complementary, even when pretrained on the same data. We then propose a multi-input neural network architecture that is trained end-to-end to solve the MVC problem effectively. This approach is tested on nine natural image datasets, and produces state-of-the-art results for IC.
翻訳日:2021-04-10 13:46:43 公開日:2021-01-07
# DICE: アウトカム・アウェア・ストラテファイションのための深い意味クラスタリング

DICE: Deep Significance Clustering for Outcome-Aware Stratification ( http://arxiv.org/abs/2101.02344v1 )

ライセンス: Link先を確認
Yufang Huang, Kelly M. Axsom, John Lee, Lakshminarayanan Subramanian and Yiye Zhang(参考訳) 本稿では,「既知」階層化のための表現学習とクラスタリングを共同で行うフレームワークであるdeep significance clustering(dice)を提案する。 DICEは、対象とする結果の個人リスクレベルによって人口を分類するために使用されるクラスタメンバシップを生成することを意図している。 表現学習とクラスタリングのステップに従って,目的関数をdiceに組み込むことにより,結果と学習表現のクラスタメンバシップとの間に統計的に有意な関係を求める制約を与える。 さらにDICEは、表現学習の可能性を最大化するニューラルネットワーク探索ステップと、クラスタメンバシップを予測子として結果分類精度を最大化する。 患者リスク階層化医療におけるDICEの有用性を示すために,実世界の電子健康記録から抽出した結果比の異なる2つのデータセットを用いてDICEの性能を評価した。 結果は、covid-19患者のコホート間で急性腎障害(30.4\%)、心不全患者のコホート間では退院(36.8\%)と定義されている。 その結果, クラスタ間の結果分布の差, シルエットスコア, カリンスキー・ハラバス指数, ダヴィース・ボルディン指数, ROC曲線(AUC)による結果分類において, 複数のベースライン手法と比較して, DICEは優れた性能を示した。

We present deep significance clustering (DICE), a framework for jointly performing representation learning and clustering for "outcome-aware" stratification. DICE is intended to generate cluster membership that may be used to categorize a population by individual risk level for a targeted outcome. Following the representation learning and clustering steps, we embed the objective function in DICE with a constraint which requires a statistically significant association between the outcome and cluster membership of learned representations. DICE further includes a neural architecture search step to maximize both the likelihood of representation learning and outcome classification accuracy with cluster membership as the predictor. To demonstrate its utility in medicine for patient risk-stratification, the performance of DICE was evaluated using two datasets with different outcome ratios extracted from real-world electronic health records. Outcomes are defined as acute kidney injury (30.4\%) among a cohort of COVID-19 patients, and discharge disposition (36.8\%) among a cohort of heart failure patients, respectively. Extensive results demonstrate that DICE has superior performance as measured by the difference in outcome distribution across clusters, Silhouette score, Calinski-Harabasz index, and Davies-Bouldin index for clustering, and Area under the ROC Curve (AUC) for outcome classification compared to several baseline approaches.
翻訳日:2021-04-10 13:46:01 公開日:2021-01-07
# ファジィシステム改善のための忘れ込みによるドリフト予測

Drift anticipation with forgetting to improve evolving fuzzy system ( http://arxiv.org/abs/2101.02442v1 )

ライセンス: Link先を確認
Cl\'ement Leroy (INTUIDOC), Eric Anquetil (INTUIDOC), Nathalie Girard (INTUIDOC)(参考訳) 非定常的なデータストリームを扱うためには、分析システムが時間とともにモデル(パラメータと構造)を進化させる必要がある。 特に、概念ドリフトが発生する可能性があるため、時代遅れになった知識を忘れる必要がある。 しかし, システムのロバスト性が低下する一方で, 新たなデータへの適応性が向上する, 安定性・塑性ジレンマが増大する。 一連の推論ルールに基づいて、Evolving Fuzzy Systems-EFS-は、データストリーム学習問題を解決するのに有効であることが証明されている。 しかし、安定性と可塑性のジレンマに取り組むことは、まだ未解決の問題である。 本稿では,最近導入された概念ドリフト予測に基づくファジィシステムにおける忘れ方を統合するコヒーレントな手法を提案する。 両部間のコヒーレンスを維持するために、前提部の指数的忘れと、EFSの結論部の遅延方向の忘れとの2つの方法を適用する。 このアプローチの独創性は、期待モジュールでのみ忘れることと、EFS(プリンシパルシステムと呼ばれる)が忘れることなく学習し続けることにある。 そして,流路内でドリフトが検出されると,予測モジュールのより適切なパラメータで主システムの古いパラメータを置き換える選択機構が提案される。 提案手法の評価は,最先端のオンライン分類器 (Learn++.NSE, PENsemble, pclass) と, 異なる忘れ方策を用いたオリジナルのシステムとの比較により, ベンチマークオンラインデータセット上で行った。

Working with a non-stationary stream of data requires for the analysis system to evolve its model (the parameters as well as the structure) over time. In particular, concept drifts can occur, which makes it necessary to forget knowledge that has become obsolete. However, the forgetting is subjected to the stability-plasticity dilemma, that is, increasing forgetting improve reactivity of adapting to the new data while reducing the robustness of the system. Based on a set of inference rules, Evolving Fuzzy Systems-EFS-have proven to be effective in solving the data stream learning problem. However tackling the stability-plasticity dilemma is still an open question. This paper proposes a coherent method to integrate forgetting in Evolving Fuzzy System, based on the recently introduced notion of concept drift anticipation. The forgetting is applied with two methods: an exponential forgetting of the premise part and a deferred directional forgetting of the conclusion part of EFS to preserve the coherence between both parts. The originality of the approach consists in applying the forgetting only in the anticipation module and in keeping the EFS (called principal system) learned without any forgetting. Then, when a drift is detected in the stream, a selection mechanism is proposed to replace the obsolete parameters of the principal system with more suitable parameters of the anticipation module. An evaluation of the proposed methods is carried out on benchmark online datasets, with a comparison with state-of-the-art online classifiers (Learn++.NSE, PENsemble, pclass) as well as with the original system using different forgetting strategies.
翻訳日:2021-04-10 13:45:35 公開日:2021-01-07
# XOR演算子に対するTsetlinマシンの収束性について

On the Convergence of Tsetlin Machines for the XOR Operator ( http://arxiv.org/abs/2101.02547v1 )

ライセンス: Link先を確認
Lei Jiao, Xuan Zhang, Ole-Christoffer Granmo, K. Darshana Abeyrathna(参考訳) Tsetlin Machine(TM)は、ハードウェア近傍のビルディングブロックを用いた透過的な推論と学習を含む、いくつかの異なる特性を持つ新しい機械学習アルゴリズムである。 多くの論文がTMを実証的に探求しているが、その性質の多くはまだ数学的に解析されていない。 本稿では,入力がxor演算子の出力と非線形関係にある場合のtmの収束解析を行う。 解析の結果、TMは2つの節からなるだけで、ほぼ確実にXORの再生に収束し、無限時間水平線上のトレーニングデータから学習できることがわかった。 さらに、ハイパーパラメータTが節の構成をどのようにガイドし、節がデータ内の異なるサブパターンをキャプチャするかを示す。 XORの収束解析は、他のより複雑な論理式を解析するための基礎となる。 これらの解析は、数学的観点から、なぜTMがいくつかのパターン認識問題において最先端のパフォーマンスを得たのかの新しい知見を提供する。

The Tsetlin Machine (TM) is a novel machine learning algorithm with several distinct properties, including transparent inference and learning using hardware-near building blocks. Although numerous papers explore the TM empirically, many of its properties have not yet been analyzed mathematically. In this article, we analyze the convergence of the TM when input is non-linearly related to output by the XOR-operator. Our analysis reveals that the TM, with just two conjunctive clauses, can converge almost surely to reproducing XOR, learning from training data over an infinite time horizon. Furthermore, the analysis shows how the hyper-parameter T guides clause construction so that the clauses capture the distinct sub-patterns in the data. Our analysis of convergence for XOR thus lays the foundation for analyzing other more complex logical expressions. These analyses altogether, from a mathematical perspective, provide new insights on why TMs have obtained state-of-the-art performance on several pattern recognition problems
翻訳日:2021-04-10 13:45:08 公開日:2021-01-07
# SHARKS: 機械学習に基づくインターネットとサイバー物理システムにおけるRisKスキャンのためのスマートハックアプローチ

SHARKS: Smart Hacking Approaches for RisK Scanning in Internet-of-Things and Cyber-Physical Systems based on Machine Learning ( http://arxiv.org/abs/2101.02780v1 )

ライセンス: Link先を確認
Tanujay Saha, Najwa Aaraj, Neel Ajjarapu, Niraj K. Jha(参考訳) サイバー物理システム(CPS)やIoT(Internet-of-Things)デバイスは、医療機器やウェアラブルから、原子力発電所、自動運転車、スマートシティ、スマートホームといった重要なインフラまで、さまざまな機能に展開されている。 これらのデバイスは、本質的にソフトウェア、ハードウェア、ネットワークスタック全体にわたって安全ではないため、ハッカーによって悪用される大きな攻撃面を示す。 本稿では,未知のシステム脆弱性を検出し,脆弱性を管理し,脆弱性を悪用した場合のインシデント応答を改善するための革新的手法を提案する。 このアプローチの斬新さは、既知の現実世界のCPS/IoT攻撃からインテリジェンスを抽出し、それらを正規表現の形式で表現し、この正規表現のアンサンブルに機械学習(ML)技術を使用して、新たな攻撃ベクトルとセキュリティ脆弱性を生成することである。 我々の結果は、CPSやIoTエコシステムを悪用する可能性がある10の新しい攻撃ベクタと122の新しい脆弱性エクスプロイトをうまく生成できることを示している。 ml手法は97.4%の精度を実現し,87.2%の検索空間削減により,これらの攻撃を効率的に予測できる。 本稿では,コネクテッドカーの車内ネットワークのハッキングに対する本手法の適用例を示す。 既知の攻撃や新たな攻撃に対する防御策として,様々な種類の攻撃に対する防御・防御機構と,そのような攻撃を対象とするデータの分類について論じる。 この防衛機構は、保護されたリソースの感度に基づいてセキュリティ対策のコストを最適化し、サイバーセキュリティ実践者による現実世界のCPS/IoTへの導入を促進する。

Cyber-physical systems (CPS) and Internet-of-Things (IoT) devices are increasingly being deployed across multiple functionalities, ranging from healthcare devices and wearables to critical infrastructures, e.g., nuclear power plants, autonomous vehicles, smart cities, and smart homes. These devices are inherently not secure across their comprehensive software, hardware, and network stacks, thus presenting a large attack surface that can be exploited by hackers. In this article, we present an innovative technique for detecting unknown system vulnerabilities, managing these vulnerabilities, and improving incident response when such vulnerabilities are exploited. The novelty of this approach lies in extracting intelligence from known real-world CPS/IoT attacks, representing them in the form of regular expressions, and employing machine learning (ML) techniques on this ensemble of regular expressions to generate new attack vectors and security vulnerabilities. Our results show that 10 new attack vectors and 122 new vulnerability exploits can be successfully generated that have the potential to exploit a CPS or an IoT ecosystem. The ML methodology achieves an accuracy of 97.4% and enables us to predict these attacks efficiently with an 87.2% reduction in the search space. We demonstrate the application of our method to the hacking of the in-vehicle network of a connected car. To defend against the known attacks and possible novel exploits, we discuss a defense-in-depth mechanism for various classes of attacks and the classification of data targeted by such attacks. This defense mechanism optimizes the cost of security measures based on the sensitivity of the protected resource, thus incentivizing its adoption in real-world CPS/IoT by cybersecurity practitioners.
翻訳日:2021-04-10 13:44:54 公開日:2021-01-07
# 両部混合確率ブロックモデル

Bipartite mixed membership stochastic blockmodel ( http://arxiv.org/abs/2101.02307v1 )

ライセンス: Link先を確認
Huan Qing and Jingli Wang(参考訳) 近年,ネットワーク分析において,非向ネットワークの混合メンバシップ問題の研究が盛んに行われている。 しかし、より一般的な有向ネットワークの混合メンバシップのケースは依然として課題である。 本稿では,双方向混合会員確率ブロックモデル (BiMMSB, 略してbipartite mixed member stochastic blockmodel) を提案する。 BiMMSBにより、隣接行列の行ノードと列ノードが異なることができ、これらのノードは有向ネットワークにおいて異なるコミュニティ構造を持つことができる。 また、有向ネットワークにおける行ノードと列ノードの混合メンバシップを推定するために、BiMPCAと呼ばれる効率的なスペクトルアルゴリズムを開発した。 このアプローチはBiMMSBの下で漸近的に整合性を示す。 本研究では,bimmsbの利点を実証し,小規模シミュレーション研究,有向政治ブログネットワーク,論文引用ネットワークに適用する。

Mixed membership problem for undirected network has been well studied in network analysis recent years. However, the more general case of mixed membership for directed network remains a challenge. Here, we propose an interpretable model: bipartite mixed membership stochastic blockmodel (BiMMSB for short) for directed mixed membership networks. BiMMSB allows that row nodes and column nodes of the adjacency matrix can be different and these nodes may have distinct community structure in a directed network. We also develop an efficient spectral algorithm called BiMPCA to estimate the mixed memberships for both row nodes and column nodes in a directed network. We show that the approach is asymptotically consistent under BiMMSB. We demonstrate the advantages of BiMMSB with applications to a small-scale simulation study, the directed Political blogs network and the Papers Citations network.
翻訳日:2021-04-10 13:44:23 公開日:2021-01-07
# ガウス過程としての無限広テンソルネットワーク

Infinitely Wide Tensor Networks as Gaussian Process ( http://arxiv.org/abs/2101.02333v1 )

ライセンス: Link先を確認
Erdong Guo and David Draper(参考訳) ガウス過程(gaussian process)は、関数空間上の分布として直感的に理解できる非パラメトリックな前処理である。 ガウス過程は、ニューラルネットワークの重みの前に適切に導入することにより、ベイズ的ニューラルネットワークの無限幅限界をベイズ的視点から捉えることで得られることが知られている。 本稿では,無限大のテンソルネットワークを探索し,無限大のテンソルネットワークとガウス過程の同値性を示す。 我々は、純粋なテンソルネットワークと2つの拡張テンソルネットワーク構造、すなわちニューラルネットワークテンソルネットワークとテンソルネットワーク隠れ層ニューラルネットワークについて研究し、各モデルの幅が無限になるにつれて、それぞれがガウス過程に収束することを証明する。 (ここでは、ガウス過程は、テンソルノードの積における結合次元 $\alpha_{i}$ の少なくとも1つの無限極限を取ることによっても得ることができ、証明は無限幅の場合の証明において同じアイデアを用いて行うことができる)。 一般集合を持つ無限幅テンソルネットワークを用いて,誘導ガウス過程の有限次元分布の平均関数(平均ベクトル)と共分散関数(共分散行列)を計算する。 共分散関数の性質について検討し、期待演算子の積分が難解であるときに共分散関数の近似を導出する。 数値実験では、無限極限テンソルネットワークに対応するガウス過程を実装し、これらのモデルのサンプルパスをプロットする。 本研究では,従来の分布の標準偏差を変化させることにより,誘導ガウス過程の超パラメータを解析し,サンプル経路ファミリーをプロットする。 予想通り、事前分布のパラメータ、すなわち誘導ガウス過程のハイパーパラメータはガウス過程の特徴的な長さスケールを制御する。

Gaussian Process is a non-parametric prior which can be understood as a distribution on the function space intuitively. It is known that by introducing appropriate prior to the weights of the neural networks, Gaussian Process can be obtained by taking the infinite-width limit of the Bayesian neural networks from a Bayesian perspective. In this paper, we explore the infinitely wide Tensor Networks and show the equivalence of the infinitely wide Tensor Networks and the Gaussian Process. We study the pure Tensor Network and another two extended Tensor Network structures: Neural Kernel Tensor Network and Tensor Network hidden layer Neural Network and prove that each one will converge to the Gaussian Process as the width of each model goes to infinity. (We note here that Gaussian Process can also be obtained by taking the infinite limit of at least one of the bond dimensions $\alpha_{i}$ in the product of tensor nodes, and the proofs can be done with the same ideas in the proofs of the infinite-width cases.) We calculate the mean function (mean vector) and the covariance function (covariance matrix) of the finite dimensional distribution of the induced Gaussian Process by the infinite-width tensor network with a general set-up. We study the properties of the covariance function and derive the approximation of the covariance function when the integral in the expectation operator is intractable. In the numerical experiments, we implement the Gaussian Process corresponding to the infinite limit tensor networks and plot the sample paths of these models. We study the hyperparameters and plot the sample path families in the induced Gaussian Process by varying the standard deviations of the prior distributions. As expected, the parameters in the prior distribution namely the hyper-parameters in the induced Gaussian Process controls the characteristic lengthscales of the Gaussian Process.
翻訳日:2021-04-10 13:44:08 公開日:2021-01-07
# ニューラルスペクトルと半定自由度:完全ポリノミアル時間におけるポリノミアル活性化ニューラルネットワークのグローバル凸最適化

Neural Spectrahedra and Semidefinite Lifts: Global Convex Optimization of Polynomial Activation Neural Networks in Fully Polynomial-Time ( http://arxiv.org/abs/2101.02429v1 )

ライセンス: Link先を確認
Burak Bartan, Mert Pilanci(参考訳) 非線形アクティベーション関数を持つ2層ニューラルネットワークのトレーニングは多くのアプリケーションにおいて重要な非凸最適化問題であり、層幅深層学習において有望な性能を示す。 本稿では,半定値プログラミングに基づく2次多項式アクティベーションを持つ2層ニューラルネットワークの正確な凸最適化式を開発する。 顕著なことに、半定値リフトは常に正確であり、大域最適化の計算複雑性は入力次元の多項式であり、全ての入力データのサンプルサイズである。 開発された凸式は、非凸式と同じ大域的最適解集合を達成することが証明されている。 より具体的には、多項式活性化を伴う大域的最適2層ニューラルネットワークは、半定値プログラム(SDP)を解き、ニューラル分解と呼ばれる手順を用いて解を分解することで得られる。 さらに、正規化器の選択は、ニューラルネットワークトレーニングの計算的トラクタビリティにおいて重要な役割を果たす。 標準重み減衰正規化定式化はNP-hardであるのに対し、他の単純凸ペナルティは凸計画法により多項式時間で計算可能な問題を示す。 我々は、完全に接続されたアーキテクチャを超えて、ベクトル出力を持つネットワークやプールを伴う畳み込みアーキテクチャを含む、異なるニューラルネットワークアーキテクチャに結果を拡張します。 我々は, 標準バックプロパゲーション手法がトレーニング損失のグローバル最適化に失敗することがしばしばあることを示す, 広範な数値シミュレーションを提供する。 提案手法は, 標準バックプロパゲーション法に比べ, テスト精度が大幅に向上した。

The training of two-layer neural networks with nonlinear activation functions is an important non-convex optimization problem with numerous applications and promising performance in layerwise deep learning. In this paper, we develop exact convex optimization formulations for two-layer neural networks with second degree polynomial activations based on semidefinite programming. Remarkably, we show that semidefinite lifting is always exact and therefore computational complexity for global optimization is polynomial in the input dimension and sample size for all input data. The developed convex formulations are proven to achieve the same global optimal solution set as their non-convex counterparts. More specifically, the globally optimal two-layer neural network with polynomial activations can be found by solving a semidefinite program (SDP) and decomposing the solution using a procedure we call Neural Decomposition. Moreover, the choice of regularizers plays a crucial role in the computational tractability of neural network training. We show that the standard weight decay regularization formulation is NP-hard, whereas other simple convex penalties render the problem tractable in polynomial time via convex programming. We extend the results beyond the fully connected architecture to different neural network architectures including networks with vector outputs and convolutional architectures with pooling. We provide extensive numerical simulations showing that the standard backpropagation approach often fails to achieve the global optimum of the training loss. The proposed approach is significantly faster to obtain better test accuracy compared to the standard backpropagation procedure.
翻訳日:2021-04-10 13:43:42 公開日:2021-01-07
# RobustSleepNet: 大規模な自動睡眠ステージングのための移行学習

RobustSleepNet: Transfer learning for automated sleep staging at scale ( http://arxiv.org/abs/2101.02452v1 )

ライセンス: Link先を確認
Antoine Guillot and Valentin Thorey(参考訳) 睡眠障害の診断は、PSG(polysomnography)レコードの分析に依存する。 睡眠段階は、この検査の予備段階として体系的に決定される。 実際には、睡眠段階分類は、30秒間のポリソノグラフィー信号の視覚検査に依存している。 この面倒で高価なタスクを置き換えるために、多くの自動アプローチが開発されている。 これらの方法は、特定のデータセットでヒトの睡眠専門家よりも優れた性能を示したが、睡眠クリニックでは使用されていない。 主な理由は、各睡眠クリニックが特定のPSGモンタージュを使用しており、ほとんどの自動的なアプローチでは最初から対応できないからです。 さらに、PSGモンタージュが互換性があるとしても、出版物は、異なる人口層を持つ見えないデータに対して自動的なアプローチが不十分であることを示した。 これらの問題に対処するために、任意のPSGモンタージュを扱える自動睡眠ステージ分類のためのディープラーニングモデルであるRobustSleepNetを導入する。 8つのヘテロジニアスな睡眠ステージングデータセットからなる大規模なコーパス上で,このモデルをレシート・ワン・アウト・データセット形式でトレーニングし,評価した。 目に見えないデータセットで評価すると、RobustSleepNetはこのデータセットで特別にトレーニングされたモデルのF1の97%に達する。 そして、このデータセット用に特別にトレーニングされたモデルと比較して、未発見のデータセットの一部を用いて、f1を2%増加させる。 これにより、RobustSleepNetは、あらゆる臨床設定で高品質なアウトオブボックス自動睡眠ステージを実行することができる。 特定の人口で最先端のパフォーマンスに達するように微調整することもできる。

Sleep disorder diagnosis relies on the analysis of polysomnography (PSG) records. Sleep stages are systematically determined as a preliminary step of this examination. In practice, sleep stage classification relies on the visual inspection of 30-seconds epochs of polysomnography signals. Numerous automatic approaches have been developed to replace this tedious and expensive task. Although these methods demonstrated better performance than human sleep experts on specific datasets, they remain largely unused in sleep clinics. The main reason is that each sleep clinic uses a specific PSG montage that most automatic approaches are unable to handle out-of-the-box. Moreover, even when the PSG montage is compatible, publications have shown that automatic approaches perform poorly on unseen data with different demographics. To address these issues, we introduce RobustSleepNet, a deep learning model for automatic sleep stage classification able to handle arbitrary PSG montages. We trained and evaluated this model in a leave-one-out-dataset fashion on a large corpus of 8 heterogeneous sleep staging datasets to make it robust to demographic changes. When evaluated on an unseen dataset, RobustSleepNet reaches 97% of the F1 of a model trained specifically on this dataset. We then show that finetuning RobustSleepNet, using a part of the unseen dataset, increase the F1 by 2% when compared to a model trained specifically for this dataset. Hence, RobustSleepNet unlocks the possibility to perform high-quality out-of-the-box automatic sleep staging with any clinical setup. It can also be finetuned to reach a state-of-the-art level of performance on a specific population.
翻訳日:2021-04-10 13:43:18 公開日:2021-01-07
# 加速・最適・並列:モデルに基づく確率最適化に関するいくつかの結果

Accelerated, Optimal, and Parallel: Some Results on Model-Based Stochastic Optimization ( http://arxiv.org/abs/2101.02696v1 )

ライセンス: Link先を確認
Karan Chadha, Gary Cheng, John C. Duchi(参考訳) 確率的部分次数、近位点、バンドル法を含む確率的凸最適化問題を解くためのモデルベース手法の近似近位点(aprox)ファミリーをミニバッチおよび高速化設定に拡張する。 そこで本研究では,すべての問題依存定数の次数最適である非漸近収束保証と,望ましいロバスト性特性を維持しつつミニバッチサイズの線形高速化を提供するためのモデルベースアルゴリズムと加速度スキームを提案する。 aProxファミリーの(ステップ化)。 さらに,統計的機械学習の重要性が増大している「補間」問題に対する新しい基本定数を同定する収束率と下限の一致を示す。 実験によって得られた理論結果を相関させて, 精度の高いモデリング, 加速度, ミニバッチ化を実証する。

We extend the Approximate-Proximal Point (aProx) family of model-based methods for solving stochastic convex optimization problems, including stochastic subgradient, proximal point, and bundle methods, to the minibatch and accelerated setting. To do so, we propose specific model-based algorithms and an acceleration scheme for which we provide non-asymptotic convergence guarantees, which are order-optimal in all problem-dependent constants and provide linear speedup in minibatch size, while maintaining the desirable robustness traits (e.g. to stepsize) of the aProx family. Additionally, we show improved convergence rates and matching lower bounds identifying new fundamental constants for "interpolation" problems, whose importance in statistical machine learning is growing; this, for example, gives a parallelization strategy for alternating projections. We corroborate our theoretical results with empirical testing to demonstrate the gains accurate modeling, acceleration, and minibatching provide.
翻訳日:2021-04-10 13:42:54 公開日:2021-01-07
# 安全指向歩行者運動と現場占有予測

Safety-Oriented Pedestrian Motion and Scene Occupancy Forecasting ( http://arxiv.org/abs/2101.02385v1 )

ライセンス: Link先を確認
Katie Luo, Sergio Casas, Renjie Liao, Xinchen Yan, Yuwen Xiong, Wenyuan Zeng, Raquel Urtasun(参考訳) 本稿では,安全ナビゲーションに欠かせないマルチペデストリアン運動とその共有シーン占有マップの予測における重要な課題について述べる。 私たちの貢献は2倍です。 まず,ポストプロセッシングによる検出の欠如,例えば信頼しきい値と非最大抑圧を効果的に対処するために,個々の動きとシーン占有マップの両方を予測することを提案する。 第2に,2次元畳み込みによる歩行者の相対的空間情報を保存し,検出されていない歩行者を含む同一シーン内の歩行者間の相互作用をメッセージパッシングによりキャプチャするScene-Actor Graph Neural Network (SA-GNN)を提案する。 nuScenes と ATG4D という2つの大規模な実世界のデータセットでは、私たちのシーン占有率予測は、最先端のモーション予測手法よりも正確で精度の高いキャリブレーションがなされており、また歩行者の動き予測指標のパフォーマンスも一致している。

In this paper, we address the important problem in self-driving of forecasting multi-pedestrian motion and their shared scene occupancy map, critical for safe navigation. Our contributions are two-fold. First, we advocate for predicting both the individual motions as well as the scene occupancy map in order to effectively deal with missing detections caused by postprocessing, e.g., confidence thresholding and non-maximum suppression. Second, we propose a Scene-Actor Graph Neural Network (SA-GNN) which preserves the relative spatial information of pedestrians via 2D convolution, and captures the interactions among pedestrians within the same scene, including those that have not been detected, via message passing. On two large-scale real-world datasets, nuScenes and ATG4D, we showcase that our scene-occupancy predictions are more accurate and better calibrated than those from state-of-the-art motion forecasting methods, while also matching their performance in pedestrian motion forecasting metrics.
翻訳日:2021-04-10 13:42:37 公開日:2021-01-07
# 高解像度衛星画像における物体検出のための能動学習

Active learning for object detection in high-resolution satellite images ( http://arxiv.org/abs/2101.02480v1 )

ライセンス: Link先を確認
Alex Goupilleau, Tugdual Ceillier, Marie-Caroline Corbineau(参考訳) 機械学習において、アクティブラーニングという用語は、最も有用なデータを選択することを目的としたテクニックを再分類する。 監視されたディープラーニング技術は、多くのアプリケーションでますます効率的になっていることが示されているが、運用上のパフォーマンスを達成するには大量のラベル付き例が必要である。 そのため、必要なデータセットの作成に関連するラベル付け作業も増加している。 防衛関連のリモートセンシングアプリケーションを開発する際には、広範囲がカバーされ、稀で主に運用上のニーズに専心する軍事専門家を必要とするため、ラベル付けが困難な場合がある。 そのため、ラベル付けの労力を制限することが最も重要です。 本研究は,高分解能画像における物体検出に使用される最も重要なアクティブラーニング手法をレビューすることを目的としており,その手法が関連する運用事例である航空機検出に有用であることを示す。

In machine learning, the term active learning regroups techniques that aim at selecting the most useful data to label from a large pool of unlabelled examples. While supervised deep learning techniques have shown to be increasingly efficient on many applications, they require a huge number of labelled examples to reach operational performances. Therefore, the labelling effort linked to the creation of the datasets required is also increasing. When working on defense-related remote sensing applications, labelling can be challenging due to the large areas covered and often requires military experts who are rare and whose time is primarily dedicated to operational needs. Limiting the labelling effort is thus of utmost importance. This study aims at reviewing the most relevant active learning techniques to be used for object detection on very high resolution imagery and shows an example of the value of such techniques on a relevant operational use case: aircraft detection.
翻訳日:2021-04-10 13:42:19 公開日:2021-01-07
# 多数のランドマークを用いたヒートマップに基づく2次元ランドマーク検出

Heatmap-based 2D Landmark Detection with a Varying Number of Landmarks ( http://arxiv.org/abs/2101.02737v1 )

ライセンス: Link先を確認
Antonia Stern, Lalith Sharan, Gabriele Romano, Sven Koehler, Matthias Karck, Raffaele De Simone, Ivo Wolf, Sandy Engelhardt(参考訳) 僧帽弁修復は僧帽弁の機能回復のための手術である。 これを実現するために、人工環が僧帽弁に縫合される。 縫合糸の分析は, 環移植術における輪状縫合を経時的に観察し, 術技評価, 定量的手術, 仮想補綴リングモデルの位置決めに有用である。 本研究は,僧帽弁修復術の内視鏡画像中の縫合を検知するニューラルネットワークアプローチを提案し,既存の他のディープラーニングに基づくランドマーク検出手法とは対照的に,様々なランドマーク量によるランドマーク検出問題を解決した。 ニューラルネットワークは、同じアーキテクチャとハイパーパラメータ設定を持つ異なるドメインからの2つのデータ収集を別々にトレーニングする。 データセットはそれぞれ1300以上のステレオフレームで構成され、合計6万以上の注釈付きランドマークがある。 提案した熱マップベースのニューラルネットワークは、66.68$\pm$4.67%の平均正の予測値(PPV)、24.45$\pm$5.06%の平均正の確率(TPR)、81.50$\pm5.77\%の平均PPV、61.60$\pm$6.11%の平均TPRを達成する。 最も優れた検出結果は、カメラが良好な照明で僧帽弁の上に位置するときに達成される。 僧帽弁が十分に知覚可能であれば、側面からの検知も可能である。

Mitral valve repair is a surgery to restore the function of the mitral valve. To achieve this, a prosthetic ring is sewed onto the mitral annulus. Analyzing the sutures, which are punctured through the annulus for ring implantation, can be useful in surgical skill assessment, for quantitative surgery and for positioning a virtual prosthetic ring model in the scene via augmented reality. This work presents a neural network approach which detects the sutures in endoscopic images of mitral valve repair and therefore solves a landmark detection problem with varying amount of landmarks, as opposed to most other existing deep learning-based landmark detection approaches. The neural network is trained separately on two data collections from different domains with the same architecture and hyperparameter settings. The datasets consist of more than 1,300 stereo frame pairs each, with a total over 60,000 annotated landmarks. The proposed heatmap-based neural network achieves a mean positive predictive value (PPV) of 66.68$\pm$4.67% and a mean true positive rate (TPR) of 24.45$\pm$5.06% on the intraoperative test dataset and a mean PPV of 81.50\pm5.77\% and a mean TPR of 61.60$\pm$6.11% on a dataset recorded during surgical simulation. The best detection results are achieved when the camera is positioned above the mitral valve with good illumination. A detection from a sideward view is also possible if the mitral valve is well perceptible.
翻訳日:2021-04-10 13:41:41 公開日:2021-01-07
# 新しいハイブリッドアプローチによる腸管寄生虫の自動診断とその有用性

Automated Diagnosis of Intestinal Parasites: A new hybrid approach and its benefits ( http://arxiv.org/abs/2101.06310v1 )

ライセンス: Link先を確認
D. Osaku, C. F. Cuba, Celso T.N. Suzuki, J.F. Gomes, A.X. Falc\~ao(参考訳) 腸内寄生虫はヒトのいくつかの病気の原因となる。 光学顕微鏡スライドの誤差やすい視覚的解析をなくすため,ヒト腸管寄生虫の診断のための自動化,高速,低コストのシステムについて検討した。 本稿では,2つの意思決定システムの意見と相補的特性を組み合わせたハイブリッドアプローチを提案する。 (ds_1$) 非常に高速な手作り画像特徴抽出とサポートベクターマシン分類に基づく単純なシステムと,深層ニューラルネットワークに基づくより複雑なシステム (vgg-16) による画像特徴抽出と分類である。 $DS_1$は$DS_2$よりもはるかに高速だが、$DS_2$よりも正確ではない。 幸い、$DS_1$のエラーは$DS_2$と同じではない。 トレーニング中、信頼度値に基づいて各クラスでDS_1$で誤分類の確率を学習するために検証セットを使用します。 顕微鏡スライドから全ての画像に$ds_1$が素早く分類されると、この方法は、$ds_2$でキャラクタリゼーションと再分類のための誤分類の可能性の高い多数の画像を選択する。 当社のハイブリッドシステムは、効率を損なうことなく、臨床ルーチンに適合した全体的な効率を改善することができます。 大規模なデータセットで示されるように、提案システムは平均94.9%、87.8%、および92.5%のコーエンのカッパをヘルシンス卵、ヘルシンス幼生、およびプロトゾア嚢胞で得ることができる。

Intestinal parasites are responsible for several diseases in human beings. In order to eliminate the error-prone visual analysis of optical microscopy slides, we have investigated automated, fast, and low-cost systems for the diagnosis of human intestinal parasites. In this work, we present a hybrid approach that combines the opinion of two decision-making systems with complementary properties: ($DS_1$) a simpler system based on very fast handcrafted image feature extraction and support vector machine classification and ($DS_2$) a more complex system based on a deep neural network, Vgg-16, for image feature extraction and classification. $DS_1$ is much faster than $DS_2$, but it is less accurate than $DS_2$. Fortunately, the errors of $DS_1$ are not the same of $DS_2$. During training, we use a validation set to learn the probabilities of misclassification by $DS_1$ on each class based on its confidence values. When $DS_1$ quickly classifies all images from a microscopy slide, the method selects a number of images with higher chances of misclassification for characterization and reclassification by $DS_2$. Our hybrid system can improve the overall effectiveness without compromising efficiency, being suitable for the clinical routine -- a strategy that might be suitable for other real applications. As demonstrated on large datasets, the proposed system can achieve, on average, 94.9%, 87.8%, and 92.5% of Cohen's Kappa on helminth eggs, helminth larvae, and protozoa cysts, respectively.
翻訳日:2021-04-10 13:41:12 公開日:2021-01-07
# ニューラルストレージ: 弾力性メモリの新しいパラダイム

Neural Storage: A New Paradigm of Elastic Memory ( http://arxiv.org/abs/2101.02729v1 )

ライセンス: Link先を確認
Prabuddha Chakraborty and Swarup Bhunia(参考訳) コンピュータメモリ内のデータの保存と検索は、システム性能において大きな役割を果たす。 伝統的に、コンピュータメモリの組織は静的であり、システム操作中のメモリアクセス動作のアプリケーション固有の特性に基づいて変化しない。 具体的には、データブロックと検索パターン(またはキュー)の関連性、および記憶されたデータの粒度が進化しない。 このようなコンピュータメモリの静的な性質は、物理ストレージに格納できるデータの量を制限するだけでなく、様々なアプリケーションで劇的なパフォーマンス向上の機会を逃している。 それとは対照的に、人間の記憶はデータの保存と検索において無限に可塑性に見え、データと対応する手がかりの間の関連を動的に生成・更新する。 本稿では,脳にインスパイアされた学習記憶パラダイムであるNeural Storage(NS)を紹介し,メモリをフレキシブルなニューラルメモリネットワークとして構成する。 NSでは、ネットワーク構造、関連性の強さ、データの粒度がシステム操作中に連続的に調整され、前例のない塑性と性能上の利点を提供する。 本稿では,学習過程を形式化したNSの記憶/記憶/保持アルゴリズムについて述べる。 実運用モデルを用いて,従来のコンテントベースメモリと比較して,NSは2つの代表的なアプリケーションに対して,メモリアクセス性能を大幅に向上することを示す。

Storage and retrieval of data in a computer memory plays a major role in system performance. Traditionally, computer memory organization is static - i.e., they do not change based on the application-specific characteristics in memory access behaviour during system operation. Specifically, the association of a data block with a search pattern (or cues) as well as the granularity of a stored data do not evolve. Such a static nature of computer memory, we observe, not only limits the amount of data we can store in a given physical storage, but it also misses the opportunity for dramatic performance improvement in various applications. On the contrary, human memory is characterized by seemingly infinite plasticity in storing and retrieving data - as well as dynamically creating/updating the associations between data and corresponding cues. In this paper, we introduce Neural Storage (NS), a brain-inspired learning memory paradigm that organizes the memory as a flexible neural memory network. In NS, the network structure, strength of associations, and granularity of the data adjust continuously during system operation, providing unprecedented plasticity and performance benefits. We present the associated storage/retrieval/retention algorithms in NS, which integrate a formalized learning process. Using a full-blown operational model, we demonstrate that NS achieves an order of magnitude improvement in memory access performance for two representative applications when compared to traditional content-based memory.
翻訳日:2021-04-10 13:40:43 公開日:2021-01-07
# read, retrospect, select: 短いテキストエンティティリンクのためのmrcフレームワーク

Read, Retrospect, Select: An MRC Framework to Short Text Entity Linking ( http://arxiv.org/abs/2101.02394v1 )

ライセンス: Link先を確認
Yingjie Gu, Xiaoye Qu, Zhefeng Wang, Baoxing Huai, Nicholas Jing Yuan and Xiaolin Gui(参考訳) 急速に成長する短いテキスト(例)に対するエンティティリンク(EL) 検索クエリとニュースタイトル)は産業アプリケーションにとって重要である。 長いテキスト EL の適切なコンテキストに依存する既存のアプローチは、簡潔でスパースな短文には有効ではない。 本稿では,その周辺環境を利用した曖昧な言及ごとにクエリを生成し,そのクエリを用いた候補から黄金の実体を識別するためにオプション選択モジュールを用いるという,短いテキストELを新しい視点から解くための,Multi-turn Multi-choice Machine read comprehension (M3}) という新しいフレームワークを提案する。 このようにして、M3フレームワークは符号化プロセス中に限定されたコンテキストと十分に相互作用し、選択段階における候補群内の相違を暗黙的に考慮する。 さらに,M3に組み込まれた2段階検証器を設計し,短文の非リンク性問題に対処する。 参照エンティティ間のトピックの一貫性と相互依存性をさらに考慮するために、M3は、複数ターンのスタイルを活用して、歴史的手がかりを振り返って参照をシーケンス的に扱う。 評価の結果、m3フレームワークは、現実世界の短文elの5つの中国語と英語のデータセットで最先端のパフォーマンスを実現しています。

Entity linking (EL) for the rapidly growing short text (e.g. search queries and news titles) is critical to industrial applications. Most existing approaches relying on adequate context for long text EL are not effective for the concise and sparse short text. In this paper, we propose a novel framework called Multi-turn Multiple-choice Machine reading comprehension (M3}) to solve the short text EL from a new perspective: a query is generated for each ambiguous mention exploiting its surrounding context, and an option selection module is employed to identify the golden entity from candidates using the query. In this way, M3 framework sufficiently interacts limited context with candidate entities during the encoding process, as well as implicitly considers the dissimilarities inside the candidate bunch in the selection stage. In addition, we design a two-stage verifier incorporated into M3 to address the commonly existed unlinkable problem in short text. To further consider the topical coherence and interdependence among referred entities, M3 leverages a multi-turn fashion to deal with mentions in a sequence manner by retrospecting historical cues. Evaluation shows that our M3 framework achieves the state-of-the-art performance on five Chinese and English datasets for the real-world short text EL.
翻訳日:2021-04-10 13:40:24 公開日:2021-01-07
# モバイル端末における多言語テキストの言語検出エンジン

Language Detection Engine for Multilingual Texting on Mobile Devices ( http://arxiv.org/abs/2101.03963v1 )

ライセンス: Link先を確認
Sourabh Vasant Gothe, Sourav Ghosh, Sharmila Mani, Guggilla Bhanodai, Ankur Agarwal, Chandramouli Sanchi(参考訳) 全世界で20億人以上のモバイルユーザーがソフトキーボードで複数の言語を入力している。 単言語キーボードでは、誤訂正された単語の38%が別の言語で有効である。 これは、型付き語の言語を検出して、それぞれの言語で検証することで容易に回避できる。 言語検出は自然言語処理においてよく知られた問題である。 本稿では,ユーザの意図する言語に動的に適応する多言語型付けのための高速・軽量・高精度言語検出エンジン(lde)を提案する。 本稿では,文字n-gramモデルとロジスティック回帰に基づくセレクタモデルを融合して言語を識別する新しい手法を提案する。 また,パラメータ削減手法により推定時間を大幅に短縮する独自の手法を提案する。 また,同一文字パターンの言語間の入力テキストのあいまいさを解決するため,ldeをまたいだ様々な最適化について検討する。 本手法は,ラテン文字のインド語では平均94.5%,コード変更データでは欧州語では98%の精度を示す。 このモデルはfasttextを60.39%、ml-kitを23.67%上回っている。 LDEは平均推定時間は25.91マイクロ秒のモバイルデバイスでは高速である。

More than 2 billion mobile users worldwide type in multiple languages in the soft keyboard. On a monolingual keyboard, 38% of falsely auto-corrected words are valid in another language. This can be easily avoided by detecting the language of typed words and then validating it in its respective language. Language detection is a well-known problem in natural language processing. In this paper, we present a fast, light-weight and accurate Language Detection Engine (LDE) for multilingual typing that dynamically adapts to user intended language in real-time. We propose a novel approach where the fusion of character N-gram model and logistic regression based selector model is used to identify the language. Additionally, we present a unique method of reducing the inference time significantly by parameter reduction technique. We also discuss various optimizations fabricated across LDE to resolve ambiguity in input text among the languages with the same character pattern. Our method demonstrates an average accuracy of 94.5% for Indian languages in Latin script and that of 98% for European languages on the code-switched data. This model outperforms fastText by 60.39% and ML-Kit by 23.67% in F1 score for European languages. LDE is faster on mobile device with an average inference time of 25.91 microseconds.
翻訳日:2021-04-10 13:40:05 公開日:2021-01-07
# モバイルデバイスのリアルタイム最適化N-gram

Real-Time Optimized N-gram For Mobile Devices ( http://arxiv.org/abs/2101.03967v1 )

ライセンス: Link先を確認
Sharmila Mani, Sourabh Vasant Gothe, Sourav Ghosh, Ajay Kumar Mishra, Prakhar Kulshreshtha, Bhargavi M, Muthu Kumaran(参考訳) モバイルデバイスの増加に伴い、ソフトキーボードに最適化された言語モデル(lms)を生成する研究が続いている。 この領域の進歩にもかかわらず、ローエンドのフィーチャーフォンとハイエンドのスマートフォン用に単一のLMを構築することは、いまだに厳しいニーズである。 そこで我々は,モバイルリソースを効率的に活用し,より高速なWord Completion (WC) とNext Word Prediction (NWP) を実現するための,新しい手法であるOptimized N-gram (Op-Ngram) を提案する。 Op-Ngramは、軽量モデルを生成するためにStupid Backoffとpruning戦略を適用します。 モバイルでのLMロード時間はモデルサイズに対して線形である。 その結果,Op-NgramはLanguage Model (LM)-ROMサイズが37%向上し,LM-RAMサイズが76%,ロード時間が88%,提案時間が89%向上した。 さらに,本手法は,KenLMよりも優れた性能を示す。

With the increasing number of mobile devices, there has been continuous research on generating optimized Language Models (LMs) for soft keyboard. In spite of advances in this domain, building a single LM for low-end feature phones as well as high-end smartphones is still a pressing need. Hence, we propose a novel technique, Optimized N-gram (Op-Ngram), an end-to-end N-gram pipeline that utilises mobile resources efficiently for faster Word Completion (WC) and Next Word Prediction (NWP). Op-Ngram applies Stupid Backoff and pruning strategies to generate a light-weight model. The LM loading time on mobile is linear with respect to model size. We observed that Op-Ngram gives 37% improvement in Language Model (LM)-ROM size, 76% in LM-RAM size, 88% in loading time and 89% in average suggestion time as compared to SORTED array variant of BerkeleyLM. Moreover, our method shows significant performance improvement over KenLM as well.
翻訳日:2021-04-10 13:39:48 公開日:2021-01-07
# リアルタイムリアクティブパワーマーケットにおけるニューラルネットワークQイテレーションに基づく最適バイディング戦略_1

Neural Fitted Q Iteration based Optimal Bidding Strategy in Real Time Reactive Power Market_1 ( http://arxiv.org/abs/2101.02456v1 )

ライセンス: Link先を確認
Jahnvi Patel, Devika Jay, Balaraman Ravindran, K.Shanti Swarup(参考訳) リアルタイム電気市場においては、入札中の世代企業の目標は利益を最大化することである。 最適入札を学習するための戦略は、ゲーム理論的アプローチと確率的最適化問題によって定式化されている。 リアクティブ電力市場における同様の研究は、ネットワーク電圧の運用条件がアクティブ電力市場よりもリアクティブ電力市場に与える影響が高いため、まだ報告されていない。 アクティブ電力市場とは対照的に、競争相手の入札は反応電力市場の燃料コストに直接関係しない。 したがって、適切な確率分布関数の仮定は非現実的であり、アクティブパワーマーケットで採用される戦略は、リアクティブパワーマーケットメカニズムにおける最適な入札の学習に適さない。 したがって、不完全なオリゴポラティクス市場における市場の観察と経験から入札戦略を学ぶ必要がある。 本稿では,3段階のリアクティブ電力市場における観測と経験から最適な入札戦略を学習するための先駆的な研究を報告する。

In real time electricity markets, the objective of generation companies while bidding is to maximize their profit. The strategies for learning optimal bidding have been formulated through game theoretical approaches and stochastic optimization problems. Similar studies in reactive power markets have not been reported so far because the network voltage operating conditions have an increased impact on reactive power markets than on active power markets. Contrary to active power markets, the bids of rivals are not directly related to fuel costs in reactive power markets. Hence, the assumption of a suitable probability distribution function is unrealistic, making the strategies adopted in active power markets unsuitable for learning optimal bids in reactive power market mechanisms. Therefore, a bidding strategy is to be learnt from market observations and experience in imperfect oligopolistic competition-based markets. In this paper, a pioneer work on learning optimal bidding strategies from observation and experience in a three-stage reactive power market is reported.
翻訳日:2021-04-10 13:39:31 公開日:2021-01-07
# 画像指向検索エンジンのクリックモデルに視覚バイアスを組み込む

Incorporating Vision Bias into Click Models for Image-oriented Search Engine ( http://arxiv.org/abs/2101.02459v1 )

ライセンス: Link先を確認
Ningxin Xu, Cheng Yang, Yixin Zhu, Xiaowei Hu, Changhu Wang(参考訳) 典型的なクリックモデルは、ユーザーが文書を調べる確率はpbmやubmのような位置のみに依存すると仮定している。 さまざまな検索エンジンでうまく機能する。 しかし、大量の候補文書がクエリに対する応答として画像を表示する検索エンジンでは、検査確率は位置に依存するものではない。 画像指向文書の視覚的外観もまた、その検討の機会において重要な役割を果たす。 本稿では,画像指向型検索エンジンに視覚バイアスが存在することを,位置以外の検査確率に影響を与える重要な要因と仮定する。 具体的には、この仮定を古典的なクリックモデルに適用し、文書の検査可能性をよりよく把握する拡張モデルを提案する。 候補文書から抽出した視覚特徴から視覚バイアスを予測するために回帰型emアルゴリズムを用いた。 本研究では,実世界のオンライン画像指向検索エンジンから開発したデータセット上でのモデル評価を行い,提案モデルがデータ適合性とスパース性処理におけるベースラインモデルよりも大幅に改善できることを実証する。

Most typical click models assume that the probability of a document to be examined by users only depends on position, such as PBM and UBM. It works well in various kinds of search engines. However, in a search engine where massive candidate documents display images as responses to the query, the examination probability should not only depend on position. The visual appearance of an image-oriented document also plays an important role in its opportunity to be examined. In this paper, we assume that vision bias exists in an image-oriented search engine as another crucial factor affecting the examination probability aside from position. Specifically, we apply this assumption to classical click models and propose an extended model, to better capture the examination probabilities of documents. We use regression-based EM algorithm to predict the vision bias given the visual features extracted from candidate documents. Empirically, we evaluate our model on a dataset developed from a real-world online image-oriented search engine, and demonstrate that our proposed model can achieve significant improvements over its baseline model in data fitness and sparsity handling.
翻訳日:2021-04-10 13:39:15 公開日:2021-01-07
# モバイルユーザプロファイリングのための強化された模倣グラフ表現学習--敵対的学習の視点から

Reinforced Imitative Graph Representation Learning for Mobile User Profiling: An Adversarial Training Perspective ( http://arxiv.org/abs/2101.02634v1 )

ライセンス: Link先を確認
Dongjie Wang, Pengyang Wang, Kunpeng Liu, Yuanchun Zhou, Charles Hughes, Yanjie Fu(参考訳) 本稿では,人間の移動性モデリングパイプラインにおけるユーザの特性を定量化するための重要な要素である,モバイルユーザプロファイリングの問題点について考察する。 ヒューマンモビリティ(human mobility)は、ユーザの動的関心に依存する、逐次的な意思決定プロセスである。 正確なユーザープロファイルにより、予測モデルはユーザーの移動軌跡を完璧に再現することができる。 逆方向では、予測モデルがユーザのモビリティパターンを模倣できると、学習したユーザプロファイルも最適になる。 このような直感は、エージェントが最適なユーザプロファイルのためにユーザのモビリティパターンを正確に模倣するように訓練された強化学習を活用することで、模倣に基づくモバイルユーザプロファイルフレームワークを提案する動機となっている。 具体的には,(1)ユーザプロファイルと時空間をリアルタイムに組み合わせた状態を生成する表現モジュール,(2)Deep Q-network(DQN)が表現モジュールによって生成される状態に基づいてユーザ動作(アクション)を模倣する模倣モジュール,の2つのモジュールを含む。 しかし、効果的にフレームワークを実行するには2つの課題がある。 第一に、DQNにおけるエプシロン・グリード戦略は、エプシロン確率をランダムに選択することで探索・探索トレードオフを利用する。 このようなランダム性は表現モジュールにフィードバックし、学習したユーザプロファイルが不安定になる。 そこで本研究では,表現モジュールの堅牢性を保証するための対角的トレーニング戦略を提案する。 第2に、representationモジュールはユーザのプロファイルをインクリメンタルに更新し、ユーザプロファイルの時間的効果を統合する必要がある。 LSTM(Long-Short Term Memory)にヒントを得て,新しいユーザ特性と古いユーザ特性をユーザプロファイルに組み込むゲート機構を導入する。

In this paper, we study the problem of mobile user profiling, which is a critical component for quantifying users' characteristics in the human mobility modeling pipeline. Human mobility is a sequential decision-making process dependent on the users' dynamic interests. With accurate user profiles, the predictive model can perfectly reproduce users' mobility trajectories. In the reverse direction, once the predictive model can imitate users' mobility patterns, the learned user profiles are also optimal. Such intuition motivates us to propose an imitation-based mobile user profiling framework by exploiting reinforcement learning, in which the agent is trained to precisely imitate users' mobility patterns for optimal user profiles. Specifically, the proposed framework includes two modules: (1) representation module, which produces state combining user profiles and spatio-temporal context in real-time; (2) imitation module, where Deep Q-network (DQN) imitates the user behavior (action) based on the state that is produced by the representation module. However, there are two challenges in running the framework effectively. First, epsilon-greedy strategy in DQN makes use of the exploration-exploitation trade-off by randomly pick actions with the epsilon probability. Such randomness feeds back to the representation module, causing the learned user profiles unstable. To solve the problem, we propose an adversarial training strategy to guarantee the robustness of the representation module. Second, the representation module updates users' profiles in an incremental manner, requiring integrating the temporal effects of user profiles. Inspired by Long-short Term Memory (LSTM), we introduce a gated mechanism to incorporate new and old user characteristics into the user profile.
翻訳日:2021-04-10 13:39:01 公開日:2021-01-07
# トレーニングプール内の不確かさの低減--医学画像分割のためのアクティブラーニング

Diminishing Uncertainty within the Training Pool: Active Learning for Medical Image Segmentation ( http://arxiv.org/abs/2101.02323v1 )

ライセンス: Link先を確認
Vishwesh Nath, Dong Yang, Bennett A. Landman, Daguang Xu, Holger R. Roth(参考訳) アクティブな学習は、受動的機械学習とは異なり、モデル/アルゴリズムがモデルに有益な一連のデータポイントのアノテーションをユーザに案内する、機械学習テクニックのユニークな抽象化である。 第一の利点は、アクティブな学習フレームワークがモデルの学習プロセスを加速できるデータポイントを選択し、ランダムに取得されたデータセットでトレーニングされたモデルと比較して、完全な精度を達成するために必要なデータ量を削減できる点である。 アクティブラーニングとディープラーニングを組み合わせた複数のフレームワークが提案されており、その大半は分類タスクに特化している。 本稿では,医療画像データセットのセグメンテーション作業におけるアクティブラーニングについて検討する。 提案するフレームワークを2つのデータセットを用いて検討する。 MRIによる海馬の観察(第2報) 膵・腫瘍のCT検査。 本研究は,共同オプティマイザを委員会に使用するアクティブラーニングのためのクエリ・バイ・コミッテ・アプローチを提案する。 同時に,アクティブラーニングのための3つの新しい戦略を提案する。 不確実データの頻度を増加させてトレーニングデータセットを偏らせること。 学習データセットの多様性を確保するために,入力画像間の相互情報をレギュレータとして利用すること。 Dice log-likelihood のStin variational gradient descent (SVGD) への適応 その結果、データセット毎に利用可能なデータの22.69 %と48.85 %をそれぞれ使用しながら、完全な精度を達成することで、データ削減の観点での改善が示された。

Active learning is a unique abstraction of machine learning techniques where the model/algorithm could guide users for annotation of a set of data points that would be beneficial to the model, unlike passive machine learning. The primary advantage being that active learning frameworks select data points that can accelerate the learning process of a model and can reduce the amount of data needed to achieve full accuracy as compared to a model trained on a randomly acquired data set. Multiple frameworks for active learning combined with deep learning have been proposed, and the majority of them are dedicated to classification tasks. Herein, we explore active learning for the task of segmentation of medical imaging data sets. We investigate our proposed framework using two datasets: 1.) MRI scans of the hippocampus, 2.) CT scans of pancreas and tumors. This work presents a query-by-committee approach for active learning where a joint optimizer is used for the committee. At the same time, we propose three new strategies for active learning: 1.) increasing frequency of uncertain data to bias the training data set; 2.) Using mutual information among the input images as a regularizer for acquisition to ensure diversity in the training dataset; 3.) adaptation of Dice log-likelihood for Stein variational gradient descent (SVGD). The results indicate an improvement in terms of data reduction by achieving full accuracy while only using 22.69 % and 48.85 % of the available data for each dataset, respectively.
翻訳日:2021-04-10 13:38:24 公開日:2021-01-07
# 大規模位置認識のための効率的な3Dポイントクラウド特徴学習

Efficient 3D Point Cloud Feature Learning for Large-Scale Place Recognition ( http://arxiv.org/abs/2101.02374v1 )

ライセンス: Link先を確認
Le Hui, Mingmei Cheng, Jin Xie, Jian Yang(参考訳) 場所認識のためのポイントクラウドベースの検索は、環境変化におけるシーンの劇的な外観や照明の変化により、依然として困難な問題である。 検索タスクのための既存のディープラーニングベースのグローバル記述子は通常、限られたハードウェアリソースの場合に適さない大量の計算リソース(メモリなど)を消費する。 本稿では,効率的なポイントクラウド学習ネットワーク(EPC-Net)を開発し,視覚的位置認識のためのグローバルディスクリプタを構築する。 まず,ポイントクラウドの局所的な幾何学的特徴を集約する,軽量かつ効果的なニューラルネットワークモジュールであるproxyconvを提案する。 空間隣接行列とプロキシポイントを利用して、メモリ消費の低減のために元のエッジ畳み込みを単純化する。 そこで我々は,検索用グローバルディスクリプタを構築するために,軽量グループVLADネットワーク(G-VLAD)を設計する。 従来のVLADネットワークと比較して,高次元ベクトルを低次元ベクトル群に分解するグループ完全連結(GFC)層を提案し,ネットワークのパラメータ数を削減し,特徴ベクトルの識別を維持する。 最後に,2つのProxyConvモジュールと1つの最大プール層から構成され,グローバルな記述子を集約するEPC-Net-Lというシンプルなバージョンを開発する。 EPC-Netから知識を蒸留することにより、EPC-Net-Lは検索のための識別的グローバル記述子を得ることができる。 オックスフォードデータセットと3つの社内データセットの大規模な実験により、提案手法は、より低いパラメータ、FLOP、実行時間で最先端のパフォーマンスを実現することができることを示した。

Point cloud based retrieval for place recognition is still a challenging problem due to drastic appearance and illumination changes of scenes in changing environments. Existing deep learning based global descriptors for the retrieval task usually consume a large amount of computation resources (e.g., memory), which may not be suitable for the cases of limited hardware resources. In this paper, we develop an efficient point cloud learning network (EPC-Net) to form a global descriptor for visual place recognition, which can obtain good performance and reduce computation memory and inference time. First, we propose a lightweight but effective neural network module, called ProxyConv, to aggregate the local geometric features of point clouds. We leverage the spatial adjacent matrix and proxy points to simplify the original edge convolution for lower memory consumption. Then, we design a lightweight grouped VLAD network (G-VLAD) to form global descriptors for retrieval. Compared with the original VLAD network, we propose a grouped fully connected (GFC) layer to decompose the high-dimensional vectors into a group of low-dimensional vectors, which can reduce the number of parameters of the network and maintain the discrimination of the feature vector. Finally, to further reduce the inference time, we develop a simple version of EPC-Net, called EPC-Net-L, which consists of two ProxyConv modules and one max pooling layer to aggregate global descriptors. By distilling the knowledge from EPC-Net, EPC-Net-L can obtain discriminative global descriptors for retrieval. Extensive experiments on the Oxford dataset and three in-house datasets demonstrate that our proposed method can achieve state-of-the-art performance with lower parameters, FLOPs, and runtime per frame.
翻訳日:2021-04-10 13:38:03 公開日:2021-01-07
# 点雲のセマンティクスセグメンテーションのための境界認識幾何符号化

Boundary-Aware Geometric Encoding for Semantic Segmentation of Point Clouds ( http://arxiv.org/abs/2101.02381v1 )

ライセンス: Link先を確認
Jingyu Gong, Jiachen Xu, Xin Tan, Jie Zhou, Yanyun Qu, Yuan Xie, Lizhuang Ma(参考訳) 境界情報は2d画像のセグメンテーションにおいて重要な役割を果たすが、通常は3dポイントのクラウドセグメンテーションでは無視される。 本稿では,まず境界点予測のための境界予測モジュール(BPM)を提案する。 予測境界に基づいて、境界対応幾何符号化モジュール (GEM) は、幾何学的情報を符号化し、周辺地域の識別に伴う特徴を集約することにより、異なるカテゴリに属する局所的特徴が互いに汚染されないよう設計されている。 また,境界認識ジェムのための余分な幾何学情報を提供するため,抽出された特徴をより識別する軽量幾何畳み込み演算(gco)を提案する。 境界対応のGEMに基づいて構築され、ネットワークを構築し、ScanNet v2、S3DISなどのベンチマークでテストします。 その結果,本手法はベースラインを著しく改善し,最先端の性能を実現することができることがわかった。 コードはhttps://github.com/JchenXu/BoundaryAwareGEMで入手できる。

Boundary information plays a significant role in 2D image segmentation, while usually being ignored in 3D point cloud segmentation where ambiguous features might be generated in feature extraction, leading to misclassification in the transition area between two objects. In this paper, firstly, we propose a Boundary Prediction Module (BPM) to predict boundary points. Based on the predicted boundary, a boundary-aware Geometric Encoding Module (GEM) is designed to encode geometric information and aggregate features with discrimination in a neighborhood, so that the local features belonging to different categories will not be polluted by each other. To provide extra geometric information for boundary-aware GEM, we also propose a light-weight Geometric Convolution Operation (GCO), making the extracted features more distinguishing. Built upon the boundary-aware GEM, we build our network and test it on benchmarks like ScanNet v2, S3DIS. Results show our methods can significantly improve the baseline and achieve state-of-the-art performance. Code is available at https://github.com/JchenXu/BoundaryAwareGEM.
翻訳日:2021-04-10 13:37:19 公開日:2021-01-07
# pandanet : アンカーベース単発多人数3次元ポーズ推定

PandaNet : Anchor-Based Single-Shot Multi-Person 3D Pose Estimation ( http://arxiv.org/abs/2101.02471v1 )

ライセンス: Link先を確認
Abdallah Benzine, Florian Chabot, Bertrand Luvison, Quoc Cong Pham, Cahterine Achrd(参考訳) 近年,3次元ポーズ推定のための深層学習モデルが提案されている。 それにもかかわらず、これらのアプローチのほとんどは、高解像度の少数の人の一人のケースや見積の3Dポーズにのみ焦点を当てています。 さらに、自律運転や群集分析のような多くのアプリケーションは、おそらく低解像度で多数の人のポーズ推定を必要とする。 本研究では,提案手法であるpandanet(pose estimation and dectection anchor-based network)を提案する。 提案モデルは境界ボックス検出を行い,検出者毎に2次元および3次元ポーズ回帰を1回のフォワードパスに設定する。 ネットワークが各バウンディングボックスの完全な3Dポーズを予測し、低解像度で潜在的に多くの人のポーズ推定を可能にするため、関節を再グループ化するための後処理は不要である。 重なり合う人を管理するために,ポーズ認識アンカー選択戦略を導入する。 また,画像中の人物サイズ間の不均衡や,その大きさに応じて関節座標が不確実性が異なるため,効率的な訓練のために,人物スケールや関節に関連する重みを自動的に最適化する手法を提案する。 マルチパーソン・アーバン・バーチャルだが非常に現実的なデータセット(jtaデータセット)と2つの現実世界の3dマルチパーソンデータセット(cmu panopticとmupots-3d)である。

Recently, several deep learning models have been proposed for 3D human pose estimation. Nevertheless, most of these approaches only focus on the single-person case or estimate 3D pose of a few people at high resolution. Furthermore, many applications such as autonomous driving or crowd analysis require pose estimation of a large number of people possibly at low-resolution. In this work, we present PandaNet (Pose estimAtioN and Dectection Anchor-based Network), a new single-shot, anchor-based and multi-person 3D pose estimation approach. The proposed model performs bounding box detection and, for each detected person, 2D and 3D pose regression into a single forward pass. It does not need any post-processing to regroup joints since the network predicts a full 3D pose for each bounding box and allows the pose estimation of a possibly large number of people at low resolution. To manage people overlapping, we introduce a Pose-Aware Anchor Selection strategy. Moreover, as imbalance exists between different people sizes in the image, and joints coordinates have different uncertainties depending on these sizes, we propose a method to automatically optimize weights associated to different people scales and joints for efficient training. PandaNet surpasses previous single-shot methods on several challenging datasets: a multi-person urban virtual but very realistic dataset (JTA Dataset), and two real world 3D multi-person datasets (CMU Panoptic and MuPoTS-3D).
翻訳日:2021-04-10 13:36:46 公開日:2021-01-07
# GAN-Control: 明示的な制御可能なGAN

GAN-Control: Explicitly Controllable GANs ( http://arxiv.org/abs/2101.02477v1 )

ライセンス: Link先を確認
Alon Shoshan, Nadav Bhonker, Igor Kviatkovsky, Gerard Medioni(参考訳) 本稿では,生成画像の明示的な制御によるgan学習の枠組みを提案する。 生成した画像は、年齢、ポーズ、表情などの正確な属性を設定することで制御できます。 GAN生成画像を編集するためのほとんどのアプローチは、標準GAN訓練後に暗黙的に得られた潜伏空間のゆがみ特性を利用して部分的な制御を実現する。 そのようなメソッドは特定の属性の相対的な強度を変更できるが、明示的に値を設定することはできない。 近年,人間の顔の鮮明な制御を目的とした3次元顔モデルが提案され,GANのきめ細かい制御が可能となった。 これらの方法とは異なり、我々の制御は変形可能な3次元顔モデルパラメータに制約されず、人間の顔の領域を超えて拡張可能である。 対照的な学習を用いて, 明らかに不連続な潜在空間を持つganを得る。 この歪みを利用して、人間の解釈可能な入力を適切な潜在ベクトルにマッピングする制御エンコーダを訓練し、明示的な制御を可能にする。 人間の顔の領域では、アイデンティティ、年齢、ポーズ、表情、髪の色、照明の制御が示されます。 また,絵画や犬の画像生成の領域において,我々のフレームワークの制御能力を示す。 提案手法は,定性的かつ定量的に,最先端の性能を実現する。

We present a framework for training GANs with explicit control over generated images. We are able to control the generated image by settings exact attributes such as age, pose, expression, etc. Most approaches for editing GAN-generated images achieve partial control by leveraging the latent space disentanglement properties, obtained implicitly after standard GAN training. Such methods are able to change the relative intensity of certain attributes, but not explicitly set their values. Recently proposed methods, designed for explicit control over human faces, harness morphable 3D face models to allow fine-grained control capabilities in GANs. Unlike these methods, our control is not constrained to morphable 3D face model parameters and is extendable beyond the domain of human faces. Using contrastive learning, we obtain GANs with an explicitly disentangled latent space. This disentanglement is utilized to train control-encoders mapping human-interpretable inputs to suitable latent vectors, thus allowing explicit control. In the domain of human faces we demonstrate control over identity, age, pose, expression, hair color and illumination. We also demonstrate control capabilities of our framework in the domains of painted portraits and dog image generation. We demonstrate that our approach achieves state-of-the-art performance both qualitatively and quantitatively.
翻訳日:2021-04-10 13:36:21 公開日:2021-01-07
# リカレントニューラルネットワークに基づく容器軌道予測のための深層学習手法

Deep Learning Methods for Vessel Trajectory Prediction based on Recurrent Neural Networks ( http://arxiv.org/abs/2101.02486v1 )

ライセンス: Link先を確認
Samuele Capobianco, Leonardo M. Millefiori, Nicola Forti, Paolo Braca, and Peter Willett(参考訳) データ駆動方式は、自動識別システム(ais)データを用いた海上監視の先例のない可能性を開く。 本研究では, 過去のAIS観測による深層学習戦略を探求し, 将来的な船舶軌道予測の課題を数時間の予測地平線で解決する。 本稿では,過去の軌道データに基づいて訓練されたエンコーダ・デコーダ・リカレントニューラルネットワーク(rnn)に基づく,新たなシーケンス・トゥ・シークエンス・コンテナ軌道予測モデルを提案する。 提案アーキテクチャは,シーケンスモデリングのためのLong Short-Term Memory (LSTM) RNNを組み合わせて観測データをエンコードし,異なる中間アグリゲーション層で将来の予測を生成し,シーケンシャルデータの時空間依存性をキャプチャする。 デンマーク海事当局が自由に利用可能なaisデータセットからの船舶軌道実験の結果、シーケンス間ニューラルネットワークに基づく軌道予測におけるディープラーニング手法の有効性が示され、線形回帰やフィードフォワードネットワークに基づくベースラインアプローチよりも優れた性能が得られる。 評価の結果は, 静的プールよりも注意プーリングの方が優れていること, ラベル付きトラジェクトリで得られる顕著な性能向上, すなわち, などを示す。 過去の観測のシーケンスから符号化された低レベルの文脈表現や、AISから利用できるかもしれない船の高レベルの意図に関する追加の入力(例えば出発または到着のポート)に予測が条件付けられるとき。

Data-driven methods open up unprecedented possibilities for maritime surveillance using Automatic Identification System (AIS) data. In this work, we explore deep learning strategies using historical AIS observations to address the problem of predicting future vessel trajectories with a prediction horizon of several hours. We propose novel sequence-to-sequence vessel trajectory prediction models based on encoder-decoder recurrent neural networks (RNNs) that are trained on historical trajectory data to predict future trajectory samples given previous observations. The proposed architecture combines Long Short-Term Memory (LSTM) RNNs for sequence modeling to encode the observed data and generate future predictions with different intermediate aggregation layers to capture space-time dependencies in sequential data. Experimental results on vessel trajectories from an AIS dataset made freely available by the Danish Maritime Authority show the effectiveness of deep-learning methods for trajectory prediction based on sequence-to-sequence neural networks, which achieve better performance than baseline approaches based on linear regression or feed-forward networks. The comparative evaluation of results shows: i) the superiority of attention pooling over static pooling for the specific application, and ii) the remarkable performance improvement that can be obtained with labeled trajectories, i.e. when predictions are conditioned on a low-level context representation encoded from the sequence of past observations, as well as on additional inputs (e.g., the port of departure or arrival) about the vessel's high-level intention which may be available from AIS.
翻訳日:2021-04-10 13:36:03 公開日:2021-01-07
# 大規模・時間同期可視・熱顔データセット

A Large-Scale, Time-Synchronized Visible and Thermal Face Dataset ( http://arxiv.org/abs/2101.02637v1 )

ライセンス: Link先を確認
Domenick Poster, Matthew Thielke, Robert Nguyen, Srinivasan Rajaraman, Xing Di, Cedric Nimpa Fondje, Vishal M. Patel, Nathaniel J. Short, Benjamin S. Riggan, Nasser M. Nasrabadi, Shuowen Hu(参考訳) 顔から自然に放出される熱を撮像するサーマルフェイス画像は、可視光スペクトルの顔画像と比較して可用性に制限がある。 研究とアルゴリズム開発のための熱顔画像の不足に対処するために,我々はdevcom army research laboratory visible-thermal face dataset (arl-vtf) を提案する。 ARL-VTFデータセットは、395人の被験者の50万枚以上の画像で、私たちの知る限り、これまでで最大の可視画像とサーマルフェイス画像のコレクションである。 データは3つの可視光カメラのステレオ装置と並んで、現代の長波赤外線カメラ(LWIR)で捉えられた。 表情、ポーズ、眼鏡の変動は体系的に記録されている。 データセットは、評価のための広範なアノテーション、メタデータ、標準化されたプロトコルでキュレートされている。 さらに,ARL-VTFデータセット上での最先端モデルの評価により,サーマルフェイスのランドマーク検出とサーマル・ツー・ヴィジュアブル・フェース・検証に関する広範なベンチマーク結果と分析を行った。

Thermal face imagery, which captures the naturally emitted heat from the face, is limited in availability compared to face imagery in the visible spectrum. To help address this scarcity of thermal face imagery for research and algorithm development, we present the DEVCOM Army Research Laboratory Visible-Thermal Face Dataset (ARL-VTF). With over 500,000 images from 395 subjects, the ARL-VTF dataset represents, to the best of our knowledge, the largest collection of paired visible and thermal face images to date. The data was captured using a modern long wave infrared (LWIR) camera mounted alongside a stereo setup of three visible spectrum cameras. Variability in expressions, pose, and eyewear has been systematically recorded. The dataset has been curated with extensive annotations, metadata, and standardized protocols for evaluation. Furthermore, this paper presents extensive benchmark results and analysis on thermal face landmark detection and thermal-to-visible face verification by evaluating state-of-the-art models on the ARL-VTF dataset.
翻訳日:2021-04-10 13:35:34 公開日:2021-01-07
# より信頼性の高いAIソリューション:マルチAI組み合わせを用いた乳房超音波診断

More Reliable AI Solution: Breast Ultrasound Diagnosis Using Multi-AI Combination ( http://arxiv.org/abs/2101.02639v1 )

ライセンス: Link先を確認
Jian Dai, Shuge Lei, Licong Dong, Xiaona Lin, Huabin Zhang, Desheng Sun, Kehong Yuan(参考訳) 目的: 乳癌検診は現代女性の健康予防において非常に重要である。 AIシステムに埋め込まれた既存のマシンは、臨床医が期待する精度に達しない。 インテリジェントなシステムをより信頼性を高めるには、一般的な問題です。 方法:1)超音波画像超解像:SRGAN超解像ネットワークは,装置自体による超音波画像の不明瞭さを低減し,検出モデルの精度と一般化を改善する。 2) 医用画像の必要性に応じて, YOLOv4とCenterNetモデルの改良を行った。 3) マルチAIモデル: 異なるAIモデルのそれぞれの利点に基づき, 2つのAIモデルを用いて臨床結果の相互検証を行う。 同じ結果を受け入れ 他人を拒絶します 結果: 1)超解像モデルの助けを借りて,yolov4モデルとcenternetモデルはともにマップスコアを9.6%,13.8%向上させた。 2) 対象モデルを分類モデルに変換する2つの方法を提案する。 そして、統一出力はmolti-aiモデルの呼び出しを容易にするために指定されたフォーマットである。 3) YOLOv4モデル(感度57.73%,特異度90.08%)とCentralNetモデル(感度62.64%,特異度92.54%)を併用した分類評価実験では,マルチAIモデルは入力データの23.55%の判定を拒否する。 それに伴い、感度は95.91%、特異性は96.02%に大幅に向上した。 結論:我々の研究は、医療画像診断においてAIモデルを信頼性を高める。 意義: 1) 乳房超音波画像の診断にターゲット検出モデルがより適していることを示す。 2) 医学診断における人工知能の新しい考え方として, 他分野からの標的検出モデルを導入し, 医学的病変のスクリーニングを行う。

Objective: Breast cancer screening is of great significance in contemporary women's health prevention. The existing machines embedded in the AI system do not reach the accuracy that clinicians hope. How to make intelligent systems more reliable is a common problem. Methods: 1) Ultrasound image super-resolution: the SRGAN super-resolution network reduces the unclearness of ultrasound images caused by the device itself and improves the accuracy and generalization of the detection model. 2) In response to the needs of medical images, we have improved the YOLOv4 and the CenterNet models. 3) Multi-AI model: based on the respective advantages of different AI models, we employ two AI models to determine clinical resuls cross validation. And we accept the same results and refuses others. Results: 1) With the help of the super-resolution model, the YOLOv4 model and the CenterNet model both increased the mAP score by 9.6% and 13.8%. 2) Two methods for transforming the target model into a classification model are proposed. And the unified output is in a specified format to facilitate the call of the molti-AI model. 3) In the classification evaluation experiment, concatenated by the YOLOv4 model (sensitivity 57.73%, specificity 90.08%) and the CenterNet model (sensitivity 62.64%, specificity 92.54%), the multi-AI model will refuse to make judgments on 23.55% of the input data. Correspondingly, the performance has been greatly improved to 95.91% for the sensitivity and 96.02% for the specificity. Conclusion: Our work makes the AI model more reliable in medical image diagnosis. Significance: 1) The proposed method makes the target detection model more suitable for diagnosing breast ultrasound images. 2) It provides a new idea for artificial intelligence in medical diagnosis, which can more conveniently introduce target detection models from other fields to serve medical lesion screening.
翻訳日:2021-04-10 13:35:18 公開日:2021-01-07
# 任意のポイントクラウド上の3d機能の自己教師付き事前学習

Self-Supervised Pretraining of 3D Features on any Point-Cloud ( http://arxiv.org/abs/2101.02691v1 )

ライセンス: Link先を確認
Zaiwei Zhang, Rohit Girdhar, Armand Joulin, Ishan Misra(参考訳) 大規模ラベル付きデータセットの事前トレーニングは、2dオブジェクト認識やビデオ分類など、多くのコンピュータビジョンタスクで優れたパフォーマンスを達成するための前提条件である。 しかし、最先端の手法がスクラッチからモデルを訓練する3D認識タスクには、事前学習は広く使われていない。 主な理由は、3Dデータは取得が難しく、ラベルに時間を要するため、大きな注釈付きデータセットがないことである。 本研究では, 単一・複数ビュー, 屋内・屋外, 各種センサで取得した3Dデータを, 3D登録なしで操作できる簡易な自己監督関連手法を提案する。 標準ポイントクラウドとvoxelベースのモデルアーキテクチャをプリトレーニングし、ジョイントプリトレーニングによりパフォーマンスがさらに向上することを示す。 我々は,オブジェクト検出,セマンティクスセグメンテーション,オブジェクト分類の9つのベンチマークでモデルを評価する。 ScanNet (69.0% mAP) とSUNRGBD (63.5% mAP) にオブジェクト検出のための新しい最先端技術を設定した。 トレーニング済みのモデルはラベルの効率が良く、わずかな例でクラスのパフォーマンスが向上します。

Pretraining on large labeled datasets is a prerequisite to achieve good performance in many computer vision tasks like 2D object recognition, video classification etc. However, pretraining is not widely used for 3D recognition tasks where state-of-the-art methods train models from scratch. A primary reason is the lack of large annotated datasets because 3D data is both difficult to acquire and time consuming to label. We present a simple self-supervised pertaining method that can work with any 3D data - single or multiview, indoor or outdoor, acquired by varied sensors, without 3D registration. We pretrain standard point cloud and voxel based model architectures, and show that joint pretraining further improves performance. We evaluate our models on 9 benchmarks for object detection, semantic segmentation, and object classification, where they achieve state-of-the-art results and can outperform supervised pretraining. We set a new state-of-the-art for object detection on ScanNet (69.0% mAP) and SUNRGBD (63.5% mAP). Our pretrained models are label efficient and improve performance for classes with few examples.
翻訳日:2021-04-10 13:34:47 公開日:2021-01-07
# PVA: ピクセル対応ボリュームアバター

PVA: Pixel-aligned Volumetric Avatars ( http://arxiv.org/abs/2101.02697v1 )

ライセンス: Link先を確認
Amit Raj, Michael Zollhoefer, Tomas Simon, Jason Saragih, Shunsuke Saito, James Hays and Stephen Lombardi(参考訳) フォトリアリスティックな人間の頭部の獲得とレンダリングは、仮想テレプレゼンスにおいて特に重要な研究課題である。 現在、最高の品質は、複数のビューデータに基づいて特定の方法で訓練されたボリュームアプローチによって達成されている。 これらのモデルは、単純なメッシュベースのモデルと比較して、毛髪のような微細構造をより良く表現する。 ボリュームモデルは一般的に、顔の表情を表現するためにグローバルコードを使用し、小さなアニメーションパラメータセットで駆動することができる。 このようなアーキテクチャは印象的なレンダリング品質を実現するが、マルチアイデンティティ設定に容易に拡張することはできない。 本稿では,人間の頭部の容積アバターを少量の入力で予測する新しい手法を考案する。 入力から直接抽出される局所的画素アライメント特徴とニューラルラディアンスフィールドを結合した新しいパラメータ化により、アイデンティティ間の一般化が可能となり、非常に深いネットワークや複雑なネットワークの必要性をサイドステッピングする。 本手法は,3次元監督を必要とせず,測光再レンダリングの損失のみに基づいてエンドツーエンドで訓練し,品質面での既存技術を上回っており,多元的設定で忠実な表情を生成できることを実証する。

Acquisition and rendering of photo-realistic human heads is a highly challenging research problem of particular importance for virtual telepresence. Currently, the highest quality is achieved by volumetric approaches trained in a person specific manner on multi-view data. These models better represent fine structure, such as hair, compared to simpler mesh-based models. Volumetric models typically employ a global code to represent facial expressions, such that they can be driven by a small set of animation parameters. While such architectures achieve impressive rendering quality, they can not easily be extended to the multi-identity setting. In this paper, we devise a novel approach for predicting volumetric avatars of the human head given just a small number of inputs. We enable generalization across identities by a novel parameterization that combines neural radiance fields with local, pixel-aligned features extracted directly from the inputs, thus sidestepping the need for very deep or complex networks. Our approach is trained in an end-to-end manner solely based on a photometric re-rendering loss without requiring explicit 3D supervision.We demonstrate that our approach outperforms the existing state of the art in terms of quality and is able to generate faithful facial expressions in a multi-identity setting.
翻訳日:2021-04-10 13:34:25 公開日:2021-01-07
# 類似性問合せクエリを用いたドメイン特化検索体験改善のための伝達学習の適用

Applying Transfer Learning for Improving Domain-Specific Search Experience Using Query to Question Similarity ( http://arxiv.org/abs/2101.02351v1 )

ライセンス: Link先を確認
Ankush Chopra, Shruti Agrawal and Sohom Ghosh(参考訳) 検索は情報を探すのによく使われるプラットフォームの一つだ。 しかし、このようなプラットフォームを使ってクエリを解決すると、ユーザは結果に過負荷を受ける。 今日では、検索体験の一部として、クエリに対する直接的な回答が提供されている。 質問応答(QA)検索プロセスは,検索体験の充実に重要な役割を果たす。 既成のSemantic Textual similarityモデルは、よく整った検索クエリではうまく機能するが、不完全または文法的に不整形な検索クエリを頻度よく適用した場合、そのパフォーマンスは低下する。 本稿では、与えられた入力クエリと事前定義された質問の集合との類似性を計算し、最もよく一致する質問を検索するフレームワークについて論じる。 ファイナンシャルドメインで使用していますが、このフレームワークはドメイン固有の検索エンジンで一般化されており、他のドメインでも使用できます。 本研究では,Long Short-Term Memory (LSTM) [3] モデル上で Siamese Network [6] を用いて,与えられた質問に対して非正規化および正規化類似度スコアを生成する分類器を訓練する。 さらに,各質問対について,平均単語2vec埋め込み[15]間のコサイン類似度,RoBERTa[17]を用いた文埋め込み[7]とカスタマイズされたファジィマッチスコアとのコサイン類似度,という3つの類似度スコアを算出する。 最後に,Support Vector Machines [19] を用いたメタ分類器を開発し,これらの5つのスコアを組み合わせて,与えられた質問が類似しているかどうかを検出する。 当社のモデルのパフォーマンスをquora question pairs(qqp)データセット上の既存のstate of the art(sota)モデルや、金融ドメイン固有のデータセットに対してベンチマークします。

Search is one of the most common platforms used to seek information. However, users mostly get overloaded with results whenever they use such a platform to resolve their queries. Nowadays, direct answers to queries are being provided as a part of the search experience. The question-answer (QA) retrieval process plays a significant role in enriching the search experience. Most off-the-shelf Semantic Textual Similarity models work fine for well-formed search queries, but their performances degrade when applied to a domain-specific setting having incomplete or grammatically ill-formed search queries in prevalence. In this paper, we discuss a framework for calculating similarities between a given input query and a set of predefined questions to retrieve the question which matches to it the most. We have used it for the financial domain, but the framework is generalized for any domain-specific search engine and can be used in other domains as well. We use Siamese network [6] over Long Short-Term Memory (LSTM) [3] models to train a classifier which generates unnormalized and normalized similarity scores for a given pair of questions. Moreover, for each of these question pairs, we calculate three other similarity scores: cosine similarity between their average word2vec embeddings [15], cosine similarity between their sentence embeddings [7] generated using RoBERTa [17] and their customized fuzzy-match score. Finally, we develop a metaclassifier using Support Vector Machines [19] for combining these five scores to detect if a given pair of questions is similar. We benchmark our model's performance against existing State Of The Art (SOTA) models on Quora Question Pairs (QQP) dataset as well as a dataset specific to the financial domain.
翻訳日:2021-04-10 13:34:07 公開日:2021-01-07
# 分散マルチエージェント強化学習のための符号化

Coding for Distributed Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2101.02308v1 )

ライセンス: Link先を確認
Baoqian Wang, Junfei Xie, Nikolay Atanasov(参考訳) 本稿では,マルチエージェント強化学習(MARL)問題に対する同期分散学習におけるストラグラー効果の軽減を目的とする。 ストラグラーは分散学習システムにおいて、遅延ダウンや計算ノードの障害、通信ボトルネックなど、さまざまなシステム障害が存在するため、頻繁に発生する。 この問題を解決するために,集中型アプローチと同じ精度を維持しつつ,ストラグラーの存在下でのMARLアルゴリズムのトレーニングを高速化する,符号化分散学習フレームワークを提案する。 実例として,マルチエージェント型Deep Deterministic Policy gradient(MADDPG)アルゴリズムの符号化分散バージョンを開発し,評価した。 最大距離分離性(mds)コード、ランダムスパースコード、レプリケーションベースコード、正規低密度パリティチェック(ldpc)コードなど、異なる符号化方式も検討されている。 いくつかのマルチロボット問題におけるシミュレーションは,提案フレームワークの有望な性能を示す。

This paper aims to mitigate straggler effects in synchronous distributed learning for multi-agent reinforcement learning (MARL) problems. Stragglers arise frequently in a distributed learning system, due to the existence of various system disturbances such as slow-downs or failures of compute nodes and communication bottlenecks. To resolve this issue, we propose a coded distributed learning framework, which speeds up the training of MARL algorithms in the presence of stragglers, while maintaining the same accuracy as the centralized approach. As an illustration, a coded distributed version of the multi-agent deep deterministic policy gradient(MADDPG) algorithm is developed and evaluated. Different coding schemes, including maximum distance separable (MDS)code, random sparse code, replication-based code, and regular low density parity check (LDPC) code are also investigated. Simulations in several multi-robot problems demonstrate the promising performance of the proposed framework.
翻訳日:2021-04-10 13:33:37 公開日:2021-01-07
# 線形教師によるニューラルネットワーク学習の理解に向けて

Towards Understanding Learning in Neural Networks with Linear Teachers ( http://arxiv.org/abs/2101.02533v1 )

ライセンス: Link先を確認
Roei Sarussi, Alon Brutzkus, Amir Globerson(参考訳) 交叉エントロピーを最小化するニューラルネットワークは線形分離可能なデータを学習できるのか? 深層学習理論の進歩にもかかわらず、この問題は未解決のままである。 ここでは,リークしたreluアクティベーションを持つ2層ネットワークの学習問題をsgdがグローバルに最適化することを証明する。 学習したネットワークは原則として非常に複雑である。 しかし、実証的な証拠から、概線形であることがしばしば示されている。 ネットワーク重みが2つの重みクラスターに収束すると、これは概線形決定境界となることを証明し、この現象を理論的に支持する。 最後に,重みクラスタリングにつながる最適化条件を示す。 理論的解析を実証する実験結果を提供する。

Can a neural network minimizing cross-entropy learn linearly separable data? Despite progress in the theory of deep learning, this question remains unsolved. Here we prove that SGD globally optimizes this learning problem for a two-layer network with Leaky ReLU activations. The learned network can in principle be very complex. However, empirical evidence suggests that it often turns out to be approximately linear. We provide theoretical support for this phenomenon by proving that if network weights converge to two weight clusters, this will imply an approximately linear decision boundary. Finally, we show a condition on the optimization that leads to weight clustering. We provide empirical results that validate our theoretical analysis.
翻訳日:2021-04-10 13:33:23 公開日:2021-01-07
# 安価ひずみゲージ呼吸ベルトの臨床評価と睡眠時無呼吸検出のための機械学習

A Clinical Evaluation of a Low-Cost Strain Gauge Respiration Belt and Machine Learning to Detect Sleep Apnea ( http://arxiv.org/abs/2101.02595v1 )

ライセンス: Link先を確認
Stein Kristiansen, Konstantinos Nikolaidis, Thomas Plagemann, Vera Goebel, Gunn Marit Traaen, Britt {\O}verland, Lars Aaker{\o}y, Tove-Elizabeth Hunt, Jan P{\aa}l Loennechen, Sigurd Loe Steinshamn, Christina Holt Bendz, Ole-Gunnar Anfinsen, Lars Gullestad, Harriet Akre(参考訳) 睡眠時無呼吸 (sleep apnea) は重度で重度に診断された睡眠関連呼吸障害であり、睡眠中の呼吸障害が繰り返し発生するのが特徴である。 睡眠検査室で実施される高価な検査で、睡眠の専門家が手動で記録したデータを採点する必要がある。 睡眠時無呼吸の症状はしばしば曖昧であり、医師がポリソムノグラフィを処方するかどうかを判断することは困難である。 本研究では,スマートフォンと安価なひずみゲージ呼吸ベルトを用いて,睡眠データを収集し,自動分析することで有用な情報が得られるかを検討する。 睡眠時無呼吸を多種多様な機械学習技術を用いて正確に検出できるかどうかを,49回の睡眠記録による臨床研究から評価した。 1時間未満のトレーニングでは、それぞれ0.7609、0.7833、0.7217の精度、感度、特異性で通常の分と無響分を区別することができる。 これらの結果は、完全に分離された臨床認定センサーから高品質なデータのみをトレーニングしても達成でき、データ収集のコストを大幅に削減できる可能性がある。 完全な夜のデータはスマートフォンで約1秒で分析できる。

Sleep apnea is a serious and severely under-diagnosed sleep-related respiration disorder characterized by repeated disrupted breathing events during sleep. It is diagnosed via polysomnography which is an expensive test conducted in a sleep lab requiring sleep experts to manually score the recorded data. Since the symptoms of sleep apnea are often ambiguous, it is difficult for a physician to decide whether to prescribe polysomnography. In this study, we investigate whether helpful information can be obtained by collecting and automatically analysing sleep data using a smartphone and an inexpensive strain gauge respiration belt. We evaluate how accurately we can detect sleep apnea with wide variety of machine learning techniques with data from a clinical study with 49 overnight sleep recordings. With less than one hour of training, we can distinguish between normal and apneic minutes with an accuracy, sensitivity, and specificity of 0.7609, 0.7833, and 0.7217, respectively. These results can be achieved even if we train only on high-quality data from an entirely separate, clinically certified sensor, which has the potential to substantially reduce the cost of data collection. Data from a complete night can be analyzed in about one second on a smartphone.
翻訳日:2021-04-10 13:33:14 公開日:2021-01-07
# 深い制約付きクラスタリングのためのフレームワーク

A Framework for Deep Constrained Clustering ( http://arxiv.org/abs/2101.02792v1 )

ライセンス: Link先を確認
Hongjing Zhang, Tianyang Zhan, Sugato Basu, Ian Davidson(参考訳) 制約クラスタリングの領域は研究者によって広く調査され、実践者によって使用されている。 制約付きクラスタリングは、k平均、混合モデル、スペクトルクラスタリングなどの一般的なアルゴリズムには存在するが、いくつかの制限がある。 ディープラーニングの基本的な強みはその柔軟性であり、ここでは制約付きクラスタリングのためのディープラーニングフレームワークを探求し、特に制約付きクラスタリングの分野を拡張する方法について検討する。 当社のフレームワークは、ラベル付きサイド情報から生成される標準の結合/部分制約(先に報告した十分に文書化されたネガティブな影響を除く)だけでなく、継続的値やハイレベルなドメイン知識といった新しいタイプのサイド情報から生成されるより複雑な制約を扱えます。 さらに,これら4種類の制約に適用可能な,効率的なトレーニングパラダイムを提案する。 画像とテキストの両方のデータセットに対する実験結果によるアプローチの有効性を検証する。 また、ノイズの多い制約で学習する際のフレームワークの堅牢性を調べ、フレームワークの異なるコンポーネントが最終的なパフォーマンスにどのように貢献するかを示します。 ソースコードは$\href{https://github.com/blueocean92/deep_constrained_clustering}{\text{url}}$で利用可能です。

The area of constrained clustering has been extensively explored by researchers and used by practitioners. Constrained clustering formulations exist for popular algorithms such as k-means, mixture models, and spectral clustering but have several limitations. A fundamental strength of deep learning is its flexibility, and here we explore a deep learning framework for constrained clustering and in particular explore how it can extend the field of constrained clustering. We show that our framework can not only handle standard together/apart constraints (without the well documented negative effects reported earlier) generated from labeled side information but more complex constraints generated from new types of side information such as continuous values and high-level domain knowledge. Furthermore, we propose an efficient training paradigm that is generally applicable to these four types of constraints. We validate the effectiveness of our approach by empirical results on both image and text datasets. We also study the robustness of our framework when learning with noisy constraints and show how different components of our framework contribute to the final performance. Our source code is available at $\href{https://github.com/blueocean92/deep_constrained_clustering}{\text{URL}}$.
翻訳日:2021-04-10 13:32:33 公開日:2021-01-07
# マルチエージェント制約付き協調強化学習のためのアテンションアクタ・クリティカルアルゴリズム

Attention Actor-Critic algorithm for Multi-Agent Constrained Co-operative Reinforcement Learning ( http://arxiv.org/abs/2101.02349v1 )

ライセンス: Link先を確認
P.Parnika, Raghuram Bharadwaj Diddigi, Sai Koti Reddy Danda and Shalabh Bhatnagar(参考訳) 本研究では,共通目標の最適化を目的とした協調学習環境において,強化学習 (rl) エージェントの最適動作を計算することの問題点について考察する。 しかし、多くの現実のアプリケーションでは、目標の最適化に加えて、エージェントはアクションに指定された特定の制約を満たす必要がある。 この設定の下で、エージェントの目的は、共通の目的を最適化するアクションを学ぶだけでなく、指定された制約を満たすことである。 近年,マルチエージェント環境下でのRLエージェントの最適動作を得るために,アテンション機構を持つアクター・クライブアルゴリズムが成功している。 本研究では,このアルゴリズムを制約付きマルチエージェントRL設定に拡張する。 ここでの考え方は、共通の目標を最適化し、制約を満たすには、異なる注意のモードが必要になるかもしれないということです。 異なるアテンションモードを組み込むことにより、エージェントは目標を最適化し、制約を個別に満たすのに必要な有用な情報を選択でき、より良いアクションが得られる。 ベンチマークマルチエージェント環境における実験を通じて,提案手法の有効性を示す。

In this work, we consider the problem of computing optimal actions for Reinforcement Learning (RL) agents in a co-operative setting, where the objective is to optimize a common goal. However, in many real-life applications, in addition to optimizing the goal, the agents are required to satisfy certain constraints specified on their actions. Under this setting, the objective of the agents is to not only learn the actions that optimize the common objective but also meet the specified constraints. In recent times, the Actor-Critic algorithm with an attention mechanism has been successfully applied to obtain optimal actions for RL agents in multi-agent environments. In this work, we extend this algorithm to the constrained multi-agent RL setting. The idea here is that optimizing the common goal and satisfying the constraints may require different modes of attention. By incorporating different attention modes, the agents can select useful information required for optimizing the objective and satisfying the constraints separately, thereby yielding better actions. Through experiments on benchmark multi-agent environments, we show the effectiveness of our proposed algorithm.
翻訳日:2021-04-10 13:32:11 公開日:2021-01-07
# qRRT:非ホロノミックシステムにおける最適運動計画のための品質バイアスインクリメンタルRT

qRRT: Quality-Biased Incremental RRT for Optimal Motion Planning in Non-Holonomic Systems ( http://arxiv.org/abs/2101.02635v1 )

ライセンス: Link先を確認
Nahas Pareekutty, Francis James, Balaraman Ravindran, Suril V. Shah(参考訳) 本稿では,コスト関数のない非ホロノミックシステムにおける最適動作計画のためのサンプリングに基づく手法を提案する。 経験を通じて学習する原則を使用して、ワークスペース内の領域のコスト対ゴーを推論する。 このコスト情報は、解軌跡を生成するインクリメンタルグラフベースの探索アルゴリズムのバイアスに使用される。 コスト情報と検索バイアスの反復的な改善は漸近的に最適な解を生み出す。 提案フレームワークは、ランダムサンプリングに基づく探索と強化学習のためのRRT(Rapidly-Exploring Random Tree)に基づいて、ワークスペースコストを学習する。 提案手法の性能評価と実証のために, 一連の実験を行った。

This paper presents a sampling-based method for optimal motion planning in non-holonomic systems in the absence of known cost functions. It uses the principle of learning through experience to deduce the cost-to-go of regions within the workspace. This cost information is used to bias an incremental graph-based search algorithm that produces solution trajectories. Iterative improvement of cost information and search biasing produces solutions that are proven to be asymptotically optimal. The proposed framework builds on incremental Rapidly-exploring Random Trees (RRT) for random sampling-based search and Reinforcement Learning (RL) to learn workspace costs. A series of experiments were performed to evaluate and demonstrate the performance of the proposed method.
翻訳日:2021-04-10 13:31:37 公開日:2021-01-07
# スマートデータ処理とストレージモデルに向けて

Towards a Smart Data Processing and Storage Model ( http://arxiv.org/abs/2101.02522v1 )

ライセンス: Link先を確認
Ronie Salgado, Marcus Denker (RMOD), St\'ephane Ducasse (RMOD), Anne Etien (RMOD), Vincent Aranega (RMOD)(参考訳) いくつかの領域では、倫理的、法的理由からデータ自体の一貫性、信頼性、信頼性を保証するために、起源が完全にトレース可能なデータを保存し、操作することが重要である。 また、そのようなデータが作成され、新しいデータに処理されると、そのような特性がさらに運ばれることを保証することも重要である。 本稿では,このような能力を持つデータをサポートするシステムの設計によって生じる,主な要件と理論的問題について述べる。 本稿では,システム実装のためのアーキテクチャとpharoで開発されたプロトタイプを提案する。

In several domains it is crucial to store and manipulate data whose origin needs to be completely traceable to guarantee the consistency, trustworthiness and reliability on the data itself typically for ethical and legal reasons. It is also important to guarantee that such properties are also carried further when such data is composed and processed into new data. In this article we present the main requirements and theorethical problems that arise by the design of a system supporting data with such capabilities. We present an architecture for implementing a system as well as a prototype developed in Pharo.
翻訳日:2021-04-10 13:30:59 公開日:2021-01-07
# マルチタスク逆学習を用いたVHSからHDTVビデオへの変換

VHS to HDTV Video Translation using Multi-task Adversarial Learning ( http://arxiv.org/abs/2101.02384v1 )

ライセンス: Link先を確認
Hongming Luo, Guangsen Liao, Xianxu Hou, Bozhi Liu, Fei Zhou and Guoping Qiu(参考訳) ビデオホームシステム(VHS)フォーマットには貴重なビデオアーカイブが多数存在する。 しかし、アナログな性質から、その品質はしばしば貧弱である。 高精細テレビ(HDTV)と比較すると、VHSビデオは色が鈍く、解像度も低く、しばしばぼやけている。 本稿では,VHS動画をHDTVビデオに変換する問題に着目し,教師なしマルチタスク対角学習モデルに基づくソリューションを開発した。 生成的対位ネットワーク(GAN)とCycleGAN(CycleGAN)の成功に触発されて、サイクル整合損失、対位損失、知覚的損失を併用して翻訳モデルを学ぶ。 我々の研究の重要なイノベーションは、スーパーレゾリューションモデルと、教師なしのマルチタスク問題を解決するカラートランスファーモデルの導入です。 我々の知る限り、VHSとHDTVの関係を研究するための最初の研究であり、VHSをHDTVに変換する最初の計算ソリューションである。 本研究では, 定性的かつ定量的に解の有効性を示す実験結果を示す。

There are large amount of valuable video archives in Video Home System (VHS) format. However, due to the analog nature, their quality is often poor. Compared to High-definition television (HDTV), VHS video not only has a dull color appearance but also has a lower resolution and often appears blurry. In this paper, we focus on the problem of translating VHS video to HDTV video and have developed a solution based on a novel unsupervised multi-task adversarial learning model. Inspired by the success of generative adversarial network (GAN) and CycleGAN, we employ cycle consistency loss, adversarial loss and perceptual loss together to learn a translation model. An important innovation of our work is the incorporation of super-resolution model and color transfer model that can solve unsupervised multi-task problem. To our knowledge, this is the first work that dedicated to the study of the relation between VHS and HDTV and the first computational solution to translate VHS to HDTV. We present experimental results to demonstrate the effectiveness of our solution qualitatively and quantitatively.
翻訳日:2021-04-10 13:30:33 公開日:2021-01-07
# Where2Act: 3Dオブジェクトの画素からアクションへ

Where2Act: From Pixels to Actions for Articulated 3D Objects ( http://arxiv.org/abs/2101.02692v1 )

ライセンス: Link先を確認
Kaichun Mo, Leonidas Guibas, Mustafa Mukadam, Abhinav Gupta, Shubham Tulsiani(参考訳) 視覚知覚の基本的な目標の1つは、エージェントが環境と有意義に相互作用できるようにすることである。 本稿では,その長期的目標に向けて一歩を踏み出し,可動部を有する関節物体の押下げや引抜きなど,基本動作に関連する高度に局所化された動作可能な情報を抽出する。 例えば、引き出しが与えられた場合、われわれのネットワークは、ハンドルに引力を加えると引き出しが開くと予測する。 画像と奥行きデータから得られる新たなネットワークアーキテクチャを提案し,議論し,評価し,各画素で可能な動作のセットと,その下を移動する可能性のある節点上の領域を予測した。 シミュレーション(SAPIEN)でネットワークをトレーニングし,カテゴリをまたいだ一般化を可能にする,オンラインデータサンプリング戦略を備えた対話型学習フレームワークを提案する。 しかしもっと重要なのは、学習したモデルが現実世界のデータに転送されることだ。 コードとデータのリリースについてはプロジェクトのWebサイトを参照してください。

One of the fundamental goals of visual perception is to allow agents to meaningfully interact with their environment. In this paper, we take a step towards that long-term goal -- we extract highly localized actionable information related to elementary actions such as pushing or pulling for articulated objects with movable parts. For example, given a drawer, our network predicts that applying a pulling force on the handle opens the drawer. We propose, discuss, and evaluate novel network architectures that given image and depth data, predict the set of actions possible at each pixel, and the regions over articulated parts that are likely to move under the force. We propose a learning-from-interaction framework with an online data sampling strategy that allows us to train the network in simulation (SAPIEN) and generalizes across categories. But more importantly, our learned models even transfer to real-world data. Check the project website for the code and data release.
翻訳日:2021-04-10 13:30:03 公開日:2021-01-07
# 能動的取得による学習誘導電子顕微鏡

Learning Guided Electron Microscopy with Active Acquisition ( http://arxiv.org/abs/2101.02746v1 )

ライセンス: Link先を確認
Lu Mi, Hao Wang, Yaron Meirovitch, Richard Schalek, Srinivas C. Turaga, Jeff W. Lichtman, Aravinthan D.T. Samuel, Nir Shavit(参考訳) 単ビーム走査電子顕微鏡(SEM)は、バイオメディカル研究、材料分析、製造検査のための膨大なデータセットを取得するために広く用いられている。 データセットは通常、均一な取得によって取得される:全ての画像ピクセルに同じパワーと持続時間を持つ電子ビームを適用する。 多くのsemは、ビームを遅延することなく視野内の任意のピクセルに移動することができ、原則として、非一様撮像でより効果的に時間予算を投資できる。 本稿では,ディープラーニングを用いて画像の単一ビームSEM取得を高速化し,最適化する方法を示す。 我々のアルゴリズムは情報量の多い画像(例)を迅速に収集する。 そして、サリエンシーと空間の多様性のトレードオフに基づいて、より高解像度で収集すべきピクセルの小さなサブセットを識別するために、新しい学習方法を適用する。 本稿では,神経生物学におけるコネクトロミックデータセットの収集作業を最大で1桁高速化することで,本手法の有効性を実証する。

Single-beam scanning electron microscopes (SEM) are widely used to acquire massive data sets for biomedical study, material analysis, and fabrication inspection. Datasets are typically acquired with uniform acquisition: applying the electron beam with the same power and duration to all image pixels, even if there is great variety in the pixels' importance for eventual use. Many SEMs are now able to move the beam to any pixel in the field of view without delay, enabling them, in principle, to invest their time budget more effectively with non-uniform imaging. In this paper, we show how to use deep learning to accelerate and optimize single-beam SEM acquisition of images. Our algorithm rapidly collects an information-lossy image (e.g. low resolution) and then applies a novel learning method to identify a small subset of pixels to be collected at higher resolution based on a trade-off between the saliency and spatial diversity. We demonstrate the efficacy of this novel technique for active acquisition by speeding up the task of collecting connectomic datasets for neurobiology by up to an order of magnitude.
翻訳日:2021-04-10 13:29:47 公開日:2021-01-07
# SDPは位相同期における極小最適性を実現する

SDP Achieves Exact Minimax Optimality in Phase Synchronization ( http://arxiv.org/abs/2101.02347v1 )

ライセンス: Link先を確認
Chao Gao and Anderson Y. Zhang(参考訳) ノイズ測定による位相同期問題を$Y=z^*z^{*H}+\sigma W\in\mathbb{C}^{n\times n}$, ここで、$z^*$は$n$次元複素単位モジュラーベクトルであり、$W$は複素数値ガウス確率行列である。 各エントリ$Y_{jk}$は確率$p$で観測されると仮定される。 MLE の SDP 緩和が 1+o(1))\frac{\sigma^2}{2np}$ の誤差を正規化された正方形 $\ell_2$ の損失の下で達成することを証明する。 この結果は問題のミニマックス下限に一致し、リード定数さえシャープである。 SDPの解析は、高次元空間に持ち上げられた一般化された電力反復の固定点として特徴づけられるような等価な非凸プログラミングに基づいている。 この観点は、3つの異なる手法(MLE、SDP、一般化パワー法)の統計的最適性の証明を統一する。 この手法は、$\mathbb{Z}_2$同期のSDPの解析にも適用され、指数に鋭い定数を持つミニマックス最適誤差 $\exp\left(-(1-o(1))\frac{np}{2\sigma^2}\right)$ を達成する。

We study the phase synchronization problem with noisy measurements $Y=z^*z^{*H}+\sigma W\in\mathbb{C}^{n\times n}$, where $z^*$ is an $n$-dimensional complex unit-modulus vector and $W$ is a complex-valued Gaussian random matrix. It is assumed that each entry $Y_{jk}$ is observed with probability $p$. We prove that an SDP relaxation of the MLE achieves the error bound $(1+o(1))\frac{\sigma^2}{2np}$ under a normalized squared $\ell_2$ loss. This result matches the minimax lower bound of the problem, and even the leading constant is sharp. The analysis of the SDP is based on an equivalent non-convex programming whose solution can be characterized as a fixed point of the generalized power iteration lifted to a higher dimensional space. This viewpoint unifies the proofs of the statistical optimality of three different methods: MLE, SDP, and generalized power method. The technique is also applied to the analysis of the SDP for $\mathbb{Z}_2$ synchronization, and we achieve the minimax optimal error $\exp\left(-(1-o(1))\frac{np}{2\sigma^2}\right)$ with a sharp constant in the exponent.
翻訳日:2021-04-10 13:29:30 公開日:2021-01-07
# マルチヘッドアテンション(LAMA)によるログ異常の検出

Detecting Log Anomalies with Multi-Head Attention (LAMA) ( http://arxiv.org/abs/2101.02392v1 )

ライセンス: Link先を確認
Yicheng Guo, Yujin Wen, Congwei Jiang, Yixin Lian, Yi Wan(参考訳) 異常検出は、様々な研究領域で研究されている重要かつ困難な課題である。 本研究では,ログの逐次情報を解析することにより,ログ異常検出(特にコンピュータシステムログとユーザの行動ログ)の課題を検討する。 テンプレートアクティビティ(イベント)シーケンスとしてログストリームを処理するマルチヘッドアテンションに基づくシーケンシャルモデルであるlamaを提案する。 次にイベント予測タスクを適用し、異常検出のためのモデルをトレーニングする。 大規模実験により,提案手法がログデータのシーケンスパターンを学習する際の有効性を検証するため,統計的および深層学習手法を含む既存のログ異常検出手法よりも優れた結果が得られた。

Anomaly detection is a crucial and challenging subject that has been studied within diverse research areas. In this work, we explore the task of log anomaly detection (especially computer system logs and user behavior logs) by analyzing logs' sequential information. We propose LAMA, a multi-head attention based sequential model to process log streams as template activity (event) sequences. A next event prediction task is applied to train the model for anomaly detection. Extensive empirical studies demonstrate that our new model outperforms existing log anomaly detection methods including statistical and deep learning methodologies, which validate the effectiveness of our proposed method in learning sequence patterns of log data.
翻訳日:2021-04-10 13:27:58 公開日:2021-01-07
# 複雑系における崩壊の機械学習分解と早期警戒信号

Machine learning dismantling and early-warning signals of disintegration in complex systems ( http://arxiv.org/abs/2101.02453v1 )

ライセンス: Link先を確認
Marco Grassia, Manlio De Domenico, Giuseppe Mangioni(参考訳) 物理学から工学、生物学、社会科学まで、自然と人工のシステムは相互に結合したトポロジー(例えば、異種接続、メソスケール組織、階層構造)によって特徴づけられる。 複雑なネットワークを崩壊させるために攻撃する最小限のユニットを識別する。 ネットワーク分解(network dismantling)は、一般にヒューリスティックスで攻撃される計算的に難しい問題である。 ここでは、比較的小さなシステムを分解する訓練された機械が高次トポロジカルなパターンを識別でき、大規模社会・インフラ・技術ネットワークを人為的ヒューリスティックスよりも効率的に分解できることを示す。 注目すべきは、マシンが次の攻撃でシステムが崩壊する確率を評価し、システムのリスクを定量化し、システムの崩壊の早期警戒信号を検出する定量的な方法を提供することである。 これは、複雑なシステムの脆弱さとショックに対する反応をより定量化するために、機械支援分析がポリシーや意思決定に効果的に使用できることを示している。

From physics to engineering, biology and social science, natural and artificial systems are characterized by interconnected topologies whose features - e.g., heterogeneous connectivity, mesoscale organization, hierarchy - affect their robustness to external perturbations, such as targeted attacks to their units. Identifying the minimal set of units to attack to disintegrate a complex network, i.e. network dismantling, is a computationally challenging (NP-hard) problem which is usually attacked with heuristics. Here, we show that a machine trained to dismantle relatively small systems is able to identify higher-order topological patterns, allowing to disintegrate large-scale social, infrastructural and technological networks more efficiently than human-based heuristics. Remarkably, the machine assesses the probability that next attacks will disintegrate the system, providing a quantitative method to quantify systemic risk and detect early-warning signals of system's collapse. This demonstrates that machine-assisted analysis can be effectively used for policy and decision making to better quantify the fragility of complex systems and their response to shocks.
翻訳日:2021-04-10 13:27:49 公開日:2021-01-07
# 機械学習による着色溶存有機物の検索

Retrieval of Coloured Dissolved Organic Matter with Machine Learning Methods ( http://arxiv.org/abs/2101.02505v1 )

ライセンス: Link先を確認
Ana B. Ruescas, Martin Hieronymi, Sampsa Koponen, Kari Kallio and Gustau Camps-Valls(参考訳) 着色溶存有機物(cdom)濃度は、天然水中の湿潤物質の標準測定値である。 特定の波長(例えば)における吸収係数(a)を用いて、リモートセンシングによるcdom測定を算出する。 440nm)。 本稿では,リモートセンシング信号からCDOMを抽出するための機械学習手法として,正規化線形回帰(RLR),ランダムフォレスト(RF),カーネルリッジ回帰(KRR),ガウスプロセス回帰(GPR)の4つを比較した。 結果は確立した多項式回帰アルゴリズムと比較される。 RLRは最も単純で効率的な方法として明らかにされ、続いて非線形のKRRが続く。

The coloured dissolved organic matter (CDOM) concentration is the standard measure of humic substance in natural waters. CDOM measurements by remote sensing is calculated using the absorption coefficient (a) at a certain wavelength (e.g. 440nm). This paper presents a comparison of four machine learning methods for the retrieval of CDOM from remote sensing signals: regularized linear regression (RLR), random forest (RF), kernel ridge regression (KRR) and Gaussian process regression (GPR). Results are compared with the established polynomial regression algorithms. RLR is revealed as the simplest and most efficient method, followed closely by its nonlinear counterpart KRR.
翻訳日:2021-04-10 13:27:31 公開日:2021-01-07
# CoachNet: 強化学習のための逆サンプリングアプローチ

CoachNet: An Adversarial Sampling Approach for Reinforcement Learning ( http://arxiv.org/abs/2101.02649v1 )

ライセンス: Link先を確認
Elmira Amirloo Abolfathi, Jun Luo, Peyman Yadmellat, Kasra Rezaee(参考訳) 近年のゲームやロボティクスにおける強化学習の成功にもかかわらず、まだ広く実用化されていない。 サンプル効率と信頼性に乏しいシナリオでは,大きな障害が2つある。 専門家レベルの人的パフォーマンスを達成するための故意の実践の効果からインスピレーションを得て,我々は"CoachNet"と呼ばれる障害予測器によって導かれる新たな逆サンプリング手法を提案する。 CoachNetは、エージェントとともにオンラインでトレーニングされ、失敗の確率を予測する。 この確率は、確率的サンプリングプロセスでエージェントをより困難なエピソードに導くために使用される。 このように、エージェントが既にマスターしたシナリオに時間を費やす代わりに、トレーニングはエージェントの"弱所"に焦点を当てる。 我々はCoachNetの設計、基礎となる原理を説明し、共通の継続的制御タスクにおけるサンプル効率とテスト時間ロバスト性を改善する効果を実証的に実証する。

Despite the recent successes of reinforcement learning in games and robotics, it is yet to become broadly practical. Sample efficiency and unreliable performance in rare but challenging scenarios are two of the major obstacles. Drawing inspiration from the effectiveness of deliberate practice for achieving expert-level human performance, we propose a new adversarial sampling approach guided by a failure predictor named "CoachNet". CoachNet is trained online along with the agent to predict the probability of failure. This probability is then used in a stochastic sampling process to guide the agent to more challenging episodes. This way, instead of wasting time on scenarios that the agent has already mastered, training is focused on the agent's "weak spots". We present the design of CoachNet, explain its underlying principles, and empirically demonstrate its effectiveness in improving sample efficiency and test-time robustness in common continuous control tasks.
翻訳日:2021-04-10 13:27:21 公開日:2021-01-07
# セッションベースレコメンデーションのためのメトリック学習

Metric Learning for Session-based Recommendations ( http://arxiv.org/abs/2101.02655v1 )

ライセンス: Link先を確認
Bart{\l}omiej Twardowski, Pawe{\l} Zawistowski, Szymon Zaborowski(参考訳) セッションベースのレコメンデータは、ユーザの未中断なアクションシーケンスから予測するために使用され、多くのアプリケーションにとって魅力的なものです。 そこで,本課題では,セッションやアイテムの共通埋め込み空間を創出するメトリックラーニングと,提供されたユーザのイベントシーケンスと次のアクションとの相違度を測定することを提案する。 本稿では,いくつかのシナジーが存在する一般的な学習-ランク法と比較し,計量学習手法について考察する。 本稿では,問題解析のためのシンプルなアーキテクチャを提案し,既存の手法を上回るためには,大規模かつ深いアーキテクチャは必要ないことを示した。 4つのデータセットに対する強いベースラインに対する実験結果は、アブレーション研究である。

Session-based recommenders, used for making predictions out of users' uninterrupted sequences of actions, are attractive for many applications. Here, for this task we propose using metric learning, where a common embedding space for sessions and items is created, and distance measures dissimilarity between the provided sequence of users' events and the next action. We discuss and compare metric learning approaches to commonly used learning-to-rank methods, where some synergies exist. We propose a simple architecture for problem analysis and demonstrate that neither extensively big nor deep architectures are necessary in order to outperform existing methods. The experimental results against strong baselines on four datasets are provided with an ablation study.
翻訳日:2021-04-10 13:27:06 公開日:2021-01-07
# 5g通信セキュリティのためのadversarial machine learning

Adversarial Machine Learning for 5G Communications Security ( http://arxiv.org/abs/2101.02656v1 )

ライセンス: Link先を確認
Yalin E. Sagduyu, Tugba Erpek, Yi Shi(参考訳) 機械学習は、無線スペクトルの複雑なダイナミクスを捕捉し、スペクトルリソースのより良い理解と効率的な利用を支援する自動化手段を提供する。 コミュニケーションシステムが、スペクトル認識やスペクトル共有といった重要なタスクを実行するために、機械学習によって強化された認知無線機能により賢くなると、機械学習アプリケーションをターゲットにした攻撃によって、新たな脆弱性にも影響を受けるようになる。 本稿では,5Gシステムにおける対向機械学習の出現する攻撃面と,それに対応する無線通信に対する攻撃について述べる。 i)市民ブロードバンドラジオサービス(CBRS)バンドや(ii)ネットワークスライシングをサポートする5Gユーザ機器(UE)の物理層認証など、既存のユーザとの5G通信のスペクトル共有に対する攻撃に焦点を当てている。 最初の攻撃では、5Gシステムをサポートするために環境センシング能力(ESC)に配備されたディープラーニング分類器に信号レベルの入力を操作するために、データ送信またはスペクトルセンシング期間の間を送信する。 第2の攻撃では、敵は5G基地局に配備されたディープラーニング分類器に基づいて、生成敵ネットワーク(GAN)で無線信号をスプーフし、物理層認証機構に侵入する。 結果から,5Gシステムの主な脆弱性が示唆された。 敵の存在下での5Gシステムの動作を維持するため,攻撃開始時のサロゲートモデルの訓練において,敵の不確実性を高めるための防御機構が提示された。

Machine learning provides automated means to capture complex dynamics of wireless spectrum and support better understanding of spectrum resources and their efficient utilization. As communication systems become smarter with cognitive radio capabilities empowered by machine learning to perform critical tasks such as spectrum awareness and spectrum sharing, they also become susceptible to new vulnerabilities due to the attacks that target the machine learning applications. This paper identifies the emerging attack surface of adversarial machine learning and corresponding attacks launched against wireless communications in the context of 5G systems. The focus is on attacks against (i) spectrum sharing of 5G communications with incumbent users such as in the Citizens Broadband Radio Service (CBRS) band and (ii) physical layer authentication of 5G User Equipment (UE) to support network slicing. For the first attack, the adversary transmits during data transmission or spectrum sensing periods to manipulate the signal-level inputs to the deep learning classifier that is deployed at the Environmental Sensing Capability (ESC) to support the 5G system. For the second attack, the adversary spoofs wireless signals with the generative adversarial network (GAN) to infiltrate the physical layer authentication mechanism based on a deep learning classifier that is deployed at the 5G base station. Results indicate major vulnerabilities of 5G systems to adversarial machine learning. To sustain the 5G system operations in the presence of adversaries, a defense mechanism is presented to increase the uncertainty of the adversary in training the surrogate model used for launching its subsequent attacks.
翻訳日:2021-04-10 13:26:55 公開日:2021-01-07
# BRDS:Row-Balanced Dual-Ratio Sparsificationを用いたFPGAベースのLSTM加速器

BRDS: An FPGA-based LSTM Accelerator with Row-Balanced Dual-Ratio Sparsification ( http://arxiv.org/abs/2101.02667v1 )

ライセンス: Link先を確認
Seyed Abolfazl Ghasemzadeh, Erfan Bank Tavakoli, Mehdi Kamal, Ali Afzali-Kusha, Massoud Pedram(参考訳) 本稿では,まず,エネルギー消費を低減し,長期短期記憶(lstm)ニューラルネットワーク加速器の高速化を図るハードウェアフレンドリーな刈り取りアルゴリズムを提案する。 次に,提案アルゴリズムに基づくプルーンドネットワークの効率的な実行のためのFPGAベースのプラットフォームを提案する。 刈り込みにおけるLSTMモデルの2つの重み行列の感度を考慮し、これらの重み行列に異なる疎度比(二重比疎度)を適用する。 メモリアクセスを減らすために、行毎のスパーシティパターンを採用する。 提案するハードウェアアーキテクチャは計算オーバーラップとパイプライニングを利用して低消費電力と高速を実現する。 提案手法の有効性を,自然言語処理,二項感情分類,音声認識のベンチマークで評価した。 その結果、例えばこの分野で最近発表された研究と比較すると、提案された加速器は最大272%の効果的なGOPS/Wを提供し、PSBデータセットのパープレキシティエラーを最大1.4%削減できることがわかった。

In this paper, first, a hardware-friendly pruning algorithm for reducing energy consumption and improving the speed of Long Short-Term Memory (LSTM) neural network accelerators is presented. Next, an FPGA-based platform for efficient execution of the pruned networks based on the proposed algorithm is introduced. By considering the sensitivity of two weight matrices of the LSTM models in pruning, different sparsity ratios (i.e., dual-ratio sparsity) are applied to these weight matrices. To reduce memory accesses, a row-wise sparsity pattern is adopted. The proposed hardware architecture makes use of computation overlapping and pipelining to achieve low-power and high-speed. The effectiveness of the proposed pruning algorithm and accelerator is assessed under some benchmarks for natural language processing, binary sentiment classification, and speech recognition. Results show that, e.g., compared to a recently published work in this field, the proposed accelerator could provide up to 272% higher effective GOPS/W and the perplexity error is reduced by up to 1.4% for the PTB dataset.
翻訳日:2021-04-10 13:26:30 公開日:2021-01-07
# Dataset Definition Standard (DDS)

Dataset Definition Standard (DDS) ( http://arxiv.org/abs/2101.03020v1 )

ライセンス: Link先を確認
Cyril Cappi, Camille Chapdelaine, Laurent Gardes, Eric Jenn, Baptiste Lefevre, Sylvaine Picard, Thomas Soumarmon(参考訳) このドキュメントは、ディープニューラルネットワークなどの機械学習モデルの開発と検証に使用されるデータセットの構築と操作を推奨する一連のセットを提供する。 この文書は[1]で定義された3つの文書のうちの1つで、データセットの品質を保証する。 優れたプラクティスがマシンラーニングの理解とともに進化するにつれ、これは進行中の作業です。 文書は3つの主要な部分に分けられる。 セクション2は、データ収集アクティビティに対処する。 第3節ではアノテーションプロセスについて推奨している。 最後に、セクション4は、列車、バリデーション、テストデータセットの分解に関する推奨事項を提供する。 それぞれの部分において、まず所望のプロパティを定義し、次にプロパティを満たそうとする目的を説明し、最後にこれらの目的を達成するための推奨事項を述べます。

This document gives a set of recommendations to build and manipulate the datasets used to develop and/or validate machine learning models such as deep neural networks. This document is one of the 3 documents defined in [1] to ensure the quality of datasets. This is a work in progress as good practices evolve along with our understanding of machine learning. The document is divided into three main parts. Section 2 addresses the data collection activity. Section 3 gives recommendations about the annotation process. Finally, Section 4 gives recommendations concerning the breakdown between train, validation, and test datasets. In each part, we first define the desired properties at stake, then we explain the objectives targeted to meet the properties, finally we state the recommendations to reach these objectives.
翻訳日:2021-04-10 13:26:11 公開日:2021-01-07
# 推薦精度向上のためのサイド情報提供への知識グラフの適用

Application of Knowledge Graphs to Provide Side Information for Improved Recommendation Accuracy ( http://arxiv.org/abs/2101.03054v1 )

ライセンス: Link先を確認
Yuhao Mao, Serguei A. Mokhov, Sudhir P. Mudur(参考訳) パーソナライズされたレコメンデーションは、インターネットによる活動、特にショッピングで人気がある。 推奨方法は、コンテンツベースのフィルタリング、協調フィルタリング、機械学習強化の3つの主要なカテゴリに分類される。 異なるユーザの好みや製品に関する情報は、主に特定のユーザの好みを推測するために使用される。 不十分な情報は明らかにこれらの手法の失敗や性能の低下を引き起こす可能性がある。 これらのメソッドにより多くの情報を提供するほど、メソッドがより良く機能する可能性が高くなる。 知識グラフは、エンティティ間の関係の形で情報を記録する現在の傾向を表し、製品とユーザに関する追加の情報(側)を提供することができる。 このような情報は、近接探索の改善、ユーザとプロダクトのクラスタリング、あるいはニューラルネットワークの使用時のトレーニングに使用することができる。 本稿では,知識グラフをレコメンデーションパイプラインに統合する新しい汎用レコメンデーションシステムフレームワークを提案する。 本稿では,そのソフトウェア設計と実装について述べるとともに,実験を通じて,そのようなフレームワークがドメインに対してどのように特殊化できるか,映画レコメンデーション,知識グラフから得られた情報による推薦結果の改善について述べる。 本フレームワークは,異なる知識グラフ表現形式をサポートし,推薦手法の学習に必要なフォーマット変換,マージ,情報抽出を容易にする。

Personalized recommendations are popular in these days of Internet driven activities, specifically shopping. Recommendation methods can be grouped into three major categories, content based filtering, collaborative filtering and machine learning enhanced. Information about products and preferences of different users are primarily used to infer preferences for a specific user. Inadequate information can obviously cause these methods to fail or perform poorly. The more information we provide to these methods, the more likely it is that the methods perform better. Knowledge graphs represent the current trend in recording information in the form of relations between entities, and can provide additional (side) information about products and users. Such information can be used to improve nearest neighbour search, clustering users and products, or train the neural network, when one is used. In this work, we present a new generic recommendation systems framework, that integrates knowledge graphs into the recommendation pipeline. We describe its software design and implementation, and then show through experiments, how such a framework can be specialized for a domain, say movie recommendations, and the improvements in recommendation results possible due to side information obtained from knowledge graphs representation of such information. Our framework supports different knowledge graph representation formats, and facilitates format conversion, merging and information extraction needed for training recommendation methods.
翻訳日:2021-04-10 13:26:00 公開日:2021-01-07
# データサイエンティストはどれくらい自動化したいのか?

How Much Automation Does a Data Scientist Want? ( http://arxiv.org/abs/2101.03970v1 )

ライセンス: Link先を確認
Dakuo Wang and Q. Vera Liao and Yunfeng Zhang and Udayan Khurana and Horst Samulowitz and Soya Park and Michael Muller and Lisa Amini(参考訳) データサイエンスと機械学習(DS/ML)は多くの人工知能(AI)アプリケーションの最近の進歩の中心にある。 AIには、DS/MLライフサイクルをエンドツーエンドで自動化するシステムを開発することを目的とした研究スレッドである‘autoai’がある。 しかし、DSとMLワーカーは本当にDS/MLワークフローを自動化したいのか? この質問に答えるために、まず6つのユーザロール/パーソナラ、10のステージと43のサブタスク、5レベルの自動化、5種類の説明を備えた人間中心のautomlフレームワークを、研究文献とマーケティングレポートのレビューを通じて合成する。 第2に、経験の度合いの異なる217人のDS/MLワーカーによるオンラインサーベイスタディの設計の指針として、このフレームワークを使用し、6つのロール/ペルソナに対して異なるユーザロールを"マッチング"します。 異なるユーザペルソナがライフサイクルの異なる段階に参加していることが分かりました。 彼らの望む自動化レベルとAutoMLのタイプもDS/MLステージとユーザペルソナによって大きく異なる。 調査の結果から、エンド・ツー・エンドds/mlライフサイクルの完全な自動化に対するユーザニーズからの根拠はない、と論じた。 ユーザ制御DS/ML自動化のための新しいステップを提案する。

Data science and machine learning (DS/ML) are at the heart of the recent advancements of many Artificial Intelligence (AI) applications. There is an active research thread in AI, \autoai, that aims to develop systems for automating end-to-end the DS/ML Lifecycle. However, do DS and ML workers really want to automate their DS/ML workflow? To answer this question, we first synthesize a human-centered AutoML framework with 6 User Role/Personas, 10 Stages and 43 Sub-Tasks, 5 Levels of Automation, and 5 Types of Explanation, through reviewing research literature and marketing reports. Secondly, we use the framework to guide the design of an online survey study with 217 DS/ML workers who had varying degrees of experience, and different user roles "matching" to our 6 roles/personas. We found that different user personas participated in distinct stages of the lifecycle -- but not all stages. Their desired levels of automation and types of explanation for AutoML also varied significantly depending on the DS/ML stage and the user persona. Based on the survey results, we argue there is no rationale from user needs for complete automation of the end-to-end DS/ML lifecycle. We propose new next steps for user-controlled DS/ML automation.
翻訳日:2021-04-10 13:25:39 公開日:2021-01-07
# 音声と映像の相関に基づく未分類映像列の視覚的相性予測

Audiovisual Saliency Prediction in Uncategorized Video Sequences based on Audio-Video Correlation ( http://arxiv.org/abs/2101.03966v1 )

ライセンス: Link先を確認
Maryam Qamar Butt and Anis Ur Rahman(参考訳) サリエンシー・モデリングでは、周囲の環境を知覚し、解釈できるインテリジェントな機械を開発するためにかなりの研究がなされている。 しかし既存のモデルでは、ビデオは音声情報を除く単なる画像シーケンスとして扱い、本質的に異なるコンテンツに対応できない。 本研究は,自然無分類ビデオの従来のサリエンシーモデルよりも,視聴覚サリエンシーモデルが改良されるという仮説に基づいて,低レベル音声と視覚特徴を同期させて計算した視聴覚サリエンシーマップと視覚サリエンシーマップを補完する汎用オーディオ/ビデオサリエンシーモデルを提供することを目標とする。 提案モデルは,diemビデオデータセットの眼固定データに対する異なる基準を用いて評価した。 その結果、このモデルは最先端の2つのビジュアル・サリエンシ・モデルより優れていた。

Substantial research has been done in saliency modeling to develop intelligent machines that can perceive and interpret their surroundings. But existing models treat videos as merely image sequences excluding any audio information, unable to cope with inherently varying content. Based on the hypothesis that an audiovisual saliency model will be an improvement over traditional saliency models for natural uncategorized videos, this work aims to provide a generic audio/video saliency model augmenting a visual saliency map with an audio saliency map computed by synchronizing low-level audio and visual features. The proposed model was evaluated using different criteria against eye fixations data for a publicly available DIEM video dataset. The results show that the model outperformed two state-of-the-art visual saliency models.
翻訳日:2021-04-10 13:25:21 公開日:2021-01-07
# フェデレーション学習システム設計のためのアーキテクチャパターン

Architectural Patterns for the Design of Federated Learning Systems ( http://arxiv.org/abs/2101.02373v1 )

ライセンス: Link先を確認
Sin Kit Lo, Qinghua Lu, Liming Zhu, Hye-young Paik, Xiwei Xu, Chen Wang(参考訳) 機械学習におけるデータの空腹とプライバシの課題に取り組むため、フェデレーション学習は学界や業界から急速に関心を集めている。 フェデレーション学習システムは、多数のクライアントデバイスがフェデレーション学習に参加しているため、さまざまなコンポーネントとステークホルダを持つ大規模分散システムと見なすことができる。 連合学習システムの設計には、機械学習知識とは別に考えるソフトウェアシステム設計が必要である。 機械学習技術の側面からフェデレーション学習に多くの努力がなされているが、フェデレーション学習システムを構築する際のソフトウェアアーキテクチャ設計の問題はほとんど無視されている。 そこで本稿では,連合型学習システムの設計課題に対処するアーキテクチャパターンの集合について述べる。 アーキテクチャパターンは、ソフトウェアアーキテクチャ設計中に与えられたコンテキスト内で一般的に発生する問題に対する再利用可能なソリューションを示す。 提示されたパターンは、体系的な文献レビューの結果に基づき、3つのクライアント管理パターン、4つのモデル管理パターン、3つのモデルトレーニングパターン、4つのモデル集約パターンを含む。 これらのパターンは、フェデレーション学習モデルライフサイクルにおける特定の状態遷移に関連付けられ、フェデレーション学習システムの設計においてパターンを効果的に利用するためのガイダンスとなる。

Federated learning has received fast-growing interests from academia and industry to tackle the challenges of data hungriness and privacy in machine learning. A federated learning system can be viewed as a large-scale distributed system with different components and stakeholders as numerous client devices participate in federated learning. Designing a federated learning system requires software system design thinking apart from machine learning knowledge. Although much effort has been put into federated learning from the machine learning technique aspects, the software architecture design concerns in building federated learning systems have been largely ignored. Therefore, in this paper, we present a collection of architectural patterns to deal with the design challenges of federated learning systems. Architectural patterns present reusable solutions to a commonly occurring problem within a given context during software architecture design. The presented patterns are based on the results of a systematic literature review and include three client management patterns, four model management patterns, three model training patterns, and four model aggregation patterns. The patterns are associated to particular state transitions in a federated learning model lifecycle, serving as a guidance for effective use of the patterns in the design of federated learning systems.
翻訳日:2021-04-10 13:25:05 公開日:2021-01-07
# ハッブル宇宙望遠鏡銀河画像における外れ値の自動同定

Automatic identification of outliers in Hubble Space Telescope galaxy images ( http://arxiv.org/abs/2101.02623v1 )

ライセンス: Link先を確認
Lior Shamir(参考訳) 希少な銀河外天体は過去、現在、将来の宇宙に関する重要な情報を運ぶことができる。 情報時代の天文学データベースのサイズを考えると、現在および将来の天文学データベースに非常に多くの外縁銀河が含まれていると仮定できる。 しかし、これらの物体の手動探索は、必要な労力のために実用的ではないため、そのような物体を検知する能力は、主にコンピュータアルゴリズムに依存する。 本稿では、外方銀河画像の自動検出のための教師なし機械学習アルゴリズムとそのハッブル宇宙望遠鏡分野への応用について述べる。 このアルゴリズムはトレーニングを必要としないため、クリーンなトレーニングセットの作成に依存しない。 このアルゴリズムの銀河群への応用により、様々な外縁銀河の画像が検出された。 このアルゴリズムは、アルゴリズムによって検出されたすべてのオブジェクトが実際には外れ値と見なされるわけではないが、実用的な手動識別を可能にするためにデータセットを2桁減らすという意味では完全ではない。 カタログには、自動化を使わずに識別するのが非常に難しい147のオブジェクトが含まれている。

Rare extragalactic objects can carry substantial information about the past, present, and future universe. Given the size of astronomical databases in the information era it can be assumed that very many outlier galaxies are included in existing and future astronomical databases. However, manual search for these objects is impractical due to the required labor, and therefore the ability to detect such objects largely depends on computer algorithms. This paper describes an unsupervised machine learning algorithm for automatic detection of outlier galaxy images, and its application to several Hubble Space Telescope fields. The algorithm does not require training, and therefore is not dependent on the preparation of clean training sets. The application of the algorithm to a large collection of galaxies detected a variety of outlier galaxy images. The algorithm is not perfect in the sense that not all objects detected by the algorithm are indeed considered outliers, but it reduces the dataset by two orders of magnitude to allow practical manual identification. The catalogue contains 147 objects that would be very difficult to identify without using automation.
翻訳日:2021-04-10 13:24:34 公開日:2021-01-07
# 効率的な3次元翼パラメータ化・生成のための深部生成モデル

Deep Generative Model for Efficient 3D Airfoil Parameterization and Generation ( http://arxiv.org/abs/2101.02744v1 )

ライセンス: Link先を確認
Wei Chen and Arun Ramamurthy(参考訳) 空力形状最適化では、コンバージェンスと計算コストは設計空間の表現能力とコンパクト性に大きく影響される。 従来の研究では、二次元(2次元)翼のパラメータ化に深い生成モデルを用いることで高い表現能力/性能を達成し、形状最適化に大いに役立つことが示されている。 本稿では,航空機翼,タービンブレード,車体,船体などの3次元空力・流体力学的形状の効率的なパラメータ化を行うための,深部生成モデルであるffd-gan(free-form deformation generative adversarial networks)を提案する。 学習したモデルは、設計変数のコンパクトな集合を形状を表す3次元表面点にマッピングする。 我々は、生成モデルにFFD層を組み込むことにより、生成したジオメトリの表面の滑らかさと連続性を確保する。 主翼形状設計例を用いてFFD-GANの性能を示す。 その結果,FFD-GANは現実的な設計を生成でき,合理的なパラメータ化を実現できることがわかった。 さらに、FFD-GANの設計空間カバレッジ、設計空間の実現率、設計最適化における性能を検証し、高表現のコンパクト性とキャパシティを実証する。 FFD-GANでランダムに発生する翼間では94%以上の実現率が達成され, FFDとB-スプラインは31%以下であった。 また,ffd-ganは,ffdおよびb-splineパラメータ化と比較して翼形状最適化問題の収束が桁違いに速くなることを示した。

In aerodynamic shape optimization, the convergence and computational cost are greatly affected by the representation capacity and compactness of the design space. Previous research has demonstrated that using a deep generative model to parameterize two-dimensional (2D) airfoils achieves high representation capacity/compactness, which significantly benefits shape optimization. In this paper, we propose a deep generative model, Free-Form Deformation Generative Adversarial Networks (FFD-GAN), that provides an efficient parameterization for three-dimensional (3D) aerodynamic/hydrodynamic shapes like aircraft wings, turbine blades, car bodies, and hulls. The learned model maps a compact set of design variables to 3D surface points representing the shape. We ensure the surface smoothness and continuity of generated geometries by incorporating an FFD layer into the generative model. We demonstrate FFD-GAN's performance using a wing shape design example. The results show that FFD-GAN can generate realistic designs and form a reasonable parameterization. We further demonstrate FFD-GAN's high representation compactness and capacity by testing its design space coverage, the feasibility ratio of the design space, and its performance in design optimization. We demonstrate that over 94% feasibility ratio is achieved among wings randomly generated by the FFD-GAN, while FFD and B-spline only achieve less than 31%. We also show that the FFD-GAN leads to an order of magnitude faster convergence in a wing shape optimization problem, compared to the FFD and the B-spline parameterizations.
翻訳日:2021-04-10 13:24:18 公開日:2021-01-07
# 線形逆問題の非凸幾何学

The Nonconvex Geometry of Linear Inverse Problems ( http://arxiv.org/abs/2101.02776v1 )

ライセンス: Link先を確認
Armin Eftekhari and Peyman Mohajerin Esfahani(参考訳) ゲージ関数は原子のノルムと密接に関連しており、統計モデルの複雑性を測定し、機械学習や統計信号処理に広く応用されている。 高次元学習問題において、ゲージ関数は学習アルファベット内のスパース(簡潔)表現を促進することによって、過剰フィッティングから保護しようとする。 本研究では、線形逆問題の文脈において、その成功の源を指摘するが、ゲージ関数の適用性は本質的に凸性によって制限され、古典的なゲージ関数理論が失敗するいくつかの学習問題を示す。 次に、ゲージ関数の制限を克服する統計複雑性の新しい概念であるゲージ$_p$関数を導入する。 gauge$_p$関数は、ゲージ関数の単純な一般化であり、学習アルファベット内の統計モデルのスパーシティを厳しく制御することができ、おそらく驚くべきことに、計算数学におけるburer-monteiro因子分解からさらにインスピレーションを得ている。 また、ゲージ$_p$関数の構成要素を持つ新しい学習機械を提案し、このマシンを多くの統計保証付きでアームする。 提案されたゲージ$_p$関数理論のポテンシャルは、2つのスタイライズされた応用について研究される。 最後に,計算の側面を考察し,特に新しい学習機械の実装のための扱いやすい数値アルゴリズムを提案する。

The gauge function, closely related to the atomic norm, measures the complexity of a statistical model, and has found broad applications in machine learning and statistical signal processing. In a high-dimensional learning problem, the gauge function attempts to safeguard against overfitting by promoting a sparse (concise) representation within the learning alphabet. In this work, within the context of linear inverse problems, we pinpoint the source of its success, but also argue that the applicability of the gauge function is inherently limited by its convexity, and showcase several learning problems where the classical gauge function theory fails. We then introduce a new notion of statistical complexity, gauge$_p$ function, which overcomes the limitations of the gauge function. The gauge$_p$ function is a simple generalization of the gauge function that can tightly control the sparsity of a statistical model within the learning alphabet and, perhaps surprisingly, draws further inspiration from the Burer-Monteiro factorization in computational mathematics. We also propose a new learning machine, with the building block of gauge$_p$ function, and arm this machine with a number of statistical guarantees. The potential of the proposed gauge$_p$ function theory is then studied for two stylized applications. Finally, we discuss the computational aspects and, in particular, suggest a tractable numerical algorithm for implementing the new learning machine.
翻訳日:2021-04-10 13:23:54 公開日:2021-01-07
# 音声によるエンド-2-End COVID-19検出

End-2-End COVID-19 Detection from Breath & Cough Audio ( http://arxiv.org/abs/2102.08359v1 )

ライセンス: Link先を確認
Harry Coppock and Alexander Gaskell and Panagiotis Tzirakis and Alice Baird and Lyn Jones and Bj\"orn W. Schuller(参考訳) 主なコントリビューションは次のとおりである: (I) クラウドソースされたオーディオサンプルのデータセットからエンド・ツー・エンドのディープラーニングを用いてCOVID-19を診断し、0.846のROC-AUCを達成するための最初の試みを示す; (II) 私たちのモデルであるCOVID-19 Identification ResNet(CIdeR)は、迅速なスケーラビリティ、最小コスト、より多くのデータが利用可能になるにつれてパフォーマンスを向上させる可能性を秘めている。 これにより、集団規模での定期的なCOVID-19検査が可能になる; (III) 人工の深層ニューラルネットワークを用いて、関節呼吸とうっ血表現からCOVID-19を診断するための新しいモデリング戦略を導入する; (IV) クロスパラメータ最適化のための4つの階層化されたフォールドを標準の公共コーパス上でリリースし、再現性および将来の参照モデルの詳細を公表する。

Our main contributions are as follows: (I) We demonstrate the first attempt to diagnose COVID-19 using end-to-end deep learning from a crowd-sourced dataset of audio samples, achieving ROC-AUC of 0.846; (II) Our model, the COVID-19 Identification ResNet, (CIdeR), has potential for rapid scalability, minimal cost and improving performance as more data becomes available. This could enable regular COVID-19 testing at apopulation scale; (III) We introduce a novel modelling strategy using a custom deep neural network to diagnose COVID-19 from a joint breath and cough representation; (IV) We release our four stratified folds for cross parameter optimisation and validation on a standard public corpus and details on the models for reproducibility and future reference.
翻訳日:2021-04-10 13:23:31 公開日:2021-01-07
# サドル点周辺における線形指数時間勾配軌道の境界条件:解析とアルゴリズム

Boundary Conditions for Linear Exit Time Gradient Trajectories Around Saddle Points: Analysis and Algorithm ( http://arxiv.org/abs/2101.02625v1 )

ライセンス: Link先を確認
Rishabh Dixit and Waheed U. Bajwa(参考訳) 勾配関連一階法は大規模数値最適化問題の解法となっている。 これらの問題の多くは、複数のサドル点を持つ非凸目的関数を含み、これらの関数の幾何学的景観における一階法の離散軌跡の挙動を理解する必要がある。 本稿では,幾何学的景観における厳密な鞍点を構成する非凸最適化問題の局所最小値に対する一階離散法の収束について述べる。 To this end, it focuses on analysis of discrete gradient trajectories around saddle neighborhoods, derives sufficient conditions under which these trajectories can escape strict-saddle neighborhoods in linear time, explores the contractive and expansive dynamics of these trajectories in neighborhoods of strict-saddle points that are characterized by gradients of moderate magnitude, characterizes the non-curving nature of these trajectories, and highlights the inability of these trajectories to re-enter the neighborhoods around strict-saddle points after exiting them. これらの知見と分析に基づき,本論文では,曲線条件付き正規化グラディエントDescent (CCRGD) アルゴリズムと呼ばれるバニラ勾配降下アルゴリズムの単純な変種を提案する。 また,CCRGDアルゴリズムの収束解析を行い,厳密なサドル点数の最大値を持つ幾何学的景観内の局所最小値への収束率について述べる。 次に,提案アルゴリズムの有効性を評価するために,テスト関数と低ランク行列因子化問題について数値実験を行った。

Gradient-related first-order methods have become the workhorse of large-scale numerical optimization problems. Many of these problems involve nonconvex objective functions with multiple saddle points, which necessitates an understanding of the behavior of discrete trajectories of first-order methods within the geometrical landscape of these functions. This paper concerns convergence of first-order discrete methods to a local minimum of nonconvex optimization problems that comprise strict saddle points within the geometrical landscape. To this end, it focuses on analysis of discrete gradient trajectories around saddle neighborhoods, derives sufficient conditions under which these trajectories can escape strict-saddle neighborhoods in linear time, explores the contractive and expansive dynamics of these trajectories in neighborhoods of strict-saddle points that are characterized by gradients of moderate magnitude, characterizes the non-curving nature of these trajectories, and highlights the inability of these trajectories to re-enter the neighborhoods around strict-saddle points after exiting them. Based on these insights and analyses, the paper then proposes a simple variant of the vanilla gradient descent algorithm, termed Curvature Conditioned Regularized Gradient Descent (CCRGD) algorithm, which utilizes a check for an initial boundary condition to ensure its trajectories can escape strict-saddle neighborhoods in linear time. Convergence analysis of the CCRGD algorithm, which includes its rate of convergence to a local minimum within a geometrical landscape that has a maximum number of strict-saddle points, is also presented in the paper. Numerical experiments are then provided on a test function as well as a low-rank matrix factorization problem to evaluate the efficacy of the proposed algorithm.
翻訳日:2021-04-10 13:23:12 公開日:2021-01-07