このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20201214となっている論文です。

PDF登録状況(公開日: 20201214)

TitleAuthorsAbstract論文公表日・翻訳日
# 自己重力は量子状態に影響する

Self gravity affects quantum states ( http://arxiv.org/abs/2006.11768v4 )

ライセンス: Link先を確認
David Edward Bruschi and Frank K. Wilhelm(参考訳) 量子系の自己重力が状態にある量子コヒーレンスにどのように影響するかを研究する。 静的で大型で重い系の空間的重ね合わせは急速にコヒーレンスを失う傾向があるが、光や質量を持たない粒子は影響を受けない。 さらに、大きくて重い物体も急速に1つの古典的な位置に局在する。 系の特性サイズとそのコンプトン長の比は、系の重力自己エネルギーに反比例する時間スケールで重要な効果の開始を決定する。 この結果から, 個々の粒子や光子を遠方位置に置く可能性, 大規模物体間の量子コヒーレンスを維持することの難しさの2つの重要な側面が説明できる。

We study how self gravitation of quantum systems affects the quantum coherence present in their state. Spatial superpositions of static, large, heavy systems tend to rapidly lose coherence, whereas light or massless particles are unaffected. Furthermore, large and heavy objects also rapidly localize into a single classical position. The ratio of the characteristic size of the system and its Compton length determines the onset of the effects, which become significant at a timescale that is inversely proportional to the system's gravitational self energy. Our results can explain two important aspects of physical systems: the possibility of coherently placing individual particles or photons in distant positions, and the difficulty of maintaining quantum coherence between massive objects.
翻訳日:2023-05-13 05:27:08 公開日:2020-12-14
# 単一イオン系における $\mathcal{pt}$-symmetric quantum coherence の観測

Observation of $\mathcal{PT}$-symmetric quantum coherence in a single ion system ( http://arxiv.org/abs/2006.16467v4 )

ライセンス: Link先を確認
Wei-Chen Wang, Yan-Li Zhou, Hui-Lai Zhang, Jie Zhang, Man-Chao Zhang, Yi Xie, Chun-Wang Wu, Ting Chen, Bao-Quan Ou, Wei Wu, Hui Jing, Pin-xing Chen(参考訳) parity-time($\mathcal{pt}$)対称系はその非エルミート的性質にもかかわらず実固有値を特徴とし、損失誘起透過性や発散回復のような古典的領域におけるエキゾチックな機能を達成するために広く利用されている。 固有値と固有状態の双方の例外点 (EP) やコリゾネッセンスに近づくことにより、純粋な量子$\mathcal{PT}$デバイスにも非伝統的な効果が現れることが期待されている。 ここでは,1つの冷媒中における自発的$\mathcal{pt}$対称性の破れの実験的な証拠を報告し,さらに重要なこととして,epで生じる完全量子コヒーレンスによる直観的効果について報告する。 実験結果と理論予測との優れた一致を同定する。 量子メモリやプロセッサの構築におけるコールドイオンの役割を考えると、本実験は純粋な量子ep効果を探索し利用するための新しいプラットフォームを提供し、閉じ込められたイオンの量子工学における多様な応用を提供する。

Parity-time($\mathcal{PT}$)-symmetric systems, featuring real eigenvalues despite its non-Hermitian nature, have been widely utilized to achieve exotic functionalities in the classical realm, such as loss-induced transparency or lasing revival. By approaching the exceptional point (EP) or the coalescences of both eigenvalues and eigenstates, unconventional effects are also expected to emerge in pure quantum $\mathcal{PT}$ devices. Here, we report experimental evidences of spontaneous $\mathcal{PT}$ symmetry breaking in a single cold $^{40}\mathrm{Ca}^{+}$ ion, and more importantly, a counterintuitive effect of perfect quantum coherence occurring at the EP. Excellent agreement between experimental results and theoretical predictions is identified. In view of the versatile role of cold ions in building quantum memory or processor, our experiment provides a new platform to explore and utilize pure quantum EP effects, with diverse applications in quantum engineering of trapped ions.
翻訳日:2023-05-12 01:32:54 公開日:2020-12-14
# トポロジカル超伝導線におけるゼロエネルギーエンドモードのトモグラフィー

Tomography of zero-energy end modes in topological superconducting wires ( http://arxiv.org/abs/2007.11619v4 )

ライセンス: Link先を確認
Armando A. Aligia, Diego P\'erez Daroca, Liliana Arrachea(参考訳) スピン軌道結合と磁場を持つ位相的ハイブリッド超伝導-半導体ワイヤのマヨアナ零モードを、一般化ブロッホ座標である$\varphi, \theta, \delta$を用いて特徴付け、それらの変換をsu(2)回転下で解析する。 スピン軌道結合と磁場が垂直であるとき、$\varphi$ と $\delta$ は適切な座標系において普遍的であることを示す。 これらの幾何学的性質を用いて、磁場の異なる2本のワイヤの接合におけるジョセフソン電流の挙動やスピン軌道結合を説明する。 そこで、この角度を$\theta$で抽出する方法を示し、Majoranaモードの完全な記述を提供する。

We characterize the Majorana zero modes in topological hybrid superconductor-semiconductor wires with spin-orbit coupling and magnetic field, in terms of generalized Bloch coordinates $\varphi, \theta, \delta$, and analyze their transformation under SU(2) rotations. We show that, when the spin-orbit coupling and the magnetic field are perpendicular, $\varphi$ and $\delta$ are universal in an appropriate coordinate system. We use these geometric properties to explain the behavior of the Josephson current in junctions of two wires with different orientations of the magnetic field and/or the spin-orbit coupling. We show how to extract from there, the angle $\theta$, hence providing a full description of the Majorana modes.
翻訳日:2023-05-08 18:31:11 公開日:2020-12-14
# ネットワーク上の確率的リセットを伴う古典から量子ウォークへ

From classical to quantum walks with stochastic resetting on networks ( http://arxiv.org/abs/2008.00510v2 )

ライセンス: Link先を確認
Sascha Wald and Lucas B\"ottcher(参考訳) ランダムウォークは確率過程の基本モデルであり、物理学、生物学、計算機科学など様々な分野に応用されている。 任意のネットワーク上での確率的リセットの影響下で古典的および量子ランダムウォークを研究する。 量子確率歩行の数学的形式論に基づき、進化がグラフラプラシアンによって決定される古典的および量子的歩行の枠組みを提供する。 古典的および量子的状態の補間による定常および長期平均確率分布に対する量子効果の影響について検討する。 定常および長時間平均確率分布の解析結果と異なるネットワーク上の数値シミュレーションを比較し,リセットが古典的および量子ウォークのサンプリング特性にどう影響するかの相違を明らかにする。

Random walks are fundamental models of stochastic processes with applications in various fields including physics, biology, and computer science. We study classical and quantum random walks under the influence of stochastic resetting on arbitrary networks. Based on the mathematical formalism of quantum stochastic walks, we provide a framework of classical and quantum walks whose evolution is determined by graph Laplacians. We study the influence of quantum effects on the stationary and long-time average probability distribution by interpolating between the classical and quantum regime. We compare our analytical results on stationary and long-time average probability distributions with numerical simulations on different networks, revealing differences in the way resets affect the sampling properties of classical and quantum walks.
翻訳日:2023-05-07 08:37:23 公開日:2020-12-14
# 量子および古典計算のための動的物質を含むコンパクトQEDのゲージ冗長性のない定式化

A gauge redundancy-free formulation of compact QED with dynamical matter for quantum and classical computations ( http://arxiv.org/abs/2008.01349v2 )

ライセンス: Link先を確認
Julian Bender, Erez Zohar(参考訳) 本研究では, 2次元および3次元空間格子上に, 変換不変性を維持しつつ, コンパクトな量子電磁力学を表現する手法を提案する。 物体がゲージ制約から切り離された回転フレームに変換することで、ゲージ場作用素を双対作用素として表現することができる。 2つの空間次元において、双対表現は任意の局所的制約を全く含まない。 3つの空間次元において、双対作用素の間の局所的制約は残るが、ゲージ場自由度のみを含む(自由度ではない)。 これらの定式化はヒルベルト空間次元を小さくするが、数値的な(古典的な)ハミルトニアン計算や量子シミュレーションや計算に有用である。

We introduce a way to express compact quantum electrodynamics with dynamical matter on two- and three-dimensional spatial lattices in a gauge redundancy-free manner while preserving translational invariance. By transforming to a rotating frame, where the matter is decoupled from the gauge constraints, we can express the gauge field operators in terms of dual operators. In two space dimensions, the dual representation is completely free of any local constraints. In three space dimensions, local constraints among the dual operators remain but involve only the gauge field degrees of freedom (and not the matter degrees of freedom). These formulations, which reduce the required Hilbert space dimension, could be useful for both numerical (classical) Hamiltonian computations and quantum simulation or computation.
翻訳日:2023-05-07 04:42:02 公開日:2020-12-14
# トポロジカルマヨナ量子ビット上のCNOTゲートのホロノミック実装

Holonomic implementation of CNOT gate on topological Majorana qubits ( http://arxiv.org/abs/2008.05181v2 )

ライセンス: Link先を確認
Alessio Calzona, Nicolas P. Bauer, Bj\"orn Trauzettel(参考訳) CNOTゲートは2量子ビットゲートであり、普遍量子計算に必須である。 majorana ベースの qubits でそれを実装するための確立されたアプローチは、その後の majorana パリティの測定に依存する。 本稿では,一握りのシステムパラメータのホロノミック制御を通じて保護されたCNOTゲートを操作する方式を提案する。 マヨラナ間のペアワイズ結合の断熱的チューニングが2つの量子ビットの完全絡み合いを頑健に導き、パラメータの制御の小さなバリエーションに対して無関心であることを示す。

The CNOT gate is a two-qubit gate which is essential for universal quantum computation. A well-established approach to implement it within Majorana-based qubits relies on subsequent measurement of (joint) Majorana parities. We propose an alternative scheme which operates a protected CNOT gate via the holonomic control of a handful of system parameters, without requiring any measurement. We show how the adiabatic tuning of pair-wise couplings between Majoranas can robustly lead to the full entanglement of two qubits, insensitive with respect to small variations in the control of the parameters.
翻訳日:2023-05-06 11:47:27 公開日:2020-12-14
# Stern-Gerlach測定によるハイゼンベルクの誤差・歪み関係の可視化

Violation of Heisenberg's error-disturbance relation by Stern-Gerlach measurements ( http://arxiv.org/abs/2009.01646v2 )

ライセンス: Link先を確認
Yuki Inoue and Masanao Ozawa(参考訳) ハイゼンベルクの不確実性原理は、量子状態における内在的不確定性に関する厳密に証明された関係によって表されるが、ハイゼンベルクの誤差・分散関係(EDR)はこの原理の別の側面として一般的に信じられている。 しかし、量子測定理論の最近の発展により、ハイゼンベルクのedrはその違反を観測できるようになった。 本稿では,Stern-Gerlach測定のためのEDRについて検討する。 前回の報告(arXiv:1910.07929)では、EDRは理論上の最適値に近いことが指摘されている。 本報告では、1922年のスターン・ガーラッハ実験(実験データ)でさえハイゼンベルクのedrに違反していると報告している。 その結果、ハイゼンベルクのEDRは長い間考えられていたよりもユビキタスに侵害されていることが示唆された。

Although Heisenberg's uncertainty principle is represented by a rigorously proven relation about intrinsic indeterminacy in quantum states, Heisenberg's error-disturbance relation (EDR) has been commonly believed as another aspect of the principle. However, recent developments of quantum measurement theory made Heisenberg's EDR testable to observe its violations. Here, we study the EDR for Stern-Gerlach measurements. In a previous report [arXiv:1910.07929], it has been pointed out that their EDR is close to the theoretical optimal. The present note reports that even the original Stern-Gerlach experiment in 1922, the available experimental data show, violates Heisenberg's EDR. The results suggest that Heisenberg's EDR is more ubiquitously violated than it has long been supposed.
翻訳日:2023-05-04 00:55:00 公開日:2020-12-14
# モンテビデオ解釈: 時間という量子重力の概念が計測問題をいかに解決するか

The Montevideo Interpretation: How the inclusion of a Quantum Gravitational Notion of Time Solves the Measurement Problem ( http://arxiv.org/abs/2010.14519v2 )

ライセンス: Link先を確認
Rodolfo Gambini and Jorge Pullin(参考訳) 本稿では,hohn,smith,lockらによって最近導入された枠組みを用いて,実時間を用いて物理学を記述する量子力学のモンテビデオ解釈を概観する。 新しい形式を用いることで、完全に制約されたシステムに慣れることなく、全体構造をより読みやすくすることができる。 元々の定式化と同様に、通常の環境デコヒーレンスを補完し、その批判を避けるためのデコヒーレンスの基本機構が出現する。 量子複雑性に関する最近の結果は、通常の -- ユニタリ -- 量子力学において、確率が関連付けられるような明確な事象が起こらないことを証明するために使われる、グローバルプロトコルのタイプにさらなるサポートを提供する。 これの代わりに、可能な結果の一貫性のある重ね合わせから始まる状態は、常に重ね合わせとして残される。 一般相対性理論と量子力学による長さと時間間隔の測定における基本的な不確実性を考慮すると、先に述べたグローバルプロトコルは、状態が重ね合わせであるか否かをもはや区別できない。 量子力学の定式化は、古典的世界への言及なしに純粋に量子力学用語で定義され、外部の観測者を必要としない量子事象の本質的な運用定義が残されている。

We review the Montevideo Interpretation of quantum mechanics, which is based on the use of real clocks to describe physics, using the framework recently introduced by Hoehn, Smith and Lock to treat the problem of time in generally covariant systems. The use of the new formalism makes the whole construction more accessible to readers without familiarity with totally constrained systems. We find that as in the original formulation, a fundamental mechanism of decoherence emerges that allows to supplement ordinary environmental decoherence and avoid its criticisms. Recent results on quantum complexity provide additional support to the type of global protocols used to prove that within ordinary -- unitary -- quantum mechanics no definite event -- an outcome to which a probability can be associated -- occurs. In lieu of this, states that start in a coherent superposition of possible outcomes always remain as a superposition. We show that, if one takes into account fundamental inescapable uncertainties in measuring length and time intervals due to general relativity and quantum mechanics, the previously mentioned global protocols no longer allow to distinguish whether the state is in a superposition or not. One is left with a formulation of quantum mechanics purely defined in quantum mechanical terms without any reference to the classical world and with an intrinsic operational definition of quantum events that does not need external observers.
翻訳日:2023-04-27 08:33:24 公開日:2020-12-14
# カーボンナノチューブにおけるH$_2$/D$_2$の量子効果の競合

Competition of quantum effects in H$_2$ /D$_2$ sieving in carbon nanotubes ( http://arxiv.org/abs/2011.01348v2 )

ライセンス: Link先を確認
Manel Mondelo-Martell (1), Ferm\'in Huarte-Larra\~naga (1) ((1) Department of Materials Science and Physical Chemistry, Universitat de Barcelona)(参考訳) ナノ多孔性物質は、選択的吸着と運動的ふるいによって混合物内の化学物質を分離するために、電子分子シーブとして用いられる可能性がある。 アイソトポローグの分離は、いわゆる 'emph{quantum sieving} 効果によっても可能であり、その異なる ZPE によるアイソトポローグの有効サイズが異なる。 ここでは, (8,0) 単層カーボンナノチューブにおける水素と重水素の拡散速度を量子ダイナミクス法で比較する。 拡散チャネルは、ポテンシャル井戸を繋ぐ共鳴から重要な寄与を得られる。 これらの共鳴は、D$_2$よりもH$_2$にとって重要であり、両アイソトポローグの低温拡散率を高めるが、同様のナノ構造系で報告される逆の同位体効果を防ぐ。

Nanoporous materials have the potential to be used as \emph{molecular sieves} to separate chemical substances in a mixture via selective adsorption and kinetic sieving. The separation of isotopologues is also possible via the so-called \emph{quantum sieving} effect: the different effective size of isotopologues due to their different ZPE. Here we compare the diffusion rates of Hydrogen and Deuterium in (8,0) Single Walled Carbon Nanotubes obtained through quantum dynamics methods. The diffusion channels obtained present important contributions from resonances connecting the potential wells. These resonances, which are more important for H$_2$ than for D$_2$, increase the low-temperature diffusivity of both isotopologues, but prevent the inverse kinetic isotope effect reported for similar nanostructured systems.
翻訳日:2023-04-26 01:20:42 公開日:2020-12-14
# 熱力学整合性からの開系力学

Open system dynamics from thermodynamic compatibility ( http://arxiv.org/abs/2011.03504v2 )

ライセンス: Link先を確認
Roie Dann and Ronnie Kosloff(参考訳) 熱力学は量子マルコフ力学の数学的条件の集合を包含する。 特に、システムと環境の間の厳密なエネルギー保存は、散逸的力学写像がユニタリ系プロパゲータと通勤することを示唆している。 スペクトル解析を用いることで、次のマスター方程式の一般形式を証明できる。 この結果は、標準的な微視的導出から得られたマスター方程式と比較する。 得られた形式構造は、熱力学と近似導出の適合性をテストするために用いられる。 例えば、グローバルマスター方程式が互換性のある選択であることを示す。 公理的アプローチは、熱輸送現象における定常状態の形式である微視的導出における漸近近似の妥当性に光を当て、開量子系の力学における例外的な点の欠如を示している。

Thermodynamics entails a set of mathematical conditions on quantum Markovian dynamics. In particular, strict energy conservation between the system and environment implies that the dissipative dynamical map commutes with the unitary system propagator. Employing spectral analysis we prove the general form of the ensuing master equation. We compare this result to master equations obtained from standard microscopic derivations. The obtained formal structure can be employed to test the compatibility of approximate derivations with thermodynamics. For example, it designates that global master equations are the compatible choice. The axiomatic approach sheds light on the validity of the secular approximation in microscopic derivations, the form of the steady state in heat transport phenomena, and indicates the lack of exceptional points in the dynamics of open quantum systems.
翻訳日:2023-04-25 03:05:10 公開日:2020-12-14
# 量子位相空間における2D$調和振動子のコーン距離

Connes distance of $2D$ harmonic oscillators in quantum phase space ( http://arxiv.org/abs/2011.09627v2 )

ライセンス: Link先を確認
Bing-Sheng Lin, Tai-Hua Heng(参考訳) 位相空間における2d$高調波振動子の量子状態のconnes距離について検討する。 ヒルベルト・シュミット作用素の定式化を用いて、ボソン・フォック空間と量子ヒルベルト空間を構築し、ディラック作用素と4D$量子位相空間に対応するスペクトル三重項を得る。 球体条件に基づいて最適要素に関する制約関係を求める。 対応する最適要素の明示的な表現を構築し、2d$量子調和振動子の2つの任意のフォック状態の間のconnes距離を導出する。 これらの2次元距離がピタゴラスの定理を満たすことを証明する。

We study the Connes distance of quantum states of $2D$ harmonic oscillators in phase space. Using the Hilbert-Schmidt operatorial formulation, we construct a boson Fock space and a quantum Hilbert space, and obtain the Dirac operator and a spectral triple corresponding to a $4D$ quantum phase space. Based on the ball condition, we obtain some constraint relations about the optimal elements. We construct the explicit expressions of the corresponding optimal elements and then derive the Connes distance between two arbitrary Fock states of $2D$ quantum harmonic oscillators. We prove that these two-dimensional distances satisfy the Pythagoras theorem.
翻訳日:2023-04-23 17:23:05 公開日:2020-12-14
# 変分量子アルゴリズムの効率的なベンチマークと初期化のための二次クリフォード拡張

Quadratic Clifford expansion for efficient benchmarking and initialization of variational quantum algorithms ( http://arxiv.org/abs/2011.09927v2 )

ライセンス: Link先を確認
Kosuke Mitarai and Yasunari Suzuki and Wataru Mizukami and Yuya O. Nakagawa and Keisuke Fujii(参考訳) 変分量子アルゴリズムは、短期量子コンピュータの応用に適していると考えられている。 しかし、それらが古典的アルゴリズムを上回ることができるかどうかは不明である。 その限界を明らかにするために,大規模問題に対するベンチマーク手法を探さなければならない。 本稿では,変分量子アルゴリズムの効率的なベンチマークのための摂動的アプローチを提案する。 提案手法は、クリフォード回路とパウリ回転ゲートからなる回路の摂動拡張を行い、クリフォード回路の古典的同化可能性を利用する。 本手法はクリフォードゲートと単一量子ビット回転ゲートからなる広範にパラメータ化された量子回路に適用できる。 この方法で得られた近似最適パラメータは、量子デバイス上のさらなる最適化のための初期推測としても機能し、いわゆる ‘barren-plateau' 問題を解く可能性がある。 この手法の最初の応用として,1次元水素鎖のvqeに対して,標準ワークステーションを用いて48ドルの量子ビットシステムに相当する$\mathrm{h}_{24}$ を適用した場合,いわゆるハードウェア効率のよいアンサットのベンチマークを行う。

Variational quantum algorithms are considered to be appealing applications of near-term quantum computers. However, it has been unclear whether they can outperform classical algorithms or not. To reveal their limitations, we must seek a technique to benchmark them on large scale problems. Here, we propose a perturbative approach for efficient benchmarking of variational quantum algorithms. The proposed technique performs perturbative expansion of a circuit consisting of Clifford and Pauli rotation gates, which is enabled by exploiting the classical simulatability of Clifford circuits. Our method can be applied to a wide family of parameterized quantum circuits consisting of Clifford gates and single-qubit rotation gates. The approximate optimal parameter obtained by the method can also serve as an initial guess for further optimizations on a quantum device, which can potentially solve the so-called ``barren-plateau'' problem. As the first application of the method, we perform a benchmark of so-called hardware-efficient-type ansatzes when they are applied to the VQE of one-dimensional hydrogen chains up to $\mathrm{H}_{24}$, which corresponds to $48$-qubit system, using a standard workstation.
翻訳日:2023-04-23 17:05:23 公開日:2020-12-14
# 絡み合い数について

Some Remarks on the Entanglement Number ( http://arxiv.org/abs/2012.01692v2 )

ライセンス: Link先を確認
George Androulakis and Ryan McGaha(参考訳) gudder氏は最近の論文で、エンタングルメント数と呼ばれる候補エンタングルメント測度を定義した。 エンタングルメント数はまず純粋な状態上で定義され、次に凸屋根構造によって混合状態へと拡張される。 グッダーの論文では、純粋な状態から混合状態への絡み合い数の凸屋根拡張に対して、最適純粋状態アンサンブル(OPSE)が存在することを示すオープン問題として残された。 我々はgudderの質問に対して肯定的に答える。したがって、エンタングルメント数は分離可能な状態上でのみ消滅する。 より一般には、有限次元ヒルベルト空間の純粋状態上のノルム連続である任意の函数の凸屋根拡大に対してopseが存在することを示す。 さらに,2000年に vidal によって開発された基準を用いて,絡み合い数が locc モノトーン(つまり絡み合い測度)であることを証明した。 そこで我々は, LOCC通信における木表現の興味深い視点を用いたVidalの結果の簡易な証明を提案する。 最後に、自然にエンタングルメントのエントロピーに収束する単調なエンタングルメントの族を生成することにより、グッダーのエンタングルメント数を一般化する。

Gudder, in a recent paper, defined a candidate entanglement measure which is called the entanglement number. The entanglement number is first defined on pure states and then it extends to mixed states by the convex roof construction. In Gudder's article it was left as an open problem to show that Optimal Pure State Ensembles (OPSE) exist for the convex roof extension of the entanglement number from pure to mixed states. We answer Gudder's question in the affirmative, and therefore we obtain that the entanglement number vanishes only on the separable states. More generally we show that OPSE exist for the convex roof extension of any function that is norm continuous on the pure states of a finite dimensional Hilbert space. Further we prove that the entanglement number is an LOCC monotone, (and thus an entanglement measure), by using a criterion that was developed by Vidal in 2000. We present a simplified proof of Vidal's result where moreover we use an interesting point of view of tree representations for LOCC communications. Lastly, we generalize Gudder's entanglement number by producing a monotonic family of entanglement measures which converge in a natural way to the entropy of entanglement.
翻訳日:2023-04-22 05:44:11 公開日:2020-12-14
# 曲面時空に局在した絡み合った粒子状態

Entangled particle-states localized on curved space-time ( http://arxiv.org/abs/2012.04458v2 )

ライセンス: Link先を確認
Vasileios I. Kiosses(参考訳) 本研究では,最近導入されたスカラー場の局所化スキームに基づき,スカラー場の粒子状態が局所化される時空の幾何学は,これらの状態の量子絡み合いと密接に関係していると主張する。 より具体的には、曲線化された時空上では局所化された絡み合った状態しか得られず、分離可能な状態は平坦な時空上にあることを示す。 その結果,ads/cft対応の文脈における最近の理論的発展と並行して,重力と量子絡み合いの関係が明らかになった。

In this work, based on a recently introduced localization scheme for scalar fields, we argue that the geometry of the space-time, where the particle states of a scalar field are localized, is intimately related to the quantum entanglement of these states. More specifically, we show that on curved space-time can only be localized entangled states, while separable states are located on flat space-time. Our result goes in parallel with recent theoretical developments in the context of AdS/CFT correspondence which uncovered connections between gravity and quantum entanglement.
翻訳日:2023-04-21 20:36:39 公開日:2020-12-14
# 横場における長距離相互作用型超一様スピン鎖の量子相転移

Quantum Phase Transitions in Long-Range Interacting Hyperuniform Spin Chains in a Transverse Field ( http://arxiv.org/abs/2012.06545v2 )

ライセンス: Link先を確認
Amartya Bose and Salvatore Torquato(参考訳) 物質の超均一状態は、長波長密度変動の異常抑制によって特徴づけられる。 乱れた超均一性の興味深い例は、液体やアモルファス固体のような複雑な多体系によって提供されるが、ある種の長距離相互作用を持つ古典的なスピン鎖は同じ現象を示すことが示されている。 逆場イジングモデルは、0温度で量子相転移(QPT)を示すことはよく知られている。 横磁場の量子効果の下では、古典的超一様スピン鎖はその超一様性を失うことが期待されている。 これらのケースの高精度シミュレーションは非常に非自明な長距離相互作用が存在するため、複雑である。 密度行列再正規化群を用いて, これらの系の広範な解析を行い, 相転移の可能性と超一様性を失うメカニズムについて検討した。 我々は超一様スピン鎖における一階QPTを発見する。 これらの不規則な超一様スピン鎖における相転移の興味深い特徴は、パラメータ値に応じて、超一様度が失われても「$\tau$オーダー計量」で測定された基底状態の順番が著しく増加するかもしれないことである。 したがって、横磁場の存在下で特定の新しい量子挙動をターゲットとする材料を設計することは可能である。 我々の数値的な研究は、これらのスピン鎖が2つのQPTしか示さないことを示唆している。 さらに、jordan-wignerマッピングによる長距離相互作用スピン鎖の解析を行い、対相互作用近似と平均場処理の下では最大2つのqptが存在することを示した。 これらの数値的および理論的探索に基づいて、これらのスピン鎖は0温度で最大2つのQPTを示すことができると推測する。

Hyperuniform states of matter are characterized by anomalous suppression of long-wavelength density fluctuations. While most of interesting cases of disordered hyperuniformity are provided by complex many-body systems like liquids or amorphous solids, classical spin chains with certain long-range interactions have been shown to demonstrate the same phenomenon. It is well-known that the transverse field Ising model shows a quantum phase transition (QPT) at zero temperature. Under the quantum effects of a transverse magnetic field, classical hyperuniform spin chains are expected to lose their hyperuniformity. High-precision simulations of these cases are complicated because of the presence of highly nontrivial long-range interactions. We perform extensive analysis of these systems using density matrix renormalization group to study the possibilities of phase transitions and the mechanism by which they lose hyperuniformity. We discover first-order QPTs in the hyperuniform spin chains. An interesting feature of the phase transitions in these disordered hyperuniform spin chains is that, depending on the parameter values, the presence of transverse magnetic field may remarkably lead to increase in the order of the ground state as measured by the "$\tau$ order metric," even if hyperuniformity is lost. Therefore, it would be possible to design materials to target specific novel quantum behaviors in the presence of a transverse magnetic field. Our numerical investigations suggest that these spin chains can show no more than two QPTs. We further analyze the long-range interacting spin chains via the Jordan-Wigner mapping, showing that under the pairwise interacting approximation and a mean-field treatment, there can be at most two QPTs. Based on these numerical and theoretical explorations, we conjecture that these spin chains can show a maximum of two QPTs at zero temperature.
翻訳日:2023-04-21 03:17:47 公開日:2020-12-14
# 一次元幾何学におけるトポロジカル超伝導体に対するマヨナブレイディングゲート

Majorana braiding gates for topological superconductors in a one dimensional geometry ( http://arxiv.org/abs/2012.06364v2 )

ライセンス: Link先を確認
Marek Narozniak, Matthieu Dartiailh, Jonathan P. Dowling, Javad Shabani, Tim Byrnes(参考訳) 1次元トポロジカル超伝導体(1DTS)におけるマヨラナゼロモード(MZM)を用いたトポロジカル量子計算が可能な物理系を提案し,解析する。 1DTSにおける量子ゲートを実現する主要な方法の1つは、Tジャンクションを使用することで、ブレイディングなどのMZMを操作できる。 本稿では、純粋に一次元の幾何学であり、T-ジャンクションを必要としないスキームを提案し、代わりに補助量子ビットで置き換える。 これにより 1 と 2 の論理量子ビット $ Z $ 回転を実行できることを示す。 まず、位相的に保護された論理的$Z$-gateを1DTS内の局所的相互作用に基づいて設計する。 トポロジカル超伝導体に結合した補助量子ビットを用いて、Z$ゲートを部分的トポロジカル保護を持つ単一および多ビット任意の回転に拡張する。 最後に、普遍量子コンピューティングを行うために、位相的保護なしに任意のユニタリ回転を行うスキームを導入する。 1DTS系の異なる位相相間の遷移を生成するユニタリブレイドに基づくフォーマリズムを開発する。 ユニタリ形式は、単純に等価な断熱スキームに変換できるので、数値的にシミュレートし、妥当なパラメータで高い忠実度演算が可能であることを示す。

We propose and analyze a physical system capable of performing topological quantum computation with Majorana zero modes (MZM) in a one-dimensional topological superconductor (1DTS). One of the leading methods to realize quantum gates in 1DTS is to use T-junctions, which allows one to maneuver MZMs such as to achieve braiding. In this paper, we propose a scheme that is in a purely one-dimensional geometry and does not require T-junctions, instead replacing it with an auxiliary qubit. We show that this allows one to perform one and two logical qubit $ Z $ rotations. We first design a topologically protected logical $Z$-gate based entirely on local interactions within the 1DTS. Using an auxiliary qubit coupled to the topological superconductors, we extend the $Z$-gate to single and multiqubit arbitrary rotations with partial topological protection. Finally, to perform universal quantum computing, we introduce a scheme for performing arbitrary unitary rotations, albeit without topological protection. We develop a formalism based on unitary braids which creates transitions between different topological phases of the 1DTS system. The unitary formalism can be simply converted to an equivalent adiabatic scheme, which we numerically simulate and show that high fidelity operations should be possible with reasonable parameters.
翻訳日:2023-04-21 03:14:43 公開日:2020-12-14
# 連続量子非破壊測定によるヘリウム3の核スピンスクイーズ

Nuclear spin squeezing in Helium-3 by continuous quantum nondemolition measurement ( http://arxiv.org/abs/2012.07216v1 )

ライセンス: Link先を確認
Alan Serafin, Matteo Fadel, Philipp Treutlein, Alice Sinatra(参考訳) 本研究では,光を用いてヘリウム-3蒸気の巨視的集合核スピンを制御する手法を提案する。 このスキームは、光学的にアクセス可能な準安定状態と基底状態の核スピンの間の相互作用を仲介するために準安定交換衝突に依存し、ファラデー形式の効果的な核スピン光量子非破壊相互作用を引き起こす。 本手法は,スピンスクイーズ状態の生成など,核スピンの測定に基づく量子制御を可能にする。 これはヘリウム3の核スピン状態の1日のコヒーレンス時間と組み合わさって、量子技術における多くの応用の可能性を開く。

We propose a technique to control the macroscopic collective nuclear spin of a Helium-3 vapor in the quantum regime using light. The scheme relies on metastability exchange collisions to mediate interactions between optically accessible metastable states and the ground-state nuclear spin, giving rise to an effective nuclear spin-light quantum nondemolition interaction of the Faraday form. Our technique enables measurement-based quantum control of nuclear spins, such as the preparation of spin-squeezed states. This, combined with the day-long coherence time of nuclear spin states in Helium-3, opens the possibility for a number of applications in quantum technology.
翻訳日:2023-04-20 21:36:34 公開日:2020-12-14
# 弱可積分性破れにおける準周期スピン鎖の超拡散の欠如

Absence of superdiffusion in the quasiperiodic spin chain at weak integrability breaking ( http://arxiv.org/abs/2012.07488v1 )

ライセンス: Link先を確認
Marko Znidaric(参考訳) 弱い可積分性破壊下での高温でのオーブリー・アンドレ・ハーパーモデルのスピン輸送特性、特に小さな相互作用や小さな磁場に対する関心がある。 我々は, モデルが拡散的であること, 主張された超拡散 [1,2] が有限サイズ効果であることを示す, 古い未公表および新しい結果を示す。

There has been interest in the spin transport properties of the Aubry-Andre-Harper model at high temperatures under weak integrability breaking, in particular for small interactions or small fields. We present old unpublished and new results that show that the model is diffusive, meaning that the claimed superdiffusion [1,2] is a finite-size effect.
翻訳日:2023-04-20 21:33:27 公開日:2020-12-14
# 高高度プラットフォームからの量子鍵分布の可能性

Feasibility of Quantum Key Distribution from High Altitude Platforms ( http://arxiv.org/abs/2012.07479v1 )

ライセンス: Link先を確認
Yi Chu, Ross Donaldson, Rupesh Kumar, and David Grace(参考訳) 本稿では,高高度プラットフォーム (haps) から量子鍵分布 (qkd) を配置することで,将来の通信アプリケーションとサービスを確保するための実現可能性について検討する。 この論文は、最先端のhap技術に関する詳細なレビューを提供し、hapがqkdサービスにもたらし得るメリットを要約している。 20kmの高度で飛行する成層圏HAPからQKDを届ける可能性を評価するために,詳細なリンク予算分析を行った。 その結果、ほとんどの操作条件下では、分岐ビームを使用する可能性があり、これにより、光学系のHAPおよび地上でのポイント、取得、追跡(PAT)を簡素化し、QKDが有効なソリューションになり得る将来のユースケースの範囲を広げる可能性が示唆された。

This paper presents the feasibility study of deploying Quantum Key Distribution (QKD) from High Altitude Platforms (HAPs), as a way of securing future communications applications and services. The paper provides a thorough review of the state of the art HAP technologies and summarises the benefits that HAPs can bring to the QKD services. A detailed link budget analysis is presented in the paper to evaluate the feasibility of delivering QKD from stratospheric HAPs flying at 20 km altitude. The results show a generous link budget under most operating conditions which brings the possibility of using diverged beams, thereby simplifying the Pointing, Acquisition and Tracking (PAT) of the optical system on the HAPs and ground, potentially widening the range of future use cases where QKD could be a viable solution.
翻訳日:2023-04-20 21:33:18 公開日:2020-12-14
# 公共政策に影響を及ぼす犬の国勢調査

A Canine Census to Influence Public Policy ( http://arxiv.org/abs/2012.07475v1 )

ライセンス: Link先を確認
Matias Apa and Maria Cecilia Faini and Mohammad Aliannejadi and Maria Soledad Pera(参考訳) 家畜が人間の健康に影響を及ぼす潜在的な脅威は見過ごされがちである。 この分野では、適切な国全体の公共政策を通じて、前向きな措置がとれると仮定する。 本稿では,カシルダ(アルゼンチンの都市)において,犬の国勢調査の文脈で実施されたデータ収集プロセスについて述べる。 本研究は,多くの視点からデータから得られた予備的な知見と,これらの知見が公共政策に影響を及ぼす可能性について概説する。

The potential threat that domestic animals pose to the health of human populations tends to be overlooked. We posit that positive steps forward can be made in this area, via suitable state-wide public policy. In this paper, we describe the data collection process that took place in Casilda (a city in Argentina), in the context of a canine census. We outline preliminary findings emerging from the data, based on a number of perspectives, along with implications of these findings in terms of informing public policy.
翻訳日:2023-04-20 21:33:03 公開日:2020-12-14
# 3つの解集合を持つ進化的多目的最適化アルゴリズムフレームワーク

Evolutionary Multi-Objective Optimization Algorithm Framework with Three Solution Sets ( http://arxiv.org/abs/2012.07319v1 )

ライセンス: Link先を確認
Hisao Ishibuchi and Lie Meng Pang and Ke Shang(参考訳) 進化的多目的最適化(EMO)コミュニティでは、最終解は、EMOアルゴリズムによって得られた非支配的解集合から決定者によって選択されると仮定される。 意思決定者に提示されるソリューションの数は,まったく違います。 意思決定者は、最終的な解が選択されるいくつかの代表的解のみを調べたい場合もあります。 その他のケースでは、paretoフロントを視覚化するために多数の非支配的なソリューションが必要である。 本稿では,3つのソリューションセットを備えた汎用 EMO フレームワークを用いて,必要なソリューション数について様々な状況を扱うことを提案する。 3つのソリューションセットは、EMOアルゴリズムの主要な集団であり、将来性のあるソリューションを格納するための外部アーカイブであり、最終的なソリューションセットは意思決定者に提示される。 最終的な解集合はアーカイブから選択される。 したがって、アーカイブサイズが必要なソリューションの数より小さい限り、人口サイズとアーカイブサイズを任意に指定することができる。 最終的な人口は意思決定者に提示されないので、必ずしも良い解決法であるとは限らない。 計算実験を通じて,このフレームワークが標準のfinal populationおよびfinal archiveフレームワークよりも優れていることを示す。 また、最終ソリューションセットの選択方法や、選択の理由を説明する方法についても議論する。

It is assumed in the evolutionary multi-objective optimization (EMO) community that a final solution is selected by a decision maker from a non-dominated solution set obtained by an EMO algorithm. The number of solutions to be presented to the decision maker can be totally different. In some cases, the decision maker may want to examine only a few representative solutions from which a final solution is selected. In other cases, a large number of non-dominated solutions may be needed to visualize the Pareto front. In this paper, we suggest the use of a general EMO framework with three solution sets to handle various situations with respect to the required number of solutions. The three solution sets are the main population of an EMO algorithm, an external archive to store promising solutions, and a final solution set which is presented to the decision maker. The final solution set is selected from the archive. Thus the population size and the archive size can be arbitrarily specified as long as the archive size is not smaller than the required number of solutions. The final population is not necessarily to be a good solution set since it is not presented to the decision maker. Through computational experiments, we show the advantages of this framework over the standard final population and final archive frameworks. We also discuss how to select a final solution set and how to explain the reason for the selection, which is the first attempt towards an explainable EMO framework.
翻訳日:2023-04-20 21:32:44 公開日:2020-12-14
# テンソルネットワーク符号における多重論理量子ビットの並列復号

Parallel decoding of multiple logical qubits in tensor-network codes ( http://arxiv.org/abs/2012.07317v1 )

ライセンス: Link先を確認
Terry Farrelly, Robert J. Harris, Nathan A. McMahon, Thomas M. Stace(参考訳) テンソル・ネットワーク安定化符号を考察し,そのテンソル・ネットワーク復号器が独立論理量子ビットを並列に復号化可能であることを示す。 誤差率がしきい値以下である限り、この並列デコーダは本質的に最適であることを示す。 適用例として,最大速度のホログラムステン(ヘプタゴン)コードについて検証する。 ホログラフィック符号では、このテンソルネットワークデコーダは、n の複雑性多項式(物理量子ビット数)と効率的であることが示されている。 ここで、並列復号スキームを用いることで、k における複雑性もまた線形であり、論理量子ビットの数であることを示す。 テンソルネットワークの収縮は計算的に効率的であるため、最大50万キュービットの符号に対応するテンソルネットワークを正確に収縮させることができる。 最後に、最大レートのホログラフィックステレオ符号の偏極雑音下でのバルクしきい値(符号中心から一定距離の論理量子ビットのしきい値)を9.4%とする。

We consider tensor-network stabilizer codes and show that their tensor-network decoder has the property that independent logical qubits can be decoded in parallel. As long as the error rate is below threshold, we show that this parallel decoder is essentially optimal. As an application, we verify this for the max-rate holographic Steane (heptagon) code. For holographic codes this tensor-network decoder was shown to be efficient with complexity polynomial in n, the number of physical qubits. Here we show that, by using the parallel decoding scheme, the complexity is also linear in k, the number of logical qubits. Because the tensor-network contraction is computationally efficient, this allows us to exactly contract tensor networks corresponding to codes with up to half a million qubits. Finally, we calculate the bulk threshold (the threshold for logical qubits a fixed distance from the code centre) under depolarizing noise for the max-rate holographic Steane code to be 9.4%.
翻訳日:2023-04-20 21:32:26 公開日:2020-12-14
# トレースクラス演算子のモジュラ構造と無限退化系の熱力学平衡状態への応用

Modular Structures on Trace Class Operators and Applications to Themodynamical Equilibrium States of Infinitely Degenerate Systems ( http://arxiv.org/abs/2012.07643v1 )

ライセンス: Link先を確認
Ricardo Correa da Silva(参考訳) 我々は無限に縮退したハミルトニアンの熱平衡状態(kms状態)の研究、特にランダウ準位の例について研究する。 我々は、無限退化系を記述するのに適した代数の例ですべてのKMS状態を分類し、ランダウ・ハミルトニアンに対応する巡回および分離ベクトルが存在しないことを示す。 そして、Hag Hugenholtz と Winnink による KMS 状態の理論の始まりで用いられるような有限箱の熱力学的極限を再現しようと試みる。 最後に、非$\sigma$-additive probabilities、非正規または半有限状態、特異(dixmier)状態、従ってkms状態の概念の拡張の観点から状況について議論する。

We study the thermal equilibrium states (KMS states) of infinitely degenerate Hamiltonians, in particular, we study the example of the Landau levels. We classify all KMS states in an example of algebra suitable for describing infinitely degenerate systems and we show that there is no cyclic and separating vector corresponding to the Landau Hamiltonian. Then, we try to reproduce the thermodynamical limit of a finite box as used in the very beginning of the theory of KMS states by Haag Hugenholtz and Winnink. Finally, we discuss the situation from the point of view of non-$\sigma$-additive probabilities, non-normal nor semifinite states, singular (Dixmier) states and, hence, an extension of the concept of KMS state.
翻訳日:2023-04-20 21:23:51 公開日:2020-12-14
# 島公式のホログラフィック対応としての欠陥極端表面

Defect extremal surface as the holographic counterpart of Island formula ( http://arxiv.org/abs/2012.07612v1 )

ライセンス: Link先を確認
Feiyu Deng, Jinwei Chu, Yang Zhou(参考訳) 本稿では,境界量子超曲面のホログラフィーとして欠陥極表面を提案する。 欠陥面は、欠陥理論によって補正された龍高柳面を最小化することによって定義される。 これは、RT表面が欠陥を横切るか、終了するときに特に興味深い。 AdS/BCFT の簡単な設定では、欠陥極端曲面公式は境界量子極端曲面と正確に同じ結果を与える。 本稿では, 欠陥ブレーン付きAdSバルクの分解手順を提案し, 平らな空間量子場理論に重み付けされたブレーン世界システムから島式がどのように現れるかを明らかにする。

We propose defect extremal surface as the holographic counterpart of boundary quantum extremal surface. The defect extremal surface is defined by minimizing the Ryu-Takayanagi surface corrected by the defect theory. This is particularly interesting when the RT surface crosses or terminates on the defect. In a simple set up of AdS/BCFT, we find that the defect extremal surface formula gives precisely the same results of the boundary quantum extremal surface. We provide a decomposition procedure of an AdS bulk with a defect brane to see clearly how Island formula emerges from a brane world system with gravity glued to a flat space quantum field theory.
翻訳日:2023-04-20 21:23:25 公開日:2020-12-14
# 超伝導量子コヒーレント回路損失の局在と低減

Localization and reduction of superconducting quantum coherent circuit losses ( http://arxiv.org/abs/2012.07604v1 )

ライセンス: Link先を確認
M. Virginia P. Alto\'e, Archan Banerjee, Cassidy Berk, Ahmed Hajr, Adam Schwartzberg, Chengyu Song, Mohammed Al Ghadeer, Shaul Aloni, Michael J. Elowson, John Mark Kreikebaum, Ed K. Wong, Sinead Griffin, Saleem Rao, Alexander Weber-Bargioni, Andrew M. Minor, David I. Santiago, Stefano Cabrini, Irfan Siddiqi and D. Frank Ogletree(参考訳) 量子センシングと計算は超伝導マイクロ波回路で実現できる。 量子ビットは、非線型ジョセフソン接合を持つキャパシタとインダクタの量子システムである。 単一励起量子状態にあり、光子は217 \mu$eVで6.5GHzである。 量子コヒーレンスは物質欠陥、特に回路界面におけるアモルファス誘電体中の原子スケール寄生2レベル系(tls)によって基本的に制限される。 量子回路における振動電荷を駆動する電界はTLSに共鳴的に結合し、位相ノイズと散逸を生じる。 我々はコプラナーニオブオンシリコン超伝導共振器を用いて量子回路のデコヒーレンスを探索する。 界面誘電体を選択的に修飾することにより, シリコン表面酸化膜からTLS損失の大部分が得られ, 非TLS損失のほとんどがニオブ表面酸化膜全体に分布することを示した。 加工後インタフェースの変更によりTLS損失は85%減少し, 非TLS損失は72%減少し, 記録的な単光子共振器品質因子を500万以上獲得し, 非TLS損失が支配的な体制に近づいた。 [1]m\"uller, c., cole, j. h. & lisenfeld, j. アモルファス固体における2レベル系の理解に向けて: 量子回路からの洞察。 プログ代表。 Phys 82, 124501 (2019)

Quantum sensing and computation can be realized with superconducting microwave circuits. Qubits are engineered quantum systems of capacitors and inductors with non-linear Josephson junctions. They operate in the single-excitation quantum regime, photons of $27 \mu$eV at 6.5 GHz. Quantum coherence is fundamentally limited by materials defects, in particular atomic-scale parasitic two-level systems (TLS) in amorphous dielectrics at circuit interfaces.[1] The electric fields driving oscillating charges in quantum circuits resonantly couple to TLS, producing phase noise and dissipation. We use coplanar niobium-on-silicon superconducting resonators to probe decoherence in quantum circuits. By selectively modifying interface dielectrics, we show that most TLS losses come from the silicon surface oxide, and most non-TLS losses are distributed throughout the niobium surface oxide. Through post-fabrication interface modification we reduced TLS losses by 85% and non-TLS losses by 72%, obtaining record single-photon resonator quality factors above 5 million and approaching a regime where non-TLS losses are dominant. [1]M\"uller, C., Cole, J. H. & Lisenfeld, J. Towards understanding two-level-systems in amorphous solids: insights from quantum circuits. Rep. Prog. Phys. 82, 124501 (2019)
翻訳日:2023-04-20 21:22:45 公開日:2020-12-14
# 外空間における長いベースラインとの量子テレポーテーションと絡み合い交換

Quantum teleportation and entanglement swapping with long baseline in outer space ( http://arxiv.org/abs/2012.07590v1 )

ライセンス: Link先を確認
Shih-Yuin Lin and B. L. Hu(参考訳) 非常に長いベースラインを持つ宇宙空間で量子光学を応用した量子情報実験は、光透過の損失を最小化し、時間分解能の利得を最大化できるため、現在の地球境界実験や地球から衛星実験よりも有利である可能性がある。 量子テレポーテーションとエンタングルメントスワップを含む未来の実験は、重力量子物理学や相対論的量子情報における多くの基本的な理論的問題に光を当てることができる。 相対性理論に関して、これらの実験は、空間的および時間的分離のオブザーバーを巻き込み、異なる時間スライシングの選択から引き起こされる現象を説明できる。 量子情報に関しては、ベル試験における期待値の因果独立性を保証することができるかもしれない。 これらの問題は分析と説明を伴う論文で論じられている。

Quantum information experiments applying quantum optics in outer space with a very long baseline may have advantages over the current earth-bound experiments or the earth-to-satellite experiments because they can minimize the loss in light transmission and maximize the gain in time resolution. This future class of experiments, amongst them quantum teleportation and entanglement swapping, can shed light on many fundamental theoretical issues in gravitational quantum physics and relativistic quantum information. Regarding relativity theory, these experiments in an outer-space setting can involve observers at spacelike and timelike separations and explicate intriguing phenomena from different choices of time-slicing. Regarding quantum information, they may be able to ensure the causal independence of the expectation values in the Bell test. These issues are addressed in this paper with analysis and explanations.
翻訳日:2023-04-20 21:22:07 公開日:2020-12-14
# オープン量子システムの最適量子シミュレーション

Optimal quantum simulation of open quantum systems ( http://arxiv.org/abs/2012.07540v1 )

ライセンス: Link先を確認
Pragati Gupta and C. M. Chandrashekar(参考訳) 量子システムのデジタル量子シミュレーションは、有限量子資源を用いて実装できるアルゴリズムを必要とする。 最近の研究は、NISQデバイス上でのオープン量子システムのディジタル量子シミュレーションを実証している。 本研究ではマルコフおよび非マルコフ開量子系の最適シミュレーションのための量子回路を開発する。 回路は環境をシミュレートするためにアンシラキュービットを使用し、余分なキュービット上にシステムに関する情報を保存することでメモリ効果を誘導する。 動的に非単調な挙動から(非)マルコビアン性(Non-)マルコビアン性)を推定する枠組みの例として,振幅減衰チャネルとデファシングチャネルをシミュレートする。 さらに、複雑なオープン量子力学を小さな部分に分解してシミュレーションを最適化する手法を開発し、少数の量子ビットを用いてシミュレートできる。 この最適化は、環境をシミュレートするために、量子空間の複雑さを$O(l)$から$O(1)$に減らすことを示す。

Digital quantum simulation on quantum systems require algorithms that can be implemented using finite quantum resources. Recent studies have demonstrated digital quantum simulation of open quantum systems on Noisy Intermediate-Scale Quantum (NISQ) devices. In this work, we develop quantum circuits for optimal simulation of Markovian and Non-Markovian open quantum systems. The circuits use ancilla qubits to simulate the environment, and memory effects are induced by storing information about the system on extra qubits. We simulate the amplitude damping channel and dephasing channel as examples of the framework and infer (Non-)Markovianity from the (non-)monotonic behaviour of the dynamics. Further, we develop a method to optimize simulations by decomposing complex open quantum dynamics into smaller parts, that can be simulated using a small number of qubits. We show that this optimization reduces quantum space complexity from $O(l)$ to $O(1)$ for simulating the environment.
翻訳日:2023-04-20 21:21:41 公開日:2020-12-14
# 自由意志」と「量子力学」

Free Will and Quantum Mechanics: Much Ado about Nothing ( http://arxiv.org/abs/2012.07801v1 )

ライセンス: Link先を確認
Stephen Boughn(参考訳) 最近の一連の論文と講義で、ジョン・コンウェイとサイモン・コーチェンは自由意志定理を発表した。 「大まかに言えば、人間が本当に自由意志を持っているなら、素粒子はすでにこの貴重品のごく一部しか持っていない。」 彼らの論文の主な動機は、量子力学的に隠された変数理論に厳密な制約を課すことであった。 それでも、自由意志の概念は証明に不可欠であり、素粒子に与えられる自由意志が我々の自由意志の究極的な説明であるとも推測している。 私は彼らの証明の数学や論理に挑戦するのではなく、彼らの前提に挑戦する。 自由意志と決定論は、私にとっては、理論的な証明の基礎を形成するための十分な明確さがほとんどない。 さらに、さらなる説明を必要とする量子力学における補足的な概念を考慮に入れている。 自由意志定理(free will theorem)によってどのような効用が与えられるのか、つまり何であれそれに従うものなのか、私にははっきりしない。 私のエッセイの派手な副題にもかかわらず、隠れ変数の議論や量子力学の他の解釈への自由意志の明示的な導入は、これらの議論の多くで偽造を露呈するのに役立ちます。 この理由から、コンウェイ=コーチェン自由意志定理は量子力学の哲学への肯定的な貢献であると考える。

In a recent series of papers and lectures, John Conway and Simon Kochen presented The Free Will Theorem. "It asserts, roughly, that if indeed we humans have free will, then elementary particles already have their own small share of this valuable commodity." Perhaps the primary motivation of their papers was to place stringent constraints on quantum mechanical hidden variable theories, which they indeed do. Nevertheless, the notion of free will is crucial to the proof and they even speculate that the free will afforded to elementary particles is the ultimate explanation of our own free will. I don't challenge the mathematics/logic of their proof but rather their premises. Free will and determinism are, for me, not nearly adequately clarified for them to form the bases of a theoretical proof. In addition, they take for granted supplemental concepts in quantum mechanics that are in need of further explanation. It's also not clear to me what utility is afforded by the free will theorem, i.e., what, if anything, follows from it. Despite the cheeky subtitle of my essay, I do think that the explicit introduction of free will into discussions of hidden variables and other interpretations of quantum mechanics might help expose foibles in many of those deliberations. For this reason, I consider the Conway-Kochen free will theorem to be a positive contribution to the philosophy of quantum mechanics.
翻訳日:2023-04-20 21:14:47 公開日:2020-12-14
# 古典的・量子的歩行の作業時間

Occupation time for classical and quantum walks ( http://arxiv.org/abs/2012.07786v1 )

ライセンス: Link先を確認
F. A. Grunbaum and L. Velazquez and J. Wilkening(参考訳) これは、70歳の誕生日にランス・リトルジョンに献呈されたものである。 それは彼の長年の友情への贈り物としての意味である。 エドマンド・ランダウ(edmund landau)の「satz-beweis」スタイルや標準的な数学論文の形式には書かれていない。 それはむしろ、lanceが午後に読んで楽しんでくれることを願って、かなり新しく、ほとんど探究されていないトピックへの招待だ。 もし彼が完全な証明に関心があるなら、彼はもう少し待たなければならないだろう。 我々は、この数字が彼や他の読者にこの現象が十分に興味深いと納得させることを期待している。

This is a personal tribute to Lance Littlejohn on the occasion of his 70th birthday. It is meant as a present to him for many years of friendship. It is not written in the "Satz-Beweis" style of Edmund Landau or even in the format of a standard mathematics paper. It is rather an invitation to a fairly new, largely unexplored, topic in the hope that Lance will read it some afternoon and enjoy it. If he cares about complete proofs he will have to wait a bit longer; we almost have them but not in time for this volume. We hope that the figures will convince him and other readers that the phenomena displayed here are interesting enough.
翻訳日:2023-04-20 21:14:22 公開日:2020-12-14
# #TulsaFlop:TikTokにおけるアルゴリズムによる集団行動のケーススタディ

#TulsaFlop: A Case Study of Algorithmically-Influenced Collective Action on TikTok ( http://arxiv.org/abs/2012.07716v1 )

ライセンス: Link先を確認
Jack Bandy, Nicholas Diakopoulos(参考訳) オクラホマ州タルサで、米国の大統領再選集会が予想より小さな群衆を集めたとき、多くの人がtiktokユーザーによって組織された集団行動が投票率が低いと考えた。 この研究は、TikTokの人気の高まりと社会政治的な意味の高まりに動機付けられ、TikTokの推奨アルゴリズムがタルサ集会に対する集団行動を促進するコール・ツー・アクション・ビデオを増幅する役割を探求している。 我々は600人以上のTikTokユーザーからのコール・ツー・アクション・ビデオを分析し、これらのビデオの可視性(再生回数)を、同じユーザーが公開している他のビデオと比較する。 エビデンスによると、タルサに関連するビデオは一般的により多くのプレイを受けており、場合によっては増幅は劇的である。 例えば、あるユーザーのコール・ツー・アクションビデオは200万回以上再生されたが、ユーザーによる他のビデオは10万回以上再生され、ユーザーは2万人未満であった。 統計的モデリングは、再生回数の増加は、呼び出し対アクションビデオの体系的な増幅よりも、エンゲージメントの増加によって説明されることを示している。 最後に,社会政治的なメッセージを増幅するレコメンダアルゴリズムの意義を議論し,今後の作業に有望ないくつかの領域を動機付ける。

When a re-election rally for the U.S. president drew smaller crowds than expected in Tulsa, Oklahoma, many people attributed the low turnout to collective action organized by TikTok users. Motivated by TikTok's surge in popularity and its growing sociopolitical implications, this work explores the role of TikTok's recommender algorithm in amplifying call-to-action videos that promoted collective action against the Tulsa rally. We analyze call-to-action videos from more than 600 TikTok users and compare the visibility (i.e. play count) of these videos with other videos published by the same users. Evidence suggests that Tulsa-related videos generally received more plays, and in some cases the amplification was dramatic. For example, one user's call-to-action video was played over 2 million times, but no other video by the user exceeded 100,000 plays, and the user had fewer than 20,000 followers. Statistical modeling suggests that the increased play count is explained by increased engagement rather than any systematic amplification of call-to-action videos. We conclude by discussing the implications of recommender algorithms amplifying sociopolitical messages, and motivate several promising areas for future work.
翻訳日:2023-04-20 21:13:49 公開日:2020-12-14
# Relaxed Peephole Optimization: 量子回路のための新しいコンパイラ最適化

Relaxed Peephole Optimization: A Novel Compiler Optimization for Quantum Circuits ( http://arxiv.org/abs/2012.07711v1 )

ライセンス: Link先を確認
Ji Liu, Luciano Bello, Huiyang Zhou(参考訳) 本稿では,量子コンピュータのための新しい量子コンパイラ最適化法である relaxed peephole optimization (rpo) を提案する。 RPOは、コンパイラによって静的に決定できる単一キュービット状態情報を活用する。 量子ビットが基底状態であるとは、与えられた時点においてその状態が x-, y-, z-basis のいずれかにあるときに定義する。 基底量子ビットを量子ゲートへの入力として使用すると、量子演算を等価だが安価に置き換える強度低下の機会がある。 量子プログラムの既存のピープホール最適化と比較すると、提案する最適化は同一のユニタリ行列を必要としないため、'relaxed' ピープホール最適化と呼ばれる。 また、いくつかの入力量子ビットが既知の純粋状態にあるとき、量子ゲートを最適化するアプローチも拡張します。 量子基底状態最適化(QBO)と量子純状態最適化(QPO)の2つの最適化はIBMのQiskitトランスパイラで実装されている。 実験の結果,提案手法は高速かつ効果的であることがわかった。 コンパイラ最適化で最適化された回路は、qiskitコンパイラの最も積極的な最適化レベルよりも18.0% (平均11.7%) 少ないcnotゲートと8.2% (平均7.1%) 低いトランスパイル時間を得る。 実量子コンピュータ上で動作した場合、3量子ビットの量子位相推定アルゴリズムの成功率はゲート数の減少により2.30倍向上した。

In this paper, we propose a novel quantum compiler optimization, named relaxed peephole optimization (RPO) for quantum computers. RPO leverages the single-qubit state information that can be determined statically by the compiler. We define that a qubit is in a basis state when, at a given point in time, its state is either in the X-, Y-, or Z-basis. When basis qubits are used as inputs to quantum gates, there exist opportunities for strength reduction, which replaces quantum operations with equivalent but less expensive ones. Compared to the existing peephole optimization for quantum programs, the difference is that our proposed optimization does not require an identical unitary matrix, thereby named `relaxed' peephole optimization. We also extend our approach to optimize the quantum gates when some input qubits are in known pure states. Both optimizations, namely the Quantum Basis-state Optimization (QBO) and the Quantum Pure-state Optimization (QPO), are implemented in the IBM's Qiskit transpiler. Our experimental results show that our proposed optimization pass is fast and effective. The circuits optimized with our compiler optimizations obtain up to 18.0% (11.7% on average) fewer CNOT gates and up to 8.2% (7.1% on average) lower transpilation time than that of the most aggressive optimization level in the Qiskit compiler. When running on real quantum computers, the success rates of 3-qubit quantum phase estimation algorithm improve by 2.30X due to the reduced gate counts.
翻訳日:2023-04-20 21:13:27 公開日:2020-12-14
# 位相コントラスト電子顕微鏡用高出力近心ファブリペロキャビティ

High-Power Near-Concentric Fabry-Perot Cavity for Phase Contrast Electron Microscopy ( http://arxiv.org/abs/2012.08638v1 )

ライセンス: Link先を確認
Carter Turnbaugh, Jeremy J. Axelrod, Sara L. Campbell, Jeske Y. Dioquino, Petar N. Petrov, Jonathan Remis, Osip Schwartz, Zanlin Yu, Yifan Cheng, Robert M. Glaeser, Holger Mueller(参考訳) 生体高分子(cryo-EM)の透過電子顕微鏡(TEM)は、これらの試料から得られる弱い位相コントラスト信号によって制限される。 位相板を用いると信号対雑音比が大幅に向上する。 我々は以前,TEMの位相板として高出力ファブリペロキャビティを用いたことを実証した。 現在, レーザーキャビティの改良により, 300keV電子に対して最適な90{\deg相シフトを生じるのに十分な450GW/cm$^{2}$以上の連続波強度を達成できることを示す。 また,レーザ位相板を用いた第1回低温EM再構成を行い,このレーザ位相板の安定性が標準低温EMデータ収集に有用であることを実証した。

Transmission electron microscopy (TEM) of vitrified biological macromolecules (cryo-EM) is limited by the weak phase contrast signal that is available from such samples. Using a phase plate would thus substantially improve the signal-to-noise ratio. We have previously demonstrated the use of a high-power Fabry-Perot cavity as a phase plate for TEM. We now report improvements to our laser cavity that allow us to achieve record continuous-wave intensities of over 450 GW/cm$^{2}$, sufficient to produce the optimal 90{\deg} phase shift for 300 keV electrons. In addition, we have performed the first cryo-EM reconstruction using a laser phase plate, demonstrating that the stability of this laser phase plate is sufficient for use during standard cryo-EM data collection.
翻訳日:2023-04-20 21:05:05 公開日:2020-12-14
# サンプリングと自然の複雑さ

Sampling and the complexity of nature ( http://arxiv.org/abs/2012.07905v1 )

ライセンス: Link先を確認
Dominik Hangleiter(参考訳) ランダム性は量子論の本質的な特徴である。 任意の量子測定の結果は、測定された量子状態によって定義される確率分布からランダムにサンプリングされる。 したがって、所定の確率分布からサンプリングするタスクは、量子デバイスの自然な技術応用である。 本論文では,量子サンプリングアルゴリズムの複雑性理論と物理基盤について考察する。 量子サンプラーの古典的難解性に関する複雑性理論的議論における自然量子シミュレータと閉ループホールの計算能力を評価する(その1)。 量子サンプリングデバイスを、古典的なコンピュータではシミュレートできないレジームでテストしたり、検証したりできる状況(パートII)について、光を当てました。 最後に、古典的および量子コンピューティングデバイス間の計算境界について検討する(第3部)。 特に, 悪名高いモンテカルロ符号問題の効率的に計算可能な尺度を開発し, それらの尺度を, 符号問題の緩和や緩和, 計算の複雑さの指標として実用性の観点から評価する。 論文の包括的なテーマは、本質的に量子効果である経路間の破壊的な干渉によって生じる量子サイン問題である。 符号問題の存在(非存在)は、古典的および量子コンピューティングデバイスの境界を規定する基準としての役割を担っている。 まず,量子符号問題を,量子出力確率の計算的難解性の根源として同定する。 符号問題が引き起こす確率分布の複雑な構造は、少数のサンプルからの検証を禁止していることが判明した。 皮肉なことに、量子システムの固有符号問題の評価は、再び難解な問題であることを示している。

Randomness is an intrinsic feature of quantum theory. The outcome of any quantum measurement will be random, sampled from a probability distribution that is defined by the measured quantum state. The task of sampling from a prescribed probability distribution is therefore a natural technological application of quantum devices. In the research presented in this thesis, I investigate the complexity-theoretic and physical foundations of quantum sampling algorithms. I assess the computational power of natural quantum simulators and close loopholes in the complexity-theoretic argument for the classical intractability of quantum samplers (Part I). I shed light on how and under which conditions quantum sampling devices can be tested or verified in regimes that are not simulable on classical computers (Part II). Finally, I explore the computational boundary between classical and quantum computing devices (Part III). In particular, I develop efficiently computable measures of the infamous Monte Carlo sign problem and assess those measures both in terms of their practicability as a tool for alleviating or easing the sign problem and the computational complexity of this task. An overarching theme of the thesis is the quantum sign problem which arises due to destructive interference between paths -- an intrinsically quantum effect. The (non-)existence of a sign problem takes on the role as a criterion which delineates the boundary between classical and quantum computing devices. I begin the thesis by identifying the quantum sign problem as a root of the computational intractability of quantum output probabilities. It turns out that the intricate structure of the probability distributions the sign problem gives rise to, prohibits their verification from few samples. In an ironic twist, I show that assessing the intrinsic sign problem of a quantum system is again an intractable problem.
翻訳日:2023-04-20 21:04:01 公開日:2020-12-14
# ブラックホールマイクロステート対添加性予想

Black hole microstates vs. the additivity conjectures ( http://arxiv.org/abs/2012.07861v1 )

ライセンス: Link先を確認
Patrick Hayden and Geoff Penington(参考訳) 我々は、以下の文の1つが真実でなければならないと主張する。 (a)量子情報理論の加法性予想の広範な違反が存在するか (b)bekenstein-hawkingのエントロピー全体を説明できる一連の「不連続」ブラックホールのマイクロステートが存在しており、少なくとも最低でも$o(1)$補正を導くことができる。 可能性 a) 量子通信理論における重要な結果であり、エンタングルメントは、現在確立されている以上の情報伝達能力を高めることができる。 オプション b) ブラックホールの微細物理学に関する新たな知見を提供する。 特に、歪んだマイクロステートは、AdS/CFTのエンタングルメントエントロピーを計算するための量子極端表面処方の妥当性を仮定して、ブラックホールの地平線または外側に非自明な構造を持つ必要がある。

We argue that one of the following statements must be true: (a) extensive violations of quantum information theory's additivity conjectures exist or (b) there exists a set of `disentangled' black hole microstates that can account for the entire Bekenstein-Hawking entropy, up to at most a subleading $O(1)$ correction. Possibility (a) would be a significant result in quantum communication theory, demonstrating that entanglement can enhance the ability to transmit information much more than has currently been established. Option (b) would provide new insight into the microphysics of black holes. In particular, the disentangled microstates would have to have nontrivial structure at or outside the black hole horizon, assuming the validity of the quantum extremal surface prescription for calculating entanglement entropy in AdS/CFT.
翻訳日:2023-04-20 21:03:24 公開日:2020-12-14
# 創発的コミュニケーションの一般化

Generalizing Emergent Communication ( http://arxiv.org/abs/2001.01772v3 )

ライセンス: Link先を確認
Thomas A. Unger, Elia Bruni(参考訳) 我々は,最近開発されたbabyai grid world platformを送信者/受信者設定に変換し,確立された深層強化学習技術が一般化エージェント間の接地離散通信プロトコルの出現を動機づけるのに十分な仮説を検証した。 これは、ストレートスルー推定や特殊帰納バイアスを用いた以前の実験とは対照的である。 この結果から, 適切な環境インセンティブを提供することにより, 実際に回避できることが示唆された。 さらに、コミュニケーション間の長い間隔がより抽象的な意味論にインセンティブを与えることを示した。 ある場合には、通信エージェントはモノリシックエージェントよりも早く新しい環境に適応し、転送学習や一般化のための創発的なコミュニケーションの可能性を示した。

We converted the recently developed BabyAI grid world platform to a sender/receiver setup in order to test the hypothesis that established deep reinforcement learning techniques are sufficient to incentivize the emergence of a grounded discrete communication protocol between generalized agents. This is in contrast to previous experiments that employed straight-through estimation or specialized inductive biases. Our results show that these can indeed be avoided, by instead providing proper environmental incentives. Moreover, they show that a longer interval between communications incentivized more abstract semantics. In some cases, the communicating agents adapted to new environments more quickly than a monolithic agent, showcasing the potential of emergent communication for transfer learning and generalization in general.
翻訳日:2023-01-14 02:26:52 公開日:2020-12-14
# 断熱量子計算は量子オートマトン理論にどのように適合するか?

How Does Adiabatic Quantum Computation Fit into Quantum Automata Theory? ( http://arxiv.org/abs/2001.05247v3 )

ライセンス: Link先を確認
Tomoyuki Yamakami(参考訳) 量子計算は、現在知られているどの古典計算アルゴリズムよりも高速に、正の整数を分解し、データベースを探索する際の顕著な効率を実証した。 量子システムの断熱進化は、量子計算を物理的に実現する潜在的な手段として研究されている。 これまで、断熱量子システムに関するすべての研究は多項式時限計算を扱ってきたが、断熱量子システムでは一定のメモリ空間のみを消費するなど、ほとんど注意が払われていない。 このような量子系は、量子有限オートマトンに似た形でモデル化することができる。 この表現は、断熱的な量子計算を急速に進行する量子オートマトン理論の枠組みにどのように適合させるかという大胆な疑問に挑む。 この卓越した疑問に対する答えとして、我々はまず、限られた計算資源(サイズ、エネルギー、スペクトルギャップなど)で断熱的進化量子システム(AEQS)を実行し、量子有限オートマトン(英語版)の適切なファミリーを演算してそのようなAEQSを構築する方法を確立するための基礎的なプラットフォームを構築した。 さらに、適切に構築されたAEQSによって迅速に解決された決定問題(および約束問題)の基本的な構造特性について考察する。

Quantum computation has emerged as a powerful computational medium of our time, having demonstrated the remarkable efficiency in factoring a positive integer and searching databases faster than any currently known classical computing algorithm. Adiabatic evolution of quantum systems have been studied as a potential means that physically realizes quantum computation. Up to now, all the research on adiabatic quantum systems has dealt with polynomial time-bounded computation and little attention has been paid to, for instance, adiabatic quantum systems consuming only constant memory space. Such quantum systems can be modeled in a form similar to quantum finite automata. This exposition dares to ask a bold question of how to make adiabatic quantum computation fit into the rapidly progressing framework of quantum automata theory. As our answer to this eminent but profound question, we first lay out a fundamental platform to carry out adiabatic evolutionary quantum systems (AEQSs) with limited computational resources (in size, energy, spectral gap, etc.) and then establish how to construct such AEQSs by operating suitable families of quantum finite automata. We further explore fundamental structural properties of decision problems (as well as promise problems) solved quickly by the appropriately constructed AEQSs.
翻訳日:2023-01-11 07:25:34 公開日:2020-12-14
# 二次可能性問題に対するサンプル複雑度と最適化景観について

On the Sample Complexity and Optimization Landscape for Quadratic Feasibility Problems ( http://arxiv.org/abs/2002.01066v2 )

ライセンス: Link先を確認
Parth Thaker, Gautam Dasarathy, and Angelia Nedi\'c(参考訳) 複素ベクトル $\mathbf{x}\in \mathbb{C}^n$ を $m$ 二次測度 $\{\langle A_i\mathbf{x}, \mathbf{x}\rangle\}_{i=1}^m$ から回収する問題を考える。 この問題は二次実現可能性と呼ばれ、よく知られた位相検索問題を含み、電力系統状態推定やx線結晶構造解析など、幅広い分野に適用できる。 一般に、NP-ハードが解決すべき二次実現可能性問題であるだけでなく、実際には特定できないかもしれない。 本稿では,この問題が {identizable} となる条件を定式化し,複素ガウス分布からサンプリングされたエルミート行列の行列 $\{a_i\}_{i=1}^m$ の場合の等長性をさらに証明する。 さらに、この問題の非凸最適化を定式化し、任意の初期化を持つ勾配アルゴリズムを高い確率で \emph{globally optimal} 点に収束させることを可能にする、関連する最適化ランドスケープの有意義な特徴を確立する。 また,これらの文脈で実現可能な解の同定に成功するためのサンプル複雑性要件も明らかにした。

We consider the problem of recovering a complex vector $\mathbf{x}\in \mathbb{C}^n$ from $m$ quadratic measurements $\{\langle A_i\mathbf{x}, \mathbf{x}\rangle\}_{i=1}^m$. This problem, known as quadratic feasibility, encompasses the well known phase retrieval problem and has applications in a wide range of important areas including power system state estimation and x-ray crystallography. In general, not only is the the quadratic feasibility problem NP-hard to solve, but it may in fact be unidentifiable. In this paper, we establish conditions under which this problem becomes {identifiable}, and further prove isometry properties in the case when the matrices $\{A_i\}_{i=1}^m$ are Hermitian matrices sampled from a complex Gaussian distribution. Moreover, we explore a nonconvex {optimization} formulation of this problem, and establish salient features of the associated optimization landscape that enables gradient algorithms with an arbitrary initialization to converge to a \emph{globally optimal} point with a high probability. Our results also reveal sample complexity requirements for successfully identifying a feasible solution in these contexts.
翻訳日:2023-01-04 02:59:07 公開日:2020-12-14
# ゼロショット時系列予測へのメタラーニングフレームワークの適用

Meta-learning framework with applications to zero-shot time-series forecasting ( http://arxiv.org/abs/2002.02887v3 )

ライセンス: Link先を確認
Boris N. Oreshkin, Dmitri Carpov, Nicolas Chapados, Yoshua Bengio(参考訳) メタラーニングは、異なるデータセットから来る新しいTSの一般化を大幅に改善するために、多様なデータセットから時系列を処理する一般的な方法を見つけることができるか? この研究は、多くの既存のメタ学習アルゴリズムを仮定する広範なメタ学習フレームワークを用いて、このことに対する肯定的な証拠を提供する。 我々の理論的分析は,残差接続がメタラーニング適応機構として機能し,与えられたTS入力に基づいてタスク固有のパラメータのサブセットを生成することを示唆している。 同じメカニズムが線形化解析によって示され、最終線形層の逐次更新を解釈する。 実験の結果は,ゼロショット単変量予測を成功させる上で,識別されたメタ学習機構の重要性を強調し,音源のTSデータセット上でニューラルネットワークをトレーニングし,異なるターゲットのTSデータセットに再トレーニングすることなくデプロイすることが可能であることを示唆した。

Can meta-learning discover generic ways of processing time series (TS) from a diverse dataset so as to greatly improve generalization on new TS coming from different datasets? This work provides positive evidence to this using a broad meta-learning framework which we show subsumes many existing meta-learning algorithms. Our theoretical analysis suggests that residual connections act as a meta-learning adaptation mechanism, generating a subset of task-specific parameters based on a given TS input, thus gradually expanding the expressive power of the architecture on-the-fly. The same mechanism is shown via linearization analysis to have the interpretation of a sequential update of the final linear layer. Our empirical results on a wide range of data emphasize the importance of the identified meta-learning mechanisms for successful zero-shot univariate forecasting, suggesting that it is viable to train a neural network on a source TS dataset and deploy it on a different target TS dataset without retraining, resulting in performance that is at least as good as that of state-of-practice univariate forecasting models.
翻訳日:2023-01-03 04:01:17 公開日:2020-12-14
# GANの一貫性規則化の改善

Improved Consistency Regularization for GANs ( http://arxiv.org/abs/2002.04724v2 )

ライセンス: Link先を確認
Zhengli Zhao, Sameer Singh, Honglak Lee, Zizhao Zhang, Augustus Odena, Han Zhang(参考訳) 近年の研究では、識別器に一貫性コストを課すことで、gans(generative adversarial network)の性能を高めている。 私たちはこのテクニックをいくつかの点で改善する。 まず、一貫性の正規化がganサンプルにアーティファクトを導入し、この問題の修正方法を説明する。 次に、その性能を改善するために設計された整合正則化手順のいくつかの修正を提案する。 改善のメリットを定量化する広範な実験を行います。 CIFAR-10とCelebAの無条件画像合成では、様々なGANアーキテクチャ上で最もよく知られたFIDスコアが得られる。 CIFAR-10の条件付き画像合成では、最先端のFIDスコアを11.48から9.21に改善する。 最後に、ImageNet-2012において、この手法をオリジナルのBigGANモデルに適用し、FIDを6.66から5.38に改善する。

Recent work has increased the performance of Generative Adversarial Networks (GANs) by enforcing a consistency cost on the discriminator. We improve on this technique in several ways. We first show that consistency regularization can introduce artifacts into the GAN samples and explain how to fix this issue. We then propose several modifications to the consistency regularization procedure designed to improve its performance. We carry out extensive experiments quantifying the benefit of our improvements. For unconditional image synthesis on CIFAR-10 and CelebA, our modifications yield the best known FID scores on various GAN architectures. For conditional image synthesis on CIFAR-10, we improve the state-of-the-art FID score from 11.48 to 9.21. Finally, on ImageNet-2012, we apply our technique to the original BigGAN model and improve the FID from 6.66 to 5.38, which is the best score at that model size.
翻訳日:2023-01-02 01:36:40 公開日:2020-12-14
# 歴史的新聞のセマンティックセグメンテーションのための視覚的特徴とテキスト的特徴の組み合わせ

Combining Visual and Textual Features for Semantic Segmentation of Historical Newspapers ( http://arxiv.org/abs/2002.06144v4 )

ライセンス: Link先を確認
Rapha\"el Barman, Maud Ehrmann, Simon Clematide, Sofia Ares Oliveira, Fr\'ed\'eric Kaplan(参考訳) 過去数十年間、膨大な量のデジタル化された歴史文書が、自然と自動処理と探索に役立っている。 ファクシミリの自動処理と情報抽出を目的とした研究は、文書レイアウト分析の第1ステップとして、多重化される。 深層学習技術により文書画像のセグメントの識別と分類がここ数年で大きな進歩を遂げたとすれば, 細粒度セグメンテーションタイプロジの使用や, 歴史新聞などの複雑で異質な文書の考察など, 多くの課題が残されている。 さらに、ほとんどのアプローチは視覚的特徴のみを考慮し、テキスト信号を無視している。 そこで本研究では,視覚的特徴とテキスト的特徴を組み合わせた歴史新聞の意味セグメンテーションのためのマルチモーダルアプローチを提案する。 ダイアクロニックなスイスとルクセンブルクの新聞の一連の実験に基づいて、視覚的特徴とテキスト的特徴の予測力と、時間と情報源をまたいで一般化する能力について検討する。 その結果,マルチモーダルモデルでは強い視覚的ベースラインに比べて一貫した改善が見られ,高い材料分散に対するロバスト性も向上した。

The massive amounts of digitized historical documents acquired over the last decades naturally lend themselves to automatic processing and exploration. Research work seeking to automatically process facsimiles and extract information thereby are multiplying with, as a first essential step, document layout analysis. If the identification and categorization of segments of interest in document images have seen significant progress over the last years thanks to deep learning techniques, many challenges remain with, among others, the use of finer-grained segmentation typologies and the consideration of complex, heterogeneous documents such as historical newspapers. Besides, most approaches consider visual features only, ignoring textual signal. In this context, we introduce a multimodal approach for the semantic segmentation of historical newspapers that combines visual and textual features. Based on a series of experiments on diachronic Swiss and Luxembourgish newspapers, we investigate, among others, the predictive power of visual and textual features and their capacity to generalize across time and sources. Results show consistent improvement of multimodal models in comparison to a strong visual baseline, as well as better robustness to high material variance.
翻訳日:2023-01-01 03:47:43 公開日:2020-12-14
# 拡張階層型ニューラルアンサンブルによる随時推論

Anytime Inference with Distilled Hierarchical Neural Ensembles ( http://arxiv.org/abs/2003.01474v3 )

ライセンス: Link先を確認
Adria Ruiz and Jakob Verbeek(参考訳) 深層ニューラルネットワークの推論は計算コストがかかり、計算量や入力データの量が時間とともに変化するマスケリオでは、任意の時間推論が可能なネットワークが重要である。 このようなネットワークでは、推論プロセスを中断して結果をより早く提供したり、より正確な結果を得ることができる。 本稿では,階層的階層構造に複数のネットワークのアンサンブルを埋め込み,中間層を共有する新しい枠組みである階層的ニューラルネットワークアンサンブル(hne)を提案する。 hneでは、アンサンブルで多かれ少なかれモデルを評価することによって、オンザフライの推論の複雑さを制御する。 第2の貢献は,小型アンサンブルの予測精度を高めるための新しい階層蒸留法である。 このアプローチでは、アンサンブルのネスト構造を利用して、個々のモデルの精度と多様性を最適に割り当てる。 実験の結果,従来の推定モデルと比較して,HNEはCIFAR-10/100データセットとImageNetデータセットに対して,最先端の精度計算トレードオフを提供することがわかった。

Inference in deep neural networks can be computationally expensive, and networks capable of anytime inference are important in mscenarios where the amount of compute or quantity of input data varies over time. In such networks the inference process can interrupted to provide a result faster, or continued to obtain a more accurate result. We propose Hierarchical Neural Ensembles (HNE), a novel framework to embed an ensemble of multiple networks in a hierarchical tree structure, sharing intermediate layers. In HNE we control the complexity of inference on-the-fly by evaluating more or less models in the ensemble. Our second contribution is a novel hierarchical distillation method to boost the prediction accuracy of small ensembles. This approach leverages the nested structure of our ensembles, to optimally allocate accuracy and diversity across the individual models. Our experiments show that, compared to previous anytime inference models, HNE provides state-of-the-art accuracy-computate trade-offs on the CIFAR-10/100 and ImageNet datasets.
翻訳日:2022-12-26 22:50:46 公開日:2020-12-14
# GANSpace: 解釈可能なGANコントロールの発見

GANSpace: Discovering Interpretable GAN Controls ( http://arxiv.org/abs/2004.02546v3 )

ライセンス: Link先を確認
Erik H\"ark\"onen, Aaron Hertzmann, Jaakko Lehtinen, Sylvain Paris(参考訳) 本稿では,生成逆ネットワーク(gans)を分析し,視点変化,加齢,照明,日時といった画像合成のための解釈可能な制御を行うための簡便な手法について述べる。 我々は,主成分分析(PCA)に基づく重要な潜伏方向を,潜伏空間や特徴空間に適用した上で同定する。 次に, 多数の解釈可能な制御を主方向に沿った階層的摂動によって定義できることを示す。 さらに,BigGANはStyleGANライクな方法で階層的な入力で制御可能であることを示す。 様々なデータセットで訓練された異なるGANについて結果を示し、以前の教師付きアプローチによる方向の編集に優れた質的マッチングを示す。

This paper describes a simple technique to analyze Generative Adversarial Networks (GANs) and create interpretable controls for image synthesis, such as change of viewpoint, aging, lighting, and time of day. We identify important latent directions based on Principal Components Analysis (PCA) applied either in latent space or feature space. Then, we show that a large number of interpretable controls can be defined by layer-wise perturbation along the principal directions. Moreover, we show that BigGAN can be controlled with layer-wise inputs in a StyleGAN-like manner. We show results on different GANs trained on various datasets, and demonstrate good qualitative matches to edit directions found through earlier supervised approaches.
翻訳日:2022-12-16 07:31:47 公開日:2020-12-14
# 言語間移動学習における翻訳人工物

Translation Artifacts in Cross-lingual Transfer Learning ( http://arxiv.org/abs/2004.04721v4 )

ライセンス: Link先を確認
Mikel Artetxe, Gorka Labaka, Eneko Agirre(参考訳) 多くの多言語データセットはプロの翻訳サービスを通じて作成されており、機械翻訳を使用してテストセットまたはトレーニングセットを翻訳することは広く使われている転送技術である。 本稿では,既存の言語間モデルに顕著な影響を与える微妙な人工物を導入することができることを示す。 例えば、自然言語推論では、前提と仮説を独立に翻訳することで、それらの間の語彙の重なりを減少させることができる。 この現象に照らして,言語間伝達学習におけるこれまでの知見を再考する必要があることを示す。 また,得られた知見に基づいて,XNLIにおける翻訳テストとゼロショットのアプローチをそれぞれ4.3ポイント,2.8ポイント改善する。

Both human and machine translation play a central role in cross-lingual transfer learning: many multilingual datasets have been created through professional translation services, and using machine translation to translate either the test set or the training set is a widely used transfer technique. In this paper, we show that such translation process can introduce subtle artifacts that have a notable impact in existing cross-lingual models. For instance, in natural language inference, translating the premise and the hypothesis independently can reduce the lexical overlap between them, which current models are highly sensitive to. We show that some previous findings in cross-lingual transfer learning need to be reconsidered in the light of this phenomenon. Based on the gained insights, we also improve the state-of-the-art in XNLI for the translate-test and zero-shot approaches by 4.3 and 2.8 points, respectively.
翻訳日:2022-12-15 01:59:52 公開日:2020-12-14
# Few-Shotセグメンテーションのための自己監督型チューニング

Self-Supervised Tuning for Few-Shot Segmentation ( http://arxiv.org/abs/2004.05538v2 )

ライセンス: Link先を確認
Kai Zhu, Wei Zhai, Zheng-Jun Zha, Yang Cao(参考訳) Few-shotのセグメンテーションは、注釈付きサンプルの少ない各画像ピクセルにカテゴリラベルを割り当てることを目的としている。 厳密な予測はスパースアノテーションによって定義された潜在的特徴のガイダンスの下でのみ達成できるため、これは難しいタスクである。 既存のメタラーニング手法では, 画像から抽出した視覚的特徴を埋め込み空間に埋め込むと, カテゴリー別識別記述子の生成に失敗する傾向にある。 そこで本研究では,各エピソードにまたがる潜在特徴の分布を,ラベル予測のためのカテゴリ固有の記述子を付加した自己分割方式に基づいて動的に調整する適応型チューニングフレームワークを提案する。 具体的には,新しい自己教師付きインナーループをベースラーナとして考案し,その基礎となる意味的特徴を支援画像から抽出する。 そして、得られた特徴を通して自己教師付き損失をバックプロパゲーションして勾配マップを算出し、埋め込み空間における対応する要素の強化のためのガイダンスとして活用する。 最後に、異なるエピソードから連続的に学習する機能により、最適化に基づくメタラーナーが提案フレームワークの外ループとして採用され、セグメント化結果を徐々に洗練する。 ベンチマークPASCAL-$5^{i}$とCOCO-$20^{i}$データセットの大規模な実験は、提案手法が最先端よりも優れていることを示す。

Few-shot segmentation aims at assigning a category label to each image pixel with few annotated samples. It is a challenging task since the dense prediction can only be achieved under the guidance of latent features defined by sparse annotations. Existing meta-learning method tends to fail in generating category-specifically discriminative descriptor when the visual features extracted from support images are marginalized in embedding space. To address this issue, this paper presents an adaptive tuning framework, in which the distribution of latent features across different episodes is dynamically adjusted based on a self-segmentation scheme, augmenting category-specific descriptors for label prediction. Specifically, a novel self-supervised inner-loop is firstly devised as the base learner to extract the underlying semantic features from the support image. Then, gradient maps are calculated by back-propagating self-supervised loss through the obtained features, and leveraged as guidance for augmenting the corresponding elements in embedding space. Finally, with the ability to continuously learn from different episodes, an optimization-based meta-learner is adopted as outer loop of our proposed framework to gradually refine the segmentation results. Extensive experiments on benchmark PASCAL-$5^{i}$ and COCO-$20^{i}$ datasets demonstrate the superiority of our proposed method over state-of-the-art.
翻訳日:2022-12-14 05:21:32 公開日:2020-12-14
# 抽象要約制御のための説明可能な選択の探索

Exploring Explainable Selection to Control Abstractive Summarization ( http://arxiv.org/abs/2004.11779v2 )

ライセンス: Link先を確認
Wang Haonan, Gao Yang, Bai Yu, Mirella Lapata, Huang Heyan(参考訳) 人間と同様、文書要約モデルは文書の内容を様々な方法で解釈することができる。 残念ながら、今日のニューラルモデルは、概ねブラックボックスであり、彼らがどのようにサマリーを生成したか、その理由について説明がほとんどない。 そこで,ブラックボックスを開封し,最終要約の内容に制御レベルを注入するために,説明可能性に着目した新しい選択・生成フレームワークを開発した。 文章間の潜在中心性と相互作用を明らかにすることによって、ユーザはモデルが行っている選択の窓が与えられ、それらの選択をより望ましい方向に導く機会が与えられる。 新しいペアワイズマトリクスは、文の相互作用、中心性、属性スコアをキャプチャし、可変属性閾値のマスクは、ユーザが抽出に含まれそうな文を制御できるようにする。 要約における文章展開注意機構は、最終要約が所望の内容を強調することを保証する。 さらに、エンコーダは適応可能で、TransformerとBERTベースの構成の両方をサポートする。 ROUGEメトリクスと2つの人間評価で評価された一連の実験で、ESCAはCNN/DailyMailとNYT50ベンチマークデータセットで8つの最先端モデルを上回った。

Like humans, document summarization models can interpret a document's contents in a number of ways. Unfortunately, the neural models of today are largely black boxes that provide little explanation of how or why they generated a summary in the way they did. Therefore, to begin prying open the black box and to inject a level of control into the substance of the final summary, we developed a novel select-and-generate framework that focuses on explainability. By revealing the latent centrality and interactions between sentences, along with scores for sentence novelty and relevance, users are given a window into the choices a model is making and an opportunity to guide those choices in a more desirable direction. A novel pair-wise matrix captures the sentence interactions, centrality, and attribute scores, and a mask with tunable attribute thresholds allows the user to control which sentences are likely to be included in the extraction. A sentence-deployed attention mechanism in the abstractor ensures the final summary emphasizes the desired content. Additionally, the encoder is adaptable, supporting both Transformer- and BERT-based configurations. In a series of experiments assessed with ROUGE metrics and two human evaluations, ESCA outperformed eight state-of-the-art models on the CNN/DailyMail and NYT50 benchmark datasets.
翻訳日:2022-12-10 03:34:31 公開日:2020-12-14
# MICK:小さなトレーニングデータを用いたファウショット関係分類のためのメタラーニングフレームワーク

MICK: A Meta-Learning Framework for Few-shot Relation Classification with Small Training Data ( http://arxiv.org/abs/2004.14164v2 )

ライセンス: Link先を確認
Xiaoqing Geng, Xiwen Chen, Kenny Q. Zhu, Libin Shen, Yinggong Zhao(参考訳) 少数ショット関係分類は、サポートインスタンスがほとんどなかった後に着信したクエリインスタンスを分類することを求める。 この能力は、大量のドメイン内アノテートデータのトレーニングによって得られる。 本稿では,トレーニング時に利用可能なデータ量をさらに制限することにより,さらに難しい問題に取り組む。 本稿では,関係分類のための数発の学習フレームワークを提案する。 このフレームワークでは、モデルはクエリインスタンスを分類するだけでなく、より良いインスタンス表現を得るためにサポートインスタンスに関する基礎知識を求める。 このフレームワークには、オープンソースのタスクエンリッチメントによって、クロスドメインの知識をモデルに集約する方法も含まれている。 さらに、TinyRel-CMデータセット、健康領域における数ショットの関係分類データセット、目的的に小さなトレーニングデータ、挑戦的な関係クラスなど、新しいデータセットを構築します。 実験の結果,基礎となるほとんどの分類モデルにおいて性能が向上し,小規模トレーニングデータでは最先端結果を上回り,十分な大規模トレーニングデータで競争結果を得ることができた。

Few-shot relation classification seeks to classify incoming query instances after meeting only few support instances. This ability is gained by training with large amount of in-domain annotated data. In this paper, we tackle an even harder problem by further limiting the amount of data available at training time. We propose a few-shot learning framework for relation classification, which is particularly powerful when the training data is very small. In this framework, models not only strive to classify query instances, but also seek underlying knowledge about the support instances to obtain better instance representations. The framework also includes a method for aggregating cross-domain knowledge into models by open-source task enrichment. Additionally, we construct a brand new dataset: the TinyRel-CM dataset, a few-shot relation classification dataset in health domain with purposely small training data and challenging relation classes. Experimental results demonstrate that our framework brings performance gains for most underlying classification models, outperforms the state-of-the-art results given small training data, and achieves competitive results with sufficiently large training data.
翻訳日:2022-12-09 12:53:07 公開日:2020-12-14
# 位置最適化型対人パッチに対する対人訓練

Adversarial Training against Location-Optimized Adversarial Patches ( http://arxiv.org/abs/2005.02313v2 )

ライセンス: Link先を確認
Sukrut Rao, David Stutz, Bernt Schiele(参考訳) ディープニューラルネットワークは、高度に正確な画像分類器の誤分類を引き起こすために構築された小さな、不可避な変更、敵の例に影響を受けやすいことが示されている。 実用的な代替策として、最近の研究はいわゆる逆パッチ(adversarial patch)を提案した。 これらのパッチは簡単に印刷でき、物理的に応用できる。 不可避な敵の例に対する防御は広く研究されているが、敵のパッチに対する堅牢性はよく分かっていない。 本研究では,まず,画像内の位置を積極的に最適化しながら,敵対パッチを得るための実践的アプローチを考案する。 CIFAR10とGTSRBでは,これらの位置最適化された対向パッチに対して対向トレーニングを適用し,ロバスト性を著しく向上した。 また,認識不能な対人的事例に対する対人的訓練とは対照的に,対人的パッチトレーニングでは精度が低下しない。

Deep neural networks have been shown to be susceptible to adversarial examples -- small, imperceptible changes constructed to cause mis-classification in otherwise highly accurate image classifiers. As a practical alternative, recent work proposed so-called adversarial patches: clearly visible, but adversarially crafted rectangular patches in images. These patches can easily be printed and applied in the physical world. While defenses against imperceptible adversarial examples have been studied extensively, robustness against adversarial patches is poorly understood. In this work, we first devise a practical approach to obtain adversarial patches while actively optimizing their location within the image. Then, we apply adversarial training on these location-optimized adversarial patches and demonstrate significantly improved robustness on CIFAR10 and GTSRB. Additionally, in contrast to adversarial training on imperceptible adversarial examples, our adversarial patch training does not reduce accuracy.
翻訳日:2022-12-06 13:15:40 公開日:2020-12-14
# 全変量制約付き高コントラスト反射トモグラフィ

High-Contrast Reflection Tomography with Total-Variation Constraints ( http://arxiv.org/abs/2005.02903v2 )

ライセンス: Link先を確認
Ajinkya Kadu and Hassan Mansour and Petros T. Boufounos(参考訳) 逆散乱とは、物体の散乱電位の空間分布を、その周りの散乱波動場を測定することによって推定する過程である。 本稿では,地中レーダ,探査物理,テラヘルツイメージング,超音波,電子顕微鏡で一般的に発生する高コントラスト物体の反射トモグラフィについて考察する。 従来の透過トモグラフィーとは異なり、測定された波動場は対象物体の空間周波数情報をはるかに少ないため、反射状態は著しく悪化する。 我々は,オブジェクトの背景モデルからのサイド情報を必要としない制約付きインクリメンタル周波数反転フレームワークを提案する。 本手法は, 全変数と非ネガティビティの制約を課しながら, 測定された散乱波場との整合性を確保するための正則化最小二乗部分問題の列を解く。 提案手法は,結果のサブプロブレムを解き,パラメータ選択ルーチンを考案し,各サブプロブレムの制約を決定するための近位準ニュートン法を提案する。 我々は, 合成低分解能ファントムに対する提案手法の性能と, 高分解能ファントムに対する不整合前方モデルテストの有効性を検証する。

Inverse scattering is the process of estimating the spatial distribution of the scattering potential of an object by measuring the scattered wavefields around it. In this paper, we consider reflection tomography of high contrast objects that commonly occurs in ground-penetrating radar, exploration geophysics, terahertz imaging, ultrasound, and electron microscopy. Unlike conventional transmission tomography, the reflection regime is severely ill-posed since the measured wavefields contain far less spatial frequency information of the target object. We propose a constrained incremental frequency inversion framework that requires no side information from a background model of the object. Our framework solves a sequence of regularized least-squares subproblems that ensure consistency with the measured scattered wavefield while imposing total-variation and non-negativity constraints. We propose a proximal Quasi-Newton method to solve the resulting subproblem and devise an automatic parameter selection routine to determine the constraint of each subproblem. We validate the performance of our approach on synthetic low-resolution phantoms and with a mismatched forward model test on a high-resolution phantom.
翻訳日:2022-12-06 06:25:22 公開日:2020-12-14
# 非球面混合系の外乱クラスター化

Outlier-Robust Clustering of Non-Spherical Mixtures ( http://arxiv.org/abs/2005.02970v3 )

ライセンス: Link先を確認
Ainesh Bakshi and Pravesh Kothari(参考訳) 統計的に分離されたd-次元ガウスアン(k-GMMs)の混合物をクラスタリングするための最初のアウトリー・ローバストアルゴリズムを与える。 特に、このアルゴリズムは、$k$-gmmから$\epsilon$-corruptedサンプルを入力し、$d^{\text{poly}(k/\eta)}$ timeでwcpを入力し、全ての混合成分が1-\exp(-\text{poly}(k/\eta)^k)$ in total variation (tv)距離で分離されるたびに、最大$k^{o(k)}(\epsilon+\eta)$のポイントを割った近似クラスタリングを出力する。 このような結果は以前、$k=2$でも知られていなかった。 tv分離は、統計的に最も弱い分離の概念であり、混合線形回帰や部分空間クラスタリングのような重要な特別なケースを捉えている。 我々の主要な概念的貢献は、(効率的に)クラスタリング可能な混合モデルに必要な、単純な解析的性質(認識可能)と次数2多項式の有界分散と線形射影の反集中を蒸留することである。 その結果、この結果は、$d$次元単位球面上の均一分布の任意のアフィン変換のクラスタリング混合に拡張される。 これら2つの解析的仮定を満たす分離分布の情報理論的クラスタビリティでさえ、我々の研究以前には知られておらず、独立した関心を持つ可能性が高い。 我々のアルゴリズムは、2019年にKarmarkar、Klivans、Kothari、Raghavendra、Yauの3作品に初めて導入された、認証済みのアンチ・集中による最近の一連の研究に基づいている。 提案手法は,データ中のテレビ分離ガウスクラスタのロバストな認証性を示すために,2乗和ツールキットを拡張した。 これは、パラメータ(平均と共分散)距離を超収縮率と反集束のみに頼って全変距離に関連づける低次二乗の証明を与える。

We give the first outlier-robust efficient algorithm for clustering a mixture of $k$ statistically separated d-dimensional Gaussians (k-GMMs). Concretely, our algorithm takes input an $\epsilon$-corrupted sample from a $k$-GMM and whp in $d^{\text{poly}(k/\eta)}$ time, outputs an approximate clustering that misclassifies at most $k^{O(k)}(\epsilon+\eta)$ fraction of the points whenever every pair of mixture components are separated by $1-\exp(-\text{poly}(k/\eta)^k)$ in total variation (TV) distance. Such a result was not previously known even for $k=2$. TV separation is the statistically weakest possible notion of separation and captures important special cases such as mixed linear regression and subspace clustering. Our main conceptual contribution is to distill simple analytic properties - (certifiable) hypercontractivity and bounded variance of degree 2 polynomials and anti-concentration of linear projections - that are necessary and sufficient for mixture models to be (efficiently) clusterable. As a consequence, our results extend to clustering mixtures of arbitrary affine transforms of the uniform distribution on the $d$-dimensional unit sphere. Even the information-theoretic clusterability of separated distributions satisfying these two analytic assumptions was not known prior to our work and is likely to be of independent interest. Our algorithms build on the recent sequence of works relying on certifiable anti-concentration first introduced in the works of Karmarkar, Klivans, and Kothari and Raghavendra, and Yau in 2019. Our techniques expand the sum-of-squares toolkit to show robust certifiability of TV-separated Gaussian clusters in data. This involves giving a low-degree sum-of-squares proof of statements that relate parameter (i.e. mean and covariances) distance to total variation distance by relying only on hypercontractivity and anti-concentration.
翻訳日:2022-12-06 06:10:00 公開日:2020-12-14
# UVeQFed: フェデレートラーニングのためのユニバーサルベクトル量子化

UVeQFed: Universal Vector Quantization for Federated Learning ( http://arxiv.org/abs/2006.03262v3 )

ライセンス: Link先を確認
Nir Shlezinger, Mingzhe Chen, Yonina C. Eldar, H. Vincent Poor, and Shuguang Cui(参考訳) 従来のディープラーニングモデルは、エンドデバイスやユーザから収集されたラベル付きデータサンプルを使用して、集中型サーバでトレーニングされる。 このようなデータサンプルには、ユーザが共有する意思のないプライベート情報が含まれることが多い。 フェデレートラーニング(FL)は、ユーザがプライベートラベル付きデータを共有することなく、そのような学習モデルをトレーニングする、新たなアプローチである。 FLでは、各ユーザが学習モデルのコピーをローカルにトレーニングする。 サーバは個々の更新を収集し、それらをグローバルモデルに集約する。 この方法で生じる大きな課題は、各ユーザがスループット制限されたアップリンクチャネル上で学習したモデルを効率的に送信する必要があることである。 本研究では,量子化理論のツールを用いてこの問題に取り組む。 特に,レート制約されたチャネル上での学習モデルの伝達に関連する特異な特徴を同定し,そのような設定に対する適切な量子化スキームを提案し,これを fl (uveqfed) の普遍ベクトル量子化と呼ぶ。 一般化ベクトル量子化法とflを組み合わせることで,訓練モデルの圧縮が最小歪みのみを誘発する分散学習系が得られることを示す。 そして、理論的に歪みを分析し、ユーザが増加するにつれて消えていくことを示す。 また、従来のフェデレーション平均化法とUVeQFedを組み合わせたモデルと、損失関数を最小化するモデルの収束性を特徴付ける。 数値計算により,従来の提案手法に比べて,量子化による歪みと得られた集約モデルの精度の両面からUVeQFedの利得を示す。

Traditional deep learning models are trained at a centralized server using labeled data samples collected from end devices or users. Such data samples often include private information, which the users may not be willing to share. Federated learning (FL) is an emerging approach to train such learning models without requiring the users to share their possibly private labeled data. In FL, each user trains its copy of the learning model locally. The server then collects the individual updates and aggregates them into a global model. A major challenge that arises in this method is the need of each user to efficiently transmit its learned model over the throughput limited uplink channel. In this work, we tackle this challenge using tools from quantization theory. In particular, we identify the unique characteristics associated with conveying trained models over rate-constrained channels, and propose a suitable quantization scheme for such settings, referred to as universal vector quantization for FL (UVeQFed). We show that combining universal vector quantization methods with FL yields a decentralized training system in which the compression of the trained models induces only a minimum distortion. We then theoretically analyze the distortion, showing that it vanishes as the number of users grows. We also characterize the convergence of models trained with the traditional federated averaging method combined with UVeQFed to the model which minimizes the loss function. Our numerical results demonstrate the gains of UVeQFed over previously proposed methods in terms of both distortion induced in quantization and accuracy of the resulting aggregated model.
翻訳日:2022-11-25 03:25:57 公開日:2020-12-14
# コピー! スパンのコピーによるシーケンスの編集

Copy that! Editing Sequences by Copying Spans ( http://arxiv.org/abs/2006.04771v2 )

ライセンス: Link先を確認
Sheena Panthaplackel, Miltiadis Allamanis, Marc Brockschmidt(参考訳) ニューラルシークエンス・ツー・シークエンス・モデルは、例えばテキスト文書の修正やソースコードの修復など、ドキュメントの編集での利用が増えている。 本稿では、共通のseq2seqモデル(単一トークンをコピーする機能を持つ)は、変更されていないトークンを明示的にコピーしなければならないため、そのようなタスクに自然に適合しないと主張する。 本稿では,1ステップで入力のスパン全体を出力にコピーできるSeq2seqモデルを拡張し,推論に必要な決定回数を大幅に削減する。 この拡張により、私たちはトレーニングのための新しい目標と、この問題を明示的に扱う推論のためのビーム検索のバリエーションを導出することで、同じ出力を生成する多くの方法があります。 自然言語とソースコードの編集タスクの多岐にわたる実験において、我々の新しいモデルはより単純なベースラインを一貫して上回ることを示した。

Neural sequence-to-sequence models are finding increasing use in editing of documents, for example in correcting a text document or repairing source code. In this paper, we argue that common seq2seq models (with a facility to copy single tokens) are not a natural fit for such tasks, as they have to explicitly copy each unchanged token. We present an extension of seq2seq models capable of copying entire spans of the input to the output in one step, greatly reducing the number of decisions required during inference. This extension means that there are now many ways of generating the same output, which we handle by deriving a new objective for training and a variation of beam search for inference that explicitly handles this problem. In our experiments on a range of editing tasks of natural language and source code, we show that our new model consistently outperforms simpler baselines.
翻訳日:2022-11-24 00:49:07 公開日:2020-12-14
# 液体時間定数ネットワーク

Liquid Time-constant Networks ( http://arxiv.org/abs/2006.04439v4 )

ライセンス: Link先を確認
Ramin Hasani, Mathias Lechner, Alexander Amini, Daniela Rus, Radu Grosu(参考訳) 本稿では,新しい時間連続型リカレントニューラルネットワークモデルを提案する。 暗黙の非線形性によって学習システムのダイナミクスを宣言する代わりに、非線形相互リンクゲートを介して変調される線形一階力学系のネットワークを構築する。 その結果得られたモデルは、隠れた状態と(液体)時間定数が結合した力学系を表し、出力は数値微分方程式解法によって計算される。 これらのニューラルネットワークは安定かつ有界な振る舞いを示し、神経常微分方程式の族の中で優れた表現性をもたらし、時系列予測タスクの性能向上をもたらす。 これらの性質を実証するために、まず、その力学上の境界を見つけ、潜在軌道空間における軌道長測度によってそれらの表現力を計算するための理論的アプローチをとる。 次に,液体時間定数ネットワーク(ltcs)を古典的および現代的rnnと比較し,近似能力を示す時系列予測実験を行った。 コードとデータはhttps://github.com/raminmh/liquid_time_constant_networksで入手できる。

We introduce a new class of time-continuous recurrent neural network models. Instead of declaring a learning system's dynamics by implicit nonlinearities, we construct networks of linear first-order dynamical systems modulated via nonlinear interlinked gates. The resulting models represent dynamical systems with varying (i.e., liquid) time-constants coupled to their hidden state, with outputs being computed by numerical differential equation solvers. These neural networks exhibit stable and bounded behavior, yield superior expressivity within the family of neural ordinary differential equations, and give rise to improved performance on time-series prediction tasks. To demonstrate these properties, we first take a theoretical approach to find bounds over their dynamics and compute their expressive power by the trajectory length measure in latent trajectory space. We then conduct a series of time-series prediction experiments to manifest the approximation capability of Liquid Time-Constant Networks (LTCs) compared to classical and modern RNNs. Code and data are available at https://github.com/raminmh/liquid_time_constant_networks
翻訳日:2022-11-23 23:57:46 公開日:2020-12-14
# 対話政策学習 : 協調的明確化とアクティブ・ラーニング・クェリ

Dialog Policy Learning for Joint Clarification and Active Learning Queries ( http://arxiv.org/abs/2006.05456v3 )

ライセンス: Link先を確認
Aishwarya Padmakumar and Raymond J. Mooney(参考訳) インテリジェントなシステムは、ミスから回復し、不確実性を解決し、トレーニング中に見えない新しい概念に適応する必要がある。 ダイアログインタラクションは、不確かさの修正と解決のための明確化と、運用中に遭遇した新しい概念を学ぶためのアクティブラーニングクエリを使用することで、これを可能にする。 ダイアログシステムに関する以前の作業は、明確化や情報検索の方法のみを学習するか、アクティブな学習を行うことに重点を置いてきた。 本研究では、オンラインショッピングアプリケーションによって動機付けられた対話型言語に基づく画像検索タスクのコンテキストにおいて、階層型ダイアログポリシーを協調的に実行し、それらの機能の一つまたは両方に静的ダイアログポリシーを使用することよりも、協調学習ダイアログポリシーがより効果的であることを実証する。

Intelligent systems need to be able to recover from mistakes, resolve uncertainty, and adapt to novel concepts not seen during training. Dialog interaction can enable this by the use of clarifications for correction and resolving uncertainty, and active learning queries to learn new concepts encountered during operation. Prior work on dialog systems has either focused on exclusively learning how to perform clarification/ information seeking, or to perform active learning. In this work, we train a hierarchical dialog policy to jointly perform both clarification and active learning in the context of an interactive language-based image retrieval task motivated by an online shopping application, and demonstrate that jointly learning dialog policies for clarification and active learning is more effective than the use of static dialog policies for one or both of these functions.
翻訳日:2022-11-23 13:25:25 公開日:2020-12-14
# 動き計画のためのグラフニューラルネットワーク

Graph Neural Networks for Motion Planning ( http://arxiv.org/abs/2006.06248v2 )

ライセンス: Link先を確認
Arbaaz Khan, Alejandro Ribeiro, Vijay Kumar, Anthony G. Francis(参考訳) 本稿では,従来の動作計画問題に対するグラフニューラルネットワーク(GNN)の適用可能性について検討する。 本稿では,GNN による計画空間のトポロジを,置換不変性(permutation invariance) と呼ばれる特性を用いて強固にエンコードする,連続計画アルゴリズムと離散計画アルゴリズムの両方を導くことを提案する。 低次元問題に対する高密度固定グラフ上のGNNと高次元問題に対するサンプリングベースGNNの2つの手法を提案する。 本稿では,重要なノードの特定や,RRT(Rapidly-Exploring Random Trees)におけるサンプリング分布の学習など,GNNが計画上の問題に取り組む能力について検討する。 臨界サンプリング、振り子、および6つのdofロボットアームを用いた実験では、gnnは、完全接続または畳み込みニューラルネットワークを用いた学習アプローチだけでなく、従来の分析手法を改善している。

This paper investigates the feasibility of using Graph Neural Networks (GNNs) for classical motion planning problems. We propose guiding both continuous and discrete planning algorithms using GNNs' ability to robustly encode the topology of the planning space using a property called permutation invariance. We present two techniques, GNNs over dense fixed graphs for low-dimensional problems and sampling-based GNNs for high-dimensional problems. We examine the ability of a GNN to tackle planning problems such as identifying critical nodes or learning the sampling distribution in Rapidly-exploring Random Trees (RRT). Experiments with critical sampling, a pendulum and a six DoF robot arm show GNNs improve on traditional analytic methods as well as learning approaches using fully-connected or convolutional neural networks.
翻訳日:2022-11-22 12:55:25 公開日:2020-12-14
# ポストトレーニングニューラル量子化の改善:レイヤワイド校正と整数プログラミング

Improving Post Training Neural Quantization: Layer-wise Calibration and Integer Programming ( http://arxiv.org/abs/2006.10518v2 )

ライセンス: Link先を確認
Itay Hubara, Yury Nahshan, Yair Hanani, Ron Banner, Daniel Soudry(参考訳) 近年、訓練後の量子化法は、使用が簡単で、小さなラベルなしキャリブレーションセットを必要とするため、注目されている。 この小さなデータセットは、大きなオーバーフィットなしにモデルを微調整するために使用できません。 代わりに、これらのメソッドはアクティベーションのダイナミックレンジを設定するためにキャリブレーションセットのみを使用する。 しかし、そのような手法は8ビット以下の場合(小さなデータセットを除く)、常にかなりの精度の劣化をもたらす。 ここでは8ビット障壁を破る。 この目的のために,キャリブレーションセット上でパラメータを最適化することにより,各レイヤの量子化誤差を最小化する。 この手法は,(1)標準の微調整手法よりも過度に適合する可能性が少なく,かつ非常に小さなキャリブレーションセットでも使用できること,(2)アクティベーションのダイナミックレンジのみを設定する従来の方法よりも強力であること,などが実証的に実証されている。 さらに,新しい整数計画法の提案による精度劣化やモデル圧縮を制約しつつ,各層に対してビット幅を最適に割り当てる方法を示す。 最後に,量子化中に生じるバイアスを補正するために,モデルグローバル統計量チューニングを提案する。 これらの手法は、視覚モデルとテキストモデルの両方に最先端の結果をもたらす。 例えば、resnet50では、すべての層で4ビットの重みとアクティベーションを持つが、最小の2つでは1\%未満の精度低下が得られる。 コードをオープンソース化しました。

Lately, post-training quantization methods have gained considerable attention, as they are simple to use, and require only a small unlabeled calibration set. This small dataset cannot be used to fine-tune the model without significant over-fitting. Instead, these methods only use the calibration set to set the activations' dynamic ranges. However, such methods always resulted in significant accuracy degradation, when used below 8-bits (except on small datasets). Here we aim to break the 8-bit barrier. To this end, we minimize the quantization errors of each layer separately by optimizing its parameters over the calibration set. We empirically demonstrate that this approach is: (1) much less susceptible to over-fitting than the standard fine-tuning approaches, and can be used even on a very small calibration set; and (2) more powerful than previous methods, which only set the activations' dynamic ranges. Furthermore, we demonstrate how to optimally allocate the bit-widths for each layer, while constraining accuracy degradation or model compression by proposing a novel integer programming formulation. Finally, we suggest model global statistics tuning, to correct biases introduced during quantization. Together, these methods yield state-of-the-art results for both vision and text models. For instance, on ResNet50, we obtain less than 1\% accuracy degradation --- with 4-bit weights and activations in all layers, but the smallest two. We open-sourced our code.
翻訳日:2022-11-21 10:08:25 公開日:2020-12-14
# 単純不変量上での等方核の作用

How isotropic kernels perform on simple invariants ( http://arxiv.org/abs/2006.09754v5 )

ライセンス: Link先を確認
Jonas Paccolat, Stefano Spigler and Matthieu Wyart(参考訳) 等方性カーネル手法のトレーニング曲線は,学習すべきタスクの対称性にどのように依存するかを,いくつかの設定で検討する。 (i)対象関数が、入力次元$d$よりも少ない$d_\parallel$変数のみに依存するガウス確率場である回帰タスクを考える。 期待されるテストエラー $\epsilon$ は、トレーニングセットのサイズである$\epsilon\sim p^{-\beta}$ に従って計算する。 我々は$\beta\sim 1/d$が$d_\parallel$とは独立であることに気付き、不変量の存在はカーネル回帰に対する次元性の呪いを解決しないという以前の知見を支持する。 (ii)次に、サポートベクトルのバイナリ分類を検討し、データラベルが単一の座標 $y(\underline{x}) = y(x_1)$ に依存するstripeモデルを導入する。 大帯域では、$\beta = \frac{d-1+\xi}{3d-3+\xi}$, ここで$\xi\in (0,2)$は核の特異点を特徴付ける指数である。 この推定はラデマッハ複雑性から得られる古典境界を改善する。 この設定では、$\beta\rightarrow 1 / 3$ as $d\rightarrow\infty$ から次元性の呪いはない。 (iii)これらの結果は、$y(\underline{x}) = y(|\underline{x}|)$ の球面モデルに対して確認される。 (iv) ストライプモデルでは、ある係数$\lambda$(ディープネットワークで発生すると思われる演算)によってデータが不変量に沿って圧縮された場合、テストエラーは$\lambda^{-\frac{2(d-1)}{3d-3+\xi}}$で減少する。

We investigate how the training curve of isotropic kernel methods depends on the symmetry of the task to be learned, in several settings. (i) We consider a regression task, where the target function is a Gaussian random field that depends only on $d_\parallel$ variables, fewer than the input dimension $d$. We compute the expected test error $\epsilon$ that follows $\epsilon\sim p^{-\beta}$ where $p$ is the size of the training set. We find that $\beta\sim 1/d$ independently of $d_\parallel$, supporting previous findings that the presence of invariants does not resolve the curse of dimensionality for kernel regression. (ii) Next we consider support-vector binary classification and introduce the stripe model where the data label depends on a single coordinate $y(\underline{x}) = y(x_1)$, corresponding to parallel decision boundaries separating labels of different signs, and consider that there is no margin at these interfaces. We argue and confirm numerically that for large bandwidth, $\beta = \frac{d-1+\xi}{3d-3+\xi}$, where $\xi\in (0,2)$ is the exponent characterizing the singularity of the kernel at the origin. This estimation improves classical bounds obtainable from Rademacher complexity. In this setting there is no curse of dimensionality since $\beta\rightarrow 1 / 3$ as $d\rightarrow\infty$. (iii) We confirm these findings for the spherical model for which $y(\underline{x}) = y(|\underline{x}|)$. (iv) In the stripe model, we show that if the data are compressed along their invariants by some factor $\lambda$ (an operation believed to take place in deep networks), the test error is reduced by a factor $\lambda^{-\frac{2(d-1)}{3d-3+\xi}}$.
翻訳日:2022-11-19 20:17:33 公開日:2020-12-14
# 新型コロナウイルスのイメージデータ収集:予測は未来

COVID-19 Image Data Collection: Prospective Predictions Are the Future ( http://arxiv.org/abs/2006.11988v3 )

ライセンス: Link先を確認
Joseph Paul Cohen and Paul Morrison and Lan Dao and Karsten Roth and Tim Q Duong and Marzyeh Ghassemi(参考訳) 新型コロナウイルス感染症(COVID-19)のホットスポットでは、患者の診断と管理を合理化する必要性が高まっている。 胸部X線(CXR)は一般的で、高速で、非侵襲的で、比較的安価で、病気の進行をモニターする可能性がある。 本稿では,最初の新型コロナウイルス画像データ収集と,その利用可能性の予備的考察について述べる。 このデータセットは、現在、何百ものフロントビューx線を含んでおり、covid-19の画像と予後データにとって最大の公共リソースであり、covid-19の治療を支援するためのツールの開発と評価に必要なリソースである。 公開図やさまざまなWebベースのリポジトリから手作業で集約され、データローダのコードを伴う機械学習(ML)フレンドリなフォーマットになった。 初診時,集中治療室 (ICU) の状態, 生存状況, 挿管状況, 病院位置などの前頭側・側頭側視像とメタデータを収集した。 我々は、ICUの必要性の予測、患者の生存率の予測、治療中の患者の軌跡の理解など、複数の可能なユースケースを提示する。 データはここでアクセスできる。 https://github.com/ieee8023/covid-chestxray-dataset

Across the world's coronavirus disease 2019 (COVID-19) hot spots, the need to streamline patient diagnosis and management has become more pressing than ever. As one of the main imaging tools, chest X-rays (CXRs) are common, fast, non-invasive, relatively cheap, and potentially bedside to monitor the progression of the disease. This paper describes the first public COVID-19 image data collection as well as a preliminary exploration of possible use cases for the data. This dataset currently contains hundreds of frontal view X-rays and is the largest public resource for COVID-19 image and prognostic data, making it a necessary resource to develop and evaluate tools to aid in the treatment of COVID-19. It was manually aggregated from publication figures as well as various web based repositories into a machine learning (ML) friendly format with accompanying dataloader code. We collected frontal and lateral view imagery and metadata such as the time since first symptoms, intensive care unit (ICU) status, survival status, intubation status, or hospital location. We present multiple possible use cases for the data such as predicting the need for the ICU, predicting patient survival, and understanding a patient's trajectory during treatment. Data can be accessed here: https://github.com/ieee8023/covid-chestxray-dataset
翻訳日:2022-11-18 05:57:56 公開日:2020-12-14
# 深部画像操作のためのスワッピングオートエンコーダ

Swapping Autoencoder for Deep Image Manipulation ( http://arxiv.org/abs/2007.00653v2 )

ライセンス: Link先を確認
Taesung Park, Jun-Yan Zhu, Oliver Wang, Jingwan Lu, Eli Shechtman, Alexei A. Efros, Richard Zhang(参考訳) 深層生成モデルは、ランダムにサンプリングされた種子から現実的な画像を生成するのに益々有効であるが、既存の画像の制御可能な操作のためにそのようなモデルを使用することは依然として困難である。 ランダムサンプリングではなく,画像操作に特化したディープモデルであるSwapping Autoencoderを提案する。 キーとなるアイデアは、2つの独立したコンポーネントで画像をエンコードし、交換された組み合わせをリアルなイメージにマップするように強制することだ。 特に,画像の異なる部分にわたる同時発生パッチ統計を符号化するために,ひとつのコンポーネントを強制することにより,コンポーネントの構造やテクスチャの表現を推奨する。 提案手法はエンコーダを用いて訓練されるため,新しい入力画像の潜時符号の発見は煩雑なものではなく,簡単なものとなる。 結果として、テクスチャスワップ、局所的およびグローバルな編集、潜在コードベクトル演算など、実際の入力画像を様々な方法で操作することができる。 複数のデータセットで実験した結果、我々のモデルはより良い結果をもたらし、最近の生成モデルよりも大幅に効率が良いことが分かりました。

Deep generative models have become increasingly effective at producing realistic images from randomly sampled seeds, but using such models for controllable manipulation of existing images remains challenging. We propose the Swapping Autoencoder, a deep model designed specifically for image manipulation, rather than random sampling. The key idea is to encode an image with two independent components and enforce that any swapped combination maps to a realistic image. In particular, we encourage the components to represent structure and texture, by enforcing one component to encode co-occurrent patch statistics across different parts of an image. As our method is trained with an encoder, finding the latent codes for a new input image becomes trivial, rather than cumbersome. As a result, it can be used to manipulate real input images in various ways, including texture swapping, local and global editing, and latent code vector arithmetic. Experiments on multiple datasets show that our model produces better results and is substantially more efficient compared to recent generative models.
翻訳日:2022-11-14 23:03:46 公開日:2020-12-14
# 膝関節mriビデオにおけるacl損傷検出のための自己教師付き表現学習

Self-Supervised Representation Learning for Detection of ACL Tear Injury in Knee MR Videos ( http://arxiv.org/abs/2007.07761v3 )

ライセンス: Link先を確認
Siladittya Manna, Saumik Bhattacharya, Umapada Pal(参考訳) コンピュータビジョンアプリケーションのためのディープラーニングベースのモデルの成功には、大規模な人間の注釈付きデータが必要である。 教師なし学習のサブセットである自己教師付き学習は、ラベルのない画像やビデオデータから意味のある特徴を学習することでこの問題に対処する。 本稿では,MRビデオクリップから移動可能な特徴を学習するための自己教師型学習手法を提案する。 プリテキストタスクモデルは、MRビデオフレームを分割したジャンブル画像パッチの正しい順序を予測するように設計されている。 私たちの知る限りでは、mrビデオから損傷分類タスクを実行する教師付き学習モデルには、モデルによってなされた決定についての説明は一切ありません。 プレテキストタスクを用いた実験により, 膝関節前十字靭帯損傷の分類などの下流タスクにおいて, 空間的文脈不変の特徴を学習し, 信頼性, 説明可能な性能向上に寄与することが示唆された。 本論文で提案する新しい畳み込みニューラルネットワークの効率は,下流課題で得られた実験結果に反映される。

The success of deep learning based models for computer vision applications requires large scale human annotated data which are often expensive to generate. Self-supervised learning, a subset of unsupervised learning, handles this problem by learning meaningful features from unlabeled image or video data. In this paper, we propose a self-supervised learning approach to learn transferable features from MR video clips by enforcing the model to learn anatomical features. The pretext task models are designed to predict the correct ordering of the jumbled image patches that the MR video frames are divided into. To the best of our knowledge, none of the supervised learning models performing injury classification task from MR video provide any explanation for the decisions made by the models and hence makes our work the first of its kind on MR video data. Experiments on the pretext task show that this proposed approach enables the model to learn spatial context invariant features which help for reliable and explainable performance in downstream tasks like classification of Anterior Cruciate Ligament tear injury from knee MRI. The efficiency of the novel Convolutional Neural Network proposed in this paper is reflected in the experimental results obtained in the downstream task.
翻訳日:2022-11-10 06:01:55 公開日:2020-12-14
# FC-GAGA:時空間交通予測のための完全連結グラフアーキテクチャ

FC-GAGA: Fully Connected Gated Graph Architecture for Spatio-Temporal Traffic Forecasting ( http://arxiv.org/abs/2007.15531v2 )

ライセンス: Link先を確認
Boris N. Oreshkin, Arezou Amini, Lucy Coyle, Mark J. Coates(参考訳) 多変量時系列の予測は、トラフィック管理、セルネットワーク構成、定量的ファイナンスに応用できる重要な問題である。 問題の特別なケースは、時系列間の関係をキャプチャするグラフが利用可能であるときに発生する。 本稿では,グラフの知識を必要とせず,既存のアルゴリズムよりも優れた性能を実現する新しい学習アーキテクチャを提案する。 提案アーキテクチャの鍵となる要素は学習可能な完全連結型ハードグラフゲーティング機構であり,トラヒック予測アプリケーションにおける最先端かつ高効率な完全連結型時系列予測アーキテクチャの利用を可能にする。 2つのパブリックトラフィックネットワークデータセットの実験結果からアプローチの価値が示され,アーキテクチャの各要素の重要性が検証された。 コードは、https://github.com/boreshkinai/fc-gaga。

Forecasting of multivariate time-series is an important problem that has applications in traffic management, cellular network configuration, and quantitative finance. A special case of the problem arises when there is a graph available that captures the relationships between the time-series. In this paper we propose a novel learning architecture that achieves performance competitive with or better than the best existing algorithms, without requiring knowledge of the graph. The key element of our proposed architecture is the learnable fully connected hard graph gating mechanism that enables the use of the state-of-the-art and highly computationally efficient fully connected time-series forecasting architecture in traffic forecasting applications. Experimental results for two public traffic network datasets illustrate the value of our approach, and ablation studies confirm the importance of each element of the architecture. The code is available here: https://github.com/boreshkinai/fc-gaga.
翻訳日:2022-11-05 13:33:44 公開日:2020-12-14
# 心臓インターベンション支援に向けて:リアルタイム3次元心臓MRIセグメントのためのハードウェア対応ニューラルアーキテクチャ探索

Towards Cardiac Intervention Assistance: Hardware-aware Neural Architecture Exploration for Real-Time 3D Cardiac Cine MRI Segmentation ( http://arxiv.org/abs/2008.07071v2 )

ライセンス: Link先を確認
Dewen Zeng, Weiwen Jiang, Tianchen Wang, Xiaowei Xu, Haiyun Yuan, Meiping Huang, Jian Zhuang, Jingtong Hu, Yiyu Shi(参考訳) リアルタイム心臓MRI(Real-time Heartc MRI)は、様々な心臓の介入を導く上で、ますます重要な役割を担っている。 より良い視覚補助を提供するには、目立った視覚遅延を避けるために、シネMRIフレームをオンザフライで分割する必要がある。 また、信頼性と患者データプライバシを考慮して、ローカルハードウェア上で計算することが好ましい。 最先端MRIセグメント法は主に精度のみに焦点を当てており、リアルタイムアプリケーションやローカルハードウェアでは採用できない。 本稿では,リアルタイム3次元心筋mriセグメンテーションのための,ハードウェア対応のマルチスケールニューラルネットワーク検索(nas)フレームワークを提案する。 提案フレームワークは,遅延正規化項をロス関数に組み込んで,ハードウェアの基盤となる制約をリアルタイムに処理する。 また, 定式化はアーキテクチャパラメータに対して完全に微分可能であり, 最適化コストを低減し, 最適化品質を維持しつつ, 確率勾配降下 (sgd) を最適化に用いることができる。 ACDC MICCAI 2017データセットの実験結果によると、我々のハードウェア対応マルチスケールNASフレームワークは、最先端のNASセグメンテーションフレームワークと比較して競争力のあるセグメンテーション精度を保ちながら、レイテンシを最大3.5倍削減し、リアルタイム制約を満たすことができる。

Real-time cardiac magnetic resonance imaging (MRI) plays an increasingly important role in guiding various cardiac interventions. In order to provide better visual assistance, the cine MRI frames need to be segmented on-the-fly to avoid noticeable visual lag. In addition, considering reliability and patient data privacy, the computation is preferably done on local hardware. State-of-the-art MRI segmentation methods mostly focus on accuracy only, and can hardly be adopted for real-time application or on local hardware. In this work, we present the first hardware-aware multi-scale neural architecture search (NAS) framework for real-time 3D cardiac cine MRI segmentation. The proposed framework incorporates a latency regularization term into the loss function to handle real-time constraints, with the consideration of underlying hardware. In addition, the formulation is fully differentiable with respect to the architecture parameters, so that stochastic gradient descent (SGD) can be used for optimization to reduce the computation cost while maintaining optimization quality. Experimental results on ACDC MICCAI 2017 dataset demonstrate that our hardware-aware multi-scale NAS framework can reduce the latency by up to 3.5 times and satisfy the real-time constraints, while still achieving competitive segmentation accuracy, compared with the state-of-the-art NAS segmentation framework.
翻訳日:2022-10-28 03:35:12 公開日:2020-12-14
# mlr3proba: 生存分析における機械学習のためのRパッケージ

mlr3proba: An R Package for Machine Learning in Survival Analysis ( http://arxiv.org/abs/2008.08080v2 )

ライセンス: Link先を確認
Raphael Sonabend, Franz J. Kir\'aly, Andreas Bender, Bernd Bischl, Michel Lang(参考訳) 機械学習がここ数十年で人気が高まっている中、これらのモデルを実装するための機械学習インターフェースの数も増えている。 機械学習には多くのRライブラリが存在するが、サバイバル分析の拡張サポートを提供するものはほとんどない。 医学、バイオインフォマティクス、経済学、工学などの分野における重要性を考えると、これは問題となる。 mlr3probaはサバイバル解析のための包括的な機械学習インターフェイスを提供し、mlr3の一般的なモデルチューニングとベンチマーク機能に接続し、サバイバルモデリングと評価のための体系的なインフラストラクチャを提供する。

As machine learning has become increasingly popular over the last few decades, so too has the number of machine learning interfaces for implementing these models. Whilst many R libraries exist for machine learning, very few offer extended support for survival analysis. This is problematic considering its importance in fields like medicine, bioinformatics, economics, engineering, and more. mlr3proba provides a comprehensive machine learning interface for survival analysis and connects with mlr3's general model tuning and benchmarking facilities to provide a systematic infrastructure for survival modeling and evaluation.
翻訳日:2022-10-27 21:24:02 公開日:2020-12-14
# TreeCaps: ソースコード処理のためのツリーベースのカプセルネットワーク

TreeCaps: Tree-Based Capsule Networks for Source Code Processing ( http://arxiv.org/abs/2009.09777v4 )

ライセンス: Link先を確認
Nghi D. Q. Bui, Yijun Yu, Lingxiao Jiang(参考訳) 近年、構文構造(抽象構文木など)や意味情報(依存性グラフなど)に基づいてソースコードを処理するプログラム学習技術が提案されている。 グラフは木よりもコードセマンティクスの様々な視点を捉えるのに優れているかもしれないが、コードからのグラフインプットを構築するには静的コードセマンティクス分析が必要である。 構文木は言語文法に従って正確に定義されており、グラフよりも構築や処理が容易であるが、従来の木に基づく学習手法では木から意味情報を学習することができず、グラフベースの手法よりも精度が高い。 そこで,本研究では,カプセルネットワークを木ベース畳み込みニューラルネットワークと組み合わせることで,既存のグラフベース手法よりも高い学習精度を実現する新しい学習手法であるtreecapsを提案する。 TreeCapsはカプセルネットワークに新しい可変-静的ルーティングアルゴリズムを導入し、以前のルーティングアルゴリズムの損失を補う。 正確性以外には、セマンティクスを変更することなくコード構文を変更するセマンティクス保存プログラム変換に耐える上で、TreeCapsが最も堅牢であることも分かっています。 多数のjavaおよびc/c++プログラムで評価されたtreecapsモデルは、コード機能分類や関数名予測といったプログラム理解タスクの正確性と堅牢性の観点から、プログラムソースコードの事前ディープラーニングモデルよりも優れています。

Recently program learning techniques have been proposed to process source code based on syntactical structures (e.g., Abstract Syntax Trees) and/or semantic information (e.g., Dependency Graphs). Although graphs may be better at capturing various viewpoints of code semantics than trees, constructing graph inputs from code needs static code semantic analysis that may not be accurate and introduces noise during learning. Although syntax trees are precisely defined according to the language grammar and easier to construct and process than graphs, previous tree-based learning techniques have not been able to learn semantic information from trees to achieve better accuracy than graph-based techniques. We propose a new learning technique, named TreeCaps, by fusing together capsule networks with tree-based convolutional neural networks, to achieve learning accuracy higher than existing graph-based techniques while it is based only on trees. TreeCaps introduces novel variable-to-static routing algorithms into the capsule networks to compensate for the loss of previous routing algorithms. Aside from accuracy, we also find that TreeCaps is the most robust to withstand those semantic-preserving program transformations that change code syntax without modifying the semantics. Evaluated on a large number of Java and C/C++ programs, TreeCaps models outperform prior deep learning models of program source code, in terms of both accuracy and robustness for program comprehension tasks such as code functionality classification and function name prediction
翻訳日:2022-10-21 21:10:55 公開日:2020-12-14
# マルチチョイスビデオQAのための自己教師付き事前学習とコントラスト表現学習

Self-supervised pre-training and contrastive representation learning for multiple-choice video QA ( http://arxiv.org/abs/2009.08043v2 )

ライセンス: Link先を確認
Seonhoon Kim, Seohyeong Jeong, Eunbyul Kim, Inho Kang, Nojun Kwak(参考訳) Video Question Answering (ビデオQA)は、与えられた質問に答えるために、ビデオと言語の両方の微妙な理解を必要とする。 本稿では,自己指導型事前学習段階と主段階における教師付きコントラスト学習を補助学習として,複数選択型ビデオ質問応答のための新しい学習手法を提案する。 自己指導型事前学習の段階では、正しい回答を予測し、関連する質問を予測し、さらなるデータセットやアノテーションを使わずにより広い文脈で入力されたモデルを提供する。 主段における対照的な学習には, 接地真実応答に対応する入力にマスキングノイズを加え, 接地真実応答の本来の入力を正のサンプルとして考慮し, 残りを負のサンプルとして扱う。 マスク入力に近い正のサンプルをマッピングすることにより,モデル性能が向上したことを示す。 さらに,特定の字幕文に特に関連のある映像フレームに対して,より効果的に焦点を合わせるため,局所的に調整された注意を活用した。 提案手法は,TVQA,TVQA+,DramaQAといったマルチチョイスビデオQAに関連する高競争性ベンチマークデータセットを用いて評価する。 実験結果から,本モデルが全データセットの最先端性能を実現することが示された。 さらなる分析を通じて、我々のアプローチを検証する。

Video Question Answering (Video QA) requires fine-grained understanding of both video and language modalities to answer the given questions. In this paper, we propose novel training schemes for multiple-choice video question answering with a self-supervised pre-training stage and a supervised contrastive learning in the main stage as an auxiliary learning. In the self-supervised pre-training stage, we transform the original problem format of predicting the correct answer into the one that predicts the relevant question to provide a model with broader contextual inputs without any further dataset or annotation. For contrastive learning in the main stage, we add a masking noise to the input corresponding to the ground-truth answer, and consider the original input of the ground-truth answer as a positive sample, while treating the rest as negative samples. By mapping the positive sample closer to the masked input, we show that the model performance is improved. We further employ locally aligned attention to focus more effectively on the video frames that are particularly relevant to the given corresponding subtitle sentences. We evaluate our proposed model on highly competitive benchmark datasets related to multiple-choice video QA: TVQA, TVQA+, and DramaQA. Experimental results show that our model achieves state-of-the-art performance on all datasets. We also validate our approaches through further analyses.
翻訳日:2022-10-17 09:11:20 公開日:2020-12-14
# 特徴に基づく説明のストラグル: 共有値と最小値のサブセット

The Struggles of Feature-Based Explanations: Shapley Values vs. Minimal Sufficient Subsets ( http://arxiv.org/abs/2009.11023v2 )

ライセンス: Link先を確認
Oana-Maria Camburu, Eleonora Giunchiglia, Jakob Foerster, Thomas Lukasiewicz, Phil Blunsom(参考訳) 神経モデルが公衆の信頼を広め、公平性を確保するためには、その予測について人間の知性のある説明をしなければならない。 近年、入力特徴の関連性の観点から、ニューラルモデルの予測を説明することに注力する研究が増えている。 本研究では,機能に基づく説明が,自明なモデルでも問題を引き起こすことを示す。 いくつかのケースでは、少なくとも2つの基礎的な特徴に基づく説明が存在し、それらのどちらも、モデルの意思決定プロセスの完全なビューを提供するには不十分であることを示す。 さらに,2つの一般的な説明文のクラスであるシェープリー説明文と十分最小限の部分集合の説明文は,特徴に基づく説明文を1つ探すべきという暗黙の仮定にもかかわらず,基本的に異なる基底的説明文をターゲットとしていることを示す。 これらの発見は、説明者の発展と選択の両方で考慮すべき追加の次元をもたらす。

For neural models to garner widespread public trust and ensure fairness, we must have human-intelligible explanations for their predictions. Recently, an increasing number of works focus on explaining the predictions of neural models in terms of the relevance of the input features. In this work, we show that feature-based explanations pose problems even for explaining trivial models. We show that, in certain cases, there exist at least two ground-truth feature-based explanations, and that, sometimes, neither of them is enough to provide a complete view of the decision-making process of the model. Moreover, we show that two popular classes of explainers, Shapley explainers and minimal sufficient subsets explainers, target fundamentally different types of ground-truth explanations, despite the apparently implicit assumption that explainers should look for one specific feature-based explanation. These findings bring an additional dimension to consider in both developing and choosing explainers.
翻訳日:2022-10-15 16:02:32 公開日:2020-12-14
# DeepFakesON-Phys:心拍推定に基づくDeepFakes検出

DeepFakesON-Phys: DeepFakes Detection based on Heart Rate Estimation ( http://arxiv.org/abs/2010.00400v3 )

ライセンス: Link先を確認
Javier Hernandez-Ortega, Ruben Tolosana, Julian Fierrez and Aythami Morales(参考訳) 本研究は生理的測定に基づく新しいDeepFake検出フレームワークを導入する。 特に,リモートフォトプレチモグラフィ(rppg)を用いた心拍数に関する情報について検討する。 rppg法は、ヒトの皮膚の微妙な色変化を探し、組織の下のヒト血液の存在を明らかにするビデオシーケンスを分析する。 本研究では,RPPGがDeepFakeビデオの検出にどの程度役立つかを検討する。 DeepFakesON-Physという偽の検出器は、ビデオフレームから空間的および時間的情報を抽出し、両方のソースを分析して、偽のビデオをよりよく検出するCAN(Convolutional Attention Network)を使用している。 この検出手法はCeleb-DFとDFDCの分野における最新の公開データベースを用いて実験的に評価されている。 その結果、両方のデータベース上の98%のAUC(Area Under the Curve)が、最先端の技術を上回り、最新のDeepFakeビデオを検出するための生理学的測定に基づく偽検知器の成功を証明した。

This work introduces a novel DeepFake detection framework based on physiological measurement. In particular, we consider information related to the heart rate using remote photoplethysmography (rPPG). rPPG methods analyze video sequences looking for subtle color changes in the human skin, revealing the presence of human blood under the tissues. In this work we investigate to what extent rPPG is useful for the detection of DeepFake videos. The proposed fake detector named DeepFakesON-Phys uses a Convolutional Attention Network (CAN), which extracts spatial and temporal information from video frames, analyzing and combining both sources to better detect fake videos. This detection approach has been experimentally evaluated using the latest public databases in the field: Celeb-DF and DFDC. The results achieved, above 98% AUC (Area Under the Curve) on both databases, outperform the state of the art and prove the success of fake detectors based on physiological measurement to detect the latest DeepFake videos.
翻訳日:2022-10-12 08:37:30 公開日:2020-12-14
# 階層的関係推論

Hierarchical Relational Inference ( http://arxiv.org/abs/2010.03635v2 )

ライセンス: Link先を確認
Aleksandar Stani\'c, Sjoerd van Steenkiste, J\"urgen Schmidhuber(参考訳) 現実世界における常識的な物理的推論は、オブジェクトの相互作用とそのダイナミクスについて学ぶ必要がある。 しかし、抽象オブジェクトの概念は、それらがサポートする複雑な振る舞いの観点で大きく異なる様々な物理オブジェクトを含んでいる。 そこで本研究では,物体を局所的に独立に振る舞うが,よりグローバルに一括して振る舞う部分の階層としてモデル化する物理推論手法を提案する。 従来の手法とは異なり,本手法は生画像から直接教師なしの方法で学習し,対象,部品,それらの関係を探索する。 複数の抽象化レベルを明確に区別し、合成ビデオや現実世界ビデオのモデリングにおいて、強力なベースラインを越えて改善する。

Common-sense physical reasoning in the real world requires learning about the interactions of objects and their dynamics. The notion of an abstract object, however, encompasses a wide variety of physical objects that differ greatly in terms of the complex behaviors they support. To address this, we propose a novel approach to physical reasoning that models objects as hierarchies of parts that may locally behave separately, but also act more globally as a single whole. Unlike prior approaches, our method learns in an unsupervised fashion directly from raw visual images to discover objects, parts, and their relations. It explicitly distinguishes multiple levels of abstraction and improves over a strong baseline at modeling synthetic and real-world videos.
翻訳日:2022-10-09 21:52:04 公開日:2020-12-14
# ビジョン支援ラジオ:機械学習を用いたラジオ・ビデオ領域のユーザIDマッチング

Vision-Aided Radio: User Identity Match in Radio and Video Domains Using Machine Learning ( http://arxiv.org/abs/2010.07219v3 )

ライセンス: Link先を確認
Vinicius M. de Pinho, Marcello L. R. de Campos, Luis Uzeda Garcia and Dalia Popescu(参考訳) 5gは、データトラフィックの増加と、異なる要件を持つさまざまなサービスに対する需要をサポートすることにより、通信技術業界における重要なイネーブラと主要なインフラストラクチャプロバイダとして設計されている。 ディープラーニングとコンピュータビジョンツールの利用は、視覚データからの情報によってネットワークの環境意識を高める手段を持っている。 ユーザ位置、移動方向、速度などのコンピュータビジョンツールから抽出された情報は、ネットワーク上で迅速に利用できる。 しかし、ネットワークは、視覚システムと無線システムの両方において、ユーザのアイデンティティにマッチするメカニズムを持つ必要がある。 このメカニズムは現在の文献にはない。 そこで我々は,視覚領域と無線領域の両方の情報にマッチする枠組みを提案する。 これはコミュニケーションにおけるコンピュータビジョンツールの実用化に不可欠なステップである。 提案されたセットアップのためのフレームワークのトレーニングとデプロイメントフェーズについて詳述する。 異なる種類の環境で収集したデータを用いて実践実験を行った。 この研究は、Deep Neural NetworkとRandom Forestの分類器の使用を比較し、前者はすべての実験でより良い性能を示し、99%以上の分類精度を達成した。

5G is designed to be an essential enabler and a leading infrastructure provider in the communication technology industry by supporting the demand for the growing data traffic and a variety of services with distinct requirements. The use of deep learning and computer vision tools has the means to increase the environmental awareness of the network with information from visual data. Information extracted via computer vision tools such as user position, movement direction, and speed can be promptly available for the network. However, the network must have a mechanism to match the identity of a user in both visual and radio systems. This mechanism is absent in the present literature. Therefore, we propose a framework to match the information from both visual and radio domains. This is an essential step to practical applications of computer vision tools in communications. We detail the proposed framework training and deployment phases for a presented setup. We carried out practical experiments using data collected in different types of environments. The work compares the use of Deep Neural Network and Random Forest classifiers and shows that the former performed better across all experiments, achieving classification accuracy greater than 99%.
翻訳日:2022-10-07 13:46:28 公開日:2020-12-14
# アスペクトベース感情分析のためのコンテキスト誘導bert

Context-Guided BERT for Targeted Aspect-Based Sentiment Analysis ( http://arxiv.org/abs/2010.07523v2 )

ライセンス: Link先を確認
Zhengxuan Wu, Desmond C. Ong(参考訳) Aspect-based sentiment analysis (ABSA) と Targeted ASBA (TABSA) は、文脈に応じて、同じテキストから感情についてよりきめ細かい推測ができる。 例えば、あるテキストは異なるターゲット(例えば、近所)と異なる側面(例えば、価格や安全性)を持ち、それぞれのターゲットとアスペクトのペアに異なる感情を持つことができる。 本稿では,自己注意モデルにコンテキストを追加することで,(T)ABSAの性能が向上するかどうかを検討する。 本稿では,異なるコンテキスト下で注意を分散することを学ぶための2種類のコンテキストガイドBERT(CG-BERT)を提案する。 まず、文脈適応型ソフトマックスアテンションを用いたCG-BERTを生成する。 次に,減算的注意を支える構成的注意を学ぶ,改良された準アテンションcg-bertモデルを提案する。 SentiHoodとSemEval-2014(Task 4)の2つの(T)ABSAデータセット上で、事前トレーニングされたBERTで両方のモデルをトレーニングします。 どちらのモデルも、最高の性能を持つQACG-BERTモデルにより、最先端の新たな結果を得る。 さらに,提案するモデルにおける文脈の影響分析を行う。 我々の研究は、文脈に基づく自然言語タスクのための事前学習された自己注意に基づく言語モデルに文脈依存性を追加するという有用性を示す。

Aspect-based sentiment analysis (ABSA) and Targeted ASBA (TABSA) allow finer-grained inferences about sentiment to be drawn from the same text, depending on context. For example, a given text can have different targets (e.g., neighborhoods) and different aspects (e.g., price or safety), with different sentiment associated with each target-aspect pair. In this paper, we investigate whether adding context to self-attention models improves performance on (T)ABSA. We propose two variants of Context-Guided BERT (CG-BERT) that learn to distribute attention under different contexts. We first adapt a context-aware Transformer to produce a CG-BERT that uses context-guided softmax-attention. Next, we propose an improved Quasi-Attention CG-BERT model that learns a compositional attention that supports subtractive attention. We train both models with pretrained BERT on two (T)ABSA datasets: SentiHood and SemEval-2014 (Task 4). Both models achieve new state-of-the-art results with our QACG-BERT model having the best performance. Furthermore, we provide analyses of the impact of context in the our proposed models. Our work provides more evidence for the utility of adding context-dependencies to pretrained self-attention-based language models for context-based natural language tasks.
翻訳日:2022-10-07 02:49:36 公開日:2020-12-14
# AAAI-FSS 2020におけるAI-HRIシンポジウムの成果

Proceedings of the AI-HRI Symposium at AAAI-FSS 2020 ( http://arxiv.org/abs/2010.13830v4 )

ライセンス: Link先を確認
Shelly Bagchi, Jason R. Wilson, Muneeb I. Ahmad, Christian Dondrup, Zhao Han, Justin W. Hart, Matteo Leonetti, Katrin Lohan, Ross Mead, Emmanuel Senft, Jivko Sinapov, Megan L. Zimmerman(参考訳) The Artificial Intelligence (AI) for Human-Robot Interaction (HRI) Symposiumは2014年以来、議論とコラボレーションの場として成功している。 当時、ロボット工学への信頼に関する話題は急速に増加しており、世界中の大学や研究所での研究が盛んになっている。 実際、AI-HRIの過去の参加者の多くは、HRIに対する信頼の研究に関わったか、あるいは関係している。 信頼はコンセンサス定義を持たないが、予測可能性、信頼性、信頼の喚起、期待の達成に定期的に関連している。 さらに、信頼はaiとロボティクスの両方を採用する上で、特に研究室から産業、社会、消費者のアプリケーションへテクノロジーを移行する際に重要であると一般的に信じられている。 しかし、AI-HRI領域で遭遇する特定の状況に対して、信頼はどのように適用されるのか? AIに対する信頼の概念は、HRIと同じなのか? このシンポジウムで提供されるAIとHRIの交差点で直接生活する研究の必要性が高まっている。 2日間のミーティングを通じて、我々は、AI-HRIの信頼に対する現在の取り組みに関する議論のための共同フォーラムを作成することを提案し、HRIのための説明可能なAI(XAI)に関するトピックに焦点を当てたサブセッションを開催する。

The Artificial Intelligence (AI) for Human-Robot Interaction (HRI) Symposium has been a successful venue of discussion and collaboration since 2014. In that time, the related topic of trust in robotics has been rapidly growing, with major research efforts at universities and laboratories across the world. Indeed, many of the past participants in AI-HRI have been or are now involved with research into trust in HRI. While trust has no consensus definition, it is regularly associated with predictability, reliability, inciting confidence, and meeting expectations. Furthermore, it is generally believed that trust is crucial for adoption of both AI and robotics, particularly when transitioning technologies from the lab to industrial, social, and consumer applications. However, how does trust apply to the specific situations we encounter in the AI-HRI sphere? Is the notion of trust in AI the same as that in HRI? We see a growing need for research that lives directly at the intersection of AI and HRI that is serviced by this symposium. Over the course of the two-day meeting, we propose to create a collaborative forum for discussion of current efforts in trust for AI-HRI, with a sub-session focused on the related topic of explainable AI (XAI) for HRI.
翻訳日:2022-10-02 19:59:40 公開日:2020-12-14
# 機械学習による仮説に基づく科学的直観

Scientific intuition inspired by machine learning generated hypotheses ( http://arxiv.org/abs/2010.14236v2 )

ライセンス: Link先を確認
Pascal Friederich, Mario Krenn, Isaac Tamblyn, Alan Aspuru-Guzik(参考訳) 物理科学における問題への機械学習の適用は、多くの分野における分類、回帰、最適化のタスクにうまく適用され、広く使われているツールとなった。 研究は、主に数値予測における機械学習モデルの精度の向上に焦点が当てられているが、科学的理解は、数値結果を分析して結論を導き出す人間研究者によって、ほぼ独占的に生み出されている。 本研究では,機械学習モデル自体が獲得した洞察と知識に焦点を移す。 特に、人間の科学者が自然システムの直感と理解を高めるために、どのように抽出され、どのように使用されるかを研究する。 我々は、化学や物理学からビッグデータから人間の解釈可能な洞察を抽出するために、決定木に勾配ブースティングを適用する。 化学では、親指の規則を再発見するだけでなく、有機分子の溶解度やエネルギーレベルを制御する方法を示す新しい興味深いモチーフも発見します。 同時に、量子物理学において、量子絡み合いの実験についての新しい理解を得る。 数値を超越し、科学的洞察と仮説生成の領域に入る能力は、最も困難な科学領域における概念理解の発見を加速するために機械学習を使用するドアを開く。

Machine learning with application to questions in the physical sciences has become a widely used tool, successfully applied to classification, regression and optimization tasks in many areas. Research focus mostly lies in improving the accuracy of the machine learning models in numerical predictions, while scientific understanding is still almost exclusively generated by human researchers analysing numerical results and drawing conclusions. In this work, we shift the focus on the insights and the knowledge obtained by the machine learning models themselves. In particular, we study how it can be extracted and used to inspire human scientists to increase their intuitions and understanding of natural systems. We apply gradient boosting in decision trees to extract human interpretable insights from big data sets from chemistry and physics. In chemistry, we not only rediscover widely know rules of thumb but also find new interesting motifs that tell us how to control solubility and energy levels of organic molecules. At the same time, in quantum physics, we gain new understanding on experiments for quantum entanglement. The ability to go beyond numerics and to enter the realm of scientific insight and hypothesis generation opens the door to use machine learning to accelerate the discovery of conceptual understanding in some of the most challenging domains of science.
翻訳日:2022-10-02 11:48:29 公開日:2020-12-14
# 減衰係数を持つマルチロス階層型BiLSTMによるTwitterの噂検出

Rumor Detection on Twitter Using Multiloss Hierarchical BiLSTM with an Attenuation Factor ( http://arxiv.org/abs/2011.00259v2 )

ライセンス: Link先を確認
Yudianto Sujana, Jiawen Li, Hung-Yu Kao(参考訳) Twitterなどのソーシャルメディアプラットフォームは、未確認情報や噂の発端となっている。 これらの噂は人々の健康を脅かし、経済を脅かし、国の安定に影響を及ぼす可能性がある。 多くの研究者が、従来の機械学習やバニラディープラーニングモデルを使って噂を分類するモデルを開発した。 しかし、これまでの噂検出の研究は精度が低く、時間がかかる。 本稿では,階層モデルとマルチタスク学習にヒントを得て,減衰係数を持つマルチロス階層型BiLSTMモデルを提案する。 モデルは2つのBiLSTMモジュール、ポストレベルとイベントレベルに分けられる。 この階層構造によって、モデルは限られた量のテキストから深いインフォーメーションを抽出することができる。 各モジュールには、両側の機能を学び、トレーニング時間を短縮するロス関数がある。 減衰ファックタがポストレベルに追加され、精度が向上する。 2つの噂データセットの結果から,我々のモデルは最先端の機械学習モデルやバニラ深層学習モデルよりも優れた性能が得られることが示された。

Social media platforms such as Twitter have become a breeding ground for unverified information or rumors. These rumors can threaten people's health, endanger the economy, and affect the stability of a country. Many researchers have developed models to classify rumors using traditional machine learning or vanilla deep learning models. However, previous studies on rumor detection have achieved low precision and are time consuming. Inspired by the hierarchical model and multitask learning, a multiloss hierarchical BiLSTM model with an attenuation factor is proposed in this paper. The model is divided into two BiLSTM modules: post level and event level. By means of this hierarchical structure, the model can extract deep in-formation from limited quantities of text. Each module has a loss function that helps to learn bilateral features and reduce the training time. An attenuation fac-tor is added at the post level to increase the accuracy. The results on two rumor datasets demonstrate that our model achieves better performance than that of state-of-the-art machine learning and vanilla deep learning models.
翻訳日:2022-10-01 04:46:37 公開日:2020-12-14
# DUDE:複合三次元表面の高忠実表現のための深部無署名距離埋め込み

DUDE: Deep Unsigned Distance Embeddings for Hi-Fidelity Representation of Complex 3D Surfaces ( http://arxiv.org/abs/2011.02570v2 )

ライセンス: Link先を確認
Rahul Venkatesh, Sarthak Sharma, Aurobrata Ghosh, Laszlo Jeni, Maneesh Singh(参考訳) 任意の位相を持つ形状の高忠実性表現は、様々なビジョンやグラフィックアプリケーションにとって重要な問題である。 解像度が限られているため、点雲、ボクセル、メッシュを用いた古典的な離散形状表現は、これらのアプリケーションで使用すると低品質の結果を生み出す。 ディープニューラルネットワークを用いた暗黙的な3次元形状表現アプローチが提案され、表現の品質と下流アプリケーションへの影響の両方が大幅に改善されている。 しかし、これらの手法は、それらが表現できる形状のクラスを著しく制限する位相的に閉じた形状を表現するためにのみ使用できる。 そのため、トレーニングには清潔で水密なメッシュが必要になることが多い。 本研究では,これらの欠点を緩和するDuDE-Deep Unsigned Distance Embedding法を提案する。 DUDE は、非符号距離場 (uDF) を用いて表面との近接を表現し、正規ベクトル場 (nVF) は表面の向きを表現している。 この2つの組み合わせ (uDF+nVF) を用いて任意の開/閉形状の高忠実度表現を学習できることを示す。 DeepSDFのような以前の作業とは異なり、私たちの形状表現はノイズの多い三角形のスープから直接学習することができ、水密メッシュは必要ありません。 さらに,学習した表現からアイソサーフェスを抽出・描画する新しいアルゴリズムを提案する。 DUDEをベンチマーク3Dデータセットで検証し、その技術状況よりも大幅に改善されていることを示す。

High fidelity representation of shapes with arbitrary topology is an important problem for a variety of vision and graphics applications. Owing to their limited resolution, classical discrete shape representations using point clouds, voxels and meshes produce low quality results when used in these applications. Several implicit 3D shape representation approaches using deep neural networks have been proposed leading to significant improvements in both quality of representations as well as the impact on downstream applications. However, these methods can only be used to represent topologically closed shapes which greatly limits the class of shapes that they can represent. As a consequence, they also often require clean, watertight meshes for training. In this work, we propose DUDE - a Deep Unsigned Distance Embedding method which alleviates both of these shortcomings. DUDE is a disentangled shape representation that utilizes an unsigned distance field (uDF) to represent proximity to a surface, and a normal vector field (nVF) to represent surface orientation. We show that a combination of these two (uDF+nVF) can be used to learn high fidelity representations for arbitrary open/closed shapes. As opposed to prior work such as DeepSDF, our shape representations can be directly learnt from noisy triangle soups, and do not need watertight meshes. Additionally, we propose novel algorithms for extracting and rendering iso-surfaces from the learnt representations. We validate DUDE on benchmark 3D datasets and demonstrate that it produces significant improvements over the state of the art.
翻訳日:2022-09-29 22:31:54 公開日:2020-12-14
# コモンセンス質問応答におけるゼロショット評価のための知識駆動データ構築

Knowledge-driven Data Construction for Zero-shot Evaluation in Commonsense Question Answering ( http://arxiv.org/abs/2011.03863v2 )

ライセンス: Link先を確認
Kaixin Ma, Filip Ilievski, Jonathan Francis, Yonatan Bisk, Eric Nyberg, Alessandro Oltramari(参考訳) 事前学習されたニューラルネットワークモデリングの最近の進歩は、commonsense question-answeringベンチマークにおける精度の飛躍につながった。 しかし、外部知識を活用したり、一般的な意味論的推論を実行することを学ばずに、モデルが特定のタスクに過度に適合するという懸念が高まっている。 対照的に、ゼロショット評価はモデルの一般的な推論能力のより堅牢な尺度として期待されている。 本稿では,コモンセンスタスクにまたがるゼロショット質問応答のための新しいニューロシンボリックフレームワークを提案する。 一連の仮説によって導かれたこのフレームワークは、既存の知識資源を事前学習モデルに最も効果的な形式に変換する方法を研究する。 言語モデル、トレーニング体制、知識ソース、データ生成戦略のセットを変えて、タスク間の影響を測定します。 先行作業を拡張して、4つの制約付きイントラクタサンプリング戦略を考案し比較する。 5つの外部知識リソースから生成したデータを用いて,5つのコモンセンス質問応答タスクにおいて経験的な結果を提供する。 個別の知識グラフは特定のタスクに適しているが、グローバルな知識グラフはさまざまなタスクに対して一貫した利得をもたらす。 さらに、タスクの構造を保存することと、公平で情報的な質問を生成することは、言語モデルをより効果的に学習するのに役立つ。

Recent developments in pre-trained neural language modeling have led to leaps in accuracy on commonsense question-answering benchmarks. However, there is increasing concern that models overfit to specific tasks, without learning to utilize external knowledge or perform general semantic reasoning. In contrast, zero-shot evaluations have shown promise as a more robust measure of a model's general reasoning abilities. In this paper, we propose a novel neuro-symbolic framework for zero-shot question answering across commonsense tasks. Guided by a set of hypotheses, the framework studies how to transform various pre-existing knowledge resources into a form that is most effective for pre-training models. We vary the set of language models, training regimes, knowledge sources, and data generation strategies, and measure their impact across tasks. Extending on prior work, we devise and compare four constrained distractor-sampling strategies. We provide empirical results across five commonsense question-answering tasks with data generated from five external knowledge resources. We show that, while an individual knowledge graph is better suited for specific tasks, a global knowledge graph brings consistent gains across different tasks. In addition, both preserving the structure of the task as well as generating fair and informative questions help language models learn more effectively.
翻訳日:2022-09-28 22:17:38 公開日:2020-12-14
# 自動オープンワールド信頼性評価

Automatic Open-World Reliability Assessment ( http://arxiv.org/abs/2011.05506v2 )

ライセンス: Link先を確認
Mohsen Jafarzadeh, Touqeer Ahmad, Akshay Raj Dhamija, Chunchun Li, Steve Cruz, Terrance E. Boult(参考訳) オープンワールドにおける画像分類は、配布外画像(OOD)を扱う必要がある。 システムは理想的にはOODイメージを拒否するか、既知のクラスの上にマップし、信頼性を低下させるべきである。 OOD入力を拒否できるオープンセットの分類器を使用することは役に立つ。 しかし、開集合分類器の最適精度はOODデータの周波数に依存する。 したがって、標準またはオープンセットの分類器では、世界がいつ変化し、OOD入力が増加するかを決定することがシステムの信頼性を低下させる。 しかし,操作中はラベルがないため,精度を直接評価することはできない。 したがって、これらの分類器の信頼性評価は、ネットワークが100%正確ではないため、より複雑になるので、いくつかの失敗が期待できる。 そこで本研究では,このプロセスを自動化するために,オープンワールド認識信頼性問題を定式化し,新たに報告されたスコア・確率データの分布のみを用いて,複数の自動信頼度評価手法を提案する。 分散アルゴリズムは、SoftMaxを使った古典的な分類器と、オープンソースのExtreme Value Machine(EVM)の両方に適用して、自動信頼性評価を提供する。 新たなアルゴリズムはすべて,softmax平均を用いた検出を著しく上回っていることを示す。

Image classification in the open-world must handle out-of-distribution (OOD) images. Systems should ideally reject OOD images, or they will map atop of known classes and reduce reliability. Using open-set classifiers that can reject OOD inputs can help. However, optimal accuracy of open-set classifiers depend on the frequency of OOD data. Thus, for either standard or open-set classifiers, it is important to be able to determine when the world changes and increasing OOD inputs will result in reduced system reliability. However, during operations, we cannot directly assess accuracy as there are no labels. Thus, the reliability assessment of these classifiers must be done by human operators, made more complex because networks are not 100% accurate, so some failures are to be expected. To automate this process, herein, we formalize the open-world recognition reliability problem and propose multiple automatic reliability assessment policies to address this new problem using only the distribution of reported scores/probability data. The distributional algorithms can be applied to both classic classifiers with SoftMax as well as the open-world Extreme Value Machine (EVM) to provide automated reliability assessment. We show that all of the new algorithms significantly outperform detection using the mean of SoftMax.
翻訳日:2022-09-26 23:50:38 公開日:2020-12-14
# クラス後確率推定のための焦点損失について:理論的視点

On Focal Loss for Class-Posterior Probability Estimation: A Theoretical Perspective ( http://arxiv.org/abs/2011.09172v2 )

ライセンス: Link先を確認
Nontawat Charoenphakdee, Jayakorn Vongkulbhisal, Nuttapong Chairatanakul, Masashi Sugiyama(参考訳) 焦点損失は物体検出や画像分類などの実世界の多くの応用において有効性を示しているが、理論的な理解は限られている。 本稿では,まず,焦点損失が分類共役であることを示す。すなわち,その最小化器はベイズ最適分類器を産出するので,分類における焦点損失の利用を理論的に正当化することができる。 しかし、焦点損失が厳密には正しくないこと、すなわち焦点損失最小化によって得られた分類器の信頼度スコアが真の類後確率と一致しないこと、従って類後確率推定器として信頼できないという負の事実も証明する。 この問題を緩和するために、信頼度スコアの特定の閉形式変換によって真のクラス後確率を回復できることを示す。 ベンチマークデータセットを用いた実験により,提案手法がクラス後確率推定の精度を大幅に向上することを示す。

The focal loss has demonstrated its effectiveness in many real-world applications such as object detection and image classification, but its theoretical understanding has been limited so far. In this paper, we first prove that the focal loss is classification-calibrated, i.e., its minimizer surely yields the Bayes-optimal classifier and thus the use of the focal loss in classification can be theoretically justified. However, we also prove a negative fact that the focal loss is not strictly proper, i.e., the confidence score of the classifier obtained by focal loss minimization does not match the true class-posterior probability and thus it is not reliable as a class-posterior probability estimator. To mitigate this problem, we next prove that a particular closed-form transformation of the confidence score allows us to recover the true class-posterior probability. Through experiments on benchmark datasets, we demonstrate that our proposed transformation significantly improves the accuracy of class-posterior probability estimation.
翻訳日:2022-09-24 03:26:47 公開日:2020-12-14
# 圧縮サンプリングと異方性メッシュに基づく画像表現の予備比較

A Preliminary Comparison Between Compressive Sampling and Anisotropic Mesh-based Image Representation ( http://arxiv.org/abs/2011.09944v2 )

ライセンス: Link先を確認
Xianping Li, Teresa Wu(参考訳) 圧縮センシング(cs)は過去20年で一般的な分野となり、信号そのものよりも少ないサンプルでスパース信号を表現し再構成している。 通常の画像は単独ではスパースしないが、多くはウェーブレット変換領域でスパースに表現できる。 そのため、csはデジタル画像の表現にも広く応用されている。 しかし、メッシュベース画像表現(MbIR)のような適応的なサンプリング手法は、あまり注目されていない。 MbIRは画像ピクセルを直接処理し、三角形のメッシュを使用してより少ないポイントで画像を表現する。 本稿では,CSと最近開発されたMbIR法,AMA表現の予備比較を行う。 その結果, ama表現は, 同じサンプル密度で, テストしたアルゴリズムに基づいて, csよりも優れた再構成品質が得られることがわかった。 徹底的な比較を行うには,最近のアルゴリズムによるさらなる調査が必要である。

Compressed sensing (CS) has become a popular field in the last two decades to represent and reconstruct a sparse signal with much fewer samples than the signal itself. Although regular images are not sparse on their own, many can be sparsely represented in wavelet transform domain. Therefore, CS has also been widely applied to represent digital images. However, an alternative approach, adaptive sampling such as mesh-based image representation (MbIR), has not attracted as much attention. MbIR works directly on image pixels and represents the image with fewer points using a triangular mesh. In this paper, we perform a preliminary comparison between the CS and a recently developed MbIR method, AMA representation. The results demonstrate that, at the same sample density, AMA representation can provide better reconstruction quality than CS based on the tested algorithms. Further investigation with recent algorithms is needed to perform a thorough comparison.
翻訳日:2022-09-23 21:44:37 公開日:2020-12-14
# 粒子群最適化を用いたハイパーパラメータ推定法

Hyper-parameter estimation method with particle swarm optimization ( http://arxiv.org/abs/2011.11944v2 )

ライセンス: Link先を確認
Yaru Li, Yulai Zhang(参考訳) 粒子群最適化 (pso) 法は, 超パラメータから損失関数へのマッピングの数学的定式化や一般化精度が不明確であるため, ハイパーパラメータ推定では直接利用できない。 ベイズ最適化(BO)フレームワークは、ハイパーパラメータの最適化を取得関数の最適化に変換することができる。 取得関数は非凸かつマルチピークである。 したがって、この問題はPSOによってよりよく解決できる。 本稿では,boフレームワークにおける取得関数を最適化し,より優れたハイパーパラメータを得るために particle swarm 法を提案する。 分類モデルと回帰モデルの両方における提案手法の性能を評価し,実証した。 いくつかのベンチマーク問題の結果が改善された。

Particle swarm optimization (PSO) method cannot be directly used in the problem of hyper-parameter estimation since the mathematical formulation of the mapping from hyper-parameters to loss function or generalization accuracy is unclear. Bayesian optimization (BO) framework is capable of converting the optimization of the hyper-parameters into the optimization of an acquisition function. The acquisition function is non-convex and multi-peak. So the problem can be better solved by the PSO. The proposed method in this paper uses the particle swarm method to optimize the acquisition function in the BO framework to get better hyper-parameters. The performances of proposed method in both of the classification and regression models are evaluated and demonstrated. The results on several benchmark problems are improved.
翻訳日:2022-09-21 12:18:00 公開日:2020-12-14
# 深層学習の観点からの固定優先度グローバルスケジューリング

Fixed Priority Global Scheduling from a Deep Learning Perspective ( http://arxiv.org/abs/2012.03002v2 )

ライセンス: Link先を確認
Hyunsung Lee, Michael Wang and Honguk Woo(参考訳) 近年、Deep Learningは組合せ最適化問題を効果的に解決するための実現可能なソリューションの1つとして認識されている。 本稿では,まず,固定優先度グローバルスケジューリング(fpgs)問題に対する予備作業を通じて,リアルタイムタスクスケジューリングにディープラーニングを適用する方法を提案する。 次に,複数の現実的で複雑なFPGSシナリオ,例えば依存性のあるタスクスケジューリング,混合臨界タスクスケジューリングについて,Deep Learning導入の可能な一般化について議論する。 様々なシステム構成や問題シナリオにおけるスケジューリングの質を改善するために、高度なディープラーニング技術を活用する多くの機会があると信じています。

Deep Learning has been recently recognized as one of the feasible solutions to effectively address combinatorial optimization problems, which are often considered important yet challenging in various research domains. In this work, we first present how to adopt Deep Learning for real-time task scheduling through our preliminary work upon fixed priority global scheduling (FPGS) problems. We then briefly discuss possible generalizations of Deep Learning adoption for several realistic and complicated FPGS scenarios, e.g., scheduling tasks with dependency, mixed-criticality task scheduling. We believe that there are many opportunities for leveraging advanced Deep Learning technologies to improve the quality of scheduling in various system configurations and problem scenarios.
翻訳日:2021-05-22 12:13:21 公開日:2020-12-14
# (参考訳) 複数のASR仮説を用いてi18n NLU性能を向上する

Using multiple ASR hypotheses to boost i18n NLU performance ( http://arxiv.org/abs/2012.04099v2 )

ライセンス: CC BY 4.0
Charith Peris, Gokmen Oz, Khadige Abboud, Venkata sai Varada, Prashan Wanigasekara, Haidar Khan(参考訳) 現在の音声アシスタントは、通常、彼らの自然言語理解(NLU)モジュールへの入力として自動音声認識(ASR)モジュールから得られる最良の仮説を使い、低ランクのASR仮説に格納される有用な情報を失う。 ドイツ語とポルトガル語の2つの言語データセットのステータスクオと比較し,NLU関連タスクの性能の変化について検討した。 ASR 5-best から情報を抽出するために,ドメイン分類 (DC) 実験における抽出的要約と共同抽出的要約モデルを活用し,インテント分類 (IC) と名前付きエンティティ認識 (NER) マルチタスク実験のためのポインタジェネレータネットワークを用いたシーケンス・ツー・シーケンスモデルを用いた。 DCフルテストセットでは、それぞれドイツ語とポルトガル語のマイクロ平均F1スコアの7.2%と15.5%の大幅な改善が観察された。 ASR仮説が書き起こされた発話と正確に一致しない場合(ミスマッチしたテストセット)、それぞれドイツ語とポルトガル語のF1スコアが最大6.7%と8.8%改善されている。 ICとNERのマルチタスク実験では、ミスマッチしたテストセットを評価すると、ドイツ語のすべてのドメインとポルトガル語の19ドメイン中17ドメインで改善が見られる(SeMERスコアの変化に基づく改善)。 その結果,複数のASR仮説を用いることで,これらの非英語データセットに対するDCタスクの性能が大幅に向上することが示唆された。 さらに、ASRモデルが誤りを犯した場合には、ICおよびNERタスクのパフォーマンスが大幅に向上する可能性がある。

Current voice assistants typically use the best hypothesis yielded by their Automatic Speech Recognition (ASR) module as input to their Natural Language Understanding (NLU) module, thereby losing helpful information that might be stored in lower-ranked ASR hypotheses. We explore the change in performance of NLU associated tasks when utilizing five-best ASR hypotheses when compared to status quo for two language datasets, German and Portuguese. To harvest information from the ASR five-best, we leverage extractive summarization and joint extractive-abstractive summarization models for Domain Classification (DC) experiments while using a sequence-to-sequence model with a pointer generator network for Intent Classification (IC) and Named Entity Recognition (NER) multi-task experiments. For the DC full test set, we observe significant improvements of up to 7.2% and 15.5% in micro-averaged F1 scores, for German and Portuguese, respectively. In cases where the best ASR hypothesis was not an exact match to the transcribed utterance (mismatched test set), we see improvements of up to 6.7% and 8.8% micro-averaged F1 scores, for German and Portuguese, respectively. For IC and NER multi-task experiments, when evaluating on the mismatched test set, we see improvements across all domains in German and in 17 out of 19 domains in Portuguese (improvements based on change in SeMER scores). Our results suggest that the use of multiple ASR hypotheses, as opposed to one, can lead to significant performance improvements in the DC task for these non-English datasets. In addition, it could lead to significant improvement in the performance of IC and NER tasks in cases where the ASR model makes mistakes.
翻訳日:2021-05-18 05:26:01 公開日:2020-12-14
# h-fnd:階層的false-negative denoisingによる遠隔監督関係抽出

H-FND: Hierarchical False-Negative Denoising for Distant Supervision Relation Extraction ( http://arxiv.org/abs/2012.03536v2 )

ライセンス: Link先を確認
Jhih-Wei Chen, Tsu-Jui Fu, Chen-Kang Lee, Wei-Yun Ma(参考訳) 遠隔監視は関係抽出のためのトレーニングデータを自動的に生成するが、生成されたデータセットに偽陽性(FP)と偽陰性(FN)のトレーニングインスタンスも導入する。 どちらのタイプの誤りも最終的なモデル性能を劣化させるが、遠方監視の以前の研究はfpノイズの抑制に重点を置いており、fn問題の解決に重点を置いている。 本稿では,fnデノージング解として,ロバストな遠隔監督関係抽出のための階層的偽陰性デノージングフレームワークh-fndを提案する。 H-FNDは階層的なポリシーを使用して、トレーニングプロセス中に非リレーション(NA)インスタンスを保持、破棄、または修正すべきかどうかを判断する。 改訂される学習インスタンスに対して、ポリシーはさらに適切な関係を割り当て、より優れたインプットのトレーニングを可能にする。 SemEval-2010とTACREDの実験は、制御されたFN比を用いて行われ、トレーニングと検証インスタンスの関係をランダムに負に変えてFNインスタンスを生成する。 この設定では、H-FNDはFNインスタンスを正しく修正することができ、50%のインスタンスが負に変換された場合でも高いF1スコアを維持する。 さらに、H-FNDが現実的な環境で適用可能であることを示すため、NYT10の実験が行われた。

Although distant supervision automatically generates training data for relation extraction, it also introduces false-positive (FP) and false-negative (FN) training instances to the generated datasets. Whereas both types of errors degrade the final model performance, previous work on distant supervision denoising focuses more on suppressing FP noise and less on resolving the FN problem. We here propose H-FND, a hierarchical false-negative denoising framework for robust distant supervision relation extraction, as an FN denoising solution. H-FND uses a hierarchical policy which first determines whether non-relation (NA) instances should be kept, discarded, or revised during the training process. For those learning instances which are to be revised, the policy further reassigns them appropriate relations, making them better training inputs. Experiments on SemEval-2010 and TACRED were conducted with controlled FN ratios that randomly turn the relations of training and validation instances into negatives to generate FN instances. In this setting, H-FND can revise FN instances correctly and maintains high F1 scores even when 50% of the instances have been turned into negatives. Experiment on NYT10 is further conducted to shows that H-FND is applicable in a realistic setting.
翻訳日:2021-05-16 21:31:32 公開日:2020-12-14
# 弱監視学習に基づくニュース・出版者・利用者の信頼度を利用したフェイクニュースの早期発見

Early Detection of Fake News by Utilizing the Credibility of News, Publishers, and Users Based on Weakly Supervised Learning ( http://arxiv.org/abs/2012.04233v2 )

ライセンス: Link先を確認
Chunyuan Yuan, Qianwen Ma, Wei Zhou, Jizhong Han, Songlin Hu(参考訳) 偽ニュースの普及は、個人の評判と公的な信頼に大きく影響する。 近年,偽ニュース検出が注目され,ニュースコンテンツや拡散経路からの手がかりの発見を中心に研究が進められている。 しかし、以前のモデルに必要な機能はしばしば早期検出シナリオでは利用できないか不十分であり、結果として性能は低下する。 したがって、初期のフェイクニュース検出は難しい課題である。 直感的には、信頼できる情報源からのニュースや、評判の良い多くのユーザーが共有するニュースは他のニュースよりも信頼性が高い。 パブリッシャーとユーザーの信頼度を事前の弱い監督情報として利用することで、偽ニュースを巨大なニュースに素早く見つけ出し、拡散の初期段階で検出することができる。 本稿では,ニュースコンテンツと出版とリポストの関係を結合し,偽ニュースの検出と信頼性予測タスクを協調的に最適化する構造認識型マルチヘッドアテンションネットワーク(sman)を提案する。 このようにして、パブリッシャーやユーザの信頼度を、初期のフェイクニュース検出に利用することができる。 3つの実世界のデータセットについて実験を行い、その結果、smanは91%以上の精度で偽ニュースを4時間で検出できることがわかった。

The dissemination of fake news significantly affects personal reputation and public trust. Recently, fake news detection has attracted tremendous attention, and previous studies mainly focused on finding clues from news content or diffusion path. However, the required features of previous models are often unavailable or insufficient in early detection scenarios, resulting in poor performance. Thus, early fake news detection remains a tough challenge. Intuitively, the news from trusted and authoritative sources or shared by many users with a good reputation is more reliable than other news. Using the credibility of publishers and users as prior weakly supervised information, we can quickly locate fake news in massive news and detect them in the early stages of dissemination. In this paper, we propose a novel Structure-aware Multi-head Attention Network (SMAN), which combines the news content, publishing, and reposting relations of publishers and users, to jointly optimize the fake news detection and credibility prediction tasks. In this way, we can explicitly exploit the credibility of publishers and users for early fake news detection. We conducted experiments on three real-world datasets, and the results show that SMAN can detect fake news in 4 hours with an accuracy of over 91%, which is much faster than the state-of-the-art models.
翻訳日:2021-05-16 21:10:01 公開日:2020-12-14
# AIDE:自動画像分割のためのアノテーション効率の深い深層学習

AIDE: Annotation-efficient deep learning for automatic medical image segmentation ( http://arxiv.org/abs/2012.04885v2 )

ライセンス: Link先を確認
Cheng Li, Rongpin Wang, Zaiyi Liu, Meiyun Wang, Hongna Tan, Yaping Wu, Xinfeng Liu, Hui Sun, Rui Yang, Xin Liu, Ismail Ben Ayed, Hairong Zheng, Hanchuan Peng, Shanshan Wang(参考訳) 正確な画像分割は医用画像の応用に不可欠である。 一般的なディープラーニングアプローチは、高品質な手動アノテーションを備えた非常に大規模なトレーニングデータセットに依存しており、医療画像では利用できないことが多い。 AIDE(Annotation-effIcient Deep lEarning)を導入し、不完全なデータセットを精巧に設計したクロスモデル自己修正機構で処理する。 aideは、少ないアノテーションや騒がしいアノテーションを持つオープンデータセット上で、従来のディープラーニングモデルのセグメンテーションdiceスコアを最大30%改善する。 3つの医療センターの852人の患者の乳房画像11,852点を含む3つの臨床データセットにおいて、aideは、10%のトレーニングアノテーションを使用して、完全に監督された医師が生成したものと同等のセグメンテーションマップを一貫して作成している。 このような専門家のラベルを活用する際の効率の10倍の改善は、幅広い生物医学的応用を促進する可能性がある。

Accurate image segmentation is crucial for medical imaging applications. The prevailing deep learning approaches typically rely on very large training datasets with high-quality manual annotations, which are often not available in medical imaging. We introduce Annotation-effIcient Deep lEarning (AIDE) to handle imperfect datasets with an elaborately designed cross-model self-correcting mechanism. AIDE improves the segmentation Dice scores of conventional deep learning models on open datasets possessing scarce or noisy annotations by up to 30%. For three clinical datasets containing 11,852 breast images of 872 patients from three medical centers, AIDE consistently produces segmentation maps comparable to those generated by the fully supervised counterparts as well as the manual annotations of independent radiologists by utilizing only 10% training annotations. Such a 10-fold improvement of efficiency in utilizing experts' labels has the potential to promote a wide range of biomedical applications.
翻訳日:2021-05-16 02:08:23 公開日:2020-12-14
# (参考訳) 音響ヒストグラム情報を用いた都市空間インサイト抽出

Urban Space Insights Extraction using Acoustic Histogram Information ( http://arxiv.org/abs/2012.05488v2 )

ライセンス: CC0 1.0
Nipun Wijerathne, Billy Pik Lik Lau, Benny Kai Kiat Ng, Chau Yuen(参考訳) 都市データマイニングは、特に都市住宅活動の追跡において、スマートシティサービスを強化する非常に潜在的な地域として特定することができる。 既存の人間の行動追跡システムは市民の行動の隠れた側面を明らかにする能力を示しているが、それらはしばしば高い実装コストと大きな通信帯域を必要とする。 本稿では,都市部における屋外活動の検知と降雨期間推定のための低コストアナログ音響センサの実装について検討する。 アナログ音響センサはヒストグラム形式で5分ごとにクラウドに送信され、100ms (10Hz) ごとにサンプリングされる音データで構成されている。 次に、ウェーブレット変換(WT)と主成分分析(PCA)を用いて、ヒストグラムからより堅牢で一貫した特徴セットを生成する。 その後,非教師なしのクラスタリングを行い,各クラスタの個性を理解して屋外の住宅活動の同定を試みた。 また,本手法の有効性を示すため,現場検証を行った。

Urban data mining can be identified as a highly potential area that can enhance the smart city services towards better sustainable development especially in the urban residential activity tracking. While existing human activity tracking systems have demonstrated the capability to unveil the hidden aspects of citizens' behavior, they often come with a high implementation cost and require a large communication bandwidth. In this paper, we study the implementation of low-cost analogue sound sensors to detect outdoor activities and estimate the raining period in an urban residential area. The analogue sound sensors are transmitted to the cloud every 5 minutes in histogram format, which consists of sound data sampled every 100ms (10Hz). We then use wavelet transformation (WT) and principal component analysis (PCA) to generate a more robust and consistent feature set from the histogram. After that, we performed unsupervised clustering and attempt to understand the individual characteristics of each cluster to identify outdoor residential activities. In addition, on-site validation has been conducted to show the effectiveness of our approach.
翻訳日:2021-05-15 22:04:37 公開日:2020-12-14
# (参考訳) 非凸景観における確率適応アルゴリズムの漸近的研究

Asymptotic study of stochastic adaptive algorithm in non-convex landscape ( http://arxiv.org/abs/2012.05640v2 )

ライセンス: CC BY 4.0
S\'ebastien Gadat and Ioana Gavra(参考訳) 本稿では,最適化や機械学習に広く用いられている適応アルゴリズムの漸近的性質について,ブラックボックス深層学習アルゴリズムのほとんどに関与するadagradとrmspropについて検討する。 我々の設定は非凸ランドスケープ最適化の視点であり、我々は1時間スケールのパラメトリゼーションを考慮し、これらのアルゴリズムがミニバッチで使用されるかどうかを考察する。 我々は確率的アルゴリズムの視点を採用し、目標関数の臨界点の集合に対するステップサイズ視点の減少を利用する際に、これらの手法のほぼ確実に収束を確立する。 ノイズに対する軽度の仮定により、関数の最小化集合への収束も得られる。 また,本研究では,「GhadimiLan」の著作の静脈内における手法の「収束率」についても検討した。

This paper studies some asymptotic properties of adaptive algorithms widely used in optimization and machine learning, and among them Adagrad and Rmsprop, which are involved in most of the blackbox deep learning algorithms. Our setup is the non-convex landscape optimization point of view, we consider a one time scale parametrization and we consider the situation where these algorithms may be used or not with mini-batches. We adopt the point of view of stochastic algorithms and establish the almost sure convergence of these methods when using a decreasing step-size point of view towards the set of critical points of the target function. With a mild extra assumption on the noise, we also obtain the convergence towards the set of minimizer of the function. Along our study, we also obtain a "convergence rate" of the methods, in the vein of the works of \cite{GhadimiLan}.
翻訳日:2021-05-15 16:19:59 公開日:2020-12-14
# (参考訳) 教師なし二分木を用いた多変量関数データのクラスタリング

Clustering multivariate functional data using unsupervised binary trees ( http://arxiv.org/abs/2012.05973v2 )

ライセンス: CC BY 4.0
Steven Golovkine and Nicolas Klutchnikoff and Valentin Patilea(参考訳) 本稿では,各成分が曲線や画像となるような関数データの一般クラスに対するモデルベースクラスタリングアルゴリズムを提案する。 ランダム関数データ実現は、定義領域内の離散的、おそらくランダムな点において誤差で測定することができる。 この考え方は、観測を再帰的に分割することでバイナリツリーの集合を構築することである。 グループの数はデータ駆動の方法で決定される。 この新しいアルゴリズムは、オンラインデータセットに対して容易に解釈可能な結果と高速な予測を提供する。 シミュレーションデータセットの結果は、様々な複雑な設定で良いパフォーマンスを示す。 この手法はドイツのラウンドアバウトにおける車両軌道の解析に適用される。

We propose a model-based clustering algorithm for a general class of functional data for which the components could be curves or images. The random functional data realizations could be measured with error at discrete, and possibly random, points in the definition domain. The idea is to build a set of binary trees by recursive splitting of the observations. The number of groups are determined in a data-driven way. The new algorithm provides easily interpretable results and fast predictions for online data sets. Results on simulated datasets reveal good performance in various complex settings. The methodology is applied to the analysis of vehicle trajectories on a German roundabout.
翻訳日:2021-05-15 08:48:49 公開日:2020-12-14
# (参考訳) 再生核Hilbert空間における新しい応答の欠如フレームワークによる5年後のグルコース値予測と連続グルコースモニタリング技術の利用

Glucose values prediction five years ahead with a new framework of missing responses in reproducing kernel Hilbert spaces, and the use of continuous glucose monitoring technology ( http://arxiv.org/abs/2012.06564v2 )

ライセンス: CC BY 4.0
Marcos Matabuena, Paulo F\'elix, Carlos Meijide-Garcia and Francisco Gude(参考訳) aegis研究は連続グルコースモニタリング技術(cgm)による循環性グルコースの経時的変化に関するユニークな情報を持っている。 しかし、縦断的な医学研究では通常のように、結果変数に欠落するデータがかなりの量存在する。 例えば、グリコシル化ヘモグロビン(A1C)バイオマーカーの40%は、5年前に失われている。 本稿では,この問題の影響を低減すべく,カーネルヒルベルト空間(rkhs)の再現における学習に基づく新しいデータ解析フレームワークを提案する。 まず、ヒルベルト・シュミット依存測度を拡張して、この文脈で統計独立性をテストし、一貫性を証明する新しいブートストラップ手順を導入する。 次に, 変数選択, 回帰, コンフォメーション推論の既存モデルを用いて, AEGISデータより5年後のグルコース変化に関する新たな臨床所見を得た。 i) 血糖値の長期変動に関連する新たな因子を明らかにすること, ii) グルコース代謝の変化を検出するために, cgmデータの臨床的感受性を示すこと, iii) 患者の基準特性に応じて, アルゴリズムが期待する血糖値変化に基づいて, 臨床介入を改善することができること, である。

AEGIS study possesses unique information on longitudinal changes in circulating glucose through continuous glucose monitoring technology (CGM). However, as usual in longitudinal medical studies, there is a significant amount of missing data in the outcome variables. For example, 40 percent of glycosylated hemoglobin (A1C) biomarker data are missing five years ahead. With the purpose to reduce the impact of this issue, this article proposes a new data analysis framework based on learning in reproducing kernel Hilbert spaces (RKHS) with missing responses that allows to capture non-linear relations between variable studies in different supervised modeling tasks. First, we extend the Hilbert-Schmidt dependence measure to test statistical independence in this context introducing a new bootstrap procedure, for which we prove consistency. Next, we adapt or use existing models of variable selection, regression, and conformal inference to obtain new clinical findings about glucose changes five years ahead with the AEGIS data. The most relevant findings are summarized below: i) We identify new factors associated with long-term glucose evolution; ii) We show the clinical sensibility of CGM data to detect changes in glucose metabolism; iii) We can improve clinical interventions based on our algorithms' expected glucose changes according to patients' baseline characteristics.
翻訳日:2021-05-11 04:41:42 公開日:2020-12-14
# 知識蒸留のための強化マルチティーチャー選択

Reinforced Multi-Teacher Selection for Knowledge Distillation ( http://arxiv.org/abs/2012.06048v2 )

ライセンス: Link先を確認
Fei Yuan, Linjun Shou, Jian Pei, Wutao Lin, Ming Gong, Yan Fu, Daxin Jiang(参考訳) 自然言語処理(NLP)タスクでは、推論速度の遅さとGPU使用量の巨大なフットプリントが、事前にトレーニングされたディープモデルを本番環境に適用するボトルネックとして残っている。 モデル圧縮の一般的な方法として、知識蒸留は知識を1つまたは複数の大きな(教師)モデルから小さな(学生)モデルに移す。 複数の教師モデルが蒸留で利用可能である場合、最先端の手法は蒸留全体において教師モデルに固定重量を割り当てる。 さらに、既存の手法のほとんどは教師モデルに等しい重さを割り当てている。 本稿では,学習例の複雑化と学生モデル能力の相違により,教師モデルから差分学習を行うことで,学生モデルの蒸留性能が向上することが観察された。 本研究では,教師モデルに異なる学習インスタンスに対して動的に重み付けを割り当て,生徒モデルの性能を最適化する強化手法を体系的に開発する。 いくつかのNLPタスクに対する広範な実験結果から,本手法の有効性と有効性が確認された。

In natural language processing (NLP) tasks, slow inference speed and huge footprints in GPU usage remain the bottleneck of applying pre-trained deep models in production. As a popular method for model compression, knowledge distillation transfers knowledge from one or multiple large (teacher) models to a small (student) model. When multiple teacher models are available in distillation, the state-of-the-art methods assign a fixed weight to a teacher model in the whole distillation. Furthermore, most of the existing methods allocate an equal weight to every teacher model. In this paper, we observe that, due to the complexity of training examples and the differences in student model capability, learning differentially from teacher models can lead to better performance of student models distilled. We systematically develop a reinforced method to dynamically assign weights to teacher models for different training instances and optimize the performance of student model. Our extensive experimental results on several NLP tasks clearly verify the feasibility and effectiveness of our approach.
翻訳日:2021-05-11 03:11:56 公開日:2020-12-14
# 必要なことの1つ:機能学習のための方向性注意ポイント

One Point is All You Need: Directional Attention Point for Feature Learning ( http://arxiv.org/abs/2012.06257v2 )

ライセンス: Link先を確認
Liqiang Lin, Pengdi Huang, Chi-Wing Fu, Kai Xu, Hao Zhang, Hui Huang(参考訳) 本稿では,ポイントクラウド分類やセグメンテーションといったタスクの強化点特徴を学習するための,注目に基づく新しいメカニズムを提案する。 私たちの重要なメッセージは、もし正しい注意ポイントが選択されたら、"1ポイントは必要なすべて" -- 繰り返しモデルのようなシーケンスではなく、以前のすべての作業のように事前に選択されたセットではない、ということです。 また、注意点をデータから学習し、目の前のタスクに固有のものにする必要がある。 我々のメカニズムは、入力点における特徴と関連する注意点における特徴を組み合わせた、新しくシンプルな畳み込みによって特徴づけられる。 このような点を指向性注意点(DAP)と呼び、トレーニングにおけるタスクパフォーマンスを最大化して学習したオフセットベクトルを元の点に追加することによって得られる。 我々は,最先端のクラウド分類とセグメンテーションネットワークに注目機構を組み込むことができることを示す。 ModelNet40、ShapeNetPart、S3DISといった一般的なベンチマークに関する大規模な実験では、私たちのDAP対応ネットワークは、選択済みの注意点のセットを含む他の競合する選択肢と同様に、それぞれの元のネットワークよりも一貫して優れています。

We present a novel attention-based mechanism for learning enhanced point features for tasks such as point cloud classification and segmentation. Our key message is that if the right attention point is selected, then "one point is all you need" -- not a sequence as in a recurrent model and not a pre-selected set as in all prior works. Also, where the attention point is should be learned, from data and specific to the task at hand. Our mechanism is characterized by a new and simple convolution, which combines the feature at an input point with the feature at its associated attention point. We call such a point a directional attention point (DAP), since it is found by adding to the original point an offset vector that is learned by maximizing the task performance in training. We show that our attention mechanism can be easily incorporated into state-of-the-art point cloud classification and segmentation networks. Extensive experiments on common benchmarks such as ModelNet40, ShapeNetPart, and S3DIS demonstrate that our DAP-enabled networks consistently outperform the respective original networks, as well as all other competitive alternatives, including those employing pre-selected sets of attention points.
翻訳日:2021-05-11 02:59:53 公開日:2020-12-14
# eventhands: イベントストリームからのリアルタイムニューラルネットワーク3dハンドリコンストラクション

EventHands: Real-Time Neural 3D Hand Reconstruction from an Event Stream ( http://arxiv.org/abs/2012.06475v2 )

ライセンス: Link先を確認
Viktor Rudnev and Vladislav Golyanik and Jiayi Wang and Hans-Peter Seidel and Franziska Mueller and Mohamed Elgharib and Christian Theobalt(参考訳) 単眼ビデオからの3d手ポーズ推定は、長年の難題であり、現在は大きな上昇を見せている。 本研究では,1つのイベントカメラ,すなわち明るさ変化に反応する非同期視覚センサを用いて,初めてこの問題に対処する。 当社のEventHandsアプローチでは,低スループットの時間分解能や1000Hzのリアルタイム性能など,単一のRGBカメラや深度カメラでは実証されていない特徴がある。 従来のカメラと比較して、イベントカメラのデータモダリティが異なるため、既存の手法を直接適用してイベントストリームに再トレーニングすることはできない。 そこで我々は,学習に適した新しいイベントストリーム表現を受理する新しいニューラルアプローチを設計し,新たに生成された合成イベントストリームに基づいて学習し,実データに一般化する。 実験によると、EventHandsは、前例のないスピードで手の動きを捉える能力と精度で、色(または深度)カメラを使用した最近のモノラルな手法よりも優れている。 私たちのメソッド、イベントストリームシミュレータ、データセットは、一般公開されます。

3D hand pose estimation from monocular videos is a long-standing and challenging problem, which is now seeing a strong upturn. In this work, we address it for the first time using a single event camera, i.e., an asynchronous vision sensor reacting on brightness changes. Our EventHands approach has characteristics previously not demonstrated with a single RGB or depth camera such as high temporal resolution at low data throughputs and real-time performance at 1000 Hz. Due to the different data modality of event cameras compared to classical cameras, existing methods cannot be directly applied to and re-trained for event streams. We thus design a new neural approach which accepts a new event stream representation suitable for learning, which is trained on newly-generated synthetic event streams and can generalise to real data. Experiments show that EventHands outperforms recent monocular methods using a colour (or depth) camera in terms of accuracy and its ability to capture hand motions of unprecedented speed. Our method, the event stream simulator and the dataset will be made publicly available.
翻訳日:2021-05-11 02:58:05 公開日:2020-12-14
# 深層学習に基づく Dune の運動再建

Deep-Learning-Based Kinematic Reconstruction for DUNE ( http://arxiv.org/abs/2012.06181v2 )

ライセンス: Link先を確認
Junze Liu, Jordan Ott, Julian Collado, Benjamin Jargowsky, Wenjie Wu, Jianming Bian, Pierre Baldi(参考訳) 3-活性ニュートリノ混合の枠組みでは、電荷パリティ相、ニュートリノ質量秩序、および$\theta_{23}$のオクタントが未知のままである。 Deep Underground Neutrino Experiment (DUNE)は次世代の長周期ニュートリノ発振実験であり、第1および第2の発振最大値にまたがるエネルギー範囲上の$\nu_\mu/\nu_e$および$\bar\nu_\mu/\bar\nu_e$の発振パターンを測定することでこれらの問題に対処することを目的としている。 DUNE遠距離検出器モジュールは液体アルゴンTPC(LArTPC)技術に基づいている。 LArTPCは優れた空間分解能、高ニュートリノ検出効率、超高バックグラウンド拒絶を提供するが、LArTPCの再構成は困難である。 深層学習、特に畳み込みニューラルネットワーク(CNN)は、DUNEやその他のニュートリノ実験における粒子識別などの分類問題に成功している。 しかし, ニュートリノエネルギーと最終状態粒子モーメントの深層学習法による再構築は, 完全なaiベースの再構築チェーンのためにはまだ開発されていない。 DUNEにおける検出された相互作用の運動特性を正確に再構築するため, 最終状態粒子方向とエネルギーの再構成とニュートリノエネルギーの再構成のための2次元および3次元CNN法を開発した。 粒子質量と運動エネルギーと作業によって再構成された方向を組み合わせることで、最終状態粒子の4モーメントが得られる。 我々のモデルは、両方のシナリオの従来の方法と比較してかなり改善されている。

In the framework of three-active-neutrino mixing, the charge parity phase, the neutrino mass ordering, and the octant of $\theta_{23}$ remain unknown. The Deep Underground Neutrino Experiment (DUNE) is a next-generation long-baseline neutrino oscillation experiment, which aims to address these questions by measuring the oscillation patterns of $\nu_\mu/\nu_e$ and $\bar\nu_\mu/\bar\nu_e$ over a range of energies spanning the first and second oscillation maxima. DUNE far detector modules are based on liquid argon TPC (LArTPC) technology. A LArTPC offers excellent spatial resolution, high neutrino detection efficiency, and superb background rejection, while reconstruction in LArTPC is challenging. Deep learning methods, in particular, Convolutional Neural Networks (CNNs), have demonstrated success in classification problems such as particle identification in DUNE and other neutrino experiments. However, reconstruction of neutrino energy and final state particle momenta with deep learning methods is yet to be developed for a full AI-based reconstruction chain. To precisely reconstruct these kinematic characteristics of detected interactions at DUNE, we have developed and will present two CNN-based methods, 2-D and 3-D, for the reconstruction of final state particle direction and energy, as well as neutrino energy. Combining particle masses with the kinetic energy and the direction reconstructed by our work, the four-momentum of final state particles can be obtained. Our models show considerable improvements compared to the traditional methods for both scenarios.
翻訳日:2021-05-11 02:49:08 公開日:2020-12-14
# (参考訳) 協調確率的コミットメントに対する効率的なクエリ

Efficient Querying for Cooperative Probabilistic Commitments ( http://arxiv.org/abs/2012.07195v1 )

ライセンス: CC BY 4.0
Qi Zhang, Edmund H. Durfee, Satinder Singh(参考訳) マルチエージェントシステムは一般的な協調基盤の中核としてコミットメントを利用することができ、協調的および非協力的な相互作用をサポートする。 目的が一致し、あるエージェントが他のエージェントの報酬を犠牲にしてより大きな報酬を得るのを助けることができるエージェントは、共同報酬を最大化するための協力的コミットメントを選択するべきである。 本稿では,協調エージェントが慎重に選択されたコミットメント選択を問うことで,(ほぼ)最適なコミットメントを効果的に見つける方法を提案する。 エージェントの値の構造的特性をコミットメント仕様のパラメータの関数として証明し、証明可能な近似境界を持つクエリを構成するための欲求的手法を開発します。

Multiagent systems can use commitments as the core of a general coordination infrastructure, supporting both cooperative and non-cooperative interactions. Agents whose objectives are aligned, and where one agent can help another achieve greater reward by sacrificing some of its own reward, should choose a cooperative commitment to maximize their joint reward. We present a solution to the problem of how cooperative agents can efficiently find an (approximately) optimal commitment by querying about carefully-selected commitment choices. We prove structural properties of the agents' values as functions of the parameters of the commitment specification, and develop a greedy method for composing a query with provable approximation bounds, which we empirically show can find nearly optimal commitments in a fraction of the time methods that lack our insights require.
翻訳日:2021-05-09 11:35:24 公開日:2020-12-14
# (参考訳) 勾配予測サーサ($\lambda$)の収束性について

On Convergence of Gradient Expected Sarsa($\lambda$) ( http://arxiv.org/abs/2012.07199v1 )

ライセンス: CC BY 4.0
Long Yang, Gang Zheng, Yu Zhang, Qian Zheng, Pengfei Li, Gang Pan(参考訳) 線形関数近似を用いて$\mathtt{Expected~Sarsa}(\lambda)$の収束を研究する。 オフライン推定(マルチステップブートストラッピング)を$\mathtt{Expected~Sarsa}(\lambda)$に適用することは、オフ・ポリティクス学習において不安定であることを示す。 さらに、convex-concave saddle-pointフレームワークに基づいて、収束する$\mathtt{gradient~expected~sarsa}(\lambda)$ ($\mathtt{ges}(\lambda)$)アルゴリズムを提案する。 この理論解析は、我々の$\mathtt{GES}(\lambda)$が線形収束率で最適解に収束していることを示し、これは最先端の時間差学習アルゴリズムに匹敵するものである。 さらに,ステップサイズが$\mathtt{GES}(\lambda)$の有限時間性能にどのように影響するかを調べるために,リアプノフ関数の手法を開発した。 最後に、$\mathtt{GES}(\lambda)$の有効性を検証する実験を行います。

We study the convergence of $\mathtt{Expected~Sarsa}(\lambda)$ with linear function approximation. We show that applying the off-line estimate (multi-step bootstrapping) to $\mathtt{Expected~Sarsa}(\lambda)$ is unstable for off-policy learning. Furthermore, based on convex-concave saddle-point framework, we propose a convergent $\mathtt{Gradient~Expected~Sarsa}(\lambda)$ ($\mathtt{GES}(\lambda)$) algorithm. The theoretical analysis shows that our $\mathtt{GES}(\lambda)$ converges to the optimal solution at a linear convergence rate, which is comparable to extensive existing state-of-the-art gradient temporal difference learning algorithms. Furthermore, we develop a Lyapunov function technique to investigate how the step-size influences finite-time performance of $\mathtt{GES}(\lambda)$, such technique of Lyapunov function can be potentially generalized to other GTD algorithms. Finally, we conduct experiments to verify the effectiveness of our $\mathtt{GES}(\lambda)$.
翻訳日:2021-05-09 11:08:56 公開日:2020-12-14
# (参考訳) 社会的選択における信頼できる選好完了

Trustworthy Preference Completion in Social Choice ( http://arxiv.org/abs/2012.07228v1 )

ライセンス: CC BY 4.0
Lei Li, Minghe Xue, Huanhuan Chen, Xindong Wu(参考訳) 時折、すべての選択肢に対して線形順序を与えるようにエージェントに頼むことは非現実的であるので、これらの部分的なランク付けのためには、選好完了を行う必要がある。 具体的には、すべての代替品に対する各エージェントのパーソナライズされた選好は、代替品のサブセットよりも隣接するエージェントからの部分的なランキングで推定することができる。 しかし、エージェントのランキングは非決定論的であり、ランキングにノイズを与える可能性があるため、信頼できる選好完了を行う必要がある。 そこで,本稿では,エージェントが不合理な行動を示す場合や,ノイズの多いランキングのみを提供する場合に対処する,信頼指向のKendall-Tau距離を持つエージェントに対して,信頼に基づくアンカー-kNNアルゴリズムを提案する。 そして、代替ペアの場合、ランキング空間から選好空間への単射を構築でき、その確実性と競合を、よく構築された統計測定確率-確証密度関数に基づいて評価することができる。 したがって、信頼性と紛争に基づく最初の$k$信頼に値する隣接エージェントに対する一定の共通投票ルールを、信頼に値する選好完了を実行するために適用することができる。 提案する確実性と競合の性質は実験的に研究されており、いくつかのデータセットを用いた最先端のアプローチと比較して実験的に検証されている。

As from time to time it is impractical to ask agents to provide linear orders over all alternatives, for these partial rankings it is necessary to conduct preference completion. Specifically, the personalized preference of each agent over all the alternatives can be estimated with partial rankings from neighboring agents over subsets of alternatives. However, since the agents' rankings are nondeterministic, where they may provide rankings with noise, it is necessary and important to conduct the trustworthy preference completion. Hence, in this paper firstly, a trust-based anchor-kNN algorithm is proposed to find $k$-nearest trustworthy neighbors of the agent with trust-oriented Kendall-Tau distances, which will handle the cases when an agent exhibits irrational behaviors or provides only noisy rankings. Then, for alternative pairs, a bijection can be built from the ranking space to the preference space, and its certainty and conflict can be evaluated based on a well-built statistical measurement Probability-Certainty Density Function. Therefore, a certain common voting rule for the first $k$ trustworthy neighboring agents based on certainty and conflict can be taken to conduct the trustworthy preference completion. The properties of the proposed certainty and conflict have been studied empirically, and the proposed approach has been experimentally validated compared to state-of-arts approaches with several data sets.
翻訳日:2021-05-09 10:26:56 公開日:2020-12-14
# (参考訳) 対人ロバスト性を達成するためにはアクティブな教師が必要である

Achieving Adversarial Robustness Requires An Active Teacher ( http://arxiv.org/abs/2012.07233v1 )

ライセンス: CC BY 4.0
Chao Ma and Lexing Ying(参考訳) 本稿では,データジェネレータとラベルジェネレータ(これを教師と呼ぶ)を分離することにより,逆例と逆ロバスト性の新しい理解を提案する。 この枠組みでは, 対人的堅牢性は条件的概念であり, 生徒モデルは絶対的に堅牢ではなく, 教師に対して堅牢である。 新たな理解に基づき,学習データから教師の十分な情報を得ることができないため,敵対的な事例が存在すると主張する。 堅牢性を達成するための様々な方法が比較される。 理論的および数値的な証拠は、効果的に堅牢性を得るためには、生徒に積極的に情報を提供する教師が必要であることを示している。

A new understanding of adversarial examples and adversarial robustness is proposed by decoupling the data generator and the label generator (which we call the teacher). In our framework, adversarial robustness is a conditional concept---the student model is not absolutely robust, but robust with respect to the teacher. Based on the new understanding, we claim that adversarial examples exist because the student cannot obtain sufficient information of the teacher from the training data. Various ways of achieving robustness is compared. Theoretical and numerical evidence shows that to efficiently attain robustness, a teacher that actively provides its information to the student may be necessary.
翻訳日:2021-05-09 10:12:02 公開日:2020-12-14
# (参考訳) 生涯学習のためのマルチドメインマルチタスクリハーサル

Multi-Domain Multi-Task Rehearsal for Lifelong Learning ( http://arxiv.org/abs/2012.07236v1 )

ライセンス: CC BY 4.0
Fan Lyu, Shuai Wang, Wei Feng, Zihan Ye, Fuyuan Hu, Song Wang(参考訳) リハーサルは、古い知識を生涯学習に保存することでモデルを思い出そうとするものであり、新しいタスクに移行する際に過去の知識を忘れてしまうような破滅的な忘れを緩和する最も効果的な方法の1つである。 しかし、最も以前のリハーサルベースのメソッドの古いタスクは、新しいタスクをトレーニングする際に予測不能なドメインシフトに苦しむ。 これは、これらの手法が常に2つの重要な要素を無視しているためである。 まず、新しいタスクと古いタスクの間のデータの不均衡により、古いタスクのドメインがシフトしやすくなる。 第2に,すべてのタスク間のタスクの分離により,予測不能な方向へのドメインシフトがもたらされる。予測不能なドメインシフトに対処するため,本稿では,従来のタスクと新しいタスクを並列かつ均等に訓練するために,マルチドメインマルチタスク(mdmt)リハーサルを提案する。 具体的には、クラス内/タスク間のコンパクトさとクラス間/タスク間の不一致を奨励するために、2段階の角マージンの損失が提案されている。 さらに,従来のタスクのドメインシフトにさらに対処するために,メモリ上の任意のエピソード蒸留損失を,古いタスク毎の知識を固定するために提案する。 提案手法を検証したベンチマークデータセットの実験は、予測不能なドメインシフトを効果的に軽減する。

Rehearsal, seeking to remind the model by storing old knowledge in lifelong learning, is one of the most effective ways to mitigate catastrophic forgetting, i.e., biased forgetting of previous knowledge when moving to new tasks. However, the old tasks of the most previous rehearsal-based methods suffer from the unpredictable domain shift when training the new task. This is because these methods always ignore two significant factors. First, the Data Imbalance between the new task and old tasks that makes the domain of old tasks prone to shift. Second, the Task Isolation among all tasks will make the domain shift toward unpredictable directions; To address the unpredictable domain shift, in this paper, we propose Multi-Domain Multi-Task (MDMT) rehearsal to train the old tasks and new task parallelly and equally to break the isolation among tasks. Specifically, a two-level angular margin loss is proposed to encourage the intra-class/task compactness and inter-class/task discrepancy, which keeps the model from domain chaos. In addition, to further address domain shift of the old tasks, we propose an optional episodic distillation loss on the memory to anchor the knowledge for each old task. Experiments on benchmark datasets validate the proposed approach can effectively mitigate the unpredictable domain shift.
翻訳日:2021-05-09 09:56:56 公開日:2020-12-14
# (参考訳) TDAF:ビジョンタスクのためのトップダウン注意フレームワーク

TDAF: Top-Down Attention Framework for Vision Tasks ( http://arxiv.org/abs/2012.07248v1 )

ライセンス: CC BY-SA 4.0
Bo Pang, Yizhuo Li, Jiefeng Li, Muchen Li, Hanwen Cao, Cewu Lu(参考訳) 人間の注意機構は、しばしばトップダウンで機能するが、視覚研究では十分に研究されていない。 本稿では,既存のほとんどのモデルで容易に採用可能なトップダウンアテンションを捉えるためのトップダウンアテンションフレームワーク(TDAF)を提案する。 設計した再帰的二方向ネスト構造は、それぞれボトムアップ空間的特徴とトップダウン注意特徴を抽出した再帰的および構造的経路の2組の直交経路を形成する。 このような空間的・注意的特徴は深くネストされており、提案フレームワークはトップダウンとボトムアップの混合方式で動作する。 実証的な証拠は、我々のTDAFが効果的な階層化された注意情報を捕捉し、性能を向上できることを示している。 tdafによるresnetはimagenetで2.0%改善されている。 物体検出では、性能はFCOSよりも2.7%向上した。 ポーズ推定では、TDAFはベースラインを1.6%改善する。 また、3D-ResNetによるTDAFの精度は1.7%向上した。

Human attention mechanisms often work in a top-down manner, yet it is not well explored in vision research. Here, we propose the Top-Down Attention Framework (TDAF) to capture top-down attentions, which can be easily adopted in most existing models. The designed Recursive Dual-Directional Nested Structure in it forms two sets of orthogonal paths, recursive and structural ones, where bottom-up spatial features and top-down attention features are extracted respectively. Such spatial and attention features are nested deeply, therefore, the proposed framework works in a mixed top-down and bottom-up manner. Empirical evidence shows that our TDAF can capture effective stratified attention information and boost performance. ResNet with TDAF achieves 2.0% improvements on ImageNet. For object detection, the performance is improved by 2.7% AP over FCOS. For pose estimation, TDAF improves the baseline by 1.6%. And for action recognition, the 3D-ResNet adopting TDAF achieves improvements of 1.7% accuracy.
翻訳日:2021-05-09 09:14:52 公開日:2020-12-14
# (参考訳) ショット適応正規化駆動型マルチスピーカー音声合成

Few Shot Adaptive Normalization Driven Multi-Speaker Speech Synthesis ( http://arxiv.org/abs/2012.07252v1 )

ライセンス: CC BY-SA 4.0
Neeraj Kumar, Srishti Goel, Ankur Narang, Brejesh Lall(参考訳) スピーチのスタイルは人によって異なり、各人は言語、地理、文化、その他の要素によって決定される独自の話し方を示す。 スタイルは信号の韻律によって最もよく捉えられる。 プロソディを考慮した高品質なマルチスピーカ音声合成は,実世界の多くの応用分野において活発な研究分野である。 この方向には複数の努力がなされているが、まだ興味深く、挑戦的な問題である。 本稿では,非自己回帰型マルチヘッドアテンションモデルを用いて適応正規化アーキテクチャを活用する,新規な複数話者音声合成手法(FSM-SS)を提案する。 未確認者の入力テキストと参照音声サンプルが与えられた場合、FSM-SSはその人のスタイルで、数ショットで音声を生成することができる。 さらに,正規化のアフィンパラメータが,エネルギーや基本周波数といった韻律的特徴を不連続に捉えるのにどのように役立ち,モーフィックな音声出力を生成することができるかを示す。 本研究では,複数話者vctkとlibrittsデータセットにおける提案手法の有効性を実証し,生成音声の歪みとmosを測定する複数の定量的指標と,生成音声と実音声の埋め込み分析を行った。

The style of the speech varies from person to person and every person exhibits his or her own style of speaking that is determined by the language, geography, culture and other factors. Style is best captured by prosody of a signal. High quality multi-speaker speech synthesis while considering prosody and in a few shot manner is an area of active research with many real-world applications. While multiple efforts have been made in this direction, it remains an interesting and challenging problem. In this paper, we present a novel few shot multi-speaker speech synthesis approach (FSM-SS) that leverages adaptive normalization architecture with a non-autoregressive multi-head attention model. Given an input text and a reference speech sample of an unseen person, FSM-SS can generate speech in that person's style in a few shot manner. Additionally, we demonstrate how the affine parameters of normalization help in capturing the prosodic features such as energy and fundamental frequency in a disentangled fashion and can be used to generate morphed speech output. We demonstrate the efficacy of our proposed architecture on multi-speaker VCTK and LibriTTS datasets, using multiple quantitative metrics that measure generated speech distortion and MoS, along with speaker embedding analysis of the generated speech vs the actual speech samples.
翻訳日:2021-05-09 08:55:15 公開日:2020-12-14
# (参考訳) 自動3次元容器センタライン抽出のための学習ハイブリッド表現

Learning Hybrid Representations for Automatic 3D Vessel Centerline Extraction ( http://arxiv.org/abs/2012.07262v1 )

ライセンス: CC BY 4.0
Jiafa He, Chengwei Pan, Can Yang, Ming Zhang, Yang Wang, Xiaowei Zhou and Yizhou Yu(参考訳) 3次元医用画像からの血管抽出は血管疾患の診断に不可欠である。 畳み込みニューラルネットワーク(CNN)に基づく既存の方法は、3D画像からそのような細い管状構造を分割する際に、抽出された血管の不連続に悩まされる可能性がある。 抽出された船舶の連続性を維持するためには、地球幾何学を考慮に入れる必要がある。 しかし、3D畳み込みは計算的に非効率であり、3D CNNは画像全体のグローバルな手がかりを捉えるのに十分な大きな受容場から除外される。 本研究では,この課題に対処するためのハイブリッド表現学習手法を提案する。 主なアイデアは、CNNを使って画像作物の容器の局所的な外観を学習し、別のポイントクラウドネットワークを使用して画像全体の容器のグローバルな幾何学を学ぶことである。 提案手法は,CNNを用いて局所的な船舶セグメントを抽出し,ポイントクラウドネットワークを用いてグローバルジオメトリに基づいて各セグメントを分類し,最短パスアルゴリズムを用いて同一船舶に属するすべてのセグメントを接続する。 この組み合わせにより、3D画像から中心線抽出を効率よく、完全に自動で、テンプレート無しで行うことができる。 提案手法をCTAデータセット上で検証し,従来のCNNベースラインと比較して優れた性能を示す。

Automatic blood vessel extraction from 3D medical images is crucial for vascular disease diagnoses. Existing methods based on convolutional neural networks (CNNs) may suffer from discontinuities of extracted vessels when segmenting such thin tubular structures from 3D images. We argue that preserving the continuity of extracted vessels requires to take into account the global geometry. However, 3D convolutions are computationally inefficient, which prohibits the 3D CNNs from sufficiently large receptive fields to capture the global cues in the entire image. In this work, we propose a hybrid representation learning approach to address this challenge. The main idea is to use CNNs to learn local appearances of vessels in image crops while using another point-cloud network to learn the global geometry of vessels in the entire image. In inference, the proposed approach extracts local segments of vessels using CNNs, classifies each segment based on global geometry using the point-cloud network, and finally connects all the segments that belong to the same vessel using the shortest-path algorithm. This combination results in an efficient, fully-automatic and template-free approach to centerline extraction from 3D images. We validate the proposed approach on CTA datasets and demonstrate its superior performance compared to both traditional and CNN-based baselines.
翻訳日:2021-05-09 08:54:15 公開日:2020-12-14
# (参考訳) 非定常環境で機械学習アルゴリズムのアップデートを承認する方法を学ぶ

Learning how to approve updates to machine learning algorithms in non-stationary settings ( http://arxiv.org/abs/2012.07278v1 )

ライセンス: CC BY 4.0
Jean Feng(参考訳) ヘルスケアの機械学習アルゴリズムは、医療提供中に生成された現実世界のデータから継続的に学習し、データセットシフトに適応できる可能性がある。 そのためFDAは、機械学習アルゴリズムの修正を自律的に承認し、デプロイされたモデルの安全性と有効性を維持または改善できるポリシーの設計を検討している。 しかし、データの定常性と提案した修正の質に依存するため、事前承認という固定された承認戦略を選択することは困難である。 そこで本研究では,モニタリングデータを蓄積して修正を承認する方法を学習するL2A(Learning-to-approve approach)について検討する。 L2Aは、より楽観的な政策がより速い承認率を持つ「最適化」で異なる戦略のファミリーを定義し、指数的に重み付けされた平均予測器を用いて、このファミリーを探索する。 デプロイされたモデルの累積リスクを制御するため、L2Aに予測を中止するオプションを与え、代わりに固定的な停止コストを発生させる。 分布シフトが滑らかなことを前提として,L2Aが展開するモデルの平均的リスクを導出する。 シミュレーション研究と実証分析では、L2Aは各問題設定に対する最適化のレベルを調整している。

Machine learning algorithms in healthcare have the potential to continually learn from real-world data generated during healthcare delivery and adapt to dataset shifts. As such, the FDA is looking to design policies that can autonomously approve modifications to machine learning algorithms while maintaining or improving the safety and effectiveness of the deployed models. However, selecting a fixed approval strategy, a priori, can be difficult because its performance depends on the stationarity of the data and the quality of the proposed modifications. To this end, we investigate a learning-to-approve approach (L2A) that uses accumulating monitoring data to learn how to approve modifications. L2A defines a family of strategies that vary in their "optimism''---where more optimistic policies have faster approval rates---and searches over this family using an exponentially weighted average forecaster. To control the cumulative risk of the deployed model, we give L2A the option to abstain from making a prediction and incur some fixed abstention cost instead. We derive bounds on the average risk of the model deployed by L2A, assuming the distributional shifts are smooth. In simulation studies and empirical analyses, L2A tailors the level of optimism for each problem-setting: It learns to abstain when performance drops are common and approve beneficial modifications quickly when the distribution is stable.
翻訳日:2021-05-09 08:43:45 公開日:2020-12-14
# (参考訳) 高分解能実世界のモビリティデータを用いたcovid-19の時空間的リスクスコアの高精度化

Towards Accurate Spatiotemporal COVID-19 Risk Scores using High Resolution Real-World Mobility Data ( http://arxiv.org/abs/2012.07283v1 )

ライセンス: CC BY 4.0
Sirisha Rambhatla, Sepanta Zeighami, Kameron Shahabi, Cyrus Shahabi, Yan Liu(参考訳) 新型コロナウイルス(covid-19)のパンデミックが続く中、各国が経済活動の再開を目指す中、公衆衛生の確保が困難になっている。 接触追跡は感染したユーザーの過去の活動を追跡することだけを目的としているが、安全な再開への道の1つは、病気の妥当性を示すために信頼できる時空間リスクスコアを開発することである。 リスクスコアの開発を目的とした既存の研究は, 構成モデルに基づく再現数(一様人口混合を前提とする)に依存するか, 再現数(R0)とマクロレベル密度に基づく移動統計に基づく粗粒空間スコアを開発する。 そこで本稿では,携帯電話発着位置信号に基づく高分解能モビリティデータを活用することで,比較的微粒な空間的・時間的リスクスコアを割り当てる,ホークスプロセスに基づく手法を提案する。 新型コロナウイルス(COVID-19)のリスクスコアは、デモグラフィーや既存の医療状況など、個人固有の要因にも依存するが、病原体の伝達は物理的な近接と接触によって行われる。 そこで我々は,位置密度と移動行動に基づくリスクスコアの開発に注力する。 実世界のモビリティデータに基づくシミュレーションにより,開発したリスクスコアの有効性を示す。 以上の結果から,高分解能モビリティデータに基づく細粒度時空間リスクスコアは,有用な洞察を与え,安全に再オープンできることが示された。

As countries look towards re-opening of economic activities amidst the ongoing COVID-19 pandemic, ensuring public health has been challenging. While contact tracing only aims to track past activities of infected users, one path to safe reopening is to develop reliable spatiotemporal risk scores to indicate the propensity of the disease. Existing works which aim to develop risk scores either rely on compartmental model-based reproduction numbers (which assume uniform population mixing) or develop coarse-grain spatial scores based on reproduction number (R0) and macro-level density-based mobility statistics. Instead, in this paper, we develop a Hawkes process-based technique to assign relatively fine-grain spatial and temporal risk scores by leveraging high-resolution mobility data based on cell-phone originated location signals. While COVID-19 risk scores also depend on a number of factors specific to an individual, including demography and existing medical conditions, the primary mode of disease transmission is via physical proximity and contact. Therefore, we focus on developing risk scores based on location density and mobility behaviour. We demonstrate the efficacy of the developed risk scores via simulation based on real-world mobility data. Our results show that fine-grain spatiotemporal risk scores based on high-resolution mobility data can provide useful insights and facilitate safe re-opening.
翻訳日:2021-05-09 07:23:18 公開日:2020-12-14
# (参考訳) 実環境におけるニューラルネットワーク依存性キットの応用

Application of the Neural Network Dependability Kit in Real-World Environments ( http://arxiv.org/abs/2012.09602v1 )

ライセンス: CC BY 4.0
Amit Sahu and Noelia V\'allez and Rosana Rodr\'iguez-Bobada and Mohamad Alhaddad and Omar Moured and Georg Neugschwandtner(参考訳) 本稿では,NNモデルの開発過程でNNDK(Neural Network Dependability Kit)を使用するためのガイドラインを提案し,そのアルゴリズムが2つの画像分類ユースケースにどのように適用されているかを示す。 ケーススタディは、nnモデルに関する洞察を得るための依存性キットの使用と、彼らがニューラルネットワークモデルの開発プロセスをどのように知らせたかを示します。 NNDKで利用可能なさまざまなメトリクスを通じてニューラルネットワークを解釈した後、開発者はNNの精度を高め、開発されたネットワークを信頼し、より堅牢にすることに成功した。 さらに,nnの分類結果の裏付けとなる新たなアプリケーション指向手法をユーザに提供する。 医用画像分類のユースケースでは、現在の患者の画像と類似した訓練データセットからケースイメージを検索し、NNモデルの判断を補助し、医師が結果を理解するのを助けるために使用された。

In this paper, we provide a guideline for using the Neural Network Dependability Kit (NNDK) during the development process of NN models, and show how the algorithm is applied in two image classification use cases. The case studies demonstrate the usage of the dependability kit to obtain insights about the NN model and how they informed the development process of the neural network model. After interpreting neural networks via the different metrics available in the NNDK, the developers were able to increase the NNs' accuracy, trust the developed networks, and make them more robust. In addition, we obtained a novel application-oriented technique to provide supporting evidence for an NN's classification result to the user. In the medical image classification use case, it was used to retrieve case images from the training dataset that were similar to the current patient's image and could therefore act as a support for the NN model's decision and aid doctors in interpreting the results.
翻訳日:2021-05-09 06:35:17 公開日:2020-12-14
# (参考訳) 音声から映像へのマルチモーダル適応正規化

Multi Modal Adaptive Normalization for Audio to Video Generation ( http://arxiv.org/abs/2012.07304v1 )

ライセンス: CC BY-SA 4.0
Neeraj Kumar, Srishti Goel, Ankur Narang, Brejesh Lall(参考訳) 音声とビデオドメインというマルチモーダルな側面のため、音声による顔ビデオ生成は複雑な問題となっている。 この音声は、表情、ピッチ、ラウドネス、韻律(話し方)といった多くの基礎的な特徴を含み、顔面ビデオは、頭の動き、目まぶし、唇の同期、様々な顔のアクションユニットの動作、および時間的滑らかさの点で多くのバリエーションを有する。 音声入力と静的画像から高度に表現力のある顔映像を合成することは、生成的敵ネットワークにとって依然として難しい課題である。 本稿では,音声信号と人物の単一画像とを入力として,任意の長さの人物映像を合成するマルチモーダル適応正規化(MAN)アーキテクチャを提案する。 本アーキテクチャでは,マルチモーダル適応正規化,キーポイントヒートマップ予測,光フロー予測,クラスアクティベーションマップ[58]をベースとしたレイヤを用いて表情的顔成分の動きを学習し,その人物の高度に表現力のあるトーキー映像を生成する。 マルチモーダル適応正規化では、メルスペクトログラム、ピッチ、音声信号からのエネルギー、予測されたキーポイントヒートマップ/オプティカルフローなどの音声およびビデオの様々な特徴と、各アフィンパラメータを学習し、高表現率な映像を生成する単一の画像を用いる。 ssim (structureural similarity index), psnr (peak signal to noise ratio), cpbd (image sharpness), wer (word error rate), blinks/sec, lmd (landmark distance) など複数の定量的指標について,gans (rsdgan) [53], speech2vid [10] を用いた現実的な音声駆動型顔アニメーションと比較し,提案手法の性能を実証した。 さらに,定性評価とオンラインチューリングテストにより,本手法の有効性が示された。

Speech-driven facial video generation has been a complex problem due to its multi-modal aspects namely audio and video domain. The audio comprises lots of underlying features such as expression, pitch, loudness, prosody(speaking style) and facial video has lots of variability in terms of head movement, eye blinks, lip synchronization and movements of various facial action units along with temporal smoothness. Synthesizing highly expressive facial videos from the audio input and static image is still a challenging task for generative adversarial networks. In this paper, we propose a multi-modal adaptive normalization(MAN) based architecture to synthesize a talking person video of arbitrary length using as input: an audio signal and a single image of a person. The architecture uses the multi-modal adaptive normalization, keypoint heatmap predictor, optical flow predictor and class activation map[58] based layers to learn movements of expressive facial components and hence generates a highly expressive talking-head video of the given person. The multi-modal adaptive normalization uses the various features of audio and video such as Mel spectrogram, pitch, energy from audio signals and predicted keypoint heatmap/optical flow and a single image to learn the respective affine parameters to generate highly expressive video. Experimental evaluation demonstrates superior performance of the proposed method as compared to Realistic Speech-Driven Facial Animation with GANs(RSDGAN) [53], Speech2Vid [10], and other approaches, on multiple quantitative metrics including: SSIM (structural similarity index), PSNR (peak signal to noise ratio), CPBD (image sharpness), WER(word error rate), blinks/sec and LMD(landmark distance). Further, qualitative evaluation and Online Turing tests demonstrate the efficacy of our approach.
翻訳日:2021-05-09 06:27:20 公開日:2020-12-14
# (参考訳) 高価な評価による離散空間の最適化:探索学習フレームワーク

Optimizing Discrete Spaces via Expensive Evaluations: A Learning to Search Framework ( http://arxiv.org/abs/2012.07320v1 )

ライセンス: CC BY 4.0
Aryan Deshwal, Syrine Belakaria, Janardhan Rao Doppa, Alan Fern(参考訳) 離散空間(例えば集合、列、グラフ)上で高価なブラックボックス関数を最適化する問題を考える。 鍵となる課題は、高い性能構造をできるだけ早く識別するために、評価する組合せ構造の列を選択することである。 我々の主な貢献は、L2S-DISCOと呼ばれる新しい学習学習フレームワークの導入と評価である。 重要な洞察は、各ステップで制御知識によって導かれる探索手順を用いて次の構造を選択し、新しい機能評価が観察されるにつれて制御知識を改善することである。 局所探索のためのL2S-DISCOの具体的インスタンス化を行い,実世界の様々なベンチマークで実証的に評価する。 その結果,複雑な最適化問題に対するl2s-discoの有効性が示された。

We consider the problem of optimizing expensive black-box functions over discrete spaces (e.g., sets, sequences, graphs). The key challenge is to select a sequence of combinatorial structures to evaluate, in order to identify high-performing structures as quickly as possible. Our main contribution is to introduce and evaluate a new learning-to-search framework for this problem called L2S-DISCO. The key insight is to employ search procedures guided by control knowledge at each step to select the next structure and to improve the control knowledge as new function evaluations are observed. We provide a concrete instantiation of L2S-DISCO for local search procedure and empirically evaluate it on diverse real-world benchmarks. Results show the efficacy of L2S-DISCO over state-of-the-art algorithms in solving complex optimization problems.
翻訳日:2021-05-09 06:24:37 公開日:2020-12-14
# (参考訳) 音声を用いた類似字幕検索による事前学習型大規模言語モデルによる音声キャプション

Audio Captioning using Pre-Trained Large-Scale Language Model Guided by Audio-based Similar Caption Retrieval ( http://arxiv.org/abs/2012.07331v1 )

ライセンス: CC BY 4.0
Yuma Koizumi, Yasunori Ohishi, Daisuke Niizumi, Daiki Takeuchi, Masahiro Yasuda(参考訳) 音声キャプションの目的は、入力音声を自然言語を用いてその記述に変換することである。 オーディオキャプションの問題点の1つは、ウェブをクロールすることでオーディオキャプションペアの収集が困難であるため、トレーニングデータの欠如である。 本研究では,この問題を解決するために,事前学習された大規模言語モデルを提案する。 このような言語モデルに音声入力を直接入力できないため、異なる音声に存在する類似性に基づいてトレーニングデータセットから検索したガイダンスキャプションを利用する。 そして、ガイダンスキャプションを参照しながら、事前訓練された言語モデルを用いて音声入力のキャプションを生成する。 実験の結果, (i) 音声キャプションに事前学習された言語モデルを用いることに成功し, (ii) 事前学習されたモデルに基づくキャプション生成器のoracleのパフォーマンスは, スクラッチから学習した従来の方法よりも明らかに優れていた。

The goal of audio captioning is to translate input audio into its description using natural language. One of the problems in audio captioning is the lack of training data due to the difficulty in collecting audio-caption pairs by crawling the web. In this study, to overcome this problem, we propose to use a pre-trained large-scale language model. Since an audio input cannot be directly inputted into such a language model, we utilize guidance captions retrieved from a training dataset based on similarities that may exist in different audio. Then, the caption of the audio input is generated by using a pre-trained language model while referring to the guidance captions. Experimental results show that (i) the proposed method has succeeded to use a pre-trained language model for audio captioning, and (ii) the oracle performance of the pre-trained model-based caption generator was clearly better than that of the conventional method trained from scratch.
翻訳日:2021-05-09 06:10:13 公開日:2020-12-14
# (参考訳) ラプラシアン固有関数と教師なし点登録を用いた関節形状マッチング

Articulated Shape Matching Using Laplacian Eigenfunctions and Unsupervised Point Registration ( http://arxiv.org/abs/2012.07340v1 )

ライセンス: CC BY 4.0
Diana Mateus, Radu Horaud, David Knossow, Fabio Cuzzolin and Edmond Boyer(参考訳) ボクセル集合で表される調停された形状は、各集合が重み付きグラフによって記述されたときに最大部分グラフ同型となる。 スペクトルグラフ理論は、これらのグラフを低次元空間に写像し、それらの埋め込みをポーズの変化に対する不変性によって整列させることで形状と一致するために用いられる。 固有値の順序に依存する古典的なグラフ同型スキームは、大きなデータセットや騒がしいデータを扱うとき、固有空間を調整するのに失敗する。 我々は、ラプラシア行列の固有関数の最適部分集合を選択することによって、2つの同値な$K$-次元の点集合の最良の整合を求める新しい定式化を導出する。 選択はヒストグラムで構築された固有関数のシグネチャをマッチングすることで行われ、保持されたセットはアライメント問題に対するスマートイニシャライズを提供し、全体的なパフォーマンスに大きな影響を与える。 グラフマッチングにキャストされた高密度な形状マッチングは、直交変換の下での埋め込みのポイント登録を減少させ、その登録は教師なしクラスタリングとEMアルゴリズムの枠組みを用いて解決する。 非同一形状の最大部分集合マッチングは、適切な外れ値類を定義することで処理される。 挑戦的な例の実験的結果は、このアルゴリズムがトポロジーの変化、形状の変化、異なるサンプリング密度を自然に扱う方法を示している。

Matching articulated shapes represented by voxel-sets reduces to maximal sub-graph isomorphism when each set is described by a weighted graph. Spectral graph theory can be used to map these graphs onto lower dimensional spaces and match shapes by aligning their embeddings in virtue of their invariance to change of pose. Classical graph isomorphism schemes relying on the ordering of the eigenvalues to align the eigenspaces fail when handling large data-sets or noisy data. We derive a new formulation that finds the best alignment between two congruent $K$-dimensional sets of points by selecting the best subset of eigenfunctions of the Laplacian matrix. The selection is done by matching eigenfunction signatures built with histograms, and the retained set provides a smart initialization for the alignment problem with a considerable impact on the overall performance. Dense shape matching casted into graph matching reduces then, to point registration of embeddings under orthogonal transformations; the registration is solved using the framework of unsupervised clustering and the EM algorithm. Maximal subset matching of non identical shapes is handled by defining an appropriate outlier class. Experimental results on challenging examples show how the algorithm naturally treats changes of topology, shape variations and different sampling densities.
翻訳日:2021-05-09 05:58:50 公開日:2020-12-14
# (参考訳) Open Brands Dataset: 規模の統一されたブランド検出と認識

The Open Brands Dataset: Unified brand detection and recognition at scale ( http://arxiv.org/abs/2012.07350v1 )

ライセンス: CC BY 4.0
Xuan Jin, Wei Su, Rong Zhang, Yuan He, Hui Xue(参考訳) 近年,グローバルeコマースプラットフォームの開発により知的財産保護(IPP)が注目されている。 ブランド認識はIPPにおいて重要な役割を果たす。 ブランド認識と検出に関する最近の研究は、新しいディープラーニング技術を探求するときに十分に包括的でない小規模データセットに基づいている。 また,現実的および開放的な場面においてブランド検出手法の真の性能を評価することは困難である。 これらの問題に対処するために,まずブランド検出と認識の課題を汎用オブジェクト検出と比較して定義する。 第2に「オープンブランズ」と呼ばれる新しいブランドベンチマークが確立されている。 データセットには1,437,812枚の画像が含まれており、ブランドと5万枚の画像がある。 Open Brandsには3,113,828のインスタンスがあり、4つのタイプ、559のブランド、1216のロゴがある。 私たちの知る限りでは、リッチアノテーションによるブランド検出と認識のための最大のデータセットです。 データセットに関する詳細な統計情報を提供し、アノテーションの品質を検証し、多くのモダンモデルのパフォーマンスが、トレーニングデータの増加とともにどのように進化するかを研究する。 第3に,ブランド認識を扱うネットワーク"Brand Net"を設計する。 Brand Netは、既存の検出方法と比較して、最先端のmAPをOpen Brandで取得する。

Intellectual property protection(IPP) have received more and more attention recently due to the development of the global e-commerce platforms. brand recognition plays a significant role in IPP. Recent studies for brand recognition and detection are based on small-scale datasets that are not comprehensive enough when exploring emerging deep learning techniques. Moreover, it is challenging to evaluate the true performance of brand detection methods in realistic and open scenes. In order to tackle these problems, we first define the special issues of brand detection and recognition compared with generic object detection. Second, a novel brands benchmark called "Open Brands" is established. The dataset contains 1,437,812 images which have brands and 50,000 images without any brand. The part with brands in Open Brands contains 3,113,828 instances annotated in 3 dimensions: 4 types, 559 brands and 1216 logos. To the best of our knowledge, it is the largest dataset for brand detection and recognition with rich annotations. We provide in-depth comprehensive statistics about the dataset, validate the quality of the annotations and study how the performance of many modern models evolves with an increasing amount of training data. Third, we design a network called "Brand Net" to handle brand recognition. Brand Net gets state-of-art mAP on Open Brand compared with existing detection methods.
翻訳日:2021-05-09 05:12:04 公開日:2020-12-14
# (参考訳) HR深度:高分解能自己監督単分子深度推定

HR-Depth: High Resolution Self-Supervised Monocular Depth Estimation ( http://arxiv.org/abs/2012.07356v1 )

ライセンス: CC BY 4.0
Xiaoyang Lyu, Liang Liu, Mengmeng Wang, Xin Kong, Lina Liu, Yong Liu, Xinxin Chen, Yi Yuan(参考訳) 自己教師付き学習は、スーパービジョンの唯一の源として画像列を用いる単眼深度推定において大きな可能性を示している。 奥行き推定には高解像度画像を用いたが, 予測精度は改善されていない。 本研究では,両線形補間er-rorが分解能の増大に伴って徐々に消失する不正確な深さ推定勾配領域から,中心的理由が得られた。 大きな勾配領域でより正確な深度推定を行うには、空間的・意味的な情報を持つ高解像度の特徴を得る必要がある。 そこで, 改良されたDepthNet, HR-Depthの2つの効果的な戦略を提案する。(1)DepthNetにおけるスキップ接続を高解像度化するために再設計し, (2)機能融合Squeeze-and-Excitation(fSE)モジュールをより効率的にヒューズするために提案する。 さらに、以前のstate-of-the-artメソッドは、実際のアプリケーションを制限するパラメータの質量を持つかなり複雑なディープネットワークに基づいている。 また,mobilenetv3をエンコーダとして使用する軽量ネットワークを構築する。 実験によると、軽量ネットワークは、monodepth2のような多くの大規模モデルと同程度の解像度で、わずか20%のパラメータで実行できる。 すべてのコードとモデルはhttps://github.com/shawLyu/HR-Depth.comで入手できる。

Self-supervised learning shows great potential in monoculardepth estimation, using image sequences as the only source ofsupervision. Although people try to use the high-resolutionimage for depth estimation, the accuracy of prediction hasnot been significantly improved. In this work, we find thecore reason comes from the inaccurate depth estimation inlarge gradient regions, making the bilinear interpolation er-ror gradually disappear as the resolution increases. To obtainmore accurate depth estimation in large gradient regions, itis necessary to obtain high-resolution features with spatialand semantic information. Therefore, we present an improvedDepthNet, HR-Depth, with two effective strategies: (1) re-design the skip-connection in DepthNet to get better high-resolution features and (2) propose feature fusion Squeeze-and-Excitation(fSE) module to fuse feature more efficiently.Using Resnet-18 as the encoder, HR-Depth surpasses all pre-vious state-of-the-art(SoTA) methods with the least param-eters at both high and low resolution. Moreover, previousstate-of-the-art methods are based on fairly complex and deepnetworks with a mass of parameters which limits their realapplications. Thus we also construct a lightweight networkwhich uses MobileNetV3 as encoder. Experiments show thatthe lightweight network can perform on par with many largemodels like Monodepth2 at high-resolution with only20%parameters. All codes and models will be available at https://github.com/shawLyu/HR-Depth.
翻訳日:2021-05-09 05:02:01 公開日:2020-12-14
# (参考訳) 話題制御と常識強制を伴う方程式からの算数語問題の生成

Generating Math Word Problems from Equations with Topic Controlling and Commonsense Enforcement ( http://arxiv.org/abs/2012.07379v1 )

ライセンス: CC BY 4.0
Tianyang Cao, Shuang Zeng, Songge Zhao, Mairgup Mansur, Baobao Chang(参考訳) 近年、ニューラルネットワークモデルの助けを借りてテキスト生成タスクが大幅に進歩している。 しかし、数学の方程式に基づいて数学問題テキストを生成するという、これまでほとんど進歩しなかった課題がある。 本稿では,新しい方程式から問題へのテキスト生成モデルを提案する。 In our model, 1) we propose a flexible scheme to effectively encode math equations, we then enhance the equation encoder by a Varitional Autoen-coder (VAE) 2) given a math equation, we perform topic selection, followed by which a dynamic topic memory mechanism is introduced to restrict the topic distribution of the generator 3) to avoid commonsense violation in traditional generation model, we pretrain word embedding with background knowledge graph (KG), and we link decoded words to related words in KG, targeted at injecting background knowledge into our model. 我々は,自動計測と人的評価の両面からモデルを評価し,本モデルが生成した問題テキストの精度と豊かさの両面で,ベースラインと過去のモデルより優れていることを示す。

Recent years have seen significant advancement in text generation tasks with the help of neural language models. However, there exists a challenging task: generating math problem text based on mathematical equations, which has made little progress so far. In this paper, we present a novel equation-to-problem text generation model. In our model, 1) we propose a flexible scheme to effectively encode math equations, we then enhance the equation encoder by a Varitional Autoen-coder (VAE) 2) given a math equation, we perform topic selection, followed by which a dynamic topic memory mechanism is introduced to restrict the topic distribution of the generator 3) to avoid commonsense violation in traditional generation model, we pretrain word embedding with background knowledge graph (KG), and we link decoded words to related words in KG, targeted at injecting background knowledge into our model. We evaluate our model through both automatic metrices and human evaluation, experiments demonstrate our model outperforms baseline and previous models in both accuracy and richness of generated problem text.
翻訳日:2021-05-09 04:29:32 公開日:2020-12-14
# (参考訳) 重要度サンプリングによるフェデレーション学習

Federated Learning under Importance Sampling ( http://arxiv.org/abs/2012.07383v1 )

ライセンス: CC BY 4.0
Elsa Rizk, Stefan Vlaski, Ali H. Sayed(参考訳) フェデレーション学習は、中央ユニットによって管理される分散学習戦略をカプセル化する。 各イテレーションで選択されたエージェントの数に依存するため、各エージェントがそれぞれのローカルデータをタップするので、エージェントとそのデータを選択するための最適なサンプリングポリシーをフェデレートした学習実装で研究するのは自然なことです。 通常、均一なサンプリング方式のみを使用する。 しかし,本研究では,サンプリングエージェントと非均一に誘導されるデータに対して,サンプリングの重要性と,スキームの工夫の効果について検討する。 代替のないサンプリングを含むスキームでは,生成したアーキテクチャの性能は,各エージェントのデータ変動とエージェント間のモデル変動に関連する2つの要因によって制御される。 シミュレーションおよび実データを用いた実験により理論的知見を示し,提案手法による性能改善を示す。

Federated learning encapsulates distributed learning strategies that are managed by a central unit. Since it relies on using a selected number of agents at each iteration, and since each agent, in turn, taps into its local data, it is only natural to study optimal sampling policies for selecting agents and their data in federated learning implementations. Usually, only uniform sampling schemes are used. However, in this work, we examine the effect of importance sampling and devise schemes for sampling agents and data non-uniformly guided by a performance measure. We find that in schemes involving sampling without replacement, the performance of the resulting architecture is controlled by two factors related to data variability at each agent, and model variability across agents. We illustrate the theoretical findings with experiments on simulated and real data and show the improvement in performance that results from the proposed strategies.
翻訳日:2021-05-09 04:16:02 公開日:2020-12-14
# (参考訳) ロバストなワンショットオーディオからビデオ生成

Robust One Shot Audio to Video Generation ( http://arxiv.org/abs/2012.07842v1 )

ライセンス: CC BY-SA 4.0
Neeraj Kumar, Srishti Goel, Ankur Narang, Mujtaba Hasan(参考訳) オーディオ・トゥ・ビデオ生成は興味深い問題であり、映画製作、マルチメディア、マーケティング、教育などの業界分野に多くの応用がある。 表現力のある顔の動きを持つ高品質のビデオ生成は、生成的対向ネットワークのための複雑な学習ステップを伴う難しい問題である。 さらに、未認識の単一画像に対してワンショット学習を可能にすることで、問題の複雑さが増し、同時に実用的なシナリオにも適用できる。 本稿では,音声信号と一人の未確認画像とを入力として,任意の長さの音声映像を合成するための新しい手法であるOneShotA2Vを提案する。 OneShotA2Vはカリキュラム学習を利用して表情成分の動きを学習し、それによって与えられた人物の高品質なトーキー映像を生成する。 さらに、音声入力から生成した特徴を直接生成対向ネットワークに供給し、少数のアップダデーションエポックのみを施したスナップショット学習を適用することにより、任意の未確認自撮りに適応する。 OneShotA2Vは空間適応正規化に基づくマルチレベルジェネレータとマルチレベル識別器ベースのアーキテクチャを利用する。 入力された音声クリップは特定の言語に制限されず、メソッドの多言語適用性を与える。 SSIM(構造類似度指数)、PSNR(ピーク信号対雑音比)、PBD(画像のシャープネス)など、複数の定量的指標を用いて、1ShotA2Vの性能をGAN(RSDGAN)[43]、Speech2Vid[8]などによるリアル音声駆動顔画像と比較した。 さらに,定性評価とオンラインチューリングテストにより,本手法の有効性が示された。

Audio to Video generation is an interesting problem that has numerous applications across industry verticals including film making, multi-media, marketing, education and others. High-quality video generation with expressive facial movements is a challenging problem that involves complex learning steps for generative adversarial networks. Further, enabling one-shot learning for an unseen single image increases the complexity of the problem while simultaneously making it more applicable to practical scenarios. In the paper, we propose a novel approach OneShotA2V to synthesize a talking person video of arbitrary length using as input: an audio signal and a single unseen image of a person. OneShotA2V leverages curriculum learning to learn movements of expressive facial components and hence generates a high-quality talking-head video of the given person. Further, it feeds the features generated from the audio input directly into a generative adversarial network and it adapts to any given unseen selfie by applying fewshot learning with only a few output updation epochs. OneShotA2V leverages spatially adaptive normalization based multi-level generator and multiple multi-level discriminators based architecture. The input audio clip is not restricted to any specific language, which gives the method multilingual applicability. Experimental evaluation demonstrates superior performance of OneShotA2V as compared to Realistic Speech-Driven Facial Animation with GANs(RSDGAN) [43], Speech2Vid [8], and other approaches, on multiple quantitative metrics including: SSIM (structural similarity index), PSNR (peak signal to noise ratio) and CPBD (image sharpness). Further, qualitative evaluation and Online Turing tests demonstrate the efficacy of our approach.
翻訳日:2021-05-09 02:58:25 公開日:2020-12-14
# (参考訳) ダイアログにおける推論:文脈読解による応答生成の改善

Reasoning in Dialog: Improving Response Generation by Context Reading Comprehension ( http://arxiv.org/abs/2012.07410v1 )

ライセンス: CC BY 4.0
Xiuying Chen, Zhi Cui, Jiayi Zhang, Chen Wei, Jianwei Cui, Bin Wang, Dongyan Zhao, Rui Yan(参考訳) マルチターンダイアログでは、発話は常に文の完全な形を取るとは限らないため、自然にダイアログの文脈を理解するのが難しくなる。 しかし、適切な応答を生成するために、ダイアログコンテキストを完全に把握することが不可欠である。 そこで本研究では,対話中の省略された情報に着目した読み解き質問に対して,モデルの応答能力を調べることにより,応答生成性能を向上させることを提案する。 本稿では,マルチタスク学習方式に照らし合わせて,これら2つのタスクを統一し,同じエンコーダを共有し,異なるデコーダを持つ共通およびタスク不変な特徴を抽出し,タスク固有の特徴を学習する統合フレームワークを提案する。 符号化部における質問やダイアログ履歴の融合を改善するため、下流タスクをサポートするために履歴ダイアログ情報を選択的に保存・更新するメモリ更新器を用いてトランスフォーマーアーキテクチャを拡張することを提案する。 実験では,人間のアノテーションを用いて大規模な対話読解データセットを記述・検討した。 このデータセットで広範な実験を行い,提案手法が両タスクの強力なベースラインに対して大幅に改善することを示す。 このようにして、推論が応答生成の改善に有効であり、その逆であることを示す。 我々はさらなる研究のために大規模なデータセットをリリースします。

In multi-turn dialog, utterances do not always take the full form of sentences \cite{Carbonell1983DiscoursePA}, which naturally makes understanding the dialog context more difficult. However, it is essential to fully grasp the dialog context to generate a reasonable response. Hence, in this paper, we propose to improve the response generation performance by examining the model's ability to answer a reading comprehension question, where the question is focused on the omitted information in the dialog. Enlightened by the multi-task learning scheme, we propose a joint framework that unifies these two tasks, sharing the same encoder to extract the common and task-invariant features with different decoders to learn task-specific features. To better fusing information from the question and the dialog history in the encoding part, we propose to augment the Transformer architecture with a memory updater, which is designed to selectively store and update the history dialog information so as to support downstream tasks. For the experiment, we employ human annotators to write and examine a large-scale dialog reading comprehension dataset. Extensive experiments are conducted on this dataset, and the results show that the proposed model brings substantial improvements over several strong baselines on both tasks. In this way, we demonstrate that reasoning can indeed help better response generation and vice versa. We release our large-scale dataset for further research.
翻訳日:2021-05-09 02:45:30 公開日:2020-12-14
# (参考訳) ディープエンコーダデコーダネットワークを用いたDSMリファインメント

DSM Refinement with Deep Encoder-Decoder Networks ( http://arxiv.org/abs/2012.07427v1 )

ライセンス: CC BY 4.0
Nando Metzger(参考訳) 空中画像から3d都市モデルを生成することができる。 しかし、計算されたDSMは、時間を要するプロセスで手動で片付けなければならないノイズ、人工物、データホールに悩まされる。 本稿では,このようなdsmを自動精錬する手法を提案する。 重要なアイデアは、参照データからニューラルネットワークに都市部の特性を教えることである。 この目的を達成するために、L1ノルムと特徴損失からなる損失関数を提案する。 これらの特徴は、事前訓練された画像分類ネットワークを用いて構築される。 高度マップの更新を学習するために、深層学習の概念とエンコーダ・デコーダ構造に基づいてネットワークアーキテクチャを設定する。 その結果, この組み合わせは, 不要なアーチファクトやノイズを除去しながら, 関連する幾何学的構造を保存するのに極めて有効であることが示唆された。

3D city models can be generated from aerial images. However, the calculated DSMs suffer from noise, artefacts, and data holes that have to be manually cleaned up in a time-consuming process. This work presents an approach that automatically refines such DSMs. The key idea is to teach a neural network the characteristics of urban area from reference data. In order to achieve this goal, a loss function consisting of an L1 norm and a feature loss is proposed. These features are constructed using a pre-trained image classification network. To learn to update the height maps, the network architecture is set up based on the concept of deep residual learning and an encoder-decoder structure. The results show that this combination is highly effective in preserving the relevant geometric structures while removing the undesired artefacts and noise.
翻訳日:2021-05-09 01:56:53 公開日:2020-12-14
# (参考訳) ピラミッド-フォーカス強化:ステップワイズフォーカスによる医用画像分割

Pyramid-Focus-Augmentation: Medical Image Segmentation with Step-Wise Focus ( http://arxiv.org/abs/2012.07430v1 )

ライセンス: CC BY 4.0
Vajira Thambawita, Steven Hicks, P{\aa}l Halvorsen, Michael A. Riegler(参考訳) 消化管所見の分節化は困難であるが重要な課題であり,十分な自動決定支援システムの構築に重要な役割を担っている。 本研究では,大腸ポリープ分節の問題に焦点をあてた,2020年のメディコ課題に対する解決策を提案する。 本稿では,ピラミッド状(大小から小)のグリッドをセグメンテーションに使用する拡張法について,単純かつ効率的なアイデアを提案する。 その結果,提案手法はインデントとして動作し,他の手法と競合する場合と同等の結果が得られることがわかった。

Segmentation of findings in the gastrointestinal tract is a challenging but also an important task which is an important building stone for sufficient automatic decision support systems. In this work, we present our solution for the Medico 2020 task, which focused on the problem of colon polyp segmentation. We present our simple but efficient idea of using an augmentation method that uses grids in a pyramid-like manner (large to small) for segmentation. Our results show that the proposed methods work as indented and can also lead to comparable results when competing with other methods.
翻訳日:2021-05-09 01:52:43 公開日:2020-12-14
# (参考訳) 距離方向グラフコントラスト学習

Distance-wise Graph Contrastive Learning ( http://arxiv.org/abs/2012.07437v1 )

ライセンス: CC BY 4.0
Deli Chen, Yanyai Lin, Lei Li, Xuancheng Ren. Peng Li, Jie Zhou, Xu Sun(参考訳) グラフベースの半教師付き学習(ssl)では、グラフの注釈付きノードから制限されたタスク情報を効率的に補完できるため、コントラスト学習(cl)が極めて効果的であることが証明されている。 しかしながら、既存のグラフcl(gcl)研究は、グラフトポロジーと注釈付きノードの選択によるグラフ全体のタスク情報の不均一な分布を無視している。 彼らは、CLをグラフ全体に等しく適用し、CLとグラフ学習の不連続な組み合わせをもたらす。 この問題に対処するため,各ノードのタスク情報を考慮し,グラフ学習にCLを適応的に適用することを提案する。 まず,グラフからのノード情報ゲインを測定するためにグループページランクを導入し,ラベル付きノードから位相的に離れたノードに対してclが有効であることを示す。 次に,2つの視点からdwgcl( distance-wise graph contrastive learning)法を提案する。(1) グラフ全体のタスク情報分布の全体的視点から,ラベル付きノードから離れたノードに対するcl効果を高める。(2) 各ノードの受信情報の個人的視点から,ノード間の相対距離を計測し,それに応じてgclのサンプリング戦略を適用する。 5つのベンチマークグラフデータセットに対する大規模な実験は、DwGCLが従来のGCLメソッドよりも明確な改善をもたらすことを示している。 各種アーキテクチャと3つの異なるアノテーション設定を持つ8つのグラフニューラルネットワークの解析により、DwGCLの一般化可能性をさらに証明した。

Contrastive learning (CL) has proven highly effective in graph-based semi-supervised learning (SSL), since it can efficiently supplement the limited task information from the annotated nodes in graph. However, existing graph CL (GCL) studies ignore the uneven distribution of task information across graph caused by the graph topology and the selection of annotated nodes. They apply CL to the whole graph evenly, which results in an incongruous combination of CL and graph learning. To address this issue, we propose to apply CL in the graph learning adaptively by taking the received task information of each node into consideration. Firstly, we introduce Group PageRank to measure the node information gain from graph and find that CL mainly works for nodes that are topologically far away from the labeled nodes. We then propose our Distance-wise Graph Contrastive Learning (DwGCL) method from two views:(1) From the global view of the task information distribution across the graph, we enhance the CL effect on nodes that are topologically far away from labeled nodes; (2) From the personal view of each node's received information, we measure the relative distance between nodes and then we adapt the sampling strategy of GCL accordingly. Extensive experiments on five benchmark graph datasets show that DwGCL can bring a clear improvement over previous GCL methods. Our analysis on eight graph neural network with various types of architecture and three different annotation settings further demonstrates the generalizability of DwGCL.
翻訳日:2021-05-09 01:47:59 公開日:2020-12-14
# (参考訳) ディープニューラルネットワーク適応のためのベイズ学習

Bayesian Learning for Deep Neural Network Adaptation ( http://arxiv.org/abs/2012.07460v1 )

ライセンス: CC BY 4.0
Xurong Xie, Xunying Liu, Tan Lee, Lan Wang(参考訳) 音声認識システムにおける重要な課題は、しばしば話者差に起因する訓練データと評価データとのミスマッチを減らすことである。 この目的のために、話者適応技術はミスマッチを減らすために重要な役割を果たす。 モデルに基づく話者適応手法は、堅牢性を確保するために十分な量のターゲット話者データを必要とすることが多い。 話者レベルのデータが限られている場合、話者適応は過度に適合し、一般化が不十分である。 本稿では,話者固有の適応データから話者依存(sd)パラメータの不確かさをモデル化するために,ベイズ学習に基づくdnn話者適応フレームワークを提案する。 この枠組みは,隠れ単位寄与のベイズ的学習(BLHUC),ベイズ的パラメータ化活性化関数(BPAct),ベイズ的隠れ単位バイアスベクトル(BHUB)の3種類のモデルベースDNN適応手法で検討されている。 3つのベイズ適応法において、決定論的sdパラメータは各話者に対して学習される潜在変数後続分布に置き換えられ、そのパラメータは変分推論に基づくアプローチにより効率的に推定される。 提案手法は,NIST Hub5'00 と RT03 の定性パラメータを用いて,教師なし試験時間話者適応と話者適応訓練の両方において,適応システムより一貫して優れていることを示す。 提案手法の有効性は,本論文で報告されている最新のハイブリッドシステムとエンド・ツー・エンドシステムを用いて,同一タスクで得られた最新性能との比較によりさらに実証された。

A key task for speech recognition systems is to reduce the mismatch between the training and evaluation data that is often attributable to speaker differences. To this end, speaker adaptation techniques play a vital role to reduce the mismatch. Model-based speaker adaptation approaches often require sufficient amounts of target speaker data to ensure robustness. When the amount of speaker level data is limited, speaker adaptation is prone to overfitting and poor generalization. To address the issue, this paper proposes a full Bayesian learning based DNN speaker adaptation framework to model speaker-dependent (SD) parameter uncertainty given limited speaker specific adaptation data. This framework is investigated in three forms of model based DNN adaptation techniques: Bayesian learning of hidden unit contributions (BLHUC), Bayesian parameterized activation functions (BPAct), and Bayesian hidden unit bias vectors (BHUB). In all three Bayesian adaptation methods, deterministic SD parameters are replaced by latent variable posterior distributions to be learned for each speaker, whose parameters are efficiently estimated using a variational inference based approach. Experiments conducted on 300-hour speed perturbed Switchboard corpus trained LF-MMI factored TDNN/CNN-TDNN systems featuring i-vector speaker adaptation suggest the proposed Bayesian adaptation approaches consistently outperform the adapted systems using deterministic parameters on the NIST Hub5'00 and RT03 evaluation sets in both unsupervised test time speaker adaptation and speaker adaptive training. The efficacy of the proposed Bayesian adaptation techniques is further demonstrated in a comparison against the state-of-the-art performance obtained on the same task using the most recent hybrid and end-to-end systems reported in the literature.
翻訳日:2021-05-09 01:31:17 公開日:2020-12-14
# (参考訳) 差分プラニングを用いたパラメータ効率の高い転送学習

Parameter-Efficient Transfer Learning with Diff Pruning ( http://arxiv.org/abs/2012.07463v1 )

ライセンス: CC BY 4.0
Demi Guo, Alexander M. Rush, Yoon Kim(参考訳) 予め訓練されたネットワークのタスク固有の微調整は、NLPにおいて顕著な経験的進歩をもたらしたが、ネットワークの大規模化は、マルチタスク、メモリ制約のある設定での微調整を困難にしている。 本稿では,プリトレイン・フィニチューン・フレームワーク内でパラメータ効率の良い転送学習を実現するための簡単な手法としてdiff pruningを提案する。 このアプローチは、微調整を、事前訓練されたパラメータベクトルの上に適用されるタスク固有の差分ベクトルを学習し、異なるタスク間で共有されるものとして見なす。 差分ベクトルは訓練中にL0-ノルムペナルティに微分可能な近似を施して適応的にプルーニングされる。 ディフプルーニングはタスク数が増加するにつれてパラメータ効率が向上し、各タスクの非ゼロ位置と差分ベクトルの重みだけを格納する必要があるが、共有事前学習モデルの保存コストは一定である。 さらに、トレーニング中にすべてのタスクにアクセスする必要はなく、ストリームにタスクが到着したり、タスクセットが不明な設定で魅力的になる。 差分プルーニングで微調整されたモデルはGLUEベンチマークで完全に微調整されたベースラインの性能と一致し,タスク毎の事前学習モデルのパラメータの0.5%しか変更できないことがわかった。

While task-specific finetuning of pretrained networks has led to significant empirical advances in NLP, the large size of networks makes finetuning difficult to deploy in multi-task, memory-constrained settings. We propose diff pruning as a simple approach to enable parameter-efficient transfer learning within the pretrain-finetune framework. This approach views finetuning as learning a task-specific diff vector that is applied on top of the pretrained parameter vector, which remains fixed and is shared across different tasks. The diff vector is adaptively pruned during training with a differentiable approximation to the L0-norm penalty to encourage sparsity. Diff pruning becomes parameter-efficient as the number of tasks increases, as it requires storing only the nonzero positions and weights of the diff vector for each task, while the cost of storing the shared pretrained model remains constant. It further does not require access to all tasks during training, which makes it attractive in settings where tasks arrive in stream or the set of tasks is unknown. We find that models finetuned with diff pruning can match the performance of fully finetuned baselines on the GLUE benchmark while only modifying 0.5% of the pretrained model's parameters per task.
翻訳日:2021-05-09 01:02:47 公開日:2020-12-14
# (参考訳) 多目的継続によるL1ペナルティ項の最適化問題処理について

On the Treatment of Optimization Problems with L1 Penalty Terms via Multiobjective Continuation ( http://arxiv.org/abs/2012.07483v1 )

ライセンス: CC BY 4.0
Katharina Bieker, Bennet Gebken, Sebastian Peitz(参考訳) 本稿では,画像や信号処理,医用画像,圧縮センシング,機械学習(ニューラルネットワークのトレーニングなど)など,多くの科学領域において重要である線形および非線形最適化におけるスパーシリティの影響について,より詳細な知見を得ることができるアルゴリズムを提案する。 sparsityは、ノイズデータに対する堅牢性を確保する上で重要な機能であると同時に、関連する用語の数が少ないため、解釈可能で分析しやすいモデルを見つける上でも重要である。 重み付きペナルティ項に$\ell_1$-normを加えることで、スパーシティを強制するのが一般的である。 より理解を深め、情報モデル選択を可能にするために、主目的と$\ell_1$-normを同時に最小化する際に発生する対応する多目的最適化問題(MOP)を直接解決する。 この MOP は一般に非線形目的に対して非凸であるので、重み付け法は全ての最適妥協を与えることができない。 この問題を回避するために,目的関数が 2 つある MOP に特に適合する継続法,すなわち $\ell_1$-norm を提案する。 本手法は非線形の場合に対する線形回帰問題に対するよく知られたホモトピー法の一般化と見なすことができる。 ニューラルネットワークトレーニングを含むいくつかの数値例は、この多目的アプローチによって得られる理論的な知見と追加の洞察を示しています。

We present a novel algorithm that allows us to gain detailed insight into the effects of sparsity in linear and nonlinear optimization, which is of great importance in many scientific areas such as image and signal processing, medical imaging, compressed sensing, and machine learning (e.g., for the training of neural networks). Sparsity is an important feature to ensure robustness against noisy data, but also to find models that are interpretable and easy to analyze due to the small number of relevant terms. It is common practice to enforce sparsity by adding the $\ell_1$-norm as a weighted penalty term. In order to gain a better understanding and to allow for an informed model selection, we directly solve the corresponding multiobjective optimization problem (MOP) that arises when we minimize the main objective and the $\ell_1$-norm simultaneously. As this MOP is in general non-convex for nonlinear objectives, the weighting method will fail to provide all optimal compromises. To avoid this issue, we present a continuation method which is specifically tailored to MOPs with two objective functions one of which is the $\ell_1$-norm. Our method can be seen as a generalization of well-known homotopy methods for linear regression problems to the nonlinear case. Several numerical examples - including neural network training - demonstrate our theoretical findings and the additional insight that can be gained by this multiobjective approach.
翻訳日:2021-05-09 00:43:01 公開日:2020-12-14
# (参考訳) スパースグラフ構築による映画要約

Movie Summarization via Sparse Graph Construction ( http://arxiv.org/abs/2012.07536v1 )

ライセンス: CC BY 4.0
Pinelopi Papalampidi, Frank Keller, Mirella Lapata(参考訳) 長編映画を総括し,その最重要場面を含む短い映像を制作する。 本稿では,ポイント(TP)を構成するシーン,すなわちストーリーラインを記述する映画のキーイベントを組み立てることで,要約が生成できるという仮説を探求する。 本研究では,シーン間の関係を表現し,マルチモーダル情報を用いて構築する疎映画グラフを構築し,tpシーンを識別するモデルを提案する。 人間の判断によれば、我々のアプローチによって作成された要約は、シーケンスベースモデルや汎用的な要約アルゴリズムの出力よりも、より情報的で完全であり、より高い評価を受けている。 誘導グラフは解釈可能であり、異なる映画ジャンルのトポロジーを表示する。

We summarize full-length movies by creating shorter videos containing their most informative scenes. We explore the hypothesis that a summary can be created by assembling scenes which are turning points (TPs), i.e., key events in a movie that describe its storyline. We propose a model that identifies TP scenes by building a sparse movie graph that represents relations between scenes and is constructed using multimodal information. According to human judges, the summaries created by our approach are more informative and complete, and receive higher ratings, than the outputs of sequence-based models and general-purpose summarization algorithms. The induced graphs are interpretable, displaying different topology for different movie genres.
翻訳日:2021-05-09 00:19:10 公開日:2020-12-14
# (参考訳) 深層学習による脳萎縮の生体力学的モデリング

Biomechanical modelling of brain atrophy through deep learning ( http://arxiv.org/abs/2012.07596v1 )

ライセンス: CC BY 4.0
Mariana da Silva, Kara Garcia, Carole H. Sudre, Cher Bass, M. Jorge Cardoso, Emma Robinson(参考訳) 本稿では,概念実証,深層学習(DL)に基づく現実的な脳変形の生体力学的モデルを提案する。 局所萎縮と成長の所定のマップを入力として、ネットワークは組織変形のネオ・フックモデルに従って画像の変形を学習する。 このツールは、アルツハイマー病神経画像イニシアチブ(ADNI)データセットの経時的脳萎縮データを用いて検証され、トレーニングされたモデルは、最小限の残差で新しい脳の変形を迅速にシミュレートできることを示した。 この方法は、データ増強や、脳の成長と萎縮を反映する様々な因果仮説の探索に使用される可能性がある。

We present a proof-of-concept, deep learning (DL) based, differentiable biomechanical model of realistic brain deformations. Using prescribed maps of local atrophy and growth as input, the network learns to deform images according to a Neo-Hookean model of tissue deformation. The tool is validated using longitudinal brain atrophy data from the Alzheimer's Disease Neuroimaging Initiative (ADNI) dataset, and we demonstrate that the trained model is capable of rapidly simulating new brain deformations with minimal residuals. This method has the potential to be used in data augmentation or for the exploration of different causal hypotheses reflecting brain growth and atrophy.
翻訳日:2021-05-08 23:58:08 公開日:2020-12-14
# (参考訳) ヒンディー語ニュースメディアにおけるクリックベイト : 予備研究

Clickbait in Hindi News Media : A Preliminary Study ( http://arxiv.org/abs/2012.07609v1 )

ライセンス: CC BY 4.0
Vivek Kaushal and Kavita Vemuri(参考訳) ヒンディー語ニュースの見出しをtwitterで共有するコーパスは、ヒンディー語ニュースソースの5つのツイートを4ヶ月にわたって収集することで作成された。 7人の独立したアノテーターが採用され、クリックベイトの性質で5つのニュースソースから最もリツイートされた20のニュース投稿をマークした。 その結果得られたクリックベイトスコアは、プラットフォーム上のインタラクション(retweets, favorites, reader responselies)、ツイートワード数、ツイート中の正規化されたPOS(part-of-speech)タグ数との相関で評価された。 ツイートに対する読者の反応とツイートのクリックベイトスコアとの間には正の相関が認められた。 POSタグ数とクリックベイトスコアにも有意な相関が認められた。 ヒンディー語ニュースメディアにおけるクリックベイトの普及は、英語ニュースメディアにおけるクリックベイトの普及に類似していることが判明した。 私たちは、ヒンディー語の主流ニュースメディアでclickbaitに関する議論のプラットフォームを提供することを期待している。

A corpus of Hindi news headlines shared on Twitter was created by collecting tweets of 5 mainstream Hindi news sources for a period of 4 months. 7 independent annotators were recruited to mark the 20 most retweeted news posts by each of the 5 news sources on its clickbait nature. The clickbait score hence generated was assessed for its correlation with interactions on the platform (retweets, favorites, reader replies), tweet word count, and normalized POS (part-of-speech) tag counts in tweets. A positive correlation was observed between readers' interactions with tweets and tweets' clickbait score. Significant correlations were also observed for POS tag counts and clickbait score. The prevalence of clickbait in mainstream Hindi news media was found to be similar to its prevalence in English news media. We hope that our observations would provide a platform for discussions on clickbait in mainstream Hindi news media.
翻訳日:2021-05-08 23:50:02 公開日:2020-12-14
# (参考訳) Sparse Multi-Family Deep Scattering Network

Sparse Multi-Family Deep Scattering Network ( http://arxiv.org/abs/2012.07662v1 )

ライセンス: CC BY 4.0
Romain Cosentino, Randall Balestriero(参考訳) 本研究では,sparse multi-family deep scattering network (smf-dsn)を提案する。 DSNは、ウェーブレット変換をカスケードして信号の正当性と解釈可能な特徴を抽出し、変換不変演算子を介してデータの表現を抽出する。 まず、過去数十年にわたって高度に専門化されたウェーブレットフィルタの開発を活用し、DSNに対するマルチファミリーアプローチを提案する。 特に,ネットワークの各層で複数のウェーブレット変換を交差させることを提案し,特徴の多様性を高め,専門家が適切なフィルタを選択する必要をなくす。 次に,ネットワークを正則化し,非定常雑音などの信号に起因する不安定性を制御するdsnに適した最適しきい値戦略を開発する。 提案手法は,ネットワークの潜在表現を,活動と雑音を区別するローカルマスクとして機能させることによってスパースする。 SMF-DSNは(i)散乱係数の多様性を高めてDSNを増強し、(ii)非定常雑音に対するロバスト性を向上させる。

In this work, we propose the Sparse Multi-Family Deep Scattering Network (SMF-DSN), a novel architecture exploiting the interpretability of the Deep Scattering Network (DSN) and improving its expressive power. The DSN extracts salient and interpretable features in signals by cascading wavelet transforms, complex modulus and extract the representation of the data via a translation-invariant operator. First, leveraging the development of highly specialized wavelet filters over the last decades, we propose a multi-family approach to DSN. In particular, we propose to cross multiple wavelet transforms at each layer of the network, thus increasing the feature diversity and removing the need for an expert to select the appropriate filter. Secondly, we develop an optimal thresholding strategy adequate for the DSN that regularizes the network and controls possible instabilities induced by the signals, such as non-stationary noise. Our systematic and principled solution sparsifies the network's latent representation by acting as a local mask distinguishing between activity and noise. The SMF-DSN enhances the DSN by (i) increasing the diversity of the scattering coefficients and (ii) improves its robustness with respect to non-stationary noise.
翻訳日:2021-05-08 22:23:42 公開日:2020-12-14
# (参考訳) ヘビアンとSTDPの制限はスパイキングニューロンの体重を学習する

Constraints on Hebbian and STDP learned weights of a spiking neuron ( http://arxiv.org/abs/2012.07664v1 )

ライセンス: CC BY 4.0
Dominique Chu and Huy Le Nguyen(参考訳) 体重正規化を伴うスパイキングニューロンに適用されるヒュービアンおよびstdp学習規則による重みの制約を数学的に解析する。 純粋なヘビアン学習の場合、正規化重みは学習速度に依存し、通常は小さい修正項まで重みの促進確率に等しいことが分かる。 同様の関係をSTDPアルゴリズムで導き出すことができ、そこでは正規化された重み値が重みの促進と脱落確率の差を反映する。 これらの関係は、ヘビーアルゴリズムとstdpアルゴリズムの収束をチェックできるという点で実際に有用である。 もう1つの応用は新規性検出である。 MNISTデータセットを用いてこれを実証する。

We analyse mathematically the constraints on weights resulting from Hebbian and STDP learning rules applied to a spiking neuron with weight normalisation. In the case of pure Hebbian learning, we find that the normalised weights equal the promotion probabilities of weights up to correction terms that depend on the learning rate and are usually small. A similar relation can be derived for STDP algorithms, where the normalised weight values reflect a difference between the promotion and demotion probabilities of the weight. These relations are practically useful in that they allow checking for convergence of Hebbian and STDP algorithms. Another application is novelty detection. We demonstrate this using the MNIST dataset.
翻訳日:2021-05-08 22:04:06 公開日:2020-12-14
# (参考訳) グラフニューラルネットワークの一般化境界に対するPAC-Bayesianアプローチ

A PAC-Bayesian Approach to Generalization Bounds for Graph Neural Networks ( http://arxiv.org/abs/2012.07690v1 )

ライセンス: CC BY 4.0
Renjie Liao, Raquel Urtasun, Richard Zemel(参考訳) 本稿では,グラフニューラルネットワーク (GNN) の2つの主要クラス,すなわちグラフ畳み込みネットワーク (GCN) とメッセージパッシングGNN (MPGNN) について,PAC-ベイジアンアプローチを用いて一般化境界を導出する。 その結果,重みの最大ノード次数とスペクトルノルムが両モデルの一般化境界を規定することが明らかとなった。 また,完全連結・畳み込みニューラルネットワークのためのarXiv:1707.09564v2[cs.LG]で開発された結果の自然な一般化であることを示す。 メッセージパッシングgnnでは、pac-bayesバウンドはarxiv:2002.06157v1[cs.lg]のバウンドに基づくrademacher複雑性よりも改善され、最大ノード次数と最大隠れ次元への依存性がより強くなる。 GNNの摂動解析とPAC-Bayes解析の非均一GNNへの一般化である。 いくつかの実世界のグラフデータセットに関する実証的研究を行い、PAC-Bayes境界が他よりも厳密であることを検証した。

In this paper, we derive generalization bounds for the two primary classes of graph neural networks (GNNs), namely graph convolutional networks (GCNs) and message passing GNNs (MPGNNs), via a PAC-Bayesian approach. Our result reveals that the maximum node degree and spectral norm of the weights govern the generalization bounds of both models. We also show that our bound for GCNs is a natural generalization of the results developed in arXiv:1707.09564v2 [cs.LG] for fully-connected and convolutional neural networks. For message passing GNNs, our PAC-Bayes bound improves over the Rademacher complexity based bound in arXiv:2002.06157v1 [cs.LG], showing a tighter dependency on the maximum node degree and the maximum hidden dimension. The key ingredients of our proofs are a perturbation analysis of GNNs and the generalization of PAC-Bayes analysis to non-homogeneous GNNs. We perform an empirical study on several real-world graph datasets and verify that our PAC-Bayes bound is tighter than others.
翻訳日:2021-05-08 21:49:44 公開日:2020-12-14
# (参考訳) Mercer Features for Efficient Combinatorial Bayesian Optimization

Mercer Features for Efficient Combinatorial Bayesian Optimization ( http://arxiv.org/abs/2012.07762v1 )

ライセンス: CC BY 4.0
Aryan Deshwal, Syrine Belakaria, Janardhan Rao Doppa(参考訳) ベイズ最適化(英: bayesian optimization、bo)は、ブラックボックス最適化問題を解くための効率的なフレームワークである。 本稿では,科学や工学の分野で自然に発生する組合せ空間(シーケンスやグラフなど)のBO問題に対処する。 原型的な例は、高価な実験によって導かれる分子最適化である。 重要な課題は、統計モデルの複雑さと探索のトラクタビリティをバランスさせ、評価のための組合せ構造を選択することである。 本稿では,Merer Features for Combinatorial Bayesian Optimization (MerCBO) と呼ばれる効率的な手法を提案する。 MerCBOの背景にある重要な考え方は、それらの組合せグラフ表現の構造を利用して、離散オブジェクト上の拡散カーネルの明示的な特徴マップを提供することである。 これらのマーサー機能は、トンプソンサンプリングと組み合わせて、取得関数により、抽出可能なソルバを用いて次の構造を評価できる。 様々な実世界のベンチマークの実験では、MerCBOは以前の方法と同等かそれ以上の性能を示している。 ソースコードはhttps://github.com/aryandeshwal/MerCBOで入手できる。

Bayesian optimization (BO) is an efficient framework for solving black-box optimization problems with expensive function evaluations. This paper addresses the BO problem setting for combinatorial spaces (e.g., sequences and graphs) that occurs naturally in science and engineering applications. A prototypical example is molecular optimization guided by expensive experiments. The key challenge is to balance the complexity of statistical models and tractability of search to select combinatorial structures for evaluation. In this paper, we propose an efficient approach referred as Mercer Features for Combinatorial Bayesian Optimization (MerCBO). The key idea behind MerCBO is to provide explicit feature maps for diffusion kernels over discrete objects by exploiting the structure of their combinatorial graph representation. These Mercer features combined with Thompson sampling as the acquisition function allows us to employ tractable solvers to find next structures for evaluation. Experiments on diverse real-world benchmarks demonstrate that MerCBO performs similarly or better than prior methods. The source code is available at https://github.com/aryandeshwal/MerCBO .
翻訳日:2021-05-08 21:08:07 公開日:2020-12-14
# (参考訳) コンテンツ計画における教師なし意見要約

Unsupervised Opinion Summarization with Content Planning ( http://arxiv.org/abs/2012.07808v1 )

ライセンス: CC BY 4.0
Reinald Kim Amplayo, Stefanos Angelidis, Mirella Lapata(参考訳) 抽象的要約のためのディープラーニング技術の最近の成功は、大規模データセットの可用性を前提としている。 レビュー(製品や映画など)を要約する場合、そのようなトレーニングデータは入手できず、容易にソース化できないため、教師付きトレーニングのための合成データセットに依存する手法の開発を動機付けている。 要約モデルにコンテンツプランニングを明示的に組み込むことにより、高品質な出力が得られるだけでなく、より自然な合成データセットの作成が可能となり、実世界の文書と要約のペアに類似していることが示されている。 当社のコンテンツ計画は、高価なアノテーションにアクセスせずにデータから引き起こされるアスペクトと感情分布の形式を取っています。 コンテントプランナによってパラメータ化されたディリクレ分布から擬似レビューをサンプリングして合成データセットを作成し,入力レビューと誘導コンテンツプランに基づいて要約を生成する。 3つの領域における実験結果から,提案手法は,意見のコンセンサスを捉える情報的,一貫性的,流動的な要約を生成する上で,競争モデルよりも優れていることが示された。

The recent success of deep learning techniques for abstractive summarization is predicated on the availability of large-scale datasets. When summarizing reviews (e.g., for products or movies), such training data is neither available nor can be easily sourced, motivating the development of methods which rely on synthetic datasets for supervised training. We show that explicitly incorporating content planning in a summarization model not only yields output of higher quality, but also allows the creation of synthetic datasets which are more natural, resembling real world document-summary pairs. Our content plans take the form of aspect and sentiment distributions which we induce from data without access to expensive annotations. Synthetic datasets are created by sampling pseudo-reviews from a Dirichlet distribution parametrized by our content planner, while our model generates summaries based on input reviews and induced content plans. Experimental results on three domains show that our approach outperforms competitive models in generating informative, coherent, and fluent summaries that capture opinion consensus.
翻訳日:2021-05-08 20:25:11 公開日:2020-12-14
# (参考訳) リアルタイム高分解能背景マッチング

Real-Time High-Resolution Background Matting ( http://arxiv.org/abs/2012.07810v1 )

ライセンス: CC BY 4.0
Shanchuan Lin, Andrey Ryabtsev, Soumyadip Sengupta, Brian Curless, Steve Seitz, and Ira Kemelmacher-Shlizerman(参考訳) 最新のGPUでは、30fpsの4K解像度で、60fpsのHDで動作するリアルタイム、高解像度のバックグラウンド置換技術を導入する。 本手法は,アルファマットと前景層を復元するために,背景の付加的なフレームを捕捉し,使用するバックグラウンド・マッティングに基づく。 主な課題は、高品質のアルファマットを計算し、ストランドレベルの毛髪の詳細を保存し、高解像度の画像をリアルタイムで処理することだ。 この目的を達成するために,2つのニューラルネットワークを用いる。ベースネットワークは,選択的パッチで高分解能で動作する第2のネットワークによって洗練された低解像度の結果を計算する。 我々は,videomatte240k と photomatte13k/85 の2つの大規模ビデオおよび画像マットングデータセットを紹介する。 提案手法は,従来の背景組立技術と比較して品質が向上し,同時に速度と解像度の両面で劇的な向上が得られた。

We introduce a real-time, high-resolution background replacement technique which operates at 30fps in 4K resolution, and 60fps for HD on a modern GPU. Our technique is based on background matting, where an additional frame of the background is captured and used in recovering the alpha matte and the foreground layer. The main challenge is to compute a high-quality alpha matte, preserving strand-level hair details, while processing high-resolution images in real-time. To achieve this goal, we employ two neural networks; a base network computes a low-resolution result which is refined by a second network operating at high-resolution on selective patches. We introduce two largescale video and image matting datasets: VideoMatte240K and PhotoMatte13K/85. Our approach yields higher quality results compared to the previous state-of-the-art in background matting, while simultaneously yielding a dramatic boost in both speed and resolution.
翻訳日:2021-05-08 20:01:09 公開日:2020-12-14
# (参考訳) 未来の人間中心型スマートシティ:スマートシティのセキュリティ、解釈可能性、倫理的課題の批判的分析

Developing Future Human-Centered Smart Cities: Critical Analysis of Smart City Security, Interpretability, and Ethical Challenges ( http://arxiv.org/abs/2012.09110v1 )

ライセンス: CC BY 4.0
Kashif Ahmad, Majdi Maabreh, Mohamed Ghaly, Khalil Khan, Junaid Qadir, Ala Al-Fuqaha(参考訳) 機械学習と人工知能テクノサイエンスの飛躍的な進歩によって、AIコミュニティに新たな理解が生まれ、人間が私たちの議論の中心にいることを確実にし、技術によって引き起こされるジストピアに終止符を打たないようにする必要があります。 グリーンが著書smart enough cityで強く主張しているように、都市環境における技術の導入は、自動的に繁栄、幸福、都市責任、社会正義へと変換されるわけではない。 生き、設計する価値のある都市の未来を慎重に考える必要がある。 哲学的、倫理的な問題と、将来の都市の技術的基盤を形成するAIアルゴリズムのセキュリティ、安全性、解釈可能性に関連する様々な課題がある。 トップクラスの国際大学には、人間中心AIに関するいくつかの研究機関が設立された。 グローバルには、より人間的で人間と互換性のある技術が求められている。 例えば、スチュアート・ラッセルはHuman Compatible AIという本を持っている。 center for humane technologyは規制当局やit企業に対して、過激主義、分極化、誤った情報、インターネット依存といった社会問題に寄与するビジネスモデルや製品機能を避けるよう推奨している。 本稿では、セキュリティ、堅牢性、解釈可能性、倫理的課題を含む重要な課題を分析し、これらの課題の収束に特に重点を置いて、AIやMLの人間中心のアプリケーションへの展開を成功させる。 私たちは、これらの重要な課題に関する既存の文献の詳細なレビューを提供し、これらの課題のうちの1つが他人にどのようにつながり、他の課題を解決するのに役立つかを分析します。 この論文は、これらの領域における研究の現在の限界、落とし穴、今後の方向性、そしてそれが現在のギャップを埋め、より良いソリューションへと導く方法についてもアドバイスしている。

As we make tremendous advances in machine learning and artificial intelligence technosciences, there is a renewed understanding in the AI community that we must ensure that humans being are at the center of our deliberations so that we don't end in technology-induced dystopias. As strongly argued by Green in his book Smart Enough City, the incorporation of technology in city environs does not automatically translate into prosperity, wellbeing, urban livability, or social justice. There is a great need to deliberate on the future of the cities worth living and designing. There are philosophical and ethical questions involved along with various challenges that relate to the security, safety, and interpretability of AI algorithms that will form the technological bedrock of future cities. Several research institutes on human centered AI have been established at top international universities. Globally there are calls for technology to be made more humane and human-compatible. For example, Stuart Russell has a book called Human Compatible AI. The Center for Humane Technology advocates for regulators and technology companies to avoid business models and product features that contribute to social problems such as extremism, polarization, misinformation, and Internet addiction. In this paper, we analyze and explore key challenges including security, robustness, interpretability, and ethical challenges to a successful deployment of AI or ML in human-centric applications, with a particular emphasis on the convergence of these challenges. We provide a detailed review of existing literature on these key challenges and analyze how one of these challenges may lead to others or help in solving other challenges. The paper also advises on the current limitations, pitfalls, and future directions of research in these domains, and how it can fill the current gaps and lead to better solutions.
翻訳日:2021-05-08 19:31:30 公開日:2020-12-14
# (参考訳) ニューラルネットワークの精度予測のためのパーセプトロン理論

Perceptron Theory for Predicting the Accuracy of Neural Networks ( http://arxiv.org/abs/2012.07881v1 )

ライセンス: CC BY 4.0
Denis Kleyko, Antonello Rosato, E. Paxon Frady, Massimo Panella, Friedrich T. Sommer(参考訳) 多くのニューラルネットワークモデルは分類問題で成功したが、それでもブラックボックスとして扱われている。 そこで我々は,分類タスクの性能を予測できる一層パーセプトロンの理論を開発した。 この理論は、ベクトルシンボリックアーキテクチャとして知られる記号推論のためのエコー状態ネットワークとコネクショニストモデルの性能を予測する既存の理論の一般化である。 本稿では,提案するパーセプトロン理論が,従来の理論では説明できないエコー状態ネットワークの性能を予測できることを示す。 第二に、我々のパーセプトロン理論を、浅層無作為接続および深層多層ネットワークの最後の層に適用する。 完全理論はガウス統計に基づいているが、解析的に解析可能である。 クラス数が少ない問題に対して,ネットワーク性能を予測する数値計算法について検討する。 多数のクラスを扱う問題に対して,確率的サンプリング法と全理論へのトラクタブル近似について検討する。 予測の質は,記憶タスク上の貯水池コンピューティングネットワーク,分類データセットの集合上の浅いランダム接続ネットワーク,ImageNetデータセットによる深部畳み込みネットワークの3つの実験条件で評価される。 この研究は、ディープニューラルネットワークを理解するための単純で二部的なアプローチを提供する。入力は、最後の1層で符号化され、高次元の表現になる。 この表現は、最後の層の重みを通して出力ニューロンのシナプス後和にマッピングされる。 具体的には、提案するパーセプトロン理論は、後シナプス和の平均ベクトルと共分散行列を用いて、異なるクラスに対する分類精度を計算する。 シナプス後和の分布の最初の2つの瞬間は、ネットワーク全体の性能を正確に予測することができる。

Many neural network models have been successful at classification problems, but their operation is still treated as a black box. Here, we developed a theory for one-layer perceptrons that can predict performance on classification tasks. This theory is a generalization of an existing theory for predicting the performance of Echo State Networks and connectionist models for symbolic reasoning known as Vector Symbolic Architectures. In this paper, we first show that the proposed perceptron theory can predict the performance of Echo State Networks, which could not be described by the previous theory. Second, we apply our perceptron theory to the last layers of shallow randomly connected and deep multi-layer networks. The full theory is based on Gaussian statistics, but it is analytically intractable. We explore numerical methods to predict network performance for problems with a small number of classes. For problems with a large number of classes, we investigate stochastic sampling methods and a tractable approximation to the full theory. The quality of predictions is assessed in three experimental settings, using reservoir computing networks on a memorization task, shallow randomly connected networks on a collection of classification datasets, and deep convolutional networks with the ImageNet dataset. This study offers a simple, bipartite approach to understand deep neural networks: the input is encoded by the last-but-one layers into a high-dimensional representation. This representation is mapped through the weights of the last layer into the postsynaptic sums of the output neurons. Specifically, the proposed perceptron theory uses the mean vector and covariance matrix of the postsynaptic sums to compute classification accuracies for the different classes. The first two moments of the distribution of the postsynaptic sums can predict the overall network performance quite accurately.
翻訳日:2021-05-08 19:30:13 公開日:2020-12-14
# (参考訳) ベイズ最適化-多元帯域問題

Bayesian Optimization -- Multi-Armed Bandit Problem ( http://arxiv.org/abs/2012.07885v1 )

ライセンス: CC BY 4.0
Abhilash Nandy, Chandan Kumar, Deepak Mewada, Soumya Sharma(参考訳) 本稿では,マルチアーメッド帯域問題に着目したベイズ最適化手法について検討する。 ベイズ最適化のためのPortfolio Allocation」という論文の助けを借りる。 ベイズ最適化を論じた論文において,取得機能とポートフォリオ戦略の種類に関する小文献調査を行った。 また、実験を再現し、調査結果を報告し、論文の結果と比較した。 コードリンク:https://colab.research.google.com/drive/1GZ14klEDoe3dcBeZKo5l8qrKf_GmBDn?usp=sharing#scrollTo=XgIBau3O45_V

In this report, we survey Bayesian Optimization methods focussed on the Multi-Armed Bandit Problem. We take the help of the paper "Portfolio Allocation for Bayesian Optimization". We report a small literature survey on the acquisition functions and the types of portfolio strategies used in papers discussing Bayesian Optimization. We also replicate the experiments and report our findings and compare them to the results in the paper. Code link: https://colab.research.google.com/drive/1GZ14klEDoe3dcBeZKo5l8qqrKf_GmBDn?usp=sharing#scrollTo=XgIBau3O45_V.
翻訳日:2021-05-08 19:12:42 公開日:2020-12-14
# (参考訳) learning to stop: dynamic simulation monte-carlo tree search

Learning to Stop: Dynamic Simulation Monte-Carlo Tree Search ( http://arxiv.org/abs/2012.07910v1 )

ライセンス: CC BY-SA 4.0
Li-Cheng Lan, Meng-Yu Tsai, Ti-Rong Wu, I-Chen Wu, Cho-Jui Hsieh(参考訳) モンテカルロ木探索(MCTS)は、ディープニューラルネットワーク(DNN)と組み合わせることで、GoやAtariゲームのような多くのドメインで最先端の結果を得た。 より多くのシミュレーションが実行されると、MCTSは高いパフォーマンスを達成するが、大量のCPUとGPUリソースを必要とする。 しかし、全ての州が、エージェントが発見できる最良の行動を特定するのに長い時間を必要とするわけではない。 例えば、19x19 GoとNoGoでは、半数以上の州で、DNNが予測する最良のアクションは、2分間検索しても変わっていないことが分かりました。 これは、現在の検索結果に自信がある場合に、早期に検索を止めることができれば、かなりの量のリソースを節約できることを意味します。 本稿では,現在の検索状況の不確かさを予測し,その結果を用いて検索をやめるべきかどうかを判断することで,この目標を達成することを提案する。 我々のアルゴリズムであるDynamic Simulation MCTS (DS-MCTS)では、AlphaZeroがトレーニングしたNoGoエージェントを2.5倍高速化し、同様の勝利率を維持することができる。 また,同じ平均シミュレーション数で,本手法は元のプログラムに対して61%の勝利率を達成することができる。

Monte Carlo tree search (MCTS) has achieved state-of-the-art results in many domains such as Go and Atari games when combining with deep neural networks (DNNs). When more simulations are executed, MCTS can achieve higher performance but also requires enormous amounts of CPU and GPU resources. However, not all states require a long searching time to identify the best action that the agent can find. For example, in 19x19 Go and NoGo, we found that for more than half of the states, the best action predicted by DNN remains unchanged even after searching 2 minutes. This implies that a significant amount of resources can be saved if we are able to stop the searching earlier when we are confident with the current searching result. In this paper, we propose to achieve this goal by predicting the uncertainty of the current searching status and use the result to decide whether we should stop searching. With our algorithm, called Dynamic Simulation MCTS (DS-MCTS), we can speed up a NoGo agent trained by AlphaZero 2.5 times faster while maintaining a similar winning rate. Also, under the same average simulation count, our method can achieve a 61% winning rate against the original program.
翻訳日:2021-05-08 19:02:57 公開日:2020-12-14
# (参考訳) 物理的な不可避関数が生体計測と出会うとき

When Physical Unclonable Function Meets Biometrics ( http://arxiv.org/abs/2012.07916v1 )

ライセンス: CC BY 4.0
Kavya Dayananda and Nima Karimian(参考訳) 新型コロナウイルス(covid-19)のパンデミックが世界を席巻する中、医療システムは再編成され、eヘルスの概念が受け入れられる可能性が高まる。 ウェアラブルデバイスは、セキュリティやプライバシーのリスクにさらされているユーザーから機密情報を受け取ることが多い。 さらに、ユーザーは製造プロセスとベンダーのストレージの間に偽装されることを常に懸念していた。 したがって、個人情報の確保は重要な義務となっているだけでなく、デバイス検証も課題となっている。 生体認証と物理的に実行不能な機能(puf)に対処するためには、ユーザーのセキュリティとプライバシーを緩和する必要がある。 心電図(ecg)ベースのバイオメトリックスは、患者の認証や患者のバイタルサインの監視を可能にするため、バイオメトリックスで広く普及している。 しかし、近年、ECGバイオメトリックシステムの脆弱性を研究し始め、スプーフィングの問題に対処しようと試みている。 さらに、ほとんどのウェアラブルはCPUとメモリで有効になっている。 これにより、揮発性メモリベース(NVM)PUFをデバイスに簡単に配置でき、偽造を避けることができる。 しかし、PUFの非閉塞性に多くの研究が挑戦した。 したがって、これらの攻撃に対する慎重な研究は、ニーズに対応するのに十分である。 本稿では,バイオメトリックスを活用したハードウェアセキュリティに基づく最新技術開発論文を包括的に研究することを目的とする。

As the Covid-19 pandemic grips the world, healthcare systems are being reshaped, where the e-health concepts become more likely to be accepted. Wearable devices often carry sensitive information from users which are exposed to security and privacy risks. Moreover, users have always had the concern of being counterfeited between the fabrication process and vendors' storage. Hence, not only securing personal data is becoming a crucial obligation, but also device verification is another challenge. To address biometrics authentication and physically unclonable functions (PUFs) need to be put in place to mitigate the security and privacy of the users. Among biometrics modalities, Electrocardiogram (ECG) based biometric has become popular as it can authenticate patients and monitor the patient's vital signs. However, researchers have recently started to study the vulnerabilities of the ECG biometric systems and tried to address the issues of spoofing. Moreover, most of the wearable is enabled with CPU and memories. Thus, volatile memory-based (NVM) PUF can be easily placed in the device to avoid counterfeit. However, many research challenged the unclonability characteristics of PUFs. Thus, a careful study on these attacks should be sufficient to address the need. In this paper, our aim is to provide a comprehensive study on the state-of-the-art developments papers based on biometrics enabled hardware security.
翻訳日:2021-05-08 18:44:17 公開日:2020-12-14
# (参考訳) Spine rectification と Anatomically-Constrained Optimization によるCTのVertebra 局在と同定

Automatic Vertebra Localization and Identification in CT by Spine Rectification and Anatomically-constrained Optimization ( http://arxiv.org/abs/2012.07947v1 )

ライセンス: CC BY 4.0
Fakai Wang, Kang Zheng, Le Lu, Jing Xiao, Min Wu and Shun Miao(参考訳) 脊椎疾患の診断と手術計画の多くの臨床応用において、正確な脊椎局在と同定が必要である。 しかし、この課題において重要な課題は、非常に異なる病態(椎骨圧迫骨折、スコリオーシス、椎骨固定など)とイメージング条件(視野の制限や金属ストレークアーティファクトなど)によってもたらされる。 本稿では,脊椎の解剖学的知識を効果的に活用し,脊椎の局在と同定を容易にする頑健で正確な方法を提案する。 キーポイント局在モデルは、脊椎中心の活性化マップを作成するために訓練される。 その後、脊椎中心線に沿って再サンプリングされ、脊椎で再現された活性化マップを生成し、さらに1次元の活性化信号に集約される。 その後、解剖学的に制約された最適化モジュールを導入し、連続する椎骨指数の椎骨と硬質との距離を調節するソフト制約の下で最適な椎骨中心を共同で探索する。 病理組織学的CT画像302例のメジャーな公開ベンチマークで評価すると,本手法では美術品の識別状況(id)を報告する。 97.4%の比率で、94.7%のIDで最高の競合方法を上回っている。 相対IDを減少させます 誤差率は半分です。

Accurate vertebra localization and identification are required in many clinical applications of spine disorder diagnosis and surgery planning. However, significant challenges are posed in this task by highly varying pathologies (such as vertebral compression fracture, scoliosis, and vertebral fixation) and imaging conditions (such as limited field of view and metal streak artifacts). This paper proposes a robust and accurate method that effectively exploits the anatomical knowledge of the spine to facilitate vertebra localization and identification. A key point localization model is trained to produce activation maps of vertebra centers. They are then re-sampled along the spine centerline to produce spine-rectified activation maps, which are further aggregated into 1-D activation signals. Following this, an anatomically-constrained optimization module is introduced to jointly search for the optimal vertebra centers under a soft constraint that regulates the distance between vertebrae and a hard constraint on the consecutive vertebra indices. When being evaluated on a major public benchmark of 302 highly pathological CT images, the proposed method reports the state of the art identification (id.) rate of 97.4%, and outperforms the best competing method of 94.7% id. rate by reducing the relative id. error rate by half.
翻訳日:2021-05-08 18:34:01 公開日:2020-12-14
# (参考訳) 多発性硬化症病変分節に対する深部学習法のより広範な一般化に向けて

Towards broader generalization of deep learning methods for multiple sclerosis lesion segmentation ( http://arxiv.org/abs/2012.07950v1 )

ライセンス: CC BY 4.0
Reda Abdellah Kamraoui, Vinh-Thong Ta, Thomas Tourdias, Boris Mansencal, Jos\'e V Manjon, Pierrick Coup\'e(参考訳) 近年,畳み込みニューラルネットワーク(CNN)を用いたセグメンテーション法は,自動多発性硬化症(MS)セグメンテーションにおいて有望な性能を示した。 これらの手法は、人間の専門家を制御された評価条件で上回っている。 しかし、高度に制御されたデータセットでうまく機能するように訓練された最先端のアプローチは、見えないデータセットからの臨床データを一般化することができない。 セグメンテーションの精度をさらに向上させる代わりに、ドメインシフトに頑健な新しい手法を提案し、DeepLesionBrain (DLB) と呼ばれる未知のデータセットでうまく機能する。 この一般化特性は3つの主要な貢献から生じる。 まず、DLBはコンパクトな3D CNNの大規模なアンサンブルに基づいている。 このアンサンブル戦略は、いくつかの個々のネットワークの一般化失敗のリスクにもかかわらず、堅牢な予測を保証する。 第2に、DLBは、トレーニングデータ特異性(例えば、取得プロトコル)への依存性を低減するために、新しい画像品質データ拡張を含む。 最後に,MS病変のより一般化可能な表現を学習するために,階層的特殊化学習(HSL)を提案する。 hslは脳全体にわたってジェネリックネットワークを事前トレーニングし、その重みを局所的な特殊なネットワークへの初期化として使用する。 これにより、DLBはグローバル画像レベルで抽出された一般的な特徴とローカル画像レベルで抽出された特定の特徴の両方を学習する。 本論文の発行時点では、DLBはISBI Challengeの公開方法のトップ3の1つであり、利用可能なモダリティの半分しか使用していない。 DLBの一般化は、MSSEG'16、ISBIチャレンジ、社内データセットのクロスデータセット実験において、他の最先端のアプローチと比較された。 DLBは従来の技術よりもセグメンテーション性能と一般化を改善し,臨床応用に適した堅牢なアプローチを提案する。

Recently, segmentation methods based on Convolutional Neural Networks (CNNs) showed promising performance in automatic Multiple Sclerosis (MS) lesions segmentation. These techniques have even outperformed human experts in controlled evaluation condition. However state-of-the-art approaches trained to perform well on highly-controlled datasets fail to generalize on clinical data from unseen datasets. Instead of proposing another improvement of the segmentation accuracy, we propose a novel method robust to domain shift and performing well on unseen datasets, called DeepLesionBrain (DLB). This generalization property results from three main contributions. First, DLB is based on a large ensemble of compact 3D CNNs. This ensemble strategy ensures a robust prediction despite the risk of generalization failure of some individual networks. Second, DLB includes a new image quality data augmentation to reduce dependency to training data specificity (e.g., acquisition protocol). Finally, to learn a more generalizable representation of MS lesions, we propose a hierarchical specialization learning (HSL). HSL is performed by pre-training a generic network over the whole brain, before using its weights as initialization to locally specialized networks. By this end, DLB learns both generic features extracted at global image level and specific features extracted at local image level. At the time of publishing this paper, DLB is among the Top 3 performing published methods on ISBI Challenge while using only half of the available modalities. DLB generalization has also been compared to other state-of-the-art approaches, during cross-dataset experiments on MSSEG'16, ISBI challenge, and in-house datasets. DLB improves the segmentation performance and generalization over classical techniques, and thus proposes a robust approach better suited for clinical practice.
翻訳日:2021-05-08 18:22:31 公開日:2020-12-14
# (参考訳) Odd-One-Out Representation Learning

Odd-One-Out Representation Learning ( http://arxiv.org/abs/2012.07966v1 )

ライセンス: CC BY 4.0
Salman Mohammadi, Anders Kirk Uhrenholt and Bj{\o}rn Sand Jensen(参考訳) 実世界の問題に対する表現学習の効果的な応用は、有用な表現を学習するための技術と表現の性質を評価するための堅牢な方法の両方を必要とする。 非教師付き表現学習における最近の研究は、非教師付き表現学習アプローチが完全に教師付き歪曲尺度に依存していることを示している。 現実世界の多くのケースでは、接地的真理要因は収集に費用がかかるか、知覚などのモデル化が難しい。 本稿では,下流の難解な抽象的視覚的推論タスクに対して高い相関を観測することにより,オッズワンアウト観察に基づく弱教師付き下流タスクがモデル選択に適していることを示す。 また、このタスクで高い性能を発揮できる、目覚ましいメトリック学習型VAEモデルが、他の標準教師なしおよび弱教師付きアンタングルメントモデルよりも優れていることを示す。

The effective application of representation learning to real-world problems requires both techniques for learning useful representations, and also robust ways to evaluate properties of representations. Recent work in disentangled representation learning has shown that unsupervised representation learning approaches rely on fully supervised disentanglement metrics, which assume access to labels for ground-truth factors of variation. In many real-world cases ground-truth factors are expensive to collect, or difficult to model, such as for perception. Here we empirically show that a weakly-supervised downstream task based on odd-one-out observations is suitable for model selection by observing high correlation on a difficult downstream abstract visual reasoning task. We also show that a bespoke metric-learning VAE model which performs highly on this task also out-performs other standard unsupervised and a weakly-supervised disentanglement model across several metrics.
翻訳日:2021-05-08 17:56:58 公開日:2020-12-14
# (参考訳) fastenet:高速鉄道用ファスナー検出器

FasteNet: A Fast Railway Fastener Detector ( http://arxiv.org/abs/2012.07968v1 )

ライセンス: CC BY 4.0
Jun Jet Tai, Mauro S. Innocente, Owais Mehmood(参考訳) 本研究では,新しい高速鉄道ファスナー検出器を提案する。 この完全な畳み込みネットワークはFasteNetと呼ばれ、バウンディングボックスの概念を先導し、予測されたサリエンシマップ上で直接検出を行う。 Fastenetは、変換された畳み込みと接続をスキップし、ネットワークの効果的な受容フィールドは、ファスナーの平均サイズよりも1.5$\times$大きいので、出力解像度を犠牲にすることなく、高い信頼性で予測できる。 さらに、サリエンシマップのアプローチにより、ネットワークはファスナー1本あたり30回までのファスナーの存在を投票し、予測精度を高めることができる。 FastenetはNvidia GTX 1080上で110 FPSで動作でき、1600$\times$512の入力を1枚あたり平均14ファスナーで受信できる。 https://github.com/jjshoots/dl\_fastenet.git

In this work, a novel high-speed railway fastener detector is introduced. This fully convolutional network, dubbed FasteNet, foregoes the notion of bounding boxes and performs detection directly on a predicted saliency map. Fastenet uses transposed convolutions and skip connections, the effective receptive field of the network is 1.5$\times$ larger than the average size of a fastener, enabling the network to make predictions with high confidence, without sacrificing output resolution. In addition, due to the saliency map approach, the network is able to vote for the presence of a fastener up to 30 times per fastener, boosting prediction accuracy. Fastenet is capable of running at 110 FPS on an Nvidia GTX 1080, while taking in inputs of 1600$\times$512 with an average of 14 fasteners per image. Our source is open here: https://github.com/jjshoots/DL\_FasteNet.git
翻訳日:2021-05-08 17:46:08 公開日:2020-12-14
# (参考訳) 効率的なロボット操作のためのフレームワーク

A Framework for Efficient Robotic Manipulation ( http://arxiv.org/abs/2012.07975v1 )

ライセンス: CC BY 4.0
Albert Zhan, Philip Zhao, Lerrel Pinto, Pieter Abbeel, Michael Laskin(参考訳) データ効率のよい視覚的観察から操作ポリシーの学習は、実ロボット学習において顕著な課題である。 深層強化学習(RL)アルゴリズムは、視覚的な観察から成功した学習方針を示す一方で、効果的な政策を学ぶためには、現実のサンプルを非現実的に必要としている。 しかし、教師なし表現学習とデータ拡張の最近の進歩は、共通のシミュレーションベンチマークにおけるrlポリシーのトレーニングのサンプル効率を大幅に改善した。 これらの進歩に基づいて、データ強化と教師なし学習を利用して、疎報酬を伴うロボット操作ポリシーの極めて効率的なトレーニングを実現するための、効率的なロボット操作フレームワーク(FERM)を提案する。 わずか10回のデモで、ひとつのロボットアームが、手を伸ばし、拾い、移動し、大きな物体を引っ張り、スイッチをひっくり返し、実際のトレーニング時間に15~50分で引き出しを開くといった、スパース・リワード操作のポリシーを、ピクセルから学べることがわかった。 プロジェクトウェブサイト -https://sites.google.com/view/efficient-robotic-manipulation.com にビデオ、コード、追加情報が含まれている。

Data-efficient learning of manipulation policies from visual observations is an outstanding challenge for real-robot learning. While deep reinforcement learning (RL) algorithms have shown success learning policies from visual observations, they still require an impractical number of real-world data samples to learn effective policies. However, recent advances in unsupervised representation learning and data augmentation significantly improved the sample efficiency of training RL policies on common simulated benchmarks. Building on these advances, we present a Framework for Efficient Robotic Manipulation (FERM) that utilizes data augmentation and unsupervised learning to achieve extremely sample-efficient training of robotic manipulation policies with sparse rewards. We show that, given only 10 demonstrations, a single robotic arm can learn sparse-reward manipulation policies from pixels, such as reaching, picking, moving, pulling a large object, flipping a switch, and opening a drawer in just 15-50 minutes of real-world training time. We include videos, code, and additional information on the project website -- https://sites.google.com/view/efficient-robotic-manipulation.
翻訳日:2021-05-08 17:01:05 公開日:2020-12-14
# (参考訳) モデル選択が帰属語連想に及ぼす影響--静的単語埋め込みの半教師あり分析

Model Choices Influence Attributive Word Associations: A Semi-supervised Analysis of Static Word Embeddings ( http://arxiv.org/abs/2012.07978v1 )

ライセンス: CC BY 4.0
Geetanjali Bihani, Julia Taylor Rayz(参考訳) 静的単語埋め込みは、下流のNLPタスクで広く利用される単語関連を符号化する。 先行研究ではバイアスや語彙の規則性の観点から単語連想の性質について論じてきたが、埋め込み訓練手順に基づく単語連想のばらつきはいまだに曖昧である。 本研究の目的は,5つの静的単語埋め込みアーキテクチャにおける帰属的単語関連性を評価し,モデルアーキテクチャの選択,文脈学習のフレーバー,学習コーパスの影響を分析することである。 本手法では, 半教師付きクラスタリング手法を用いて, 単語埋め込み特徴に基づく固有名詞・形容詞のクラスタ化を行い, 認識バイアスを生じさせることなく, 組込み空間に形成された帰属語連想の基盤を明らかにする。 その結果, 組込み学習における文脈学習のフレーバーの選択は, 学習コーパスにおける単語の関連性や単語の組込み感に影響を及ぼすことが明らかとなった。 さらに、同一コーパス上で訓練しても、異なる単語埋め込みモデルにまたがる符号化語アソシエーションにおいて、モデル間格差とモデル内類似性が顕著であることが実証的に示され、組込みアーキテクチャ毎に組込み空間が作られるように、特定のパターンを表現できることが示されている。

Static word embeddings encode word associations, extensively utilized in downstream NLP tasks. Although prior studies have discussed the nature of such word associations in terms of biases and lexical regularities captured, the variation in word associations based on the embedding training procedure remains in obscurity. This work aims to address this gap by assessing attributive word associations across five different static word embedding architectures, analyzing the impact of the choice of the model architecture, context learning flavor and training corpora. Our approach utilizes a semi-supervised clustering method to cluster annotated proper nouns and adjectives, based on their word embedding features, revealing underlying attributive word associations formed in the embedding space, without introducing any confirmation bias. Our results reveal that the choice of the context learning flavor during embedding training (CBOW vs skip-gram) impacts the word association distinguishability and word embeddings' sensitivity to deviations in the training corpora. Moreover, it is empirically shown that even when trained over the same corpora, there is significant inter-model disparity and intra-model similarity in the encoded word associations across different word embedding models, portraying specific patterns in the way the embedding space is created for each embedding architecture.
翻訳日:2021-05-08 16:37:45 公開日:2020-12-14
# (参考訳) 計算機クラスタジョブの成果予測学習のための特徴選択と意思決定支援への応用

Feature Selection for Learning to Predict Outcomes of Compute Cluster Jobs with Application to Decision Support ( http://arxiv.org/abs/2012.07982v1 )

ライセンス: CC BY 4.0
Adedolapo Okanlawon, Huichen Yang, Avishek Bose, William Hsu, Dan Andresen, Mohammed Tanash(参考訳) 我々は,高性能コンピューティング(HPC)クラスタのためのSlurm Workload Managerから,機械学習フレームワークとデータマイニングのための新しいテストベッドを提案する。 ユーザがCPUとメモリの割り当てを増やして失敗したジョブを再送信するか、あるいはコンピューティングクラウドに移行するかを決めるのを助ける。 このタスクは教師付き分類と回帰学習、特に強化学習に適した逐次問題解決の両方としてキャストされた。 関連する機能の選択は、トレーニングの精度を改善し、トレーニング時間を短縮し、予測と推論を説明するインテリジェントなシステムを備えた、より理解しやすいモデルを生成する。 我々は,HPCジョブのシンプルなLinuxユーティリティ(Slurm)データセットに基づいて,線形回帰,ラッソ,リッジ回帰の3つの異なる手法を用いて訓練された教師付き学習モデルを提案する。 私たちのデータセットは失敗するHPCジョブと成功したジョブの両方を表しています。 本モデルは, 95\%のr^2を99\%精度で達成した。 cpu特性とメモリ特性の両方の予測器を5つ同定した。

We present a machine learning framework and a new test bed for data mining from the Slurm Workload Manager for high-performance computing (HPC) clusters. The focus was to find a method for selecting features to support decisions: helping users decide whether to resubmit failed jobs with boosted CPU and memory allocations or migrate them to a computing cloud. This task was cast as both supervised classification and regression learning, specifically, sequential problem solving suitable for reinforcement learning. Selecting relevant features can improve training accuracy, reduce training time, and produce a more comprehensible model, with an intelligent system that can explain predictions and inferences. We present a supervised learning model trained on a Simple Linux Utility for Resource Management (Slurm) data set of HPC jobs using three different techniques for selecting features: linear regression, lasso, and ridge regression. Our data set represented both HPC jobs that failed and those that succeeded, so our model was reliable, less likely to overfit, and generalizable. Our model achieved an R^2 of 95\% with 99\% accuracy. We identified five predictors for both CPU and memory properties.
翻訳日:2021-05-08 16:25:46 公開日:2020-12-14
# (参考訳) 異常検出のためのGANアンサンブル

GAN Ensemble for Anomaly Detection ( http://arxiv.org/abs/2012.07988v1 )

ライセンス: CC BY 4.0
Xu Han, Xiaohui Chen, Li-Ping Liu(参考訳) 教師なし学習問題として定式化された場合、異常検出は正規データの分布を学習するモデルを必要とすることが多い。 以前の研究では、GAN(Generative Adversarial Networks)を異常検出タスクに適用し、これらのモデルの性能を示す。 GANアンサンブルが生成タスクにおいて1つのGANを上回り、異常検出のためのGANアンサンブルを構築することを提案する。 提案手法では, ジェネレータ群と識別器群が共に訓練され, それぞれのジェネレータが複数の識別器からフィードバックを受け, 逆も受けられる。 単一のGANと比較して、GANアンサンブルは通常のデータの分布をより良くモデル化し、異常を検出することができる。 GAN と GAN アンサンブルの理論的解析は、異常検出における GAN 識別器の役割を説明する。 実験では, 4種類のベースモデルから構成したアンサンブルを評価し, これらのアンサンブルが, 異常検出の一連のタスクにおいて, 単一モデルよりも明らかに優れていることを示す。

When formulated as an unsupervised learning problem, anomaly detection often requires a model to learn the distribution of normal data. Previous works apply Generative Adversarial Networks (GANs) to anomaly detection tasks and show good performances from these models. Motivated by the observation that GAN ensembles often outperform single GANs in generation tasks, we propose to construct GAN ensembles for anomaly detection. In the proposed method, a group of generators and a group of discriminators are trained together, so every generator gets feedback from multiple discriminators, and vice versa. Compared to a single GAN, a GAN ensemble can better model the distribution of normal data and thus better detect anomalies. Our theoretical analysis of GANs and GAN ensembles explains the role of a GAN discriminator in anomaly detection. In the empirical study, we evaluate ensembles constructed from four types of base models, and the results show that these ensembles clearly outperform single models in a series of tasks of anomaly detection.
翻訳日:2021-05-08 16:18:40 公開日:2020-12-14
# (参考訳) 対数バイトレベル言語モデルを用いた深層学習型静的マルウェア検出器に対する二元的ブラックボックス侵入攻撃

Binary Black-box Evasion Attacks Against Deep Learning-based Static Malware Detectors with Adversarial Byte-Level Language Model ( http://arxiv.org/abs/2012.07994v1 )

ライセンス: CC BY 4.0
Mohammadreza Ebrahimi, Ning Zhang, James Hu, Muhammad Taqi Raza, Hsinchun Chen(参考訳) マルウェア防止エンジンは悪質なソフトウェアに対する最初の防衛線である。 広く使われているが、機能エンジニアリングベースのアンチマルウェアエンジンは、目に見えない(ゼロデイ)攻撃に弱い。 近年、ディープラーニングに基づく静的マルウェア検出装置は、特徴工学や動的解析を必要とせず、目に見えない攻撃を特定することに成功した。 しかし、これらの検出器は敵の例として知られるわずかな摂動を伴うマルウェアの変種に感受性がある。 効果的な敵の例を生成することは、そのようなシステムの脆弱性を明らかにするのに有用である。 現在の攻撃の方法は、ターゲットとするマルウェア対策モデルの仕様、マルウェア対策の信頼性スコア、非現実的あるいは高価である動的マルウェア分析のいずれかにアクセスする必要がある。 我々は,これらの制約なしに回避マルウェアを自動生成する,新しいディープラーニングベースのアプローチであるMalRNNを提案する。 本手法では, マルウェアのバイナリを増大させるために, 生成配列からシーケンスへの繰り返しニューラルネットワークを用いて言語モデルを学習する。 MalRNNは、最近の3つのディープラーニングベースのマルウェア検出を効果的に回避し、現在のベンチマーク手法より優れている。 マルウェアのカテゴリが8つある実際のデータセットにMalRNNを適用する際の発見について論じる。

Anti-malware engines are the first line of defense against malicious software. While widely used, feature engineering-based anti-malware engines are vulnerable to unseen (zero-day) attacks. Recently, deep learning-based static anti-malware detectors have achieved success in identifying unseen attacks without requiring feature engineering and dynamic analysis. However, these detectors are susceptible to malware variants with slight perturbations, known as adversarial examples. Generating effective adversarial examples is useful to reveal the vulnerabilities of such systems. Current methods for launching such attacks require accessing either the specifications of the targeted anti-malware model, the confidence score of the anti-malware response, or dynamic malware analysis, which are either unrealistic or expensive. We propose MalRNN, a novel deep learning-based approach to automatically generate evasive malware variants without any of these restrictions. Our approach features an adversarial example generation process, which learns a language model via a generative sequence-to-sequence recurrent neural network to augment malware binaries. MalRNN effectively evades three recent deep learning-based malware detectors and outperforms current benchmark methods. Findings from applying our MalRNN on a real dataset with eight malware categories are discussed.
翻訳日:2021-05-08 16:01:21 公開日:2020-12-14
# (参考訳) DeepGamble: 多層インスタンスセグメンテーションと属性検出によるリアルタイムプレーヤーインテリジェンスのアンロックを目指す

DeepGamble: Towards unlocking real-time player intelligence using multi-layer instance segmentation and attribute detection ( http://arxiv.org/abs/2012.08011v1 )

ライセンス: CC BY 4.0
Danish Syed, Naman Gandhi, Arushi Arora and Nilesh Kadam(参考訳) 毎年、ゲーム業界はマーケティングの再投資に約150億ドルを費やしている。 しかし、この金額は選手の技量や運を考慮せずに消費される。 カジノでは、熟練していないプレイヤーは熟練したプレイヤーの約4倍の収益を得ることができる。 本稿では,Mask R-CNNモデルの拡張に基づくビデオ認識システムについて述べる。 本システムは,リアルタイムにカードやプレイヤーの賭けを検知してブラックジャックのゲームをデジタル化し,正確なプレイヤーのペルソナを作成するための意思決定を行う。 提案する教師あり学習手法は,カジノテーブルの2つの視点から画像を取得する3段階の専用パイプラインと,提案領域のマスクを生成するインスタンスセグメンテーションから構成される。 これらの予測マスクと微分特徴は、ゲームプレイ理解を同化するために次のステージに渡される画像属性を分類するために使用される。 本モデルでは,900例の学習例を用いたトランスファー学習による学習環境において,主ベット検出に95%,カード検出に97%の精度が得られた。 我々のアプローチは一般化可能でスケーラブルであり、様々なゲームシナリオやテストデータにおいて有望な結果を示す。 このような粒度のデータは、プレイヤーの最適な戦略からの逸脱を理解するのに役立ち、プレイヤーのスキルをゲームの運から切り離すのに役立った。 また,プレイヤーの賭けパターンとデッキのスケールカウントを関連づけることで,カードカウントの可能性を評価する。 このようなシステムによりカジノは不正行為を警告し、各プレイヤーの予測パーソナライズされた利益率を算出し、マーケティング再投資決定を調整できる。

Annually the gaming industry spends approximately $15 billion in marketing reinvestment. However, this amount is spent without any consideration for the skill and luck of the player. For a casino, an unskilled player could fetch ~4 times more revenue than a skilled player. This paper describes a video recognition system that is based on an extension of the Mask R-CNN model. Our system digitizes the game of blackjack by detecting cards and player bets in real-time and processes decisions they took in order to create accurate player personas. Our proposed supervised learning approach consists of a specialized three-stage pipeline that takes images from two viewpoints of the casino table and does instance segmentation to generate masks on proposed regions of interest. These predicted masks along with derivative features are used to classify image attributes that are passed onto the next stage to assimilate the gameplay understanding. Our end-to-end model yields an accuracy of ~95% for the main bet detection and ~97% for card detection in a controlled environment trained using transfer learning approach with 900 training examples. Our approach is generalizable and scalable and shows promising results in varied gaming scenarios and test data. Such granular level gathered data, helped in understanding player's deviation from optimum strategy and thereby separate the skill of the player from the luck of the game. Our system also assesses the likelihood of card counting by correlating the player's betting pattern to the deck's scaled count. Such a system lets casinos flag fraudulent activity and calculate expected personalized profitability for each player and tailor their marketing reinvestment decisions.
翻訳日:2021-05-08 15:33:14 公開日:2020-12-14
# Vilio:Hateful Memesに適用された最先端のVisio-Linguistic Model

Vilio: State-of-the-art Visio-Linguistic Models applied to Hateful Memes ( http://arxiv.org/abs/2012.07788v1 )

ライセンス: Link先を確認
Niklas Muennighoff(参考訳) この研究は、最先端のビリオ言語モデルの実装であるVilioとそのHateful Memes Datasetへの適用について紹介する。 実装されたモデルは、統一されたコードベースに適合し、パフォーマンスを改善するために変更されている。 Vilioの目標は、視覚言語の問題にユーザフレンドリーな出発点を提供することだ。 Vilioで実装された5つの異なるV+Lモデルのアンサンブルは、3300人の参加者のうち2位を獲得した。 コードはhttps://github.com/muennighoff/vilioで入手できる。

This work presents Vilio, an implementation of state-of-the-art visio-linguistic models and their application to the Hateful Memes Dataset. The implemented models have been fitted into a uniform code-base and altered to yield better performance. The goal of Vilio is to provide a user-friendly starting point for any visio-linguistic problem. An ensemble of 5 different V+L models implemented in Vilio achieves 2nd place in the Hateful Memes Challenge out of 3,300 participants. The code is available at https://github.com/Muennighoff/vilio.
翻訳日:2021-05-08 14:45:35 公開日:2020-12-14
# Vartani Spellcheck --BERTとLevenshtein距離を用いたOCR生成ヒンディー語テキストの自動文脈知覚的スペル補正

Vartani Spellcheck -- Automatic Context-Sensitive Spelling Correction of OCR-generated Hindi Text Using BERT and Levenshtein Distance ( http://arxiv.org/abs/2012.07652v1 )

ライセンス: Link先を確認
Aditya Pal, Abhijit Mustafi(参考訳) ヒンディー語のような非常に屈折率の高い言語でテキストを生成する従来の光学式文字認識(ocr)システムは、広いアルファベットセット、複合文字、単語のセグメンテーションの困難により、精度が低くなる傾向がある。 これらのocrシステムで生成されたテキストを後処理することで、自動スペルエラー検出とコンテキストセンシティブエラー補正が精度を向上させる。 ヒンディー語スペルの誤り訂正のための言語モデルの多くは文脈自由である。 本稿では,編集距離(edit distance)として知られるレベンシュテイン距離アルゴリズム(rebenshtein distance algorithm)とともに,最先端トランスフォーマー(bert)を用いたヒンズー語テキストの綴り補正手法であるvartani spellcheck(vartani spellcheck)を提案する。 検索辞書と文脈に基づく名前付きエンティティ認識(ner)を用いて,テキスト中のスペル誤りの検出を行う。 提案手法は,ヒンディー・エピック・ラマーヤナで広く使用されているテッセラクトOCRによって生成された大量のテキストのコーパスで検証されている。 81%の精度で, 従来確立されていたヒンディー語における文脈依存的誤り訂正機構よりも有意な改善が認められた。 また,テキストエディタ環境における連続型付け中に,Vartani Spellcheckをオンザフライで自動修正する方法について説明する。

Traditional Optical Character Recognition (OCR) systems that generate text of highly inflectional Indic languages like Hindi tend to suffer from poor accuracy due to a wide alphabet set, compound characters and difficulty in segmenting characters in a word. Automatic spelling error detection and context-sensitive error correction can be used to improve accuracy by post-processing the text generated by these OCR systems. A majority of previously developed language models for error correction of Hindi spelling have been context-free. In this paper, we present Vartani Spellcheck - a context-sensitive approach for spelling correction of Hindi text using a state-of-the-art transformer - BERT in conjunction with the Levenshtein distance algorithm, popularly known as Edit Distance. We use a lookup dictionary and context-based named entity recognition (NER) for detection of possible spelling errors in the text. Our proposed technique has been tested on a large corpus of text generated by the widely used Tesseract OCR on the Hindi epic Ramayana. With an accuracy of 81%, the results show a significant improvement over some of the previously established context-sensitive error correction mechanisms for Hindi. We also explain how Vartani Spellcheck may be used for on-the-fly autocorrect suggestion during continuous typing in a text editor environment.
翻訳日:2021-05-08 14:45:26 公開日:2020-12-14
# 半教師付き複数ショット学習のための反復ラベルクリーニング

Iterative label cleaning for transductive and semi-supervised few-shot learning ( http://arxiv.org/abs/2012.07962v1 )

ライセンス: Link先を確認
Michalis Lazarou, Yannis Avrithis, Tania Stathaki(参考訳) わずかなショット学習は、新しいタスクが監督とデータの両方を制限することで解決されるような、学習表現と知識の獲得にかかっている。 トランスダクティブ推論(Transductive Inference)ではテストセット全体が同時に利用可能になり、半教師付き学習ではラベルなしのデータも利用可能になる。 これらの問題は、新しいタスクにおける表現の適応がほとんどあるいは全くないため、密接に関連している。 これら2つの設定に着目して,ラベル付きおよび未ラベル付きデータ分布の多様体構造を利用して擬似ラベルを予測し,クラス間のバランスを保ちながら,最小容量の分類器の損失値分布を用いてクリーンなラベルを選択するアルゴリズムを導入し,擬似ラベルの品質を反復的に改善する。 当社のソリューションは,4つのベンチマークデータセット,すなわち \emph{mini} ImageNet, \emph{tiered}ImageNet, CUB, CIFAR-FSに対して,機能領域の事前処理と利用可能なデータの量に対して堅牢であると同時に,新たな技術状況を設定する。

Few-shot learning amounts to learning representations and acquiring knowledge such that novel tasks may be solved with both supervision and data being limited. Improved performance is possible by transductive inference, where the entire test set is available concurrently, and semi-supervised learning, where more unlabeled data is available. These problems are closely related because there is little or no adaptation of the representation in novel tasks. Focusing on these two settings, we introduce a new algorithm that leverages the manifold structure of the labeled and unlabeled data distribution to predict pseudo-labels, while balancing over classes and using the loss value distribution of a limited-capacity classifier to select the cleanest labels, iterately improving the quality of pseudo-labels. Our solution sets new state of the art on four benchmark datasets, namely \emph{mini}ImageNet, \emph{tiered}ImageNet, CUB and CIFAR-FS, while being robust over feature space pre-processing and the quantity of available data.
翻訳日:2021-05-08 14:44:42 公開日:2020-12-14
# LRC-BERT:自然言語理解のための潜在表現コントラスト知識蒸留

LRC-BERT: Latent-representation Contrastive Knowledge Distillation for Natural Language Understanding ( http://arxiv.org/abs/2012.07335v1 )

ライセンス: Link先を確認
Hao Fu, Shaojun Zhou, Qihong Yang, Junjie Tang, Guiquan Liu, Kaikui Liu, Xiaolong Li(参考訳) BERTのような事前学習モデルは、様々な自然言語処理問題において大きな成果を上げている。 しかし、大量のパラメータは大量のメモリと推論時間の消費を必要とするため、エッジデバイスにそれらをデプロイすることは困難である。 本研究では,既存の蒸留法では考慮されていない角距離面から中間層の出力に適合する,対照的な学習に基づく知識蒸留手法であるRC-BERTを提案する。 さらに, 学習段階における勾配摂動に基づくトレーニングアーキテクチャを導入し, 知識蒸留における最初の試みであるRC-BERTの堅牢性を高める。 さらに,中間層の分布特性をよりよく把握するために,全蒸留損失の2段階トレーニング法を設計した。 最後に、GLUE(General Language Understanding Evaluation)ベンチマークで8つのデータセットを検証することにより、提案したRC-BERTの性能が既存の最先端手法を超え、本手法の有効性を実証する。

The pre-training models such as BERT have achieved great results in various natural language processing problems. However, a large number of parameters need significant amounts of memory and the consumption of inference time, which makes it difficult to deploy them on edge devices. In this work, we propose a knowledge distillation method LRC-BERT based on contrastive learning to fit the output of the intermediate layer from the angular distance aspect, which is not considered by the existing distillation methods. Furthermore, we introduce a gradient perturbation-based training architecture in the training phase to increase the robustness of LRC-BERT, which is the first attempt in knowledge distillation. Additionally, in order to better capture the distribution characteristics of the intermediate layer, we design a two-stage training method for the total distillation loss. Finally, by verifying 8 datasets on the General Language Understanding Evaluation (GLUE) benchmark, the performance of the proposed LRC-BERT exceeds the existing state-of-the-art methods, which proves the effectiveness of our method.
翻訳日:2021-05-08 14:43:54 公開日:2020-12-14
# アクションセグメンテーションのための自己スーパービジョンによる時間関係モデリング

Temporal Relational Modeling with Self-Supervision for Action Segmentation ( http://arxiv.org/abs/2012.07508v1 )

ライセンス: Link先を確認
Dong Wang, Di Hu, Xingjian Li, Dejing Dou(参考訳) ビデオにおける時間的関係モデリングは、アクション認識やアクションセグメンテーションといった人間の行動理解に不可欠である。 グラフ畳み込みネットワーク(gcns)は多くのタスクで関係推論において有望な利点を示しているが、長いビデオシーケンスにグラフ畳み込みネットワークを効果的に適用することは依然として課題である。 主な理由は、多数のノード(つまりビデオフレーム)がgcnをビデオ内の時間的関係のキャプチャとモデル化を困難にしているためである。 そこで本稿では,映像フレーム間の時間的関係や依存性を様々な時間範囲でモデル化するために,効率的なgcnモジュールである拡張時相グラフ推論モジュール(dtgrm)を提案する。 特に,各ノードが異なるモーメントのフレームを表現するマルチレベル拡張時間グラフを構築し,時間関係をキャプチャしモデル化する。 さらに,提案モデルの時間的推論能力を高めるために,拡張時間グラフ推論モジュールがビデオ中の間違った時間的関係を発見し,修正することを奨励するために,補助的自己指導タスクを提案する。 当社のdtgrmモデルは,50サラド,ジョージア工科大学エゴセントリックアクティビティ(gtea),朝食データセットの3つの課題データセットにおいて,最先端のアクションセグメンテーションモデルよりも優れています。 コードはhttps://github.com/redwang/DTGRMで公開されている。

Temporal relational modeling in video is essential for human action understanding, such as action recognition and action segmentation. Although Graph Convolution Networks (GCNs) have shown promising advantages in relation reasoning on many tasks, it is still a challenge to apply graph convolution networks on long video sequences effectively. The main reason is that large number of nodes (i.e., video frames) makes GCNs hard to capture and model temporal relations in videos. To tackle this problem, in this paper, we introduce an effective GCN module, Dilated Temporal Graph Reasoning Module (DTGRM), designed to model temporal relations and dependencies between video frames at various time spans. In particular, we capture and model temporal relations via constructing multi-level dilated temporal graphs where the nodes represent frames from different moments in video. Moreover, to enhance temporal reasoning ability of the proposed model, an auxiliary self-supervised task is proposed to encourage the dilated temporal graph reasoning module to find and correct wrong temporal relations in videos. Our DTGRM model outperforms state-of-the-art action segmentation models on three challenging datasets: 50Salads, Georgia Tech Egocentric Activities (GTEA), and the Breakfast dataset. The code is available at https://github.com/redwang/DTGRM.
翻訳日:2021-05-08 14:43:38 公開日:2020-12-14
# グラフニューラルネットワークの表現的ボトルネックを破る

Breaking the Expressive Bottlenecks of Graph Neural Networks ( http://arxiv.org/abs/2012.07219v1 )

ライセンス: Link先を確認
Mingqi Yang, Yanming Shen, Heng Qi, Baocai Yin(参考訳) 近年、グラフニューラルネットワーク(GNN)の表現性を測定するためにWeisfeiler-Lehman(WL)グラフアイソモーフィズムテスト(英語版)が用いられ、グラフ構造を区別する上で、近傍の集約GNNは1-WLテストと同じくらい強力であることが示されている。 また、$k$-WLテスト(k>1$)に類似して提案された改善もある。 しかしながら、これらのGNNの凝集体はWL試験で要求される射出性には程遠いため、強度の差が弱いため、表現的ボトルネックとなる。 本稿では,強力なアグリゲータを探索することで表現性を向上する。 集約係数行列を用いてアグリゲーションを再構成し,さらに強力なアグリゲータやインジェクティブアグリゲータを構築するために,アグリゲーション係数行列の要件を体系的に解析する。 また、隠れた特徴のランクを保存する戦略と見なすことができ、基本アグリゲータが低階変換の特別な場合に対応することを示唆する。 また,集約型GNNと異なる非線型単位を集約前に適用することの必要性も示した。 理論的解析に基づいて,GNN層であるExpandingConvとCombConvを開発した。 実験の結果, 大規模かつ密結合グラフでは, モデルの性能が著しく向上することがわかった。

Recently, the Weisfeiler-Lehman (WL) graph isomorphism test was used to measure the expressiveness of graph neural networks (GNNs), showing that the neighborhood aggregation GNNs were at most as powerful as 1-WL test in distinguishing graph structures. There were also improvements proposed in analogy to $k$-WL test ($k>1$). However, the aggregators in these GNNs are far from injective as required by the WL test, and suffer from weak distinguishing strength, making it become expressive bottlenecks. In this paper, we improve the expressiveness by exploring powerful aggregators. We reformulate aggregation with the corresponding aggregation coefficient matrix, and then systematically analyze the requirements of the aggregation coefficient matrix for building more powerful aggregators and even injective aggregators. It can also be viewed as the strategy for preserving the rank of hidden features, and implies that basic aggregators correspond to a special case of low-rank transformations. We also show the necessity of applying nonlinear units ahead of aggregation, which is different from most aggregation-based GNNs. Based on our theoretical analysis, we develop two GNN layers, ExpandingConv and CombConv. Experimental results show that our models significantly boost performance, especially for large and densely connected graphs.
翻訳日:2021-05-08 14:43:13 公開日:2020-12-14
# オンラインメタ学習のための可変ショット適応

Variable-Shot Adaptation for Online Meta-Learning ( http://arxiv.org/abs/2012.07769v1 )

ライセンス: Link先を確認
Tianhe Yu, Xinyang Geng, Chelsea Finn, Sergey Levine(参考訳) 少数のメタラーニング手法では、以前のタスクのセットから静的データにまたがってメタラーニングすることで、小さな固定された数の例から新しいタスクを学習する問題を考える。 しかし、多くの実世界の環境では、新しいタスクを学ぶのに必要なサンプルの数とメタ学習に必要なデータ量の両方を、その問題を監督の総量を最小限に抑えるものとして見るのが自然である。 このような定式化は、タスクが順番に提示されるシーケンシャルな学習環境で研究することができる。 このオンライン環境でメタラーニングを研究する場合、メタラーニングは標準的な経験的リスク最小化手法のサンプル複雑さと後悔よりも改善できるか? この答えは、大量のメタトレーニングデータを必要とする複雑な二レベル最適化を持つメタ学習アルゴリズムには特に従わない。 この質問に答えるために、私たちは従来のメタ学習アルゴリズムを拡張して、シーケンシャルラーニングで自然に発生する可変ショット設定を扱います。 逐次学習問題において、メタラーニングは全体的なラベルの少ない全タスク集合を解き、標準的な教師付きメソッドに比べて累積性能が向上することを見出した。 これらの結果から,メタラーニングは一連の問題を継続的に学習し,改善する学習システムを構築する上で重要な要素であることが示唆された。

Few-shot meta-learning methods consider the problem of learning new tasks from a small, fixed number of examples, by meta-learning across static data from a set of previous tasks. However, in many real world settings, it is more natural to view the problem as one of minimizing the total amount of supervision --- both the number of examples needed to learn a new task and the amount of data needed for meta-learning. Such a formulation can be studied in a sequential learning setting, where tasks are presented in sequence. When studying meta-learning in this online setting, a critical question arises: can meta-learning improve over the sample complexity and regret of standard empirical risk minimization methods, when considering both meta-training and adaptation together? The answer is particularly non-obvious for meta-learning algorithms with complex bi-level optimizations that may demand large amounts of meta-training data. To answer this question, we extend previous meta-learning algorithms to handle the variable-shot settings that naturally arise in sequential learning: from many-shot learning at the start, to zero-shot learning towards the end. On sequential learning problems, we find that meta-learning solves the full task set with fewer overall labels and achieves greater cumulative performance, compared to standard supervised methods. These results suggest that meta-learning is an important ingredient for building learning systems that continuously learn and improve over a sequence of problems.
翻訳日:2021-05-08 14:42:52 公開日:2020-12-14
# 相対変動型内在制御

Relative Variational Intrinsic Control ( http://arxiv.org/abs/2012.07827v1 )

ライセンス: Link先を確認
Kate Baumli, David Warde-Farley, Steven Hansen, Volodymyr Mnih(参考訳) 外部の報酬がなければ、エージェントは環境内の様々なスキルを識別し、習得することで、有用な行動を学ぶことができる。 既存のスキル学習方法は、相互情報目的を用いて、各スキルが他と多様で区別可能なものにインセンティブを与える。 しかし、スキルの多様性を制約するために注意を払わなければ、自明に多様なスキルセットが発生する可能性がある。 有効なスキルの多様性を確保するために,エージェントと環境との関係をいかに変化させるかを識別可能な学習スキルを動機付ける,新たなスキル学習目標であるRVIC(Relative Variational Intrinsic Control)を提案する。 結果として得られるスキルのセットは、エージェントが利用できる余裕の空間をタイル化する。 我々は,複数の環境におけるスキルの振る舞いを質的に分析し,階層的強化学習に使用する場合の既存の手法によるスキルよりもRVICスキルが有用であることを示す。

In the absence of external rewards, agents can still learn useful behaviors by identifying and mastering a set of diverse skills within their environment. Existing skill learning methods use mutual information objectives to incentivize each skill to be diverse and distinguishable from the rest. However, if care is not taken to constrain the ways in which the skills are diverse, trivially diverse skill sets can arise. To ensure useful skill diversity, we propose a novel skill learning objective, Relative Variational Intrinsic Control (RVIC), which incentivizes learning skills that are distinguishable in how they change the agent's relationship to its environment. The resulting set of skills tiles the space of affordances available to the agent. We qualitatively analyze skill behaviors on multiple environments and show how RVIC skills are more useful than skills discovered by existing methods when used in hierarchical reinforcement learning.
翻訳日:2021-05-08 14:42:28 公開日:2020-12-14
# 連合学習のためのバンディット型コミュニケーション効率の高いクライアント選択戦略

Bandit-based Communication-Efficient Client Selection Strategies for Federated Learning ( http://arxiv.org/abs/2012.08009v1 )

ライセンス: Link先を確認
Yae Jee Cho, Samarth Gupta, Gauri Joshi, Osman Ya\u{g}an(参考訳) 連合学習におけるコミュニケーションの制約と断続的なクライアント可用性のため、各トレーニングラウンドにはクライアントのサブセットのみが参加できる。 ほとんどの先行研究は一様かつ偏りのないクライアント選択を想定しているが、偏りのあるクライアント選択に関する最近の研究は、高い局所的損失を持つクライアントを選択することでエラー収束速度が向上することを示している。 しかし、以前に提案されたバイアスド選択戦略は、正確な局所的損失を評価するために追加の通信コストを必要とするか、古い局所的損失を利用するかのどちらかであり、モデルが分岐する可能性さえある。 本稿では,より少ない通信オーバーヘッドでより高速な収束を実現する,banditベースの通信効率の高いクライアント選択戦略ucb-csを提案する。 また,公平性を改善するためにクライアントの選択をどのように利用できるかを示す。

Due to communication constraints and intermittent client availability in federated learning, only a subset of clients can participate in each training round. While most prior works assume uniform and unbiased client selection, recent work on biased client selection has shown that selecting clients with higher local losses can improve error convergence speed. However, previously proposed biased selection strategies either require additional communication cost for evaluating the exact local loss or utilize stale local loss, which can even make the model diverge. In this paper, we present a bandit-based communication-efficient client selection strategy UCB-CS that achieves faster convergence with lower communication overhead. We also demonstrate how client selection can be used to improve fairness.
翻訳日:2021-05-08 14:41:34 公開日:2020-12-14
# 何が良い概要になるのか? 自動要約の焦点を再考する

What Makes a Good Summary? Reconsidering the Focus of Automatic Summarization ( http://arxiv.org/abs/2012.07619v1 )

ライセンス: Link先を確認
Maartje ter Hoeve, Julia Kiseleva, Maarten de Rijke(参考訳) 自動要約はここ数年で大きな進歩を遂げてきた。 今こそ、焦点と目的を再評価する時です。 現在のフォーカスはユーザの欲望に完全に準拠しているか,あるいは対象を拡大あるいは変更すべきなのか? 本研究では, 既製サマリーのヘビーユーザを対象に, この質問を経験的に調査する。 この分野の現在の焦点は,参加者の希望と完全に一致していない。 その結果,3つの意味群が同定された。 まず、自動要約に関してより広い視点を採用することが重要であると論じる。 本研究は, 要約すべき入力材料の種類, 要約の目的, 潜在的なフォーマットに関して, どのように視野を広げていくかを説明するものである。 第二に、これらの研究の方向性を促進するデータセットの要件を定義します。 第3に,有用性は評価手法に含まれるべき要約の重要な側面であり,要約の有用性を評価するための方法論を提案する。 本研究により,将来的な自動要約に向けた重要な研究の方向性を開拓し,これらの方向性による手法の開発を期待する。

Automatic text summarization has enjoyed great progress over the last years. Now is the time to re-assess its focus and objectives. Does the current focus fully adhere to users' desires or should we expand or change our focus? We investigate this question empirically by conducting a survey amongst heavy users of pre-made summaries. We find that the current focus of the field does not fully align with participants' wishes. In response, we identify three groups of implications. First, we argue that it is important to adopt a broader perspective on automatic summarization. Based on our findings, we illustrate how we can expand our view when it comes to the types of input material that is to be summarized, the purpose of the summaries and their potential formats. Second, we define requirements for datasets that can facilitate these research directions. Third, usefulness is an important aspect of summarization that should be included in our evaluation methodology; we propose a methodology to evaluate the usefulness of a summary. With this work we unlock important research directions for future work on automatic summarization and we hope to initiate the development of methods in these directions.
翻訳日:2021-05-08 14:41:21 公開日:2020-12-14
# 変動状態とパラメータ推定

Variational State and Parameter Estimation ( http://arxiv.org/abs/2012.07269v1 )

ライセンス: Link先を確認
Jarrad Courts and Johannes Hendriks and Adrian Wills and Thomas Sch\"on and Brett Ninness(参考訳) 本稿では,非線形状態空間モデルに対する状態とモデルパラメータのベイズ推定の計算問題について考察する。 一般に、この問題にはトラクタブルな解がなく、近似を使わなければならない。 本研究では,所望の,難解な分布に近似する仮定密度を与えるために変分的アプローチが用いられる。 このアプローチは決定論的であり、標準形式の最適化問題を引き起こす。 推定密度のパラメトリゼーションにより、選択された一階と二階の導関数が容易に利用可能となり、効率的な解が得られる。 提案手法は2つの数値例で,最先端のハミルトニアンモンテカルロと比較した。

This paper considers the problem of computing Bayesian estimates of both states and model parameters for nonlinear state-space models. Generally, this problem does not have a tractable solution and approximations must be utilised. In this work, a variational approach is used to provide an assumed density which approximates the desired, intractable, distribution. The approach is deterministic and results in an optimisation problem of a standard form. Due to the parametrisation of the assumed density selected first- and second-order derivatives are readily available which allows for efficient solutions. The proposed method is compared against state-of-the-art Hamiltonian Monte Carlo in two numerical examples.
翻訳日:2021-05-08 14:41:07 公開日:2020-12-14
# 潜在的な重み付きフィードバックによるスケーラビリティ向上

Better scalability under potentially heavy-tailed feedback ( http://arxiv.org/abs/2012.07346v1 )

ライセンス: Link先を確認
Matthew J. Holland(参考訳) 本研究では,損失や勾配の重み付けが可能である場合に使用可能な,ロバスト勾配降下法(RGD)のスケーラブルな代替手法について検討する。 基本技術は単純であり、各ステップでグラデーションをしっかりと集約しようとするのではなく、コストが高く、リスク境界の準最適次元依存性をもたらす代わりに、並列に実行できる安価な確率的サブプロセスの集合に基づいて、強い候補を堅牢に(あるいは新たに構築)することに焦点を当てる。 正確な選択プロセスは、基礎となる目的の凸性に依存するが、すべての場合において、我々の選択手法は弱い学習者の信頼を高める頑健な方法である。 フォーマルな保証に加えて、ガウス級および重尾級の両データの下で、実験条件に対する摂動に対するロバスト性の実証分析や、様々なベンチマークデータセットへの応用も提供する。 全体としては、実装が簡単で、並列化が簡単な拡張可能な手順で、rgdメソッドの形式的なメリットは保ちますが、大きな学習問題にはずっと適しています。

We study scalable alternatives to robust gradient descent (RGD) techniques that can be used when the losses and/or gradients can be heavy-tailed, though this will be unknown to the learner. The core technique is simple: instead of trying to robustly aggregate gradients at each step, which is costly and leads to sub-optimal dimension dependence in risk bounds, we instead focus computational effort on robustly choosing (or newly constructing) a strong candidate based on a collection of cheap stochastic sub-processes which can be run in parallel. The exact selection process depends on the convexity of the underlying objective, but in all cases, our selection technique amounts to a robust form of boosting the confidence of weak learners. In addition to formal guarantees, we also provide empirical analysis of robustness to perturbations to experimental conditions, under both sub-Gaussian and heavy-tailed data, along with applications to a variety of benchmark datasets. The overall take-away is an extensible procedure that is simple to implement, trivial to parallelize, which keeps the formal merits of RGD methods but scales much better to large learning problems.
翻訳日:2021-05-08 14:41:00 公開日:2020-12-14
# NeurIPS 2020コンペティション:ディープラーニングの一般化を予測

NeurIPS 2020 Competition: Predicting Generalization in Deep Learning ( http://arxiv.org/abs/2012.07976v1 )

ライセンス: Link先を確認
Yiding Jiang (1), Pierre Foret (1), Scott Yak (1), Daniel M. Roy (2), Hossein Mobahi (1), Gintare Karolina Dziugaite (3), Samy Bengio (1), Suriya Gunasekar (4), Isabelle Guyon (5), Behnam Neyshabur (1) ((1) Google Research, (2) University of Toronto, (3) Element AI, (4) Microsoft Research, (5) University Paris-Saclay and ChaLearn)(参考訳) ディープラーニングにおける一般化を理解することは、深層学習において最も重要な質問の1つだろう。 ディープラーニングは、パターン認識から複雑な意思決定に至るまで、多くの問題にうまく採用されているが、最近の多くの研究者は、ディープラーニングに関する多くの懸念を提起している。 多くの試みにもかかわらず、従来の統計的学習アプローチは、なぜディープラーニングが機能するのかを十分に説明できない。 最近の研究は,複雑性尺度による一般化性能の予測を試みることで,この問題に対処しようとするものである。 このコンペティションでは,モデルの一般化を正確に予測する複雑性対策をコミュニティに提案する。 堅牢で一般的な複雑性尺度は、深層学習の根底にあるメカニズムと、未知のデータに対する深いモデルの振る舞いをよりよく理解するか、あるいはより良い一般化の境界に光を当てる可能性がある。 これらの結果はすべて、ディープラーニングをより堅牢で信頼性の高いものにするために重要です。

Understanding generalization in deep learning is arguably one of the most important questions in deep learning. Deep learning has been successfully adopted to a large number of problems ranging from pattern recognition to complex decision making, but many recent researchers have raised many concerns about deep learning, among which the most important is generalization. Despite numerous attempts, conventional statistical learning approaches have yet been able to provide a satisfactory explanation on why deep learning works. A recent line of works aims to address the problem by trying to predict the generalization performance through complexity measures. In this competition, we invite the community to propose complexity measures that can accurately predict generalization of models. A robust and general complexity measure would potentially lead to a better understanding of deep learning's underlying mechanism and behavior of deep models on unseen data, or shed light on better generalization bounds. All these outcomes will be important for making deep learning more robust and reliable.
翻訳日:2021-05-08 14:40:39 公開日:2020-12-14
# 仮説転送とラベリング転送によるソースデータ吸収型非教師なしドメイン適応

Source Data-absent Unsupervised Domain Adaptation through Hypothesis Transfer and Labeling Transfer ( http://arxiv.org/abs/2012.07297v1 )

ライセンス: Link先を確認
Jian Liang and Dapeng Hu and Yunbo Wang and Ran He and Jiashi Feng(参考訳) 教師なしドメイン適応(Unsupervised domain adapt, UDA)は、知識を関連性のある異なるラベル付きソースドメインから新しいラベル付きターゲットドメインに転送することを目的としている。 既存のUDAメソッドの多くはソースデータへのアクセスを必要としており、プライバシー上の懸念からデータが機密で共有できない場合には適用できない。 本稿では、ソースデータにアクセスする代わりに、トレーニング済みの分類モデルのみを用いて現実的な設定に取り組むことを目的とする。 そこで本研究では,対象とするデータの特徴を凍結したソース分類モジュールに適合させることで,対象領域の特徴抽出モジュールを学習する,ソース仮説伝達(shot)と呼ばれる新しい手法を提案する。 具体的には、SHOTは、特徴抽出モジュール学習のための情報最大化と自己教師付き学習の両方を利用して、ターゲットとなる特徴が同じ仮説を介して見えないソースデータの特徴と暗黙的に一致していることを保証する。 さらに,予測の信頼度(ラベル情報)に基づいて,対象データを2つの分割に分割し,半教師あり学習を用いて,対象領域における信頼度の低い予測の精度を向上させる新しいラベリング転送戦略を提案する。 SHOTによって予測が得られた場合、ラベリング転送をSHOT++と表現する。 桁分類とオブジェクト認識の両タスクに関する大規模な実験により、SHOTとSHOT++は最先端技術に匹敵する結果を達成し、様々な視覚領域適応問題に対する我々のアプローチの有効性を示す。

Unsupervised domain adaptation (UDA) aims to transfer knowledge from a related but different well-labeled source domain to a new unlabeled target domain. Most existing UDA methods require access to the source data, and thus are not applicable when the data are confidential and not shareable due to privacy concerns. This paper aims to tackle a realistic setting with only a classification model available trained over, instead of accessing to, the source data. To effectively utilize the source model for adaptation, we propose a novel approach called Source HypOthesis Transfer (SHOT), which learns the feature extraction module for the target domain by fitting the target data features to the frozen source classification module (representing classification hypothesis). Specifically, SHOT exploits both information maximization and self-supervised learning for the feature extraction module learning to ensure the target features are implicitly aligned with the features of unseen source data via the same hypothesis. Furthermore, we propose a new labeling transfer strategy, which separates the target data into two splits based on the confidence of predictions (labeling information), and then employ semi-supervised learning to improve the accuracy of less-confident predictions in the target domain. We denote labeling transfer as SHOT++ if the predictions are obtained by SHOT. Extensive experiments on both digit classification and object recognition tasks show that SHOT and SHOT++ achieve results surpassing or comparable to the state-of-the-arts, demonstrating the effectiveness of our approaches for various visual domain adaptation problems.
翻訳日:2021-05-08 14:40:24 公開日:2020-12-14
# 類似性と相反学習を組み合わせた視覚説明生成:医用画像分類への応用

Combining Similarity and Adversarial Learning to Generate Visual Explanation: Application to Medical Image Classification ( http://arxiv.org/abs/2012.07332v1 )

ライセンス: Link先を確認
Martin Charachon, C\'eline Hudelot, Paul-Henry Courn\`ede, Camille Ruppli, Roberto Ardon(参考訳) 臨床医の信頼が求められるため,ブラックボックス分類器の判断は医用画像などの敏感な領域で最重要である。 様々な説明手法が提案されており、摂動に基づくアプローチは非常に有望である。 このクラスでは、学習フレームワークを利用して視覚的説明法を作成します。 与えられた分類器から、2つの生成器を訓練し、入力画像から類似画像および逆画像と呼ばれるものを生成する。 類似した画像は入力画像に分類するが,反対者は,そのものではない。 これら2つの生成画像の違いとして視覚的説明が構築される。 文献のメトリクスを用いることで,この手法は最先端のアプローチよりも優れています。 提案手法はモデルに依存しず,予測時の計算負荷が低い。 そのため、リアルタイムシステムに適応している。 最後に, 原画像に適用したランダムな幾何学的拡張が, 前述したいくつかの説明方法を改善する正則化の役割を担っていることを示す。 胸部X線データベースへのアプローチを検証した。

Explaining decisions of black-box classifiers is paramount in sensitive domains such as medical imaging since clinicians confidence is necessary for adoption. Various explanation approaches have been proposed, among which perturbation based approaches are very promising. Within this class of methods, we leverage a learning framework to produce our visual explanations method. From a given classifier, we train two generators to produce from an input image the so called similar and adversarial images. The similar image shall be classified as the input image whereas the adversarial shall not. Visual explanation is built as the difference between these two generated images. Using metrics from the literature, our method outperforms state-of-the-art approaches. The proposed approach is model-agnostic and has a low computation burden at prediction time. Thus, it is adapted for real-time systems. Finally, we show that random geometric augmentations applied to the original image play a regularization role that improves several previously proposed explanation methods. We validate our approach on a large chest X-ray database.
翻訳日:2021-05-08 14:39:59 公開日:2020-12-14
# logit制約付き確率的コンパクト損失による逆ロバスト性の改善

Improving Adversarial Robustness via Probabilistically Compact Loss with Logit Constraints ( http://arxiv.org/abs/2012.07688v1 )

ライセンス: Link先を確認
Xin Li, Xiangrui Li, Deng Pan, Dongxiao Zhu(参考訳) 畳み込みニューラルネットワーク(CNN)はコンピュータビジョンにおける様々なタスクにおいて最先端のパフォーマンスを達成した。 しかし、近年の研究では、これらのモデルが注意深く作られた敵のサンプルに対して脆弱であり、予測時にかなりの性能低下を被っていることが示されている。 敵の堅牢性を改善するための多くの方法が提案されている(例えば、敵の訓練や、敵の堅牢な特徴表現を学習するための新しい損失関数など)。 ここでは、CNNの予測行動に関するユニークな洞察を提供し、最も可能性の高い偽クラスに敵のサンプルを誤分類する傾向がある。 これにより,CNNの対向ロバスト性を改善するために,クロスエントロピー(CE)損失のドロップイン代替として使用できるロジット制約付き確率的コンパクト(PC)損失を提案する。 特に、PC損失は真のクラスと偽クラスの間の確率ギャップを拡大する一方、ロジット制約は小さな摂動によってギャップが溶けることを防ぐ。 提案手法を,ホワイトボックス攻撃とブラックボックス攻撃の両方の大規模データセットを用いて,最先端の手法と比較し,その効果を実証する。 ソースコードは https://github.com/xinli0928/PC-LC から入手できる。

Convolutional neural networks (CNNs) have achieved state-of-the-art performance on various tasks in computer vision. However, recent studies demonstrate that these models are vulnerable to carefully crafted adversarial samples and suffer from a significant performance drop when predicting them. Many methods have been proposed to improve adversarial robustness (e.g., adversarial training and new loss functions to learn adversarially robust feature representations). Here we offer a unique insight into the predictive behavior of CNNs that they tend to misclassify adversarial samples into the most probable false classes. This inspires us to propose a new Probabilistically Compact (PC) loss with logit constraints which can be used as a drop-in replacement for cross-entropy (CE) loss to improve CNN's adversarial robustness. Specifically, PC loss enlarges the probability gaps between true class and false classes meanwhile the logit constraints prevent the gaps from being melted by a small perturbation. We extensively compare our method with the state-of-the-art using large scale datasets under both white-box and black-box attacks to demonstrate its effectiveness. The source codes are available from the following url: https://github.com/xinli0928/PC-LC.
翻訳日:2021-05-08 14:39:27 公開日:2020-12-14
# 大規模言語モデルから学習データを抽出する

Extracting Training Data from Large Language Models ( http://arxiv.org/abs/2012.07805v1 )

ライセンス: Link先を確認
Nicholas Carlini, Florian Tramer, Eric Wallace, Matthew Jagielski, Ariel Herbert-Voss, Katherine Lee, Adam Roberts, Tom Brown, Dawn Song, Ulfar Erlingsson, Alina Oprea, Colin Raffel(参考訳) プライベートデータセットでトレーニングされた大規模な(ビリオンパラメータ)言語モデルを公開することが一般的になった。 本稿では, 言語モデルに問い合わせることで, 相手が学習データ抽出攻撃を行い, 個別の学習例を復元できることを実証する。 我々は,公開インターネットのスクレイプ上で訓練された言語モデルgpt-2に対する攻撃を実証し,モデルのトレーニングデータから数百の動詞のテキストシーケンスを抽出することができることを示した。 抽出された例としては、個人識別可能な情報(名前、電話番号、メールアドレス)、IRC会話、コード、128ビットのUIDなどがある。 トレーニングデータには,各シーケンスが1つのドキュメントに含まれている場合でも,攻撃が可能である。 我々は,その成功に寄与する要因を理解するために,抽出攻撃を包括的に評価する。 例えば、より大規模なモデルはより小さなモデルよりも脆弱である。 講演では,大規模言語モデルの学習における教訓と安全性について論じる。

It has become common to publish large (billion parameter) language models that have been trained on private datasets. This paper demonstrates that in such settings, an adversary can perform a training data extraction attack to recover individual training examples by querying the language model. We demonstrate our attack on GPT-2, a language model trained on scrapes of the public Internet, and are able to extract hundreds of verbatim text sequences from the model's training data. These extracted examples include (public) personally identifiable information (names, phone numbers, and email addresses), IRC conversations, code, and 128-bit UUIDs. Our attack is possible even though each of the above sequences are included in just one document in the training data. We comprehensively evaluate our extraction attack to understand the factors that contribute to its success. For example, we find that larger models are more vulnerable than smaller models. We conclude by drawing lessons and discussing possible safeguards for training large language models.
翻訳日:2021-05-08 14:39:05 公開日:2020-12-14
# 超軽量光源分離のためのコンテキストコーデックを用いたグループ通信

Group Communication with Context Codec for Ultra-Lightweight Source Separation ( http://arxiv.org/abs/2012.07291v1 )

ライセンス: Link先を確認
Yi Luo, Cong Han, Nima Mesgarani(参考訳) 超軽量モデル設計は、既存の音声強調とソース分離技術を低リソースプラットフォームに展開する上で重要なトピックである。 近年、様々な軽量モデル設計パラダイムが提案されているが、ほとんどのモデルはまだモデルのサイズ、モデルの複雑さ、およびモデル性能のバランスを見つけるのに苦労している。 本稿では,文脈コーデック(GC3)設計によるグループコミュニケーションを提案し,モデル性能を犠牲にすることなく,モデルサイズと複雑性を両立させる。 グループコミュニケーションは、高次元の特徴を低次元の特徴のグループに分割し、グループ間の依存関係を捉えるモジュールを適用する。 するとモデルは、非常に小さな幅で並列にグループに適用できる。 コンテキストコーデックは、コンテキストエンコーダがローカル特徴の時間的文脈を、コンテキストのグローバル特性を表す単一の特徴に圧縮し、コンテキストデコーダが変換されたグローバル特徴をコンテキスト特徴に逆圧縮する、シーケンシャル特徴の長さを減少させる。 実験の結果、gc3は2.5%のモデルサイズで幅広いベースラインアーキテクチャと同等かそれ以上の性能を達成できることがわかった。

Ultra-lightweight model design is an important topic for the deployment of existing speech enhancement and source separation techniques on low-resource platforms. Various lightweight model design paradigms have been proposed in recent years; however, most models still suffer from finding a balance between model size, model complexity, and model performance. In this paper, we propose the group communication with context codec (GC3) design to decrease both model size and complexity without sacrificing the model performance. Group communication splits a high-dimensional feature into groups of low-dimensional features and applies a module to capture the inter-group dependency. A model can then be applied to the groups in parallel with a significantly smaller width. A context codec is applied to decrease the length of a sequential feature, where a context encoder compresses the temporal context of local features into a single feature representing the global characteristics of the context, and a context decoder decompresses the transformed global features back to the context features. Experimental results show that GC3 can achieve on par or better performance than a wide range of baseline architectures with as small as 2.5% model size.
翻訳日:2021-05-08 14:38:50 公開日:2020-12-14
# アクティブ階層的模倣と強化学習

Active Hierarchical Imitation and Reinforcement Learning ( http://arxiv.org/abs/2012.07330v1 )

ライセンス: Link先を確認
Yaru Niu, Yijun Gu(参考訳) 人間は階層構造を利用してタスクをサブタスクに分割し、問題を効率的に解くことができる。 模倣と強化学習、あるいはそれらと階層構造の組み合わせは、ロボットが少ない報酬で複雑なタスクを学習する効率的な方法であることが証明されている。 しかし、従来の階層的模倣と強化学習では、テスト環境は比較的単純な2Dゲームであり、アクション空間は離散的である。 さらに、人間の専門家ではなく、強化学習アルゴリズムによってハードコードされたり訓練されたりした専門家警察から学んだ政策の改善に焦点を当てた模倣学習作業も数多く行われている。 人間とロボットの相互作用のシナリオでは、人間はロボットに教えるためのデモンストレーションを提供する必要があるため、学習効率の向上、専門家の努力の削減、学習/トレーニングプロセスに対する人間の認識を知ることが不可欠である。 本研究は,我々が開発した階層的模倣・強化学習フレームワークに基づいて,異なる模倣学習アルゴリズムを探索し,アクティブな学習アルゴリズムを設計した。 迷路内のランダムな目標にランダムに初期化エージェントを誘導する5人の被験者を対象に実験を行った。 実験の結果,daggerと報酬ベースのアクティブラーニング手法は,トレーニング過程において身体的および精神的により多くの努力を省きながら,よりよいパフォーマンスを達成できることがわかった。

Humans can leverage hierarchical structures to split a task into sub-tasks and solve problems efficiently. Both imitation and reinforcement learning or a combination of them with hierarchical structures have been proven to be an efficient way for robots to learn complex tasks with sparse rewards. However, in the previous work of hierarchical imitation and reinforcement learning, the tested environments are in relatively simple 2D games, and the action spaces are discrete. Furthermore, many imitation learning works focusing on improving the policies learned from the expert polices that are hard-coded or trained by reinforcement learning algorithms, rather than human experts. In the scenarios of human-robot interaction, humans can be required to provide demonstrations to teach the robot, so it is crucial to improve the learning efficiency to reduce expert efforts, and know human's perception about the learning/training process. In this project, we explored different imitation learning algorithms and designed active learning algorithms upon the hierarchical imitation and reinforcement learning framework we have developed. We performed an experiment where five participants were asked to guide a randomly initialized agent to a random goal in a maze. Our experimental results showed that using DAgger and reward-based active learning method can achieve better performance while saving more human efforts physically and mentally during the training process.
翻訳日:2021-05-08 14:38:32 公開日:2020-12-14
# FedHome: 家庭内健康モニタリングのためのクラウドエッジベースの個人化フェデレーション学習

FedHome: Cloud-Edge based Personalized Federated Learning for In-Home Health Monitoring ( http://arxiv.org/abs/2012.07450v1 )

ライセンス: Link先を確認
Qiong Wu and Xu Chen and Zhi Zhou and Junshan Zhang(参考訳) 在宅健康モニタリングは、世界中の高齢層に大きな注目を集めている。 IoT(Internet of Things)デバイスによってアクセスされる豊富なユーザヘルスデータと、マシンラーニングの最近の開発により、スマートヘルスケアは多くの成功談を目にしている。 しかし、既存の家庭内健康モニタリングのアプローチは、ユーザのデータプライバシーに十分な注意を払わず、大規模な実践的なデプロイの準備が整うには程遠い。 本稿では,ネットワークエッジの複数の家庭からクラウド上の共有グローバルモデルを学び,ユーザデータをローカルに保持することでデータのプライバシ保護を実現する,家庭内健康モニタリングのための新しいクラウドエッジベースのフェデレーション学習フレームワークfeedhomeを提案する。 ユーザのモニタリングデータに固有の不均衡および非IID分布に対処するため,ユーザの個人データから生成されたクラスバランスデータセットを用いてモデルを精査し,正確かつパーソナライズされた健康モニタリングを実現するための生成畳み込みオートエンコーダ(GCAE)を設計する。 さらに、GCAEはクラウドとエッジ間の転送も軽量で、フェデレート学習の通信コストを削減するのに役立ちます。 リアルな人間の行動認識データに基づく大規模な実験は、FedHomeが既存の広く研究されている手法を著しく上回っていることを裏付ける。

In-home health monitoring has attracted great attention for the ageing population worldwide. With the abundant user health data accessed by Internet of Things (IoT) devices and recent development in machine learning, smart healthcare has seen many successful stories. However, existing approaches for in-home health monitoring do not pay sufficient attention to user data privacy and thus are far from being ready for large-scale practical deployment. In this paper, we propose FedHome, a novel cloud-edge based federated learning framework for in-home health monitoring, which learns a shared global model in the cloud from multiple homes at the network edges and achieves data privacy protection by keeping user data locally. To cope with the imbalanced and non-IID distribution inherent in user's monitoring data, we design a generative convolutional autoencoder (GCAE), which aims to achieve accurate and personalized health monitoring by refining the model with a generated class-balanced dataset from user's personal data. Besides, GCAE is lightweight to transfer between the cloud and edges, which is useful to reduce the communication cost of federated learning in FedHome. Extensive experiments based on realistic human activity recognition data traces corroborate that FedHome significantly outperforms existing widely-adopted methods.
翻訳日:2021-05-08 14:37:46 公開日:2020-12-14
# オンライン乗客レビューから航空専門ビジネスインテリジェンスを発見する:教師なしテキスト分析アプローチ

Discovering Airline-Specific Business Intelligence from Online Passenger Reviews: An Unsupervised Text Analytics Approach ( http://arxiv.org/abs/2012.08000v1 )

ライセンス: Link先を確認
Sharan Srinivas, Surya Ramachandiran(参考訳) 乗客の視点や競争上の優位性からサービス品質の重要な側面を理解するため、航空会社は豊富なオンライン顧客レビュー(OCR)を活用できる。 本研究の目的は,ocrから,教師なしテキスト分析手法を用いて企業および競合他社固有の知性を検出することである。 まず、OCRで議論されている重要な側面(またはトピック)を、確率的潜在意味分析(pLSA)と2種類の潜在ディリクレ割り当て(LDA-VIとLDA-GS)の3つのトピックモデルを用いて抽出する。 次に,個々のトピックモデルを統合し,各レビュー文を最も代表的な側面に分類するアンサンブル支援トピックモデル(EA-TM)を提案する。 同様に、レビュー文に対応する感情を決定するために、3つの意見マイニング手法(AFINN、SentiStrength、VADER)の予測を組み合わせたアンサンブル感情分析器(E-SA)を開発する。 航空会社の乗客認識力と弱点のスナップショットを提供するアスペクトベースの意見要約(AOS)は、それぞれの側面に関連する感情を集約することにより確立される。 さらに、ラベル付きOCRのバイグラム解析を用いて、識別された各アスペクト内で根本原因分析を行う。 提案手法の検証には,米国拠点のターゲットキャリアの99,147件の航空会社レビューと,その競合企業4社のケーススタディが使用されている。 その結果、ocrから航空会社とその競合業者の費用対効果と性能の概要を得ることができた。 最後に,本研究の結果を踏まえた理論的かつ管理的な意味合いを提供するとともに,2019年の新型コロナウイルス(covid-19)による前例のない影響や,将来的な同様のパンデミックに対する予測を考慮し,航空業界におけるパンデミック後の準備に示唆を与える。

To understand the important dimensions of service quality from the passenger's perspective and tailor service offerings for competitive advantage, airlines can capitalize on the abundantly available online customer reviews (OCR). The objective of this paper is to discover company- and competitor-specific intelligence from OCR using an unsupervised text analytics approach. First, the key aspects (or topics) discussed in the OCR are extracted using three topic models - probabilistic latent semantic analysis (pLSA) and two variants of Latent Dirichlet allocation (LDA-VI and LDA-GS). Subsequently, we propose an ensemble-assisted topic model (EA-TM), which integrates the individual topic models, to classify each review sentence to the most representative aspect. Likewise, to determine the sentiment corresponding to a review sentence, an ensemble sentiment analyzer (E-SA), which combines the predictions of three opinion mining methods (AFINN, SentiStrength, and VADER), is developed. An aspect-based opinion summary (AOS), which provides a snapshot of passenger-perceived strengths and weaknesses of an airline, is established by consolidating the sentiments associated with each aspect. Furthermore, a bi-gram analysis of the labeled OCR is employed to perform root cause analysis within each identified aspect. A case study involving 99,147 airline reviews of a US-based target carrier and four of its competitors is used to validate the proposed approach. The results indicate that a cost- and time-effective performance summary of an airline and its competitors can be obtained from OCR. Finally, besides providing theoretical and managerial implications based on our results, we also provide implications for post-pandemic preparedness in the airline industry considering the unprecedented impact of coronavirus disease 2019 (COVID-19) and predictions on similar pandemics in the future.
翻訳日:2021-05-08 14:37:13 公開日:2020-12-14
# グラフニューラルネットワークを用いた分子グラフ生成

Molecular graph generation with Graph Neural Networks ( http://arxiv.org/abs/2012.07397v1 )

ライセンス: Link先を確認
Pietro Bongini, Monica Bianchini, Franco Scarselli(参考訳) グラフ構造化データの生成は、ディープラーニング分野における新たな問題である。 ここ数年、様々な解決策が提案されてきたが、この分岐の探索はまだ初期段階にある。 逐次的アプローチでは、グラフの構成は一連の決定の結果であり、各ステップにおいて、ノードまたはノードのグループがその接続と共にグラフに追加される。 グラフ生成法の非常に関連する応用は、グラフとして自然に表される新しい薬物分子の発見である。 本稿では、MG^2N^2と呼ぶ一連のグラフニューラルネットワークモジュールに基づくシーケンシャルな分子グラフ生成手法を提案する。 そのモジュラーアーキテクチャはトレーニング手順を単純化し、独立した単一のモジュールの再トレーニングを可能にする。 グラフニューラルネットワークの使用は、前のステップで生成されたサブグラフからなる生成ステップ毎に入力される情報を最大化する。 QM9データセット上での無条件生成実験により,本モデルは過度に適合することなく,トレーニングフェーズで見られる分子パターンを一般化できることが示された。 その結果,本手法は競争力に優れ,QM9における非条件生成の最先端技術として位置づけられることがわかった。

The generation of graph-structured data is an emerging problem in the field of deep learning. Various solutions have been proposed in the last few years, yet the exploration of this branch is still in an early phase. In sequential approaches, the construction of a graph is the result of a sequence of decisions, in which, at each step, a node or a group of nodes is added to the graph, along with its connections. A very relevant application of graph generation methods is the discovery of new drug molecules, which are naturally represented as graphs. In this paper, we introduce a sequential molecular graph generator based on a set of graph neural network modules, which we call MG^2N^2. Its modular architecture simplifies the training procedure, also allowing an independent retraining of a single module. The use of graph neural networks maximizes the information in input at each generative step, which consists of the subgraph produced during the previous steps. Experiments of unconditional generation on the QM9 dataset show that our model is capable of generalizing molecular patterns seen during the training phase, without overfitting. The results indicate that our method outperforms very competitive baselines, and can be placed among the state of the art approaches for unconditional generation on QM9.
翻訳日:2021-05-08 14:36:18 公開日:2020-12-14
# 深部連続モデルフレームワークと状態空間モデルフレームワークのインターセクション:オプション価格の検討

At the Intersection of Deep Sequential Model Framework and State-space Model Framework: Study on Option Pricing ( http://arxiv.org/abs/2012.07784v1 )

ライセンス: Link先を確認
Ziyang Ding and Sayan Mukherjee(参考訳) 非線形力学系の推論と予測問題は様々な文脈で発生してきた。 一方、貯水池計算と深層シーケンシャルモデルでは、単純でカオス的な力学系のモデリングにおいて効率的でロバストで優れた性能が実証されている。 しかし,その固有決定論的な特徴により,ノイズシステムへの頑健性が部分的に低下し,不確実性測定ができないことも,その枠組みの不十分さであった。 一方、従来の状態空間モデルフレームワークはノイズに対して堅牢である。 また、測定された不確実性も保持し、貯水池計算と深部シーケンシャルモデルフレームワークを忠実に補完する。 我々は,シーケンシャルモデルとステートスペースモデルの両方を統合し,両フレームワークの優位性を達成するためのモデルであるunscented reservoir smootherを提案する。 ノイズの多いデータセット上のオプション価格設定で評価されたURSは、特に長期の予測精度と不確実性の測定を高く評価する。 URSのさらなる拡張と含意についても論じられ、両方のフレームワークの完全な統合が一般化される。

Inference and forecast problems of the nonlinear dynamical system have arisen in a variety of contexts. Reservoir computing and deep sequential models, on the one hand, have demonstrated efficient, robust, and superior performance in modeling simple and chaotic dynamical systems. However, their innate deterministic feature has partially detracted their robustness to noisy system, and their inability to offer uncertainty measurement has also been an insufficiency of the framework. On the other hand, the traditional state-space model framework is robust to noise. It also carries measured uncertainty, forming a just-right complement to the reservoir computing and deep sequential model framework. We propose the unscented reservoir smoother, a model that unifies both deep sequential and state-space models to achieve both frameworks' superiorities. Evaluated in the option pricing setting on top of noisy datasets, URS strikes highly competitive forecasting accuracy, especially those of longer-term, and uncertainty measurement. Further extensions and implications on URS are also discussed to generalize a full integration of both frameworks.
翻訳日:2021-05-08 14:36:00 公開日:2020-12-14
# 新型コロナウイルスデータを用いた学習・適応のための意思決定アルゴリズム

Decision-Making Algorithms for Learning and Adaptation with Application to COVID-19 Data ( http://arxiv.org/abs/2012.07844v1 )

ライセンス: Link先を確認
Stefano Marano and Ali H. Sayed(参考訳) 本研究は、適応と学習のための新しい意思決定アルゴリズムの開発に焦点を当て、決定問題に特化しており、決定理論から第一原理を構築することによって構築される。 重要な観察は、推定と決定問題は構造的に異なるため、前者で成功したアルゴリズムは決定問題に対して調整してもうまく機能しないということである。 本稿では, BLLR (barrier log-likelihood ratio algorithm) と呼ばれる新しい手法を提案し, イタリアにおけるCOVID-19パンデミックのリアルタイムデータに適用可能であることを示す。 結果は、アウトブレイクの異なるフェーズを追跡する設計ツールの能力を示している。

This work focuses on the development of a new family of decision-making algorithms for adaptation and learning, which are specifically tailored to decision problems and are constructed by building up on first principles from decision theory. A key observation is that estimation and decision problems are structurally different and, therefore, algorithms that have proven successful for the former need not perform well when adjusted for decision problems. We propose a new scheme, referred to as BLLR (barrier log-likelihood ratio algorithm) and demonstrate its applicability to real-data from the COVID-19 pandemic in Italy. The results illustrate the ability of the design tool to track the different phases of the outbreak.
翻訳日:2021-05-08 14:35:42 公開日:2020-12-14
# ハイブリッドSAT解法における局所BDDに基づく連続探索について

On Continuous Local BDD-Based Search for Hybrid SAT Solving ( http://arxiv.org/abs/2012.07983v1 )

ライセンス: Link先を確認
Anastasios Kyrillidis, Moshe Y. Vardi, Zhiwei Zhang(参考訳) 本研究では,SATにおける連続局所探索(CLS)の可能性を探るため,ブール制約のハイブリッドシステムの解を求める新しい手法を提案する。 このアルゴリズムは、CLSと二分決定図(BDD)の信念の伝播を組み合わせたものである。 我々のフレームワークは、対称的なブール制約や小さな係数の擬ブール制約など、コンパクトなBDDを受け入れるすべてのブール制約を受け入れます。 CLSに必要な勾配を効率的に計算するための新しいアルゴリズムを提案する。 多くのベンチマークインスタンスに適用することにより、多用途CLSソルバであるGradSATの機能と限界について検討する。 実験結果から,GradSATは既存のSATおよびMaxSATソルバのポートフォリオに追加され,ブール適合性および最適化問題の解決に有用であることが示唆された。

We explore the potential of continuous local search (CLS) in SAT solving by proposing a novel approach for finding a solution of a hybrid system of Boolean constraints. The algorithm is based on CLS combined with belief propagation on binary decision diagrams (BDDs). Our framework accepts all Boolean constraints that admit compact BDDs, including symmetric Boolean constraints and small-coefficient pseudo-Boolean constraints as interesting families. We propose a novel algorithm for efficiently computing the gradient needed by CLS. We study the capabilities and limitations of our versatile CLS solver, GradSAT, by applying it on many benchmark instances. The experimental results indicate that GradSAT can be a useful addition to the portfolio of existing SAT and MaxSAT solvers for solving Boolean satisfiability and optimization problems.
翻訳日:2021-05-08 14:35:07 公開日:2020-12-14
# トピック指向ランキングとコンテキスト対応自動エンコーダを用いたチャットログの教師なし要約

Unsupervised Summarization for Chat Logs with Topic-Oriented Ranking and Context-Aware Auto-Encoders ( http://arxiv.org/abs/2012.07300v1 )

ライセンス: Link先を確認
Yicheng Zou, Jun Lin, Lujun Zhao, Yangyang Kang, Zhuoren Jiang, Changlong Sun, Qi Zhang, Xuanjing Huang, Xiaozhong Liu(参考訳) 自動チャット要約は、多くのチャットメッセージから重要な情報を素早く把握するのに役立つ。 従来の文書とは異なり、チャットログは通常断片化され、進化するトピックを持つ。 さらに、これらのログには楕円文と疑問文の量が含まれており、チャットの要約は文脈に依存している。 本研究では,手動でラベル付けしたデータを使わずにチャット要約を行うRanAEという新しいフレームワークを提案する。 RankAEは、集中度と多様性に応じてトピックの発話を同時に選択するトピック指向のランキング戦略と、選択した発話に基づいて簡潔だが文脈インフォームティブな要約を生成するために慎重に設計された自動エンコーダから構成される。 提案手法を評価するために,チャットログの大規模データセットをカスタマサービス環境から収集し,モデル評価のみに注釈付きデータセットを構築する。 実験の結果,rankaeは他の教師なしの手法を著しく上回り,関連度や話題のカバレッジの観点から質の高い要約を生成できることがわかった。

Automatic chat summarization can help people quickly grasp important information from numerous chat messages. Unlike conventional documents, chat logs usually have fragmented and evolving topics. In addition, these logs contain a quantity of elliptical and interrogative sentences, which make the chat summarization highly context dependent. In this work, we propose a novel unsupervised framework called RankAE to perform chat summarization without employing manually labeled data. RankAE consists of a topic-oriented ranking strategy that selects topic utterances according to centrality and diversity simultaneously, as well as a denoising auto-encoder that is carefully designed to generate succinct but context-informative summaries based on the selected utterances. To evaluate the proposed method, we collect a large-scale dataset of chat logs from a customer service environment and build an annotated set only for model evaluation. Experimental results show that RankAE significantly outperforms other unsupervised methods and is able to generate high-quality summaries in terms of relevance and topic coverage.
翻訳日:2021-05-08 14:34:55 公開日:2020-12-14
# 相性を考慮したトピックモデリングによる顧客サービスのためのトピック指向音声対話要約

Topic-Oriented Spoken Dialogue Summarization for Customer Service with Saliency-Aware Topic Modeling ( http://arxiv.org/abs/2012.07311v1 )

ライセンス: Link先を確認
Yicheng Zou, Lujun Zhao, Yangyang Kang, Jun Lin, Minlong Peng, Zhuoren Jiang, Changlong Sun, Qi Zhang, Xuanjing Huang, Xiaozhong Liu(参考訳) 顧客サービスシステムでは、顧客とエージェントが特定のトピックに関する問題に対処しようとする長い会話の要約を自動的に作成することにより、対話要約はサービス効率を高めることができる。 本研究は,話題指向の対話要約に焦点をあて,対話から主概念を保存する高度に抽象的な要約を生成する。 音声対話において、豊富な対話ノイズと共通の意味論は、基礎となる情報内容の曖昧さを招き、一般的なトピックモデリングアプローチの適用を困難にする。 加えて、カスタマサービスでは、役割固有の情報が重要であり、サマリの欠かせない部分である。 本研究は,対話における話題モデリングとマルチロール情報を効果的に行うために,顧客サービス対話のトピック指向要約のためのサリエンシ・アウェア・ニューラル・トピック・モデル(SATM)と共同で,トピック拡張2段階対話要約器(TDS)を提案する。 実世界の中国顧客サービスデータセットに関する包括的研究は、いくつかの強力なベースラインに対して、この手法が優れていることを示した。

In a customer service system, dialogue summarization can boost service efficiency by automatically creating summaries for long spoken dialogues in which customers and agents try to address issues about specific topics. In this work, we focus on topic-oriented dialogue summarization, which generates highly abstractive summaries that preserve the main ideas from dialogues. In spoken dialogues, abundant dialogue noise and common semantics could obscure the underlying informative content, making the general topic modeling approaches difficult to apply. In addition, for customer service, role-specific information matters and is an indispensable part of a summary. To effectively perform topic modeling on dialogues and capture multi-role information, in this work we propose a novel topic-augmented two-stage dialogue summarizer (TDS) jointly with a saliency-aware neural topic model (SATM) for topic-oriented summarization of customer service dialogues. Comprehensive studies on a real-world Chinese customer service dataset demonstrated the superiority of our method against several strong baselines.
翻訳日:2021-05-08 14:34:38 公開日:2020-12-14
# 魅力のスタイル-コンテンツ二重性--斜めを通したアイキャッチヘッドラインの書き方を学ぶ

The Style-Content Duality of Attractiveness: Learning to Write Eye-Catching Headlines via Disentanglement ( http://arxiv.org/abs/2012.07419v1 )

ライセンス: Link先を確認
Mingzhe Li, Xiuying Chen, Min Yang, Shen Gao, Dongyan Zhao and Rui Yan(参考訳) 目を引く見出しはクリック数を増やす最初のデバイスとして機能し、プロデューサーと視聴者の間の相互効果をもたらす。 制作者はより多くのトラフィックと利益を得ることができ、読者は優れた記事にアクセスできる。 魅力的な見出しを作る際には、魅力ある内容だけでなく、目を引く文体に従うことが重要である。 本稿では, 魅力あるスタイルに追従して, 魅力あるコンテンツをキャプチャする見出しを生成するDAHG(Disentanglement-based Attractive Headline Generator)を提案する。 具体的には、まず、魅力的なプロトタイプヘッドラインのスタイルと内容をラテント空間に分割し、この2つの空間が実際にアンタングル化されることを保証するための2つの補助的制約を考案する。 次に、潜在コンテンツ情報は、文書表現をさらに洗練し、敬語部分のキャプチャを助けるために使用される。 最後に、研磨された文書を入力として、魅力的なスタイルの指導の下で見出しを生成する。 パブリックなKuaibaoデータセットに関する大規模な実験は、DAHGが最先端のパフォーマンスを達成することを示している。 人的評価はまた、DAHGが既存のモデルよりも22%多くのクリックをトリガーすることを示している。

Eye-catching headlines function as the first device to trigger more clicks, bringing reciprocal effect between producers and viewers. Producers can obtain more traffic and profits, and readers can have access to outstanding articles. When generating attractive headlines, it is important to not only capture the attractive content but also follow an eye-catching written style. In this paper, we propose a Disentanglement-based Attractive Headline Generator (DAHG) that generates headline which captures the attractive content following the attractive style. Concretely, we first devise a disentanglement module to divide the style and content of an attractive prototype headline into latent spaces, with two auxiliary constraints to ensure the two spaces are indeed disentangled. The latent content information is then used to further polish the document representation and help capture the salient part. Finally, the generator takes the polished document as input to generate headline under the guidance of the attractive style. Extensive experiments on the public Kuaibao dataset show that DAHG achieves state-of-the-art performance. Human evaluation also demonstrates that DAHG triggers 22% more clicks than existing models.
翻訳日:2021-05-08 14:34:17 公開日:2020-12-14
# 遠隔指導による非単調推論の合理化の学習

Learning to Rationalize for Nonmonotonic Reasoning with Distant Supervision ( http://arxiv.org/abs/2012.08012v1 )

ライセンス: Link先を確認
Faeze Brahman, Vered Shwartz, Rachel Rudinger, Yejin Choi(参考訳) ニューラルモデルのブラックボックスの性質は、モデルがなぜ特定の予測をしたのかを説明するために、自然言語理論を生成することを目的とした一連の研究の動機となった。 このような合理的生成モデルは、これまで、データセット固有のクラウドソース論理に基づいてトレーニングされてきたが、このアプローチはコストが高く、新しいタスクやドメインには一般化できない。 本稿では,モデル予測を説明する自然言語理論について,人文的推論に付加的な注釈コストを要せず,遠方的監督のみに頼りながら,ニューラルモデルが推論できる程度について検討する。 本研究では,学習済み言語モデル,ニューラル知識モデル,関連するタスクからの遠隔監視を用いて,有理を自動生成する複数の方法を検討した。 我々は,新しい情報(更新)を導入する際に推論を強化したり弱めたりする非単調な推論タスクであるdefeasible inferenceタスクに対する我々のアプローチを実証する。 我々のモデルは、追加情報から推論が多かれ少なかれ起こりそうな理由を説明するポストホック論理を生成することを約束するが、ニューラルネットワークモデルの基本的制約を反映した自明な論理を生成する。 逆に、更新あるいはそのタイプを共同で予測し、合理的に生成する、より現実的なセットアップは、より困難であり、将来の重要な方向性を示唆する。

The black-box nature of neural models has motivated a line of research that aims to generate natural language rationales to explain why a model made certain predictions. Such rationale generation models, to date, have been trained on dataset-specific crowdsourced rationales, but this approach is costly and is not generalizable to new tasks and domains. In this paper, we investigate the extent to which neural models can reason about natural language rationales that explain model predictions, relying only on distant supervision with no additional annotation cost for human-written rationales. We investigate multiple ways to automatically generate rationales using pre-trained language models, neural knowledge models, and distant supervision from related tasks, and train generative models capable of composing explanatory rationales for unseen instances. We demonstrate our approach on the defeasible inference task, a nonmonotonic reasoning task in which an inference may be strengthened or weakened when new information (an update) is introduced. Our model shows promises at generating post-hoc rationales explaining why an inference is more or less likely given the additional information, however, it mostly generates trivial rationales reflecting the fundamental limitations of neural language models. Conversely, the more realistic setup of jointly predicting the update or its type and generating rationale is more challenging, suggesting an important future direction.
翻訳日:2021-05-08 14:33:59 公開日:2020-12-14
# オンライン行動認識

Online Action Recognition ( http://arxiv.org/abs/2012.07464v1 )

ライセンス: Link先を確認
Alejandro Su\'arez-Hern\'andez and Javier Segovia-Aguas and Carme Torras and Guillem Aleny\`a(参考訳) 計画における認識は、一連の観察と知識ライブラリ(例えば)が与えられたエージェントの意図、目標、活動を見つけようとする。 目標状態、計画、ドメイン理論)。 本稿では,オンライン行動認識の問題を紹介する。 オープン世界では、最初に空である一階のストリップアクションの知識ライブラリから部分的に観察可能な状態遷移を最善に説明できるプランニングアクションを認識することにある。 我々はこれを最適化問題として、AU(Action Unification)とOARU(Online Action Recognition through Unification)の2つのアルゴリズムを提案する。 前者は論理統一の上に構築し、重み付けされた MaxSAT を用いて2つの入力アクションを一般化する。 後者は、観測された遷移を説明するライブラリ内のアクションを探す。 そのようなアクションがある場合、AUを一般化し、この方法でAU階層を構築する。 そうでなければ、OARUはTrivial Grounded Action (TGA)をライブラリに挿入し、その移行を説明する。 我々は,国際計画コンペティションとPDDLGymのベンチマークの結果を報告する。OARUは専門家の知識を正確に認識し,リアルタイムのパフォーマンスを示す。

Recognition in planning seeks to find agent intentions, goals or activities given a set of observations and a knowledge library (e.g. goal states, plans or domain theories). In this work we introduce the problem of Online Action Recognition. It consists in recognizing, in an open world, the planning action that best explains a partially observable state transition from a knowledge library of first-order STRIPS actions, which is initially empty. We frame this as an optimization problem, and propose two algorithms to address it: Action Unification (AU) and Online Action Recognition through Unification (OARU). The former builds on logic unification and generalizes two input actions using weighted partial MaxSAT. The latter looks for an action within the library that explains an observed transition. If there is such action, it generalizes it making use of AU, building in this way an AU hierarchy. Otherwise, OARU inserts a Trivial Grounded Action (TGA) in the library that explains just that transition. We report results on benchmarks from the International Planning Competition and PDDLGym, where OARU recognizes actions accurately with respect to expert knowledge, and shows real-time performance.
翻訳日:2021-05-08 14:33:36 公開日:2020-12-14
# 知識制御型視覚質問応答 : 深層表現埋め込みへの挑戦

Knowledge-Routed Visual Question Reasoning: Challenges for Deep Representation Embedding ( http://arxiv.org/abs/2012.07192v1 )

ライセンス: Link先を確認
Qingxing Cao and Bailin Li and Xiaodan Liang and Keze Wang and Liang Lin(参考訳) VQA(Visual Question Answering)モデルは、画像やテキストコンテキストを超えた入力出力相関を利用して、基礎となる知識を発見するのに役立つが、既存の知識VQAデータセットは、主にクラウドソースの方法で注釈付けされている。 知識推論の課題に加えて、アノテーションのバイアスに対処する方法も未解決のままであり、質問と回答の間の表面的過剰な相関につながることが多い。 本稿では,VQAモデル評価のための知識制御型視覚質問推論という新しいデータセットを提案する。 望ましいVQAモデルは、イメージコンテキストを正しく認識し、質問を理解し、学習知識を組み込むべきであることを考慮し、提案データセットは、現在の深層埋め込みモデルが活用するショートカット学習をカットし、知識に基づく視覚的質問推論の研究境界を押し上げることを目的としている。 具体的には,視覚ゲノムシーングラフと外部知識ベースの両方に基づいて質問応答ペアを生成し,その知識を他のバイアスから切り離すための制御プログラムを作成する。 プログラムは、シーングラフまたは知識ベースから1つまたは2つの三つ組を選択して、多段階推論をプッシュし、回答のあいまいさを回避し、回答分布のバランスをとることができる。 既存のvqaデータセットとは対照的に、知識推論を組み込むプログラムには、次の2つの大きな制約があることを示す。 これは、与えられた質問のみに基づいて知識を推測する代わりに、VQAモデルを正しく知覚するように強制することができる;i) すべての質問は異なる知識に基づいているが、候補の答えはトレーニングとテストセットの両方で同じである。

Though beneficial for encouraging the Visual Question Answering (VQA) models to discover the underlying knowledge by exploiting the input-output correlation beyond image and text contexts, the existing knowledge VQA datasets are mostly annotated in a crowdsource way, e.g., collecting questions and external reasons from different users via the internet. In addition to the challenge of knowledge reasoning, how to deal with the annotator bias also remains unsolved, which often leads to superficial over-fitted correlations between questions and answers. To address this issue, we propose a novel dataset named Knowledge-Routed Visual Question Reasoning for VQA model evaluation. Considering that a desirable VQA model should correctly perceive the image context, understand the question, and incorporate its learned knowledge, our proposed dataset aims to cutoff the shortcut learning exploited by the current deep embedding models and push the research boundary of the knowledge-based visual question reasoning. Specifically, we generate the question-answer pair based on both the Visual Genome scene graph and an external knowledge base with controlled programs to disentangle the knowledge from other biases. The programs can select one or two triplets from the scene graph or knowledge base to push multi-step reasoning, avoid answer ambiguity, and balanced the answer distribution. In contrast to the existing VQA datasets, we further imply the following two major constraints on the programs to incorporate knowledge reasoning: i) multiple knowledge triplets can be related to the question, but only one knowledge relates to the image object. This can enforce the VQA model to correctly perceive the image instead of guessing the knowledge based on the given question solely; ii) all questions are based on different knowledge, but the candidate answers are the same for both the training and test sets.
翻訳日:2021-05-08 14:33:20 公開日:2020-12-14
# INSPIRE:強度と空間情報に基づく変形可能な画像登録

INSPIRE: Intensity and Spatial Information-Based Deformable Image Registration ( http://arxiv.org/abs/2012.07208v1 )

ライセンス: Link先を確認
Johan \"Ofverstedt, Joakim Lindblad, Nata\v{s}a Sladoje(参考訳) InSPIREは,変形可能な画像登録のための汎用手法である。 InSPIREは、強度と空間情報を組み合わせた距離に基づく既存の対称登録フレームワークを、弾性B-スプライン変換モデルに拡張する。 また,計算効率が向上し,様々なシナリオにおいてフレームワークの適用性が向上する,いくつかの理論的およびアルゴリズム的改善も提示する。 提案手法は, 精度が高く, 安定かつ頑健な登録結果を提供する。 本研究では,INSPIREが優れた性能を示し,参照法を著しく上回る,細い血管網からなる網膜画像から生成された合成データセットの評価を行った。 また、脳の3d画像のベンチマークデータセット4セットにおいて、合計2088のペアワイズ登録を行い、inspireが最高の全体的なパフォーマンスを提供することを示す15の最先端手法と比較した。 コードはgithub.com/MIDA-group/inspireで入手できる。

We present INSPIRE, a top-performing general-purpose method for deformable image registration. INSPIRE extends our existing symmetric registration framework based on distances combining intensity and spatial information to an elastic B-splines based transformation model. We also present several theoretical and algorithmic improvements which provide high computational efficiency and thereby applicability of the framework in a wide range of real scenarios. We show that the proposed method delivers both highly accurate as well as stable and robust registration results. We evaluate the method on a synthetic dataset created from retinal images, consisting of thin networks of vessels, where INSPIRE exhibits excellent performance, substantially outperforming the reference methods. We also evaluate the method on four benchmark datasets of 3D images of brains, for a total of 2088 pairwise registrations; a comparison with 15 other state-of-the-art methods reveals that INSPIRE provides the best overall performance. Code is available at github.com/MIDA-group/inspire.
翻訳日:2021-05-08 14:32:45 公開日:2020-12-14
# 3次元形状モデリングと再構成のための深い最適化事前処理

Deep Optimized Priors for 3D Shape Modeling and Reconstruction ( http://arxiv.org/abs/2012.07241v1 )

ライセンス: Link先を確認
Mingyue Yang, Yuxin Wen, Weikai Chen, Yongwei Chen, Kui Jia(参考訳) 多くの学習ベースのアプローチでは、学習前の一般性がトレーニングサンプルの規模やバリエーションに制限されるため、見えないデータへのスケーリングが難しい。 3Dデータセットの空間性を考えると、これは特に3D学習タスクにおいて当てはまる。 本稿では,深層発電機の一般化能力を大幅に向上させる3次元モデリングと再構成のための新しい学習フレームワークを提案する。 提案手法は,学習に基づく手法と最適化に基づく手法の両端を結びつけるものである。 特に,事前学習した事前コードをテスト時に修正する一般的な手法とは異なり,学習した事前および潜時コードを,トレーニング後の入力物理的測定値に応じてさらに最適化することを提案する。 提案手法は,事前学習された事前条件によって制約される障壁を効果的に破壊し,未学習データに高品質な適応をもたらす可能性がある。 我々は, 暗黙的表面表現を用いた枠組みを実現し, 入力として非常にスパースあるいは崩壊した観測を行う様々な課題において, アプローチの有効性を検証する。 実験の結果,本手法は一般性と精度の両面で最先端手法と好適に比較できることがわかった。

Many learning-based approaches have difficulty scaling to unseen data, as the generality of its learned prior is limited to the scale and variations of the training samples. This holds particularly true with 3D learning tasks, given the sparsity of 3D datasets available. We introduce a new learning framework for 3D modeling and reconstruction that greatly improves the generalization ability of a deep generator. Our approach strives to connect the good ends of both learning-based and optimization-based methods. In particular, unlike the common practice that fixes the pre-trained priors at test time, we propose to further optimize the learned prior and latent code according to the input physical measurements after the training. We show that the proposed strategy effectively breaks the barriers constrained by the pre-trained priors and could lead to high-quality adaptation to unseen data. We realize our framework using the implicit surface representation and validate the efficacy of our approach in a variety of challenging tasks that take highly sparse or collapsed observations as input. Experimental results show that our approach compares favorably with the state-of-the-art methods in terms of both generality and accuracy.
翻訳日:2021-05-08 14:32:32 公開日:2020-12-14
# 深層表面ネットワークによるカテゴリーレベルの形状サリエンシの学習

Learning Category-level Shape Saliency via Deep Implicit Surface Networks ( http://arxiv.org/abs/2012.07290v1 )

ライセンス: Link先を確認
Chaozheng Wu, Lin Sun, Xun Xu, Kui Jia(参考訳) 本論文は,物体形状のカテゴリの定義に関する基本的な好奇心から動機付けられたものである。 例えば、飛行機には翼があり、椅子には脚があるという共通の知識があるかもしれない。 同じカテゴリの異なるインスタンス間の大きな形状のバリエーションを考えると、我々は、連続したオブジェクト表面上の個々の点に対して定義された量を開発することに正式に興味を持ち、その量は、個々の表面点がカテゴリとしての形状の形成にどのように寄与するかを特定する。 略して、カテゴリーレベルの形状塩分率または形状塩分率と表現する。 そこで,本研究では,入力潜時符号の容量を制限して,暗黙表面ネットワークから同一カテゴリの形状例を学習し,暗示表面のサンプル点に対する正解率スコアを推定する手法を提案する。 また, コントラストトレーニングの損失を増すことにより, 塩分予測も強化した。 このような形状サルジェンシーの学習された表面写像は、滑らかさ、対称性、意味的代表性の性質を持つと期待する。 本手法を代用塩分計算法と比較し,これらの特性を検証した。 特に, 学習した形状塩分率を利用して, 対象表面のカテゴリ塩分やインスタンス特有の部分の再構築が可能であること, 学習した塩分濃度のセマンティックな表現性も有効性に反映され, より優れた点雲分類のための表面点の選択を導出する。

This paper is motivated from a fundamental curiosity on what defines a category of object shapes. For example, we may have the common knowledge that a plane has wings, and a chair has legs. Given the large shape variations among different instances of a same category, we are formally interested in developing a quantity defined for individual points on a continuous object surface; the quantity specifies how individual surface points contribute to the formation of the shape as the category. We term such a quantity as category-level shape saliency or shape saliency for short. Technically, we propose to learn saliency maps for shape instances of a same category from a deep implicit surface network; sensible saliency scores for sampled points in the implicit surface field are predicted by constraining the capacity of input latent code. We also enhance the saliency prediction with an additional loss of contrastive training. We expect such learned surface maps of shape saliency to have the properties of smoothness, symmetry, and semantic representativeness. We verify these properties by comparing our method with alternative ways of saliency computation. Notably, we show that by leveraging the learned shape saliency, we are able to reconstruct either category-salient or instance-specific parts of object surfaces; semantic representativeness of the learned saliency is also reflected in its efficacy to guide the selection of surface points for better point cloud classification.
翻訳日:2021-05-08 14:32:02 公開日:2020-12-14
# 圏分布のモルフォロジー

Morphology on categorical distributions ( http://arxiv.org/abs/2012.07315v1 )

ライセンス: Link先を確認
Silas Nyboe {\O}rting, Hans Jacob Teglbj{\ae}rg Stephensen, Jon Sporring(参考訳) カテゴリー分布は、多クラスセグメンテーションにおける不確かさの自然な表現である。 2クラスの場合、カテゴリー分布はベルヌーイ分布に還元され、グレースケールの形態は様々な有用な操作を提供する。 一般に、不確定な多クラスセグメンテーションに形態素演算を適用することは、圏分布の像が完備格子ではないため、単純ではない。 カラー画像の形態学は注目されているが、カラー画像やカテゴリ画像ではそうではない。 本研究では,古典的形態学と確率論的視点を組み合わせることにより,カテゴリー分布に関する形態学の要件を定式化する。 次に、これらの要件を尊重する演算子を定義し、カテゴリ分布の保護操作を導入し、脳腫瘍のセグメンテーションにおけるアノテータバイアスのモデル化と、マルチクラスのU-Netの予測からベシクルインスタンスのセグメンテーションの2つの例でこれらの演算子の有用性を説明する。

The categorical distribution is a natural representation of uncertainty in multi-class segmentations. In the two-class case the categorical distribution reduces to the Bernoulli distribution, for which grayscale morphology provides a range of useful operations. In the general case, applying morphological operations on uncertain multi-class segmentations is not straightforward as an image of categorical distributions is not a complete lattice. Although morphology on color images has received wide attention, this is not so for color-coded or categorical images and even less so for images of categorical distributions. In this work, we establish a set of requirements for morphology on categorical distributions by combining classic morphology with a probabilistic view. We then define operators respecting these requirements, introduce protected operations on categorical distributions and illustrate the utility of these operators on two example tasks: modeling annotator bias in brain tumor segmentations and segmenting vesicle instances from the predictions of a multi-class U-Net.
翻訳日:2021-05-08 14:31:40 公開日:2020-12-14
# 固有画像のキャプション評価

Intrinsic Image Captioning Evaluation ( http://arxiv.org/abs/2012.07333v1 )

ライセンス: Link先を確認
Chao Zeng, Sam Kwong(参考訳) 画像キャプションタスクは、画像から適切な記述を生成する。 このタスクには、正確性、流動性、多様性など、いくつかの課題がある。 しかし、キャプションモデルの結果を評価しながら、これらの特性をすべてカバーできるメトリクスは少なく、本稿では、まず、現代のメトリクスを包括的に調査する。 自動エンコーダ機構と単語埋め込みの研究の進展に動機づけられ,画像キャプションのための学習ベースのメトリクスを提案し,本質的画像キャプション評価(i2ce)と呼ぶ。 最新の画像キャプションモデルをいくつか選択し,同時代の指標と提案したI2CEに関して,MS COCOデータセット上でその性能を検証した。 実験結果から,提案手法は,セマンティックな類似表現やセマンティックスに遭遇した場合に,頑健な性能を維持し,より柔軟なスコアを候補キャプションに与えることができることがわかった。 この点に関して、提案された指標は、既存の指標と相補的なキャプション間の固有情報に関する新しい指標として機能する可能性がある。

The image captioning task is about to generate suitable descriptions from images. For this task there can be several challenges such as accuracy, fluency and diversity. However there are few metrics that can cover all these properties while evaluating results of captioning models.In this paper we first conduct a comprehensive investigation on contemporary metrics. Motivated by the auto-encoder mechanism and the research advances of word embeddings we propose a learning based metrics for image captioning, which we call Intrinsic Image Captioning Evaluation(I2CE). We select several state-of-the-art image captioning models and test their performances on MS COCO dataset with respects to both contemporary metrics and the proposed I2CE. Experiment results show that our proposed method can keep robust performance and give more flexible scores to candidate captions when encountered with semantic similar expression or less aligned semantics. On this concern the proposed metric could serve as a novel indicator on the intrinsic information between captions, which may be complementary to the existing ones.
翻訳日:2021-05-08 14:31:23 公開日:2020-12-14
# CLIC Pフレーム符号化のための強化再構成による学習ビデオコーデック

Learned Video Codec with Enriched Reconstruction for CLIC P-frame Coding ( http://arxiv.org/abs/2012.07462v1 )

ライセンス: Link先を確認
David Alexandre and Hsueh-Ming Hang(参考訳) 本稿では,学習画像圧縮(clic, cvprworkshop)2020 p-frame符号化のための学習ベースのビデオコーデックを提案する。 具体的には、残差信号と運動ベクトルを符号化するためのRefine-Netを用いた圧縮機ネットワークを設計した。 また,動き推定のための階層型注意型me-netも導入した。 設計を検証するため,モジュールと異なる入力形式について広範なアブレーション研究を行った。 ビデオコーデックでは,CLIC P-frame Challengeで規定されたデコーダ側の完全参照フレームを用いて,その性能を示す。 実験結果から,提案するコーデックは,品質指標の面では,トップパフォーマとの競争力が高いことがわかった。

This paper proposes a learning-based video codec, specifically used for Challenge on Learned Image Compression (CLIC, CVPRWorkshop) 2020 P-frame coding. More specifically, we designed a compressor network with Refine-Net for coding residual signals and motion vectors. Also, for motion estimation, we introduced a hierarchical, attention-based ME-Net. To verify our design, we conducted an extensive ablation study on our modules and different input formats. Our video codec demonstrates its performance by using the perfect reference frame at the decoder side specified by the CLIC P-frame Challenge. The experimental result shows that our proposed codec is very competitive with the Challenge top performers in terms of quality metrics.
翻訳日:2021-05-08 14:30:51 公開日:2020-12-14
# 原点雲からの形状モデリングと再構成のための表面自己相似性のサイン非依存的学習

Sign-Agnostic Implicit Learning of Surface Self-Similarities for Shape Modeling and Reconstruction from Raw Point Clouds ( http://arxiv.org/abs/2012.07498v1 )

ライセンス: Link先を確認
Wenbin Zhao, Jiabao Lei, Yuxin Wen, Jianguo Zhang, Kui Jia(参考訳) 物体の原点雲からの形状モデリングと再構成は、視覚とグラフィック研究における根本的な課題である。 古典的手法では、解析的形状を優先するが、スキャンされた点が清潔さと完全性という理想的な条件から逸脱すると、その性能は低下する。 補助的なトレーニング形状から暗黙的表面表現のグローバルおよび/またはローカルモデルを学ぶデータ駆動アプローチは、近年重要な進歩を遂げている。 Motivated from a universal phenomenon that self-similar shape patterns of local surface patches repeat across the entire surface of an object, we aim to push forward the data-driven strategies and propose to learn a local implicit surface network for a shared, adaptive modeling of the entire surface for a direct surface reconstruction from raw point cloud; we also enhance the leveraging of surface self-similarities by improving correlations among the optimized latent codes of individual surface patches. 生点の向きは利用できないかうるか、うるさいかを考えると、符号非依存学習を我々の局所暗黙的モデルに拡張することで、符号なし入力から符号付き局所表面の暗黙的場を復元することができる。 我々はこのフレームワークを,表面自己相似性(sail-s3)のサイン非依存的暗黙的学習と呼ぶ。 局所符号反転のグローバルな後最適化により、SAIL-S3は原点雲を直接モデル化し、高品質な物体表面を再構成することができる。 実験は既存の方法よりも優れていることを示す。

Shape modeling and reconstruction from raw point clouds of objects stand as a fundamental challenge in vision and graphics research. Classical methods consider analytic shape priors; however, their performance degraded when the scanned points deviate from the ideal conditions of cleanness and completeness. Important progress has been recently made by data-driven approaches, which learn global and/or local models of implicit surface representations from auxiliary sets of training shapes. Motivated from a universal phenomenon that self-similar shape patterns of local surface patches repeat across the entire surface of an object, we aim to push forward the data-driven strategies and propose to learn a local implicit surface network for a shared, adaptive modeling of the entire surface for a direct surface reconstruction from raw point cloud; we also enhance the leveraging of surface self-similarities by improving correlations among the optimized latent codes of individual surface patches. Given that orientations of raw points could be unavailable or noisy, we extend sign agnostic learning into our local implicit model, which enables our recovery of signed implicit fields of local surfaces from the unsigned inputs. We term our framework as Sign-Agnostic Implicit Learning of Surface Self-Similarities (SAIL-S3). With a global post-optimization of local sign flipping, SAIL-S3 is able to directly model raw, un-oriented point clouds and reconstruct high-quality object surfaces. Experiments show its superiority over existing methods.
翻訳日:2021-05-08 14:29:52 公開日:2020-12-14
# img2pose: 6dofによる顔アライメントと顔位置推定

img2pose: Face Alignment and Detection via 6DoF, Face Pose Estimation ( http://arxiv.org/abs/2012.07791v1 )

ライセンス: Link先を確認
Vitor Albiero, Xingyu Chen, Xi Yin, Guan Pang, Tal Hassner(参考訳) 実時間6自由度(6自由度)、3次元顔ポーズ推定を顔検出やランドマーク定位なしで提案する。 顔の6DoF剛性変換を推定することは、顔のランドマーク検出よりも簡単な問題であり、しばしば3次元顔アライメントに使用される。 さらに、6DoFはフェイスバウンディングボックスラベルよりも多くの情報を提供する。 a) 予備的な顔検出なしに、6DoFのポーズを写真のすべての顔に反映させる、容易に訓練され、効率的で、より高速なR-CNNベースのモデルを記述する。 b) モデルの訓練および評価中に作成された入力写真と任意の作物の間でポーズがどのように変換・維持されるかを説明する。 (c) 最後に、顔のポーズが検出境界ボックストレーニングラベルを置き換える方法を示す。 AFLW2000-3D と BIWI の試験結果から,本手法は実時間で動作し,SotA (SotA) の顔のポーズ推定に優れることがわかった。 また,本手法は,境界ボックスラベルに最適化されていないにもかかわらず,WIDER FACE検出ベンチマークにおいて同等の複雑性を持つSotAモデルを上回る。

We propose real-time, six degrees of freedom (6DoF), 3D face pose estimation without face detection or landmark localization. We observe that estimating the 6DoF rigid transformation of a face is a simpler problem than facial landmark detection, often used for 3D face alignment. In addition, 6DoF offers more information than face bounding box labels. We leverage these observations to make multiple contributions: (a) We describe an easily trained, efficient, Faster R-CNN--based model which regresses 6DoF pose for all faces in the photo, without preliminary face detection. (b) We explain how pose is converted and kept consistent between the input photo and arbitrary crops created while training and evaluating our model. (c) Finally, we show how face poses can replace detection bounding box training labels. Tests on AFLW2000-3D and BIWI show that our method runs at real-time and outperforms state of the art (SotA) face pose estimators. Remarkably, our method also surpasses SotA models of comparable complexity on the WIDER FACE detection benchmark, despite not been optimized on bounding box labels.
翻訳日:2021-05-08 14:27:56 公開日:2020-12-14
# 教師なし音響単語埋め込みの入力特徴としての自己教師あり音声表現の比較

A comparison of self-supervised speech representations as input features for unsupervised acoustic word embeddings ( http://arxiv.org/abs/2012.07387v1 )

ライセンス: Link先を確認
Lisa van Staden, Herman Kamper(参考訳) 多くの音声処理タスクでは、音声セグメント間の音響的類似度を測定する。 音響単語埋め込み(AWE)は、任意の長さの音声セグメントを固定次元ベクトルにマッピングすることで、効率的な比較を可能にする。 unlabelled speechが唯一の利用可能なリソースであるゼロリソース音声処理では、aweの最良のアプローチのいくつかは、自動的に検出される単語のようなセグメントの形で、弱いトップダウン制約に依存している。 セグメントレベルで埋め込みを学ぶのではなく、ゼロリソースの研究の別の一行は、短期的なフレームレベルでの表現学習に注目した。 最近のアプローチには、自己教師付き予測符号化と対応オートエンコーダ(CAE)モデルがある。 本稿では,教師なしaweモデルへのトレーニングの入力として使用する場合,フレームレベルの特徴が有益かどうかを検討する。 フレームレベルの特徴として、コントラスト予測符号化(CPC)、自己回帰予測符号化、CAEを従来のMFCCと比較する。 これらは、繰り返しCAEベースのAWEモデルの入力として使用される。 英語とXitsongaのデータにおける単語識別タスクでは、3つの表現学習アプローチがMFCCよりも優れており、CPCは一貫して最大の改善を示している。 言語横断実験では、英語で訓練されたCPC機能もXitsongaに移行できることがわかった。

Many speech processing tasks involve measuring the acoustic similarity between speech segments. Acoustic word embeddings (AWE) allow for efficient comparisons by mapping speech segments of arbitrary duration to fixed-dimensional vectors. For zero-resource speech processing, where unlabelled speech is the only available resource, some of the best AWE approaches rely on weak top-down constraints in the form of automatically discovered word-like segments. Rather than learning embeddings at the segment level, another line of zero-resource research has looked at representation learning at the short-time frame level. Recent approaches include self-supervised predictive coding and correspondence autoencoder (CAE) models. In this paper we consider whether these frame-level features are beneficial when used as inputs for training to an unsupervised AWE model. We compare frame-level features from contrastive predictive coding (CPC), autoregressive predictive coding and a CAE to conventional MFCCs. These are used as inputs to a recurrent CAE-based AWE model. In a word discrimination task on English and Xitsonga data, all three representation learning approaches outperform MFCCs, with CPC consistently showing the biggest improvement. In cross-lingual experiments we find that CPC features trained on English can also be transferred to Xitsonga.
翻訳日:2021-05-08 14:27:36 公開日:2020-12-14
# 弱監督型音声におけるキーワードの局所化に向けて

Towards localisation of keywords in speech using weak supervision ( http://arxiv.org/abs/2012.07396v1 )

ライセンス: Link先を確認
Kayode Olaleye, Benjamin van Niekerk, Herman Kamper(参考訳) 弱教師付きおよび自己教師型モデルの開発は、完全な転写ができない低リソース環境での音声技術を可能にする。 位置情報が明示的に提供されない2つの弱い監督形態を用いてキーワードのローカライズが可能かどうかを検討する。 第一に、単語の存在または欠落だけが示される。 単語のバッグ (BoW) ラベル。 第2に、視覚的なコンテキストは、ラベルのない発話とペアリングされた画像形式で提供され、ペア化されたデータを使用して、モデルが自己教師ありの方法で訓練される必要がある。 キーワードのローカライズには,視覚領域で一般的に使用されるサリエンシーに基づく手法を適用する。 ネットワークアーキテクチャの一部としてローカライズを行う既存の手法と比較する。 応答性に基づく手法はより柔軟であるが(アーキテクチャ上の制約なしに適用できる)、キーワードのローカライズに使用する場合の限界を特定する。 2種類の監視方法のうち、視覚的に訓練されたモデルは、BoW訓練されたモデルよりも性能が劣る。 視覚的に訓練されたモデルが意味論的に関連のある単語を見つけることは定性的に示されるが、一貫性はない。 以上の結果から,局所化を許容する信号はいくつか存在するが,他の局所化手法はこれらの弱い監督形態に合致する可能性が示唆された。

Developments in weakly supervised and self-supervised models could enable speech technology in low-resource settings where full transcriptions are not available. We consider whether keyword localisation is possible using two forms of weak supervision where location information is not provided explicitly. In the first, only the presence or absence of a word is indicated, i.e. a bag-of-words (BoW) labelling. In the second, visual context is provided in the form of an image paired with an unlabelled utterance; a model then needs to be trained in a self-supervised fashion using the paired data. For keyword localisation, we adapt a saliency-based method typically used in the vision domain. We compare this to an existing technique that performs localisation as a part of the network architecture. While the saliency-based method is more flexible (it can be applied without architectural restrictions), we identify a critical limitation when using it for keyword localisation. Of the two forms of supervision, the visually trained model performs worse than the BoW-trained model. We show qualitatively that the visually trained model sometimes locate semantically related words, but this is not consistent. While our results show that there is some signal allowing for localisation, it also calls for other localisation methods better matched to these forms of weak supervision.
翻訳日:2021-05-08 14:27:15 公開日:2020-12-14
# 自己教師型ベクトル量子化ニューラルネットワークによる音声と単語のセグメンテーション

Towards unsupervised phone and word segmentation using self-supervised vector-quantized neural networks ( http://arxiv.org/abs/2012.07551v1 )

ライセンス: Link先を確認
Herman Kamper, Benjamin van Niekerk(参考訳) 音声のセグメンテーションとクラスタリングを、監視せずに低ビット電話ライクなシーケンスに分類する。 具体的には、事前訓練されたベクトル量子化(VQ)ニューラルネットワークを制約し、連続した特徴ベクトルのブロックを同一コードに割り当てることで、音声の可変レートセグメンテーションを離散単位に設定する。 セグメンテーションには2つの方法がある。 第一に、あらかじめ指定されたセグメント数に到達するまで、特徴は厳密にマージされる。 2つ目は動的プログラミングを使って2乗誤差をペナルティ項で最適化し、少ないが長いセグメントを奨励する。 これらのVQセグメンテーション手法は, 教師なし電話セグメンテーション, ABX電話識別, 同一差分単語識別, 記号的単語セグメンテーションアルゴリズムへの入力など, 幅広いタスクにまたがって変更することなく利用できることを示す。 ペナルティ化方式は一般に最もよく機能する。 結果が最先端のものに匹敵する場合もあるが、すべてのタスクにおいて合理的な競合アプローチは、かなり低いビットレートで比較される。

We investigate segmenting and clustering speech into low-bitrate phone-like sequences without supervision. We specifically constrain pretrained self-supervised vector-quantized (VQ) neural networks so that blocks of contiguous feature vectors are assigned to the same code, thereby giving a variable-rate segmentation of the speech into discrete units. Two segmentation methods are considered. In the first, features are greedily merged until a prespecified number of segments are reached. The second uses dynamic programming to optimize a squared error with a penalty term to encourage fewer but longer segments. We show that these VQ segmentation methods can be used without alteration across a wide range of tasks: unsupervised phone segmentation, ABX phone discrimination, same-different word discrimination, and as inputs to a symbolic word segmentation algorithm. The penalized method generally performs best. While results are only comparable to the state-of-the-art in some cases, in all tasks a reasonable competing approach is outperformed at a substantially lower bitrate.
翻訳日:2021-05-08 14:26:57 公開日:2020-12-14
# time to transfer: 機械と人間のチャットハンドオフの予測と評価

Time to Transfer: Predicting and Evaluating Machine-Human Chatting Handoff ( http://arxiv.org/abs/2012.07610v1 )

ライセンス: Link先を確認
Jiawei Liu, Zhe Gao, Yangyang Kang, Zhuoren Jiang, Guoxiu He, Changlong Sun, Xiaozhong Liu, Wei Lu(参考訳) チャットボットは人間のエージェントを完全に置き換えられるか? 短い答えは、"それは...に依存します。 例えば、対話の話題のスペクトルがトレーニングコーパスのカバレッジを超えて広がるような難しいケースでは、チャットボットは機能不全を起こし、不満足な発話を返す。 この問題は、人間とアルゴリズムの協調を可能にするMHCH(Machine-Human Chatting Handoff)を導入することで解決できる。 正規/伝達可能な発話を検出するために,難解な符号化を利用して発話の表現を強化するDAMI(Difficulty-Assisted Matching Inference)ネットワークを提案する。 さらに,コンテクストマッチング機能を取り込むためのマッチング推論機構を導入する。 MHCHの耐久性を考慮した新しい評価指標であるGolden Transfer in Tolerance (GT-T)を提案する。 タスクに対する洞察を提供し、提案したモデルを検証するために、2つの新しいデータセットを収集する。 MHCH上でのモデルの有効性を示すために, 一連のベースラインモデルに対して大規模な実験結果を示し, 比較した。

Is chatbot able to completely replace the human agent? The short answer could be - "it depends...". For some challenging cases, e.g., dialogue's topical spectrum spreads beyond the training corpus coverage, the chatbot may malfunction and return unsatisfied utterances. This problem can be addressed by introducing the Machine-Human Chatting Handoff (MHCH), which enables human-algorithm collaboration. To detect the normal/transferable utterances, we propose a Difficulty-Assisted Matching Inference (DAMI) network, utilizing difficulty-assisted encoding to enhance the representations of utterances. Moreover, a matching inference mechanism is introduced to capture the contextual matching features. A new evaluation metric, Golden Transfer within Tolerance (GT-T), is proposed to assess the performance by considering the tolerance property of the MHCH. To provide insights into the task and validate the proposed model, we collect two new datasets. Extensive experimental results are presented and contrasted against a series of baseline models to demonstrate the efficacy of our model on MHCH.
翻訳日:2021-05-08 14:26:37 公開日:2020-12-14
# ニューラルネットワーク学習のための適応メモリ多重バッチL-BFGSアルゴリズム

An Adaptive Memory Multi-Batch L-BFGS Algorithm for Neural Network Training ( http://arxiv.org/abs/2012.07434v1 )

ライセンス: Link先を確認
Federico Zocco and Se\'an McLoone(参考訳) バッチ型アルゴリズムの並列実装の可能性と、近似された2次情報を持つ高速化された収束能力に動機づけられたbfgsアルゴリズムの限られたメモリバージョンは、近年大規模ニューラルネットワークのトレーニング問題で注目を集めている。 コスト関数の形状は概して2次ではなく、最小の近傍でほぼ2次になるので、L-BFGSによる2次情報の使用は、トレーニングの初期段階、すなわち、信頼できない。 最低限ではありません そこで,2次情報の影響をトレーニングの進行として制御するために,開発ベースの増減(dev-increase)方式による漸進的記憶と曲率データの活用により,徐々に曲率情報の信頼度を高めるマルチバッチl-bfgsアルゴリズム,mb-amを提案する。 MLPおよびCNNモデルのトレーニングにおいて,6つの識別モデルベンチマーク問題を用いてMB-AMの収束がわずかに速く,平均的に標準マルチバッチL-BFGSアルゴリズムよりも優れた解が得られることを示す。

Motivated by the potential for parallel implementation of batch-based algorithms and the accelerated convergence achievable with approximated second order information a limited memory version of the BFGS algorithm has been receiving increasing attention in recent years for large neural network training problems. As the shape of the cost function is generally not quadratic and only becomes approximately quadratic in the vicinity of a minimum, the use of second order information by L-BFGS can be unreliable during the initial phase of training, i.e. when far from a minimum. Therefore, to control the influence of second order information as training progresses, we propose a multi-batch L-BFGS algorithm, namely MB-AM, that gradually increases its trust in the curvature information by implementing a progressive storage and use of curvature data through a development-based increase (dev-increase) scheme. Using six discriminative modelling benchmark problems we show empirically that MB-AM has slightly faster convergence and, on average, achieves better solutions than the standard multi-batch L-BFGS algorithm when training MLP and CNN models.
翻訳日:2021-05-08 14:25:40 公開日:2020-12-14
# 深層学習表現のためのグラフ

Graphs for deep learning representations ( http://arxiv.org/abs/2012.07439v1 )

ライセンス: Link先を確認
Carlos Lassance(参考訳) 近年,Deep Learning法は,画像分類や多言語自動テキスト翻訳など,幅広い機械学習タスクにおいて,最先端技術を実現している。 これらのアーキテクチャは、エンドツーエンドの方法で機械学習タスクを解決するように訓練される。 上位層のパフォーマンスを達成するために、これらのアーキテクチャは、しばしば非常に多くのトレーニング可能なパラメータを必要とする。 いくつかの望ましくない結果があり、これらの問題に対処するためには、深層学習アーキテクチャのブラックボックスをオープンできることが望まれている。 問題なのは、表現の高次元性とトレーニングプロセスの確率性のため、そうすることは困難である。 本稿では,グラフ信号処理(GSP)の最近の進歩に基づくグラフ形式を導入して,これらのアーキテクチャを考察する。 すなわち、ディープニューラルネットワークの潜在空間を表現するためにグラフを使用します。 このグラフ形式は、一般化能力の確保、学習プロセスの設計における任意の選択量の削減、入力に追加される小さな摂動に対する堅牢性の向上、複雑性の低減など、さまざまな質問に答えることができます。

In recent years, Deep Learning methods have achieved state of the art performance in a vast range of machine learning tasks, including image classification and multilingual automatic text translation. These architectures are trained to solve machine learning tasks in an end-to-end fashion. In order to reach top-tier performance, these architectures often require a very large number of trainable parameters. There are multiple undesirable consequences, and in order to tackle these issues, it is desired to be able to open the black boxes of deep learning architectures. Problematically, doing so is difficult due to the high dimensionality of representations and the stochasticity of the training process. In this thesis, we investigate these architectures by introducing a graph formalism based on the recent advances in Graph Signal Processing (GSP). Namely, we use graphs to represent the latent spaces of deep neural networks. We showcase that this graph formalism allows us to answer various questions including: ensuring generalization abilities, reducing the amount of arbitrary choices in the design of the learning process, improving robustness to small perturbations added to the inputs, and reducing computational complexity
翻訳日:2021-05-08 14:25:18 公開日:2020-12-14
# リニアコンポーネントのリカバリ:複雑度自動エンコーダ設計の削減

Recovery of Linear Components: Reduced Complexity Autoencoder Designs ( http://arxiv.org/abs/2012.07543v1 )

ライセンス: Link先を確認
Federico Zocco and Se\'an McLoone(参考訳) 次元の削減は、多くのデータ解析アプリケーションにおける重要な前処理ステップであり、モデルの性能と計算複雑性に対する次元の呪いとコリニア性の悪影響に対処する。 さらに、多くのアプリケーションでは、利用可能な事前情報なしでセット全体を最も表現する変数のサブセットを選択することで、入力次元を減らすことが望ましい。 教師なし変数選択技術はこの2つ目の問題に対する解決策を提供する。 オートエンコーダは、適切に正規化されていれば、教師なし次元の縮小と変数の選択の両方を解決できるが、時間に敏感なアプリケーションでは、大きなニューラルネットワークのトレーニングは禁止される。 本稿では,線形および非線形次元削減手法の中間地点として機能する線形成分の回収(Recovery of Linear Components, RLC)という手法を提案する。 合成および実世界のケーススタディの助けを借りて、RCCは、類似した複雑さのオートエンコーダと比較すると、高い精度、過度な適合に対するロバスト性、より高速なトレーニング時間を示す。 さらに、計算複雑性が比較的小さくなると、RLCは半導体製造用ウエハ測定サイト最適化アプリケーションにおいて、現在の状態よりも優れることを示した。

Reducing dimensionality is a key preprocessing step in many data analysis applications to address the negative effects of the curse of dimensionality and collinearity on model performance and computational complexity, to denoise the data or to reduce storage requirements. Moreover, in many applications it is desirable to reduce the input dimensions by choosing a subset of variables that best represents the entire set without any a priori information available. Unsupervised variable selection techniques provide a solution to this second problem. An autoencoder, if properly regularized, can solve both unsupervised dimensionality reduction and variable selection, but the training of large neural networks can be prohibitive in time sensitive applications. We present an approach called Recovery of Linear Components (RLC), which serves as a middle ground between linear and non-linear dimensionality reduction techniques, reducing autoencoder training times while enhancing performance over purely linear techniques. With the aid of synthetic and real world case studies, we show that the RLC, when compared with an autoencoder of similar complexity, shows higher accuracy, similar robustness to overfitting, and faster training times. Additionally, at the cost of a relatively small increase in computational complexity, RLC is shown to outperform the current state-of-the-art for a semiconductor manufacturing wafer measurement site optimization application.
翻訳日:2021-05-08 14:25:04 公開日:2020-12-14
# E2E-FS:ニューラルネットワークのエンドツーエンド特徴選択手法

E2E-FS: An End-to-End Feature Selection Method for Neural Networks ( http://arxiv.org/abs/2012.07671v1 )

ライセンス: Link先を確認
Brais Cancela and Ver\'onica Bol\'on-Canedo and Amparo Alonso-Betanzos(参考訳) 古典的な組込み特徴選択アルゴリズムはしばしば木に基づくアルゴリズムとラッソ変種という2つの大きなグループに分けられる。 ツリーベースのアルゴリズムは、特定の出力をトリガーするためにどの変数が使われているのかを明確に説明するが、ラッソ的なアプローチは正確性を高めるために詳細な説明を犠牲にする。 本稿では,E2E-FS(End-to-End Feature Selection)と呼ばれる新しい特徴選択アルゴリズムを提案する。 非凸正規化項を持つにもかかわらず、このアルゴリズムはラッソ法と同様、勾配降下法を用いて解かれ、モデルに、次に分類器によって使用されるであろう最大数の特徴を特に選択させる制限が課される。 これらは厳しい制約であるが、実験の結果、このアルゴリズムは勾配降下アルゴリズムを用いて訓練された任意の学習モデルで使用できることが示された。

Classic embedded feature selection algorithms are often divided in two large groups: tree-based algorithms and lasso variants. Both approaches are focused in different aspects: while the tree-based algorithms provide a clear explanation about which variables are being used to trigger a certain output, lasso-like approaches sacrifice a detailed explanation in favor of increasing its accuracy. In this paper, we present a novel embedded feature selection algorithm, called End-to-End Feature Selection (E2E-FS), that aims to provide both accuracy and explainability in a clever way. Despite having non-convex regularization terms, our algorithm, similar to the lasso approach, is solved with gradient descent techniques, introducing some restrictions that force the model to specifically select a maximum number of features that are going to be used subsequently by the classifier. Although these are hard restrictions, the experimental results obtained show that this algorithm can be used with any learning model that is trained using a gradient descent algorithm.
翻訳日:2021-05-08 14:24:39 公開日:2020-12-14
# q-Pathsによる重要度サンプリング

Annealed Importance Sampling with q-Paths ( http://arxiv.org/abs/2012.07823v1 )

ライセンス: Link先を確認
Rob Brekelmans, Vaden Masrani, Thang Bui, Frank Wood, Aram Galstyan, Greg Ver Steeg, Frank Nielsen(参考訳) annealed importance sampling (ais) は分割関数や限界確率を推定するための金本位制であり、移動可能なベースと非正規化されたターゲットとの間の分布の経路上での重要度サンプリングに対応する。 AISは任意の経路に対して偏りのない推定器を生成するが、既存の文献は主に指数族とKLの発散に関連する幾何学的混合またはモーメント平均経路に限られている。 我々は、特殊ケースとして幾何学パスを含む$q$-pathsを用いてAISを探索し、同質なパワー平均、変形指数族、および$\alpha$-divergenceに関連する。

Annealed importance sampling (AIS) is the gold standard for estimating partition functions or marginal likelihoods, corresponding to importance sampling over a path of distributions between a tractable base and an unnormalized target. While AIS yields an unbiased estimator for any path, existing literature has been primarily limited to the geometric mixture or moment-averaged paths associated with the exponential family and KL divergence. We explore AIS using $q$-paths, which include the geometric path as a special case and are related to the homogeneous power mean, deformed exponential family, and $\alpha$-divergence.
翻訳日:2021-05-08 14:23:43 公開日:2020-12-14
# ディファレンシャルプライバシのロバスト性脅威

Robustness Threats of Differential Privacy ( http://arxiv.org/abs/2012.07828v1 )

ライセンス: Link先を確認
Nurislam Tursynbek, Aleksandr Petiushko, Ivan Oseledets(参考訳) 差分プライバシーは、データ分析におけるプライバシーの測定と保証という、強力でゴールドな概念である。 ディファレンシャルプライバシがモデルの精度を低下させることはよく知られている。 しかし、堅牢性の観点から、モデルのセキュリティにどのように影響するかは不明だ。 本稿では,ニューラルネットワークのディファレンシャルプライバシとセキュリティとの間の興味深いトレードオフを実証的に観察する。 標準的なニューラルネットワークは、敵の攻撃や一般的な腐敗といった入力摂動に弱い。 我々は、いくつかの設定で差分プライバシーをトレーニングしたネットワークが、非プライベートバージョンに比べてさらに脆弱であることを実験的に実証した。 これを調べるために,fgsmとpgdの敵,線形決定境界までの距離,曲率プロファイル,破損したデータセットのパフォーマンスなど,さまざまなロバストネス測定を幅広く研究した。 最後に、勾配クリッピングや雑音付加など、微分プライベートニューラルネットワークトレーニングの主な要素が、モデルの堅牢性にどのように影響するかについて検討する。

Differential privacy is a powerful and gold-standard concept of measuring and guaranteeing privacy in data analysis. It is well-known that differential privacy reduces the model's accuracy. However, it is unclear how it affects security of the model from robustness point of view. In this paper, we empirically observe an interesting trade-off between the differential privacy and the security of neural networks. Standard neural networks are vulnerable to input perturbations, either adversarial attacks or common corruptions. We experimentally demonstrate that networks, trained with differential privacy, in some settings might be even more vulnerable in comparison to non-private versions. To explore this, we extensively study different robustness measurements, including FGSM and PGD adversaries, distance to linear decision boundaries, curvature profile, and performance on a corrupted dataset. Finally, we study how the main ingredients of differentially private neural networks training, such as gradient clipping and noise addition, affect (decrease and increase) the robustness of the model.
翻訳日:2021-05-08 14:23:33 公開日:2020-12-14
# ペアワイズクラス類似性を用いた適応検証訓練

Adaptive Verifiable Training Using Pairwise Class Similarity ( http://arxiv.org/abs/2012.07887v1 )

ライセンス: Link先を確認
Shiqi Wang, Kevin Eykholt, Taesung Lee, Jiyong Jang, and Ian Molloy(参考訳) 検証可能なトレーニングは、特定のノイズに対して確実に堅牢なニューラルネットワークの作成に成功しています。 しかしながら、単一のロバスト性基準のみを強制するが、そのパフォーマンスはデータセットの複雑さに乏しい。 CIFAR10では、非ロバストLeNetモデルは21.63%のエラー率を持ち、検証可能なトレーニングとL-無限性ロバスト性基準8/255で作成されたモデルは57.10%のエラー率を持つ。 検討した結果,視覚的に類似したクラスをラベル付けする場合,モデルの誤差率は61.65%に達することがわかった。 性能の低下はクラス間の類似性に起因する。 同様のクラス(すなわち、特徴空間に近く)は、堅牢なモデルを学ぶことの難しさを増大させる。 大きなロバスト性領域のためにロバストモデルをトレーニングすることが望ましいが、ペアワイズクラスの類似性は潜在的な利益を制限する。 また、類似クラスを誤用する相対コストについても考慮する必要がある。 セキュリティやセーフティクリティカルなタスクでは、同様のクラスが同じグループに属しているため、同様にセンシティブである。 本研究では,クラス間類似性を利用して検証可能なトレーニングの性能を改善し,複数の敵の基準に対して頑健なモデルを作成する新しい手法を提案する。 まず,クラスタ間の類似性に基づいたロバスト性基準を割り当てるために,凝集型クラスタリングを用いた。 次に,(1)グループ間ロバスト性優先化(Inter-Group Robustness Prioritization, カスタム損失項を用いて複数のロバスト性保証を持つ単一モデルを生成する),(2)ニューラル決定木(Neural decision tree, 複数サブクラス保証を異なるロバスト性保証で訓練し,それらを決定木アーキテクチャに組み合わせる)を提案する。 Fashion-MNIST と CIFAR10 では,クリーン性能を 9.63% と 30.89% で改善する。 CIFAR100では,クリーンパフォーマンスを26.32%向上させる。

Verifiable training has shown success in creating neural networks that are provably robust to a given amount of noise. However, despite only enforcing a single robustness criterion, its performance scales poorly with dataset complexity. On CIFAR10, a non-robust LeNet model has a 21.63% error rate, while a model created using verifiable training and a L-infinity robustness criterion of 8/255, has an error rate of 57.10%. Upon examination, we find that when labeling visually similar classes, the model's error rate is as high as 61.65%. We attribute the loss in performance to inter-class similarity. Similar classes (i.e., close in the feature space) increase the difficulty of learning a robust model. While it's desirable to train a robust model for a large robustness region, pairwise class similarities limit the potential gains. Also, consideration must be made regarding the relative cost of mistaking similar classes. In security or safety critical tasks, similar classes are likely to belong to the same group, and thus are equally sensitive. In this work, we propose a new approach that utilizes inter-class similarity to improve the performance of verifiable training and create robust models with respect to multiple adversarial criteria. First, we use agglomerate clustering to group similar classes and assign robustness criteria based on the similarity between clusters. Next, we propose two methods to apply our approach: (1) Inter-Group Robustness Prioritization, which uses a custom loss term to create a single model with multiple robustness guarantees and (2) neural decision trees, which trains multiple sub-classifiers with different robustness guarantees and combines them in a decision tree architecture. On Fashion-MNIST and CIFAR10, our approach improves clean performance by 9.63% and 30.89% respectively. On CIFAR100, our approach improves clean performance by 26.32%.
翻訳日:2021-05-08 14:23:19 公開日:2020-12-14
# 精度と不確かさの最適化によるモデル校正の改善

Improving model calibration with accuracy versus uncertainty optimization ( http://arxiv.org/abs/2012.07923v1 )

ライセンス: Link先を確認
Ranganath Krishnan, Omesh Tickoo(参考訳) 深層ニューラルネットワークによる不確実性推定の信頼性と精度の定量化は,安全性クリティカルな応用において重要である。 適切に校正されたモデルは、その予測が確実であるときに正確であり、不正確な場合に高い不確実性を示すべきである。 不確実性校正は、不確実性推定の根拠がないため、難しい問題である。 精度と不確実性の関係を不確実性校正のアンカーとして活用する最適化手法を提案する。 本稿では,不確実性校正(avuc)損失関数を用いて,精度の向上に加えて,不確実性が十分に調整されたモデルの学習を可能にする。 また,事前学習したモデル上でのポストホック不確実性校正にも,同様の手法を適用できることを実証した。 本手法を平均場確率的変分推定法で説明し,最先端手法と比較する。 大規模な画像分類タスクにおいて, 分布シフトによるモデルキャリブレーションが従来手法よりも優れていることを示す。

Obtaining reliable and accurate quantification of uncertainty estimates from deep neural networks is important in safety-critical applications. A well-calibrated model should be accurate when it is certain about its prediction and indicate high uncertainty when it is likely to be inaccurate. Uncertainty calibration is a challenging problem as there is no ground truth available for uncertainty estimates. We propose an optimization method that leverages the relationship between accuracy and uncertainty as an anchor for uncertainty calibration. We introduce a differentiable accuracy versus uncertainty calibration (AvUC) loss function that allows a model to learn to provide well-calibrated uncertainties, in addition to improved accuracy. We also demonstrate the same methodology can be extended to post-hoc uncertainty calibration on pretrained models. We illustrate our approach with mean-field stochastic variational inference and compare with state-of-the-art methods. Extensive experiments demonstrate our approach yields better model calibration than existing methods on large-scale image classification tasks under distributional shift.
翻訳日:2021-05-08 14:22:46 公開日:2020-12-14
# 新型コロナウイルスパンデミックを考慮した離散イベントシミュレーションによる病院容量計画

Hospital Capacity Planning Using Discrete Event Simulation Under Special Consideration of the COVID-19 Pandemic ( http://arxiv.org/abs/2012.07188v1 )

ライセンス: Link先を確認
Thomas Bartz-Beielstein and Frederik Rehbach and Olaf Mersmann and Eva Bartz(参考訳) 新型コロナウイルス(covid-19)パンデミック(covid-19)に配慮した病院向け資源計画ツールbabsim.hospitalを提案する。 例えば、自身のローカル計画との比較、ローカルイベントのシミュレーション、いくつかのシナリオのシミュレーション(worst / best case)などだ。 医療専門家には、例えば、地域、地域、州、連邦レベルでのパンデミックの分析、特別なリスクグループの検討、滞在期間の検証と移行確率の検証のためのツールがある。 最後に、管理、管理、例えば、地域イベントを考慮に入れた個々の病院の状況の評価、ベッド、換気器、部屋、防護服、人事計画といった関連するリソース、例えば医療・看護スタッフの考慮、といった潜在的メリットがある。 babsim.hospitalはシミュレーション、最適化、統計、人工知能のプロセスを非常に効率的な方法で組み合わせる。 コアは離散的なイベントベースのシミュレーションモデルである。

We present a resource-planning tool for hospitals under special consideration of the COVID-19 pandemic, called babsim.hospital. It provides many advantages for crisis teams, e.g., comparison with their own local planning, simulation of local events, simulation of several scenarios (worst / best case). There are benefits for medical professionals, e.g, analysis of the pandemic at local, regional, state and federal level, the consideration of special risk groups, tools for validating the length of stays and transition probabilities. Finally, there are potential advantages for administration, management, e.g., assessment of the situation of individual hospitals taking local events into account, consideration of relevant resources such as beds, ventilators, rooms, protective clothing, and personnel planning, e.g., medical and nursing staff. babsim.hospital combines simulation, optimization, statistics, and artificial intelligence processes in a very efficient way. The core is a discrete, event-based simulation model.
翻訳日:2021-05-08 14:22:31 公開日:2020-12-14
# ディープフェイク攻撃と対策の新たな脅威

The Emerging Threats of Deepfake Attacks and Countermeasures ( http://arxiv.org/abs/2012.07989v1 )

ライセンス: Link先を確認
Shadrack Awah Buo(参考訳) deepfake technology (dt) は新しいレベルの洗練度を身につけた。 サイバー犯罪者は、音、画像、ビデオを操作して個人や企業を欺いたり誤解させたりすることができる。 これは、対処すべき国際機関や個人に対する脅威の増大を表している。 本稿では,deepfakesの概要,社会への便益,dtの働きについて述べる。 ディープフェイクによって世界中の企業、政治、司法システムに提示される脅威を強調する。 さらに,本論文では,ディープフェイクの潜在的な解決策を探求し,今後の研究方向性について述べる。

Deepfake technology (DT) has taken a new level of sophistication. Cybercriminals now can manipulate sounds, images, and videos to defraud and misinform individuals and businesses. This represents a growing threat to international institutions and individuals which needs to be addressed. This paper provides an overview of deepfakes, their benefits to society, and how DT works. Highlights the threats that are presented by deepfakes to businesses, politics, and judicial systems worldwide. Additionally, the paper will explore potential solutions to deepfakes and conclude with future research direction.
翻訳日:2021-05-08 14:21:39 公開日:2020-12-14
# 残留因子の分布予測による深部ポートフォリオ最適化

Deep Portfolio Optimization via Distributional Prediction of Residual Factors ( http://arxiv.org/abs/2012.07245v1 )

ライセンス: Link先を確認
Kentaro Imajo and Kentaro Minami and Katsuya Ito and Kei Nakagawa(参考訳) 近年のディープラーニング技術の発展は、機械学習支援株取引戦略における集中的な研究の動機となっている。 しかし、金融市場は、典型的なデータハングリー機械学習手法の適用を妨げる非常に非定常な性質を持っているため、より良いサンプル効率と堅牢性を確保するためには、金融インダクティブバイアスを活用することが重要である。 本研究では,共通市場要因へのリスク曝露の緩和に一般的に有用であることが知られている残余要因と呼ばれる金融量の分布予測に基づくポートフォリオ構築手法を提案する。 主な技術要素は2つある。 まず,様々な予測アルゴリズムと容易に組み合わせることができる残差情報の計算効率の高い抽出法を提案する。 第2に,振幅不変性や時間スケール不変性など,広く認識されている金融インダクティブバイアスを組み込むことができるニューラルネットワークアーキテクチャを提案する。 本手法が米国および日本の株式市場データに与える影響を実証する。 アブレーション実験を通じて,各手法が取引戦略の性能向上に寄与することを検証する。 我々は、我々の技術が様々な財政問題に幅広い応用を期待する。

Recent developments in deep learning techniques have motivated intensive research in machine learning-aided stock trading strategies. However, since the financial market has a highly non-stationary nature hindering the application of typical data-hungry machine learning methods, leveraging financial inductive biases is important to ensure better sample efficiency and robustness. In this study, we propose a novel method of constructing a portfolio based on predicting the distribution of a financial quantity called residual factors, which is known to be generally useful for hedging the risk exposure to common market factors. The key technical ingredients are twofold. First, we introduce a computationally efficient extraction method for the residual information, which can be easily combined with various prediction algorithms. Second, we propose a novel neural network architecture that allows us to incorporate widely acknowledged financial inductive biases such as amplitude invariance and time-scale invariance. We demonstrate the efficacy of our method on U.S. and Japanese stock market data. Through ablation experiments, we also verify that each individual technique contributes to improving the performance of trading strategies. We anticipate our techniques may have wide applications in various financial problems.
翻訳日:2021-05-08 14:21:31 公開日:2020-12-14
# Koopman ジェネレータを用いたエージェントベースシステムのデータ駆動モデル削減

Data-driven model reduction of agent-based systems using the Koopman generator ( http://arxiv.org/abs/2012.07718v1 )

ライセンス: Link先を確認
Jan-Hendrik Niemann, Stefan Klus, Christof Sch\"utte(参考訳) 社会システムの動的挙動はエージェントベースのモデルによって記述できる。 単一のエージェントは簡単に説明可能な規則に従うが、複雑な時間進化パターンは相互作用によって現れる。 しかし、そのようなエージェントベースのモデルのシミュレーションと分析は、エージェントの数が大きい場合、しばしば時間を要する。 本稿では,シミュレーションや実世界のデータのみを用いてエージェントベースシステムの縮小モデルを導出するために,クープマン演算子理論を用いる方法を示す。 我々の目標は粗い粒度のモデルを学び、通常のあるいは確率的な微分方程式による減少ダイナミクスを表現することである。 新しい変数は、例えばエージェントベースのモデルの集約された状態変数であり、より大きなグループの集団行動や集団全体の振る舞いをモデル化する。 既知粗粒度モデルを用いたベンチマーク問題を用いて, エージェント数が十分に大きい場合, 得られた還元系は解析結果とよく一致していることを示す。

The dynamical behavior of social systems can be described by agent-based models. Although single agents follow easily explainable rules, complex time-evolving patterns emerge due to their interaction. The simulation and analysis of such agent-based models, however, is often prohibitively time-consuming if the number of agents is large. In this paper, we show how Koopman operator theory can be used to derive reduced models of agent-based systems using only simulation or real-world data. Our goal is to learn coarse-grained models and to represent the reduced dynamics by ordinary or stochastic differential equations. The new variables are, for instance, aggregated state variables of the agent-based model, modeling the collective behavior of larger groups or the entire population. Using benchmark problems with known coarse-grained models, we demonstrate that the obtained reduced systems are in good agreement with the analytical results, provided that the numbers of agents is sufficiently large.
翻訳日:2021-05-08 14:21:13 公開日:2020-12-14
# IPN-V2とOCTA-500:網膜画像分割のための方法論とデータセット

IPN-V2 and OCTA-500: Methodology and Dataset for Retinal Image Segmentation ( http://arxiv.org/abs/2012.07261v1 )

ライセンス: Link先を確認
Mingchao Li, Yuhan Zhang, Zexuan Ji, Keren Xie, Songtao Yuan, Qinghuai Liu and Qiang Chen(参考訳) 光コヒーレンス断層撮影血管造影(OCTA)は、ミクロンレベルの解像度で網膜血管の3次元構造を提示できる新しい画像モダリティである。 前報では,網膜血管 (RV) と胎児血管領域 (FAZ) のOCTA画像の領域に3D-to-2D画像投影ネットワーク (IPN) が提案された。 その利点の1つは、セグメンテーションの結果がプロジェクション画像や網膜層セグメンテーションを使わずに、元のボリュームから直接得られることである。 本研究では,平面パーセプトロンを追加してIPNを拡張し,水平方向のパーセプトロン能力を高める画像投影ネットワークV2(IPN-V2)を提案する。 また,IPN-V2+の補助として,「チェッカーボード効果」を克服するグローバルリトレーニングプロセスを導入することで,IPN-V2+を提案する。 さらに,OCTA-500と呼ばれる新しいマルチモーダリティデータセットを提案する。 OCTとOCTAのボリューム、6種類のプロジェクション、4種類のテキストラベル、2種類のピクセルレベルラベルを含む2種類の視野(FOV)を持つ500人の被験者を含んでいる。 データセットには、約80GBの360K画像が含まれている。 我々の知る限りでは、このデータセットは現在、豊富な情報を持つ最大のOCTAデータセットである。 最後に,OCTA-500データセットを用いたIPN-V2の性能評価を行った。 実験の結果,提案するIPN-V2は,RVセグメンテーションやFAZセグメンテーションにおいて,IPNや他の深層学習手法よりも優れた性能を示した。

Optical coherence tomography angiography (OCTA) is a novel imaging modality that allows a micron-level resolution to present the three-dimensional structure of the retinal vascular. In our previous work, a 3D-to-2D image projection network (IPN) was proposed for retinal vessel (RV) and foveal avascular zone (FAZ) segmentations in OCTA images. One of its advantages is that the segmentation results are directly from the original volumes without using any projection images and retinal layer segmentation. In this work, we propose image projection network V2 (IPN-V2), extending IPN by adding a plane perceptron to enhance the perceptron ability in the horizontal direction. We also propose IPN-V2+, as a supplement of the IPN-V2, by introducing a global retraining process to overcome the "checkerboard effect". Besides, we propose a new multi-modality dataset, dubbed OCTA-500. It contains 500 subjects with two field of view (FOV) types, including OCT and OCTA volumes, six types of projections, four types of text labels and two types of pixel-level labels. The dataset contains more than 360K images with a size of about 80GB. To the best of our knowledge, it is currently the largest OCTA dataset with the abundant information. Finally, we perform a thorough evaluation of the performance of IPN-V2 on the OCTA-500 dataset. The experimental results demonstrate that our proposed IPN-V2 performs better than IPN and other deep learning methods in RV segmentation and FAZ segmentation.
翻訳日:2021-05-08 14:20:40 公開日:2020-12-14
# 物質認識のための深層学習 : 最近の進歩と課題

Deep Learning for Material recognition: most recent advances and open challenges ( http://arxiv.org/abs/2012.07495v1 )

ライセンス: Link先を確認
Alain Tremeau, Sixiang Xu and Damien Muselet(参考訳) カラー画像から素材を認識することは今でも難しい問題だ。 深層ニューラルネットワークは、オブジェクト認識に非常に優れた結果をもたらし、過去10年間、膨大な量の論文のトピックとなっているが、マテリアルイメージへの適応には、同等の精度に達するためのいくつかの作業が必要である。 それにもかかわらず、最近の研究はディープラーニングによる物体認識において非常に良い結果を得ており、そのほとんどを素材画像データセット、文脈の影響、素材の出現に関するアドホック記述子という3つの側面に注目してレビューする。 あらゆる側面が体系的に導入され、代表作の結果が引用される。 また、この分野における独自の研究を提示するとともに、今後の課題についても指摘します。

Recognizing material from color images is still a challenging problem today. While deep neural networks provide very good results on object recognition and has been the topic of a huge amount of papers in the last decade, their adaptation to material images still requires some works to reach equivalent accuracies. Nevertheless, recent studies achieve very good results in material recognition with deep learning and we propose, in this paper, to review most of them by focusing on three aspects: material image datasets, influence of the context and ad hoc descriptors for material appearance. Every aspect is introduced by a systematic manner and results from representative works are cited. We also present our own studies in this area and point out some open challenges for future works.
翻訳日:2021-05-08 14:20:13 公開日:2020-12-14
# PePScenes: 歩行者行動予測のための新しいデータセットとベースライン

PePScenes: A Novel Dataset and Baseline for Pedestrian Action Prediction in 3D ( http://arxiv.org/abs/2012.07773v1 )

ライセンス: Link先を確認
Amir Rasouli, Tiffany Yau, Peter Lakner, Saber Malekmohammadi, Mohsen Rohani, Jun Luo(参考訳) 道路利用者,特に歩行者の行動を予測することは,自動運転システムにおける安全な移動計画に不可欠である。 従来、歩行者行動予測は将来の軌道予測の観点から実現されてきた。 しかし,近年の研究では,道路横断などの高次行動予測が軌道予測や計画作業の改善に役立つことが示唆されている。 歩行者行動予測アルゴリズムの開発には、既存のデータセットが多数存在するが、鳥の目図の意味地図情報、シーン内の物体の3d位置など、自動運転の文脈において重要な特徴を欠いている。 そこで本研究では,一般的な自動運転データセットnuScenesにフレーム単位の2D/3Dバウンディングボックスと行動アノテーションを追加することで,新たな歩行者行動予測データセットを提案する。 さらに,歩行者横断行動を予測するための様々なデータモダリティを組み込んだハイブリッドニューラルネットワークアーキテクチャを提案する。 提案したデータセット上でモデルを評価することにより,予測タスクに対する異なるデータモダリティの寄与を明らかにする。 データセットはhttps://github.com/huawei-noah/PePScenesで公開されている。

Predicting the behavior of road users, particularly pedestrians, is vital for safe motion planning in the context of autonomous driving systems. Traditionally, pedestrian behavior prediction has been realized in terms of forecasting future trajectories. However, recent evidence suggests that predicting higher-level actions, such as crossing the road, can help improve trajectory forecasting and planning tasks accordingly. There are a number of existing datasets that cater to the development of pedestrian action prediction algorithms, however, they lack certain characteristics, such as bird's eye view semantic map information, 3D locations of objects in the scene, etc., which are crucial in the autonomous driving context. To this end, we propose a new pedestrian action prediction dataset created by adding per-frame 2D/3D bounding box and behavioral annotations to the popular autonomous driving dataset, nuScenes. In addition, we propose a hybrid neural network architecture that incorporates various data modalities for predicting pedestrian crossing action. By evaluating our model on the newly proposed dataset, the contribution of different data modalities to the prediction task is revealed. The dataset is available at https://github.com/huawei-noah/PePScenes.
翻訳日:2021-05-08 14:19:23 公開日:2020-12-14
# マルチインスタンス学習改善のためのビジュアルマイニング手法

A Visual Mining Approach to Improved Multiple-Instance Learning ( http://arxiv.org/abs/2012.07257v1 )

ライセンス: Link先を確認
Sonia Castelo, Moacir Ponti, Rosane Minghim(参考訳) MIL(Multiple-Instance Learning)は、オブジェクト(インスタンス)の集合(バグ)を分類し、ラベルをバッグに割り当てることを目的とした機械学習のパラダイムである。 この問題は、各バッグを表すインスタンスを選択し、MIL問題を標準的な教師付き学習に変換することで解決される。 可視化は,ユーザの知識を分類プロセスに取り入れることで,学習シナリオを評価する上で有用なツールである。 マルチインスタンス学習は,現在の可視化手法では処理できないパラダイムであると考え,milをサポートするマルチスケールツリーベース可視化を提案する。 ツリーの第1レベルはバッグを表し、第2レベルは各バッグに属するインスタンスを表し、ユーザが直感的な方法でデータを理解できるようにする。 さらに,MILのインスタンス選択手法を2つ提案し,モデルをさらに改良する上で有効であることを示す。 私たちのメソッドはバイナリとマルチクラスの両方のシナリオも処理できます。 実験では,SVMを用いて分類器を構築した。 MILTreeレイアウトのサポートにより、初期分類モデルは、プロトタイプインスタンスによって構成されたトレーニングセットを変更して更新された。 実験の結果,MILTreeによる視覚的マイニングは,MILシナリオにおけるモデルの探索と改良に有効であること,インスタンス選択手法が現在の選択肢よりも優れていること,などが確認できた。

Multiple-instance learning (MIL) is a paradigm of machine learning that aims to classify a set (bag) of objects (instances), assigning labels only to the bags. This problem is often addressed by selecting an instance to represent each bag, transforming a MIL problem into a standard supervised learning. Visualization can be a useful tool to assess learning scenarios by incorporating the users' knowledge into the classification process. Considering that multiple-instance learning is a paradigm that cannot be handled by current visualization techniques, we propose a multiscale tree-based visualization to support MIL. The first level of the tree represents the bags, and the second level represents the instances belonging to each bag, allowing the user to understand the data in an intuitive way. In addition, we propose two new instance selection methods for MIL, which help the user to improve the model even further. Our methods are also able to handle both binary and multiclass scenarios. In our experiments, SVM was used to build the classifiers. With support of the MILTree layout, the initial classification model was updated by changing the training set - composed by the prototype instances. Experimental results validate the effectiveness of our approach, showing that visual mining by MILTree can help users in exploring and improving models in MIL scenarios, and that our instance selection methods over-perform current available alternatives in most cases.
翻訳日:2021-05-08 14:18:46 公開日:2020-12-14
# 半教師付き学習における効率的かつ効率的なデータ中毒

Effective and Efficient Data Poisoning in Semi-Supervised Learning ( http://arxiv.org/abs/2012.07381v1 )

ライセンス: Link先を確認
Adriano Franci, Maxime Cordy, Martin Gubri, Mike Papadakis, Yves Le Traon(参考訳) SSL(Semi-Supervised Learning)は、ラベル付きデータと大量の非ラベル付きデータから学習することのメリットを最大化することを目的としている。 未知のラベルを推測するために既知のラベルに依存するため、SSLアルゴリズムはデータ品質に敏感である。 これにより、ラベル付きデータに関連する潜在的な脅威、具体的にはラベル中毒を研究することが重要である。 しかし、SSLのデータ中毒はほとんど調査されていない。 このギャップを埋めるために,効率と効率の両立した新しいデータ中毒法を提案する。 提案手法はSSLの数学的特性を利用してラベル付き入力の影響を非ラベル付き入力に近似し,有毒な入力を識別することで,不正に推測されたラベルの最大数を生成できる。 我々は,12の異なる実験環境下での3つの分類問題に対するアプローチを評価した。 最先端技術と比較して、我々の影響に基づく攻撃はエラー率を平均して3倍に増加させ、同時に複数の桁の速度も向上させる。 さらに,本手法は,学習モデルの学習前に,調査に値する入力を技術者に通知することができる。 その結果, 汚染された入力の3分の1(影響に基づいて選択)は, 毒性効果を50%減少させることがわかった。

Semi-Supervised Learning (SSL) aims to maximize the benefits of learning from a limited amount of labelled data together with a vast amount of unlabelled data. Because they rely on the known labels to infer the unknown labels, SSL algorithms are sensitive to data quality. This makes it important to study the potential threats related to the labelled data, more specifically, label poisoning. However, data poisoning of SSL remains largely understudied. To fill this gap, we propose a novel data poisoning method which is both effective and efficient. Our method exploits mathematical properties of SSL to approximate the influence of labelled inputs onto unlabelled one, which allows the identification of the inputs that, if poisoned, would produce the highest number of incorrectly inferred labels. We evaluate our approach on three classification problems under 12 different experimental settings each. Compared to the state of the art, our influence-based attack produces an average increase of error rate 3 times higher, while being faster by multiple orders of magnitude. Moreover, our method can inform engineers of inputs that deserve investigation (relabelling them) before training the learning model. We show that relabelling one-third of the poisoned inputs (selected based on their influence) reduces the poisoning effect by 50%.
翻訳日:2021-05-08 14:18:23 公開日:2020-12-14
# スマートエネルギーメータの消費者受け入れを促進するプライバシ保護需要予測

Privacy Preserving Demand Forecasting to Encourage Consumer Acceptance of Smart Energy Meters ( http://arxiv.org/abs/2012.07449v1 )

ライセンス: Link先を確認
Christopher Briggs, Zhong Fan, Peter Andras(参考訳) 本論文では,消費者がスマートメーターの設置に懸念を抱かせるため,プライバシ保護によるエネルギー需要予測の必要性を強調した。 高解像度のスマートメーターデータは、占有、習慣、個々の家電の使用など、消費者の家庭の多くのプライベートな側面を露呈することができる。 しかし、スマートな計測インフラは、運転効率の改善によってエネルギーセクターからの二酸化炭素排出量を大幅に削減する可能性がある。 本研究では,様々な規模のエネルギー需要予測にフェデレーション学習と呼ばれる分散機械学習を応用し,消費者の生エネルギー消費データのプライバシーを保ちながら負荷予測を可能にした。

In this proposal paper we highlight the need for privacy preserving energy demand forecasting to allay a major concern consumers have about smart meter installations. High resolution smart meter data can expose many private aspects of a consumer's household such as occupancy, habits and individual appliance usage. Yet smart metering infrastructure has the potential to vastly reduce carbon emissions from the energy sector through improved operating efficiencies. We propose the application of a distributed machine learning setting known as federated learning for energy demand forecasting at various scales to make load prediction possible whilst retaining the privacy of consumers' raw energy consumption data.
翻訳日:2021-05-08 14:18:03 公開日:2020-12-14
# 車両のエンドツーエンド制御への適用

Sim-to-real reinforcement learning applied to end-to-end vehicle control ( http://arxiv.org/abs/2012.07461v1 )

ライセンス: Link先を確認
Andr\'as Kalapos, Csaba G\'or, R\'obert Moni, Istv\'an Harmati(参考訳) 本研究では,車線追従や衝突回避といった車両制御問題に対する視覚に基づくエンドツーエンド強化学習について検討する。 我々の制御ポリシーでは、実際の2車線の道路の右車線を追従するために小型ロボットを制御できますが、その訓練はシミュレーションでのみ行われました。 我々のモデルは、単純な畳み込みネットワークによって実現され、前方の単眼カメラの画像にのみ依存し、車両を直接制御する連続的な動作を生成する。 このポリシーをトレーニングするために、近似ポリシー最適化を使い、実際のパフォーマンスに必要な一般化能力を達成するためにドメインランダム化を使いました。 複数のパフォーマンスメトリクスを計測し、他のメソッドに依存するベースラインと比較することにより、トレーニングされたポリシーを徹底的に分析した。 実世界でのシミュレーションから現実への伝達学習プロセスの品質とコントローラの性能を評価するために,実軌道上での簡単な測定値を測定し,マッチングシミュレーションの結果と比較した。 さらに,サルエントオブジェクトマップの可視化により解析を行った。

In this work, we study vision-based end-to-end reinforcement learning on vehicle control problems, such as lane following and collision avoidance. Our controller policy is able to control a small-scale robot to follow the right-hand lane of a real two-lane road, while its training was solely carried out in a simulation. Our model, realized by a simple, convolutional network, only relies on images of a forward-facing monocular camera and generates continuous actions that directly control the vehicle. To train this policy we used Proximal Policy Optimization, and to achieve the generalization capability required for real performance we used domain randomization. We carried out thorough analysis of the trained policy, by measuring multiple performance metrics and comparing these to baselines that rely on other methods. To assess the quality of the simulation-to-reality transfer learning process and the performance of the controller in the real world, we measured simple metrics on a real track and compared these with results from a matching simulation. Further analysis was carried out by visualizing salient object maps.
翻訳日:2021-05-08 14:17:52 公開日:2020-12-14
# AV Taris: オンラインオーディオ・ビジュアル音声認識

AV Taris: Online Audio-Visual Speech Recognition ( http://arxiv.org/abs/2012.07467v1 )

ライセンス: Link先を確認
George Sterpu and Naomi Harte(参考訳) 近年,ASR(Automatic Speech Recognition)技術は,比較的清潔な聴取条件下での会話音声における人間のレベルパフォーマンスにアプローチしている。 遠方のマイク、重複した音声、バックグラウンドノイズ、あるいは自然な対話構造を含むより要求の高い状況では、ASRエラー率は少なくとも1桁高い。 音声の視覚的モダリティは、これらの課題を部分的に克服し、話者ダイアリゼーション、音声活動検出、調音場所の回復といったサブタスクに寄与する可能性を持ち、平均15dbまでのノイズを補償することができる。 本稿では,音声視覚音声をリアルタイムに復号可能な,完全微分可能なニューラルネットワークモデルであるAV Tarisを開発する。 AV Align と Taris という,近年提案されている音声・視覚音声統合モデルとオンライン音声認識モデルを組み合わせることで,これを実現する。 AV Align と Taris と同じ条件下で AV Taris を評価する。 その結果,AV Taris は Taris の音声のみの変形よりも優れており,Taris が定義したリアルタイム復号化フレームワーク内での音声認識に対する視覚的モダリティの有用性が示された。 実時間要求を満たすことなく全文を活用できる等価なトランスフォーマーベースAVアラインモデルと比較して, AV Taris による絶対分解率は約3%である。 オンライン音声認識の選択肢であるRNN Transducerとは対照的に、Tarisは大幅に単純化された完全微分可能なトレーニングパイプラインを提供する。 その結果、av tarisは、avsr(audio-visual speech recognition)技術の採用を普及させ、より最適なリスニング条件下でのオーディオモダリティの固有の制限を克服する可能性を秘めている。

In recent years, Automatic Speech Recognition (ASR) technology has approached human-level performance on conversational speech under relatively clean listening conditions. In more demanding situations involving distant microphones, overlapped speech, background noise, or natural dialogue structures, the ASR error rate is at least an order of magnitude higher. The visual modality of speech carries the potential to partially overcome these challenges and contribute to the sub-tasks of speaker diarisation, voice activity detection, and the recovery of the place of articulation, and can compensate for up to 15dB of noise on average. This article develops AV Taris, a fully differentiable neural network model capable of decoding audio-visual speech in real time. We achieve this by connecting two recently proposed models for audio-visual speech integration and online speech recognition, namely AV Align and Taris. We evaluate AV Taris under the same conditions as AV Align and Taris on one of the largest publicly available audio-visual speech datasets, LRS2. Our results show that AV Taris is superior to the audio-only variant of Taris, demonstrating the utility of the visual modality to speech recognition within the real time decoding framework defined by Taris. Compared to an equivalent Transformer-based AV Align model that takes advantage of full sentences without meeting the real-time requirement, we report an absolute degradation of approximately 3% with AV Taris. As opposed to the more popular alternative for online speech recognition, namely the RNN Transducer, Taris offers a greatly simplified fully differentiable training pipeline. As a consequence, AV Taris has the potential to popularise the adoption of Audio-Visual Speech Recognition (AVSR) technology and overcome the inherent limitations of the audio modality in less optimal listening conditions.
翻訳日:2021-05-08 14:17:36 公開日:2020-12-14
# HaS-Nets:データ収集シナリオに対するバックドアアタックに対するDNNの修復と選択のメカニズム

HaS-Nets: A Heal and Select Mechanism to Defend DNNs Against Backdoor Attacks for Data Collection Scenarios ( http://arxiv.org/abs/2012.07474v1 )

ライセンス: Link先を確認
Hassan Ali, Surya Nepal, Salil S. Kanhere and Sanjay Jha(参考訳) 我々は、バックドア攻撃とDeep Neural Networks(DNN)の防衛戦略の継続する武器競争を目撃した。 ほとんどの最先端の防衛は、トロイの木馬の行動を捉えるために「インプット」または「ラテントDNN表現」の統計的サニタイズに依存している。 本稿では,最近報告された攻撃のロバスト性に最初に挑戦し,「低信頼バックドアアタック」と呼ばれる新しいバックドアアタックを導入した。 また、「HaS-Nets」と呼ばれる新しい防衛手法を提案する。 信頼度の低いバックドア攻撃」は、トレーニング中も推論中も、ディフェンダーからその存在を隠すために低い値を与えることにより、有毒なトレーニングサンプルに割り当てられた信頼ラベルを利用する。 現状の4つの防衛手法(viz., STRIP, Gradient-Shaping, Februus, ULP-defense)に対する攻撃を評価し, それぞれ99%, 63.73%, 91.2%, 80%の攻撃成功率(ASR)を達成した。 次に、トレーニング中にネットワークのバックドア挿入に抵抗する"HaS-Nets"を提案し、トレーニングデータの約2%から15%の小さなヒーリングデータセットを使用して、各イテレーションでネットワークを修復する。 ファッションmnist, cifar-10, consumer complaint and urban sound, and network architectures (mlps, 2d-cnns, 1d-cnns) について評価した。 実験の結果,データセットやアタック構成,ネットワークアーキテクチャから独立して,ASRを90%以上から15%未満に削減できることがわかった。

We have witnessed the continuing arms race between backdoor attacks and the corresponding defense strategies on Deep Neural Networks (DNNs). Most state-of-the-art defenses rely on the statistical sanitization of the "inputs" or "latent DNN representations" to capture trojan behaviour. In this paper, we first challenge the robustness of such recently reported defenses by introducing a novel variant of targeted backdoor attack, called "low-confidence backdoor attack". We also propose a novel defense technique, called "HaS-Nets". "Low-confidence backdoor attack" exploits the confidence labels assigned to poisoned training samples by giving low values to hide their presence from the defender, both during training and inference. We evaluate the attack against four state-of-the-art defense methods, viz., STRIP, Gradient-Shaping, Februus and ULP-defense, and achieve Attack Success Rate (ASR) of 99%, 63.73%, 91.2% and 80%, respectively. We next present "HaS-Nets" to resist backdoor insertion in the network during training, using a reasonably small healing dataset, approximately 2% to 15% of full training data, to heal the network at each iteration. We evaluate it for different datasets - Fashion-MNIST, CIFAR-10, Consumer Complaint and Urban Sound - and network architectures - MLPs, 2D-CNNs, 1D-CNNs. Our experiments show that "HaS-Nets" can decrease ASRs from over 90% to less than 15%, independent of the dataset, attack configuration and network architecture.
翻訳日:2021-05-08 14:17:08 公開日:2020-12-14
# 高次元気象シナリオのクラスタリング:結果と性能指標

Clustering high dimensional meteorological scenarios: results and performance index ( http://arxiv.org/abs/2012.07487v1 )

ライセンス: Link先を確認
Yamila Barrera, Leonardo Boechi, Matthieu Jonckheere, Vincent Lefieux, Dominique Picard, Ezequiel Smucler, Agustin Somacal, Alfredo Umfurer(参考訳) reseau de transport d'electricit\'e (rte) はフランスの電力ネットワーク運用管理者であり、気候時系列データを理解するために多くのリソースと努力を捧げている。 本稿では,RTEが提供する多数の気候シミュレーションのうち,可能な気候シナリオをグループ化し,選択する問題と方法について論じる。 使用されるデータは、フランスの地理的な場所のグリッド上に200の異なるシナリオの温度時系列からなる。 これらのパターンは、温度曲線に関する一般的なパターンを検出し、ネットワークシミュレーションの典型的なシナリオを選択するのに役立ち、エネルギー最適化に使用できる。 まず、クラスタリングに使用される距離の選択が結果の意味に強い影響があることを示し、空間的パターンと時間的パターンのいずれでも使用される距離の種類に依存する。 次に,距離選択を微調整することの難しさについて考察し,慎重に設計された指標に基づく手法を提案する。

The Reseau de Transport d'Electricit\'e (RTE) is the French main electricity network operational manager and dedicates large number of resources and efforts towards understanding climate time series data. We discuss here the problem and the methodology of grouping and selecting representatives of possible climate scenarios among a large number of climate simulations provided by RTE. The data used is composed of temperature times series for 200 different possible scenarios on a grid of geographical locations in France. These should be clustered in order to detect common patterns regarding temperatures curves and help to choose representative scenarios for network simulations, which in turn can be used for energy optimisation. We first show that the choice of the distance used for the clustering has a strong impact on the meaning of the results: depending on the type of distance used, either spatial or temporal patterns prevail. Then we discuss the difficulty of fine-tuning the distance choice (combined with a dimension reduction procedure) and we propose a methodology based on a carefully designed index.
翻訳日:2021-05-08 14:16:36 公開日:2020-12-14
# StackRec: 層積み重ねによる非常に深いシーケンスレコメンダモデルの効率的なトレーニング

StackRec: Efficient Training of Very Deep Sequential Recommender Models by Layer Stacking ( http://arxiv.org/abs/2012.07598v1 )

ライセンス: Link先を確認
Jiachun Wang, Fajie Yuan, Jian Chen, Qingyao Wu, Chengmin Li, Min Yang, Yang Sun and Guoxiao Zhang(参考訳) ディープラーニングは、逐次レコメンデーション(SR)タスクに大きな進歩をもたらした。 高度な残余ネットワークの構造により、シーケンシャルレコメンダモデルは、現実世界のSRデータセット上に最大100層まで隠された多くの層で積み重ねることができる。 このような深層ネットワークのトレーニングには、高価な計算と長いトレーニング時間が必要である。 このような課題に対処するため,層積み重ねによる深部SRモデルの簡易かつ極めて効率的なトレーニングフレームワークStackRecを提案する。 具体的には、よく訓練された深部SRモデルの残層/ブロックが類似した分布を持つことを示す。 そこで本研究では,事前学習した残層/ブロックを徐々に積み重ねて,より深く,より訓練しやすいSRモデルを提案する。 提案したStackRecは、3つの現実シナリオと実世界のデータセットで2つの最先端SRモデルを用いてインスタンス化することで検証する。 大規模な実験によると、StackRecは、スクラッチからトレーニングされたSRモデルと比較して、同等のパフォーマンスだけでなく、トレーニング時間の大幅な加速を実現している。

Deep learning has brought great progress for the sequential recommendation (SR) tasks. With the structure of advanced residual networks, sequential recommender models can be stacked with many hidden layers, e.g., up to 100 layers on real-world SR datasets. Training such a deep network requires expensive computation and longer training time, especially in situations when there are tens of billions of user-item interactions. To deal with such a challenge, we present StackRec, a simple but very efficient training framework for deep SR models by layer stacking. Specifically, we first offer an important insight that residual layers/blocks in a well-trained deep SR model have similar distribution. Enlightened by this, we propose progressively stacking such pre-trained residual layers/blocks so as to yield a deeper but easier-to-train SR model. We validate the proposed StackRec by instantiating with two state-of-the-art SR models in three practical scenarios and real-world datasets. Extensive experiments show that StackRec achieves not only comparable performance, but also significant acceleration in training time, compared to SR models that are trained from scratch.
翻訳日:2021-05-08 14:16:19 公開日:2020-12-14
# 量子svmへの実践的応用改善:理論から実践へ

Practical application improvement to Quantum SVM: theory to practice ( http://arxiv.org/abs/2012.07725v1 )

ライセンス: Link先を確認
Jae-Eun Park, Brian Quanz, Steve Wood, Heather Higgins, Ray Harishankar(参考訳) 量子機械学習(QML)は量子アプリケーションにとって重要な分野であるが、有用なQMLアプリケーションは多くの量子ビットを必要とする。 そこで本論文は, 雑音中規模量子(nisq)仮定下での実用的, 技術的考察のバランスを保ちつつ, 量子サポートベクトルマシン(qsvm)アルゴリズムの応用性を検討することを目的としている。 NISQの下での量子SVMでは、量子特徴写像を用いてデータを量子状態に変換し、これらの量子状態からSVMカーネルを構築し、さらに古典的なSVMと放射基底関数(RBF)カーネルと比較する。 データセットが何らかの意味で複雑あるいは抽象化されているため、古典的カーネルを持つ古典的SVMは、古典的カーネルを持つ古典的SVMとQSVMの精度が低い。 同様に、QSVMはモデル分散の問題(すなわちオーバーフィッティング)を避けるために、よりスムーズな決定境界を必要とする ``simpler'' データケースを含む幅広いデータセットに対して、競争力のあるパフォーマンスを提供することができるべきである。 古典的見た目' 決定境界と複雑な量子決定境界とのギャップを埋めるために、一般の浅層ユニタリ変換を用いて、回転係数を持つ特徴写像を作成し、波長可変量子カーネルを定義し、分離超平面モデルを滑らかにするために正規化を加えることを提案する。 実験では、QSVMは、データセットの複雑さによらず、SVMに対して等しく動作し、よく使われる参照データセットでは性能が優れていることを示す。

Quantum machine learning (QML) has emerged as an important area for Quantum applications, although useful QML applications would require many qubits. Therefore our paper is aimed at exploring the successful application of the Quantum Support Vector Machine (QSVM) algorithm while balancing several practical and technical considerations under the Noisy Intermediate-Scale Quantum (NISQ) assumption. For the quantum SVM under NISQ, we use quantum feature maps to translate data into quantum states and build the SVM kernel out of these quantum states, and further compare with classical SVM with radial basis function (RBF) kernels. As data sets are more complex or abstracted in some sense, classical SVM with classical kernels leads to less accuracy compared to QSVM, as classical SVM with typical classical kernels cannot easily separate different class data. Similarly, QSVM should be able to provide competitive performance over a broader range of data sets including ``simpler'' data cases in which smoother decision boundaries are required to avoid any model variance issues (i.e., overfitting). To bridge the gap between ``classical-looking'' decision boundaries and complex quantum decision boundaries, we propose to utilize general shallow unitary transformations to create feature maps with rotation factors to define a tunable quantum kernel, and added regularization to smooth the separating hyperplane model. We show in experiments that this allows QSVM to perform equally to SVM regardless of the complexity of the data sets and outperform in some commonly used reference data sets.
翻訳日:2021-05-08 14:15:59 公開日:2020-12-14
# NVIDIA SimNet^{TM} - AI加速多物理シミュレーションフレームワーク

NVIDIA SimNet^{TM}: an AI-accelerated multi-physics simulation framework ( http://arxiv.org/abs/2012.07938v1 )

ライセンス: Link先を確認
Oliver Hennigh, Susheela Narasimhan, Mohammad Amin Nabian, Akshay Subramaniam, Kaustubh Tangsali, Max Rietmann, Jose del Aguila Ferrandis, Wonmin Byeon, Zhiwei Fang, Sanjay Choudhry(参考訳) 我々は,科学と工学の幅広い分野にわたるシミュレーションを加速するために,ai駆動のマルチフィジカルシミュレーションフレームワークであるsimnetを提案する。 従来の数値解法と比較して、SimNetは幅広いユースケースに対処している。 simnetは、複数の構成を同時に解決するパラメータ化されたシステム表現を可能にすることで、高速なターンアラウンド時間を提供する。 SimNetはパラメータ化された構成的固体幾何学とSTLモジュールを統合して点雲を生成する。 さらに、幾何学、物理、ネットワークアーキテクチャへのユーザ拡張を可能にするAPIでカスタマイズできる。 高性能GPUコンピューティングに最適化された高度なネットワークアーキテクチャを備え、FP32、FP64、TF32計算と同様に、加速線形代数を備えたマルチGPUとマルチノードの実装にスケーラブルなパフォーマンスを提供する。 本稿では,ニューラルネットワークの解法,SimNetアーキテクチャ,PDEの効率的な解法に必要な諸特徴について概説する。 本稿では,乱流および複雑な3次元ジオメトリを用いた前方多物理シミュレーションから,従来の解法では解決できない産業設計の最適化や逆問題まで,実世界のユースケースを提案する。 SimNetの結果とオープンソースおよび商用ソルバの大規模な比較は良好な相関関係を示した。

We present SimNet, an AI-driven multi-physics simulation framework, to accelerate simulations across a wide range of disciplines in science and engineering. Compared to traditional numerical solvers, SimNet addresses a wide range of use cases - coupled forward simulations without any training data, inverse and data assimilation problems. SimNet offers fast turnaround time by enabling parameterized system representation that solves for multiple configurations simultaneously, as opposed to the traditional solvers that solve for one configuration at a time. SimNet is integrated with parameterized constructive solid geometry as well as STL modules to generate point clouds. Furthermore, it is customizable with APIs that enable user extensions to geometry, physics and network architecture. It has advanced network architectures that are optimized for high-performance GPU computing, and offers scalable performance for multi-GPU and multi-Node implementation with accelerated linear algebra as well as FP32, FP64 and TF32 computations. In this paper we review the neural network solver methodology, the SimNet architecture, and the various features that are needed for effective solution of the PDEs. We present real-world use cases that range from challenging forward multi-physics simulations with turbulence and complex 3D geometries, to industrial design optimization and inverse problems that are not addressed efficiently by the traditional solvers. Extensive comparisons of SimNet results with open source and commercial solvers show good correlation.
翻訳日:2021-05-08 14:15:30 公開日:2020-12-14
# SAT-MARL:マルチエージェント強化学習における仕様アウェアトレーニング

SAT-MARL: Specification Aware Training in Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2012.07949v1 )

ライセンス: Link先を確認
Fabian Ritz, Thomy Phan, Robert M\"uller, Thomas Gabor, Andreas Sedlmeier, Marc Zeller, Jan Wieghardt, Reiner Schmid, Horst Sauer, Cornel Klein, Claudia Linnhoff-Popien(参考訳) 強化学習の特徴は、問題解決時に予期せぬ戦略を開発する能力である。 このような戦略は時に優れたパフォーマンスをもたらすが、望ましくない行動や危険な行動を引き起こすこともある。 産業シナリオでは、システムの振る舞いも予測可能で、定義された範囲内にある必要がある。 エージェントが与えられた仕様に整合する(どのように)ことを学べるように,機能的および非機能的要求を形式的な報酬に明示的に伝達することを提案する。 smart factoryは、最大8つのエージェントと異なるマルチエージェント強化学習アルゴリズムを備えた、産業用ロットサイズの生産施設をモデル化するマルチエージェント環境である。 その結果,提案手法により,機能的制約と非機能的制約の遵守が可能となった。

A characteristic of reinforcement learning is the ability to develop unforeseen strategies when solving problems. While such strategies sometimes yield superior performance, they may also result in undesired or even dangerous behavior. In industrial scenarios, a system's behavior also needs to be predictable and lie within defined ranges. To enable the agents to learn (how) to align with a given specification, this paper proposes to explicitly transfer functional and non-functional requirements into shaped rewards. Experiments are carried out on the smart factory, a multi-agent environment modeling an industrial lot-size-one production facility, with up to eight agents and different multi-agent reinforcement learning algorithms. Results indicate that compliance with functional and non-functional constraints can be achieved by the proposed approach.
翻訳日:2021-05-08 14:15:06 公開日:2020-12-14
# センサを用いた人間行動認識のための不変特徴学習

Invariant Feature Learning for Sensor-based Human Activity Recognition ( http://arxiv.org/abs/2012.07963v1 )

ライセンス: Link先を確認
Yujiao Hao, Boyu Wang, Rong Zheng(参考訳) ウェアラブルセンサを用いたヒューマンアクティビティ認識(HAR)は、ユビキタスおよびモバイルコンピューティングの分野で長年研究されてきた。 近年、HAR問題に多くのディープモデルが適用されている。 しかし、ディープラーニングの手法は通常、モデルをうまく一般化するために大量のデータを必要とする。 異なる参加者や多様なセンサー装置によって引き起こされる重要なばらつきは、事前訓練されたモデルの、これまで見たことのない対象または装置への直接的な適用を制限する。 これらの問題に対処するために,対象とデバイス間で共有される共通情報を抽出する不変機能学習フレームワーク(iflf)を提案する。 iflfには2つの学習パラダイムが組み込まれている: 1) 参照されたドメインにまたがる堅牢な機能をキャプチャし、類似性に基づくデータ選択で認識できないものに適応するメタラーニング、2) データの不足に対処するマルチタスクラーニング、そして異なる主題間の知識共有による全体的なパフォーマンス向上。 実験により、IFLFは一般的なオープンデータセットと社内データセットをまたいだ主題とデバイスディバージョンの両方を扱うのに有効であることが示された。 テスト精度で最大40%のベースラインモデルより優れています。

Wearable sensor-based human activity recognition (HAR) has been a research focus in the field of ubiquitous and mobile computing for years. In recent years, many deep models have been applied to HAR problems. However, deep learning methods typically require a large amount of data for models to generalize well. Significant variances caused by different participants or diverse sensor devices limit the direct application of a pre-trained model to a subject or device that has not been seen before. To address these problems, we present an invariant feature learning framework (IFLF) that extracts common information shared across subjects and devices. IFLF incorporates two learning paradigms: 1) meta-learning to capture robust features across seen domains and adapt to an unseen one with similarity-based data selection; 2) multi-task learning to deal with data shortage and enhance overall performance via knowledge sharing among different subjects. Experiments demonstrated that IFLF is effective in handling both subject and device diversion across popular open datasets and an in-house dataset. It outperforms a baseline model of up to 40% in test accuracy.
翻訳日:2021-05-08 14:14:55 公開日:2020-12-14
# tem(transmission electron microscope)による生体構造の3次元イメージングにおける生体粒子の検出と抽出

Detection and extraction of biological particles in a three-dimensional imaging of biological structures by TEM (Transmission Electron Microscopy) ( http://arxiv.org/abs/2101.05062v1 )

ライセンス: Link先を確認
Mariam El Oussini(参考訳) 細胞分裂は生物学の急速な成長を示す。 実際、古典的なセグメンテーション法を用いると、このタイプのイメージをセグメンテーションするには不十分である。 本稿では,リボソームセグメンテーションの新しい手法を提案する。 前処理フェーズはセグメンテーションプロセスに先行し、その後、後処理が進行する。

Cells segmentation shows rapid growth in biology. Indeed, using the classical segmentation methods only is not enough to segment this type of images. In this manuscript, we will present a new method of ribosomes segmentation. A pre-treatment phase will precedes the segmentation process and after that a post-processing will proceed.
翻訳日:2021-05-08 14:14:18 公開日:2020-12-14
# 地獄の隣人:マルチテナントFPGA上のディープラーニング加速器に対する電圧攻撃

Neighbors From Hell: Voltage Attacks Against Deep Learning Accelerators on Multi-Tenant FPGAs ( http://arxiv.org/abs/2012.07242v1 )

ライセンス: Link先を確認
Andrew Boutros, Mathew Hall, Nicolas Papernot, Vaughn Betz(参考訳) フィールドプログラマブルゲートアレイ(FPGA)は、その柔軟性とエネルギー効率のために、多くのデータセンターアプリケーションに広く利用されている。 これらのアプリケーションの中でFPGAは、低遅延リアルタイムディープラーニング(DL)推論を加速させる有望な結果を示している。 複数のユーザが共有できる仮想化クラウドFPGAへの研究の方向が近づきつつある中、FPGAベースのDLアクセラレータのセキュリティ面は慎重に検討する必要がある。 本研究では,マルチテナントFPGAシナリオにおける電圧ベース整合性攻撃に対するDLアクセラレータの安全性を評価する。 我々はまず、従来のビットストリームチェッカーでは悪意ある回路としてフラグ付けできない、論理的に物理的に分離された異なる攻撃回路を用いて、最先端のストラテクス10カードに対する攻撃の可能性を示す。 我々は、効率的な省電力技術であるアグレッシブクロックゲーティングが、現代のFPGAの潜在的なセキュリティ脅威であることを示した。 次に,画像ネット分類を行うDLアクセラレーターに対する攻撃を行い,相手が引き起こしたタイミング障害に対するDLモデル固有のレジリエンスを評価する。 我々は,最強の攻撃回路を用いても,dl加速器の安全な動作頻度で動作した場合の予測精度が損なわれないことを示す。 さらに,dl加速器をオーバークロックすることで,予測精度に影響を与えずに1.18-1.31倍高い推論性能が得られる。

Field-programmable gate arrays (FPGAs) are becoming widely used accelerators for a myriad of datacenter applications due to their flexibility and energy efficiency. Among these applications, FPGAs have shown promising results in accelerating low-latency real-time deep learning (DL) inference, which is becoming an indispensable component of many end-user applications. With the emerging research direction towards virtualized cloud FPGAs that can be shared by multiple users, the security aspect of FPGA-based DL accelerators requires careful consideration. In this work, we evaluate the security of DL accelerators against voltage-based integrity attacks in a multitenant FPGA scenario. We first demonstrate the feasibility of such attacks on a state-of-the-art Stratix 10 card using different attacker circuits that are logically and physically isolated in a separate attacker role, and cannot be flagged as malicious circuits by conventional bitstream checkers. We show that aggressive clock gating, an effective power-saving technique, can also be a potential security threat in modern FPGAs. Then, we carry out the attack on a DL accelerator running ImageNet classification in the victim role to evaluate the inherent resilience of DL models against timing faults induced by the adversary. We find that even when using the strongest attacker circuit, the prediction accuracy of the DL accelerator is not compromised when running at its safe operating frequency. Furthermore, we can achieve 1.18-1.31x higher inference performance by over-clocking the DL accelerator without affecting its prediction accuracy.
翻訳日:2021-05-08 14:14:12 公開日:2020-12-14
# ロバストmpcを用いた安全・安全保証型安全強化学習

Safe Reinforcement Learning with Stability & Safety Guarantees Using Robust MPC ( http://arxiv.org/abs/2012.07369v1 )

ライセンス: Link先を確認
S\'ebastien Gros, Mario Zanon(参考訳) 強化学習は、実際のシステムから得られたデータに基づいてポリシーを最適化するツールを提供する。 強化学習の可能性はよく理解されているが、それでも多くの重要な側面に取り組む必要がある。 重要な側面の1つは、安全性と安定性の問題である。 近年の論文では、非線形モデル予測制御手法と強化学習を組み合わせることで、これらの問題に対処するための有効な理論的正当化手法として用いることを示唆している。 特に強固なmpcは強化学習の文脈で形式的な安定性と安全性の主張を可能にすることが示唆されている。 しかしながら、強化学習ツールによって提供されるパラメータ更新を通じて、安全性と安定性をどのように実施できるかを詳述した正式な理論はまだ欠けている。 この論文はこのギャップに対処する。 この理論は、一般的なロバスト mpc の場合のために開発され、ロバストな管ベースの線形 mpc の場合でさらに詳細に述べられている。

Reinforcement Learning offers tools to optimize policies based on the data obtained from the real system subject to the policy. While the potential of Reinforcement Learning is well understood, many critical aspects still need to be tackled. One crucial aspect is the issue of safety and stability. Recent publications suggest the use of Nonlinear Model Predictive Control techniques in combination with Reinforcement Learning as a viable and theoretically justified approach to tackle these problems. In particular, it has been suggested that robust MPC allows for making formal stability and safety claims in the context of Reinforcement Learning. However, a formal theory detailing how safety and stability can be enforced through the parameter updates delivered by the Reinforcement Learning tools is still lacking. This paper addresses this gap. The theory is developed for the generic robust MPC case, and further detailed in the robust tube-based linear MPC case, where the theory is fairly easy to deploy in practice.
翻訳日:2021-05-08 14:13:48 公開日:2020-12-14
# ラグランジアン・リーチチューブ:次世代

Lagrangian Reachtubes: The Next Generation ( http://arxiv.org/abs/2012.07458v1 )

ライセンス: Link先を確認
Sophie Gruenbacher, Jacek Cyranka, Mathias Lechner, Md. Ariful Islam, Scott A. Smolka and Radu Grosu(参考訳) 非線形力学系のリーチチューブ(与えられた時間的地平線上で到達可能な状態の集合を過度に近似する)を計算するための技術セットとツールセットであるLRT-NGを紹介する。 LRT-NGは最先端のLangrangian Reachabilityとその関連ツールLRTを大幅に進歩させる。 理論的には、LRT-NGはLRTよりも3つの点で優れている。 第一に、ボールの体積を最小にすることが証明された伝播球に対して、初めて解析的に計算された計量を用いる。 私たちは、メトリック計算がすべての膨らむベースのテクニックの中心的な要素であることを強調する。 第二に、次のリーチセットを2つの球の交叉として計算する。 2つの指標は、以前は反対のアプローチと考えられていたが、それらの共同使用はリーチチューブをかなり強化した。 第三に、次の球の半径における間隔近似を最適に吸収することにより、到達セットの中心の検証された積分に関連する「ラッピング効果」を避ける。 ツール開発の観点からすると、LRT-NGはLRTよりも2つの点で優れている。 まず、capdに依存しないスタンドアロンのツールです。 これには、lohner法とrunge-kutta time-propagation法の実装が必要であった。 第二に、インターフェースが改良され、入力モデルと初期条件が外部入力ファイルとして提供される。 2つのNeural ODEを含む包括的なベンチマーク実験は、LRT, CAPD, Flow*と比較してLRT-NGの優れた性能を示す。

We introduce LRT-NG, a set of techniques and an associated toolset that computes a reachtube (an over-approximation of the set of reachable states over a given time horizon) of a nonlinear dynamical system. LRT-NG significantly advances the state-of-the-art Langrangian Reachability and its associated tool LRT. From a theoretical perspective, LRT-NG is superior to LRT in three ways. First, it uses for the first time an analytically computed metric for the propagated ball which is proven to minimize the ball's volume. We emphasize that the metric computation is the centerpiece of all bloating-based techniques. Secondly, it computes the next reachset as the intersection of two balls: one based on the Cartesian metric and the other on the new metric. While the two metrics were previously considered opposing approaches, their joint use considerably tightens the reachtubes. Thirdly, it avoids the "wrapping effect" associated with the validated integration of the center of the reachset, by optimally absorbing the interval approximation in the radius of the next ball. From a tool-development perspective, LRT-NG is superior to LRT in two ways. First, it is a standalone tool that no longer relies on CAPD. This required the implementation of the Lohner method and a Runge-Kutta time-propagation method. Secondly, it has an improved interface, allowing the input model and initial conditions to be provided as external input files. Our experiments on a comprehensive set of benchmarks, including two Neural ODEs, demonstrates LRT-NG's superior performance compared to LRT, CAPD, and Flow*.
翻訳日:2021-05-08 14:13:33 公開日:2020-12-14
# 生体物理学神経モデルのシステム同定

System identification of biophysical neuronal models ( http://arxiv.org/abs/2012.07691v1 )

ライセンス: Link先を確認
Thiago B. Burghi, Maarten Schoukens, Rodolphe Sepulchre(参考訳) 60年間の定量的生体物理学的モデリングの後、入力出力データからのニューロンのダイナミクスの同定は、主に興奮可能な行動の本質的に非線形な性質のため、依然として困難な問題である。 そこで我々は, 一般化正規基底関数(GOBF)と静的ニューラルネットワークの連接によるパラメトリゼーションに基づく簡単なアプローチを提案する。 GOBFは同定問題に対処するのに特に適しており、神経行動の超感度に対処するGOBF極を選択するためのヒューリスティックを提供する。 本手法は, カニ胃ガングリオンの破裂モデルの同定に有用である。

After sixty years of quantitative biophysical modeling of neurons, the identification of neuronal dynamics from input-output data remains a challenging problem, primarily due to the inherently nonlinear nature of excitable behaviors. By reformulating the problem in terms of the identification of an operator with fading memory, we explore a simple approach based on a parametrization given by a series interconnection of Generalized Orthonormal Basis Functions (GOBFs) and static Artificial Neural Networks. We show that GOBFs are particularly well-suited to tackle the identification problem, and provide a heuristic for selecting GOBF poles which addresses the ultra-sensitivity of neuronal behaviors. The method is illustrated on the identification of a bursting model from the crab stomatogastric ganglion.
翻訳日:2021-05-08 14:13:14 公開日:2020-12-14
# 多項式の近傍ゼロ集合の小さな被覆と潜在変数モデルの学習

Small Covers for Near-Zero Sets of Polynomials and Learning Latent Variable Models ( http://arxiv.org/abs/2012.07774v1 )

ライセンス: Link先を確認
Ilias Diakonikolas and Daniel M. Kane(参考訳) v$ を多変量次数-d$ 等質多項式の任意のベクトル空間とし、k$ 以上の余次元を持つものとし、s$ を、v$ {\em almost} 内のすべての多項式が消えるような点の集合とする。 我々は、$\ell_2$-norm において、$\epsilon$-covers のサイズで定性的に最適な上限を $s$ で定める。 大まかに言えば、濃度$M = (k/\epsilon)^{O_d(k^{1/d})}$の$S$に対して$\epsilon$-coverが存在することを示す。 私たちの結果は、$\mathrm{poly}(m)$で実行される$\epsilon$-coverを計算するためのコンストラクティブなアルゴリズムです。 構造的結果に基づいて,隠れ変数を持ついくつかの基本的高次元確率モデルの学習アルゴリズムを改良した。 これらには、球状ガウス多様体の密度とパラメータ推定(共通共分散を持つ)、400$隠れ単位を持つPAC学習単層ReLUネットワーク(ガウス分布の下で)、リニア回帰の$k$混合に対する密度とパラメータ推定(ガウス共変量を含む)、超平面の$k$混合に対するパラメータ推定が含まれる。 我々のアルゴリズムはパラメータ $k$ で時間 {\em quasi-polynomial} で実行される。 これらの問題の前のアルゴリズムは、$k^{\Omega(1)}$で指数関数的に実行された。 隠れたパラメータの低次モーメントを計算することで、未知のパラメータ上でほぼ消滅する多項式のベクトル空間を見つけることができます。 構造的な結果により、隠れパラメータの集合に対して準多項式サイズのカバーを計算でき、学習アルゴリズムで利用できます。

Let $V$ be any vector space of multivariate degree-$d$ homogeneous polynomials with co-dimension at most $k$, and $S$ be the set of points where all polynomials in $V$ {\em nearly} vanish. We establish a qualitatively optimal upper bound on the size of $\epsilon$-covers for $S$, in the $\ell_2$-norm. Roughly speaking, we show that there exists an $\epsilon$-cover for $S$ of cardinality $M = (k/\epsilon)^{O_d(k^{1/d})}$. Our result is constructive yielding an algorithm to compute such an $\epsilon$-cover that runs in time $\mathrm{poly}(M)$. Building on our structural result, we obtain significantly improved learning algorithms for several fundamental high-dimensional probabilistic models with hidden variables. These include density and parameter estimation for $k$-mixtures of spherical Gaussians (with known common covariance), PAC learning one-hidden-layer ReLU networks with $k$ hidden units (under the Gaussian distribution), density and parameter estimation for $k$-mixtures of linear regressions (with Gaussian covariates), and parameter estimation for $k$-mixtures of hyperplanes. Our algorithms run in time {\em quasi-polynomial} in the parameter $k$. Previous algorithms for these problems had running times exponential in $k^{\Omega(1)}$. At a high-level our algorithms for all these learning problems work as follows: By computing the low-degree moments of the hidden parameters, we are able to find a vector space of polynomials that nearly vanish on the unknown parameters. Our structural result allows us to compute a quasi-polynomial sized cover for the set of hidden parameters, which we exploit in our learning algorithms.
翻訳日:2021-05-08 14:12:33 公開日:2020-12-14