このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210205となっている論文です。

PDF登録状況(公開日: 20210205)

TitleAuthorsAbstract論文公表日・翻訳日
# 超伝導量子ビットアレイを用いた導波路バンドギャップ工学

Waveguide Bandgap Engineering with an Array of Superconducting Qubits ( http://arxiv.org/abs/2006.03330v2 )

ライセンス: Link先を確認
Jan David Brehm, Alexander N. Poddubny, Alexander Stehli, Tim Wolz, Hannes Rotzinger, and Alexey V. Ustinov(参考訳) 導波路量子電磁力学は、一次元の開導波路を介して人工原子間の相互作用を効果的に設計する幅広い可能性を提供する。 これらの相互作用は、数量子ビットの極限で実験的に研究されているが、そのようなシステムのより大きな量子ビットの配列に対する集合的性質は、メタマテリアル構成ではまだ解決されていない。 そこで我々は, 導波路のモード連続体に結合した局所周波数制御を有する8つの超伝導トランスモン量子ビットからなるメタマテリアルを実験的に検討した。 量子ビットを共振周波数に連続的にチューニングすることにより、超放射状態と亜放射状態の形成、および偏光バンドギャップの出現を観察する。 量子非線形性を用いて、アンサンブルのバンドギャップ領域に透明性ウィンドウを誘導することにより、後者に対する制御を示す。 この研究の回路は、1ビットと2ビットの実験を完全な量子メタマテリアルへと拡張し、超伝導導波路量子電磁力学における大規模応用の道を開いた。

Waveguide quantum electrodynamics offers a wide range of possibilities to effectively engineer interactions between artificial atoms via a one-dimensional open waveguide. While these interactions have been experimentally studied in the few qubit limit, the collective properties of such systems for larger arrays of qubits in a metamaterial configuration has so far not been addressed. Here, we experimentally study a metamaterial made of eight superconducting transmon qubits with local frequency control coupled to the mode continuum of a waveguide. By consecutively tuning the qubits to a common resonance frequency we observe the formation of super- and subradiant states, as well as the emergence of a polaritonic bandgap. Making use of the qubits quantum nonlinearity, we demonstrate control over the latter by inducing a transparency window in the bandgap region of the ensemble. The circuit of this work extends experiments with one and two qubits towards a full-blown quantum metamaterial, thus paving the way for large-scale applications in superconducting waveguide quantum electrodynamics.
翻訳日:2023-05-17 02:08:24 公開日:2021-02-05
# 悪意のあるデバイスのサブセットによるセキュアな量子鍵分布

Secure quantum key distribution with a subset of malicious devices ( http://arxiv.org/abs/2006.14337v2 )

ライセンス: Link先を確認
V\'ictor Zapatero and Marcos Curty(参考訳) qkd(quantum key distribution)ハードウェアの悪意ある操作は、セキュリティに対する深刻な脅威であり、一般的に、エンドユーザやqkdメーカは、実際にqkdシステムのすべてのコンポーネントの完全性を検証することができない。 QKDのセキュリティを再確立する1つの可能なアプローチは、冗長な数のデバイスを使用することである。 この考え方に従うと、効率的な分散QKD後処理プロトコルを導入し、悪意のあるデバイスにおける様々な汚職モデルにおけるセキュリティを実証する。 アクティブでコラボレーティブな崩壊したデバイスの最も保守的なモデルと比較すると、自然な仮定は秘密鍵レートを著しく向上させ、qkd設定をかなりシンプルにする。 さらに, 実用上, 有限サイズの秘密鍵レートは, 信頼されたデバイスを想定した標準的なシナリオと類似していることを示す。

The malicious manipulation of quantum key distribution (QKD) hardware is a serious threat to its security, as, typically, neither end users nor QKD manufacturers can validate the integrity of every component of their QKD system in practice. One possible approach to re-establish the security of QKD is to use a redundant number of devices. Following this idea, we introduce an efficient distributed QKD post-processing protocol and prove its security in a variety of corruption models of the possibly malicious devices. We find that, compared to the most conservative model of active and collaborative corrupted devices, natural assumptions lead to a significant enhancement of the secret key rate and considerably simpler QKD setups. Furthermore, we show that, for most practical situations, the resulting finite-size secret key rate is similar to that of the standard scenario assuming trusted devices.
翻訳日:2023-05-12 20:04:54 公開日:2021-02-05
# 2レベル擬エルミート系の古典量子対応

Classical-quantum correspondence for two-level pseudo-Hermitian systems ( http://arxiv.org/abs/2007.01881v2 )

ライセンス: Link先を確認
K. Raimundo, M. C. Baldiotti, R. Fresneda, C. Molina(参考訳) 本研究では,二段階擬似エルミット系に対する古典量子対応を提案し,解析する。 複素外部場の存在を擬エルミートハミルトニアン (pseudo-hermitian hamiltonian) によって記述できることを示す。 我々は、正準関連な擬古典理論をユニタリ等価な量子化にマッピングする共変量子化スキームを構築する。 この設定において、演算子の擬似エルミティティ条件は、複素フィールドの場合であっても対応するシンボルの現実を保証する畳み込みを誘導する。 古典対応を構成することにより、複素体の存在下での力学に対する物理的意味を割り当てる。 本理論の枠組みの応用として,rabi問題の減衰版を提案し,減衰が完全に抑制された設定のパラメータの構成を決定する。 提案の実験的実現性は、特定のコンテキスト内で研究される。 本研究で開発された主な理論結果が実験的に検証可能であることを示唆する。

In this work, a classical-quantum correspondence for two-level pseudo-Hermitian systems is proposed and analyzed. We show that the presence of a complex external field can be described by a pseudo-Hermitian Hamiltonian if there is a suitable canonical transformation that links it to a real field. We construct a covariant quantization scheme which maps canonically related pseudoclassical theories to unitarily equivalent quantum realizations, such that there is a unique metric-inducing isometry between the distinct Hilbert spaces. In this setting, the pseudo-Hermiticity condition for the operators induces an involution which guarantees the reality of the corresponding symbols, even for the complex field case. We assign a physical meaning for the dynamics in the presence of a complex field by constructing a classical correspondence. As an application of our theoretical framework, we propose a damped version of the Rabi problem and determine the configuration of the parameters of the setup for which damping is completely suppressed. The experimental viability of the proposal is studied within a specific context. We suggest that the main theoretical results developed in the present work could be experimentally verified.
翻訳日:2023-05-11 18:25:49 公開日:2021-02-05
# Schr\\odinger方程式の新しい解法

A new approach to solving the Schr\"odinger equation ( http://arxiv.org/abs/2007.02182v2 )

ライセンス: Link先を確認
Sergio A. Hojman and Felipe A. Asenjo(参考訳) 1次元量子力学系の正確な解を求める新しい手法が考案された。このスキームは、波動関数のポテンシャル関数の導入と、それを満たす方程式に基づいており、既知の解を復元し、自由粒子と相互作用粒子の両方に、消滅する波動関数と非消滅するボームポテンシャルを持つ波動関数の新たな解を得る。 ほとんどのポテンシャルについて、シュル=オディンガー方程式の解はボムポテンシャルを消滅させることはない。 大きなが制限されたポテンシャルの族は、ボームポテンシャルが消滅する特定の解の存在を可能にする。 このポテンシャルの族は決定され、いくつかの例が提示される。 加速されたエアリー波動関数のようないくつかの量子は、消滅しないボームポテンシャルの存在に起因することが示されている。 この種の新しい例が見つかって議論されている。

A new approach to find exact solutions to one--dimensional quantum mechanical systems is devised. The scheme is based on the introduction of a potential function for the wavefunction, and the equation it satisfies. We recover known solutions as well as to get new ones for both free and interacting particles with wavefunctions having vanishing and non--vanishing Bohm potentials. For most of the potentials, no solutions to the Schr\"odinger equation produce a vanishing Bohm potential. A (large but) restricted family of potentials allows the existence of particular solutions for which the Bohm potential vanishes. This family of potentials is determined, and several examples are presented. It is shown that some quantum, such as accelerated Airy wavefunctions, are due to the presence of non--vanishing Bohm potentials. New examples of this kind are found and discussed.
翻訳日:2023-05-11 08:06:08 公開日:2021-02-05
# 二重ホモダイン検出を用いた量子照明受信機

Quantum illumination receiver using double homodyne detection ( http://arxiv.org/abs/2008.11928v3 )

ライセンス: Link先を確認
Yonggi Jo, Sangkyung Lee, Yong Sup Ihn, Zaeill Kim, Su-Yong Lee(参考訳) 量子受信機は量子照明(QI)の本質的要素であり、古典的な照明法(CI)よりも優れている。 しかし、非線形効果を利用して受信装置の複雑さを増大させる、実現可能な量子受信機の提案はごくわずかである。 これを補うために、本稿では、ガウスQIのための線形光学素子を持つ量子受信機を設計する。 非線形効果を利用する代わりに、50:50ビームスプリッタとホモダイン検出からなる。 50:50ビームスプリッター後の二重ホモダイン検出を用いて、ターゲット反射率、電源パワー、ノイズレベルの異なる状態におけるQIの性能を解析した。 提案手法では,従来の単純な受信機よりも信号対雑音比が良く,雑音に対して頑健であることを示す。

A quantum receiver is an essential element of quantum illumination (QI) which outperforms its classical counterpart, called classical-illumination (CI). However, there are only few proposals for realizable quantum receiver, which exploits nonlinear effects leading to increasing the complexity of receiver setups. To compensate this, in this article, we design a quantum receiver with linear optical elements for Gaussian QI. Rather than exploiting nonlinear effect, our receiver consists of a 50:50 beam splitter and homodyne detection. Using double homodyne detection after the 50:50 beam splitter, we analyze the performance of the QI in different regimes of target reflectivity, source power, and noise level. We show that our receiver has better signal-to-noise ratio and more robust against noise than the existing simple-structured receivers.
翻訳日:2023-05-04 19:45:48 公開日:2021-02-05
# 巨大原子による可変キラル境界状態

Tunable Chiral Bound States with Giant Atoms ( http://arxiv.org/abs/2008.13560v2 )

ライセンス: Link先を確認
Xin Wang, Tao Liu, Anton Frisk Kockum, Hong-Rong Li and Franco Nori(参考訳) 超伝導巨大原子とジョセフソンフォトニック結晶導波路(PCW)から構成される系において、他の量子配置に類似しない可変キラルバウンド状態を提案する。 カイラル境界状態は、巨大原子の非局所結合と導波路の複数の点との干渉によって生じる。 キラリティは、原子-導波路結合またはPCWの外部バイアスを変化させて調整することができる。 さらに、キラル結合状態は、同じ導波路に結合する複数の巨大原子間の方向性双極子-双極子相互作用を誘導することができる。 提案手法は超伝導回路を用いた実験で実装可能であり, トポロジカル位相遷移と量子シミュレーションを実現するためのツールボックスとして利用できる。

We propose tunable chiral bound states in a system composed of superconducting giant atoms and a Josephson photonic-crystal waveguide (PCW), with no analog in other quantum setups. The chiral bound states arise due to interference in the nonlocal coupling of a giant atom to multiple points of the waveguide. The chirality can be tuned by changing either the atom-waveguide coupling or the external bias of the PCW. Furthermore, the chiral bound states can induce directional dipole-dipole interactions between multiple giant atoms coupling to the same waveguide. Our proposal is ready to be implemented in experiments with superconducting circuits, where it can be used as a tunable toolbox to realize topological phase transitions and quantum simulations.
翻訳日:2023-05-04 05:32:16 公開日:2021-02-05
# 高密度双極子-双極子相互作用原子アンサンブルからの光子の集団放出

Collective emission of photons from dense, dipole-dipole interacting atomic ensembles ( http://arxiv.org/abs/2009.08653v2 )

ライセンス: Link先を確認
David Petrosyan and Klaus M{\o}lmer(参考訳) 冷たく閉じ込められた原子アンサンブルの集団放射特性について検討した。 平均原子間距離が原子から放出される共鳴光放射の波長に匹敵する、またはより小さい高密度レジームを考える。 励起原子アンサンブルからの光子の放出速度は、細長い雲に対して強く増強されていることが判明した。 原子アンサンブルの集団的単一励起固有状態を分析し、非相互作用(低密度)スペクトルや単一原子スペクトルと比較して吸収/放出スペクトルが広く、低い周波数にシフトしていることを見いだす。 また,放射光の空間的および時間的分布も分析した。 最後に,量子計算および通信アプリケーションのための物質光インタフェースを実装するために,原子アンサンブルの集合超放射状態を長期保存状態から効率的に励起する方法を検討する。

We study the collective radiation properties of cold, trapped ensembles of atoms. We consider the high density regime with the mean interatomic distance being comparable to, or smaller than, the wavelength of the resonant optical radiation emitted by the atoms. We find that the emission rate of a photon from an excited atomic ensemble is strongly enhanced for an elongated cloud. We analyze collective single-excitation eigenstates of the atomic ensemble and find that the absorption/emission spectrum is broadened and shifted to lower frequencies as compared to the non-interacting (low density) or single atom spectrum. We also analyze the spatial and temporal profile of the emitted radiation. Finally, we explore how to efficiently excite the collective super-radiant states of the atomic ensemble from a long-lived storage state in order to implement matter-light interfaces for quantum computation and communication applications.
翻訳日:2023-05-01 22:15:15 公開日:2021-02-05
# 任意の半径の2つのドリュー球に対する古典的カシミール自由エネルギー:平面波アプローチ

Classical Casimir free energy for two Drude spheres of arbitrary radii: A plane-wave approach ( http://arxiv.org/abs/2009.14090v2 )

ライセンス: Link先を確認
Tanja Schoger, Gert-Ludwig Ingold(参考訳) 任意の半径の2つのドリュー球間のカシミール相互作用の高温限界の正確な解析式を導出する。 具体的には、平面波基底における散乱アプローチを用いてカシミール自由エネルギーを決定する。 ラウンドトリップの展開の中で、ラウンドトリップの特定の分割の組合せを考えるように導かれる。 カシミール自由エネルギーと2つの球面の容量行列の関係について考察した。 以前は、球面幾何学の特別な場合と等しい半径の2つの球面が回収されていた。 2つの球面間の小さな距離に対する漸近展開が決定され、その係数に対する解析式が与えられる。

We derive an exact analytic expression for the high-temperature limit of the Casimir interaction between two Drude spheres of arbitrary radii. Specifically, we determine the Casimir free energy by using the scattering approach in the plane-wave basis. Within a round-trip expansion, we are led to consider the combinatorics of certain partitions of the round trips. The relation between the Casimir free energy and the capacitance matrix of two spheres is discussed. Previously known results for the special cases of a sphere-plane geometry as well as two spheres of equal radii are recovered. An asymptotic expansion for small distances between the two spheres is determined and analytical expressions for the coefficients are given.
翻訳日:2023-04-30 16:21:23 公開日:2021-02-05
# 開量子系に対する非線形マスター方程式

A Nonlinear Master Equation for Open Quantum Systems ( http://arxiv.org/abs/2010.06381v8 )

ライセンス: Link先を確認
Roumen Tsekov(参考訳) 非線形マスター方程式が導出され、開量子系のエントロピーを適切に反映する。 線型代替とは対照的に、その平衡解はまさに正準ギブス密度行列である。 ウィグナー関数の対応する非線形方程式は熱量子エントロピーに対して厳密に説明される。 座標部分空間におけるsmoluchowski-bohm方程式に対する大きな摩擦を減少させるが、これは確率的ランジュバン-ボーム力学を反映している。 量子ブラウン粒子の非平衡運動量分散に対する前述したマクスウェル・ハイゼンベルク関係は、ブラウン運動の古典アインシュタイン則の関連する量子汎化と同様に確認された。

A nonlinear master equation is derived, reflecting properly the entropy of open quantum systems. In contrast to linear alternatives, its equilibrium solution is exactly the canonical Gibbs density matrix. The corresponding nonlinear equation for the Wigner function accounts rigorously for the thermo-quantum entropy. It reduces at large friction to the Smoluchowski-Bohm equation in the coordinate subspace, which reflects the stochastic Langevin-Bohm dynamics. The previously derived Maxwell-Heisenberg relation for the nonequilibrium momentum dispersion of quantum Brownian particles is confirmed as well as the related quantum generalization of the classical Einstein law of Brownian motion.
翻訳日:2023-04-29 07:00:07 公開日:2021-02-05
# 実かつ近似的な連続変数ゲート分解

Exact and approximate continuous-variable gate decompositions ( http://arxiv.org/abs/2010.07453v2 )

ライセンス: Link先を確認
Timjan Kalajdzievski and Nicol\'as Quesada(参考訳) 我々は,連続変数量子コンピュータのゲート分解技術の詳細を収集・検討し,これらの手法を拡張する新しい手法を紹介する。 正確な分解法と近似分解法の両方を研究し、ゲート数を比較する。 それぞれ異なる利点があるが、正確な分解はより低いゲート数を持つのに対し、近似手法は全ての連続変数演算の分解をカバーできるが、控えめな精度では回路深度が必要となる。

We gather and examine in detail gate decomposition techniques for continuous-variable quantum computers and also introduce some new techniques which expand on these methods. Both exact and approximate decomposition methods are studied and gate counts are compared for some common operations. While each having distinct advantages, we find that exact decompositions have lower gate counts whereas approximate techniques can cover decompositions for all continuous-variable operations but require significant circuit depth for a modest precision.
翻訳日:2023-04-29 00:36:57 公開日:2021-02-05
# q$変形ユークリッド空間上の非相対論的一粒子問題

Nonrelativistic one-particle problem on $q$-deformed Euclidean space ( http://arxiv.org/abs/2010.08826v2 )

ライセンス: Link先を確認
Hartmut Wachter(参考訳) 我々は 3 次元 $q$ 変形ユークリッド空間上の自由非相対論的粒子に対する時間依存 schr\"{o}dinger 方程式を考える。 これらのSchr\"{o}dinger方程式に対する平面波動解を決定し、それらが完全な正則系を形成することを示す。 非相対論的粒子のプロパゲータに対する$q$-deformed式を導出する。 非相対論的粒子の位置や運動量に対する期待値についての考察を結論づけた。

We consider time-dependent Schr\"{o}dinger equations for a free nonrelativistic particle on the three-dimensional $q$-deformed Euclidean space. We determine plane wave solutions to these Schr\"{o}dinger equations and show that they form a complete orthonormal system. We derive $q$-deformed expressions for propagators of a nonrelativistic particle. Considerations about expectation values for position or momentum of a nonrelativistic particle conclude our studies.
翻訳日:2023-04-28 19:51:56 公開日:2021-02-05
# 量子状態の読み出し、崩壊、プローブ、信号

Quantum State Readout, Collapses, Probes and Signals ( http://arxiv.org/abs/2010.11804v3 )

ライセンス: Link先を確認
Adrian Kent (Centre for Quantum Information and Foundations, DAMTP, University of Cambridge, and Perimeter Institute for Theoretical Physics)(参考訳) 局所崩壊を含む理論により、量子状態に関する古典的な情報がPOVMSを使用しず、超音速シグナルを許さずに得られる可能性がある。 これを量子論を拡張して、ある点における局所量子状態に関する情報を読み取る仮想的なデバイスを含むようにモデル化し、過去の光円錐の崩壊のみを考慮することで定義することができる。 popescu-rohrlich boxのように、もし実現可能であれば、これらの仮説的な装置は実用的な科学的な意味を持つだろう。 これらは不透明な媒体を通してのシグナル伝達、反射信号を必要としない遠方または不透明な系の物理の探索、崩壊系の直接観測を必要としない崩壊ダイナミクスに関する詳細な情報の提供を含む。 これらの潜在的な応用は、これらの量子理論の非標準拡張のシグネチャの体系的な探索、特に小さなスケールでの半古典重力の妥当性のような関連する重力効果を動機付けている。

Theories involving localized collapse allow the possibility that classical information could be obtained about quantum states without using POVMS and without allowing superluminal signalling. We can model this by extending quantum theory to include hypothetical devices that read out information about the local quantum state at a given point, defined by considering only collapses in its past light cone. Like Popescu-Rohrlich boxes, these hypothetical devices would have practical and scientific implications if realisable. These include signalling through opaque media, probing the physics of distant or opaque systems without needing a reflected signal and giving detailed information about collapse dynamics without requiring direct observation of the collapsing system. These potential applications motivate systematic searches for possible signatures of these nonstandard extensions of quantum theory, and in particular for relevant gravitational effects, such as the validity of semi-classical gravity on small scales.
翻訳日:2023-04-28 00:55:58 公開日:2021-02-05
# 量子光学によるキャビティ中の光誘起電子移動の研究

A quantum optics approach to photoinduced electron transfer in cavities ( http://arxiv.org/abs/2011.06590v2 )

ライセンス: Link先を確認
David Wellnitz, Guido Pupillo, Johannes Schachenmayer(参考訳) キャビティの光子モードに集合的に均一に結合した多くのドナー-受容体対に対する光誘起電子移動反応の簡単なモデルについて検討した。 量子光学系lindbladマスター方程式の枠組みにおいて、この結合によって生じるコヒーレントおよび散逸的集団効果について述べる。 本研究ではドナー状態とアクセプター状態とキャビティモードを断熱的に除去し,電子移動に有効な速度方程式を導出する手法を提案する。 得られた速度方程式はキャビティモードとの弱い結合と強い結合の両方に有効であり、キャビティ結合された明るい状態と未結合の暗黒状態の両方を通して電子移動を記述する。 基底状態におけるペアの時間変化数に非自明に依存する瞬時電子移動速度の解析式を導出する。 適切な共振条件下では、非コヒーレント駆動の存在下では、共振器によって反応速度を向上することができる。 この強化は、弱い光と物質の結合状態において持続し、最大となる。 空洞効果が実際の実験に与える影響について考察する。

We study a simple model for photoinduced electron transfer reactions for the case of many donor-acceptor pairs that are collectively and homogeneously coupled to a photon mode of a cavity. We describe both coherent and dissipative collective effects resulting from this coupling within the framework of a quantum optics Lindblad master equation. We introduce a method to derive an effective rate equation for electron transfer, by adiabatically eliminating donor and acceptor states and the cavity mode. The resulting rate equation is valid both for weak and strong coupling to the cavity mode, and describes electronic transfer through both the cavity coupled bright states and the uncoupled dark states. We derive an analytic expression for the instantaneous electron transfer rate that depends non-trivially on the time-varying number of pairs in the ground state. We find that under proper resonance conditions, and in the presence of an incoherent drive, reaction rates can be enhanced by the cavity. This enhancement persists, and can even be largest, in the weak light-matter coupling regime. We discuss how the cavity effect is relevant for realistic experiments.
翻訳日:2023-04-24 07:29:51 公開日:2021-02-05
# 多目的・多目的最適化のためのMIP-DoMインジケータの解析

Analyzing Dominance Move (MIP-DoM) Indicator for Multi- and Many-objective Optimization ( http://arxiv.org/abs/2012.11557v3 )

ライセンス: Link先を確認
Claudio Lucio do Val Lopes, Fl\'avio Vin\'icius Cruzeiro Martins, Elizabeth Fialho Wanner, Kalyanmoy Deb(参考訳) 支配移動(dom)は、異なるアルゴリズムから得られる2つの解集合を比較するために、多目的および多目的最適化に使用できるバイナリ品質指標である。 DoMインジケータは収束、拡散、均一性、濃度などの重要な特徴に対して集合を区別することができる。 DoM は参照を一切使用せず、$\epsilon$-indicator と同様、直感的で物理的意味を持ち、ある集合のメンバーの最小総移動を計算するので、他の集合のすべての要素が支配的または同一である。 上記の性質にもかかわらず、DoMは特に高次元では計算が難しい。 双目的の場合のみに計算する効率的かつ正確な方法が存在する。 本研究では、3つ以上の目的を持つ集合を処理し、$\epsilon$-indicatorの情報損失を克服できる混合整数プログラミング(MIP)アプローチを用いてDoMを計算する新しい手法を提案する。 双対象空間における実験は、モデルの正しさを検証するために行われる。 さらに,3,5,10,15,20,25,30物体問題を用いた実験を行い,モデルが高次元の場合の挙動を示す。 IBEA, MOEA/D, NSGA-III, NSGA-II, SPEA2などのアルゴリズムは、解集合を生成するために使用される(ただし、提案されたMIP-DoMインジケータで他のアルゴリズムも使用できる)。 さらなる拡張は、ある解集合で特定の慣用性を扱うために議論され、また、他の状況における品質指標とその使用を改善するために議論される。

Dominance move (DoM) is a binary quality indicator that can be used in multi-objective and many-objective optimization to compare two solution sets obtained from different algorithms. The DoM indicator can differentiate the sets for certain important features, such as convergence, spread, uniformity, and cardinality. DoM does not use any reference, and it has an intuitive and physical meaning, similar to the $\epsilon$-indicator, and calculates the minimum total move of members of one set so that all elements in another set are to be dominated or identical to at least one member of the first set. Despite the aforementioned properties, DoM is hard to calculate, particularly in higher dimensions. There is an efficient and exact method to calculate it in a bi-objective case only. This work proposes a novel approach to calculate DoM using a mixed integer programming (MIP) approach, which can handle sets with three or more objectives and is shown to overcome the $\epsilon$-indicator's information loss. Experiments, in the bi-objective space, are done to verify the model's correctness. Furthermore, other experiments, using 3, 5, 10, 15, 20, 25 and 30-objective problems are performed to show how the model behaves in higher-dimensional cases. Algorithms, such as IBEA, MOEA/D, NSGA-III, NSGA-II, and SPEA2 are used to generate the solution sets (however any other algorithms can also be used with the proposed MIP-DoM indicator). Further extensions are discussed to handle certain idiosyncrasies with some solution sets and also to improve the quality indicator and its use for other situations.
翻訳日:2023-04-20 00:18:38 公開日:2021-02-05
# 電気光学系による光学・マイクロ波変換の持続的絡み合い

Surviving Entanglement in Optic-Microwave Conversion by Electro-Optomechanical System ( http://arxiv.org/abs/2101.02508v2 )

ライセンス: Link先を確認
Yonggi Jo, Su-Yong Lee, Yong Sup Ihn, Dongkyu Kim, Zaeill Kim, Duk Y. Kim(参考訳) 近年の量子技術では、量子信号の周波数変換が広く研究されている。 光2モード圧縮真空状態において、電気光学的周波数変換方式を1モードに応用して発生する光-マイクロ波絡みについて検討する。 変換された2モードガウス状態のエンタングルメントを定量化し、その状態の残存エンタングルメントを電気-オプトメカニカル系のパラメータに関して解析する。 さらに,高度に絡み合った光状態の変換後に残存する絡み合いの上限が存在することを示す。 本研究は,実用的な量子照明システムの理論的基盤を提供する。

In recent development of quantum technologies, a frequency conversion of quantum signals has been studied widely. We investigate the optic-microwave entanglement that is generated by applying an electro-optomechanical frequency conversion scheme to one mode in an optical two-mode squeezed vacuum state. We quantify entanglement of the converted two-mode Gaussian state, where surviving entanglement of the state is analyzed with respect to the parameters of the electro-optomechanical system. Furthermore, we show that there exists an upper bound for the entanglement that survives after the conversion of highly entangled optical states. Our study provides a theoretical platform for a practical quantum illumination system.
翻訳日:2023-04-17 10:58:11 公開日:2021-02-05
# 量子コンピュータ上のダークマターの宇宙論的シミュレーションに向けて

Towards Cosmological Simulations of Dark Matter on Quantum Computers ( http://arxiv.org/abs/2101.05821v2 )

ライセンス: Link先を確認
Philip Mocz (Princeton), Aaron Szasz (Perimeter Institute)(参考訳) 古典的なコンピュータにおける最先端の宇宙論シミュレーションは、時間、エネルギー、メモリ使用量によって制限される。 量子コンピュータは、古典的コンピュータよりも指数関数的に高速に計算し、指数関数的に少ないエネルギーとメモリを使い、統計的に代表される宇宙の体積の中で、宇宙のダイナミックな範囲全体を正確に捉える非常に大きなシミュレーションを可能にする。 しかし、全ての計算タスクが '量子優位' を示すわけではない。 量子回路は量子状態に線形に作用するため、非線形性(例えば宇宙シミュレーションにおける自己重力)は重要な課題となる。 ここでは,この課題を克服するための1つの潜在的アプローチを概説し,ハイブリッド量子古典変分アルゴリズムフレームワーク(lubasch 2020)に基づく自己重力暗黒物質の進化のための(非線形)シュロディンガー・ポアソン方程式を解く。 量子コンピュータがいつの日かダークマターのシミュレーションをリードする未来を想定した、概念実証型量子シミュレーションを用いてこの手法を実証する。

State-of-the-art cosmological simulations on classical computers are limited by time, energy, and memory usage. Quantum computers can perform some calculations exponentially faster than classical computers, using exponentially less energy and memory, and may enable extremely large simulations that accurately capture the whole dynamic range of structure in the Universe within statistically representative cosmic volumes. However, not all computational tasks exhibit a `quantum advantage'. Quantum circuits act linearly on quantum states, so nonlinearities (e.g. self-gravity in cosmological simulations) pose a significant challenge. Here we outline one potential approach to overcome this challenge and solve the (nonlinear) Schrodinger-Poisson equations for the evolution of self-gravitating dark matter, based on a hybrid quantum-classical variational algorithm framework (Lubasch 2020). We demonstrate the method with a proof-of-concept mock quantum simulation, envisioning a future where quantum computers will one day lead simulations of dark matter.
翻訳日:2023-04-15 04:54:51 公開日:2021-02-05
# 量子ウォーク、バリアトップ散乱およびハダマールウォークにおけるファインマン積分

Feynman Integral in Quantum Walk, Barrier-top Scattering and Hadamard Walk ( http://arxiv.org/abs/2101.07617v2 )

ライセンス: Link先を確認
Kenta Higuchi(参考訳) 本論文の目的は、散乱問題における$\mathbb{z}$ の離散量子ウォークと$\mathbb{r}$ 上の連続schr\"odinger演算子を関連付けることである。 $\mathbb{Z}$ の各点はポテンシャルの障壁に関連付けられ、量子ウォークのコイン演算子は障壁の両側の古典的に許容される領域の WKB 解の基底間の移動行列によって決定される。 この対応により、Schr\"odinger演算子の散乱行列の各エントリを、量子ウォーカーの経路に関連する確率振幅の可算和として表現することができる。 特に、バリアトップ散乱は半古典的極限のハダマール歩行に対応する。

The aim of this article is to relate the discrete quantum walk on $\mathbb{Z}$ with the continuous Schr\"odinger operator on $\mathbb{R}$ in the scattering problem. Each point of $\mathbb{Z}$ is associated with a barrier of the potential, and the coin operator of the quantum walk is determined by the transfer matrix between bases of WKB solutions on the classically allowed regions of both sides of the barrier. This correspondence enables us to represent each entry of the scattering matrix of the Schr\"odinger operator as a countable sum of probability amplitudes associated with the paths of the quantum walker. In particular, the barrier-top scattering corresponds to the Hadamard walk in the semiclassical limit.
翻訳日:2023-04-14 18:00:24 公開日:2021-02-05
# 非Bloch PT対称性の破れ:普遍しきい値と次元サプライズ

Non-Bloch PT symmetry breaking: Universal threshold and dimensional surprise ( http://arxiv.org/abs/2102.02230v2 )

ライセンス: Link先を確認
Fei Song, Hong-Yi Wang, Zhong Wang(参考訳) 非エルミート皮膚効果の存在下では、非エルミート格子は一般に周期境界条件下で複素値固有エネルギーを持つが、非ブローチpt対称性を持ち、したがって開境界条件下で完全に実固有エネルギーを持つことができる。 この新しいpt対称性とその破断は1次元で実験的に観察されている。 ここでは,2次元と高次元の非ブロックPT対称性は,その1次元とは大きく異なる挙動を示す。 ブロッホ PT の破れと1次元非ブロッホ PT の破れは、一般に大きめの極限においてゼロではないしきい値を持つが、2次元および高次元非ブロッホ PT の破れのしきい値は、システムサイズが大きくなるにつれてゼロに近づく。 PT破壊傾向を定量化するために、積測度、すなわち、素非ハーモニティの積とシステムサイズが導入された。 この生成物は摂動理論が有効であることが要求されるため、系の大きさで成長すると摂動理論が崩壊し、普遍的しきい値が下降する。 普遍的な行動は2次元以上の次元でのみ現れ、PT対称性、非エルミティアス皮膚効果、空間次元の予期せぬ相互作用を示す。 我々の予測は実験可能なプラットフォーム上で確認することができる。

In the presence of non-Hermitian skin effect, non-Hermitian lattices generally have complex-valued eigenenergies under periodic boundary condition, but they can have non-Bloch PT symmetry and therefore completely real eigenenergies under open boundary condition. This novel PT symmetry and its breaking have been experimentally observed in one dimension. Here, we find that non-Bloch PT symmetry in two and higher dimensions exhibits drastically different behaviors compared to its one-dimensional counterpart. Whereas Bloch PT breaking and one-dimensional non-Bloch PT breaking generally have nonzero thresholds in the large-size limit, the threshold of two and higher-dimensional non-Bloch PT breaking universally approaches zero as the system size increases. A product measure, namely the product of bare non-Hermiticity and system size, is introduced to quantify the PT breaking tendency. This product being small is required for the perturbation theory to be valid, thus its growth with system size causes the breakdown of perturbation theory, which underlies the universal threshold. That the universal behaviors emerge only in two and higher dimensions indicates an unexpected interplay among PT symmetry, non-Hermitian skin effect, and spatial dimensionality. Our predictions can be confirmed on experimentally accessible platforms.
翻訳日:2023-04-12 22:14:23 公開日:2021-02-05
# 削除誤りに対する置換不変量子符号

Permutation-Invariant Quantum Codes for Deletion Errors ( http://arxiv.org/abs/2102.03015v1 )

ライセンス: Link先を確認
Taro Shibayama and Manabu Hagiwara(参考訳) 本稿では,削除エラーに対する置換不変量子符号の構成条件とそれらの構築方法を提案する。 私たちのコードは、2つ以上の削除エラーを訂正できる量子コードの最初の例を与えます。 また、我々の符号は、多重量子ビットエラーと多重削除エラーの両方を補正できる量子コードの最初の例を示す。 また、最後にコードの構築の一般化についても論じる。

This paper presents conditions for constructing permutation-invariant quantum codes for deletion errors and provides a method for constructing them. Our codes give the first example of quantum codes that can correct two or more deletion errors. Also, our codes give the first example of quantum codes that can correct both multiple-qubit errors and multiple-deletion errors. We also discuss a generalization of the construction of our codes at the end.
翻訳日:2023-04-12 11:59:34 公開日:2021-02-05
# 窒化ケイ素環空洞を用いたテレコムバンドにおける周波数相関光子生成

Frequency correlated photon generation at telecom band using silicon nitride ring cavities ( http://arxiv.org/abs/2102.03005v1 )

ライセンス: Link先を確認
Zhenghao Yin, Kenta Sugiura, Hideaki Takashima, Ryo Okamoto, Feng Qiu, Shiyoshi Yokoyama, Shigeki Takeuchi(参考訳) 周波数絡み合った光子源は、量子鍵分布、クラスター状態量子計算、量子気象学など、様々な光学量子技術において高い需要がある。 チップスケールの光子ソースはシリコンプラットフォームを使用して開発され、堅牢性、スケーラビリティ、CMOS技術との互換性を提供する。 本稿では,150GHzの窒化ケイ素環空洞を用いた周波数相関光子対の生成について報告する。 まず、自発4波混合時の位相整合条件を研究することを特徴とする。 次に、生成した光子の結合スペクトル強度を評価し、51.25nmの帯域に対応する42の相関周波数モード対で光子ペア生成を確認した。 最後に、実験結果を分析し、位相整合条件を用いて合同スペクトル強度を定量化する。

Frequency entangled photon sources are in high demand in a variety of optical quantum technologies, including quantum key distribution, cluster state quantum computation and quantum metrology. In the recent decade, chip-scale entangled photon sources have been developed using silicon platforms, offering robustness, large scalability and CMOS technology compatibility. Here, we report the generation of frequency correlated photon pairs using a 150-GHz silicon nitride ring cavity. First, the device is characterized for studying the phase matching condition during spontaneous four-wave mixing. Next, we evaluate the joint spectrum intensity of the generated photons and confirm the photon pair generation in a total of42 correlated frequency mode pairs, corresponding to a bandwidth of 51.25 nm. Finally, the experimental results are analyzed and the joint spectral intensity is quantified in terms of the phase matching condition.
翻訳日:2023-04-12 11:59:28 公開日:2021-02-05
# 強普遍ハミルトンシミュレータ

Strongly Universal Hamiltonian Simulators ( http://arxiv.org/abs/2102.02991v1 )

ライセンス: Link先を確認
Leo Zhou, Dorit Aharonov(参考訳) 普遍的なハミルトニアン族は、その全スペクトルをハミルトニアン族からの低エネルギー部分空間として符号化することで、任意の局所ハミルトニアンをシミュレートすることができる。 多くのスピン格子模型、例えばハイゼンベルクや2次元正方格子上のXY相互作用は普遍的であることが知られている。 しかし、既知のエンコーディングは非常に非効率であり、元のハミルトニアンが高次元、長距離、あるいは全対全相互作用を持つ場合、システムサイズと指数関数的にスケールする相互作用エネルギーを必要とする。 本研究では,これらの普遍的家族を「強く」普遍的に構成する効率的な構成法を提案する。 これは、2dシミュレータの必要な相互作用エネルギーとその他のリソースが、ターゲットの接続性に関係なく、ターゲットのハミルトニアンと精度パラメータのサイズを多項式的にスケールすることを意味する。 この指数的改善は、量子位相推定アルゴリズムと回路-ハミルトン変換のツールを多項式オーバーヘッドのみを引き起こす非摂動的な方法で組み合わせることで達成される。 シミュレータハミルトニアンもある種の変換不変性を持っている。 さらに,線上の8次元粒子の近距離-近距離相互作用を持つ1次元ハミルトニアンでさえ,翻訳-不変性がなくても強い普遍的ハミルトニアンシミュレータであることを示した。 以上の結果から,一般システムのアナログ量子シミュレーションを効率的に行うことが可能であることが確認された。

A universal family of Hamiltonians can be used to simulate any local Hamiltonian by encoding its full spectrum as the low-energy subspace of a Hamiltonian from the family. Many spin-lattice model Hamiltonians -- such as Heisenberg or XY interaction on the 2D square lattice -- are known to be universal. However, the known encodings can be very inefficient, requiring interaction energy that scales exponentially with system size if the original Hamiltonian has higher-dimensional, long-range, or even all-to-all interactions. In this work, we provide an efficient construction by which these universal families are in fact "strongly" universal. This means that the required interaction energy and all other resources in the 2D simulator scale polynomially in the size of the target Hamiltonian and precision parameters, regardless of the target's connectivity. This exponential improvement over previous constructions is achieved by combining the tools of quantum phase estimation algorithm and circuit-to-Hamiltonian transformation in a non-perturbative way that only incurs polynomial overhead. The simulator Hamiltonian also possess certain translation-invariance. Furthermore, we show that even 1D Hamiltonians with nearest-neighbor interaction of 8-dimensional particles on a line are strongly universal Hamiltonian simulators, although without any translation-invariance. Our results establish that analog quantum simulations of general systems can be made efficient, greatly increasing their potential as applications for near-future quantum technologies.
翻訳日:2023-04-12 11:59:14 公開日:2021-02-05
# 12,000以上のホスト材料におけるスピン量子コヒーレンスの一般化スケーリング

Generalized scaling of spin qubit coherence in over 12,000 host materials ( http://arxiv.org/abs/2102.02986v1 )

ライセンス: Link先を確認
Shun Kanai, F. Joseph Heremans, Hosung Seo, Gary Wolfowicz, Christopher P. Anderson, Sean E. Sullivan, Giulia Galli, David D. Awschalom, and Hideo Ohno(参考訳) 長い量子コヒーレンス時間(T_2$)を持つスピン欠陥中心は、様々な量子応用のための重要な固体プラットフォームである。 近年、クラスター相関展開(CCE)技術は、これらの固体系の欠陥電子スピンの$T_2$を精度良くシミュレートする強力なツールとして登場した。 ここではCCEに基づいて、希薄な核スピン浴を持つホスト化合物に対して一般化されたT_2$の代数的表現を明らかにし、コヒーレンスをほぼ瞬時に見積もって定量的かつ包括的な材料探索を可能にする。 天然同位体存在下では12,000以上のホスト化合物を探索し、量子応用の顕著なワイドギャップ半導体である炭化ケイ素(SiC)が、ワイドギャップ非カルコゲナイドの中で最長のコヒーレンス時間を有することを明らかにした。 さらに700以上のカルコゲナイドがSiCよりも長いT_2$を持つことが示されている。 提案する新しいホスト化合物は, 最大47msまでの約$T_2$で, 量子応用のための前例のない機能材料を探索する道を開く。

Spin defect centers with long quantum coherence times ($T_2$) are key solid-state platforms for a variety of quantum applications. Recently, cluster correlation expansion (CCE) techniques have emerged as a powerful tool to simulate the $T_2$ of defect electron spins in these solid-state systems with good accuracy. Here, based on CCE, we uncover an algebraic expression for $T_2$ generalized for host compounds with dilute nuclear spin baths, which enables a quantitative and comprehensive materials exploration with a near instantaneous estimate of the coherence. We investigate more than 12,000 host compounds at natural isotopic abundance, and find that silicon carbide (SiC), a prominent widegap semiconductor for quantum applications, possesses the longest coherence times among widegap non-chalcogenides. In addition, more than 700 chalcogenides are shown to possess a longer $T_2$ than SiC. We suggest new potential host compounds with promisingly long $T_2$ up to 47 ms, and pave the way to explore unprecedented functional materials for quantum applications.
翻訳日:2023-04-12 11:58:50 公開日:2021-02-05
# スーパーコンピュータにおける大規模量子計算シミュレーションのためのキャッシュブロッキング手法

Cache Blocking Technique to Large Scale Quantum Computing Simulation on Supercomputers ( http://arxiv.org/abs/2102.02957v1 )

ライセンス: Link先を確認
Jun Doi, Hiroshi Horii(参考訳) 古典的コンピュータは、多数の量子ビットを持つ量子回路をシミュレートするために、大きなメモリ資源と計算能力を必要とする。 大量のデータを格納できるスーパーコンピュータでさえ、分散メモリ空間間のデータ移動の遅延のため、並列量子コンピューティングシミュレーションに関してスケーラビリティの問題に直面している。 本稿では,スワップゲートを量子回路に挿入し,データ移動を減らすキャッシュブロッキング手法を適用する。 我々はオープンソースのシミュレーションフレームワークであるQiskit Aerにこのテクニックを実装した。 シミュレータをgpuクラスタ上で評価し,優れたスケーラビリティを観察した。

Classical computers require large memory resources and computational power to simulate quantum circuits with a large number of qubits. Even supercomputers that can store huge amounts of data face a scalability issue in regard to parallel quantum computing simulations because of the latency of data movements between distributed memory spaces. Here, we apply a cache blocking technique by inserting swap gates in quantum circuits to decrease data movements. We implemented this technique in the open source simulation framework Qiskit Aer. We evaluated our simulator on GPU clusters and observed good scalability.
翻訳日:2023-04-12 11:58:30 公開日:2021-02-05
# NOON状態のための原子間プロトコル設計

Atomtronic protocol designs for NOON states ( http://arxiv.org/abs/2102.02944v1 )

ライセンス: Link先を確認
Daniel S. Grun, Karin W. Wittmann, Leandro H. Ymai, Jon Links, Angela Foerster(参考訳) 非古典状態を確実に準備する能力は、量子技術の実現において重要な役割を果たす。 シュレーディンガー・キャット状態に属するNOON状態は、いくつかの応用において主要な候補として現れている。 4つの部位の閉回路に閉じ込められた双極子ボソンのモデルから始め、NOON状態の生成方法を示す。 これは時間発展、外部場の適用、局所射影計測を用いて初期フォック状態を正午状態に変換するプロトコルを設計することによって達成される。 外部磁場強度の変動により, 位相をNOON状態に符号化するための制御方法を実証する。 また,光学格子設定による物理的実現可能性についても論じる。 本提案は、原子核プロトコルの設計における量子可積分システムの利点を照らしている。

The ability to reliably prepare non-classical states will play a major role in the realization of quantum technology. NOON states, belonging to the class of Schroedinger cat states, have emerged as a leading candidate for several applications. Starting from a model of dipolar bosons confined to a closed circuit of four sites, we show how to generate NOON states. This is achieved by designing protocols to transform initial Fock states to NOON states through use of time evolution, application of an external field, and local projective measurements. By variation of the external field strength, we demonstrate how the system can be controlled to encode a phase into a NOON state. We also discuss the physical feasibility, via an optical lattice setup. Our proposal illuminates the benefits of quantum integrable systems in the design of atomtronic protocols.
翻訳日:2023-04-12 11:58:23 公開日:2021-02-05
# tan-walls-collett「単一光子の非局所性」を用いたデバイス独立プロトコルのno-go

No-go for device independent protocols with Tan-Walls-Collett `nonlocality of a single photon' ( http://arxiv.org/abs/2102.03254v1 )

ライセンス: Link先を確認
Tamoghna Das, Marcin Karczewski, Antonio Mandarino, Marcin Markiewicz, Bianka Woloncewicz, Marek \.Zukowski(参考訳) 我々は,tan,walls,collett [phys] による干渉法について検討した。 Rev. Lett. 単光子のベル非古典性を明らかにすることを目的とした 256 (1991)] である。 結果を再現するローカルな隠れ変数モデルを提供することで、我々はこの主張を決定的に否定する。 特にこれは、このスキームがデバイスに依存しないプロトコルでは使用できないことを意味する。

We investigate the interferometric scheme put forward by Tan, Walls and Collett [Phys. Rev. Lett. {\bf 66}, 256 (1991)] that aims to reveal Bell non-classicality of a single photon. By providing a local hidden variable model that reproduces their results, we decisively refute this claim. In particular, this means that the scheme cannot be used in device-independent protocols.
翻訳日:2023-04-12 11:50:26 公開日:2021-02-05
# BlockNetレポート: カリキュラムガイダンスドキュメント

BlockNet Report: Curriculum Guidance Document ( http://arxiv.org/abs/2102.03226v1 )

ライセンス: Link先を確認
Boris D\"udder and Haiqin Wu and Michael Henke and Natalia Straub and Tan G\"urpinar and Philipp Asterios Ioannidis and Vladislav Fomin and Raimundas Matulevi\v{c}ius and Mubashar Iqbal(参考訳) ブロックチェーンは新規であり、潜在的なイノベーションを促進するため、難しいトピックです。 ブロックチェーンはさまざまな分野に魅力的であり、その横断的な性質から、さまざまな分野に由来する知識が必要です。 考案されたカリキュラムは、様々な分野の学生グループのニーズを満たすために、特にインスタンス化することができる。 プロジェクトの教育的革新は、プロジェクトベースの学習活動のためのオンラインプラットフォームを介して参加者のインタラクションを伴う学際的なプロジェクトグループを含めることである。 MOOCとSNOCは、学際的および地理的に分散した学生グループのための混合学習を可能にする。

Blockchain is a challenging topic since it is novel and fosters potential innovation. The blockchain is attractive for various disciplines, and, because of its cross-cutting nature, needs knowledge stemming from various disciplines. The devised curriculum can be instantiated specifically to meet the needs of students' groups from various disciplines. The pedagogical innovation of the project is the inclusion of interdisciplinary project groups with participant's interaction via online platforms for project-based learning activities. MOOCs and SNOCs allow blended-learning for interdisciplinary and geographically distributed student groups.
翻訳日:2023-04-12 11:50:04 公開日:2021-02-05
# ハイブリッドマグノニクス系と材料を用いた量子工学

Quantum engineering with hybrid magnonics systems and materials ( http://arxiv.org/abs/2102.03222v1 )

ライセンス: Link先を確認
D. D. Awschalom, C. H. R. Du, R. He, F. J. Heremans, A. Hoffmann, J. T. Hou, H. Kurebayashi, Y. Li, L. Liu, V. Novosad, J. Sklenar, S. E. Sullivan, D. Sun, H. Tang, V. Tiberkevich, C. Trevillian, A. W. Tsen, L. R. Weiss, W. Zhang, X. Zhang, L. Zhao, C. W. Zollitsch(参考訳) 量子技術は過去20年にわたって、材料工学、回路設計、動的操作において驚くべき進歩を遂げてきた。 特に、異なる量子モジュールの統合は、補完的な量子システムの異なる自然な利点を活用し、新しい機能を設計するための重要な経路を提供するハイブリッド量子システムから恩恵を受けている。 このレビューは、磁気励起子やマグノンを新しい量子機能に利用することに関して、現在のフロンティアに焦点を当てている。 マグノンは、磁気秩序のある固体材料の基本的な励起であり、様々な量子系を統合するために様々な量子モジュールと相互作用するための優れたチューニング性と柔軟性を提供する。 複合的な多種多様な物理と物質選択は、材料科学と工学における新しい量子現象の探索を可能にする。 さらに、強い結合を生成し、他の励起とハイブリッド力学系を形成することの比較的容易さにより、ハイブリッドマグノニクスは量子工学のユニークなプラットフォームとなる。 我々は,マイクロ波光子と音響フォノンを結合した回路ベースのハイブリッドマグノニックシステムに関する議論を開始する。 その後,閉じ込められた磁気系におけるマグノン・マグノンカップリングの最近の進展に注目する。 次に,マグノンと窒素空孔の相互作用を量子センシングと量子相互接続の実装のために理解する新たな機会について述べる。 最後に,新しい量子材料のスピン励起とマグノンスペクトルに着目し,高次光学特性解析を行った。

Quantum technology has made tremendous strides over the past two decades with remarkable advances in materials engineering, circuit design and dynamic operation. In particular, the integration of different quantum modules has benefited from hybrid quantum systems, which provide an important pathway for harnessing the different natural advantages of complementary quantum systems and for engineering new functionalities. This review focuses on the current frontiers with respect to utilizing magnetic excitatons or magnons for novel quantum functionality. Magnons are the fundamental excitations of magnetically ordered solid-state materials and provide great tunability and flexibility for interacting with various quantum modules for integration in diverse quantum systems. The concomitant rich variety of physics and material selections enable exploration of novel quantum phenomena in materials science and engineering. In addition, the relative ease of generating strong coupling and forming hybrid dynamic systems with other excitations makes hybrid magnonics a unique platform for quantum engineering. We start our discussion with circuit-based hybrid magnonic systems, which are coupled with microwave photons and acoustic phonons. Subsequently, we are focusing on the recent progress of magnon-magnon coupling within confined magnetic systems. Next we highlight new opportunities for understanding the interactions between magnons and nitrogen-vacancy centers for quantum sensing and implementing quantum interconnects. Lastly, we focus on the spin excitations and magnon spectra of novel quantum materials investigated with advanced optical characterization.
翻訳日:2023-04-12 11:49:49 公開日:2021-02-05
# 2量子状態の直交速度はdzyaloshinsky-moriya相互作用の存在下でスピン鎖と局所的に相互作用する

The orthogonality speed of two-qubit state interacts locally with spin chain in the presence of Dzyaloshinsky-Moriya interaction ( http://arxiv.org/abs/2102.03196v1 )

ライセンス: Link先を確認
D. A. M. Abo-Kahla, M. Y. Abd-Rabbou, and N. Metwally(参考訳) 直交時間は、異なるスピン相互作用と局所的に相互作用する異なる初期状態($XX$, Ising, anisotropic model)に対して検討される。 その結果,環境量子ビットの増加に伴い,直交数が増加し,直交時間が減少することがわかった。 最も短い直交時間が$XX$チェーンモデルに表示され、最大の時間はIsingモデルに表示される。 外部場は直交性の個数を増加させ、dzyaloshinsky-moriya相互作用は直交性の時間を減少させる。 初期状態設定と外部場との対応は直交時間の低下・増大に有意な影響を及ぼす

The orthogonality time is examined for different initial states settings interacting locally with different types of spin interaction: $XX$, Ising and anisotropic models. It is shown that, the number of orthogonality increases, and consequently the time of orthogonality decreases as the environment qubits increase. The shortest time of orthogonality is displayed for the $XX$ chain model, while the largest time is shown for the Ising model. The external field increases the numbers of orthogonality, while Dzyaloshinsky-Moriya interaction decreases the time of orthogonality. The initial state settings together with the external field has a significant effect on decreasing/increasing the time of orthogonality
翻訳日:2023-04-12 11:49:29 公開日:2021-02-05
# 量子化中心型検出器のアンルー効果

Unruh Effect of Detectors with Quantized Center-of-Mass ( http://arxiv.org/abs/2102.03367v1 )

ライセンス: Link先を確認
Vivishek Sudhir, Nadine Stritzelberger, Achim Kempf(参考訳) ウンルー効果(unruh effect)とは、真空中を加速する粒子検出器が、加速の存在下での基本的な量子現象である放射量子場の存在によって励起されるという予測である。 古典的に定められた軌道を仮定するウンルー効果の以前の治療では、検出器の中心の量子力学は考慮されていない。 本研究では,質量中心が外的古典場によって加速される自由度であるより現実的な検出器について研究する。 我々は、unruh quantaの放出による検出器の反動を調べる。 逆もまた、Unruh Quantaの放出と検出器の励起に対するリコイルの影響について研究する。 我々は、unruh quantaの放出による反動は、unruh効果の関連する実験的なサインである可能性があることを見出した。

The Unruh effect is the prediction that particle detectors accelerated through the vacuum get excited by the apparent presence of radiation quanta -- a fundamental quantum phenomenon in the presence of acceleration. Prior treatments of the Unruh effect, that presume a classically prescribed trajectory, do not account for the quantum dynamics of the detector's center-of-mass. Here, we study more realistic detectors whose center of mass is a quantized degree of freedom being accelerated by an external classical field. We investigate the detector's recoil due to the emission of Unruh quanta. Vice versa, we also study the recoil's impact on the emission of Unruh quanta and the excitation of the detector. We find that the recoil due to the emission of Unruh quanta may be a relevant experimental signature of the Unruh effect.
翻訳日:2023-04-12 11:41:12 公開日:2021-02-05
# トンネル時間、ラーモア時計、部屋の象

Tunnelling times, Larmor clock,and the elephant in the room ( http://arxiv.org/abs/2102.03333v1 )

ライセンス: Link先を確認
D. Sokolovski, E. Akhmatskaya(参考訳) ツンネリング時間問題」を取り巻く論争は、通常の方法では、粒子が与えられた空間領域に費やされる時間の定義を提供する量子力学の見かけ上の不可能さに起因している。 このため、問題はしばしば「操作的」な角度からアプローチされる。 典型的には、量子の場合、古典粒子の望ましい結果をもたらす実験を模倣しようとする。 そのようなアプローチの1つは、ラーモア時計の使用に基づいている。 古典的に禁止された遷移が量子不確定性原理から生じる「時間」のために、非摂動式ラーモア時計を適用することの難しさが示されている。 また、この理由から、ラーモア時間(実際にはラーモア時間)が物理的時間間隔として解釈できないことも示している。 また、クロックによって測定された量の理論的記述も提供する。

A controversy surrounding the "tunnelling time problem" stems from the seeming inability of quantum mechanics to provide, in the usual way, a definition of the duration a particle is supposed to spend in a given region of space. For this reason the problem is often approached from an "operational" angle. Typically, one tries to mimic, in a quantum case, an experiment which yields the desired result for a classical particle. One such approach is based on the use of a Larmor clock. We show that the difficulty with applying a non-perturbing Larmor clock in order to "time" a classically forbidden transition arises from the quantum Uncertainty Principle. We also demonstrate that for this reason a Larmor time (in fact, none of the Larmor times) cannot be interpreted as a physical time interval. We also provide a theoretical description of the quantities measured by the clock.
翻訳日:2023-04-12 11:40:46 公開日:2021-02-05
# クリフォードゲートの分解

Decomposition of Clifford Gates ( http://arxiv.org/abs/2102.11380v1 )

ライセンス: Link先を確認
Tefjol Pllaha, Kalle Volanto, Olav Tirkkonen(参考訳) フォールトトレラント量子計算と量子誤り訂正では、回路/ユニタリに可換なパウリ行列に関心がある。 Clifford ゲートを Clifford トランスベクションの $\textit{minimal}$ 積として分解する高速アルゴリズムを提供する。 このアルゴリズムは任意のクリフォードゲートで可換なすべてのパウリ行列を見つけるために直接用いられる。 この目的を達成するために,シンプレクティックグループの構造を新しいグラフィカルアプローチで活用する。

In fault-tolerant quantum computation and quantum error-correction one is interested on Pauli matrices that commute with a circuit/unitary. We provide a fast algorithm that decomposes any Clifford gate as a $\textit{minimal}$ product of Clifford transvections. The algorithm can be directly used for finding all Pauli matrices that commute with any given Clifford gate. To achieve this goal, we exploit the structure of the symplectic group with a novel graphical approach.
翻訳日:2023-04-12 11:30:34 公開日:2021-02-05
# 署名:CPUとGPUの両方でシグネチャおよびログシグネチャ変換の微分可能な計算

Signatory: differentiable computations of the signature and logsignature transforms, on both CPU and GPU ( http://arxiv.org/abs/2001.00706v2 )

ライセンス: Link先を確認
Patrick Kidger, Terry Lyons(参考訳) Signatoryは、署名およびログ署名変換に関連する機能を計算し、実行するライブラリである。 焦点は機械学習であり、cpu並列性、gpuサポート、バックプロパゲーションなどの機能が含まれている。 当社の知る限り、これらの操作のためのGPU対応ライブラリとしては初めてのものです。 signatoryは、効率的な事前計算戦略など、以前のライブラリでは利用できない新機能を実装している。 さらに,並列性のないCPUでもリアルタイムの高速化を実現するアルゴリズムがいくつか導入されている。 ライブラリはC++のPythonラッパーとして動作し、PyTorchエコシステムと互換性がある。 これは \texttt{pip} 経由で直接インストールできる。 ソースコード、ドキュメント、例、ベンチマーク、テストは \texttt{\url{https://github.com/patrick-kidger/signatory}} にある。 ライセンスはApache-2.0。

Signatory is a library for calculating and performing functionality related to the signature and logsignature transforms. The focus is on machine learning, and as such includes features such as CPU parallelism, GPU support, and backpropagation. To our knowledge it is the first GPU-capable library for these operations. Signatory implements new features not available in previous libraries, such as efficient precomputation strategies. Furthermore, several novel algorithmic improvements are introduced, producing substantial real-world speedups even on the CPU without parallelism. The library operates as a Python wrapper around C++, and is compatible with the PyTorch ecosystem. It may be installed directly via \texttt{pip}. Source code, documentation, examples, benchmarks and tests may be found at \texttt{\url{https://github.com/patrick-kidger/signatory}}. The license is Apache-2.0.
翻訳日:2023-01-14 17:26:44 公開日:2021-02-05
# モバイルアプリケーションのためのディスクリプタモデルの圧縮

Compression of descriptor models for mobile applications ( http://arxiv.org/abs/2001.03102v3 )

ライセンス: Link先を確認
Roy Miles, Krystian Mikolajczyk(参考訳) ディープニューラルネットワークは、新しい大規模で多様なデータセットの出現を通じて、特徴ベースの画像マッチングのための最先端のパフォーマンスを実証した。 しかし、これらのモデルの計算コスト、モデルサイズ、およびマッチング精度のトレードオフを評価する作業はほとんど行われていない。 本稿では,最先端のハードネットモデルを用いて,これらの実用的指標を明確に扱う。 我々は, 深度分離可能な層と効率的なタッカー分解を用いて, 学習重量の顕著な冗長性を観察した。 これらの手法の組み合わせは非常に効果的であるが、それでもトップエンドの精度を犠牲にしている。 そこで,本稿では,標準値と深さ値の分離可能な畳み込みを補間する手法として,畳み込み-奥行き点分割(cdp)層を提案する。 提案手法により,HardNetモデルのパラメータ数を8倍に削減し,計算複雑性を13倍に削減し,HPatchesbenchmark全体の精度を1%以下に抑えることができる。 さらに本手法の一般化を実証するため,提案手法を最先端のSuperPointモデルに適用し,パラメータ数や浮動小数点演算を大幅に削減し,マッチング精度の低下を最小限に抑える。

Deep neural networks have demonstrated state-of-the-art performance for feature-based image matching through the advent of new large and diverse datasets. However, there has been little work on evaluating the computational cost, model size, and matching accuracy tradeoffs for these models. This paper explicitly addresses these practical metrics by considering the state-of-the-art HardNet model. We observe a significant redundancy in the learned weights, which we exploit through the use of depthwise separable layers and an efficient Tucker decomposition. We demonstrate that a combination of these methods is very effective, but still sacrifices the top-end accuracy. To resolve this, we propose the Convolution-Depthwise-Pointwise(CDP) layer, which provides a means of interpolating between the standard and depthwise separable convolutions. With this proposed layer, we can achieve an 8 times reduction in the number of parameters on the HardNet model, 13 times reduction in the computational complexity, while sacrificing less than 1% on the overall accuracy across theHPatchesbenchmarks. To further demonstrate the generalisation of this approach, we apply it to the state-of-the-art SuperPoint model, where we can significantly reduce the number of parameters and floating-point operations, with minimal degradation in the matching accuracy.
翻訳日:2023-01-13 05:06:18 公開日:2021-02-05
# 2話者環境における教師付き話者埋め込み脱混合

Supervised Speaker Embedding De-Mixing in Two-Speaker Environment ( http://arxiv.org/abs/2001.06397v2 )

ライセンス: Link先を確認
Yanpei Shi, Thomas Hain(参考訳) 複数話者環境から異なる話者特性を分離することは困難である。 発声源分離のような信号空間に2話者信号を分離する代わりに、話者埋め込み非混合方式を提案する。 提案手法では,埋め込み空間における2話者信号と異なる話者特性を分離する。 提案手法には2つのステップがある。 ステップ1では、残余のTDNNネットワークによりクリーンな話者埋め込みを学習し、収集する。 ステップ2では、2つのスピーカ信号と1つのスピーカの埋め込みの両方が、話者埋め込みデミックスネットワークに入力される。 脱混合ネットワークは、再構成損失により他の話者の埋め込みを生成するように訓練される。 得られた組込みの品質を評価するために、クリーン組込みとデミックス組込みとの間の話者識別精度とコサイン類似度スコアを用いる。 実験は, 人工拡張現実2話者データ (TIMIT) と実世界2話者データ (MC-WSJ) の2種類のデータを用いて行われる。 6種類の話者埋め込み逆混合アーキテクチャについて検討した。 クリーンな話者埋め込みの性能と比較すると,提案アーキテクチャの1つは密な性能を示し,96.9%の識別精度と0.89のコサイン類似性を示した。

Separating different speaker properties from a multi-speaker environment is challenging. Instead of separating a two-speaker signal in signal space like speech source separation, a speaker embedding de-mixing approach is proposed. The proposed approach separates different speaker properties from a two-speaker signal in embedding space. The proposed approach contains two steps. In step one, the clean speaker embeddings are learned and collected by a residual TDNN based network. In step two, the two-speaker signal and the embedding of one of the speakers are both input to a speaker embedding de-mixing network. The de-mixing network is trained to generate the embedding of the other speaker by reconstruction loss. Speaker identification accuracy and the cosine similarity score between the clean embeddings and the de-mixed embeddings are used to evaluate the quality of the obtained embeddings. Experiments are done in two kind of data: artificial augmented two-speaker data (TIMIT) and real world recording of two-speaker data (MC-WSJ). Six different speaker embedding de-mixing architectures are investigated. Comparing with the performance on the clean speaker embeddings, the obtained results show that one of the proposed architectures obtained close performance, reaching 96.9% identification accuracy and 0.89 cosine similarity.
翻訳日:2023-01-11 12:15:24 公開日:2021-02-05
# 近傍構造支援非負行列分解とその教師なし点異常検出への応用

Neighborhood Structure Assisted Non-negative Matrix Factorization and its Application in Unsupervised Point-wise Anomaly Detection ( http://arxiv.org/abs/2001.06541v3 )

ライセンス: Link先を確認
Imtiaz Ahmed, Xia Ben Hu, Mithun P. Acharya and Yu Ding(参考訳) ディメンダリティの低減は,異常検出などの教師なし学習において,競争性能を確保する重要なステップであると考えられる。 非負行列分解 (NMF) はこの目的を達成するために広く用いられている手法である。 しかし、nmf は近傍構造情報を包含する条項を持たず、結果として、非線形多様体構造の存在下で十分な性能を提供できない可能性がある。 そこで本研究では,NMF フレームワーク内の近傍構造的類似性情報について,最小スパンニングツリーをモデルとして検討し,考察する。 得られた手法をNMFの近傍構造としてラベル付けする。 さらに,提案手法のオフライン版とオンライン版の両方を考案する。 20のベンチマークデータセットと水力発電所から抽出した産業用データセットを用いた実証的な比較は、NMFを補助する近隣構造の優越性を実証し、我々の価値の主張を支持する。 近年のNMFの強化版とNMFによる周辺構造情報の定式化と特性を詳しく調べると,MSTを用いた周辺構造情報の包含が異常検出における性能向上に重要な役割を担っていることが分かる。

Dimensionality reduction is considered as an important step for ensuring competitive performance in unsupervised learning such as anomaly detection. Non-negative matrix factorization (NMF) is a popular and widely used method to accomplish this goal. But NMF do not have the provision to include the neighborhood structure information and, as a result, may fail to provide satisfactory performance in presence of nonlinear manifold structure. To address that shortcoming, we propose to consider and incorporate the neighborhood structural similarity information within the NMF framework by modeling the data through a minimum spanning tree. We label the resulting method as the neighborhood structure assisted NMF. We further devise both offline and online algorithmic versions of the proposed method. Empirical comparisons using twenty benchmark datasets as well as an industrial dataset extracted from a hydropower plant demonstrate the superiority of the neighborhood structure assisted NMF and support our claim of merit. Looking closer into the formulation and properties of the neighborhood structure assisted NMF with other recent, enhanced versions of NMF reveals that inclusion of the neighborhood structure information using MST plays a key role in attaining the enhanced performance in anomaly detection.
翻訳日:2023-01-10 09:59:12 公開日:2021-02-05
# 圧縮画像を用いた分散学習と推論

Distributed Learning and Inference with Compressed Images ( http://arxiv.org/abs/2004.10497v2 )

ライセンス: Link先を確認
Sudeep Katakol, Basem Elbarashy, Luis Herranz, Joost van de Weijer, and Antonio M. Lopez(参考訳) 現代のコンピュータビジョンでは、モデルがデプロイされると、モデルおよび/または推論中に、大量のデータを処理する必要がある。 物理的に分離された場所で画像をキャプチャして処理するシナリオは、ますます一般的になっている(例えば、自動運転車、クラウドコンピューティング)。 さらに、多くのデバイスはデータの保存や送信に制限のあるリソース(ストレージスペース、チャネル容量など)に悩まされている。 これらのシナリオでは、そのような制約の下で収集された画像の数を効果的に増やすために、画像圧縮が重要な役割を果たす。 しかし、その過程で重要な意味情報が失われる可能性があるため、損失のある圧縮は、ダウンストリーム分析タスクのパフォーマンスを損なう可能性のあるデータの不必要な劣化を伴う。 さらに, トレーニング時にのみ圧縮画像が得られた場合もあれば, 推論時に元の画像を使用できる場合もあれば, 逆の場合も, 下流モデルは共変量シフトに悩まされる。 本稿では,この現象をパラダイムシナリオとして,視覚に基づく自律運転知覚に着目して分析する。 意味情報の喪失と共変量シフトは確かに存在し、結果として圧縮速度に依存するパフォーマンスが低下する。 そこで本研究では,gans(generative adversarial networks)を用いた画像復元に基づくデータセット復元を提案する。 本手法は,特定の画像圧縮手法と下流タスクの両方に非依存であり,特にリソース制限されたデバイスにおいて,デプロイされたモデルに追加費用を課さないという利点がある。 提案した実験は, セマンティックセグメンテーションを困難なユースケースとして取り上げ, 幅広い圧縮速度と多様なデータセットをカバーし, 下流視覚課題における圧縮の負の効果を大幅に軽減できることを示す。

Modern computer vision requires processing large amounts of data, both while training the model and/or during inference, once the model is deployed. Scenarios where images are captured and processed in physically separated locations are increasingly common (e.g. autonomous vehicles, cloud computing). In addition, many devices suffer from limited resources to store or transmit data (e.g. storage space, channel capacity). In these scenarios, lossy image compression plays a crucial role to effectively increase the number of images collected under such constraints. However, lossy compression entails some undesired degradation of the data that may harm the performance of the downstream analysis task at hand, since important semantic information may be lost in the process. Moreover, we may only have compressed images at training time but are able to use original images at inference time, or vice versa, and in such a case, the downstream model suffers from covariate shift. In this paper, we analyze this phenomenon, with a special focus on vision-based perception for autonomous driving as a paradigmatic scenario. We see that loss of semantic information and covariate shift do indeed exist, resulting in a drop in performance that depends on the compression rate. In order to address the problem, we propose dataset restoration, based on image restoration with generative adversarial networks (GANs). Our method is agnostic to both the particular image compression method and the downstream task; and has the advantage of not adding additional cost to the deployed models, which is particularly important in resource-limited devices. The presented experiments focus on semantic segmentation as a challenging use case, cover a broad range of compression rates and diverse datasets, and show how our method is able to significantly alleviate the negative effects of compression on the downstream visual task.
翻訳日:2022-12-10 18:41:55 公開日:2021-02-05
# Mega-COV: 新型コロナウイルスの100言語以上のデータセット

Mega-COV: A Billion-Scale Dataset of 100+ Languages for COVID-19 ( http://arxiv.org/abs/2005.06012v4 )

ライセンス: Link先を確認
Muhammad Abdul-Mageed, AbdelRahim Elmadany, El Moatez Billah Nagoudi, Dinesh Pabbi, Kunal Verma, Rannie Lin(参考訳) twitterのcovid-19研究のための10億規模のデータセットであるmega-covについて紹介する。 データセットは多種多様(268か国をカバー)、縦(2007年に遡る)、多言語(100言語以上)、そしてかなりの数の位置情報にタグ付けされたツイート(約169万ツイート)がある。 データセットからtweet idをリリースします。 また、ツイートがパンデミックと関連しているかどうかを識別するモデル(f1=97%)と、covid-19に関する誤った情報を検出するモデル(f1=92%)を2つ開発した。 人間のアノテーションによる研究により,Mega-COVのサブセット上でのモデルの有用性が明らかになった。 私たちのデータとモデルは、パンデミックに関連する幅広い現象を研究するのに役立ちます。 Mega-COVと当社のモデルは公開されています。

We describe Mega-COV, a billion-scale dataset from Twitter for studying COVID-19. The dataset is diverse (covers 268 countries), longitudinal (goes as back as 2007), multilingual (comes in 100+ languages), and has a significant number of location-tagged tweets (~169M tweets). We release tweet IDs from the dataset. We also develop and release two powerful models, one for identifying whether or not a tweet is related to the pandemic (best F1=97%) and another for detecting misinformation about COVID-19 (best F1=92%). A human annotation study reveals the utility of our models on a subset of Mega-COV. Our data and models can be useful for studying a wide host of phenomena related to the pandemic. Mega-COV and our models are publicly available.
翻訳日:2022-12-07 12:52:21 公開日:2021-02-05
# 古典フランス演劇の補間とポスタグ付けのためのコーパスとモデル

Corpus and Models for Lemmatisation and POS-tagging of Classical French Theatre ( http://arxiv.org/abs/2005.07505v2 )

ライセンス: Link先を確認
Jean-Baptiste Camps, Simon Gabay, Paul Fi\`evre, Thibault Cl\'erice, Florian Cafiero(参考訳) 本稿では、演劇、特に詩の喜劇に焦点をあてて、古典フランス語文学のための注釈付きコーパスと訓練モデルを構築する過程について述べる。 元々は、cafiero and camps[2019]で提示されたスタイロメトリー分析の予備ステップとして開発された。 ニューラルネットワークとCRFタグをベースとした最近のレムマティザの使用により、ドメイン内テストにおける現在の最先端技術を超えた精度が達成でき、ドメイン外テスト、すなわち20番目のc.novelsにおいて堅牢であることが証明される。

This paper describes the process of building an annotated corpus and training models for classical French literature, with a focus on theatre, and particularly comedies in verse. It was originally developed as a preliminary step to the stylometric analyses presented in Cafiero and Camps [2019]. The use of a recent lemmatiser based on neural networks and a CRF tagger allows to achieve accuracies beyond the current state-of-the art on the in-domain test, and proves to be robust during out-of-domain tests, i.e.up to 20th c.novels.
翻訳日:2022-12-02 23:10:22 公開日:2021-02-05
# 多言語トランスファーを用いたゼロリソース言語のための音響単語埋め込みの改良

Improved acoustic word embeddings for zero-resource languages using multilingual transfer ( http://arxiv.org/abs/2006.02295v2 )

ライセンス: Link先を確認
Herman Kamper, Yevgen Matusevych, Sharon Goldwater(参考訳) 音響単語埋め込みは可変長音声セグメントの固定次元表現である。 このような埋め込みは、従来の音声認識が不可能な場合には、音声検索、インデックス作成、発見システムの基礎を形成することができる。 unlabelled speechが唯一の利用可能なリソースであるゼロリソース設定では、任意の言語に堅牢な埋め込みを提供するメソッドが必要です。 我々は、複数の良質な言語からのラベル付きデータに対して単一の教師付き埋め込みモデルを訓練し、それを目に見えないゼロリソース言語に適用する。 本稿では,3つのマルチリンガルリカレントニューラルネットワーク(RNN)モデルについて考察する。全ての訓練言語の連接語彙に基づいて訓練された分類器,複数言語から同一語と異なる単語を識別する訓練されたシームズRNN,単語ペアを再構成する訓練された対応オートエンコーダ(CAE)RNNである。 6つの対象言語の単語識別タスクにおいて、これらのモデルはゼロリソース言語自体で訓練された最先端の教師なしモデルよりも優れ、平均精度が30%以上向上した。 少数の訓練言語のみを使用する場合、多言語caeはより良く機能するが、より多くの訓練言語では、他の多言語モデルも同様に機能する。 より多くのトレーニング言語を使用することは一般的に有益だが、いくつかの言語では改善が限界である。 我々は,CEEが他の多言語モデルよりも音声,単語長,言語同一性,話者情報を符号化することを示す探索実験を行った。

Acoustic word embeddings are fixed-dimensional representations of variable-length speech segments. Such embeddings can form the basis for speech search, indexing and discovery systems when conventional speech recognition is not possible. In zero-resource settings where unlabelled speech is the only available resource, we need a method that gives robust embeddings on an arbitrary language. Here we explore multilingual transfer: we train a single supervised embedding model on labelled data from multiple well-resourced languages and then apply it to unseen zero-resource languages. We consider three multilingual recurrent neural network (RNN) models: a classifier trained on the joint vocabularies of all training languages; a Siamese RNN trained to discriminate between same and different words from multiple languages; and a correspondence autoencoder (CAE) RNN trained to reconstruct word pairs. In a word discrimination task on six target languages, all of these models outperform state-of-the-art unsupervised models trained on the zero-resource languages themselves, giving relative improvements of more than 30% in average precision. When using only a few training languages, the multilingual CAE performs better, but with more training languages the other multilingual models perform similarly. Using more training languages is generally beneficial, but improvements are marginal on some languages. We present probing experiments which show that the CAE encodes more phonetic, word duration, language identity and speaker information than the other multilingual models.
翻訳日:2022-11-26 00:58:14 公開日:2021-02-05
# 2成分混合線形回帰学習のためのEMアルゴリズムの最小最適性について

On the Minimax Optimality of the EM Algorithm for Learning Two-Component Mixed Linear Regression ( http://arxiv.org/abs/2006.02601v2 )

ライセンス: Link先を確認
Jeongyeol Kwon, Nhat Ho, Constantine Caramanis(参考訳) 信号-雑音比(SNR)の全ての条件下で2成分混合線形回帰を学習するためのEMアルゴリズムの収束率について検討する。 我々は、EMの収束挙動を完全に特徴付け、EMアルゴリズムが全てのSNR体制下で最小限のサンプル複雑性を達成することを示す。 特に、SNR が十分に大きいとき、EM の更新は、標準パラメトリック収束率 $\mathcal{O}((d/n)^{1/2})$ の後に $\mathcal{O}(\log(n/d))$ の繰り返しで真のパラメータ $\theta^{*}$ に収束する。 SNR が $\mathcal{O}((d/n)^{1/4})$ を超え、ある定数以下では、EM 反復は $\mathcal{O}({\rm SNR}^{-1} (d/n)^{1/2})$ に収束する。 SNR が $\mathcal{O}((d/n)^{1/4})$ 以下である低 SNR 状態において、EM は $\mathcal{O}((d/n)^{1/4})$ の真のパラメータの近傍に収束し、$\mathcal{O}((n/d)^{1/2})$ の反復に続くことを示す。 特に、これらの結果はランダム初期化または効率的に計算可能な局所初期化という穏やかな条件下で達成される。 中低snr領域におけるemアルゴリズムの厳密な収束保証を提供することで、文献の残りのギャップを埋め、snrの低さにおいては、mleの$n^{-1/4}$レートと一致するem変化率(以前の研究では示せなかった挙動)が明らかになる。

We study the convergence rates of the EM algorithm for learning two-component mixed linear regression under all regimes of signal-to-noise ratio (SNR). We resolve a long-standing question that many recent results have attempted to tackle: we completely characterize the convergence behavior of EM, and show that the EM algorithm achieves minimax optimal sample complexity under all SNR regimes. In particular, when the SNR is sufficiently large, the EM updates converge to the true parameter $\theta^{*}$ at the standard parametric convergence rate $\mathcal{O}((d/n)^{1/2})$ after $\mathcal{O}(\log(n/d))$ iterations. In the regime where the SNR is above $\mathcal{O}((d/n)^{1/4})$ and below some constant, the EM iterates converge to a $\mathcal{O}({\rm SNR}^{-1} (d/n)^{1/2})$ neighborhood of the true parameter, when the number of iterations is of the order $\mathcal{O}({\rm SNR}^{-2} \log(n/d))$. In the low SNR regime where the SNR is below $\mathcal{O}((d/n)^{1/4})$, we show that EM converges to a $\mathcal{O}((d/n)^{1/4})$ neighborhood of the true parameters, after $\mathcal{O}((n/d)^{1/2})$ iterations. Notably, these results are achieved under mild conditions of either random initialization or an efficiently computable local initialization. By providing tight convergence guarantees of the EM algorithm in middle-to-low SNR regimes, we fill the remaining gap in the literature, and significantly, reveal that in low SNR, EM changes rate, matching the $n^{-1/4}$ rate of the MLE, a behavior that previous work had been unable to show.
翻訳日:2022-11-25 09:16:51 公開日:2021-02-05
# 確率勾配Descentと確率重球のほぼ確実に収束率

Almost sure convergence rates for Stochastic Gradient Descent and Stochastic Heavy Ball ( http://arxiv.org/abs/2006.07867v2 )

ライセンス: Link先を確認
Othmane Sebbouh, Robert M. Gower and Aaron Defazio(参考訳) 一般確率的近似問題に対する確率的勾配降下法(sgd)と確率的重球法(shb)について検討した。 SGD に対して、凸かつ滑らかな設定では、イテレートの重み付き平均に対して最初の \emph{almost sure} 漸近収束 \emph{rates} を与える。 より正確には、関数値の収束率は任意に$o(1/\sqrt{k})$であり、いわゆる過パラメータの場合において正確に$o(1/k)$であることを示す。 確率的直線探索法と確率的ポリアックステップ法を用いることにより,非パラメータ化法においてこれらの手法が収束することを示す最初の証明が得られた。 実質的に異なる分析結果を用いて,sebについてもこの割合が有するが,最後に反復することを示す。 この区別は、実際に使用されるSGDとSHBの最後のイテレーションであるため重要である。 また、SHB の最後の反復は最小値 \emph{almost surely} に収束することを示す。 さらに、決定論的 hb の関数値は、以前知られていた $o(1/k)$ よりも速い $o(1/k)$ で収束することを証明する。 最後に、非凸設定では、SGD の軌道に沿った最低勾配ノルムに対して同様の速度を示す。

We study stochastic gradient descent (SGD) and the stochastic heavy ball method (SHB, otherwise known as the momentum method) for the general stochastic approximation problem. For SGD, in the convex and smooth setting, we provide the first \emph{almost sure} asymptotic convergence \emph{rates} for a weighted average of the iterates . More precisely, we show that the convergence rate of the function values is arbitrarily close to $o(1/\sqrt{k})$, and is exactly $o(1/k)$ in the so-called overparametrized case. We show that these results still hold when using stochastic line search and stochastic Polyak stepsizes, thereby giving the first proof of convergence of these methods in the non-overparametrized regime. Using a substantially different analysis, we show that these rates hold for SHB as well, but at the last iterate. This distinction is important because it is the last iterate of SGD and SHB which is used in practice. We also show that the last iterate of SHB converges to a minimizer \emph{almost surely}. Additionally, we prove that the function values of the deterministic HB converge at a $o(1/k)$ rate, which is faster than the previously known $O(1/k)$. Finally, in the nonconvex setting, we prove similar rates on the lowest gradient norm along the trajectory of SGD.
翻訳日:2022-11-21 12:39:05 公開日:2021-02-05
# ターボチャージツリー幅制限ベイズネットワーク構造学習

Turbocharging Treewidth-Bounded Bayesian Network Structure Learning ( http://arxiv.org/abs/2006.13843v2 )

ライセンス: Link先を確認
Vaidyanathan P. R. and Stefan Szeider(参考訳) 本稿では,木幅有界ベイズネットワーク(BN)の構造を学習するための新しいアプローチを提案する。 我々のアプローチの鍵は、ヒューリスティックに計算されたbnのスコアを改善するために、(maxsatに基づく)正確な手法をローカルに適用することである。 このアプローチは、数十のランダム変数を持つBNにしか適用できない正確なメソッドのパワーを、数千のランダム変数を持つ大きなBNに拡張することを可能にする。 実験の結果,本手法は最先端のヒューリスティック手法によって提供されるBNのスコアを著しく改善することがわかった。

We present a new approach for learning the structure of a treewidth-bounded Bayesian Network (BN). The key to our approach is applying an exact method (based on MaxSAT) locally, to improve the score of a heuristically computed BN. This approach allows us to scale the power of exact methods -- so far only applicable to BNs with several dozens of random variables -- to large BNs with several thousands of random variables. Our experiments show that our method improves the score of BNs provided by state-of-the-art heuristic methods, often significantly.
翻訳日:2022-11-17 09:16:28 公開日:2021-02-05
# テンソルネットワークによる近似。 第2部:滑らかさクラスの近似率

Approximation with Tensor Networks. Part II: Approximation Rates for Smoothness Classes ( http://arxiv.org/abs/2007.00128v3 )

ライセンス: Link先を確認
Mazen Ali and Anthony Nouy(参考訳) 古典的滑らか度クラスから関数のテンソルネットワーク(TN)による近似について検討する。 この近似ツールは、関数のテンソル化を$l^p([0,1))$と組み合わせ、多変量関数(またはテンソル)と不定値関数を識別し、多変量関数の低階構造を利用するためにツリーテンソルネットワーク(テンソルトレイン形式)を使用する。 得られたツールはフィードフォワードニューラルネットワークとして解釈することができ、最初のレイヤはテンソル化を実装し、特定の特徴付けステップとして解釈される。 本研究の第1部では,テンソルネットワークの複雑性の異なる尺度に関連する近似クラスをいくつか提示し,それらの性質について検討した。 この研究(パートII)では、多項式やスプライン(固定あるいは自由結び目を持つ)のような古典的な近似ツールが、制御複雑性を持つテンソルネットワークとしてエンコード可能であることを示す。 これを用いてテンソルネットワークの近似空間に対する直接(ジャックソン)不等式を導出する。 このことは、ベソフ空間がこれらの近似空間に連続的に埋め込まれていることを示すために使われる。 言い換えれば、任意のベソフ函数は最適あるいはほぼ最適な速度で近似できる。 また、近似クラスの任意の函数は、テンソルネットワークの深さを制限しない限り、ベソフの滑らかさを持たないことを示す。

We study the approximation by tensor networks (TNs) of functions from classical smoothness classes. The considered approximation tool combines a tensorization of functions in $L^p([0,1))$, which allows to identify a univariate function with a multivariate function (or tensor), and the use of tree tensor networks (the tensor train format) for exploiting low-rank structures of multivariate functions. The resulting tool can be interpreted as a feed-forward neural network, with first layers implementing the tensorization, interpreted as a particular featuring step, followed by a sum-product network with sparse architecture. In part I of this work, we presented several approximation classes associated with different measures of complexity of tensor networks and studied their properties. In this work (part II), we show how classical approximation tools, such as polynomials or splines (with fixed or free knots), can be encoded as a tensor network with controlled complexity. We use this to derive direct (Jackson) inequalities for the approximation spaces of tensor networks. This is then utilized to show that Besov spaces are continuously embedded into these approximation spaces. In other words, we show that arbitrary Besov functions can be approximated with optimal or near to optimal rate. We also show that an arbitrary function in the approximation class possesses no Besov smoothness, unless one limits the depth of the tensor network.
翻訳日:2022-11-15 06:38:34 公開日:2021-02-05
# テンソルネットワークによる近似。 第1部:近似空間

Approximation with Tensor Networks. Part I: Approximation Spaces ( http://arxiv.org/abs/2007.00118v3 )

ライセンス: Link先を確認
Mazen Ali and Anthony Nouy(参考訳) テンソルネットワーク(TN)による関数の近似について検討する。 一次元のルベーグ$L^p$-空間はテンソル化によって任意の順序のテンソル積空間と同一視できることを示す。 このテンソル積構造を用いて有限表現複雑性のランク構造関数の $l^p$ の部分集合を定義する。 これらの部分集合は、複雑性の異なる測度と関連づけられたテンソルネットワークの異なる近似クラスを定義するために使われる。 これらの近似類は準ノルム線型空間であることが示される。 上記の空間の基本的な性質と関係について研究する。 この研究のパートIIでは、古典的滑らか性(Besov)空間がこれらの近似クラスに連続的に埋め込まれていることを示す。 また、これらの近似クラスの函数は、テンソルネットワークの深さを制限しない限り、ベソフの滑らかさは持たないことを示す。 この研究の結果は、TNsの近似空間の分析と、特定のタイプのニューラルネットワーク(NN)、すなわちスパースアーキテクチャを備えたフィードフォワード・サミ製品ネットワークの表現性の研究の両方である。 このネットワークの入力変数はテンソル化ステップから生じ、特定のアーキテクチャを持つニューラルネットワークでも実装できる特定の特徴付けステップとして解釈される。 我々は、直列線形ユニット(ReLU)ネットワークの表現性に関する最近の結果と興味深い類似点を指摘する。

We study the approximation of functions by tensor networks (TNs). We show that Lebesgue $L^p$-spaces in one dimension can be identified with tensor product spaces of arbitrary order through tensorization. We use this tensor product structure to define subsets of $L^p$ of rank-structured functions of finite representation complexity. These subsets are then used to define different approximation classes of tensor networks, associated with different measures of complexity. These approximation classes are shown to be quasi-normed linear spaces. We study some elementary properties and relationships of said spaces. In part II of this work, we will show that classical smoothness (Besov) spaces are continuously embedded into these approximation classes. We will also show that functions in these approximation classes do not possess any Besov smoothness, unless one restricts the depth of the tensor networks. The results of this work are both an analysis of the approximation spaces of TNs and a study of the expressivity of a particular type of neural networks (NN) -- namely feed-forward sum-product networks with sparse architecture. The input variables of this network result from the tensorization step, interpreted as a particular featuring step which can also be implemented with a neural network with a specific architecture. We point out interesting parallels to recent results on the expressivity of rectified linear unit (ReLU) networks -- currently one of the most popular type of NNs.
翻訳日:2022-11-15 06:31:15 公開日:2021-02-05
# 文脈語と文埋め込みを用いたイベント検出

Detecting Ongoing Events Using Contextual Word and Sentence Embeddings ( http://arxiv.org/abs/2007.01379v2 )

ライセンス: Link先を確認
Mariano Maisonnave, Fernando Delbianco, Fernando Tohm\'e, Ana Maguitman, Evangelos Milios(参考訳) 本稿では,イベント検出タスクであるOED(Ongoing Event Detection)タスクについて紹介する。このタスクは,イベントの参照のみを検出することを目標とする特定のイベント検出タスクである。 非構造化テキストから進行中のイベントに関する構造化情報を抽出する必要のあるアプリケーションは、oedシステムを利用することができる。 本論文の主な貢献は,(1)OEDタスクをタスクに手動でラベル付けしたデータセットとともに導入すること,(2) BERT埋め込みを用いたタスクのためのRNNモデルの設計と実装を,属性として定義すること,(3) ニュースの現在進行中の出来事を検出するために,私たちの知識の最高のものを使用したことがなかったこと,(3) を含む広範な経験的評価を示すこと,である。 (i)異なるアーキテクチャとハイパーパラメータの探索 (ii)各属性の影響を研究するためのアブレーション試験、及び (iii)最先端モデルの複製との比較。 その結果,コンテキスト埋め込みの重要性についていくつかの知見が得られ,提案手法がOEDタスクに有効であることが示唆された。

This paper introduces the Ongoing Event Detection (OED) task, which is a specific Event Detection task where the goal is to detect ongoing event mentions only, as opposed to historical, future, hypothetical, or other forms or events that are neither fresh nor current. Any application that needs to extract structured information about ongoing events from unstructured texts can take advantage of an OED system. The main contribution of this paper are the following: (1) it introduces the OED task along with a dataset manually labeled for the task; (2) it presents the design and implementation of an RNN model for the task that uses BERT embeddings to define contextual word and contextual sentence embeddings as attributes, which to the best of our knowledge were never used before for detecting ongoing events in news; (3) it presents an extensive empirical evaluation that includes (i) the exploration of different architectures and hyperparameters, (ii) an ablation test to study the impact of each attribute, and (iii) a comparison with a replication of a state-of-the-art model. The results offer several insights into the importance of contextual embeddings and indicate that the proposed approach is effective in the OED task, outperforming the baseline models.
翻訳日:2022-11-14 13:06:50 公開日:2021-02-05
# 視覚的置換を用いた行動シーケンシング

Action sequencing using visual permutations ( http://arxiv.org/abs/2008.01156v2 )

ライセンス: Link先を確認
Michael Burke, Kartic Subr, Subramanian Ramamoorthy(参考訳) 人間はタスクを完了させるために必要なハイレベルなアクションのシーケンスを容易に推論できるが、比較的少数の例から訓練されたロボットでは特にこの能力を利用するのは難しい。 本研究は、単一の参照視覚状態上で条件付けられた神経行動シーケンシングのタスクを考察する。 このタスクは、大きなアクションセットから生じる重要な組合せの複雑さの影響を受けるだけでなく、何らかの形のシンボルグラウンドを実行し、高次元の入力データをアクションにマッピングし、アクション関係を推論できるモデルを必要とするため、非常に困難である。 本稿では,順列化の観点から,順列化は順列化と順序付けの概念の両方を推論する能力から得られると論じる。 経験的分析により、潜在順列で訓練されたニューラルモデルは、制約付きアクションシーケンシングタスクにおいて標準的なニューラルアーキテクチャよりも優れていることが示されている。 また、視覚的置換を用いたアクションシーケンシングは、従来の計画手法を初期化・高速化する効果的なメカニズムであり、従来考えられていたモデルよりもはるかに大きなアクションセットサイズにスケールすることに成功した。

Humans can easily reason about the sequence of high level actions needed to complete tasks, but it is particularly difficult to instil this ability in robots trained from relatively few examples. This work considers the task of neural action sequencing conditioned on a single reference visual state. This task is extremely challenging as it is not only subject to the significant combinatorial complexity that arises from large action sets, but also requires a model that can perform some form of symbol grounding, mapping high dimensional input data to actions, while reasoning about action relationships. This paper takes a permutation perspective and argues that action sequencing benefits from the ability to reason about both permutations and ordering concepts. Empirical analysis shows that neural models trained with latent permutations outperform standard neural architectures in constrained action sequencing tasks. Results also show that action sequencing using visual permutations is an effective mechanism to initialise and speed up traditional planning techniques and successfully scales to far greater action set sizes than models considered previously.
翻訳日:2022-11-03 06:06:47 公開日:2021-02-05
# PatchNets: パッチベースで一般化可能な3D形状表現

PatchNets: Patch-Based Generalizable Deep Implicit 3D Shape Representations ( http://arxiv.org/abs/2008.01639v2 )

ライセンス: Link先を確認
Edgar Tretschk, Ayush Tewari, Vladislav Golyanik, Michael Zollh\"ofer, Carsten Stoll, Christian Theobalt(参考訳) 符号付き距離関数や深層学習などの入射曲面表現は、任意の位相を持つ物体の詳細な形状を表現できる印象的なモデルを生み出している。 連続関数が学習されるので、任意の解像度で再構成を抽出することもできる。 しかし、そのようなモデルをトレーニングするには、ShapeNetのような大規模なデータセットが必要である。 本稿では,新しい中レベルのパッチベース表面表現を提案する。 パッチのレベルでは、異なるカテゴリにわたるオブジェクトは類似性を共有し、より一般化可能なモデルをもたらす。 次に、このパッチベースの表現を標準空間で学習する新しい手法を導入し、可能な限りオブジェクトに依存しない。 また、ShapeNetからトレーニングしたオブジェクトのカテゴリの表現は、他のカテゴリの詳細な形状を表現できることを示す。 さらに、既存のアプローチに比べてはるかに少ない形状でトレーニングすることができる。 形状補間や部分点クラウド補完など,新しい表現の応用例をいくつか紹介する。 パッチの位置、向き、スケールの明示的な制御により、我々の表現はオブジェクトレベルの表現よりも制御可能であるため、エンコードされた形状を非厳密に変形することができる。

Implicit surface representations, such as signed-distance functions, combined with deep learning have led to impressive models which can represent detailed shapes of objects with arbitrary topology. Since a continuous function is learned, the reconstructions can also be extracted at any arbitrary resolution. However, large datasets such as ShapeNet are required to train such models. In this paper, we present a new mid-level patch-based surface representation. At the level of patches, objects across different categories share similarities, which leads to more generalizable models. We then introduce a novel method to learn this patch-based representation in a canonical space, such that it is as object-agnostic as possible. We show that our representation trained on one category of objects from ShapeNet can also well represent detailed shapes from any other category. In addition, it can be trained using much fewer shapes, compared to existing approaches. We show several applications of our new representation, including shape interpolation and partial point cloud completion. Due to explicit control over positions, orientations and scales of patches, our representation is also more controllable compared to object-level representations, which enables us to deform encoded shapes non-rigidly.
翻訳日:2022-11-03 00:57:36 公開日:2021-02-05
# 完全畳み込みネットワークを用いた実用的2次元ブドウ芽検出法

Towards Practical 2D Grapevine Bud Detection with Fully Convolutional Networks ( http://arxiv.org/abs/2008.11872v2 )

ライセンス: Link先を確認
Wenceslao Villegas Marset, Diego Sebasti\'an P\'erez, Carlos Ariel D\'iaz and Facundo Bromberg(参考訳) ヴィチカルチャーでは、植物を視覚的に検査することが、関連する変数を測定するために必要なタスクである。 多くの場合、これらの視覚検査はコンピュータビジョンによる自動化の影響を受けやすい。 バド検出は、バドの日光露光の測定、自律的なプルーニング、バド計数、バドの幾何分類、バド幾何学的特徴付け、ノード間長、バド領域、バド発生段階などの重要な変数の測定の中心である。 本稿では,FCN-MN (Fully Convolutional Networks MobileNet Architecture) に基づくブドウ芽検出のためのコンピュータ手法を提案する。 その性能を検証するため、このアーキテクチャは検出タスクにおいて、パッチ分類器に基づく強力なbud検出方法であるScanning Windows(SW)と比較され、セグメンテーション、通信識別、ローカライゼーションの3つの側面で改善された。 FCN-MN の最良のバージョンでは、検出 F1 は 88.6 %$(真芽との交叉が0.5ドル以上である検出成分として定義される正の値)であり、偽陽性は真芽に近い小さい。 スプリット -- 真の芽に重なる偽陽性 -- は平均セグメンテーション精度が89.3 % (21.7)$であり、偽のアラーム -- 真芽に重ならない偽陽性 -- は実芽の面積がわずか8.2 %で、質量中心間距離は1.1$の真芽径であった。 結論として,これらfcn-mnの結果がバド数,バド領域,ノード間長などのバド変数を十分に正確に測定し,実用的な設定で良好な性能を示すことを考察した。

In Viticulture, visual inspection of the plant is a necessary task for measuring relevant variables. In many cases, these visual inspections are susceptible to automation through computer vision methods. Bud detection is one such visual task, central for the measurement of important variables such as: measurement of bud sunlight exposure, autonomous pruning, bud counting, type-of-bud classification, bud geometric characterization, internode length, bud area, and bud development stage, among others. This paper presents a computer method for grapevine bud detection based on a Fully Convolutional Networks MobileNet architecture (FCN-MN). To validate its performance, this architecture was compared in the detection task with a strong method for bud detection, Scanning Windows (SW) based on a patch classifier, showing improvements over three aspects of detection: segmentation, correspondence identification and localization. The best version of FCN-MN showed a detection F1-measure of $88.6\%$ (for true positives defined as detected components whose intersection-over-union with the true bud is above $0.5$), and false positives that are small and near the true bud. Splits -- false positives overlapping the true bud -- showed a mean segmentation precision of $89.3\% (21.7)$, while false alarms -- false positives not overlapping the true bud -- showed a mean pixel area of only $8\%$ the area of a true bud, and a distance (between mass centers) of $1.1$ true bud diameters. The paper concludes by discussing how these results for FCN-MN would produce sufficiently accurate measurements of bud variables such as bud number, bud area, and internode length, suggesting a good performance in a practical setup.
翻訳日:2022-10-24 07:54:26 公開日:2021-02-05
# 遺伝的プログラミングは自然にバッグアンサンブルを進化させる

Genetic Programming is Naturally Suited to Evolve Bagging Ensembles ( http://arxiv.org/abs/2009.06037v5 )

ライセンス: Link先を確認
Marco Virgolin(参考訳) バッジによる学習アンサンブルは、遺伝的プログラミング(GP)による進化を含む低バイアス高分散推定器の一般化性能を大幅に向上させることができる。 効率的にするために、現代の(バッグング)アンサンブルの進化のためのGPアルゴリズムは、通常いくつかの(しばしば相互接続された)機構とそれぞれのハイパーパラメータに依存し、最終的には使いやすさを損なう。 本稿では,このような複雑さが保証されないことを実験的に証明する。 適合度評価と選択の微妙な変化は、単純で従来のGPアルゴリズムを効率よく進化させるのに十分であることを示す。 提案の鍵は,集団内の各個人に対して,通常のフィットネス評価よりもわずかに高いコストで,複数のフィットネス値(1つではなく)を計算するための,袋詰め作業の方法を活用することです。 先行研究から抽出・再現された分類および回帰タスクに関する実験結果から,本アルゴリズムは最先端のアンサンブルおよび非アンサンブルGPアルゴリズムと非常によく比較できることがわかった。 提案するアプローチに関する洞察をさらに提供します。 (i)アンサンブルサイズを拡大する (ii)選択の変更を補うこと。 (iii)伝統的亜木変異による進化可能性の観察 コード:https://github.com/marcovirgolin/2SEGP。

Learning ensembles by bagging can substantially improve the generalization performance of low-bias, high-variance estimators, including those evolved by Genetic Programming (GP). To be efficient, modern GP algorithms for evolving (bagging) ensembles typically rely on several (often inter-connected) mechanisms and respective hyper-parameters, ultimately compromising ease of use. In this paper, we provide experimental evidence that such complexity might not be warranted. We show that minor changes to fitness evaluation and selection are sufficient to make a simple and otherwise-traditional GP algorithm evolve ensembles efficiently. The key to our proposal is to exploit the way bagging works to compute, for each individual in the population, multiple fitness values (instead of one) at a cost that is only marginally higher than the one of a normal fitness evaluation. Experimental comparisons on classification and regression tasks taken and reproduced from prior studies show that our algorithm fares very well against state-of-the-art ensemble and non-ensemble GP algorithms. We further provide insights into the proposed approach by (i) scaling the ensemble size, (ii) ablating the changes to selection, (iii) observing the evolvability induced by traditional subtree variation. Code: https://github.com/marcovirgolin/2SEGP.
翻訳日:2022-10-19 02:51:04 公開日:2021-02-05
# 低損失予測学習の複雑さによる表現の評価

Evaluating representations by the complexity of learning low-loss predictors ( http://arxiv.org/abs/2009.07368v2 )

ライセンス: Link先を確認
William F. Whitney, Min Jae Song, David Brandfonbrener, Jaan Altosaar, Kyunghyun Cho(参考訳) 下流タスクの解決に使用されるデータの表現を評価することの問題点を考察する。 本稿では,興味のあるタスクにおいて低損失となる表現の上に予測子を学習する複雑さによって表現の質を測定することを提案し,余剰記述長(SDL)とサンプル複雑性(\varepsilon$SC)の2つの方法を提案する。 特定のデータ量に存在する最適な予測器に関する情報量を測定する従来の手法とは対照的に、データから必要な情報量を測定し、指定された許容範囲まで最適な予測器の近似を復元する。 本稿では,検証損失のプロットと評価データセットのサイズ(ロスデータ曲線)を比較するためのフレームワークを提案する。 相互情報や最小記述長プローブといった既存の尺度は損失データ曲線のデータ軸に沿ったスライスと積分に対応し、我々の尺度は損失軸に沿ったスライスと積分に対応する。 我々は,これらの手法の振る舞いを,様々なサイズのデータセット上で比較する実データと,https://github.com/willwhitney/reprieveで表現評価を行う高性能オープンソースライブラリについて実験を行った。

We consider the problem of evaluating representations of data for use in solving a downstream task. We propose to measure the quality of a representation by the complexity of learning a predictor on top of the representation that achieves low loss on a task of interest, and introduce two methods, surplus description length (SDL) and $\varepsilon$ sample complexity ($\varepsilon$SC). In contrast to prior methods, which measure the amount of information about the optimal predictor that is present in a specific amount of data, our methods measure the amount of information needed from the data to recover an approximation of the optimal predictor up to a specified tolerance. We present a framework to compare these methods based on plotting the validation loss versus evaluation dataset size (the "loss-data" curve). Existing measures, such as mutual information and minimum description length probes, correspond to slices and integrals along the data axis of the loss-data curve, while ours correspond to slices and integrals along the loss axis. We provide experiments on real data to compare the behavior of each of these methods over datasets of varying size along with a high performance open source library for representation evaluation at https://github.com/willwhitney/reprieve.
翻訳日:2022-10-18 05:22:17 公開日:2021-02-05
# カテゴリーセット分割を用いた森林決定文のモデル化

Modeling Text with Decision Forests using Categorical-Set Splits ( http://arxiv.org/abs/2009.09991v3 )

ライセンス: Link先を確認
Mathieu Guillame-Bert, Sebastian Bruch, Petr Mitrichev, Petr Mikheev, Jan Pfeifer(参考訳) 決定フォレストアルゴリズムは通常、各ノードが特徴空間を2つのサブリージョンに分割し、その結果、サンプルを左または右ブランチに送信するバイナリツリー構造を再帰的に学習することでデータをモデル化する。 軸方向決定林では、入力例をルートする「決定」は特徴空間の1次元における条件の評価の結果である。 このような条件は、局所的損失関数を最適化する効率的でしばしば欲張りなアルゴリズムを用いて学習される。 例えば、ノードの状態は数値的特徴に適用されたしきい値関数であり、そのパラメータはそのノードで利用可能な値の集合を網羅し、純度を最大化するしきい値を選択することによって学習することができる。 重要なことは、特徴型の条件を学習し評価するアルゴリズムが存在するかどうかが、決定森林アルゴリズムが特徴型をモデル化できるかどうかを決定する。 例えば、今日の意思決定の森では、テキストの特徴を直接消費することはできない。 この作業では、そのギャップを埋めることにしました。 分類的特徴に特有な条件 – 非順序の分類変数の集合として定義されている – を定義し,それを学習するアルゴリズムを示し,逐次順序を保たずにテキストを直接モデル化する機能を備えた決定林を提供する。 我々のアルゴリズムは訓練中は効率的であり、結果の条件はQuickScorer推論アルゴリズムの拡張により高速に評価できる。 テキスト分類データセットのベンチマーク実験により,提案手法の有効性と有効性を示す。

Decision forest algorithms typically model data by learning a binary tree structure recursively where every node splits the feature space into two sub-regions, sending examples into the left or right branch as a result. In axis-aligned decision forests, the "decision" to route an input example is the result of the evaluation of a condition on a single dimension in the feature space. Such conditions are learned using efficient, often greedy algorithms that optimize a local loss function. For example, a node's condition may be a threshold function applied to a numerical feature, and its parameter may be learned by sweeping over the set of values available at that node and choosing a threshold that maximizes some measure of purity. Crucially, whether an algorithm exists to learn and evaluate conditions for a feature type determines whether a decision forest algorithm can model that feature type at all. For example, decision forests today cannot consume textual features directly -- such features must be transformed to summary statistics instead. In this work, we set out to bridge that gap. We define a condition that is specific to categorical-set features -- defined as an unordered set of categorical variables -- and present an algorithm to learn it, thereby equipping decision forests with the ability to directly model text, albeit without preserving sequential order. Our algorithm is efficient during training and the resulting conditions are fast to evaluate with our extension of the QuickScorer inference algorithm. Experiments on benchmark text classification datasets demonstrate the utility and effectiveness of our proposal.
翻訳日:2022-10-16 04:24:55 公開日:2021-02-05
# 相互情報最大化による教師なし文埋め込み手法

An Unsupervised Sentence Embedding Method by Mutual Information Maximization ( http://arxiv.org/abs/2009.12061v2 )

ライセンス: Link先を確認
Yan Zhang, Ruidan He, Zuozhu Liu, Kwan Hui Lim, Lidong Bing(参考訳) BERTはクラスタリングやセマンティックサーチのような文対タスクでは非効率であり、組合せ的に非常に時間を要する多くの文対を評価する必要がある。 SBERT(Sentence BERT)は、類似性の比較が容易にアクセスできるように単一の文の意味論的表現を学習することで、この問題を解決しようとした。 しかし、SBERTは高品質なラベル付き文対を持つコーパスで訓練されており、ラベル付きデータが極めて少ないタスクに制限される。 本稿では,有意味文の埋め込みを教師なし方式で導出するための相互情報最大化戦略に基づく,bert上の軽量拡張と自己教師付き学習目標を提案する。 SBERTとは異なり、この手法はラベル付きデータの可用性に制限されず、異なるドメイン固有のコーパスに適用できる。 実験の結果,提案手法は,共通意味的テキスト類似性(STS)タスクと下流教師付きタスクに基づいて,他の教師なし文の埋め込みベースラインを著しく上回ることがわかった。 また、ドメイン内のラベル付きデータが利用できない環境ではSBERTよりも優れており、様々なタスクにおいて教師付きメソッドと競合するパフォーマンスを実現する。

BERT is inefficient for sentence-pair tasks such as clustering or semantic search as it needs to evaluate combinatorially many sentence pairs which is very time-consuming. Sentence BERT (SBERT) attempted to solve this challenge by learning semantically meaningful representations of single sentences, such that similarity comparison can be easily accessed. However, SBERT is trained on corpus with high-quality labeled sentence pairs, which limits its application to tasks where labeled data is extremely scarce. In this paper, we propose a lightweight extension on top of BERT and a novel self-supervised learning objective based on mutual information maximization strategies to derive meaningful sentence embeddings in an unsupervised manner. Unlike SBERT, our method is not restricted by the availability of labeled data, such that it can be applied on different domain-specific corpus. Experimental results show that the proposed method significantly outperforms other unsupervised sentence embedding baselines on common semantic textual similarity (STS) tasks and downstream supervised tasks. It also outperforms SBERT in a setting where in-domain labeled data is not available, and achieves performance competitive with supervised methods on various tasks.
翻訳日:2022-10-14 22:22:34 公開日:2021-02-05
# ナレッジグラフ完成によるcovid-19の薬剤再導入

Drug Repurposing for COVID-19 via Knowledge Graph Completion ( http://arxiv.org/abs/2010.09600v2 )

ライセンス: Link先を確認
Rui Zhang, Dimitar Hristovski, Dalton Schutte, Andrej Kastrin, Marcelo Fiszman, Halil Kilicoglu(参考訳) 目的:文学的知識と知識グラフの補完法を用いて、新型コロナウイルスの治療薬候補を探索すること。 方法: 新規, 統合的, ニューラルネットワークに基づく文献ベース発見(LBD)アプローチを提案し, PubMedおよびCOVID-19に焦点を当てた研究文献から薬剤候補を同定する。 提案手法は,SemRepを用いて抽出したセマンティックトリプルに依存する。 フィルタルールとbert変種に基づく精度分類器を用いて意味三重項の有意なサブセットを同定し,このサブセットを用いて知識グラフを構築した。 5つのSOTA, 神経知識グラフ補完アルゴリズムを用いて, 薬物再服用候補の予測を行った。 モデルは時間スライシング法を用いて訓練・評価され、予測された薬品は文献で報告された薬品のリストと比較され、臨床試験で評価された。 これらのモデルは発見パターンに基づくアプローチで補完された。 結果: PubMedBERTに基づく精度分類器は,セマンティック述語分類において最高の性能(F1=0.854)を達成した。 知識グラフ補完モデルのうち、TransEは他のモデルよりも優れていた(MR = 0.923, Hits@1=0.417)。 文献上では、covid-19と関連した既知の薬物や、まだ研究されていない候補薬が特定されている。 発見パターンは、候補薬とcovid-19の関係に関して、考えられる仮説の生成を可能にした。 このうち5種類の高位および新規薬物(paclitaxel, sb 203580, alpha 2-antiplasmin, pyrrolidine dithiocarbamate, butylated hydroxytoluene)とその機構的説明について検討した。 結論: lbdアプローチは, 新型コロナウイルスの治療薬候補の発見や, 機械的な説明を生成できることを示す。 我々のアプローチは他の疾患にも応用できるし、他の臨床問題にも応用できる。

Objective: To discover candidate drugs to repurpose for COVID-19 using literature-derived knowledge and knowledge graph completion methods. Methods: We propose a novel, integrative, and neural network-based literature-based discovery (LBD) approach to identify drug candidates from both PubMed and COVID-19-focused research literature. Our approach relies on semantic triples extracted using SemRep (via SemMedDB). We identified an informative subset of semantic triples using filtering rules and an accuracy classifier developed on a BERT variant, and used this subset to construct a knowledge graph. Five SOTA, neural knowledge graph completion algorithms were used to predict drug repurposing candidates. The models were trained and assessed using a time slicing approach and the predicted drugs were compared with a list of drugs reported in the literature and evaluated in clinical trials. These models were complemented by a discovery pattern-based approach. Results: Accuracy classifier based on PubMedBERT achieved the best performance (F1= 0.854) in classifying semantic predications. Among five knowledge graph completion models, TransE outperformed others (MR = 0.923, Hits@1=0.417). Some known drugs linked to COVID-19 in the literature were identified, as well as some candidate drugs that have not yet been studied. Discovery patterns enabled generation of plausible hypotheses regarding the relationships between the candidate drugs and COVID-19. Among them, five highly ranked and novel drugs (paclitaxel, SB 203580, alpha 2-antiplasmin, pyrrolidine dithiocarbamate, and butylated hydroxytoluene) with their mechanistic explanations were further discussed. Conclusion: We show that an LBD approach can be feasible for discovering drug candidates for COVID-19, and for generating mechanistic explanations. Our approach can be generalized to other diseases as well as to other clinical questions.
翻訳日:2022-10-05 22:25:03 公開日:2021-02-05
# 誘導非負行列分解について

On a Guided Nonnegative Matrix Factorization ( http://arxiv.org/abs/2010.11365v2 )

ライセンス: Link先を確認
Joshua Vendrow, Jamie Haddock, Elizaveta Rebrova, Deanna Needell(参考訳) 完全に教師なしのトピックモデルは、ドキュメントのクラスタリングと分類で素晴らしい成功を収めています。 しかし、これらのモデルは、データが一連の機能に偏っているときに、あまり意味のない、あるいは冗長でないトピックを学ぶ傾向に苦しむことが多い。 そこで本研究では,非負行列分解(NMF)モデルに基づくアプローチを提案する。 実験により,本モデルの可能性を実証し,極めて少ない監督情報しか持たない他の手法と競合することを示す。

Fully unsupervised topic models have found fantastic success in document clustering and classification. However, these models often suffer from the tendency to learn less-than-meaningful or even redundant topics when the data is biased towards a set of features. For this reason, we propose an approach based upon the nonnegative matrix factorization (NMF) model, deemed \textit{Guided NMF}, that incorporates user-designed seed word supervision. Our experimental results demonstrate the promise of this model and illustrate that it is competitive with other methods of this ilk with only very little supervision information.
翻訳日:2022-10-04 07:17:55 公開日:2021-02-05
# エンドツーエンドのニューラルネットワークとクラスタリングベースのダイアリゼーションの統合: 両世界のベストを勝ち取る

Integrating end-to-end neural and clustering-based diarization: Getting the best of both worlds ( http://arxiv.org/abs/2010.13366v2 )

ライセンス: Link先を確認
Keisuke Kinoshita, Marc Delcroix, Naohiro Tawara(参考訳) 最近のダイアリゼーション技術は、異なる長所と短所を持つクラスタリングとエンドツーエンドのニューラルアプローチの2つのアプローチに分類することができる。 クラスタリングに基づくアプローチでは、x-ベクトルなどの話者埋め込みをクラスタリングすることで話者ラベルを音声領域に割り当てる。 現在の最先端のアプローチは、合理的な堅牢性と正確性を持った様々な挑戦的なデータに対して有効であるが、自然な会話データでは避けられない重複した音声を処理できないという重大な欠点がある。 対照的に、ニューラルネットワークを用いてダイアリゼーションラベルを直接予測するエンドツーエンドニューラルダイアリゼーション(EEND)は、重なり合う音声を処理するために考案された。 eendは、新しいディープラーニング技術を取り入れることができ、いくつかの現実的なデータベースでx-vectorクラスタリングアプローチを上回り始めたが、その巨大なメモリ消費のために、"long"レコード(例えば10分以上)で動作させることは困難である。 ブロック単位の独立処理もまた、ブロック間ラベル置換の問題、すなわちブロック間の話者ラベル割り当てのあいまいさを引き起こすため、難しい。 本稿では,重なり合う音声と,任意の話者数を含む長時間の録音に有効な,単純かつ効果的なハイブリッドダイアリゼーションフレームワークを提案する。 従来のEENDフレームワークを変更してグローバルな話者埋め込みを同時に出力し、ブロック間で話者クラスタリングを行い、置換問題を解決する。 模擬雑音性残響2話者会議型データに基づく実験により, 提案手法は入力データが長い場合において, 元のEENDよりも優れていることを示す。

Recent diarization technologies can be categorized into two approaches, i.e., clustering and end-to-end neural approaches, which have different pros and cons. The clustering-based approaches assign speaker labels to speech regions by clustering speaker embeddings such as x-vectors. While it can be seen as a current state-of-the-art approach that works for various challenging data with reasonable robustness and accuracy, it has a critical disadvantage that it cannot handle overlapped speech that is inevitable in natural conversational data. In contrast, the end-to-end neural diarization (EEND), which directly predicts diarization labels using a neural network, was devised to handle the overlapped speech. While the EEND, which can easily incorporate emerging deep-learning technologies, has started outperforming the x-vector clustering approach in some realistic database, it is difficult to make it work for `long' recordings (e.g., recordings longer than 10 minutes) because of, e.g., its huge memory consumption. Block-wise independent processing is also difficult because it poses an inter-block label permutation problem, i.e., an ambiguity of the speaker label assignments between blocks. In this paper, we propose a simple but effective hybrid diarization framework that works with overlapped speech and for long recordings containing an arbitrary number of speakers. It modifies the conventional EEND framework to simultaneously output global speaker embeddings so that speaker clustering can be performed across blocks to solve the permutation problem. With experiments based on simulated noisy reverberant 2-speaker meeting-like data, we show that the proposed framework works significantly better than the original EEND especially when the input data is long.
翻訳日:2022-10-02 19:59:07 公開日:2021-02-05
# CTによる頚椎損傷検出のための深部シークエンス学習

Deep Sequential Learning for Cervical Spine Fracture Detection on Computed Tomography Imaging ( http://arxiv.org/abs/2010.13336v4 )

ライセンス: Link先を確認
Hojjat Salehinejad, Edward Ho, Hui-Ming Lin, Priscila Crivellaro, Oleksandra Samorodova, Monica Tafur Arciniegas, Zamir Merali, Suradech Suthiphosuwan, Aditya Bharatha, Kristen Yeom, Muhammad Mamdani, Jefferson Wilson, Errol Colak(参考訳) 頚椎骨折は医療上の緊急事態であり、永久的な麻痺や死に至る可能性がある。 CT(Computed tomography)による骨折の正確な診断は,患者の管理に重要である。 本稿では,ct軸像における頚椎骨折の自動検出のために,双方向のlong-short term memory(blstm)層を有する深層畳み込みニューラルネットワーク(dcnn)を提案する。 3,666個のctスキャン(陽性729件、陰性2,937件)の注釈付きデータセットを用いてモデルのトレーニングと検証を行った。 検証の結果,平衡値(104例,負ケース104例)と不平衡値(104例,負ケース419例)の分類精度は,それぞれ70.92%と79.18%であった。

Fractures of the cervical spine are a medical emergency and may lead to permanent paralysis and even death. Accurate diagnosis in patients with suspected fractures by computed tomography (CT) is critical to patient management. In this paper, we propose a deep convolutional neural network (DCNN) with a bidirectional long-short term memory (BLSTM) layer for the automated detection of cervical spine fractures in CT axial images. We used an annotated dataset of 3,666 CT scans (729 positive and 2,937 negative cases) to train and validate the model. The validation results show a classification accuracy of 70.92% and 79.18% on the balanced (104 positive and 104 negative cases) and imbalanced (104 positive and 419 negative cases) test datasets, respectively.
翻訳日:2022-10-02 18:38:54 公開日:2021-02-05
# ウェーブ・タコトロン:スペクトログラムフリーエンドツーエンド音声合成

Wave-Tacotron: Spectrogram-free end-to-end text-to-speech synthesis ( http://arxiv.org/abs/2011.03568v2 )

ライセンス: Link先を確認
Ron J. Weiss, RJ Skerry-Ryan, Eric Battenberg, Soroosh Mariooryad, Diederik P. Kingma(参考訳) テキスト入力から直接音声波形を生成するシーケンス・ツー・シーケンスニューラルネットワークについて述べる。 アーキテクチャは、自己回帰デコーダループに正規化フローを組み込むことで、タコトロンモデルを拡張する。 出力波形は、重複しない固定長ブロックの列としてモデル化され、それぞれ数百のサンプルを含む。 各ブロック内の波形サンプルの相互依存性を正規化フローを用いてモデル化し、並列トレーニングと合成を可能にする。 長期的な依存関係は、先行するブロックの各フローを条件付けすることで自己回帰的に処理される。 現代の最先端のテキスト音声システム(TTS)では、テキストから中間特徴(スペクトログラムなど)を生成する1つ(Tacotronなど)と、中間特徴から波形サンプルを生成するvocoder(WaveRNNなど)という2つの個別に学習されたモデルのカスケードを使用する。 一方,提案システムは中間表現を固定せず,全てのパラメータをエンドツーエンドに学習する。 実験の結果,提案モデルでは,最先端のニューラルTSシステムに近づく品質の音声が生成され,生成速度が大幅に向上した。

We describe a sequence-to-sequence neural network which directly generates speech waveforms from text inputs. The architecture extends the Tacotron model by incorporating a normalizing flow into the autoregressive decoder loop. Output waveforms are modeled as a sequence of non-overlapping fixed-length blocks, each one containing hundreds of samples. The interdependencies of waveform samples within each block are modeled using the normalizing flow, enabling parallel training and synthesis. Longer-term dependencies are handled autoregressively by conditioning each flow on preceding blocks.This model can be optimized directly with maximum likelihood, with-out using intermediate, hand-designed features nor additional loss terms. Contemporary state-of-the-art text-to-speech (TTS) systems use a cascade of separately learned models: one (such as Tacotron) which generates intermediate features (such as spectrograms) from text, followed by a vocoder (such as WaveRNN) which generates waveform samples from the intermediate features. The proposed system, in contrast, does not use a fixed intermediate representation, and learns all parameters end-to-end. Experiments show that the proposed model generates speech with quality approaching a state-of-the-art neural TTS system, with significantly improved generation speed.
翻訳日:2022-09-29 05:16:44 公開日:2021-02-05
# F-FADE:エッジストリームにおける異常検出のための周波数因子化

F-FADE: Frequency Factorization for Anomaly Detection in Edge Streams ( http://arxiv.org/abs/2011.04723v2 )

ライセンス: Link先を確認
Yen-Yu Chang, Pan Li, Rok Sosic, M. H. Afifi, Marco Schweighauser, Jure Leskovec(参考訳) エッジストリームは、メール、ソーシャル、コンピュータネットワークなどの動的ネットワークにおけるインタラクションをキャプチャするために一般的に使用される。 エッジストリームにおける異常やまれな事象を検出するという問題には、幅広い応用がある。 しかし、ラベルの欠如、相互作用の非常にダイナミックな性質、ネットワークにおける時間的および構造的変化の絡み合いなど、多くの課題がある。 現在の手法は、上記の課題に対処し、多数のインタラクションを効率的に処理する能力に制限がある。 本稿では,ノードペア間の相互作用周波数の時間発展分布を効率的にモデル化する新しい周波数分解手法を用いて,エッジストリームにおける異常検出手法であるf-fadeを提案する。 異常は、各入ってくる相互作用の観測周波数の確率に基づいて決定される。 f-fadeは、時間的および構造的な変化を伴うさまざまな異常をオンラインストリーミングで処理できるが、メモリは一定である。 1つの合成および6つの実世界の動的ネットワーク実験により、F-FADEは技術性能の状態を達成し、従来の手法では見つからない異常を検出する可能性がある。

Edge streams are commonly used to capture interactions in dynamic networks, such as email, social, or computer networks. The problem of detecting anomalies or rare events in edge streams has a wide range of applications. However, it presents many challenges due to lack of labels, a highly dynamic nature of interactions, and the entanglement of temporal and structural changes in the network. Current methods are limited in their ability to address the above challenges and to efficiently process a large number of interactions. Here, we propose F-FADE, a new approach for detection of anomalies in edge streams, which uses a novel frequency-factorization technique to efficiently model the time-evolving distributions of frequencies of interactions between node-pairs. The anomalies are then determined based on the likelihood of the observed frequency of each incoming interaction. F-FADE is able to handle in an online streaming setting a broad variety of anomalies with temporal and structural changes, while requiring only constant memory. Our experiments on one synthetic and six real-world dynamic networks show that F-FADE achieves state of the art performance and may detect anomalies that previous methods are unable to find.
翻訳日:2022-09-28 02:20:10 公開日:2021-02-05
# survey2survey: クロスサーベイ画像マッピングのためのディープラーニング生成モデルアプローチ

Survey2Survey: A deep learning generative model approach for cross-survey image mapping ( http://arxiv.org/abs/2011.07124v3 )

ライセンス: Link先を確認
Brandon Buncher, Awshesh Nath Sharma, Matias Carrasco Kind(参考訳) 過去10年間で、調査データとディープラーニング技術が爆発的に成長し、どちらも天文学に大きな進歩をもたらした。 広範囲の波長を持つ複数のエポックからの様々な調査のデータ量は、明るさと品質が異なるにもかかわらず圧倒的であり、異なる調査から重なる観測からの情報を活用することは、銀河の形成と進化を理解するのに無限の可能性を持っている。 物理モデルを用いた合成銀河画像生成は、調査データ解析の重要なツールであり、ディープラーニング生成モデルには大きな期待が持たれている。 本稿では,クロスサーベイ特徴翻訳による調査データを堅牢に拡張・改善するための新しいアプローチを提案する。 我々は,Sloan Digital Sky Survey (SDSS) の画像をダークエネルギーサーベイ (DES) の対応する画像にマッピングするために,2種類のニューラルネットワークを訓練した。 この地図はSDSS画像の偽DES表現を生成し、重要な形態情報を保持しながら明るさとS/Nを増加させた。 重ね合わせ領域の外部からsdss画像のdes表現を生成し,光源画像がトレーニング画像より品質が低い場合でも輝度と品質が向上することを示すことにより,本手法のロバスト性を示す。 最後に,SDSS画像から大規模なアーティファクトを除去したように見える画像をいくつか強調する。 本手法は初期適用のみであるが,光学サーベイデータの品質向上のためのロバストな拡張手法としてpromiseを示し,クロスバンド再構成のための潜在的な道筋を提供する。

During the last decade, there has been an explosive growth in survey data and deep learning techniques, both of which have enabled great advances for astronomy. The amount of data from various surveys from multiple epochs with a wide range of wavelengths, albeit with varying brightness and quality, is overwhelming, and leveraging information from overlapping observations from different surveys has limitless potential in understanding galaxy formation and evolution. Synthetic galaxy image generation using physical models has been an important tool for survey data analysis, while deep learning generative models show great promise. In this paper, we present a novel approach for robustly expanding and improving survey data through cross survey feature translation. We trained two types of neural networks to map images from the Sloan Digital Sky Survey (SDSS) to corresponding images from the Dark Energy Survey (DES). This map was used to generate false DES representations of SDSS images, increasing the brightness and S/N while retaining important morphological information. We substantiate the robustness of our method by generating DES representations of SDSS images from outside the overlapping region, showing that the brightness and quality are improved even when the source images are of lower quality than the training images. Finally, we highlight several images in which the reconstruction process appears to have removed large artifacts from SDSS images. While only an initial application, our method shows promise as a method for robustly expanding and improving the quality of optical survey data and provides a potential avenue for cross-band reconstruction.
翻訳日:2022-09-26 00:54:53 公開日:2021-02-05
# 制約トラジェクトリのためのエンドツーエンドデータ駆動最適化フレームワーク

An end-to-end data-driven optimisation framework for constrained trajectories ( http://arxiv.org/abs/2011.11820v2 )

ライセンス: Link先を確認
Florent Dewez and Benjamin Guedj and Arthur Talpaert and Vincent Vandewalle(参考訳) 多くの実世界の問題は制約の下で軌道を最適化する必要がある。 古典的なアプローチは最適制御法に基づいているが、基礎となる力学の正確な知識を必要とする。 本稿では,データ駆動型アプローチを活用して,最適化および現実的な軌跡に対する動的フリーな新しいエンドツーエンドフレームワークを設計する。 まず, パラメータ最適化問題に対して, 初期無限次元問題を多変量汎関数空間に交換し, 関数ベースで軌道を分解する。 データからの情報を組み込んだ最大値 \emph{a reari} アプローチを用いて、正規化される新しい最適化問題を得る。 ペナルタライズド項は、データ中心の領域の探索に焦点を当て、問題に推定線形制約を含む。 データ駆動のアプローチを、航空と航行経路の2つの設定に適用し、指令結果を得る。 開発されたアプローチはPythonライブラリのPyRotorで実装されている。

Many real-world problems require to optimise trajectories under constraints. Classical approaches are based on optimal control methods but require an exact knowledge of the underlying dynamics, which could be challenging or even out of reach. In this paper, we leverage data-driven approaches to design a new end-to-end framework which is dynamics-free for optimised and realistic trajectories. We first decompose the trajectories on function basis, trading the initial infinite dimension problem on a multivariate functional space for a parameter optimisation problem. A maximum \emph{a posteriori} approach which incorporates information from data is used to obtain a new optimisation problem which is regularised. The penalised term focuses the search on a region centered on data and includes estimated linear constraints in the problem. We apply our data-driven approach to two settings in aeronautics and sailing routes optimisation, yielding commanding results. The developed approach has been implemented in the Python library PyRotor.
翻訳日:2022-09-21 12:53:42 公開日:2021-02-05
# (参考訳) 重力前処理によるグローバル最適相対ポーズ推定

Globally Optimal Relative Pose Estimation with Gravity Prior ( http://arxiv.org/abs/2012.00458v2 )

ライセンス: CC BY 4.0
Yaqing Ding, Daniel Barath, Jian Yang, Hui Kong, Zuzana Kukelova(参考訳) 例えば、車やUAVで使われるスマートフォン、タブレット、カメラシステムは、通常は重力ベクトルを正確に測定できるIMU(慣性測定ユニット)を備えている。 この追加情報を使って、カメラの$y$-axesをアライメントでき、相対的な向きを1つの自由度に下げることができる。 この仮定により,代数誤差を最小二乗意味で最小化し,過大に決定された場合の相対的ポーズを推定する,新しい大域的最適解法を提案する。 極性制約に基づいて最適化問題を2つの未知の多項式で解く。 また、回転の1次近似を用いて高速解法を提案する。 提案する解法を,実世界の4つのデータセットにおける最先端の解法と比較する。 合計で50000枚。 さらに,10933枚の画像対,重力方向,地中真理3次元再構成からなるスマートフォンによるデータセットを収集した。

Smartphones, tablets and camera systems used, e.g., in cars and UAVs, are typically equipped with IMUs (inertial measurement units) that can measure the gravity vector accurately. Using this additional information, the $y$-axes of the cameras can be aligned, reducing their relative orientation to a single degree-of-freedom. With this assumption, we propose a novel globally optimal solver, minimizing the algebraic error in the least-squares sense, to estimate the relative pose in the over-determined case. Based on the epipolar constraint, we convert the optimization problem into solving two polynomials with only two unknowns. Also, a fast solver is proposed using the first-order approximation of the rotation. The proposed solvers are compared with the state-of-the-art ones on four real-world datasets with approx. 50000 image pairs in total. Moreover, we collected a dataset, by a smartphone, consisting of 10933 image pairs, gravity directions, and ground truth 3D reconstructions.
翻訳日:2021-05-31 08:41:13 公開日:2021-02-05
# 反応予測のための非自己回帰電子フロー生成

Non-autoregressive electron flow generation for reaction prediction ( http://arxiv.org/abs/2012.12124v2 )

ライセンス: Link先を確認
Hangrui Bi, Hengyi Wang, Chence Shi, Jian Tang(参考訳) 反応予測は計算化学の基本的な問題である。 既存のアプローチは通常、トークンやグラフ編集を逐次サンプリングすることで化学反応を生成し、以前に生成された出力を条件付けする。 これらの自己回帰生成手法は、任意の出力順序を強制し、推論中に並列復号を防ぐ。 このようなシーケンシャルな生成を回避し、非自己回帰的な方法で反応を予測する新しいデコーダを考案する。 物理化学の知見に触発されて、分子グラフのエッジ編集を電子フローとして表現し、それを並列に予測する。 反応の不確かさを捉えるために,マルチモーダル出力を生成するために潜在変数を導入する。 これまでの研究に続いて、USPTO MITデータセットでモデルを評価する。 提案モデルでは,Top-Kサンプリングにおいて,最先端のTop-1精度と同等の性能を両立させる。

Reaction prediction is a fundamental problem in computational chemistry. Existing approaches typically generate a chemical reaction by sampling tokens or graph edits sequentially, conditioning on previously generated outputs. These autoregressive generating methods impose an arbitrary ordering of outputs and prevent parallel decoding during inference. We devise a novel decoder that avoids such sequential generating and predicts the reaction in a Non-Autoregressive manner. Inspired by physical-chemistry insights, we represent edge edits in a molecule graph as electron flows, which can then be predicted in parallel. To capture the uncertainty of reactions, we introduce latent variables to generate multi-modal outputs. Following previous works, we evaluate our model on USPTO MIT dataset. Our model achieves both an order of magnitude lower inference latency, with state-of-the-art top-1 accuracy and comparable performance on Top-K sampling.
翻訳日:2021-05-03 02:45:59 公開日:2021-02-05
# 被監視者再確認のためのカメラアウェアプロキシ

Camera-aware Proxies for Unsupervised Person Re-Identification ( http://arxiv.org/abs/2012.10674v2 )

ライセンス: Link先を確認
Menglin Wang, Baisheng Lai, Jianqiang Huang, Xiaojin Gong, Xian-Sheng Hua(参考訳) 本稿では、アノテーションを必要としない純粋に教師なしの人物識別(Re-ID)問題に取り組む。 従来の手法では、クラスタリング技術を使って擬似ラベルを生成し、生成したラベルを使ってRe-IDモデルを徐々に訓練していた。 これらの方法は比較的単純だが効果的である。 しかし、クラスタリングに基づくほとんどの手法は、カメラビューの変化による大きなID内分散を無視して、クラスタを擬似アイデンティティクラスとして捉えている。 この問題に対処するため、各クラスタを複数のプロキシに分割し、それぞれのプロキシが同じカメラからのインスタンスを表すことを提案する。 これらのカメラ対応プロキシにより、ID内の大きな分散に対処し、学習のためのより信頼性の高い擬似ラベルを生成することができる。 カメラ認識プロキシに基づいて、Re-IDモデルのためのカメラ内およびカメラ間コントラスト学習コンポーネントを設計し、カメラ内およびカメラ間のID識別能力を効果的に学習する。 一方、プロキシバランスのサンプリング戦略も設計されており、さらなる学習を容易にする。 3つの大規模なre-idデータセットに関する広範囲な実験により,提案手法が教師なし手法よりも有意な差を示した。 特に、挑戦的なMSMT17データセットでは、第2位に比べて14.3\%$ Rank-1と10.2\%$ mAPが改善されている。 コードは: \texttt{https://github.com/Terminator8758/CAP-master}で入手できる。

This paper tackles the purely unsupervised person re-identification (Re-ID) problem that requires no annotations. Some previous methods adopt clustering techniques to generate pseudo labels and use the produced labels to train Re-ID models progressively. These methods are relatively simple but effective. However, most clustering-based methods take each cluster as a pseudo identity class, neglecting the large intra-ID variance caused mainly by the change of camera views. To address this issue, we propose to split each single cluster into multiple proxies and each proxy represents the instances coming from the same camera. These camera-aware proxies enable us to deal with large intra-ID variance and generate more reliable pseudo labels for learning. Based on the camera-aware proxies, we design both intra- and inter-camera contrastive learning components for our Re-ID model to effectively learn the ID discrimination ability within and across cameras. Meanwhile, a proxy-balanced sampling strategy is also designed, which facilitates our learning further. Extensive experiments on three large-scale Re-ID datasets show that our proposed approach outperforms most unsupervised methods by a significant margin. Especially, on the challenging MSMT17 dataset, we gain $14.3\%$ Rank-1 and $10.2\%$ mAP improvements when compared to the second place. Code is available at: \texttt{https://github.com/Terminator8758/CAP-master}.
翻訳日:2021-05-01 11:11:46 公開日:2021-02-05
# 加算雑音付き線形時変フィルタを用いた因果推論

Causal Inference Using Linear Time-Varying Filters with Additive Noise ( http://arxiv.org/abs/2012.13025v2 )

ライセンス: Link先を確認
Kang Du and Yu Xiang(参考訳) 制約構造因果モデルフレームワークを用いた因果推論は、データ生成機構による原因と効果の非対称性に大きく依存する。 線形非ガウシアンノイズモデルと非線形付加ノイズモデルでは、非ガウシアン性または非線形性から非対称性が生じる。 この手法が定常時系列に適応できるという事実にもかかわらず、非定常時系列から因果関係を推定することは難しい課題である。 本研究では,データの非定常性を生かして,非定常な処理を緩やかに行うことに着目し,対称性を破る手法を提案する。 主な理論的結果は,原因と効果が時間変化フィルタを介して接続された場合,因果方向が汎用ケースで同定可能であることを示している。 二変量進化スペクトルの強力な推定を利用して因果的発見手順を提案する。 提案手法の有効性を示すため,高次および非滑らかなフィルタを含む合成および実世界のデータシミュレーションを行った。

Causal inference using the restricted structural causal model framework hinges largely on the asymmetry between cause and effect from the data generating mechanisms. For linear non-Gaussian noise models and nonlinear additive noise models, the asymmetry arises from non-Gaussianity or nonlinearity, respectively. Despite the fact that this methodology can be adapted to stationary time series, inferring causal relationships from nonstationary time series remains a challenging task. In this work, we focus on slowly-varying nonstationary processes and propose to break the symmetry by exploiting the nonstationarity of the data. Our main theoretical result shows that the causal direction is identifiable in generic cases when cause and effect are connected via a time-varying filter. We propose a causal discovery procedure by leveraging powerful estimates of the bivariate evolutionary spectra. Both synthetic and real-world data simulations that involve high-order and non-smooth filters are provided to demonstrate the effectiveness of our proposed methodology.
翻訳日:2021-04-25 17:58:14 公開日:2021-02-05
# (参考訳) ファイングラインド型ゼロショット学習のための統合属性誘導ディエンス注意モデル

An Integrated Attribute Guided Dense Attention Model for Fine-Grained Generalized Zero-Shot Learning ( http://arxiv.org/abs/2101.02141v2 )

ライセンス: CC BY 4.0
Tasfia Shermin, Shyh Wei Teng, Ferdous Sohel, Manzur Murshed, Guojun Lu(参考訳) 埋め込み学習 (EL) と特徴合成 (FS) は, GZSL法で人気のカテゴリである。 EL法やFS法を探索するグローバルな特徴は、局所的な詳細を無視するため、微細な区別を探索しない。 また、elまたはfsメソッドを探索するローカル詳細は、直接属性ガイダンスやグローバル情報を無視している。 その結果、どちらの方法もうまく機能しない。 本稿では,細粒度gzslのための統合的手法を用いて,elとfsカテゴリのグローバルおよび直接属性教師付き局所視覚特徴を探索する。 提案する統合ネットワークは,ELサブネットワークとFSサブネットワークを備える。 これにより、提案した統合ネットワークを2つの方法でテストできる。 属性誘導局所視覚特徴を探索する2段階集中型注意機構を提案する。 我々は、相互に有益な情報を最適化するために、サブネットワーク間の新たな相互学習を導入する。 さらに,テスト中のソース領域に対するバイアスを低減するために,相互情報に基づいてソース・ターゲットクラス類似度を計算し,対象クラスを転送する手法を提案する。 提案手法がベンチマークデータセットの現代手法よりも優れていることを示す。

Embedding learning (EL) and feature synthesizing (FS) are two of the popular categories of fine-grained GZSL methods. The global feature exploring EL or FS methods do not explore fine distinction as they ignore local details. And, the local detail exploring EL or FS methods either neglect direct attribute guidance or global information. Consequently, neither method performs well. In this paper, we propose to explore global and direct attribute-supervised local visual features for both EL and FS categories in an integrated manner for fine-grained GZSL. The proposed integrated network has an EL sub-network and a FS sub-network. Consequently, the proposed integrated network can be tested in two ways. We propose a novel two-step dense attention mechanism to discover attribute-guided local visual features. We introduce new mutual learning between the sub-networks to exploit mutually beneficial information for optimization. Moreover, to reduce bias towards the source domain during testing, we propose to compute source-target class similarity based on mutual information and transfer-learn the target classes. We demonstrate that our proposed method outperforms contemporary methods on benchmark datasets.
翻訳日:2021-04-17 18:06:43 公開日:2021-02-05
# Voxel R-CNN: 高性能なVoxel-based 3Dオブジェクト検出を目指して

Voxel R-CNN: Towards High Performance Voxel-based 3D Object Detection ( http://arxiv.org/abs/2012.15712v2 )

ライセンス: Link先を確認
Jiajun Deng, Shaoshuai Shi, Peiwei Li, Wengang Zhou, Yanyong Zhang, Houqiang Li(参考訳) 3Dオブジェクト検出の最近の進歩は、3Dデータの表現方法に大きく依存している。 voxel-based あるいは point-based representation。 既存の高性能3D検出器の多くは、正確な位置を保つことができるため、ポイントベースである。 それでも、ポイントレベルの機能は、順序のないストレージのために高い計算オーバーヘッドを引き起こす。 対照的に、voxelベースの構造は特徴抽出に適しているが、入力データをグリッドに分割することで精度が低下することが多い。 本稿では, 原点の正確な位置決めは高性能な3次元物体検出には不可欠ではなく, 粗いボクセル粒度も十分な検出精度が得られることを示す。 この考え方を念頭に置いて,Voxel R-CNNという,シンプルだが効果的なボクセルベースのフレームワークを考案した。 2段階のアプローチでvoxel機能を最大限に活用することにより,最先端のポイントベースモデルと同程度の検出精度を実現するが,計算コストは少ない。 Voxel R-CNNは3Dバックボーンネットワークと2Dバードアイビュー(BEV)地域提案ネットワークと検出ヘッドで構成される。 ボクセルRoIプーリングは、ボクセル特徴から直接RoI特徴を抽出し、さらなる改良を行う。 大規模な実験は、広く使われているKITTIデータセットと、より最近のWaymo Open Datasetで行われている。 従来のボクセル法と比較して,Voxel R-CNNは,NVIDIA RTX 2080 Ti GPU上で25FPSの速度で,リアルタイムフレーム処理速度, \emph{i.e} を維持しながら高い検出精度を実現する。 コードは \url{https://github.com/djiajunustc/voxel-r-cnn} で入手できる。

Recent advances on 3D object detection heavily rely on how the 3D data are represented, \emph{i.e.}, voxel-based or point-based representation. Many existing high performance 3D detectors are point-based because this structure can better retain precise point positions. Nevertheless, point-level features lead to high computation overheads due to unordered storage. In contrast, the voxel-based structure is better suited for feature extraction but often yields lower accuracy because the input data are divided into grids. In this paper, we take a slightly different viewpoint -- we find that precise positioning of raw points is not essential for high performance 3D object detection and that the coarse voxel granularity can also offer sufficient detection accuracy. Bearing this view in mind, we devise a simple but effective voxel-based framework, named Voxel R-CNN. By taking full advantage of voxel features in a two stage approach, our method achieves comparable detection accuracy with state-of-the-art point-based models, but at a fraction of the computation cost. Voxel R-CNN consists of a 3D backbone network, a 2D bird-eye-view (BEV) Region Proposal Network and a detect head. A voxel RoI pooling is devised to extract RoI features directly from voxel features for further refinement. Extensive experiments are conducted on the widely used KITTI Dataset and the more recent Waymo Open Dataset. Our results show that compared to existing voxel-based methods, Voxel R-CNN delivers a higher detection accuracy while maintaining a real-time frame processing rate, \emph{i.e}., at a speed of 25 FPS on an NVIDIA RTX 2080 Ti GPU. The code is available at \url{https://github.com/djiajunustc/Voxel-R-CNN}.
翻訳日:2021-04-17 17:06:53 公開日:2021-02-05
# (参考訳) PointCutMix: Point Cloud分類の正規化戦略

PointCutMix: Regularization Strategy for Point Cloud Classification ( http://arxiv.org/abs/2101.01461v2 )

ライセンス: CC BY 4.0
Jinlai Zhang, Lyujie Chen, Bo Ouyang, Binbin Liu, Jihong Zhu, Yujing Chen, Yanmei Meng, Danfeng Wu(参考訳) 3Dポイントクラウド分析が注目されるにつれて、ポイントクラウドデータセットの不十分なスケールとネットワークの弱い一般化能力が顕著になる。 本稿では,これらの問題を緩和するためのポイントクラウドデータ(PointCutMix)の簡易かつ効果的な拡張手法を提案する。 2つの点雲間の最適な割り当てを見つけ、1つのサンプルの点を最適なペアに置き換えることで、新しいトレーニングデータを生成する。 2つの置換戦略は、異なるタスクの正確性または堅牢性要件に適応するために提案され、1つは、全ての置換点をランダムに選択し、もう1つは1つのランダム点のk近傍を選択することである。 いずれの戦略も、ポイントクラウド分類問題における様々なモデルの性能を一貫して改善する。 置換点の選択を導くために塩分マップを導入することにより、さらに性能が向上する。 さらに、PointCutMixは、ポイントアタックに対するモデルの堅牢性を高めるために検証されている。 防御手法として使用する場合,本手法は最先端の防御アルゴリズムに勝ることに留意すべきである。 コードは、https://github.com/cuge1995/PointCutMixで入手できる。

As 3D point cloud analysis has received increasing attention, the insufficient scale of point cloud datasets and the weak generalization ability of networks become prominent. In this paper, we propose a simple and effective augmentation method for the point cloud data, named PointCutMix, to alleviate those problems. It finds the optimal assignment between two point clouds and generates new training data by replacing the points in one sample with their optimal assigned pairs. Two replacement strategies are proposed to adapt to the accuracy or robustness requirement for different tasks, one of which is to randomly select all replacing points while the other one is to select k nearest neighbors of a single random point. Both strategies consistently and significantly improve the performance of various models on point cloud classification problems. By introducing the saliency maps to guide the selection of replacing points, the performance further improves. Moreover, PointCutMix is validated to enhance the model robustness against the point attack. It is worth noting that when using as a defense method, our method outperforms the state-of-the-art defense algorithms. The code is available at:https://github.com/cuge1995/PointCutMix
翻訳日:2021-04-11 18:55:46 公開日:2021-02-05
# (参考訳) 時空間光フロービデオフレームを用いた映像動作認識

Video Action Recognition Using spatio-temporal optical flow video frames ( http://arxiv.org/abs/2103.05101v1 )

ライセンス: CC BY 4.0
Aytekin Nebisoy and Saber Malekzadeh(参考訳) 近年,映像に基づく人間の行動認識がコンピュータビジョン研究の最も一般的な分野の一つとなっている。 この領域には、監視、ロボット工学、医療、ビデオ検索、人間とコンピュータの相互作用など多くの応用がある。 ビデオの背景や障害物、視点の変化、実行速度、カメラの動きなど、人間の行動を認識することには多くの問題がある。 この問題を解決するために多くの方法が提案されている。 本稿では,Deep Neural Networks を用いた映像分類における空間的・時間的パターン認識に着目した。 このモデルは、RGB画像と光フローを入力データとして、アクションクラス番号を出力する。 最終認識精度は約94%であった。

Recognizing human actions based on videos has became one of the most popular areas of research in computer vision in recent years. This area has many applications such as surveillance, robotics, health care, video search and human-computer interaction. There are many problems associated with recognizing human actions in videos such as cluttered backgrounds, obstructions, viewpoints variation, execution speed and camera movement. A large number of methods have been proposed to solve the problems. This paper focus on spatial and temporal pattern recognition for the classification of videos using Deep Neural Networks. This model takes RGB images and Optical Flow as input data and outputs an action class number. The final recognition accuracy was about 94%.
翻訳日:2021-04-06 07:11:53 公開日:2021-02-05
# 不確実性定量化と探査・探査トレードオフ

Uncertainty quantification and exploration-exploitation trade-off in humans ( http://arxiv.org/abs/2102.07647v1 )

ライセンス: Link先を確認
Antonio Candelieri, Andrea Ponti, Francesco Archetti(参考訳) 本研究の目的は,情報収集(探索)と報酬探索(探索)のトレードオフを不確実性の下で人間の意思決定戦略がどのように管理するかを解析するための理論的枠組みを概説することである。 この一連の研究のモチベーションとなる重要な観察は、人間の学習者が見慣れない環境に適応し、今後の知識を取り入れて驚くほど高速かつ効果的である、という認識である。 対象とする問題は、ブラックボックス最適化タスクにおけるアクティブラーニングであり、より具体的には、探索/探索ジレンマがガウス過程に基づくベイズ最適化フレームワーク内でどのようにモデル化できるかである。 主な貢献は、2つの目的が期待される改善と不確実な定量化であるパレートの合理性に関する人間の決定を分析することである。 このパレート合理性モデルによれば、決定集合がパレート効率的な(支配的な)戦略を含むならば、合理的な意思決定者は、支配的な代替戦略よりも支配的な戦略を選択するべきである。 パレートフロンティアからの距離は、選択が(パレート)合理的であるか(すなわちフロンティアに横たわるか)、あるいは「過剰な」探検に関係しているかを決定する。 しかし,不確実性はパレートフロンティアを定義する2つの目標の1つであり,我々は3つの異なる不確実性定量化手法を調査し,提案するパレート合理性モデルに適合した1つを選択した。 主要な結果は、「合理性」からの逸脱が不確実な定量化と報酬を求める過程の進化にどのように依存するかを特徴づける分析的枠組みである。

The main objective of this paper is to outline a theoretical framework to analyse how humans' decision-making strategies under uncertainty manage the trade-off between information gathering (exploration) and reward seeking (exploitation). A key observation, motivating this line of research, is the awareness that human learners are amazingly fast and effective at adapting to unfamiliar environments and incorporating upcoming knowledge: this is an intriguing behaviour for cognitive sciences as well as an important challenge for Machine Learning. The target problem considered is active learning in a black-box optimization task and more specifically how the exploration/exploitation dilemma can be modelled within Gaussian Process based Bayesian Optimization framework, which is in turn based on uncertainty quantification. The main contribution is to analyse humans' decisions with respect to Pareto rationality where the two objectives are improvement expected and uncertainty quantification. According to this Pareto rationality model, if a decision set contains a Pareto efficient (dominant) strategy, a rational decision maker should always select the dominant strategy over its dominated alternatives. The distance from the Pareto frontier determines whether a choice is (Pareto) rational (i.e., lays on the frontier) or is associated to "exasperate" exploration. However, since the uncertainty is one of the two objectives defining the Pareto frontier, we have investigated three different uncertainty quantification measures and selected the one resulting more compliant with the Pareto rationality model proposed. The key result is an analytical framework to characterize how deviations from "rationality" depend on uncertainty quantifications and the evolution of the reward seeking process.
翻訳日:2021-04-05 00:33:53 公開日:2021-02-05
# AIは大量射撃などを止めることができる

AI Can Stop Mass Shootings, and More ( http://arxiv.org/abs/2102.09343v1 )

ライセンス: Link先を確認
Selmer Bringsjord and Naveen Sundar Govindarajulu and Michael Giancola(参考訳) 我々は、AI/機械倫理における長年のr&dに基づいて直接構築することを提案し、その倫理的理由に対処することによって、大量射撃を阻止できるAIのブルースキーなアイデアの実現を試みる。 問題となっているr&dは形式的に過度に論理主義的であり、AIに倫理的感受性を持たせるためにしっかりとした基盤を築いてきたのは私たちだけではないので、異なる方法論のキャンプの人たちによる提案の追求も考慮されるべきである。 我々は、私たちの表現を2つのシミュレーションに固定することで、少なくともある程度具体化することを目指しています。1つは、aiが邪悪な人間の銃をロックアウトすることで罪のない人々の命を救っているもの、もう1つは、aiによってこの悪質なエージェントが法執行機関によって中立化されることを許可されているもの、です。 途中、いくつかの異論が予想され、反論される。

We propose to build directly upon our longstanding, prior r&d in AI/machine ethics in order to attempt to make real the blue-sky idea of AI that can thwart mass shootings, by bringing to bear its ethical reasoning. The r&d in question is overtly and avowedly logicist in form, and since we are hardly the only ones who have established a firm foundation in the attempt to imbue AI's with their own ethical sensibility, the pursuit of our proposal by those in different methodological camps should, we believe, be considered as well. We seek herein to make our vision at least somewhat concrete by anchoring our exposition to two simulations, one in which the AI saves the lives of innocents by locking out a malevolent human's gun, and a second in which this malevolent agent is allowed by the AI to be neutralized by law enforcement. Along the way, some objections are anticipated, and rebutted.
翻訳日:2021-04-05 00:31:35 公開日:2021-02-05
# ソーシャルネットワーク分析:グラフ理論からPythonアプリケーションへ

Social Network Analysis: From Graph Theory to Applications with Python ( http://arxiv.org/abs/2102.10014v1 )

ライセンス: Link先を確認
Dmitri Goldenberg(参考訳) ソーシャル・ネットワーク分析(social network analysis)は、ネットワークとグラフ理論を用いて社会構造を調査するプロセスである。 これは、ソーシャルネットワークの構造を分析するための様々な技術と、これらの構造で観察される基礎となる力学とパターンを説明する理論を組み合わせている。 それは本質的に学際的な分野であり、もともと社会心理学、統計学、グラフ理論の分野から生まれた。 この講演では、グラフ理論と情報拡散の簡単な紹介とともに、ソーシャルネットワーク分析の理論を取り上げる予定である。 続いて、実際のパンダやテキストデータセットからソーシャルネットワークを構築し、暗示することで、ネットワークコンポーネントをよりよく理解するために、networkxでpythonコードを深く掘り下げます。 最後に、matplotlibによる可視化、社会集中分析、情報拡散に対する影響最大化といった実用的なユースケースのコード例を取り上げる。

Social network analysis is the process of investigating social structures through the use of networks and graph theory. It combines a variety of techniques for analyzing the structure of social networks as well as theories that aim at explaining the underlying dynamics and patterns observed in these structures. It is an inherently interdisciplinary field which originally emerged from the fields of social psychology, statistics and graph theory. This talk will covers the theory of social network analysis, with a short introduction to graph theory and information spread. Then we will deep dive into Python code with NetworkX to get a better understanding of the network components, followed-up by constructing and implying social networks from real Pandas and textual datasets. Finally we will go over code examples of practical use-cases such as visualization with matplotlib, social-centrality analysis and influence maximization for information spread.
翻訳日:2021-04-05 00:30:05 公開日:2021-02-05
# 分散ガウス過程推定と被覆のレグレト解析

Regret Analysis of Distributed Gaussian Process Estimation and Coverage ( http://arxiv.org/abs/2101.04306v2 )

ライセンス: Link先を確認
Lai Wei, Andrew McDonald, Vaibhav Srivastava(参考訳) 未知の非一様感覚領域における分散マルチロボットカバレッジの問題について検討する。 感覚場をガウス過程の実現としてモデル化し,ベイズ手法を用いて,感覚関数の学習と環境被覆のトレードオフをバランスさせる政策を考案した。 本稿では,学習とカバレッジの時間軸をスケジュールする,決定論的学習とカバレッジのシークエンシング(dslc)と呼ばれる適応的カバレッジアルゴリズムを提案する。 複数ロボットチーム全体のカバレッジパフォーマンスを時間軸のT$で特徴づける新しいカバレッジ後悔の定義を用いて、DSLCを分析し、期待される累積カバレッジ後悔の上限を提供する。 最後に,未知の野火の分布上でのカバレッジタスクのシミュレーションにより,アルゴリズムの実証的性能を示す。

We study the problem of distributed multi-robot coverage over an unknown, nonuniform sensory field. Modeling the sensory field as a realization of a Gaussian Process and using Bayesian techniques, we devise a policy which aims to balance the tradeoff between learning the sensory function and covering the environment. We propose an adaptive coverage algorithm called Deterministic Sequencing of Learning and Coverage (DSLC) that schedules learning and coverage epochs such that its emphasis gradually shifts from exploration to exploitation while never fully ceasing to learn. Using a novel definition of coverage regret which characterizes overall coverage performance of a multi-robot team over a time horizon $T$, we analyze DSLC to provide an upper bound on expected cumulative coverage regret. Finally, we illustrate the empirical performance of the algorithm through simulations of the coverage task over an unknown distribution of wildfires.
翻訳日:2021-04-04 01:31:58 公開日:2021-02-05
# (参考訳) 深層予測符号化ネットワークの高速収束による表現の深層化

Faster Convergence in Deep-Predictive-Coding Networks to Learn Deeper Representations ( http://arxiv.org/abs/2101.06848v2 )

ライセンス: CC BY 4.0
Isaac J. Sledge and Jose C. Principe(参考訳) 深部予測符号化ネットワーク(Deep-predictive-coding network, DPCN)は、動的かつ文脈に敏感な刺激の潜在特徴表現を変調するために、フィードフォワードおよびフィードバック接続に依存する階層モデルである。 DPCNの重要な要素は、不変特徴抽出に使用される動的モデルのスパース状態を明らかにする前向き推論手順である。 しかし、この推論と対応する後方ネットワークパラメータの更新は、主要な計算ボトルネックである。 合理的に実装され、容易に訓練できるネットワーク深さを厳しく制限する。 そこで我々は,加速度的近位勾配に基づく,経験的および理論的収束性が向上した最適化戦略を提案する。 我々は、より深いdpcnを構築する能力が、ネットワークが訓練されるオブジェクトの概念全体をうまく捉える受容的フィールドをもたらすことを実証する。 これにより特徴表現が改善される。 完全教師なしの分類器は、畳み込みと畳み込みを繰り返すオートエンコーダを超え、教師付き方法で訓練された畳み込みネットワークと同等である。 これはdpcnが桁違いに少ないパラメータを持つにもかかわらずである。

Deep-predictive-coding networks (DPCNs) are hierarchical, generative models that rely on feed-forward and feed-back connections to modulate latent feature representations of stimuli in a dynamic and context-sensitive manner. A crucial element of DPCNs is a forward-backward inference procedure to uncover sparse states of a dynamic model, which are used for invariant feature extraction. However, this inference and the corresponding backwards network parameter updating are major computational bottlenecks. They severely limit the network depths that can be reasonably implemented and easily trained. We therefore propose an optimization strategy, with better empirical and theoretical convergence, based on accelerated proximal gradients. We demonstrate that the ability to construct deeper DPCNs leads to receptive fields that capture well the entire notions of objects on which the networks are trained. This improves the feature representations. It yields completely unsupervised classifiers that surpass convolutional and convolutional-recurrent autoencoders and are on par with convolutional networks trained in a supervised manner. This is despite the DPCNs having orders of magnitude fewer parameters.
翻訳日:2021-03-27 18:19:22 公開日:2021-02-05
# (参考訳) 重要度重み付きオートエンコーダを用いた電子健康記録データの非無視特徴処理

Handling Non-ignorably Missing Features in Electronic Health Records Data Using Importance-Weighted Autoencoders ( http://arxiv.org/abs/2101.07357v2 )

ライセンス: CC BY 4.0
David K. Lim, Naim U. Rashid, Junier B. Oliva, Joseph G. Ibrahim(参考訳) 電子健康記録(ehrs)は、患者の健康情報と結果の関係を調べるために一般的に用いられる。 EHRデータセットの特徴的高次元と大きなサンプルサイズを考慮すると、深層学習はそのような関係を学習するための強力なツールとして現れている。 physionet 2012 Challengeには、12,000 ICU患者に関するEHRデータセットが含まれており、臨床測定値と院内死亡率の関係を調査している。 しかし、物理データにおけるデータ欠落の頻度と複雑さは、変分オートエンコーダ(vaes)のような深層学習法の適用において重大な課題を呈している。 従来の統計モデルでは欠落したデータの扱いについては豊富な文献があるが、どのようにしてディープラーニングアーキテクチャに拡張されるのかは不明である。 これらの問題に対処するため、我々はIWAE(Importance-Weighted Autoencoders)と呼ばれる新しいVAEの拡張を提案し、Physoronetデータにおけるミス・ノー・アット・ランダム(MNAR)パターンを柔軟に処理する。 提案手法は,組み込みニューラルネットワークを用いて欠落機構をモデル化し,欠落機構の正確な形式を事前に指定する必要をなくした。 以上の結果から, 本手法を用いることで, 現状と比べ, より現実的な実測値が得られ, 下流モデルによる死亡率の有意差が認められた。

Electronic Health Records (EHRs) are commonly used to investigate relationships between patient health information and outcomes. Deep learning methods are emerging as powerful tools to learn such relationships, given the characteristic high dimension and large sample size of EHR datasets. The Physionet 2012 Challenge involves an EHR dataset pertaining to 12,000 ICU patients, where researchers investigated the relationships between clinical measurements, and in-hospital mortality. However, the prevalence and complexity of missing data in the Physionet data present significant challenges for the application of deep learning methods, such as Variational Autoencoders (VAEs). Although a rich literature exists regarding the treatment of missing data in traditional statistical models, it is unclear how this extends to deep learning architectures. To address these issues, we propose a novel extension of VAEs called Importance-Weighted Autoencoders (IWAEs) to flexibly handle Missing Not At Random (MNAR) patterns in the Physionet data. Our proposed method models the missingness mechanism using an embedded neural network, eliminating the need to specify the exact form of the missingness mechanism a priori. We show that the use of our method leads to more realistic imputed values relative to the state-of-the-art, as well as significant differences in fitted downstream models for mortality.
翻訳日:2021-03-27 06:38:42 公開日:2021-02-05
# parasci: 長いparaphrase生成のための大きな科学的なparaphraseデータセット

ParaSCI: A Large Scientific Paraphrase Dataset for Longer Paraphrase Generation ( http://arxiv.org/abs/2101.08382v2 )

ライセンス: Link先を確認
Qingxiu Dong, Xiaojun Wan, Yue Cao(参考訳) 本研究では,ACL(ParaSCI-ACL)の33,981対とarXiv(ParaSCI-arXiv)の316,063対を含む,科学分野で最初の大規模パラフレーズデータセットであるParaSCIを提案する。 論文の特徴と共通パターンを掘り下げて,同一論文に対する引用の収集や科学用語による定義の集約など,論文内および論文間手法を用いて,このデータセットを構築した。 部分的にパラフレーズ化される文を利用するために,一般パラフレーズ発見法としてPDBERTを設置した。 ParaSCIにおけるパラフレーズの主な利点は、既存のパラフレーズデータセットを補完する顕著な長さとテキストの多様性にある。 ParaSCIは人間の評価や下流タスク、特に長いパラフレーズ生成において満足な結果を得る。

We propose ParaSCI, the first large-scale paraphrase dataset in the scientific field, including 33,981 paraphrase pairs from ACL (ParaSCI-ACL) and 316,063 pairs from arXiv (ParaSCI-arXiv). Digging into characteristics and common patterns of scientific papers, we construct this dataset though intra-paper and inter-paper methods, such as collecting citations to the same paper or aggregating definitions by scientific terms. To take advantage of sentences paraphrased partially, we put up PDBERT as a general paraphrase discovering method. The major advantages of paraphrases in ParaSCI lie in the prominent length and textual diversity, which is complementary to existing paraphrase datasets. ParaSCI obtains satisfactory results on human evaluation and downstream tasks, especially long paraphrase generation.
翻訳日:2021-03-21 07:58:25 公開日:2021-02-05
# (参考訳) ivp解決による画像復元

Image Restoration by Solving IVP ( http://arxiv.org/abs/2101.08987v3 )

ライセンス: CC BY 4.0
Seobin Park and Tae Hyun Kim(参考訳) 近年の画像復元の研究はディープラーニング技術の助けを借りて大きな成功を収めているが、その多くが現実的な設定でSRを扱うことに限定されている。 そこで本研究では, 画像の高分解能化のための新しい定式化手法を提案する。 提案する新しいsr法に基づいて,複数のスケールで超解像するだけでなく,超解像プロセスの性能を分析する新しい方法を見いだすことができる。 提案手法は従来のSR法とは異なり,高品質な画像を生成することができることを示す。

Recent research on image restoration have achieved great success with the aid of deep learning technologies, but, many of them are limited to dealing SR with realistic settings. To alleviate this problem, we introduce a new formulation for image super-resolution to solve arbitrary scale image super-resolution methods. Based on the proposed new SR formulation, we can not only super-resolve images with multiple scales, but also find a new way to analyze the performance of super-resolving process. We demonstrate that the proposed method can generate high-quality images unlike conventional SR methods.
翻訳日:2021-03-21 02:31:14 公開日:2021-02-05
# 画像とテキストの情報を組み合わせることで、重複したビデオベースのバグレポートを検出する

It Takes Two to Tango: Combining Visual and Textual Information for Detecting Duplicate Video-Based Bug Reports ( http://arxiv.org/abs/2101.09194v2 )

ライセンス: Link先を確認
Nathan Cooper, Carlos Bernal-C\'ardenas, Oscar Chaparro, Kevin Moran, Denys Poshyvanyk(参考訳) ユーザが対象とするアプリケーションにバグが現れると、グラフィカルユーザインターフェース(GUI)を通じて公開される可能性が高い。 このようなバグを特定して理解するプロセスにおける視覚的情報の重要性を考えると、ユーザに問題を伝える手段として、スクリーンショットやスクリーンレコーダーの利用が増えている。 しかし、クラウドソーステストなどの大量の情報を報告する場合、これらのアーティファクトの管理には時間がかかる可能性がある。 特に画面記録の報告が普及するにつれ、開発者は重複したバグを描写したビデオの手動識別に関する課題に直面する傾向にある。 グラフィカルな性質のため、画面記録は、現在の重複バグレポート検出技術の使用を妨げる自動解析の課題を示す。 そこで本稿では,これらの課題を克服し,開発者を支援するために,視覚情報とテキスト情報の両方を活用することで,ビデオベースのバグレポートを純粋に操作する重複検出手法であるtangoを提案する。 tangoは、カスタマイズされたコンピュータビジョン技術、光学式文字認識、テキスト検索を組み合わせる。 6つのAndroidアプリから180の画面記録を含む4,860の重複検出タスクに対して,Tangoの複数の構成を評価した。 さらに、ビデオベースのバグレポートの重複を開発者が手動で検出するために必要な労力を調査し、tangoの使用に要する労力と比較した。 その結果、tangoの最適な構成は、ビデオベースのバグレポートの重複検出に非常に効果的であり、返された上位2の重複動画を83%のタスクで正確にランク付けすることが判明した。 さらに,ユーザ調査の結果から,Tangoは開発者の労力を60%以上削減し,実用性を実証した。

When a bug manifests in a user-facing application, it is likely to be exposed through the graphical user interface (GUI). Given the importance of visual information to the process of identifying and understanding such bugs, users are increasingly making use of screenshots and screen-recordings as a means to report issues to developers. However, when such information is reported en masse, such as during crowd-sourced testing, managing these artifacts can be a time-consuming process. As the reporting of screen-recordings in particular becomes more popular, developers are likely to face challenges related to manually identifying videos that depict duplicate bugs. Due to their graphical nature, screen-recordings present challenges for automated analysis that preclude the use of current duplicate bug report detection techniques. To overcome these challenges and aid developers in this task, this paper presents Tango, a duplicate detection technique that operates purely on video-based bug reports by leveraging both visual and textual information. Tango combines tailored computer vision techniques, optical character recognition, and text retrieval. We evaluated multiple configurations of Tango in a comprehensive empirical evaluation on 4,860 duplicate detection tasks that involved a total of 180 screen-recordings from six Android apps. Additionally, we conducted a user study investigating the effort required for developers to manually detect duplicate video-based bug reports and compared this to the effort required to use Tango. The results reveal that Tango's optimal configuration is highly effective at detecting duplicate video-based bug reports, accurately ranking target duplicate videos in the top-2 returned results in 83% of the tasks. Additionally, our user study shows that, on average, Tango can reduce developer effort by over 60%, illustrating its practicality.
翻訳日:2021-03-20 17:20:05 公開日:2021-02-05
# Identity-Aware Graph Neural Networks

Identity-aware Graph Neural Networks ( http://arxiv.org/abs/2101.10320v2 )

ライセンス: Link先を確認
Jiaxuan You, Jonathan Gomes-Selman, Rex Ying, Jure Leskovec(参考訳) メッセージパッシンググラフニューラルネットワーク(GNN)は、リレーショナルデータのための強力なモデリングフレームワークを提供する。 しかし、既存のGNNの表現力は、1-Weisfeiler-Lehman (1-WL)グラフ同型テストによって上界であり、ノードクラスタリング係数と最短経路距離を予測できず、異なるd-規則グラフを区別できないGNNを意味する。 ここでは、Identity-aware Graph Neural Networks(ID-GNNs)と呼ばれるGNNを渡すメッセージクラスを開発し、1-WLテストよりも表現力が高い。 ID-GNNは、既存のGNNの制限に対する最小限ながら強力なソリューションを提供します。 ID-GNNは、メッセージパッシング中にノードのIDを誘導的に考慮することにより、既存のGNNアーキテクチャを拡張します。 与えられたノードを埋め込むため、ID-GNNはまずノード中心のEgoネットワークを抽出し、その後、Egoネットワーク内の他の周辺ノードと異なるパラメータセットが中央ノードに適用される異種メッセージパッシングのラウンドを実行する。 さらに,拡張ノード機能としてノード識別情報を注入するID-GNNの簡易かつ高速なバージョンを提案する。 実験では、既存のGNNをID-GNNに変換することで、挑戦的なノード、エッジ、グラフプロパティ予測タスクにおける平均40%の精度向上、ノードとグラフの分類ベンチマークでの3%の精度向上、実世界のリンク予測タスクにおける15%のROC AUCの改善が得られている。 さらに、ID-GNNは、他のタスク固有のグラフネットワークよりも改善または同等のパフォーマンスを示す。

Message passing Graph Neural Networks (GNNs) provide a powerful modeling framework for relational data. However, the expressive power of existing GNNs is upper-bounded by the 1-Weisfeiler-Lehman (1-WL) graph isomorphism test, which means GNNs that are not able to predict node clustering coefficients and shortest path distances, and cannot differentiate between different d-regular graphs. Here we develop a class of message passing GNNs, named Identity-aware Graph Neural Networks (ID-GNNs), with greater expressive power than the 1-WL test. ID-GNN offers a minimal but powerful solution to limitations of existing GNNs. ID-GNN extends existing GNN architectures by inductively considering nodes' identities during message passing. To embed a given node, ID-GNN first extracts the ego network centered at the node, then conducts rounds of heterogeneous message passing, where different sets of parameters are applied to the center node than to other surrounding nodes in the ego network. We further propose a simplified but faster version of ID-GNN that injects node identity information as augmented node features. Altogether, both versions of ID-GNN represent general extensions of message passing GNNs, where experiments show that transforming existing GNNs to ID-GNNs yields on average 40% accuracy improvement on challenging node, edge, and graph property prediction tasks; 3% accuracy improvement on node and graph classification benchmarks; and 15% ROC AUC improvement on real-world link prediction tasks. Additionally, ID-GNNs demonstrate improved or comparable performance over other task-specific graph networks.
翻訳日:2021-03-14 19:16:39 公開日:2021-02-05
# パラメトリック整流パワーシグモイドユニット:非線形神経伝達解析形式を学習する

Parametric Rectified Power Sigmoid Units: Learning Nonlinear Neural Transfer Analytical Forms ( http://arxiv.org/abs/2101.09948v2 )

ライセンス: Link先を確認
Abdourrahmane Mahamane Atto (LISTIC), Sylvie Galichet (LISTIC), Dominique Pastor, Nicolas M\'eger (LISTIC)(参考訳) 本稿では,線形畳み込み重みと非線形活性化関数のパラメトリック形式の両方を共用する双対パラダイムの表現関数を提案する。 関数表現を実行するために提案された非線形形式は、整形パワーシグモイド単位と呼ばれる新しいパラメトリック神経伝達関数のクラスに関連付けられる。 このクラスは、これらの関数の欠点を否定するのに加えて、シグモイドと正則線型単位関数の利点を統合するために構築される。 さらに、この新しいニューラルクラスの分析形式は、標準整列線形単位を極限として含む幅広い活性化形状を得るために、スケール、シフト、形状パラメータを含む。 この神経伝達クラスのパラメータは、機械学習問題の解決に寄与する複雑な形状を発見するために学習可能であると考えられている。 浅層学習と深層学習の両フレームワークにおいて,畳み込み型および整流型シグモイド学習パラメータの連成学習により達成された性能を示す。 このクラスは、学習可能なパラメータが線形変換だけでなく、適切な非線形演算子にも関連付けられるという意味で、機械学習に関する新たな展望を開く。

The paper proposes representation functionals in a dual paradigm where learning jointly concerns both linear convolutional weights and parametric forms of nonlinear activation functions. The nonlinear forms proposed for performing the functional representation are associated with a new class of parametric neural transfer functions called rectified power sigmoid units. This class is constructed to integrate both advantages of sigmoid and rectified linear unit functions, in addition with rejecting the drawbacks of these functions. Moreover, the analytic form of this new neural class involves scale, shift and shape parameters so as to obtain a wide range of activation shapes, including the standard rectified linear unit as a limit case. Parameters of this neural transfer class are considered as learnable for the sake of discovering the complex shapes that can contribute in solving machine learning issues. Performance achieved by the joint learning of convolutional and rectified power sigmoid learnable parameters are shown outstanding in both shallow and deep learning frameworks. This class opens new prospects with respect to machine learning in the sense that learnable parameters are not only attached to linear transformations, but also to suitable nonlinear operators.
翻訳日:2021-03-14 18:54:54 公開日:2021-02-05
# 電力系統における意思決定と制御のための強化学習 : チュートリアル, レビュー, ビジョン

Reinforcement Learning for Decision-Making and Control in Power Systems: Tutorial, Review, and Vision ( http://arxiv.org/abs/2102.01168v3 )

ライセンス: Link先を確認
Xin Chen, Guannan Qu, Yujie Tang, Steven Low, Na Li(参考訳) 再生可能エネルギーとユビキタス分散エネルギー資源(ders)の大規模統合により、現代の電力システムは、複雑性の増大、不確実性の増加、ボラティリティの悪化など、運用と制御における一連の新たな課題に直面している。 欠点は、広くデプロイされているスマートメーター、スマートセンサー、通信ネットワークのアップグレードによって、より多くのデータが利用できることだ。 その結果、近年、データ駆動制御技術、特に強化学習(RL)が注目を集めています。 本稿では、RLに着目し、様々なRL技術に関するチュートリアルと、電力系統における意思決定と制御にどのように適用できるかを提案する。 特に、周波数制御、電圧制御、エネルギー管理を含む3つの重要な応用を図解として選択し、それらをRL法でモデル化し取り組む典型的な方法を示す。 我々は、RLの適用における2つの重要な問題、すなわち安全性とスケーラビリティを強調して結論付ける。 いくつかの将来の方向性も議論されている。

With large-scale integration of renewable generation and ubiquitous distributed energy resources (DERs), modern power systems confront a series of new challenges in operation and control, such as growing complexity, increasing uncertainty, and aggravating volatility. While the upside is that more and more data are available owing to the widely-deployed smart meters, smart sensors, and upgraded communication networks. As a result, data-driven control techniques, especially reinforcement learning (RL), have attracted surging attention in recent years. In this paper, we focus on RL and aim to provide a tutorial on various RL techniques and how they can be applied to the decision-making and control in power systems. In particular, we select three key applications, including frequency regulation, voltage control, and energy management, for illustration, and present the typical ways to model and tackle them with RL methods. We conclude by emphasizing two critical issues in the application of RL, i.e., safety and scalability. Several potential future directions are discussed as well.
翻訳日:2021-03-13 20:01:11 公開日:2021-02-05
# 極端な気象発生のためのモジュラーフレームワーク

A modular framework for extreme weather generation ( http://arxiv.org/abs/2102.04534v1 )

ライセンス: Link先を確認
Bianca Zadrozny, Campbell D. Watson, Daniela Szwarcman, Daniel Civitarese, Dario Oliveira, Eduardo Rodrigues, Jorge Guevara(参考訳) 極端な気象イベントは社会に大きな影響を与え、気候変動により頻繁で重大になることが期待されています。 この文脈では、レジリエンス・プランニングはリスク軽減とこのような極端な出来事への対処に不可欠である。 機械学習技術は、可能な緩和行動を評価するために使用できる現実的な極端な気象イベントシナリオの生成を通じて、レジリエンス計画において重要な役割を果たします。 本稿では,極度の気象イベントシナリオを生成するために交換可能なコンポーネントに依存するモジュール化フレームワークを提案する。 各コンポーネントの代替案について検討し,降水シナリオの生成タスクにおける2つのアプローチを比較した最初の結果を示す。

Extreme weather events have an enormous impact on society and are expected to become more frequent and severe with climate change. In this context, resilience planning becomes crucial for risk mitigation and coping with these extreme events. Machine learning techniques can play a critical role in resilience planning through the generation of realistic extreme weather event scenarios that can be used to evaluate possible mitigation actions. This paper proposes a modular framework that relies on interchangeable components to produce extreme weather event scenarios. We discuss possible alternatives for each of the components and show initial results comparing two approaches on the task of generating precipitation scenarios.
翻訳日:2021-02-10 15:16:52 公開日:2021-02-05
# (参考訳) 人工知能における象徴的行動

Symbolic Behaviour in Artificial Intelligence ( http://arxiv.org/abs/2102.03406v1 )

ライセンス: CC BY 4.0
Adam Santoro, Andrew Lampinen, Kory Mathewson, Timothy Lillicrap, David Raposo(参考訳) シンボルを使用する能力は人間の知能の頂点であるが、まだ機械で完全に複製されていない。 ここでは、記号的に流れる人工知能(ai)への道のりは、シンボルが何であるか、どのように存在するのか、システムがどのように振る舞うか、といった再解釈から始まります。 まず、シンボルを慣習によって確立された実体として解釈することから始める。 しかし、重要なことは、この大会に前向きかつ積極的に参加する人々のためのシンボルです。 次に、この解釈が人間の記号使用時の行動特性を数学的に統一する方法を概説する。 これは、より制限的な記号解釈に触発された特定の計算機構よりも、この分野が象徴的行動に重点を置くという提案を動機付ける。 最後に,象徴的行動に必要となる認知機構を発達させるためのツールとして,ai研究が社会的・文化的関与を探求することを提案する。 このアプローチにより、AIは単に人間の見物人にのみシンボルであるものを操作するのではなく、独自のシンボルとして解釈することができる。

The ability to use symbols is the pinnacle of human intelligence, but has yet to be fully replicated in machines. Here we argue that the path towards symbolically fluent artificial intelligence (AI) begins with a reinterpretation of what symbols are, how they come to exist, and how a system behaves when it uses them. We begin by offering an interpretation of symbols as entities whose meaning is established by convention. But crucially, something is a symbol only for those who demonstrably and actively participate in this convention. We then outline how this interpretation thematically unifies the behavioural traits humans exhibit when they use symbols. This motivates our proposal that the field place a greater emphasis on symbolic behaviour rather than particular computational mechanisms inspired by more restrictive interpretations of symbols. Finally, we suggest that AI research explore social and cultural engagement as a tool to develop the cognitive machinery necessary for symbolic behaviour to emerge. This approach will allow for AI to interpret something as symbolic on its own rather than simply manipulate things that are only symbols to human onlookers, and thus will ultimately lead to AI with more human-like symbolic fluency.
翻訳日:2021-02-10 05:58:55 公開日:2021-02-05
# (参考訳) 勾配フリー確率最適化のためのオンライン統計量推定

Online Statistical Inference for Gradient-free Stochastic Optimization ( http://arxiv.org/abs/2102.03389v1 )

ライセンス: CC BY 4.0
Xi Chen, Zehua Lai, He Li, Yichen Zhang(参考訳) 近年,グラデーションフリーの確率最適化が幅広い応用で注目されるようになり,そのような手法から得られるパラメータの不確実性定量化の需要が高まる。 本稿では,勾配ではなく関数値のみを用いる勾配自由確率最適化法に基づいて,モデルパラメータの統計的推論の問題を検討する。 まず,ポリak-ruppert平均型勾配なし推定器に対する中央極限定理結果を示す。 漸近分布は収束率と関数クエリの複雑さの間のトレードオフを反映している。 次に,完全オンライン方式で共分散行列を推定することにより,モデルパラメータの有効信頼区間を構成する。 さらに,共分散推定のための一般勾配フリーフレームワークを与え,共分散推定器の収束率における関数問合せ複雑性の役割を解析する。 モデルパラメータの推定値を同時に取得し、統計推論を行うためのワンパス計算効率の高い手順を提供する。 最後に、理論結果を検証し、様々な機械学習およびディープラーニングアプリケーションのためのメソッドの拡張を示すための数値実験を提供します。

As gradient-free stochastic optimization gains emerging attention for a wide range of applications recently, the demand for uncertainty quantification of parameters obtained from such approaches arises. In this paper, we investigate the problem of statistical inference for model parameters based on gradient-free stochastic optimization methods that use only function values rather than gradients. We first present central limit theorem results for Polyak-Ruppert-averaging type gradient-free estimators. The asymptotic distribution reflects the trade-off between the rate of convergence and function query complexity. We next construct valid confidence intervals for model parameters through the estimation of the covariance matrix in a fully online fashion. We further give a general gradient-free framework for covariance estimation and analyze the role of function query complexity in the convergence rate of the covariance estimator. This provides a one-pass computationally efficient procedure for simultaneously obtaining an estimator of model parameters and conducting statistical inference. Finally, we provide numerical experiments to verify our theoretical results and illustrate some extensions of our method for various machine learning and deep learning applications.
翻訳日:2021-02-10 02:08:55 公開日:2021-02-05
# レギュラライザを用いたロバスト・シングルステップ・アドバーサリー・トレーニング

Robust Single-step Adversarial Training with Regularizer ( http://arxiv.org/abs/2102.03381v1 )

ライセンス: Link先を確認
Lehui Xie, Yaopeng Wang, Jia-Li Yin, and Ximeng Liu(参考訳) 多段階の対向例生成による訓練時間の高騰は、対向訓練において大きな課題である。 従来の方法は、効率を効果的に改善することができるが、ファストグラディエントサイン法(FGSM)に対する堅牢な精度が近くの100\%を達成できる破滅的なオーバーフィッティングの問題を導入するシングルステップの逆転例生成スキームを使用して、逆転訓練の計算負荷を低減しようとするが、プロジェクタグラディエントダイナスト(PGD)に対する堅牢な精度は、単一のエポックで突然0%に低下する。 そこで本研究では, PGD正規化(FGSMPR)を用いた高速勾配符号法を提案する。 我々の中核的な考え方は、FGSMとPGDの頑健な内部表現を学習できないことである。 したがって、我々は FGSM と PGD の類似した埋め込みを奨励するために PGD 正規化用語を設計します。 実験により,提案手法はFGSM対向トレーニングによるL$_\infty$-perturbationsのための頑健な深層ネットワークを訓練し,マルチステップ対向トレーニングとのギャップを低減できることを示した。

High cost of training time caused by multi-step adversarial example generation is a major challenge in adversarial training. Previous methods try to reduce the computational burden of adversarial training using single-step adversarial example generation schemes, which can effectively improve the efficiency but also introduce the problem of catastrophic overfitting, where the robust accuracy against Fast Gradient Sign Method (FGSM) can achieve nearby 100\% whereas the robust accuracy against Projected Gradient Descent (PGD) suddenly drops to 0\% over a single epoch. To address this problem, we propose a novel Fast Gradient Sign Method with PGD Regularization (FGSMPR) to boost the efficiency of adversarial training without catastrophic overfitting. Our core idea is that single-step adversarial training can not learn robust internal representations of FGSM and PGD adversarial examples. Therefore, we design a PGD regularization term to encourage similar embeddings of FGSM and PGD adversarial examples. The experiments demonstrate that our proposed method can train a robust deep network for L$_\infty$-perturbations with FGSM adversarial training and reduce the gap to multi-step adversarial training.
翻訳日:2021-02-09 16:12:54 公開日:2021-02-05
# 知識グラフにおけるリンク数予測の限界の検討

Exploring the Limits of Few-Shot Link Prediction in Knowledge Graphs ( http://arxiv.org/abs/2102.03419v1 )

ライセンス: Link先を確認
Dora Jambor, Komal Teru, Joelle Pineau, William L. Hamilton(参考訳) 実世界の知識グラフは、しばしば低周波の関係によって特徴づけられる。 これらの手法は、テスト時に各関係のいくつかの例を挙げると、トレーニング中に見つからない一連の新しい関係のリンク予測を行う。 本研究では,この数ショット設定における学習の限界を探究することを目的として,数ショットリンク予測のための技術の現状を一般化したモデル群を体系的に研究する。 単純なゼロショットベースライン - 関係固有の情報を無視する - は、驚くほど強力なパフォーマンスを達成します。 さらに、慎重に作られた合成データセットの実験は、関係のほんの一例しかモデルが細かい粒度の構造情報を使用することを制限せず、エンティティの粗い粒度の位置情報を利用することができることを示しています。 共に,先行研究の暗黙の仮定と帰納的バイアスに挑戦し,この分野の研究の新たな方向性を強調する。

Real-world knowledge graphs are often characterized by low-frequency relations - a challenge that has prompted an increasing interest in few-shot link prediction methods. These methods perform link prediction for a set of new relations, unseen during training, given only a few example facts of each relation at test time. In this work, we perform a systematic study on a spectrum of models derived by generalizing the current state of the art for few-shot link prediction, with the goal of probing the limits of learning in this few-shot setting. We find that a simple zero-shot baseline - which ignores any relation-specific information - achieves surprisingly strong performance. Moreover, experiments on carefully crafted synthetic datasets show that having only a few examples of a relation fundamentally limits models from using fine-grained structural information and only allows for exploiting the coarse-grained positional information of entities. Together, our findings challenge the implicit assumptions and inductive biases of prior work and highlight new directions for research in this area.
翻訳日:2021-02-09 16:09:55 公開日:2021-02-05
# マルチカメラ自己監督学習によるカスタムオブジェクト検出

Custom Object Detection via Multi-Camera Self-Supervised Learning ( http://arxiv.org/abs/2102.03442v1 )

ライセンス: Link先を確認
Yan Lu and Yuanchao Shu(参考訳) 本稿では,マルチカメラネットワーク上でカスタムオブジェクト検出モデルを構築するための自己監視型学習手法MCSSLを提案する。 MCSSLは、エピポーラ形状と最先端のトラッキングおよびreIDアルゴリズムを利用して、カメラ間のバウンディングボックスと重複する視野を関連付け、オブジェクト検出モデルでそれぞれバックボーンと検出ネットワークを微調整するための2つの擬似ラベルを慎重に生成する。 擬似ラベル上で効果的にトレーニングするため、モデルカスタマイズのために一貫性損失を伴う強力なreidライクなプリテキストタスクを構築する。 MCSSLは,従来のセルフトレーニング方式と比較して,WildTrackデータセットとCityFlowデータセットで平均mAPを5.44%,6.76%向上させた。

This paper proposes MCSSL, a self-supervised learning approach for building custom object detection models in multi-camera networks. MCSSL associates bounding boxes between cameras with overlapping fields of view by leveraging epipolar geometry and state-of-the-art tracking and reID algorithms, and prudently generates two sets of pseudo-labels to fine-tune backbone and detection networks respectively in an object detection model. To train effectively on pseudo-labels,a powerful reID-like pretext task with consistency loss is constructed for model customization. Our evaluation shows that compared with legacy selftraining methods, MCSSL improves average mAP by 5.44% and 6.76% on WildTrack and CityFlow dataset, respectively.
翻訳日:2021-02-09 16:09:38 公開日:2021-02-05
# 一般パターン理論による畳み込みニューラルネットワークの解釈性

Convolutional Neural Network Interpretability with General Pattern Theory ( http://arxiv.org/abs/2102.04247v1 )

ライセンス: Link先を確認
Erico Tjoa, Guan Cuntai(参考訳) 深いニューラルネットワーク(DNN)を理解するための継続的な努力は多くの洞察を与えてきたが、DNNは未だに理解されていない。 DNNの解釈性の改善には、説明可能な使用量の増加、アルゴリズムのメンテナンスの改善、改善など、実用的なメリットがある。 データセット構造の複雑さは、DNNのブラックボックス機構から生じる解釈可能性問題の解決の難しさに寄与する可能性がある。 そこで本論文では,Ulf Grenander氏によって定式化されたパターン理論を用いて,畳み込みニューラルネットワーク(CNN)の解釈可能性について,構成的に調査できる基本オブジェクトの構成として記述する。 具体的には、ResNetに拡張ブロック(EB)を取り付け、パターン理論の構成と互換性を持つように設計されたEB出力チャネルでセマンティックセグメンテーションライクなタスクを実行できるようにすることで、U-Netライクな構造を形成する。 これらのモジュールを通じて、いくつかのヒートマップベースの説明可能な人工知能(XAI)メソッドが、単一のデータサンプルを構成する個々のジェネレータの説明を抽出し、データセットの複雑さと解釈可能性の問題の影響を低減する。 パターン理論の要素を含むMNIST等価データセットは、理論の生成的側面が自然に提示されるこのフレームワークへのよりスムーズな参入を促進するように設計されています。

Ongoing efforts to understand deep neural networks (DNN) have provided many insights, but DNNs remain incompletely understood. Improving DNN's interpretability has practical benefits, such as more accountable usage, better algorithm maintenance and improvement. The complexity of dataset structure may contribute to the difficulty in solving interpretability problem arising from DNN's black-box mechanism. Thus, we propose to use pattern theory formulated by Ulf Grenander, in which data can be described as configurations of fundamental objects that allow us to investigate convolutional neural network's (CNN) interpretability in a component-wise manner. Specifically, U-Net-like structure is formed by attaching expansion blocks (EB) to ResNet, allowing it to perform semantic segmentation-like tasks at its EB output channels designed to be compatible with pattern theory's configurations. Through these modules, some heatmap-based explainable artificial intelligence (XAI) methods will be shown to extract explanations w.r.t individual generators that make up a single data sample, potentially reducing the impact of dataset's complexity to interpretability problem. The MNIST-equivalent dataset containing pattern theory's elements is designed to facilitate smoother entry into this framework, along which the theory's generative aspect is naturally presented.
翻訳日:2021-02-09 16:07:01 公開日:2021-02-05
# Projection Robust Wasserstein Barycenter

Projection Robust Wasserstein Barycenter ( http://arxiv.org/abs/2102.03390v1 )

ライセンス: Link先を確認
Minhui Huang, Shiqian Ma, Lifeng Lai(参考訳) いくつかの確率尺度やヒストグラムから情報を収集し集約することは、機械学習の基本的なタスクである。 このタスクの一般的なソリューション方法の1つは、Wassersteinメトリックの下で確率測定のバリセンターを計算することです。 しかし、Wassersteinバリセンターの近似は、次元の呪いのために数値的に困難です。 本論文では,次元の呪いを緩和するプロジェクション堅牢なWassersteinバリセンタ(PRWB)を提案する。 この新しいモデルは、wasserstein barycenterの目的を最大化する低次元部分空間に確率測度を投影する。 結果として生じる問題は Stiefel 多様体上の最大分問題であり、実際は数値的に困難である。 反復的なブレグマンプロジェクションアルゴリズムとリーマン最適化を組み合わせることで、PRWBを計算するための2つの新しいアルゴリズムを提案する。 提案アルゴリズムの算術演算の複雑さを解析し,$\epsilon$-stationary の解を求める。 PRWBを離散分散クラスタリングアルゴリズムに組み込み、実際のテキストデータセットの数値結果により、PRWBモデルがクラスタリングパフォーマンスを大幅に向上させることができます。

Collecting and aggregating information from several probability measures or histograms is a fundamental task in machine learning. One of the popular solution methods for this task is to compute the barycenter of the probability measures under the Wasserstein metric. However, approximating the Wasserstein barycenter is numerically challenging because of the curse of dimensionality. This paper proposes the projection robust Wasserstein barycenter (PRWB) that mitigates the curse of dimensionality. This new model projects the probability measures onto a lower-dimensional subspace that maximizes the Wasserstein barycenter objective. The resulting problem is a max-min problem over the Stiefel manifold, which is numerically challenging in practice. Combining the iterative Bregman projection algorithm and Riemannian optimization, we propose two new algorithms for computing the PRWB. The complexity of arithmetic operations of the proposed algorithms for obtaining an $\epsilon$-stationary solution is analyzed. We incorporate the PRWB into a discrete distribution clustering algorithm, and the numerical results on real text datasets confirm that our PRWB model helps improve the clustering performance significantly.
翻訳日:2021-02-09 16:05:49 公開日:2021-02-05
# 逐次予算学習のための信頼予算マッチング

Confidence-Budget Matching for Sequential Budgeted Learning ( http://arxiv.org/abs/2102.03400v1 )

ライセンス: Link先を確認
Yonathan Efroni, Nadav Merlis, Aadirupa Saha, Shie Mannor(参考訳) 不確実性の下での意思決定の核となる要素は、実行されたアクションの品質に対するフィードバックである。 しかし、多くのアプリケーションではそのようなフィードバックは制限されている。 例えば、レコメンデーションシステムでは、ユーザにレコメンデーションの品質に関するフィードバックを提供するように繰り返し求めると、イライラします。 本研究では,報酬要求数に対する(おそらく時間に依存した)ハードリミットが存在する場合,問い合わせ予算による意思決定問題を定式化する。 具体的には,多腕バンディット,線形バンディット,強化学習問題を考える。 まずは、いつでも報酬をクエリする‘greedy’アルゴリズムのパフォーマンスを分析することから始めます。 完全に確率的な環境では、驚くほどうまく機能するが、あらゆる逆境が存在する場合、これは線形な後悔につながる可能性がある。 そこで本研究では,信頼区間が利用可能な予算の逆方根よりも広い場合の報酬をクエリする信頼予算マッチング(CBM)原理を提案する。 我々は,cbmに基づくアルゴリズムの性能を異なる設定で分析し,文脈,初期状態,予算における逆境の存在下での性能を示す。

A core element in decision-making under uncertainty is the feedback on the quality of the performed actions. However, in many applications, such feedback is restricted. For example, in recommendation systems, repeatedly asking the user to provide feedback on the quality of recommendations will annoy them. In this work, we formalize decision-making problems with querying budget, where there is a (possibly time-dependent) hard limit on the number of reward queries allowed. Specifically, we consider multi-armed bandits, linear bandits, and reinforcement learning problems. We start by analyzing the performance of `greedy' algorithms that query a reward whenever they can. We show that in fully stochastic settings, doing so performs surprisingly well, but in the presence of any adversity, this might lead to linear regret. To overcome this issue, we propose the Confidence-Budget Matching (CBM) principle that queries rewards when the confidence intervals are wider than the inverse square root of the available budget. We analyze the performance of CBM based algorithms in different settings and show that they perform well in the presence of adversity in the contexts, initial states, and budgets.
翻訳日:2021-02-09 16:05:33 公開日:2021-02-05
# ドメインアウェアガウス過程のための高次定常および非定常カーネル設計

Advanced Stationary and Non-Stationary Kernel Designs for Domain-Aware Gaussian Processes ( http://arxiv.org/abs/2102.03432v1 )

ライセンス: Link先を確認
Marcus M. Noack and James A. Sethian(参考訳) ガウス過程回帰は関数近似と不確実性の定量化に広く適用されている手法である。 このテクニックは、堅牢性と解釈性のため、機械学習コミュニティで最近人気を集めている。 本論文で議論する数学的手法はガウス過程の枠組みの拡張である。 我々は、ある望ましい特性を持つ関数を、すべてのカーネルメソッドの基礎となりガウス過程の回帰のサンプル空間となる再生核ヒルベルト空間(英語版)(rkhs)の要素としてのみ許容する高度なカーネル設計を提案する。 これらの望ましい特性は基礎となる物理学を反映しており、2つの明白な例は対称性および周期性制約である。 さらに、非定常カーネル設計は同じフレームワークで定義することができ、柔軟なマルチタスクガウス過程が得られる。 いくつかの合成および2つの科学的データセットを用いて、先進的なカーネル設計がガウス過程に与える影響を示す。 その結果、先進的なカーネル設計を通じて伝達されるドメイン知識を含め、関数近似の正確性と関連性に大きな影響を及ぼすことが示された。

Gaussian process regression is a widely-applied method for function approximation and uncertainty quantification. The technique has gained popularity recently in the machine learning community due to its robustness and interpretability. The mathematical methods we discuss in this paper are an extension of the Gaussian-process framework. We are proposing advanced kernel designs that only allow for functions with certain desirable characteristics to be elements of the reproducing kernel Hilbert space (RKHS) that underlies all kernel methods and serves as the sample space for Gaussian process regression. These desirable characteristics reflect the underlying physics; two obvious examples are symmetry and periodicity constraints. In addition, non-stationary kernel designs can be defined in the same framework to yield flexible multi-task Gaussian processes. We will show the impact of advanced kernel designs on Gaussian processes using several synthetic and two scientific data sets. The results show that including domain knowledge, communicated through advanced kernel designs, has a significant impact on the accuracy and relevance of the function approximation.
翻訳日:2021-02-09 16:05:16 公開日:2021-02-05
# ビデオストリーム上でのシングルランアクション検出 - プライバシ保護アプローチ

Single Run Action Detector over Video Stream -- A Privacy Preserving Approach ( http://arxiv.org/abs/2102.03391v1 )

ライセンス: Link先を確認
Anbumalar Saravanan, Justin Sanchez, Hassan Ghasemzadeh, Aurelia Macabasco-O'Connell and Hamed Tabkhi(参考訳) 本稿では,プライバシを確保できるアクティビティモニタリングのためのビジョンベースのシステムの設計と評価に着手する。 人工知能(ai)を応用したプロアクティブシステムを用いて,人間の活動の継続的な監視,行動分析,モデリングを行う技術を提案する。 そこで本研究では,エンド・ツー・エンドの動作ローカライズと分類を行うリアルタイムプライバシ保護アクション検出器であるSingle Run Action Detector(S-RAD)を提案する。 これはfaster-rcnnとtemporal shift modelingとsegment based samplingを組み合わせることでヒューマンアクションをキャプチャする。 UCF-SportsとUR Fallデータセットの結果は、モデルサイズと計算要求が大幅に小さく、エッジ組み込みデバイス上でリアルタイムに実行できるなど、最先端のアプローチに匹敵する精度を示す。 Nvidia Jetson Xavier)。

This paper takes initial strides at designing and evaluating a vision-based system for privacy ensured activity monitoring. The proposed technology utilizing Artificial Intelligence (AI)-empowered proactive systems offering continuous monitoring, behavioral analysis, and modeling of human activities. To this end, this paper presents Single Run Action Detector (S-RAD) which is a real-time privacy-preserving action detector that performs end-to-end action localization and classification. It is based on Faster-RCNN combined with temporal shift modeling and segment based sampling to capture the human actions. Results on UCF-Sports and UR Fall dataset present comparable accuracy to State-of-the-Art approaches with significantly lower model size and computation demand and the ability for real-time execution on edge embedded device (e.g. Nvidia Jetson Xavier).
翻訳日:2021-02-09 16:00:51 公開日:2021-02-05
# 道路上でのフェデレーション学習:コネクテッドおよび自律車両のための自律制御設計

Federated Learning on the Road: Autonomous Controller Design for Connected and Autonomous Vehicles ( http://arxiv.org/abs/2102.03401v1 )

ライセンス: Link先を確認
Tengchan Zeng, Omid Semiari, Mingzhe Chen, Walid Saad, and Mehdi Bennis(参考訳) 接続型および自律型車両 (CAV) の自律コントローラを設計するために, 大規模無線接続によって実現される新たなフェデレーションラーニング (FL) フレームワークを提案する。 このフレームワークでは、コントローラが使用する学習モデルは、CAVのグループ間で協調的に訓練される。 FLトレーニングプロセスにおける各種CAVの関与とCAV間の多様なローカルデータ品質を捉えるために,CAVの移動性,無線フェージングチャネル,および不均衡で非独立で同一に分散されたCAVの移動性を考慮した新しい動的フェデレーション・プロキシ(DFP)アルゴリズムを提案する。 提案アルゴリズムでは,CAVが最適な自律制御器を用いてどの程度の速さで収束するか,厳密な収束解析を行う。 特に、FLプロセスにおける様々なCAV参加と多様なCAVデータ品質が提案したDFPアルゴリズムの収束に与える影響を明示的に分析する。 この分析を活用して、FL収束速度を改善するために、契約理論に基づくインセンティブメカニズムを設計する。 実車載データトレースを用いたシミュレーションの結果,提案したDFP制御器は,時間と交通シナリオの異なる目標CAV速度を正確に追跡できることがわかった。 さらに,FedAvg (Federated Averaging) やFedProx (Federated Proximal) といった一般的なFLアルゴリズムと比較して,DFPアルゴリズムの方がはるかに高速な収束性を示した。 その結果、契約理論的インセンティブメカニズムの実現可能性も検証し、提案されたメカニズムがベースラインと比較してDFPアルゴリズムの収束速度を40%改善できることを示した。

A new federated learning (FL) framework enabled by large-scale wireless connectivity is proposed for designing the autonomous controller of connected and autonomous vehicles (CAVs). In this framework, the learning models used by the controllers are collaboratively trained among a group of CAVs. To capture the varying CAV participation in the FL training process and the diverse local data quality among CAVs, a novel dynamic federated proximal (DFP) algorithm is proposed that accounts for the mobility of CAVs, the wireless fading channels, as well as the unbalanced and nonindependent and identically distributed data across CAVs. A rigorous convergence analysis is performed for the proposed algorithm to identify how fast the CAVs converge to using the optimal autonomous controller. In particular, the impacts of varying CAV participation in the FL process and diverse CAV data quality on the convergence of the proposed DFP algorithm are explicitly analyzed. Leveraging this analysis, an incentive mechanism based on contract theory is designed to improve the FL convergence speed. Simulation results using real vehicular data traces show that the proposed DFP-based controller can accurately track the target CAV speed over time and under different traffic scenarios. Moreover, the results show that the proposed DFP algorithm has a much faster convergence compared to popular FL algorithms such as federated averaging (FedAvg) and federated proximal (FedProx). The results also validate the feasibility of the contract-theoretic incentive mechanism and show that the proposed mechanism can improve the convergence speed of the DFP algorithm by 40% compared to the baselines.
翻訳日:2021-02-09 15:57:31 公開日:2021-02-05
# ロバスト主成分分析:平均的アプローチの中央値

Robust Principal Component Analysis: A Median of Means Approach ( http://arxiv.org/abs/2102.03403v1 )

ライセンス: Link先を確認
Debolina Paul, Saptarshi Chakraborty and Swagatam Das(参考訳) 主成分分析(PCA)は、データの可視化、復調、次元化のための基本的なツールである。 統計学、機械学習、コンピュータビジョン、および関連分野で広く普及しています。 しかし、PCAは外れ値の存在を捕食することがよく知られており、しばしばデータセット内の真の下層の低次元構造を検出するのに失敗する。 最近の教師付き学習法は、平均中央(MoM)哲学に従い、その大きなサンプル理論特性にあまり妥協することなく、外部観察を扱うことに成功しました。 本稿では,MoM原理に基づくPCA手順を提案する。 平均主成分分析の中央値 (mompca) と呼ばれ、提案手法は計算上魅力的であるばかりでなく、最小の仮定の下で最適収束率を達成する。 特に,vapnik-chervonenkis理論とrademacher複雑性の助けを借りて,得られた解の非漸近的誤差境界を探索する。 提案の有効性はシミュレーションや実データアプリケーションを通じて徹底的に実証されている。

Principal Component Analysis (PCA) is a fundamental tool for data visualization, denoising, and dimensionality reduction. It is widely popular in Statistics, Machine Learning, Computer Vision, and related fields. However, PCA is well known to fall prey to the presence of outliers and often fails to detect the true underlying low-dimensional structure within the dataset. Recent supervised learning methods, following the Median of Means (MoM) philosophy, have shown great success in dealing with outlying observations without much compromise to their large sample theoretical properties. In this paper, we propose a PCA procedure based on the MoM principle. Called the Median of Means Principal Component Analysis (MoMPCA), the proposed method is not only computationally appealing but also achieves optimal convergence rates under minimal assumptions. In particular, we explore the non-asymptotic error bounds of the obtained solution via the aid of Vapnik-Chervonenkis theory and Rademacher complexity, while granting absolutely no assumption on the outlying observations. The efficacy of the proposal is also thoroughly showcased through simulations and real data applications.
翻訳日:2021-02-09 15:52:28 公開日:2021-02-05
# 深層学習支援型リレー選択に基づく簡易協調分散法

A Simple Cooperative Diversity Method Based on Deep-Learning-Aided Relay Selection ( http://arxiv.org/abs/2102.03409v1 )

ライセンス: Link先を確認
Wei Jiang, Hans Dieter Schotten(参考訳) オポチュニティ・リレー・セレクション (ORS) は, 遅いフェージングチャネルにおける協調的な多様性を実現するために, 移動ノードの簡易かつ効率的な方法として認識されている。 しかし、高速時変チャネルにおける古いチャネル状態情報(csi)から生じる最良リレーの誤選択は、その性能を実質的に低下させる。 高移動度アプリケーションの普及と5gおよびそれ以上のシステムでの高周波数帯の導入により、古いcsiの問題はより深刻になる。 そのため, 遅延フェージングのみならず, 高速フェージングにも適用可能な新しい協調方式の設計がますます重要になっている。 そこで本稿では,深層学習支援型協調型予測リレー選択(PRS)手法の開発と解析を行う。 マルチリレーコーディネートと同期の複雑さを避けるために、単一の日動リレーを選択することにより、ORSのシンプルさを維持しながら、フェーディングチャネル予測によってCSIの品質を著しく向上させることができます。 障害確率とチャネル容量の点での情報理論解析と数値結果は、PRSが遅いフェーディング無線環境における完全な多様性の利得を達成し、既存のスキームを高速フェーディングチャネルで大幅に上回ることを明らかにします。

Opportunistic relay selection (ORS) has been recognized as a simple but efficient method for mobile nodes to achieve cooperative diversity in slow fading channels. However, the wrong selection of the best relay arising from outdated channel state information (CSI) in fast time-varying channels substantially degrades its performance. With the proliferation of high-mobility applications and the adoption of higher frequency bands in 5G and beyond systems, the problem of outdated CSI will become more serious. Therefore, the design of a novel cooperative method that is applicable to not only slow fading but also fast fading is increasingly of importance. To this end, we develop and analyze a deep-learning-aided cooperative method coined predictive relay selection (PRS) in this article. It can remarkably improve the quality of CSI through fading channel prediction while retaining the simplicity of ORS by selecting a single opportunistic relay so as to avoid the complexity of multi-relay coordination and synchronization. Information-theoretic analysis and numerical results in terms of outage probability and channel capacity reveal that PRS achieves full diversity gain in slow fading wireless environments and substantially outperforms the existing schemes in fast fading channels.
翻訳日:2021-02-09 15:46:56 公開日:2021-02-05
# 大容量データセットにおけるスケーラブルロバストグラフと任意容器ネットワークの特徴抽出

Scalable Robust Graph and Feature Extraction for Arbitrary Vessel Networks in Large Volumetric Datasets ( http://arxiv.org/abs/2102.03444v1 )

ライセンス: Link先を確認
Dominik Drees, Aaron Scherzinger, Ren\'e H\"agerling, Friedemann Kiefer, Xiaoyi Jiang(参考訳) 3Dイメージング技術の最近の進歩は、研究者に新しい洞察を提供し、特に生物医学領域における検査標本のより細かく、より詳細を明らかにするだけでなく、急速に増加するデータセットサイズによる自動解析アルゴリズムのスケーラビリティに関する大きな課題を課す。 特に, 自動容器ネットワーク解析に対する既存の研究は, 提案アルゴリズムのメモリ要求を考慮せず, 多数のボクセルからなる構造に対して, 多数の分岐を発生することが多い。 さらに、これらのアルゴリズムには、ツリートポロジの制限や、特定の画像モダリティのプロパティに依存するなど、さらなる制限があります。 任意のトポロジと容器形状の船舶ネットワークの前景分割から注釈付き抽象グラフ表現を抽出するスケーラブルなパイプライン(計算コスト、必要なメインメモリ、堅牢性の観点から)を提示する。 単一の次元のないa-priori決定パラメータのみが必要である。 個別のパイプラインステージの慎重なエンジニアリングと,新たな反復的改良スキームによって,商品ハードウェア上での約1TBのボリュームのトポロジを初めて分析することが可能になった。 このパイプラインの実装は、ボリュームレンダリングおよび処理エンジンvoreenのバージョン5.1で公開されている(https://www.uni-muenster.de/voreen/)。

Recent advances in 3D imaging technologies provide novel insights to researchers and reveal finer and more detail of examined specimen, especially in the biomedical domain, but also impose huge challenges regarding scalability for automated analysis algorithms due to rapidly increasing dataset sizes. In particular, existing research towards automated vessel network analysis does not consider memory requirements of proposed algorithms and often generates a large number of spurious branches for structures consisting of many voxels. Additionally, very often these algorithms have further restrictions such as the limitation to tree topologies or relying on the properties of specific image modalities. We present a scalable pipeline (in terms of computational cost, required main memory and robustness) that extracts an annotated abstract graph representation from the foreground segmentation of vessel networks of arbitrary topology and vessel shape. Only a single, dimensionless, a-priori determinable parameter is required. By careful engineering of individual pipeline stages and a novel iterative refinement scheme we are, for the first time, able to analyze the topology of volumes of roughly 1TB on commodity hardware. An implementation of the presented pipeline is publicly available in version 5.1 of the volume rendering and processing engine Voreen (https://www.uni-muenster.de/Voreen/).
翻訳日:2021-02-09 15:44:39 公開日:2021-02-05
# ニュースにおけるパンデミックの拡散 : トピックモデルを用いたテキスト分析

How Pandemic Spread in News: Text Analysis Using Topic Model ( http://arxiv.org/abs/2102.04205v1 )

ライセンス: Link先を確認
Minghao Wang, Paolo Mengoni(参考訳) 新型コロナウイルス(COVID-19)のパンデミックは、現実世界とメディアの雰囲気の両方において、世界中に大きな影響を与えた。 LDAトピックモデルを用いたテキスト分析を行った。 まず1月20日から5月19日まで,1127の論文と5563のコメントをSCMPで抽出し,モデル評価法としてLDAモデルとC_v$コヒーレンスに基づくパラメータ調整を行った。 最適なモデルでは、支配的なトピック、各トピックの代表文書と記事とコメント間の矛盾を分析します。 不一致のいくつかの要因が最終的に議論されます。

COVID-19 pandemic has made tremendous impact on the whole world, both the real world and the media atmosphere. Our research conducted a text analysis using LDA topic model. We first scraped 1127 articles and 5563 comments on SCMP covering COVID-19 from Jan 20 to May 19, then we trained the LDA model and tuned parameters based on the $C_v$ coherence as the model evaluation method. With the optimal model, dominant topics, representative documents of each topic and the inconsistency between articles and comments are analyzed. Some factors of the inconsistency are discussed at last.
翻訳日:2021-02-09 15:30:56 公開日:2021-02-05
# SkillBot:Alexaスキルで子どもの危険コンテンツを特定する

SkillBot: Identifying Risky Content for Children in Alexa Skills ( http://arxiv.org/abs/2102.03382v1 )

ライセンス: Link先を確認
Tu Le, Danny Yuxing Huang, Noah Apthorpe, Yuan Tian(参考訳) 多くの家庭には、Amazon Alexaなどの音声パーソナルアシスタント(VPA)を使用する子供たちがいます。 子どもたちはVPAやサードパーティアプリの豊富な機能から恩恵を受けるが、VPAエコシステム(不適切なコンテンツや情報収集など)の新たなリスクにさらされる。 VPAが子どもにもたらすリスクを調査するために、自然言語処理(NLP)ベースのシステムを構築し、VPAアプリと自動的に対話し、その結果の会話を分析し、子供にとって危険なコンテンツを特定します。 3,434のAlexaアプリから収集された31,966の非オーバーラップアプリ行動のデータセットを維持します。 以上の結果から,子ども向けの音声アプリは,より政策要件や集中的な審査の対象となっているものの,子どもは依然として危険なコンテンツに弱いことが示唆された。 その後、個人情報を求めるよりも不適切なコンテンツを持つVPAアプリに親が関心を持っていることを示すユーザー調査を実施しますが、多くの親はどちらのタイプの危険なアプリが存在することを認識していません。 最後に、vbaアプリのユーザに対する新たな脅威を特定します。複数のアプリが共有する発話や音声コマンドを組み合わせることで、ユーザが意図したよりも別のアプリを起動したり、操作したりする可能性があるのです。 児童向けおよび非児童向けアプリで共有される581種を含む,4,487種が混在する発話を同定した。

Many households include children who use voice personal assistants (VPA) such as Amazon Alexa. Children benefit from the rich functionalities of VPAs and third-party apps but are also exposed to new risks in the VPA ecosystem (e.g., inappropriate content or information collection). To study the risks VPAs pose to children, we build a Natural Language Processing (NLP)-based system to automatically interact with VPA apps and analyze the resulting conversations to identify contents risky to children. We identify 28 child-directed apps with risky contents and maintain a growing dataset of 31,966 non-overlapping app behaviors collected from 3,434 Alexa apps. Our findings suggest that although voice apps designed for children are subject to more policy requirements and intensive vetting, children are still vulnerable to risky content. We then conduct a user study showing that parents are more concerned about VPA apps with inappropriate content than those that ask for personal information, but many parents are not aware that risky apps of either type exist. Finally, we identify a new threat to users of VPA apps: confounding utterances, or voice commands shared by multiple apps that may cause a user to invoke or interact with a different app than intended. We identify 4,487 confounding utterances, including 581 shared by child-directed and non-child-directed apps.
翻訳日:2021-02-09 15:30:21 公開日:2021-02-05
# 進化計算における再現性

Reproducibility in Evolutionary Computation ( http://arxiv.org/abs/2102.03380v1 )

ライセンス: Link先を確認
Manuel L\'opez-Ib\'a\~nez (University of M\'alaga, Spain), Juergen Branke (University of Warwick, UK), Lu\'is Paquete (University of Coimbra, Portugal)(参考訳) 実験研究は進化計算(ec)で広く行われており、その再現性と再現性に関する懸念は近年増大しており、他の科学分野でも同様の懸念を反映している。 本稿では,TELOが採用しているACM(Association of Computing Machinery)のバッジシステムを改良した,さまざまな再現性の分類を提案する。 我々は、ECの文脈において、再現可能性の主張に欠かせない人工物や測定の概念と同様に、様々な種類の再現性について論じる。 我々は、EC分野における再現性に対する文化的および技術的障害を特定する。 最後に、これらの再現性障害を克服するためのガイドラインとツールを提供します。

Experimental studies are prevalent in Evolutionary Computation (EC), and concerns about the reproducibility and replicability of such studies have increased in recent times, reflecting similar concerns in other scientific fields. In this article, we suggest a classification of different types of reproducibility that refines the badge system of the Association of Computing Machinery (ACM) adopted by TELO. We discuss, within the context of EC, the different types of reproducibility as well as the concepts of artifact and measurement, which are crucial for claiming reproducibility. We identify cultural and technical obstacles to reproducibility in the EC field. Finally, we provide guidelines and suggest tools that may help to overcome some of these reproducibility obstacles.
翻訳日:2021-02-09 15:28:52 公開日:2021-02-05
# MudrockNet: ディープラーニングによるMudrock SEMイメージのセマンティックセグメンテーション

MudrockNet: Semantic Segmentation of Mudrock SEM Images through Deep Learning ( http://arxiv.org/abs/2102.03393v1 )

ライセンス: Link先を確認
Abhishek Bihani, Hugh Daigle, Javier E. Santos, Christopher Landry, Masa Prodanovic, Kitty Milliken(参考訳) 走査型電子顕微鏡画像からの個々の細孔と泥岩の粒のセグメンテーションと分析は、ノイズ、画像アーティファクト、画像間のピクセルグレースケール値のばらつき、シルト粒子、粘土粒子、細孔などの物理的特徴間のグレースケール値の重なりなどにより自明ではないため、画像内の識別が困難である。 また,粒度や細孔はグレースケール値と重なり合うことが多いため,しきい値に基づくセグメンテーション手法の直接適用は不十分である。 コンピュータビジョンの分野での最近の進歩は、アルゴリズムを訓練するための地層データが利用可能である限り、画像の画像をセグメント化し、画像内のそのような特徴の複数の発生を識別することが簡単かつ迅速になってきました。 本稿では,TensorFlowライブラリで実装されたGoogleのDeepLab-v3+アーキテクチャに基づく,ディープラーニングSEMイメージセグメンテーションモデルMudrockNetを提案する。 地下1.1kmの深さで, 熊野盆地沖の未観測泥の電子顕微鏡像を走査する画像処理ワークフローから, 地表面データを得た。 訓練された深層学習モデルでは約90%の画素精度が得られ, 試験データの予測では, シルト粒子の平均交点 (iou) が0.6591, 細孔が0.6642であった。 また,imagejでトレーニング可能なwekaセグメンテーションを用いたランダムフォレスト分類器と比較し,泥岩網がシルト粒子と細孔の両方に対してより良い予測を行った。 シルトおよび粘土粒の大きさ、濃度および空間配置は、泥岩の岩石理物性に影響を与える可能性があり、泥岩の異なる穀物および孔を正確に識別する自動化方法は、石油探査および人為的廃棄物隔離のための貯留層およびシール特性を改善するのに役立つ。

Segmentation and analysis of individual pores and grains of mudrocks from scanning electron microscope images is non-trivial because of noise, imaging artifacts, variation in pixel grayscale values across images, and overlaps in grayscale values among different physical features such as silt grains, clay grains, and pores in an image, which make their identification difficult. Moreover, because grains and pores often have overlapping grayscale values, direct application of threshold-based segmentation techniques is not sufficient. Recent advances in the field of computer vision have made it easier and faster to segment images and identify multiple occurrences of such features in an image, provided that ground-truth data for training the algorithm is available. Here, we propose a deep learning SEM image segmentation model, MudrockNet based on Google's DeepLab-v3+ architecture implemented with the TensorFlow library. The ground-truth data was obtained from an image-processing workflow applied to scanning electron microscope images of uncemented muds from the Kumano Basin offshore Japan at depths < 1.1 km. The trained deep learning model obtained a pixel-accuracy about 90%, and predictions for the test data obtained a mean intersection over union (IoU) of 0.6591 for silt grains and 0.6642 for pores. We also compared our model with the random forest classifier using trainable Weka segmentation in ImageJ, and it was observed that MudrockNet gave better predictions for both silt grains and pores. The size, concentration, and spatial arrangement of the silt and clay grains can affect the petrophysical properties of a mudrock, and an automated method to accurately identify the different grains and pores in mudrocks can help improve reservoir and seal characterization for petroleum exploration and anthropogenic waste sequestration.
翻訳日:2021-02-09 15:28:41 公開日:2021-02-05
# 高性能分散機械学習のためのネットワークサポート

Network Support for High-performance Distributed Machine Learning ( http://arxiv.org/abs/2102.03394v1 )

ライセンス: Link先を確認
Francesco Malandrino and Carla Fabiana Chiasserini and Nuria Molner and Antonio De La Oliva(参考訳) 分散機械学習に対する従来のアプローチは、学習アルゴリズムをネットワークに適応させることである。 インテリジェントエッジに基づくネットワークは、その代わりに、目的の学習パフォーマンスを満たすために、実行すべき学習タスクの周りに論理的なネットワークトポロジを定義するために、反対のアプローチに従うことを可能にします。 本稿では,学習ノード(計算を行う)と情報ノード(データを提供する)の両方を考慮し,教師付き機械学習の文脈でそのような側面を捉えるシステムモデルを提案する。 次に,学習ノードと情報ノードが協調して学習タスクを完了するべき問題,および (ii) 目標予測エラーや実行時間を満たしながら学習コストを最小限に抑えるために実行すべきイテレーション数を選択する問題を定式化する。 上記の問題の重要な性質を証明した後、DoubleClimbというアルゴリズムを考案し、1+1/|I|競合解(Iは情報ノードの集合である)を見つけることができる。 実世界のネットワークトポロジを活用し,分類タスクと回帰タスクの両方を考慮した性能評価の結果,DoubleClimbは最先端の最適化手法と密接に一致していることがわかった。

The traditional approach to distributed machine learning is to adapt learning algorithms to the network, e.g., reducing updates to curb overhead. Networks based on intelligent edge, instead, make it possible to follow the opposite approach, i.e., to define the logical network topology em around the learning task to perform, so as to meet the desired learning performance. In this paper, we propose a system model that captures such aspects in the context of supervised machine learning, accounting for both learning nodes (that perform computations) and information nodes (that provide data). We then formulate the problem of selecting (i) which learning and information nodes should cooperate to complete the learning task, and (ii) the number of iterations to perform, in order to minimize the learning cost while meeting the target prediction error and execution time. After proving important properties of the above problem, we devise an algorithm, named DoubleClimb, that can find a 1+1/|I|-competitive solution (with I being the set of information nodes), with cubic worst-case complexity. Our performance evaluation, leveraging a real-world network topology and considering both classification and regression tasks, also shows that DoubleClimb closely matches the optimum, outperforming state-of-the-art alternatives.
翻訳日:2021-02-09 15:24:40 公開日:2021-02-05
# 暗号化によるプライバシー保護のための精密医学の機械学習

Machine Learning in Precision Medicine to Preserve Privacy via Encryption ( http://arxiv.org/abs/2102.03412v1 )

ライセンス: Link先を確認
William Briguglio, Parisa Moghaddam, Waleed A. Yousef, Issa Traore, Mohammad Mamun(参考訳) 精密医療は、遺伝子構造、医療史、環境、ライフスタイルを考慮し、個々の患者にパーソナライズされたケアを提供する疾患治療と予防のための新しいアプローチです。 精密医療の急速な進歩とかなりの可能性にもかかわらず、いくつかの技術的課題は未解決のままである。 このような重要な課題の1つは、ゲノムデータや電子健康記録などの精密健康関連データのセキュリティとプライバシーであり、コラボレーションを阻害し、機械学習(ML)アルゴリズムの完全な可能性を阻害します。 MLソリューションを提供しながらデータのプライバシーを保護するために、この記事は3つの貢献をします。 まず,この分野における最新の包括的ゲノミクスデータセットから癌を予測するmlモデルの構築に用いた,mle(generally machine learning with encryption)フレームワークを提案する。 第2に,同一データセット上で実施した最新の研究よりも予測精度は若干高いが,患者のゲノムデータのプライバシは維持されている。 第三に、この作業の検証、再現、および拡張を容易にするために、フレームワークの設計と実装、すべてのML実験とコード、そして無料のクラウドサービスにデプロイされた最終的な予測モデルを含むオープンソースリポジトリを提供します。

Precision medicine is an emerging approach for disease treatment and prevention that delivers personalized care to individual patients by considering their genetic makeups, medical histories, environments, and lifestyles. Despite the rapid advancement of precision medicine and its considerable promise, several underlying technological challenges remain unsolved. One such challenge of great importance is the security and privacy of precision health-related data, such as genomic data and electronic health records, which stifle collaboration and hamper the full potential of machine-learning (ML) algorithms. To preserve data privacy while providing ML solutions, this article makes three contributions. First, we propose a generic machine learning with encryption (MLE) framework, which we used to build an ML model that predicts cancer from one of the most recent comprehensive genomics datasets in the field. Second, our framework's prediction accuracy is slightly higher than that of the most recent studies conducted on the same dataset, yet it maintains the privacy of the patients' genomic data. Third, to facilitate the validation, reproduction, and extension of this work, we provide an open-source repository that contains the design and implementation of the framework, all the ML experiments and code, and the final predictive model deployed to a free cloud service.
翻訳日:2021-02-09 15:24:19 公開日:2021-02-05
# Federated Reconstruction: 部分的局所的フェデレーション学習

Federated Reconstruction: Partially Local Federated Learning ( http://arxiv.org/abs/2102.03448v1 )

ライセンス: Link先を確認
Karan Singhal, Hakim Sidahmed, Zachary Garrett, Shanshan Wu, Keith Rush, Sushant Prakash(参考訳) フェデレーション学習におけるパーソナライズ手法は,データの可用性,通信コスト,クライアントの不均一性に対する堅牢性といった,フェデレーションとローカルトレーニングのメリットをバランスさせることを目的としている。 クライアントがすべてのモデルパラメータを通信する必要があるアプローチは、プライバシーと通信の制約のために望ましくない。 他のアプローチでは、大規模なクロスデバイス設定では実用的でない、常時利用可能またはステートフルなクライアントが必要です。 Federated Reconstructionは、トレーニングや大規模推論に適した、部分的にローカルなフェデレーション学習のための最初のモデル非依存フレームワークです。 モデルに依存しないメタ学習への接続を通じてフレームワークを動機付け、既存のフィルタリングと次の単語予測のアプローチに対するパフォーマンスを実証的に実証し、この設定におけるアプローチを評価するためのオープンソースライブラリをリリースする。 また,このアプローチを大規模に展開して,モバイルキーボードアプリケーションにおける協調協調フィルタリングを実現する手法について述べる。

Personalization methods in federated learning aim to balance the benefits of federated and local training for data availability, communication cost, and robustness to client heterogeneity. Approaches that require clients to communicate all model parameters can be undesirable due to privacy and communication constraints. Other approaches require always-available or stateful clients, impractical in large-scale cross-device settings. We introduce Federated Reconstruction, the first model-agnostic framework for partially local federated learning suitable for training and inference at scale. We motivate the framework via a connection to model-agnostic meta learning, empirically demonstrate its performance over existing approaches for collaborative filtering and next word prediction, and release an open-source library for evaluating approaches in this setting. We also describe the successful deployment of this approach at scale for federated collaborative filtering in a mobile keyboard application.
翻訳日:2021-02-09 15:23:58 公開日:2021-02-05
# 変分交叉モーダル生成による視聴覚相関の学習

Learning Audio-Visual Correlations from Variational Cross-Modal Generation ( http://arxiv.org/abs/2102.03424v1 )

ライセンス: Link先を確認
Ye Zhu, Yu Wu, Hugo Latapie, Yi Yang, Yan Yan(参考訳) 人々はイベントを見ながら、潜在的な音を簡単に想像できます。 この音声と視覚信号の自然な同期は、固有の相関関係を明らかにする。 そこで本稿では,自己教師付き方式でモーダル生成の観点から音声と視覚の相関関係を学習し,その相関関係を音声-視覚間の局所化や検索など,複数の下流タスクに容易に適用することができることを提案する。 本稿では,複数のエンコーダと共有デコーダ(MS-VAE)と,さらにWasserstein距離制約を追加してこの問題に取り組む,新しいVariational Auto Encoder (VAE)フレームワークを紹介する。 提案されたMS-VAEの最適化された潜在表現は、効果的に視聴覚相関を学習し、複数の視聴覚下流タスクに容易に適用でき、トレーニング中に与えられたラベル情報なしでも競争性能を達成できることを実証している。

People can easily imagine the potential sound while seeing an event. This natural synchronization between audio and visual signals reveals their intrinsic correlations. To this end, we propose to learn the audio-visual correlations from the perspective of cross-modal generation in a self-supervised manner, the learned correlations can be then readily applied in multiple downstream tasks such as the audio-visual cross-modal localization and retrieval. We introduce a novel Variational AutoEncoder (VAE) framework that consists of Multiple encoders and a Shared decoder (MS-VAE) with an additional Wasserstein distance constraint to tackle the problem. Extensive experiments demonstrate that the optimized latent representation of the proposed MS-VAE can effectively learn the audio-visual correlations and can be readily applied in multiple audio-visual downstream tasks to achieve competitive performance even without any given label information during training.
翻訳日:2021-02-09 15:18:21 公開日:2021-02-05
# 畳み込みニューラルネットワークにおける不安定勾配問題を回避する畳み込み核テンソルの正規化

Regularization for convolutional kernel tensors to avoid unstable gradient problem in convolutional neural networks ( http://arxiv.org/abs/2102.04294v1 )

ライセンス: Link先を確認
Pei-Chang Guo(参考訳) 畳み込みニューラルネットワークは今日では非常に人気がある。 ニューラルネットワークのトレーニングは簡単ではありません。 各畳み込みは構造化変換行列に対応する。 爆発・崩壊勾配問題を回避するために,各変換行列の特異値は訓練過程において大きくも小さくもないことが望ましい。 本稿では,各変換行列の特異値を制限する畳み込み核テンソルに対する3つの新しい正規化項を提案する。 本稿では,畳み込み型ニューラルネットワークの学習に関する新たな知見を提供する,勾配型手法の実施方法を示す。

Convolutional neural networks are very popular nowadays. Training neural networks is not an easy task. Each convolution corresponds to a structured transformation matrix. In order to help avoid the exploding/vanishing gradient problem, it is desirable that the singular values of each transformation matrix are not large/small in the training process. We propose three new regularization terms for a convolutional kernel tensor to constrain the singular values of each transformation matrix. We show how to carry out the gradient type methods, which provides new insight about the training of convolutional neural networks.
翻訳日:2021-02-09 15:15:06 公開日:2021-02-05
# (参考訳) 著者名曖昧化のためのラベル付きデータの自動生成:反復クラスタリング手法

Generating automatically labeled data for author name disambiguation: An iterative clustering method ( http://arxiv.org/abs/2102.03272v1 )

ライセンス: CC BY 4.0
Jinseok Kim, Jinmo Kim, and Jason Owen-Smith(参考訳) 教師付き著者名不明瞭さのアルゴリズムを訓練するために、多くの研究は手書きの真理データに頼っている。 本論文では, 電子メールアドレス, 共著者名, 引用レファレンスなどの情報を用いて, ラベル付きトレーニングデータを自動生成できることを示した。 この目的のために、各機能上の名前インスタンスをマッチングするための高精度なルールを外部権限データベースを用いて決定する。 そして、対象のあいまいなデータで選択された名前インスタンスは、ルールに基づいてペアワイズマッチングのプロセスを経る。 次に、汎用エンティティ解決アルゴリズムによってクラスタにマージされる。 クラスタ化手順は、さらなるマージが不可能になるまで、他の機能で繰り返される。 228kの著者名インスタンスのうち26,566インスタンスでテストされたこの反復クラスタリングは、ペアワイズf1 = 0.99の正確なラベル付きデータを生成する。 ラベル付きデータは、名前の民族性およびグループサイズ分布の曖昧さの観点から、人口データを表現した。 さらにラベル付きデータに基づいてトレーニングされた機械学習アルゴリズムは、ペアワイズF1 = 0.90 ~ 0.92のパフォーマンスでテストデータ中の24K名を曖昧にしている。 本手法を大規模学術データにおける著者名曖昧性解消に適用する上で,いくつかの課題について考察した。

To train algorithms for supervised author name disambiguation, many studies have relied on hand-labeled truth data that are very laborious to generate. This paper shows that labeled training data can be automatically generated using information features such as email address, coauthor names, and cited references that are available from publication records. For this purpose, high-precision rules for matching name instances on each feature are decided using an external-authority database. Then, selected name instances in target ambiguous data go through the process of pairwise matching based on the rules. Next, they are merged into clusters by a generic entity resolution algorithm. The clustering procedure is repeated over other features until further merging is impossible. Tested on 26,566 instances out of the population of 228K author name instances, this iterative clustering produced accurately labeled data with pairwise F1 = 0.99. The labeled data represented the population data in terms of name ethnicity and co-disambiguating name group size distributions. In addition, trained on the labeled data, machine learning algorithms disambiguated 24K names in test data with performance of pairwise F1 = 0.90 ~ 0.92. Several challenges are discussed for applying this method to resolving author name ambiguity in large-scale scholarly data.
翻訳日:2021-02-09 01:56:48 公開日:2021-02-05
# (参考訳) 著者名曖昧化に対する前名文字列の影響

Effect of forename string on author name disambiguation ( http://arxiv.org/abs/2102.03250v1 )

ライセンス: CC BY 4.0
Jinseok Kim and Jenna Kim(参考訳) 著者名の曖昧さでは、著者のフォアネームを使用して、どの名前インスタンスが一緒に曖昧になり、同じ著者を参照する可能性が高いかを決定します。 フォアネームのそのような重要な役割にもかかわらず、ヒューリスティック(文字列マッチング)とアルゴリズムの曖昧さのパフォーマンスに対するそれらの効果はよく理解されていません。 本研究は,複数のラベル付きデータセットを用いて著者名の曖昧さの寄与を評価し,著者が名前の変種(synonym)で表される実世界のシナリオを反映し,同じ名前(homonym)を共有する著者もいる。 その結果、フルフォアネームの比率を増やすことで、ヒューリスティックと機械学習に基づく曖昧さの両方のパフォーマンスが大幅に向上することを示した。 アルゴリズムによる曖昧さ回避によるパフォーマンス向上は、多くのforenameが初期化され、あるいはhomonymが一般的になったときに発音される。 しかし、フルフォアネームの比率が大きくなるにつれて、文字列マッチングによるパフォーマンスよりも限界となる。 フォアネーム文字列の少数の使用は、完全長文字列の使用に比べてヒューリスティックおよびアルゴリズム的曖昧さの両方のパフォーマンスを低下させるものではない。 これらの知見は、初期化されたフォアネームをレコードリンクを介してフルストリング形式に復元し、曖昧化性能を向上させるなどの実用的な提案を提供する。

In author name disambiguation, author forenames are used to decide which name instances are disambiguated together and how much they are likely to refer to the same author. Despite such a crucial role of forenames, their effect on the performances of heuristic (string matching) and algorithmic disambiguation is not well understood. This study assesses the contributions of forenames in author name disambiguation using multiple labeled datasets under varying ratios and lengths of full forenames, reflecting real-world scenarios in which an author is represented by forename variants (synonym) and some authors share the same forenames (homonym). Results show that increasing the ratios of full forenames improves substantially the performances of both heuristic and machine-learning-based disambiguation. Performance gains by algorithmic disambiguation are pronounced when many forenames are initialized or homonym is prevalent. As the ratios of full forenames increase, however, they become marginal compared to the performances by string matching. Using a small portion of forename strings does not reduce much the performances of both heuristic and algorithmic disambiguation compared to using full-length strings. These findings provide practical suggestions such as restoring initialized forenames into a full-string format via record linkage for improved disambiguation performances.
翻訳日:2021-02-09 01:31:22 公開日:2021-02-05
# (参考訳) 因果的発見のサンプル複雑さとドメインエキスパートの価値について

On the Sample Complexity of Causal Discovery and the Value of Domain Expertise ( http://arxiv.org/abs/2102.03274v1 )

ライセンス: CC BY 4.0
Samir Wadhwa, Roy Dong(参考訳) 因果発見法は、実験者が相関関係のサブセットに介入する実験データに対して、純粋に観測データからランダム変数間の因果関係を同定する。 これは条件付き独立(CI) oracle: 2つのランダム変数が条件付き独立であるかどうかを別のランダム変数の集合で表すことができるオーラクルである。 このアルゴリズムの実践的実装には、CIオラクルの代わりに条件付き独立性に関する統計的テストが組み込まれている。 本稿では、CIオラクルを使わずに因果発見アルゴリズムのサンプル複雑性を分析する:一定の信頼度から、因果発見アルゴリズムが因果構造を特定するのに必要なデータポイントがいくつ必要か。 さらに、本手法は、データサンプルの観点から、ドメインの専門知識の価値を定量化することができる。 最後に,これらのサンプルレートの精度を数値例で示し,スパーシティ優先と既知の因果方向の利点を定量化する。

Causal discovery methods seek to identify causal relations between random variables from purely observational data, as opposed to actively collected experimental data where an experimenter intervenes on a subset of correlates. One of the seminal works in this area is the Inferred Causation algorithm, which guarantees successful causal discovery under the assumption of a conditional independence (CI) oracle: an oracle that can states whether two random variables are conditionally independent given another set of random variables. Practical implementations of this algorithm incorporate statistical tests for conditional independence, in place of a CI oracle. In this paper, we analyze the sample complexity of causal discovery algorithms without a CI oracle: given a certain level of confidence, how many data points are needed for a causal discovery algorithm to identify a causal structure? Furthermore, our methods allow us to quantify the value of domain expertise in terms of data samples. Finally, we demonstrate the accuracy of these sample rates with numerical examples, and quantify the benefits of sparsity priors and known causal directions.
翻訳日:2021-02-09 01:07:57 公開日:2021-02-05
# (参考訳) インクリメンタル・デクリメント学習によるコンフォーメーション予測器の厳密な最適化

Exact Optimization of Conformal Predictors via Incremental and Decremental Learning ( http://arxiv.org/abs/2102.03236v1 )

ライセンス: CC BY 4.0
Giovanni Cherubin, Konstantinos Chatzikokolakis, Martin Jaggi(参考訳) Conformal Predictors (CP) はMLメソッドのラッパーであり、データ分散に対する弱い仮定の下でエラー保証を提供する。 これらは分類や回帰から異常検出まで、幅広い問題に適している。 残念ながら、その高い計算複雑性は、大きなデータセットに適用性を制限する。 本研究では, 基礎となるML法と併用して検討し, インクリメンタル&デクリメンタル学習を活用することで, CP分類器をかなり高速化できることを示した。 k-NN,KDE,カーネルLS-SVMなどの手法では,正確な解を生成すると同時に,実行時間を1桁削減する。 同様のアイデアにより、ブートストラップの難しいケースでもリニアなスピードアップを実現します。 最後に、これらの手法を拡張して、回帰のためのk-NN CPの最適化を改善する。 その結果を実証的に評価し,CP最適化に適した手法について考察した。

Conformal Predictors (CP) are wrappers around ML methods, providing error guarantees under weak assumptions on the data distribution. They are suitable for a wide range of problems, from classification and regression to anomaly detection. Unfortunately, their high computational complexity limits their applicability to large datasets. In this work, we show that it is possible to speed up a CP classifier considerably, by studying it in conjunction with the underlying ML method, and by exploiting incremental&decremental learning. For methods such as k-NN, KDE, and kernel LS-SVM, our approach reduces the running time by one order of magnitude, whilst producing exact solutions. With similar ideas, we also achieve a linear speed up for the harder case of bootstrapping. Finally, we extend these techniques to improve upon an optimization of k-NN CP for regression. We evaluate our findings empirically, and discuss when methods are suitable for CP optimization.
翻訳日:2021-02-09 00:53:42 公開日:2021-02-05
# (参考訳) 地理物理学における機械学習の数学的側面に関する調査:気象予報・風力エネルギー・波力エネルギー・石油・ガス探査を事例として

A Survey on Mathematical Aspects of Machine Learning in GeoPhysics: The Cases of Weather Forecast, Wind Energy, Wave Energy, Oil and Gas Exploration ( http://arxiv.org/abs/2102.03206v1 )

ライセンス: CC BY 4.0
Miroslav Kosanic and Veljko Milutinovic(参考訳) 本稿では、地球物理学と対応するサブブランチの文脈で機械学習技術(ML)を適用する最も顕著な作品をレビューします。 気象予報,風力エネルギー,波力エネルギー,石油,ガス探査の分野で十分な背景を提供しながら,現在までに達成されている進歩と今後のさらなる研究に向けた重要な方向性について紹介する。 本研究の目的は, これまでの成果を反映し, これら2分野間の相乗効果を総合的に検証し, 地学における機械学習技術の新たなアプローチを高速化することである。 最後に、パフォーマンスの加速手段としてデータフローパラダイムを使用したmlアルゴリズムの実装に関連する改善点を指摘したいと思います。

This paper reviews the most notable works applying machine learning techniques (ML) in the context of geophysics and corresponding subbranches. We showcase both the progress achieved to date as well as the important future directions for further research while providing an adequate background in the fields of weather forecast, wind energy, wave energy, oil and gas exploration. The objective is to reflect on the previous successes and provide a comprehensive review of the synergy between these two fields in order to speed up the novel approaches of machine learning techniques in geophysics. Last but not least, we would like to point out possible improvements, some of which are related to the implementation of ML algorithms using DataFlow paradigm as a means of performance acceleration.
翻訳日:2021-02-09 00:30:56 公開日:2021-02-05
# (参考訳) DEAL:フェデレーションシステムにおける省エネルギー学習

DEAL: Decremental Energy-Aware Learning in a Federated System ( http://arxiv.org/abs/2102.03051v1 )

ライセンス: CC BY 4.0
Wenting Zou, Li Li, Zichen Xu, Chengzhong Xu(参考訳) 連合学習は、バッテリー駆動デバイスでの重エネルギーフットプリントに苦しむ。 学習プロセスでは、すべてのデバイスが目覚め続けるとともに、高価なバッテリ電力を消費して、共有モデルを協調的に訓練する。 システムカーネルモードにおける従来のエネルギー管理技術は、トレーニング装置を低電力状態に強制することができるが、協調学習のSLOに違反する可能性がある。 本研究では,SLO学習とエネルギー効率の相違に対処するため,省エネとプライバシ保護のための省エネ学習システムであるDEALを提案する。 DEALは、2つの層からエネルギーフットプリントを削減します:1)十分な能力と最大の報酬を持つ労働者のサブセットを選択する最適化層。 2)デクリメントとインクリメンタルな更新関数を積極的に提供する特定デクリメント学習アルゴリズムは、カーネルがローカルdvfを正しくチューニングできるようにする。 われわれは、最新のスマートフォンプロファイルを持つコンテナ化されたサービスでDEALをプロトタイプ化し、現実的なトレースを持ついくつかの学習ベンチマークで評価した。 DEALが従来の方法と比較して、異なるデータセットのエネルギーフットプリントを75.6%-82.4%削減できることを観察した。 すべての学習プロセスは、モデル収束の2~4倍までの実践的なFLフレームワークよりも高速である。

Federated learning struggles with their heavy energy footprint on battery-powered devices. The learning process keeps all devices awake while draining expensive battery power to train a shared model collaboratively, yet it may still leak sensitive personal information. Traditional energy management techniques in system kernel mode can force the training device entering low power states, but it may violate the SLO of the collaborative learning. To address the conflict between learning SLO and energy efficiency, we propose DEAL, an energy efficient learning system that saves energy and preserves privacy with a decremental learning design. DEAL reduces the energy footprint from two layers: 1) an optimization layer that selects a subset of workers with sufficient capacity and maximum rewards. 2) a specified decremental learning algorithm that actively provides a decremental and incremental update functions, which allows kernel to correctly tune the local DVFS. We prototyped DEAL in containerized services with modern smartphone profiles and evaluated it with several learning benchmarks with realistic traces. We observed that DEAL achieves 75.6%-82.4% less energy footprint in different datasets, compared to the traditional methods. All learning processes are faster than state-of-the-practice FL frameworks up to 2-4X in model convergence.
翻訳日:2021-02-09 00:12:36 公開日:2021-02-05
# (参考訳) ハイパーパラメータ最適化は私たちを欺き、それを止める方法

Hyperparameter Optimization Is Deceiving Us, and How to Stop It ( http://arxiv.org/abs/2102.03034v1 )

ライセンス: CC BY 4.0
A. Feder Cooper and Yucheng Lu and Christopher De Sa(参考訳) ハイパーパラメータ最適化(HPO)は学習アルゴリズムのパフォーマンスに大きく影響することが知られているが、しばしば経験的な後発として扱われる。 最近の実証研究は、HPOの第2級治療のリスクを強調している。 彼らは、探索するハイパーパラメータサブスペースの選択に基づく一貫性のないパフォーマンスの結果が、ML研究における広範な問題であることを示している。 2つのアルゴリズムを比較するとき、J と K が1つの部分空間を探索すると、J が K より優れているという結論が得られる。 要するに、ハイパーパラメータの選択はあなたを欺くことができます。 我々は、この問題を解析的に特徴付け、超パラメータ偽装(hyperparameter deception)と呼び、グリッド探索が本質的に偽造であることを示す。 我々は、偽装に対する保証をもって防御を証明し、実際に防御を示す。

While hyperparameter optimization (HPO) is known to greatly impact learning algorithm performance, it is often treated as an empirical afterthought. Recent empirical works have highlighted the risk of this second-rate treatment of HPO. They show that inconsistent performance results, based on choice of hyperparameter subspace to search, are a widespread problem in ML research. When comparing two algorithms, J and K searching one subspace can yield the conclusion that J outperforms K, whereas searching another can entail the opposite result. In short, your choice of hyperparameters can deceive you. We provide a theoretical complement to this prior work: We analytically characterize this problem, which we term hyperparameter deception, and show that grid search is inherently deceptive. We prove a defense with guarantees against deception, and demonstrate a defense in practice.
翻訳日:2021-02-08 23:53:40 公開日:2021-02-05
# (参考訳) Tiny Recurrent U-Netによるリアルタイムデノイングとデバベーション

Real-time Denoising and Dereverberation with Tiny Recurrent U-Net ( http://arxiv.org/abs/2102.03207v1 )

ライセンス: CC BY 4.0
Hyeong-Seok Choi, Sungjin Park, Jie Hwan Lee, Hoon Heo, Dongsuk Jeon, Kyogu Lee(参考訳) 現代のディープラーニングに基づくモデルは、音声強化タスクで顕著なパフォーマンス改善が見られた。 しかし、最先端モデルのパラメータの数は、現実のアプリケーションのためにデバイスにデプロイするには大きすぎることが多い。 この目的のために,現在の最先端モデルの性能と一致する軽量オンライン推論モデルであるTiny Recurrent U-Net(TRU-Net)を提案する。 TRU-Netの量子化されたバージョンのサイズは362キロバイトであり、エッジデバイスにデプロイできるほど小さい。 さらに,この小型モデルと相認識型$\beta$-sigmoidマスクという新しいマスキング手法を組み合わせることで,同時脱臭と脱水を可能にする。 客観的および主観的評価の結果から,ベンチマークデータセットにおける現在の最先端モデルとの競合性能は,桁違いに小さいパラメータで達成できることがわかった。

Modern deep learning-based models have seen outstanding performance improvement with speech enhancement tasks. The number of parameters of state-of-the-art models, however, is often too large to be deployed on devices for real-world applications. To this end, we propose Tiny Recurrent U-Net (TRU-Net), a lightweight online inference model that matches the performance of current state-of-the-art models. The size of the quantized version of TRU-Net is 362 kilobytes, which is small enough to be deployed on edge devices. In addition, we combine the small-sized model with a new masking method called phase-aware $\beta$-sigmoid mask, which enables simultaneous denoising and dereverberation. Results of both objective and subjective evaluations have shown that our model can achieve competitive performance with the current state-of-the-art models on benchmark datasets using fewer parameters by orders of magnitude.
翻訳日:2021-02-08 23:16:34 公開日:2021-02-05
# (参考訳) マルチストリームエンドツーエンドASRのロバスト性向上のための2段階拡張と適応CTC融合

Two-Stage Augmentation and Adaptive CTC Fusion for Improved Robustness of Multi-Stream End-to-End ASR ( http://arxiv.org/abs/2102.03055v1 )

ライセンス: CC BY 4.0
Ruizhi Li and Gregory Sell and Hynek Hermansky(参考訳) 自動音声認識(ASR)システムの性能劣化は、テスト音響条件が訓練と異なる場合、一般的に観察される。 したがって、背景雑音や残響などの様々な環境歪みに対してASRシステムを堅牢化することが不可欠である。 マルチストリームパラダイムでは、さまざまな未知の単一ストリーム条件やストリーム間ダイナミクスを扱うことにより、ロバスト性を改善する。 これまでは、stage-2がstage-1 universal feature extractor(ufe)の特徴を持つマルチストリームモデルを定式化するマルチストリームエンドツーエンドasrにおいて、実用的な2段階トレーニング戦略が提案されていた。 本論文では,不整合シナリオに焦点をあてた2段階の拡張スキームを提案する。Stage-1 Augmentationは,データ拡張技術を用いた単一ストリーム入力品種への対処を目的とする。Stage-2 Time Maskingは,ランダムに選択されたストリームのUFE特徴に時間マスクを適用して,多様なストリームの組み合わせをシミュレートする。 また, 階層的注意機構の助けを借りて, 適応的接続性時間分類(CTC)を施行した。 マルチストリームシナリオとして、DIRHAとAMIという2つのデータセットで実験が行われた。 以前のトレーニング戦略と比較すると、単語誤り率を29.7-59.3%削減し、いくつかの未発見のストリームの組み合わせで大幅な改善が報告されている。

Performance degradation of an Automatic Speech Recognition (ASR) system is commonly observed when the test acoustic condition is different from training. Hence, it is essential to make ASR systems robust against various environmental distortions, such as background noises and reverberations. In a multi-stream paradigm, improving robustness takes account of handling a variety of unseen single-stream conditions and inter-stream dynamics. Previously, a practical two-stage training strategy was proposed within multi-stream end-to-end ASR, where Stage-2 formulates the multi-stream model with features from Stage-1 Universal Feature Extractor (UFE). In this paper, as an extension, we introduce a two-stage augmentation scheme focusing on mismatch scenarios: Stage-1 Augmentation aims to address single-stream input varieties with data augmentation techniques; Stage-2 Time Masking applies temporal masks on UFE features of randomly selected streams to simulate diverse stream combinations. During inference, we also present adaptive Connectionist Temporal Classification (CTC) fusion with the help of hierarchical attention mechanisms. Experiments have been conducted on two datasets, DIRHA and AMI, as a multi-stream scenario. Compared with the previous training strategy, substantial improvements are reported with relative word error rate reductions of 29.7-59.3% across several unseen stream combinations.
翻訳日:2021-02-08 23:03:29 公開日:2021-02-05
# (参考訳) NRTSI:不規則サンプリングデータに対する非リカレント時系列計算

NRTSI: Non-Recurrent Time Series Imputation for Irregularly-sampled Data ( http://arxiv.org/abs/2102.03340v1 )

ライセンス: CC0 1.0
Siyuan Shan, Junier B. Oliva(参考訳) 時系列計算は、欠落したデータで時系列を理解するための基本的なタスクである。 既存の計算法は、しばしば RNN や通常の微分方程式のような反復モデルに依存しており、どちらも繰り返しモデルの誤差合成問題に悩まされている。 本研究では,集合の置換同変モデリングの観点から計算課題を考察し,再帰的な加群を持たない新しい計算モデル NRTSI を提案する。 NRTSIの置換同変性を利用して、原理的かつ効率的な階層型計算手順を設計する。 NRTSIは不規則にサンプリングされたデータを容易に処理でき、多重モード確率計算を実行し、次元が部分的に観察されるシナリオを処理できる。 我々は, NRTSIが, 広く使用されている時系列計算ベンチマークにおいて, 最先端の性能を達成することを示す。

Time series imputation is a fundamental task for understanding time series with missing data. Existing imputation methods often rely on recurrent models such as RNNs and ordinary differential equations, both of which suffer from the error compounding problems of recurrent models. In this work, we view the imputation task from the perspective of permutation equivariant modeling of sets and propose a novel imputation model called NRTSI without any recurrent modules. Taking advantage of the permutation equivariant nature of NRTSI, we design a principled and efficient hierarchical imputation procedure. NRTSI can easily handle irregularly-sampled data, perform multiple-mode stochastic imputation, and handle the scenario where dimensions are partially observed. We show that NRTSI achieves state-of-the-art performance across a wide range of commonly used time series imputation benchmarks.
翻訳日:2021-02-08 22:25:28 公開日:2021-02-05
# (参考訳) てんかんの診断と予後のためのニューロイメージングの機械学習応用

Machine Learning Applications on Neuroimaging for Diagnosis and Prognosis of Epilepsy: A Review ( http://arxiv.org/abs/2102.03336v1 )

ライセンス: CC BY 4.0
Jie Yuan, Xuming Ran, Keyin Liu, Chen Yao, Yi Yao, Haiyan Wu, Quanying Liu(参考訳) 機械学習は、医療画像解析において重要な役割を担い、ニューロイメージング臨床応用の新たな進歩を生み出している。 しかし、これまでの研究とレビューは主に脳波やseegなどの電気生理学的信号に焦点を当てており、てんかん研究における神経画像化の可能性はほとんど見過ごされてきた。 本稿では,てんかん診断と予後の文脈において,神経画像と機械学習の相互作用を強調する。 まず, てんかんクリニック, textit{e.g} MRI, DTI, fMRI, PETで使用される典型的な神経画像モダリティについて概説する。 次に,ニューロイメージングデータに機械学習手法を適用するための2つのアプローチについて紹介する。特徴工学と機械学習分類器を組み合わせた2段階合成アプローチと,通常ディープラーニングに向けたエンドツーエンドアプローチである。 後に、セグメント化、局在化および側方化タスク、および診断および予後に直接関連するタスクなどのてんかん画像上の機械学習タスクに関する詳細なレビューが提示されます。 最後に, てんかんの診断と予後をコンピュータ支援する方法の確立を願って, この分野における現在の業績, 課題, 今後の方向性について論じる。

Machine learning is playing an increasing important role in medical image analysis, spawning new advances in neuroimaging clinical applications. However, previous work and reviews were mainly focused on the electrophysiological signals like EEG or SEEG; the potential of neuroimaging in epilepsy research has been largely overlooked despite of its wide use in clinical practices. In this review, we highlight the interactions between neuroimaging and machine learning in the context of the epilepsy diagnosis and prognosis. We firstly outline typical neuroimaging modalities used in epilepsy clinics, \textit{e.g} MRI, DTI, fMRI and PET. We then introduce two approaches to apply machine learning methods to neuroimaging data: the two-step compositional approach which combines feature engineering and machine learning classifier, and the end-to-end approach which is usually toward deep learning. Later a detailed review on the machine learning tasks on epileptic images is presented, such as segmentation, localization and lateralization tasks, as well as the tasks directly related to the diagnosis and prognosis. In the end, we discuss current achievements, challenges, potential future directions in the field, with the hope to pave a way to computer-aided diagnosis and prognosis of epilepsy.
翻訳日:2021-02-08 22:08:53 公開日:2021-02-05
# (参考訳) ベンフォードの法則とニューラルネットワークの関連について

On The Connection of Benford's Law and Neural Networks ( http://arxiv.org/abs/2102.03313v1 )

ライセンス: CC BY-SA 4.0
Surya Kant Sahu, Abhinav Java, Arshad Shaikh(参考訳) ベンフォードの法則は重要桁法とも呼ばれ、多くの自然発生データセットで観察される。 例えば、重力、クーロンの定数などの物理定数は、この法則に従います。 本稿では、ニューラルネットワークの重みがベンフォードの法則にどの程度近いかを示すスコアである$mlh$を定義する。 ニューラルネットワークの重み付けは初期化法にかかわらずベンフォードの法則に従うことを示す。 一般化とネットワークの$MLH$との間には、大きなつながりがあります。 我々は、ImageNet、Transformer(BERT、Electraなど)でトレーニングされたAlexNetからResNeXtに至るまで、いくつかのアーキテクチャが証明されている。 さまざまなタスクに関する他のトレーニング済みモデルは、テストパフォーマンスと$MLH$との間に強い相関関係を持っています。 また、重みにおけるデータの影響を調査し、なぜNNがベンフォードの法則に従うのかを説明する。 MLP, CNN, LSTMを用いて複数のデータセットに対して繰り返し実験を行った結果, トレーニング中にMLH$が過度に適合していることを示す実証的証拠が得られた。 Benfordの法則とニューラルネットワークのこの関係を理解することは、後者をよりよく理解することを約束する。

Benford's law, also called Significant Digit Law, is observed in many naturally occurring data-sets. For instance, the physical constants such as Gravitational, Coulomb's Constant, etc., follow this law. In this paper, we define a score, $MLH$, for how closely a Neural Network's Weights match Benford's law. We show that Neural Network Weights follow Benford's Law regardless of the initialization method. We make a striking connection between Generalization and the $MLH$ of the network. We provide evidence that several architectures from AlexNet to ResNeXt trained on ImageNet, Transformers (BERT, Electra, etc.), and other pre-trained models on a wide variety of tasks have a strong correlation between their test performance and the $MLH$. We also investigate the influence of Data in the Weights to explain why NNs possibly follow Benford's Law. With repeated experiments on multiple datasets using MLPs, CNNs, and LSTMs, we provide empirical evidence that there is a connection between $MLH$ while training, overfitting. Understanding this connection between Benford's Law and Neural Networks promises a better comprehension of the latter.
翻訳日:2021-02-08 22:07:41 公開日:2021-02-05
# (参考訳) 異常水位予測のためのデータサイエンスプロジェクトにおける石客としてのカテゴリーデータ

Categorical data as a stone guest in a data science project for predicting defective water meters ( http://arxiv.org/abs/2102.03284v1 )

ライセンス: CC BY 4.0
Giovanni Delnevo, Marco Roccetti, Luca Casini(参考訳) この分野で1年間の研究の末、機械式水量計が経時的かつ集中的な使用によって失敗するかどうかを予測できる機械学習ベースの分類器を開発した。 繰り返しのディープニューラルネットワーク(RNN)は、100万メートルから集められた1500万回の水消費から抽出されたデータで訓練されました。 トレーニングに使用したデータには,基本的に2つのタイプがあります。 カテゴリ(Categorical)とは、ある定性的性質に基づいて、可能な値の限定値と固定値の1つを取ることのできるデータの一種であり、一方、連続は、この場合、測定値である。 メートルで取られた、消費された水の量(立方メートル)。 本稿では,連続データを用いた場合,RNNの予測精度が平均80%を超えているにもかかわらず,学習段階におけるカテゴリ情報の導入により,その性能は著しく向上しなかったという事実を論じる。 特定の観点からは、この研究は未解決で批判的な問題です。 しかし、データサイエンスの観点からこの議論の余地があるとすれば、ドメインの専門家の参加なしには正確な機械学習ソリューションを構築することはできないということに気付きました。彼らは、それぞれが独自の感覚、妥当性、意味を持つさまざまな種類のデータの重要性(関係)を区別することができます。 データの科学は、データサイエンティスト/機械学習の専門家とドメインの専門家の指定が共生である多面的な分野に向かって進化しています。

After a one-year long effort of research on the field, we developed a machine learning-based classifier, tailored to predict whether a mechanical water meter would fail with passage of time and intensive use as well. A recurrent deep neural network (RNN) was trained with data extrapolated from 15 million readings of water consumption, gathered from 1 million meters. The data we used for training were essentially of two types: continuous vs categorical. Categorical being a type of data that can take on one of a limited and fixed number of possible values, on the basis of some qualitative property; while continuous, in this case, are the values of the measurements. taken at the meters, of the quantity of consumed water (cubic meters). In this paper, we want to discuss the fact that while the prediction accuracy of our RNN has exceeded the 80% on average, based on the use of continuous data, those performances did not improve, significantly, with the introduction of categorical information during the training phase. From a specific viewpoint, this remains an unsolved and critical problem of our research. Yet, if we reason about this controversial case from a data science perspective, we realize that we have had a confirmation that accurate machine learning solutions cannot be built without the participation of domain experts, who can differentiate on the importance of (the relation between) different types of data, each with its own sense, validity, and implications. Past all the original hype, the science of data is thus evolving towards a multifaceted discipline, where the designitations of data scientist/machine learning expert and domain expert are symbiotic
翻訳日:2021-02-08 21:52:10 公開日:2021-02-05
# (参考訳) 有限次元マルジナルからのガウス過程間の2-シンクホーン分岐の推定

Estimating 2-Sinkhorn Divergence between Gaussian Processes from Finite-Dimensional Marginals ( http://arxiv.org/abs/2102.03267v1 )

ライセンス: CC BY 4.0
Anton Mallasto(参考訳) \emph{Optimal Transport} (OT) は機械学習とコンピュータビジョンにおける重要な計算ツールとして登場し、確率測定を研究するための幾何学的枠組みを提供する。 OT は残念ながら次元の呪いに悩まされ、実用的計算には正規化が必要であり、そのために \emph{entropic regularization} は 'unbiased' となり、その結果 \emph{Sinkhorndivrgence} となる。 本研究では,その有限次元辺分布を用いて,<emph{Gaussian process} (GPs) 間の2-シンクホーンの発散を推定する収束性について検討する。 ある基準測度に従って辺点をサンプリングすると、発散のほぼ確実に収束する。 さらに、n$ を用いた場合、発散スケールの推定誤差は $\mathcal{o}\left(\epsilon^ {-1}n^{-\frac{1}{2}}\right)$ として次元フリーな方法で計算され、ここで $\epsilon$ はエントロピー正規化の大きさである。

\emph{Optimal Transport} (OT) has emerged as an important computational tool in machine learning and computer vision, providing a geometrical framework for studying probability measures. OT unfortunately suffers from the curse of dimensionality and requires regularization for practical computations, of which the \emph{entropic regularization} is a popular choice, which can be 'unbiased', resulting in a \emph{Sinkhorn divergence}. In this work, we study the convergence of estimating the 2-Sinkhorn divergence between \emph{Gaussian processes} (GPs) using their finite-dimensional marginal distributions. We show almost sure convergence of the divergence when the marginals are sampled according to some base measure. Furthermore, we show that using $n$ marginals the estimation error of the divergence scales in a dimension-free way as $\mathcal{O}\left(\epsilon^ {-1}n^{-\frac{1}{2}}\right)$, where $\epsilon$ is the magnitude of entropic regularization.
翻訳日:2021-02-08 21:46:46 公開日:2021-02-05
# (参考訳) RpBERT:マルチモーダルNERのためのテキスト画像相関伝播に基づくBERTモデル

RpBERT: A Text-image Relation Propagation-based BERT Model for Multimodal NER ( http://arxiv.org/abs/2102.02967v1 )

ライセンス: CC BY-SA 4.0
Lin Sun, Jiquan Wang, Kai Zhang, Yindu Su, and Fangsheng Weng(参考訳) 近年,マルチモーダルなエンティティ認識(MNER)により,ツイート中のNERの精度が向上している。 しかし、ほとんどのマルチモーダル手法は、テキストや画像が関連しているかどうかに関わらず、注意機構を用いて視覚的手がかりを抽出する。 実際、無関係なテキストイメージペアは、ツイートのかなりの割合を占めている。 テキストとは無関係な視覚的な手がかりは、マルチモーダルモデル学習に不確実あるいはマイナスの影響をもたらす。 本稿では,マルチモーダルBERTモデルへのテキスト画像関係伝播の手法を提案する。 ソフトゲートまたはハードゲートを統合して視覚的な手がかりを選択し、MNERデータセットをトレーニングするマルチタスクアルゴリズムを提案します。 実験では,テキストと画像の関係伝播の前後における視覚的注意の変化を深く分析した。 本モデルは,MNERデータセット上での最先端性能を実現する。

Recently multimodal named entity recognition (MNER) has utilized images to improve the accuracy of NER in tweets. However, most of the multimodal methods use attention mechanisms to extract visual clues regardless of whether the text and image are relevant. Practically, the irrelevant text-image pairs account for a large proportion in tweets. The visual clues that are unrelated to the texts will exert uncertain or even negative effects on multimodal model learning. In this paper, we introduce a method of text-image relation propagation into the multimodal BERT model. We integrate soft or hard gates to select visual clues and propose a multitask algorithm to train on the MNER datasets. In the experiments, we deeply analyze the changes in visual attention before and after the use of text-image relation propagation. Our model achieves state-of-the-art performance on the MNER datasets.
翻訳日:2021-02-08 21:25:17 公開日:2021-02-05
# (参考訳) 新規クラス分類のための超球面埋め込み

Hyperspherical embedding for novel class classification ( http://arxiv.org/abs/2102.03243v1 )

ライセンス: CC BY 4.0
Rafael S. Pereira, Alexis Joly, Patrick Valduriez, Fabio Porto(参考訳) ディープラーニングモデルは、多くの異なる業界でますます有用になっている。 画像分類の領域では、畳み込みニューラルネットワークは、MNIST FASHIONMNIST、CIFAR10、CIFAR100、IMAGENETなどの多くの異なるデータセットで示されているように、閉集合問題のための堅牢な機能を学ぶ能力を示した。 これらのアプローチは、潜伏空間でクラスを分離できる特徴を学ぶために、ソフトマックスアクティベーション機能を持つ密集層を持つディープニューラルネットワークを使用する。 しかし、この伝統的なアプローチは、オープンセット問題として知られるトレーニングセットにないクラスを特定するのに役に立ちません。 同様の問題は、小さなデータに関する学習を含むシナリオで発生します。 両方の問題に対処するために、数発学習が提案されている。 特に、測度学習は、分類を行うために、潜在空間における測度距離の制約に従う特徴を学習する。 However, while this approach proves to be useful for the open set problem, current implementation requires pair-wise training, where both positive and negative examples of similar images are presented during the training phase, which limits the applicability of these approaches in large data or large class scenarios given the combinatorial nature of the possible inputs.In this paper, we present a constraint-based approach applied to the representations in the latent space under the normalized softmax loss, proposed by[18]. 距離学習と正規化ソフトマックス損失の両方を用いて,異なるデータセット上の未知のクラスを分類するための提案手法を,解離シナリオと関節シナリオにおいて実験的に検証した。 以上の結果から,提案手法は,ペア学習を必要とせず,より大きなクラスで効率的に学習できるだけでなく,その精度をはるかに超えたメトリック学習戦略よりも優れた分類結果が得られることが示された。

Deep learning models have become increasingly useful in many different industries. On the domain of image classification, convolutional neural networks proved the ability to learn robust features for the closed set problem, as shown in many different datasets, such as MNIST FASHIONMNIST, CIFAR10, CIFAR100, and IMAGENET. These approaches use deep neural networks with dense layers with softmax activation functions in order to learn features that can separate classes in a latent space. However, this traditional approach is not useful for identifying classes unseen on the training set, known as the open set problem. A similar problem occurs in scenarios involving learning on small data. To tackle both problems, few-shot learning has been proposed. In particular, metric learning learns features that obey constraints of a metric distance in the latent space in order to perform classification. However, while this approach proves to be useful for the open set problem, current implementation requires pair-wise training, where both positive and negative examples of similar images are presented during the training phase, which limits the applicability of these approaches in large data or large class scenarios given the combinatorial nature of the possible inputs.In this paper, we present a constraint-based approach applied to the representations in the latent space under the normalized softmax loss, proposed by[18]. We experimentally validate the proposed approach for the classification of unseen classes on different datasets using both metric learning and the normalized softmax loss, on disjoint and joint scenarios. Our results show that not only our proposed strategy can be efficiently trained on larger set of classes, as it does not require pairwise learning, but also present better classification results than the metric learning strategies surpassing its accuracy by a significant margin.
翻訳日:2021-02-08 21:12:18 公開日:2021-02-05
# (参考訳) 多様な視覚的ストーリーテリングのための概念選択を意識したコモンセンス知識

Commonsense Knowledge Aware Concept Selection For Diverse and Informative Visual Storytelling ( http://arxiv.org/abs/2102.02963v1 )

ライセンス: CC BY 4.0
Hong Chen, Yifei Huang, Hiroya Takamura, Hideki Nakayama(参考訳) ビジュアルストーリーテリングは、特定の画像シーケンスに関連する興味深いストーリーを生成するタスクです。 本研究は,画像から情報的コンテンツを保存しながら,生成したストーリーの多様性を高めることを目的とする。 概念候補の集合を示唆する概念選択モジュールを用いて、生成したストーリーの多様性と情報性を育成することを提案する。 次に,大規模事前学習モデルを用いて概念とイメージをフルストーリーに変換する。 候補概念を豊かにするために、コンセプト候補が提案される画像シーケンスごとに共通感覚知識グラフが作成されます。 グラフから適切な概念を得るため,候補概念間の相関と画像概念相関を考慮した2つの新しいモジュールを提案する。 広範な自動および人間の評価の結果は私達のモデルが適正概念を作り出すことができることを示します。 これにより、私たちのモデルは、ストーリーと画像シーケンスの関連性を維持しながら、ストーリーの多様性とインフォメーション性に大きなマージンで、以前のモデルを上回ることができる。

Visual storytelling is a task of generating relevant and interesting stories for given image sequences. In this work we aim at increasing the diversity of the generated stories while preserving the informative content from the images. We propose to foster the diversity and informativeness of a generated story by using a concept selection module that suggests a set of concept candidates. Then, we utilize a large scale pre-trained model to convert concepts and images into full stories. To enrich the candidate concepts, a commonsense knowledge graph is created for each image sequence from which the concept candidates are proposed. To obtain appropriate concepts from the graph, we propose two novel modules that consider the correlation among candidate concepts and the image-concept correlation. Extensive automatic and human evaluation results demonstrate that our model can produce reasonable concepts. This enables our model to outperform the previous models by a large margin on the diversity and informativeness of the story, while retaining the relevance of the story to the image sequence.
翻訳日:2021-02-08 21:00:07 公開日:2021-02-05
# (参考訳) 直答質問の回答は解けたか? AI2を直接答えるTry ARC-DA

Think you have Solved Direct-Answer Question Answering? Try ARC-DA, the Direct-Answer AI2 Reasoning Challenge ( http://arxiv.org/abs/2102.03315v1 )

ライセンス: CC BY 4.0
Sumithra Bhakthavatsalam, Daniel Khashabi, Tushar Khot, Bhavana Dalvi Mishra, Kyle Richardson, Ashish Sabharwal, Carissa Schoenick, Oyvind Tafjord, Peter Clark(参考訳) 我々は、ARC(AI2 Reasoning Challenge)多重選択データセットの直接回答(オープン応答、フリーフォーム)バージョンであるARC-DAデータセットを提案する。 ARCはコミュニティで影響力を持っているが、その複数選択形式は現実世界の質問には表れず、複数の選択形式はアーティファクトに対して特に影響を受けやすい。 ARC-DAデータセットは、クラウドソーシングとエキスパートレビューを組み合わせて質問を直接回答形式に変換することで、これらの懸念に対処する。 その結果得られたデータセットには、合計8436の有効回答を含む2985の質問が含まれている(質問は通常、複数の有効回答がある)。 ARC-DAは、しばしば推論を必要とする自然問題の最初のDAデータセットの1つであり、適切な質問分解が質問自体から明らかでない。 本稿では, 変換手法, 適切な評価基準, 強力なモデルについて述べる。 高いが、ベストスコア(81% GENIE、61.4% F1、63.2% ROUGE-L)はまだ改善の余地を残している。 さらに、このデータセットは、多くの質問が答えを構築するために推論を必要とするため、説明に関する新しい研究に自然な設定を提供する。 データセットがコミュニティによる複雑な質問処理のさらなる進歩を促すことを期待している。 ARC-DAはhttps://allenai.org/data/arc-daで入手できます。

We present the ARC-DA dataset, a direct-answer ("open response", "freeform") version of the ARC (AI2 Reasoning Challenge) multiple-choice dataset. While ARC has been influential in the community, its multiple-choice format is unrepresentative of real-world questions, and multiple choice formats can be particularly susceptible to artifacts. The ARC-DA dataset addresses these concerns by converting questions to direct-answer format using a combination of crowdsourcing and expert review. The resulting dataset contains 2985 questions with a total of 8436 valid answers (questions typically have more than one valid answer). ARC-DA is one of the first DA datasets of natural questions that often require reasoning, and where appropriate question decompositions are not evident from the questions themselves. We describe the conversion approach taken, appropriate evaluation metrics, and several strong models. Although high, the best scores (81% GENIE, 61.4% F1, 63.2% ROUGE-L) still leave considerable room for improvement. In addition, the dataset provides a natural setting for new research on explanation, as many questions require reasoning to construct answers. We hope the dataset spurs further advances in complex question-answering by the community. ARC-DA is available at https://allenai.org/data/arc-da
翻訳日:2021-02-08 20:45:49 公開日:2021-02-05
# (参考訳) ディープニューラルネットワークを用いたアゼルバイジャン語のスペル補正

Spell Correction for Azerbaijani Language using Deep Neural Networks ( http://arxiv.org/abs/2102.03218v1 )

ライセンス: CC BY 4.0
Ahmad Ahmadzade and Saber Malekzadeh(参考訳) スペル補正は、テキスト中の正書ミスの検出と修正に使用される。 ほとんどの場合、文字列類似の方法で伝統的な辞書の検索は、英語のようなより複雑な構造を持つ言語に適しています。 しかし、アゼルバイジャン語はより複雑な構造を持ち、その形態的構造のため、単語の派生は、単語に接尾辞や接尾辞を加えることから派生した言葉が豊富である。 そこで本論文では,アゼルバイジャン語のスペル補正を開発するために,アテンション機構付きシーケンスモデルを用いた。 合計12000の誤りと正しい文ペアがトレーニングに使用され、モデルは1000の現実世界のミススペルされた単語でテストされ、F1スコアの結果は距離0で75%、距離1で90%、距離2で96%です。

Spell correction is used to detect and correct orthographic mistakes in texts. Most of the time, traditional dictionary lookup with string similarity methods is suitable for the languages that have a less complex structure such as the English language. However, the Azerbaijani language has a more complex structure and due to its morphological structure, the derivation of words is plenty that several words are derived from adding suffices, affixes to the words. Therefore, in this paper sequence to sequence model with an attention mechanism is used to develop spelling correction for Azerbaijani. Total 12000 wrong and correct sentence pairs used for training, and the model is tested on 1000 real-world misspelled words and F1-score results are 75% for distance 0, 90% for distance 1, and 96% for distance 2.
翻訳日:2021-02-08 20:31:07 公開日:2021-02-05
# (参考訳) サッカーにおける活動認識のための投影後処理による状態推定の改善

Improving state estimation through projection post-processing for activity recognition in football ( http://arxiv.org/abs/2102.03310v1 )

ライセンス: CC BY 4.0
Micha{\l} Ciszewski, Jakob S\"ohl, Geurt Jongbloed(参考訳) 過去10年間、人間の活動認識への関心は高まっている。 最も一般的には、ボディパーツに取り付けられたセンサーから来る生データは無注釈であり、高速なラベリング方法を必要とします。 手順の一部は、適切なパフォーマンス対策の選択または設計です。 分類結果における状態遷移の時間的不確実性の問題に対処する新しい性能尺度である局所時間シフト尺度を提案する。 当社の主な貢献は,バイナリアクティビティ認識のための新しいポストプロセッシング手法である。 推定における非現実的な短いアクティビティを補正することにより、分類方法の精度を向上させる。

The past decade has seen an increased interest in human activity recognition. Most commonly, the raw data coming from sensors attached to body parts are unannotated, which creates a need for fast labelling method. Part of the procedure is choosing or designing an appropriate performance measure. We propose a new performance measure, the Locally Time-Shifted Measure, which addresses the issue of timing uncertainty of state transitions in the classification result. Our main contribution is a novel post-processing method for binary activity recognition. It improves the accuracy of the classification methods, by correcting for unrealistically short activities in the estimate.
翻訳日:2021-02-08 19:47:13 公開日:2021-02-05
# (参考訳) Metric Embedding Sub-discrimination Study

Metric Embedding Sub-discrimination Study ( http://arxiv.org/abs/2102.03176v1 )

ライセンス: CC BY 4.0
Ryan Furlong, Vincent O'Brien, James Garland, Francisco Dominguez-Mateos(参考訳) 深度メトリック学習は、ゼロショット、ワンショット、または数ショット学習を達成するために、さまざまな識別タスクで使用されるテクニックです。 適用されると、システムは埋め込み空間を学習し、例えば \gls{knn} のような非パラメトリックアプローチを使ってテスト時間中に特徴を判別することができる。 本研究では, この埋め込み空間に含まれる特徴情報が, 特徴空間におけるサブ差別にどの程度利用できるかを検討する。 本研究は, 識別埋め込みにおいて, 下位識別の問題を解決するために必要な有意属性に関する情報を埋め込みの中に保存し, この固有情報が下位識別タスクの実行に利用できることを示す。 これを証明するために、まず顔を識別するために設計された埋め込みは、追加のトレーニングなしで、性別、年齢、肌の色などのいくつかの属性を区別するために使用される。 この研究は、2つの研究ケースに分けられます:すべての埋め込みが同じアイデンティティから考慮されたクラス内識別と、埋め込みが異なるアイデンティティを表すクラス外識別です。 研究の後、異なるアイデンティティに共通の属性を推論することは可能であることが示されています。 このシステムは、性別、肌のトーン、年齢について、特に99.3\%、99.3\%、94.1\%の高精度なクラスサブ差別を行うこともできる。 クラス内テストでは、感情が確実に分類されないようなよりニュアンスのある特性と、厚いフレームのメガネやひげなどのより明確な特性が混ざり合い、それぞれ97.2\%と95.8\%の精度を達成している。

Deep metric learning is a technique used in a variety of discriminative tasks to achieve zero-shot, one-shot or few-shot learning. When applied, the system learns an embedding space where a non-parametric approach, such as \gls{knn}, can be used to discriminate features during test time. This work focuses on investigating to what extent feature information contained within this embedding space can be used to carry out sub-discrimination in the feature space. The study shows that within a discrimination embedding, the information on the salient attributes needed to solve the problem of sub-discrimination is saved within the embedding and that this inherent information can be used to carry out sub-discriminative tasks. To demonstrate this, an embedding designed initially to discriminate faces is used to differentiate several attributes such as gender, age and skin tone, without any additional training. The study is split into two study cases: intra class discrimination where all the embeddings took into consideration are from the same identity; and extra class discrimination where the embeddings represent different identities. After the study, it is shown that it is possible to infer common attributes to different identities. The system can also perform extra class sub-discrimination with a high accuracy rate, notably 99.3\%, 99.3\% and 94.1\% for gender, skin tone, and age, respectively. Intra class tests show more mixed results with more nuanced attributes like emotions not being reliably classified, while more distinct attributes such as thick-framed glasses and beards, achieving 97.2\% and 95.8\% accuracy, respectively.
翻訳日:2021-02-08 19:26:05 公開日:2021-02-05
# (参考訳) charactergan: 少数のキーポイントキャラクターアニメーションとレポジトリ

CharacterGAN: Few-Shot Keypoint Character Animation and Reposing ( http://arxiv.org/abs/2102.03141v1 )

ライセンス: CC BY-SA 4.0
Tobias Hinz and Matthew Fisher and Oliver Wang and Eli Shechtman and Stefan Wermter(参考訳) 与えられた文字のサンプル数(8~15)でしか訓練できない生成モデルである CharacterGAN について紹介します。 我々のモデルはキーポイント位置に基づく新しいポーズを生成し、インタラクティブなフィードバックを提供しながらリアルタイムで修正可能であり、直感的な再現とアニメーションを可能にする。 非常に限られたトレーニングサンプルしか持っていないので、重要な課題のひとつは、(dis)独占に対処する方法です。 手が身体の後ろまたは前に動くとき。 そこで我々は,入力キーポイントを個別に処理する異なる層に明示的に分割する新しい階層化手法を提案する。 これらの層はキャラクタの異なる部分を表し、強い(非)閉塞でも現実的な結果を得るのに役立つ強い暗黙のバイアスを与える。 個々のレイヤの特徴を組み合わせるために、すべてのキーポイントに条件付き適応スケーリングアプローチを使用します。 最後に、テスト時に極端な分布外ポーズで発生する歪みアーティファクトを減らすためのマスク接続制約を紹介します。 提案手法は,最近のベースラインを上回っており,多様なキャラクタに対して現実的なアニメーションを作成する。 また、当社のモデルは、例えば、左右向きのプロファイルのように、個別の状態変化を処理できること、異なるレイヤが実際には、これらのレイヤ内の各キーポイントに特有の特徴を学習できること、より多くのデータが利用可能になると、モデルがより大きなデータセットにスケールできることを示します。

We introduce CharacterGAN, a generative model that can be trained on only a few samples (8 - 15) of a given character. Our model generates novel poses based on keypoint locations, which can be modified in real time while providing interactive feedback, allowing for intuitive reposing and animation. Since we only have very limited training samples, one of the key challenges lies in how to address (dis)occlusions, e.g. when a hand moves behind or in front of a body. To address this, we introduce a novel layering approach which explicitly splits the input keypoints into different layers which are processed independently. These layers represent different parts of the character and provide a strong implicit bias that helps to obtain realistic results even with strong (dis)occlusions. To combine the features of individual layers we use an adaptive scaling approach conditioned on all keypoints. Finally, we introduce a mask connectivity constraint to reduce distortion artifacts that occur with extreme out-of-distribution poses at test time. We show that our approach outperforms recent baselines and creates realistic animations for diverse characters. We also show that our model can handle discrete state changes, for example a profile facing left or right, that the different layers do indeed learn features specific for the respective keypoints in those layers, and that our model scales to larger datasets when more data is available.
翻訳日:2021-02-08 19:08:09 公開日:2021-02-05
# (参考訳) 迷彩物体検出のための深部テクスチャ認識機能

Deep Texture-Aware Features for Camouflaged Object Detection ( http://arxiv.org/abs/2102.02996v1 )

ライセンス: CC BY 4.0
Jingjing Ren and Xiaowei Hu and Lei Zhu and Xuemiao Xu and Yangyang Xu and Weiming Wang and Zijun Deng and Pheng-Ann Heng(参考訳) Camouflagedオブジェクト検出は、周囲に類似したテクスチャを持つオブジェクトを識別することを目的とした挑戦的なタスクです。 本稿では,複数のテクスチャアウェアリファインメントモジュールを定式化し,深層畳み込みニューラルネットワークでテクスチャアウェアの特徴を学習することにより,迷彩物体と迷彩物体の背景との微妙なテクスチャ差を増幅する。 テクスチャ・アウェア・リファインメント・モジュールは、特徴応答の共分散行列を計算し、テクスチャ情報を抽出し、アフィニティ・ロスをデザインし、カモフラージュされたオブジェクトと背景のテクスチャを分離するのに役立つパラメータ・マップのセットを学習し、境界一貫性の損失を採用してオブジェクトの詳細構造を探索し、カモフラージュされたオブジェクト検出のためのベンチマークデータセット上のネットワークを定性および定量的に評価する。 実験の結果,本手法は様々な最先端手法を大差で上回っていることがわかった。

Camouflaged object detection is a challenging task that aims to identify objects having similar texture to the surroundings. This paper presents to amplify the subtle texture difference between camouflaged objects and the background for camouflaged object detection by formulating multiple texture-aware refinement modules to learn the texture-aware features in a deep convolutional neural network. The texture-aware refinement module computes the covariance matrices of feature responses to extract the texture information, designs an affinity loss to learn a set of parameter maps that help to separate the texture between camouflaged objects and the background, and adopts a boundary-consistency loss to explore the object detail structures.We evaluate our network on the benchmark dataset for camouflaged object detection both qualitatively and quantitatively. Experimental results show that our approach outperforms various state-of-the-art methods by a large margin.
翻訳日:2021-02-08 18:55:54 公開日:2021-02-05
# (参考訳) ポーズ分解と意味相関による人物画像の構造認識

Structure-aware Person Image Generation with Pose Decomposition and Semantic Correlation ( http://arxiv.org/abs/2102.02972v1 )

ライセンス: CC BY 4.0
Jilin Tang, Yi Yuan, Tianjia Shao, Yong Liu, Mengmeng Wang, Kun Zhou(参考訳) 本稿では,人物像を音源位置から新たな対象位置へ移動させることを目的とした姿勢誘導型人物画像生成の課題を,音源の外観を維持しながら解決する。 大規模空間変換処理における標準CNNの非効率性から,高品質人像生成のための構造認識フローに基づく手法を提案する。 具体的には、人体の複雑な全体的なポーズの変化を学習する代わりに、人体を異なる意味部分(例えば、頭、胴体、脚)に分解し、異なるネットワークを適用して、これらの部分のフローフィールドを別々に予測する。 さらに, ネットワークモジュールを慎重に設計し, ヒトの部位内および部位間の特徴の局所的およびグローバル的意味的相関を効果的に把握する。 実験結果から,提案手法はポーズの相違が大きい場合に高品質な結果が得られ,定性比較と定量的比較の両方において最先端の手法よりも優れることが示された。

In this paper we tackle the problem of pose guided person image generation, which aims to transfer a person image from the source pose to a novel target pose while maintaining the source appearance. Given the inefficiency of standard CNNs in handling large spatial transformation, we propose a structure-aware flow based method for high-quality person image generation. Specifically, instead of learning the complex overall pose changes of human body, we decompose the human body into different semantic parts (e.g., head, torso, and legs) and apply different networks to predict the flow fields for these parts separately. Moreover, we carefully design the network modules to effectively capture the local and global semantic correlations of features within and among the human parts respectively. Extensive experimental results show that our method can generate high-quality results under large pose discrepancy and outperforms state-of-the-art methods in both qualitative and quantitative comparisons.
翻訳日:2021-02-08 18:43:21 公開日:2021-02-05
# (参考訳) マルチモーダル文書に基づくメタ知識抽出

Metaknowledge Extraction Based on Multi-Modal Documents ( http://arxiv.org/abs/2102.02971v1 )

ライセンス: CC BY 4.0
Shukan Liu, Ruilin Xu, Boying Geng, Qiao Sun, Li Duan, and Yiming Liu(参考訳) 大規模知識ベースにおける三重知識は、構造論理に欠けており、知識階層の実行に問題がある可能性が高い。 本稿では,構造的知識構築を目的とした知識工学研究にメタ知識の概念を導入する。 そのため、メタ知識抽出フレームワークおよび文書構造ツリーモデルを提供し、メタ知識要素(タイトル、著者、要約、セクション、段落など)を抽出、整理する。 は、マルチモーダル文書から構造知識を抽出することが可能であるように)。 実験の結果,メタ知識要素抽出の有効性が実証された。 一方、metaknowledgeが正確に何であり、どのように生成するかを示す詳細な例が提供されている。 本論文の最後に,メタナレッジアプリケーションのタスクフローと知識とメタナレッジの関連性を提案し,分析する。

The triple-based knowledge in large-scale knowledge bases is most likely lacking in structural logic and problematic of conducting knowledge hierarchy. In this paper, we introduce the concept of metaknowledge to knowledge engineering research for the purpose of structural knowledge construction. Therefore, the Metaknowledge Extraction Framework and Document Structure Tree model are presented to extract and organize metaknowledge elements (titles, authors, abstracts, sections, paragraphs, etc.), so that it is feasible to extract the structural knowledge from multi-modal documents. Experiment results have proved the effectiveness of metaknowledge elements extraction by our framework. Meanwhile, detailed examples are given to demonstrate what exactly metaknowledge is and how to generate it. At the end of this paper, we propose and analyze the task flow of metaknowledge applications and the associations between knowledge and metaknowledge.
翻訳日:2021-02-08 18:30:36 公開日:2021-02-05
# (参考訳) 「そうは思わない」-エージェント比較のための不一致に基づく政策要約

"I Don't Think So": Disagreement-Based Policy Summaries for Comparing Agents ( http://arxiv.org/abs/2102.03064v1 )

ライセンス: CC BY-SA 4.0
Yotam Amitai and Ofra Amir(参考訳) 人工知能が台頭すると、自律エージェントとの人間の相互作用がより頻繁になります。 効果的な人間とエージェントのコラボレーションは、人間がエージェントの行動を理解しなければならない。そうしないと、生産性の低下、誤用、フラストレーション、さらには危険につながる可能性があります。 エージェント戦略要約手法は、デモンストレーションを通じてエージェントのユーザへの戦略を記述するために使用される。 要約の目的は、ある重要な基準によって選択された一連の世界の州でその行動を示すことによって、エージェントの適性に対するユーザーの理解を最大化することです。 有用であることが示されているが,これらの手法は,エージェントごとの要約を独立に生成するので,エージェントの挙動を比較するタスクをサポートするのに限られていることが示される。 本稿では,エージェントが最善の行動方針に異を唱える状態を識別し,ランク付けすることで,エージェントの方針の違いを強調する,コントラスト的な要約を生成する手法を提案する。 我々は,参加者がエージェント選択課題に直面するユーザ調査を行う。 その結果,従来の戦略要約アルゴリズムであるhighlightsを用いて生成した要約に比べて,新たな不一致に基づく要約がユーザパフォーマンスの向上に繋がることがわかった。

With Artificial Intelligence on the rise, human interaction with autonomous agents becomes more frequent. Effective human-agent collaboration requires that the human understands the agent's behavior, as failing to do so may lead to reduced productiveness, misuse, frustration and even danger. Agent strategy summarization methods are used to describe the strategy of an agent to its destined user through demonstration. The summary's purpose is to maximize the user's understanding of the agent's aptitude by showcasing its behaviour in a set of world states, chosen by some importance criteria. While shown to be useful, we show that these methods are limited in supporting the task of comparing agent behavior, as they independently generate a summary for each agent. In this paper, we propose a novel method for generating contrastive summaries that highlight the differences between agent's policies by identifying and ranking states in which the agents disagree on the best course of action. We conduct a user study in which participants face an agent selection task. Our results show that the novel disagreement-based summaries lead to improved user performance compared to summaries generated using HIGHLIGHTS, a previous strategy summarization algorithm.
翻訳日:2021-02-08 18:12:03 公開日:2021-02-05
# (参考訳) GraphPlan:イベントグラフによる計画によるストーリー生成

GraphPlan: Story Generation by Planning with Event Graph ( http://arxiv.org/abs/2102.02977v1 )

ライセンス: CC BY 4.0
Hong Chen, Raphael Shu, Hiroya Takamura, Hideki Nakayama(参考訳) ストーリー生成は、意味のあるストーリーを構成するために複数の文章を自動的に生成することを目的としています。 このタスクは、文の意味的意味とストーリーイベントの因果関係を高度に理解する必要があるため、難しい。 シークエンス・ツー・シークエンス・モデルは通常そのような知識を得られず、論理的正しさは戦略的計画なしではテキスト生成モデルでは保証できない。 本稿では,イベントグラフを補助するイベント列の計画に焦点をあて,イベントを使用してジェネレータを誘導する。 既存の作業のように,シーケンス・ツー・シーケンスモデルを用いてストーリーラインを出力する代わりに,イベントグラフ上を歩くことでイベントシーケンスを生成することを提案する。 イベントグラフはコーパスに基づいて自動的に構築される。 提案手法を評価するため,イベントプランニングとストーリー生成の両方で人間による評価を行う。 提案手法は,人間による大規模アノテーションの結果に基づいて,より論理的に正しいイベントシーケンスとストーリーを生成する。

Story generation is a task that aims to automatically produce multiple sentences to make up a meaningful story. This task is challenging because it requires high-level understanding of semantic meaning of sentences and causality of story events. Naive sequence-to-sequence models generally fail to acquire such knowledge, as the logical correctness can hardly be guaranteed in a text generation model without the strategic planning. In this paper, we focus on planning a sequence of events assisted by event graphs, and use the events to guide the generator. Instead of using a sequence-to-sequence model to output a storyline as in some existing works, we propose to generate an event sequence by walking on an event graph. The event graphs are built automatically based on the corpus. To evaluate the proposed approach, we conduct human evaluation both on event planning and story generation. Based on large-scale human annotation results, our proposed approach is shown to produce more logically correct event sequences and stories.
翻訳日:2021-02-08 17:58:58 公開日:2021-02-05
# (参考訳) ブラックボックスニューラルマシン翻訳のための事前編集の理解

Understanding Pre-Editing for Black-Box Neural Machine Translation ( http://arxiv.org/abs/2102.02955v1 )

ライセンス: CC BY-SA 4.0
Rei Miyata, Atsushi Fujita(参考訳) 事前編集(pre-editing)は、ソーステキスト(st)を機械翻訳(mt)によりより良い品質で翻訳できるように修正するプロセスである。 ブラックボックス型ニューラルMT (NMT) の予測不可能性にもかかわらず, 様々な実用的MT症例にプレ編集が適用されている。 多くの研究は、特定の設定で事前編集する方法の有効性を実証しているが、これまでのところ、事前編集とは何か、ブラックボックスnmtでどのように機能するかの深い理解が欠けている。 このような理解を引き出すために、私たちは人間の事前編集プラクティスを幅広く調査した。 まず,ST毎の最小編集をインクリメンタルに記録するプロトコルを実装し,3つの翻訳方向,2つのMTシステム,4つのテキストドメインにまたがる事前編集の6,652のインスタンスを収集した。 次に, 事前編集STの特性, 事前編集操作の多様性, NMT出力に対する事前編集操作の影響の3つの観点から分析を行った。 本研究は,(1)STの意味の明示性の向上と,その構文構造がSTの短縮・簡易化よりも優れた翻訳を得る上で重要であること,(2)NMTに対する事前編集の影響は概ね予測できないが,編集操作の種類によってNMT出力に変化が生じる傾向があること,などの知見を得た。

Pre-editing is the process of modifying the source text (ST) so that it can be translated by machine translation (MT) in a better quality. Despite the unpredictability of black-box neural MT (NMT), pre-editing has been deployed in various practical MT use cases. Although many studies have demonstrated the effectiveness of pre-editing methods for particular settings, thus far, a deep understanding of what pre-editing is and how it works for black-box NMT is lacking. To elicit such understanding, we extensively investigated human pre-editing practices. We first implemented a protocol to incrementally record the minimum edits for each ST and collected 6,652 instances of pre-editing across three translation directions, two MT systems, and four text domains. We then analysed the instances from three perspectives: the characteristics of the pre-edited ST, the diversity of pre-editing operations, and the impact of the pre-editing operations on NMT outputs. Our findings include the following: (1) enhancing the explicitness of the meaning of an ST and its syntactic structure is more important for obtaining better translations than making the ST shorter and simpler, and (2) although the impact of pre-editing on NMT is generally unpredictable, there are some tendencies of changes in the NMT outputs depending on the editing operation types.
翻訳日:2021-02-08 17:47:02 公開日:2021-02-05
# (参考訳) Minimax Offline Reinforcement Learningの有限サンプル分析:完全性、高速速度、および第一次効率

Finite Sample Analysis of Minimax Offline Reinforcement Learning: Completeness, Fast Rates and First-Order Efficiency ( http://arxiv.org/abs/2102.02981v1 )

ライセンス: CC BY 4.0
Masatoshi Uehara, Masaaki Imaizumi, Nan Jiang, Nathan Kallus, Wen Sun, Tengyang Xie(参考訳) 最近の最小値法を用いて推定した場合の限界重みと$q$-関数に対する関数近似を用いた強化学習におけるオフポリシ評価(OPE)の理論的評価を行う。 実現可能性と完全性の仮定の様々な組み合わせの下で、ミニマックスアプローチは、臨界不等式 \citep{bartlett2005} を特徴とする重みと品質関数の高速収束を達成することができることを示す。 この結果に基づき、OPEの収束率を分析します。 特に、OPEが実現可能な新規な代替完全性条件を導入し、非立方体環境における第一次効率、すなわち最短係数を先導的に有する最初の有限サンプル結果を提示する。

We offer a theoretical characterization of off-policy evaluation (OPE) in reinforcement learning using function approximation for marginal importance weights and $q$-functions when these are estimated using recent minimax methods. Under various combinations of realizability and completeness assumptions, we show that the minimax approach enables us to achieve a fast rate of convergence for weights and quality functions, characterized by the critical inequality \citep{bartlett2005}. Based on this result, we analyze convergence rates for OPE. In particular, we introduce novel alternative completeness conditions under which OPE is feasible and we present the first finite-sample result with first-order efficiency in non-tabular environments, i.e., having the minimal coefficient in the leading term.
翻訳日:2021-02-08 16:47:19 公開日:2021-02-05
# (参考訳) 情報伝達における学習 : SGLDの一般化能力の理解

Learning While Dissipating Information: Understanding the Generalization Capability of SGLD ( http://arxiv.org/abs/2102.02976v1 )

ライセンス: CC BY 4.0
Hao Wang, Yizhe Huang, Rui Gao, Flavio P. Calmon(参考訳) 学習アルゴリズムの一般化能力を理解することは、統計学習理論の中心である。 本稿では、深層ニューラルネットワーク(DNN)の訓練に広く用いられる最適化器である確率勾配Langevin Dynamics(SGLD)の一般化ギャップについて検討する。 sgldを情報理論レンズで解析することで,アルゴリズム依存の一般化を導出する。 sgldは、初期の学習段階から情報を散逸しながら、各イテレーションでパラメータを更新することでデータから学習します。 我々の境界はまた、損失景観の特定の種類の「シャープネス」をキャプチャする勾配の分散も含んでいる。 本論文の主な証明技術は、情報理論の基本概念である強いデータ処理の不等式と、オットー・ビラニのHWI不等式に依存する。 最後に, 数値実験により, 真の一般化ギャップの挙動を予測できることを実証した。

Understanding the generalization capability of learning algorithms is at the heart of statistical learning theory. In this paper, we investigate the generalization gap of stochastic gradient Langevin dynamics (SGLD), a widely used optimizer for training deep neural networks (DNNs). We derive an algorithm-dependent generalization bound by analyzing SGLD through an information-theoretic lens. Our analysis reveals an intricate trade-off between learning and information dissipation: SGLD learns from data by updating parameters at each iteration while dissipating information from early training stages. Our bound also involves the variance of gradients which captures a particular kind of "sharpness" of the loss landscape. The main proof techniques in this paper rely on strong data processing inequalities -- a fundamental concept in information theory -- and Otto-Villani's HWI inequality. Finally, we demonstrate our bound through numerical experiments, showing that it can predict the behavior of the true generalization gap.
翻訳日:2021-02-08 16:46:19 公開日:2021-02-05
# (参考訳) 自律飛行ロボットのための機械学習に基づく自動設計空間探索

Machine Learning-Based Automated Design Space Exploration for Autonomous Aerial Robots ( http://arxiv.org/abs/2102.02988v1 )

ライセンス: CC BY 4.0
Srivatsan Krishnan, Zishen Wan, Kshitij Bharadwaj, Paul Whatmough, Aleksandra Faust, Sabrina Neuman, Gu-Yeon Wei, David Brooks, Vijay Janapa Reddi(参考訳) 自律飛行ロボットのためのドメイン固有アーキテクチャの構築は、オンボード計算を設計するための体系的な方法論の欠如のために困難である。 我々は,F-1ルーフラインと呼ばれる新しい性能モデルを導入し,自律飛行ロボットのサイバー(センサレート,計算性能)と,マシンの性能に影響を与える物理的コンポーネント(身体力学)の両方を考慮したバランスのとれた計算システムの構築を支援する。 我々はF-1を用いて、サイバー物理の共同設計の必要性を実証するために、オンボードプラットフォームでよく使われる学習ベースの自律アルゴリズムを特徴付ける。 サイバー物理設計空間を自動でナビゲートするために、AutoPilotを導入します。 このプッシュボタンフレームワークは、f-1モデルに導かれた高レベルの仕様から、空中ロボットのサイバー物理コンポーネントの共設計を自動化する。 autopilotはベイズ最適化を使用して自律アルゴリズムとハードウェアアクセラレータを自動的に設計し、さまざまなサイバー物理パラメータを考慮し、異なるロボットやセンサーフレームレートの異なるタスクレベルの複雑度の下で最適な設計を生成する。 その結果、AutoPilotが生成した設計では、平均して2倍のミッション時間がベースラインのアプローチで実行され、バッテリエネルギーが保たれる。

Building domain-specific architectures for autonomous aerial robots is challenging due to a lack of systematic methodology for designing onboard compute. We introduce a novel performance model called the F-1 roofline to help architects understand how to build a balanced computing system for autonomous aerial robots considering both its cyber (sensor rate, compute performance) and physical components (body-dynamics) that affect the performance of the machine. We use F-1 to characterize commonly used learning-based autonomy algorithms with onboard platforms to demonstrate the need for cyber-physical co-design. To navigate the cyber-physical design space automatically, we subsequently introduce AutoPilot. This push-button framework automates the co-design of cyber-physical components for aerial robots from a high-level specification guided by the F-1 model. AutoPilot uses Bayesian optimization to automatically co-design the autonomy algorithm and hardware accelerator while considering various cyber-physical parameters to generate an optimal design under different task level complexities for different robots and sensor framerates. As a result, designs generated by AutoPilot, on average, lower mission time up to 2x over baseline approaches, conserving battery energy.
翻訳日:2021-02-08 16:22:28 公開日:2021-02-05
# (参考訳) GIBBON:汎用情報ベースベイズ最適化

GIBBON: General-purpose Information-Based Bayesian OptimisatioN ( http://arxiv.org/abs/2102.03324v1 )

ライセンス: CC BY 4.0
Henry B. Moss, David S. Leslie, Javier Gonzalez, Paul Rayson(参考訳) 本稿では,ベイズ最適化(BO)の一般的なアプローチである最大値エントロピー探索の汎用的拡張について述べる。 連続的および高度に構造化された離散空間間の雑音性、多相性、バッチ最適化など、BO問題を解くための情報理論量である情報ゲインについて、新しい近似が提案されている。 これまで、これらの問題は情報理論BOの中で個別に取り組まれており、計算軽量な情報理論アプローチが提案されていないバッチBOを除いて、それぞれ異なる高度な近似スキームを必要とする。 GIBBON(General-purpose Information-Based Bayesian OptimisatioN)は、計算オーバーヘッドを大幅に削減しながら、上記のすべてのアプローチに適した単一の原則化されたフレームワークを提供します。 さらに、ギボンは問題の探索空間がユークリッドである必要はないので、分子探索や遺伝子設計のような一般的な高構造な入力空間よりもバッチboをサポートする最初の高性能で計算量の多い獲得関数である。 さらに, GIBBONの原理的導出は, 決定点過程に基づく一般的なBOヒューリスティックの自然な解釈をもたらす。 最後に、GIBBONを一連の合成ベンチマークタスク、分子探索ループ、および制御可能な実験ノイズの問題に対する挑戦的なバッチマルチファイダリティフレームワークの一部として分析します。

This paper describes a general-purpose extension of max-value entropy search, a popular approach for Bayesian Optimisation (BO). A novel approximation is proposed for the information gain -- an information-theoretic quantity central to solving a range of BO problems, including noisy, multi-fidelity and batch optimisations across both continuous and highly-structured discrete spaces. Previously, these problems have been tackled separately within information-theoretic BO, each requiring a different sophisticated approximation scheme, except for batch BO, for which no computationally-lightweight information-theoretic approach has previously been proposed. GIBBON (General-purpose Information-Based Bayesian OptimisatioN) provides a single principled framework suitable for all the above, out-performing existing approaches whilst incurring substantially lower computational overheads. In addition, GIBBON does not require the problem's search space to be Euclidean and so is the first high-performance yet computationally light-weight acquisition function that supports batch BO over general highly structured input spaces like molecular search and gene design. Moreover, our principled derivation of GIBBON yields a natural interpretation of a popular batch BO heuristic based on determinantal point processes. Finally, we analyse GIBBON across a suite of synthetic benchmark tasks, a molecular search loop, and as part of a challenging batch multi-fidelity framework for problems with controllable experimental noise.
翻訳日:2021-02-08 15:38:51 公開日:2021-02-05
# (参考訳) 電子メールとラフティング応答の理解 -- GPT-3を用いたアプローチ

Understanding Emails and Drafting Responses -- An Approach Using GPT-3 ( http://arxiv.org/abs/2102.03062v1 )

ライセンス: CC BY 4.0
Jonas Thiergart, Stefan Huber, Thomas \"Ubellacker(参考訳) 自然言語を理解して生成する能力を持つコンピュータシステムを提供することは、長年、エンジニアの挑戦だった。 自然言語処理(NLP)の最近の進歩は、OpenAIがリリースしたGPT-3言語モデルのように、どちらもある程度可能になっている。 本稿では,GPT-3を用いた電子メール通信の合理化の可能性を検討する。 まず,ソフトウェア工学の分野とデータ科学の分野から文献を抽出し,受信メールの理解と応答生成の技術的実現可能性を示す。 第二に、ビジネススタディとソフトウェアエンジニアリングの両方から知識を適用して、直面した課題に取り組む方法を特定します。 第3に、コストと市場需要を分析して、そのようなソリューションの経済性について論じる。 メール通信の合理化にGPT-3を適用することは、技術的にも経済的にも実現可能であると結論づけます。

Providing computer systems with the ability to understand and generate natural language has long been a challenge of engineers. Recent progress in natural language processing (NLP), like the GPT-3 language model released by OpenAI, has made both possible to an extent. In this paper, we explore the possibility of rationalising email communication using GPT-3. First, we demonstrate the technical feasibility of understanding incoming emails and generating responses, drawing on literature from the disciplines of software engineering as well as data science. Second, we apply knowledge from both business studies and, again, software engineering to identify ways to tackle challenges we encountered. Third, we argue for the economic viability of such a solution by analysing costs and market demand. We conclude that applying GPT-3 to rationalising email communication is feasible both technically and economically.
翻訳日:2021-02-08 15:37:43 公開日:2021-02-05
# Co-Mixup:スーパーモジュラダイバーシティとSaliency Guided Joint Mixup

Co-Mixup: Saliency Guided Joint Mixup with Supermodular Diversity ( http://arxiv.org/abs/2102.03065v1 )

ライセンス: Link先を確認
Jang-Hyun Kim, Wonho Choo, Hosan Jeong, Hyun Oh Song(参考訳) ディープニューラルネットワークはトレーニング分布に適合する優れた性能を示すが、テスト分布に対するネットワークの一般化性能の向上と入力摂動に対する感度の堅牢性は依然として課題である。 それらに部分的に対処するために、いくつかのミックスアップに基づく拡張戦略が提案されているが、最適化の観点からは、各入力データ内の監視信号の最適利用方法が不明である。 本稿では,各混合データのデータ塩分率を最大化し,構築した混合データの超モジュラー多様性を助長する混合データのバッチ構築について,バッチ混成に関する新たな視点を提案する。 このことは、部分モジュラ函数の差を最小限に抑える新しい離散最適化問題をもたらす。 また,ニューラルネットワークのトレーニングに適した各ミニバッチ毎の効率的な混合計算のための,効率的なモジュラー近似に基づく反復的部分モジュラー最小化アルゴリズムを提案する。 提案手法は,他のミックスアップ法と比較して,アート一般化,キャリブレーション,弱い教師付き局所化結果が得られることを示す。 ソースコードはhttps://github.com/snu-mllab/co-mixupで入手できる。

While deep neural networks show great performance on fitting to the training distribution, improving the networks' generalization performance to the test distribution and robustness to the sensitivity to input perturbations still remain as a challenge. Although a number of mixup based augmentation strategies have been proposed to partially address them, it remains unclear as to how to best utilize the supervisory signal within each input data for mixup from the optimization perspective. We propose a new perspective on batch mixup and formulate the optimal construction of a batch of mixup data maximizing the data saliency measure of each individual mixup data and encouraging the supermodular diversity among the constructed mixup data. This leads to a novel discrete optimization problem minimizing the difference between submodular functions. We also propose an efficient modular approximation based iterative submodular minimization algorithm for efficient mixup computation per each minibatch suitable for minibatch based neural network training. Our experiments show the proposed method achieves the state of the art generalization, calibration, and weakly supervised localization results compared to other mixup methods. The source code is available at https://github.com/snu-mllab/Co-Mixup.
翻訳日:2021-02-08 14:53:04 公開日:2021-02-05
# 対数回帰における減量環境の高度化と逆行訓練

Adversarial Training Makes Weight Loss Landscape Sharper in Logistic Regression ( http://arxiv.org/abs/2102.02950v1 )

ライセンス: Link先を確認
Masanori Yamada, Sekitoshi Kanai, Tomoharu Iwata, Tomokatsu Takahashi, Yuki Yamanaka, Hiroshi Takahashi, Atsutoshi Kumagai(参考訳) 対人訓練は、対人例に対する堅牢なモデルを学ぶために積極的に研究されている。 最近の研究では、敵対的訓練を受けたモデルが、重量に対する損失変化である減量ランドスケープが鋭い場合、敵対的例で一般化性能を低下させることが示されている。 残念なことに、逆行訓練は体重減少の風景を鋭くすることを示したが、この現象は理論的には解明されていない。 そこで本稿では,この現象を理論的に解析する。 第1ステップとして,L2ノルム制約による対向的トレーニングが線形ロジスティック回帰モデルにおける重量損失のランドスケープを鋭くすることを示す。 分析の結果, 減量環境の鋭さは, 対向訓練で使用される減量方向に整列した騒音が原因であることが明らかとなった。 線形ロジスティック回帰モデルにおいて, 対比訓練の騒音の大きさが増大するにつれて, 減量景観がシャープになることを理論的および実験的に確認した。 さらに、より一般的なケースとしてsoftmaxでResNet18で同じ現象を実験的に確認します。

Adversarial training is actively studied for learning robust models against adversarial examples. A recent study finds that adversarially trained models degenerate generalization performance on adversarial examples when their weight loss landscape, which is loss changes with respect to weights, is sharp. Unfortunately, it has been experimentally shown that adversarial training sharpens the weight loss landscape, but this phenomenon has not been theoretically clarified. Therefore, we theoretically analyze this phenomenon in this paper. As a first step, this paper proves that adversarial training with the L2 norm constraints sharpens the weight loss landscape in the linear logistic regression model. Our analysis reveals that the sharpness of the weight loss landscape is caused by the noise aligned in the direction of increasing the loss, which is used in adversarial training. We theoretically and experimentally confirm that the weight loss landscape becomes sharper as the magnitude of the noise of adversarial training increases in the linear logistic regression model. Moreover, we experimentally confirm the same phenomena in ResNet18 with softmax as a more general case.
翻訳日:2021-02-08 14:52:44 公開日:2021-02-05
# Sliced Stein Disrepancy のためのアクティブスライス

Active Slices for Sliced Stein Discrepancy ( http://arxiv.org/abs/2102.03159v1 )

ライセンス: Link先を確認
Wenbo Gong, Kaibo Zhang, Yingzhen Li, Jos\'e Miguel Hern\'andez-Lobato(参考訳) Sliced Stein discrepancy (SSD)とそのカーネル化された変種は、良好なテストと高次元でのモデル学習において有望な成功を収めた。 理論上の優雅さにもかかわらず、その経験的性能は2つの分布を区別する最適なスライシング方向の探索に大きく依存する。 残念ながら、このタスクに対する従来の勾配に基づく最適化アプローチは、計算コストが高く、初期化に敏感であり、収束の理論的保証が欠如している。 これらの問題を2つのステップで解決する。 まず,ssdのカーネル化バージョンにおける最適スライシング方向の使用要件を緩和し,有限ランダムスライシング方向による結果の不一致を検証できることを示す理論的結果を提供する。 第2に,良好なスライシング方向が実用的性能に不可欠であることを踏まえ,能動部分空間構成とスペクトル分解の考え方に基づくスライシング方向を求める高速アルゴリズムを提案する。 適合性テストとモデル学習の実験は、我々のアプローチが性能の向上とより高速な収束の両方を達成することを示している。 特に,グラデーションベースの代替品と比較した場合,14~80倍の速度アップを示す。

Sliced Stein discrepancy (SSD) and its kernelized variants have demonstrated promising successes in goodness-of-fit tests and model learning in high dimensions. Despite their theoretical elegance, their empirical performance depends crucially on the search of optimal slicing directions to discriminate between two distributions. Unfortunately, previous gradient-based optimisation approaches for this task return sub-optimal results: they are computationally expensive, sensitive to initialization, and they lack theoretical guarantees for convergence. We address these issues in two steps. First, we provide theoretical results stating that the requirement of using optimal slicing directions in the kernelized version of SSD can be relaxed, validating the resulting discrepancy with finite random slicing directions. Second, given that good slicing directions are crucial for practical performance, we propose a fast algorithm for finding such slicing directions based on ideas of active sub-space construction and spectral decomposition. Experiments on goodness-of-fit tests and model learning show that our approach achieves both improved performance and faster convergence. Especially, we demonstrate a 14-80x speed-up in goodness-of-fit tests when comparing with gradient-based alternatives.
翻訳日:2021-02-08 14:52:27 公開日:2021-02-05
# 敵攻撃に対する防御としての最適輸送

Optimal Transport as a Defense Against Adversarial Attacks ( http://arxiv.org/abs/2102.03156v1 )

ライセンス: Link先を確認
Quentin Bouniot, Romaric Audigier, Ang\'elique Loesch(参考訳) ディープラーニングの分類器は現在、クラスの表現に欠陥があることが知られている。 敵の攻撃は、訓練されたモデルを誤認する特定の画像に対する人間の知覚不能な摂動を見つけることができます。 そのような攻撃から守る最も効果的な方法は、それらの分布を学ぶために生成された敵対的な例です。 以前の作業は、堅牢性を向上させるために、ドメイン適応と同じ方法でオリジナルと逆のイメージ表現を揃えることを目的としたものです。 しかし、空間と分布の幾何学を反映しないアプローチを用いて表現を部分的に整列させる。 また、防御モデル間の堅牢性を正確に比較することは困難です。 これまでは、固定的な摂動サイズを用いて評価されてきた。 しかし、防御されたモデルは、この摂動サイズのバリエーションと異なる反応をすることができる。 本稿では、最適な輸送理論を活用することにより、ドメイン適応の類似性をさらに一歩進めます。 地上距離を忠実に反映した分布間の損失を用いることを提案する。 これは、SAT(Sinkhorn Adversarial Training)、敵の攻撃に対するより堅牢な防御につながります。 そこで本研究では,異なる指標であるAUAC(Area Under the Accuracy Curve)を用いて,幅広い摂動サイズに対する敵攻撃に対するモデルの堅牢性をより正確に定量化することを提案する。 我々は、CIFAR-10とCIFAR-100データセットの両方で広範な実験を行い、我々の防衛が最先端技術よりも世界規模で堅牢であることを示す。

Deep learning classifiers are now known to have flaws in the representations of their class. Adversarial attacks can find a human-imperceptible perturbation for a given image that will mislead a trained model. The most effective methods to defend against such attacks trains on generated adversarial examples to learn their distribution. Previous work aimed to align original and adversarial image representations in the same way as domain adaptation to improve robustness. Yet, they partially align the representations using approaches that do not reflect the geometry of space and distribution. In addition, it is difficult to accurately compare robustness between defended models. Until now, they have been evaluated using a fixed perturbation size. However, defended models may react differently to variations of this perturbation size. In this paper, the analogy of domain adaptation is taken a step further by exploiting optimal transport theory. We propose to use a loss between distributions that faithfully reflect the ground distance. This leads to SAT (Sinkhorn Adversarial Training), a more robust defense against adversarial attacks. Then, we propose to quantify more precisely the robustness of a model to adversarial attacks over a wide range of perturbation sizes using a different metric, the Area Under the Accuracy Curve (AUAC). We perform extensive experiments on both CIFAR-10 and CIFAR-100 datasets and show that our defense is globally more robust than the state-of-the-art.
翻訳日:2021-02-08 14:51:49 公開日:2021-02-05
# 変異型オートエンコーダを用いた植物病分類の解明

Achieving Explainability for Plant Disease Classification with Disentangled Variational Autoencoders ( http://arxiv.org/abs/2102.03082v1 )

ライセンス: Link先を確認
Harshana Habaragamuwa, Yu Oishi, Kenichi Tanaka(参考訳) 農業画像認識タスクは、深層学習(DL)にますます依存している。 優れた性能にもかかわらず、DLが意思決定にどのようなロジックや特徴を使うのかを理解するのは難しい。 これは、分類タスクなどの意思決定で使用される論理や特徴を知ることが、検証、アルゴリズムの改善、データ改善のトレーニング、知識抽出などにおいて非常に重要であるため、dlベースの画像認識手法の実装と開発への道のりとなった。 このような問題を解決するため,我々は,最も重要な特徴の位置だけでなく,その特徴のバリエーションも示すことのできる,変分オートエンコーダアーキテクチャに基づく分類法を開発した。 プラントビレッジデータセットを用いて, 分類の精度を犠牲にすることなく, 許容できるレベルの説明可能性を達成した。 提案手法は一部の作物で疾患診断のために試験されたが、他の作物や他の画像分類タスクにも拡張できる。 今後は、この説明可能な人工知能アルゴリズムを、ジャガイモブラックレッグ病やジャガイモウイルスY(PVY)の同定などの疾患識別タスクや、その他の画像分類タスクに活用していきたいと考えています。

Agricultural image recognition tasks are becoming increasingly dependent on deep learning (DL). Despite its excellent performance, it is difficult to comprehend what type of logic or features DL uses in its decision making. This has become a roadblock for the implementation and development of DL-based image recognition methods because knowing the logic or features used in decision making, such as in a classification task, is very important for verification, algorithm improvement, training data improvement, knowledge extraction, etc. To mitigate such problems, we developed a classification method based on a variational autoencoder architecture that can show not only the location of the most important features but also what variations of that particular feature are used. Using the PlantVillage dataset, we achieved an acceptable level of explainability without sacrificing the accuracy of the classification. Although the proposed method was tested for disease diagnosis in some crops, the method can be extended to other crops as well as other image classification tasks. In the future, we hope to use this explainable artificial intelligence algorithm in disease identification tasks, such as the identification of potato blackleg disease and potato virus Y (PVY), and other image classification tasks.
翻訳日:2021-02-08 14:51:11 公開日:2021-02-05
# CF-GN Explainer: グラフニューラルネットワークの反実例

CF-GNNExplainer: Counterfactual Explanations for Graph Neural Networks ( http://arxiv.org/abs/2102.03322v1 )

ライセンス: Link先を確認
Ana Lucic, Maartje ter Hoeve, Gabriele Tolomei, Maarten de Rijke, Fabrizio Silvestri(参考訳) グラフニューラルネットワーク(gnns)は、現実世界のアプリケーションで期待が高まり、その予測を理解することへの関心が高まっている。 しかし、GNNから予測を説明する既存の方法は、リコースの機会を提供しません。特定のインスタンスの予測を考えると、予測を変更する方法を理解したいのです。 CF-GNNExplainer:GNNsの反実説明を生成する最初の方法、すなわち、予測が変化するような入力グラフデータへの最小限の摂動を提案する。 エッジ削除のみを使用して、GNN説明のために広く使用されている3つのデータセットにまたがるほとんどのインスタンスの反実例を生成し、平均で3つ未満のエッジを削除し、少なくとも94%の精度で生成することができます。 これは、CF-GNNExplainerが元々の予測に不可欠なエッジを取り除き、最小限の偽例をもたらすことを示している。

Graph neural networks (GNNs) have shown increasing promise in real-world applications, which has caused an increased interest in understanding their predictions. However, existing methods for explaining predictions from GNNs do not provide an opportunity for recourse: given a prediction for a particular instance, we want to understand how the prediction can be changed. We propose CF-GNNExplainer: the first method for generating counterfactual explanations for GNNs, i.e., the minimal perturbations to the input graph data such that the prediction changes. Using only edge deletions, we find that we are able to generate counterfactual examples for the majority of instances across three widely used datasets for GNN explanations, while removing less than 3 edges on average, with at least 94% accuracy. This indicates that CF-GNNExplainer primarily removes edges that are crucial for the original predictions, resulting in minimal counterfactual examples.
翻訳日:2021-02-08 14:50:16 公開日:2021-02-05
# ロバスト行列回復におけるサブグラデーション法の暗黙的正規化:アウトプライヤを脅かすな

Implicit Regularization of Sub-Gradient Method in Robust Matrix Recovery: Don't be Afraid of Outliers ( http://arxiv.org/abs/2102.02969v1 )

ライセンス: Link先を確認
Jianhao Ma and Salar Fattahi(参考訳) 勾配降下のような単純な短視野アルゴリズムは、暗黙の正規化のために、過パラメータ化された学習タスクでよく一般化されることが知られている。 しかし、これらのアルゴリズムの暗黙的な正規化が頑健な学習タスクにまで拡張できるかどうかは不明である。 本研究では,ロバスト行列回復問題の文脈において,この問題に対する肯定的な回答を提供する。 特に、いくつかの線形測定から低ランク行列を回復する問題を検討し、その場合、測定のサブセットは大きなノイズで破損する。 過パラメータ化 l1-ロス関数に適用した場合, 厳密な正規化や階数制約を伴わずに, 単純な部分勾配法が真の低階解に効率的に収束することを示す。 さらに、Sign-RIPと呼ばれる制限アイソメトリー特性の新しい概念を構築することによって、オーバーパラメータ化された体制における外れ値に対するサブグラデーション手法の堅牢性を証明する。 特に, ガウス計測では, 任意の割合がノイズで完全に崩壊した場合でも, 下位勾配法は真の低ランク解に収束することが保証されている。

It is well-known that simple short-sighted algorithms, such as gradient descent, generalize well in the over-parameterized learning tasks, due to their implicit regularization. However, it is unknown whether the implicit regularization of these algorithms can be extended to robust learning tasks, where a subset of samples may be grossly corrupted with noise. In this work, we provide a positive answer to this question in the context of robust matrix recovery problem. In particular, we consider the problem of recovering a low-rank matrix from a number of linear measurements, where a subset of measurements are corrupted with large noise. We show that a simple sub-gradient method converges to the true low-rank solution efficiently, when it is applied to the over-parameterized l1-loss function without any explicit regularization or rank constraint. Moreover, by building upon a new notion of restricted isometry property, called sign-RIP, we prove the robustness of the sub-gradient method against outliers in the over-parameterized regime. In particular, we show that, with Gaussian measurements, the sub-gradient method is guaranteed to converge to the true low-rank solution, even if an arbitrary fraction of the measurements are grossly corrupted with noise.
翻訳日:2021-02-08 14:49:44 公開日:2021-02-05
# カテゴリ入力のためのインタープリタブルニューラルネットワークに基づく分類器

Interpretable Neural Networks based classifiers for categorical inputs ( http://arxiv.org/abs/2102.03202v1 )

ライセンス: Link先を確認
Stefano Zamuner, Paolo De Los Rios(参考訳) 人間に敏感なアプリケーションでニューラルネットワークが広く使われているため、その解釈性は機械学習においてますます重要になっている。 本研究では,入力圏変数として捉えるニューラルネットワーク分類器の出力関数を簡便に解釈する手法を提案する。 ニューラルネットワーク分類器と物理エネルギーモデルの間のマッピングを利用することにより、これらの場合において、ネットワークの各層、特にロジッツ層は、各入力パターンの分類に寄与する項の和として拡張可能であることを示す。 例えば、第一階では、拡張は入力特徴と出力の間の線形関係のみを考慮し、第二階では入力特徴間のペアワイズ依存性も説明される。 適切なゲージ変換を行った後,各パターンの寄与度の解析を行い,その効果を評価できる2つの事例について述べる。

Because of the pervasive usage of Neural Networks in human sensitive applications, their interpretability is becoming an increasingly important topic in machine learning. In this work we introduce a simple way to interpret the output function of a neural network classifier that take as input categorical variables. By exploiting a mapping between a neural network classifier and a physical energy model, we show that in these cases each layer of the network, and the logits layer in particular, can be expanded as a sum of terms that account for the contribution to the classification of each input pattern. For instance, at the first order, the expansion considers just the linear relation between input features and output while at the second order pairwise dependencies between input features are also accounted for. The analysis of the contributions of each pattern, after an appropriate gauge transformation, is presented in two cases where the effectiveness of the method can be appreciated.
翻訳日:2021-02-08 14:49:00 公開日:2021-02-05
# vilt:畳み込みや地域監督のない視覚言語トランスフォーマー

ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision ( http://arxiv.org/abs/2102.03334v1 )

ライセンス: Link先を確認
Wonjae Kim, Bokyung Son, Ildoo Kim(参考訳) Vision-and-Language Pretraining(VLP)は、さまざまな共同ビジョンおよび言語下流タスクのパフォーマンスを改善しました。 VLPの現在のアプローチは画像の特徴抽出プロセスに大きく依存しており、その多くは領域の監督(オブジェクト検出など)と畳み込みアーキテクチャ(ResNetなど)を含んでいる。 文献では無視されているが,(1) 効率/速さ,(2) 視覚エンコーダの表現力と事前定義された視覚語彙に上限があるため,入力特徴を抽出するのには,実際のマルチモーダル相互作用ステップよりもはるかに多くの計算が必要であることが問題となっている。 本稿では,視覚入力の処理がテキスト入力を処理するのと同じ畳み込みのない方法に劇的に簡略化されるという意味で,最小限のVLPモデルであるViLT(Vision-and-Language Transformer)を提案する。 ViLTは従来のVLPモデルよりも最大60倍高速であるが、競争力やダウンストリームのタスク性能は向上している。

Vision-and-Language Pretraining (VLP) has improved performance on various joint vision-and-language downstream tasks. Current approaches for VLP heavily rely on image feature extraction processes, most of which involve region supervisions (e.g., object detection) and the convolutional architecture (e.g., ResNet). Although disregarded in the literature, we find it problematic in terms of both (1) efficiency/speed, that simply extracting input features requires much more computation than the actual multimodal interaction steps; and (2) expressive power, as it is upper bounded to the expressive power of the visual encoder and its predefined visual vocabulary. In this paper, we present a minimal VLP model, Vision-and-Language Transformer (ViLT), monolithic in the sense that processing of visual inputs is drastically simplified to just the same convolution-free manner that we process textual inputs. We show that ViLT is up to 60 times faster than previous VLP models, yet with competitive or better downstream task performance.
翻訳日:2021-02-08 14:48:46 公開日:2021-02-05
# GNN-RL圧縮:マルチステージグラフ埋め込みと強化学習を用いたトポロジー認識ネットワークプルーニング

GNN-RL Compression: Topology-Aware Network Pruning using Multi-stage Graph Embedding and Reinforcement Learning ( http://arxiv.org/abs/2102.03214v1 )

ライセンス: Link先を確認
Sixing Yu, Arya Mazaheri, Ali Jannesari(参考訳) モデル圧縮は、電力とメモリ制約のあるリソースにディープニューラルネットワーク(DNN)をデプロイする上で不可欠な技術である。 しかし、既存のモデル圧縮方法は、しばしば人間の専門知識に頼り、パラメータの局所的な重要性に焦点を当て、DNN内の豊富なトポロジ情報を無視します。 本稿では、DNNのトポロジを特定し、強化学習(RL)を用いて適切な圧縮ポリシーを見つけるために、グラフニューラルネットワーク(GNN)に基づく新しい多段階グラフ埋め込み手法を提案する。 我々は資源制約付き(FLOP)チャネルプルーニングを行い、オーバーパラメータ化されたDNN(ResNetやVGG-16など)とモバイルフレンドリーなDNN(MobileNetやShuffleNetなど)を用いた最先端の圧縮手法と比較した。 resnet family, vgg-16, mobilenet-v1/v2, shufflenetなど, 典型的なネットワークからモバイルフレンドリーなネットワークまで, 様々なモデルを用いて評価を行った。 その結果,本手法が高密度ネットワーク(例えばVGG-16)を元のFLOPの80%まで消去できることが示された。 さらに重要な点として,ShuffleNet-v1では最新手法を上回り,最大1.84%の精度を達成した。 さらに,本手法により,VGG-16は1.38$\times$スピードアップ,141MBのGPUメモリ削減を実現した。

Model compression is an essential technique for deploying deep neural networks (DNNs) on power and memory-constrained resources. However, existing model-compression methods often rely on human expertise and focus on parameters' local importance, ignoring the rich topology information within DNNs. In this paper, we propose a novel multi-stage graph embedding technique based on graph neural networks (GNNs) to identify the DNNs' topology and use reinforcement learning (RL) to find a suitable compression policy. We performed resource-constrained (i.e., FLOPs) channel pruning and compared our approach with state-of-the-art compression methods using over-parameterized DNNs (e.g., ResNet and VGG-16) and mobile-friendly DNNs (e.g., MobileNet and ShuffleNet). We evaluated our method on various models from typical to mobile-friendly networks, such as ResNet family, VGG-16, MobileNet-v1/v2, and ShuffleNet. The results demonstrate that our method can prune dense networks (e.g., VGG-16) by up to 80% of their original FLOPs. More importantly, our method outperformed state-of-the-art methods and achieved a higher accuracy by up to 1.84% for ShuffleNet-v1. Furthermore, following our approach, the pruned VGG-16 achieved a noticeable 1.38$\times$ speed up and 141 MB GPU memory reduction.
翻訳日:2021-02-08 14:48:25 公開日:2021-02-05
# プライバシー保護計画のための偽装強化学習

Deceptive Reinforcement Learning for Privacy-Preserving Planning ( http://arxiv.org/abs/2102.03022v1 )

ライセンス: Link先を確認
Zhengshang Liu, Yue Yang, Tim Miller, and Peta Masters(参考訳) 本稿では,報酬関数のプライバシを保護するために,偽り強化学習の問題について検討する。 強化学習は、探索行動から受け取った報酬に基づいて行動政策を見つけることの問題です。 強化学習の鍵となる要素は報酬関数であり、その報酬(負か正か)が与えられ、いつ与えられるかを決定する。 ただし、場合によっては、報酬関数をプライベートに保ちたい場合もあります。つまり、オブザーバーが使用する報酬関数を決定するのを困難にします。 プライバシー保護強化学習の課題を定義し,その解決のための2つのモデルを提示する。 これらのモデルは「真実を隠す」偽装の形式である解読に基づいています。 モデルの評価は、計算と人間の行動実験の両方を通して行う。 その結果, 結果は, 結果が真偽であり, 参加者が真報酬関数を正直なエージェントよりも確実に決定できることが示唆された。

In this paper, we study the problem of deceptive reinforcement learning to preserve the privacy of a reward function. Reinforcement learning is the problem of finding a behaviour policy based on rewards received from exploratory behaviour. A key ingredient in reinforcement learning is a reward function, which determines how much reward (negative or positive) is given and when. However, in some situations, we may want to keep a reward function private; that is, to make it difficult for an observer to determine the reward function used. We define the problem of privacy-preserving reinforcement learning, and present two models for solving it. These models are based on dissimulation -- a form of deception that `hides the truth'. We evaluate our models both computationally and via human behavioural experiments. Results show that the resulting policies are indeed deceptive, and that participants can determine the true reward function less reliably than that of an honest agent.
翻訳日:2021-02-08 14:47:57 公開日:2021-02-05
# 偏りのあるデータを取り除き、公平性と精度を向上させる

Removing biased data to improve fairness and accuracy ( http://arxiv.org/abs/2102.03054v1 )

ライセンス: Link先を確認
Sahil Verma, Michael Ernst, Rene Just(参考訳) 機械学習システムは、歴史的決定から収集されたデータを使ってしばしば訓練される。 過去の決定がバイアスされた場合、履歴データから学習する自動システムもバイアスされます。 偏りのあるトレーニングデータを識別・削除するためのブラックボックス手法を提案する。 このような偏りのあるデータ(元のトレーニングデータの一部)で訓練された機械学習モデルは、個人識別が低く、しばしば0%である。 これらのモデルは、完全な履歴データで訓練されたモデルよりも精度が高く、統計的格差も低い。 6つの実世界のデータセットを用いて実験を行った。 個人差と精度の点で,従来の7つのアプローチよりも優れていた。

Machine learning systems are often trained using data collected from historical decisions. If past decisions were biased, then automated systems that learn from historical data will also be biased. We propose a black-box approach to identify and remove biased training data. Machine learning models trained on such debiased data (a subset of the original training data) have low individual discrimination, often 0%. These models also have greater accuracy and lower statistical disparity than models trained on the full historical data. We evaluated our methodology in experiments using 6 real-world datasets. Our approach outperformed seven previous approaches in terms of individual discrimination and accuracy.
翻訳日:2021-02-08 14:47:43 公開日:2021-02-05
# 新規検索とエミッターによるスパース報酬探索

Sparse Reward Exploration via Novelty Search and Emitters ( http://arxiv.org/abs/2102.03140v1 )

ライセンス: Link先を確認
Giuseppe Paolo (1 and 2), Alexandre Coninx (1), Stephane Doncieux (1), Alban Laflaqui\`ere (2) ((1) ISIR, (2) SBRE)(参考訳) 報酬に基づく最適化アルゴリズムは、パフォーマンスを最大化するために、探索、報酬の発見、搾取の両方を必要とする。 効率的な探索の必要性は、パフォーマンスフィードバックがスパースに与えられるスパースな報酬設定においてさらに重要であるため、検索プロセスを導くのに不適切である。 本研究では,探索空間を効率的に探索できる新奇性とエミッタ(serene)アルゴリズムによるスパース報酬探索と,潜在的に異なる領域に存在する報酬の最適化を提案する。 既存のエミッタベースのアプローチとは対照的に、SERENEは検索空間探索とリワードエクスプロイトを2つの交互プロセスに分離します。 最初のプロセスは、異なる検索アルゴリズムであるNovety Searchを通じて探索を行う。 2つ目は、エミッタ、すなわち、発見された報酬領域を利用する。 集団に基づく最適化アルゴリズムのローカルインスタンス。 メタスケジューラは、2つのプロセス間で交互に計算予算を割り当て、相反する報酬領域の発見と効率的な活用を保証します。 SERENEは、検索空間をカバーする多様なソリューションのコレクションと、異なる報酬領域ごとに高性能なソリューションのコレクションの両方を返します。 各種のスパース報酬環境におけるSERENEの評価を行い,既存のベースラインと比較した。

Reward-based optimization algorithms require both exploration, to find rewards, and exploitation, to maximize performance. The need for efficient exploration is even more significant in sparse reward settings, in which performance feedback is given sparingly, thus rendering it unsuitable for guiding the search process. In this work, we introduce the SparsE Reward Exploration via Novelty and Emitters (SERENE) algorithm, capable of efficiently exploring a search space, as well as optimizing rewards found in potentially disparate areas. Contrary to existing emitters-based approaches, SERENE separates the search space exploration and reward exploitation into two alternating processes. The first process performs exploration through Novelty Search, a divergent search algorithm. The second one exploits discovered reward areas through emitters, i.e. local instances of population-based optimization algorithms. A meta-scheduler allocates a global computational budget by alternating between the two processes, ensuring the discovery and efficient exploitation of disjoint reward areas. SERENE returns both a collection of diverse solutions covering the search space and a collection of high-performing solutions for each distinct reward area. We evaluate SERENE on various sparse reward environments and show it compares favorably to existing baselines.
翻訳日:2021-02-08 14:47:35 公開日:2021-02-05
# 無線望遠鏡のスマートキャリブレーションのための深層補強学習

Deep reinforcement learning for smart calibration of radio telescopes ( http://arxiv.org/abs/2102.03200v1 )

ライセンス: Link先を確認
Sarod Yatawatta and Ian M. Avruch(参考訳) 現代の電波望遠鏡は前例のない量のデータを生成し、科学的な結果が届く前に多くの処理パイプラインを通過します。 これらのパイプラインのハイパーパラメータは、最適な結果を得るために手動で調整する必要がある。 望遠鏡の寿命に何万もの観測が行われ、それぞれの観測には独自の設定があるため、パイプラインの微調整は面倒な作業である。 データキャリブレーションパイプラインにおけるハイパーパラメータ選択のプロセスを自動化するために,強化学習について紹介する。 我々は,この微調整を行うための自律エージェントを訓練するために,ツイン遅延Deep Deterministic Policy gradient (TD3)と呼ばれる強化学習手法を用いる。 一般化のために、パイプラインは、パイプラインの解釈状態のみがエージェントによって使用されるブラックボックスシステムであると考えています。 この方法で訓練された自律エージェントは、多様な観察に最適な設定を決定することができるため、人間の介入の必要性を最小限に抑えて「スマート」キャリブレーションを実行できます。

Modern radio telescopes produce unprecedented amounts of data, which are passed through many processing pipelines before the delivery of scientific results. Hyperparameters of these pipelines need to be tuned by hand to produce optimal results. Because many thousands of observations are taken during a lifetime of a telescope and because each observation will have its unique settings, the fine tuning of pipelines is a tedious task. In order to automate this process of hyperparameter selection in data calibration pipelines, we introduce the use of reinforcement learning. We use a reinforcement learning technique called twin delayed deep deterministic policy gradient (TD3) to train an autonomous agent to perform this fine tuning. For the sake of generalization, we consider the pipeline to be a black-box system where only an interpreted state of the pipeline is used by the agent. The autonomous agent trained in this manner is able to determine optimal settings for diverse observations and is therefore able to perform 'smart' calibration, minimizing the need for human intervention.
翻訳日:2021-02-08 14:47:15 公開日:2021-02-05
# 文書デジタル化における機械学習の応用

Applications of Machine Learning in Document Digitisation ( http://arxiv.org/abs/2102.03239v1 )

ライセンス: Link先を確認
Christian M. Dahl, Torben S. D. Johansen, Emil N. S{\o}rensen, Christian E. Westermann and Simon F. Wittrock(参考訳) データ取得は、すべての実証研究の主要なステップを形成します。 データの可用性は、結論と洞察の質と範囲に直接影響します。 特に、より大きくより詳細なデータセットは、複雑な研究質問に対してさえ説得力のある答えを提供する。 主な問題は、特にデータ媒体が紙や本である場合、「大きくて詳細」が「高価で難しい」ことを意味することである。 人間の演算子と手動転写は、歴史的データを収集するための伝統的なアプローチでした。 私たちは代わりに、デジタル化プロセスの自動化に現代の機械学習技術を使うことを提唱します。 2つの図示アプリケーションを通じて、データ収集に機械のデジタル化を適用する可能性を概観します。 まず,ナースジャーナルの生スキャンに適用した教師なしレイアウト分類を治療指標の構築に利用できることを示す。 さらに、割り当てコンプライアンスの評価を可能にする。 第2のアプリケーションは、手書きのテキスト認識に注意に基づくニューラルネットワークを使用して、デンマークの死亡証明書の膨大なコレクションから年齢と出生年月日を書写する。 デジタル化パイプラインの各ステップを説明し、実装の洞察を提供します。

Data acquisition forms the primary step in all empirical research. The availability of data directly impacts the quality and extent of conclusions and insights. In particular, larger and more detailed datasets provide convincing answers even to complex research questions. The main problem is that 'large and detailed' usually implies 'costly and difficult', especially when the data medium is paper and books. Human operators and manual transcription have been the traditional approach for collecting historical data. We instead advocate the use of modern machine learning techniques to automate the digitisation process. We give an overview of the potential for applying machine digitisation for data collection through two illustrative applications. The first demonstrates that unsupervised layout classification applied to raw scans of nurse journals can be used to construct a treatment indicator. Moreover, it allows an assessment of assignment compliance. The second application uses attention-based neural networks for handwritten text recognition in order to transcribe age and birth and death dates from a large collection of Danish death certificates. We describe each step in the digitisation pipeline and provide implementation insights.
翻訳日:2021-02-08 14:46:58 公開日:2021-02-05
# フーリエ損失関数

The Fourier Loss Function ( http://arxiv.org/abs/2102.02979v1 )

ライセンス: Link先を確認
Auricchio Gennaro, Codegoni Andrea, Gualandi Stefano, Zambon Lorenzo(参考訳) 本稿では,フーリエ計量によって引き起こされる新しい損失関数を提案する。 この計量はワッサーシュタイン距離と同等であるが、高速フーリエ変換アルゴリズムを用いて非常に効率的に計算される。 フーリエ損失関数は2回微分可能であることを証明し、その勾配とヘッセン行列の両方に対して明示的な公式を与える。 さらに、フーリエ損失関数の最小化は、周波数空間におけるガウス雑音の下でのデータの可能性の最大化に等しいことを示す。 MNIST, Fashion-MNIST, CIFAR10データセットを用いたマルチクラス分類タスクに損失関数を適用します。 計算結果から,その精度は他の最先端の損失関数と競合するが,フーリエ損失関数はノイズデータに対してかなり頑健であることが示された。

This paper introduces a new loss function induced by the Fourier-based Metric. This metric is equivalent to the Wasserstein distance but is computed very efficiently using the Fast Fourier Transform algorithm. We prove that the Fourier loss function is twice differentiable, and we provide the explicit formula for both its gradient and its Hessian matrix. More importantly, we show that minimising the Fourier loss function is equivalent to maximising the likelihood of the data under a Gaussian noise in the space of frequencies. We apply our loss function to a multi-class classification task using MNIST, Fashion-MNIST, and CIFAR10 datasets. The computational results show that, while its accuracy is competitive with other state-of-the-art loss functions, the Fourier loss function is significantly more robust to noisy data.
翻訳日:2021-02-08 14:46:09 公開日:2021-02-05
# サブリニア通信によるスパースノーマル平均推定

Sparse Normal Means Estimation with Sublinear Communication ( http://arxiv.org/abs/2102.03060v1 )

ライセンス: Link先を確認
Chen Amiraz, Robert Krauthgamer, Boaz Nadler(参考訳) 通信制約のある分散環境におけるスパース正規平均推定の問題点を考察する。 マシンには$m$があり、それぞれに$k$-sparseベクター$\mu$が付加ガウス雑音によって崩壊する様子をd$次元で観察していると仮定する。 中央融合マシンはスタートポロジー内の$m$マシンに接続されており、その目標は低通信予算で$\mu$のベクトルを推定することである。 以前の研究では、$\ell_2$リスクの集中的なミニマックスレートを達成するためには、総通信は高い必要があります - 少なくとも次元$d$の線形。 しかし、この現象は非常に弱い信号で起こります。 信号対雑音比(SNR)がわずかに高くなると、$\mu$のサポートはより少ない通信で正確に回復できることを示す。 具体的には、分散スパース正規平均問題に対する2つのアルゴリズムを提案し、あるSNRしきい値を超えると、高い確率で、次元$d$のサブ線形な全通信で正しいサポートを回復することを示す。 さらに、通信は信号強度の関数として指数関数的に減少する。 さらに$KM\ll d$の場合、追加のサブ線形通信で、我々のアルゴリズムは$\ell_2$リスクの集中レートを達成する。 最後に,様々なパラメータ領域におけるアルゴリズムの性能を示すシミュレーションを提案する。

We consider the problem of sparse normal means estimation in a distributed setting with communication constraints. We assume there are $M$ machines, each holding a $d$-dimensional observation of a $K$-sparse vector $\mu$ corrupted by additive Gaussian noise. A central fusion machine is connected to the $M$ machines in a star topology, and its goal is to estimate the vector $\mu$ with a low communication budget. Previous works have shown that to achieve the centralized minimax rate for the $\ell_2$ risk, the total communication must be high - at least linear in the dimension $d$. This phenomenon occurs, however, at very weak signals. We show that once the signal-to-noise ratio (SNR) is slightly higher, the support of $\mu$ can be correctly recovered with much less communication. Specifically, we present two algorithms for the distributed sparse normal means problem, and prove that above a certain SNR threshold, with high probability, they recover the correct support with total communication that is sublinear in the dimension $d$. Furthermore, the communication decreases exponentially as a function of signal strength. If in addition $KM\ll d$, then with an additional round of sublinear communication, our algorithms achieve the centralized rate for the $\ell_2$ risk. Finally, we present simulations that illustrate the performance of our algorithms in different parameter regimes.
翻訳日:2021-02-08 14:45:58 公開日:2021-02-05
# 補間系における最小二乗に対するSGDの最終反復収束

Last iterate convergence of SGD for Least-Squares in the Interpolation regime ( http://arxiv.org/abs/2102.03183v1 )

ライセンス: Link先を確認
Aditya Varre, Loucas Pillaud-Vivien, Nicolas Flammarion(参考訳) データの完全適合性と一般化が可能なニューラルネットワークの最近の成功に動機づけられ、基本的な最小二乗構成でノイズレスモデルの研究を行った。 最適予測器は、$\langle \theta_* , \phi(X) \rangle = Y$ に完全に収まると仮定し、ここで $\phi(X)$ は無限次元非線形特徴写像を意味する。 この問題を解決するために,確率勾配降下(SGD)の最終反復によるステップサイズの推定について検討する。 In this context, our contribution is two fold: (i) from a (stochastic) optimization perspective, we exhibit an archetypal problem where we can show explicitly the convergence of SGD final iterate for a non-strongly convex problem with constant step-size whereas usual results use some form of average and (ii) from a statistical perspective, we give explicit non-asymptotic convergence rates in the over-parameterized setting and leverage a fine-grained parameterization of the problem to exhibit polynomial rates that can be faster than $O(1/T)$. 再生カーネルヒルベルト空間とのリンクが確立される。

Motivated by the recent successes of neural networks that have the ability to fit the data perfectly and generalize well, we study the noiseless model in the fundamental least-squares setup. We assume that an optimum predictor fits perfectly inputs and outputs $\langle \theta_* , \phi(X) \rangle = Y$, where $\phi(X)$ stands for a possibly infinite dimensional non-linear feature map. To solve this problem, we consider the estimator given by the last iterate of stochastic gradient descent (SGD) with constant step-size. In this context, our contribution is two fold: (i) from a (stochastic) optimization perspective, we exhibit an archetypal problem where we can show explicitly the convergence of SGD final iterate for a non-strongly convex problem with constant step-size whereas usual results use some form of average and (ii) from a statistical perspective, we give explicit non-asymptotic convergence rates in the over-parameterized setting and leverage a fine-grained parameterization of the problem to exhibit polynomial rates that can be faster than $O(1/T)$. The link with reproducing kernel Hilbert spaces is established.
翻訳日:2021-02-08 14:45:36 公開日:2021-02-05
# 一般化期待最大化に基づくスパイキングニューラルネットワークのマルチサンプルオンライン学習

Multi-Sample Online Learning for Spiking Neural Networks based on Generalized Expectation Maximization ( http://arxiv.org/abs/2102.03280v1 )

ライセンス: Link先を確認
Hyeryung Jang and Osvaldo Simeone(参考訳) spiking neural networks (snns) は、二元神経のダイナミックアクティベーションによる処理により、生体脳の効率の一部をキャプチャする新しい計算パラダイムを提供する。 確率的snモデルは通常、ログ様勾配の偏りのない推定を用いて所望の出力の可能性を最大化するために訓練される。 本論文では, シングルサンプル推定器を用いて, シナプス重みを共有しながら, 独立したスパイク信号をサンプリングする複数のコンパートメントを利用する方法を提案する。 重要なアイデアは、これらの信号を使用して、ログ類似トレーニング基準とその勾配のより正確な統計的推定を得ることです。 この手法は、重大サンプリングを用いてログのより厳密な近似を最適化する一般化予測最大化(GEM)に基づいている。 オンライン学習アルゴリズムは,グローバルな構成ごとの学習信号を用いた3要素ルールを実装している。 ニューロモルフィックMNIST-DVSデータセットの分類タスクに関する実験結果は、トレーニングおよび推論に使用されるコンパートメントの数を増やす際に、ログの類似性、正確性、および校正の点で有意な改善を示す。

Spiking Neural Networks (SNNs) offer a novel computational paradigm that captures some of the efficiency of biological brains by processing through binary neural dynamic activations. Probabilistic SNN models are typically trained to maximize the likelihood of the desired outputs by using unbiased estimates of the log-likelihood gradients. While prior work used single-sample estimators obtained from a single run of the network, this paper proposes to leverage multiple compartments that sample independent spiking signals while sharing synaptic weights. The key idea is to use these signals to obtain more accurate statistical estimates of the log-likelihood training criterion, as well as of its gradient. The approach is based on generalized expectation-maximization (GEM), which optimizes a tighter approximation of the log-likelihood using importance sampling. The derived online learning algorithm implements a three-factor rule with global per-compartment learning signals. Experimental results on a classification task on the neuromorphic MNIST-DVS data set demonstrate significant improvements in terms of log-likelihood, accuracy, and calibration when increasing the number of compartments used for training and inference.
翻訳日:2021-02-08 14:45:17 公開日:2021-02-05
# 量子回路の統計的複雑性に及ぼす量子資源の影響

Effects of quantum resources on the statistical complexity of quantum circuits ( http://arxiv.org/abs/2102.03282v1 )

ライセンス: Link先を確認
Kaifeng Bu, Dax Enshan Koh, Lu Li, Qingxian Luo, Yaobo Zhang(参考訳) 量子資源理論の枠組みを用いて、量子資源の付加が量子回路の統計複雑性をいかに変化させるかを調べる。 私たちが考慮する統計的複雑さの尺度には、実値関数のクラスの豊かさを定量化する計算学習理論でよく知られた尺度であるRademacher複雑性およびGaussian複雑性が含まれる。 我々は、特定のリソースへのアクセスが限られている量子回路の統計的複雑さのバウンダリを導出し、(1)限られた数のTゲートを補う安定化回路と(2)限られた数のCCZゲートを補う瞬時量子多項式時間クリフォード回路の2つの特別なケースに適用する。 追加量子チャネルが付加されたときの量子回路の統計的複雑さの増加は、付加されたチャネルの自由堅牢性によって上界であることが示される。 最後に、量子回路から生じるトレーニングデータから学ぶことに関連する一般化誤差の境界を導出する。

We investigate how the addition of quantum resources changes the statistical complexity of quantum circuits by utilizing the framework of quantum resource theories. Measures of statistical complexity that we consider include the Rademacher complexity and the Gaussian complexity, which are well-known measures in computational learning theory that quantify the richness of classes of real-valued functions. We derive bounds for the statistical complexities of quantum circuits that have limited access to certain resources and apply our results to two special cases: (1) stabilizer circuits that are supplemented with a limited number of T gates and (2) instantaneous quantum polynomial-time Clifford circuits that are supplemented with a limited number of CCZ gates. We show that the increase in the statistical complexity of a quantum circuit when an additional quantum channel is added to it is upper bounded by the free robustness of the added channel. Finally, we derive bounds for the generalization error associated with learning from training data arising from quantum circuits.
翻訳日:2021-02-08 14:44:55 公開日:2021-02-05
# DetectorGuard: 局所的なパッチ隠蔽攻撃に対して、おそらくオブジェクト検出器を保護

DetectorGuard: Provably Securing Object Detectors against Localized Patch Hiding Attacks ( http://arxiv.org/abs/2102.02956v1 )

ライセンス: Link先を確認
Chong Xiang, Prateek Mittal(参考訳) 最先端のオブジェクト検出器は、敵が小さな敵パッチを導入し、検出者が突出したオブジェクトの検出を見逃す、ローカライズされたパッチ隠蔽攻撃に弱い。 本稿では,局所パッチ隠蔽攻撃に対してロバストな検出器を構築するための最初の汎用フレームワークである detectorguard を提案する。 まず,ロバストな画像分類とロバストな物体検出の橋渡しを構築するため,画像分類器から物体検出器へロバスト性を持たせる一般的な手法を提案する。 画像上のスライディングウィンドウに確固たる画像分類器を適用し、異なる場所における堅牢なウィンドウ分類を集約し、堅牢なオブジェクト検出を行います。 第2に、クリーンパフォーマンスと証明可能なロバスト性の間の悪名高いトレードオフを軽減するために、従来の検出器とロバスト検出器の出力を比較した予測パイプラインを用いて、進行中のアタックを捕捉する。 攻撃が検出されない場合、De DetectorGuardは従来の検出器によって予測された正確な境界ボックスを出力し、高いクリーンなパフォーマンスを達成する。 特に、我々の予測戦略は、ロバストな検出器の不正確なオブジェクトが、 detectorguardのクリーンな性能を損なわないことを保証する。 さらに,認証対象に対する detectorguard のロバスト性,すなわち攻撃者を隠蔽するパッチに対するオブジェクトの検出や警告のトリガを形式的に証明することが可能である。 PASCAL VOCおよびMS COCOデータセットを用いた評価では,検出器ガードは従来の検出器とほぼ同じクリーンな性能を示し,さらに重要なことは,検出器ガードが局所的なパッチ隠蔽攻撃に対して初めて証明可能な堅牢性を達成したことである。

State-of-the-art object detectors are vulnerable to localized patch hiding attacks where an adversary introduces a small adversarial patch to make detectors miss the detection of salient objects. In this paper, we propose the first general framework for building provably robust detectors against the localized patch hiding attack called DetectorGuard. To start with, we propose a general approach for transferring the robustness from image classifiers to object detectors, which builds a bridge between robust image classification and robust object detection. We apply a provably robust image classifier to a sliding window over the image and aggregates robust window classifications at different locations for a robust object detection. Second, in order to mitigate the notorious trade-off between clean performance and provable robustness, we use a prediction pipeline in which we compare the outputs of a conventional detector and a robust detector for catching an ongoing attack. When no attack is detected, DetectorGuard outputs the precise bounding boxes predicted by the conventional detector to achieve a high clean performance; otherwise, DetectorGuard triggers an attack alert for security. Notably, our prediction strategy ensures that the robust detector incorrectly missing objects will not hurt the clean performance of DetectorGuard. Moreover, our approach allows us to formally prove the robustness of DetectorGuard on certified objects, i.e., it either detects the object or triggers an alert, against any patch hiding attacker. Our evaluation on the PASCAL VOC and MS COCO datasets shows that DetectorGuard has the almost same clean performance as conventional detectors, and more importantly, that DetectorGuard achieves the first provable robustness against localized patch hiding attacks.
翻訳日:2021-02-08 14:44:24 公開日:2021-02-05
# マルチソース相関制約による3次元医用マルチモーダルセグメンテーションネットワーク

3D Medical Multi-modal Segmentation Network Guided by Multi-source Correlation Constraint ( http://arxiv.org/abs/2102.03111v1 )

ライセンス: Link先を確認
Tongxue Zhou, St\'ephane Canu, Pierre Vera and Su Ruan(参考訳) マルチモーダルセグメンテーションの分野では、セグメンテーション結果を改善するために異なるモダリティ間の相関を考慮することができる。 本稿では,相関制約付き多モードセグメンテーションネットワークを提案する。 我々のネットワークは、Nモデル非依存の符号化パスとN画像ソース、相関制約ブロック、特徴融合ブロック、デコードパスを含む。 モデル独立符号化パスは n 個のモダリティからモダリティ特有の特徴をキャプチャすることができる。 異なるモダリティの間に強い相関が存在するため、まずモダリティ間の相関を学習するための線形相関ブロックを提案し、次に、線形相関ブロックに基づいて相関特徴を学習するためにネットワークを導くために損失関数を使用する。 このブロックは、ネットワークにセグメンテーションに関連のある潜在相関機能を学ぶように強制します。 エンコーダから抽出された全ての特徴がセグメンテーションに有用であるわけではないことを考慮し,2重注意に基づく融合ブロックを用いて,モダリティや空間的経路に沿った特徴を再検討し,少ない情報的特徴を抑え,有用な特徴を強調することを提案する。 融合特徴表現は最終的にデコーダによって投影され、セグメンテーション結果が得られる。 脳腫瘍分割のためのBraTS-2018データセットで実験を行った結果,提案手法の有効性が示された。

In the field of multimodal segmentation, the correlation between different modalities can be considered for improving the segmentation results. In this paper, we propose a multi-modality segmentation network with a correlation constraint. Our network includes N model-independent encoding paths with N image sources, a correlation constraint block, a feature fusion block, and a decoding path. The model independent encoding path can capture modality-specific features from the N modalities. Since there exists a strong correlation between different modalities, we first propose a linear correlation block to learn the correlation between modalities, then a loss function is used to guide the network to learn the correlated features based on the linear correlation block. This block forces the network to learn the latent correlated features which are more relevant for segmentation. Considering that not all the features extracted from the encoders are useful for segmentation, we propose to use dual attention based fusion block to recalibrate the features along the modality and spatial paths, which can suppress less informative features and emphasize the useful ones. The fused feature representation is finally projected by the decoder to obtain the segmentation result. Our experiment results tested on BraTS-2018 dataset for brain tumor segmentation demonstrate the effectiveness of our proposed method.
翻訳日:2021-02-08 14:43:50 公開日:2021-02-05
# グラフ上のマトリックス分解:機能的な視点

Matrix Decomposition on Graphs: A Functional View ( http://arxiv.org/abs/2102.03233v1 )

ライセンス: Link先を確認
Abhishek Sharma, Maks Ovsjanikov(参考訳) 幾何学的行列完成やグラフ正規化次元還元などのグラフ上の行列分解問題の関数的視点を提案する。 我々の統一フレームワークは、還元基底を用いて積空間上の関数を表現することは、スパース信号からでも低階行列近似を回復するのに十分である、というキーアイデアに基づいている。 いくつかの実・合成ベンチマーク(両方の問題に対して)において、我々のフレームワークを検証し、最先端技術よりも優れているか、事前作業の計算作業のほんの一部で競合的な結果が得られるかした。

We propose a functional view of matrix decomposition problems on graphs such as geometric matrix completion and graph regularized dimensionality reduction. Our unifying framework is based on the key idea that using a reduced basis to represent functions on the product space is sufficient to recover a low rank matrix approximation even from a sparse signal. We validate our framework on several real and synthetic benchmarks (for both problems) where it either outperforms state of the art or achieves competitive results at a fraction of the computational effort of prior work.
翻訳日:2021-02-08 14:43:32 公開日:2021-02-05
# 対比質問応答のためのモデル診断応答ランキングシステム

Model Agnostic Answer Reranking System for Adversarial Question Answering ( http://arxiv.org/abs/2102.03016v1 )

ライセンス: Link先を確認
Sagnik Majumder, Chinmoy Samant, Greg Durrett(参考訳) 質問応答(QA)における敵の例に対する防御策として多くの手法が提案されているが、これらの手法はしばしばモデル固有であり、モデルの再訓練を必要とし、バニラモデルよりも性能を極端に向上させるだけである。 本研究では、この問題に対する単純なモデル非依存アプローチを提示し、リトレーニングなしで任意のQAモデルに直接適用することができる。 提案手法は,質問内容と質問内容の重なりに基づいて候補回答をスコア付けし,最終予測を行う明示的な回答候補リランキング機構を用いる。 強力なベースQAモデルと組み合わせることで、我々の手法は最先端の防御技術より優れており、これらの技術が実際にどれだけうまく行っており、敵の検層が強いかという疑問を投げかける。

While numerous methods have been proposed as defenses against adversarial examples in question answering (QA), these techniques are often model specific, require retraining of the model, and give only marginal improvements in performance over vanilla models. In this work, we present a simple model-agnostic approach to this problem that can be applied directly to any QA model without any retraining. Our method employs an explicit answer candidate reranking mechanism that scores candidate answers on the basis of their content overlap with the question before making the final prediction. Combined with a strong base QAmodel, our method outperforms state-of-the-art defense techniques, calling into question how well these techniques are actually doing and strong these adversarial testbeds are.
翻訳日:2021-02-08 14:43:23 公開日:2021-02-05
# Zero Training Overhead Portfolios for Learning to Solve Combinatorial Problems

Zero Training Overhead Portfolios for Learning to Solve Combinatorial Problems ( http://arxiv.org/abs/2102.03002v1 )

ライセンス: Link先を確認
Yiwei Bai, Wenting Zhao, Carla P. Gomes(参考訳) 近年,組合せ最適化(CO)問題に取り組むためにディープラーニングを活用することへの関心が高まっている。 典型的なcoディープラーニングアプローチは、モデルアーキテクチャの問題構造を活用する。 それでも、モデル選択は主に従来の機械学習設定に基づいている。 CO問題の離散的な性質のために、単一のモデルが問題を完全に学ぶ可能性は低い。 ZTopはZero Training Overhead Portfolioの略で、組み合わせ問題を解決するためのシンプルで効果的なモデル選択とアンサンブルメカニズムです。 ZTopは、一般的なCOアンサンブル戦略であるアルゴリズムポートフォリオ、特にランダム化されたCOアルゴリズムを定期的に再開するポートフォリオの再開に触発され、事実上、異なるヒューリスティックな検索空間を探索します。 我々は、同じトレーニング軌道で取得した訓練されたモデルが、同様の検証性能を持つ場合、非常に異なる検証インスタンスでうまく機能することを観察した。 この観察に続いて、ztopは訓練されたモデルのセットをアンサンブルし、それぞれがトレーニングオーバーヘッドゼロのユニークなヒューリスティックを提供し、それらを逐次または並行に適用してテストインスタンスを解決する。 ZToppingは、ZTopのアンサンブル戦略と与えられたディープラーニングアプローチを用いて、現在の3つの原型COドメイン、最も困難なユニークソリューションのSudokuインスタンス、挑戦的なルーティング問題、グラフ最大カット問題、およびマルチラベル分類、大規模な組み合わせラベル空間を備えた機械学習タスクのパフォーマンスを大幅に向上させる方法を示す。

There has been an increasing interest in harnessing deep learning to tackle combinatorial optimization (CO) problems in recent years. Typical CO deep learning approaches leverage the problem structure in the model architecture. Nevertheless, the model selection is still mainly based on the conventional machine learning setting. Due to the discrete nature of CO problems, a single model is unlikely to learn the problem entirely. We introduce ZTop, which stands for Zero Training Overhead Portfolio, a simple yet effective model selection and ensemble mechanism for learning to solve combinatorial problems. ZTop is inspired by algorithm portfolios, a popular CO ensembling strategy, particularly restart portfolios, which periodically restart a randomized CO algorithm, de facto exploring the search space with different heuristics. We have observed that well-trained models acquired in the same training trajectory, with similar top validation performance, perform well on very different validation instances. Following this observation, ZTop ensembles a set of well-trained models, each providing a unique heuristic with zero training overhead, and applies them, sequentially or in parallel, to solve the test instances. We show how ZTopping, i.e., using a ZTop ensemble strategy with a given deep learning approach, can significantly improve the performance of the current state-of-the-art deep learning approaches on three prototypical CO domains, the hardest unique-solution Sudoku instances, challenging routing problems, and the graph maximum cut problem, as well as on multi-label classification, a machine learning task with a large combinatorial label space.
翻訳日:2021-02-08 14:42:53 公開日:2021-02-05
# 自律運転における行動不確実性を考慮したリスク制約型インタラクティブセーフティ

Risk-Constrained Interactive Safety under Behavior Uncertainty for Autonomous Driving ( http://arxiv.org/abs/2102.03053v1 )

ライセンス: Link先を確認
Julian Bernhard and Alois Knoll(参考訳) 密な交通を計画する際の安全と効率のバランスをとることは困難です。 インタラクティブな行動プランナーは、これらの交通状況に固有の予測の不確実性と相互作用を組み込む。 しかし、単目的最適性の使用は、結果として生じる安全目標の解釈可能性を妨げる。 許可された計画地域を制限する安全封筒は、行動の不確実性の存在下で解釈可能な安全性をもたらしますが、保守的な運転による密集した交通の効率を犠牲にします。 研究によると、人間は高密度交通における安全と効率のバランスを保ち、安全封筒に違反する確率的リスクを受け入れる。 本研究では,この安全目標を対話型計画に適用する。 具体的には,安全目標を定式化し,他の交通参加者の行動の不確実性の下で安全包絡に違反するリスクを最大化するインタラクティブな決定を,マルチエージェントモンテカルロ木探索を用いて解決する。 提案手法がベースラインよりも優れていることをシミュレーションで実証し,シミュレーション時間よりも特定の違反リスクレベルに達することで,対話型計画のための解釈可能で調整可能な安全性目標を提供する。

Balancing safety and efficiency when planning in dense traffic is challenging. Interactive behavior planners incorporate prediction uncertainty and interactivity inherent to these traffic situations. Yet, their use of single-objective optimality impedes interpretability of the resulting safety goal. Safety envelopes which restrict the allowed planning region yield interpretable safety under the presence of behavior uncertainty, yet, they sacrifice efficiency in dense traffic due to conservative driving. Studies show that humans balance safety and efficiency in dense traffic by accepting a probabilistic risk of violating the safety envelope. In this work, we adopt this safety objective for interactive planning. Specifically, we formalize this safety objective, present the Risk-Constrained Robust Stochastic Bayesian Game modeling interactive decisions satisfying a maximum risk of violating a safety envelope under uncertainty of other traffic participants' behavior and solve it using our variant of Multi-Agent Monte Carlo Tree Search. We demonstrate in simulation that our approach outperforms baselines approaches, and by reaching the specified violation risk level over driven simulation time, provides an interpretable and tunable safety objective for interactive planning.
翻訳日:2021-02-08 14:42:26 公開日:2021-02-05
# 不確実性に対処する:分布強化学習を用いた自動運転におけるリスク感知行動生成

Addressing Inherent Uncertainty: Risk-Sensitive Behavior Generation for Automated Driving using Distributional Reinforcement Learning ( http://arxiv.org/abs/2102.03119v1 )

ライセンス: Link先を確認
Julian Bernhard, Stefan Pollok and Alois Knoll(参考訳) SAEレベル~3を超える高度に自動化された運転では、行動生成アルゴリズムは交通環境の固有の不確かさを確実に考慮する必要がある。 様々な人間の運転スタイルに由来する。 このような不確実性は曖昧な決定を生じさせ、例えばアルゴリズムは低確率の有害事象を適切にバランスさせる必要がある。 衝突、および高確率の有益事象、例えば 交差点を素早く横断する 最先端の行動生成アルゴリズムは、決定結果の分散処理を欠いている。 これは曖昧な状況において適切なリスク評価を妨げ、しばしば安全でない行動や保守的な行動を奨励する。 そこで本研究では,オフライン分散学習とオンラインリスクアセスメントを組み合わせたリスク感応型行動生成手法を提案する。 具体的には、まずDeep Distributional Reinforcement Learningで不確実な環境で最適なポリシーを学びます。 実行中、学習された状態復帰分布に、リスク条件値等の確立されたリスク基準を適用することにより、最適なリスク感応動作を選択する。 交差点横断のシナリオでは、異なるリスク基準を評価し、アクティブな運転スタイルを維持しながら、我々のアプローチが安全性を高めることを実証する。 私たちのアプローチは、自動運転車のリスクに敏感なアプローチの利点についてさらなる研究を奨励します。

For highly automated driving above SAE level~3, behavior generation algorithms must reliably consider the inherent uncertainties of the traffic environment, e.g. arising from the variety of human driving styles. Such uncertainties can generate ambiguous decisions, requiring the algorithm to appropriately balance low-probability hazardous events, e.g. collisions, and high-probability beneficial events, e.g. quickly crossing the intersection. State-of-the-art behavior generation algorithms lack a distributional treatment of decision outcome. This impedes a proper risk evaluation in ambiguous situations, often encouraging either unsafe or conservative behavior. Thus, we propose a two-step approach for risk-sensitive behavior generation combining offline distribution learning with online risk assessment. Specifically, we first learn an optimal policy in an uncertain environment with Deep Distributional Reinforcement Learning. During execution, the optimal risk-sensitive action is selected by applying established risk criteria, such as the Conditional Value at Risk, to the learned state-action return distributions. In intersection crossing scenarios, we evaluate different risk criteria and demonstrate that our approach increases safety, while maintaining an active driving style. Our approach shall encourage further studies about the benefits of risk-sensitive approaches for self-driving vehicles.
翻訳日:2021-02-08 14:42:06 公開日:2021-02-05
# 斜めUAV画像のセマンティックセグメンテーションのための双方向マルチスケールアテンションネットワーク

Bidirectional Multi-scale Attention Networks for Semantic Segmentation of Oblique UAV Imagery ( http://arxiv.org/abs/2102.03099v1 )

ライセンス: Link先を確認
Ye Lyu, George Vosselman, Gui-Song Xia, Michael Ying Yang(参考訳) 航空プラットフォームにおけるセマンティクスセグメンテーションは、地球観測における基本的なシーン理解タスクの1つである。 セマンティックセグメンテーションのほとんどの研究は、斜視で捉えたシーンに比べて、物体のスケールの変化が比較的小さい、ナディルビューで捉えたシーンに焦点を当てている。 斜め画像におけるオブジェクトの大規模変動は、単一のスケールで画像を処理するディープニューラルネットワーク(DNN)のパフォーマンスを制限する。 そこで本論文では,複数のスケールの特徴を双方向に融合させ,より適応的かつ効果的な特徴抽出を行う,新しい双方向マルチスケール注意ネットワークを提案する。 実験はUAVid2020データセット上で行われ,本手法の有効性を示した。 私達のモデルは70.80%の連合(mIoU)スコア上の平均交差の最先端の(SOTA)結果を達成しました。

Semantic segmentation for aerial platforms has been one of the fundamental scene understanding task for the earth observation. Most of the semantic segmentation research focused on scenes captured in nadir view, in which objects have relatively smaller scale variation compared with scenes captured in oblique view. The huge scale variation of objects in oblique images limits the performance of deep neural networks (DNN) that process images in a single scale fashion. In order to tackle the scale variation issue, in this paper, we propose the novel bidirectional multi-scale attention networks, which fuse features from multiple scales bidirectionally for more adaptive and effective feature extraction. The experiments are conducted on the UAVid2020 dataset and have shown the effectiveness of our method. Our model achieved the state-of-the-art (SOTA) result with a mean intersection over union (mIoU) score of 70.80%.
翻訳日:2021-02-08 14:41:21 公開日:2021-02-05
# 監視カメラによる顔画像のリアルタイム超解像

Real-World Super-Resolution of Face-Images from Surveillance Cameras ( http://arxiv.org/abs/2102.03113v1 )

ライセンス: Link先を確認
Andreas Aakerberg, Kamal Nasrollahi, Thomas B. Moeslund(参考訳) ほとんどの顔画像超解法(SR)は、低分解能(LR)画像は、バイコビック補間による高分解能(HR)画像から人工的にダウンサンプリングされたと仮定している。 この操作は、自然な画像特性を変更し、ノイズを低減する。 したがって、そのようなデータに基づいて訓練されたSR法は、実際のLR画像に適用すると良い結果が得られないことが多い。 そこで本研究では,リアルなLR/HRトレーニングペア生成のための新しいフレームワークを提案する。 このフレームワークは、現実的なぼかしカーネル、ノイズ分布、JPEG圧縮アーティファクトを推定し、ソースドメインと同じ画像特性を持つLR画像を生成する。 これにより、高品質の顔画像を用いたSRモデルをGT(Gearth-Truth)としてトレーニングすることができます。 我々はGAN(Generative Adversarial Network)ベースのSRモデルを用いて、一般的に使われているVGG-loss [24]とLPIPS-loss [52]を交換した。 実画像と人工顔画像の両方に対する実験結果から,既存のSoTA法と比較してノイズが少なく,より詳細な再構成が得られた。 さらに,従来の非参照画像品質評価法(IQA)では,この改善を捉えられず,最近のNIMA測定法 [16] は,平均オピニオンランク(MOR)を介して人間の知覚と相関することを示した。

Most existing face image Super-Resolution (SR) methods assume that the Low-Resolution (LR) images were artificially downsampled from High-Resolution (HR) images with bicubic interpolation. This operation changes the natural image characteristics and reduces noise. Hence, SR methods trained on such data most often fail to produce good results when applied to real LR images. To solve this problem, we propose a novel framework for generation of realistic LR/HR training pairs. Our framework estimates realistic blur kernels, noise distributions, and JPEG compression artifacts to generate LR images with similar image characteristics as the ones in the source domain. This allows us to train a SR model using high quality face images as Ground-Truth (GT). For better perceptual quality we use a Generative Adversarial Network (GAN) based SR model where we have exchanged the commonly used VGG-loss [24] with LPIPS-loss [52]. Experimental results on both real and artificially corrupted face images show that our method results in more detailed reconstructions with less noise compared to existing State-of-the-Art (SoTA) methods. In addition, we show that the traditional non-reference Image Quality Assessment (IQA) methods fail to capture this improvement and demonstrate that the more recent NIMA metric [16] correlates better with human perception via Mean Opinion Rank (MOR).
翻訳日:2021-02-08 14:41:09 公開日:2021-02-05
# 深層学習を用いたマルチスペクトル物体検出

Multispectral Object Detection with Deep Learning ( http://arxiv.org/abs/2102.03115v1 )

ライセンス: Link先を確認
Md Osman Gani, Somenath Kuiry, Alaka Das, Mita Nasipuri, Nibaran Das(参考訳) 自然界における物体検出は難しい課題である。 多くの現実の状況では、可視スペクトルは従来のコンピュータビジョンのタスクには適さない。 熱スペクトルや近赤外(NIR)画像などの可視スペクトル範囲外の移動は、低視認性条件においてはるかに有益であり、NIR画像は物体の材料品質を理解するために非常に有用である。 本研究では,物体検出タスクのサーマルスペクトルとNIRスペクトルの両方を用いて画像撮影を行った。 検出タスクにはサーマルとNIRの両方のマルチスペクトルデータが利用できないため、自分でデータを収集する必要がありました。 データ収集は時間を要するプロセスであり、克服する必要のある多くの障害に直面しました。 YOLO v3ネットワークをゼロからトレーニングし、マルチスペクトル画像から物体を検出する。 また、過剰フィッティングを避けるために、データ拡張とハイパーパラメータのチューニングを行いました。

Object detection in natural scenes can be a challenging task. In many real-life situations, the visible spectrum is not suitable for traditional computer vision tasks. Moving outside the visible spectrum range, such as the thermal spectrum or the near-infrared (NIR) images, is much more beneficial in low visibility conditions, NIR images are very helpful for understanding the object's material quality. In this work, we have taken images with both the Thermal and NIR spectrum for the object detection task. As multi-spectral data with both Thermal and NIR is not available for the detection task, we needed to collect data ourselves. Data collection is a time-consuming process, and we faced many obstacles that we had to overcome. We train the YOLO v3 network from scratch to detect an object from multi-spectral images. Also, to avoid overfitting, we have done data augmentation and tune hyperparameters.
翻訳日:2021-02-08 14:40:45 公開日:2021-02-05
# 物体認識のためのディープニューラルネットワークによるゼロショット学習

Zero-shot Learning with Deep Neural Networks for Object Recognition ( http://arxiv.org/abs/2102.03137v1 )

ライセンス: Link先を確認
Yannick Le Cacheux and Herv\'e Le Borgne and Michel Crucianu(参考訳) ゼロショット学習は、視覚的なトレーニングサンプルなしでオブジェクトを認識する能力を扱う。 この視覚データの欠如を相殺するために、認識する各クラスは、オブジェクトの本質的な特徴を反映したセマンティックプロトタイプに関連付けられている。 一般的なアプローチは、ビジュアルデータからセマンティックプロトタイプへのマッピングを学び、推論時にそれを使って、クラスプロトタイプからのみ視覚サンプルを分類する。 この一般的な設定の異なる設定は、興味のあるユースケース、特にマッピングを学ぶために使われていないオブジェクトのみを分類したいか、ラベルのない視覚的な例を使ってマッピングを学ぶことができるかによって考慮できる。 この章では、ZSL問題に取り組むためのディープニューラルネットワークに基づくアプローチのレビューを紹介します。 我々は、このドメインの進化に大きな影響を与えた発見を強調し、現在の課題をリストアップする。

Zero-shot learning deals with the ability to recognize objects without any visual training sample. To counterbalance this lack of visual data, each class to recognize is associated with a semantic prototype that reflects the essential features of the object. The general approach is to learn a mapping from visual data to semantic prototypes, then use it at inference to classify visual samples from the class prototypes only. Different settings of this general configuration can be considered depending on the use case of interest, in particular whether one only wants to classify objects that have not been employed to learn the mapping or whether one can use unlabelled visual examples to learn the mapping. This chapter presents a review of the approaches based on deep neural networks to tackle the ZSL problem. We highlight findings that had a large impact on the evolution of this domain and list its current challenges.
翻訳日:2021-02-08 14:40:32 公開日:2021-02-05
# プランテーションライン検出のためのグラフに基づく深層学習手法

A Deep Learning Approach Based on Graphs to Detect Plantation Lines ( http://arxiv.org/abs/2102.03213v1 )

ライセンス: Link先を確認
Diogo Nunes Gon\c{c}alves, Mauro dos Santos de Arruda, Hemerson Pistori, Vanessa Jord\~ao Marcato Fernandes, Ana Paula Marques Ramos, Danielle Elis Garcia Furuya, Lucas Prado Osco, Hongjie He, Jonathan Li, Jos\'e Marcato Junior, Wesley Nunes Gon\c{c}alves(参考訳) 深層学習に基づくネットワークは、線形パターンを学習し、多様な画像条件からこの種の情報を抽出する最も顕著な方法の一つである。 本稿では,UAVを用いたRGB画像における植林線検出のためのグラフに基づく深層学習手法を提案する。 本手法の最初のモジュールは、VGG16の初期層からなるバックボーン全体の特徴マップを抽出します。 この特徴マップは、植物の位置を検出するために3つの連結枝で構成された知識推定モジュール(KEM)への入力として使用され、植物間の変位ベクトルのために2つのプランテーションライン、および3。 画像上の各植物位置を頂点としてグラフモデルを適用し、2つの頂点(すなわち、エッジ)間にエッジを形成する。 植物)。 最後に、エッジは、3つの確率(0.5以上)に基づいて特定のプランテーションラインに関連するものとして分類される:i)バックボーンから得られた視覚的特徴、ii)KEMステップから、エッジピクセルがラインに属している可能性、およびiii)KEMからも、エッジへの変位ベクトルのアライメント。 異なる成長段階と空中RGB画像のパターンを持つトウモロコシプランテーションで実験を行った。 256 x 256ピクセルの合計564パッチが使用され、ランダムにトレーニング、検証、テストセットにそれぞれ60\%、20\%、20\%の割合で分割された。 提案手法は最先端の深層学習法と比較し, 98.7\%, 91.9\%, 95.1\%の精度, リコール, F1-スコアをそれぞれ返送し, 有意なマージンで優れた性能を達成した。 このアプローチは、スペーシングされたプランテーションパターンを持つラインを抽出するのに有用であり、プランテーションギャップが発生するシナリオで実装でき、少ない割り込みでラインを生成することができる。

Deep learning-based networks are among the most prominent methods to learn linear patterns and extract this type of information from diverse imagery conditions. Here, we propose a deep learning approach based on graphs to detect plantation lines in UAV-based RGB imagery presenting a challenging scenario containing spaced plants. The first module of our method extracts a feature map throughout the backbone, which consists of the initial layers of the VGG16. This feature map is used as an input to the Knowledge Estimation Module (KEM), organized in three concatenated branches for detecting 1) the plant positions, 2) the plantation lines, and 3) for the displacement vectors between the plants. A graph modeling is applied considering each plant position on the image as vertices, and edges are formed between two vertices (i.e. plants). Finally, the edge is classified as pertaining to a certain plantation line based on three probabilities (higher than 0.5): i) in visual features obtained from the backbone; ii) a chance that the edge pixels belong to a line, from the KEM step; and iii) an alignment of the displacement vectors with the edge, also from KEM. Experiments were conducted in corn plantations with different growth stages and patterns with aerial RGB imagery. A total of 564 patches with 256 x 256 pixels were used and randomly divided into training, validation, and testing sets in a proportion of 60\%, 20\%, and 20\%, respectively. The proposed method was compared against state-of-the-art deep learning methods, and achieved superior performance with a significant margin, returning precision, recall, and F1-score of 98.7\%, 91.9\%, and 95.1\%, respectively. This approach is useful in extracting lines with spaced plantation patterns and could be implemented in scenarios where plantation gaps occur, generating lines with few-to-none interruptions.
翻訳日:2021-02-08 14:40:17 公開日:2021-02-05
# GaitSet: 深いセットとしてのGaitを利用したクロスビュー歩行認識

GaitSet: Cross-view Gait Recognition through Utilizing Gait as a Deep Set ( http://arxiv.org/abs/2102.03247v1 )

ライセンス: Link先を確認
Hanqing Chao, Kun Wang, Yiwei He, Junping Zhang, Jianfeng Feng(参考訳) 歩行は、遠くで認識できるユニークな生体認証機能であり、犯罪防止、法医学的識別、社会保障に広く適用されています。 歩行を表現するために、既存の歩行認識方法は、時間的情報の保存が困難な歩行テンプレート、または不要な連続的な制約を保ち、歩行認識の柔軟性を失う歩行シーケンスを利用する。 本稿では,左半球と右半球が情報を処理し,識別に使用可能な情報を学習する方法に触発されたグローバル局所融合深層ネットワークにより,歩行フレームの集合を統合した深層集合とする新しい視点を提案する。 この深い視点に基づいて、我々の手法はフレームの置換に無害であり、さまざまな視野角、異なる衣服、異なるアイテムの搬送条件など、異なるシナリオで取得された異なるビデオのフレームを自然に統合することができる。 実験の結果,通常の歩行条件下では,CASIA-B歩行データセットの平均ランク1精度は96.1%,OU-MVLP歩行データセットでは87.9%であった。 様々な複雑なシナリオにおいて、我々のモデルは高レベルの堅牢性を示す。 CASIA-Bのバッグ運搬およびコート着用歩行条件における90.8%と70.3%の精度を達成し、既存の最良の方法を大幅に上回っている。 また,本手法は,試験試料中のフレーム数が少ない場合においても精度が良好であり,例えば7フレームのみを使用してもcasia-bでは85.0%を達成した。 ソースコードはhttps://github.com/AbnerHqC/GaitSetで公開されている。

Gait is a unique biometric feature that can be recognized at a distance; thus, it has broad applications in crime prevention, forensic identification, and social security. To portray a gait, existing gait recognition methods utilize either a gait template which makes it difficult to preserve temporal information, or a gait sequence that maintains unnecessary sequential constraints and thus loses the flexibility of gait recognition. In this paper, we present a novel perspective that utilizes gait as a deep set, which means that a set of gait frames are integrated by a global-local fused deep network inspired by the way our left- and right-hemisphere processes information to learn information that can be used in identification. Based on this deep set perspective, our method is immune to frame permutations, and can naturally integrate frames from different videos that have been acquired under different scenarios, such as diverse viewing angles, different clothes, or different item-carrying conditions. Experiments show that under normal walking conditions, our single-model method achieves an average rank-1 accuracy of 96.1% on the CASIA-B gait dataset and an accuracy of 87.9% on the OU-MVLP gait dataset. Under various complex scenarios, our model also exhibits a high level of robustness. It achieves accuracies of 90.8% and 70.3% on CASIA-B under bag-carrying and coat-wearing walking conditions respectively, significantly outperforming the best existing methods. Moreover, the proposed method maintains a satisfactory accuracy even when only small numbers of frames are available in the test samples; for example, it achieves 85.0% on CASIA-B even when using only 7 frames. The source code has been released at https://github.com/AbnerHqC/GaitSet.
翻訳日:2021-02-08 14:39:40 公開日:2021-02-05
# デカップリング特徴生成によるトランスダクティブゼロショット学習

Transductive Zero-Shot Learning by Decoupled Feature Generation ( http://arxiv.org/abs/2102.03266v1 )

ライセンス: Link先を確認
Federico Marmoreo, Jacopo Cavazza, Vittorio Murino(参考訳) 本稿では,ゼロショット学習(ZSL)の課題として,学習中にラベル付き視覚データが利用できないカテゴリ認識の問題について述べる。 我々は,unseenクラスからラベルなしのビジュアルデータを利用可能にするトランスダクティブ設定に注目する。 ZSLの最先端パラダイムは、通常、生成的敵ネットワークを利用してセマンティック属性から視覚的特徴を合成する。 これらのアプローチの主な限界は,1)現実的な視覚的特徴を生成すること,2)意味的属性を視覚的手がかりに変換すること,の2つの問題に直面する単一モデルを採用することである。 別々に、これらのタスクを分離し、個別に解決することを提案する。 特に、非条件ジェネレーターをトレーニングして、視覚データの分布の複雑さのみをキャプチャし、その後、クラス埋め込みのセマンティックコンテンツとデータ分布の以前の知識を豊かにするために専用の条件ジェネレーターとペアリングします。 提案したデカップリング手法の効果を解明する詳細なアブレーション研究を行い、関連した最新技術に対する優位性を実証する。

In this paper, we address zero-shot learning (ZSL), the problem of recognizing categories for which no labeled visual data are available during training. We focus on the transductive setting, in which unlabelled visual data from unseen classes is available. State-of-the-art paradigms in ZSL typically exploit generative adversarial networks to synthesize visual features from semantic attributes. We posit that the main limitation of these approaches is to adopt a single model to face two problems: 1) generating realistic visual features, and 2) translating semantic attributes into visual cues. Differently, we propose to decouple such tasks, solving them separately. In particular, we train an unconditional generator to solely capture the complexity of the distribution of visual data and we subsequently pair it with a conditional generator devoted to enrich the prior knowledge of the data distribution with the semantic content of the class embeddings. We present a detailed ablation study to dissect the effect of our proposed decoupling approach, while demonstrating its superiority over the related state-of-the-art.
翻訳日:2021-02-08 14:39:09 公開日:2021-02-05
# 単一画像からの教師なし新規ビュー合成

Unsupervised Novel View Synthesis from a Single Image ( http://arxiv.org/abs/2102.03285v1 )

ライセンス: Link先を確認
Pierluigi Zama Ramirez, Alessio Tonioni, Federico Tombari(参考訳) 単一の画像からの新しいビュー合成は、オブジェクトの単一入力画像から新しいビューを生成することを目的としている。 いくつかの作業は最近驚くべき結果を達成したが、トレーニング時に何らかの形でマルチビューの監督を必要とするため、実際のシナリオでの展開が制限される。 本研究は,この仮定を緩和し,条件付き生成モデルの学習を可能にすることを目的としている。 まず,ganを用いた純粋生成型デコーダモデルを事前学習し,同時にエンコーダネットワークを訓練し,潜在コードから画像へのマッピングを反転させる。 次に、エンコーダとデコーダを交換し、オートエンコーダのような目的と自己蒸留を混合した条件付きGANとしてネットワークを訓練する。 テスト時に、オブジェクトのビューを考えると、私たちのモデルはまずイメージ内容を潜入コードに埋め込んで、そのポーズをw.r.tに残します。 標準参照システムは、コードを保持し、ポーズを変えることで、それの新しいビューを生成する。 本研究では,本フレームワークがShapeNetの最先端技術に匹敵する結果を達成し,競合する手法を訓練しない自然画像の非制約コレクションに適用可能であることを示す。

Novel view synthesis from a single image aims at generating novel views from a single input image of an object. Several works recently achieved remarkable results, though require some form of multi-view supervision at training time, therefore limiting their deployment in real scenarios. This work aims at relaxing this assumption enabling training of conditional generative model for novel view synthesis in a completely unsupervised manner. We first pre-train a purely generative decoder model using a GAN formulation while at the same time training an encoder network to invert the mapping from latent code to images. Then we swap encoder and decoder and train the network as a conditioned GAN with a mixture of auto-encoder-like objective and self-distillation. At test time, given a view of an object, our model first embeds the image content in a latent code and regresses its pose w.r.t. a canonical reference system, then generates novel views of it by keeping the code and varying the pose. We show that our framework achieves results comparable to the state of the art on ShapeNet and that it can be employed on unconstrained collections of natural images, where no competing method can be trained.
翻訳日:2021-02-08 14:38:49 公開日:2021-02-05
# LIDARに基づく道路マッピングのためのニューラルネットワークの融合

Fusion of neural networks, for LIDAR-based evidential road mapping ( http://arxiv.org/abs/2102.03326v1 )

ライセンス: Link先を確認
Edouard Capellier, Franck Davoine, Veronique Cherfaoui, You Li(参考訳) LIDARセンサーは、通常、環境の3D表現を自動運転車に提供するために使用される。 理想的な条件では、幾何学的モデルは、数値制約の手動チューニングと柔軟性の欠如のコストで、LIDARスキャンの道路を検出することができます。 代わりに,ニューラルネットワークから得られた道路検出結果を蓄積する立証パイプラインを提案する。 まず、LIDARスキャンで道路検出に最適化された新しい畳み込みアーキテクチャであるRoadSegを紹介します。 RoadSegは、個々のLIDARポイントを道路に属するか、そうでないかを分類するために使用される。 しかし、そのような点レベルの分類結果は、自動運転車で使用できる密集した表現に変換する必要がある。 そこで第2に,連続する道路検出結果と融合する道路マッピングアルゴリズムを提案する。 私たちは、単純明快な質量関数の集合を生成すると見ることができるロジスティック分類器の再解釈から利益を得ました。 道路からグリッドセルに分類結果を投影し、コンフリクト解析によって動く物体を処理することにより、道路を描写した実証的なグリッドマップを得ることができる。 システムは実生活データに基づいて訓練され評価された。 python実装は10Hzのフレームレートを維持します。 トレーニングには道路標識が必要であったため、レーンレベルのhdマップに依存したソフトなラベリング手順が、粗いトレーニングと検証セットを生成するために用いられた。 追加のテストセットは評価目的で手動でラベル付けされた。 十分な結果を得るために、システムは3種類のroadegから得られた道路検出結果を融合し、異なるlidar特徴を処理する。

LIDAR sensors are usually used to provide autonomous vehicles with 3D representations of their environment. In ideal conditions, geometrical models could detect the road in LIDAR scans, at the cost of a manual tuning of numerical constraints, and a lack of flexibility. We instead propose an evidential pipeline, to accumulate road detection results obtained from neural networks. First, we introduce RoadSeg, a new convolutional architecture that is optimized for road detection in LIDAR scans. RoadSeg is used to classify individual LIDAR points as either belonging to the road, or not. Yet, such point-level classification results need to be converted into a dense representation, that can be used by an autonomous vehicle. We thus secondly present an evidential road mapping algorithm, that fuses consecutive road detection results. We benefitted from a reinterpretation of logistic classifiers, which can be seen as generating a collection of simple evidential mass functions. An evidential grid map that depicts the road can then be obtained, by projecting the classification results from RoadSeg into grid cells, and by handling moving objects via conflict analysis. The system was trained and evaluated on real-life data. A python implementation maintains a 10 Hz framerate. Since road labels were needed for training, a soft labelling procedure, relying lane-level HD maps, was used to generate coarse training and validation sets. An additional test set was manually labelled for evaluation purposes. So as to reach satisfactory results, the system fuses road detection results obtained from three variants of RoadSeg, processing different LIDAR features.
翻訳日:2021-02-08 14:38:30 公開日:2021-02-05
# (参考訳) 深層学習を用いた胸部腹部骨盤ctテキストレポートのマルチラベルアノテーション

Multi-Label Annotation of Chest Abdomen Pelvis Computed Tomography Text Reports Using Deep Learning ( http://arxiv.org/abs/2102.02959v1 )

ライセンス: CC BY 4.0
Vincent M. D'Anniballe, Fakrul I. Tushar, Khrystyna Faryna, Songyue Han, Maciej A. Mazurowski, Geoffrey D. Rubin, Joseph Y. Lo(参考訳) さまざまな疾患、臓器、症例に適用可能な体電トモグラフィ(CT)レポート用の高スループットマルチラベルアノテーションを開発する。 まず,放射線学のテキストレポートから病気ラベルを抽出するためのルールベースアルゴリズム(RBA)を開発した。 対象は3つの臓器システム(lungs/pleura, liver/gallbladder, kidneys/ureters)で,各システムごとに4つの疾患を発症した。 事前に定義されたキーワードを超えてアルゴリズムを拡張するために、RBA抽出ラベルを用いて注意誘導型リカレントニューラルネットワーク(RNN)を訓練し、各臓器系に対して1つ以上の疾患や正常な報告を分類した。 トレーニングデータセットのサイズの違いに加えて,ランダムあるいは事前学習した組込みを用いて,モデル性能に対する基礎的効果を評価した。 曲線 (AUC) 下の受信機動作特性 (ROC) を手作業で取得した2,158個のラベルに対して評価した。 症例261,229例から112,501例の疾患ラベルを抽出した。 事前訓練されたモデルは、すべての病気にランダムに埋め込まれた。 トレーニングデータセットのサイズが小さくなるにつれて、比較的少ない症例の病気を除き、パフォーマンスは堅牢であった。 術前分類aucsは3つの臓器システムで5つの疾患の予後を0.95以上達成した。 ラベル抽出パイプラインは,厳格な規則を例外的精度で一般化することにより,さまざまな症例や疾患を包含することができた。 フレームワークとして、このモデルは、画像ベースの疾患分類器を訓練するための病院規模の医療データセットの自動ラベリングを可能にするように容易に適応することができる。

To develop a high throughput multi-label annotator for body Computed Tomography (CT) reports that can be applied to a variety of diseases, organs, and cases. First, we used a dictionary approach to develop a rule-based algorithm (RBA) for extraction of disease labels from radiology text reports. We targeted three organ systems (lungs/pleura, liver/gallbladder, kidneys/ureters) with four diseases per system based on their prevalence in our dataset. To expand the algorithm beyond pre-defined keywords, an attention-guided recurrent neural network (RNN) was trained using the RBA-extracted labels to classify the reports as being positive for one or more diseases or normal for each organ system. Confounding effects on model performance were evaluated using random or pre-trained embedding as well as different sizes of training datasets. Performance was evaluated using the receiver operating characteristic (ROC) area under the curve (AUC) against 2,158 manually obtained labels. Our model extracted disease labels from 261,229 radiology reports of 112,501 unique subjects. Pre-trained models outperformed random embedding across all diseases. As the training dataset size was reduced, performance was robust except for a few diseases with relatively small number of cases. Pre-trained Classification AUCs achieved > 0.95 for all five disease outcomes across all three organ systems. Our label-extracting pipeline was able to encompass a variety of cases and diseases by generalizing beyond strict rules with exceptional accuracy. As a framework, this model can be easily adapted to enable automated labeling of hospital-scale medical data sets for training image-based disease classifiers.
翻訳日:2021-02-08 14:37:39 公開日:2021-02-05
# (参考訳) PipeTransformer: 変圧器の分散トレーニングのための自動弾性パイプライン

PipeTransformer: Automated Elastic Pipelining for Distributed Training of Transformers ( http://arxiv.org/abs/2102.03161v1 )

ライセンス: CC BY 4.0
Chaoyang He, Shen Li, Mahdi Soltanolkotabi, Salman Avestimehr(参考訳) Transformerのモデルのサイズは前例のないペースで成長している。 GPT-3 (175B) のリリースから1年足らずで1兆段階のパラメータに到達した。 このようなモデルのトレーニングには、膨大なエンジニアリング努力と膨大なコンピューティングリソースの両方が必要です。 本論文では,自動および弾性パイプライニングとデータ並列性を利用してトランスフォーマーモデルの効率的な分散トレーニングを行うPipeTransformerを提案する。 PipeTransformerは、トレーニング中にいくつかのレイヤを特定し凍結することで、パイプライニングとデータ並列性を自動的に調整し、残りのアクティブレイヤのトレーニングにリソースを割り当てる。 より具体的には、PipeTransformerはパイプラインから収束したレイヤを動的に排除し、アクティブなレイヤを少ないGPUにパックし、より多くのレプリカをフォークしてデータ並列幅を拡大する。 ImageNetのVision Transformer(ViT)とGLUEおよびSQuADデータセットのBERTを使用してPipeTransformerを評価します。 その結果、pipetransformerは最先端のベースラインと比較して2.4倍のスピードアップを達成した。 また,アルゴリズムやシステム設計をより包括的に理解するために,様々な性能解析を行う。 また,フリーズアルゴリズム,モデル定義,およびトレーニングアクセラレーションをクリーンに分離して,同様のフリーズ戦略を必要とする他のアルゴリズムにも適用可能な,pipetransformer用のフレキシブルapiもオープンソースとして開発した。

The size of Transformer models is growing at an unprecedented pace. It has only taken less than one year to reach trillion-level parameters after the release of GPT-3 (175B). Training such models requires both substantial engineering efforts and enormous computing resources, which are luxuries most research teams cannot afford. In this paper, we propose PipeTransformer, which leverages automated and elastic pipelining and data parallelism for efficient distributed training of Transformer models. PipeTransformer automatically adjusts the pipelining and data parallelism by identifying and freezing some layers during the training, and instead allocates resources for training of the remaining active layers. More specifically, PipeTransformer dynamically excludes converged layers from the pipeline, packs active layers into fewer GPUs, and forks more replicas to increase data-parallel width. We evaluate PipeTransformer using Vision Transformer (ViT) on ImageNet and BERT on GLUE and SQuAD datasets. Our results show that PipeTransformer attains a 2.4 fold speedup compared to the state-of-the-art baseline. We also provide various performance analyses for a more comprehensive understanding of our algorithmic and system-wise design. We also develop open-sourced flexible APIs for PipeTransformer, which offer a clean separation among the freeze algorithm, model definitions, and training accelerations, hence allowing it to be applied to other algorithms that require similar freezing strategies.
翻訳日:2021-02-08 14:25:17 公開日:2021-02-05
# (参考訳) レイヤワイド適応レートスケーリング(LARS)最適化を用いたシステムMLのディープラーニング評価

Evaluating Deep Learning in SystemML using Layer-wise Adaptive Rate Scaling(LARS) Optimizer ( http://arxiv.org/abs/2102.03018v1 )

ライセンス: CC0 1.0
Kanchan Chowdhury, Ankita Sharma and Arun Deepak Chandrasekar(参考訳) ディープラーニングモデルのバッチサイズを増加させることは、難しい課題です。 モデルのトレーニングフェーズで利用可能なシステムメモリをフル活用するのに役立つかもしれないが、ほとんどの場合、テスト精度が著しく低下する。 LARSはディープラーニングモデルの各層に対して適応学習率を導入することでこの問題を解決した。 しかし、SystemMLやMLlibのような分散機械学習システムが、このオプティマイザでどのように機能するかには疑問がある。 本研究では, LARSオプティマイザをSystemMLを用いて実装したディープラーニングモデルに適用し, 各種バッチサイズでの実験を行い, LARSオプティマイザの性能を \textit{Stochastic Gradient Descent} と比較した。 実験の結果,分散機械学習フレームワークであるSystemMLでも,LARSオプティマイザはStochastic Gradient Descentよりも大きなバッチサイズを実現していることがわかった。

Increasing the batch size of a deep learning model is a challenging task. Although it might help in utilizing full available system memory during training phase of a model, it results in significant loss of test accuracy most often. LARS solved this issue by introducing an adaptive learning rate for each layer of a deep learning model. However, there are doubts on how popular distributed machine learning systems such as SystemML or MLlib will perform with this optimizer. In this work, we apply LARS optimizer to a deep learning model implemented using SystemML.We perform experiments with various batch sizes and compare the performance of LARS optimizer with \textit{Stochastic Gradient Descent}. Our experimental results show that LARS optimizer performs significantly better than Stochastic Gradient Descent for large batch sizes even with the distributed machine learning framework, SystemML.
翻訳日:2021-02-08 14:07:26 公開日:2021-02-05
# 対向ロバストネスのための多変数ネットワークの学習

Learning Diverse-Structured Networks for Adversarial Robustness ( http://arxiv.org/abs/2102.01886v2 )

ライセンス: Link先を確認
Xuefeng Du, Jingfeng Zhang, Bo Han, Tongliang Liu, Yu Rong, Gang Niu, Junzhou Huang, Masashi Sugiyama(参考訳) 対戦型トレーニング(AT)では、モデルがあまり研究されていない間、客観性と最適化が主な焦点であり、使用しているモデルは標準トレーニング(ST)における古典的なモデルである。 古典的なネットワークアーキテクチャ(NA)は、STで検索されたNAよりも一般的に悪いです。 本稿では、データセットが与えられた場合、STにおける最適なNAはATにおいてもはや最適ではないため、NAとATは独立に処理できないと論じる。 とはいえ、ATは時間を要するので、大規模な検索空間上でATでNAを直接検索すると、計算は事実上不可能になります。 そこで我々は,低レベルな演算ではなく,原子ブロックが残留ブロックのような時間テストされたビルディングブロックであるような,事前定義された原子ブロックのみを考慮し,探索空間の規模を大幅に削減する多様構造ネットワーク(DS-Net)を提案する。 原子ブロックはごくわずかなので、検索されたDS-Netのブロックで最高のものを見つけるのではなく、すべての原子ブロックを重み付けることができます。 実験結果はDS-Netの利点、すなわち原子ブロックの重み付けを示す。

In adversarial training (AT), the main focus has been the objective and optimizer while the model has been less studied, so that the models being used are still those classic ones in standard training (ST). Classic network architectures (NAs) are generally worse than searched NAs in ST, which should be the same in AT. In this paper, we argue that NA and AT cannot be handled independently, since given a dataset, the optimal NA in ST would be no longer optimal in AT. That being said, AT is time-consuming itself; if we directly search NAs in AT over large search spaces, the computation will be practically infeasible. Thus, we propose a diverse-structured network (DS-Net), to significantly reduce the size of the search space: instead of low-level operations, we only consider predefined atomic blocks, where an atomic block is a time-tested building block like the residual block. There are only a few atomic blocks and thus we can weight all atomic blocks rather than find the best one in a searched block of DS-Net, which is an essential trade-off between exploring diverse structures and exploiting the best structures. Empirical results demonstrate the advantages of DS-Net, i.e., weighting the atomic blocks.
翻訳日:2021-02-08 13:06:02 公開日:2021-02-05
# 知的ロボティクスのための運動計画アルゴリズムのレビュー

A review of motion planning algorithms for intelligent robotics ( http://arxiv.org/abs/2102.02376v2 )

ライセンス: Link先を確認
Chengmin Zhou, Bingding Huang, Pasi Fr\"anti(参考訳) 典型的な運動計画アルゴリズムの原理を調査・分析します。 これには、従来の計画アルゴリズム、教師付き学習、最適値強化学習、ポリシー勾配強化学習が含まれる。 従来の計画アルゴリズムには,グラフ探索アルゴリズム,サンプリングベースアルゴリズム,補間曲線アルゴリズムなどがある。 教師付き学習アルゴリズムには、MSVM、LSTM、MCTS、CNNなどがある。 最適値強化学習アルゴリズムには、Q学習、DQN、double DQN、DQNのデュエルがある。 ポリシー勾配アルゴリズムには、ポリシー勾配法、アクタークリティカルアルゴリズム、A3C、A2C、DPG、DDPG、TRPO、PPOが含まれる。 解析比較による運動計画アルゴリズムの性能評価と適用を評価するための新たな一般基準も導入されている。 最適値とポリシー勾配アルゴリズムの収束速度と安定性を特別に分析する。 動作計画アルゴリズムの原理と解析比較に基づき,今後の方向性を解析的に提示する。 本稿では,ロボット工学におけるモーションプランニングアルゴリズムの長所,短所,関係,未来について,研究者に明確かつ包括的な理解を与え,より優れたモーションプランニングアルゴリズムを実現する方法を提案する。

We investigate and analyze principles of typical motion planning algorithms. These include traditional planning algorithms, supervised learning, optimal value reinforcement learning, policy gradient reinforcement learning. Traditional planning algorithms we investigated include graph search algorithms, sampling-based algorithms, and interpolating curve algorithms. Supervised learning algorithms include MSVM, LSTM, MCTS and CNN. Optimal value reinforcement learning algorithms include Q learning, DQN, double DQN, dueling DQN. Policy gradient algorithms include policy gradient method, actor-critic algorithm, A3C, A2C, DPG, DDPG, TRPO and PPO. New general criteria are also introduced to evaluate performance and application of motion planning algorithms by analytical comparisons. Convergence speed and stability of optimal value and policy gradient algorithms are specially analyzed. Future directions are presented analytically according to principles and analytical comparisons of motion planning algorithms. This paper provides researchers with a clear and comprehensive understanding about advantages, disadvantages, relationships, and future of motion planning algorithms in robotics, and paves ways for better motion planning algorithms.
翻訳日:2021-02-08 13:05:43 公開日:2021-02-05
# 原子システム導入のためのユニバーサルフレームワーク

A Universal Framework for Featurization of Atomistic Systems ( http://arxiv.org/abs/2102.02390v2 )

ライセンス: Link先を確認
Xiangyun Lei, Andrew J. Medford(参考訳) 分子動力学シミュレーションは、多くの科学分野で貴重なツールです。 しかし、ユビキタス古典力場は反応系を記述することができず、量子分子力学は大きな系や長い時間スケールを扱うのに計算的に要求されすぎる。 物理や機械学習に基づく反応力場は、時間と長さのスケールのギャップを埋めるために用いられるが、これらの力場は構築にかなりの労力を必要とし、与えられた化学組成や応用に非常に特有である。 機械学習モデルの極端な柔軟性は、化学結合のより一般的な記述を提供する反応力場を生み出すことを約束する。 しかし、機械学習モデルの顕著な制限は、要素固有の特徴の使用であり、要素の数に匹敵するスケールの悪いモデルに繋がる。 本研究は、原子周辺の電子密度の物理的関係の多極展開を利用して、要素タイプ間で補間され、存在元素数によらず固定次元を持つ特徴ベクトルを生成するガウス型多極(gmp)実現スキームを導入する。 GMPとニューラルネットワークを組み合わせることで、MD17データセットで広く使用されているBehler-Parinello対称関数と直接比較し、精度と計算効率が向上したことを明らかにしました。 さらに,GMPに基づくモデルではQM9データセットの化学的精度が得られ,新しい要素を外挿してもその精度は妥当であることを示す。 最後に、Open Catalysis Project (OCP)データセットのGMPベースのモデルをテストし、グラフ畳み込みディープラーニングモデルと比較して、同等のパフォーマンスと学習率の改善を明らかにした。 その結果, この破砕法は, 効率的かつ伝達可能な反応力場の構築において重要なギャップを埋めることが示唆された。

Molecular dynamics simulations are an invaluable tool in numerous scientific fields. However, the ubiquitous classical force fields cannot describe reactive systems, and quantum molecular dynamics are too computationally demanding to treat large systems or long timescales. Reactive force fields based on physics or machine learning can be used to bridge the gap in time and length scales, but these force fields require substantial effort to construct and are highly specific to given chemical composition and application. The extreme flexibility of machine learning models promises to yield reactive force fields that provide a more general description of chemical bonding. However, a significant limitation of machine learning models is the use of element-specific features, leading to models that scale poorly with the number of elements. This work introduces the Gaussian multi-pole (GMP) featurization scheme that utilizes physically-relevant multi-pole expansions of the electron density around atoms to yield feature vectors that interpolate between element types and have a fixed dimension regardless of the number of elements present. We combine GMP with neural networks to directly compare it to the widely-used Behler-Parinello symmetry functions for the MD17 dataset, revealing that it exhibits improved accuracy and computational efficiency. Further, we demonstrate that GMP-based models can achieve chemical accuracy for the QM9 dataset, and their accuracy remains reasonable even when extrapolating to new elements. Finally, we test GMP-based models for the Open Catalysis Project (OCP) dataset, revealing comparable performance and improved learning rates when compared to graph convolutional deep learning models. The results indicate that this featurization scheme fills a critical gap in the construction of efficient and transferable reactive force fields.
翻訳日:2021-02-08 13:05:26 公開日:2021-02-05
# リコメンダシステムのためのデュアルエンベディングに基づくニューラルコラボレーティブフィルタリング

Dual-embedding based Neural Collaborative Filtering for Recommender Systems ( http://arxiv.org/abs/2102.02549v2 )

ライセンス: Link先を確認
Gongshan He, Dongxing Zhao, Lixin Ding(参考訳) 様々な推奨技術の中で、協調フィルタリング(CF)が最も成功しています。 そしてCFの重要な問題は、ユーザとアイテムの表現方法だ。 以前の作品は通常、ユーザ(アイテム)を潜在要因(別名)のベクトルとして表現する。 次に、表現に基づいてユーザとアイテム間のインタラクションをモデル化します。 その効果にもかかわらず、協調フィルタリングのための十分な埋め込みを得るには不十分であると主張する。 SVD++のアイデアにインスパイアされ、ユーザ自身と相互作用したアイテムに基づいて、DNCFという、Dual-embeddingベースのニューラルネットワーク協調フィルタリングの略である一般的な協調フィルタリングフレームワークを提案します。 ユーザ(アイテム)に対するプリミティブな埋め込みの学習に加えて,インタラクションされたアイテム(ユーザ)の観点から追加的な埋め込みを導入し,ユーザ(item)表現を拡大する。 提案したDNCFフレームワークの有効性を,従来の行列因数分解モデルや他の最先端のディープラーニングベースレコメンデータモデルと比較することにより,4つの公開データセットに対する大規模な実験により実証した。

Among various recommender techniques, collaborative filtering (CF) is the most successful one. And a key problem in CF is how to represent users and items. Previous works usually represent a user (an item) as a vector of latent factors (aka. \textit{embedding}) and then model the interactions between users and items based on the representations. Despite its effectiveness, we argue that it's insufficient to yield satisfactory embeddings for collaborative filtering. Inspired by the idea of SVD++ that represents users based on themselves and their interacted items, we propose a general collaborative filtering framework named DNCF, short for Dual-embedding based Neural Collaborative Filtering, to utilize historical interactions to enhance the representation. In addition to learning the primitive embedding for a user (an item), we introduce an additional embedding from the perspective of the interacted items (users) to augment the user (item) representation. Extensive experiments on four publicly datasets demonstrated the effectiveness of our proposed DNCF framework by comparing its performance with several traditional matrix factorization models and other state-of-the-art deep learning based recommender models.
翻訳日:2021-02-08 13:04:55 公開日:2021-02-05
# 指数関数型リンクネットワークに基づくロバスト適応フィルタリング

Robust Adaptive Filtering Based on Exponential Functional Link Network ( http://arxiv.org/abs/2102.02952v1 )

ライセンス: Link先を確認
T. Yu, W. Li, Y. Yu and R. C. de Lamare(参考訳) 近年,指数関数リンクネットワーク (EFLN) が非線形フィルタリングに適用されている。 EFLN-ISR(EFLN-ISR)アルゴリズムと呼ばれる新しい逆角根(ISR)コスト関数に基づく適応型EFLNフィルタリングアルゴリズムを提案する。 EFLN-ISRの定常特性は厳密に導出され、数値シミュレーションにより確認される。 さらに,本アルゴリズムの有効性は,実験結果によって検証され,ヒステリック非線形システム同定への応用が期待できる。

The exponential functional link network (EFLN) has been recently investigated and applied to nonlinear filtering. This brief proposes an adaptive EFLN filtering algorithm based on a novel inverse square root (ISR) cost function, called the EFLN-ISR algorithm, whose learning capability is robust under impulsive interference. The steady-state performance of EFLN-ISR is rigorously derived and then confirmed by numerical simulations. Moreover, the validity of the proposed EFLN-ISR algorithm is justified by the actually experimental results with the application to hysteretic nonlinear system identification.
翻訳日:2021-02-08 13:03:56 公開日:2021-02-05
# 表示, 注意, 蒸留:注意に基づく特徴マッチングによる知識蒸留

Show, Attend and Distill:Knowledge Distillation via Attention-based Feature Matching ( http://arxiv.org/abs/2102.02973v1 )

ライセンス: Link先を確認
Mingi Ji, Byeongho Heo, Sungrae Park(参考訳) 知識蒸留は,教員ネットワークから一般知識を抽出し,対象学生ネットワークへのガイダンスを提供する。 ほとんどの研究は、教師と学生の中間的な特徴を手動で結び付け、事前に定義されたリンクを通じて知識を伝達する。 しかし、手動選択はしばしば蒸留による改善を制限する効果のないリンクを構築する。 この問題に対処する試みはあったが、実用的なシナリオで効果的なリンクを特定することは依然として困難である。 本論文では,教師の全ての特徴レベルを手作業で選択することなく有効かつ効率的な特徴抽出法を提案する。 具体的には,特徴間の相対的類似性を学習し,同一の類似性を適用して,可能な全対の蒸留強度を制御する。 その結果,本手法は従来手法よりも有能なリンクを効率的に決定し,モデル圧縮および転送学習タスクのパフォーマンスを向上する。 さらなる定性分析とアブレーション研究は、私たちの方法がより良い蒸留にどのように貢献するかを説明します。 実装コードはgithub.com/clovaai/attention-feature-distillationで入手できる。

Knowledge distillation extracts general knowledge from a pre-trained teacher network and provides guidance to a target student network. Most studies manually tie intermediate features of the teacher and student, and transfer knowledge through pre-defined links. However, manual selection often constructs ineffective links that limit the improvement from the distillation. There has been an attempt to address the problem, but it is still challenging to identify effective links under practical scenarios. In this paper, we introduce an effective and efficient feature distillation method utilizing all the feature levels of the teacher without manually selecting the links. Specifically, our method utilizes an attention-based meta-network that learns relative similarities between features, and applies identified similarities to control distillation intensities of all possible pairs. As a result, our method determines competent links more efficiently than the previous approach and provides better performance on model compression and transfer learning tasks. Further qualitative analyses and ablative studies describe how our method contributes to better distillation. The implementation code is available at github.com/clovaai/attention-feature-distillation.
翻訳日:2021-02-08 13:03:49 公開日:2021-02-05
# 高次元Wasserstein測地学を学ぶ

Learning High DimensionalWasserstein Geodesics ( http://arxiv.org/abs/2102.02992v1 )

ライセンス: Link先を確認
Shu Liu, Shaojun Ma, Yongxin Chen, Hongyuan Zha, Haomin Zhou(参考訳) 2つの確率分布を高次元で計算するための新しい定式化と学習戦略を提案する。 最適輸送(OT)問題の動的定式化にラグランジュ乗算器の手法を適用することにより、サドル点がWasserstein測地線であるミニマックス問題を導出する。 次に,深層ニューラルネットワークを用いて関数をパラメトリ化し,学習のためのサンプルベース双方向学習アルゴリズムを設計する。 訓練されたネットワークは、Wasserstein測地線からのサンプリングを可能にします。 副生成物として、アルゴリズムはワッサーシュタイン距離と限界分布間のOTマップも計算する。 合成データとリアルデータの両方を用いた一連の実験により、アルゴリズムの性能を実証します。

We propose a new formulation and learning strategy for computing the Wasserstein geodesic between two probability distributions in high dimensions. By applying the method of Lagrange multipliers to the dynamic formulation of the optimal transport (OT) problem, we derive a minimax problem whose saddle point is the Wasserstein geodesic. We then parametrize the functions by deep neural networks and design a sample based bidirectional learning algorithm for training. The trained networks enable sampling from the Wasserstein geodesic. As by-products, the algorithm also computes the Wasserstein distance and OT map between the marginal distributions. We demonstrate the performance of our algorithms through a series of experiments with both synthetic and realistic data.
翻訳日:2021-02-08 13:03:34 公開日:2021-02-05
# マルチオミクスデータ統合のための変分的情報ボトルネックアプローチ

A Variational Information Bottleneck Approach to Multi-Omics Data Integration ( http://arxiv.org/abs/2102.03014v1 )

ライセンス: Link先を確認
Changhee Lee and Mihaela van der Schaar(参考訳) バイオメディカル研究において,複数のオミクス技術からのデータの統合がますます重要になっている。 オミクスプラットフォームにおける不均一性や技術的制限のため、複数のオミクスに関する統合的分析は、様々なビューロスパターンによる不完全な観察から学習する。 i)観察されたビュー内の複雑な相互作用を最適な予測力のために適切に対処する必要があること、(ii)さまざまなビューミスパターンを持つ観察を柔軟に統合する必要があるため、これは困難です。 このような課題に対処するため、不完全なマルチビュー観察のための深い変動情報ボトルネック(IB)アプローチを提案します。 本手法は、観察されたビューの限界および共同表現にIBフレームワークを適用し、ターゲットに関連するイントラビューおよびインタービューインタラクションに焦点を当てる。 最も重要なことは、共同表現を限界表現の積としてモデル化することで、さまざまなビューミスパターンで観察されたビューから効率的に学習できるということです。 実世界のデータセットの実験から、我々の手法はデータ統合から常に利益を得て、最先端のベンチマークより優れています。

Integration of data from multiple omics techniques is becoming increasingly important in biomedical research. Due to non-uniformity and technical limitations in omics platforms, such integrative analyses on multiple omics, which we refer to as views, involve learning from incomplete observations with various view-missing patterns. This is challenging because i) complex interactions within and across observed views need to be properly addressed for optimal predictive power and ii) observations with various view-missing patterns need to be flexibly integrated. To address such challenges, we propose a deep variational information bottleneck (IB) approach for incomplete multi-view observations. Our method applies the IB framework on marginal and joint representations of the observed views to focus on intra-view and inter-view interactions that are relevant for the target. Most importantly, by modeling the joint representations as a product of marginal representations, we can efficiently learn from observed views with various view-missing patterns. Experiments on real-world datasets show that our method consistently achieves gain from data integration and outperforms state-of-the-art benchmarks.
翻訳日:2021-02-08 13:03:23 公開日:2021-02-05
# Boost AI Power: 乱れのないデータとコンフォーマル予測によるデータ拡張戦略 - 電子ノイズによる代替医療の差別の場合

Boost AI Power: Data Augmentation Strategies with unlabelled Data and Conformal Prediction, a Case in Alternative Herbal Medicine Discrimination with Electronic Nose ( http://arxiv.org/abs/2102.03088v1 )

ライセンス: Link先を確認
Li Liu, Xianghao Zhan, Rumeng Wu, Xiaoqing Guan, Zhan Wang, Wei Zhang, You Wang, Zhiyuan Luo, Guang Li(参考訳) 電子鼻は、代替薬の分類において有効性が証明されるが、教師付き学習の性質から、従来の研究はラベル付きトレーニングデータに依存している。 本研究は,実世界の応用におけるトレーニングデータの不十分さを考慮し,データ拡張戦略による分類精度の向上を目的とする。 学習データの不適切な状況下での5つのデータ拡張戦略の有効性を検討するために,2つのシナリオを刺激した。ノイズのないシナリオでは,ラベルなしデータの異なる可用性をシミュレートし,ノイズシナリオではガウス雑音と翻訳シフトの異なるレベルを同調したセンサドリフトを付加した。 拡張戦略:ノイズ付加データ強化,半教師付き学習,分類器に基づくオンライン学習,帰納的共形予測(icp)オンラインラーニング,新しいアンサンブルicpオンラインラーニングを教師付き学習ベースラインと比較し,線形判別分析(lda)とサポートベクターマシン(svm)を分類器とした。 少なくとも1つの戦略がLDA(p<=0.05)による分類精度を有意に向上させ、各タスクにおいてSVMによる非減少分類精度を示した。 さらに、ICPオンライン学習のアンサンブルは、全てのタスクにおいて非遅延的な分類精度を示し、ほとんどのタスク(25/36タスク、p<=0.05)において顕著に改善した。 本研究では,拡張戦略を体系的に分析し,特定の状況下での推奨戦略をユーザに提供する。 さらに,本提案手法は,他の機械学習アプリケーションにも適用可能な分類モデルの一般化性向上の両立と堅牢性を示した。

Electronic nose proves its effectiveness in alternativeherbal medicine classification, but due to the supervised learn-ing nature, previous research relies on the labelled training data,which are time-costly and labor-intensive to collect. Consideringthe training data inadequacy in real-world applications, this studyaims to improve classification accuracy via data augmentationstrategies. We stimulated two scenarios to investigate the effective-ness of five data augmentation strategies under different trainingdata inadequacy: in the noise-free scenario, different availability ofunlabelled data were simulated, and in the noisy scenario, differentlevels of Gaussian noises and translational shifts were added tosimulate sensor drifts. The augmentation strategies: noise-addingdata augmentation, semi-supervised learning, classifier-based online learning, inductive conformal prediction (ICP) onlinelearning and the novel ensemble ICP online learning proposed in this study, were compared against supervised learningbaseline, with Linear Discriminant Analysis (LDA) and Support Vector Machine (SVM) as the classifiers. We found thatat least one strategies significantly improved the classification accuracy with LDA(p<=0.05) and showed non-decreasingclassification accuracy with SVM in each tasks. Moreover, our novel strategy: ensemble ICP online learning outperformedthe others by showing non-decreasing classification accuracy on all tasks and significant improvement on most tasks(25/36 tasks,p<=0.05). This study provides a systematic analysis over augmentation strategies, and we provided userswith recommended strategies under specific circumstances. Furthermore, our newly proposed strategy showed botheffectiveness and robustness in boosting the classification model generalizability, which can also be further employed inother machine learning applications.
翻訳日:2021-02-08 13:03:04 公開日:2021-02-05
# DeepReduce:分散ディープラーニングのためのスパーステンソル通信フレームワーク

DeepReduce: A Sparse-tensor Communication Framework for Distributed Deep Learning ( http://arxiv.org/abs/2102.03112v1 )

ライセンス: Link先を確認
Kelly Kostopoulou, Hang Xu, Aritra Dutta, Xin Li, Alexandros Ntoulas, Panos Kalnis(参考訳) スパーステンソルは、ディープニューラルネットワークの勾配の直接的なアーティファクトとして、あるいは明示的なスパース化プロセスの結果として、分散ディープラーニングで頻繁に現れる。 既存のコミュニケーションプリミティブは、ディープラーニングの特異性に依存しないため、不要な通信オーバーヘッドを課す。 本稿では,分散ディープラーニングに適したスパーステンソルの圧縮通信のための汎用的フレームワークであるDeepReduceを紹介する。 DeepReduceは2つの集合、値とインデックスでスパーステンソルを分解し、これらの集合の独立圧縮と結合圧縮を可能にする。 我々は、値のdeflateやインデックスのrun-lengthエンコーディングなど、様々な共通圧縮器をサポートしている。 また,値の曲線フィッティングベースとインデックスのブルームフィルタベースの2つの新しい圧縮方式を提案する。 DeepReduceは、既存の勾配スペーサーと直交しており、それらをエンドユーザーに透過的に適用することで、通信オーバーヘッドを大幅に低減することができる。 概念実証として,Tensorflow と PyTorch のアプローチを実装した。 大規模実モデルを用いた実験により、deepreduceは既存の方法よりも少ないデータ転送と計算オーバーヘッドを課し、トレーニング精度に影響を及ぼさないことを示した。

Sparse tensors appear frequently in distributed deep learning, either as a direct artifact of the deep neural network's gradients, or as a result of an explicit sparsification process. Existing communication primitives are agnostic to the peculiarities of deep learning; consequently, they impose unnecessary communication overhead. This paper introduces DeepReduce, a versatile framework for the compressed communication of sparse tensors, tailored for distributed deep learning. DeepReduce decomposes sparse tensors in two sets, values and indices, and allows both independent and combined compression of these sets. We support a variety of common compressors, such as Deflate for values, or run-length encoding for indices. We also propose two novel compression schemes that achieve superior results: curve fitting-based for values and bloom filter-based for indices. DeepReduce is orthogonal to existing gradient sparsifiers and can be applied in conjunction with them, transparently to the end-user, to significantly lower the communication overhead. As proof of concept, we implement our approach on Tensorflow and PyTorch. Our experiments with large real models demonstrate that DeepReduce transmits fewer data and imposes lower computational overhead than existing methods, without affecting the training accuracy.
翻訳日:2021-02-08 13:02:30 公開日:2021-02-05
# グラフジョイントアテンションネットワーク

Graph Joint Attention Networks ( http://arxiv.org/abs/2102.03147v1 )

ライセンス: Link先を確認
Tiantian He, Lu Bai, Yew-Soon Ong(参考訳) グラフの注意ネットワーク(GAT)は、グラフ構造データで学習するための強力なツールとして認識されています。 しかし,GATの注意機構が構造情報と特徴情報の両方を円滑に考慮する方法については,いまだに非常に難しい。 本論文では,上記の課題に対処するために,JAT(Graph Joint Attention Networks)を提案する。 従来のアテンションベースグラフニューラルネットワーク(gnns)とは異なり、jatsはアテンションスコアを計算する際に、ノードの特徴とグラフトポロジーから学習した構造係数の相対的重要性を自動的に決定できる新しいアテンション機構を採用している。 したがって、より構造的な性質に関する表現は、JATによって推測できる。 さらに,JATの表現力を理論的に分析し,JATがすべてのメッセージパスGNNが最終的に達成できる上界の表現力,すなわち1-WLテストに到達できるような共同注意機構の改善戦略を提案する。 これにより、JATは最も強力なメッセージパッシングGNNと見なすことができる。 提案されたニューラルネットワークアーキテクチャは、広く使用されているベンチマークデータセット上で広くテストされており、さまざまな下流予測タスクの最先端のGNNと比較されている。 実験の結果、JATはすべてのテストデータセットで最先端のパフォーマンスを達成することがわかった。

Graph attention networks (GATs) have been recognized as powerful tools for learning in graph structured data. However, how to enable the attention mechanisms in GATs to smoothly consider both structural and feature information is still very challenging. In this paper, we propose Graph Joint Attention Networks (JATs) to address the aforementioned challenge. Different from previous attention-based graph neural networks (GNNs), JATs adopt novel joint attention mechanisms which can automatically determine the relative significance between node features and structural coefficients learned from graph topology, when computing the attention scores. Therefore, representations concerning more structural properties can be inferred by JATs. Besides, we theoretically analyze the expressive power of JATs and further propose an improved strategy for the joint attention mechanisms that enables JATs to reach the upper bound of expressive power which every message-passing GNN can ultimately achieve, i.e., 1-WL test. JATs can thereby be seen as most powerful message-passing GNNs. The proposed neural architecture has been extensively tested on widely used benchmarking datasets, and has been compared with state-of-the-art GNNs for various downstream predictive tasks. Experimental results show that JATs achieve state-of-the-art performance on all the testing datasets.
翻訳日:2021-02-08 13:02:07 公開日:2021-02-05
# 変分オートエンコーダにおけるアモルティゼーションギャップの低減:ベイズランダム関数アプローチ

Reducing the Amortization Gap in Variational Autoencoders: A Bayesian Random Function Approach ( http://arxiv.org/abs/2102.03151v1 )

ライセンス: Link先を確認
Minyoung Kim, Vladimir Pavlovic(参考訳) 可変オートエンコーダ(VAE)は、キー要素がいわゆる償却推論ネットワークである非常に成功した生成モデルであり、単一のフィードフォワードパスを使用してテスト時間推論を実行できます。 残念なことに、これは後続近似の分解精度のコストがかかり、しばしばインスタンス単位の変分最適化を過小評価する。 最新の半修正アプローチは、VAEの償却推論出力から始まるいくつかの変分最適化の更新によって問題を緩和するが、それらは本質的に、テスト時の推論の計算オーバーヘッドに悩まされている。 本稿では,変分後部の平均および分散関数をランダムガウス過程(GP)としてモデル化するランダム推論モデルを考えることにより,問題を完全に異なる方法で解決する。 本研究の動機は,VAEの再生後分布と真の後部分布とのずれをランダムノイズとみなすことができ,原理的に後部近似の不確かさを考慮できる点にある。 特に、我々のモデルはガウス変分密度による後部近似の難しさを定量化することができる。 GPモデルの推論は、セミアモタイズ法よりもはるかに高速な1つのフィードフォワードパスによって行われる。 提案手法は,複数のベンチマークデータセットの最先端データよりも高い確率でテストデータが得られることを示す。

Variational autoencoder (VAE) is a very successful generative model whose key element is the so called amortized inference network, which can perform test time inference using a single feed forward pass. Unfortunately, this comes at the cost of degraded accuracy in posterior approximation, often underperforming the instance-wise variational optimization. Although the latest semi-amortized approaches mitigate the issue by performing a few variational optimization updates starting from the VAE's amortized inference output, they inherently suffer from computational overhead for inference at test time. In this paper, we address the problem in a completely different way by considering a random inference model, where we model the mean and variance functions of the variational posterior as random Gaussian processes (GP). The motivation is that the deviation of the VAE's amortized posterior distribution from the true posterior can be regarded as random noise, which allows us to take into account the uncertainty in posterior approximation in a principled manner. In particular, our model can quantify the difficulty in posterior approximation by a Gaussian variational density. Inference in our GP model is done by a single feed forward pass through the network, significantly faster than semi-amortized methods. We show that our approach attains higher test data likelihood than the state-of-the-arts on several benchmark datasets.
翻訳日:2021-02-08 13:01:48 公開日:2021-02-05
# 多目的競合RLの効率的なアルゴリズム

Provably Efficient Algorithms for Multi-Objective Competitive RL ( http://arxiv.org/abs/2102.03192v1 )

ライセンス: Link先を確認
Tiancheng Yu, Yi Tian, Jingzhao Zhang, Suvrit Sra(参考訳) エージェントの報酬をベクトルとして表現するマルチオブジェクティブ強化学習(RL)について検討する。 エージェントが相手と競合する設定では、そのパフォーマンスは、その平均戻りベクトルとターゲットセットの距離によって測定されます。 統計的および計算学的に効率的なアルゴリズムを開発し、関連するターゲットセットにアプローチする。 我々の結果はブラックウェルのアプローチ可能性定理(blackwell, 1956)を、戦略的探索が必須となる表式rlに拡張した。 アルゴリズムは適応的であり、その保証はブラックウェルのアプローチ可能性条件なしに保たれる。 対戦相手が固定ポリシーを使用する場合、目標セットに接近する割合が向上し、同時にスカラーコスト関数を最小化するというより野心的な目標にも取り組みます。 本稿では,この特殊な場合について,制約付きrlに関する先行研究と結果を関連づけて解析を行う。 我々の知る限り、この研究はベクトル値のマルコフゲームに対する最初の証明可能な効率的なアルゴリズムを提供し、理論上の保証はほぼ最適である。

We study multi-objective reinforcement learning (RL) where an agent's reward is represented as a vector. In settings where an agent competes against opponents, its performance is measured by the distance of its average return vector to a target set. We develop statistically and computationally efficient algorithms to approach the associated target set. Our results extend Blackwell's approachability theorem (Blackwell, 1956) to tabular RL, where strategic exploration becomes essential. The algorithms presented are adaptive; their guarantees hold even without Blackwell's approachability condition. If the opponents use fixed policies, we give an improved rate of approaching the target set while also tackling the more ambitious goal of simultaneously minimizing a scalar cost function. We discuss our analysis for this special case by relating our results to previous works on constrained RL. To our knowledge, this work provides the first provably efficient algorithms for vector-valued Markov games and our theoretical guarantees are near-optimal.
翻訳日:2021-02-08 13:01:26 公開日:2021-02-05
# Revisiting Prioritized Experience Replay: 価値の視点

Revisiting Prioritized Experience Replay: A Value Perspective ( http://arxiv.org/abs/2102.03261v1 )

ライセンス: Link先を確認
Ang A. Li, Zongqing Lu, Chenglin Miao(参考訳) experience replayは、オフ・ポリシー強化学習(rl)エージェントが過去の経験を利用して累積報酬を最大化することができる。 時間差誤差($|\text{TD}|$)の大きさで経験を量る優先体験リプレイは、学習効率を大幅に改善します。 しかし、いかに$|\text{td}|$が経験の重要性と関係しているかは、よく分かっていない。 我々は経済的な観点から、経験値に$|\text{td}|$をリンクすることでこの問題に対処し、経験にアクセスすることで累積報酬に付加する値として定義される。 理論的には、経験値のメトリクスは、q-learningの$|\text{td}|$で上限されている。 さらに, ソフトq-ラーニングにおけるこれらの価値指標の下限と上限を導出することにより, 理論的な枠組みを最大エントロピーrlに拡張し, 経験の「|\text{td}|$」および「オン・ポリシネス」の積となった。 私たちのフレームワークはRLの2つの重要な数量をリンクします:$|\text{TD}|$と経験値。 また,アタリゲームにおける最大エントロピーrlの優先度が向上し,オーバーバウンドを用いたリプレイを経験できることを実証的に示す。

Experience replay enables off-policy reinforcement learning (RL) agents to utilize past experiences to maximize the cumulative reward. Prioritized experience replay that weighs experiences by the magnitude of their temporal-difference error ($|\text{TD}|$) significantly improves the learning efficiency. But how $|\text{TD}|$ is related to the importance of experience is not well understood. We address this problem from an economic perspective, by linking $|\text{TD}|$ to value of experience, which is defined as the value added to the cumulative reward by accessing the experience. We theoretically show the value metrics of experience are upper-bounded by $|\text{TD}|$ for Q-learning. Furthermore, we successfully extend our theoretical framework to maximum-entropy RL by deriving the lower and upper bounds of these value metrics for soft Q-learning, which turn out to be the product of $|\text{TD}|$ and "on-policyness" of the experiences. Our framework links two important quantities in RL: $|\text{TD}|$ and value of experience. We empirically show that the bounds hold in practice, and experience replay using the upper bound as priority improves maximum-entropy RL in Atari games.
翻訳日:2021-02-08 13:01:13 公開日:2021-02-05
# 勾配調整報酬を用いたループ内メタラーニング

In-Loop Meta-Learning with Gradient-Alignment Reward ( http://arxiv.org/abs/2102.03275v1 )

ライセンス: Link先を確認
Samuel M\"uller, Andr\'e Biedenkapp, Frank Hutter(参考訳) 標準のディープラーニングトレーニングループの中心は、与えられた損失を最小限に抑える、欲深い勾配ステップである。 トレーニングの一般化を最大化する第2のステップを加えることを提案する。 これを行うには、次のトレーニングステップの損失を最適化します。 この勾配の計算は一般的に非常に高価であり、多くの興味深いアプリケーションが微分不能なパラメータ(例えば)を考慮している。 ハードサンプルによる)、我々は最適化を導くことができる安価でメモリ節約の報酬、グラデーションアライメント報酬(GAR)を提示します。 この報酬をモデルトレーニング中に複数のディストリビューションを最適化するために使用します。 まず、GARの応用として、小規模設定で複数のデータセット分割の混合としてデータ分布を選択することを提案する。 第2に,CIFAR-10とCIFAR-100の最先端の強化戦略と競合する学習増強戦略の導出に成功していることを示す。

At the heart of the standard deep learning training loop is a greedy gradient step minimizing a given loss. We propose to add a second step to maximize training generalization. To do this, we optimize the loss of the next training step. While computing the gradient for this generally is very expensive and many interesting applications consider non-differentiable parameters (e.g. due to hard samples), we present a cheap-to-compute and memory-saving reward, the gradient-alignment reward (GAR), that can guide the optimization. We use this reward to optimize multiple distributions during model training. First, we present the application of GAR to choosing the data distribution as a mixture of multiple dataset splits in a small scale setting. Second, we show that it can successfully guide learning augmentation strategies competitive with state-of-the-art augmentation strategies on CIFAR-10 and CIFAR-100.
翻訳日:2021-02-08 13:00:50 公開日:2021-02-05
# ニューラルネットワーク予測の再現性について

On the Reproducibility of Neural Network Predictions ( http://arxiv.org/abs/2102.03349v1 )

ライセンス: Link先を確認
Srinadh Bhojanapalli, Kimberly Wilber, Andreas Veit, Ankit Singh Rawat, Seungyeon Kim, Aditya Menon, Sanjiv Kumar(参考訳) ニューラルネットワークの標準的なトレーニング技術には、初期化、ミニバッチ順序付け、場合によってはデータ拡張など、複数のランダム性ソースが含まれる。 ニューラルネットワークが実際には過度にパラメータ化されていることを考えると、そのようなランダム性は"em churn} -- 同じ入力に対して、同じアルゴリズムで独立にトレーニングされた2つのモデルの予測の不一致を引き起こす可能性がある。 本稿では,このチャーン問題について検討し,その原因となる因子を同定し,緩和する2つの簡単な方法を提案する。 まず、標準的な画像分類タスク(CIFARとImageNet)であっても、チャーンが確かに問題であることを示し、チャーンの原因となる異なる訓練ランダム性源の役割を研究します。 チャーンと予測信頼度の関係を解析することにより、チャーン低減のための2つの成分を用いたアプローチを追求する。 まず,予測信頼度を高めるために \emph{minimum entropy regularizers} を提案する。 第2に, モデル合意を増加させチャーンを減少させるために, 共蒸留アプローチの新たな変種を提示する。 両手法の有効性を実証的に示し, 基礎モデルの精度を向上しながら, チャーン低減効果を示す。

Standard training techniques for neural networks involve multiple sources of randomness, e.g., initialization, mini-batch ordering and in some cases data augmentation. Given that neural networks are heavily over-parameterized in practice, such randomness can cause {\em churn} -- for the same input, disagreements between predictions of the two models independently trained by the same algorithm, contributing to the `reproducibility challenges' in modern machine learning. In this paper, we study this problem of churn, identify factors that cause it, and propose two simple means of mitigating it. We first demonstrate that churn is indeed an issue, even for standard image classification tasks (CIFAR and ImageNet), and study the role of the different sources of training randomness that cause churn. By analyzing the relationship between churn and prediction confidences, we pursue an approach with two components for churn reduction. First, we propose using \emph{minimum entropy regularizers} to increase prediction confidences. Second, \changes{we present a novel variant of co-distillation approach~\citep{anil2018large} to increase model agreement and reduce churn}. We present empirical results showing the effectiveness of both techniques in reducing churn while improving the accuracy of the underlying model.
翻訳日:2021-02-08 13:00:37 公開日:2021-02-05
# インクリメンタル学習によるDNNベースのビデオ分析のためのサーバレスクラウドフォグプラットフォーム

A Serverless Cloud-Fog Platform for DNN-Based Video Analytics with Incremental Learning ( http://arxiv.org/abs/2102.03012v1 )

ライセンス: Link先を確認
Huaizheng Zhang, Meng Shen, Yizheng Huang, Yonggang Wen, Yong Luo, Guanyu Gao, Kyle Guan(参考訳) DNNベースのビデオ分析は、多くの新しいアプリケーション(例えば自動小売)に力を与えた。 一方、fogデバイスの普及により、開発者はパフォーマンスを改善し、コストを削減できる設計オプションが増えた。 我々の知る限りでは、クライアント-フォグクラウドのシナジーを最大限に活用し、DNNベースのビデオ分析に役立てる最初のサーバーレスシステムを示す。 具体的には, 1) クライアント, フォグ, クラウド環境に展開する計算資源と帯域幅を定量的に管理することにより, 帯域幅の制限下での最適分析結果と, ラウンドトリップ時間(RTT)の短縮という2つの目標を達成することを目的とする。 2) DNNデプロイメント,クラウド,フォグのリソース管理など,面倒な管理タスクや運用タスクを無償で実施する。 この目的のために,VPaaS(Video-Platform-as-a-Service)と呼ばれる総合的なクラウドファグシステムを実装した。 VPaaSはサーバレスコンピューティングを採用しており、開発者が一連の関数(例えばモデル推論)をプログラムするだけでビデオ分析パイプラインを構築することができる。 帯域幅を節約し、RTTを削減するため、VPaaSは低品質のビデオのみをクラウドに送信する新しいビデオストリーミングプロトコルを提供する。 クラウドにデプロイされる最新技術(SOTA)DNNは、霧の端でさらなる処理を必要とするビデオフレームの領域を特定することができる。 霧の終わりには、これらの領域の誤識別ラベルを軽量DNNモデルを用いて修正することができる。 データドリフト問題に対処するため、システムに限られたフィードバックを組み込んで結果を検証し、漸進的な学習を採用し、システムの改善を継続的に進める。 この評価は、VPaaSが複数のSOTAシステムよりも優れていることを示している: 帯域幅を最大21%削減し、RTTを最大62.5%削減し、クラウドの金融コストを最大50%削減する。

DNN-based video analytics have empowered many new applications (e.g., automated retail). Meanwhile, the proliferation of fog devices provides developers with more design options to improve performance and save cost. To the best of our knowledge, this paper presents the first serverless system that takes full advantage of the client-fog-cloud synergy to better serve the DNN-based video analytics. Specifically, the system aims to achieve two goals: 1) Provide the optimal analytics results under the constraints of lower bandwidth usage and shorter round-trip time (RTT) by judiciously managing the computational and bandwidth resources deployed in the client, fog, and cloud environment. 2) Free developers from tedious administration and operation tasks, including DNN deployment, cloud and fog's resource management. To this end, we implement a holistic cloud-fog system referred to as VPaaS (Video-Platform-as-a-Service). VPaaS adopts serverless computing to enable developers to build a video analytics pipeline by simply programming a set of functions (e.g., model inference), which are then orchestrated to process videos through carefully designed modules. To save bandwidth and reduce RTT, VPaaS provides a new video streaming protocol that only sends low-quality video to the cloud. The state-of-the-art (SOTA) DNNs deployed at the cloud can identify regions of video frames that need further processing at the fog ends. At the fog ends, misidentified labels in these regions can be corrected using a light-weight DNN model. To address the data drift issues, we incorporate limited human feedback into the system to verify the results and adopt incremental learning to improve our system continuously. The evaluation demonstrates that VPaaS is superior to several SOTA systems: it maintains high accuracy while reducing bandwidth usage by up to 21%, RTT by up to 62.5%, and cloud monetary cost by up to 50%.
翻訳日:2021-02-08 12:59:47 公開日:2021-02-05
# 経験に基づくヒューリスティック検索 : 深層Q-Learningによるロバストモーション計画

Experience-Based Heuristic Search: Robust Motion Planning with Deep Q-Learning ( http://arxiv.org/abs/2102.03127v1 )

ライセンス: Link先を確認
Julian Bernhard, Robert Gieselmann, Klemens Esterle and Alois Knoll(参考訳) 自律運転のための対話型計画には、従来の探索型または最適化型モーションプランナーを使用する場合、組合せ型ソリューション空間の探索が必要である。 深層強化学習(Deep Reinforcement Learning)では,高次元問題にも最適な運転戦略が導出できる。 しかし、これらの方法は、結果のポリシーの最適性を統計的にのみ保証し、自動運転車などの安全クリティカルなシステムの使用を妨げます。 そこで我々は,深層強化学習に基づくプランナの統計的失敗率を克服し,事前学習した最適ポリシーから計算的に恩恵を受ける経験ベースヒューリスティック探索アルゴリズムを提案する。 具体的には、Deep Q-Networkの形式での経験をヒューリスティックな検索アルゴリズムに統合する方法について述べる。 半構造化valet駐車シナリオにおける経路計画の分野でのアルゴリズムのベンチマークを行った。 そこで、これらの推定の精度を分析し、計算上の利点と手法の堅牢性を実証する。 本手法は、自動運転分野における強化学習型計画の適用可能性のさらなる検討を促す可能性がある。

Interaction-aware planning for autonomous driving requires an exploration of a combinatorial solution space when using conventional search- or optimization-based motion planners. With Deep Reinforcement Learning, optimal driving strategies for such problems can be derived also for higher-dimensional problems. However, these methods guarantee optimality of the resulting policy only in a statistical sense, which impedes their usage in safety critical systems, such as autonomous vehicles. Thus, we propose the Experience-Based-Heuristic-Search algorithm, which overcomes the statistical failure rate of a Deep-reinforcement-learning-based planner and still benefits computationally from the pre-learned optimal policy. Specifically, we show how experiences in the form of a Deep Q-Network can be integrated as heuristic into a heuristic search algorithm. We benchmark our algorithm in the field of path planning in semi-structured valet parking scenarios. There, we analyze the accuracy of such estimates and demonstrate the computational advantages and robustness of our method. Our method may encourage further investigation of the applicability of reinforcement-learning-based planning in the field of self-driving vehicles.
翻訳日:2021-02-08 12:59:18 公開日:2021-02-05
# 高密度・動的シナリオにおけるロボット運動計画のためのアドバンテージアクタクリティカルアルゴリズム

An advantage actor-critic algorithm for robotic motion planning in dense and dynamic scenarios ( http://arxiv.org/abs/2102.03138v1 )

ライセンス: Link先を確認
Chengmin Zhou, Bingding Huang, Pasi Fr\"anti(参考訳) インテリジェントロボットは、人件費を置き換えるための産業およびサービスシナリオの効率改善に関する新しい洞察を提供します。 しかし、これらのシナリオには、ロボットの運動計画を困難にする高密度でダイナミックな障害物が含まれます。 A*のような従来のアルゴリズムは、静的な環境では衝突のない軌道を計画できるが、その性能は低下し、計算コストは密度と動的シナリオで急上昇する。 最適値強化学習アルゴリズム(RL)はこれらの問題に対処できるが、ネットワーク収束の速度と不安定さに悩まされる。 ポリシー勾配 RL のネットワークは、アクションが離散的で有限であるアタリゲームにおいて急速に収束するが、連続的なアクションと大きなアクション空間を必要とする問題に対処する作業はほとんど行われていない。 本稿では,既存のアドバンテージアクタクリティカルアルゴリズムを変更し,複雑な動作計画に適応させるため,ロボットの最適速度と方向を生成する。 実験の結果,提案アルゴリズムは最適値RLよりも高速で安定であることがわかった。 ロボットが目標に達するまでの処理時間を短くすることで、モーションプランニングの成功率を高める。

Intelligent robots provide a new insight into efficiency improvement in industrial and service scenarios to replace human labor. However, these scenarios include dense and dynamic obstacles that make motion planning of robots challenging. Traditional algorithms like A* can plan collision-free trajectories in static environment, but their performance degrades and computational cost increases steeply in dense and dynamic scenarios. Optimal-value reinforcement learning algorithms (RL) can address these problems but suffer slow speed and instability in network convergence. Network of policy gradient RL converge fast in Atari games where action is discrete and finite, but few works have been done to address problems where continuous actions and large action space are required. In this paper, we modify existing advantage actor-critic algorithm and suit it to complex motion planning, therefore optimal speeds and directions of robot are generated. Experimental results demonstrate that our algorithm converges faster and stable than optimal-value RL. It achieves higher success rate in motion planning with lesser processing time for robot to reach its goal.
翻訳日:2021-02-08 12:59:01 公開日:2021-02-05
# コミュニティディスカバリーのための高次情報融合による自己監督型ディープグラフ埋め込み

Self-Supervised Deep Graph Embedding with High-Order Information Fusion for Community Discovery ( http://arxiv.org/abs/2102.03302v1 )

ライセンス: Link先を確認
Shuliang Xu and Lin Feng(参考訳) ディープグラフ埋め込みは、コミュニティ発見の重要なアプローチである。 自己教師機構を持つディープグラフニューラルネットワークは、ラベルなしおよび非構造化グラフデータからノードの低次元埋め込みベクトルを得ることができる。 グラフの高次情報は、ノードの表現学習により多くの構造情報を提供することができる。 しかし、ほとんどの自己監視型グラフニューラルネットワークは、隣接行列をグラフの入力トポロジ情報としてのみ使用し、グラフニューラルネットワークの層数がかなり限られているため、高階情報を得ることができない。 レイヤーが多すぎると、過度の平滑化の現象が現れます。 したがって、浅層グラフニューラルネットワークによるグラフの高次情報取得と融合は重要な課題である。 本稿では,コミュニティ発見のための自己監視機構を備えたディープグラフ埋め込みアルゴリズムを提案する。 提案アルゴリズムは,複数のディープグラフ畳み込みニューラルネットワークを訓練するために,自己監視機構とグラフの異なる高階情報を用いる。 複数のグラフ畳み込みニューラルネットワークの出力を融合して、グラフの属性と構造情報を含むノードの表現を抽出します。 また、トレーニングプロセスにデータ拡張と負サンプリングを導入することにより、埋め込み結果の改善が容易になる。 提案アルゴリズムと比較アルゴリズムは5つの実験データセット上で実行される。 実験の結果,提案アルゴリズムは,最も実験的なデータセットにおける比較アルゴリズムよりも優れていることがわかった。 実験結果は,提案アルゴリズムがコミュニティ発見に有効なアルゴリズムであることを示した。

Deep graph embedding is an important approach for community discovery. Deep graph neural network with self-supervised mechanism can obtain the low-dimensional embedding vectors of nodes from unlabeled and unstructured graph data. The high-order information of graph can provide more abundant structure information for the representation learning of nodes. However, most self-supervised graph neural networks only use adjacency matrix as the input topology information of graph and cannot obtain too high-order information since the number of layers of graph neural network is fairly limited. If there are too many layers, the phenomenon of over smoothing will appear. Therefore how to obtain and fuse high-order information of graph by a shallow graph neural network is an important problem. In this paper, a deep graph embedding algorithm with self-supervised mechanism for community discovery is proposed. The proposed algorithm uses self-supervised mechanism and different high-order information of graph to train multiple deep graph convolution neural networks. The outputs of multiple graph convolution neural networks are fused to extract the representations of nodes which include the attribute and structure information of a graph. In addition, data augmentation and negative sampling are introduced into the training process to facilitate the improvement of embedding result. The proposed algorithm and the comparison algorithms are conducted on the five experimental data sets. The experimental results show that the proposed algorithm outperforms the comparison algorithms on the most experimental data sets. The experimental results demonstrate that the proposed algorithm is an effective algorithm for community discovery.
翻訳日:2021-02-08 12:58:43 公開日:2021-02-05
# スマートコントラクトによるスマートプルーフ: 分散型市場による簡潔かつ情報的数学的デリベーション

Smart Proofs via Smart Contracts: Succinct and Informative Mathematical Derivations via Decentralized Markets ( http://arxiv.org/abs/2102.03044v1 )

ライセンス: Link先を確認
Sylvain Carr\'e, Franck Gabriel, Cl\'ement Hongler, Gustavo Lacerda, and Gloria Capano(参考訳) 現代の数学は証明を形式的証明に翻訳し、その妥当性は客観的な問題であり、コンピュータによって決定可能であるという考えに基づいている。 しかし実際には、証明は非公式であり、多くの詳細を省略することができる。 エージェントは、機械検証可能な証明に拡張できると信頼できる場合、証明を有効とみなす。 したがって、証明の妥当性は主観的な問題となり、解決が難しい議論につながる可能性がある。 したがって、有効な証明の概念は明確に定義されているが、妥当性を確立するプロセスはそれ自体が複雑なマルチエージェント問題である。 SPRIGプロトコルを紹介します。 SPRIGは、エージェントが簡潔で情報的な証明を分散的に提案し、検証することを可能にする。信頼は、エージェントが証明ステップで詳細を要求できることによって確立される。 バウンティとステークの構造は、誠実に行動するためにエージェントにインセンティブを与えるように設定されています。 本研究では,SPRIGのゲーム理論的議論を提案し,様々な情報を持つエージェントがどのように相互作用するかを示し,適切な詳細レベルの証明木と誤った証明の無効化につながり,様々な攻撃に対するレジリエンスについて議論する。 次に、単純化されたモデルを分析し、その平衡を特徴付け、エージェントの信頼レベルを計算する。 SPRIGはブロックチェーンプラットフォーム上でスマートコントラクトとして動作するように設計されている。 これにより、匿名のエージェントが検証討論に参加し、情報に貢献することができる。 スマートコントラクトはインタラクションを仲介し、議論を解決し、賞金と持分が指定された通りに支払われることを保証します。 SPRIGは、オープン問題に対するバウンティの発行、デリバティブ市場の創出など、新しいアプリケーションを可能にし、証明に関連するより多くの情報をエージェントが注入できるようにします。

Modern mathematics is built on the idea that proofs should be translatable into formal proofs, whose validity is an objective question, decidable by a computer. Yet, in practice, proofs are informal and may omit many details. An agent considers a proof valid if they trust that it could be expanded into a machine-verifiable proof. A proof's validity can thus become a subjective matter and lead to a debate, which may be difficult to settle. Hence, while the concept of valid proof is well-defined, the process to establish validity is itself a complex multi-agent problem. We introduce the SPRIG protocol. SPRIG allows agents to propose and verify succinct and informative proofs in a decentralized fashion; the trust is established by agents being able to request more details in the proof steps; debates, if they arise, must isolate details of proofs and, if they persist, go down to machine-level details, where they are automatically settled. A structure of bounties and stakes is set to incentivize agents to act in good faith. We propose a game-theoretic discussion of SPRIG, showing how agents with various types of information interact, leading to a proof tree with an appropriate level of detail and to the invalidation of wrong proofs, and we discuss resilience against various attacks. We then analyze a simplified model, characterize its equilibria and compute the agents' level of trust. SPRIG is designed to run as a smart contract on a blockchain platform. This allows anonymous agents to participate in the verification debate, and to contribute with their information. The smart contract mediates the interactions, settles debates, and guarantees that bounties and stakes are paid as specified. SPRIG enables new applications, such as the issuance of bounties for open problems, and the creation of derivatives markets, allowing agents to inject more information pertaining to proofs.
翻訳日:2021-02-08 12:58:21 公開日:2021-02-05
# CTCに基づく音声認識における中間損失正規化

Intermediate Loss Regularization for CTC-based Speech Recognition ( http://arxiv.org/abs/2102.03216v1 )

ライセンス: Link先を確認
Jaesong Lee, Shinji Watanabe(参考訳) 本論文では,コネクティスト時間分類(CTC)に基づく自動音声認識(ASR)のための簡便かつ効率的な補助損失関数を提案する。 提案された目的である中間CTC損失は、CTCエンコーダネットワーク内の中間層に接続される。 この中間的なCTC損失は、CTCトレーニングを順調に調整し、コードの小さな修正と、トレーニング中と推論中のオーバーヘッドの少なからぬパフォーマンスを改善する。 さらに,この中間CTC損失を確率的深度学習と組み合わせて,最近提案されたコンバータネットワークに適用することを提案する。 提案手法は,単語誤り率(wer)9.9%をwsjコーパスに,文字誤り率(cer)5.2%をaishell-1コーパスにそれぞれ到達し,ctc greedy searchを言語モデルなしで評価した。 特に、AISHELL-1タスクは、ビームサーチによる自動回帰デコーダに基づく他の最先端のASRシステムと同等です。

We present a simple and efficient auxiliary loss function for automatic speech recognition (ASR) based on the connectionist temporal classification (CTC) objective. The proposed objective, an intermediate CTC loss, is attached to an intermediate layer in the CTC encoder network. This intermediate CTC loss well regularizes CTC training and improves the performance requiring only small modification of the code and small and no overhead during training and inference, respectively. In addition, we propose to combine this intermediate CTC loss with stochastic depth training, and apply this combination to a recently proposed Conformer network. We evaluate the proposed method on various corpora, reaching word error rate (WER) 9.9% on the WSJ corpus and character error rate (CER) 5.2% on the AISHELL-1 corpus respectively, based on CTC greedy search without a language model. Especially, the AISHELL-1 task is comparable to other state-of-the-art ASR systems based on auto-regressive decoder with beam search.
翻訳日:2021-02-08 12:57:54 公開日:2021-02-05
# 非ガウスデータに対するVine copula混合モデルとクラスタリング

Vine copula mixture models and clustering for non-Gaussian data ( http://arxiv.org/abs/2102.03257v1 )

ライセンス: Link先を確認
\"Ozge Sahin, Claudia Czado(参考訳) 有限混合モデルの大部分は、コンポーネント内の非対称テール依存性を許容せず、クラスタリングアプリケーションで非楕円的クラスタをキャプチャしないことに苦しむ。 vine copula はこのような依存を捉えるのに非常に柔軟であるため,連続データに対する新しい vine copula 混合モデルを提案する。 モデル選択とパラメータ推定の問題について議論し、さらに新しいモデルベースクラスタリングアルゴリズムを定式化する。 クラスタリングにおけるVine copulasの使用は、クラスタのさまざまな形状と依存性構造を可能にする。 シミュレーション実験では,成分内の非対称テール依存性や非ガウスマージンが存在する場合,クラスタリング精度が著しく向上することを示す。 実データセットの解析は提案手法に付随する。 vine copula混合モデルを用いたモデルベースクラスタリングアルゴリズムが,他のモデルベースクラスタリング手法,特に非ガウス型多変量データよりも優れていることを示す。

The majority of finite mixture models suffer from not allowing asymmetric tail dependencies within components and not capturing non-elliptical clusters in clustering applications. Since vine copulas are very flexible in capturing these types of dependencies, we propose a novel vine copula mixture model for continuous data. We discuss the model selection and parameter estimation problems and further formulate a new model-based clustering algorithm. The use of vine copulas in clustering allows for a range of shapes and dependency structures for the clusters. Our simulation experiments illustrate a significant gain in clustering accuracy when notably asymmetric tail dependencies or/and non-Gaussian margins within the components exist. The analysis of real data sets accompanies the proposed method. We show that the model-based clustering algorithm with vine copula mixture models outperforms the other model-based clustering techniques, especially for the non-Gaussian multivariate data.
翻訳日:2021-02-08 12:57:38 公開日:2021-02-05
# 歩行者シミュレーション:レビュー

Pedestrian Simulation: A Review ( http://arxiv.org/abs/2102.03289v1 )

ライセンス: Link先を確認
Amir Rasouli(参考訳) 本稿では,歩行者のモデリングとシミュレーションのさまざまな側面に焦点を当てる。 このレビューには、歩行者の行動のモデル化に関わる粒度、技術、要因などの様々なモデリング基準と、交通シーンにおける歩行者の挙動をシミュレートするための2つのアプローチをより詳細に検討した歩行者シミュレーション手法が含まれる。 最後に,様々なシミュレーション手法の利点と欠点について考察し,今後の研究への提言を行う。

This article focuses on different aspects of pedestrian (crowd) modeling and simulation. The review includes: various modeling criteria, such as granularity, techniques, and factors involved in modeling pedestrian behavior, and different pedestrian simulation methods with a more detailed look at two approaches for simulating pedestrian behavior in traffic scenes. At the end, benefits and drawbacks of different simulation techniques are discussed and recommendations are made for future research.
翻訳日:2021-02-08 12:57:24 公開日:2021-02-05
# 合成ゲノムデータの有用性とプライバシーの測定

Measuring Utility and Privacy of Synthetic Genomic Data ( http://arxiv.org/abs/2102.03314v1 )

ライセンス: Link先を確認
Bristena Oprisanu and Georgi Ganev and Emiliano De Cristofaro(参考訳) ゲノムデータは、生物医学研究、パーソナライズされた医学、薬物開発の発展を進めるために、研究者に貴重な情報を提供する。 しかし、同時に、このデータは極めて敏感であり、データ共有を可能とし、その結果、問題が発生します。 その結果、組織は生データを公開せずに、実際のデータの健全な特性を反映した合成データを共有する実験を始めている。 本稿では,合成ゲノムデータを生成するための5つの最先端モデルの実用性とプライバシ保護に関する最初の評価を行う。 まず,アレルや人口統計,連鎖不均衡,主成分分析など,多くの共通課題における合成データの性能を評価する。 そこで, 本研究では, 対象レコードが合成データセットのモデル作成に用いたデータの一部であるか否かを推測し, 会員推論攻撃に対するデータの感受性を検討する。 全体として、ボード全体でうまく機能する合成ゲノムデータを生成するための単一のアプローチはありません。 我々は、特に生成モデルの場合、トレーニングデータセットのサイズと性質がいかに重要であるかを示す。 データセットとモデルの組み合わせは、実際のデータに近い分布を持つ合成データを生成するが、しばしばメンバーシップ推論に弱いターゲットデータポイントが存在する。 我々の測定フレームワークは、野生に合成ゲノムデータを展開するリスクを評価するために、研究者や実践者にとって、将来的なベンチマークツールとなるでしょう。

Genomic data provides researchers with an invaluable source of information to advance progress in biomedical research, personalized medicine, and drug development. At the same time, however, this data is extremely sensitive, which makes data sharing, and consequently availability, problematic if not outright impossible. As a result, organizations have begun to experiment with sharing synthetic data, which should mirror the real data's salient characteristics, without exposing it. In this paper, we provide the first evaluation of the utility and the privacy protection of five state-of-the-art models for generating synthetic genomic data. First, we assess the performance of the synthetic data on a number of common tasks, such as allele and population statistics as well as linkage disequilibrium and principal component analysis. Then, we study the susceptibility of the data to membership inference attacks, i.e., inferring whether a target record was part of the data used to train the model producing the synthetic dataset. Overall, there is no single approach for generating synthetic genomic data that performs well across the board. We show how the size and the nature of the training dataset matter, especially in the case of generative models. While some combinations of datasets and models produce synthetic data with distributions close to the real data, there often are target data points that are vulnerable to membership inference. Our measurement framework can be used by practitioners to assess the risks of deploying synthetic genomic data in the wild, and will serve as a benchmark tool for researchers and practitioners in the future.
翻訳日:2021-02-08 12:57:16 公開日:2021-02-05
# サンプリングに基づくシーン空間映像処理

Sampling Based Scene-Space Video Processing ( http://arxiv.org/abs/2102.03011v1 )

ライセンス: Link先を確認
Felix Klose and Oliver Wang and Jean-Charles Bazin and Marcus Magnor and Alexander Sorkine-Hornung(参考訳) ピクセルごとの深度情報と3dカメラのキャリブレーションが知られている場合、多くの魅力的なビデオ処理効果が得られる。 しかし、このような手法の成功は、この「シーン空間」情報の正確さに大きく依存している。 本稿では,深度とカメラのポーズ推定において避けられない誤差が存在する場合に,高品質なシーン空間映像効果を実現する,新しいサンプリングベースの映像処理フレームワークを提案する。 本手法では,3次元シーンの明示的な表現を改善する代わりに,多くのシーンポイントが複数のビデオフレームに複数回可視化されているため,シーン情報に近似した高い冗長性を利用する。 そこで本研究では,新しい画素収集とフィルタリング手法を提案する。 収集ステップは一般的に、シーン空間でピクセルサンプルを収集し、フィルタリングステップはアプリケーション固有であり、収集されたサンプルセットから所望の出力ビデオを計算します。 当社のアプローチは並列化が容易で,GPU上で実装されているので,大量のビデオデータをフル活用し,標準デスクトップコンピュータによるHDビデオの実用的な実行を容易にすることができる。 汎用的なシーン空間定式化は,デノイジング,デブラリング,スーパーレゾリューション,オブジェクト除去,計算シャッター機能,その他のシーン空間カメラ効果など,多数の映像処理アプリケーションを包括的に記述することができる。 そこで本研究では,無制御環境において記録された課題場面を再現した,手持ち・移動・圧縮・単眼映像のカジュアルな撮影結果について報告する。

Many compelling video processing effects can be achieved if per-pixel depth information and 3D camera calibrations are known. However, the success of such methods is highly dependent on the accuracy of this "scene-space" information. We present a novel, sampling-based framework for processing video that enables high-quality scene-space video effects in the presence of inevitable errors in depth and camera pose estimation. Instead of trying to improve the explicit 3D scene representation, the key idea of our method is to exploit the high redundancy of approximate scene information that arises due to most scene points being visible multiple times across many frames of video. Based on this observation, we propose a novel pixel gathering and filtering approach. The gathering step is general and collects pixel samples in scene-space, while the filtering step is application-specific and computes a desired output video from the gathered sample sets. Our approach is easily parallelizable and has been implemented on GPU, allowing us to take full advantage of large volumes of video data and facilitating practical runtimes on HD video using a standard desktop computer. Our generic scene-space formulation is able to comprehensively describe a multitude of video processing applications such as denoising, deblurring, super resolution, object removal, computational shutter functions, and other scene-space camera effects. We present results for various casually captured, hand-held, moving, compressed, monocular videos depicting challenging scenes recorded in uncontrolled environments.
翻訳日:2021-02-08 12:56:34 公開日:2021-02-05
# 条件付き畳み込みを用いたInstance and Panoptic Segmentation

Instance and Panoptic Segmentation Using Conditional Convolutions ( http://arxiv.org/abs/2102.03026v1 )

ライセンス: Link先を確認
Zhi Tian, Bowen Zhang, Hao Chen, Chunhua Shen(参考訳) 本稿では,panoptic segmentationとcondinst (conditional convolutions for instance and panoptic segmentation) という,単純かつ効果的なフレームワークを提案する。 文献では、パフォーマンスの高いインスタンスセグメンテーションメソッドは通常、Mask R-CNNのパラダイムに従い、各インスタンスに出席するためにROIオペレーション(通常ROIAlign)に依存します。 対照的に、動的条件付き畳み込みを伴うインスタンスへの参加を提案する。 インスタンス単位のROIを固定重みのインスタンスマスクヘッドへの入力として使用する代わりに、予測されるインスタンスに条件付けされた動的インスタンス対応マスクヘッドを設計する。 CondInstには3つの利点がある。 インスタンスとパンオプティクスのセグメンテーションは、完全な畳み込みネットワークに統合され、ROIトリミングと機能アライメントが不要になります。 2.) ROIトリミングの排除により、出力インスタンスマスクの解像度も大幅に向上します。 3.) 動的に生成された条件付き畳み込みの容量が大幅に向上するため、マスクヘッドは非常にコンパクトである(例えば3conv)。 いずれのレイヤも8つのチャネルしか持たないため、1インスタンスあたりの推論時間が大幅に速くなり、全体の推論時間はインスタンス数とは無関係にほぼ一定になる。 インスタンスとパンオプティクスのセグメンテーションタスクの両方において、精度と推論速度の向上を達成できるシンプルな方法を示します。 COCOデータセットでは、最先端のメソッドよりも優れています。 CondInstが、例えばパンオプティクスセグメンテーションの強力なベースラインになることを願っています。 コードはhttps://git.io/AdelaiDetで入手できる。

We propose a simple yet effective framework for instance and panoptic segmentation, termed CondInst (conditional convolutions for instance and panoptic segmentation). In the literature, top-performing instance segmentation methods typically follow the paradigm of Mask R-CNN and rely on ROI operations (typically ROIAlign) to attend to each instance. In contrast, we propose to attend to the instances with dynamic conditional convolutions. Instead of using instance-wise ROIs as inputs to the instance mask head of fixed weights, we design dynamic instance-aware mask heads, conditioned on the instances to be predicted. CondInst enjoys three advantages: 1.) Instance and panoptic segmentation are unified into a fully convolutional network, eliminating the need for ROI cropping and feature alignment. 2.) The elimination of the ROI cropping also significantly improves the output instance mask resolution. 3.) Due to the much improved capacity of dynamically-generated conditional convolutions, the mask head can be very compact (e.g., 3 conv. layers, each having only 8 channels), leading to significantly faster inference time per instance and making the overall inference time almost constant, irrelevant to the number of instances. We demonstrate a simpler method that can achieve improved accuracy and inference speed on both instance and panoptic segmentation tasks. On the COCO dataset, we outperform a few state-of-the-art methods. We hope that CondInst can be a strong baseline for instance and panoptic segmentation. Code is available at: https://git.io/AdelaiDet
翻訳日:2021-02-08 12:56:08 公開日:2021-02-05
# サービスロボットのための協調型ビジュアルSLAMフレームワーク

A Collaborative Visual SLAM Framework for Service Robots ( http://arxiv.org/abs/2102.03228v1 )

ライセンス: Link先を確認
Ming Ouyang, Xuesong Shi, Yujie Wang, Yuxin Tian, Yingzhe Shen, Dawei Wang, Peng Wang(参考訳) サービスロボットの迅速な展開では、複数のロボットが同じ場所で作業し、空間情報を共同で共有するための方法を確立する必要がある。 そこで本稿では,特にサービスロボットシナリオ用に設計されたslam(visual concurrent localization and mapping)フレームワークを提案する。 エッジサーバがマップデータベースを維持し、グローバル最適化を実行することで、各ロボットは既存のマップに登録したり、マップを更新したり、新しいマップを構築したりすることができます。 リアルタイム情報共有を可能にするために,各ロボットが周囲のランドマークを観測できる効率的なランドマーク検索手法を提案する。 このフレームワークは、RGB-Dと単眼カメラの両方をサポートするのに十分一般的であり、複数のカメラを備えたロボットも、カメラ間の厳格な制約を考慮しています。 提案されたフレームワークは完全に実装され、公開データセットとライブ実験で検証されている。

With the rapid deployment of service robots, a method should be established to allow multiple robots to work in the same place to collaborate and share the spatial information. To this end, we present a collaborative visual simultaneous localization and mapping (SLAM) framework particularly designed for service robot scenarios. With an edge server maintaining a map database and performing global optimization, each robot can register to an existing map, update the map, or build new maps, all with a unified interface and low computation and memory cost. To enable real-time information sharing, an efficient landmark retrieval method is proposed to allow each robot to get nearby landmarks observed by others. The framework is general enough to support both RGB-D and monocular cameras, as well as robots with multiple cameras, taking the rigid constraints between cameras into consideration. The proposed framework has been fully implemented and verified with public datasets and live experiments.
翻訳日:2021-02-08 12:55:41 公開日:2021-02-05
# JLプロジェクションによる高速かつメモリ効率の差分プライベートSGD

Fast and Memory Efficient Differentially Private-SGD via JL Projections ( http://arxiv.org/abs/2102.03013v1 )

ライセンス: Link先を確認
Zhiqi Bu, Sivakanth Gopi, Janardhan Kulkarni, Yin Tat Lee, Judy Hanwen Shen, Uthaipon Tantipongpipat(参考訳) Abadi et al.の異なるプライベートSGD(DP-SGD)。 (2016)とその変種は、大規模ニューラルネットワークのプライベートトレーニングで知られている唯一のアルゴリズムである。 このアルゴリズムはサンプル毎の勾配ノルムの計算を必要とし、実際には非常に遅く、メモリ集約的である。 本稿では,DP-SGD-JLとDP-Adam-JLという差分プライベートオプティマイザを設計するための新しいフレームワークを提案する。 提案手法ではジョンソン・リンデンシュトラウス(JL)プロジェクションを用いて,サンプルごとの勾配ノルムを正確に計算することなく高速に近似することにより,最適化器のトレーニング時間とメモリ要求を非DPバージョンに近いものにする。 DP-SGDをネットワークアーキテクチャのサブセットでのみ動作させたり、コンパイラ技術を使用したりする従来の試みとは異なり、本論文の主な貢献点であるブラックボックス方式で任意のネットワークで動作するアルゴリズムソリューションを提案する。 これを説明するために、IMDbデータセットでは、リカレントニューラルネットワーク(RNN)を訓練して、DP-SGDよりも大幅に高速で、非プライベートSGDと同様のメモリフットプリントで、良好なプライバシvs精度のトレードオフを実現する。 我々のアルゴリズムのプライバシー分析はDP-SGDよりも複雑であり、最近提案されたDongらのf-DPフレームワークを使用している。 (2019) プライバシーを証明するため。

Differentially Private-SGD (DP-SGD) of Abadi et al. (2016) and its variations are the only known algorithms for private training of large scale neural networks. This algorithm requires computation of per-sample gradients norms which is extremely slow and memory intensive in practice. In this paper, we present a new framework to design differentially private optimizers called DP-SGD-JL and DP-Adam-JL. Our approach uses Johnson-Lindenstrauss (JL) projections to quickly approximate the per-sample gradient norms without exactly computing them, thus making the training time and memory requirements of our optimizers closer to that of their non-DP versions. Unlike previous attempts to make DP-SGD faster which work only on a subset of network architectures or use compiler techniques, we propose an algorithmic solution which works for any network in a black-box manner which is the main contribution of this paper. To illustrate this, on IMDb dataset, we train a Recurrent Neural Network (RNN) to achieve good privacy-vs-accuracy tradeoff, while being significantly faster than DP-SGD and with a similar memory footprint as non-private SGD. The privacy analysis of our algorithms is more involved than DP-SGD, we use the recently proposed f-DP framework of Dong et al. (2019) to prove privacy.
翻訳日:2021-02-08 12:54:44 公開日:2021-02-05
# 潜在変数存在下での因果構造学習のための整数プログラミング

Integer Programming for Causal Structure Learning in the Presence of Latent Variables ( http://arxiv.org/abs/2102.03129v1 )

ライセンス: Link先を確認
Rui Chen, Sanjeeb Dash, Tian Gao(参考訳) 変数の集合間の因果関係を表す先祖非周期的有向混合グラフ(ADMG)を見つけることの問題は因果推論のための重要な研究領域である。 しかし,既存のスコアベース構造学習手法の多くは,遅延変数を伴わない有向非巡回グラフ(DAG)の学習に重点を置いている。 近年、ADMG学習にいくつかのスコアベースの手法が提案されているが、本質的にはヒューリスティックであり、最適解を保証していない。 本論文では,整数プログラミング (IP) の定式化を解き,連続変数の集合に対して最大化先祖 ADMG を返す,新たな完全スコアに基づく手法を提案する。 特に,dag学習問題に対する最先端ipモデルを一般化し,ipベースadmg学習モデルを定式化するための有効な不等式の新しいクラスを導出する。 実験によって,我々のモデルは中規模の問題に対して効率的に解け,最新のスコアベース手法やベンチマーク制約ベースの手法よりも精度がよい。

The problem of finding an ancestral acyclic directed mixed graph (ADMG) that represents the causal relationships between a set of variables is an important area of research for causal inference. However, most of existing score-based structure learning methods focus on learning the directed acyclic graph (DAG) without latent variables. A number of score-based methods have recently been proposed for the ADMG learning, yet they are heuristic in nature and do not guarantee an optimal solution. We propose a novel exact score-based method that solves an integer programming (IP) formulation and returns a score-maximizing ancestral ADMG for a set of continuous variables. In particular, we generalize the state-of-the-art IP model for DAG learning problems and derive new classes of valid inequalities to formalize the IP-based ADMG learning model. Empirically our model can be solved efficiently for medium-sized problems and achieves better accuracy than state-of-the-art score-based methods as well as benchmark constraint-based methods.
翻訳日:2021-02-08 12:54:19 公開日:2021-02-05
# 畳み込みニューラルネットワークを用いたcsiベース大規模mimo屋内測位の改善

Improving CSI-based Massive MIMO Indoor Positioning using Convolutional Neural Network ( http://arxiv.org/abs/2102.03130v1 )

ライセンス: Link先を確認
Gregor Cerar, Ale\v{s} \v{S}vigelj, Mihael Mohor\v{c}i\v{c}, Carolina Fortuna, Toma\v{z} Javornik(参考訳) マルチ入力マルチ出力(MIMO)は、多数の端末を持つ無線ネットワークにおける高速で信頼性の高い通信の需要を満たす技術ですが、複数のアンテナからのマルチパス伝搬を利用する端末の位置推定にも適用できます。 本論文では,MIMO ベースのチャネル状態情報 (CSI) を利用した屋内測位改善のための畳み込みニューラルネットワーク (CNN) 構造について検討する。 同一のトレーニング評価データを用いて,提案する3種類のcnn構造と,科学文献で提案されている5種類のnn構造の性能を比較検討した。 その結果,提案した残差畳み込みNN構造は位置推定の精度を向上し,公開NN構造よりも重量の総数を低くすることを示した。 提案するcnn構造は、基準として使用される既知のnn構造よりも2cmから10cm高い位置精度を示す。

Multiple-input multiple-output (MIMO) is an enabling technology to meet the growing demand for faster and more reliable communications in wireless networks with a large number of terminals, but it can also be applied for position estimation of a terminal exploiting multipath propagation from multiple antennas. In this paper, we investigate new convolutional neural network (CNN) structures for exploiting MIMO-based channel state information (CSI) to improve indoor positioning. We evaluate and compare the performance of three variants of the proposed CNN structure to five NN structures proposed in the scientific literature using the same sets of training-evaluation data. The results demonstrate that the proposed residual convolutional NN structure improves the accuracy of position estimation and keeps the total number of weights lower than the published NN structures. The proposed CNN structure yields from 2cm to 10cm better position accuracy than known NN structures used as a reference.
翻訳日:2021-02-08 12:54:02 公開日:2021-02-05
# テンソル特性と分子スペクトルの予測のための等変メッセージパッシング

Equivariant message passing for the prediction of tensorial properties and molecular spectra ( http://arxiv.org/abs/2102.03150v1 )

ライセンス: Link先を確認
Kristof T. Sch\"utt, Oliver T. Unke, Michael Gastegger(参考訳) メッセージパッシングニューラルネットワークは、特に化学特性の予測と分子動力学研究の加速をグラフ上で学習する方法として選択されている。 大規模なトレーニングデータセットに容易にスケールできるが、以前のアプローチでは、カーネルメソッドよりもデータ効率が低いことが証明されている。 不変表現の限界を主要な理由として特定し、メッセージ通過式を回転同値表現に拡張する。 そこで本研究では, 分極性原子間相互作用ニューラルネットワーク (PaiNN) を提案し, 従来のネットワークよりも一般的な分子ベンチマークを改善し, モデルサイズと推論時間を短縮した。 PaiNN によって得られる同値の原子回り表現をテンソル特性の予測に活用する。 最後に、これを分子スペクトルのシミュレーションに適用し、電子構造基準と比較して4-5桁の速度向上を達成する。

Message passing neural networks have become a method of choice for learning on graphs, in particular the prediction of chemical properties and the acceleration of molecular dynamics studies. While they readily scale to large training data sets, previous approaches have proven to be less data efficient than kernel methods. We identify limitations of invariant representations as a major reason and extend the message passing formulation to rotationally equivariant representations. On this basis, we propose the polarizable atom interaction neural network (PaiNN) and improve on common molecule benchmarks over previous networks, while reducing model size and inference time. We leverage the equivariant atomwise representations obtained by PaiNN for the prediction of tensorial properties. Finally, we apply this to the simulation of molecular spectra, achieving speedups of 4-5 orders of magnitude compared to the electronic structure reference.
翻訳日:2021-02-08 12:53:46 公開日:2021-02-05
# 有向ネットワークにおけるクラスタリングのための単純なスペクトルアプローチ

A simpler spectral approach for clustering in directed networks ( http://arxiv.org/abs/2102.03188v1 )

ライセンス: Link先を確認
Simon Coste and Ludovic Stephan(参考訳) 有向ネットワークにおけるクラスタリングの課題について検討する。 隣接行列の固有値/固有ベクトル分解は、データ正規化とSVD切り換えの組み合わせに基づくすべての一般的な方法よりも単純であり、エッジ密度が一定の順序を持つ非常に狭い状態までうまく機能することを示した。 我々の分析は、独立成分を持つスパース非対称行列の孤立固有値/固有ベクトルに対する鋭い漸近を記述するマスター定理に基づいている。 また、これらの固有ベクトルのエントリの制限分布を記述し、スペクトル埋め込みによるダイグラフクラスタリングのタスクでは、広く使用されているk-平均アルゴリズム上のガウス混合クラスタリングの優位性の数値的証拠を提供します。

We study the task of clustering in directed networks. We show that using the eigenvalue/eigenvector decomposition of the adjacency matrix is simpler than all common methods which are based on a combination of data regularization and SVD truncation, and works well down to the very sparse regime where the edge density has constant order. Our analysis is based on a Master Theorem describing sharp asymptotics for isolated eigenvalues/eigenvectors of sparse, non-symmetric matrices with independent entries. We also describe the limiting distribution of the entries of these eigenvectors; in the task of digraph clustering with spectral embeddings, we provide numerical evidence for the superiority of Gaussian Mixture clustering over the widely used k-means algorithm.
翻訳日:2021-02-08 12:53:33 公開日:2021-02-05
# グラジングインシデンスX線蛍光における後部再建のための逆ニューラルネットワークとMCMC

Invertible Neural Networks versus MCMC for Posterior Reconstruction in Grazing Incidence X-Ray Fluorescence ( http://arxiv.org/abs/2102.03189v1 )

ライセンス: Link先を確認
Anna Andrle, Nando Farchmin, Paul Hagemann, Sebastian Heidenreich, Victor Soltwisch, Gabriele Steidl(参考訳) グレージングインシデントX線蛍光は、例えば出現するナノ構造の幾何学および組成パラメータを分析する非破壊的手法である。 コンピューターチップで 本論文では,前方モデルが生成する雑音測定から得られた後方パラメータ分布を,適切に学習した可逆ニューラルネットワークを用いて再構成することを提案する。 このネットワークは、参照分布から後方への輸送マップに似ている。 本手法が既存のマルコフチェーンモンテカルロアプローチと競合できることを数値的に比較し、より効率的かつ柔軟であることを示します。

Grazing incidence X-ray fluorescence is a non-destructive technique for analyzing the geometry and compositional parameters of nanostructures appearing e.g. in computer chips. In this paper, we propose to reconstruct the posterior parameter distribution given a noisy measurement generated by the forward model by an appropriately learned invertible neural network. This network resembles the transport map from a reference distribution to the posterior. We demonstrate by numerical comparisons that our method can compete with established Markov Chain Monte Carlo approaches, while being more efficient and flexible in applications.
翻訳日:2021-02-08 12:53:21 公開日:2021-02-05
# 不均質な連合学習のためのバイアス分散低減局所sgd

Bias-Variance Reduced Local SGD for Less Heterogeneous Federated Learning ( http://arxiv.org/abs/2102.03198v1 )

ライセンス: Link先を確認
Tomoya Murata, Taiji Suzuki(参考訳) フェデレーション学習は分散学習における重要な学習シナリオの1つであり、コミュニケーションと計算コストの観点から異種ローカルデータセットを効率的に学習することを目指している。 本稿では,非凸フェデレーション学習のためのBVR-L-SGD(Bias-Variance Reduced Local SGD)と呼ばれる新しい局所アルゴリズムについて検討する。 本稿では,局所目標の小さな2次不均一性を十分に活用し,作業者の同期時に平均値を取るのではなく,ランダムに局所モデルの1つをピックアップすることを提案し,バイアスと分散を低減した局所勾配推定器の解析を行う。 局所目的の非均質性が小さい場合,従来の非局所目的と局所目的の双方よりも通信の複雑性が小さいことが示された。 さらに、作業者毎の総通信時間と総計算時間の合計である総実行時間を比較し、不均一性が小さく、単一の通信時間の方が1つの確率勾配計算よりも長い時間を要する場合、既存の方法と比較して、我々の手法の優位性を示す。 理論的知見を検証し,アルゴリズムの優越性に関する実証的証拠を与えるため,数値実験を行った。

Federated learning is one of the important learning scenarios in distributed learning, in which we aim at learning heterogeneous local datasets efficiently in terms of communication and computational cost. In this paper, we study new local algorithms called Bias-Variance Reduced Local SGD (BVR-L-SGD) for nonconvex federated learning. One of the novelties of this paper is in the analysis of our bias and variance reduced local gradient estimators which fully utilize small second-order heterogeneity of local objectives and suggests to randomly pick up one of the local models instead of taking average of them when workers are synchronized. Under small heterogeneity of local objectives, we show that our methods achieve smaller communication complexity than both the previous non-local and local methods for general nonconvex objectives. Furthermore, we also compare the total execution time, that is the sum of total communication time and total computational time per worker, and show the superiority of our methods to the existing methods when the heterogeneity is small and single communication time is more time consuming than single stochastic gradient computation. Numerical results are provided to verify our theoretical findings and give empirical evidence of the superiority of our algorithms.
翻訳日:2021-02-08 12:53:12 公開日:2021-02-05
# SARS-CoV-2の宿主-ウイルス間相互作用の解析

Analyzing Host-Viral Interactome of SARS-CoV-2 for Identifying Vulnerable Host Proteins during COVID-19 Pathogenesis ( http://arxiv.org/abs/2102.03253v1 )

ライセンス: Link先を確認
Jayanta Kumar Das, Swarup Roy, Pietro Hiram Guzzi(参考訳) COVID-19治療のための治療目標の開発は、病因の分子メカニズムの理解に基づいています。 感染機構に関与する遺伝子やタンパク質の同定は、複雑な分子機構に光を放出するための鍵です。 世界中に分布する多くの研究所の努力が組み合わさって、タンパク質と遺伝的相互作用の蓄積を生み出している。 本研究では,これらの結果を統合し,1432個のヒトタンパク質からなる宿主タンパク質相互作用ネットワークを得る。 キータンパク質の同定のためのネットワーク中央度を算出した。 その後、中枢タンパク質の機能強化を行います。 同定されたタンパク質は、主に細胞プロセス、シグナル伝達、神経変性疾患を含むいくつかの重要な経路に関連している。 最後に,ヒト呼吸器疾患の原因となるタンパク質について検討した。 我々は、COVID19は複雑な疾患であると結論付け、RBX1、HSPA5、ITCH、RAB7A、RAB5A、RAB8A、PSMC5、CAPZB、CANX、IGF2R、HSPA1Aなどの多くの潜在的な治療目標を強調しました。

The development of therapeutic targets for COVID-19 treatment is based on the understanding of the molecular mechanism of pathogenesis. The identification of genes and proteins involved in the infection mechanism is the key to shed out light into the complex molecular mechanisms. The combined effort of many laboratories distributed throughout the world has produced the accumulation of both protein and genetic interactions. In this work we integrate these available results and we obtain an host protein-protein interaction network composed by 1432 human proteins. We calculate network centrality measures to identify key proteins. Then we perform functional enrichment of central proteins. We observed that the identified proteins are mostly associated with several crucial pathways, including cellular process, signalling transduction, neurodegenerative disease. Finally, we focused on proteins involved in causing disease in the human respiratory tract. We conclude that COVID19 is a complex disease, and we highlighted many potential therapeutic targets including RBX1, HSPA5, ITCH, RAB7A, RAB5A, RAB8A, PSMC5, CAPZB, CANX, IGF2R, HSPA1A, which are central and also associated with multiple diseases
翻訳日:2021-02-08 12:52:49 公開日:2021-02-05
# baller2vec:マルチエージェント時空間モデリングのためのマルチエンティティトランスフォーマ

baller2vec: A Multi-Entity Transformer For Multi-Agent Spatiotemporal Modeling ( http://arxiv.org/abs/2102.03291v1 )

ライセンス: Link先を確認
Michael A. Alcorn and Anh Nguyen(参考訳) マルチエージェント時空間モデリングは,アルゴリズム設計と計算複雑性の観点からの課題である。 最近の研究は、この領域における従来のディープシーケンシャルモデルの有効性を探っているが、これらのアーキテクチャは、特にモデルのサイズが大きくなるにつれて、訓練が遅く、扱いにくい。 さらに、エージェント間の相互作用を時間にわたってモデル化する以前の試みには、エージェントに順序を与える、あるいはそれらの関係について仮定するといった制限がある。 本稿では,標準的なトランスフォーマの多面的一般化であるballer2vecについて紹介する。 マルチエージェント時空間モデリングにおけるballer2vecの有効性を,(1)コート上のすべての選手の軌跡の同時予測,(2)ボールの軌跡の予測,の2つの異なるバスケットボール関連の課題を訓練することにより検証した。 Baller2vecは、これらのタスクをうまくこなすことを学ぶだけでなく、バスケットボールの試合を「理解」し、プレイヤーの慣用的な質を埋め込みに符号化し、注意を向けてバスケットボール関連機能を実行するようにも見える。

Multi-agent spatiotemporal modeling is a challenging task from both an algorithmic design and computational complexity perspective. Recent work has explored the efficacy of traditional deep sequential models in this domain, but these architectures are slow and cumbersome to train, particularly as model size increases. Further, prior attempts to model interactions between agents across time have limitations, such as imposing an order on the agents, or making assumptions about their relationships. In this paper, we introduce baller2vec, a multi-entity generalization of the standard Transformer that, with minimal assumptions, can simultaneously and efficiently integrate information across entities and time. We test the effectiveness of baller2vec for multi-agent spatiotemporal modeling by training it to perform two different basketball-related tasks: (1) simultaneously forecasting the trajectories of all players on the court and (2) forecasting the trajectory of the ball. Not only does baller2vec learn to perform these tasks well, it also appears to "understand" the game of basketball, encoding idiosyncratic qualities of players in its embeddings, and performing basketball-relevant functions with its attention heads.
翻訳日:2021-02-08 12:52:29 公開日:2021-02-05
# 予測付きオンラインビンパッキング

Online Bin Packing with Predictions ( http://arxiv.org/abs/2102.03311v1 )

ライセンス: Link先を確認
Spyros Angelopoulos and Shahin Kamali and Kimia Shadkami(参考訳) ビンパッキングは、ネットワークのロードバランシングからサプライチェーン管理まで、幅広いアプリケーションを備えた古典的な最適化問題です。 本研究では,様々なサイズの項目の列を,容量が一様である最小のビン数に配置しなければならない,問題のオンライン変種について検討する。 オンラインアルゴリズムは、シーケンス内のアイテムサイズの頻度に関する(潜在的に誤った)予測で拡張される。 整合性(予測誤差のない競合比率)と堅牢性(敵対誤差下の競争比率)を効率的にトレードオフし、その性能がエラーの関数として穏やかに低下するオンラインアルゴリズムを設計・分析します。 この問題に対する以前の取り組みは、予測エラーに関する極端なケースのみに対処し、過度に強力でエラーのない予測オラクルに依存してきた。

Bin packing is a classic optimization problem with a wide range of applications from load balancing in networks to supply chain management. In this work we study the online variant of the problem, in which a sequence of items of various sizes must be placed into a minimum number of bins of uniform capacity. The online algorithm is enhanced with a (potentially erroneous) prediction concerning the frequency of item sizes in the sequence. We design and analyze online algorithms with efficient tradeoffs between their consistency (i.e., the competitive ratio assuming no prediction error) and their robustness (i.e., the competitive ratio under adversarial error), and whose performance degrades gently as a function of the error. Previous work on this problem has only addressed the extreme cases with respect to the prediction error, and has relied on overly powerful and error-free prediction oracles.
翻訳日:2021-02-08 12:52:09 公開日:2021-02-05
# LoRD-Net:低分解能受信機を用いた展開深度検出ネットワーク

LoRD-Net: Unfolded Deep Detection Network with Low-Resolution Receivers ( http://arxiv.org/abs/2102.02993v1 )

ライセンス: Link先を確認
Shahin Khobahi, Nir Shlezinger, Mojtaba Soltanalian and Yonina C. Eldar(参考訳) ノイズの多い低分解能量子化測定から高次元信号を復元する必要性は、通信やセンシングにおいて広く見られる。 本論文では,一ビット量子化器の極端な場合に着目し,一ビット計測から情報シンボルを回復するための深度検出器 LoRD-Net を提案する。 本手法は,一階最適化繰り返しの深部展開に基づくモデル認識型データ駆動アーキテクチャである。 lord-net は、1ビットの計測値を得るチャネル行列の事前知識を必要とせずに、1ビットのノイズ測定から関心のシグナルを回収するタスクベースのアーキテクチャを持つ。 提案したディープ・ディテクターは,アーキテクチャ設計におけるドメイン知識の導入によるブラックボックス・ディープ・ネットワークに比べてパラメータがはるかに少ないため,モデルに基づく最適化手法の柔軟性,汎用性,信頼性を生かしながら,データ駆動方式で動作することが可能である。 LoRD-Netはブラインド方式で動作し、データ取得システムの非線形性に加えて、信号回復のための適切な最適化目標を特定する必要があります。 そこで本研究では,第1段階において最適化プロセスの適切な形態を特定することに専念し,第1段階ではエンドツーエンドでモデルを訓練するロードネットの2段階訓練手法を提案する。 無線通信における1ビット信号回復のためのレシーバアーキテクチャを数値的に評価し,提案手法がデータ駆動方式とモデルベース方式の両方に優れており,訓練用として単に$\sim 500$のサンプルのオーダーで小さなデータセットを活用できることを示した。

The need to recover high-dimensional signals from their noisy low-resolution quantized measurements is widely encountered in communications and sensing. In this paper, we focus on the extreme case of one-bit quantizers, and propose a deep detector entitled LoRD-Net for recovering information symbols from one-bit measurements. Our method is a model-aware data-driven architecture based on deep unfolding of first-order optimization iterations. LoRD-Net has a task-based architecture dedicated to recovering the underlying signal of interest from the one-bit noisy measurements without requiring prior knowledge of the channel matrix through which the one-bit measurements are obtained. The proposed deep detector has much fewer parameters compared to black-box deep networks due to the incorporation of domain-knowledge in the design of its architecture, allowing it to operate in a data-driven fashion while benefiting from the flexibility, versatility, and reliability of model-based optimization methods. LoRD-Net operates in a blind fashion, which requires addressing both the non-linear nature of the data-acquisition system as well as identifying a proper optimization objective for signal recovery. Accordingly, we propose a two-stage training method for LoRD-Net, in which the first stage is dedicated to identifying the proper form of the optimization process to unfold, while the latter trains the resulting model in an end-to-end manner. We numerically evaluate the proposed receiver architecture for one-bit signal recovery in wireless communications and demonstrate that the proposed hybrid methodology outperforms both data-driven and model-based state-of-the-art methods, while utilizing small datasets, on the order of merely $\sim 500$ samples, for training.
翻訳日:2021-02-08 12:51:23 公開日:2021-02-05
# HF_Lung_V1における呼吸相と入射音検出のための8つの繰り返しニューラルネットワークのベンチマーク

Benchmarking of eight recurrent neural network variants for breath phase and adventitious sound detection on a self-developed open-access lung sound database-HF_Lung_V1 ( http://arxiv.org/abs/2102.03049v1 )

ライセンス: Link先を確認
Fu-Shun Hsu, Shang-Ran Huang, Chien-Wen Huang, Chao-Jung Huang, Yuan-Ren Cheng, Chun-Chieh Chen, Jack Hsiao, Chung-Wei Chen, Li-Chin Chen, Yen-Chun Lai, Bi-Fang Hsu, Nian-Jhen Lin, Wan-Lin Tsai, Yi-Lin Wu, Tzu-Ling Tseng, Ching-Ting Tseng, Yi-Tsun Chen, Feipei Lai(参考訳) 従来の聴診を手持ち聴診器で置き換えるには,2019年の新型コロナウイルスの進行状況のモニタリングなど,多くの臨床シナリオにおいて,自動呼吸音解析機能を備えた,信頼性の高い遠隔連続リアルタイム呼吸音モニターが必要である。 しかし,ロバストなコンピュータによる呼吸音解析アルゴリズムが実用化されていない。 本研究では,9,765個の肺音(それぞれ15秒),34,095個の吸入ラベル,18,349個の吸入ラベル,13,883個の連続冒険音(CAS)ラベル(計8,457個のワイズラベル,686個のストリドールラベル,4,740個のホンチラベルを含む肺音データベース(HF_Lung_V1)を開発した。 長期メモリ(LSTM)、ゲートリカレントユニット(GRU)、双方向LSTM(BiLSTM)、双方向GRU(BiGRU)、畳み込みニューラルネットワーク(CNN)-LSTM、CNN-GRU、CNN-BiLSTM、CNN-BiGRUモデルのベンチマークテストを行い、呼吸段階の検出と冒険音検出を行った。 また,LSTMベースモデルとGRUベースモデル,一方向モデルと双方向モデル,CNNの有無による性能比較を行った。 その結果,これらのモデルが肺音解析に十分な性能を示した。 GRUベースのモデルは、F1スコアと受信機の動作特性曲線下の領域の点で、定義されたタスクのほとんどでLSTMベースのモデルよりも優れています。 さらに、全ての双方向モデルは一方向モデルよりも優れていた。 最後に、CNNの追加により、特にCAS検出タスクにおいて、肺の音像解析の精度が向上した。

A reliable, remote, and continuous real-time respiratory sound monitor with automated respiratory sound analysis ability is urgently required in many clinical scenarios-such as in monitoring disease progression of coronavirus disease 2019-to replace conventional auscultation with a handheld stethoscope. However, a robust computerized respiratory sound analysis algorithm has not yet been validated in practical applications. In this study, we developed a lung sound database (HF_Lung_V1) comprising 9,765 audio files of lung sounds (duration of 15 s each), 34,095 inhalation labels, 18,349 exhalation labels, 13,883 continuous adventitious sound (CAS) labels (comprising 8,457 wheeze labels, 686 stridor labels, and 4,740 rhonchi labels), and 15,606 discontinuous adventitious sound labels (all crackles). We conducted benchmark tests for long short-term memory (LSTM), gated recurrent unit (GRU), bidirectional LSTM (BiLSTM), bidirectional GRU (BiGRU), convolutional neural network (CNN)-LSTM, CNN-GRU, CNN-BiLSTM, and CNN-BiGRU models for breath phase detection and adventitious sound detection. We also conducted a performance comparison between the LSTM-based and GRU-based models, between unidirectional and bidirectional models, and between models with and without a CNN. The results revealed that these models exhibited adequate performance in lung sound analysis. The GRU-based models outperformed, in terms of F1 scores and areas under the receiver operating characteristic curves, the LSTM-based models in most of the defined tasks. Furthermore, all bidirectional models outperformed their unidirectional counterparts. Finally, the addition of a CNN improved the accuracy of lung sound analysis, especially in the CAS detection tasks.
翻訳日:2021-02-08 12:50:53 公開日:2021-02-05
# ホワイトボックスオーディオVST効果プログラミング

White-box Audio VST Effect Programming ( http://arxiv.org/abs/2102.03170v1 )

ライセンス: Link先を確認
Christopher Mitcheltree and Hideki Koike(参考訳) オーディオプロダクションVSTプラグインをプログラムする学習は、通常、非効率な試行とエラーによって得られる時間のかかるプロセスであり、広範囲なユーザー体験の後のみマスターされる。 本論文では,ユーザの音声信号を目的の音声に変化させるための音声効果を段階的に指示するホワイトボックス反復システムを提案する。 我々はXfer Records Serumにシステムを適用し、現在オーディオ制作コミュニティで使われている最もポピュラーで複雑なVSTシンセサイザーの1つである。 以上の結果から,本システムは様々な音響効果やシンセサイザー・プリセットに対する有用なフィードバックを一貫して提供できることが示唆された。

Learning to program an audio production VST plugin is a time consuming process, usually obtained through inefficient trial and error and only mastered after extensive user experience. We propose a white-box, iterative system that provides step-by-step instructions for applying audio effects to change a user's audio signal towards a desired sound. We apply our system to Xfer Records Serum: currently one of the most popular and complex VST synthesizers used by the audio production community. Our results indicate that our system is consistently able to provide useful feedback for a variety of different audio effects and synthesizer presets.
翻訳日:2021-02-08 12:50:10 公開日:2021-02-05
# 音楽分類のためのマルチタスク自己監督プリトレーニング

Multi-Task Self-Supervised Pre-Training for Music Classification ( http://arxiv.org/abs/2102.03229v1 )

ライセンス: Link先を確認
Ho-Hsiang Wu, Chieh-Chi Kao, Qingming Tang, Ming Sun, Brian McFee, Juan Pablo Bello, Chao Wang(参考訳) ディープラーニングは非常にデータに飢えており、教師付き学習には特に大量のラベル付きデータが必要になります。 機械リスニング研究は、人間のアノテーション取得にコストがかかり、音声に対するアノテーションは時間がかかり、直感的ではないため、ラベル付きデータの問題に苦しむことが多い。 さらに、ラベル付きデータセットから学んだモデルは、その特定のデータセット固有のバイアスを埋め込むことが多い。 したがって、教師なし学習技術は、機械リスニング問題を解決するための一般的なアプローチとなる。 特に、複数の手作り音声特徴の再構成を利用した自己教師あり学習手法は、感情認識や自動音声認識(asr)などの音声領域に適用すると有望な結果が得られる。 本稿では,音楽エンコーダの事前学習に自己教師とマルチタスク学習手法を適用し,エンコーダアーキテクチャ,複数タスクからの損失を組み合わせる重み付け機構,プリテキストタスクの作業者選択など,さまざまな設計選択について検討する。 これらのデザイン選択が下流の音楽分類課題とどのように相互作用するかを検討する。 プレトレーニング中の損失のバランスをとるための重み付け機構を備えた,さまざまな音楽固有の作業員が,ダウンストリームタスクの改善と一般化に役立ちます。

Deep learning is very data hungry, and supervised learning especially requires massive labeled data to work well. Machine listening research often suffers from limited labeled data problem, as human annotations are costly to acquire, and annotations for audio are time consuming and less intuitive. Besides, models learned from labeled dataset often embed biases specific to that particular dataset. Therefore, unsupervised learning techniques become popular approaches in solving machine listening problems. Particularly, a self-supervised learning technique utilizing reconstructions of multiple hand-crafted audio features has shown promising results when it is applied to speech domain such as emotion recognition and automatic speech recognition (ASR). In this paper, we apply self-supervised and multi-task learning methods for pre-training music encoders, and explore various design choices including encoder architectures, weighting mechanisms to combine losses from multiple tasks, and worker selections of pretext tasks. We investigate how these design choices interact with various downstream music classification tasks. We find that using various music specific workers altogether with weighting mechanisms to balance the losses during pre-training helps improve and generalize to the downstream tasks.
翻訳日:2021-02-08 12:49:59 公開日:2021-02-05
# (参考訳) 自動運転車のリアルタイム最適軌道計画と機械学習によるラップタイムシミュレーション

Real-Time Optimal Trajectory Planning for Autonomous Vehicles and Lap Time Simulation Using Machine Learning ( http://arxiv.org/abs/2102.02315v2 )

ライセンス: CC BY 4.0
Sam Garlick and Andrew Bradley(参考訳) ドライバーレス車両の広範な開発は、モータースポーツの高速と激しい競争が技術開発を加速するためのテストベッドを提供する自律レース競争の形成をもたらしました。 自動運転車の特に課題は、目標の軌道を識別することである - あるいは、レーシングカーの場合、理想的なレースラインである。 レースラインを特定するための既存のアプローチの多くは、時間最適化ソリューションではないか、あるいは計算コストのかかるソリューション時間を持っているため、オンボード処理ハードウェアを使用したリアルタイムアプリケーションには適さない。 本稿では,デスクトップ処理ハードウェア上でリアルタイムにレースラインを正確に予測する機械学習手法について述べる。 提案アルゴリズムは,従来の最適制御ラップタイムシミュレーションにより計算された多数の回路のレースラインを含むデータセットを用いて学習する,高密度なフィードフォワードニューラルネットワークである。 このネットワークは、平均絶対誤差+/-0.27mでレースラインを予測できるので、精度は人間のドライバーより優れており、自動運転車制御システムの他の部分と同等である。 システムは33ms以内の予測を生成し、最適なレースラインを見つける従来の方法の9000倍以上高速になります。 結果から,データ駆動型アプローチは従来の計算手法よりも,ほぼ最適なレースラインのリアルタイム生成に好適であることが示唆された。

The widespread development of driverless vehicles has led to the formation of autonomous racing competitions, where the high speeds and fierce rivalry in motorsport provide a testbed to accelerate technology development. A particular challenge for an autonomous vehicle is that of identifying a target trajectory - or in the case of a racing car, the ideal racing line. Many existing approaches to identifying the racing line are either not the time-optimal solutions, or have solution times which are computationally expensive, thus rendering them unsuitable for real-time application using on-board processing hardware. This paper describes a machine learning approach to generating an accurate prediction of the racing line in real-time on desktop processing hardware. The proposed algorithm is a dense feed-forward neural network, trained using a dataset comprising racing lines for a large number of circuits calculated via a traditional optimal control lap time simulation. The network is capable of predicting the racing line with a mean absolute error of +/-0.27m, meaning that the accuracy outperforms a human driver, and is comparable to other parts of the autonomous vehicle control system. The system generates predictions within 33ms, making it over 9,000 times faster than traditional methods of finding the optimal racing line. Results suggest that a data-driven approach may therefore be favourable for real-time generation of near-optimal racing lines than traditional computational methods.
翻訳日:2021-02-08 12:49:11 公開日:2021-02-05