このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210611となっている論文です。

PDF登録状況(公開日: 20210611)

TitleAuthorsAbstract論文公表日・翻訳日
# 生成関数によるスカラー量子場の微分同相

Diffeomorphisms of Scalar Quantum Fields via Generating Functions ( http://arxiv.org/abs/2007.12341v3 )

ライセンス: Link先を確認
Ali Assem Mahmoud, Karen Yeats(参考訳) 形式微分同相写像のスカラー場への応用について検討する。 我々は、相互作用する木振幅が結果の理論で消えるという新しい証明を与える。 我々の証明は図式レベルで直接的に行われ、経路積分に訴えず、生成関数解析によって進行するので、以前の証明よりも洞察力が高い。 その過程でベル多項式アイデンティティの新しい組合せ証明を与え、組合せルジャンドル変換との関係についてコメントする。

We study the application of formal diffeomorphisms to scalar fields. We give a new proof that interacting tree amplitudes vanish in the resulting theories. Our proof is directly at the diagrammatic level, not appealing to the path integral, and proceeds via a generating function analysis so is more insightful than previous proofs. Along the way we give new combinatorial proofs of some Bell polynomial identities, and we comment on the connection with the combinatorial Legendre transform.
翻訳日:2023-05-08 08:35:41 公開日:2021-06-11
# atomtronicsのロードマップ:最先端の技術と展望

Roadmap on Atomtronics: State of the art and perspective ( http://arxiv.org/abs/2008.04439v5 )

ライセンス: Link先を確認
L.Amico, M.Boshier, G.Birkl, A.Minguzzi, C.Miniatura, L.-C. Kwek, D. Aghamalyan, V. Ahufinger, D. Anderson, N. Andrei, A. S. Arnold, M. Baker, T.A. Bell, T. Bland, J.P. Brantut, D. Cassettari, W. J. Chetcuti, F. Chevy, R. Citro, S. De Palo, R. Dumke, M. Edwards, R. Folman, J. Fortagh, S. A. Gardiner, B.M. Garraway, G. Gauthier, A. G\"unther, T. Haug, C. Hufnagel, M. Keil, W.von Klitzing, P.Ireland, M.Lebrat, W.Li, L.Longchambon, J.Mompart, O.Morsch, P. Naldesi, T.W. Neely, M. Olshanii, E. Orignac, S. Pandey, A. P\'erez-Obiol, H. Perrin, L. Piroli, J. Polo, A.L. Pritchard, N. P. Proukakis, C. Rylands, H. Rubinsztein-Dunlop, F. Scazza, S. Stringari, F. Tosto, A. Trombettoni, N. Victorin, D. Wilkowski, K. Xhani, A. Yakimenko(参考訳) atomtronicsは、異なる形状と強度を持つ磁気またはレーザー生成ガイドを介して操作される超低温原子の物質波回路を扱う。 このように、原子・分子物理学のコミュニティで開発されたノウハウによってコヒーレント流体を制御する新しいタイプの量子ネットワークを構築することができる。 特に、精度、制御性、動作条件の柔軟性が向上した量子デバイスにアクセスすることができる。 また、コヒーレント電流流を利用した新しい量子シミュレータやエミュレータの開発も可能である。 ここでは、原子線対応量子技術の展望を調査し、近い将来にその分野のロードマップを描き出す。 物質波回路の設計と原子チップにおける最新の進歩について概説する。 atomtronic networkは、新しい角度と新しいねじれで多体物理学を探索するための有望なプラットフォームとしてデプロイされる。 後者は平衡状態と非平衡状態の両方で行うことができる。 メソスコピック物理学における多くの問題、例えばフェルミオン原子やボゾン原子の回路における持続電流や量子輸送は、新しいレンズを通して研究されている。 atomtronicsの量子デバイスとセンサーをいくつかまとめます。 最後に, アルカリ土類とライドバーグ原子を, 原子トロニクス回路の実現のための潜在的基盤として, 特別に論じる。

Atomtronics deals with matter-wave circuits of ultra-cold atoms manipulated through magnetic or laser-generated guides with different shapes and intensities. In this way, new types of quantum networks can be constructed, in which coherent fluids are controlled with the know-how developed in the atomic and molecular physics community. In particular, quantum devices with enhanced precision, control and flexibility of their operating conditions can be accessed. Concomitantly, new quantum simulators and emulators harnessing on the coherent current flows can also be developed. Here, we survey the landscape of atomtronics-enabled quantum technology and draw a roadmap for the field in the near future. We review some of the latest progresses achieved in matter-wave circuits design and atom-chips. Atomtronic networks are deployed as promising platforms for probing many-body physics with a new angle and a new twist. The latter can be done both at the level of equilibrium and non-equilibrium situations. Numerous relevant problems in mesoscopic physics, like persistent currents and quantum transport in circuits of fermionic or bosonic atoms, are studied through a new lens. We summarize some of the atomtronics quantum devices and sensors. Finally, we discuss alkali-earth and Rydberg atoms as potential platforms for the realization of atomtronic circuits with special features.
翻訳日:2023-05-06 15:51:14 公開日:2021-06-11
# リー代数を用いた量子平均場可解ハミルトニアンの定義法

How to define quantum mean-field solvable Hamiltonians using Lie algebras ( http://arxiv.org/abs/2008.06633v3 )

ライセンス: Link先を確認
Artur F. Izmaylov and Tzu-Ching Yen(参考訳) 量子ハミルトニアンが平均場理論で正確に解ける必要十分条件は、今のところ定式化されていない。 この問題を解決するために、まず、ある特定の作用素の集合におけるハミルトニアン実現とは独立に平均場理論とは何かを定義する。 第二に、リー代数フレームワークを用いて、ハミルトニアンが平均場可解となるための基準を定式化する。 この基準は識別可能な粒子ケースと識別できない粒子ケースの両方に適用できる。 電子ハミルトニアンのアプローチは、二次数よりも高いフェルミオン作用素のパワーを持つ平均場可解ハミルトニアンの存在を明らかにする。 平均場可解ハミルトニアンの幾つかは、異なる固有状態の準粒子回転の異なる集合を必要とし、そのようなハミルトニアンのより複雑な構造を反映している。

Necessary and sufficient conditions for quantum Hamiltonians to be exactly solvable within mean-field theories have not been formulated so far. To resolve this problem, first, we define what mean-field theory is, independently of a Hamiltonian realization in a particular set of operators. Second, using a Lie-algebraic framework we formulate a criterion for a Hamiltonian to be mean-field solvable. The criterion is applicable for both distinguishable and indistinguishable particle cases. For the electronic Hamiltonians, our approach reveals the existence of mean-field solvable Hamiltonians of higher fermionic operator powers than quadratic. Some of the mean-field solvable Hamiltonians require different sets of quasi-particle rotations for different eigenstates, which reflects a more complicated structure of such Hamiltonians.
翻訳日:2023-05-06 04:56:56 公開日:2021-06-11
# 強結合二重高調波発振器における適応摂動理論の適用

The application of adaptive perturbation theory in strongly coupled double harmonic oscillator system ( http://arxiv.org/abs/2009.13362v6 )

ライセンス: Link先を確認
Xin Guo(参考訳) 適応摂動理論の考え方は、ハミルトニアンを可解部分と摂動部分に分割することである。 可解部分は相互作用しないセクターと相互作用項からのフォック空間の対角要素を含む。 摂動項はフォック空間の非対角的セクタである。 したがって、摂動パラメータは結合定数ではない。 これは以前の摂動法の標準的な手順とは異なる。 この手紙では、適応摂動理論を用いて強結合二重調和振動子系における可解要素を抽出し、可解部分のエネルギースペクトルを得る。 次に、ハミルトニアンを対角化して数値解を得る。 強結合二重高調波発振器における適応摂動理論の精度について検討するため,先行摂動と二次摂動からの解析研究を行った。 主次数と数値解の間の偏差は、準粒子数 n1 と n2 の間のギャップが減少するか、結合定数 $\lambda$ が増加するにつれて、二重調和振動子系の強結合領域における厳密解と数値解との間のギャップが小さくなることを示している。 全体的な数値的ギャップは約1%から3%であり、これは悪い結果ではない。 2階の値は n1 が n2 に等しいときの数値解に非常に近い。 ほとんどの場合、偏差は1%以下であり、強結合場における二重調和振動子系に適応摂動理論が有効であることを意味する。

The idea of adaptive perturbation theory is to divide a Hamiltonian into a solvable part and a perturbation part. The solvable part contains the non-interacting sector and the diagonal elements of Fock space from the interacting terms. The perturbed term is the non-diagonal sector of Fock space. Therefore, the perturbation parameter is not coupling constant. This is different from the standard procedure of previous perturbation method. In this letter, we use the adaptive perturbation theory to extract the solvable elements in the strongly coupled double harmonic oscillator system and obtain the energy spectrum of the solvable part. Then, we diagonalize the Hamiltonian to obtain the numerical solution. In order to study the accuracy of adaptive perturbation theory in the strongly coupled double harmonic oscillator system, we demonstrate the analytical study from the leading order and second-order perturbation. The deviations between the leading-order and the numerical solution show that as the gap between the quasiparticle number n1 and n2 decreases, or the coupling constant $\lambda$ increases, the gap between the exact solutions in the strongly coupling region of double harmonic oscillator system and the numerical solutions becomes smaller. Overall, the numerical gap is about 1% to 3%, which is not a bad result. The value of the second-order is quite close to the numerical solution when n1 doesn't equal n2. In most cases, the deviation is less than 1%, which means that the adaptive perturbation theory is effective for the double harmonic oscillator system in strong coupling field.
翻訳日:2023-04-30 18:38:42 公開日:2021-06-11
# 加速度計実験による電磁微細構造定数の宇宙空間勾配のロバスト実験室限界

Robust laboratory limits on a cosmological spatial gradient in the electromagnetic fine-structure constant from accelerometer experiments ( http://arxiv.org/abs/2010.01798v3 )

ライセンス: Link先を確認
Yevgeny V. Stadnik(参考訳) クエーサー吸収スペクトルデータは、宇宙の長さスケールで電磁微細構造定数$\alpha$の空間勾配の存在を示す。 トーションペンジュラや原子干渉計を含む加速度計を用いた実験は、宇宙空間勾配の感度プローブとして自然界の基本定数に利用することができ、実験質量に等値原理違反力をもたらすことを指摘した。 e\"ot-wash実験の実験室データを用いて、任意の方向に沿って空間勾配を$\alpha$に制限し、$| \boldsymbol{\nabla} \alpha / \alpha | < 6.6 \times 10^{-4}~(\textrm{glyr})^{-1}$を$95\%$信頼レベルとする。 この結果は、観測された宇宙論的な$\alpha$-dipole軸に沿って配向された$\alpha$の空間勾配を求めるクロックベース探索による実験室境界の桁違いの改善を示す。 近い将来の加速度計実験の改善は、天体物理データに見られる宇宙論的な$\alpha$-dipoleのテストに十分な感度をもたらすことが期待されている。

Quasar absorption spectral data indicate the presence of a spatial gradient in the electromagnetic fine-structure constant $\alpha$ on cosmological length scales. We point out that experiments with accelerometers, including torsion pendula and atom interferometers, can be used as sensitive probes of cosmological spatial gradients in the fundamental constants of nature, which give rise to equivalence-principle-violating forces on test masses. Using laboratory data from the E\"ot-Wash experiment, we constrain spatial gradients in $\alpha$ along any direction to be $| \boldsymbol{\nabla} \alpha / \alpha | < 6.6 \times 10^{-4}~(\textrm{Glyr})^{-1}$ at $95\%$ confidence level. Our result represents an order of magnitude improvement over laboratory bounds from clock-based searches for a spatial gradient in $\alpha$ directed along the observed cosmological $\alpha$-dipole axis. Improvements to accelerometer experiments in the foreseeable future are expected to provide sufficient sensitivity to test the cosmological $\alpha$-dipole seen in astrophysical data.
翻訳日:2023-04-29 22:42:25 公開日:2021-06-11
# 量子格子系の準局所性境界 第2部。 ガッピング基底状態を有するフラストレーションフリースピンモデルの摂動

Quasi-Locality Bounds for Quantum Lattice Systems. Part II. Perturbations of Frustration-Free Spin Models with Gapped Ground States ( http://arxiv.org/abs/2010.15337v3 )

ライセンス: Link先を確認
Bruno Nachtergaele, Robert Sims, Amanda Young(参考訳) フラストレーションのないハミルトニアンによって定義される量子スピン系のガッピング基底状態相の幅広い摂動に関する安定性について検討する。 この研究の核となる結果は、bravyi-hastings-michalakis (bhm)戦略を用いた証明であり、局所トポロジカル量子秩序の条件下で、バルクギャップは伸長した指数よりも長い距離で崩壊する摂動の下で安定である。 従来の研究と比較して、より一般的な境界条件を持つモデルや離散対称性の破れを持つモデルを含むように扱えるフラストレーションのない量子スピンモデルのクラスを拡大する。 詳細な推定により、システムサイズに一様である程度明示的なギャップに対する正の下限の妥当性について十分な条件を定式化することができる。 我々は,Michalakis と Zwolak のアプローチによる BHM 戦略の調査を行い,単に周期的境界条件やより一般的な格子よりも一般的に対応できるような変更を導入した。 非識別可能性半径(indistinguishability radius)の概念を用いてltqoと呼ばれる基本的な条件を表現する。 均一な有限体積結果を用いて熱力学的限界を研究する。 まず,一意的な極限基底状態の場合について検討し,さらに離散対称性の自発的破断モデルについても考察した。 後者の場合、LTQOはすべての局所観測値を保持することはできない。 しかし、対称性を保った摂動に対しては、ギャップの安定性と崩壊した対称性の位相の構造を示す。 各純粋状態に付随するgsnハミルトニアンは基底状態以上のスペクトルギャップがゼロでないことが証明される。

We study the stability with respect to a broad class of perturbations of gapped ground state phases of quantum spin systems defined by frustration-free Hamiltonians. The core result of this work is a proof using the Bravyi-Hastings-Michalakis (BHM) strategy that under a condition of Local Topological Quantum Order, the bulk gap is stable under perturbations that decay at long distances faster than a stretched exponential. Compared to previous work we expand the class of frustration-free quantum spin models that can be handled to include models with more general boundary conditions, and models with discrete symmetry breaking. Detailed estimates allow us to formulate sufficient conditions for the validity of positive lower bounds for the gap that are uniform in the system size and that are explicit to some degree. We provide a survey of the BHM strategy following the approach of Michalakis and Zwolak, with alterations introduced to accommodate more general than just periodic boundary conditions and more general lattices. We express the fundamental condition known as LTQO by means of the notion of indistinguishability radius, which we introduce. Using the uniform finite-volume results we then proceed to study the thermodynamic limit. We first study the case of a unique limiting ground state and then also consider models with spontaneous breaking of a discrete symmetry. In the latter case, LTQO cannot hold for all local observables. However, for perturbations that preserve the symmetry, we show stability of the gap and the structure of the broken symmetry phases. We prove that the GNS Hamiltonian associated with each pure state has a non-zero spectral gap above the ground state.
翻訳日:2023-04-27 01:07:04 公開日:2021-06-11
# 適応型変分量子ダイナミクスシミュレーション

Adaptive Variational Quantum Dynamics Simulations ( http://arxiv.org/abs/2011.00622v3 )

ライセンス: Link先を確認
Yong-Xin Yao, Niladri Gomes, Feng Zhang, Cai-Zhuang Wang, Kai-Ming Ho, Thomas Iadecola, and Peter P. Orth(参考訳) 我々はMcLachlanの変動原理に基づく高精度量子力学シミュレーションのための変分波動関数 ans\atze を構築するための汎用的自己適応的手法を提案する。 鍵となる考え方は、シミュレーション精度の尺度である ``McLachlan distance'' が設定しきい値以下であるように、時間進化経路に沿って変分アンサッツを動的に拡張することである。 この適応変分量子動力学シミュレーション(avqds)を積分可能なリーブ・シュルツ・マティススピンチェーンと非可積分混合場イジングモデルに適用し,高忠実度で有限速度と急速ポストクエンチダイナミクスの両方を捉える。 時間進化状態を生成するAVQDS量子回路は、一階のトロタライゼーションから得られるものよりもはるかに浅く、CNOTゲート操作の2桁も少ない。 我々は、近い将来の量子コンピューティングデバイス上での量子多体系の幅広い動的シミュレーションがavqdsフレームワークによって実現されることを期待している。

We propose a general-purpose, self-adaptive approach to construct variational wavefunction ans\"atze for highly accurate quantum dynamics simulations based on McLachlan's variational principle. The key idea is to dynamically expand the variational ansatz along the time-evolution path such that the ``McLachlan distance'', which is a measure of the simulation accuracy, remains below a set threshold. We apply this adaptive variational quantum dynamics simulation (AVQDS) approach to the integrable Lieb-Schultz-Mattis spin chain and the nonintegrable mixed-field Ising model, where it captures both finite-rate and sudden post-quench dynamics with high fidelity. The AVQDS quantum circuits that prepare the time-evolved state are much shallower than those obtained from first-order Trotterization and contain up to two orders of magnitude fewer CNOT gate operations. We envision that a wide range of dynamical simulations of quantum many-body systems on near-term quantum computing devices will be made possible through the AVQDS framework.
翻訳日:2023-04-26 03:50:25 公開日:2021-06-11
# Rydbergイオンを閉じ込めた円錐交点近傍における多体ダイナミクスの探索

Exploring the many-body dynamics near a conical intersection with trapped Rydberg ions ( http://arxiv.org/abs/2012.01834v2 )

ライセンス: Link先を確認
Filippo Maria Gambetta, Chi Zhang, Markus Hennrich, Igor Lesanovsky, Weibin Li(参考訳) 電子ポテンシャルエネルギー曲面間の円錐交差は、大きな分子の励起状態における非断熱過程の研究のパラダイムである。 しかし、対応するダイナミクスはフェムト秒の時間スケールで起こるため、研究は依然として困難であり、超高速分光技術を必要とする。 トラップされたRydbergイオンは円錐交叉を工学し、それぞれナノメートルとマイクロ秒のオーダーのより大きな長さと時間スケールでそれに続くダイナミクスをシミュレートするプラットフォームであり、これらは全て高度に制御可能なシステムであることを示す。 ここで、ポテンシャルエネルギー面の形状と円錐交叉の位置は、高偏光度とリドベルクイオンの強い双極子交換相互作用との相互作用によって調整できる。 円錐交差の存在が核運動と電子動力学の両方にどのように影響するか、特に核運動の抑制にどのように影響するかを研究する。 これらの効果は、最先端の実験装置で電子集団の直接分光測定によってリアルタイムで監視することができる。

Conical intersections between electronic potential energy surfaces are paradigmatic for the study of non-adiabatic processes in the excited states of large molecules. However, since the corresponding dynamics occurs on a femtosecond timescale, their investigation remains challenging and requires ultrafast spectroscopy techniques. We demonstrate that trapped Rydberg ions are a platform to engineer conical intersections and to simulate their ensuing dynamics on larger length and time scales of the order of nanometers and microseconds, respectively; all this in a highly controllable system. Here, the shape of the potential energy surfaces and the position of the conical intersection can be tuned thanks to the interplay between the high polarizability and the strong dipolar exchange interactions of Rydberg ions. We study how the presence of a conical intersection affects both the nuclear and electronic dynamics demonstrating, in particular, how it results in the inhibition of the nuclear motion. These effects can be monitored in real-time via a direct spectroscopic measurement of the electronic populations in a state-of-the-art experimental setup.
翻訳日:2023-04-22 05:36:56 公開日:2021-06-11
# 大域的複素場をもつ非エルミートxyスピン鎖の量子相転移

Quantum phase transition in a non-Hermitian XY spin chain with global complex transverse field ( http://arxiv.org/abs/2012.07374v2 )

ライセンス: Link先を確認
Yu-Guo Liu and Lu Xu and Zhi Li(参考訳) 本研究では,非エルミートXYスピン鎖の量子相転移について検討する。 位相図は、イジング相転移の臨界点が非エルミート効果を導入した後、臨界遷移領域に広がることを示している。 非エルミートギャップと長距離相関関数を解析することにより、異なるギャップ特徴と従来のxyモデルにおけるトリッキーな問題である相関関数の減衰特性によって異なる位相を区別することができる。 さらに, 位相図の異なる領域, 非エルミートエネルギーギャップ, 長距離相関関数の関係を明らかにした。

In this work, we investigate the quantum phase transition in a non-Hermitian XY spin chain. The phase diagram shows that the critical points of Ising phase transition expand into a critical transition zone after introducing a non-Hermitian effect. By analyzing the non-Hermitian gap and long-range correlation function, one can distinguish different phases by means of different gap features and decay properties of correlation function, a tricky problem in traditional XY model. Furthermore, the results reveal the relationship among different regions of the phase diagram, non-Hermitian energy gap and long-range correlation function.
翻訳日:2023-04-20 21:32:53 公開日:2021-06-11
# 通信光子とスピン量子メモリの光力学的界面

Optomechanical interface between telecom photons and spin quantum memory ( http://arxiv.org/abs/2102.04597v2 )

ライセンス: Link先を確認
Prasoon K Shandilya, David P Lake, Matthew J Mitchell, Denis D Sukachev, Paul E Barclay(参考訳) 量子ネットワークは、分散量子コンピューティングからセンシングやメトロジーまで、幅広い実用的および基本的なアプリケーションを可能にする。 このようなネットワークの基盤は、通信光子と量子メモリのインターフェースである。 本稿では,スピン量子ビットのひずみに対する感受性を利用したキャビティ光学に基づく新しいアプローチを示す。 1550nm帯の光子を用いたダイヤモンド中の窒素空洞中心の電子スピンの制御に使用する。 この方法は、量子ビットの光遷移を伴わず、スペクトル拡散に敏感である。 さらに, 量子情報処理のためのツールボックスを拡張することにより, 様々な材料の固体量子ビットに適用できる。

Quantum networks enable a broad range of practical and fundamental applications spanning distributed quantum computing to sensing and metrology. A cornerstone of such networks is an interface between telecom photons and quantum memories. Here we demonstrate a novel approach based on cavity optomechanics that utilizes the susceptibility of spin qubits to strain. We use it to control electron spins of nitrogen-vacancy centers in diamond with photons in the 1550 nm telecommunications wavelength band. This method does not involve qubit optical transitions and is insensitive to spectral diffusion. Furthermore, our approach can be applied to solid-state qubits in a wide variety of materials, expanding the toolbox for quantum information processing.
翻訳日:2023-04-12 03:31:47 公開日:2021-06-11
# 量子多フラクタルの対称性振動--ガウスゆらぎと代数的局在

Symmetry Violation of Quantum Multifractality: Gaussian fluctuations versus Algebraic Localization ( http://arxiv.org/abs/2103.03068v3 )

ライセンス: Link先を確認
A. M. Bilen, B. Georgeot, O. Giraud, G. Lemari\'e and I. Garc\'ia-Mata(参考訳) 量子多重フラクタル性(quantum multifractality)は、アンダーソン遷移における非相互作用的無秩序系やヒルベルト空間における多体系の基本的な性質である。 ここでは、この性質に関連する基本対称性の存在または欠如の起源について論じる。 異常多フラクタル次元$\Delta_q$は、そのような系の量子状態の構造を特徴づけるために用いられる。 マルチフラクタル対称性関係 \mbox{$\Delta_q=\Delta_{1-q}$} は、多くの既知のシステムで普遍的に満たされているが、近年、それが成り立たない重要な例がいくつか出現している。 これは2つの異なるメカニズムの結果であることを示す。 最初のものは既に知られており、ランダム行列理論によってよく説明されるガウスのゆらぎと関連している。 2つ目は、以前には検討されていなかったが、代数的局所化された包絡の存在に関連している。 ガウス揺らぎの影響は粗粒化によって取り除くことができるが、第二のメカニズムはそのような方法に頑健である。 1次元フロッケ臨界系とランダムグラフ上のアンダーソン局在に対応するモデルという2つの異なる性質を持つ系の代数的局在化による対称性の破れを説明する。

Quantum multifractality is a fundamental property of systems such as non-interacting disordered systems at an Anderson transition and many-body systems in Hilbert space. Here we discuss the origin of the presence or absence of a fundamental symmetry related to this property. The anomalous multifractal dimension $\Delta_q$ is used to characterize the structure of quantum states in such systems. Although the multifractal symmetry relation \mbox{$\Delta_q=\Delta_{1-q}$} is universally fulfilled in many known systems, recently some important examples have emerged where it does not hold. We show that this is the result of two different mechanisms. The first one was already known and is related to Gaussian fluctuations well described by random matrix theory. The second one, not previously explored, is related to the presence of an algebraically localized envelope. While the effect of Gaussian fluctuations can be removed by coarse graining, the second mechanism is robust to such a procedure. We illustrate the violation of the symmetry due to algebraic localization on two systems of very different nature, a 1D Floquet critical system and a model corresponding to Anderson localization on random graphs.
翻訳日:2023-04-09 02:38:28 公開日:2021-06-11
# 傾斜および調和ポテンシャルにおける多体局在

Many-body localization in tilted and harmonic potentials ( http://arxiv.org/abs/2103.11699v2 )

ライセンス: Link先を確認
Ruixiao Yao, Titas Chanda, Jakub Zakrzewski(参考訳) 傾斜光学格子における相互作用するスピンレスフェルミオンの非エルゴード動力学を、磁束(または電界)におけるXXZスピン鎖によってモデル化された。 時間力学は、小さな鎖の正確な伝播とより大きなシステムサイズのための行列積状態技術を用いて研究される。 我々は、初期状態が著しく絡み合う可能性がある量子クエンチシナリオと同様に、初期N\'eel分離状態も考慮する。 どちらの場合においても,絡み合いのダイナミクスは著しく異なる。 前者では、急激な初期成長に続き、十分に大きな傾きの飽和である$F$が続く。 後者の場合、ダイナミクスはペアトンネルによって支配され、効果的なトンネル速度は1/F^2$である。 追加の調和ポテンシャルが存在する場合、不均衡は局所有効傾き$f_{\text{loc}}$によって完全に決定され、エントロピー成長は最初に1/f_{loc}^2$スケーリングに続く周波数で変調されるが、長期的には調和ポテンシャルの曲率よりもダイナミクスが決定される。 N'eel 初期状態の対数的絡み合い成長は, 局部的な状態に対応する大きな傾きや十分に大きな曲率に対してのみ現れる。 同じ曲率で大きな$f$の長い時間の不均衡が決定され、調和ポテンシャルがなければ縮退する等間隔状態の多様体に関連する強い復活現象が現れる。

We discuss nonergodic dynamics of interacting spinless fermions in a tilted optical lattice as modeled by XXZ spin chain in magnetic (or electric) field changing linearly across the chain. The time dynamics is studied using exact propagation for small chains and matrix product states techniques for larger system sizes. We consider both the initial N\'eel separable state as well as the quantum quench scenario in which the initial state may be significantly entangled. We show that the entanglement dynamics is significantly different in both cases. In the former a rapid initial growth is followed by a saturation for sufficiently large tilt, $F$. In the latter case the dynamics seems to be dominated by pair tunneling and the effective tunneling rate scales as $1/F^2$. In the presence of an additional harmonic potential the imbalance is found to be entirely determined by a local effective tilt, $F_{\text{loc}}$, the entanglement entropy growth is modulated with frequency that follows $1/F_{loc}^2$ scaling first but at long time the dynamics is determined rather by the curvature of the harmonic potential. Only for large tilts or sufficiently large curvatures, corresponding to the deeply localized regime, we find the logarithmic entanglement growth for N\'eel initial state. The same curvature determines long-time imbalance for large $F$ which reveals strong revival phenomena associated with the manifold of equally spaced states, degenerate in the absence of the harmonic potential.
翻訳日:2023-04-07 04:47:30 公開日:2021-06-11
# ストリーミングRNNトランスデューサのためのHMMフリーエンコーダ事前学習

HMM-Free Encoder Pre-Training for Streaming RNN Transducer ( http://arxiv.org/abs/2104.10764v2 )

ライセンス: Link先を確認
Lu Huang, Jingyu Sun, Yufeng Tang, Junfeng Hou, Jinkun Chen, Jun Zhang, Zejun Ma(参考訳) 本研究では,ストリームリカレントニューラルネットワークトランスデューサ(RNN-T)モデルのトレーニングを改善するために,フレームワイズラベルを用いたエンコーダ事前トレーニング手順について述べる。 ストクラッチからトレーニングされたストリーミングRNN-Tは通常、非ストリーミングRNN-Tよりもパフォーマンスが悪い。 RNN-Tのコンポーネントを他の基準やフレーム単位のアライメントガイダンスで事前学習することでこの問題に対処することが一般的であるが、このアライメントはエンドツーエンドで簡単には利用できない。 本研究では,ストリームRNN-Tエンコーダの事前トレーニングに用いるフレームワイドアライメントを,HMMベースのシステムを用いることなく生成する。 したがって、HMMフリーエンコーダをプリトレーニングするオールニューラルネットワークフレームワークを構築する。 これは、CTCモデルのスパイクを左右の空白フレームに拡大することで実現され、2つの拡張戦略が提案される。 我々の知る限り、これはCTCモデルを用いてHMMベースのフレームワイドラベルを事前学習する最初の試みである。 librispeech と mls の英語タスクで行った実験では、ランダム初期化と比較して提案されている事前学習手順は、平均5%~11%減少し、エミッションレイテンシは60ms減少することが示された。

This work describes an encoder pre-training procedure using frame-wise label to improve the training of streaming recurrent neural network transducer (RNN-T) model. Streaming RNN-T trained from scratch usually performs worse than non-streaming RNN-T. Although it is common to address this issue through pre-training components of RNN-T with other criteria or frame-wise alignment guidance, the alignment is not easily available in end-to-end manner. In this work, frame-wise alignment, used to pre-train streaming RNN-T's encoder, is generated without using a HMM-based system. Therefore an all-neural framework equipping HMM-free encoder pre-training is constructed. This is achieved by expanding the spikes of CTC model to their left/right blank frames, and two expanding strategies are proposed. To our best knowledge, this is the first work to simulate HMM-based frame-wise label using CTC model for pre-training. Experiments conducted on LibriSpeech and MLS English tasks show the proposed pre-training procedure, compared with random initialization, reduces the WER by relatively 5%~11% and the emission latency by 60 ms. Besides, the method is lexicon-free, so it is friendly to new languages without manually designed lexicon.
翻訳日:2023-04-05 19:43:28 公開日:2021-06-11
# 重力衝撃波の軟熱力学

Soft thermodynamics of gravitational shock wave ( http://arxiv.org/abs/2104.13377v2 )

ライセンス: Link先を確認
Shuwei Liu and Beni Yoshida(参考訳) 重力衝撃波はads/cft対応のブラックホールの絡み合い構造に重要な洞察を与えている。 ソフトヘア物理学の最近の進歩は、ホログラフィによるこれらの発展は、負の湾曲した時空を超えた幾何学にも応用できることを示唆している。 本研究では,重力衝撃波と微視的領域の変形を関連付ける,極めて単純な熱力学関係を導出する。 我々の処理は共変位相空間の定式化に基づいており、重力の任意の共変理論によって支配される一般静的時空における任意のキリング地平線に適用できる。 中心的なアイデアは、$u$方向に地平線をシフトする重力衝撃波を、$v$方向に地平線をシフトするベクトル場から構築されたネーター電荷によって探究することである。 応用例として,ガウス・ボネット重力への応用について述べる。 また、重力散乱ユニタリ行列の簡素な形式を導出し、その主階寄与は地平線領域の指数関数にすぎないことを示した: $\mathcal{u}=\exp(i \text{area})$。

The gravitational shock waves have provided crucial insights into entanglement structures of black holes in the AdS/CFT correspondence. Recent progress on the soft hair physics suggests that these developments from holography may also be applicable to geometries beyond negatively curved spacetime. In this work, we derive a remarkably simple thermodynamic relation which relates the gravitational shock wave to a microscopic area deformation. Our treatment is based on the covariant phase space formalism and is applicable to any Killing horizon in generic static spacetime which is governed by arbitrary covariant theory of gravity. The central idea is to probe the gravitational shock wave, which shifts the horizon in the $u$ direction, by the Noether charge constructed from a vector field which shifts the horizon in the $v$ direction. As an application, we illustrate its use for the Gauss-Bonnet gravity. We also derive a simplified form of the gravitational scattering unitary matrix and show that its leading-order contribution is nothing but the exponential of the horizon area: $\mathcal{U}=\exp(i \text{Area})$.
翻訳日:2023-04-02 06:40:34 公開日:2021-06-11
# 量子キャビティにおけるデコヒーレンス:カーペット型構造の環境浄化

Decoherence in quantum cavities: Environmental erasure of carpet-type structures ( http://arxiv.org/abs/2105.06157v2 )

ライセンス: Link先を確認
E. Honrubia, A. S. Sanz(参考訳) カーペット型構造は、この現象をデコヒーレンスの有害な影響に根ざした干渉過程の堅牢性を研究・解析するのに理想的な実験室である。 ここでは、一般性を失うことなく、単純に、質量 m の粒子の場合、より広い空洞(幅 L > w )内で放出される幅 w の平方箱の基底状態に対応する局所状態が考慮し、記述する。 その後、デコヒーレンスの影響は、マルコフ条件下で現象の本質的特徴を捉える単純な力学モデルを用いて数値的に研究され、システムと環境の相互作用のより詳細な動的記述に付随する余分な合併症が残る。 示すように、このモデルはエネルギー準位が(エネルギーにおいて)より分離されるにつれてデコヒーレンス効果が強くなるという事実を考慮し、再現し、エネルギー密度行列を主対角線へと進行的に崩壊させる。 しかし、エネルギー散逸は考慮されないため、確率密度の適切な空間的局在が起こらず、むしろ非局在分布である位置表現では類似の挙動が観察されない。 この結果は、古典性がデコヒーレンスと散逸の両方が共存している場合にのみ到達するという事実を強調している。 実際、同様に、位置表現においていくつかの非対角関係は、追加の空間型因子がモデルに含まれない限り、存続する。 これにより、デコヒーレンス現象のかなり複雑な性質が明らかとなり、特に信頼できる制御機構を決定・設計するために、異なる表現でどのように現れるかに精通することが重要である。

Carpet-type structures constitute an ideal laboratory to study and analyze the robustness of the interference process that underlies this phenomenon against the harmful effects of decoherence. Here, without losing any generality, for simplicity, the case of a particle with a mass m is considered and described by a localized state corresponding to the ground state of a square box of width w, which is released inside a wider cavity (with a width L > w). The effects of decoherence are then numerically investigated by means of a simple dynamical model that captures the essential features of the phenomenon under Markovian conditions, leaving aside extra complications associated with a more detailed dynamical description of the system-environment interaction. As it is shown, this model takes into account and reproduces the fact that decoherence effects are stronger as energy levels become more separated (in energy), which translates into a progressive collapse of the energy density matrix to its main diagonal. However, because energy dissipation is not considered, an analogous behavior is not observed in the position representation, where a proper spatial localization of the probability density does not take place, but rather a delocalized distribution. This result emphasizes the fact that classicality is reached only if both decoherence and dissipation coexist; otherwise, non-classical traits might still persist. Actually, as it is also shown, in the position representation some off-diagonal correlations indeed survive unless an additional spatial-type factor is included in the model. This makes evident the rather complex nature of the decoherence phenomenon and hence the importance to have a familiarity with how it manifests in different representations, particularly with the purpose to determine and design reliable control mechanisms.
翻訳日:2023-03-31 06:31:38 公開日:2021-06-11
# 多重フラクタル」ローズツヴァイグ・ポーターモデルにおける動的位相

Dynamical phases in a "multifractal" Rosenzweig-Porter model ( http://arxiv.org/abs/2106.01965v2 )

ライセンス: Link先を確認
I. M. Khaymovich, V. E. Kravtsov(参考訳) そこで我々は、Rosenzweig-Porter (RP) のランダム行列アンサンブルにおける静的および動的位相を、大偏差アンザッツの形での外対角行列要素のテール分布とみなす。 このようなランダム行列モデルにおける生存確率の一般的な理論を示し、その生存確率は、単純な指数として時間とともに崩壊し、ストレッチ指数として、また、パワーローとして、あるいは遅くなることを示す。 そこで, 指数, 伸張指数, 凍結力学相を同定した。 例えば、ランダム正則グラフ(RRG)上のアンダーソンモデルの「多重フラクタル」RPモデルへの写像を検討し、熱力学極限における箱分散障害に依存する伸縮指数$\kappa$の正確な値を求める。 別の例として、対数正規なRP(LN-RP)ランダム行列のアンサンブルを考え、その位相図と指数$\kappa$を解析的に求める。 さらに,本理論は,有限系サイズでの見かけ相転移線のシフトを計算し,RRG と LN-RP とホッピングの分布関数の同じ対称性を持つ RP の場合,局所化遷移の点である三臨界点付近に有限サイズの多フラクタル相が現れることを示す。

We consider the static and dynamic phases in a Rosenzweig-Porter (RP) random matrix ensemble with the tailed distribution of off-diagonal matrix elements of the form of the large-deviation ansatz. We present a general theory of survival probability in such a random-matrix model and show that the {\it averaged} survival probability may decay with time as the simple exponent, as the stretch-exponent and as a power-law or slower. Correspondingly, we identify the exponential, the stretch-exponential and the frozen-dynamics phases. As an example, we consider the mapping of the Anderson model on Random Regular Graph (RRG) onto the "multifractal" RP model and find exact values of the stretch-exponent $\kappa$ depending on box-distributed disorder in the thermodynamic limit. As another example we consider the logarithmically-normal RP (LN-RP) random matrix ensemble and find analytically its phase diagram and the exponent $\kappa$. In addition, our theory allows to compute the shift of apparent phase transition lines at a finite system size and show that in the case of RP associated with RRG and LN-RP with the same symmetry of distribution function of hopping, a finite-size multifractal "phase" emerges near the tricritical point which is also the point of localization transition.
翻訳日:2023-03-27 23:22:56 公開日:2021-06-11
# 強いスピン交換結合を持つアルカリ蒸気のゼロ場スピンノイズスペクトル

Zero-field spin noise spectrum of an alkali vapor with strong spin-exchange coupling ( http://arxiv.org/abs/2106.05540v2 )

ライセンス: Link先を確認
Ya Wen, Xiangyu Li, Guiying Zhang, Kaifeng Zhao(参考訳) 強いスピン交換結合を有する熱状態ホット87Rb蒸気に対するゼロフィールド光スピンノイズスペクトル(OSN)について検討した。 本研究の主な成果は,(1)OSNスペクトルは正および負の超微細スピン相関(HSC)を表す2つの成分から構成される。 2) OSNスペクトルが1種類のHSCで完全に偏光される2つの極周波数が存在する。 (3)OSNの正及び負のHSC成分のパワー比が4:5である。 (4)OSNの総力はSE結合の強さとは無関係である。 (5) 密度行列方程式の固有解法を用いてOSNを導出する簡単な方法を提案する。

We study the zero-field optical spin noise spectra (OSN) for a thermal state hot 87Rb vapor with strong spin exchange coupling. Our main findings are: (1) The OSN spectrum consists of two components representing a positive and a negative hyperfine spin correlation (HSC), the relative power of which varies dramatically with the detuning frequency of the probe. (2) There exist two polar frequencies at which the OSN spectrum is completely polarized with one type of HSC. (3) At the limit of far detuning, the power ratio of the positive and negative HSC component of the OSN is 4:5. (4) The total power of the OSN is independent of the strength of SE coupling. (5) We give a simple way of deriving the OSN using the eigensolution of the density matrix equation.
翻訳日:2023-03-27 02:08:34 公開日:2021-06-11
# 量子ドット配列における多成分絡み合いの操作

Manipulation of Multipartite Entanglement in an Array of Quantum Dots ( http://arxiv.org/abs/2106.06131v1 )

ライセンス: Link先を確認
Yen-Ju Chen and Chih-Sung Chuu(参考訳) 多成分の絡み合いは、量子技術の実装と量子力学の基本的なテストに不可欠である。 本稿では、入射光子と導波路上の量子ドットの結合を制御することにより、w状態とw様状態が量子ドット配列内でどのように生成されるかを検討する。 また, 絡み合いの突然死を観察するために, 結合をいかに制御するかについても論じる。 我々の研究は量子情報処理における潜在的な応用を見つけることができる。

Multipartite entanglement is indispensable in the implementation of quantum technologies and the fundamental test of quantum mechanics. Here we study how the W state and W-like state may be generated in a quantum-dot array by controlling the coupling between an incident photon and the quantum dots on a waveguide. We also discuss how the coupling may be controlled to observe the sudden death of entanglement. Our work can find potential applications in quantum information processing.
翻訳日:2023-03-26 23:55:51 公開日:2021-06-11
# ソーシャルネットワークにおけるリーダーの影響の最大化

Maximizing Influence of Leaders in Social Networks ( http://arxiv.org/abs/2106.06128v1 )

ライセンス: Link先を確認
Xiaotian Zhou and Zhongzhi Zhang(参考訳) エッジの追加操作は、様々な目的のソーシャルネットワークにおける意見力学の研究に頻繁に用いられている。 本稿では,2つの対立する意見が 0 または 1 で競合するリーダー数 $s \ll n$ の存在下で,$n$ノードと$m$エッジを持つソーシャルネットワークにおいて,DeGroot の意見力学モデルに対するエッジ加算問題を考察する。 具体的には、各エッジが1値のリードと追従ノードにインシデントされる候補エッジセットに$k$新しいエッジを作成することで、均衡全体の意見の最大化という問題を提起し、調査する。 目的関数は単調かつ部分モジュラーであることが示される。 次に、近似係数$(1-\frac{1}{e})$の単純なグリージーアルゴリズムを提案し、この問題をおよそ$O(n^3)$時間で解く。 さらに、$(1--\frac{1}{e}-\epsilon)$の近似比と$\tilde{o}(mk\epsilon^{-2})$の任意の$\epsilon>0$の時間複雑性を持つ高速アルゴリズムを提供し、ここで$\tilde{o}(\cdot)$表記は${\rm poly} (\log n)$因子を抑制する。 大規模な実験により、我々の2番目の近似アルゴリズムは効率的かつ効果的であることが証明された。

The operation of adding edges has been frequently used to the study of opinion dynamics in social networks for various purposes. In this paper, we consider the edge addition problem for the DeGroot model of opinion dynamics in a social network with $n$ nodes and $m$ edges, in the presence of a small number $s \ll n$ of competing leaders with binary opposing opinions 0 or 1. Concretely, we pose and investigate the problem of maximizing the equilibrium overall opinion by creating $k$ new edges in a candidate edge set, where each edge is incident to a 1-valued leader and a follower node. We show that the objective function is monotone and submodular. We then propose a simple greedy algorithm with an approximation factor $(1-\frac{1}{e})$ that approximately solves the problem in $O(n^3)$ time. Moreover, we provide a fast algorithm with a $(1-\frac{1}{e}-\epsilon)$ approximation ratio and $\tilde{O}(mk\epsilon^{-2})$ time complexity for any $\epsilon>0$, where $\tilde{O}(\cdot)$ notation suppresses the ${\rm poly} (\log n)$ factors. Extensive experiments demonstrate that our second approximate algorithm is efficient and effective, which scales to large networks with more than a million nodes.
翻訳日:2023-03-26 23:55:43 公開日:2021-06-11
# ベイズ最適化を用いた量子ネットワークのサンプル効率適応校正

Sample-efficient adaptive calibration of quantum networks using Bayesian optimization ( http://arxiv.org/abs/2106.06113v1 )

ライセンス: Link先を確認
Cristian L. Cortes, Pascal Lefebvre, Nikolai Lauk, Michael J. Davis, Neil Sinclair, Stephen K. Gray, and Daniel Oblak(参考訳) 区別不能光子は高度な量子通信ネットワークにおいて必須である。 環境によって引き起こされる光子変換と通信チャネルによって与えられる損失のため、特に雑音の多いシナリオでは区別が困難である。 これらの変換を緩和するための戦略は、しばしばハードウェアやソフトウェアのオーバーヘッドを制限し(ノイズの追加など)、実現不可能(衛星の場合など)、デプロイされたネットワークに時間を要する。 本稿では,量子ネットワークにおける個々の光子の識別性を迅速かつ適応的に調整するための資源効率の高いベイズ最適化手法を提案する。 このアプローチを実験的に検証するために、量子ネットワークにおける中心的なタスクである2つの光子間のホン・ウー・マンデル干渉の最適化を実証する。 我々は,分散量子コンピューティング,通信,センシングにおいて必要なタスクである識別不能量子の高速で信頼性の高いキャリブレーションを可能にすることを期待する。

Indistinguishable photons are imperative for advanced quantum communication networks. Indistinguishability is difficult to obtain because of environment-induced photon transformations and loss imparted by communication channels, especially in noisy scenarios. Strategies to mitigate these transformations often require hardware or software overhead that is restrictive (e.g. adding noise), infeasible (e.g. on a satellite), or time-consuming for deployed networks. Here we propose and develop resource-efficient Bayesian optimization techniques to rapidly and adaptively calibrate the indistinguishability of individual photons for quantum networks using only information derived from their measurement. To experimentally validate our approach, we demonstrate the optimization of Hong-Ou-Mandel interference between two photons -- a central task in quantum networking -- finding rapid, efficient, and reliable convergence towards maximal photon indistinguishability in the presence of high loss and shot noise. We expect our resource-optimized and experimentally friendly methodology will allow fast and reliable calibration of indistinguishable quanta, a necessary task in distributed quantum computing, communications, and sensing, as well as for fundamental investigations.
翻訳日:2023-03-26 23:55:16 公開日:2021-06-11
# ヌル量子回路の識別不能化とその応用

Indistinguishability Obfuscation of Null Quantum Circuits and Applications ( http://arxiv.org/abs/2106.06094v1 )

ライセンス: Link先を確認
James Bartusek and Giulio Malavolta(参考訳) ヌル量子回路 (quantum null-io) に対する識別不能な難読化の概念について検討する。 本稿では, 誤りを伴う学習の量子的困難度(LWE)を仮定する。 -古典回路の量子化後の識別不能化。 -量子計算(CVQC)の古典的検証における「二重モード」の概念。 二重モードCVQCの概念は、量子ランダムオラクルモデル(QROM)においてLWEを安全に仮定するスキームを提案することによって存在することを示す。 次に、量子null-iOが、我々の研究以前には、ヒューリスティックな仮定さえも存在しないような、新しい暗号プリミティブのシリーズを実現する方法を示す。 中でも,QMAに対する初となる目撃者暗号方式,QMAに対する初となる非対話的ゼロ知識(NIZK)方式,およびBQPに対する最初の属性ベース暗号(ABE)方式が得られた。

We study the notion of indistinguishability obfuscation for null quantum circuits (quantum null-iO). We present a construction assuming: - The quantum hardness of learning with errors (LWE). - Post-quantum indistinguishability obfuscation for classical circuits. - A notion of ''dual-mode'' classical verification of quantum computation (CVQC). We give evidence that our notion of dual-mode CVQC exists by proposing a scheme that is secure assuming LWE in the quantum random oracle model (QROM). Then we show how quantum null-iO enables a series of new cryptographic primitives that, prior to our work, were unknown to exist even making heuristic assumptions. Among others, we obtain the first witness encryption scheme for QMA, the first publicly verifiable non-interactive zero-knowledge (NIZK) scheme for QMA, and the first attribute-based encryption (ABE) scheme for BQP.
翻訳日:2023-03-26 23:54:56 公開日:2021-06-11
# bose-fermi混合系における自己誘起絡み合い共鳴

Self-induced entanglement resonance in a disordered Bose-Fermi mixture ( http://arxiv.org/abs/2106.06277v1 )

ライセンス: Link先を確認
Juan Jos\'e Mendoza-Arenas and Berislav Bu\v{c}a(参考訳) 量子多体系では、測定中の絡み合い成長の異なる構造が示されており、低い測定速度では絡み合い位相、高い速度では絡み合い位相(量子ゼノ効果)がある。 そこで本研究では,フェミオンの自己誘起測定に有効なボゾンと不規則なボース・フェルミ混合物の絡み合い成長について検討した。 障害と非アベリア対称性の相互作用により、ボソン-フェルミオン相互作用強度が変化するときに、モデルは絡み合い成長共鳴を特徴とする。 磁場を加えることで、実験的に測定可能な長時間局所振動につながる動的対称性を得る。 エンタングルメント成長共鳴では,最もクリーンな振動の発生を示す。 さらに, この共鳴は, ノイズ強化輸送と標準確率共鳴とは区別されることを示した。 本研究は,多種系統における自己誘起相関位相の実験的実現の道を開くものである。

Different regimes of entanglement growth under measurement have been demonstrated for quantum many-body systems, with an entangling phase for low measurement rates and a disentangling phase for high rates (quantum Zeno effect). Here we study entanglement growth on a disordered Bose-Fermi mixture with the bosons playing the role of the effective self-induced measurement for the fermions. Due to the interplay between the disorder and a non-Abelian symmetry, the model features an entanglement growth resonance when the boson-fermion interaction strength is varied. With the addition of a magnetic field, the model acquires a dynamical symmetry leading to experimentally measurable long-time local oscillations. At the entanglement growth resonance, we demonstrate the emergence of the cleanest oscillations. Furthermore, we show that this resonance is distinct from both noise enhanced transport and a standard stochastic resonance. Our work paves the way for experimental realizations of self-induced correlated phases in multi-species systems.
翻訳日:2023-03-26 23:52:28 公開日:2021-06-11
# 散逸による三成分ハイブリッド原子-光子絡み合いの決定論的生成

Deterministic Generation of Genuine Tri-Partite Hybrid Atom-Photon Entanglement through Dissipation ( http://arxiv.org/abs/2106.06172v1 )

ライセンス: Link先を確認
Pablo Barberis-Blostein and Alberto M. Marino(参考訳) 真のマルチパーティの絡み合いを決定論的に生成する能力は、量子情報科学の発展に不可欠である。 電磁誘導透過条件下での光の絡み合った双対ビームと原子アンサンブルとの相互作用は、2つの入力場と原子アンサンブルの間の真のハイブリッド三粒子アンサンブルの発生につながることを示す。 このような構成では、システムはハイブリッド絡み合った状態によって与えられる定常状態への散逸によって駆動される。 真のハイブリッド絡み合いの存在を示すために,2つの光場の性質と原子アンサンブルの集合的性質に基づいて三粒子絡み合い基準に違反していることを示すために,原子演算子を治療するための新しいアプローチを導入する。 さらに、入力された光場は、それぞれが単一ビームの2次スクイーズを示さないが、原子媒体を介して伝播する磁場は、個々の2次クエーズを圧縮し、場合によってはスクイーズの存在と欠如の間を振動させることが示される。 最後に,原子媒体を離脱するフィールドの連成測定により三粒子絡みを特徴付ける手法を提案し,そのアプローチを実験的に利用できるようにした。

The ability to deterministically generate genuine multi-partite entanglement is fundamental for the advancement of quantum information science. We show that the interaction between entangled twin beams of light and an atomic ensemble under conditions for electromagnetically induced transparency leads to the generation of genuine hybrid tri-partite entanglement between the two input fields and the atomic ensemble. In such a configuration, the system is driven through dissipation to a steady state given by the hybrid entangled state. To show the presence of the genuine hybrid entanglement, we introduce a new approach to treat the atomic operators that makes it possible to show a violation of a tri-partite entanglement criterion based on the properties of the two optical fields and collective properties of the atomic ensemble. Additionally, we show that while each of the input optical fields does not exhibit single beam quadrature squeezing, as the fields propagate through the atomic medium their individual quadratures can become squeezed and in some cases oscillate between the presence and absence of squeezing. Finally, we propose a technique to characterize the tri-partite entanglement through joint measurements of the fields leaving the atomic medium, making such an approach experimentally accessible.
翻訳日:2023-03-26 23:50:07 公開日:2021-06-11
# 混合状態に対する自己誘導量子状態学習

Self-Guided Quantum State Learning for Mixed States ( http://arxiv.org/abs/2106.06166v1 )

ライセンス: Link先を確認
Ahmad Farooq and Muhammad Asad Ullah and Syahri Ramadhani and Junaid ur Rehman and Hyundong Shin(参考訳) 一般量子状態のトモグラフィーのための適応学習アルゴリズムを提供する。 提案手法は同時摂動確率近似法に基づいており,混合キューディット状態に適用可能である。 提案アルゴリズムの高効率な特徴は, 状態の次元$d$の事後処理, 測定やチャネルノイズに対する頑健さ, および同時代の適応状態学習アルゴリズムと比較して不整合性性能の向上である。 測定ノイズに対する高いレジリエンスは、ノイズの多い中間スケール量子応用に適している。

We provide an adaptive learning algorithm for tomography of general quantum states. Our proposal is based on the simultaneous perturbation stochastic approximation algorithm and is applicable on mixed qudit states. The salient features of our algorithm are efficient ($O \left( d^3 \right)$) post-processing in the dimension $d$ of the state, robustness against measurement and channel noise, and improved infidelity performance as compared to the contemporary adaptive state learning algorithms. A higher resilience against measurement noise makes our algorithm suitable for noisy intermediate-scale quantum applications.
翻訳日:2023-03-26 23:49:46 公開日:2021-06-11
# 混合種アトムアレイの欠陥のない任意測地法アセンブリ

Defect-free arbitrary-geometry assembly of mixed-species atom arrays ( http://arxiv.org/abs/2106.06144v1 )

ライセンス: Link先を確認
Cheng Sheng, Jiayi Hou, Xiaodong He, Kunpeng Wang, Ruijun Guo, Jun Zhuang, Bahtiyar Mamat, Peng Xu, Min Liu, Jin Wang, and Mingsheng Zhan(参考訳) 任意のジオメトリを持つ単一原子配列は、複数の成分を持つ可変量子系が実験的な制御のために余分な自由度を与えるため、様々なアプリケーションにとって魅力的で有望なプラットフォームである。 ここでは,0.88 (0.89) for $^{85}$Rb ($^{87}$Rb) 原子の充填率を持つ2次元6\times4$二重種原子組立体の最初の実演を報告する。 この混合種の原子合成は、最初にランダムに分散された原子を、ユーザ定義のジオメトリーと2種の原子数比の両方でボトムアップ原子集合のために提案したソートアルゴリズム(ヘテロ核アルゴリズム)を用いて再構成することで達成される。 我々の完全チューニング可能なスケーラブルなハイブリッド原子系は、高忠実な量子論理、多体量子シミュレーション、欠陥のない単一分子アレイ形成の出発点となる。

Optically trapped mixed-species single atom arrays with arbitrary geometries are an attractive and promising platform for various applications, because tunable quantum systems with multiple components provide extra degrees of freedom for experimental control. Here, we report the first demonstration of two-dimensional $6\times4$ dual-species atom assembly with a filling fraction of 0.88 (0.89) for $^{85}$Rb ($^{87}$Rb) atoms. This mixed-species atomic synthetic is achieved via rearranging initially randomly distributed atoms using a sorting algorithm (heuristic heteronuclear algorithm) which is proposed for bottom-up atom assembly with both user-defined geometries and two-species atom number ratios. Our fully tunable hybrid-atom system of scalable advantages is a good starting point for high-fidelity quantum logic, many-body quantum simulation and forming defect-free single molecule arrays.
翻訳日:2023-03-26 23:49:35 公開日:2021-06-11
# 3-XORSAT問題の量子アニーリングへの双対アプローチ

Duality approach to quantum annealing of the 3-XORSAT problem ( http://arxiv.org/abs/2106.06344v1 )

ライセンス: Link先を確認
Raimel Medina, Maksym Serbyn(参考訳) 複雑なエネルギー景観を持つ古典的なモデルは、量子シミュレータの短期的な応用のための視点の道を表す。 これまで多くの理論研究が、一意な基底状態を持つモデルに対する量子アルゴリズムの性能を研究してきた。 しかし、古典的な問題がいわゆるクラスタリングフェーズにある場合、基底状態多様体は高度に退化する。 例えば、単純なハイパーグラフ上で定義される3-xorsatモデルを考える。 古典的基底状態多様体の縮退は、量子的横磁場の存在下でも無傷である大量のZ_2$対称性の出現へと変換される。 我々は、量子問題を保存されたZ_2$電荷の特定のセクターに制限する一般的な双対性アプローチを確立し、量子断熱アルゴリズムの結果がハイパーグラフ幾何学にどのように依存するかを研究するためにそれを利用する。 本研究では,3-XORSAT問題の古典的解決可能な例に対応する木ハイパーグラフに一定のギャップが生じるのに対して,閉ハイパーグラフは問題サイズにおけるパワー則として消滅するギャップを持つ2次相転移に遭遇することを示す。 この研究で開発された双対性は、古典的に縮退したエネルギー多様体を持つ量子モデルの研究のための実用的なツールを提供し、ガラスとゲージ理論の間の潜在的な接続を明らかにする。

Classical models with complex energy landscapes represent a perspective avenue for the near-term application of quantum simulators. Until now, many theoretical works studied the performance of quantum algorithms for models with a unique ground state. However, when the classical problem is in a so-called clustering phase, the ground state manifold is highly degenerate. As an example, we consider a 3-XORSAT model defined on simple hypergraphs. The degeneracy of classical ground state manifold translates into the emergence of an extensive number of $Z_2$ symmetries, which remain intact even in the presence of a quantum transverse magnetic field. We establish a general duality approach that restricts the quantum problem to a given sector of conserved $Z_2$ charges and use it to study how the outcome of the quantum adiabatic algorithm depends on the hypergraph geometry. We show that the tree hypergraph which corresponds to a classically solvable instance of the 3-XORSAT problem features a constant gap, whereas the closed hypergraph encounters a second-order phase transition with a gap vanishing as a power-law in the problem size. The duality developed in this work provides a practical tool for studies of quantum models with classically degenerate energy manifold and reveals potential connections between glasses and gauge theories.
翻訳日:2023-03-26 23:42:58 公開日:2021-06-11
# 安全な三部分量子状態共有のための量子ステアリング

Quantum steering is the resource for secure tripartite Quantum State Sharing ( http://arxiv.org/abs/2106.06337v1 )

ライセンス: Link先を確認
Cailean Wilkinson, Matthew Thornton and Natalia Korolkova(参考訳) 量子状態共有 (quantum state sharing, qss) は、(秘密)量子状態が安全に分割され、複数の潜在的に不正なプレイヤー間で共有され、再構成されるプロトコルである。 重要な点として、プレイヤーはそれぞれ不当であると仮定されるため、QSSはプレイヤーの協力的な許可されたサブセットのみが元の秘密状態にアクセスできなければならない。 我々は3人の不信任者を含むqssプロトコルを分析し、量子ステアリングがプロトコルをセキュアに進めるために必要なリソースであることを実証する。 資源の最適利用と状態の共有を可能にする単一モードのガウス秘密を共有するために必要なステアリングのレベルを分析する。

Quantum State Sharing (QSS) is a protocol by which a (secret) quantum state may be securely split, shared between multiple potentially dishonest players, and reconstructed. Crucially the players are each assumed to be dishonest, and so QSS requires that only a collaborating authorised subset of players can access the original secret state; any dishonest unauthorised conspiracy cannot reconstruct it. We analyse a QSS protocol involving three untrusted players and demonstrate that quantum steering is the required resource which enables the protocol to proceed securely. We analyse the level of steering required to share any single-mode Gaussian secret which enables the states to be shared with the optimal use of resources.
翻訳日:2023-03-26 23:42:37 公開日:2021-06-11
# 金属基板上のペプチド膜のカシミール圧力:グラフェン被覆によるサインの変化

Casimir pressure in peptide films on metallic substrates: Change of sign via graphene coating ( http://arxiv.org/abs/2106.06323v1 )

ライセンス: Link先を確認
G. L. Klimchitskaya, V. M. Mostepanenko and V. N. Velichko(参考訳) 金属基板上に堆積したペプチド膜のカシミール圧力は常に反発的であり, 膜安定性が低下することがわかった。 ペプチドフィルムの上にグラフェンシートを添加すると、カシミール圧のサインを魅力的なものにすることで変化させることができる。 この目的のために、リフシッツ理論の形式性は、膜と基板材料が周波数依存性誘電誘電率で記述された場合まで拡張され、一方、電磁界に対するグラフェンの応答はディラック模型の枠組みに見られる分極テンソル(2+1)次元の時空によって制御される。 プリシンとガッピングとドープの両方のグラフェンシートは、非ゼロエネルギーギャップと化学ポテンシャルを有すると考えられている。 以上の結果から, グラフェンシートの存在は, 金属基板上に堆積したペプチド膜のカシミール圧力を, 極小の膜厚から魅力的なものにすることがわかった。 この最小厚さの値は、化学ポテンシャルの増加とともに小さくなり、エネルギーギャップの増大とペプチド膜中の水の分画とともに大きくなる。 これらの結果の物理的説明を行い,有機エレクトロニクスへの応用の可能性について論じる。

We find that the Casimir pressure in peptide films deposited on metallic substrates is always repulsive which makes these films less stable. It is shown that by adding a graphene sheet on top of peptide film one can change the sign of the Casimir pressure by making it attractive. For this purpose, the formalism of the Lifshitz theory is extended to the case when the film and substrate materials are described by the frequency-dependent dielectric permittivities, whereas the response of graphene to the electromagnetic field is governed by the polarization tensor in (2+1)-dimensional space-time found in the framework of the Dirac model. Both pristine and gapped and doped graphene sheets are considered possessing some nonzero energy gap and chemical potential. According to our results, in all cases the presence of graphene sheet makes the Casimir pressure in peptide film deposited on a metallic substrate attractive starting from some minimum film thickness. The value of this minimum thickness becomes smaller with increasing chemical potential and larger with increasing energy gap and the fraction of water in peptide film. The physical explanation for these results is provided, and their possible applications in organic electronics are discussed.
翻訳日:2023-03-26 23:42:23 公開日:2021-06-11
# 周期駆動型量子プローブによる高次パラメータ推定

Enhanced Parameter Estimation with Periodically Driven Quantum Probe ( http://arxiv.org/abs/2106.06302v1 )

ライセンス: Link先を確認
Peter A. Ivanov(参考訳) 2つのボソニックモードと相互作用する1つのスピンからなる周期変調量子Jahn-Tellerシステムに基づいて、周波数と弱い力を測定する量子メロロジープロトコルを提案する。 周波数駆動の1次では、時間非依存な有効ハミルトニアンは2つのボソニックモード間のスピン依存相互作用を記述する。 高周波駆動と低ボソニック周波数の限界において、量子ヤーン・テラー系は高精度量子推定に使用できる臨界挙動を示す。 この方式の大きな利点はスピンデコヒーレンスに対するシステムのロバスト性であり、スピンデコヒーレンスによって制限されない測定時間でパラメータ推定を行うことができる。

We propose a quantum metrology protocol for measuring frequencies and weak forces based on a periodic modulating quantum Jahn-Teller system composed of a single spin interacting with two bosonic modes. We show that in the first order of the frequency drive the time-independent effective Hamiltonian describes spin-dependent interaction between the two bosonic modes. In the limit of high-frequency drive and low bosonic frequency the quantum Jahn-Teller system exhibits critical behaviour which can be used for high-precision quantum estimation. A major advantage of our scheme is the robustness of the system against spin decoherence which allows to perform parameter estimations with measurement time not limited by spin dephasing.
翻訳日:2023-03-26 23:41:10 公開日:2021-06-11
# ナノ導波路結合陰極発光を用いた回折限界近傍状態の局所密度検出

Probing local density of states near the diffraction limit using nanowaveguide coupled cathode luminescence ( http://arxiv.org/abs/2106.06301v1 )

ライセンス: Link先を確認
Yoshinori Uemura, Masaru Irita, Yoshikazu Homma, and Mark Sadgrove(参考訳) 光局所状態密度(PLDOS)は、ナノフォトニックデバイスにおける光物質相互作用強度を決定する。 標準的な誘電体デバイスでは、pldosは回折によって基本的に制限されるが、デバイスのサイズパラメータ$s$への正確な依存は自明ではない。 本稿では,導波路の大きさパラメータに対するPLDOS依存性を,新しいナノ導波路結合カソード発光(CL)を用いて測定する。 導波路断面内の位置により, PLDOSの有効回折限界が変化し, PLDOSのピーク形状が変化することが観察された。 以上の結果から, ナノフォトニックデバイスへのカップリングの最適化や, エバネッセント結合clに基づく分光の新しい方法の確立が重要である。

The photonic local density of states (PLDOS) determines the light matter interaction strength in nanophotonic devices. For standard dielectric devices, the PLDOS is fundamentally limited by diffraction, but its precise dependence on the size parameter $s$ of a device can be non-trivial. Here, we measure the PLDOS dependence on the size parameter in a waveguide using a new technique - nanowaveguide coupled cathode luminescence (CL). We observe that depending on the position within the waveguide cross-section, the effective diffraction limit of the PLDOS varies, and the PLDOS peak shape changes. Our results are of fundamental importance for optimizing coupling to nanophotonic devices, and also open new avenues for spectroscopy based on evanescently coupled CL.
翻訳日:2023-03-26 23:40:58 公開日:2021-06-11
# 量子状態推定に束縛された最大対数微分をホレヴォ境界の双対とする

Maximum logarithmic derivative bound on quantum state estimation as a dual of the Holevo bound ( http://arxiv.org/abs/2106.06294v1 )

ライセンス: Link先を確認
Koichi Yamagata(参考訳) 量子推定理論において、ホレヴォ境界は非バイアス推定器の共分散の重み付きトレースの下界として知られている。 ホレヴォ境界は最小化問題の解によって定義され、一般に明示的な解は知られていない。 ヒルベルト空間の次元が 2 でパラメータの数が 2 であるとき、ホレヴォ境界の明示的な形式が鈴木によって与えられた。 本稿では, 対称対数微分(SLD)と, $\beta\in[0,1]$でパラメータ化された右対数微分(RLD)との間にある対数微分に焦点をあて, 非バイアス推定器の共分散の重み付きトレースの下限を求める。 最大対数微分は、$\beta$ に対する有界の最大値として導入する。 全ての単調計量は下界を誘導し、最大対数微分境界はそれらの最大境界であることを示した。 最大対数微分境界は、$d+1$ dimensional $\mathcal{D}$ invariant extension of the SLD tangent space であるときに明らかな解を持つことを示す。 さらに、$d=2$ の場合、最大対数微分境界を定義するための最大化問題は、最小化問題のラグランジュ双対性であり、ホールボ境界を定義することと同一であることを示す。 この明示解は、スズキによって与えられる2次元ヒルベルト空間の解の一般化である。 また、2次元ヒルベルト空間に限らず、我々の理論を適用できる量子状態の族を例に挙げる。

In quantum estimation theory, the Holevo bound is known as a lower bound of weighed traces of covariances of unbiased estimators. The Holevo bound is defined by a solution of a minimization problem, and in general, explicit solution is not known. When the dimension of Hilbert space is two and the number of parameters is two, a explicit form of the Holevo bound was given by Suzuki. In this paper, we focus on a logarithmic derivative lies between the symmetric logarithmic derivative (SLD) and the right logarithmic derivative (RLD) parameterized by $\beta\in[0,1]$ to obtain lower bounds of weighted trace of covariance of unbiased estimator. We introduce the maximum logarithmic derivative bound as the maximum of bounds with respect to $\beta$. We show that all monotone metrics induce lower bounds, and the maximum logarithmic derivative bound is the largest bound among them. We show that the maximum logarithmic derivative bound has explicit solution when the $d$ dimensional model has $d+1$ dimensional $\mathcal{D}$ invariant extension of the SLD tangent space. Furthermore, when $d=2$, we show that the maximization problem to define the maximum logarithmic derivative bound is the Lagrangian duality of the minimization problem to define Holevo bound, and is the same as the Holevo bound. This explicit solution is a generalization of the solution for a two dimensional Hilbert space given by Suzuki. We give also examples of families of quantum states to which our theory can be applied not only for two dimensional Hilbert spaces.
翻訳日:2023-03-26 23:40:18 公開日:2021-06-11
# ブロックチェーンネットワークにおける量子抵抗

Quantum-resistance in blockchain networks ( http://arxiv.org/abs/2106.06640v1 )

ライセンス: Link先を確認
Marcos Allende, Diego L\'opez Le\'on, Sergio Cer\'on, Antonio Leal, Adri\'an Pareja, Marcelo Da Silva, Alejandro Pardo, Duncan Jones, David Worrall, Ben Merriman, Jonathan Gilmore, Nick Kitchener, Salvador E. Venegas-Andraca(参考訳) 本稿では,米国間開発銀行, idbラボ, lacchain, cambridge quantum computing (cqc), tecnologico de monterreyによる,ブロックチェーンネットワークにおける量子脅威の特定と排除を目的とした研究について述べる。 量子コンピューティングの出現は、非量子耐性暗号アルゴリズムを利用するため、インターネットプロトコルやブロックチェーンネットワークを脅かす。 量子コンピュータがshorのアルゴリズムを大規模に実行するのに十分な堅牢性を持つようになると、最も使用される非対称アルゴリズムは、rsa、(ec)dsa、(ec)dhといったデジタル署名やメッセージ暗号化に使われる。 量子コンピュータは、それらを短時間で破壊することができる。 同様に、グロバーのアルゴリズムは、作業の証明のようなコンセンサスプロトコルにおいて、マイニングブロックに対して二次的な優位性を与える。 現在、ブロックチェーン台帳やブロックチェーンネットワークに価値を格納する何千ものブロックチェーンベースのアプリケーションに依存する暗号通貨には、数十億ドルがデノミネーションされている。 暗号通貨とブロックチェーンベースのアプリケーションは、公開および不変台帳におけるデータと資産の完全性を維持するために、量子抵抗を保証するソリューションを必要とする。 インターネット上のブロックチェーンノード間の情報交換をセキュアにするためのレイヤ2ソリューションを設計,開発し,量子鍵を用いたトランザクションに第2のシグネチャを導入した。 当社の汎用ソリューションは,任意のブロックチェーンネットワークに適用可能です。 実装では、cqcからironbridgeプラットフォーム経由で量子エントロピーを提供し、ブロックチェーンネットワークとしてlacchain besuを使用しました。

This paper describes the work carried out by the Inter-American Development Bank, the IDB Lab, LACChain, Cambridge Quantum Computing (CQC), and Tecnologico de Monterrey to identify and eliminate quantum threats in blockchain networks. The advent of quantum computing threatens internet protocols and blockchain networks because they utilize non-quantum resistant cryptographic algorithms. When quantum computers become robust enough to run Shor's algorithm on a large scale, the most used asymmetric algorithms, utilized for digital signatures and message encryption, such as RSA, (EC)DSA, and (EC)DH, will be no longer secure. Quantum computers will be able to break them within a short period of time. Similarly, Grover's algorithm concedes a quadratic advantage for mining blocks in certain consensus protocols such as proof of work. Today, there are hundreds of billions of dollars denominated in cryptocurrencies that rely on blockchain ledgers as well as the thousands of blockchain-based applications storing value in blockchain networks. Cryptocurrencies and blockchain-based applications require solutions that guarantee quantum resistance in order to preserve the integrity of data and assets in their public and immutable ledgers. We have designed and developed a layer-two solution to secure the exchange of information between blockchain nodes over the internet and introduced a second signature in transactions using post-quantum keys. Our versatile solution can be applied to any blockchain network. In our implementation, quantum entropy was provided via the IronBridge Platform from CQC and we used LACChain Besu as the blockchain network.
翻訳日:2023-03-26 23:33:19 公開日:2021-06-11
# 光誘起電子移動におけるキラリティー誘起スピン選択性の起源

The origin of chirality induced spin selectivity in photo-induced electron transfer ( http://arxiv.org/abs/2106.06554v1 )

ライセンス: Link先を確認
Thomas P. Fay, David T. Limmer(参考訳) 本稿では,光誘起電子移動を受けるキラル分子系においてスピン偏光を動的に生成する機構を提案する。 提案機構は、電荷輸送が不整合ホッピングによって支配されるシステムにおいて、スピン軌道と中間電荷伝達状態を介して電子交換結合が介在するスピン偏極がどのように現れるかを説明する。 スピン偏極の単純な表現を導出し、最近の実験と一致した非単調温度依存性を予測する。 近似量子マスター方程式と数値的に正確な運動の階層方程式を用いてこの理論を検証する。 提案されたキラル性誘起スピン選択性のメカニズムは多くのキラル系に適用すべきであり、この考え方は生物学に関連する温度におけるスピン輸送の研究に影響を及ぼし、変動する環境におけるスピンの分子制御のための簡単な原理を提供する。

Here we propose a mechanism by which spin polarization can be generated dynamically in chiral molecular systems undergoing photo-induced electron transfer. The proposed mechanism explains how spin polarization emerges in systems where charge transport is dominated by incoherent hopping, mediated by spin orbit and electronic exchange couplings through an intermediate charge transfer state. We derive a simple expression for the spin polarization that predicts a non-monotonic temperature dependence consistent with recent experiments. We validate this theory using approximate quantum master equations and the numerically exact hierarchical equations of motion. The proposed mechanism of chirality induced spin selectivity should apply to many chiral systems, and the ideas presented here have implications for the study of spin transport at temperatures relevant to biology, and provide simple principles for the molecular control of spins in fluctuating environments.
翻訳日:2023-03-26 23:32:55 公開日:2021-06-11
# ベル非局所性を超えた量子通信複雑性

Quantum communication complexity beyond Bell nonlocality ( http://arxiv.org/abs/2106.06552v1 )

ライセンス: Link先を確認
Joseph Ho, George Moreno, Samura\'i Brito, Francesco Graffitti, Christopher L. Morrison, Ranieri Nery, Alexander Pickston, Massimiliano Proietti, Rafael Rabelo, Alessandro Fedrizzi, and Rafael Chaves(参考訳) 効率的な分散コンピューティングは、並列計算や回路最適化といったリソース要求タスクを解決するためのスケーラブルな戦略を提供する。 重要なことは、割当プロセスによって引き起こされる通信オーバーヘッドを最小化するべきです -- 通信複雑性問題(CCP)の背後にある重要な動機です。 量子リソースはこのタスクに適しており、古典的手法よりも優れた明確な戦略を提供する。 さらに、量子ccpsと非局所性の関係は、基本的な量子力学に対する情報理論的な洞察を与える。 ここでは、分散タスクを管理する根底にある因果構造をいわゆる非局所隠れ変数モデルに組み込むことにより、量子CCPを、ベルの定理を越えて一般化された非局所性フレームワークと接続する。 我々は、新しい種類の通信複雑性タスクがベル的不等式に関連付けられることを証明し、その違反は量子ゲインに必要かつ十分であることを示した。 我々は,多成分のccpを実装し,多成分のgreenberger-horne-zeilinger (ghz) 状態が3つのユーザ間で共有された場合の量子アドバンテージを実証する。

Efficient distributed computing offers a scalable strategy for solving resource-demanding tasks such as parallel computation and circuit optimisation. Crucially, the communication overhead introduced by the allotment process should be minimised -- a key motivation behind the communication complexity problem (CCP). Quantum resources are well-suited to this task, offering clear strategies that can outperform classical counterparts. Furthermore, the connection between quantum CCPs and nonlocality provides an information-theoretic insights into fundamental quantum mechanics. Here we connect quantum CCPs with a generalised nonlocality framework -- beyond the paradigmatic Bell's theorem -- by incorporating the underlying causal structure, which governs the distributed task, into a so-called nonlocal hidden variable model. We prove that a new class of communication complexity tasks can be associated to Bell-like inequalities, whose violation is both necessary and sufficient for a quantum gain. We experimentally implement a multipartite CCP akin to the guess-your-neighbour-input scenario, and demonstrate a quantum advantage when multipartite Greenberger-Horne-Zeilinger (GHZ) states are shared among three users.
翻訳日:2023-03-26 23:32:39 公開日:2021-06-11
# オープンアクセス量子コンピュータの全スタックをプログラミングする

Programming the full stack of an open-access quantum computer ( http://arxiv.org/abs/2106.06549v1 )

ライセンス: Link先を確認
Virginia Frey, Richard Rademacher, Elijah Durso-Sabina, Noah Greenberg, Nikolay Videnov, Matthew L. Day, Rajibul Islam and Crystal Senko(参考訳) 量子ハードウェアの真のフルスタックプログラミングを可能にする新しい量子プログラミング言語「Quala」を提案する。 qualaはデジタル回路層やアナログ制御パルス波形層などの抽象層のシームレスな統合を可能にする。 さらに、FPGAアクションのような低レベルのハードウェア命令もサポートしている。 中間回路の測定と分岐決定ロジックはリアルタイム適応プログラムをサポートする。 この柔軟性により、ユーザーは量子エラー修正からアナログ量子シミュレーションまで、あらゆる種類のコードを書くことができる。 ユーザ向けキャリブレーションデータベースと強力なシンボリック代数フレームワークの組み合わせは、ユーザに前例のない表現力と透明性を提供する。 言語構造の健全な特性を示し、関連するコンパイラが任意の抽象層で書かれたプログラムを正確なタイミングでハードウェアコマンドに変換する方法について述べる。 この言語は、スタックの各レベルで完全な透過性を維持しつつ、実際のハードウェア上での回路レベルのプログラミングと物理操作の間のギャップを埋めることを意図しています。 これにより、"舞台裏"コンパイルの必要性を排除し、日々のキャリブレーションルーチンに関する洞察を提供する。

We present a new quantum programming language called "Quala" that enables true full-stack programming of quantum hardware. Quala allows seamless integration of abstraction layers such as the digital circuit layer and the analog control pulse waveform layer. Additionally, the language supports user-issued low-level hardware instructions like FPGA actions. Mid-circuit measurements and branching decision logic support real-time, adaptive programs. This flexibility allows users to write code for everything from quantum error correction to analog quantum simulation. The combination of a user-facing calibration database and a powerful symbolic algebra framework provides users with an unprecedented level of expressiveness and transparency. We display the salient characteristics of the language structure and describe how the accompanying compiler can translate programs written in any abstraction layer into precisely timed hardware commands. We intend for this language to bridge the gap between circuit-level programming and physical operations on real hardware while maintaining full transparency in each level of the stack. This eliminates the need for "behind-the-scenes" compilation and provides users with insights into the day-to-day calibration routines.
翻訳日:2023-03-26 23:32:20 公開日:2021-06-11
# 意味的・集団的推定を用いた科学におけるメンターシップのデータセット

A dataset of mentorship in science with semantic and demographic estimations ( http://arxiv.org/abs/2106.06487v1 )

ライセンス: Link先を確認
Qing Ke, Lizhen Liang, Ying Ding, Stephen V. David, Daniel E. Acuna(参考訳) 科学におけるメンターシップは、トピックの選択、キャリアの決定、メンテやメンテの成功に不可欠である。 通常、メンターシップを研究する研究者は論文の共著者と博士論文データセットを使用する。 しかし、このタイプのデータセットは、フィールドの狭い選択に焦点を当てており、初期のキャリアと非パブリケーション関連の相互作用を見逃している。 ここでは112の分野にわたる738989の科学者間の743176のメンターシップ関係をクラウドソーシングしたデータセットであるMENTORSHIPについて述べる。 我々は、Microsoft Academic Graphの出版データとディープラーニングコンテンツ分析を用いた研究の「セマンティック」表現で科学者のプロファイルを豊かにする。 科学におけるメンターシップと格差を分析する際に、ジェンダーと人種が重要な次元になっているため、これらの要因を推定する。 我々は、プロファイル-パブリケーションマッチング、セマンティックコンテンツ、人口統計推論の広範囲な検証を行う。 我々は、このデータセットが科学におけるメンターシップの研究を刺激し、科学者のキャリア成果におけるその役割の理解を深めることを期待している。

Mentorship in science is crucial for topic choice, career decisions, and the success of mentees and mentors. Typically, researchers who study mentorship use article co-authorship and doctoral dissertation datasets. However, available datasets of this type focus on narrow selections of fields and miss out on early career and non-publication-related interactions. Here, we describe MENTORSHIP, a crowdsourced dataset of 743176 mentorship relationships among 738989 scientists across 112 fields that avoids these shortcomings. We enrich the scientists' profiles with publication data from the Microsoft Academic Graph and "semantic" representations of research using deep learning content analysis. Because gender and race have become critical dimensions when analyzing mentorship and disparities in science, we also provide estimations of these factors. We perform extensive validations of the profile--publication matching, semantic content, and demographic inferences. We anticipate this dataset will spur the study of mentorship in science and deepen our understanding of its role in scientists' career outcomes.
翻訳日:2023-03-26 23:32:05 公開日:2021-06-11
# エネルギー変動における量子コヒーレンスの役割

The role of quantum coherence in energy fluctuations ( http://arxiv.org/abs/2106.06461v1 )

ライセンス: Link先を確認
S. Gherardini, A. Belenchia, M. Paternostro, A. Trombettoni(参考訳) オープン量子系のエネルギー変動における量子コヒーレンスの役割について議論する。 そこで,本稿では,エネルギー変化の統計を初期状態の進化後にのみ実施されるエネルギー測定の関数として定義する,エンドポイント計測スキームと呼ばれるプロトコルを提案する。 初期エネルギーに対するさらなる不確実性の価格で、このアプローチは初期量子コヒーレンスの損失を防ぎ、エネルギー変動に対するそれらの効果を推定することができる。 我々は、ibm quantum experience superconducting qubit platformで実験を行い、この知見を実証する。

We discuss the role of quantum coherence in the energy fluctuations of open quantum systems. To this aim, we introduce a protocol, to which we refer to as the end-point-measurement scheme, allowing to define the statistics of energy changes as a function of energy measurements performed only after the evolution of the initial state. At the price of an additional uncertainty on the initial energies, this approach prevents the loss of initial quantum coherences and enables the estimation of their effects on energy fluctuations. We demonstrate our findings by running an experiment on the IBM Quantum Experience superconducting qubit platform.
翻訳日:2023-03-26 23:31:49 公開日:2021-06-11
# 非検出光子の位置相関による中赤外顕微鏡

Mid-Infrared Microscopy via Position Correlations of Undetected Photons ( http://arxiv.org/abs/2106.06435v1 )

ライセンス: Link先を確認
Inna Kviatkovsky, Helen M. Chrzanowski, Sven Ramelow(参考訳) 非検出光子を用いた量子イメージング(qiup)が、新しい強力なイメージングツールとして登場した。 光子対の空間的絡み合いを利用して、センシングと検出波長の分離を可能にし、シリコンベースの成熟した検出技術を用いて、他の困難領域での撮像を容易にする。 QIUPの既存の実装は、これまでバイフォトン状態内の運動量相関を利用してきた。 ここでは, 出生時に光子対内で形成される密接な位置相関を利用して, 理論的および数値的に相補的なシナリオを初めて実装・検討する。 この画像平面配置は、比較実験が容易な高分解能撮像を容易にし、感度波長3.7$\mu$mの10ドル以下の解像度を実験的に示す。 さらに, 細胞レベルでの形態学的特徴を明らかにするために, マウスの心臓組織のスライスを中位で撮像し, 生命科学における技法の生存可能性を示す。 これらの結果は、ラベルのないワイドフィールド顕微鏡のためのQIUPの能力に関する新たな視点を提供し、生体医学および産業用イメージングにおける新しい実世界の応用を可能にする。

Quantum imaging with undetected photons (QIUP) has recently emerged as a new powerful imaging tool. Exploiting the spatial entanglement of photon pairs, it allows decoupling of the sensing and detection wavelengths, facilitating imaging in otherwise challenging spectral regions with mature silicon-based detection technology. All existing implementations of QIUP have so far utilised the momentum correlations within the biphoton state. Here, for the first time, we implement and examine theoretically and numerically the complementary scenario - utilising the tight position correlations formed within photon pair at birth. This image plane arrangement facilitates high resolution imaging with comparative experimental ease, and we experimentally show resolutions below 10 $\mu$m at a sensing wavelength of 3.7 $\mu$m. Moreover, imaging a slice of mouse heart tissue at the mid-IR to reveal morphological features on the cellular level, we further demonstrate the viability of the technique for the life sciences. These results offer new perspectives on the capabilities of QIUP for label-free wide-field microscopy, enabling new real-world applications in biomedical as well as industrial imaging at inaccessible wavelengths.
翻訳日:2023-03-26 23:31:24 公開日:2021-06-11
# 非エルミタン系における一般化ブリルアンゾーンの特異性を考慮したバルク境界対応の解析

The Analysis of Bulk Boundary Correspondence under the Singularity of the Generalized Brillouin Zone in Non-Hermitian System ( http://arxiv.org/abs/2106.06384v1 )

ライセンス: Link先を確認
Gang-Feng Guo, Xi-Xi Bao and Lei Tan(参考訳) 一般化ブリルアンゾーン(GBZ)は、非エルミート位相におけるバルク境界対応を再構築する非ブロックバンド理論の中核概念であり、一般に閉ループとして現れる。 本研究では,gbz自体が崩壊しても,連続体バンドによる開放境界エネルギースペクトルの回復は変わっていないことを見出した。 対照的に、gbzの異常性が生じた場合、巻数は病気になる。 すなわち、バルク境界対応は依然として確立できるが、gbz はエネルギーの観点から特異点を持つが、位相不変量からは成立しない。 一方、GBZが閉ループで現れるという事実にかかわらず、位相数の不定義のため、バルク境界対応は十分に特徴づけられていない。 ここで得られた結果は、既存の非ブロッホバンド理論を改善するのに有用かもしれない。

The generalized Brillouin zone (GBZ), which is the core concept of the non-Bloch band theory to rebuild the bulk boundary correspondence in the non-Hermitian topology, appears as a closed loop generally. In this work, we find that even if the GBZ itself collapses into a point, the recovery of the open boundary energy spectrum by the continuum bands remains unchanged. Contrastively, if the bizarreness of the GBZ occurs, the winding number will become illness. Namely, we find that the bulk boundary correspondence can still be established whereas the GBZ has singularities from the perspective of the energy, but not from the topological invariants. Meanwhile, regardless of the fact that the GBZ comes out with the closed loop, the bulk boundary correspondence can not be well characterized yet because of the ill-definition of the topological number. Here, the results obtained may be useful for improving the existing non-Bloch band theory.
翻訳日:2023-03-26 23:31:04 公開日:2021-06-11
# 分布型ソフトアクタ臨界:値推定誤差に対するオフポリティ強化学習

Distributional Soft Actor-Critic: Off-Policy Reinforcement Learning for Addressing Value Estimation Errors ( http://arxiv.org/abs/2001.02811v3 )

ライセンス: Link先を確認
Jingliang Duan, Yang Guan, Shengbo Eben Li, Yangang Ren, Bo Cheng(参考訳) 強化学習(RL)では、関数近似誤差がQ値過大評価につながることが知られており、政策性能が大幅に低下する。 本稿では,Q値過大評価を緩和して政策性能を向上させるために,分散型ソフトアクタクリティカル(DSAC)アルゴリズムを提案する。 まず,Q-値関数の更新ステップサイズを適応的に調整できるため,状態-作用戻り値の分布関数の学習がQ-値過大評価を効果的に軽減できることを示す。 次に、戻り分布関数を最大エントロピーRLに埋め込み、分散ソフトポリシー反復(DSPI)フレームワークを開発する。 最後に, dsacと呼ばれる, 爆発・消滅する勾配問題に対処するために, 状態復帰のばらつきを妥当な範囲に保ちながら, 連続帰納分布を直接学習する, オフ・ポリシー・アクタ・クリティックなdspiの変種を提案する。 我々は,MuJoCo連続制御タスクのスイート上でDSACを評価し,最先端の性能を実現する。

In reinforcement learning (RL), function approximation errors are known to easily lead to the Q-value overestimations, thus greatly reducing policy performance. This paper presents a distributional soft actor-critic (DSAC) algorithm, which is an off-policy RL method for continuous control setting, to improve the policy performance by mitigating Q-value overestimations. We first discover in theory that learning a distribution function of state-action returns can effectively mitigate Q-value overestimations because it is capable of adaptively adjusting the update stepsize of the Q-value function. Then, a distributional soft policy iteration (DSPI) framework is developed by embedding the return distribution function into maximum entropy RL. Finally, we present a deep off-policy actor-critic variant of DSPI, called DSAC, which directly learns a continuous return distribution by keeping the variance of the state-action returns within a reasonable range to address exploding and vanishing gradient problems. We evaluate DSAC on the suite of MuJoCo continuous control tasks, achieving the state-of-the-art performance.
翻訳日:2023-01-13 04:29:24 公開日:2021-06-11
# 座標レベルの腐敗下におけるロバスト平均推定について

On Robust Mean Estimation under Coordinate-level Corruption ( http://arxiv.org/abs/2002.04137v5 )

ライセンス: Link先を確認
Zifan Liu and Jongho Park and Theodoros Rekatsinas and Christos Tzamos(参考訳) そこで本研究では,ロバスト平均推定の問題について検討し,座標レベルの腐敗に対する分布シフトのハミング距離に基づく新しい尺度を提案する。 本手法は, 前作よりも現実的な汚職を捉えた敵モデルを示し, これらの設定におけるロバスト平均推定に関する情報理論的分析を示す。 本研究では, 構造分布に対して, 理論的により正確な平均推定値を求める手法を提案する。 また,データクリーニングにインスパイアされた,入力データの汚損を最初に修正し,ロバストな平均推定を行うアプローチが,我々の分析の情報理論境界と一致する場合の,ロバストな平均推定と研究の実践的アルゴリズムにも着目する。 最後に, この2段階法が構造非依存なロバスト推定よりも優れ, 高精度な平均推定を実現することを実験的に示す。

We study the problem of robust mean estimation and introduce a novel Hamming distance-based measure of distribution shift for coordinate-level corruptions. We show that this measure yields adversary models that capture more realistic corruptions than those used in prior works, and present an information-theoretic analysis of robust mean estimation in these settings. We show that for structured distributions, methods that leverage the structure yield information theoretically more accurate mean estimation. We also focus on practical algorithms for robust mean estimation and study when data cleaning-inspired approaches that first fix corruptions in the input data and then perform robust mean estimation can match the information theoretic bounds of our analysis. We finally demonstrate experimentally that this two-step approach outperforms structure-agnostic robust estimation and provides accurate mean estimation even for high-magnitude corruption.
翻訳日:2023-01-02 08:10:21 公開日:2021-06-11
# 並列非線形方程式解法によるフィードフォワード計算の高速化

Accelerating Feedforward Computation via Parallel Nonlinear Equation Solving ( http://arxiv.org/abs/2002.03629v2 )

ライセンス: Link先を確認
Yang Song, Chenlin Meng, Renjie Liao, Stefano Ermon(参考訳) ニューラルネットワークの評価や自己回帰モデルからのサンプリングなどのフィードフォワード計算は、機械学習においてユビキタスである。 しかし、フィードフォワード計算の逐次的な性質は、厳密な実行順序を必要とし、並列計算では容易に加速できない。 並列化を実現するために, フィードフォワード計算のタスクを非線形方程式系の解として構成する。 次に,ヤコビあるいはガウス・セイデルの不動点反復法と,両者のハイブリッド法を用いて解を求める。 決定的に、ヤコビの更新はそれぞれの方程式で独立に動作し、並列に実行できる。 提案手法は, 並列化可能な繰り返し回数の削減(あるいは等値化)により, 元のフィードフォワード計算と全く同じ値が与えられることを保証し, 十分な並列化計算能力を付与する。 実験により,加速におけるアプローチの有効性を実証した。 (i)RNNのバックプロパゲーション (ii)密集体の評価、及び (iii)madeおよびpixelcnn++の自己回帰サンプリングは,様々な設定下で2.1から26までのスピードアップ係数を持つ。

Feedforward computation, such as evaluating a neural network or sampling from an autoregressive model, is ubiquitous in machine learning. The sequential nature of feedforward computation, however, requires a strict order of execution and cannot be easily accelerated with parallel computing. To enable parallelization, we frame the task of feedforward computation as solving a system of nonlinear equations. We then propose to find the solution using a Jacobi or Gauss-Seidel fixed-point iteration method, as well as hybrid methods of both. Crucially, Jacobi updates operate independently on each equation and can be executed in parallel. Our method is guaranteed to give exactly the same values as the original feedforward computation with a reduced (or equal) number of parallelizable iterations, and hence reduced time given sufficient parallel computing power. Experimentally, we demonstrate the effectiveness of our approach in accelerating (i) backpropagation of RNNs, (ii) evaluation of DenseNets, and (iii) autoregressive sampling of MADE and PixelCNN++, with speedup factors between 2.1 and 26 under various settings.
翻訳日:2023-01-02 07:40:34 公開日:2021-06-11
# 凸双対性による深層ニューラルネットワークの構造の解明

Revealing the Structure of Deep Neural Networks via Convex Duality ( http://arxiv.org/abs/2002.09773v4 )

ライセンス: Link先を確認
Tolga Ergen, Mert Pilanci(参考訳) 我々は、正規化深層ニューラルネットワーク(DNN)を研究し、隠蔽層の構造を特徴付ける凸解析フレームワークを導入する。 標準正規化DNNトレーニング問題に対する最適隠蔽層重みの集合が凸集合の極端点として明確に見出されることを示す。 ディープ線形ネットワークの特殊な場合、各最適重み行列が双対性によって前の層と整合していることを証明する。 より重要なことに、白データを持つ深層reluネットワークに同じ特徴付けを適用し、同じ重みアライメントが成り立つことを証明する。 また,従来2層ネットワークでのみ知られていた1次元データセットに対して,標準正規化深部ReLUネットワークがスプライン補間をもたらすことを示す。 さらに,データのランクワンやホワイト化時の最適層重みに対する閉形式解も提供する。 同じ解析は、任意のデータに対してもバッチ正規化のあるアーキテクチャにも適用される。 したがって,最近の経験的観察である神経崩壊の完全な説明を得ることができ,そこではクラス平均は単純等角タイトフレームの頂点に崩壊する。

We study regularized deep neural networks (DNNs) and introduce a convex analytic framework to characterize the structure of the hidden layers. We show that a set of optimal hidden layer weights for a norm regularized DNN training problem can be explicitly found as the extreme points of a convex set. For the special case of deep linear networks, we prove that each optimal weight matrix aligns with the previous layers via duality. More importantly, we apply the same characterization to deep ReLU networks with whitened data and prove the same weight alignment holds. As a corollary, we also prove that norm regularized deep ReLU networks yield spline interpolation for one-dimensional datasets which was previously known only for two-layer networks. Furthermore, we provide closed-form solutions for the optimal layer weights when data is rank-one or whitened. The same analysis also applies to architectures with batch normalization even for arbitrary data. Therefore, we obtain a complete explanation for a recent empirical observation termed Neural Collapse where class means collapse to the vertices of a simplex equiangular tight frame.
翻訳日:2022-12-29 18:52:07 公開日:2021-06-11
# 自律走行のための共有モード軌跡予測

Shared Cross-Modal Trajectory Prediction for Autonomous Driving ( http://arxiv.org/abs/2004.00202v3 )

ライセンス: Link先を確認
Chiho Choi, Joon Hee Choi, Srikanth Malla, Jiachen Li(参考訳) 高度にインタラクティブな環境での交通エージェントの将来の軌道予測は、自律運転システムの安全運転に不可欠かつ困難な問題である。 自動運転車には様々なタイプのセンサ(lidarスキャナ、rgbカメラ、レーダーなど)が備わっているという事実に基づいて、複数の入力モードの使用によるメリットを享受するクロスモーダル埋め込みフレームワークを提案する。 学習時には,様々な入力データに対して目的関数を協調的に最適化することで,相補的な機能を共有潜在空間に組み込むことを学習する。 テスト時には、入力パースペクティブ(例えば、LiDAR空間)から予測を生成するために単一の入力モダリティ(例えば、LiDARデータ)が必要であり、複数のセンサーモダリティで訓練されたモデルから利点を享受する。 2つのベンチマーク駆動データセットを用いて,提案フレームワークの有効性を示すため,広範な評価を行った。

Predicting future trajectories of traffic agents in highly interactive environments is an essential and challenging problem for the safe operation of autonomous driving systems. On the basis of the fact that self-driving vehicles are equipped with various types of sensors (e.g., LiDAR scanner, RGB camera, radar, etc.), we propose a Cross-Modal Embedding framework that aims to benefit from the use of multiple input modalities. At training time, our model learns to embed a set of complementary features in a shared latent space by jointly optimizing the objective functions across different types of input data. At test time, a single input modality (e.g., LiDAR data) is required to generate predictions from the input perspective (i.e., in the LiDAR space), while taking advantages from the model trained with multiple sensor modalities. An extensive evaluation is conducted to show the efficacy of the proposed framework using two benchmark driving datasets.
翻訳日:2022-12-17 18:37:28 公開日:2021-06-11
# マルチエージェント強化学習のためのランダム化エンティティワイドファクタライゼーション

Randomized Entity-wise Factorization for Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2006.04222v3 )

ライセンス: Link先を確認
Shariq Iqbal, Christian A. Schroeder de Witt, Bei Peng, Wendelin B\"ohmer, Shimon Whiteson, Fei Sha(参考訳) 実世界のマルチエージェント設定では、エージェントの種類や量が異なるタスクや非エージェントエンティティを含むことが多いが、エージェント/エンティティ間で共通の振る舞いパターンが出現することが多い。 提案手法は,「観測対象エンティティのランダムに選択されたサブグループのみを考える場合,各エージェントが期待する有用性は何か?」という質問をすることで,これらの共通性を活用することを目的としている。 次に,これら異種エンティティ群を考慮した因子の組み合わせとして全リターンの予測を再構成し,価値ベースマルチエージェント強化学習の補助目的として,この`randomly factorized'値関数を訓練する。 これにより,タスク間の類似性を認識・活用し,マルチタスク環境での学習効率を向上させることができる。 我々のアプローチであるRandomized Entity-wise Factorization for Imagined Learning (REFIL)は、マルチタスクのStarCraftマイクロマネジメント設定に挑戦する上で、すべての強力なベースラインを上回っています。

Multi-agent settings in the real world often involve tasks with varying types and quantities of agents and non-agent entities; however, common patterns of behavior often emerge among these agents/entities. Our method aims to leverage these commonalities by asking the question: ``What is the expected utility of each agent when only considering a randomly selected sub-group of its observed entities?'' By posing this counterfactual question, we can recognize state-action trajectories within sub-groups of entities that we may have encountered in another task and use what we learned in that task to inform our prediction in the current one. We then reconstruct a prediction of the full returns as a combination of factors considering these disjoint groups of entities and train this ``randomly factorized" value function as an auxiliary objective for value-based multi-agent reinforcement learning. By doing so, our model can recognize and leverage similarities across tasks to improve learning efficiency in a multi-task setting. Our approach, Randomized Entity-wise Factorization for Imagined Learning (REFIL), outperforms all strong baselines by a significant margin in challenging multi-task StarCraft micromanagement settings.
翻訳日:2022-11-24 07:10:30 公開日:2021-06-11
# 大規模生成モデルを用いたラベルなしオブジェクトセグメンテーション

Object Segmentation Without Labels with Large-Scale Generative Models ( http://arxiv.org/abs/2006.04988v2 )

ライセンス: Link先を確認
Andrey Voynov, Stanislav Morozov, Artem Babenko(参考訳) 近年の教師なし・自己教師型学習はラベル付きデータへの依存を劇的に減らし、下流視覚タスクへの効果的な画像表現を提供する。 さらに、近年の研究では、これらの表現を画像分類のための完全に教師なしのセットアップで採用し、微調整段階における人間のラベルの必要性も減らしている。 この研究は、大規模な教師なしモデルでも、ピクセルレベルも画像レベルのラベル付けも必要とせず、より困難なオブジェクトセグメンテーションタスクを実行できることを示した。 すなわち,最近の教師なしganは前景/後景の画素を区別し,高品質なサリエンシーマスクを提供する。 標準ベンチマークの広範な比較により、既存の教師なしのオブジェクトセグメンテーションよりも優れ、新しい最先端を実現する。

The recent rise of unsupervised and self-supervised learning has dramatically reduced the dependency on labeled data, providing effective image representations for transfer to downstream vision tasks. Furthermore, recent works employed these representations in a fully unsupervised setup for image classification, reducing the need for human labels on the fine-tuning stage as well. This work demonstrates that large-scale unsupervised models can also perform a more challenging object segmentation task, requiring neither pixel-level nor image-level labeling. Namely, we show that recent unsupervised GANs allow to differentiate between foreground/background pixels, providing high-quality saliency masks. By extensive comparison on standard benchmarks, we outperform existing unsupervised alternatives for object segmentation, achieving new state-of-the-art.
翻訳日:2022-11-24 00:04:52 公開日:2021-06-11
# トレーニングなしのニューラルアーキテクチャ探索

Neural Architecture Search without Training ( http://arxiv.org/abs/2006.04647v3 )

ライセンス: Link先を確認
Joseph Mellor, Jack Turner, Amos Storkey, Elliot J. Crowley(参考訳) ディープニューラルネットワークのハンドデザインに関わる時間と労力は膨大です。 これにより、この設計を自動化するためにneural architecture search (nas)技術の開発が進められた。 しかし、NASアルゴリズムは遅くてコストがかかる傾向にあり、探索プロセスに通知するためには大量の候補ネットワークを訓練する必要がある。 ネットワークの初期状態からネットワークのトレーニングされた精度を部分的に予測できれば、これは軽減できるでしょう。 本研究では,未学習ネットワークにおけるデータポイント間のアクティベーションの重なりについて検討し,ネットワークのトレーニングされた性能を示す有用な指標となる指標を与える方法について検討する。 この手法を,1つのGPU上で数秒のトレーニングをすることなく,強力なネットワークを探索する簡単なアルゴリズムに組み込んで,NAS-Bench-101,NAS-Bench-201,NATS-Bench,Network Design Spaces上での有効性を検証する。 提案手法は,より高価な探索手法と容易に組み合わせることができる。 実験を再現するためのコードは、https://github.com/bayeswatch/nas-without-trainingで利用できます。

The time and effort involved in hand-designing deep neural networks is immense. This has prompted the development of Neural Architecture Search (NAS) techniques to automate this design. However, NAS algorithms tend to be slow and expensive; they need to train vast numbers of candidate networks to inform the search process. This could be alleviated if we could partially predict a network's trained accuracy from its initial state. In this work, we examine the overlap of activations between datapoints in untrained networks and motivate how this can give a measure which is usefully indicative of a network's trained performance. We incorporate this measure into a simple algorithm that allows us to search for powerful networks without any training in a matter of seconds on a single GPU, and verify its effectiveness on NAS-Bench-101, NAS-Bench-201, NATS-Bench, and Network Design Spaces. Our approach can be readily combined with more expensive search methods; we examine a simple adaptation of regularised evolutionary search. Code for reproducing our experiments is available at https://github.com/BayesWatch/nas-without-training.
翻訳日:2022-11-24 00:04:37 公開日:2021-06-11
# gershgorin disc perfect alignmentによるサイン付きグラフメトリック学習

Signed Graph Metric Learning via Gershgorin Disc Perfect Alignment ( http://arxiv.org/abs/2006.08816v6 )

ライセンス: Link先を確認
Cheng Yang, Gene Cheung, Wei Hu(参考訳) 実対称行列に対して凸で微分可能な$Q(\M)$が与えられたとき、マハラノビス距離を計算するために使われる正定値(PD)錐において$\M$は射影のない高速な一般計量学習フレームワークを提案する。 まず、$\m$ は平衡符号付きグラフに対応する一般化グラフラプラシアン行列の空間 $\cs$ に存在すると仮定する。 PD である$\M \in \cS$ もグラフ計量行列と呼ばれる。 文献で一般的な低ランク計量行列とは異なり、$\cS$ は特別な場合として重要な対角行列を含む。 完全固有分解を回避し、高速な計量行列最適化を可能にするための重要な定理は gershgorin disc perfect alignment (gdpa) である: $\m \in \cs$ と対角行列 $\s$, ここで $s_{ii} = 1/v_i$ と $\v$ は $\m$'s first eigenvector であるので、gershgorin disc left-ends of similarity transform $\b = \s \m \s^{-1}$ は最小の固有値 $\lambda_{\min}$ で完全に整列する。 この定理を用いることで、計量学習問題におけるPDコーン制約を反復毎の最も厳密な線形制約に置き換え、Frank-Wolfe法による対角線/対角線/対角線の項の交互最適化を効率的に線形プログラムとして解ける。 我々は,$\m$のエントリが順次最適化されるので,局所最適ブロック前条件共役勾配 (lobpcg) を用いて$\v$を更新する。 実験により, グラフ距離の最適化はコーン投影方式よりもはるかに高速であり, 競合する二値分類性能が得られた。

Given a convex and differentiable objective $Q(\M)$ for a real symmetric matrix $\M$ in the positive definite (PD) cone -- used to compute Mahalanobis distances -- we propose a fast general metric learning framework that is entirely projection-free. We first assume that $\M$ resides in a space $\cS$ of generalized graph Laplacian matrices corresponding to balanced signed graphs. $\M \in \cS$ that is also PD is called a graph metric matrix. Unlike low-rank metric matrices common in the literature, $\cS$ includes the important diagonal-only matrices as a special case. The key theorem to circumvent full eigen-decomposition and enable fast metric matrix optimization is Gershgorin disc perfect alignment (GDPA): given $\M \in \cS$ and diagonal matrix $\S$, where $S_{ii} = 1/v_i$ and $\v$ is $\M$'s first eigenvector, we prove that Gershgorin disc left-ends of similarity transform $\B = \S \M \S^{-1}$ are perfectly aligned at the smallest eigenvalue $\lambda_{\min}$. Using this theorem, we replace the PD cone constraint in the metric learning problem with tightest possible linear constraints per iteration, so that the alternating optimization of the diagonal / off-diagonal terms in $\M$ can be solved efficiently as linear programs via the Frank-Wolfe method. We update $\v$ using Locally Optimal Block Preconditioned Conjugate Gradient (LOBPCG) with warm start as entries in $\M$ are optimized successively. Experiments show that our graph metric optimization is significantly faster than cone-projection schemes, and produces competitive binary classification performance.
翻訳日:2022-11-21 03:33:49 公開日:2021-06-11
# データから制約をマイニングするための整数線形プログラミングフレームワーク

An Integer Linear Programming Framework for Mining Constraints from Data ( http://arxiv.org/abs/2006.10836v2 )

ライセンス: Link先を確認
Tao Meng and Kai-Wei Chang(参考訳) 構造化された出力予測問題(例えば、シーケンシャルタグ付け、階層的多クラス分類)は、しばしば出力ラベル空間上の制約を伴う。 これらの制約は学習したモデルと相互作用し、実現不可能なソリューションをフィルタリングし、説明可能なシステムの構築を容易にする。 しかし、制約は有用であるが、しばしば手作りの規則に基づいている。 学習アルゴリズムに基づいたデータから制約やルールをマイニングできますか? 本稿では,データから制約をマイニングするための一般的な枠組みを提案する。 特に、構造化出力予測における推論を整数線形計画問題(ilp)として考える。 次に,対象関数の係数と対応する解を仮定し,実現可能な集合の外側および内側のポリトープを推定することにより,基礎となる制約を掘り出す。 提案手法は,様々な合成・実世界の応用において制約マイニングアルゴリズムを検証し,提案手法が大規模に実現可能であることを示す。 特に,本手法では,9×9のスドクパズルの解法を学習し,木問題を例から最小限に分散させる。 また,ニューラルネットワークモデルと統合することで,マルチラベル分類タスクの階層的ラベル構造を学習する。 さらに,ポリトープの密着性と,採掘された制約の信頼性に関する理論的解析を行った。

Structured output prediction problems (e.g., sequential tagging, hierarchical multi-class classification) often involve constraints over the output label space. These constraints interact with the learned models to filter infeasible solutions and facilitate in building an accountable system. However, although constraints are useful, they are often based on hand-crafted rules. This raises a question -- \emph{can we mine constraints and rules from data based on a learning algorithm?} In this paper, we present a general framework for mining constraints from data. In particular, we consider the inference in structured output prediction as an integer linear programming (ILP) problem. Then, given the coefficients of the objective function and the corresponding solution, we mine the underlying constraints by estimating the outer and inner polytopes of the feasible set. We verify the proposed constraint mining algorithm in various synthetic and real-world applications and demonstrate that the proposed approach successfully identifies the feasible set at scale. In particular, we show that our approach can learn to solve 9x9 Sudoku puzzles and minimal spanning tree problems from examples without providing the underlying rules. Our algorithm can also integrate with a neural network model to learn the hierarchical label structure of a multi-label classification task. Besides, we provide a theoretical analysis about the tightness of the polytopes and the reliability of the mined constraints.
翻訳日:2022-11-19 09:51:53 公開日:2021-06-11
# ニューラルタンジェントカーネルレジームにおける平均確率勾配の最適速度

Optimal Rates for Averaged Stochastic Gradient Descent under Neural Tangent Kernel Regime ( http://arxiv.org/abs/2006.12297v2 )

ライセンス: Link先を確認
Atsushi Nitanda, Taiji Suzuki(参考訳) 重回帰問題に対する過パラメータ2層ニューラルネットワークの平均確率的勾配降下の収束解析を行った。 近年、ニューラルネットワークの学習力学は、関連する再生カーネルヒルベルト空間(RKHS)の学習力学をほとんど特徴付けることができるNTK体制下で、勾配に基づく手法のグローバルな収束を示す上で、神経タンジェントカーネル(NTK)が重要な役割を果たすことが判明した。 しかし、NTK体制には収束速度分析の余地は残っている。 本研究では,平均的な確率的勾配勾配降下が,目標関数とntkに関連するrkhsの複雑さを生かして,大域収束保証により最小収束率を達成できることを示す。 さらに,特定の条件下でのReLUネットワークのスムーズな近似により,ReLUネットワークのNTKによって指定された対象関数を最適収束率で学習できることが示される。

We analyze the convergence of the averaged stochastic gradient descent for overparameterized two-layer neural networks for regression problems. It was recently found that a neural tangent kernel (NTK) plays an important role in showing the global convergence of gradient-based methods under the NTK regime, where the learning dynamics for overparameterized neural networks can be almost characterized by that for the associated reproducing kernel Hilbert space (RKHS). However, there is still room for a convergence rate analysis in the NTK regime. In this study, we show that the averaged stochastic gradient descent can achieve the minimax optimal convergence rate, with the global convergence guarantee, by exploiting the complexities of the target function and the RKHS associated with the NTK. Moreover, we show that the target function specified by the NTK of a ReLU network can be learned at the optimal convergence rate through a smooth approximation of a ReLU network under certain conditions.
翻訳日:2022-11-18 05:03:15 公開日:2021-06-11
# 構成ファインチューニング: 一般化のための事前学習型デノナイジングオートエンコーダ

Composed Fine-Tuning: Freezing Pre-Trained Denoising Autoencoders for Improved Generalization ( http://arxiv.org/abs/2006.16205v3 )

ライセンス: Link先を確認
Sang Michael Xie, Tengyu Ma, Percy Liang(参考訳) 我々は,コードにコンパイルしなければならない擬似コード変換など,出力の妥当性制約を受ける構造化出力の予測問題に注目する。 ラベル付き入出力ペアは入手に費用がかかるが、"ラベルなし"出力(つまり、対応する入力のない出力)は自由に利用可能であり(github上のコードなど)、出力妥当性に関する情報を提供する。 プリトレーニングは、ラベルのない出力の破損したバージョンをデノイズするためにデノイザーを訓練することでこの構造をキャプチャする。 まず,プレトレーニング後の標準的な微調整が,この構造の一部を破壊していることを示す。 次に,事前学習したデノイザーを用いた予測器を訓練する合成微調整法を提案する。 重要なことに、デノイザは出力構造を保存するために固定される。 標準的な微調整と同様に、予測器は事前訓練されたデノイザーで初期化される。 微調整を構成する2層reluネットワークでは,予測器の複雑さが著しく減少し,一般化が改善される。 実験により,2つの擬似コードからコードへの変換データセット(3%,6%)の標準的な微調整よりも微調整が向上することを示した。 この改善は、オフ・オブ・ディストリビューション(OOD)の例(4%と25%の相対)で拡大され、予測複雑性の低減がOOD外挿を改善することが示唆されている。

We focus on prediction problems with structured outputs that are subject to output validity constraints, e.g. pseudocode-to-code translation where the code must compile. While labeled input-output pairs are expensive to obtain, "unlabeled" outputs, i.e. outputs without corresponding inputs, are freely available (e.g. code on GitHub) and provide information about output validity. Pre-training captures this structure by training a denoiser to denoise corrupted versions of unlabeled outputs. We first show that standard fine-tuning after pre-training destroys some of this structure. We then propose composed fine-tuning, which trains a predictor composed with the pre-trained denoiser. Importantly, the denoiser is fixed to preserve output structure. Like standard fine-tuning, the predictor is also initialized with the pre-trained denoiser. We prove for two-layer ReLU networks that composed fine-tuning significantly reduces the complexity of the predictor, thus improving generalization. Empirically, we show that composed fine-tuning improves over standard fine-tuning on two pseudocode-to-code translation datasets (3% and 6% relative). The improvement is magnified on out-of-distribution (OOD) examples (4% and 25% relative), suggesting that reducing predictor complexity improves OOD extrapolation.
翻訳日:2022-11-15 13:56:17 公開日:2021-06-11
# ニューラルネットワークプルーニングの統計的力学的解析

Statistical Mechanical Analysis of Neural Network Pruning ( http://arxiv.org/abs/2006.16617v3 )

ライセンス: Link先を確認
Rupam Acharyya, Ankani Chattoraj, Boyu Zhang, Shouman Das, Daniel Stefankovic(参考訳) 大量のパラメータを持つディープラーニングアーキテクチャは、しばしばプラニング技術を使用して圧縮され、デプロイ中の推論の計算効率が保証される。 多くの実証的な進歩にもかかわらず、異なる刈り取り方法の有効性に関する理論的理解が欠如している。 教師・学生枠組みの統計力学定式化の下で異なる刈り込み手法を検証し,その一般化誤差(ge)を導出する。 Determinantal Point Process (DPP) に基づくノードプルーニング法は,実データセット上でテストした場合,競合するアプローチよりも優れていることが示されている。 前述の設定でGE境界を用いることで、経験的観測の理論的保証を提供する。 文献におけるもう1つの一貫した発見は、一定の数のパラメータに対してスパースニューラルネットワーク(エッジプルーニング)が高密度ニューラルネットワーク(ノードプルーニング)よりも一般化されていることである。 提案手法は,提案手法を用いて,ベースラインのランダムエッジプルーニング法でさえ,DPPノードプルーニング法よりも優れていることを示す。 また、実際のデータセットで実証的に検証します。

Deep learning architectures with a huge number of parameters are often compressed using pruning techniques to ensure computational efficiency of inference during deployment. Despite multitude of empirical advances, there is a lack of theoretical understanding of the effectiveness of different pruning methods. We inspect different pruning techniques under the statistical mechanics formulation of a teacher-student framework and derive their generalization error (GE) bounds. It has been shown that Determinantal Point Process (DPP) based node pruning method is notably superior to competing approaches when tested on real datasets. Using GE bounds in the aforementioned setup we provide theoretical guarantees for their empirical observations. Another consistent finding in literature is that sparse neural networks (edge pruned) generalize better than dense neural networks (node pruned) for a fixed number of parameters. We use our theoretical setup to prove this finding and show that even the baseline random edge pruning method performs better than the DPP node pruning method. We also validate this empirically on real datasets.
翻訳日:2022-11-15 04:44:14 公開日:2021-06-11
# 学習から学習までのアプローチによるステップサイズ調整の保証

Guarantees for Tuning the Step Size using a Learning-to-Learn Approach ( http://arxiv.org/abs/2006.16495v2 )

ライセンス: Link先を確認
Xiang Wang, Shuai Yuan, Chenwei Wu, Rong Ge(参考訳) 最適化アルゴリズムの適切なパラメータを選択することが、実際の成功の鍵となることが多い。 学習から学習へのアプローチ(最適化者が生成する軌道に基づくメタオブジェクトへのメタ段階的な降下)を用いてこの問題を解決することは、最近有効であることが示されている。 しかし、メタ最適化問題は難しい。 特に、メタグラディエントはしばしば爆発/消滅し、メタオブジェクトが慎重に選択されていない場合、学習したオプティマイザは優れた一般化性能を有しない。 本稿では,二次損失のステップサイズをチューニングする簡単な問題に対して,学習から学習へのアプローチにメタ最適化の保証を与える。 以上の結果から,na\"目標がメタグレードの爆発・破壊問題に苦しむことが示された。 メタグレードが多項式的に有界であるようにメタ目的を設計する方法があるが、バックプロパゲーションを使って直接メタグレードを計算すると数値的な問題が発生する。 また、学習したオプティマイザの一般化性能を確保するために、別個の検証セット上でメタオブジェクトを計算する必要がある場合の特徴付けを行う。 最後に,ニューラルネットワークによってパラメータ化されたより複雑な学習オプティマイザに対しても,同様の現象が現れることを示す。

Choosing the right parameters for optimization algorithms is often the key to their success in practice. Solving this problem using a learning-to-learn approach -- using meta-gradient descent on a meta-objective based on the trajectory that the optimizer generates -- was recently shown to be effective. However, the meta-optimization problem is difficult. In particular, the meta-gradient can often explode/vanish, and the learned optimizer may not have good generalization performance if the meta-objective is not chosen carefully. In this paper we give meta-optimization guarantees for the learning-to-learn approach on a simple problem of tuning the step size for quadratic loss. Our results show that the na\"ive objective suffers from meta-gradient explosion/vanishing problem. Although there is a way to design the meta-objective so that the meta-gradient remains polynomially bounded, computing the meta-gradient directly using backpropagation leads to numerical issues. We also characterize when it is necessary to compute the meta-objective on a separate validation set to ensure the generalization performance of the learned optimizer. Finally, we verify our results empirically and show that a similar phenomenon appears even for more complicated learned optimizers parametrized by neural networks.
翻訳日:2022-11-15 04:34:52 公開日:2021-06-11
# SUNRISE: 深層強化学習における学習を組み立てるシンプルな統一フレームワーク

SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep Reinforcement Learning ( http://arxiv.org/abs/2007.04938v4 )

ライセンス: Link先を確認
Kimin Lee, Michael Laskin, Aravind Srinivas, Pieter Abbeel(参考訳) off-policy deep reinforcement learning(rl)は、さまざまな課題領域で成功を収めている。 しかしながら、標準のオフポリシーrlアルゴリズムは、q-learningの不安定性や探索と搾取のバランスなど、いくつかの問題に苦しむ可能性がある。 これらの問題を緩和するため,SUNRISEは単純な統一アンサンブル法であり,様々なオフポリティックRLアルゴリズムと互換性がある。 SUNRISEは2つの重要な材料を統合する。 (a) アンサンブルに基づく重み付きベルマンバックアップ(Qアンサンブルからの不確実性推定に基づくQ値の再重み付け) (b)高信頼度境界を用いた効率的な探索のための行動選択手法。 ランダムな初期化を伴うBootstrapを用いてエージェント間の多様性を強制することにより、これらの異なるアイデアは概ね直交的であり、実効的に統合可能であることを示し、低次元および高次元の両方における連続的かつ離散的な制御タスクに対して、Soft Actor-CriticやRainbow DQNといった既存のオフポリティクスRLアルゴリズムの性能をさらに向上させる。 私たちのトレーニングコードはhttps://github.com/pokaxpoka/sunriseで利用可能です。

Off-policy deep reinforcement learning (RL) has been successful in a range of challenging domains. However, standard off-policy RL algorithms can suffer from several issues, such as instability in Q-learning and balancing exploration and exploitation. To mitigate these issues, we present SUNRISE, a simple unified ensemble method, which is compatible with various off-policy RL algorithms. SUNRISE integrates two key ingredients: (a) ensemble-based weighted Bellman backups, which re-weight target Q-values based on uncertainty estimates from a Q-ensemble, and (b) an inference method that selects actions using the highest upper-confidence bounds for efficient exploration. By enforcing the diversity between agents using Bootstrap with random initialization, we show that these different ideas are largely orthogonal and can be fruitfully integrated, together further improving the performance of existing off-policy RL algorithms, such as Soft Actor-Critic and Rainbow DQN, for both continuous and discrete control tasks on both low-dimensional and high-dimensional environments. Our training code is available at https://github.com/pokaxpoka/sunrise.
翻訳日:2022-11-12 03:04:37 公開日:2021-06-11
# 低クエリ予算における単純で効率的なハードラベルブラックボックス攻撃

Simple and Efficient Hard Label Black-box Adversarial Attacks in Low Query Budget Regimes ( http://arxiv.org/abs/2007.07210v2 )

ライセンス: Link先を確認
Satya Narayan Shukla, Anit Kumar Sahu, Devin Willmott, J. Zico Kolter(参考訳) そこでは,入力されたデータに対して出力ラベル~(ハードラベル)に限定した情報のみに基づいて,深層学習モデルの逆例を生成することを目的とする。 そこで我々は,ブラックボックス攻撃の簡易かつ効率的なベイズ最適化手法を提案する。 高次元のboの性能に関する問題は、構造化低次元部分空間における逆の例を探すことによって回避される。 提案手法の有効性を,MNIST, CIFAR-10, ImageNetの3つの標準データセットに対して, 制約付き非ターゲット型およびターゲット型ハードラベルブラックボックス攻撃の評価により実証した。 提案手法は攻撃成功率の2倍から10倍を一貫して達成し,現在のブラックボックス攻撃に比べて10倍から20倍のクエリを要求できる。

We focus on the problem of black-box adversarial attacks, where the aim is to generate adversarial examples for deep learning models solely based on information limited to output label~(hard label) to a queried data input. We propose a simple and efficient Bayesian Optimization~(BO) based approach for developing black-box adversarial attacks. Issues with BO's performance in high dimensions are avoided by searching for adversarial examples in a structured low-dimensional subspace. We demonstrate the efficacy of our proposed attack method by evaluating both $\ell_\infty$ and $\ell_2$ norm constrained untargeted and targeted hard label black-box attacks on three standard datasets - MNIST, CIFAR-10 and ImageNet. Our proposed approach consistently achieves 2x to 10x higher attack success rate while requiring 10x to 20x fewer queries compared to the current state-of-the-art black-box adversarial attacks.
翻訳日:2022-11-10 23:14:58 公開日:2021-06-11
# 構造異常の最大確率推定におけるバイアスの定量化と低減

Quantifying and Reducing Bias in Maximum Likelihood Estimation of Structured Anomalies ( http://arxiv.org/abs/2007.07878v2 )

ライセンス: Link先を確認
Uthsav Chitra, Kimberly Ding, Jasper C.H. Lee, Benjamin J. Raphael(参考訳) 異常推定(英: Anomaly Estimation)は、データセットの他の部分と異なるデータセットのサブセットを見つける問題であり、機械学習とデータマイニングにおいて古典的な問題である。 理論的研究と応用の両方において、異常は$\textit{anomaly family}$のメンバシップによって定義される特定の構造を持つと仮定される。 例えば、時間データでは異常なファミリーは時間間隔であり、ネットワークデータでは異常なファミリーは接続されたサブグラフである。 異常推定の最も顕著なアプローチは、異常の最大度推定器(mle)を計算することであるが、通常分散データの場合、mleはいくつかの異常ファミリーに対して$\textit{biased}$推定器であることが最近観測された。 本研究は,MLEの偏りが異常な家族の大きさに依存することを示す。 異常を含む異常族内の集合の数が準指数であれば、MLEは漸近的に偏りがないことが証明される。 そのような集合の数が指数関数であれば、MLEは漸近的に偏りを持つ。 我々の分析は、特定の異常家族に対するMLEのバイアスに関する多くの先行結果を統一する。 次に, 混合モデルを用いた新しい異常推定器を導出し, 異常推定器が異常家族のサイズに関わらず漸近的に偏りがないことを示す。 我々は、疫病の発生と高速道路交通データに対する推定値とmleの利点を説明する。

Anomaly estimation, or the problem of finding a subset of a dataset that differs from the rest of the dataset, is a classic problem in machine learning and data mining. In both theoretical work and in applications, the anomaly is assumed to have a specific structure defined by membership in an $\textit{anomaly family}$. For example, in temporal data the anomaly family may be time intervals, while in network data the anomaly family may be connected subgraphs. The most prominent approach for anomaly estimation is to compute the Maximum Likelihood Estimator (MLE) of the anomaly; however, it was recently observed that for normally distributed data, the MLE is a $\textit{biased}$ estimator for some anomaly families. In this work, we demonstrate that in the normal means setting, the bias of the MLE depends on the size of the anomaly family. We prove that if the number of sets in the anomaly family that contain the anomaly is sub-exponential, then the MLE is asymptotically unbiased. We also provide empirical evidence that the converse is true: if the number of such sets is exponential, then the MLE is asymptotically biased. Our analysis unifies a number of earlier results on the bias of the MLE for specific anomaly families. Next, we derive a new anomaly estimator using a mixture model, and we prove that our anomaly estimator is asymptotically unbiased regardless of the size of the anomaly family. We illustrate the advantages of our estimator versus the MLE on disease outbreak and highway traffic data.
翻訳日:2022-11-10 05:36:05 公開日:2021-06-11
# 2層relu残留単位の非パラメトリック学習

Nonparametric Learning of Two-Layer ReLU Residual Units ( http://arxiv.org/abs/2008.07648v2 )

ライセンス: Link先を確認
Zhunxuan Wang, Linyun He, Chunchuan Lyu and Shay B. Cohen(参考訳) We describe an algorithm that learns two-layer residual units with rectified linear unit (ReLU) activation: suppose the input $\mathbf{x}$ is from a distribution with support space $\mathbb{R}^d$ and the ground-truth generative model is such a residual unit, given by \[\mathbf{y}= \boldsymbol{B}^\ast\left[\left(\boldsymbol{A}^\ast\mathbf{x}\right)^+ + \mathbf{x}\right]\text{,}\] where ground-truth network parameters $\boldsymbol{A}^\ast \in \mathbb{R}^{d\times d}$ is a nonnegative full-rank matrix and $\boldsymbol{B}^\ast \in \mathbb{R}^{m\times d}$ is full-rank with $m \geq d$ and for $\mathbf{c} \in \mathbb{R}^d$, $[\mathbf{c}^{+}]_i = \max\{0, c_i\}$. 解析的最小化器がそのパラメータと非線形性の観点から正確な接地-真実ネットワークを表現する関数として層的対象をデザインする。 この目的の展望に従って、有限標本からの残余単位を非パラメトリック関数の凸最適化を用いて定式化することができる: 各層に対して、まず対応する経験的リスク最小化(ERM)を正の半定値二次計画(QP)として定式化し、QPの解空間を線形不等式の集合で等価に決定し、線形プログラミング(LP)により効率よく解けることを示す。 さらに,我々のアルゴリズムの統計的強い一貫性を証明し,実験によるアルゴリズムの堅牢性とサンプル効率を実証する。

We describe an algorithm that learns two-layer residual units with rectified linear unit (ReLU) activation: suppose the input $\mathbf{x}$ is from a distribution with support space $\mathbb{R}^d$ and the ground-truth generative model is such a residual unit, given by \[\mathbf{y}= \boldsymbol{B}^\ast\left[\left(\boldsymbol{A}^\ast\mathbf{x}\right)^+ + \mathbf{x}\right]\text{,}\] where ground-truth network parameters $\boldsymbol{A}^\ast \in \mathbb{R}^{d\times d}$ is a nonnegative full-rank matrix and $\boldsymbol{B}^\ast \in \mathbb{R}^{m\times d}$ is full-rank with $m \geq d$ and for $\mathbf{c} \in \mathbb{R}^d$, $[\mathbf{c}^{+}]_i = \max\{0, c_i\}$. We design layer-wise objectives as functionals whose analytic minimizers express the exact ground-truth network in terms of its parameters and nonlinearities. Following this objective landscape, learning residual units from finite samples can be formulated using convex optimization of a nonparametric function: for each layer, we first formulate the corresponding empirical risk minimization (ERM) as a positive semi-definite quadratic program (QP), then we show the solution space of the QP can be equivalently determined by a set of linear inequalities, which can then be efficiently solved by linear programming (LP). We further prove the statistical strong consistency of our algorithm, and demonstrate the robustness and sample efficiency of our algorithm by experiments.
翻訳日:2022-10-28 03:07:16 公開日:2021-06-11
# PAGE:非凸最適化のための簡易かつ最適確率勾配推定器

PAGE: A Simple and Optimal Probabilistic Gradient Estimator for Nonconvex Optimization ( http://arxiv.org/abs/2008.10898v3 )

ライセンス: Link先を確認
Zhize Li, Hongyan Bao, Xiangliang Zhang, Peter Richt\'arik(参考訳) 本稿では,非凸最適化のための確率勾配推定器-確率勾配推定器(PAGE)を提案する。 PAGE はバニラ SGD への小さな調整によって設計されているため実装が容易であり、各イテレーションでバニラ minibatch SGD 更新を確率 $p_t$ で使用するか、より少ない計算コストで、確率 $1-p_t$ で以前の勾配を再利用する。 p_t$ を最適に選択するための簡単な公式を与える。 さらに、最初の厳密な下界$\Omega(n+\frac{\sqrt{n}}{\epsilon^2})$を非凸有限サム問題に対して証明し、非凸オンライン問題に対して$\Omega(b+\frac{\sqrt{b}}{\epsilon^2})$(b:= \min\{\frac{\sigma^2}{\epsilon^2},n\}$)とする。 次に、PAGE が最適収束結果 $O(n+\frac{\sqrt{n}}{\epsilon^2})$ (finite-sum) および $O(b+\frac{\sqrt{b}}{\epsilon^2})$ (online) を非凸有限サムおよびオンライン問題の両方に対する下界に一致することを示す。 さらに、Polyak-\L{}ojasiewicz (PL)条件を満たす非凸関数に対して、PAGEは自動的により高速な線型収束率$O(\cdot\log \frac{1}{\epsilon})$に切り替えることができる。 最後に、PyTorchの実際のデータセット上でいくつかのディープラーニング実験(LeNet、VGG、ResNetなど)を行い、PAGEはトレーニングにおいてSGDよりもはるかに早く収束するだけでなく、高いテスト精度を実現し、最適理論的結果の検証とPAGEの実用上の優位性を確認する。

In this paper, we propose a novel stochastic gradient estimator -- ProbAbilistic Gradient Estimator (PAGE) -- for nonconvex optimization. PAGE is easy to implement as it is designed via a small adjustment to vanilla SGD: in each iteration, PAGE uses the vanilla minibatch SGD update with probability $p_t$ or reuses the previous gradient with a small adjustment, at a much lower computational cost, with probability $1-p_t$. We give a simple formula for the optimal choice of $p_t$. Moreover, we prove the first tight lower bound $\Omega(n+\frac{\sqrt{n}}{\epsilon^2})$ for nonconvex finite-sum problems, which also leads to a tight lower bound $\Omega(b+\frac{\sqrt{b}}{\epsilon^2})$ for nonconvex online problems, where $b:= \min\{\frac{\sigma^2}{\epsilon^2}, n\}$. Then, we show that PAGE obtains the optimal convergence results $O(n+\frac{\sqrt{n}}{\epsilon^2})$ (finite-sum) and $O(b+\frac{\sqrt{b}}{\epsilon^2})$ (online) matching our lower bounds for both nonconvex finite-sum and online problems. Besides, we also show that for nonconvex functions satisfying the Polyak-\L{}ojasiewicz (PL) condition, PAGE can automatically switch to a faster linear convergence rate $O(\cdot\log \frac{1}{\epsilon})$. Finally, we conduct several deep learning experiments (e.g., LeNet, VGG, ResNet) on real datasets in PyTorch showing that PAGE not only converges much faster than SGD in training but also achieves the higher test accuracy, validating the optimal theoretical results and confirming the practical superiority of PAGE.
翻訳日:2022-10-25 02:58:09 公開日:2021-06-11
# gmphdフィルタとマスクベースアフィニティ融合を用いたオンラインマルチオブジェクトトラッキングとセグメンテーション

Online Multi-Object Tracking and Segmentation with GMPHD Filter and Mask-based Affinity Fusion ( http://arxiv.org/abs/2009.00100v2 )

ライセンス: Link先を確認
Young-min Song, Young-chul Yoon, Kwangjin Yoon, Moongu Jeon, Seong-Whan Lee, Witold Pedrycz(参考訳) 本稿では,インスタンスセグメンテーション結果を入力として使用する,高度に実用的な完全オンラインマルチオブジェクトトラッキング・セグメンテーション(mots)手法を提案する。 提案手法は,ガウス混合確率仮説密度 (GMPHD) フィルタ,階層型データアソシエーション (HDA) モデル,マスクベース親和性融合 (MAF) モデルに基づいて高速なオンライントラッキングを実現する。 hdaはsegment-to-track と track-to-track associations の2つの協会で構成されている。 位置と動きに対する1つの親和性は、GMPHDフィルタを用いて計算され、もう1つの親和性は、角化相関フィルタのような単一のオブジェクトトラッカーからの応答を用いて計算される。 これら2つの親和性は、MAFと呼ばれるmin-max正規化のようなスコアレベル融合法を用いて簡単に融合される。 さらに,偽陽性セグメント数を削減するため,マスクiouベースのマージ(マスクマージ)を採用する。 HDA、MAF、マスクのマージといった主要なモジュールを備えたMOTSフレームワークは、並列処理でCPUのみを実行する複数のタイプのオブジェクトを同時に追跡することができる。 さらに、開発フレームワークは、高パラメータ最適化を必要とする既存のMOTSメソッドとは異なり、単純なパラメータチューニングしか必要としない。 2つの人気のあるmotsデータセットの実験では、キーモジュールがいくつかの改善を示している。 例えば、トレーニングセットのベースラインメソッドと比較して、idスイッチは半分以上減少する。 その結果,テストセットにおける最新のMOTS性能が得られた。

In this paper, we propose a highly practical fully online multi-object tracking and segmentation (MOTS) method that uses instance segmentation results as an input. The proposed method is based on the Gaussian mixture probability hypothesis density (GMPHD) filter, a hierarchical data association (HDA), and a mask-based affinity fusion (MAF) model to achieve high-performance online tracking. The HDA consists of two associations: segment-to-track and track-to-track associations. One affinity, for position and motion, is computed by using the GMPHD filter, and the other affinity, for appearance is computed by using the responses from a single object tracker such as a kernalized correlation filter. These two affinities are simply fused by using a score-level fusion method such as min-max normalization referred to as MAF. In addition, to reduce the number of false positive segments, we adopt mask IoU-based merging (mask merging). The proposed MOTS framework with the key modules: HDA, MAF, and mask merging, is easily extensible to simultaneously track multiple types of objects with CPU only execution in parallel processing. In addition, the developed framework only requires simple parameter tuning unlike many existing MOTS methods that need intensive hyperparameter optimization. In the experiments on the two popular MOTS datasets, the key modules show some improvements. For instance, ID-switch decreases by more than half compared to a baseline method in the training sets. In conclusion, our tracker achieves state-of-the-art MOTS performance in the test sets.
翻訳日:2022-10-23 07:01:33 公開日:2021-06-11
# GraphNorm: グラフニューラルネットワークトレーニングの高速化のための原則的アプローチ

GraphNorm: A Principled Approach to Accelerating Graph Neural Network Training ( http://arxiv.org/abs/2009.03294v3 )

ライセンス: Link先を確認
Tianle Cai, Shengjie Luo, Keyulu Xu, Di He, Tie-Yan Liu, Liwei Wang(参考訳) 正規化はディープニューラルネットワークの最適化に役立つことが知られている。 事実、異なるアーキテクチャは特別な正規化方法を必要とする。 本稿では,グラフニューラルネットワーク(GNN)における正規化の効果について検討する。 まず、既存の手法を他のドメインからGNNに適応し、評価する。 BatchNormやLayerNormと比較して、インスタンスNormの方が早く収束する。 本稿では,GNNのプレコンディショナーとして InstanceNorm が機能することを示すとともに,グラフデータセットのバッチノイズが重いため,そのプレコンディショニング効果が BatchNorm より弱いことを示す。 第二に、インスタンスノームにおけるシフト操作は、高正規グラフに対するGNNの表現性低下をもたらすことを示す。 この問題に対処するためには、GraphNormを学習可能なシフトで提案する。 経験的に、GraphNormを持つGNNは、他の正規化を使用するGNNよりも高速に収束する。 GraphNormはGNNの一般化も改善し、グラフ分類ベンチマークのパフォーマンス向上を実現している。

Normalization is known to help the optimization of deep neural networks. Curiously, different architectures require specialized normalization methods. In this paper, we study what normalization is effective for Graph Neural Networks (GNNs). First, we adapt and evaluate the existing methods from other domains to GNNs. Faster convergence is achieved with InstanceNorm compared to BatchNorm and LayerNorm. We provide an explanation by showing that InstanceNorm serves as a preconditioner for GNNs, but such preconditioning effect is weaker with BatchNorm due to the heavy batch noise in graph datasets. Second, we show that the shift operation in InstanceNorm results in an expressiveness degradation of GNNs for highly regular graphs. We address this issue by proposing GraphNorm with a learnable shift. Empirically, GNNs with GraphNorm converge faster compared to GNNs using other normalization. GraphNorm also improves the generalization of GNNs, achieving better performance on graph classification benchmarks.
翻訳日:2022-10-21 02:38:07 公開日:2021-06-11
# ランダム森林の機械学習

Machine Unlearning for Random Forests ( http://arxiv.org/abs/2009.05567v2 )

ライセンス: Link先を確認
Jonathan Brophy and Daniel Lowd(参考訳) ユーザデータの削除要求への応答、騒がしい例の削除、破損したトレーニングデータの削除は、マシンラーニング(ml)モデルからインスタンスを削除する理由のほんの一部に過ぎない。 しかし、このデータをmlモデルから効率的に削除することは一般的に難しい。 本稿では,データ除去可能林(DaRE)について紹介する。これはランダムな森林の変種であり,最小限の再トレーニングによるトレーニングデータの除去を可能にする。 つまり、DaREモデルからインスタンスを削除することは、更新されたデータでスクラッチから再トレーニングするのと全く同じモデルになる。 DaREツリーはランダム性とキャッシュを使用してデータの削除を効率的にする。 DaREツリーの上位レベルはランダムノードを使用し、ランダムにスプリット属性としきい値を選択する。 これらのノードは、データにのみ依存するため、更新をほとんど必要としない。 下位レベルでは、分割はGiniインデックスや相互情報などの分割基準を優遇的に最適化するために選択される。 DaREツリーは各ノードの統計データをキャッシュし、各リーフでのトレーニングデータをキャッシュする。 数値属性に対して、グリードノードは閾値のランダムなサブセットを最適化し、最適な閾値を近似しながら統計を維持することができる。 グリーディノードのしきい値数とランダムノード数を調整することで、dareツリーはより正確な予測とより効率的な更新を切り替えることができる。 13の現実世界のデータセットと1つの合成データセットの実験では、DaREの森林は、予測力をほとんど生かさず、スクラッチからトレーニングするよりもはるかに早くデータの順序を削除する。

Responding to user data deletion requests, removing noisy examples, or deleting corrupted training data are just a few reasons for wanting to delete instances from a machine learning (ML) model. However, efficiently removing this data from an ML model is generally difficult. In this paper, we introduce data removal-enabled (DaRE) forests, a variant of random forests that enables the removal of training data with minimal retraining. Model updates for each DaRE tree in the forest are exact, meaning that removing instances from a DaRE model yields exactly the same model as retraining from scratch on updated data. DaRE trees use randomness and caching to make data deletion efficient. The upper levels of DaRE trees use random nodes, which choose split attributes and thresholds uniformly at random. These nodes rarely require updates because they only minimally depend on the data. At the lower levels, splits are chosen to greedily optimize a split criterion such as Gini index or mutual information. DaRE trees cache statistics at each node and training data at each leaf, so that only the necessary subtrees are updated as data is removed. For numerical attributes, greedy nodes optimize over a random subset of thresholds, so that they can maintain statistics while approximating the optimal threshold. By adjusting the number of thresholds considered for greedy nodes, and the number of random nodes, DaRE trees can trade off between more accurate predictions and more efficient updates. In experiments on 13 real-world datasets and one synthetic dataset, we find DaRE forests delete data orders of magnitude faster than retraining from scratch while sacrificing little to no predictive power.
翻訳日:2022-10-19 21:08:30 公開日:2021-06-11
# SPPL: 高速な記号推論による確率的プログラミング

SPPL: Probabilistic Programming with Fast Exact Symbolic Inference ( http://arxiv.org/abs/2010.03485v3 )

ライセンス: Link先を確認
Feras A. Saad, Martin C. Rinard, Vikash K. Mansinghka(参考訳) 我々は,確率的問合せに正確な解を自動的に提示する新しい確率的プログラミング言語であるsum-product probabilistic language (sppl)を提案する。 SPPLは確率的プログラムを、新しい記号表現と関連する意味領域である和積表現に変換し、混合型分布、数値変換、論理式、および点次および集合値制約をサポートする。 我々は,確率的プログラムから和生成表現への新しい翻訳戦略を通じてspplを定式化し,イベントの条件付けと計算のための正確なアルゴリズムを与える。 SPPLは、確率的プログラムに制約を課し、それらが総和積表現に変換できることを保証し、システムは確率的構造を自動で活用することで、翻訳と推論のスケーラビリティを改善するための新しい技術を活用することができる。 我々は,SPPLのプロトタイプをモジュールアーキテクチャで実装し,システム目標のベンチマークで評価し,決定木分類器の公平性検証,隠れマルコフモデルの平滑化,変換されたランダム変数の条件付け,まれな事象確率の計算などのタスクにおいて,最先端のシンボルシステムの最大3500倍の高速化が得られることを示す。

We present the Sum-Product Probabilistic Language (SPPL), a new probabilistic programming language that automatically delivers exact solutions to a broad range of probabilistic inference queries. SPPL translates probabilistic programs into sum-product expressions, a new symbolic representation and associated semantic domain that extends standard sum-product networks to support mixed-type distributions, numeric transformations, logical formulas, and pointwise and set-valued constraints. We formalize SPPL via a novel translation strategy from probabilistic programs to sum-product expressions and give sound exact algorithms for conditioning on and computing probabilities of events. SPPL imposes a collection of restrictions on probabilistic programs to ensure they can be translated into sum-product expressions, which allow the system to leverage new techniques for improving the scalability of translation and inference by automatically exploiting probabilistic structure. We implement a prototype of SPPL with a modular architecture and evaluate it on benchmarks the system targets, showing that it obtains up to 3500x speedups over state-of-the-art symbolic systems on tasks such as verifying the fairness of decision tree classifiers, smoothing hidden Markov models, conditioning transformed random variables, and computing rare event probabilities.
翻訳日:2022-10-09 23:03:26 公開日:2021-06-11
# BiPointNet: ポイントクラウドのためのバイナリニューラルネットワーク

BiPointNet: Binary Neural Network for Point Clouds ( http://arxiv.org/abs/2010.05501v4 )

ライセンス: Link先を確認
Haotong Qin, Zhongang Cai, Mingyuan Zhang, Yifu Ding, Haiyu Zhao, Shuai Yi, Xianglong Liu, Hao Su(参考訳) 本稿では,エッジデバイス上で動作するリアルタイムポイントクラウドアプリケーションのリソース制約を緩和するために,ポイントクラウド上で効率的なディープラーニングを実現する最初のモデルバイナリ化アプローチであるbipointnetを提案する。 点雲に対する双項化モデルの性能低下は, 情報エントロピーの低下につながるアグリゲーションによる特徴均質化と, 最適化を妨げ, スケールセンシティブな構造を無効化するスケール歪みの2つの課題に起因する。 理論的正当化と詳細な分析により,最大情報エントロピーの集約前の分布を変調するエントロピー最大集約(EMA)と,特徴表現能力を効率的に復元するレイヤワイド・スケール・リカバリ(LSR)を導入している。 大規模な実験により、BiPointNetは既存の二項化法よりもマージンを説得し、完全な精度に匹敵するレベルにおいて優れていることが示された。 当社のテクニックは汎用的で、さまざまな基本的なタスクと主流のバックボーンにおいて大幅な改善を保証しています。 さらに、bipointnetは14.7倍のスピードアップと18.9倍のストレージ節約を実現している。

To alleviate the resource constraint for real-time point cloud applications that run on edge devices, in this paper we present BiPointNet, the first model binarization approach for efficient deep learning on point clouds. We discover that the immense performance drop of binarized models for point clouds mainly stems from two challenges: aggregation-induced feature homogenization that leads to a degradation of information entropy, and scale distortion that hinders optimization and invalidates scale-sensitive structures. With theoretical justifications and in-depth analysis, our BiPointNet introduces Entropy-Maximizing Aggregation (EMA) to modulate the distribution before aggregation for the maximum information entropy, and Layer-wise Scale Recovery (LSR) to efficiently restore feature representation capacity. Extensive experiments show that BiPointNet outperforms existing binarization methods by convincing margins, at the level even comparable with the full precision counterpart. We highlight that our techniques are generic, guaranteeing significant improvements on various fundamental tasks and mainstream backbones. Moreover, BiPointNet gives an impressive 14.7x speedup and 18.9x storage saving on real-world resource-constrained devices.
翻訳日:2022-10-08 07:17:03 公開日:2021-06-11
# 長適応変圧器:一度は長減り、いつでも検索できる列車

Length-Adaptive Transformer: Train Once with Length Drop, Use Anytime with Search ( http://arxiv.org/abs/2010.07003v2 )

ライセンス: Link先を確認
Gyuwan Kim and Kyunghyun Cho(参考訳) トランスフォーマーの優れた精度にもかかわらず、計算コストはしばしば限られた計算資源での使用を禁じられている。 推論効率を改善するためのほとんどの以前のアプローチは、計算予算ごとに別々のモデルを必要とする。 本稿では,POWER-BERT(Goyal et al., 2020)を拡張し,一発訓練後に様々な推論シナリオに使用できる長適応変換器を提案する。 我々は、各層におけるシーケンス長を確率的に決定するドロップアウトの構造変種であるLngthDropで変換器を訓練する。 次に,多目的進化探索を行い,その精度を最大化し,任意の計算予算下での効率測定を最小化する長さ構成を求める。 さらに,POWER-BERTの適用性を,中間層に一時的にワードベクターをドロップし,必要に応じて最終層に復元するDrop-and-Restoreプロセスを用いて,シーケンスレベルの分類を超えてトークンレベルの分類に拡張する。 提案手法の有用性を実証的に検証し,スパンベースの質問応答やテキスト分類など,様々な設定において優れた精度と効率のトレードオフを示す。 コードはhttps://github.com/clovaai/length-adaptive-transformerで入手できる。

Despite transformers' impressive accuracy, their computational cost is often prohibitive to use with limited computational resources. Most previous approaches to improve inference efficiency require a separate model for each possible computational budget. In this paper, we extend PoWER-BERT (Goyal et al., 2020) and propose Length-Adaptive Transformer that can be used for various inference scenarios after one-shot training. We train a transformer with LengthDrop, a structural variant of dropout, which stochastically determines a sequence length at each layer. We then conduct a multi-objective evolutionary search to find a length configuration that maximizes the accuracy and minimizes the efficiency metric under any given computational budget. Additionally, we significantly extend the applicability of PoWER-BERT beyond sequence-level classification into token-level classification with Drop-and-Restore process that drops word-vectors temporarily in intermediate layers and restores at the last layer if necessary. We empirically verify the utility of the proposed approach by demonstrating the superior accuracy-efficiency trade-off under various setups, including span-based question answering and text classification. Code is available at https://github.com/clovaai/length-adaptive-transformer.
翻訳日:2022-10-07 12:35:19 公開日:2021-06-11
# 非同期 \epsilon-greedy bayesian 最適化

Asynchronous \epsilon-Greedy Bayesian Optimisation ( http://arxiv.org/abs/2010.07615v4 )

ライセンス: Link先を確認
George De Ath, Richard M. Everson, Jonathan E. Fieldsend(参考訳) バッチベイズ最適化(BO)は高価なブラックボックス関数の最適化に成功している。 非同期boは、新たな評価が完了するとすぐに開始することで、ウォールクロック時間を短縮し、リソース利用を最大化する。 資源割り当てを最大化するために, 強欲探索と代理平均予測を組み合わせた非同期BO法 AEGiS (Asynchronous $\epsilon$-Greedy Global Search) を開発した。 本稿では, AEGiS のベンチマーク問題, メタシュロゲートハイパーパラメータチューニング問題, 実世界の問題に対する効果を実証的に示すとともに, AEGiS が非同期BO の既存の手法よりも優れていることを示す。 単一のワーカーが利用できる場合、パフォーマンスは期待した改善を使ったboよりも悪くありません。

Batch Bayesian optimisation (BO) is a successful technique for the optimisation of expensive black-box functions. Asynchronous BO can reduce wallclock time by starting a new evaluation as soon as another finishes, thus maximising resource utilisation. To maximise resource allocation, we develop a novel asynchronous BO method, AEGiS (Asynchronous $\epsilon$-Greedy Global Search) that combines greedy search, exploiting the surrogate's mean prediction, with Thompson sampling and random selection from the approximate Pareto set describing the trade-off between exploitation (surrogate mean prediction) and exploration (surrogate posterior variance). We demonstrate empirically the efficacy of AEGiS on synthetic benchmark problems, meta-surrogate hyperparameter tuning problems and real-world problems, showing that AEGiS generally outperforms existing methods for asynchronous BO. When a single worker is available performance is no worse than BO using expected improvement.
翻訳日:2022-10-07 02:41:04 公開日:2021-06-11
# 高速かつ微分可能な画像合成による自律走行の物理的逆転例の探索

Finding Physical Adversarial Examples for Autonomous Driving with Fast and Differentiable Image Compositing ( http://arxiv.org/abs/2010.08844v2 )

ライセンス: Link先を確認
Jinghan Yang, Adith Boloor, Ayan Chakrabarti, Xuan Zhang, Yevgeniy Vorobeychik(参考訳) ディープニューラルネットワークが直接デジタル入力に適用される敵の摂動に弱いというかなりの証拠がある。 しかし、これが実際のシステムの脆弱性に翻訳するかどうかには疑問が残る。 例えば、自動運転車への攻撃は、実際には運転環境の変更を伴い、車両の制御装置へのビデオ入力に影響を与え、間接的に不正確な運転決定に繋がる。 このような攻撃には、システムのダイナミクスと視点の変化の追跡が必要である。 本稿では,環境変化(道路上の矩形)から制御ニューラルネットワークへの対応映像入力へのマッピングのための微分近似を用いて,シミュレーションされた自律走行環境の逆修正を見つけるためのスケーラブルなアプローチを提案する。 長方形のパラメータを考えると,提案する微分可能マッピングは,幾何学的および色彩的変動を考慮し,原環境の録画済みビデオストリームに合成する。 さらに,自動車の自己修正行動に対して,攻撃を堅牢にするための多軌道サンプリング手法を提案する。 ニューラルネットワークベースのコントローラと組み合わせることで、エンド・ツー・エンドの勾配に基づく最適化による逆修正の設計が可能になる。 carla autonomous driving simulatorを用いて,シミュレーション実験において,ベイズ最適化に基づく最先端のアプローチよりも,はるかにスケーラブルではるかに効果的であることを示す。

There is considerable evidence that deep neural networks are vulnerable to adversarial perturbations applied directly to their digital inputs. However, it remains an open question whether this translates to vulnerabilities in real systems. For example, an attack on self-driving cars would in practice entail modifying the driving environment, which then impacts the video inputs to the car's controller, thereby indirectly leading to incorrect driving decisions. Such attacks require accounting for system dynamics and tracking viewpoint changes. We propose a scalable approach for finding adversarial modifications of a simulated autonomous driving environment using a differentiable approximation for the mapping from environmental modifications (rectangles on the road) to the corresponding video inputs to the controller neural network. Given the parameters of the rectangles, our proposed differentiable mapping composites them onto pre-recorded video streams of the original environment, accounting for geometric and color variations. Moreover, we propose a multiple trajectory sampling approach that enables our attacks to be robust to a car's self-correcting behavior. When combined with a neural network-based controller, our approach allows the design of adversarial modifications through end-to-end gradient-based optimization. Using the Carla autonomous driving simulator, we show that our approach is significantly more scalable and far more effective at identifying autonomous vehicle vulnerabilities in simulation experiments than a state-of-the-art approach based on Bayesian Optimization.
翻訳日:2022-10-06 09:03:08 公開日:2021-06-11
# Hutch++: 最適な確率的トレース推定

Hutch++: Optimal Stochastic Trace Estimation ( http://arxiv.org/abs/2010.09649v5 )

ライセンス: Link先を確認
Raphael A. Meyer, Cameron Musco, Christopher Musco, David P. Woodruff(参考訳) 行列ベクトル乗算を通してのみアクセス可能な行列$A$のトレースを推定する問題について検討する。 我々は,任意の正半定値(PSD)$A$に対して,たったの$O(1/\epsilon)$行列ベクトル積を用いて,$(1 \pm \epsilon)$を$tr(A)$に近似する新しいランダム化アルゴリズムHutch++を導入する。 これによりユビキタスハッチンソンの推定値が向上し、O(1/\epsilon^2)$行列ベクトル積が要求される。 本手法は,hatchinsonの推定値のばらつきを低位近似ステップを用いて低減する簡単な手法に基づいており,実装および解析が容易である。 さらに, 対数係数において, Hutch++の複雑性は, クエリを適応的に選択しても, すべての行列ベクトルクエリアルゴリズムにおいて最適であることを示す。 実験ではハッチンソン法を著しく上回る結果を得た。 我々の理論は正の半定義であるために主に$a$を必要とするが、一般的な正方行列に対する一般化された保証を提供し、そのような応用において経験的成果を示す。

We study the problem of estimating the trace of a matrix $A$ that can only be accessed through matrix-vector multiplication. We introduce a new randomized algorithm, Hutch++, which computes a $(1 \pm \epsilon)$ approximation to $tr(A)$ for any positive semidefinite (PSD) $A$ using just $O(1/\epsilon)$ matrix-vector products. This improves on the ubiquitous Hutchinson's estimator, which requires $O(1/\epsilon^2)$ matrix-vector products. Our approach is based on a simple technique for reducing the variance of Hutchinson's estimator using a low-rank approximation step, and is easy to implement and analyze. Moreover, we prove that, up to a logarithmic factor, the complexity of Hutch++ is optimal amongst all matrix-vector query algorithms, even when queries can be chosen adaptively. We show that it significantly outperforms Hutchinson's method in experiments. While our theory mainly requires $A$ to be positive semidefinite, we provide generalized guarantees for general square matrices, and show empirical gains in such applications.
翻訳日:2022-10-05 23:26:18 公開日:2021-06-11
# ベストアーム識別のための量子帯域

Quantile Bandits for Best Arms Identification ( http://arxiv.org/abs/2010.11568v2 )

ライセンス: Link先を確認
Mengyan Zhang and Cheng Soon Ong(参考訳) 確率的マルチアームバンディットにおける最適な腕識別タスクの変種を考察する。 リスク回避的な意思決定問題に動機づけられた我々の目標は、固定予算内で最も高い$\tau$-quantile値を持つ1組の$m$armを特定することです。 非減少ハザード率を持つ確率変数の順序統計および量子化に対する非対称な両側濃度不等式は、独立な関心を持つ可能性がある。 これらの不等式により、逐次アクセプション・アンド・リジェクト(Q-SAR)の量子バージョンを分析する。 我々は,固定予算複数腕識別のための分位数に基づくアルゴリズムの最初の正当化である腕誤認の確率の上限を導出する。 最善の腕の識別実験を例示する。

We consider a variant of the best arm identification task in stochastic multi-armed bandits. Motivated by risk-averse decision-making problems, our goal is to identify a set of $m$ arms with the highest $\tau$-quantile values within a fixed budget. We prove asymmetric two-sided concentration inequalities for order statistics and quantiles of random variables that have non-decreasing hazard rate, which may be of independent interest. With these inequalities, we analyse a quantile version of Successive Accepts and Rejects (Q-SAR). We derive an upper bound for the probability of arm misidentification, the first justification of a quantile based algorithm for fixed budget multiple best arms identification. We show illustrative experiments for best arm identification.
翻訳日:2022-10-04 07:16:19 公開日:2021-06-11
# 予測不確実性推定のロバスト性評価:dirichlet-based modelは信頼できるか?

Evaluating Robustness of Predictive Uncertainty Estimation: Are Dirichlet-based Models Reliable? ( http://arxiv.org/abs/2010.14986v2 )

ライセンス: Link先を確認
Anna-Kathrin Kopetzki, Bertrand Charpentier, Daniel Z\"ugner, Sandhya Giri, Stephan G\"unnemann(参考訳) dirichlet-based uncertainty (dbu)モデルは、最近で有望な不確実性認識モデルのクラスである。 DBUモデルはディリクレ分布のパラメータを予測し、クラス予測とともに高速で高品質な不確実性推定を提供する。 本研究では,DBUモデルの敵攻撃時のロバスト性について,大規模かつ詳細な研究を行った。 以上の結果から, dbuモデルの不確実性推定は, (1) 正しく, 誤って分類されたサンプルを示すこと, (2) 逆例の検出, (3) 分布内 (id) と分布外 (ood) データを区別することの3つの重要な課題である。 さらに、DBUモデルをより堅牢にするための最初のアプローチについても検討する。 対向訓練は軽微な効果があるが、我々の中央スムーシングに基づくアプローチはDBUモデルのロバスト性を大幅に向上させる。

Dirichlet-based uncertainty (DBU) models are a recent and promising class of uncertainty-aware models. DBU models predict the parameters of a Dirichlet distribution to provide fast, high-quality uncertainty estimates alongside with class predictions. In this work, we present the first large-scale, in-depth study of the robustness of DBU models under adversarial attacks. Our results suggest that uncertainty estimates of DBU models are not robust w.r.t. three important tasks: (1) indicating correctly and wrongly classified samples; (2) detecting adversarial examples; and (3) distinguishing between in-distribution (ID) and out-of-distribution (OOD) data. Additionally, we explore the first approaches to make DBU models more robust. While adversarial training has a minor effect, our median smoothing based approach significantly increases robustness of DBU models.
翻訳日:2022-10-02 04:55:30 公開日:2021-06-11
# 遺伝的U-Net:遺伝的アルゴリズムを用いた網膜血管セグメンテーションのためのDeep Networkの自動設計

Genetic U-Net: Automatically Designed Deep Networks for Retinal Vessel Segmentation Using a Genetic Algorithm ( http://arxiv.org/abs/2010.15560v4 )

ライセンス: Link先を確認
Jiahong Wei, Zhun Fan(参考訳) 近年,手作り畳み型畳み込みニューラルネットワーク(cnns)に基づく手法が網膜血管の自動分割に有望な結果をもたらしている。 しかし、これらのCNNは複雑な眼底画像で網膜血管を捉えることに制約が残っている。 セグメンテーション性能を向上させるために、これらのcnnには多くのパラメータがあり、オーバーフィッティングと高い計算複雑性をもたらす可能性がある。 さらに、競合するcnnの手動設計は時間がかかり、広範な経験的知識を必要とする。 本稿では, 網膜血管のセグメンテーションが向上するが, アーキテクチャに基づくパラメータは少ないu字型cnnを生成するために, 遺伝的u-netと呼ばれる新しい自動設計法を提案する。 まず, u字型エンコーダデコーダに基づく, 凝縮かつ柔軟な探索空間を考案した。 次に,改良された遺伝的アルゴリズムを用いて検索空間における優れたアーキテクチャを同定し,より少ないパラメータで優れたネットワークアーキテクチャを探索する可能性について検討した。 実験結果から,提案手法を用いて得られたアーキテクチャは,元のU-Netパラメータの1%以下で,他の最先端モデルに比べて有意に少ない性能を示した。 さらに,実験結果の詳細な調査を通じて,優れた網膜血管セグメンテーションを生成するためのネットワークの動作とパターンを同定した。

Recently, many methods based on hand-designed convolutional neural networks (CNNs) have achieved promising results in automatic retinal vessel segmentation. However, these CNNs remain constrained in capturing retinal vessels in complex fundus images. To improve their segmentation performance, these CNNs tend to have many parameters, which may lead to overfitting and high computational complexity. Moreover, the manual design of competitive CNNs is time-consuming and requires extensive empirical knowledge. Herein, a novel automated design method, called Genetic U-Net, is proposed to generate a U-shaped CNN that can achieve better retinal vessel segmentation but with fewer architecture-based parameters, thereby addressing the above issues. First, we devised a condensed but flexible search space based on a U-shaped encoder-decoder. Then, we used an improved genetic algorithm to identify better-performing architectures in the search space and investigated the possibility of finding a superior network architecture with fewer parameters. The experimental results show that the architecture obtained using the proposed method offered a superior performance with less than 1% of the number of the original U-Net parameters in particular and with significantly fewer parameters than other state-of-the-art models. Furthermore, through in-depth investigation of the experimental results, several effective operations and patterns of networks to generate superior retinal vessel segmentations were identified.
翻訳日:2022-10-01 23:38:24 公開日:2021-06-11
# マルチエージェント強化学習における学習のためのポリシー勾配アルゴリズム

A Policy Gradient Algorithm for Learning to Learn in Multiagent Reinforcement Learning ( http://arxiv.org/abs/2011.00382v5 )

ライセンス: Link先を確認
Dong-Ki Kim, Miao Liu, Matthew Riemer, Chuangchuang Sun, Marwa Abdulhai, Golnaz Habibi, Sebastian Lopez-Cot, Gerald Tesauro, Jonathan P. How(参考訳) マルチエージェント強化学習における基本的な課題は、他の同時学習エージェントと共有環境で有益な行動を学ぶことである。 特に、各エージェントは、他のエージェントのポリシーの変更により、環境を効果的に非定常であると認識する。 さらに、各エージェントは絶えず学習し、遭遇した経験の分布に自然な非定常性をもたらす。 本稿では,マルチエージェント学習に固有の非定常ポリシーダイナミクスを直接考慮した,メタマルチエージェントポリシー勾配定理を提案する。 これは、エージェント自身の非定常ポリシーダイナミクスと、環境内の他のエージェントの非定常ポリシーダイナミクスの両方を考慮するために、勾配更新をモデル化することによって達成される。 提案手法は,本トピックにおける先行技術アプローチのすべての重要な側面を本質的に包含するマルチエージェント学習問題に対する汎用的な解法であることを示す。 我々は,様々なマルチエージェントベンチマークを用いて本手法をテストし,混合インセンティブ,競合性,協調的ドメインの完全な範囲において,ベースライン法よりも新しいエージェントに適応する効率のよい能力を示す。

A fundamental challenge in multiagent reinforcement learning is to learn beneficial behaviors in a shared environment with other simultaneously learning agents. In particular, each agent perceives the environment as effectively non-stationary due to the changing policies of other agents. Moreover, each agent is itself constantly learning, leading to natural non-stationarity in the distribution of experiences encountered. In this paper, we propose a novel meta-multiagent policy gradient theorem that directly accounts for the non-stationary policy dynamics inherent to multiagent learning settings. This is achieved by modeling our gradient updates to consider both an agent's own non-stationary policy dynamics and the non-stationary policy dynamics of other agents in the environment. We show that our theoretically grounded approach provides a general solution to the multiagent learning problem, which inherently comprises all key aspects of previous state of the art approaches on this topic. We test our method on a diverse suite of multiagent benchmarks and demonstrate a more efficient ability to adapt to new agents as they learn than baseline methods across the full spectrum of mixed incentive, competitive, and cooperative domains.
翻訳日:2022-10-01 04:39:05 公開日:2021-06-11
# 電子健康記録データから短期・長期入院成果を予測するための知識蒸留アンサンブルフレームワーク

A Knowledge Distillation Ensemble Framework for Predicting Short and Long-term Hospitalisation Outcomes from Electronic Health Records Data ( http://arxiv.org/abs/2011.09361v2 )

ライセンス: Link先を確認
Zina M Ibrahim, Daniel Bean, Thomas Searle, Honghan Wu, Anthony Shek, Zeljko Kraljevic, James Galloway, Sam Norton, James T Teo, Richard JB Dobson(参考訳) 患者の正確な予後を示す能力は、積極的な臨床意思決定、情報資源管理、パーソナライズドケアに不可欠である。 既存の結果予測モデルは、頻繁な結果の低いリコールに悩まされる。 病院入所後24時間以内に得られた経時的生命徴候および検査結果から死亡率およびicu入所率に代表される逆行性を自動的に予測する、高度にスケーラブルでロバストな機械学習フレームワークを提案する。 プラットフォームは2つのコンポーネントから構成される。 a) 時系列の最適な表現を学習する教師なしのlstmオートエンコーダで、それを用いて、有害な事象で終わる頻度の低いパターンとそうでない多数派パターンとを区別する。 ロ 人口統計、入院状況及び臨床概要の静的特徴を組み込んだ予測を洗練するために構築された表現に依存する勾配促進モデル このモデルは、患者の逆境のリスクを時間とともに評価し、患者の静的特徴と動的信号に基づいて、その予測の視覚的正当性を提供する。 死亡予測とICU入院の3つのケーススタディの結果,ICU入院予測ではPR-AUCが0.891 (95$%$ CI: 0.878 - 0.969) ,ICU入院予測では0.908 (95$%$ CI: 0.870-0.935) であった。

The ability to perform accurate prognosis of patients is crucial for proactive clinical decision making, informed resource management and personalised care. Existing outcome prediction models suffer from a low recall of infrequent positive outcomes. We present a highly-scalable and robust machine learning framework to automatically predict adversity represented by mortality and ICU admission from time-series vital signs and laboratory results obtained within the first 24 hours of hospital admission. The stacked platform comprises two components: a) an unsupervised LSTM Autoencoder that learns an optimal representation of the time-series, using it to differentiate the less frequent patterns which conclude with an adverse event from the majority patterns that do not, and b) a gradient boosting model, which relies on the constructed representation to refine prediction, incorporating static features of demographics, admission details and clinical summaries. The model is used to assess a patient's risk of adversity over time and provides visual justifications of its prediction based on the patient's static features and dynamic signals. Results of three case studies for predicting mortality and ICU admission show that the model outperforms all existing outcome prediction models, achieving PR-AUC of 0.891 (95$%$ CI: 0.878 - 0.969) in predicting mortality in ICU and general ward settings and 0.908 (95$%$ CI: 0.870-0.935) in predicting ICU admission.
翻訳日:2022-09-24 05:14:39 公開日:2021-06-11
# 画像文書強調のためのディープニューラルネットワークの評価

Evaluating Deep Neural Networks for Image Document Enhancement ( http://arxiv.org/abs/2106.15286v1 )

ライセンス: Link先を確認
Lucas N. Kirsten, Ricardo Piccoli and Ricardo Ribani(参考訳) 本研究は,6つの最先端のディープニューラルネットワーク(DNN)アーキテクチャを,カメラキャプチャドドキュメンテーション画像の高精細化問題に適用した。 各ネットワークの結果は、画像品質評価(IQA)メトリクスを用いて定性的かつ定量的に評価され、従来のコンピュータビジョン技術に基づく既存手法と比較された。 最高の性能を持つアーキテクチャは、既存のアルゴリズムと比較して優れた拡張を実現し、文書画像の強化にDNNを使用することが可能であることを示した。 さらに、最高のアーキテクチャは、深層学習技術を用いた文書強化に関する将来の調査のベースラインとして機能する可能性がある。 本論文の主な貢献は、より優れた結果を得るためにさらに改善できるディープラーニング技術のベースラインと、ニューラルネットワークから生成された画像と地上の真実とを定量的に比較するためのIQAメトリクスを用いた評価手法である。

This work evaluates six state-of-the-art deep neural network (DNN) architectures applied to the problem of enhancing camera-captured document images. The results from each network were evaluated both qualitatively and quantitatively using Image Quality Assessment (IQA) metrics, and also compared with an existing approach based on traditional computer vision techniques. The best performing architectures generally produced good enhancement compared to the existing algorithm, showing that it is possible to use DNNs for document image enhancement. Furthermore, the best performing architectures could work as a baseline for future investigations on document enhancement using deep learning techniques. The main contributions of this paper are: a baseline of deep learning techniques that can be further improved to provide better results, and a evaluation methodology using IQA metrics for quantitatively comparing the produced images from the neural networks to a ground truth.
翻訳日:2021-07-04 19:39:50 公開日:2021-06-11
# 脳波復号のためのトランスフォーマーを用いた時空間特徴学習

Transformer-based Spatial-Temporal Feature Learning for EEG Decoding ( http://arxiv.org/abs/2106.11170v1 )

ライセンス: Link先を確認
Yonghao Song, Xueyu Jia, Lie Yang, Longhan Xie(参考訳) 現在、人々は通常、脳波デコードのための畳み込みニューラルネットワーク(CNN)に基づくいくつかの手法を使っている。 しかし、CNNはグローバルな依存関係を認識するのに制限があるため、全体的な関係が強い一般的なEEGパラダイムには不十分である。 本稿では,主に注意機構に依存する新しい脳波復号法を提案する。 EEGデータは、まず前処理され、空間的にフィルタリングされる。 そして,特徴チャネル次元に注意変換を適用し,モデルがより関連性の高い空間的特徴を向上できるようにする。 最も重要なステップは、注意変換のために時間次元のデータをスライスし、最終的に非常に識別可能な表現を得ることです。 このとき、グローバル平均プールと単純な完全接続層を使用して、脳波データの異なるカテゴリを分類する。 2つの公開データセットの実験は、注意変換の戦略が空間的特徴と時間的特徴を効果的に活用していることを示している。 そして我々は、より少ないパラメータで、EEGのマルチクラス化における最先端のレベルに達しました。 私たちが知る限り、この分野でトランスフォーマーのアイデアに基づく詳細かつ完全な方法が提案されたのは初めてである。 脳-コンピュータインタフェース(BCI)の実用性を促進する可能性がある。 ソースコードは \textit{https://github.com/anranknight/eeg-transformer} で見ることができる。

At present, people usually use some methods based on convolutional neural networks (CNNs) for Electroencephalograph (EEG) decoding. However, CNNs have limitations in perceiving global dependencies, which is not adequate for common EEG paradigms with a strong overall relationship. Regarding this issue, we propose a novel EEG decoding method that mainly relies on the attention mechanism. The EEG data is firstly preprocessed and spatially filtered. And then, we apply attention transforming on the feature-channel dimension so that the model can enhance more relevant spatial features. The most crucial step is to slice the data in the time dimension for attention transforming, and finally obtain a highly distinguishable representation. At this time, global averaging pooling and a simple fully-connected layer are used to classify different categories of EEG data. Experiments on two public datasets indicate that the strategy of attention transforming effectively utilizes spatial and temporal features. And we have reached the level of the state-of-the-art in multi-classification of EEG, with fewer parameters. As far as we know, it is the first time that a detailed and complete method based on the transformer idea has been proposed in this field. It has good potential to promote the practicality of brain-computer interface (BCI). The source code can be found at: \textit{https://github.com/anranknight/EEG-Transformer}.
翻訳日:2021-06-27 09:05:25 公開日:2021-06-11
# 安定性を考慮したクラスタリングのための微分プライベートアルゴリズム

Differentially Private Algorithms for Clustering with Stability Assumptions ( http://arxiv.org/abs/2106.12959v1 )

ライセンス: Link先を確認
Moshe Shechner(参考訳) 入力安定性仮定下での微分プライベートクラスタリングの問題について検討する。 一般の差分プライバシー、特に差分プライベートクラスタリングに関する研究は増え続けているが、3つの研究(Nissim et al)しかない。 2007年、wangら。 2015年、Huangら。 2018年) プライベートクラスタリング"nice" k-meansインスタンスの問題に目を向けると、サンプル・アンド・アグリゲーションフレームワークと3つの測定ユーティリティすべてに依存する3つのすべてが、真のクラスタ中心とプライベートアルゴリズムによって返されたセンターとの間のwasserstein距離という観点で問題に目を向ける。 この作業では、複数の軸上のこの一連の作業を改善する。 安定な入力をクラスタリングするアルゴリズム(サンプル・アンド・アグリゲートフレームワークに依存しない)を提案し,その実用性をワッサーシュタイン距離とk平均コストの両方で解析する。 さらに,本アルゴリズムは,k-medianインスタンスの「ニッチ」と差分プライバシの局所モデルに対するストレートフォワード類似性を有する。

We study the problem of differentially private clustering under input-stability assumptions. Despite the ever-growing volume of works on differential privacy in general and differentially private clustering in particular, only three works (Nissim et al. 2007, Wang et al. 2015, Huang et al. 2018) looked at the problem of privately clustering "nice" k-means instances, all three relying on the sample-and-aggregate framework and all three measuring utility in terms of Wasserstein distance between the true cluster centers and the centers returned by the private algorithm. In this work we improve upon this line of works on multiple axes. We present a far simpler algorithm for clustering stable inputs (not relying on the sample-and-aggregate framework), and analyze its utility in both the Wasserstein distance and the k-means cost. Moreover, our algorithm has straight-forward analogues for "nice" k-median instances and for the local-model of differential privacy.
翻訳日:2021-06-27 09:04:49 公開日:2021-06-11
# 高エンディングシーレベルハザードのパラメトリックドライバの進化の解析

Analysis of the Evolution of Parametric Drivers of High-End Sea-Level Hazards ( http://arxiv.org/abs/2106.12041v1 )

ライセンス: Link先を確認
Alana Hough and Tony E. Wong(参考訳) 気候モデルは、沿岸社会への海面上昇によるリスクを管理する戦略を開発するための重要なツールである。 これらのモデルは気候リスクを理解するために必要であるが、モデル内の各パラメータに固有の不確実性レベルが存在する。 このモデルパラメトリック不確実性は、将来の気候リスクの不確実性につながる。 その結果、これらのパラメータの不確実性が将来の気候変動リスクの評価とそれを管理するための戦略の有効性にどのように影響するかを理解する必要がある。 ここでは、ランダムな森林を用いて、将来の気候リスクのパラメトリックな要因と、それらのドライバーの相対的重要性が時間とともにどのように変化するかを調べる。 その結果,2020年から2150年の間,低放射強制シナリオと高放射強制シナリオの両方において,エアロゾルが放射強制に与える影響が,最も重要な気候モデルパラメトリック不確実性であることがわかった。 高温海面上昇の短期的危険は主に熱膨張によって引き起こされ、長期的危険は南極氷床とグリーンランド氷床からの大量損失と関連している。 本研究は,今後の気候変動リスク管理戦略の開発において,時間的パラメトリック不確実性を考慮することの重要性を強調した。

Climate models are critical tools for developing strategies to manage the risks posed by sea-level rise to coastal communities. While these models are necessary for understanding climate risks, there is a level of uncertainty inherent in each parameter in the models. This model parametric uncertainty leads to uncertainty in future climate risks. Consequently, there is a need to understand how those parameter uncertainties impact our assessment of future climate risks and the efficacy of strategies to manage them. Here, we use random forests to examine the parametric drivers of future climate risk and how the relative importances of those drivers change over time. We find that the equilibrium climate sensitivity and a factor that scales the effect of aerosols on radiative forcing are consistently the most important climate model parametric uncertainties throughout the 2020 to 2150 interval for both low and high radiative forcing scenarios. The near-term hazards of high-end sea-level rise are driven primarily by thermal expansion, while the longer-term hazards are associated with mass loss from the Antarctic and Greenland ice sheets. Our results highlight the practical importance of considering time-evolving parametric uncertainties when developing strategies to manage future climate risks.
翻訳日:2021-06-27 09:04:03 公開日:2021-06-11
# RefBERT: 事前計算された表現を参照してBERTを圧縮する

RefBERT: Compressing BERT by Referencing to Pre-computed Representations ( http://arxiv.org/abs/2106.08898v1 )

ライセンス: Link先を確認
Xinyi Wang, Haiqin Yang, Liang Zhao, Yang Mo, Jianping Shen(参考訳) 最近開発された大規模事前学習型言語モデル(bertなど)は、下流の多くの自然言語処理アプリケーションで顕著な性能を達成している。 これらの事前訓練された言語モデルは、しばしば数億のパラメータを含み、現実世界のアプリケーションでは高い計算と遅延に悩まされる。 下流アプリケーションにおけるモデル性能を維持しつつ、高速なトレーニングと推論のためのモデルの計算オーバーヘッドを低減することが望ましい。 いくつかの作品が知識蒸留を利用して教師モデルをより小さな生徒モデルに圧縮している。 しかし、彼らは通常、推論において教師の知識を捨てる。 そこで,本論文では,教師から学んだ知識を活用し,参照サンプル上の事前計算されたbert表現の促進と,bertをより小さな学生モデルに圧縮するrefbertを提案する。 この提案を保証するため、損失関数と参照サンプルの使用に関する理論的正当性を提供する。 理論的な結果から,教師の参照サンプルへの表現を含むと,生徒モデル学習における相互情報が増えることが示唆された。 最後に、実証的な評価を行い、我々のRefBERTがバニラTinyBERTを8.1 %以上上回り、GLUEベンチマークで$\BERTBASE$の94 %以上のパフォーマンスを達成することを示す。 一方、RefBERTは、BERT$_{\rm BASE}$よりも7.4倍小さく、推論では9.5倍高速である。

Recently developed large pre-trained language models, e.g., BERT, have achieved remarkable performance in many downstream natural language processing applications. These pre-trained language models often contain hundreds of millions of parameters and suffer from high computation and latency in real-world applications. It is desirable to reduce the computation overhead of the models for fast training and inference while keeping the model performance in downstream applications. Several lines of work utilize knowledge distillation to compress the teacher model to a smaller student model. However, they usually discard the teacher's knowledge when in inference. Differently, in this paper, we propose RefBERT to leverage the knowledge learned from the teacher, i.e., facilitating the pre-computed BERT representation on the reference sample and compressing BERT into a smaller student model. To guarantee our proposal, we provide theoretical justification on the loss function and the usage of reference samples. Significantly, the theoretical result shows that including the pre-computed teacher's representations on the reference samples indeed increases the mutual information in learning the student model. Finally, we conduct the empirical evaluation and show that our RefBERT can beat the vanilla TinyBERT over 8.1\% and achieves more than 94\% of the performance of $\BERTBASE$ on the GLUE benchmark. Meanwhile, RefBERT is 7.4x smaller and 9.5x faster on inference than BERT$_{\rm BASE}$.
翻訳日:2021-06-20 16:14:32 公開日:2021-06-11
# 音響モデルのスケーリング法則

Scaling Laws for Acoustic Models ( http://arxiv.org/abs/2106.09488v1 )

ライセンス: Link先を確認
Jasha Droppo and Oguz Elibol(参考訳) 機械学習は、これまで不合理と考えられていたサイズにモデルを成長させることで、モデル品質を向上させる傾向にある。 近年の研究では、クロスエントロピー目的関数を持つ自己回帰生成モデルは、モデルサイズ、トレーニングセットサイズ、利用可能な計算予算からモデル品質を予測するスムーズな権力-法則(スケーリング法則)を示すことが示されている。 これらのスケーリング法則により、利用可能なトレーニングデータ、モデルパラメータ数、あるいはトレーニング計算予算に制約を課した、ほぼ最適なハイパーパラメータを選択することができる。 本稿では,自動予測符号損失で訓練された音響モデルが,類似のスケーリング法則に従うかのように振る舞うことを示す。 従来の作業は、モデルサイズによる損失を共同で予測し、セットサイズをトレーニングし、タスクの固有の「既約損失」に拡張します。 スケーリング則は,モデルサイズとトレーニングセットサイズの両方において,2桁以上のモデル性能と正確に一致し,モデル性能の限界を予測できることがわかった。

There is a recent trend in machine learning to increase model quality by growing models to sizes previously thought to be unreasonable. Recent work has shown that autoregressive generative models with cross-entropy objective functions exhibit smooth power-law relationships, or scaling laws, that predict model quality from model size, training set size, and the available compute budget. These scaling laws allow one to choose nearly optimal hyper-parameters given constraints on available training data, model parameter count, or training computation budget. In this paper, we demonstrate that acoustic models trained with an auto-predictive coding loss behave as if they are subject to similar scaling laws. We extend previous work to jointly predict loss due to model size, to training set size, and to the inherent "irreducible loss" of the task. We find that the scaling laws accurately match model performance over two orders of magnitude in both model size and training set size, and make predictions about the limits of model performance.
翻訳日:2021-06-20 16:13:41 公開日:2021-06-11
# ModelDiff: モデル再利用検出のためのテストベースDNN類似度比較

ModelDiff: Testing-Based DNN Similarity Comparison for Model Reuse Detection ( http://arxiv.org/abs/2106.08890v1 )

ライセンス: Link先を確認
Yuanchun Li, Ziqi Zhang, Bingyan Liu, Ziyue Yang, and Yunxin Liu(参考訳) ディープラーニングモデルの知識は学生モデルに移され、知的財産権侵害や脆弱性の伝播につながる可能性がある。 このような知識の再利用の検出は、疑うモデルがホワイトボックスにアクセスできない場合や、異なるタスクをこなす場合があるため、簡単ではない。 本稿では,ディープラーニングモデル類似性比較のためのテストベースアプローチであるModelDiffを提案する。 2つのモデルの重み、アクティベーション、アウトプットを直接比較する代わりに、同じテスト入力のセットでそれらの振る舞いパターンを比較します。 具体的には、モデルの行動パターンは決定距離ベクトル(DDV)として表現され、各要素はモデルの反応と入力の対の間の距離である。 2つのモデル間の知識類似度は、DDV間のコサイン類似度で測定される。 ModelDiffを評価するために、転送学習、モデル圧縮、モデル盗難など、最も一般的なモデルの再利用方法をカバーする144組のモデルを含むベンチマークを作成しました。 本手法は,モデル再利用検出にモデル差分を用いた場合の有効性を示すベンチマークで91.7%の精度を得た。 モバイルディープラーニングアプリの研究は、現実世界のモデルにおけるModelDiffの可能性を示している。

The knowledge of a deep learning model may be transferred to a student model, leading to intellectual property infringement or vulnerability propagation. Detecting such knowledge reuse is nontrivial because the suspect models may not be white-box accessible and/or may serve different tasks. In this paper, we propose ModelDiff, a testing-based approach to deep learning model similarity comparison. Instead of directly comparing the weights, activations, or outputs of two models, we compare their behavioral patterns on the same set of test inputs. Specifically, the behavioral pattern of a model is represented as a decision distance vector (DDV), in which each element is the distance between the model's reactions to a pair of inputs. The knowledge similarity between two models is measured with the cosine similarity between their DDVs. To evaluate ModelDiff, we created a benchmark that contains 144 pairs of models that cover most popular model reuse methods, including transfer learning, model compression, and model stealing. Our method achieved 91.7% correctness on the benchmark, which demonstrates the effectiveness of using ModelDiff for model reuse detection. A study on mobile deep learning apps has shown the feasibility of ModelDiff on real-world models.
翻訳日:2021-06-20 16:13:24 公開日:2021-06-11
# 再帰的特徴除去と勾配強調法による心血管疾患予測

Cardiovascular Disease Prediction using Recursive Feature Elimination and Gradient Boosting Classification Techniques ( http://arxiv.org/abs/2106.08889v1 )

ライセンス: Link先を確認
Prasannavenkatesan Theerthagiri, Vidya J(参考訳) 心臓血管疾患(cvds)は、人の健康に影響を与える最も一般的な慢性疾患の1つである。 CVDの早期検出は、病気の重症度を予防または軽減することにより死亡率を低下させる。 機械学習アルゴリズムはリスク要因を特定するための有望な方法である。 本稿では, 心疾患の予測精度を高めるために, 再帰的特徴除去型勾配増強法 (RFE-GB) を提案する。 CVDに重要な特徴を持つ患者の健康記録を, 評価のために分析した。 予測モデルの構築には他にもいくつかの機械学習手法が用いられ、その結果は提案モデルと比較された。 このモデルにより,再帰的特徴除去法と勾配促進法を組み合わせることで,最大精度(89.7%)が得られた。 さらに、曲線0.84以下の領域では、提案した RFE-GB アルゴリズムの方が優れており、他の手法よりもかなりの利得を得た。 したがって、提案したRFE-GBアルゴリズムはCVD推定と処理の顕著なモデルとして機能する。

Cardiovascular diseases (CVDs) are one of the most common chronic illnesses that affect peoples health. Early detection of CVDs can reduce mortality rates by preventing or reducing the severity of the disease. Machine learning algorithms are a promising method for identifying risk factors. This paper proposes a proposed recursive feature elimination-based gradient boosting (RFE-GB) algorithm in order to obtain accurate heart disease prediction. The patients health record with important CVD features has been analyzed for the evaluation of the results. Several other machine learning methods were also used to build the prediction model, and the results were compared with the proposed model. The results of this proposed model infer that the combined recursive feature elimination and gradient boosting algorithm achieves the highest accuracy (89.7 %). Further, with an area under the curve of 0.84, the proposed RFE-GB algorithm was found superior and had obtained a substantial gain over other techniques. Thus, the proposed RFE-GB algorithm will serve as a prominent model for CVD estimation and treatment.
翻訳日:2021-06-20 16:12:29 公開日:2021-06-11
# (参考訳) グラフコントラスト学習改善のための逆グラフ拡張

Adversarial Graph Augmentation to Improve Graph Contrastive Learning ( http://arxiv.org/abs/2106.05819v2 )

ライセンス: CC BY 4.0
Susheel Suresh, Pan Li, Cong Hao, Jennifer Neville(参考訳) グラフニューラルネットワーク(gnn)の自己教師付き学習は,実世界のグラフ/ネットワークデータにおけるラベル不足の問題から,非常に必要とされている。 グラフコントラスト学習(GCL)は、GNNを訓練して、異なる拡張形式における同じグラフの表現間の対応を最大化することにより、ラベルを使わずに堅牢で転送可能なGNNが得られる。 しかし、従来のGCLによって訓練されたGNNは、冗長なグラフ特徴をキャプチャするリスクがしばしばあるため、不安定であり、下流タスクでサブパーのパフォーマンスを提供する。 本稿では,GCLにおける逆グラフ拡張戦略を最適化することにより,GNNがトレーニング中に冗長な情報を捕捉することを回避できる新しい原理であるAD-GCLを提案する。 ad-gclを理論的な説明と組み合わせ、訓練可能なエッジドロップグラフ拡張に基づく実用的なインスタンス化を設計する。 我々は、AD-GCL法を最先端のGCL法と比較し、分子特性の回帰と分類、およびソーシャルネットワーク分類のタスクに関する18種類のベンチマークデータセットを用いて、教師なし学習における最大14\%、転送時の6\%、および半教師付き学習環境における3\%のパフォーマンス向上を実験的に検証した。

Self-supervised learning of graph neural networks (GNN) is in great need because of the widespread label scarcity issue in real-world graph/network data. Graph contrastive learning (GCL), by training GNNs to maximize the correspondence between the representations of the same graph in its different augmented forms, may yield robust and transferable GNNs even without using labels. However, GNNs trained by traditional GCL often risk capturing redundant graph features and thus may be brittle and provide sub-par performance in downstream tasks. Here, we propose a novel principle, termed adversarial-GCL (AD-GCL), which enables GNNs to avoid capturing redundant information during the training by optimizing adversarial graph augmentation strategies used in GCL. We pair AD-GCL with theoretical explanations and design a practical instantiation based on trainable edge-dropping graph augmentation. We experimentally validate AD-GCL by comparing with the state-of-the-art GCL methods and achieve performance gains of up-to $14\%$ in unsupervised, $6\%$ in transfer, and $3\%$ in semi-supervised learning settings overall with 18 different benchmark datasets for the tasks of molecule property regression and classification, and social network classification.
翻訳日:2021-06-20 05:32:02 公開日:2021-06-11
# (参考訳) ラベルなしモデル選択による時系列異常検出

Time Series Anomaly Detection with label-free Model Selection ( http://arxiv.org/abs/2106.07473v1 )

ライセンス: CC BY 4.0
Deokwoo Jung, Nandini Ramanan, Mehrnaz Amjadi, Sankeerth Rao Karingula, Jake Taylor, and Claudionor Nunes Coelho Jr(参考訳) 時系列データの異常検出は多くのデータ駆動アプリケーションにとって必須のタスクとなり、大量のデータと機械学習アルゴリズムを駆使する。 多くの現実世界において、信頼性の高い異常モデルの開発は、異常ラベルの不足と異常の例を得るのに非常にコストがかかるため、非常に困難である。 モデル選択とパラメータチューニングのモデル品質を評価するために、重大なボトルネックが課される。 その結果、既存の異常検出アルゴリズムの多くは、デプロイ後に約束されたパフォーマンスを示すことができない。 本稿では,ラベルなし時系列データに対するラベルなしモデル選択を用いた新しい異常検出アルゴリズムlaf-adを提案する。 提案アルゴリズムは,多数のパラメトリックモデルに対して完全に教師なしのアンサンブル学習を行う。 ブートストラップ法を用いて,異常確率の感度を定量化するモデル分散メトリックを開発した。 そして,モデル分散を用いたモデル学習者による異常事象の集合的決定を行う。 我々のアルゴリズムは容易に並列化でき、不調データや季節データに対してより堅牢であり、多数の異常モデルに対して高度にスケーラブルである。 提案アルゴリズムは,合成ドメインおよびベンチマーク公開データセット上の他の最先端手法と比較して評価する。

Anomaly detection for time-series data becomes an essential task for many data-driven applications fueled with an abundance of data and out-of-the-box machine-learning algorithms. In many real-world settings, developing a reliable anomaly model is highly challenging due to insufficient anomaly labels and the prohibitively expensive cost of obtaining anomaly examples. It imposes a significant bottleneck to evaluate model quality for model selection and parameter tuning reliably. As a result, many existing anomaly detection algorithms fail to show their promised performance after deployment. In this paper, we propose LaF-AD, a novel anomaly detection algorithm with label-free model selection for unlabeled times-series data. Our proposed algorithm performs a fully unsupervised ensemble learning across a large number of candidate parametric models. We develop a model variance metric that quantifies the sensitivity of anomaly probability with a bootstrapping method. Then it makes a collective decision for anomaly events by model learners using the model variance. Our algorithm is easily parallelizable, more robust for ill-conditioned and seasonal data, and highly scalable for a large number of anomaly models. We evaluate our algorithm against other state-of-the-art methods on a synthetic domain and a benchmark public data set.
翻訳日:2021-06-20 04:53:17 公開日:2021-06-11
# (参考訳) EPICURE Ensembleed Models for Extracting Cancer Mutations from Literature

EPICURE Ensemble Pretrained Models for Extracting Cancer Mutations from Literature ( http://arxiv.org/abs/2106.07722v1 )

ライセンス: CC BY 4.0
Jiarun Cao, Elke M van Veen, Niels Peek, Andrew G Renehan, Sophia Ananiadou(参考訳) 患者サンプルに存在する遺伝子プロファイルを解釈するためには、どの変異が対応するがんタイプの発症に重要な役割を果たすかを知る必要がある。 名前付きエンティティ認識は、科学文献から貴重ながん情報をマイニングするためのテキストマイニングパイプラインの中核的なステップである。 しかし、関連するデータセットが不足しているため、この領域での以前のNERの試みは、ディープラーニングベースのモデルがデプロイされた場合の低パフォーマンスに悩まされるか、あるいは、この機能ベースの機械学習モデルやルールベースのモデルを適用してこの問題に対処する。 本稿では,条件付きランダムフィールドパターン層とスパン予測パターン層を備えたアンサンブル事前訓練モデルであるEPICUREを提案し,テキストから癌突然変異を抽出する。 また、複数のデータセットからトレーニングセットを拡張するために、データ拡張戦略を採用しています。 3つのベンチマークデータセットの実験結果は,ベースラインモデルと比較して競争力のある結果を示した。

To interpret the genetic profile present in a patient sample, it is necessary to know which mutations have important roles in the development of the corresponding cancer type. Named entity recognition is a core step in the text mining pipeline which facilitates mining valuable cancer information from the scientific literature. However, due to the scarcity of related datasets, previous NER attempts in this domain either suffer from low performance when deep learning based models are deployed, or they apply feature based machine learning models or rule based models to tackle this problem, which requires intensive efforts from domain experts, and limit the model generalization capability. In this paper, we propose EPICURE, an ensemble pre trained model equipped with a conditional random field pattern layer and a span prediction pattern layer to extract cancer mutations from text. We also adopt a data augmentation strategy to expand our training set from multiple datasets. Experimental results on three benchmark datasets show competitive results compared to the baseline models.
翻訳日:2021-06-20 04:20:07 公開日:2021-06-11
# (参考訳) クロスレプリケーション信頼性 - 層間信頼性の解釈に関する実証的アプローチ

Cross-replication Reliability -- An Empirical Approach to Interpreting Inter-rater Reliability ( http://arxiv.org/abs/2106.07393v1 )

ライセンス: CC BY 4.0
Ka Wong, Praveen Paritosh, Lora Aroyo(参考訳) 経験的かつ文脈的に解釈された新しいIRRの解釈手法を提案する。 これは複製におけるベースライン測度に対するIRRのベンチマークに基づいており、そのうちの1つはコーエンのカッパに基づく新しいクロスレプリケーション信頼性(xRR)尺度である。 このアプローチを xRR フレームワークと呼びます。 我々は,400万人の表情判断の再現データセットをオープンソース化し,提案フレームワークを用いて解析する。 このフレームワークはクラウドソーシングされたデータセットの品質を測定するのに使うことができる。

We present a new approach to interpreting IRR that is empirical and contextualized. It is based upon benchmarking IRR against baseline measures in a replication, one of which is a novel cross-replication reliability (xRR) measure based on Cohen's kappa. We call this approach the xRR framework. We opensource a replication dataset of 4 million human judgements of facial expressions and analyze it with the proposed framework. We argue this framework can be used to measure the quality of crowdsourced datasets.
翻訳日:2021-06-20 04:10:34 公開日:2021-06-11
# (参考訳) 局所混合パターンによるグラフの代替性の向上によるグラフニューラルネットワークの限界を破る

Breaking the Limit of Graph Neural Networks by Improving the Assortativity of Graphs with Local Mixing Patterns ( http://arxiv.org/abs/2106.06586v1 )

ライセンス: CC BY 4.0
Susheel Suresh, Vinith Budde, Jennifer Neville, Pan Li, Jianzhu Ma(参考訳) グラフニューラルネットワーク(GNN)は、ネットワーク構造とノード機能を融合することで、複数のグラフベースの学習タスクで大きな成功を収めた。 現代のGNNモデルは、メッセージパッシングによる隣人の近親相性機能の反復的な集約に基づいて構築されている。 その予測性能は、類似の属性を持つノードが互いに混在/接続するキー特性であるグラフの代替混合によって強く拘束されていることが示されている。 実世界のネットワークは異質または多様な混合パターンを示しており, 従来のグローバルな非等方性係数などの非等方性の測定は, この混合を定量化するための代表的な統計量にはならない。 我々は,ノードレベルのアソータビリティという一般化された概念を採用し,多様なパターンをより正確に表現し,GNNの学習可能性を正確に定量化する。 幅広いGNNモデルの予測性能は,ノードレベル・アソシティーと高い相関関係があることが判明した。 この限界を破るために、本研究では、入力グラフを、近接情報と構造情報の両方を異なる種類のエッジとして含む計算グラフに変換することに焦点を当てる。 その結果得られたマルチリレーショナルグラフは、アソーサビリティのレベルが向上し、さらに重要なことに、元のグラフからリッチな情報を保存できる。 次に、この計算グラフ上でGNNを実行することを提案し、構造と近接を適応的に選択することで、様々な混合条件下での性能が向上することを示す。 実世界のグラフ学習ベンチマークにおける半教師付きノード分類タスクに変換フレームワークを採用する利点を実証的に示す。

Graph neural networks (GNNs) have achieved tremendous success on multiple graph-based learning tasks by fusing network structure and node features. Modern GNN models are built upon iterative aggregation of neighbor's/proximity features by message passing. Its prediction performance has been shown to be strongly bounded by assortative mixing in the graph, a key property wherein nodes with similar attributes mix/connect with each other. We observe that real world networks exhibit heterogeneous or diverse mixing patterns and the conventional global measurement of assortativity, such as global assortativity coefficient, may not be a representative statistic in quantifying this mixing. We adopt a generalized concept, node-level assortativity, one that is based at the node level to better represent the diverse patterns and accurately quantify the learnability of GNNs. We find that the prediction performance of a wide range of GNN models is highly correlated with the node level assortativity. To break this limit, in this work, we focus on transforming the input graph into a computation graph which contains both proximity and structural information as distinct type of edges. The resulted multi-relational graph has an enhanced level of assortativity and, more importantly, preserves rich information from the original graph. We then propose to run GNNs on this computation graph and show that adaptively choosing between structure and proximity leads to improved performance under diverse mixing. Empirically, we show the benefits of adopting our transformation framework for semi-supervised node classification task on a variety of real world graph learning benchmarks.
翻訳日:2021-06-20 03:57:33 公開日:2021-06-11
# (参考訳) 自動イベント抽出のための可視化技術

Visualization Techniques to Enhance Automated Event Extraction ( http://arxiv.org/abs/2106.06588v1 )

ライセンス: CC BY 4.0
Sophia Henn, Abigail Sticha, Timothy Burley, Ernesto Verdeja, Paul Brenner(参考訳) 複雑なデータのロバストな可視化は、データのボリュームが大きく、テキストの高次元構造が簡潔に要約することを困難にするため、イベント分類にNLPを効果的に利用する上で重要である。 特にイベント抽出タスクにおいて、可視化は、機械学習ツールが洞察を生み出すテキスト関係の理解と説明に役立つ。 本稿では,NLPを用いたニュース記事から州主導の大量殺人の潜在的引き金を探るケーススタディを通じて,生データの探索的分析から機械学習学習分析,最後に推論後の検証に至るまで,各段階で可視化がどのように役立つかを実証する。

Robust visualization of complex data is critical for the effective use of NLP for event classification, as the volume of data is large and the high-dimensional structure of text makes data challenging to summarize succinctly. In event extraction tasks in particular, visualization can aid in understanding and illustrating the textual relationships from which machine learning tools produce insights. Through our case study which seeks to identify potential triggers of state-led mass killings from news articles using NLP, we demonstrate how visualizations can aid in each stage, from exploratory analysis of raw data, to machine learning training analysis, and finally post-inference validation.
翻訳日:2021-06-20 03:38:01 公開日:2021-06-11
# (参考訳) Break-It-Fix-It: プログラム修復のための教師なし学習

Break-It-Fix-It: Unsupervised Learning for Program Repair ( http://arxiv.org/abs/2106.06600v1 )

ライセンス: CC BY 4.0
Michihiro Yasunaga, Percy Liang(参考訳) インプットの品質を評価する批評家(例えばコンパイラ)を前提として、悪い例(例えば、構文エラーのあるコード)を良い例(例えば、エラーのないコード)に変換するフィクスチャをトレーニングすることが目的です。 既存の作業は(悪い、良い)ペアからなるトレーニングデータを作成し、ヒューリスティックス(例えばトークンを落とす)を使って良い例を破損させる。 しかし、この合成生成データでトレーニングされたフィクスチャは、悪い入力の実際の分布によく当てはまらない。 このギャップを埋めるために、我々はBreak-It-Fix-It (BIFI)という新しいトレーニング手法を提案し、これは2つの重要なアイデアを持っている: (i) 実際の悪い入力でフィクスダーの出力をチェックし、トレーニングデータに良い(固定された)出力を追加するために、そして (ii) 優れたコードから現実的な悪いコードを生成するためにブレーカーを訓練する。 これらのアイデアに基づき、よりペアデータを生成するのに併用しながら、ブレーカとフィクチャを反復的に更新する。 我々は2つのコード修復データセットについてbifiを評価した。github-python、astパースエラーによるpythonコードの修復を目標とする新しいデータセット、そしてコンパイラエラーによるcコードの修復を目標とするdeepfixだ。 BIFIは既存の手法より優れており、GitHub-Pythonで90.5%(+28.5%)、DeepFixで71.7%(+5.6%)の修正精度がある。 特に、BIFIはラベル付きデータを一切必要とせず、様々な修理作業の教師なし学習の出発点となることを願っている。

We consider repair tasks: given a critic (e.g., compiler) that assesses the quality of an input, the goal is to train a fixer that converts a bad example (e.g., code with syntax errors) into a good one (e.g., code with no errors). Existing works create training data consisting of (bad, good) pairs by corrupting good examples using heuristics (e.g., dropping tokens). However, fixers trained on this synthetically-generated data do not extrapolate well to the real distribution of bad inputs. To bridge this gap, we propose a new training approach, Break-It-Fix-It (BIFI), which has two key ideas: (i) we use the critic to check a fixer's output on real bad inputs and add good (fixed) outputs to the training data, and (ii) we train a breaker to generate realistic bad code from good code. Based on these ideas, we iteratively update the breaker and the fixer while using them in conjunction to generate more paired data. We evaluate BIFI on two code repair datasets: GitHub-Python, a new dataset we introduce where the goal is to repair Python code with AST parse errors; and DeepFix, where the goal is to repair C code with compiler errors. BIFI outperforms existing methods, obtaining 90.5% repair accuracy on GitHub-Python (+28.5%) and 71.7% on DeepFix (+5.6%). Notably, BIFI does not require any labeled data; we hope it will be a strong starting point for unsupervised learning of various repair tasks.
翻訳日:2021-06-20 03:31:22 公開日:2021-06-11
# (参考訳) ポッドキャストにおける言語使用とリスナーエンゲージメントのモデル化

Modeling Language Usage and Listener Engagement in Podcasts ( http://arxiv.org/abs/2106.06605v1 )

ライセンス: CC BY 4.0
Sravana Reddy, Marina Lazarova, Yongze Yu, and Rosie Jones(参考訳) ポッドキャスト作成者を対象に、リスナーをエンゲージする方法で話す方法に関する人気記事が多数存在するが、リスナーのエンゲージメントと言語スタイルに関連するポッドキャストのデータ駆動分析はほとんど行われていない。 本稿では, 語彙の多様性, 特徴性, 感情, 構文など, 様々な要因が関与度とどのように相関するかを, 制作者の記述と音声の書き起こしの分析に基づいて検討する。 異なるテキスト表現を持つモデルを構築し、識別された特徴がエンゲージメントを非常に予測可能であることを示す。 我々の分析は、ハイエンゲージメントポッドキャストのスタイル的要素に関する一般的な知恵を検証し、いくつかの側面を分類し、他の側面に新たな視点を加える。

While there is an abundance of popular writing targeted to podcast creators on how to speak in ways that engage their listeners, there has been little data-driven analysis of podcasts that relates linguistic style with listener engagement. In this paper, we investigate how various factors -- vocabulary diversity, distinctiveness, emotion, and syntax, among others -- correlate with engagement, based on analysis of the creators' written descriptions and transcripts of the audio. We build models with different textual representations, and show that the identified features are highly predictive of engagement. Our analysis tests popular wisdom about stylistic elements in high-engagement podcasts, corroborating some aspects, and adding new perspectives on others.
翻訳日:2021-06-20 02:58:24 公開日:2021-06-11
# (参考訳) ゼロショットコーディネーションの新しい形式主義, 方法, オープン問題

A New Formalism, Method and Open Issues for Zero-Shot Coordination ( http://arxiv.org/abs/2106.06613v1 )

ライセンス: CC BY 4.0
Johannes Treutlein, Michael Dennis, Caspar Oesterheld, Jakob Foerster(参考訳) 多くの協調問題において、人間を独立に推論することは相互に互換性のあるポリシーを発見することができる。 対照的に、独立して訓練された自己再生ポリシーは、しばしば相互に相容れない。 ゼロショットコーディネート(ZSC)は、この根本的な問題に対処するためのマルチエージェント強化学習の新たなフロンティアとして提案されている。 事前の作業は、プレイヤーが共有学習アルゴリズムで合意できるが、行動や観察のラベルには同意できないと仮定して、ZSC問題にアプローチし、最適解として他のプレイを提案する。 しかし、これまでこの「ラベルフリー」問題は非公式に定義されただけである。 ラベルフリーコーディネーションゲームを定義することにより、ラベルフリーコーディネーション(LFC)問題としてこの設定を定式化する。 本研究は,LFC問題の最適解ではないことを示し,非互換な最大値間の関係を常に破ることに失敗する。 本稿では,lfc問題の最適解とlfcゲームにおける均衡を証明し,このアルゴリズムの拡張について述べる。 任意のタイブレーキングがZSCの設定の目的であるので、LFC問題はZSCの目的を反映していないと結論付ける。 そこで本稿では,今後の作業の出発点として,ZSCの非公式運用を導入する。

In many coordination problems, independently reasoning humans are able to discover mutually compatible policies. In contrast, independently trained self-play policies are often mutually incompatible. Zero-shot coordination (ZSC) has recently been proposed as a new frontier in multi-agent reinforcement learning to address this fundamental issue. Prior work approaches the ZSC problem by assuming players can agree on a shared learning algorithm but not on labels for actions and observations, and proposes other-play as an optimal solution. However, until now, this "label-free" problem has only been informally defined. We formalize this setting as the label-free coordination (LFC) problem by defining the label-free coordination game. We show that other-play is not an optimal solution to the LFC problem as it fails to consistently break ties between incompatible maximizers of the other-play objective. We introduce an extension of the algorithm, other-play with tie-breaking, and prove that it is optimal in the LFC problem and an equilibrium in the LFC game. Since arbitrary tie-breaking is precisely what the ZSC setting aims to prevent, we conclude that the LFC problem does not reflect the aims of ZSC. To address this, we introduce an alternative informal operationalization of ZSC as a starting point for future work.
翻訳日:2021-06-20 02:40:34 公開日:2021-06-11
# (参考訳) 知覚的類似度指標によるロバスト表現学習

Robust Representation Learning via Perceptual Similarity Metrics ( http://arxiv.org/abs/2106.06620v1 )

ライセンス: CC BY-SA 4.0
Saeid Asgari Taghanaki, Kristy Choi, Amir Khasahmadi, Anirudh Goyal(参考訳) 人工知能の根本的な課題は、入力機能に過度に適合することなく、下流タスクで優れたパフォーマンスをもたらすデータの有用な表現を学ぶことである。 このようなタスク関連予測情報の抽出は、現実世界のデータセットでは特に困難である。 本研究では,データ入力空間変換を学習し,非関連な入力特徴が下流の性能に与える影響を軽減するための表現学習フレームワークであるContrastive Input Morphing (CIM)を提案する。 提案手法では,三重項損失による知覚的類似度指標を用いて,タスク関連情報を保持することを保証する。 さらに、CIMは他の相互情報に基づく表現学習技術と相補的であり、同時に使用する場合の変動情報ボトルネック(VIB)の性能を向上させることを示す。

A fundamental challenge in artificial intelligence is learning useful representations of data that yield good performance on a downstream task, without overfitting to spurious input features. Extracting such task-relevant predictive information is particularly difficult for real-world datasets. In this work, we propose Contrastive Input Morphing (CIM), a representation learning framework that learns input-space transformations of the data to mitigate the effect of irrelevant input features on downstream performance. Our method leverages a perceptual similarity metric via a triplet loss to ensure that the transformation preserves task-relevant information.Empirically, we demonstrate the efficacy of our approach on tasks which typically suffer from the presence of spurious correlations: classification with nuisance information, out-of-distribution generalization, and preservation of subgroup accuracies. We additionally show that CIM is complementary to other mutual information-based representation learning techniques, and demonstrate that it improves the performance of variational information bottleneck (VIB) when used together.
翻訳日:2021-06-20 02:39:18 公開日:2021-06-11
# (参考訳) 分節結合型ニューラルオデム

Piecewise-constant Neural ODEs ( http://arxiv.org/abs/2106.06621v1 )

ライセンス: CC BY 4.0
Sam Greydanus, Stefan Lee, Alan Fern(参考訳) ニューラルネットワークはシーケンシャルデータをモデリングするための一般的なツールだが、一般的には時間の連続変数として扱うことはない。 ニューラルネットワークは、隠れた状態の時間微分をニューラルネットワークでパラメータ化し、任意の時間にわたって統合する。 しかし、任意の曲率を持つこれらのパラメータ化は統合が難しく、したがって訓練と評価が難しい。 本稿では,これらの問題を緩和するために,神経オデムに対する分割定数近似法を提案する。 我々のモデルは、Euler統合によって正確に統合することができ、対応するRNNやODE-RNNモデルよりも3~20倍少ないステップで自己回帰サンプルを生成することができる。 いくつかの合成物理タスクとビリヤードゲームに触発された計画タスクでモデルを評価する。 トレーニングや評価に要する時間を少なくしながら,ベースラインアプローチのパフォーマンスにマッチしていることが分かりました。

Neural networks are a popular tool for modeling sequential data but they generally do not treat time as a continuous variable. Neural ODEs represent an important exception: they parameterize the time derivative of a hidden state with a neural network and then integrate over arbitrary amounts of time. But these parameterizations, which have arbitrary curvature, can be hard to integrate and thus train and evaluate. In this paper, we propose making a piecewise-constant approximation to Neural ODEs to mitigate these issues. Our model can be integrated exactly via Euler integration and can generate autoregressive samples in 3-20 times fewer steps than comparable RNN and ODE-RNN models. We evaluate our model on several synthetic physics tasks and a planning task inspired by the game of billiards. We find that it matches the performance of baseline approaches while requiring less time to train and evaluate.
翻訳日:2021-06-20 02:16:25 公開日:2021-06-11
# (参考訳) 焦点をあてて注意を払う:全スライド画像の分類のための新しい学習方式

Pay Attention with Focus: A Novel Learning Scheme for Classification of Whole Slide Images ( http://arxiv.org/abs/2106.06623v1 )

ライセンス: CC BY 4.0
Shivam Kalra, Mohammed Adnan, Sobhan Hemati, Taher Dehkharghanian, Shahryar Rahnamayan, Hamid Tizhoosh(参考訳) 畳み込みニューラルネットワーク(CNN)のような深層学習手法は、画像次元が大きいため、スライド画像全体(WSI)を直接的に利用することは困難である。 この制限を克服するには、新しい2段階アプローチを提案する。 まず、wsiから代表的なパッチ(モザイクと呼ばれる)のセットを抽出する。 モザイクの各パッチは、ディープネットワークを用いて特徴ベクトルに符号化される。 特徴抽出器モデルは、WSIsの階層的ターゲットラベル、すなわち解剖学的部位と一次診断を用いて微調整される。 第2段階では、WSI から符号化されたパッチレベルの一連の特徴を用いて、トレーニング可能な焦点因子によって変調されたモザイクの全てのパッチに対する予測確率の注意重み付き平均化である Pay Attention with Focus scheme を用いて、一次診断確率を計算する。 実験結果から,提案モデルが頑健であり,WSIの分類に有効であることが示唆された。

Deep learning methods such as convolutional neural networks (CNNs) are difficult to directly utilize to analyze whole slide images (WSIs) due to the large image dimensions. We overcome this limitation by proposing a novel two-stage approach. First, we extract a set of representative patches (called mosaic) from a WSI. Each patch of a mosaic is encoded to a feature vector using a deep network. The feature extractor model is fine-tuned using hierarchical target labels of WSIs, i.e., anatomic site and primary diagnosis. In the second stage, a set of encoded patch-level features from a WSI is used to compute the primary diagnosis probability through the proposed Pay Attention with Focus scheme, an attention-weighted averaging of predicted probabilities for all patches of a mosaic modulated by a trainable focal factor. Experimental results show that the proposed model can be robust, and effective for the classification of WSIs.
翻訳日:2021-06-20 02:03:26 公開日:2021-06-11
# (参考訳) 汚職-ロバストオフライン強化学習

Corruption-Robust Offline Reinforcement Learning ( http://arxiv.org/abs/2106.06630v1 )

ライセンス: CC BY 4.0
Xuezhou Zhang, Yiding Chen, Jerry Zhu, Wen Sun(参考訳) オフライン強化学習における対向的堅牢性について検討する。 tuples $(s, a, r, s')$からなるバッチデータセットが与えられると、敵はタプルの$\epsilon$ fractionを任意に変更することができる。 破損したデータセットから学習者は、ほぼ最適ポリシーをしっかりと識別することを目指している。 最初に、最悪の場合の$\omega(d\epsilon)$ optimality gap は、たとえ敵がタプル内の報酬要素を損なうだけであっても、次元$d$の線形mdpでは避けられないことを示した。 これは、ロバストな教師付き学習における次元自由な結果と、汚職を伴うオンラインRL設定における最もよく知られている下位バウンドとは対照的である。 次に,完全データカバレッジの有無に関わらずほぼ一致した性能を実現する,ロバストな教師付き学習オラクルを用いた最小二乗値反復(lsvi)アルゴリズムのロバストな変種を提案する。 このアルゴリズムは、非被覆の場合のペシミズムボーナスを設計するために$\epsilon$の知識を必要とする。 驚くべきことに、このケースでは、未知の$\epsilon$に適応することが不可能であることを示すために、$\epsilon$の知識が必要である。

We study the adversarial robustness in offline reinforcement learning. Given a batch dataset consisting of tuples $(s, a, r, s')$, an adversary is allowed to arbitrarily modify $\epsilon$ fraction of the tuples. From the corrupted dataset the learner aims to robustly identify a near-optimal policy. We first show that a worst-case $\Omega(d\epsilon)$ optimality gap is unavoidable in linear MDP of dimension $d$, even if the adversary only corrupts the reward element in a tuple. This contrasts with dimension-free results in robust supervised learning and best-known lower-bound in the online RL setting with corruption. Next, we propose robust variants of the Least-Square Value Iteration (LSVI) algorithm utilizing robust supervised learning oracles, which achieve near-matching performances in cases both with and without full data coverage. The algorithm requires the knowledge of $\epsilon$ to design the pessimism bonus in the no-coverage case. Surprisingly, in this case, the knowledge of $\epsilon$ is necessary, as we show that being adaptive to unknown $\epsilon$ is impossible.This again contrasts with recent results on corruption-robust online RL and implies that robust offline RL is a strictly harder problem.
翻訳日:2021-06-20 01:53:07 公開日:2021-06-11
# 構造形成シミュレーションに応用した分類アルゴリズム

Classification algorithms applied to structure formation simulations ( http://arxiv.org/abs/2106.06587v1 )

ライセンス: Link先を確認
Jazhiel Chac\'on, J. Alberto V\'azquez, Erick Almaraz(参考訳) 宇宙シミュレーションの初期条件に存在する物質密度場の特性は、シミュレーションの実行後に形成された構造の特徴に影響を及ぼす。 この事実に基づき、本論文では、暗黒物質粒子が初期状態に遡るかどうかを推定するために、ランダムフォレスト分類アルゴリズムを用いて、質量がしきい値を超える暗黒物質ハロスに陥る。 この問題は、物質密度場の初期条件がhaloファインダプログラムによって提供される分類ラベルにマッピングされるバイナリ分類タスクとして考えられるかもしれない。 その結果,無作為林は,全プロセスを実行せずに宇宙シミュレーションのアウトプットを予測するための有用なツールであることがわかった。 これらの技術は、計算コストを節約し、宇宙構造の形成に異なるダークマター/ダークエネルギー候補が与える影響をより効率的に探求するために将来使用されるかもしれない。

The properties of the matter density field present in the initial conditions of a cosmological simulation have an impact on the features of the structures formed after running the simulation. Based on this fact, in this paper we use a random-forest classification algorithm to infer whether or not dark matter particles, traced back to the initial conditions, would end up in dark matter halos whose mass is above some threshold. This problem might be posed as a binary classification task, where the initial conditions of the matter density field are mapped to classification labels provided by a halo finder program. Our results show that random forests are useful tools to predict the output of cosmological simulations without running the full process. These techniques might be used in the future to save computational costs and to explore more efficiently the effect of different dark matter/dark energy candidates on the formation of cosmological structures.
翻訳日:2021-06-16 15:00:45 公開日:2021-06-11
# 冷後効果におけるキュレーション, データ拡張, 先行の役割の解明

Disentangling the Roles of Curation, Data-Augmentation and the Prior in the Cold Posterior Effect ( http://arxiv.org/abs/2106.06596v1 )

ライセンス: Link先を確認
Lorenzo Noci, Kevin Roth, Gregor Bachmann, Sebastian Nowozin and Thomas Hofmann(参考訳) ベイズ深層学習におけるcold posterior effect(cpe)は、温度パラメータt<1を用いてベイズ後方を人工的に研削すると、ベイズニューラルネットワークの予測性能が著しく向上する、という不快な観察を記述している。 CPEは理論と実践に問題があり、この効果が同定されたため、多くの研究者がこの現象を説明する仮説を提案している。 しかし、この集中的な研究努力にもかかわらず、効果はよく分かっていない。 本研究は, 冷後効果に関する既存の説明に係わる, 新規かつ曖昧な証拠を提示し, 3つの仮説を議論する。 The dataset curation hypothesis of Aitchison (2020): we showed empirically showed that the CPE not occur in a real curated data set but can be produced in an controlled experiment with various curation strength。 2. Izmailovらによるデータの増大仮説。 (2021年)とFortuin et al。 (2021):CPEが存在するためにはデータ拡張が十分だが必要ではないことを実証的に示す。 3. ウェンツェルとアルの 先天的な仮説です (2020): CPEとCPEを強く結び付ける上で, 先行と可能性の相対的重要性を評価するための簡単な実験を行った。 以上の結果から,CPEは合成キュレーション,データ拡張,不良前駆体から分離される可能性が示唆された。 そのため、「野生で」観察された冷えた後部は、単一の単純な原因から生じる可能性が低いため、冷えた後部に対する単純な「固定」は期待できない。

The "cold posterior effect" (CPE) in Bayesian deep learning describes the uncomforting observation that the predictive performance of Bayesian neural networks can be significantly improved if the Bayes posterior is artificially sharpened using a temperature parameter T<1. The CPE is problematic in theory and practice and since the effect was identified many researchers have proposed hypotheses to explain the phenomenon. However, despite this intensive research effort the effect remains poorly understood. In this work we provide novel and nuanced evidence relevant to existing explanations for the cold posterior effect, disentangling three hypotheses: 1. The dataset curation hypothesis of Aitchison (2020): we show empirically that the CPE does not arise in a real curated data set but can be produced in a controlled experiment with varying curation strength. 2. The data augmentation hypothesis of Izmailov et al. (2021) and Fortuin et al. (2021): we show empirically that data augmentation is sufficient but not necessary for the CPE to be present. 3. The bad prior hypothesis of Wenzel et al. (2020): we use a simple experiment evaluating the relative importance of the prior and the likelihood, strongly linking the CPE to the prior. Our results demonstrate how the CPE can arise in isolation from synthetic curation, data augmentation, and bad priors. Cold posteriors observed "in the wild" are therefore unlikely to arise from a single simple cause; as a result, we do not expect a simple "fix" for cold posteriors.
翻訳日:2021-06-15 16:31:18 公開日:2021-06-11
# 過パラメータテンソル分解におけるデフレ過程の理解

Understanding Deflation Process in Over-parametrized Tensor Decomposition ( http://arxiv.org/abs/2106.06573v1 )

ライセンス: Link先を確認
Rong Ge, Yunwei Ren, Xiang Wang, Mo Zhou(参考訳) 本稿では,過パラメータテンソル分解問題に対する勾配流れのトレーニングダイナミクスについて検討する。 経験的に、そのようなトレーニングプロセスは、しばしばより大きなコンポーネントに適合し、次に、テンソル分解アルゴリズムで一般的に使用されるテンソルデフレレーションプロセスに似た、より小さなコンポーネントを発見する。 直交分解性テンソルの場合、勾配流のわずかに変形したバージョンはテンソルデフレプロセスに従い、すべてのテンソル成分を回復することが証明される。 この証明は、直交テンソルの場合、勾配フローダイナミクスは行列設定における欲欲な低ランク学習と同様に働き、これは低ランクテンソルに対する超パラメータモデルの暗黙的正規化効果を理解するための第一歩であることを示唆している。

In this paper we study the training dynamics for gradient flow on over-parametrized tensor decomposition problems. Empirically, such training process often first fits larger components and then discovers smaller components, which is similar to a tensor deflation process that is commonly used in tensor decomposition algorithms. We prove that for orthogonally decomposable tensor, a slightly modified version of gradient flow would follow a tensor deflation process and recover all the tensor components. Our proof suggests that for orthogonal tensors, gradient flow dynamics works similarly as greedy low-rank learning in the matrix setting, which is a first step towards understanding the implicit regularization effect of over-parametrized models for low-rank tensors.
翻訳日:2021-06-15 16:28:40 公開日:2021-06-11
# Invariance Principles Meets Information Bottleneck for Out-of-Distribution Generalization

Invariance Principle Meets Information Bottleneck for Out-of-Distribution Generalization ( http://arxiv.org/abs/2106.06607v1 )

ライセンス: Link先を確認
Kartik Ahuja, Ethan Caballero, Dinghuai Zhang, Yoshua Bengio, Ioannis Mitliagkas, Irina Rish(参考訳) 因果関係からの不変原理は、アウト・オブ・ディストリビューション(OOD)一般化失敗に対処しようとする不変リスク最小化(IRM)のような注目すべきアプローチの中心である。 有望な理論にもかかわらず、不変原理に基づくアプローチは共通の分類タスクでは失敗し、不変(因果)な特徴がラベルに関する全ての情報をキャプチャする。 これらの失敗は、不変性を捉えない方法のためなのか? あるいは、不変原理自体が不十分なのか? これらの疑問に答えるために、線形回帰タスクの基本的な仮定を再検討し、不変性に基づくアプローチがOODを確実に一般化することを示した。 線形回帰タスクとは対照的に、線形分類タスクには分布シフトに対するより強い制限が必要であり、そうでなければOOD一般化は不可能である。 さらに,分布シフトを適切に制限しても,不変原理だけでは不十分であることを示す。 不変な特徴がラベルに関するすべての情報をキャプチャし、そうでなければ既存の成功を保っている場合、情報ボトルネックの形式が重要な障害に対処するのに役立つことを証明します。 両原理を組み込んだアプローチを提案し,その有効性をいくつかの実験で実証する。

The invariance principle from causality is at the heart of notable approaches such as invariant risk minimization (IRM) that seek to address out-of-distribution (OOD) generalization failures. Despite the promising theory, invariance principle-based approaches fail in common classification tasks, where invariant (causal) features capture all the information about the label. Are these failures due to the methods failing to capture the invariance? Or is the invariance principle itself insufficient? To answer these questions, we revisit the fundamental assumptions in linear regression tasks, where invariance-based approaches were shown to provably generalize OOD. In contrast to the linear regression tasks, we show that for linear classification tasks we need much stronger restrictions on the distribution shifts, or otherwise OOD generalization is impossible. Furthermore, even with appropriate restrictions on distribution shifts in place, we show that the invariance principle alone is insufficient. We prove that a form of the information bottleneck constraint along with invariance helps address key failures when invariant features capture all the information about the label and also retains the existing success when they do not. We propose an approach that incorporates both of these principles and demonstrate its effectiveness in several experiments.
翻訳日:2021-06-15 16:28:27 公開日:2021-06-11
# フーリエ積分定理による統計的解析

Statistical Analysis from the Fourier Integral Theorem ( http://arxiv.org/abs/2106.06608v1 )

ライセンス: Link先を確認
Nhat Ho, Stephen G. Walker(参考訳) 本稿では,フーリエ積分定理を出発点として,多変量分布と条件分布関数の自然モンテカルロと完全非パラメトリック推定器に注目した。 これは、推定された共分散行列や変数間の依存構造を必要としない。 これらの側面は積分定理から直ちに生じる。 条件付き分布関数を用いて多変量データセットをモデル化できるため、マルコフ過程の予測、共変量に依存する混合分布関数の推定、一般的な多変量データなど、多くの問題を研究できる。 エスペクタは明示的なモンテカルロベースであり、再帰的あるいは反復的なアルゴリズムを必要としない。

Taking the Fourier integral theorem as our starting point, in this paper we focus on natural Monte Carlo and fully nonparametric estimators of multivariate distributions and conditional distribution functions. We do this without the need for any estimated covariance matrix or dependence structure between variables. These aspects arise immediately from the integral theorem. Being able to model multivariate data sets using conditional distribution functions we can study a number of problems, such as prediction for Markov processes, estimation of mixing distribution functions which depend on covariates, and general multivariate data. Estimators are explicit Monte Carlo based and require no recursive or iterative algorithms.
翻訳日:2021-06-15 16:19:53 公開日:2021-06-11
# スカラーは普遍的:古典物理学のような構造を持つゲージ同変機械学習

Scalars are universal: Gauge-equivariant machine learning, structured like classical physics ( http://arxiv.org/abs/2106.06610v1 )

ライセンス: Link先を確認
Soledad Villar (JHU), David W.Hogg (Flatiron, NYU), Kate Storey-Fisher (NYU), Weichi Yao (NYU), Ben Blum-Smith (NYU)(参考訳) 過去数年間、物理法則のゲージ対称性(または座標自由度)を尊重する(必ずしも実用的ではない)ニューラルネットワークの設計において、大きな進歩があった。 これらのフレームワークのいくつかは既約表現を使い、一部は高階テンソルオブジェクトを使い、一部は対称性強化制約を適用する。 異なる物理法則は基本対称性の異なる組み合わせに従うが、古典物理学の大きな部分(おそらく全て)は、変換、回転、反射(パリティ)、ブースト(相対性理論)、置換に同変である。 ここでは、これらの対称性の下で、あるいはユークリッド群、ローレンツ群、ポインカル群の下で、任意の次元$d$で、普遍的に近似する多項式函数をパラメータ化することが単純であることを示す。 鍵となる観察は、非線形 o($d$)-同変(および関連する群同変)関数は、スカラーの軽量コレクション(スカラー積とスカラー、ベクトル、テンソル入力のスカラー収縮)で表現できるということである。 これらの結果は、古典物理学におけるゲージ不変なディープラーニングモデルが、大きな問題のスケーリングが現在実現可能であることを理論的に示している。

There has been enormous progress in the last few years in designing conceivable (though not always practical) neural networks that respect the gauge symmetries -- or coordinate freedom -- of physical law. Some of these frameworks make use of irreducible representations, some make use of higher order tensor objects, and some apply symmetry-enforcing constraints. Different physical laws obey different combinations of fundamental symmetries, but a large fraction (possibly all) of classical physics is equivariant to translation, rotation, reflection (parity), boost (relativity), and permutations. Here we show that it is simple to parameterize universally approximating polynomial functions that are equivariant under these symmetries, or under the Euclidean, Lorentz, and Poincar\'e groups, at any dimensionality $d$. The key observation is that nonlinear O($d$)-equivariant (and related-group-equivariant) functions can be expressed in terms of a lightweight collection of scalars -- scalar products and scalar contractions of the scalar, vector, and tensor inputs. These results demonstrate theoretically that gauge-invariant deep learning models for classical physics with good scaling for large problems are feasible right now.
翻訳日:2021-06-15 16:19:43 公開日:2021-06-11
# gans n' roses: 安定し、制御可能で、多様な画像から画像への翻訳(ビデオにも使える!

GANs N' Roses: Stable, Controllable, Diverse Image to Image Translation (works for videos too!) ( http://arxiv.org/abs/2106.06561v1 )

ライセンス: Link先を確認
Min Jin Chong, David Forsyth(参考訳) 顔画像から抽出したコンテンツコードと、ランダムに選択されたスタイルコードからアニメ画像へ、マップを学習する方法を示す。 私たちは、スタイルとコンテンツの単純で効果的な定義から敵対的損失を導き出します。 この敵対的損失は、マップが多様であることを保証する -- 単一のコンテンツコードから非常に広い範囲のアニメを作成できる。 妥当な仮定の下では、マップは単に多様であるだけでなく、入力面上で条件付けられたアニメの確率を正しく表現している。 対照的に、現在のマルチモーダル生成手順はアニメに現れる複雑なスタイルを捉えることはできない。 広範な定量的実験は、地図が正しいという考えを支持する。 大規模な定性的な結果から,SOTA比較よりも多種多様なスタイルを生成できることが示唆された。 最後に、コンテンツとスタイルの形式化によって、ビデオのトレーニングをすることなくビデオ翻訳を実行できることを示す。

We show how to learn a map that takes a content code, derived from a face image, and a randomly chosen style code to an anime image. We derive an adversarial loss from our simple and effective definitions of style and content. This adversarial loss guarantees the map is diverse -- a very wide range of anime can be produced from a single content code. Under plausible assumptions, the map is not just diverse, but also correctly represents the probability of an anime, conditioned on an input face. In contrast, current multimodal generation procedures cannot capture the complex styles that appear in anime. Extensive quantitative experiments support the idea the map is correct. Extensive qualitative results show that the method can generate a much more diverse range of styles than SOTA comparisons. Finally, we show that our formalization of content and style allows us to perform video to video translation without ever training on videos.
翻訳日:2021-06-15 16:17:57 公開日:2021-06-11
# スパイクニューラルネットワークによるフェデレーション学習

Federated Learning with Spiking Neural Networks ( http://arxiv.org/abs/2106.06579v1 )

ライセンス: Link先を確認
Yeshwanth Venkatesha, Youngeun Kim, Leandros Tassiulas, Priyadarshini Panda(参考訳) ニューラルネットワークがリソース制約された組み込みデバイスに広く採用されるにつれ、低消費電力のニューラルネットワークの必要性が高まっている。 スパイキングニューラルネットワーク(SNN)は、計算集約性で知られる従来のニューラルネットワーク(ANN)の代替として、エネルギー効率の高いものになりつつある。 アプリケーションの観点からは、連合学習には複数のエネルギー制約のあるデバイスが含まれるため、SNNが提供するエネルギー効率を活用するための大きなスコープがある。 その重要性にもかかわらず、連合学習のような大規模分散システムでのSNNのトレーニングにはほとんど注意が払われていない。 本稿では,より現実的なフェデレーション学習シナリオにSNNを導入する。 具体的には,snsの分散およびプライバシ保全トレーニングのための連合学習フレームワークを提案する。 CIFAR10 と CIFAR100 ベンチマークを用いて,連合学習の様々な側面における SNN の利点を実験的に評価した。 我々は、SNNが最大5.3倍のエネルギー効率を提供しながら、フェデレーション内の多数のクライアントに分散された場合、ANNの全体的な精度を15%以上上回っていることを観察した。 また, 効率性に加えて, クライアント, ストラグラー, 勾配雑音間のデータ分散に対するフェデレーションSNNフレームワークの感度を解析し, ANNとの総合的な比較を行う。

As neural networks get widespread adoption in resource-constrained embedded devices, there is a growing need for low-power neural systems. Spiking Neural Networks (SNNs)are emerging to be an energy-efficient alternative to the traditional Artificial Neural Networks (ANNs) which are known to be computationally intensive. From an application perspective, as federated learning involves multiple energy-constrained devices, there is a huge scope to leverage energy efficiency provided by SNNs. Despite its importance, there has been little attention on training SNNs on a large-scale distributed system like federated learning. In this paper, we bring SNNs to a more realistic federated learning scenario. Specifically, we propose a federated learning framework for decentralized and privacy-preserving training of SNNs. To validate the proposed federated learning framework, we experimentally evaluate the advantages of SNNs on various aspects of federated learning with CIFAR10 and CIFAR100 benchmarks. We observe that SNNs outperform ANNs in terms of overall accuracy by over 15% when the data is distributed across a large number of clients in the federation while providing up to5.3x energy efficiency. In addition to efficiency, we also analyze the sensitivity of the proposed federated SNN framework to data distribution among the clients, stragglers, and gradient noise and perform a comprehensive comparison with ANNs.
翻訳日:2021-06-15 16:17:43 公開日:2021-06-11
# ディテールに着目した正確でリアルな衣装の可視化に向けて

Toward Accurate and Realistic Outfits Visualization with Attention to Details ( http://arxiv.org/abs/2106.06593v1 )

ライセンス: Link先を確認
Kedan Li, Min jin Chong, Jeffrey Zhang, Jingen Liu(参考訳) 仮想試着法は,任意の組み合わせの衣服を身に着けたファッションモデルの画像を生成することを目的としている。 これは、生成した画像が現実的かつ正確に衣服間の相互作用を表示する必要があるため、難しい作業である。 以前の作品は、アーティファクトで満たされたイメージを生成し、商用アプリケーションに必要な重要な視覚的詳細をキャプチャできない。 我々はこれらの重要な詳細(例えば、OVNet)を捉えるためにOutfit Visualization Net(OVNet)を提案する。 ボタン、シェーディング、テクスチャ、リアルなヘムライン、衣服間のインタラクション)、高品質なマルチガーメントバーチャル試着画像を生成する。 OVNetは,1)意味的レイアウト生成器と2)複数の協調ワープを用いた画像生成パイプラインから構成される。 我々は、複数のワープをカスケード損失を用いて出力するように訓練し、各ワープを精錬し、前のワープの貧弱な領域に集中させ、一貫性のある改善をもたらす。 さらに,最も適したモデルと衣装をマッチングする方法を導入し,これまでの試着法と他の試着法の両方に対して大幅な改善を行う。 定量的・定性的な分析により,多食衣装の先行作品と比較して,より高品質なスタジオイメージを生成できることを実証した。 この方法で動くインタラクティブインターフェースは、ファッションeコマースウェブサイトにデプロイされ、圧倒的にポジティブなフィードバックを受けています。

Virtual try-on methods aim to generate images of fashion models wearing arbitrary combinations of garments. This is a challenging task because the generated image must appear realistic and accurately display the interaction between garments. Prior works produce images that are filled with artifacts and fail to capture important visual details necessary for commercial applications. We propose Outfit Visualization Net (OVNet) to capture these important details (e.g. buttons, shading, textures, realistic hemlines, and interactions between garments) and produce high quality multiple-garment virtual try-on images. OVNet consists of 1) a semantic layout generator and 2) an image generation pipeline using multiple coordinated warps. We train the warper to output multiple warps using a cascade loss, which refines each successive warp to focus on poorly generated regions of a previous warp and yields consistent improvements in detail. In addition, we introduce a method for matching outfits with the most suitable model and produce significant improvements for both our and other previous try-on methods. Through quantitative and qualitative analysis, we demonstrate our method generates substantially higher-quality studio images compared to prior works for multi-garment outfits. An interactive interface powered by this method has been deployed on fashion e-commerce websites and received overwhelmingly positive feedback.
翻訳日:2021-06-15 16:17:24 公開日:2021-06-11
# プログラム合成によるサンプル効率言語一般化:音韻問題を用いた実験

Sample-efficient Linguistic Generalizations through Program Synthesis: Experiments with Phonology Problems ( http://arxiv.org/abs/2106.06566v1 )

ライセンス: Link先を確認
Saujas Vaduguru, Aalok Sathe, Monojit Choudhury, Dipti Misra Sharma(参考訳) ニューラルネットワークは、大量のデータから統計的パターンを抽出するのに優れていますが、少数の例からパターンや言語に関する推論を学ぶのに苦労しています。 この論文では、いくつかの例からうまく一般化した明示的なルールを学べるか? 我々はこの質問をプログラム合成を用いて検討する。 ドメイン固有言語のプログラムとして音韻規則を学習する合成モデルを開発した。 我々は,言語学的推論能力を必要とする課題セットであるOlympiadの新たな問題データセットを用いて,少数の学習例からモデルを一般化する能力をテストする。 提案手法は,高サンプリング効率に加えて,人間の読みやすいプログラムを生成し,学習プログラムの汎用性を制御する。

Neural models excel at extracting statistical patterns from large amounts of data, but struggle to learn patterns or reason about language from only a few examples. In this paper, we ask: Can we learn explicit rules that generalize well from only a few examples? We explore this question using program synthesis. We develop a synthesis model to learn phonology rules as programs in a domain-specific language. We test the ability of our models to generalize from few training examples using our new dataset of problems from the Linguistics Olympiad, a challenging set of tasks that require strong linguistic reasoning ability. In addition to being highly sample-efficient, our approach generates human-readable programs, and allows control over the generalizability of the learnt programs.
翻訳日:2021-06-15 16:15:06 公開日:2021-06-11
# 同期ストリーミングASRによる音声とテキストの同時翻訳

Direct Simultaneous Speech-to-Text Translation Assisted by Synchronized Streaming ASR ( http://arxiv.org/abs/2106.06636v1 )

ライセンス: Link先を確認
Junkun Chen, Mingbo Ma, Renjie Zheng, Liang Huang(参考訳) 音声からテキストへの同時翻訳は多くのシナリオで広く有用である。 従来のカスケードアプローチではストリーミングasrのパイプラインとmtを同時に使用するが、エラーの伝播や遅延の増大に苦しむ。 これらの問題を緩和するために、近年の取り組みは、ソース音声を直接ターゲットテキストに翻訳する試みであるが、2つの異なるタスクの組み合わせにより、これははるかに困難である。 代わりに、カスケードアプローチとエンドツーエンドアプローチの両方の利点を持つ新しいパラダイムを提案する。 鍵となるアイデアは、ストリーミングASRと直接音声テキスト変換(ST)における2つの分離された同期化デコーダを使用することであり、ASRの中間結果は、STの復号ポリシーを案内する(ただし入力として提供されない)。 MuSTCデータセット上でのEn-to-DeおよびEn-to-Es実験により,提案手法が同等のレイテンシで翻訳品質を著しく向上することを示す。

Simultaneous speech-to-text translation is widely useful in many scenarios. The conventional cascaded approach uses a pipeline of streaming ASR followed by simultaneous MT, but suffers from error propagation and extra latency. To alleviate these issues, recent efforts attempt to directly translate the source speech into target text simultaneously, but this is much harder due to the combination of two separate tasks. We instead propose a new paradigm with the advantages of both cascaded and end-to-end approaches. The key idea is to use two separate, but synchronized, decoders on streaming ASR and direct speech-to-text translation (ST), respectively, and the intermediate results of ASR guide the decoding policy of (but is not fed as input to) ST. During training time, we use multitask learning to jointly learn these two tasks with a shared encoder. En-to-De and En-to-Es experiments on the MuSTC dataset demonstrate that our proposed technique achieves substantially better translation quality at similar levels of latency.
翻訳日:2021-06-15 16:14:53 公開日:2021-06-11
# HR-NAS:軽量トランスを用いた高分解能ニューラルネットワークの探索

HR-NAS: Searching Efficient High-Resolution Neural Architectures with Lightweight Transformers ( http://arxiv.org/abs/2106.06560v1 )

ライセンス: Link先を確認
Mingyu Ding, Xiaochen Lian, Linjie Yang, Peng Wang, Xiaojie Jin, Zhiwu Lu, Ping Luo(参考訳) 高分解能表現(HR)は、セグメンテーション、検出、ポーズ推定といった密集した予測タスクに不可欠である。 hr表現の学習は通常、画像分類に焦点を当てた以前のneural architecture search(nas)メソッドでは無視される。 本研究では,高分解能表現を維持しつつ,マルチスケールの文脈情報を効果的に符号化することにより,タスクごとに効率よく正確なネットワークを見つけることができる新しいNAS手法HR-NASを提案する。 HR-NASでは,NAS検索空間と検索戦略を改良する。 hr-nasの探索空間における多スケール画像コンテキストをよりよくエンコードするために、まず、異なる目的関数と計算予算に関して計算の複雑さを動的に変更できる軽量トランスを慎重に設計する。 学習ネットワークの高解像度表現を維持するため、HR-NASはHRNetにインスパイアされた複数の特徴解像度の畳み込み符号化を提供するマルチブランチアーキテクチャを採用している。 最後に、探索空間を効果的に探索するHR-NASを訓練するための効率的なきめ細かい探索戦略を提案し、様々なタスクや計算資源を与えられた最適なアーキテクチャを見出した。 hr-nasは、3つの密集した予測タスクと画像分類タスクでパフォーマンスとフラップの最先端のトレードオフを達成することができる。 例えば、HR-NASはセマンティックセグメンテーションのために特別に設計されたSqueezeNASを超え、効率は45.9%向上した。 コードはhttps://github.com/dingmyu/HR-NASで入手できる。

High-resolution representations (HR) are essential for dense prediction tasks such as segmentation, detection, and pose estimation. Learning HR representations is typically ignored in previous Neural Architecture Search (NAS) methods that focus on image classification. This work proposes a novel NAS method, called HR-NAS, which is able to find efficient and accurate networks for different tasks, by effectively encoding multiscale contextual information while maintaining high-resolution representations. In HR-NAS, we renovate the NAS search space as well as its searching strategy. To better encode multiscale image contexts in the search space of HR-NAS, we first carefully design a lightweight transformer, whose computational complexity can be dynamically changed with respect to different objective functions and computation budgets. To maintain high-resolution representations of the learned networks, HR-NAS adopts a multi-branch architecture that provides convolutional encoding of multiple feature resolutions, inspired by HRNet. Last, we proposed an efficient fine-grained search strategy to train HR-NAS, which effectively explores the search space, and finds optimal architectures given various tasks and computation resources. HR-NAS is capable of achieving state-of-the-art trade-offs between performance and FLOPs for three dense prediction tasks and an image classification task, given only small computational budgets. For example, HR-NAS surpasses SqueezeNAS that is specially designed for semantic segmentation while improving efficiency by 45.9%. Code is available at https://github.com/dingmyu/HR-NAS
翻訳日:2021-06-15 16:07:18 公開日:2021-06-11
# 偽装検出と遠隔生理モニタリング:データセットと基礎実験結果

Deception Detection and Remote Physiological Monitoring: A Dataset and Baseline Experimental Results ( http://arxiv.org/abs/2106.06583v1 )

ライセンス: Link先を確認
Jeremy Speth, Nathan Vance, Adam Czajka, Kevin W. Bowyer, Diane Wright, Patrick Flynn(参考訳) 本稿では,ddpm(deception detection and physiological monitoring)データセットと,その最初のベースライン結果について述べる。 私たちのアプリケーションコンテキストは、面接者が選択した回答について面接者をだまそうとするインタビューシナリオです。 インタビュアーはrgb、近赤外、長波赤外線、心臓パルス、血液酸素化、音声で記録される。 収集後、データはインタビュアー/インタービューに注釈付けされ、キュレートされ、接地され、一連の正準の偽装検出実験のための列車/試験部品に編成された。 ベースライン実験では、偽りの指標としてマイクロ表現のランダムな精度を見出したが、サッケードは統計的に有意な反応を与える可能性がある。 また、平均絶対誤差が3.16bpmと低い顔ビデオ(リモート)から被写体心拍数を推定した。 データベースには70人の被験者の約13時間の録音と800万以上の可視光、近赤外線、熱ビデオフレームと適切なメタ、オーディオ、パルスオキシメータデータが含まれている。 私たちの知る限りでは、このコレクションは5つのモダリティの録音を提供する唯一のコレクションであり、デセプション検出とリモートフォトプレチモグラフィ研究の両方で使用できる。

We present the Deception Detection and Physiological Monitoring (DDPM) dataset and initial baseline results on this dataset. Our application context is an interview scenario in which the interviewee attempts to deceive the interviewer on selected responses. The interviewee is recorded in RGB, near-infrared, and long-wave infrared, along with cardiac pulse, blood oxygenation, and audio. After collection, data were annotated for interviewer/interviewee, curated, ground-truthed, and organized into train / test parts for a set of canonical deception detection experiments. Baseline experiments found random accuracy for micro-expressions as an indicator of deception, but that saccades can give a statistically significant response. We also estimated subject heart rates from face videos (remotely) with a mean absolute error as low as 3.16 bpm. The database contains almost 13 hours of recordings of 70 subjects, and over 8 million visible-light, near-infrared, and thermal video frames, along with appropriate meta, audio and pulse oximeter data. To our knowledge, this is the only collection offering recordings of five modalities in an interview scenario that can be used in both deception detection and remote photoplethysmography research.
翻訳日:2021-06-15 16:06:53 公開日:2021-06-11
# 神経回路のリフレッシュを応用した植物性ナティヴァ・チリナの細胞機能解析

Dise\~no y desarrollo de aplicaci\'on m\'ovil para la clasificaci\'on de flora nativa chilena utilizando redes neuronales convolucionales ( http://arxiv.org/abs/2106.06592v1 )

ライセンス: Link先を確認
Ignacio Mu\~noz, Alfredo Bolt(参考訳) 紹介: モバイルアプリは、人工視覚を通じて、リアルタイムで植物種を認識することができる。 しかし、既存の種認識アプリは、様々な固有種や固有種(チリ)を考慮に入れておらず、誤った種予測につながっている。 本研究では,モバイルアプリに最適化された分類モデルとキリアン種データセットの開発を紹介する。 方法:データセットは、フィールドで捕獲されたいくつかの種の写真をまとめ、オンラインで利用可能な他のデータセットから利用可能な画像を選択することで構築された。 画像予測モデルを開発するために畳み込みニューラルネットワークが用いられた。 ネットワークは、感度分析を行い、k-foldクロス検証を行い、異なるハイパーパラメータ、オプティマイザ、畳み込み層、学習率でテストを行い、最良のモデルを識別し、選択し、それらを1つの分類モデルにまとめる。 結果: 最終データセットは,チリの固有種,固有種,外来種を含む46種に複合され,6120枚のトレーニング写真と655枚のテスト写真が得られた。 最良のモデルはモバイルアプリ上で実装され、テストセットに対して95%正確な予測率を得た。 結論: 本研究で開発されたアプリは, 人工視覚の技法の状況に応じて, 高い精度で種を分類することができるとともに, 分類された種に関する関連情報も表示できる。

Introduction: Mobile apps, through artificial vision, are capable of recognizing vegetable species in real time. However, the existing species recognition apps do not take in consideration the wide variety of endemic and native (Chilean) species, which leads to wrong species predictions. This study introduces the development of a chilean species dataset and an optimized classification model implemented to a mobile app. Method: the data set was built by putting together pictures of several species captured on the field and by selecting some pictures available from other datasets available online. Convolutional neural networks were used in order to develop the images prediction models. The networks were trained by performing a sensitivity analysis, validating with k-fold cross validation and performing tests with different hyper-parameters, optimizers, convolutional layers, and learning rates in order to identify and choose the best models and then put them together in one classification model. Results: The final data set was compounded by 46 species, including native species, endemic and exotic from Chile, with 6120 training pictures and 655 testing pictures. The best models were implemented on a mobile app, obtaining a 95% correct prediction rate with respect to the set of tests. Conclusion: The app developed in this study is capable of classifying species with a high level of accuracy, depending on the state of the art of the artificial vision and it can also show relevant information related to the classified species.
翻訳日:2021-06-15 16:06:31 公開日:2021-06-11
# Mirror3D:鏡面の深部微細化

Mirror3D: Depth Refinement for Mirror Surfaces ( http://arxiv.org/abs/2106.06629v1 )

ライセンス: Link先を確認
Jiaqi Tan, Weijie Lin, Angel X. Chang, Manolis Savva(参考訳) 近年の深度センシングと3次元再構成の進歩にもかかわらず、鏡面は重大な誤りの原因となっている。 この問題を解決するために、mirror3dデータセットを作成する。3つのrgbdデータセット(matterport3d、nyuv2、scannet)に基づく3dミラープレーンデータセットで、7,011ミラーインスタンスマスクと3dプレーンを含む。 次に、ミラー表面の誤差を補正するために、生のセンサー深度や推定深度を洗練するモジュールであるMirror3DNetを開発する。 我々のキーとなる考え方は、RGB入力と周囲の深度コンテキストに基づいて3次元ミラー平面を推定し、この推定を用いて鏡面の深度を直接回帰させることである。 実験の結果,Mirror3DNetは生のセンサ深度や深度推定や完了方法など,様々な入力深度データからの誤差を著しく軽減することがわかった。

Despite recent progress in depth sensing and 3D reconstruction, mirror surfaces are a significant source of errors. To address this problem, we create the Mirror3D dataset: a 3D mirror plane dataset based on three RGBD datasets (Matterport3D, NYUv2 and ScanNet) containing 7,011 mirror instance masks and 3D planes. We then develop Mirror3DNet: a module that refines raw sensor depth or estimated depth to correct errors on mirror surfaces. Our key idea is to estimate the 3D mirror plane based on RGB input and surrounding depth context, and use this estimate to directly regress mirror surface depth. Our experiments show that Mirror3DNet significantly mitigates errors from a variety of input depth data, including raw sensor depth and depth estimation or completion methods.
翻訳日:2021-06-15 16:06:09 公開日:2021-06-11
# car-net:共同登録と構造学習のための教師なし共同登録ネットワーク

CAR-Net: Unsupervised Co-Attention Guided Registration Network for Joint Registration and Structure Learning ( http://arxiv.org/abs/2106.06637v1 )

ライセンス: Link先を確認
Xiang Chen, Yan Xia, Nishant Ravikumar, Alejandro F Frangi(参考訳) 画像登録は、医療画像解析における様々な用途の基本的なビルディングブロックである。 固定画像と移動画像の相関関係をよりよく探求し、登録性能を向上させるために、新しい深層学習ネットワークCAR-Net(Co-Attention Guided Registration Network)を提案する。 CAR-Netはコアテンションブロックを用いて入力の新しい表現を学習し、固定画像と移動画像の登録を駆動する。 英国バイオバンクの心臓磁気共鳴画像データを用いた実験では、CAR-Netは最先端の非教師なし登録法よりも高い登録精度と滑らかな変形場を得る一方で、対応する弱教師付き変種よりも同等または優れた登録性能を達成する。 さらに,本手法は,入力固定画像と移動画像の致命的な構造情報を,完全に教師なしで同時に提供することができる。

Image registration is a fundamental building block for various applications in medical image analysis. To better explore the correlation between the fixed and moving images and improve registration performance, we propose a novel deep learning network, Co-Attention guided Registration Network (CAR-Net). CAR-Net employs a co-attention block to learn a new representation of the inputs, which drives the registration of the fixed and moving images. Experiments on UK Biobank cardiac cine-magnetic resonance image data demonstrate that CAR-Net obtains higher registration accuracy and smoother deformation fields than state-of-the-art unsupervised registration methods, while achieving comparable or better registration performance than corresponding weakly-supervised variants. In addition, our approach can provide critical structural information of the input fixed and moving images simultaneously in a completely unsupervised manner.
翻訳日:2021-06-15 16:05:52 公開日:2021-06-11
# 音声感情分析における事前学習言語モデルの利用

Leveraging Pre-trained Language Model for Speech Sentiment Analysis ( http://arxiv.org/abs/2106.06598v1 )

ライセンス: Link先を確認
Suwon Shon, Pablo Brusco, Jing Pan, Kyu J. Han, Shinji Watanabe(参考訳) 本稿では、事前学習した言語モデルを用いて、文章の感情情報を学習し、音声の感情分析を行う。 まず、自動音声認識(ASR)と書き起こしに基づく感情分析を別々に用いた2段階パイプラインアプローチにおいて、事前学習された言語モデルがいかに有用かを検討する。 第二に,エンド・ツー・エンドの音声感情モデルに基づく言語モデルを用いた擬似ラベル型半教師付き学習戦略を提案する。 話し言葉と書き言葉は異なる言語的特徴を持つが、感情を理解することで相互補完することができる。 そこで,提案するシステムは,音声信号に感情特有の情報を保持するために音響特性をモデル化するだけでなく,テキスト表現に感情を伝達するために潜在情報を学習することができる。 本実験では,言語モデルを持たないシステムと比較して,F1スコアを一貫して改善する手法を提案する。 また,人間の感情アノテーションを使わずに大量のデータを活用し,人間の感情アノテーションが不十分な低リソース環境での性能を高めることにより,人間の監督の65%を削減できることを示す。

In this paper, we explore the use of pre-trained language models to learn sentiment information of written texts for speech sentiment analysis. First, we investigate how useful a pre-trained language model would be in a 2-step pipeline approach employing Automatic Speech Recognition (ASR) and transcripts-based sentiment analysis separately. Second, we propose a pseudo label-based semi-supervised training strategy using a language model on an end-to-end speech sentiment approach to take advantage of a large, but unlabeled speech dataset for training. Although spoken and written texts have different linguistic characteristics, they can complement each other in understanding sentiment. Therefore, the proposed system can not only model acoustic characteristics to bear sentiment-specific information in speech signals, but learn latent information to carry sentiments in the text representation. In these experiments, we demonstrate the proposed approaches improve F1 scores consistently compared to systems without a language model. Moreover, we also show that the proposed framework can reduce 65% of human supervision by leveraging a large amount of data without human sentiment annotation and boost performance in a low-resource condition where the human sentiment annotation is not available enough.
翻訳日:2021-06-15 15:54:53 公開日:2021-06-11
# 重畳畳み込みと学生再ランキングネットワークを用いたロバスト知識グラフ補完

Robust Knowledge Graph Completion with Stacked Convolutions and a Student Re-Ranking Network ( http://arxiv.org/abs/2106.06555v1 )

ライセンス: Link先を確認
Justin Lovelace, Denis Newman-Griffis, Shikhar Vashishth, Jill Fain Lehman, Carolyn Penstein Ros\'e(参考訳) 知識グラフ(KG)補完研究は通常、実際のKGを代表していない密結合したベンチマークデータセットに焦点を当てる。 バイオメディカルおよび百科事典の知識を含む2つのKGデータセットをキュレートし、既存のCommonsense KGデータセットを使用して、密接な接続が保証されないより現実的な環境でKG完了を探索する。 我々は,テキスト表現を利用した深い畳み込みネットワークを開発し,本モデルが近年のkg補完手法を上回っていることを示す。 モデルの性能改善は主に、堅牢性から疎性に起因している。 次に、畳み込みネットワークからの知識を、有望な候補エンティティを再ランク付けする学生ネットワークに絞り込む。 この再ランクステージはパフォーマンスをさらに向上させ、KG完了のためのエンティティ再ランクの有効性を示す。

Knowledge Graph (KG) completion research usually focuses on densely connected benchmark datasets that are not representative of real KGs. We curate two KG datasets that include biomedical and encyclopedic knowledge and use an existing commonsense KG dataset to explore KG completion in the more realistic setting where dense connectivity is not guaranteed. We develop a deep convolutional network that utilizes textual entity representations and demonstrate that our model outperforms recent KG completion methods in this challenging setting. We find that our model's performance improvements stem primarily from its robustness to sparsity. We then distill the knowledge from the convolutional network into a student network that re-ranks promising candidate entities. This re-ranking stage leads to further improvements in performance and demonstrates the effectiveness of entity re-ranking for KG completion.
翻訳日:2021-06-15 15:54:00 公開日:2021-06-11
# Auto-NBA: ネットワーク、ビット幅、加速器の結合空間を効率よく効果的に検索する

Auto-NBA: Efficient and Effective Search Over the Joint Space of Networks, Bitwidths, and Accelerators ( http://arxiv.org/abs/2106.06575v1 )

ライセンス: Link先を確認
Yonggan Fu, Yongan Zhang, Yang Zhang, David Cox, Yingyan Lin(参考訳) ディープニューラルネットワーク(DNN)の加速効率を最大化するためには、ネットワーク、ビット幅、加速器を含む3つの異なる高度に結合した側面の合同サーチ/設計が必要であるが、そのような共同サーチに関する課題はまだ十分に理解されておらず、対処されていない。 The key challenges include (1) the dilemma of whether to explode the memory consumption due to the huge joint space or achieve sub-optimal designs, (2) the discrete nature of the accelerator design space that is coupled yet different from that of the networks and bitwidths, and (3) the chicken and egg problem associated with network-accelerator co-search, i.e., co-search requires operation-wise hardware cost, which is lacking during search as the optimal accelerator depending on the whole network is still unknown during search. DNN加速器の最適かつ迅速な開発に向けたこれらの難題に対処するために、ターゲットデータセットとアクセラレーション仕様の巨大な共同設計空間内で最適な設計を効率よくローカライズし、ネットワーク、ビット幅、加速器を共同で検索できるAuto-NBAというフレームワークを提案する。 我々のAuto-NBAは、メモリ消費を一定に抑えた非バイアス探索を実現するための異種サンプリング戦略と、一般化可能なアクセルサーチエンジンを備えた新しい共同探索パイプラインを統合した。 大規模な実験とアブレーション研究により、Auto-NBAが生成したネットワークとアクセラレータは、探索時間、タスク精度、アクセル効率の点で、最先端の設計(共同調査/探索技術、ハードウェア対応NASメソッド、DNNアクセラレータなど)を一貫して上回っていることが検証された。 私たちのコードは、https://github.com/RICE-EIC/Auto-NBA.comで利用可能です。

While maximizing deep neural networks' (DNNs') acceleration efficiency requires a joint search/design of three different yet highly coupled aspects, including the networks, bitwidths, and accelerators, the challenges associated with such a joint search have not yet been fully understood and addressed. The key challenges include (1) the dilemma of whether to explode the memory consumption due to the huge joint space or achieve sub-optimal designs, (2) the discrete nature of the accelerator design space that is coupled yet different from that of the networks and bitwidths, and (3) the chicken and egg problem associated with network-accelerator co-search, i.e., co-search requires operation-wise hardware cost, which is lacking during search as the optimal accelerator depending on the whole network is still unknown during search. To tackle these daunting challenges towards optimal and fast development of DNN accelerators, we propose a framework dubbed Auto-NBA to enable jointly searching for the Networks, Bitwidths, and Accelerators, by efficiently localizing the optimal design within the huge joint design space for each target dataset and acceleration specification. Our Auto-NBA integrates a heterogeneous sampling strategy to achieve unbiased search with constant memory consumption, and a novel joint-search pipeline equipped with a generic differentiable accelerator search engine. Extensive experiments and ablation studies validate that both Auto-NBA generated networks and accelerators consistently outperform state-of-the-art designs (including co-search/exploration techniques, hardware-aware NAS methods, and DNN accelerators), in terms of search time, task accuracy, and accelerator efficiency. Our codes are available at: https://github.com/RICE-EIC/Auto-NBA.
翻訳日:2021-06-15 15:53:48 公開日:2021-06-11
# A3C-S:効率的な深層強化学習に向けたエージェントアクセラレータの共同探索

A3C-S: Automated Agent Accelerator Co-Search towards Efficient Deep Reinforcement Learning ( http://arxiv.org/abs/2106.06577v1 )

ライセンス: Link先を確認
Yonggan Fu, Yongan Zhang, Chaojian Li, Zhongzhi Yu, Yingyan Lin(参考訳) 深層強化学習(drl)エージェントを多数のリアルタイム制御や意思決定アプリケーションに適用することに対する爆発的な関心から、drlエージェントを日々のインテリジェントなデバイスを強化するために展開する需要が高まっている一方で、drlの複雑さは限られたオンデバイスリソースと相反する。 本研究では,テストスコアとハードウェア効率の両方を最大化する最適なdrlエージェントとアクセラレーションを自動的に探索する最善の知識に対して,a3c-s(automated agent accelerator co-search)フレームワークを提案する。 広範な実験は、最先端の技術よりもa3c-sの方が優れていることを一貫して検証します。

Driven by the explosive interest in applying deep reinforcement learning (DRL) agents to numerous real-time control and decision-making applications, there has been a growing demand to deploy DRL agents to empower daily-life intelligent devices, while the prohibitive complexity of DRL stands at odds with limited on-device resources. In this work, we propose an Automated Agent Accelerator Co-Search (A3C-S) framework, which to our best knowledge is the first to automatically co-search the optimally matched DRL agents and accelerators that maximize both test scores and hardware efficiency. Extensive experiments consistently validate the superiority of our A3C-S over state-of-the-art techniques.
翻訳日:2021-06-15 15:53:18 公開日:2021-06-11
# 局所微分プライバシーのためのシャッフルフレームワーク

A Shuffling Framework for Local Differential Privacy ( http://arxiv.org/abs/2106.06603v1 )

ライセンス: Link先を確認
Casey Meehan, Amrita Roy Chowdhury, Kamalika Chaudhuri, Somesh Jha(参考訳) ldpデプロイメントは、敵がノイズ応答をアイデンティティにリンクできるため、推論攻撃に対して脆弱であり、その後、データの順序を使って補助情報を取得する。 別のモデルであるshuffle dpでは、ノイズの応答をランダムにシャッフルすることでこれを防止している。 しかし、これはデータ学習可能性を制限する -- 対称関数(入力順序非依存)だけが学習できる。 本稿では,2つのデプロイモデル間を補間する汎用的なシャッフルフレームワークを提案する。 ノイズ応答の体系的なシャッフルは,有意義なデータ学習性を維持しつつ,特定の推論攻撃を阻止できることを示す。 この目的のために,データシーケンスの順序のプライバシをキャプチャする,新たなプライバシ保証であるd-sigma privacyを提案する。 d-シグマプライバシは、順序情報が維持される粒度を調整することを可能にし、推論攻撃に対する抵抗度をデータ学習可能性と引き換えに定式化する。 さらに,d-シグマプライバシを実現する新たなシャッフル機構を提案し,実世界のデータセットの評価を通じて,そのメカニズムの実用性を示す。

ldp deployments are vulnerable to inference attacks as an adversary can link the noisy responses to their identity and subsequently, auxiliary information using the order of the data. An alternative model, shuffle DP, prevents this by shuffling the noisy responses uniformly at random. However, this limits the data learnability -- only symmetric functions (input order agnostic) can be learned. In this paper, we strike a balance and propose a generalized shuffling framework that interpolates between the two deployment models. We show that systematic shuffling of the noisy responses can thwart specific inference attacks while retaining some meaningful data learnability. To this end, we propose a novel privacy guarantee, d-sigma privacy, that captures the privacy of the order of a data sequence. d-sigma privacy allows tuning the granularity at which the ordinal information is maintained, which formalizes the degree the resistance to inference attacks trading it off with data learnability. Additionally, we propose a novel shuffling mechanism that can achieve d-sigma privacy and demonstrate the practicality of our mechanism via evaluation on real-world datasets.
翻訳日:2021-06-15 15:53:05 公開日:2021-06-11
# 深部ReLUネットワークの事前予測分布の高精度評価

Precise characterization of the prior predictive distribution of deep ReLU networks ( http://arxiv.org/abs/2106.06615v1 )

ライセンス: Link先を確認
Lorenzo Noci, Gregor Bachmann, Kevin Roth, Sebastian Nowozin, Thomas Hofmann(参考訳) ベイジアンニューラルネットワーク(BNN)に関する最近の研究は、ネットワークアーキテクチャの構成構造と組み合わせて、ガウス事前の使用の意味をよりよく理解する必要性を強調している。 ニューラルネットワーク(cf)のより良い初期化スキームを考案するために開発された分析の精神と類似している。 he または xavier 初期化) はガウス重みを持つ有限幅 relu ネットワークの事前予測分布の正確なキャラクタリゼーションを導出する。 重み付けの理論的結果が得られたが、事前の予測分布(すなわち予測分布)の完全な特徴は明らかである。 その密度、CDF、モーメント)は、この研究以前には分かっていなかった。 我々の解析は,Meijer-G関数に基づいて,ネットワークの幅や深さなどのアーキテクチャ選択が,事前予測分布の結果の形状に与える影響を定量化することができる。 また, 無限幅設定では, 分布のモーメントが無限深さ極限における正規対数正規混合のモーメントに収束することを示した。 最後に,ネットワークの重みに対する深さおよび幅インフォームドによる予測分散の制御など,事前設計に関する貴重なガイダンスを提供する。

Recent works on Bayesian neural networks (BNNs) have highlighted the need to better understand the implications of using Gaussian priors in combination with the compositional structure of the network architecture. Similar in spirit to the kind of analysis that has been developed to devise better initialization schemes for neural networks (cf. He- or Xavier initialization), we derive a precise characterization of the prior predictive distribution of finite-width ReLU networks with Gaussian weights. While theoretical results have been obtained for their heavy-tailedness, the full characterization of the prior predictive distribution (i.e. its density, CDF and moments), remained unknown prior to this work. Our analysis, based on the Meijer-G function, allows us to quantify the influence of architectural choices such as the width or depth of the network on the resulting shape of the prior predictive distribution. We also formally connect our results to previous work in the infinite width setting, demonstrating that the moments of the distribution converge to those of a normal log-normal mixture in the infinite depth limit. Finally, our results provide valuable guidance on prior design: for instance, controlling the predictive variance with depth- and width-informed priors on the weights of the network.
翻訳日:2021-06-15 15:52:49 公開日:2021-06-11
# 交換経済における競争均衡のオンライン学習

Online Learning of Competitive Equilibria in Exchange Economies ( http://arxiv.org/abs/2106.06616v1 )

ライセンス: Link先を確認
Wenshuo Guo, Kirthevasan Kandasamy, Joseph E Gonzalez, Michael I. Jordan, Ion Stoica(参考訳) 複数の合理的エージェント間の資源の共有は、経済学における古典的な問題の1つである。 このような状況をモデル化するために使用される交換経済では、エージェントはリソースの最初の寄付から始まり、競争均衡(ce)に達するまで相互に有益である方法で交換する。 ce割り当ては効率的かつ公平である。 そのため、公正な分割のための設計機構として広く用いられている。 しかし、CEの計算には、興味のあるいくつかの応用で未知のエージェント選好の知識が必要である。 本研究では,各ラウンドにおいてエージェントにリソースを割り当て,その割り当てを用いた経験に関する確率的フィードバックを収集する,新たなオンライン学習メカニズムについて検討する。 その目標は、このフィードバックを通じてエージェントユーティリティを学習し、長期的にはceの割り当てを模倣することである。 2つの損失によりceの挙動を定量化し、両基準で$t$ラウンド後に$\bigotilde(\sqrt{t})$損失を達成するランダム化アルゴリズムを提案する。 数値シミュレーションにより,この機構の有効性を実証した。

The sharing of scarce resources among multiple rational agents is one of the classical problems in economics. In exchange economies, which are used to model such situations, agents begin with an initial endowment of resources and exchange them in a way that is mutually beneficial until they reach a competitive equilibrium (CE). CE allocations are Pareto efficient and fair. Consequently, they are used widely in designing mechanisms for fair division. However, computing CEs requires the knowledge of agent preferences which are unknown in several applications of interest. In this work, we explore a new online learning mechanism, which, on each round, allocates resources to the agents and collects stochastic feedback on their experience in using that allocation. Its goal is to learn the agent utilities via this feedback and imitate the allocations at a CE in the long run. We quantify CE behavior via two losses and propose a randomized algorithm which achieves $\bigOtilde(\sqrt{T})$ loss after $T$ rounds under both criteria. Empirically, we demonstrate the effectiveness of this mechanism through numerical simulations.
翻訳日:2021-06-15 15:52:31 公開日:2021-06-11
# 局所的ロバストネスの緩和

Relaxing Local Robustness ( http://arxiv.org/abs/2106.06624v1 )

ライセンス: Link先を確認
Klas Leino, Matt Fredrikson(参考訳) 認証された局所ロバスト性は、極小の敵の例を厳格に阻止するものであり、ディープラーニングにおけるセキュリティ問題に対処する手段として大きな注目を集めている。 しかし、いくつかの分類問題では、敵の存在下でも局所的堅牢性は自然な目的ではない。例えば、画像が2つの被写体のクラスを含む場合、画像の正しいラベルは2つの間に任意と見なすことができ、それらの間の厳密な分離を強制することは不要である。 本研究では,(1)トップk精度のアナログとして機能するストレートトップkロバスト性,(2)ロバストネスマージンによってどのラベル集合を分離する必要があるかを指定するアフィニティロバスト性,および$\ell_p$空間で$\epsilon$-closeとすることができる。 緩和された各強靭性特性に対して効率よく検証できるモデルの構築方法を示し、標準勾配降下に対するオーバーヘッドがほとんどない。 最後に、これらの緩和されたロバスト性変異はいくつかの重要な分類問題に適しており、「標準的な」局所ロバスト性を証明する際に得られるよりも低い拒絶率と高い認証精度をもたらすことを示した。

Certifiable local robustness, which rigorously precludes small-norm adversarial examples, has received significant attention as a means of addressing security concerns in deep learning. However, for some classification problems, local robustness is not a natural objective, even in the presence of adversaries; for example, if an image contains two classes of subjects, the correct label for the image may be considered arbitrary between the two, and thus enforcing strict separation between them is unnecessary. In this work, we introduce two relaxed safety properties for classifiers that address this observation: (1) relaxed top-k robustness, which serves as the analogue of top-k accuracy; and (2) affinity robustness, which specifies which sets of labels must be separated by a robustness margin, and which can be $\epsilon$-close in $\ell_p$ space. We show how to construct models that can be efficiently certified against each relaxed robustness property, and trained with very little overhead relative to standard gradient descent. Finally, we demonstrate experimentally that these relaxed variants of robustness are well-suited to several significant classification problems, leading to lower rejection rates and higher certified accuracies than can be obtained when certifying "standard" local robustness.
翻訳日:2021-06-15 15:52:14 公開日:2021-06-11
# バッファ付き非同期アグリゲーションによるフェデレーション学習

Federated Learning with Buffered Asynchronous Aggregation ( http://arxiv.org/abs/2106.06639v1 )

ライセンス: Link先を確認
John Nguyen, Kshitiz Malik, Hongyuan Zhan, Ashkan Yousefpour, Michael Rabbat, Mani Malek Esmaeili, Dzmitry Huba(参考訳) federated learning(fl)は、トレーニングデータをデバイスに保持しながら、分散デバイス間で共有モデルをトレーニングする。 ほとんどのFLスキームは同期であり、個々のデバイスからモデル更新を同期的に集約する。 同期トレーニングは遅いデバイス(ストラグラー)のために遅くなる可能性がある。 一方で、完全に非同期なトレーニングは、セキュアなアグリゲーションと互換性がないため、flのプライベート性が低下する。 本稿では,同期FLと非同期FLの最適特性を組み合わせたモデルアグリゲーション方式であるFedBuffを提案する。 同期FLと同様に、FedBuffはセキュアアグリゲーションと互換性がある。 非同期FLと同様に、FedBuffはストラグラーに対して堅牢である。 FedBuffでは、クライアントは非同期にトレーニングし、サーバにアップデートを送信する。 サーバは、更新が受信されるまでクライアント更新をプライベートバッファに集約し、その時点でサーバモデル更新が即座に実行される。 非凸条件でのFedBuffに対する理論的収束保証を提供する。 経験的に、FedBuffは同期FLの以前の提案(例えば、FedAvgM)よりも最大3.8倍、非同期FLの以前の提案(例えば、FedAsync)より最大2.5倍速く収束する。 我々は,FedBuffが異なる定常分布に対して堅牢であり,同期FL技術よりもスケーラブルであることを示す。

Federated Learning (FL) trains a shared model across distributed devices while keeping the training data on the devices. Most FL schemes are synchronous: they perform a synchronized aggregation of model updates from individual devices. Synchronous training can be slow because of late-arriving devices (stragglers). On the other hand, completely asynchronous training makes FL less private because of incompatibility with secure aggregation. In this work, we propose a model aggregation scheme, FedBuff, that combines the best properties of synchronous and asynchronous FL. Similar to synchronous FL, FedBuff is compatible with secure aggregation. Similar to asynchronous FL, FedBuff is robust to stragglers. In FedBuff, clients trains asynchronously and send updates to the server. The server aggregates client updates in a private buffer until updates have been received, at which point a server model update is immediately performed. We provide theoretical convergence guarantees for FedBuff in a non-convex setting. Empirically, FedBuff converges up to 3.8x faster than previous proposals for synchronous FL (e.g., FedAvgM), and up to 2.5x faster than previous proposals for asynchronous FL (e.g., FedAsync). We show that FedBuff is robust to different staleness distributions and is more scalable than synchronous FL techniques.
翻訳日:2021-06-15 15:51:49 公開日:2021-06-11
# 木組における最適対実的説明

Optimal Counterfactual Explanations in Tree Ensembles ( http://arxiv.org/abs/2106.06631v1 )

ライセンス: Link先を確認
Axel Parmentier, Thibaut Vidal(参考訳) 事実的説明は通常、探索の初期条件に敏感なヒューリスティックによって生成される。 パフォーマンスの保証と堅牢性の欠如は、信頼性を損なう。 本稿では,木合奏の反事実的説明に対する規律的アプローチについて述べる。 我々は「最適」な説明を目的としたモデルに基づく探索を提唱し、効率的な混合整数プログラミング手法を提案する。 我々は,孤立林を枠組み内でモデル化し,より低いアウトリアースコアで検索可能な説明に焦点をあてることができることを示した。 我々は、重要な目的、異種データ型、機能空間の構造的制約、およびリソースと実行可能性の制約をモデル化する追加の制約を包括的にカバーする。 実験により,提案手法は従来の数式プログラミングアルゴリズムよりも桁違いに小さい計算作業を必要とすることが示された。 大規模なデータセットやツリーアンサンブルまでスケールし、数秒以内に、最適性のために解かれたよく定義されたモデルに基づいた体系的な説明を提供する。

Counterfactual explanations are usually generated through heuristics that are sensitive to the search's initial conditions. The absence of guarantees of performance and robustness hinders trustworthiness. In this paper, we take a disciplined approach towards counterfactual explanations for tree ensembles. We advocate for a model-based search aiming at "optimal" explanations and propose efficient mixed-integer programming approaches. We show that isolation forests can be modeled within our framework to focus the search on plausible explanations with a low outlier score. We provide comprehensive coverage of additional constraints that model important objectives, heterogeneous data types, structural constraints on the feature space, along with resource and actionability restrictions. Our experimental analyses demonstrate that the proposed search approach requires a computational effort that is orders of magnitude smaller than previous mathematical programming algorithms. It scales up to large data sets and tree ensembles, where it provides, within seconds, systematic explanations grounded on well-defined models solved to optimality.
翻訳日:2021-06-15 15:38:48 公開日:2021-06-11
# 変分推論における後温度最適化

Posterior Temperature Optimization in Variational Inference ( http://arxiv.org/abs/2106.07533v1 )

ライセンス: Link先を確認
Max-Heinrich Laves, Malte T\"olle, Alexander Schlaefer(参考訳) ベイズ深層学習(wenzel2020 et al., 2020)の文脈において、寒冷な後方部は実践的に優れていると報告されている。 変分推論では、ログエビデンス下界(ELBO)の複雑性項をスケーリングすることで、部分的に温められた後面のみを用いるのが一般的である。 本研究は,まず,平均場変動推定における完全誘電体後部からELBOを導出し,その後ベイズ最適化を用いて最適後部温度を自動的に検出する。 適切な後方温度を選択すると予測性能が向上し,不確実性校正が向上する。

Cold posteriors have been reported to perform better in practice in the context of Bayesian deep learning (Wenzel2020 et al., 2020). In variational inference, it is common to employ only a partially tempered posterior by scaling the complexity term in the log-evidence lower bound (ELBO). In this work, we first derive the ELBO for a fully tempered posterior in mean-field variational inference and subsequently use Bayesian optimization to automatically find the optimal posterior temperature. Choosing an appropriate posterior temperature leads to better predictive performance and improved uncertainty calibration, which we demonstrate for the task of denoising medical X-ray images.
翻訳日:2021-06-15 15:33:05 公開日:2021-06-11
# (参考訳) GP-ConvCNP:時系列データに基づく畳み込み条件付きニューラルプロセスのより良い一般化

GP-ConvCNP: Better Generalization for Convolutional Conditional Neural Processes on Time Series Data ( http://arxiv.org/abs/2106.04967v2 )

ライセンス: CC BY 4.0
Jens Petersen, Gregor K\"ohler, David Zimmerer, Fabian Isensee, Paul F. J\"ager, Klaus H. Maier-Hein(参考訳) ニューラルプロセス(英: Neural Processs、NP)は、関数上の分布をモデル化できる条件生成モデルのファミリーであり、複数のコンテキストポイントで条件付きテスト時に予測を行うことができる。 最近の畳み込み条件付き神経プロセス(convolutional conditional neural process, convcnp)は、先行技術よりもパフォーマンスが著しく向上しているが、時系列データに適用した場合に一般化に苦労することがある。 特に、それらは分布シフトに対して堅牢ではなく、観測されたパターンを将来への外挿に失敗する。 ガウス過程をモデルに組み込むことで、これを改善できると同時に、分散におけるパフォーマンスを向上させることができます。 追加の利点として、ガウス過程はNPファミリーの他のメンバーの重要な特徴であるモデルからサンプルする可能性を再導入する。

Neural Processes (NPs) are a family of conditional generative models that are able to model a distribution over functions, in a way that allows them to perform predictions at test time conditioned on a number of context points. A recent addition to this family, Convolutional Conditional Neural Processes (ConvCNP), have shown remarkable improvement in performance over prior art, but we find that they sometimes struggle to generalize when applied to time series data. In particular, they are not robust to distribution shifts and fail to extrapolate observed patterns into the future. By incorporating a Gaussian Process into the model, we are able to remedy this and at the same time improve performance within distribution. As an added benefit, the Gaussian Process reintroduces the possibility to sample from the model, a key feature of other members in the NP family.
翻訳日:2021-06-15 09:03:45 公開日:2021-06-11
# (参考訳) 非自己回帰翻訳のためのプログレッシブマルチグラニュラリティトレーニング

Progressive Multi-Granularity Training for Non-Autoregressive Translation ( http://arxiv.org/abs/2106.05546v2 )

ライセンス: CC0 1.0
Liang Ding, Longyue Wang, Xuebo Liu, Derek F. Wong, Dacheng Tao, Zhaopeng Tu(参考訳) 非自己回帰翻訳(NAT)は、ターゲットシーケンス全体を予測することで推論プロセスを著しく加速する。 しかし、最近の研究では、NATは一対多翻訳のような高度な知識の学習に弱いことが示されている。 モードは様々な粒度に分けることができ、そこから容易に学習できると我々は主張する。 本研究では,NATモデルが文と比較して,単語やフレーズなど,より細粒度の低い知識を学習する傾向があることを実証的に示す。 そこで本研究では,NATの進行的多粒度学習を提案する。 具体的には、トレーニングデータを最大限に活用するために、文レベルの例を3つのタイプに分類する。 言葉、句、文、そして訓練が進むにつれて、我々は徐々に粒度を増す。 ルーマニア語・英語・ドイツ語・中国語・日英語における実験により,本手法が句の翻訳精度とモデルの並べ替え能力を改善し,natベースラインに対する翻訳品質の向上を実現した。 また,より決定論的なききめ細かな知識が性能をさらに向上させることを示す。

Non-autoregressive translation (NAT) significantly accelerates the inference process via predicting the entire target sequence. However, recent studies show that NAT is weak at learning high-mode of knowledge such as one-to-many translations. We argue that modes can be divided into various granularities which can be learned from easy to hard. In this study, we empirically show that NAT models are prone to learn fine-grained lower-mode knowledge, such as words and phrases, compared with sentences. Based on this observation, we propose progressive multi-granularity training for NAT. More specifically, to make the most of the training data, we break down the sentence-level examples into three types, i.e. words, phrases, sentences, and with the training goes, we progressively increase the granularities. Experiments on Romanian-English, English-German, Chinese-English, and Japanese-English demonstrate that our approach improves the phrase translation accuracy and model reordering ability, therefore resulting in better translation quality against strong NAT baselines. Also, we show that more deterministic fine-grained knowledge can further enhance performance.
翻訳日:2021-06-15 08:42:57 公開日:2021-06-11
# (参考訳) ニューラルネットワークを用いた多分野共同設計最適化

Collaborative Multidisciplinary Design Optimization with Neural Networks ( http://arxiv.org/abs/2106.06092v1 )

ライセンス: CC BY 4.0
Jean de Becdelievre, Ilan Kroo(参考訳) 複雑なエンジニアリングシステムの設計は、異なる分野を含む非常に大きな最適化問題の解決につながる。 サブオブジェクトを提供することで規律を並列に最適化し、問題を協調最適化のような小さな部分に分割する戦略は有望な解決策である。 本稿では,これらの戦略の競争性を十分に改善するために,代理モデルの学習による収束を早める努力がまだ成功していないことを示す。この論文は,協調最適化の場合,二項分類の興味深い事例を解くことにより,より高速で信頼性の高い収束が得られることを示す。 この情報を利用して,非対称損失関数,リプシッツ連続性を保証する構造,基本距離関数特性を尊重する規則化を伴うニューラルネットワークを訓練する。 このアプローチはおもちゃの学習例で実証され、その後、多分野の航空機設計問題に適用される。

The design of complex engineering systems leads to solving very large optimization problems involving different disciplines. Strategies allowing disciplines to optimize in parallel by providing sub-objectives and splitting the problem into smaller parts, such as Collaborative Optimization, are promising solutions.However, most of them have slow convergence which reduces their practical use. Earlier efforts to fasten convergence by learning surrogate models have not yet succeeded at sufficiently improving the competitiveness of these strategies.This paper shows that, in the case of Collaborative Optimization, faster and more reliable convergence can be obtained by solving an interesting instance of binary classification: on top of the target label, the training data of one of the two classes contains the distance to the decision boundary and its derivative. Leveraging this information, we propose to train a neural network with an asymmetric loss function, a structure that guarantees Lipshitz continuity, and a regularization towards respecting basic distance function properties. The approach is demonstrated on a toy learning example, and then applied to a multidisciplinary aircraft design problem.
翻訳日:2021-06-15 05:30:03 公開日:2021-06-11
# (参考訳) コード編集表現学習における構文構造の有効性評価

Assessing the Effectiveness of Syntactic Structure to Learn Code Edit Representations ( http://arxiv.org/abs/2106.06110v1 )

ライセンス: CC BY 4.0
Syed Arbaaz Qureshi, Sonu Mehta, Ranjita Bhagwan, Rahul Kumar(参考訳) 近年, 自動コミットメッセージ生成, プルリクエスト記述の自動生成, 自動プログラム修正など, 様々なアプリケーションを支援するために, データとしてコードを利用する方法が示されている。 例えば、コミットメッセージ生成の問題を考えてみましょう。 ソースコードをトークンのシーケンスとして扱うことで、最先端技術はニューラルマシン翻訳モデルを使用してコミットメッセージを生成する。 しかし、それらはプログラミング言語の構文構造を無視する傾向がある。 以前の作業、すなわちcode2seq は Abstract Syntax Tree (AST) の構造情報を使ってソースコードを表現し、メソッド名を自動的に生成した。 本稿では,この手法の状況について詳述し,ソースコードの編集を表現できるように修正する。 コード編集の分類問題に対して,このような構文構造を用いることの効果を判定する。 code2seqアプローチに触発されて、ASTの葉ノード間のパスがASTからの構造化情報、すなわち、粒度の細かい構文編集の2つのデータセットのコード編集分類にどのように役立つかを評価する。 実験の結果, 構文構造を付加する試みは, 洗練度が低い手法よりも改善しないことがわかった。 結果は、Code2seqのようなテクニックは有望ではあるが、コード編集表現の学習に汎用的に適用できるようになるまでには長い道のりがあることを示している。 これらの結果が他の研究者に利益をもたらし、この問題にさらなる取り組みを促すことを期待しています。

In recent times, it has been shown that one can use code as data to aid various applications such as automatic commit message generation, automatic generation of pull request descriptions and automatic program repair. Take for instance the problem of commit message generation. Treating source code as a sequence of tokens, state of the art techniques generate commit messages using neural machine translation models. However, they tend to ignore the syntactic structure of programming languages. Previous work, i.e., code2seq has used structural information from Abstract Syntax Tree (AST) to represent source code and they use it to automatically generate method names. In this paper, we elaborate upon this state of the art approach and modify it to represent source code edits. We determine the effect of using such syntactic structure for the problem of classifying code edits. Inspired by the code2seq approach, we evaluate how using structural information from AST, i.e., paths between AST leaf nodes can help with the task of code edit classification on two datasets of fine-grained syntactic edits. Our experiments shows that attempts of adding syntactic structure does not result in any improvements over less sophisticated methods. The results suggest that techniques such as code2seq, while promising, have a long way to go before they can be generically applied to learning code edit representations. We hope that these results will benefit other researchers and inspire them to work further on this problem.
翻訳日:2021-06-15 05:19:01 公開日:2021-06-11
# (参考訳) スペクトル非教師なし領域適応による視覚認識

Spectral Unsupervised Domain Adaptation for Visual Recognition ( http://arxiv.org/abs/2106.06112v1 )

ライセンス: CC BY-SA 4.0
Jingyi Zhang, Jiaxing Huang and Shijian Lu(参考訳) unsupervised domain adaptation (uda) は、1つまたは複数の関連するソースドメインのラベル付きデータを活用することで、ラベルなしのターゲットドメインでうまく表現されたモデルを学ぶことを目的としている。 1) 対象領域におけるアノテーションの欠如,2) ソースとターゲットデータの分布のばらつきが豊富であるため,依然として大きな課題である。 本稿では、スペクトル空間で機能し、検出、分類、セグメンテーションにおいて様々な視覚認識タスクにまたがる、効率的かつ効率的なUDA技術であるSpectral UDA(SUDA)を提案する。 SuDAは2つの観点からUDAの課題に対処する。 まず、ソース画像とターゲット画像をスペクトル空間にマッピングし、ドメイン不変スペクトルを同時に抑制しながらドメイン不変スペクトルを強化するスペクトル変換器(ST)によりドメイン間不一致を緩和する。 この目的のために、コンテキスト情報を利用してドメイン不変およびドメイン不変のスペクトルを効果的に識別する新しい逆多重ヘッドスペクトルアテンションを設計する。 第2に、多視点スペクトル学習を導入し、各対象試料の異なるスペクトルビューをキャプチャする複数のSTオーグメンテーション間の相互情報を最大化し、包括的かつ確実なターゲット表現を学習することを目的とする。 異なる視覚的タスク(例えば、検出、分類、セグメンテーション)に対する広範囲な実験は、SUDAが優れた精度を達成し、一貫した性能向上と余分な計算の少ない最先端のUDA手法と相補的であることを示している。

Unsupervised domain adaptation (UDA) aims to learn a well-performed model in an unlabeled target domain by leveraging labeled data from one or multiple related source domains. It remains a great challenge due to 1) the lack of annotations in the target domain and 2) the rich discrepancy between the distributions of source and target data. We propose Spectral UDA (SUDA), an efficient yet effective UDA technique that works in the spectral space and is generic across different visual recognition tasks in detection, classification and segmentation. SUDA addresses UDA challenges from two perspectives. First, it mitigates inter-domain discrepancies by a spectrum transformer (ST) that maps source and target images into spectral space and learns to enhance domain-invariant spectra while suppressing domain-variant spectra simultaneously. To this end, we design novel adversarial multi-head spectrum attention that leverages contextual information to identify domain-variant and domain-invariant spectra effectively. Second, it mitigates the lack of annotations in target domain by introducing multi-view spectral learning which aims to learn comprehensive yet confident target representations by maximizing the mutual information among multiple ST augmentations capturing different spectral views of each target sample. Extensive experiments over different visual tasks (e.g., detection, classification and segmentation) show that SUDA achieves superior accuracy and it is also complementary with state-of-the-art UDA methods with consistent performance boosts but little extra computation.
翻訳日:2021-06-15 05:01:43 公開日:2021-06-11
# (参考訳) 教師なし異常検出のための自己訓練型一クラス分類

Self-Trained One-class Classification for Unsupervised Anomaly Detection ( http://arxiv.org/abs/2106.06115v1 )

ライセンス: CC BY 4.0
Jinsung Yoon, Kihyuk Sohn, Chun-Liang Li, Sercan O. Arik, Chen-Yu Lee, Tomas Pfister(参考訳) 異常検出(AD)は、通常のデータから異常を分離するものであり、製造から医療まで様々な分野に応用されている。 以前のほとんどの作品は、完全にあるいは部分的にラベル付けされたデータの場合に有効であることが示されているが、退屈なデータラベリングプロセスのため、広告アプリケーションにはあまり実用的ではない。 本研究では,トレーニングデータ全体がラベルなしであり,正常なサンプルと異常なサンプルの両方を含む非教師なし広告問題に焦点を当てる。 この問題に対処するため,データリファインメントによる堅牢な一級分類フレームワークを構築した。 データを精度良く洗練するために,学習データの非結合部分集合に基づいて訓練された一級分類器のアンサンブルを提案する。 さらに,データと深層表現を反復的に洗練する,深層表現型分類器(stoc)の自己学習を提案する。 実験では,画像領域と表データ領域のベンチマークにおける教師なし異常検出法の有効性を示す。 例えば、CIFAR-10データに対する10%の異常比で、提案手法は最先端の1クラス分類法を6.3AUCと12.5平均精度で上回る。

Anomaly detection (AD), separating anomalies from normal data, has various applications across domains, from manufacturing to healthcare. While most previous works have shown to be effective for cases with fully or partially labeled data, they are less practical for AD applications due to tedious data labeling processes. In this work, we focus on unsupervised AD problems whose entire training data are unlabeled and may contain both normal and anomalous samples. To tackle this problem, we build a robust one-class classification framework via data refinement. To refine the data accurately, we propose an ensemble of one-class classifiers, each of which is trained on a disjoint subset of training data. Moreover, we propose a self-training of deep representation one-class classifiers (STOC) that iteratively refines the data and deep representations. In experiments, we show the efficacy of our method for unsupervised anomaly detection on benchmarks from image and tabular data domains. For example, with a 10% anomaly ratio on CIFAR-10 data, the proposed method outperforms state-of-the-art one-class classification method by 6.3 AUC and 12.5 average precision.
翻訳日:2021-06-15 04:43:09 公開日:2021-06-11
# (参考訳) 非凸正規化を構成する統一フレームワーク

A Unified Framework for Constructing Nonconvex Regularizations ( http://arxiv.org/abs/2106.06123v1 )

ライセンス: CC0 1.0
Zhiyong Zhou(参考訳) 過去数十年にわたり、様々なシナリオでスパース回復性能を達成するために、複数の非凸法が提案されてきた。 しかし、有効な非凸正規化関数をどのように構築するかは、実際には未開である。 本稿では,確率密度関数に基づく非凸正則化を構成するための統一フレームワークを提案することで,このギャップを埋める。 一方,Weibull分布を用いた新しい非凸スパース回収法について検討した。

Over the past decades, many individual nonconvex methods have been proposed to achieve better sparse recovery performance in various scenarios. However, how to construct a valid nonconvex regularization function remains open in practice. In this paper, we fill in this gap by presenting a unified framework for constructing the nonconvex regularization based on the probability density function. Meanwhile, a new nonconvex sparse recovery method constructed via the Weibull distribution is studied.
翻訳日:2021-06-15 04:26:01 公開日:2021-06-11
# (参考訳) オンデバイス音響モデルのための大規模教員養成の試み

Exploiting Large-scale Teacher-Student Training for On-device Acoustic Models ( http://arxiv.org/abs/2106.06126v1 )

ライセンス: CC BY 4.0
Jing Liu, Rupak Vignesh Swaminathan, Sree Hari Krishnan Parthasarathi, Chunchuan Lyu, Athanasios Mouchtaris, Siegfried Kunzmann(参考訳) 私たちはAlexaの音声認識チームによる、3000時間以上のGPU時間にわたる実験によるアコースティックモデル(AM)の半教師付き学習(SSL)について、その研究は、その種類の中で最大である。 少数のフットプリント設定でAMのSSLについて議論し、100万時間の教師なしデータで訓練された小さなキャパシティモデルにより、ベースラインの教師付きシステムよりも14.3%のワードエラー率削減(WERR)を達成できることを示した。 教師付きデータを7倍に増やすと、我々のゲインは7.1% WERRに減少し、より大きな監督型データ体制におけるSSL効率を向上させるために、より小さなモデルに段階的に蒸留し、WERRの14.4%を得る。 教師なしデータによる学習効率が高い一方で、学生モデルはそのような設定で教師モデルよりも優れています。 我々はこの振る舞いを説明するための理論的スケッチを開発する。

We present results from Alexa speech teams on semi-supervised learning (SSL) of acoustic models (AM) with experiments spanning over 3000 hours of GPU time, making our study one of the largest of its kind. We discuss SSL for AMs in a small footprint setting, showing that a smaller capacity model trained with 1 million hours of unsupervised data can outperform a baseline supervised system by 14.3% word error rate reduction (WERR). When increasing the supervised data to seven-fold, our gains diminish to 7.1% WERR; to improve SSL efficiency at larger supervised data regimes, we employ a step-wise distillation into a smaller model, obtaining a WERR of 14.4%. We then switch to SSL using larger student models in low data regimes; while learning efficiency with unsupervised data is higher, student models may outperform teacher models in such a setting. We develop a theoretical sketch to explain this behavior.
翻訳日:2021-06-15 04:16:04 公開日:2021-06-11
# (参考訳) インスタンスレベルのタスクパラメータ:堅牢なマルチタスク重み付けフレームワーク

Instance-Level Task Parameters: A Robust Multi-task Weighting Framework ( http://arxiv.org/abs/2106.06129v1 )

ライセンス: CC BY 4.0
Pavan Kumar Anasosalu Vasu, Shreyas Saxena, Oncel Tuzel(参考訳) 最近の研究によると、ディープニューラルネットワークは複数の関連するタスク間で共有表現を学習することでマルチタスク学習の恩恵を受けている。 しかし、そのようなシステムの性能は、訓練中の様々な損失の間の相対重み付けに依存する。 損失重み付けスキームに関する事前の作業は、インスタンスがすべてのタスクに対して同じくらい簡単あるいは難しいと仮定する。 この仮定を破るために、トレーニングプロセスがデータセットの各インスタンスのタスクの最適な重み付けを決定するようにします。 具体的には、データセット内のすべてのインスタンスに学習可能なパラメータ(インスタンスレベルのタスクパラメータ)のセットを装備します。 これらのパラメータは、インスタンスの各タスクの重み付けをモデル化する。 勾配降下によって更新され、手作りのルールを必要としない。 我々は,人間の形状とポーズ推定,深さ推定,意味セグメンテーションタスクなど,シュールリアルとシティスケープのデータセットを広範囲に実験する。 これらの課題において,本手法は最近の動的損失重み付け手法よりも優れている。 SURREALでは表面推定誤差を8.97%削減する。 1つ以上のタスクが騒がしいアノテーションを持つデータセットに適用すると、提案手法は、特定のタスクに対してクリーンラベルから学習を優先するように学習する。 表面推定誤差を最大60%削減します また,学習したインスタンスレベルのタスクパラメータから,与えられたタスクの破損ラベルを副産物として確実に検出できることを示す。

Recent works have shown that deep neural networks benefit from multi-task learning by learning a shared representation across several related tasks. However, performance of such systems depend on relative weighting between various losses involved during training. Prior works on loss weighting schemes assume that instances are equally easy or hard for all tasks. In order to break this assumption, we let the training process dictate the optimal weighting of tasks for every instance in the dataset. More specifically, we equip every instance in the dataset with a set of learnable parameters (instance-level task parameters) where the cardinality is equal to the number of tasks learned by the model. These parameters model the weighting of each task for an instance. They are updated by gradient descent and do not require hand-crafted rules. We conduct extensive experiments on SURREAL and CityScapes datasets, for human shape and pose estimation, depth estimation and semantic segmentation tasks. In these tasks, our approach outperforms recent dynamic loss weighting approaches, e.g. reducing surface estimation errors by 8.97% on SURREAL. When applied to datasets where one or more tasks can have noisy annotations, the proposed method learns to prioritize learning from clean labels for a given task, e.g. reducing surface estimation errors by up to 60%. We also show that we can reliably detect corrupt labels for a given task as a by-product from learned instance-level task parameters.
翻訳日:2021-06-15 04:06:50 公開日:2021-06-11
# (参考訳) tellme why: why-questions in narrativesに答えるデータセット

TellMeWhy: A Dataset for Answering Why-Questions in Narratives ( http://arxiv.org/abs/2106.06132v1 )

ライセンス: CC BY 4.0
Yash Kumar Lal, Nathanael Chambers, Raymond Mooney and Niranjan Balasubramanian(参考訳) キャラクターがなぜ特定の行動を行うのかという疑問に答えることは、物語を理解し、推論することの中心である。 近年のQAの進展にもかかわらず、既存のモデルが入力物語の外部で常識的な知識を必要とする「なぜ」疑問に答える能力を持っているかどうかは不明である。 本稿では,30万以上の質問と,短い物語の登場人物が記述された行動を行う理由に関する自由形式の回答からなる,クラウドソースによる新たなデータセットTellMeWhyを紹介する。 このデータセットの3分の1は、回答はナラティブには存在しない。 この課題に対する自動評価の限界を考えると、このデータセットのためのシステム化された人間評価インタフェースも提示する。 最先端モデルの評価は,そのような質問に答える上で,人間のパフォーマンスをはるかに下回っていることを示している。 彼らは特に、回答が物語の外部にある質問に対して悪化しており、将来のQAと物語理解研究に課題を与えている。

Answering questions about why characters perform certain actions is central to understanding and reasoning about narratives. Despite recent progress in QA, it is not clear if existing models have the ability to answer "why" questions that may require commonsense knowledge external to the input narrative. In this work, we introduce TellMeWhy, a new crowd-sourced dataset that consists of more than 30k questions and free-form answers concerning why characters in short narratives perform the actions described. For a third of this dataset, the answers are not present within the narrative. Given the limitations of automated evaluation for this task, we also present a systematized human evaluation interface for this dataset. Our evaluation of state-of-the-art models show that they are far below human performance on answering such questions. They are especially worse on questions whose answers are external to the narrative, thus providing a challenge for future QA and narrative understanding research.
翻訳日:2021-06-15 03:53:30 公開日:2021-06-11
# (参考訳) グラフニューラルネットワークにはホモフィリーが必要か?

Is Homophily a Necessity for Graph Neural Networks? ( http://arxiv.org/abs/2106.06134v1 )

ライセンス: CC BY 4.0
Yao Ma, Xiaorui Liu, Neil Shah, Jiliang Tang(参考訳) グラフニューラルネットワーク(GNN)は、多数のグラフベースの機械学習タスクに適した学習表現において大きな進歩を示している。 半教師付きノード分類に適用すると、GNNはホモフィリーな仮定(``like attracts like''')のためにうまく機能し、異種ノードが接続する異種グラフに一般化できないと広く信じられている。 最近の研究は、このような不均一な制限を克服する新しいアーキテクチャを設計し、ベースライン性能の低さと、この概念の証拠として、いくつかの異種グラフベンチマークデータセットに対するアーキテクチャの改善を引用している。 実験では、標準的なグラフ畳み込みネットワーク(GCN)が、よく使われるヘテロ親和性グラフのこのような慎重に設計された手法よりも、実際に優れた性能を達成できることを実証的に見出した。 このことは、GNNのパフォーマンス向上にホモフィリーが本当に必要かどうかを再考する動機となっている。 実際、GCNは特定の条件下でのヘテロ親和性グラフ上での強い性能を達成することができる。 我々の研究はこれらの条件を慎重に特徴づけ、理論的理解と経験的観察を支援する。 最後に、既存の異種グラフベンチマークを検証し、この理解に基づいてGCNがどのように機能するかを精査する。

Graph neural networks (GNNs) have shown great prowess in learning representations suitable for numerous graph-based machine learning tasks. When applied to semi-supervised node classification, GNNs are widely believed to work well due to the homophily assumption (``like attracts like''), and fail to generalize to heterophilous graphs where dissimilar nodes connect. Recent works design new architectures to overcome such heterophily-related limitations, citing poor baseline performance and new architecture improvements on a few heterophilous graph benchmark datasets as evidence for this notion. In our experiments, we empirically find that standard graph convolutional networks (GCNs) can actually achieve better performance than such carefully designed methods on some commonly used heterophilous graphs. This motivates us to reconsider whether homophily is truly necessary for good GNN performance. We find that this claim is not quite true, and in fact, GCNs can achieve strong performance on heterophilous graphs under certain conditions. Our work carefully characterizes these conditions, and provides supporting theoretical understanding and empirical observations. Finally, we examine existing heterophilous graphs benchmarks and reconcile how the GCN (under)performs on them based on this understanding.
翻訳日:2021-06-15 03:35:43 公開日:2021-06-11
# (参考訳) DORO: 分散および外部ロバスト最適化

DORO: Distributional and Outlier Robust Optimization ( http://arxiv.org/abs/2106.06142v1 )

ライセンス: CC BY 4.0
Runtian Zhai, Chen Dan, J. Zico Kolter, Pradeep Ravikumar(参考訳) 多くの機械学習タスクは、テストデータ分布がトレーニング分布のサブポピュレーションであるサブポピュレーションシフトを含む。 このような設定のために、最近の一連の研究は、分散ロバスト最適化(DRO)として知られる経験的リスク最小化(ERM)の亜種の使用を提案している。 本研究では,DROをサブポピュレーションシフトを伴う大規模タスクに適用し,DROが比較的貧弱であり,さらに不安定であることを示す。 この現象の直接的な原因は、データセットの外れ値に対するDROの感度である。 この問題を解決するために,分散ロバスト最適化と外部ロバスト最適化のためのDOROのフレームワークを提案する。 このアプローチの核心は、droが潜在的な外れ値に過剰に適合することを防ぐ、洗練されたリスク機能である。 R\'enyi divergence の Cressie-Read ファミリーに対して DORO をインスタンス化し、CVaR と $\chi^2$-DRO の2つの特定のインスタンスを探索する。 提案手法の有効性を理論的に証明し,提案手法は大規模データセットを用いた実験によりDROの性能と安定性を向上し,橋本らによるオープンな疑問に肯定的に対処できることを実証的に示す。

Many machine learning tasks involve subpopulation shift where the testing data distribution is a subpopulation of the training distribution. For such settings, a line of recent work has proposed the use of a variant of empirical risk minimization(ERM) known as distributionally robust optimization (DRO). In this work, we apply DRO to real, large-scale tasks with subpopulation shift, and observe that DRO performs relatively poorly, and moreover has severe instability. We identify one direct cause of this phenomenon: sensitivity of DRO to outliers in the datasets. To resolve this issue, we propose the framework of DORO, for Distributional and Outlier Robust Optimization. At the core of this approach is a refined risk function which prevents DRO from overfitting to potential outliers. We instantiate DORO for the Cressie-Read family of R\'enyi divergence, and delve into two specific instances of this family: CVaR and $\chi^2$-DRO. We theoretically prove the effectiveness of the proposed method, and empirically show that DORO improves the performance and stability of DRO with experiments on large modern datasets, thereby positively addressing the open question raised by Hashimoto et al., 2018.
翻訳日:2021-06-15 03:09:42 公開日:2021-06-11
# (参考訳) 超低リソース環境におけるスパース転写の発話項検出法

Spoken Term Detection Methods for Sparse Transcription in Very Low-resource Settings ( http://arxiv.org/abs/2106.06160v1 )

ライセンス: CC BY 4.0
\'Eric Le Ferrand, Steven Bird, Laurent Besacier(参考訳) そこで本研究では,強健なASRシステムの訓練に利用可能なデータが不十分な場合に,2つの全く異なる音節検出手法の有効性について検討する。 2つの口頭言語での実験では、訓練済みの普遍的な電話認識器が、わずか数分間のターゲット言語音声で微調整され、動的時間ワープアプローチよりも全体的なパフォーマンスで音声語検出に使用できることが示されている。 さらに,グラフ構造における音素認識の曖昧さの表現は,低リソース音声語検出タスクにおいて高い精度を維持しながらリコールをさらに促進できることを示す。

We investigate the efficiency of two very different spoken term detection approaches for transcription when the available data is insufficient to train a robust ASR system. This work is grounded in very low-resource language documentation scenario where only few minutes of recording have been transcribed for a given language so far.Experiments on two oral languages show that a pretrained universal phone recognizer, fine-tuned with only a few minutes of target language speech, can be used for spoken term detection with a better overall performance than a dynamic time warping approach. In addition, we show that representing phoneme recognition ambiguity in a graph structure can further boost the recall while maintaining high precision in the low resource spoken term detection task.
翻訳日:2021-06-15 02:36:59 公開日:2021-06-11
# (参考訳) シークエンシャルレコメンデーションのための不確実性のある分布としてのシーケンスのモデル化

Modeling Sequences as Distributions with Uncertainty for Sequential Recommendation ( http://arxiv.org/abs/2106.06165v1 )

ライセンス: CC BY-SA 4.0
Ziwei Fan, Zhiwei Liu, Lei Zheng, Shen Wang, Philip S. Yu(参考訳) ユーザインタラクション内のシーケンシャルなパターンは、ユーザの好みを表現し、アイテム間の潜在関係を捉える上で重要なものだ。 トランスフォーマーによるシーケンスモデリングの最近の進歩は、より効果的なエンコーダを連続的な推奨のために考案するコミュニティを提唱している。 既存のシーケンシャルメソッドの多くは、ユーザが決定論的であると仮定する。 しかし、項目-項目遷移はいくつかの項目において著しく変動し、ユーザの興味のランダム性を示す。 この \textit{stochastic characteristic} は、シーケンスやアイテムを表す不確実性を含むという確固たる要求をもたらす。 さらに、不確実性のあるシーケンスやアイテムのモデリングは、ユーザのインタラクション空間を拡大し、コールドスタート問題をさらに緩和する。 本研究では, 逐次モデルに不確実性を注入する分散型逐次推薦変換器(DT4SR)を提案する。 不確実性のある項目やシーケンスを記述するために楕円ガウス分布を用いる。 項目とシーケンスの不確かさを楕円ガウス分布として記述する。 分布間の類似性を測定するためにwasserstein距離を採用する。 平均と共分散をモデル化するための2つの新しいトランスフォーマーを考案し、分布の正定性を保証する。 提案手法は最先端手法を著しく上回っている。 3つのベンチマークデータセットの実験は、コールドスタート問題を緩和する効果も示している。 コードはhttps://github.com/dygrec/dt4srで入手できる。

The sequential patterns within the user interactions are pivotal for representing the user's preference and capturing latent relationships among items. The recent advancements of sequence modeling by Transformers advocate the community to devise more effective encoders for the sequential recommendation. Most existing sequential methods assume users are deterministic. However, item-item transitions might fluctuate significantly in several item aspects and exhibit randomness of user interests. This \textit{stochastic characteristics} brings up a solid demand to include uncertainties in representing sequences and items. Additionally, modeling sequences and items with uncertainties expands users' and items' interaction spaces, thus further alleviating cold-start problems. In this work, we propose a Distribution-based Transformer for Sequential Recommendation (DT4SR), which injects uncertainties into sequential modeling. We use Elliptical Gaussian distributions to describe items and sequences with uncertainty. We describe the uncertainty in items and sequences as Elliptical Gaussian distribution. And we adopt Wasserstein distance to measure the similarity between distributions. We devise two novel Trans-formers for modeling mean and covariance, which guarantees the positive-definite property of distributions. The proposed method significantly outperforms the state-of-the-art methods. The experiments on three benchmark datasets also demonstrate its effectiveness in alleviating cold-start issues. The code is available inhttps://github.com/DyGRec/DT4SR.
翻訳日:2021-06-15 02:26:49 公開日:2021-06-11
# (参考訳) HIFI:高次特徴相互作用を持つ多変量時系列の異常検出

HIFI: Anomaly Detection for Multivariate Time Series with High-order Feature Interactions ( http://arxiv.org/abs/2106.06167v1 )

ライセンス: CC BY 4.0
Liwei Deng, Xuanhao Chen, Yan Zhao, and Kai Zheng(参考訳) 複雑なシステムの監視は、大量多変量時系列データとなり、システムの正常な動作を維持するためには、これらのデータの異常検出が非常に重要である。 多変量時系列に対する多数の異常検出アルゴリズムが最近出現したが、そのほとんどは多変量時系列間の相関モデルを無視しており、しばしば異常検出結果の低下につながる。 本研究では,多変量時系列に対する新しい異常検出モデルとして,hfi (underline{hi}gh-order \underline{f}eature \underline{i}nteractions) を提案する。 より具体的には、HIFIは多変量特徴相互作用グラフを自動構築し、グラフ畳み込みニューラルネットワークを用いて高次特徴相互作用を実現する。 公開されている3つのデータセットに関する広範な実験は、最先端のアプローチと比較して、フレームワークの優位性を示しています。

Monitoring complex systems results in massive multivariate time series data, and anomaly detection of these data is very important to maintain the normal operation of the systems. Despite the recent emergence of a large number of anomaly detection algorithms for multivariate time series, most of them ignore the correlation modeling among multivariate, which can often lead to poor anomaly detection results. In this work, we propose a novel anomaly detection model for multivariate time series with \underline{HI}gh-order \underline{F}eature \underline{I}nteractions (HIFI). More specifically, HIFI builds multivariate feature interaction graph automatically and uses the graph convolutional neural network to achieve high-order feature interactions, in which the long-term temporal dependencies are modeled by attention mechanisms and a variational encoding technique is utilized to improve the model performance and robustness. Extensive experiments on three publicly available datasets demonstrate the superiority of our framework compared with state-of-the-art approaches.
翻訳日:2021-06-15 02:17:43 公開日:2021-06-11
# (参考訳) ドメイン間マルチリレーショナルリンク予測

Inter-domain Multi-relational Link Prediction ( http://arxiv.org/abs/2106.06171v1 )

ライセンス: CC BY 4.0
Luu Huu Phuc, Koh Takeuchi, Seiji Okajima, Arseny Tolmachev, Tomoyoshi Takebayashi, Koji Maruhashi, Hisashi Kashima(参考訳) マルチリレーショナルグラフはユビキタスで重要なデータ構造であり、複数のタイプの相互作用とエンティティ間の関係を柔軟に表現することができる。 他のグラフ構造化データと同様に、リンク予測はマルチリレーショナルグラフ上で最も重要なタスクの1つであり、知識の完備化にしばしば使用される。 関連グラフが共存している場合、より小さなグラフを統合することで、より大きなグラフを構築することは大きな利益となる。 この統合には、異なるグラフに属するエンティティ間の隠れたリレーショナルコネクションを予測する必要がある(ドメイン間のリンク予測)。 しかし、これは、同じグラフのエンティティ間のリンク予測専用に設計された既存の方法(ドメイン内リンク予測)にとって、真の課題となる。 本研究では,ドメイン間リンク予測問題に対して,各ドメイン間のエンティティ分布を最適輸送と最大平均離散化器でソフトに整合させることにより,新しいアプローチを提案する。 実世界のデータセットでの実験では、最適な輸送正則化器が有用であることを示し、ベースライン法の性能を大幅に向上させる。

Multi-relational graph is a ubiquitous and important data structure, allowing flexible representation of multiple types of interactions and relations between entities. Similar to other graph-structured data, link prediction is one of the most important tasks on multi-relational graphs and is often used for knowledge completion. When related graphs coexist, it is of great benefit to build a larger graph via integrating the smaller ones. The integration requires predicting hidden relational connections between entities belonged to different graphs (inter-domain link prediction). However, this poses a real challenge to existing methods that are exclusively designed for link prediction between entities of the same graph only (intra-domain link prediction). In this study, we propose a new approach to tackle the inter-domain link prediction problem by softly aligning the entity distributions between different domains with optimal transport and maximum mean discrepancy regularizers. Experiments on real-world datasets show that optimal transport regularizer is beneficial and considerably improves the performance of baseline methods.
翻訳日:2021-06-15 02:10:45 公開日:2021-06-11
# (参考訳) 光界カメラの校正と自動校正

Calibration and Auto-Refinement for Light Field Cameras ( http://arxiv.org/abs/2106.06181v1 )

ライセンス: CC BY 4.0
Yuriy Anisimov, Gerd Reis, Didier Stricker(参考訳) 撮影されたシーンの正確な3次元再構成を作成する能力は、光場の原理に注意を向ける。 本稿では,一対のパターンに基づくパラメータ抽出に基づく光場カメラキャリブレーションと補正手法を提案する。 その後、三角フィルタと非線形最適化を用いて任意のシーンからのカメラパラメータの精製を行う。 本手法の有効性は実データと合成データの両方で検証される。

The ability to create an accurate three-dimensional reconstruction of a captured scene draws attention to the principles of light fields. This paper presents an approach for light field camera calibration and rectification, based on pairwise pattern-based parameters extraction. It is followed by a correspondence-based algorithm for camera parameters refinement from arbitrary scenes using the triangulation filter and nonlinear optimization. The effectiveness of our approach is validated on both real and synthetic data.
翻訳日:2021-06-15 01:57:57 公開日:2021-06-11
# (参考訳) 順序問題:グラフ生成のためのノードシーケンスの確率的モデリング

Order Matters: Probabilistic Modeling of Node Sequence for Graph Generation ( http://arxiv.org/abs/2106.06189v1 )

ライセンス: CC BY 4.0
Xiaohui Chen, Xu Han, Jiajing Hu, Francisco J. R. Ruiz, Liping Liu(参考訳) グラフ生成モデルはグラフ上の分布を定義する。 1つの生成モデルは自己回帰ニューラルネットワークによって構築され、ノードとエッジを逐次追加してグラフを生成する。 しかし、自己回帰モデルの下でのグラフの確率は、与えられたグラフに導かれる多くのシーケンスが存在するため、難解である。 代わりに、この研究において、グラフ上の正確な結合確率とシーケンシャルなプロセスのノード順序を導出する。 共同作業から,ノードの順序付けをほぼ疎外し,変動推論を用いてログライクリフの下位境界を計算する。 我々は,従来の手法のアドホックノード順序を使わずに,この境界を最大化してグラフ生成モデルを訓練する。 実験により, 対数状境界は, 従来のスキームよりもかなり厳密であることがわかった。 さらに,提案アルゴリズムを応用したモデルでは,トレーニング中に見えないターゲットグラフの構造に適合する高品質なグラフを生成することができる。 コードは \hyperref[https://github.com/tufts-ml/graph-generation-vi]{https://github.com/tufts-ml/graph-generation-vi} で公開しました。

A graph generative model defines a distribution over graphs. One type of generative model is constructed by autoregressive neural networks, which sequentially add nodes and edges to generate a graph. However, the likelihood of a graph under the autoregressive model is intractable, as there are numerous sequences leading to the given graph; this makes maximum likelihood estimation challenging. Instead, in this work we derive the exact joint probability over the graph and the node ordering of the sequential process. From the joint, we approximately marginalize out the node orderings and compute a lower bound on the log-likelihood using variational inference. We train graph generative models by maximizing this bound, without using the ad-hoc node orderings of previous methods. Our experiments show that the log-likelihood bound is significantly tighter than the bound of previous schemes. Moreover, the models fitted with the proposed algorithm can generate high-quality graphs that match the structures of target graphs not seen during training. We have made our code publicly available at \hyperref[https://github.com/tufts-ml/graph-generation-vi]{https://github.com/tufts-ml/graph-generation-vi}.
翻訳日:2021-06-15 01:47:13 公開日:2021-06-11
# (参考訳) ユーザ駆動ニューラルマシン翻訳に向けて

Towards User-Driven Neural Machine Translation ( http://arxiv.org/abs/2106.06200v1 )

ライセンス: CC BY 4.0
Huan Lin, Liang Yao, Baosong Yang, Dayiheng Liu, Haibo Zhang, Weihua Luo, Degen Huang, Jinsong Su(参考訳) 良質な翻訳は、原文を意味的に翻訳するだけでなく、原文の個人的特徴を取り入れるべきである。 現実世界のニューラルマシン翻訳(nmt)システムでは、これらのユーザ特性(トピックの好み、スタイル的特徴、表現習慣など)は、ユーザの行動(例えば、履歴入力)に保存することができる。 しかし,現在のnmtシステムでは,(1)ゼロショットシナリオにおけるユーザポートレートのモデル化の難しさ,(2)ユーザビヘイビアアノテートされた並列データセットの欠如,などの理由から,ユーザ動作を控えめに検討している。 このギャップを埋めるために、ユーザ駆動NMTと呼ばれる新しいフレームワークを導入する。 具体的には、キャッシュベースのモジュールとユーザ主導のコントラスト学習手法を提案し、NMTが歴史的入力から潜在的なユーザ特性をゼロショット学習方式でキャプチャする機能を提供する。 さらに, UDT-Corpus と呼ばれるユーザ行動に注釈を付けた最初の中国語-英語並列コーパスを寄贈した。 実験により,提案するユーザ駆動nmtがユーザ固有の翻訳を生成できることが確認された。

A good translation should not only translate the original content semantically, but also incarnate personal traits of the original text. For a real-world neural machine translation (NMT) system, these user traits (e.g., topic preference, stylistic characteristics and expression habits) can be preserved in user behavior (e.g., historical inputs). However, current NMT systems marginally consider the user behavior due to: 1) the difficulty of modeling user portraits in zero-shot scenarios, and 2) the lack of user-behavior annotated parallel dataset. To fill this gap, we introduce a novel framework called user-driven NMT. Specifically, a cache-based module and a user-driven contrastive learning method are proposed to offer NMT the ability to capture potential user traits from their historical inputs under a zero-shot learning fashion. Furthermore, we contribute the first Chinese-English parallel corpus annotated with user behavior called UDT-Corpus. Experimental results confirm that the proposed user-driven NMT can generate user-specific translations.
翻訳日:2021-06-15 01:27:48 公開日:2021-06-11
# (参考訳) グラフニューラルネットワーク外挿のためのプール学習

Learning to Pool in Graph Neural Networks for Extrapolation ( http://arxiv.org/abs/2106.06210v1 )

ライセンス: CC BY 4.0
Jihoon Ko, Taehyung Kwon, Kijung Shin, Juho Lee(参考訳) グラフニューラルネットワーク(gnns)は、グラフ構造化データでディープラーニングを使用するための最も一般的なアプローチの1つであり、さまざまなタスクで最先端のパフォーマンスを示している。 しかし,近年の研究では,GNNの集計や読み出し操作に使用されるプール機能の慎重に選択することが,GNNの外挿を可能にする上で重要である。 タスク間で異なるプール関数の理想的な組み合わせがなければ、gnnは完全に分散データへの一般化に失敗し、可能な組み合わせの数は層数とともに指数関数的に増加する。 本稿では、任意のタスクに対してエンドツーエンドにトレーニング可能な、GNP($L^p$ norm-like pooling function)を提案する。 特に、GNPは広く使われているプール関数の大部分を一般化する。 実験により、すべてのプール関数をGNPに置き換えることで、GNNが多くのノードレベル、グラフレベル、セット関連タスクをうまく外挿できることが検証された。

Graph neural networks (GNNs) are one of the most popular approaches to using deep learning on graph-structured data, and they have shown state-of-the-art performances on a variety of tasks. However, according to a recent study, a careful choice of pooling functions, which are used for the aggregation or readout operation in GNNs, is crucial for enabling GNNs to extrapolate. Without the ideal combination of pooling functions, which varies across tasks, GNNs completely fail to generalize to out-of-distribution data, while the number of possible combinations grows exponentially with the number of layers. In this paper, we present GNP, a $L^p$ norm-like pooling function that is trainable end-to-end for any given task. Notably, GNP generalizes most of the widely-used pooling functions. We verify experimentally that simply replacing all pooling functions with GNP enables GNNs to extrapolate well on many node-level, graph-level, and set-related tasks; and GNP sometimes performs even better than optimal combinations of existing pooling functions.
翻訳日:2021-06-15 01:13:29 公開日:2021-06-11
# (参考訳) Graph Transformer Networks: GNNを改善するメタパスグラフの学習

Graph Transformer Networks: Learning Meta-path Graphs to Improve GNNs ( http://arxiv.org/abs/2106.06218v1 )

ライセンス: CC BY 4.0
Seongjun Yun, Minbyul Jeong, Sungdong Yoo, Seunghun Lee, Sean S. Yi, Raehyun Kim, Jaewoo Kang, Hyunwoo J. Kim(参考訳) グラフニューラルネットワーク(GNN)は、グラフ構造化データの強力な表現のため、様々な分野に広く応用されている。 GNNの成功にもかかわらず、既存のほとんどのGNNは、固定および均質グラフ上のノード表現を学ぶように設計されている。 この制限は、様々な種類のノードとエッジからなる不特定のグラフや異種グラフで表現を学ぶ際に特に問題となる。 この制限に対処するために,新しいグラフ構造を生成可能なグラフトランスフォーマーネットワーク(GTN)を提案する。これはノイズの多い接続を防止し,タスクに有用な接続(メタパスなど)を含むとともに,新しいグラフのノード表現をエンドツーエンドで学習する。 さらに,gtnsの拡張版であるfast graph transformer networks(fastgtns)を提案し,グラフ変換のスケーラビリティを向上させる。 GTNと比較して、FastGTNsは230倍高速で、100倍少ないメモリを使用し、GTNsと同じグラフ変換を可能にする。 さらに、グラフ変換をメタパス以外の非局所操作を可能にするノードの意味的近接に拡張する。 均質グラフとヘテロジニアスグラフの両方の広範な実験により、非局所演算を持つgtnsとfastgtnがノード分類タスクの最先端の性能を達成することが示された。 https://github.com/seongjunyun/Graph_Transformer_Networks

Graph Neural Networks (GNNs) have been widely applied to various fields due to their powerful representations of graph-structured data. Despite the success of GNNs, most existing GNNs are designed to learn node representations on the fixed and homogeneous graphs. The limitations especially become problematic when learning representations on a misspecified graph or a heterogeneous graph that consists of various types of nodes and edges. To address this limitations, we propose Graph Transformer Networks (GTNs) that are capable of generating new graph structures, which preclude noisy connections and include useful connections (e.g., meta-paths) for tasks, while learning effective node representations on the new graphs in an end-to-end fashion. We further propose enhanced version of GTNs, Fast Graph Transformer Networks (FastGTNs), that improve scalability of graph transformations. Compared to GTNs, FastGTNs are 230x faster and use 100x less memory while allowing the identical graph transformations as GTNs. In addition, we extend graph transformations to the semantic proximity of nodes allowing non-local operations beyond meta-paths. Extensive experiments on both homogeneous graphs and heterogeneous graphs show that GTNs and FastGTNs with non-local operations achieve the state-of-the-art performance for node classification tasks. The code is available: https://github.com/seongjunyun/Graph_Transformer_Networks
翻訳日:2021-06-15 00:57:38 公開日:2021-06-11
# (参考訳) パラフレーズからセマンティックパーシング:同期セマンティックデコーディングによる教師なしセマンティックパーシング

From Paraphrasing to Semantic Parsing: Unsupervised Semantic Parsing via Synchronous Semantic Decoding ( http://arxiv.org/abs/2106.06228v1 )

ライセンス: CC0 1.0
Shan Wu, Bo Chen, Chunlei Xin, Xianpei Han, Le Sun, Weipeng Zhang, Jiansong Chen, Fan Yang, Xunliang Cai(参考訳) セマンティクス解析は、構造ギャップと発話と論理形式の間のセマンティクスギャップのために難しい。 本稿では,パラフレージングと文法制約付きデコーディングを併用することにより,意味的ギャップと構造的ギャップを同時に解消する,教師なし意味解析手法であるSynchronous Semantic Decoding(SSD)を提案する。 具体的には、セマンティックパーシングを制約付きパラフレーズ問題として再構成する: 発話が与えられた場合、我々のモデルは、その標準発話と意味表現を同期的に生成する。 同期復号: 発話パラフレージングは論理形式の構造によって制約されるため、標準発話は制御的にパラフレージングされ、意味復号は標準発話の意味論によって導かれるため、その論理形式は教師なし生成することができる。 実験の結果、ssdは有望なアプローチであり、複数のデータセットで競合しないセマンティックパース性能を達成できることが示されている。

Semantic parsing is challenging due to the structure gap and the semantic gap between utterances and logical forms. In this paper, we propose an unsupervised semantic parsing method - Synchronous Semantic Decoding (SSD), which can simultaneously resolve the semantic gap and the structure gap by jointly leveraging paraphrasing and grammar constrained decoding. Specifically, we reformulate semantic parsing as a constrained paraphrasing problem: given an utterance, our model synchronously generates its canonical utterance and meaning representation. During synchronous decoding: the utterance paraphrasing is constrained by the structure of the logical form, therefore the canonical utterance can be paraphrased controlledly; the semantic decoding is guided by the semantics of the canonical utterance, therefore its logical form can be generated unsupervisedly. Experimental results show that SSD is a promising approach and can achieve competitive unsupervised semantic parsing performance on multiple datasets.
翻訳日:2021-06-15 00:32:17 公開日:2021-06-11
# (参考訳) Sprachsynthese--englischer と deutscher Spracheの現況

Sprachsynthese -- State-of-the-Art in englischer und deutscher Sprache ( http://arxiv.org/abs/2106.06230v1 )

ライセンス: CC BY-SA 4.0
Ren\'e Peinl(参考訳) テキストの読み上げは、現代のコンピュータアプリケーションにとって重要な機能である。 視覚障がい者の情報へのアクセスが容易になるだけでなく、障害のないユーザーにとっても快適な利便性となる。 本稿では,メル・スペクトログラム生成とボコーダのために,音声合成技術の現状を別々に提示する。 英語からドイツ語への優れた音声合成結果の伝達性について論じ、英語とドイツ語で利用可能なデータセットの概要で締めくくっている。

Reading text aloud is an important feature for modern computer applications. It not only facilitates access to information for visually impaired people, but is also a pleasant convenience for non-impaired users. In this article, the state of the art of speech synthesis is presented separately for mel-spectrogram generation and vocoders. It concludes with an overview of available data sets for English and German with a discussion of the transferability of the good speech synthesis results from English to German language.
翻訳日:2021-06-14 23:54:07 公開日:2021-06-11
# (参考訳) 対話型テキスト合成のためのマルチモーダル階層型コンテキストエンコーディングによる音声スタイル学習

Spoken Style Learning with Multi-modal Hierarchical Context Encoding for Conversational Text-to-Speech Synthesis ( http://arxiv.org/abs/2106.06233v1 )

ライセンス: CC BY 4.0
Jingbei Li, Yi Meng, Chenyi Li, Zhiyong Wu, Helen Meng, Chao Weng and Dan Su(参考訳) 対話型音声合成システム(TTS)では,歴史的会話において,異なる内容や話し方に応じて合成音声の音声スタイルを調整できることが不可欠である。 しかし、歴史的会話から話し言葉のスタイルを学習する研究は、まだ初期段階にある。 歴史的な会話の書き起こしのみが考慮され、歴史演説の話し方を無視している。 さらに、話者間のグローバルな側面の相互作用のみをモデル化し、各話者内のパーティ側面の自己相互作用を欠いている。 本稿では,対話型ttsのための音声スタイル学習を向上すべく,マルチモーダル階層的コンテキストエンコーディングを用いた音声スタイル学習手法を提案する。 歴史的な会話におけるテキスト情報と音声のスタイルは、複数の階層的再帰的ニューラルネットワークを通して処理され、グローバルおよびパーティの側面で音声のスタイルに関連する特徴を学ぶ。 注意機構はこれらの特徴を会話コンテキストエンコーディングに要約するためにさらに用いられる。 提案手法の有効性を実験的に検証し,本手法の有効性を実証した。本手法は,大域的側面の書き起こしのみから学習した文脈エンコードを用いたベースライン法よりも優れており,mosスコアでは合成音声の自然性が3.138から3.408に向上し,36.45%のabx嗜好率がベースライン法を上回った。

For conversational text-to-speech (TTS) systems, it is vital that the systems can adjust the spoken styles of synthesized speech according to different content and spoken styles in historical conversations. However, the study about learning spoken styles from historical conversations is still in its infancy. Only the transcripts of the historical conversations are considered, which neglects the spoken styles in historical speeches. Moreover, only the interactions of the global aspect between speakers are modeled, missing the party aspect self interactions inside each speaker. In this paper, to achieve better spoken style learning for conversational TTS, we propose a spoken style learning approach with multi-modal hierarchical context encoding. The textual information and spoken styles in the historical conversations are processed through multiple hierarchical recurrent neural networks to learn the spoken style related features in global and party aspects. The attention mechanism is further employed to summarize these features into a conversational context encoding. Experimental results demonstrate the effectiveness of our proposed approach, which outperform a baseline method using context encoding learnt only from the transcripts in global aspects, with MOS score on the naturalness of synthesized speech increasing from 3.138 to 3.408 and ABX preference rate exceeding the baseline method by 36.45%.
翻訳日:2021-06-14 23:29:04 公開日:2021-06-11
# (参考訳) 視覚芸術のクラスタリングへのディープラーニングアプローチ

A deep learning approach to clustering visual arts ( http://arxiv.org/abs/2106.06234v1 )

ライセンス: CC BY 4.0
Giovanna Castellano, Gennaro Vessio(参考訳) アートワークのクラスタリングはいくつかの理由から難しい。 一方、ドメイン知識と視覚的知覚に基づいて意味のあるパターンを認識することは極めて難しい。 一方, 従来のクラスタリング法や特徴量削減法を高次元画素空間に適用することは有効ではない。 本稿では,cLustering vIsUal artSに対するDeep LearningアプローチであるDELIUSを提案する。 この方法は、事前訓練された畳み込みネットワークを用いて特徴を抽出し、これらの特徴を深層クラスタリングモデルに供給し、この潜伏空間におけるクラスタセントロイドの集合を見つけるタスクと、生の入力データを潜伏空間にマッピングするタスクを協調的に最適化する。 定量的および定性的な実験結果から,提案手法の有効性が示された。 DELIUSは、特に絵画データセットにおける視覚的リンク検索と歴史的知識発見に関連するいくつかのタスクに有用である。

Clustering artworks is difficult for several reasons. On the one hand, recognizing meaningful patterns based on domain knowledge and visual perception is extremely hard. On the other hand, applying traditional clustering and feature reduction techniques to the highly dimensional pixel space can be ineffective. To address these issues, in this paper we propose DELIUS: a DEep learning approach to cLustering vIsUal artS. The method uses a pre-trained convolutional network to extract features and then feeds these features into a deep embedded clustering model, where the task of mapping the raw input data to a latent space is jointly optimized with the task of finding a set of cluster centroids in this latent space. Quantitative and qualitative experimental results show the effectiveness of the proposed method. DELIUS can be useful for several tasks related to art analysis, in particular visual link retrieval and historical knowledge discovery in painting datasets.
翻訳日:2021-06-14 23:17:31 公開日:2021-06-11
# (参考訳) 多様な敵の攻撃に対する知識強化機械学習パイプライン

Knowledge Enhanced Machine Learning Pipeline against Diverse Adversarial Attacks ( http://arxiv.org/abs/2106.06235v1 )

ライセンス: CC BY 4.0
Nezihe Merve G\"urel, Xiangyu Qi, Luka Rimanic, Ce Zhang, Bo Li(参考訳) ディープニューラルネットワーク(DNN)によって達成された大きな成功にもかかわらず、最近の研究は、DNNを小さな敵の摂動を加えることで誤解を招くことを目的とした、敵の例に対して脆弱であることを示している。 このような攻撃に対していくつかの防衛策が提案され、その多くが適応攻撃を受けた。 本研究では、ドメイン知識を活用することでMLのロバスト性を高めることを目的としている。 ドメイン知識(例えば、異なる予測間のロジック関係)を1次論理ルールを介して確率的グラフィカルモデルに統合する知識強化機械学習パイプライン(KEMLP)を提案する。 特に,対象タスクを実行する主dnnモデルと論理関係に基づいて,多様な弱補助モデルを統合することで,kemlpを開発した。 理論的には、収束結果を提供し、穏やかな条件下では、KEMLPの予測がメインのDNNモデルよりも頑健であることを示す。 実証的に,道路標識認識を例として捉え,道路標識とその形状と内容との関係をドメイン知識として活用する。 敵のトレーニングやその他のベースラインと比較すると、kemlpは物理的攻撃に対する高い堅牢性、$\mathcal{l}_p$ 境界攻撃、予期せぬ攻撃、ホワイトボックスとブラックボックスの設定下での自然な腐敗を実現し、高いクリーンな精度を維持している。

Despite the great successes achieved by deep neural networks (DNNs), recent studies show that they are vulnerable against adversarial examples, which aim to mislead DNNs by adding small adversarial perturbations. Several defenses have been proposed against such attacks, while many of them have been adaptively attacked. In this work, we aim to enhance the ML robustness from a different perspective by leveraging domain knowledge: We propose a Knowledge Enhanced Machine Learning Pipeline (KEMLP) to integrate domain knowledge (i.e., logic relationships among different predictions) into a probabilistic graphical model via first-order logic rules. In particular, we develop KEMLP by integrating a diverse set of weak auxiliary models based on their logical relationships to the main DNN model that performs the target task. Theoretically, we provide convergence results and prove that, under mild conditions, the prediction of KEMLP is more robust than that of the main DNN model. Empirically, we take road sign recognition as an example and leverage the relationships between road signs and their shapes and contents as domain knowledge. We show that compared with adversarial training and other baselines, KEMLP achieves higher robustness against physical attacks, $\mathcal{L}_p$ bounded attacks, unforeseen attacks, and natural corruptions under both whitebox and blackbox settings, while still maintaining high clean accuracy.
翻訳日:2021-06-14 22:59:28 公開日:2021-06-11
# (参考訳) アイテム応答理論を用いた教師なし異常検出アンサンブル

Unsupervised Anomaly Detection Ensembles using Item Response Theory ( http://arxiv.org/abs/2106.06243v1 )

ライセンス: CC BY 4.0
Sevvandi Kandanaarachchi(参考訳) クラスラベルや基底真理が不明なため、教師なし異常検出手法の不均一集合からアンサンブルを構築することは困難である。 したがって、応答変数やクラスラベルを使用する従来のアンサンブル技術は、教師なし異常検出のためのアンサンブルを構築するには使用できない。 項目応答理論(irt:item response theory)は、学生の質問特性を評価するために、教育心理測定で用いられるモデルのクラスであり、教師なしの異常検出アンサンブルを構築するために用いられる。 IRTの潜伏特性計算は、潜伏特性が隠れた地面の真実を明らかにするために使用できるため、異常検出に役立ちます。 そこで本研究では,新しいIRTマッピングを異常検出問題に適用し,雑音や非識別手法,シャープな手法を付加できるアンサンブルを構築した。 本稿では,IRTアンサンブルの性能を他のアンサンブル技術と比較することにより,データリポジトリ上でのIRTアンサンブルの有効性を示す。

Constructing an ensemble from a heterogeneous set of unsupervised anomaly detection methods is challenging because the class labels or the ground truth is unknown. Thus, traditional ensemble techniques that use the response variable or the class labels cannot be used to construct an ensemble for unsupervised anomaly detection. We use Item Response Theory (IRT) -- a class of models used in educational psychometrics to assess student and test question characteristics -- to construct an unsupervised anomaly detection ensemble. IRT's latent trait computation lends itself to anomaly detection because the latent trait can be used to uncover the hidden ground truth. Using a novel IRT mapping to the anomaly detection problem, we construct an ensemble that can downplay noisy, non-discriminatory methods and accentuate sharper methods. We demonstrate the effectiveness of the IRT ensemble on an extensive data repository, by comparing its performance to other ensemble techniques.
翻訳日:2021-06-14 22:57:16 公開日:2021-06-11
# (参考訳) ベイズ自動エンコーダのモデル選択

Model Selection for Bayesian Autoencoders ( http://arxiv.org/abs/2106.06245v1 )

ライセンス: CC BY 4.0
Ba-Hien Tran and Simone Rossi and Dimitrios Milios and Pietro Michiardi and Edwin V. Bonilla and Maurizio Filippone(参考訳) ベイジアンオートエンコーダ(BAE)の事前パラメータ最適化によるモデル選択を行う新しい手法を開発した。 タイプIIの最大値最適化とKulback-Leibler分散最小化の等価性に着想を得て,オートエンコーダの出力と経験データ分布との間の分散スライス-ワッサーシュタイン距離(DSWD)を最適化することを提案する。 この定式化の利点は、サンプルに基づいてDSWDを推定し、高次元問題に対処できることである。 確率勾配ハミルトンモンテカルロによるBAEパラメータの後方推定を行い、潜在空間にフレキシブルディリクレ混合モデルを適用することにより、BAEを生成モデルに変換する。 その結果,不確実性を持つ表現学習のための現代的オートエンコーダとして好まれる変分オートエンコーダに代わる強力な選択肢が得られた。 我々は,多くの教師なし学習課題に対する大規模な実験的キャンペーンを質的かつ定量的に評価し,先行研究が重要となる小規模データ体制において,本手法が最先端の成果をもたらし,複数の競争基準を上回ることを示す。

We develop a novel method for carrying out model selection for Bayesian autoencoders (BAEs) by means of prior hyper-parameter optimization. Inspired by the common practice of type-II maximum likelihood optimization and its equivalence to Kullback-Leibler divergence minimization, we propose to optimize the distributional sliced-Wasserstein distance (DSWD) between the output of the autoencoder and the empirical data distribution. The advantages of this formulation are that we can estimate the DSWD based on samples and handle high-dimensional problems. We carry out posterior estimation of the BAE parameters via stochastic gradient Hamiltonian Monte Carlo and turn our BAE into a generative model by fitting a flexible Dirichlet mixture model in the latent space. Consequently, we obtain a powerful alternative to variational autoencoders, which are the preferred choice in modern applications of autoencoders for representation learning with uncertainty. We evaluate our approach qualitatively and quantitatively using a vast experimental campaign on a number of unsupervised learning tasks and show that, in small-data regimes where priors matter, our approach provides state-of-the-art results, outperforming multiple competitive baselines.
翻訳日:2021-06-14 22:39:59 公開日:2021-06-11
# (参考訳) HPO-B: OpenMLに基づくブラックボックスHPOの大規模再現可能なベンチマーク

HPO-B: A Large-Scale Reproducible Benchmark for Black-Box HPO based on OpenML ( http://arxiv.org/abs/2106.06257v1 )

ライセンス: CC BY 4.0
Sebastian Pineda Arango, Hadi S. Jomaa, Martin Wistuba, Josif Grabocka(参考訳) ハイパーパラメータ最適化(HPO)は、機械学習コミュニティの中核的な問題であり、ハイパーパラメータの構成を評価するのに必要な計算資源が大きいため、ほとんど未解決のままである。 その結果、最近の一連の研究は、データセット上で素早く微調整されたハイパーパラメーターの転送学習の方向に焦点を当てている。 残念ながら、コミュニティはHPOアルゴリズムを比較するための一般的な大規模ベンチマークを持っていない。 むしろデファクトの実践は、出版物間で矛盾なく変化する任意の小規模メタデータセットに関する実証的なプロトコルで構成されており、再現性は困難である。 このボトルネックを解消し、レベルプレイフィールド上でのブラックボックスHPO法の公正かつ高速な比較を可能にするために、メタデータセットの集合という形で新しい大規模ベンチマークであるHPO-Bを提案する。 ベンチマークはOpenMLリポジトリから収集および前処理され、合計640万ハイパーパラメーター評価の196データセットに対して176の検索スペース(アルゴリズム)をスパースに評価する。 本ベンチマークで再現性を確保するため,非参照法と移動学習HPOの両手法を比較するための実験的プロトコル,分割,評価尺度を詳述した。

Hyperparameter optimization (HPO) is a core problem for the machine learning community and remains largely unsolved due to the significant computational resources required to evaluate hyperparameter configurations. As a result, a series of recent related works have focused on the direction of transfer learning for quickly fine-tuning hyperparameters on a dataset. Unfortunately, the community does not have a common large-scale benchmark for comparing HPO algorithms. Instead, the de facto practice consists of empirical protocols on arbitrary small-scale meta-datasets that vary inconsistently across publications, making reproducibility a challenge. To resolve this major bottleneck and enable a fair and fast comparison of black-box HPO methods on a level playing field, we propose HPO-B, a new large-scale benchmark in the form of a collection of meta-datasets. Our benchmark is assembled and preprocessed from the OpenML repository and consists of 176 search spaces (algorithms) evaluated sparsely on 196 datasets with a total of 6.4 million hyperparameter evaluations. For ensuring reproducibility on our benchmark, we detail explicit experimental protocols, splits, and evaluation measures for comparing methods for both non-transfer, as well as, transfer learning HPO.
翻訳日:2021-06-14 22:38:29 公開日:2021-06-11
# (参考訳) 眼と頭部の追跡で関節鏡視下手術中の外科医の混乱が判明

States of confusion: Eye and Head tracking reveal surgeons' confusion during arthroscopic surgery ( http://arxiv.org/abs/2106.06261v1 )

ライセンス: CC BY-SA 4.0
Benedikt Hosp, Myat Su Yin, peter Haddawy, Ratthapoom Watcharporas, paphon Sa-ngasoonsong, Enkelejda Kasneci(参考訳) 鏡視下手術では、外科医は3D手術部位に出力される2Dスクリーンの認知的再投影や、非常に類似した組織へのナビゲーションといった課題に直面している。 これらの認知過程の訓練は若い外科医にとって多くの時間と労力を要するが、教育には必要かつ不可欠である。 本研究では, 鏡視下手術における若年者外科医の混乱状態の認識方法について, 眼球運動と頭部運動を観察し, 機械学習モデルに与えることで示す。 精度は94\%以上,検出速度0.039秒以上であり,鏡視下手術中の外科医の知覚認知過程のオンライン診断・訓練システムへの一歩である。

During arthroscopic surgeries, surgeons are faced with challenges like cognitive re-projection of the 2D screen output into the 3D operating site or navigation through highly similar tissue. Training of these cognitive processes takes much time and effort for young surgeons, but is necessary and crucial for their education. In this study we want to show how to recognize states of confusion of young surgeons during an arthroscopic surgery, by looking at their eye and head movements and feeding them to a machine learning model. With an accuracy of over 94\% and detection speed of 0.039 seconds, our model is a step towards online diagnostic and training systems for the perceptual-cognitive processes of surgeons during arthroscopic surgeries.
翻訳日:2021-06-14 22:18:53 公開日:2021-06-11
# (参考訳) 完全リコール型ゼロサム部分可観測マルコフゲームのためのモデルフリー学習

Model-Free Learning for Two-Player Zero-Sum Partially Observable Markov Games with Perfect Recall ( http://arxiv.org/abs/2106.06279v1 )

ライセンス: CC BY 4.0
Tadashi Kozuno, Pierre M\'enard, R\'emi Munos, Michal Valko(参考訳) 非完全情報ゲーム(iig)におけるnash平衡(ne)の学習問題を自己遊びを通して検討する。 正確には、2つのプレイヤー、ゼロサム、エピソディック、タブ状のIIGに焦点をあてる。 特にIIGのダイナミックさは知られていないが、ゲームシミュレーターをサンプリングしたり操作することでのみアクセスすることができる。 この学習環境において,Implicit Exploration Online Mirror Descent (IXOMD)アルゴリズムを提案する。 1/\sqrt{t}$(ただし$t$はプレイされたゲーム数)のneに収束率を限定したモデルフリーのアルゴリズムである。 さらに、IXOMDはサンプリングされた軌道に沿ってのみ更新を実行する必要があるため、計算的に効率的である。

We study the problem of learning a Nash equilibrium (NE) in an imperfect information game (IIG) through self-play. Precisely, we focus on two-player, zero-sum, episodic, tabular IIG under the perfect-recall assumption where the only feedback is realizations of the game (bandit feedback). In particular, the dynamic of the IIG is not known -- we can only access it by sampling or interacting with a game simulator. For this learning setting, we provide the Implicit Exploration Online Mirror Descent (IXOMD) algorithm. It is a model-free algorithm with a high-probability bound on the convergence rate to the NE of order $1/\sqrt{T}$ where $T$ is the number of played games. Moreover, IXOMD is computationally efficient as it needs to perform the updates only along the sampled trajectory.
翻訳日:2021-06-14 22:11:55 公開日:2021-06-11
# (参考訳) 繰り返しの高速重みプログラムによる線形変換器を越える

Going Beyond Linear Transformers with Recurrent Fast Weight Programmers ( http://arxiv.org/abs/2106.06295v1 )

ライセンス: CC BY 4.0
Kazuki Irie, Imanol Schlag, R\'obert Csord\'as, J\"urgen Schmidhuber(参考訳) 線形に注意を向けた変換器(線形変換器)は,90年代以降,外部製品ベースのFWP(Fast Weight Programmers)の実用的スケーラビリティと有効性を示した。 しかしながら、元のFWPの定式化は線形トランスフォーマーよりも一般的である: 遅いニューラルネットワーク(NN)は、任意のNNアーキテクチャで高速NNの重みを継続的にプログラムする。 既存の線形トランスフォーマーでは、両方のnnはフィードフォワードであり、単一の層で構成されている。 ここでは、遅くて速いネットに再発を加えることで、新しいバリエーションを探求する。 我々は2つの合成アルゴリズムタスク(コード実行とシーケンシャルリストOps)、Wikitext-103言語モデル、およびAtari 2600 2Dゲーム環境において、新しいFWP(RFWP)を評価する。 我々のモデルはトランスフォーマーとRNNの特性を示す。 強化学習環境では,アタリゲームにおけるLSTMの大幅な改善が報告されている。 私たちのコードは公開されています。

Transformers with linearised attention ("linear Transformers") have demonstrated the practical scalability and effectiveness of outer product-based Fast Weight Programmers (FWPs) from the '90s. However, the original FWP formulation is more general than the one of linear Transformers: a slow neural network (NN) continually reprograms the weights of a fast NN with arbitrary NN architectures. In existing linear Transformers, both NNs are feedforward and consist of a single layer. Here we explore new variations by adding recurrence to the slow and fast nets. We evaluate our novel recurrent FWPs (RFWPs) on two synthetic algorithmic tasks (code execution and sequential ListOps), Wikitext-103 language models, and on the Atari 2600 2D game environment. Our models exhibit properties of Transformers and RNNs. In the reinforcement learning setting, we report large improvements over LSTM in several Atari games. Our code is public.
翻訳日:2021-06-14 21:20:16 公開日:2021-06-11
# (参考訳) コンテンツ継続的進化のための動的言語モデル

Dynamic Language Models for Continuously Evolving Content ( http://arxiv.org/abs/2106.06297v1 )

ライセンス: CC BY 4.0
Spurthi Amba Hombaiah and Tao Chen and Mingyang Zhang and Michael Bendersky and Marc Najork(参考訳) web上のコンテンツは一定のフラックス状態にある。 新しいエンティティ、イシュー、アイデアが継続的に出現し、既存の会話トピックの意味が徐々に変化する。 近年、BERTのような事前訓練された言語モデルは、幅広いコンテンツ理解タスクの最先端性を大幅に改善した。 そこで本稿では,これらの言語モデルをウェブコンテンツの継続的な進化にどう適応させるかを検討する。 本研究は,2013~2019年のtwitterデータの進化を最初に分析し,過去のツイートに基づいてトレーニングされたbertモデルが,後年のデータに直接適用されると著しく劣化することを確認した。 そこで本研究では,既存のトークンの意味的変化と,新たなトークンの理解に失敗した2つの原因について検討する。 この目的のために,2つの異なる語彙合成法を探索し,BERT型モデルの効率的なインクリメンタルトレーニングを支援する3つのサンプリング法を提案する。 オフラインでスクラッチからトレーニングされた新しいモデルと比較すると、インクリメンタルトレーニング(a)はトレーニングコストを削減し、(b)コンテンツの進化においてよりよいパフォーマンスを達成し、(c)オンラインデプロイメントに適している。 本手法の優位性は2つの下流タスクを用いて検証する。 国別ハッシュタグ予測のタスクとOffensEval 2019タスクに基づいて,特定のベース年から段階的にモデルを進化させる際の大幅な改善を示す。

The content on the web is in a constant state of flux. New entities, issues, and ideas continuously emerge, while the semantics of the existing conversation topics gradually shift. In recent years, pre-trained language models like BERT greatly improved the state-of-the-art for a large spectrum of content understanding tasks. Therefore, in this paper, we aim to study how these language models can be adapted to better handle continuously evolving web content. In our study, we first analyze the evolution of 2013 - 2019 Twitter data, and unequivocally confirm that a BERT model trained on past tweets would heavily deteriorate when directly applied to data from later years. Then, we investigate two possible sources of the deterioration: the semantic shift of existing tokens and the sub-optimal or failed understanding of new tokens. To this end, we both explore two different vocabulary composition methods, as well as propose three sampling methods which help in efficient incremental training for BERT-like models. Compared to a new model trained from scratch offline, our incremental training (a) reduces the training costs, (b) achieves better performance on evolving content, and (c) is suitable for online deployment. The superiority of our methods is validated using two downstream tasks. We demonstrate significant improvements when incrementally evolving the model from a particular base year, on the task of Country Hashtag Prediction, as well as on the OffensEval 2019 task.
翻訳日:2021-06-14 20:50:35 公開日:2021-06-11
# (参考訳) DG-LMC: ターンキーおよびスケーラブル同期分散MCMCアルゴリズム

DG-LMC: A Turn-key and Scalable Synchronous Distributed MCMC Algorithm ( http://arxiv.org/abs/2106.06300v1 )

ライセンス: CC BY 4.0
Vincent Plassier, Maxime Vono, Alain Durmus and Eric Moulines(参考訳) ビッグデータスケールで信頼性の高いベイズ推論を行うことは、機械学習の現代における重要な基盤になりつつある。 このタスクを実現するためのワークホースクラスとして,マルコフ連鎖モンテカルロ(MCMC)アルゴリズムがあり,分散データセットを扱うための設計が多くの研究の対象となっている。 しかし、既存の手法は信頼性も計算効率も十分ではない。 本稿では,マスタ/スラヴアーキテクチャの下でクラスタ内の計算ノード上にデータセットが分割され,格納される場合において,このギャップを埋めることを提案する。 ユーザフレンドリな分散MCMCアルゴリズムから高次元設定でのスケーリングを実現する。 本稿では,合成実験および実データ実験における提案手法の有効性について述べる。

Performing reliable Bayesian inference on a big data scale is becoming a keystone in the modern era of machine learning. A workhorse class of methods to achieve this task are Markov chain Monte Carlo (MCMC) algorithms and their design to handle distributed datasets has been the subject of many works. However, existing methods are not completely either reliable or computationally efficient. In this paper, we propose to fill this gap in the case where the dataset is partitioned and stored on computing nodes within a cluster under a master/slaves architecture. We derive a user-friendly centralised distributed MCMC algorithm with provable scaling in high-dimensional settings. We illustrate the relevance of the proposed methodology on both synthetic and real data experiments.
翻訳日:2021-06-14 20:31:02 公開日:2021-06-11
# (参考訳) 画像に基づくグラフニューラルネットワークの探索

Survey of Image Based Graph Neural Networks ( http://arxiv.org/abs/2106.06307v1 )

ライセンス: CC BY 4.0
Usman Nazir, He Wang and Murtaza Taj(参考訳) 本稿では,画像に基づくグラフニューラルネットワークを分析し,3段階の分類手法を提案する。 入力データの30%を削減するために、まずQuickshiftアルゴリズムを用いて画像をスーパーピクセルに変換する。 スーパーピクセルはその後、領域隣接グラフを生成するために使用される。 最後に、グラフは最先端のグラフ畳み込みニューラルネットワークを通過して分類スコアを取得する。 また,グラフニューラルネットワークにおける空間的およびスペクトル的畳み込みフィルタリング手法の解析を行った。 スペクトルモデルの方が空間モデルや従来のCNNよりも計算コストが低い。

In this survey paper, we analyze image based graph neural networks and propose a three-step classification approach. We first convert the image into superpixels using the Quickshift algorithm so as to reduce 30% of the input data. The superpixels are subsequently used to generate a region adjacency graph. Finally, the graph is passed through a state-of-art graph convolutional neural network to get classification scores. We also analyze the spatial and spectral convolution filtering techniques in graph neural networks. Spectral-based models perform better than spatial-based models and classical CNN with lesser compute cost.
翻訳日:2021-06-14 20:29:36 公開日:2021-06-11
# (参考訳) HUI-Audio-Corpus-German: A high quality TTS data

HUI-Audio-Corpus-German: A high quality TTS dataset ( http://arxiv.org/abs/2106.06309v1 )

ライセンス: CC BY-SA 4.0
Pascal Puchtler, Johannes Wirth and Ren\'e Peinl(参考訳) インターネット上での音声データの可用性の高まりは、ニューラルネットワークに基づいたテキストから音声へのアプリケーションの開発とトレーニングのためのデータセットの多岐にわたる。 音声品質の相違、サンプリングレートの低さ、テキスト正規化の欠如、音声サンプルの対応する転写文への不適切なアライメントは、このタスクでトレーニングされたディープニューラルネットワークの性能を制限している。 加えて、ドイツ語のような言語のデータ資源は依然として非常に限られている。 本稿では,TTSエンジン用の大規模オープンソースデータセットであるHUI-Audio-Corpus-Germanを紹介した。

The increasing availability of audio data on the internet lead to a multitude of datasets for development and training of text to speech applications, based on neural networks. Highly differing quality of voice, low sampling rates, lack of text normalization and disadvantageous alignment of audio samples to corresponding transcript sentences still limit the performance of deep neural networks trained on this task. Additionally, data resources in languages like German are still very limited. We introduce the "HUI-Audio-Corpus-German", a large, open-source dataset for TTS engines, created with a processing pipeline, which produces high quality audio to transcription alignments and decreases manual effort needed for creation.
翻訳日:2021-06-14 20:19:09 公開日:2021-06-11
# (参考訳) tohan: マイナショット仮説適応へのワンステップアプローチ

TOHAN: A One-step Approach towards Few-shot Hypothesis Adaptation ( http://arxiv.org/abs/2106.06326v1 )

ライセンス: CC BY 4.0
Haoang Chi and Feng Liu and Wenjing Yang and Long Lan and Tongliang Liu and Bo Han and William K. Cheung and James T. Kwok(参考訳) 少数ショットドメイン適応(FDA)では、ターゲットドメインの分類器は、ソースドメイン(SD)内のアクセス可能なラベル付きデータとターゲットドメイン(TD)内のラベル付きデータとで訓練される。 しかし、データは通常、現在の時代のプライベート情報(例えば、携帯電話に分散されたデータ)を含んでいる。 したがって、SD内のデータに直接アクセスしてターゲットドメイン分類器(FDA法で要求される)をトレーニングすれば、プライベート情報が漏洩する。 本稿では、SDのプライバシー漏洩を徹底的に防止するために、TDの分類器を少数のラベル付きターゲットデータとよく訓練されたSD分類器(FHA)を用いて訓練する必要がある、非常に困難な課題について考察する。 FHAでは、SD内のデータにアクセスできないため、SD内の個人情報はよく保護される。 この目的のために、FHA問題を解決するためにターゲット指向仮説適応ネットワーク(TOHAN)を提案し、高い互換性のない未ラベルデータ(中間ドメイン)を生成し、ターゲットドメイン分類器の訓練を支援する。 TOHANは2つの深いネットワークを同時に維持し、一方は中間領域の学習に焦点をあて、もう一方は中間から目標への分布適応と目標リスク最小化の処理を行う。 実験の結果,tohanは競争ベースラインを大きく上回っている。

In few-shot domain adaptation (FDA), classifiers for the target domain are trained with accessible labeled data in the source domain (SD) and few labeled data in the target domain (TD). However, data usually contain private information in the current era, e.g., data distributed on personal phones. Thus, the private information will be leaked if we directly access data in SD to train a target-domain classifier (required by FDA methods). In this paper, to thoroughly prevent the privacy leakage in SD, we consider a very challenging problem setting, where the classifier for the TD has to be trained using few labeled target data and a well-trained SD classifier, named few-shot hypothesis adaptation (FHA). In FHA, we cannot access data in SD, as a result, the private information in SD will be protected well. To this end, we propose a target orientated hypothesis adaptation network (TOHAN) to solve the FHA problem, where we generate highly-compatible unlabeled data (i.e., an intermediate domain) to help train a target-domain classifier. TOHAN maintains two deep networks simultaneously, where one focuses on learning an intermediate domain and the other takes care of the intermediate-to-target distributional adaptation and the target-risk minimization. Experimental results show that TOHAN outperforms competitive baselines significantly.
翻訳日:2021-06-14 20:09:44 公開日:2021-06-11
# (参考訳) Nonmyopic Multifidelity Active Search

Nonmyopic Multifidelity Active Search ( http://arxiv.org/abs/2106.06356v1 )

ライセンス: CC BY 4.0
Quan Nguyen, Arghavan Modiri, Roman Garnett(参考訳) アクティブ検索は学習パラダイムであり、ラベリング予算を考えると、希少で価値のあるクラスのメンバをできるだけ多く特定することを目指す。 以前のアクティブ検索に関する仕事は、オラクルが実験結果を報告する忠実な(かつ高価な)アクセスを想定していた。 しかし、いくつかの設定では、検索に役立つ計算シミュレーションのような安価なサロゲートにアクセスできる。 本稿では,多元的アクティブサーチのモデルと,最先端の古典的政策に動機づけられた,新しい計算効率の高い手法を提案する。 当社の方針は非自明で予算を意識しており、探索と搾取のダイナミックなトレードオフを可能にしています。 実世界のデータセット上でのソリューションの性能を評価し,自然ベンチマークよりも優れた性能を示す。

Active search is a learning paradigm where we seek to identify as many members of a rare, valuable class as possible given a labeling budget. Previous work on active search has assumed access to a faithful (and expensive) oracle reporting experimental results. However, some settings offer access to cheaper surrogates such as computational simulation that may aid in the search. We propose a model of multifidelity active search, as well as a novel, computationally efficient policy for this setting that is motivated by state-of-the-art classical policies. Our policy is nonmyopic and budget aware, allowing for a dynamic tradeoff between exploration and exploitation. We evaluate the performance of our solution on real-world datasets and demonstrate significantly better performance than natural benchmarks.
翻訳日:2021-06-14 19:50:22 公開日:2021-06-11
# (参考訳) 視覚的分類器隣接関係:話者検証と音声アンチスプーフィングを事例として

Visualizing Classifier Adjacency Relations: A Case Study in Speaker Verification and Voice Anti-Spoofing ( http://arxiv.org/abs/2106.06362v1 )

ライセンス: CC BY-SA 4.0
Tomi Kinnunen, Andreas Nautsch, Md Sahidullah, Nicholas Evans, Xin Wang, Massimiliano Todisco, H\'ector Delgado, Junichi Yamagishi, Kong Aik Lee(参考訳) 結果の要約や分類器融合の分析のいずれにせよ、異なる分類器を比較する方法によっては、その振る舞い、(異なる)相似性、または相補性についての照明的な洞察を与えることがある。 本稿では,任意のバイナリ分類器が生成する検出スコアから,共通データセットに対応する2次元表現を簡易に導出する手法を提案する。 ランク相関に基づいて,任意のスコアと受信動作特性(ROC)および検出誤差トレードオフ(DET)分析と密接な関係を持つ分類器の視覚的比較を容易にする。 本手法は完全に汎用性があり,任意の検出タスクに応用できるが,自動話者照合と音声アンチスプーフィングシステムによるスコアを用いてその手法を実証する。 前者はvoxcelebデータでトレーニングされたガウス混合モデルシステムによって作成され、後者はasvspoof 2019チャレンジへの提出に由来する。

Whether it be for results summarization, or the analysis of classifier fusion, some means to compare different classifiers can often provide illuminating insight into their behaviour, (dis)similarity or complementarity. We propose a simple method to derive 2D representation from detection scores produced by an arbitrary set of binary classifiers in response to a common dataset. Based upon rank correlations, our method facilitates a visual comparison of classifiers with arbitrary scores and with close relation to receiver operating characteristic (ROC) and detection error trade-off (DET) analyses. While the approach is fully versatile and can be applied to any detection task, we demonstrate the method using scores produced by automatic speaker verification and voice anti-spoofing systems. The former are produced by a Gaussian mixture model system trained with VoxCeleb data whereas the latter stem from submissions to the ASVspoof 2019 challenge.
翻訳日:2021-06-14 19:34:29 公開日:2021-06-11
# (参考訳) 制約クラスタリングのための深い条件付きガウス混合モデル

Deep Conditional Gaussian Mixture Model for Constrained Clustering ( http://arxiv.org/abs/2106.06385v1 )

ライセンス: CC BY 4.0
Laura Manduchi, Kieran Chin-Cheong, Holger Michel, Sven Wellmann, Julia E. Vogt(参考訳) 制約付きクラスタリングは、部分的にラベル付けされたデータの増加量に関する事前情報を活用できるため、機械学習分野において大きな注目を集めている。 近年の深層生成モデルの進歩を受け,直感的かつ解釈可能であり,確率的勾配変分推論の枠組みで効率的に学習できる制約付きクラスタリングのための新しい枠組みを提案する。 確率的関係の形でドメイン知識を明示的に統合することにより、提案モデル(dc-gmm)は、事前クラスタリングの好みに基づいて条件づけされたデータの分散をペアワイズ制約として明らかにする。 これらの制約は、どのサンプルが同じクラスタに属しるべきかを示すことによって、クラスタリングプロセスをデータの望ましいパーティションへと導く。 我々は,DC-GMMのクラスタリング性能とロバスト性について,幅広いデータセット上での最先端の制約クラスタリング法と比較した。 さらに,2つの実世界アプリケーションに対するアプローチの有用性を実証する。

Constrained clustering has gained significant attention in the field of machine learning as it can leverage prior information on a growing amount of only partially labeled data. Following recent advances in deep generative models, we propose a novel framework for constrained clustering that is intuitive, interpretable, and can be trained efficiently in the framework of stochastic gradient variational inference. By explicitly integrating domain knowledge in the form of probabilistic relations, our proposed model (DC-GMM) uncovers the underlying distribution of data conditioned on prior clustering preferences, expressed as pairwise constraints. These constraints guide the clustering process towards a desirable partition of the data by indicating which samples should or should not belong to the same cluster. We provide extensive experiments to demonstrate that DC-GMM shows superior clustering performances and robustness compared to state-of-the-art deep constrained clustering methods on a wide range of data sets. We further demonstrate the usefulness of our approach on two challenging real-world applications.
翻訳日:2021-06-14 19:24:04 公開日:2021-06-11
# (参考訳) Pythonの例による機能選択チュートリアル

Feature Selection Tutorial with Python Examples ( http://arxiv.org/abs/2106.06437v1 )

ライセンス: CC BY 4.0
Padraig Cunningham, Bahavathy Kathirgamanathan, Sarah Jane Delany(参考訳) 機械学習では、モデル開発に使用するデータセットで利用可能な機能のサブセットを選択する必要がある。 機能選択には多くのモチベーションがあり、よりよいモデルをもたらす可能性があり、データに対する洞察を提供し、データ収集やデータ処理において経済をもたらす可能性がある。 これらの理由から、データ分析研究で機能選択が注目されている。 本稿では,Python の実装における主要な手法の概要と実例を紹介する。 主な焦点は、教師付き機能選択技術であるが、いくつかの機能変換方法についても取り上げる。

In Machine Learning, feature selection entails selecting a subset of the available features in a dataset to use for model development. There are many motivations for feature selection, it may result in better models, it may provide insight into the data and it may deliver economies in data gathering or data processing. For these reasons feature selection has received a lot of attention in data analytics research. In this paper we provide an overview of the main methods and present practical examples with Python implementations. While the main focus is on supervised feature selection techniques, we also cover some feature transformation methods.
翻訳日:2021-06-14 18:57:57 公開日:2021-06-11
# (参考訳) レジリエンス予測サービングシステムのためのCoded-InvNet

Coded-InvNet for Resilient Prediction Serving Systems ( http://arxiv.org/abs/2106.06445v1 )

ライセンス: CC BY 4.0
Tuan Dinh, Kangwook Lee(参考訳) 非可逆関数に対する新しい符号化計算アルゴリズムにインスパイアされた我々は、トラグラーやノード障害を優雅に扱えるレジリエントな予測サービスシステムを設計するための新しいアプローチとして、Coded-InvNetを提案する。 Coded-InvNetは、Invertible Neural Network、Manifold Mixup、ドメイン翻訳アルゴリズムといったディープラーニング文学における最近の知見を活用し、機械学習とシステムにまたがる興味深い研究方向を特定する。 実験の結果,特に計算リソースのオーバーヘッドが10%以下であれば,Coded-InvNetは既存の手法よりも優れていることがわかった。 例えば、10人の作業員のどれが失敗するかを知らずに、我々のアルゴリズムは、不足した予測結果を85.9%の精度で正確に回復できるようにバックアップタスクを設計することができ、以前のSOTAよりも32.5%向上した。

Inspired by a new coded computation algorithm for invertible functions, we propose Coded-InvNet a new approach to design resilient prediction serving systems that can gracefully handle stragglers or node failures. Coded-InvNet leverages recent findings in the deep learning literature such as invertible neural networks, Manifold Mixup, and domain translation algorithms, identifying interesting research directions that span across machine learning and systems. Our experimental results show that Coded-InvNet can outperform existing approaches, especially when the compute resource overhead is as low as 10%. For instance, without knowing which of the ten workers is going to fail, our algorithm can design a backup task so that it can correctly recover the missing prediction result with an accuracy of 85.9%, significantly outperforming the previous SOTA by 32.5%.
翻訳日:2021-06-14 18:45:16 公開日:2021-06-11
# (参考訳) 翻訳による半監督・教師なしセンスアノテーション

Semi-Supervised and Unsupervised Sense Annotation via Translations ( http://arxiv.org/abs/2106.06462v1 )

ライセンス: CC BY-SA 4.0
Bradley Hauer, Grzegorz Kondrak, Yixing Luan, Arnob Mallik, Lili Mou(参考訳) 単語感覚曖昧化(WSD)において,多言語学習データの獲得は引き続き課題である。 この問題に対処するために、教師なしのアプローチが近年開発され、教師付きWSDシステムのトレーニングに適したセンスアノテーションを自動生成している。 本稿では, 翻訳, 並列コーパス, 語彙資源, コンテクストおよびシンセット埋め込みを活用する, センスアノテートコーパスを作成するための3つの新しい手法を提案する。 本手法は,既存のセンスアノテーションを他の言語に翻訳するために機械翻訳を適用する。 2つの教師なし手法は、知識に基づくWSDシステムを用いて並列コーパスを注釈し、語彙翻訳を識別することで得られた感覚アノテーションを洗練する。 標準WSDベンチマークで最先端の結果を得る。

Acquisition of multilingual training data continues to be a challenge in word sense disambiguation (WSD). To address this problem, unsupervised approaches have been developed in recent years that automatically generate sense annotations suitable for training supervised WSD systems. We present three new methods to creating sense-annotated corpora, which leverage translations, parallel corpora, lexical resources, and contextual and synset embeddings. Our semi-supervised method applies machine translation to transfer existing sense annotations to other languages. Our two unsupervised methods use a knowledge-based WSD system to annotate a parallel corpus, and refine the resulting sense annotations by identifying lexical translations. We obtain state-of-the-art results on standard WSD benchmarks.
翻訳日:2021-06-14 17:41:59 公開日:2021-06-11
# (参考訳) 解釈可能な予測のための局所スパースネットワーク

Locally Sparse Networks for Interpretable Predictions ( http://arxiv.org/abs/2106.06468v1 )

ライセンス: CC BY 4.0
Junchen Yang, Ofir Lindenbaum, Yuval Kluger(参考訳) ニューラルネットワークは大きな成功を収めているが、低サンプルサイズ(lss)データセットに適用する場合、解釈が難しく、しばしば過剰に適合する。 これらの障害に対処するために,各測定において最も関連性の高い特徴のサブセットを識別するサンプル特異的ゲーティング機構を用いて,局所的な疎度を学習する,局所スパースニューラルネットワークのトレーニングフレームワークを提案する。 サンプル固有のスパーシリティは \textit{gating} ネットワークを介して予測され、これは \textit{prediction} ネットワークとタンデムでトレーニングされる。 予測モデルのこれらの部分集合と重みを学習することにより、LSSデータを処理し、教師付き学習タスクとは無関係なニュアンス変数を除去できる解釈可能なニューラルネットワークを得る。 本手法は,合成データと実世界のデータの両方を用いて,インスタンス毎にはるかに少ない機能で対象関数を予測した場合に,最先端のモデルを上回ることを実証する。

Despite the enormous success of neural networks, they are still hard to interpret and often overfit when applied to low-sample-size (LSS) datasets. To tackle these obstacles, we propose a framework for training locally sparse neural networks where the local sparsity is learned via a sample-specific gating mechanism that identifies the subset of most relevant features for each measurement. The sample-specific sparsity is predicted via a \textit{gating} network, which is trained in tandem with the \textit{prediction} network. By learning these subsets and weights of a prediction model, we obtain an interpretable neural network that can handle LSS data and can remove nuisance variables, which are irrelevant for the supervised learning task. Using both synthetic and real-world datasets, we demonstrate that our method outperforms state-of-the-art models when predicting the target function with far fewer features per instance.
翻訳日:2021-06-14 17:27:07 公開日:2021-06-11
# (参考訳) データ駆動型アプローチによる電気自動車の走行・帯電挙動の解析

Analyzing the Travel and Charging Behavior of Electric Vehicles -- A Data-driven Approach ( http://arxiv.org/abs/2106.06475v1 )

ライセンス: CC BY-SA 4.0
Sina Baghali, Samiul Hasan, Zhaomiao Guo(参考訳) 電気自動車(ev)の市場浸透の増加は、電力システムに大きな電力需要をもたらす可能性がある。 この電力需要は、毎日の充電需要(CD)の予測を非常に困難にするEVの走行行動の不確実性の影響を受けている。 このプロジェクトでは,National House Hold Survey (NHTS)データを用いて旅行のシーケンスを作成し,旅行開始時間,終了時間,距離などの次の旅行のパラメータを予測する機械学習モデルを開発する。 これらのパラメータは後にevの時間帯電挙動のモデル化に使用される。 シミュレーションの結果,提案手法は,EVの走行行動に基づく日々のCDパターンを効果的に推定し,単純な機械学習手法で走行パラメータを許容精度で予測できることが示唆された。

The increasing market penetration of electric vehicles (EVs) may pose significant electricity demand on power systems. This electricity demand is affected by the inherent uncertainties of EVs' travel behavior that makes forecasting the daily charging demand (CD) very challenging. In this project, we use the National House Hold Survey (NHTS) data to form sequences of trips, and develop machine learning models to predict the parameters of the next trip of the drivers, including trip start time, end time, and distance. These parameters are later used to model the temporal charging behavior of EVs. The simulation results show that the proposed modeling can effectively estimate the daily CD pattern based on travel behavior of EVs, and simple machine learning techniques can forecast the travel parameters with acceptable accuracy.
翻訳日:2021-06-14 17:26:09 公開日:2021-06-11
# (参考訳) 資源制約デバイスにおける細菌系統の迅速同定のための効率的なディープラーニングアーキテクチャ

Efficient Deep Learning Architectures for Fast Identification of Bacterial Strains in Resource-Constrained Devices ( http://arxiv.org/abs/2106.06505v1 )

ライセンス: CC BY 4.0
R. Gallardo Garc\'ia and S. Jarqu\'in Rodr\'iguez and B. Beltr\'an Mart\'inez and C. Hern\'andez Gracidas and R. Mart\'inez Torres(参考訳) 本研究は、細菌の分類問題をDigital Image of bacteriaal Species Dataset上で解決するために、12の微調整深層学習アーキテクチャを提案する。 基本アーキテクチャは、主にimagenetチャレンジのモバイルまたは効率的なソリューションとして出版され、本研究で提示された全ての実験は、微調整と転送学習技術を用いて細菌分類問題を解決するために、元の設計にいくつかの修正を加えることであった。 また、このデータセットのための新しいデータ拡張手法を提案する。これは人工ズームのアイデアに基づいており、テスト済みアーキテクチャ全体のパフォーマンスを強力に向上させ、場合によっては倍増することもある。 頑健で完全な評価を得るために、すべての実験は10倍のクロスバリデーションで行われ、トップ1とトップ5の精度、精度、リコール、F1スコアの5つの異なる指標で評価された。 本稿では,データセットの原文と拡張版とを交差した12の異なるアーキテクチャの完全な比較を行い,その結果をいくつかの文献的手法と比較する。 総じて、11のアーキテクチャのうち8つはトップ1の精度で0.95点を超え、データ拡張法は0.9738点を最高1の精度で上った。 データ拡張技術の影響を相対的な改善スコアで報告する。

This work presents twelve fine-tuned deep learning architectures to solve the bacterial classification problem over the Digital Image of Bacterial Species Dataset. The base architectures were mainly published as mobile or efficient solutions to the ImageNet challenge, and all experiments presented in this work consisted of making several modifications to the original designs, in order to make them able to solve the bacterial classification problem by using fine-tuning and transfer learning techniques. This work also proposes a novel data augmentation technique for this dataset, which is based on the idea of artificial zooming, strongly increasing the performance of every tested architecture, even doubling it in some cases. In order to get robust and complete evaluations, all experiments were performed with 10-fold cross-validation and evaluated with five different metrics: top-1 and top-5 accuracy, precision, recall, and F1 score. This paper presents a complete comparison of the twelve different architectures, cross-validated with the original and the augmented version of the dataset, the results are also compared with several literature methods. Overall, eight of the eleven architectures surpassed the 0.95 scores in top-1 accuracy with our data augmentation method, being 0.9738 the highest top-1 accuracy. The impact of the data augmentation technique is reported with relative improvement scores.
翻訳日:2021-06-14 17:18:03 公開日:2021-06-11
# (参考訳) 優先的時間差学習

Preferential Temporal Difference Learning ( http://arxiv.org/abs/2106.06508v1 )

ライセンス: CC BY 4.0
Nishanth Anand, Doina Precup(参考訳) 時間差学習(TD: Temporal-Difference learning)は、与えられたポリシーの価値関数を推定するための汎用的で非常に有用なツールである。 一般的に言えば、TD学習は訪問されるたびに状態を更新する。 エージェントがステートに着地すると、その値を使ってtd-errorを計算し、それが他の州に伝播する。 しかし、コンピューティングの更新時に、ある状態が訪問されているかどうか以外の情報を考慮に入れることは興味深いかもしれない。 例えば、ある状態は他の状態よりも重要かもしれない(例えば、成功した軌道でしばしば見られる状態)。 あるいは、一部の状態は信頼できない値の推定(例えば、部分的な可観測性やデータの欠如)を持ち、その値がターゲットとしてあまり望まれない。 我々は、tdアップデートで使用される状態を再重み付けする手法を提案する。 本手法は線形関数近似に収束し,他のTDスタイルの手法と比較して望ましい経験的挙動を示す。

Temporal-Difference (TD) learning is a general and very useful tool for estimating the value function of a given policy, which in turn is required to find good policies. Generally speaking, TD learning updates states whenever they are visited. When the agent lands in a state, its value can be used to compute the TD-error, which is then propagated to other states. However, it may be interesting, when computing updates, to take into account other information than whether a state is visited or not. For example, some states might be more important than others (such as states which are frequently seen in a successful trajectory). Or, some states might have unreliable value estimates (for example, due to partial observability or lack of data), making their values less desirable as targets. We propose an approach to re-weighting states used in TD updates, both when they are the input and when they provide the target for the update. We prove that our approach converges with linear function approximation and illustrate its desirable empirical behaviour compared to other TD-style methods.
翻訳日:2021-06-14 16:58:00 公開日:2021-06-11
# (参考訳) ガウス過程の核選択に対する感度の測定

Measuring the sensitivity of Gaussian processes to kernel choice ( http://arxiv.org/abs/2106.06510v1 )

ライセンス: CC BY 4.0
William T. Stephenson, Soumya Ghosh, Tin D. Nguyen, Mikhail Yurochkin, Sameer K. Deshpande, Tamara Broderick(参考訳) ガウス過程(GP: Gaussian process)は、心臓治療や二酸化炭素排出量のモニタリングなど、医学的および科学的決定に使用される。 しかし、GPカーネルの選択は、しばしば任意である。 特に、数えきれないほど多くのカーネルが定性的事前知識(例)と整合している。 機能的滑らかさまたは定常性) しかし実際には、データアナリストはいくつかの便利な標準カーネル(例えば)を選択する。 2乗指数)。 GPを用いた決定は、他の定性的に交換可能なカーネルで異なるのか? この感度解析を有限次元空間上の制約付き最適化問題として定式化する方法を示す。 次に、GPによる決定の実体的変化を特定するために標準オプティマイザを使用する。 gpによる決定は,事前ドローがユーザと質的に交換可能であったとしても,カーネル選択に対して相当な感度を示すことが,合成および実例で実証される。

Gaussian processes (GPs) are used to make medical and scientific decisions, including in cardiac care and monitoring of carbon dioxide emissions. But the choice of GP kernel is often somewhat arbitrary. In particular, uncountably many kernels typically align with qualitative prior knowledge (e.g. function smoothness or stationarity). But in practice, data analysts choose among a handful of convenient standard kernels (e.g. squared exponential). In the present work, we ask: Would decisions made with a GP differ under other, qualitatively interchangeable kernels? We show how to formulate this sensitivity analysis as a constrained optimization problem over a finite-dimensional space. We can then use standard optimizers to identify substantive changes in relevant decisions made with a GP. We demonstrate in both synthetic and real-world examples that decisions made with a GP can exhibit substantial sensitivity to kernel choice, even when prior draws are qualitatively interchangeable to a user.
翻訳日:2021-06-14 16:13:00 公開日:2021-06-11
# (参考訳) 時間経過に伴う確率経路と予測構造

Probability Paths and the Structure of Predictions over Time ( http://arxiv.org/abs/2106.06515v1 )

ライセンス: CC BY 4.0
Zhiyuan (Jerry) Lin, Hao Sheng, Sharad Goel(参考訳) 天気予報から政治予測、財務予測まで幅広い状況において、将来の二進予測は時間とともに進化する。 例えば、特定の日に降る雨の確率は、新しい情報が利用可能になると、時間によって変化する。 このような確率パスの集合が与えられた場合、時間とともに動的予測の構造をモデル化するためのベイズ的フレームワーク(ガウス潜在情報マーチンゲール(GLIM)と呼ぶ)を導入する。 例えば、1週間の降水確率が50%であると仮定し、2つの仮説的シナリオを考える。 第一に、予測は明日の25%または75%になる可能性が高いと予測し、第二に、予測は数日続くと予想している。 時間に敏感な意思決定者は、後者のシナリオで直ちに行動方針を選択するかもしれないが、新しい情報が差し迫っていることを知って、前者の決定を延期することができる。 我々は,過去のデータから推定される情報フローの潜在過程に応じて予測を更新することを仮定して,これらの軌跡をモデル化する。 時系列解析の一般的な方法とは対照的に、このアプローチは確率パスのマーティンゲール構造を保持し、確率パスに関する将来の不確実性をよりよく定量化する。 GLIMは3つの一般的なベースライン法より優れており、3つの測定基準によって測定された推定後確率経路分布をより良く推定できることを示す。 予測の動的構造を時間とともに解明することで、個人がより深い選択を行えるようにしたいと思っています。

In settings ranging from weather forecasts to political prognostications to financial projections, probability estimates of future binary outcomes often evolve over time. For example, the estimated likelihood of rain on a specific day changes by the hour as new information becomes available. Given a collection of such probability paths, we introduce a Bayesian framework -- which we call the Gaussian latent information martingale, or GLIM -- for modeling the structure of dynamic predictions over time. Suppose, for example, that the likelihood of rain in a week is 50%, and consider two hypothetical scenarios. In the first, one expects the forecast is equally likely to become either 25% or 75% tomorrow; in the second, one expects the forecast to stay constant for the next several days. A time-sensitive decision-maker might select a course of action immediately in the latter scenario, but may postpone their decision in the former, knowing that new information is imminent. We model these trajectories by assuming predictions update according to a latent process of information flow, which is inferred from historical data. In contrast to general methods for time series analysis, this approach preserves the martingale structure of probability paths and better quantifies future uncertainties around probability paths. We show that GLIM outperforms three popular baseline methods, producing better estimated posterior probability path distributions measured by three different metrics. By elucidating the dynamic structure of predictions over time, we hope to help individuals make more informed choices.
翻訳日:2021-06-14 15:49:25 公開日:2021-06-11
# (参考訳) N-Best ASR変換器:複数ASR仮説を用いたSLU性能向上

N-Best ASR Transformer: Enhancing SLU Performance using Multiple ASR Hypotheses ( http://arxiv.org/abs/2106.06519v1 )

ライセンス: CC BY-SA 4.0
Karthik Ganesan, Pakhi Bamdev, Jaivarsan B, Amresh Venugopal, Abhinav Tushar(参考訳) 音声言語理解(SLU)システムは、音声をダイアログやスロットのような意味構造にパースする。 これは、音声を複数のテキスト代替物(仮説)に書き起こすために自動音声認識(ASR)を使用する。 ASRで一般的な転写エラーは、下流のSLU性能に悪影響を及ぼす。 このようなエラーを軽減するためのアプローチは、N-best仮説またはワード格子の形で、ASRからのより豊かな情報を使用する。 我々は、N-best ASRの代替品を結合することで、トランスフォーマーモデルはより単純な発話表現で学習し、それぞれの代替品を特殊デリミタ[SEP]で分離する、という仮説を立てる。 本研究では,変換器エンコーダモデルであるBERTとXLM-RoBERTaの入力として,N-best ASRのコンカレントな代替品を用いて仮説を検証し,DSTC2データセット上の先行技術モデルと同等の性能を実現する。 また,本手法は,低データ体制下での先行技術よりも著しく優れていることを示す。 さらに、この手法は、単語ラテック情報を提供しないサードパーティのASR APIのユーザにもアクセス可能である。

Spoken Language Understanding (SLU) systems parse speech into semantic structures like dialog acts and slots. This involves the use of an Automatic Speech Recognizer (ASR) to transcribe speech into multiple text alternatives (hypotheses). Transcription errors, common in ASRs, impact downstream SLU performance negatively. Approaches to mitigate such errors involve using richer information from the ASR, either in form of N-best hypotheses or word-lattices. We hypothesize that transformer models learn better with a simpler utterance representation using the concatenation of the N-best ASR alternatives, where each alternative is separated by a special delimiter [SEP]. In our work, we test our hypothesis by using concatenated N-best ASR alternatives as the input to transformer encoder models, namely BERT and XLM-RoBERTa, and achieve performance equivalent to the prior state-of-the-art model on DSTC2 dataset. We also show that our approach significantly outperforms the prior state-of-the-art when subjected to the low data regime. Additionally, this methodology is accessible to users of third-party ASR APIs which do not provide word-lattice information.
翻訳日:2021-06-14 15:30:51 公開日:2021-06-11
# (参考訳) 自律型ドローンと機械学習による隕石の回収

Recovery of Meteorites Using an Autonomous Drone and Machine Learning ( http://arxiv.org/abs/2106.06523v1 )

ライセンス: CC BY 4.0
Robert I. Citron, Peter Jenniskens, Christopher Watkins, Sravanthi Sinha, Amar Shah, Chedy Raissi, Hadrien Devillepoix, Jim Albers(参考訳) 新たに落下した隕石を追跡・三角測量した隕石から回収することは、その起源の小惑星族を決定するのに重要である。 しかし、過去に三角測量された隕石や、現在進行中の隕石カメラネットワークから隕石が回収されるケースはごくわずかである。 機械学習と自律ドローンを用いて隕石の発見を自動化できるかを検討した。 ドローンはグリッド検索パターンを飛ばし、大規模な調査エリアで地上のシステマティックな写真を撮るようにプログラムすることができる。 これらの画像は機械学習の分類器を使って分析でき、フィールド内の隕石を識別することができる。 ここでは、現場でドローンが撮影した画像から隕石を認識するために、さまざまな畳み込みニューラルネットワークの組み合わせをオフラインで展開するコンセプト隕石分類器について述べる。 このシステムは、概念的なドローンで実装され、ネバダ州ウォーカー湖近くの最近の隕石落下の現場でテストされた。

The recovery of freshly fallen meteorites from tracked and triangulated meteors is critical to determining their source asteroid families. However, locating meteorite fragments in strewn fields remains a challenge with very few meteorites being recovered from the meteors triangulated in past and ongoing meteor camera networks. We examined if locating meteorites can be automated using machine learning and an autonomous drone. Drones can be programmed to fly a grid search pattern and take systematic pictures of the ground over a large survey area. Those images can be analyzed using a machine learning classifier to identify meteorites in the field among many other features. Here, we describe a proof-of-concept meteorite classifier that deploys off-line a combination of different convolution neural networks to recognize meteorites from images taken by drones in the field. The system was implemented in a conceptual drone setup and tested in the suspected strewn field of a recent meteorite fall near Walker Lake, Nevada.
翻訳日:2021-06-14 15:23:10 公開日:2021-06-11
# (参考訳) WAX-ML:ストリーミングデータの機械学習とフィードバックループのためのPythonライブラリ

WAX-ML: A Python library for machine learning and feedback loops on streaming data ( http://arxiv.org/abs/2106.06524v1 )

ライセンス: CC BY-SA 4.0
Emmanuel S\'eri\'e(参考訳) ワックスは、スリップを避けるためにサーフボードにかけるものです。 私たちは、強力な機械学習アルゴリズムとストリーミングデータを扱うフィードバックループを設計するためのツールを提供する研究指向pythonライブラリwax-mlを紹介します。 JAXを時系列専用のツールで補完しようとしている。 wax-mlは、データ操作にpandasやxarrayを使うエンドユーザー向けに、jaxベースのプログラムを簡単に使えるようにする。 フィードバックループを実装するためのシンプルなメカニズムを提供し、オンライン学習と強化学習アルゴリズムと関数の実装を可能にし、ジムライブラリからオブジェクト指向強化学習フレームワークを扱うエンドユーザによる統合を容易にする。 ApacheオープンソースライセンスがGitHubでhttps://github.com/eserie/wax-mlで公開されている。

Wax is what you put on a surfboard to avoid slipping. It is an essential tool to go surfing... We introduce WAX-ML a research-oriented Python library providing tools to design powerful machine learning algorithms and feedback loops working on streaming data. It strives to complement JAX with tools dedicated to time series. WAX-ML makes JAX-based programs easy to use for end-users working with pandas and xarray for data manipulation. It provides a simple mechanism for implementing feedback loops, allows the implementation of online learning and reinforcement learning algorithms with functions, and makes them easy to integrate by end-users working with the object-oriented reinforcement learning framework from the Gym library. It is released with an Apache open-source license on GitHub at https://github.com/eserie/wax-ml.
翻訳日:2021-06-14 14:56:21 公開日:2021-06-11
# ビデオトランスにおける時空間混合注意

Space-time Mixing Attention for Video Transformer ( http://arxiv.org/abs/2106.05968v2 )

ライセンス: Link先を確認
Adrian Bulat and Juan-Manuel Perez-Rua and Swathikiran Sudhakaran and Brais Martinez and Georgios Tzimiropoulos(参考訳) 本稿ではトランスフォーマーを用いたビデオ認識について述べる。 この領域での最近の試みは、認識精度の観点から有望な結果を示しているが、多くの場合、時間的情報の付加的モデリングによる重要な計算オーバーヘッドを引き起こすことも示されている。 本研究では,映像列内のフレーム数に線形にスケールし,画像ベースのトランスフォーマモデルと比較してオーバーヘッドを生じさせない映像トランスフォーマモデルを提案する。 これを実現するために,本モデルでは,ビデオトランスフォーマーで使用される全時空間の注意を2つ近似する: (a) 時間的注意を局所的な時間的窓に制限し,トランスフォーマーの深さに重み付けし,ビデオシーケンスの完全な時間的カバレッジを得る。 (b)空間のみの注意モデル上に余分なコストを発生させることなく、効率的な時空混合を用いて、共同空間および時間的位置に出席する。 また,計算コストの最小化による精度向上を実現するため,グローバル時間のみの注意のための2つの非常に軽量な機構を統合する方法を示す。 我々のモデルは、最も人気のあるビデオ認識データセットに対して、非常に高い認識精度を提供すると同時に、他のビデオトランスフォーマーモデルよりもはるかに効率的であることを示す。 コードは利用可能になる。

This paper is on video recognition using Transformers. Very recent attempts in this area have demonstrated promising results in terms of recognition accuracy, yet they have been also shown to induce, in many cases, significant computational overheads due to the additional modelling of the temporal information. In this work, we propose a Video Transformer model the complexity of which scales linearly with the number of frames in the video sequence and hence induces no overhead compared to an image-based Transformer model. To achieve this, our model makes two approximations to the full space-time attention used in Video Transformers: (a) It restricts time attention to a local temporal window and capitalizes on the Transformer's depth to obtain full temporal coverage of the video sequence. (b) It uses efficient space-time mixing to attend jointly spatial and temporal locations without inducing any additional cost on top of a spatial-only attention model. We also show how to integrate 2 very lightweight mechanisms for global temporal-only attention which provide additional accuracy improvements at minimal computational cost. We demonstrate that our model produces very high recognition accuracy on the most popular video recognition datasets while at the same time being significantly more efficient than other Video Transformer models. Code will be made available.
翻訳日:2021-06-14 14:40:28 公開日:2021-06-11
# ラディット:英語のRedditコメントに対する攻撃のノーム

Ruddit: Norms of Offensiveness for English Reddit Comments ( http://arxiv.org/abs/2106.05664v2 )

ライセンス: Link先を確認
Rishav Hada, Sohi Sudhir, Pushkar Mishra, Helen Yannakoudakis, Saif M. Mohammad, Ekaterina Shutova(参考訳) ソーシャルメディアプラットフォームでは、憎悪と攻撃的な言葉がユーザーの精神的幸福と多様な背景を持つ人々の参加に悪影響を及ぼす。 攻撃的言語を検出する自動手法は、分類ラベルを持つデータセットに大きく依存している。 しかし、コメントは攻撃の程度によって異なる。 我々は、英語のRedditコメントの最初のデータセットを作成し、-1点(最大支持)と1点(最大攻撃)の間に、きめ細やかな、実測値のスコアを持つ。 データセットは、評価尺度の使用に関する既知のバイアスを軽減するための比較アノテーションであるbest-worst scalingを使用してアノテートされた。 本手法は信頼性の高い攻撃性スコアを生成する。 最後に,この新しいデータセットにおける攻撃性スコアを予測するために,広く使用されているニューラルモデルの能力を評価する。

On social media platforms, hateful and offensive language negatively impact the mental well-being of users and the participation of people from diverse backgrounds. Automatic methods to detect offensive language have largely relied on datasets with categorical labels. However, comments can vary in their degree of offensiveness. We create the first dataset of English language Reddit comments that has fine-grained, real-valued scores between -1 (maximally supportive) and 1 (maximally offensive). The dataset was annotated using Best--Worst Scaling, a form of comparative annotation that has been shown to alleviate known biases of using rating scales. We show that the method produces highly reliable offensiveness scores. Finally, we evaluate the ability of widely-used neural models to predict offensiveness scores on this new dataset.
翻訳日:2021-06-14 14:40:07 公開日:2021-06-11
# 創薬における人工知能:応用と技術

Artificial Intelligence in Drug Discovery: Applications and Techniques ( http://arxiv.org/abs/2106.05386v2 )

ライセンス: Link先を確認
Jianyuan Deng, Zhibo Yang, Dimitris Samaras, Fusheng Wang(参考訳) 人工知能(AI)は過去10年間、薬物発見の実践を変えてきた。 さまざまなai技術が、仮想スクリーニングや薬物設計など、幅広いアプリケーションで使用されている。 本論ではまず,創薬に関する概観を述べるとともに,分子特性予測と分子生成という2つの主要な課題に還元可能な関連する応用について論じる。 次に、共通データリソース、分子表現、ベンチマークプラットフォームについて論じる。 さらに、AIによる薬物発見の進展を要約するために、モデルアーキテクチャや学習パラダイムを含む関連するAI技術について、調査論文で紹介する。 この視点は、人工知能と薬物発見の分野で働くことに興味がある研究者のガイドになることを期待している。 GitHubリポジトリ\footnote{\url{https://github.com/dengjianyuan/Survey_AI_Drug_Discovery}} も提供しています。

Artificial intelligence (AI) has been transforming the practice of drug discovery in the past decade. Various AI techniques have been used in a wide range of applications, such as virtual screening and drug design. In this perspective, we first give an overview on drug discovery and discuss related applications, which can be reduced to two major tasks, i.e., molecular property prediction and molecule generation. We then discuss common data resources, molecule representations and benchmark platforms. Furthermore, to summarize the progress in AI-driven drug discovery, we present the relevant AI techniques including model architectures and learning paradigms in the surveyed papers. We expect that the perspective will serve as a guide for researchers who are interested in working at this intersected area of artificial intelligence and drug discovery. We also provide a GitHub repository\footnote{\url{https://github.com/dengjianyuan/Survey_AI_Drug_Discovery}} with the collection of papers and codes, if applicable, as a learning resource, which will be regularly updated.
翻訳日:2021-06-14 14:39:54 公開日:2021-06-11
# シンボリックハイパーパラメータデフォルトのためのメタラーニング

Meta-Learning for Symbolic Hyperparameter Defaults ( http://arxiv.org/abs/2106.05767v2 )

ライセンス: Link先を確認
Pieter Gijsbers, Florian Pfisterer, Jan N. van Rijn, Bernd Bischl and Joaquin Vanschoren(参考訳) 機械学習(ML)におけるハイパーパラメータ最適化は、データから最適なアルゴリズム構成を経験的に学習する問題を扱う。 本研究では,データセットの特性を用いて表現されるメタリアンのシンボル型デフォルトハイパーパラメータ構成のためのゼロショット法を提案する。 これにより、標準的なハイパーパラメータ最適化アプローチに比べて、mlアルゴリズムの高速かつデータ依存の構成が可能になる。 過去には、象徴的および静的なデフォルト値は通常手作りのヒューリスティックとして得られてきた。 進化的アルゴリズムを用いて表現の文法を最適化することにより,複数のデータセット上での事前評価からデータセット特性の式のような記号的構成を学習する手法を提案する。 我々は,100以上のデータセット上で6mlアルゴリズムにまたがる実データに加えて,経験的性能モデルの評価を行い,本手法が真に実行可能なシンボルデフォルトを求めることを実証した。

Hyperparameter optimization in machine learning (ML) deals with the problem of empirically learning an optimal algorithm configuration from data, usually formulated as a black-box optimization problem. In this work, we propose a zero-shot method to meta-learn symbolic default hyperparameter configurations that are expressed in terms of the properties of the dataset. This enables a much faster, but still data-dependent, configuration of the ML algorithm, compared to standard hyperparameter optimization approaches. In the past, symbolic and static default values have usually been obtained as hand-crafted heuristics. We propose an approach of learning such symbolic configurations as formulas of dataset properties from a large set of prior evaluations on multiple datasets by optimizing over a grammar of expressions using an evolutionary algorithm. We evaluate our method on surrogate empirical performance models as well as on real data across 6 ML algorithms on more than 100 datasets and demonstrate that our method indeed finds viable symbolic defaults.
翻訳日:2021-06-14 14:39:36 公開日:2021-06-11
# SMM4H 2021における名前付きエンティティ認識のためのニューラルテキスト分類と重み付き異種埋め込み

Neural Text Classification and Stacked Heterogeneous Embeddings for Named Entity Recognition in SMM4H 2021 ( http://arxiv.org/abs/2106.05823v2 )

ライセンス: Link先を確認
Usama Yaseen, Stefan Langer(参考訳) 本稿では,SMM4H共有タスク2021に参加することで得られた知見について述べる。 名前付きエンティティ認識(ner)とテキスト分類について論じた。 NERに対処するため,重み付き異種埋め込みと言語機能を用いたBiLSTM-CRFの探索を行った。 テキスト分類に対処するために,さまざまな機械学習アルゴリズム(論理回帰,サポートベクトルマシン(SVM),ニューラルネットワーク)について検討した。 提案手法は様々な言語に一般化することができ、英語とスペイン語で有効性を示した。 テキスト分類出願(team:MIC-NLP)は,ADE分類(Task 1a)とProfession分類(Task 7a)でそれぞれ0.46$と0.90$のF1スコアで競合性能を達成した。 NERの場合は, ADE Span Detection (Task 1b) と Profession Span Detection (Task 7b) でそれぞれ0.50$と0.82$のF1スコアを得た。

This paper presents our findings from participating in the SMM4H Shared Task 2021. We addressed Named Entity Recognition (NER) and Text Classification. To address NER we explored BiLSTM-CRF with Stacked Heterogeneous Embeddings and linguistic features. We investigated various machine learning algorithms (logistic regression, Support Vector Machine (SVM) and Neural Networks) to address text classification. Our proposed approaches can be generalized to different languages and we have shown its effectiveness for English and Spanish. Our text classification submissions (team:MIC-NLP) have achieved competitive performance with F1-score of $0.46$ and $0.90$ on ADE Classification (Task 1a) and Profession Classification (Task 7a) respectively. In the case of NER, our submissions scored F1-score of $0.50$ and $0.82$ on ADE Span Detection (Task 1b) and Profession Span detection (Task 7b) respectively.
翻訳日:2021-06-14 14:39:09 公開日:2021-06-11
# 教師なし特徴表現強調のための段階学習

Progressive Stage-wise Learning for Unsupervised Feature Representation Enhancement ( http://arxiv.org/abs/2106.05554v2 )

ライセンス: Link先を確認
Zefan Li, Chenxi Liu, Alan Yuille, Bingbing Ni, Wenjun Zhang and Wen Gao(参考訳) 教師なし学習手法は、教師なし学習に対する競争力を示している。 通常、これらのメソッドは単一の目的を使ってネットワーク全体をトレーニングする。 しかし、教師なし学習よりも教師なし学習の明確な利点は、前者が目標を設計する上でより多様性と自由を持っていることである。 本研究では,progressive stage-wise learning(psl)フレームワークを提案することにより,教師なし学習の新しい次元を検討する。 教師なしのタスクでは、マルチレベルタスクを設計し、ディープネットワークのためのさまざまな学習ステージを定義します。 早期学習段階は低レベルのタスクに集中し、後期段階は難しいタスクを通じてより深い情報を抽出するために導かれる。 プログレッシブな段階学習によって,教師なし特徴表現を効果的に強化できることが分かる。 我々の広範な実験により、PSLは主要な教師なし学習手法の結果を一貫して改善することが示された。

Unsupervised learning methods have recently shown their competitiveness against supervised training. Typically, these methods use a single objective to train the entire network. But one distinct advantage of unsupervised over supervised learning is that the former possesses more variety and freedom in designing the objective. In this work, we explore new dimensions of unsupervised learning by proposing the Progressive Stage-wise Learning (PSL) framework. For a given unsupervised task, we design multilevel tasks and define different learning stages for the deep network. Early learning stages are forced to focus on lowlevel tasks while late stages are guided to extract deeper information through harder tasks. We discover that by progressive stage-wise learning, unsupervised feature representation can be effectively enhanced. Our extensive experiments show that PSL consistently improves results for the leading unsupervised learning methods.
翻訳日:2021-06-14 14:38:50 公開日:2021-06-11
# グラフニューラルネットワークを用いた空間不変非教師なし3次元オブジェクトセグメンテーション

Spatially Invariant Unsupervised 3D Object Segmentation with Graph Neural Networks ( http://arxiv.org/abs/2106.05607v2 )

ライセンス: Link先を確認
Tianyu Wang, Miaomiao Liu, Kee Siong Ng(参考訳) 本稿では,RGB情報のない点群からの非教師なし3次元オブジェクトセグメンテーションの問題に取り組む。 特に,空間混合モデルとして点雲をモデル化し,変分オートエンコーダ(VAE)を用いて3次元の多目的表現とセグメンテーションを共同で学習するフレームワークSPAIR3Dを提案する。 SPAIRに触発されて、各オブジェクトの位置を点雲全体ではなく、その局所的なボクセルグリッドセルに対して記述するオブジェクト固有化方式を採用した。 点雲上の空間混合モデルをモデル化するために、変動訓練パイプラインに自然に適合するシャムファー確率を導出する。 さらに,新たな空間不変グラフニューラルネットワークの設計を行い,vae内のデコーダとして様々な3dポイントを生成する。 実験の結果,SPAIR3Dは様々なシーンにまたがる外見情報なしで様々な物体を検出・区分けできることがわかった。

In this paper, we tackle the problem of unsupervised 3D object segmentation from a point cloud without RGB information. In particular, we propose a framework, SPAIR3D, to model a point cloud as a spatial mixture model and jointly learn the multiple-object representation and segmentation in 3D via Variational Autoencoders (VAE). Inspired by SPAIR, we adopt an object-specification scheme that describes each object's location relative to its local voxel grid cell rather than the point cloud as a whole. To model the spatial mixture model on point clouds, we derive the Chamfer Likelihood, which fits naturally into the variational training pipeline. We further design a new spatially invariant graph neural network to generate a varying number of 3D points as a decoder within our VAE. Experimental results demonstrate that SPAIR3D is capable of detecting and segmenting variable number of objects without appearance information across diverse scenes.
翻訳日:2021-06-14 14:38:37 公開日:2021-06-11
# オンラインAutoMLのためのChaCha

ChaCha for Online AutoML ( http://arxiv.org/abs/2106.04815v2 )

ライセンス: Link先を確認
Qingyun Wu, Chi Wang, John Langford, Paul Mineiro, Marco Rossi(参考訳) オンライン学習環境におけるハイパーパラメータのオンライン選択のためのChaCha(Champion-Challengers)アルゴリズムを提案する。 ChaChaは、チャンピオンを決定するプロセスと、サンプルの複雑性境界に基づいて、時間の経過とともに‘生きた’挑戦者のセットをスケジューリングする。 チャンピオンに基づいたアプリケーション依存のオラクルによって最適な設定が考慮に入れられた後、サブ線形後悔が保証される。 経験的に、ChaChaは、成果化とハイパーパラメータ決定を最適化する際に、幅広いデータセットにわたって優れたパフォーマンスを提供する。

We propose the ChaCha (Champion-Challengers) algorithm for making an online choice of hyperparameters in online learning settings. ChaCha handles the process of determining a champion and scheduling a set of `live' challengers over time based on sample complexity bounds. It is guaranteed to have sublinear regret after the optimal configuration is added into consideration by an application-dependent oracle based on the champions. Empirically, we show that ChaCha provides good performance across a wide array of datasets when optimizing over featurization and hyperparameter decisions.
翻訳日:2021-06-14 14:38:20 公開日:2021-06-11
# 選択的高分解能を用いたアジャイル広視野イメージング

Agile wide-field imaging with selective high resolution ( http://arxiv.org/abs/2106.05082v2 )

ライセンス: Link先を確認
Lintao Peng, Liheng Bian, Tiexin Liu and Jun Zhang(参考訳) 広視野高分解能(hr)イメージングは航空偵察、地形図、安全監視などの様々な応用に不可欠である。 既存の技術では、フィールド全体のHR画像をキャプチャするために大規模な検出器アレイが必要であるため、複雑さとコストが高い。 本研究では,2つの検出器のみを必要とする選択的高分解能のアジャイルワイドフィールドイメージングフレームワークについて報告する。 自然の場面よりも前の統計的なスパーシティに基づいており、重要なターゲットはフィールド全体ではなく、小さな関心領域(roi)のみである。 この仮定では、短焦点カメラを用いて一定の低解像度で広視野を撮像し、長焦点カメラを用いてROIのHR画像を取得する。 リアルタイムにROIを自動的に特定するために,2台のカメラ間の大きな設定差(焦点,ホワイトバランスなど)に頑健で盲目な,効率的な深層学習に基づくマルチスケール登録手法を提案する。 登録された位置を用いて、ジンバルに搭載された長焦点カメラは、連続したHRイメージングのためのROIのリアルタイム追跡を可能にする。 我々は,概念実証装置を181グラムの重量で構築し,空中から地上までの監視を行う無人航空機に組み込むことで,新たなイメージング枠組みを実証した。 実験では、120$^{\circ}$ wide field-of-view (fov) と 0.45$mrad$ instantaneous fov が設定されている。

Wide-field and high-resolution (HR) imaging is essential for various applications such as aviation reconnaissance, topographic mapping and safety monitoring. The existing techniques require a large-scale detector array to capture HR images of the whole field, resulting in high complexity and heavy cost. In this work, we report an agile wide-field imaging framework with selective high resolution that requires only two detectors. It builds on the statistical sparsity prior of natural scenes that the important targets locate only at small regions of interests (ROI), instead of the whole field. Under this assumption, we use a short-focal camera to image wide field with a certain low resolution, and use a long-focal camera to acquire the HR images of ROI. To automatically locate ROI in the wide field in real time, we propose an efficient deep-learning based multiscale registration method that is robust and blind to the large setting differences (focal, white balance, etc) between the two cameras. Using the registered location, the long-focal camera mounted on a gimbal enables real-time tracking of the ROI for continuous HR imaging. We demonstrated the novel imaging framework by building a proof-of-concept setup with only 1181 gram weight, and assembled it on an unmanned aerial vehicle for air-to-ground monitoring. Experiments show that the setup maintains 120$^{\circ}$ wide field-of-view (FOV) with selective 0.45$mrad$ instantaneous FOV.
翻訳日:2021-06-14 14:38:11 公開日:2021-06-11
# 逆選択型階層的模倣学習

Adversarial Option-Aware Hierarchical Imitation Learning ( http://arxiv.org/abs/2106.05530v2 )

ライセンス: Link先を確認
Mingxuan Jing, Wenbing Huang, Fuchun Sun, Xiaojian Ma, Tao Kong, Chuang Gan, Lei Li(参考訳) 長期にわたる無注釈のデモンストレーションからエージェントのスキルを学ぶことは困難である。 階層的模倣学習(hil)のような既存のアプローチは、エラーや副最適解を複雑化する傾向がある。 本稿では,長距離学習のための新しい手法であるOption-GAILを提案する。 Option-GAILのキーとなるアイデアは、タスク階層をオプションでモデル化し、生成的敵最適化を通じてポリシーをトレーニングすることだ。 特に,期待最大化(em)方式のアルゴリズムを提案する。e-stepは現在の学習方針に基づく専門家の選択肢をサンプリングし,m-stepはエージェントの低レベルおよび高レベルポリシーを同時に更新し,新たに提案されたエキスパートとエージェント間のオプション占有率測定を最小化する。 提案するアルゴリズムの収束を理論的に証明する。 実験によると、option-gailはさまざまなタスクにおいて、他のオプションよりも優れています。

It has been a challenge to learning skills for an agent from long-horizon unannotated demonstrations. Existing approaches like Hierarchical Imitation Learning(HIL) are prone to compounding errors or suboptimal solutions. In this paper, we propose Option-GAIL, a novel method to learn skills at long horizon. The key idea of Option-GAIL is modeling the task hierarchy by options and train the policy via generative adversarial optimization. In particular, we propose an Expectation-Maximization(EM)-style algorithm: an E-step that samples the options of expert conditioned on the current learned policy, and an M-step that updates the low- and high-level policies of agent simultaneously to minimize the newly proposed option-occupancy measurement between the expert and the agent. We theoretically prove the convergence of the proposed algorithm. Experiments show that Option-GAIL outperforms other counterparts consistently across a variety of tasks.
翻訳日:2021-06-14 14:37:50 公開日:2021-06-11
# 検索型チャットボット構築のための総合的解法

A comprehensive solution to retrieval-based chatbot construction ( http://arxiv.org/abs/2106.06139v1 )

ライセンス: Link先を確認
Kristen Moore, Shenjun Zhong, Zhen He, Torsten Rudolf, Nils Fisher, Brandon Victor, Neha Jindal(参考訳) 本稿では,顧客支援エージェント支援のためのコントラスト学習による自己教師付き検索型チャットボットの訓練と展開に関する実験結果について述べる。 デプロイ可能なチャットボットの1つのコンポーネントを解決することに焦点を当てているこの分野のほとんどの研究論文とは対照的に、私たちは、ラベルなしのチャットログからデプロイされたチャットボットに読者を取り込むための、エンドツーエンドのソリューションセットを提示します。 このソリューションには、自己教師付きデータセットと、チャットログから弱いラベル付きデータセットを作成することや、缶詰応答の固定リストを選択するための体系的なアプローチが含まれる。 本稿では、応答選択モデルのための階層型rnnアーキテクチャを提案する。中間発話埋め込みをキャッシュする能力が選択され、デプロイメント推論の速度要件を満たすのに役立った。 このアーキテクチャの性能を,自己教師ありコントラスト学習,バイナリ分類,マルチクラス分類という3つの異なる学習目標と比較した。 自己教師付きコントラスト学習モデルを使用することで、弱いラベル付きデータセット上でのバイナリクラスとマルチクラス分類モデルのトレーニングに優れることがわかった。 本結果は,現実のチャットボットのシナリオにおいて,自己指導型コントラスト学習アプローチが効果的に利用できることを示す。

In this paper we present the results of our experiments in training and deploying a self-supervised retrieval-based chatbot trained with contrastive learning for assisting customer support agents. In contrast to most existing research papers in this area where the focus is on solving just one component of a deployable chatbot, we present an end-to-end set of solutions to take the reader from an unlabelled chatlogs to a deployed chatbot. This set of solutions includes creating a self-supervised dataset and a weakly labelled dataset from chatlogs, as well as a systematic approach to selecting a fixed list of canned responses. We present a hierarchical-based RNN architecture for the response selection model, chosen for its ability to cache intermediate utterance embeddings, which helped to meet deployment inference speed requirements. We compare the performance of this architecture across 3 different learning objectives: self-supervised contrastive learning, binary classification, and multi-class classification. We find that using a self-supervised contrastive learning model outperforms training the binary and multi-class classification models on a weakly labelled dataset. Our results validate that the self-supervised contrastive learning approach can be effectively used for a real-world chatbot scenario.
翻訳日:2021-06-14 14:37:36 公開日:2021-06-11
# 過剰リスクダイナミクスの分解による一般化の理解に向けて

Towards Understanding Generalization via Decomposing Excess Risk Dynamics ( http://arxiv.org/abs/2106.06153v1 )

ライセンス: Link先を確認
Jiaye Teng, Jianhao Ma, Yang Yuan(参考訳) 一般化は機械学習における重要な問題の1つだ。 しかし、一様収束のような伝統的な手法は、過度にパラメータ化された線形回帰状態においても空境界が得られるため、一般化を完全に説明できるほど強力ではない。 別の解決策は、アルゴリズム依存境界(例えば安定性)を導出するための一般化ダイナミクスを分析することである。 残念ながら、安定性に基づく境界は、信号とノイズの粗い解析のために、ニューラルネットワークの顕著な一般化能力を説明するには程遠い。 ニューラルネットワークがノイズに適合するときの収束速度が遅いという観測に触発されて,過剰なリスクダイナミクスを分解し,分散部(モデルが純粋なノイズに対してどのように作用するかを測定する)にのみ安定性に基づく境界を適用することを提案する。 このフレームワークには線形ケース(勾配降下を伴う過パラメータ線形回帰)と非線形ケース(勾配流れを伴う行列回復)の2つの応用がある。 分解の枠組みの下では、新しい境界は安定性に基づく境界と一様収束境界よりも理論的および経験的証拠とよく一致している。

Generalization is one of the critical issues in machine learning. However, traditional methods like uniform convergence are not powerful enough to fully explain generalization because they may yield vacuous bounds even in overparameterized linear regression regimes. An alternative solution is to analyze the generalization dynamics to derive algorithm-dependent bounds, e.g., stability. Unfortunately, the stability-based bound is still far from explaining the remarkable generalization ability of neural networks due to the coarse-grained analysis of the signal and noise. Inspired by the observation that neural networks show a slow convergence rate when fitting noise, we propose decomposing the excess risk dynamics and applying stability-based bound only on the variance part (which measures how the model performs on pure noise). We provide two applications for the framework, including a linear case (overparameterized linear regression with gradient descent) and a non-linear case (matrix recovery with gradient flow). Under the decomposition framework, the new bound accords better with the theoretical and empirical evidence compared to the stability-based bound and uniform convergence bound.
翻訳日:2021-06-14 14:37:14 公開日:2021-06-11
# アクティブセルフトレーニングによるオンライン連続適応

Online Continual Adaptation with Active Self-Training ( http://arxiv.org/abs/2106.06526v1 )

ライセンス: Link先を確認
Shiji Zhou, Han Zhao, Shanghang Zhang, Lianzhe Wang, Heng Chang, Zhi Wang, Wenwu Zhu(参考訳) オフラインデータでトレーニングされたモデルは、環境の変化による継続的な分散シフトや高価なラベル付けに悩まされることが多い。 これにより、学習者がラベルの制限のある環境変化に継続的に適応できる、新しいオンライン学習パラダイムが求められる。 本稿では,未ラベルのサンプルと限定ラベルのアクティブクエリの両方を用いて,学習者が分散の変化に継続的に適応することを目的として,新しいオンライン環境であるオンラインアクティブ連続適応を提案する。 この目的のために,オンライン教師学習構造を採用し,ラベルのないデータからオンライン自己学習を可能にするオンライン自己適応ミラードライザー(OSAMD)と,ラベルを問合せして分布の変化を追跡するかを決定するマージンベースの基準を提案する。 理論的には、分離可能な場合、OSAMDは、穏やかな仮定の下で束縛された$O({T}^{1/2})$動的後悔を持ち、フルラベルを持つ伝統的なオンライン学習の下位境界$\Omega(T^{2/3})$よりもさらに厳密である。 一般の場合、後悔の束縛は$o({\alpha^*}^{1/3} {t}^{2/3} + \alpha^* t)$であり、ここで$\alpha^*$ は領域の分離可能性を表し、通常は小さい。 我々の理論的結果は、OSAMDがアクティブクエリで変化する環境に迅速に適応できることを示している。 実証的に,osamdはシミュレーションデータと実世界のデータの両方に限定ラベルを付けて,環境の変化に対して好意的な後悔を得られることを実証し,理論的な知見を裏付ける。

Models trained with offline data often suffer from continual distribution shifts and expensive labeling in changing environments. This calls for a new online learning paradigm where the learner can continually adapt to changing environments with limited labels. In this paper, we propose a new online setting -- Online Active Continual Adaptation, where the learner aims to continually adapt to changing distributions using both unlabeled samples and active queries of limited labels. To this end, we propose Online Self-Adaptive Mirror Descent (OSAMD), which adopts an online teacher-student structure to enable online self-training from unlabeled data, and a margin-based criterion that decides whether to query the labels to track changing distributions. Theoretically, we show that, in the separable case, OSAMD has an $O({T}^{1/2})$ dynamic regret bound under mild assumptions, which is even tighter than the lower bound $\Omega(T^{2/3})$ of traditional online learning with full labels. In the general case, we show a regret bound of $O({\alpha^*}^{1/3} {T}^{2/3} + \alpha^* T)$, where $\alpha^*$ denotes the separability of domains and is usually small. Our theoretical results show that OSAMD can fast adapt to changing environments with active queries. Empirically, we demonstrate that OSAMD achieves favorable regrets under changing environments with limited labels on both simulated and real-world data, which corroborates our theoretical findings.
翻訳日:2021-06-14 14:36:56 公開日:2021-06-11
# オープンドメインチャットボットの政治的慎重性評価

Assessing Political Prudence of Open-domain Chatbots ( http://arxiv.org/abs/2106.06157v1 )

ライセンス: Link先を確認
Yejin Bang, Nayeon Lee, Etsuko Ishii, Andrea Madotto, Pascale Fung(参考訳) 政治的に敏感なトピックは、依然としてオープンドメインチャットボットにとって課題である。 しかし、政治的に敏感なコンテンツを責任ある、非党派的で安全な行動で扱うことは、これらのチャットボットにとって不可欠である。 現在、政治的感受性を扱う主なアプローチは、そのようなトピックが検出されたときに単に変更することである。 これは安全だが回避的であり、エンゲージメントの低いチャットボットになる。 本研究は,政治的に安全なチャットボットへの第一歩として,その政治的思慮を評価するための指標群を提案する。 次に、さまざまなチャットボットの政治的プレデンス分析を行い、自動測定と人的評価のメトリクスを通して、様々な角度からの行動について議論する。 テストセットとコードベースは、この分野の研究を促進するためにリリースされている。

Politically sensitive topics are still a challenge for open-domain chatbots. However, dealing with politically sensitive content in a responsible, non-partisan, and safe behavior way is integral for these chatbots. Currently, the main approach to handling political sensitivity is by simply changing such a topic when it is detected. This is safe but evasive and results in a chatbot that is less engaging. In this work, as a first step towards a politically safe chatbot, we propose a group of metrics for assessing their political prudence. We then conduct political prudence analysis of various chatbots and discuss their behavior from multiple angles through our automatic metric and human evaluation metrics. The testsets and codebase are released to promote research in this area.
翻訳日:2021-06-14 14:35:40 公開日:2021-06-11
# BoB: BERT over BERT for Training Persona-based Dialogue Models from Limited Personalized Data

BoB: BERT Over BERT for Training Persona-based Dialogue Models from Limited Personalized Data ( http://arxiv.org/abs/2106.06169v1 )

ライセンス: Link先を確認
Haoyu Song, Yan Wang, Kaiyan Zhang, Wei-Nan Zhang, Ting Liu(参考訳) 一貫性のあるパーソナラの維持は対話エージェントにとって不可欠である。 膨大な進歩がもたらされているが、注釈付きペルソナセンスデータの限られた規模は、堅牢で一貫性のあるパーソナベースの対話モデルへの障壁である。 本研究では,新たなBERT-over-BERT(BoB)モデルを用いて,ペルソナに基づく対話生成を2つのサブタスクに分離することで,課題に対処できることを示す。 具体的には、このモデルはbertベースのエンコーダと2つのbertベースのデコーダで構成されており、1つのデコーダが応答生成用であり、もう1つは一貫性の理解用である。 特に,大規模非対話推論データから整合性理解の能力を学ぶために,第2復号器を異なる方法で訓練する。 異なる限られたデータ設定下では、自動評価と人間評価の両方によって、提案モデルが応答品質とペルソナ一貫性において強いベースラインを上回ることが示されている。

Maintaining consistent personas is essential for dialogue agents. Although tremendous advancements have been brought, the limited-scale of annotated persona-dense data are still barriers towards training robust and consistent persona-based dialogue models. In this work, we show how the challenges can be addressed by disentangling persona-based dialogue generation into two sub-tasks with a novel BERT-over-BERT (BoB) model. Specifically, the model consists of a BERT-based encoder and two BERT-based decoders, where one decoder is for response generation, and another is for consistency understanding. In particular, to learn the ability of consistency understanding from large-scale non-dialogue inference data, we train the second decoder in an unlikelihood manner. Under different limited data settings, both automatic and human evaluations demonstrate that the proposed model outperforms strong baselines in response quality and persona consistency.
翻訳日:2021-06-14 14:35:31 公開日:2021-06-11
# FedNLP:連邦準備制度通信をデコードするための解釈可能なNLPシステム

FedNLP: An interpretable NLP System to Decode Federal Reserve Communications ( http://arxiv.org/abs/2106.06247v1 )

ライセンス: Link先を確認
Jean Lee, Hoyoul Luis Youn, Nicholas Stevens, Josiah Poon, Soyeon Caren Han(参考訳) 連邦準備制度(frb)は、世界中の金融政策や金融状況に影響を与える重要な役割を担っている。 fedのコミュニケーションを分析して有用な情報を抽出することは重要であるが、内容の曖昧で難解な性質のため、一般的には長く複雑である。 本稿では,federal reserve communicationsをデコードするための解釈可能な多成分自然言語処理システムfednlpを提案する。 このシステムは、NLP技術がNOコーディングによるFRBのコミュニケーションの全体的理解にどのように役立つかをエンドユーザが調査するために設計されている。 裏側では、FedNLPは従来の機械学習アルゴリズムから下流の各タスクにおけるディープニューラルネットワークアーキテクチャまで、複数のNLPモデルを使用している。 実演では,感情分析,文書の要約,連邦資金利率運動の予測,予測モデルの解釈のための可視化など,複数の結果を一度に示す。

The Federal Reserve System (the Fed) plays a significant role in affecting monetary policy and financial conditions worldwide. Although it is important to analyse the Fed's communications to extract useful information, it is generally long-form and complex due to the ambiguous and esoteric nature of content. In this paper, we present FedNLP, an interpretable multi-component Natural Language Processing system to decode Federal Reserve communications. This system is designed for end-users to explore how NLP techniques can assist their holistic understanding of the Fed's communications with NO coding. Behind the scenes, FedNLP uses multiple NLP models from traditional machine learning algorithms to deep neural network architectures in each downstream task. The demonstration shows multiple results at once including sentiment analysis, summary of the document, prediction of the Federal Funds Rate movement and visualization for interpreting the prediction model's result.
翻訳日:2021-06-14 14:35:15 公開日:2021-06-11
# ビームするか、ビームしないか:それは言語GANのための協調の問題である

To Beam Or Not To Beam: That is a Question of Cooperation for Language GANs ( http://arxiv.org/abs/2106.06363v1 )

ライセンス: Link先を確認
Thomas Scialom, Paul-Alexis Dray, Sylvain Lamprier, Benjamin Piwowarski, Jacopo Staiano(参考訳) 単語の離散的な性質から、言語ganは強化学習法を通じて、識別ネットワークが提供する報酬から最適化される必要がある。 これは連続的なタスクよりもはるかに難しい設定で、識別器からジェネレータへの勾配の流れを楽しみ、通常は劇的な学習不安定をもたらす。 しかし,識別器とジェネレータネットワークが協調してトレーニング中に出力シーケンスを生成することで,この問題を解決できると主張している。 これらの協調出力は、本質的により高い差別スコアを得るために構築され、訓練のためのより高密度な報酬を提供するだけでなく、識別器訓練のためのよりコンパクトな人工セットを形成する。 本稿では,この協調原理に基づいて構築された自己GANフレームワークが,教師の強制力より優れ,要約と質問生成という2つの課題に対する最先端の成果が得られることを示す。

Due to the discrete nature of words, language GANs require to be optimized from rewards provided by discriminator networks, via reinforcement learning methods. This is a much harder setting than for continuous tasks, which enjoy gradient flows from discriminators to generators, usually leading to dramatic learning instabilities. However, we claim that this can be solved by making discriminator and generator networks cooperate to produce output sequences during training. These cooperative outputs, inherently built to obtain higher discrimination scores, not only provide denser rewards for training, but also form a more compact artificial set for discriminator training, hence improving its accuracy and stability. In this paper, we show that our SelfGAN framework, built on this cooperative principle, outperforms Teacher Forcing and obtains state-of-the-art results on two challenging tasks, Summarization and Question Generation.
翻訳日:2021-06-14 14:35:02 公開日:2021-06-11
# エンコーダデコーダ変換器を用いたゼロショット制御生成

Zero-Shot Controlled Generation with Encoder-Decoder Transformers ( http://arxiv.org/abs/2106.06411v1 )

ライセンス: Link先を確認
Devamanyu Hazarika, Mahdi Namazifar, Dilek Hakkani-T\"ur(参考訳) 自然言語生成のためのニューラルネットワークモデル(NLG)の制御は、機械翻訳、文書要約、ダイアログシステムなど、多くの分野で広く応用されている。 ゼロショット方式でそのような制御を可能にするアプローチは、いくつかの理由から、追加の注釈付きデータとトレーニングの必要性をなくすため、非常に重要である。 本研究では,エンコーダ・デコーダ変換器を用いたnlgモデルをゼロショット方式で制御する新しい手法を提案する。 これは、3つの制御ノブ、すなわちアテンションバイアス、デコーダミキシング、コンテキスト拡張を世代毎に適用することで実現される。 これらのノブは、トレーニングされたNLGモデル(例えば、クロスアテンション層をバイアスするなど)を直接操作することで生成プロセスを制御する。 これらのNLGモデルは,このような操作に対して堅牢であるだけでなく,生成性能に影響を与えることなく制御可能であることを示す。 これらの結果は、私たちの知る限りでは、彼らにとって最初のものです。 これらの制御ノブを通して、トランスフォーマーデコーダの自己照準モジュールの役割を検証し、これらのモデルによって生成された文のフルーエンシーを維持することが主な役割であることを示す。 この仮説に基づき、トランスフォーマーデコーダの代替アーキテクチャが実行可能な選択肢であることを示す。 また,この仮説がエンコーダ・デコーダトランスフォーマモデルをより効率的にトレーニングする方法につながる可能性についても検討した。

Controlling neural network-based models for natural language generation (NLG) has broad applications in numerous areas such as machine translation, document summarization, and dialog systems. Approaches that enable such control in a zero-shot manner would be of great importance as, among other reasons, they remove the need for additional annotated data and training. In this work, we propose novel approaches for controlling encoder-decoder transformer-based NLG models in a zero-shot manner. This is done by introducing three control knobs; namely, attention biasing, decoder mixing, and context augmentation, that are applied to these models at generation time. These knobs control the generation process by directly manipulating trained NLG models (e.g., biasing cross-attention layers) to realize the desired attributes in the generated outputs. We show that not only are these NLG models robust to such manipulations, but also their behavior could be controlled without an impact on their generation performance. These results, to the best of our knowledge, are the first of their kind. Through these control knobs, we also investigate the role of transformer decoder's self-attention module and show strong evidence that its primary role is maintaining fluency of sentences generated by these models. Based on this hypothesis, we show that alternative architectures for transformer decoders could be viable options. We also study how this hypothesis could lead to more efficient ways for training encoder-decoder transformer models.
翻訳日:2021-06-14 14:34:46 公開日:2021-06-11
# 対話応答生成の地域的説明

Local Explanation of Dialogue Response Generation ( http://arxiv.org/abs/2106.06528v1 )

ライセンス: Link先を確認
Yi-Lin Tuan, Connor Pryor, Wenhu Chen, Lise Getoor, William Yang Wang(参考訳) 分類モデルの解釈と比較して、系列生成モデルの説明も重要な問題であるが、ほとんど注目されていない。 本研究では,代表的なテキスト生成タスクである対話応答生成のモデル非依存な説明について検討する。 対話応答生成はオープンな文と複数の許容可能な応答で困難である。 生成モデルの推論過程に関する知見を得るため、入力文と出力文のセグメント間の相互相互作用として説明を考慮し、応答生成の局所的説明(LERG)を新たに提案する。 LERGは、シーケンス予測を人間の応答の不確実性推定とみなし、入力を摂動させ、人間の応答に対する確実性の変化を計算することによって説明を作成する。 LERGは、不偏近似、一貫性、原因同定を含む、テキスト生成のための説明の望ましい性質に固執することを示す。 実験結果から,本手法は,提案手法が提案する自動評価・人為評価指標を4.4-12.8%改善することを示す。 解析の結果,LERGは入力セグメントと出力セグメントの明示的および暗黙的関係を抽出できることがわかった。

In comparison to the interpretation of classification models, the explanation of sequence generation models is also an important problem, however it has seen little attention. In this work, we study model-agnostic explanations of a representative text generation task -- dialogue response generation. Dialog response generation is challenging with its open-ended sentences and multiple acceptable responses. To gain insights into the reasoning process of a generation model, we propose anew method, local explanation of response generation (LERG) that regards the explanations as the mutual interaction of segments in input and output sentences. LERG views the sequence prediction as uncertainty estimation of a human response and then creates explanations by perturbing the input and calculating the certainty change over the human response. We show that LERG adheres to desired properties of explanations for text generation including unbiased approximation, consistency and cause identification. Empirically, our results show that our method consistently improves other widely used methods on proposed automatic- and human- evaluation metrics for this new task by 4.4-12.8%. Our analysis demonstrates that LERG can extract both explicit and implicit relations between input and output segments.
翻訳日:2021-06-14 14:34:21 公開日:2021-06-11
# DECORE:強化学習による深い圧縮

DECORE: Deep Compression with Reinforcement Learning ( http://arxiv.org/abs/2106.06091v1 )

ライセンス: Link先を確認
Manoj Alwani, Vashisht Madhavan, Yang Wang(参考訳) ディープラーニングは、現代のパターン認識システムにおいて、ますます人気で強力な選択肢になりつつある。 しかし、多くのディープニューラルネットワークは数百万から数十億のパラメータを持ち、メモリやレイテンシに制約のある現実世界のアプリケーションでは耐えられない。 その結果、強力なネットワーク圧縮技術は、ディープラーニングを広く採用する上で必須である。 ネットワーク圧縮プロセスを自動化する強化学習手法であるDECOREを提案する。 簡単なポリシー勾配法を用いて、どのニューロンやチャネルを保持または除去するかを学習し、現代のアプローチよりも3倍から5倍の圧縮率を達成することができる。 他のアーキテクチャ検索手法とは対照的に、DECOREはシンプルで訓練が早いため、1GPUで数時間のトレーニングしか必要としない。 異なるデータセット上の標準ネットワークアーキテクチャに適用すると,従来の大規模ネットワークと同様の精度を維持しつつ,異なるアーキテクチャ上での11倍から103倍の圧縮を実現する。

Deep learning has become an increasingly popular and powerful option for modern pattern recognition systems. However, many deep neural networks have millions to billions of parameters, making them untenable for real-world applications with constraints on memory or latency. As a result, powerful network compression techniques are a must for the widespread adoption of deep learning. We present DECORE, a reinforcement learning approach to automate the network compression process. Using a simple policy gradient method to learn which neurons or channels to keep or remove, we are able to achieve compression rates 3x to 5x greater than contemporary approaches. In contrast with other architecture search methods, DECORE is simple and quick to train, requiring only a few hours of training on 1 GPU. When applied to standard network architectures on different datasets, our approach achieves 11x to 103x compression on different architectures while maintaining accuracies similar to those of the original, large networks.
翻訳日:2021-06-14 14:33:05 公開日:2021-06-11
# 動物行動における専門家アノテーションの違いの解釈

Interpreting Expert Annotation Differences in Animal Behavior ( http://arxiv.org/abs/2106.06114v1 )

ライセンス: Link先を確認
Megan Tjandrasuwita, Jennifer J. Sun, Ann Kennedy, Swarat Chaudhuri, Yisong Yue(参考訳) 手書きアノテートデータは、主観的差異、ラター内変動性、アノテータの専門性の違いなどによって異なる場合がある。 動物行動ビデオに同じ行動クラスをラベル付けした異なる専門家のアノテーションを調査し,アノテーションスタイルの変化を観察した。 本稿では,プログラム合成を用いた行動解析のためのアノテーションの差異を解釈するための新しい手法を提案する。 本モデルでは,各時刻スタンプにおけるアノテータの位置を推定した重要度に応じた時間的フィルタをプログラムの一部として学習する。 行動神経科学のデータセットを用いた実験では,ベースラインアプローチと比較して,アノテータラベルの取得や解釈可能な時間フィルタの学習がより正確であることが示された。 我々は,本手法が科学的研究で用いられる行動アノテーションの再現性を高めることができると考えている。 私たちはコードをリリースする予定です。

Hand-annotated data can vary due to factors such as subjective differences, intra-rater variability, and differing annotator expertise. We study annotations from different experts who labelled the same behavior classes on a set of animal behavior videos, and observe a variation in annotation styles. We propose a new method using program synthesis to help interpret annotation differences for behavior analysis. Our model selects relevant trajectory features and learns a temporal filter as part of a program, which corresponds to estimated importance an annotator places on that feature at each timestamp. Our experiments on a dataset from behavioral neuroscience demonstrate that compared to baseline approaches, our method is more accurate at capturing annotator labels and learns interpretable temporal filters. We believe that our method can lead to greater reproducibility of behavior annotations used in scientific studies. We plan to release our code.
翻訳日:2021-06-14 14:32:51 公開日:2021-06-11
# DouZero: DouDizhuをセルフプレイの深層強化学習で習得する

DouZero: Mastering DouDizhu with Self-Play Deep Reinforcement Learning ( http://arxiv.org/abs/2106.06135v1 )

ライセンス: Link先を確認
Daochen Zha, Jingru Xie, Wenye Ma, Sheng Zhang, Xiangru Lian, Xia Hu, Ji Liu(参考訳) ゲームは、人工エージェントが他のエージェントと競争し協力することを学ぶ現実世界の抽象化である。 様々な完全・不完全情報ゲームにおいて重要な成果が得られたが、ドゥーディズフ(DouDizhu、DouDizhu)である。 3人プレイのカードゲームであるFighting the Landlordは未解決のままである。 DouDizhuは競争、コラボレーション、不完全な情報、大規模な国家空間、そして特に法的な行動がターンからターンに大きく異なる可能性のある巨大な行動の集合を持つ非常に困難なドメインである。 残念なことに、現代の強化学習アルゴリズムは、主に単純で小さなアクション空間に焦点を当てているが、驚くことではない。 本研究では,従来のモンテカルロ法を深層ニューラルネットワーク,アクションエンコーディング,並列アクタで拡張する,概念的にシンプルで効果的なDouDizhu AIシステムであるDouZeroを提案する。 DouZeroは、4つのGPUを持つ単一のサーバでゼロから始まり、トレーニングの日々で既存のDouDizhu AIプログラムを上回り、344のAIエージェントの中でBotzoneのリーダーボードにランクインした。 DouZero の構築を通じて、モンテカルロ法は複雑な作用空間を持つハードドメインにおいて強い結果をもたらすことができることを示す。 コードとオンラインデモはhttps://github.com/kwai/DouZeroで公開されており、この洞察が今後の作業の動機になることを期待している。

Games are abstractions of the real world, where artificial agents learn to compete and cooperate with other agents. While significant achievements have been made in various perfect- and imperfect-information games, DouDizhu (a.k.a. Fighting the Landlord), a three-player card game, is still unsolved. DouDizhu is a very challenging domain with competition, collaboration, imperfect information, large state space, and particularly a massive set of possible actions where the legal actions vary significantly from turn to turn. Unfortunately, modern reinforcement learning algorithms mainly focus on simple and small action spaces, and not surprisingly, are shown not to make satisfactory progress in DouDizhu. In this work, we propose a conceptually simple yet effective DouDizhu AI system, namely DouZero, which enhances traditional Monte-Carlo methods with deep neural networks, action encoding, and parallel actors. Starting from scratch in a single server with four GPUs, DouZero outperformed all the existing DouDizhu AI programs in days of training and was ranked the first in the Botzone leaderboard among 344 AI agents. Through building DouZero, we show that classic Monte-Carlo methods can be made to deliver strong results in a hard domain with a complex action space. The code and an online demo are released at https://github.com/kwai/DouZero with the hope that this insight could motivate future work.
翻訳日:2021-06-14 14:32:36 公開日:2021-06-11
# ハイブリッド生成コントラスト表現学習

Hybrid Generative-Contrastive Representation Learning ( http://arxiv.org/abs/2106.06162v1 )

ライセンス: Link先を確認
Saehoon Kim, Sungwoong Kim, Juho Lee(参考訳) 非教師なし表現学習は、大規模ラベルなしデータを効果的に活用することで、その強力な一般化性により、最近多くの関心を集めている。 コントラスト学習と生成前学習の2つのアプローチがあり、前者はインスタンスごとの識別タスクから表現を学び、後者は確率の推定からそれらを学ぶ。 これらの一見直交的なアプローチには独自の強みと弱みがある。 コントラスト学習は、意味情報を抽出し、オブジェクトの分類に関係のない詳細を廃棄する傾向があり、その表現を識別的タスクに効果的にし、アウト・オブ・ディストリビューションデータへのロバスト性を低下させる。 一方、生成前訓練はデータ分布を直接推定するので、表現は頑健な傾向があるが、判別タスクには最適ではない。 本稿では,ハイブリッド・トレーニング・スキームによって両世界のベストを実現できることを示す。 具体的には、コントラストと生成的損失の両方で訓練されたトランスフォーマーベースのエンコーダデコーダアーキテクチャが、生成性能を損なうことなく、高い識別性および堅牢性を持つ表現を学習できることを実証した。 私たちは様々なタスクに対するアプローチを広範囲に検証します。

Unsupervised representation learning has recently received lots of interest due to its powerful generalizability through effectively leveraging large-scale unlabeled data. There are two prevalent approaches for this, contrastive learning and generative pre-training, where the former learns representations from instance-wise discrimination tasks and the latter learns them from estimating the likelihood. These seemingly orthogonal approaches have their own strengths and weaknesses. Contrastive learning tends to extract semantic information and discards details irrelevant for classifying objects, making the representations effective for discriminative tasks while degrading robustness to out-of-distribution data. On the other hand, the generative pre-training directly estimates the data distribution, so the representations tend to be robust but not optimal for discriminative tasks. In this paper, we show that we could achieve the best of both worlds by a hybrid training scheme. Specifically, we demonstrated that a transformer-based encoder-decoder architecture trained with both contrastive and generative losses can learn highly discriminative and robust representations without hurting the generative performance. We extensively validate our approach on various tasks.
翻訳日:2021-06-14 14:32:13 公開日:2021-06-11
# 知識は機械学習に何をもたらすのか? --構造化データのローショット学習に関する調査

What Can Knowledge Bring to Machine Learning? -- A Survey of Low-shot Learning for Structured Data ( http://arxiv.org/abs/2106.06410v1 )

ライセンス: Link先を確認
Yang Hu, Adriane Chapman, Guihua Wen and Dame Wendy Hall(参考訳) 監視された機械学習には、多くの状況での使用が困難になるいくつかの欠点がある。 大量のトレーニングデータへの依存、限定的な一般化性、ハイレベルなセマンティクスの表現力の低下。 ローショット学習はこれらの欠点に対処しようとする。 ローショット学習は、構造化知識が人間の高度な意味表現として重要な役割を担っている、非常に少ない、または全く訓練データで優れた予測力を得ることができる。 本稿では,異なる低ショット環境下での構造化知識の操作に着目し,低ショット学習技術の基本的要因について概説する。 ローショット学習に関する他のテクニックも紹介する。 最後に,ローショット学習の限界,産業応用の可能性とギャップ,今後の研究方向性を指摘する。

Supervised machine learning has several drawbacks that make it difficult to use in many situations. Drawbacks include: heavy reliance on massive training data, limited generalizability and poor expressiveness of high-level semantics. Low-shot Learning attempts to address these drawbacks. Low-shot learning allows the model to obtain good predictive power with very little or no training data, where structured knowledge plays a key role as a high-level semantic representation of human. This article will review the fundamental factors of low-shot learning technologies, with a focus on the operation of structured knowledge under different low-shot conditions. We also introduce other techniques relevant to low-shot learning. Finally, we point out the limitations of low-shot learning, the prospects and gaps of industrial applications, and future research directions.
翻訳日:2021-06-14 14:31:55 公開日:2021-06-11
# イミテーション学習のためのポリシー勾配ベイズロバスト最適化

Policy Gradient Bayesian Robust Optimization for Imitation Learning ( http://arxiv.org/abs/2106.06499v1 )

ライセンス: Link先を確認
Zaynah Javed, Daniel S. Brown, Satvik Sharma, Jerry Zhu, Ashwin Balakrishna, Marek Petrik, Anca D. Dragan, Ken Goldberg(参考訳) 多くの実世界の問題に対する報酬を特定することの難しさは、デモのような人間のフィードバックから報酬を学ぶことに集中している。 しかし、人間のフィードバックを説明する多くの異なる報酬関数があり、真の報酬関数が何であるかに不確実性がある。 ほとんどのポリシー最適化アプローチは、期待されるパフォーマンスのために最適化することでこの不確実性を処理するが、多くのアプリケーションは、リスク回避の振る舞いを要求する。 我々は,期待性能とリスクのバランスをとるソフトロバスト目標を最適化する新しいポリシー勾配型ロバスト最適化手法pg-broilを導出する。 我々の知る限り、PG-BROILは、連続的なMDPにスケール可能な報酬仮説の分布に頑健な最初のポリシー最適化アルゴリズムである。 その結果,PG-BROILはリスクニュートラルからリスクアバースまで多岐にわたる行動のファミリを生み出すことができ,不確実性に対処して不明瞭な実演から学習する際の最先端の模倣学習アルゴリズムより優れていることが示唆された。

The difficulty in specifying rewards for many real-world problems has led to an increased focus on learning rewards from human feedback, such as demonstrations. However, there are often many different reward functions that explain the human feedback, leaving agents with uncertainty over what the true reward function is. While most policy optimization approaches handle this uncertainty by optimizing for expected performance, many applications demand risk-averse behavior. We derive a novel policy gradient-style robust optimization approach, PG-BROIL, that optimizes a soft-robust objective that balances expected performance and risk. To the best of our knowledge, PG-BROIL is the first policy optimization algorithm robust to a distribution of reward hypotheses which can scale to continuous MDPs. Results suggest that PG-BROIL can produce a family of behaviors ranging from risk-neutral to risk-averse and outperforms state-of-the-art imitation learning algorithms when learning from ambiguous demonstrations by hedging against uncertainty, rather than seeking to uniquely identify the demonstrator's reward function.
翻訳日:2021-06-14 14:31:42 公開日:2021-06-11
# ニューラル最適化カーネル:ロバストなディープラーニングを目指して

Neural Optimization Kernel: Towards Robust Deep Learning ( http://arxiv.org/abs/2106.06097v1 )

ライセンス: Link先を確認
Yueming Lyu, Ivor Tsang(参考訳) 最近の研究では、ニューラルネットワーク(NN)とカーネルメソッドの密接な関係が示されている。 しかし、これらの分析(NTKなど)のほとんどは、NNモデルの深さではなく、幅の影響に焦点を当てている。 深みの恩恵を受ける理論と実践的なネットワーク設計の間にはまだギャップがある。 本稿ではまず,ニューラル最適化カーネル(NOK)と呼ばれる新しいカーネルファミリーを提案する。 我々のカーネルは RKHS w.r.t の 2 つの $T$-step 更新関数の内積として定義される。 正規化最適化問題。 理論的には、凸問題と非凸問題の両方に対する更新則の単調降下特性と、凸問題に対する更新のO(1/T)$収束率を証明した。 さらに,NOKに関連付けられた深層NNとカーネルメソッドとの接続を構築するため,NOKのデータ依存構造近似を提案する。 結果計算グラフは、resnet型有限幅nnである。 構造近似は単調降下特性と$o(1/t)$収束率を維持した。 すなわち、$T$-layer NNは、$T$-step monotonic descent updateを実行する。 特に、ReLUによる$T$層構造NNは$O(1/T)$収束率w.r.tを維持している。 NNアーキテクチャ最適化の観点から、ディープNNのトレーニングにおけるReLUの成功を説明する凸正規化問題である。 教師なし学習と共有パラメータの場合、GDとトレーニング構造化NNの等価性を示し、無限幅における固定(データ依存)NOKに関連するRKHSの関数勾配降下を行う。 有限NOKに対して、一般化境界を証明する。 特筆すべきは,過剰パラメータの深層nn (nok) が表現力を高め,経験的リスクを低減し,同時に束縛された一般化を低減できることである。 大規模実験により構造されたNOKブロックのロバスト性を検証した。

Recent studies show a close connection between neural networks (NN) and kernel methods. However, most of these analyses (e.g., NTK) focus on the influence of (infinite) width instead of the depth of NN models. There remains a gap between theory and practical network designs that benefit from the depth. This paper first proposes a novel kernel family named Neural Optimization Kernel (NOK). Our kernel is defined as the inner product between two $T$-step updated functionals in RKHS w.r.t. a regularized optimization problem. Theoretically, we proved the monotonic descent property of our update rule for both convex and non-convex problems, and a $O(1/T)$ convergence rate of our updates for convex problems. Moreover, we propose a data-dependent structured approximation of our NOK, which builds the connection between training deep NNs and kernel methods associated with NOK. The resultant computational graph is a ResNet-type finite width NN. Our structured approximation preserved the monotonic descent property and $O(1/T)$ convergence rate. Namely, a $T$-layer NN performs $T$-step monotonic descent updates. Notably, we show our $T$-layered structured NN with ReLU maintains a $O(1/T)$ convergence rate w.r.t. a convex regularized problem, which explains the success of ReLU on training deep NN from a NN architecture optimization perspective. For the unsupervised learning and the shared parameter case, we show the equivalence of training structured NN with GD and performing functional gradient descent in RKHS associated with a fixed (data-dependent) NOK at an infinity-width regime. For finite NOKs, we prove generalization bounds. Remarkably, we show that overparameterized deep NN (NOK) can increase the expressive power to reduce empirical risk and reduce the generalization bound at the same time. Extensive experiments verify the robustness of our structured NOK blocks.
翻訳日:2021-06-14 14:30:33 公開日:2021-06-11
# 線形関数近似を用いた安全強化学習

Safe Reinforcement Learning with Linear Function Approximation ( http://arxiv.org/abs/2106.06239v1 )

ライセンス: Link先を確認
Sanae Amani, Christos Thrampoulidis, Lin F. Yang(参考訳) 近年,強化学習の安全性がますます重要になっている。 しかし、既存のソリューションは、安全クリティカルなシステムにおいて壊滅的な結果をもたらす可能性のある安全でないアクションの選択を厳密に避けるか、安全制約を学ぶ必要がある設定に対して後悔の保証を提供しないかのどちらかである。 本稿では,まず,状態と動作の未知の線形コスト関数として安全性をモデル化することで,常に一定のしきい値を下回らなければならない2つの問題に対処する。 次に,線形関数近似を用いたマルコフ決定過程(MDP)のSLUCB-QVIとRSLUCB-QVIというアルゴリズムを提案する。 SLUCB-QVI と RSLUCB-QVI は \emph{no safety violation} で $\tilde{\mathcal{O}}\left(\kappa\sqrt{d^3H^3T}\right)$ regret, $-of-the-art unsafe algorithm, where $H$ is the duration of each episode, $d$ is the dimension of the feature mapping, $\kappa$ is a constant characterizing the safety constraints, $T$ is the total number of action play。 さらに,我々の理論的知見を裏付ける数値シミュレーションについて述べる。

Safety in reinforcement learning has become increasingly important in recent years. Yet, existing solutions either fail to strictly avoid choosing unsafe actions, which may lead to catastrophic results in safety-critical systems, or fail to provide regret guarantees for settings where safety constraints need to be learned. In this paper, we address both problems by first modeling safety as an unknown linear cost function of states and actions, which must always fall below a certain threshold. We then present algorithms, termed SLUCB-QVI and RSLUCB-QVI, for episodic Markov decision processes (MDPs) with linear function approximation. We show that SLUCB-QVI and RSLUCB-QVI, while with \emph{no safety violation}, achieve a $\tilde{\mathcal{O}}\left(\kappa\sqrt{d^3H^3T}\right)$ regret, nearly matching that of state-of-the-art unsafe algorithms, where $H$ is the duration of each episode, $d$ is the dimension of the feature mapping, $\kappa$ is a constant characterizing the safety constraints, and $T$ is the total number of action plays. We further present numerical simulations that corroborate our theoretical findings.
翻訳日:2021-06-14 14:30:03 公開日:2021-06-11
# 教師学生設定における2層ReLUニューラルネットワークの勾配法による学習性について

On Learnability via Gradient Method for Two-Layer ReLU Neural Networks in Teacher-Student Setting ( http://arxiv.org/abs/2106.06251v1 )

ライセンス: Link先を確認
Shunta Akiyama and Taiji Suzuki(参考訳) ディープラーニングは多くのアプリケーションで経験的に高い性能を達成するが、そのトレーニング力学は理論的には完全には理解されていない。 本稿では,学生ネットワークが未知の教師ネットワークを学習する教師学生の回帰モデルを用いて,2層ReLUニューラルネットワークの学習に関する理論的解析を行う。 対象関数が高度に非凸であるにもかかわらず, 正規化と十分な過剰パラメータ化により, 高確率の教師ネットワークのパラメータを, ノルム依存ステップによる勾配降下により同定できることを示す。 鍵となる理論ツールは、ニューラルネットワークの測度表現と、測度空間上のスパース推定のための双対証明引数の新しい応用である。 測度空間における大域最小値と大域収束特性を解析する。

Deep learning empirically achieves high performance in many applications, but its training dynamics has not been fully understood theoretically. In this paper, we explore theoretical analysis on training two-layer ReLU neural networks in a teacher-student regression model, in which a student network learns an unknown teacher network through its outputs. We show that with a specific regularization and sufficient over-parameterization, the student network can identify the parameters of the teacher network with high probability via gradient descent with a norm dependent stepsize even though the objective function is highly non-convex. The key theoretical tool is the measure representation of the neural networks and a novel application of a dual certificate argument for sparse estimation on a measure space. We analyze the global minima and global convergence property in the measure space.
翻訳日:2021-06-14 14:29:34 公開日:2021-06-11
# 領域一般化のための不変情報ボトルネック

Invariant Information Bottleneck for Domain Generalization ( http://arxiv.org/abs/2106.06333v1 )

ライセンス: Link先を確認
Bo Li, Yifei Shen, Yezhen Wang, Wenzhen Zhu, Colorado J. Reed, Tong Che, Jun Zhang, Dongsheng Li, Kurt Keutzer, Han Zhao(参考訳) ドメイン一般化(DG)の主な課題は、複数のトレーニングドメインと目に見えないテストドメインの間の潜在的分散シフトを克服することである。 dgアルゴリズムの一般的なクラスの一つは、トレーニング領域にまたがる不変因果関係を持つ表現を学習することである。 しかし、いくつかの特徴は \emph{pseudo-invariant features} と呼ばれ、訓練領域では不変であるがテスト領域では存在せず、既存のアルゴリズムの性能を大幅に低下させることができる。 この問題に対処するため,我々は,トレーニング領域とテスト領域間で不変である最小の表現を学習する不変情報ボトルネック(iib)と呼ばれる新しいアルゴリズムを提案する。 表現と入力の相互情報を最小化することにより、IIBはDGに望ましい擬似不変特徴への依存を緩和する。 IIB の原理の有効性を検証するため,大規模な DG ベンチマークで広範な実験を行った。 その結果,IIBは不変学習ベースライン(例)よりも優れていた。 IRM)は2つの評価指標に対して平均2.8\%と3.8\%の精度である。

The main challenge for domain generalization (DG) is to overcome the potential distributional shift between multiple training domains and unseen test domains. One popular class of DG algorithms aims to learn representations that have an invariant causal relation across the training domains. However, certain features, called \emph{pseudo-invariant features}, may be invariant in the training domain but not the test domain and can substantially decreases the performance of existing algorithms. To address this issue, we propose a novel algorithm, called Invariant Information Bottleneck (IIB), that learns a minimally sufficient representation that is invariant across training and testing domains. By minimizing the mutual information between the representation and inputs, IIB alleviates its reliance on pseudo-invariant features, which is desirable for DG. To verify the effectiveness of the IIB principle, we conduct extensive experiments on large-scale DG benchmarks. The results show that IIB outperforms invariant learning baseline (e.g. IRM) by an average of 2.8\% and 3.8\% accuracy over two evaluation metrics.
翻訳日:2021-06-14 14:29:20 公開日:2021-06-11
# オフラインオラクルによる多数のクラスを有するコンテキストバンディットの最適モデル選択

Optimal Model Selection in Contextual Bandits with Many Classes via Offline Oracles ( http://arxiv.org/abs/2106.06483v1 )

ライセンス: Link先を確認
Sanath Kumar Krishnamurthy, Susan Athey(参考訳) 本研究では,モデル推定のためのバイアス分散トレードオフのバランスと探索・探索トレードオフのバランスをとらなければならないコンテキストバンディットのモデル選択の問題について検討する。 本稿では,文脈的帯域選択からオフラインモデル選択のオーラクルへのモデル選択を初めて削減し,回帰のためのモデル選択よりも計算要求の柔軟な汎用アルゴリズムを実現することを提案する。 我々の主な成果は、確率的文脈的包帯に対する新しいモデル選択保証である。 私たちのアルゴリズムは、クラス数に対数的依存がある場合、時間水平が十分大きい場合、または誤特定を検出するのに役立つ仮定が成立する場合の2つの条件の1つの下で、そのクラスに対する最適な実現可能性に基づく後悔境界を達成する。 したがって、このアルゴリズムは未知のクラスの複雑さに適応する。 この実現可能なクラスが知られているとしても、これらのラウンドにおいてより単純なモデルクラスを頼りにすることで、早期ラウンドにおける後悔の保証の改善が証明される。

We study the problem of model selection for contextual bandits, in which the algorithm must balance the bias-variance trade-off for model estimation while also balancing the exploration-exploitation trade-off. In this paper, we propose the first reduction of model selection in contextual bandits to offline model selection oracles, allowing for flexible general purpose algorithms with computational requirements no worse than those for model selection for regression. Our main result is a new model selection guarantee for stochastic contextual bandits. When one of the classes in our set is realizable, up to a logarithmic dependency on the number of classes, our algorithm attains optimal realizability-based regret bounds for that class under one of two conditions: if the time-horizon is large enough, or if an assumption that helps with detecting misspecification holds. Hence our algorithm adapts to the complexity of this unknown class. Even when this realizable class is known, we prove improved regret guarantees in early rounds by relying on simpler model classes for those rounds and hence further establish the importance of model selection in contextual bandits.
翻訳日:2021-06-14 14:29:03 公開日:2021-06-11
# ニューラルネットワークにおける大きな幅の限界:深いガウス過程の観点から

The Limitations of Large Width in Neural Networks: A Deep Gaussian Process Perspective ( http://arxiv.org/abs/2106.06529v1 )

ライセンス: Link先を確認
Geoff Pleiss, John P. Cunningham(参考訳) 大規模幅の制限は、近年のディープラーニング研究の焦点となっている: モジュラー計算の実用性、より広いネットワークはより狭いネットワークよりも優れているか? 従来のネットワークは幅のある表現力を獲得し、ネガティブな効果を隠蔽する可能性があるため、この問題に答えるのは難しい。 本稿では,ニューラルネットワークを一般化した階層型モデルであるDeep Gaussian Processes (Deep GP) の容量と幅を分離する。 これにより、与えられたモデリングタスクに十分なキャパシティが得られたら、幅が標準ニューラルネットワークにどのように影響するかを理解することを目指している。 Deep GPの理論的および実証的な結果は、大幅が一般に階層モデルに有害であることを示している。 驚くべきことに、非パラメトリックディープGPでさえガウス過程に収束し、表現力の増大なしに事実上浅くなっていく。 データ適応可能な基底関数の混合に対応する後部は、幅によってデータ依存が減る。 深さはモデルの非ガウス性を強調し、幅はモデルのガウス性を強める。 制限gp動作が適応性を妨げる前にテストセットのパフォーマンスを最大化する「スイートスポット」が、非パラメトリックなディープgpの場合、幅 = 1 または幅 = 2 で発生する。 これらの結果は、従来のニューラルネットワークにおいて、同じ現象について強い予測をもたらしている:我々は、多くのニューラルネットワークアーキテクチャは、データセットによって十分な容量のために10 - 500の隠れたユニットを必要とするが、さらに幅はテスト性能を低下させる。

Large width limits have been a recent focus of deep learning research: modulo computational practicalities, do wider networks outperform narrower ones? Answering this question has been challenging, as conventional networks gain representational power with width, potentially masking any negative effects. Our analysis in this paper decouples capacity and width via the generalization of neural networks to Deep Gaussian Processes (Deep GP), a class of hierarchical models that subsume neural nets. In doing so, we aim to understand how width affects standard neural networks once they have sufficient capacity for a given modeling task. Our theoretical and empirical results on Deep GP suggest that large width is generally detrimental to hierarchical models. Surprisingly, we prove that even nonparametric Deep GP converge to Gaussian processes, effectively becoming shallower without any increase in representational power. The posterior, which corresponds to a mixture of data-adaptable basis functions, becomes less data-dependent with width. Our tail analysis demonstrates that width and depth have opposite effects: depth accentuates a model's non-Gaussianity, while width makes models increasingly Gaussian. We find there is a "sweet spot" that maximizes test set performance before the limiting GP behavior prevents adaptability, occurring at width = 1 or width = 2 for nonparametric Deep GP. These results make strong predictions about the same phenomenon in conventional neural networks: we show empirically that many neural network architectures need 10 - 500 hidden units for sufficient capacity - depending on the dataset - but further width degrades test performance.
翻訳日:2021-06-14 14:28:43 公開日:2021-06-11
# クラスタ割り当ての正確な特徴を学ぶ

Learning the Precise Feature for Cluster Assignment ( http://arxiv.org/abs/2106.06159v1 )

ライセンス: Link先を確認
Yanhai Gan, Xinghui Dong, Huiyu Zhou, Feng Gao, Junyu Dong(参考訳) クラスタリングはコンピュータビジョンとパターン認識における基本的なタスクの1つである。 近年,深層クラスタリング手法(深層学習に基づくアルゴリズム)が注目されている。 これらのアルゴリズムの多くは、教師なし表現学習と標準クラスタリングを組み合わせる。 しかし、表現学習とクラスタリングの分離は、2段階の戦略によって表現学習がその後のタスク(例えば、特定の手がかりによるクラスタリング)に適応できないため、最適以下の解決策につながる。 この問題を解決するために、表現とクラスタ割り当ての動的適応に取り組み、現在の最先端の手法は表現とクラスタ割り当てを代替的に最適化したヒューリスティックに構築された目的に悩まされている。 クラスタリング問題をさらに標準化するために,クラスタ割り当ての手がかりとして正確な特徴を見つけるために,クラスタリングの目的を大胆に定式化する。 そこで本研究では,表現学習とクラスタリングをひとつのパイプラインに統合する,汎用的なディープクラスタリングフレームワークを提案する。 提案フレームワークは,最近開発された固有特徴を学習するための生成モデルの強力な能力を活用し,専用変分アルゴリズムによりクラスタ割り当ての分布をエントロピー最小化する。 実験の結果,提案手法の性能は,手書き桁認識,ファッション認識,顔認識,オブジェクト認識ベンチマークデータセットにおける最先端手法よりも優れ,少なくとも同等であることがわかった。

Clustering is one of the fundamental tasks in computer vision and pattern recognition. Recently, deep clustering methods (algorithms based on deep learning) have attracted wide attention with their impressive performance. Most of these algorithms combine deep unsupervised representation learning and standard clustering together. However, the separation of representation learning and clustering will lead to suboptimal solutions because the two-stage strategy prevents representation learning from adapting to subsequent tasks (e.g., clustering according to specific cues). To overcome this issue, efforts have been made in the dynamic adaption of representation and cluster assignment, whereas current state-of-the-art methods suffer from heuristically constructed objectives with representation and cluster assignment alternatively optimized. To further standardize the clustering problem, we audaciously formulate the objective of clustering as finding a precise feature as the cue for cluster assignment. Based on this, we propose a general-purpose deep clustering framework which radically integrates representation learning and clustering into a single pipeline for the first time. The proposed framework exploits the powerful ability of recently developed generative models for learning intrinsic features, and imposes an entropy minimization on the distribution of the cluster assignment by a dedicated variational algorithm. Experimental results show that the performance of the proposed method is superior, or at least comparable to, the state-of-the-art methods on the handwritten digit recognition, fashion recognition, face recognition and object recognition benchmark datasets.
翻訳日:2021-06-14 14:27:36 公開日:2021-06-11
# ViT-inception-GANによる画像カラー化

ViT-Inception-GAN for Image Colourising ( http://arxiv.org/abs/2106.06321v1 )

ライセンス: Link先を確認
Tejas Bana, Jatan Loya and Siddhant Kulkarni(参考訳) 画像の彩色に関する研究は、様々な機械学習技術や計算能力の大幅な進歩に助けられ、研究者の注意を惹きつけてきた。 伝統的に、彩色画像は、彩色情報の割り当て中にかなりの自由度を与える複雑な作業であった。 提案手法では,インセプション-v3融合をジェネレータに埋め込んだViT-I-GAN(ViT-I-GAN)を用いて画像のカラー化を試みる。 安定でロバストなネットワークでは,視覚トランスフォーマー(vit)を識別器として用いた。 Inception-v3埋め込みによる改善を示すために、UnsplashとCOCOデータセットでモデルをトレーニングしました。 Inception-v3 埋込量と ViT-GAN の比較を行った。

Studies involving colourising images has been garnering researchers' keen attention over time, assisted by significant advances in various Machine Learning techniques and compute power availability. Traditionally, colourising images have been an intricate task that gave a substantial degree of freedom during the assignment of chromatic information. In our proposed method, we attempt to colourise images using Vision Transformer - Inception - Generative Adversarial Network (ViT-I-GAN), which has an Inception-v3 fusion embedding in the generator. For a stable and robust network, we have used Vision Transformer (ViT) as the discriminator. We trained the model on the Unsplash and the COCO dataset for demonstrating the improvement made by the Inception-v3 embedding. We have compared the results between ViT-GANs with and without Inception-v3 embedding.
翻訳日:2021-06-14 14:27:14 公開日:2021-06-11
# スケール不変なスケールチャネルネットワーク:以前は目に見えないスケールに一般化するディープネットワーク

Scale-invariant scale-channel networks: Deep networks that generalise to previously unseen scales ( http://arxiv.org/abs/2106.06418v1 )

ライセンス: Link先を確認
Ylva Jansson and Tony Lindeberg(参考訳) 大規模なバリエーションを扱う能力は多くの現実世界の視覚的タスクにとって不可欠である。 ディープネットワークにおけるスケールを扱うための簡単なアプローチは、一連のスケールチャネルで複数のスケールで画像を同時に処理することだ。 スケール不変性は、原則として、スケールチャネル間の重量共有と、スケールチャネルからの出力を最大または平均的にプールすることで達成できる。 このようなスケールチャネルネットワークが、重要なスケール範囲のトレーニングセットに存在しないスケールに一般化する能力は、これまで検討されていなかった。 本稿では,異なる種類のスケールチャネルネットワークを実装し,これまで見られなかったスケールに一般化する能力を評価することで,この手法の体系的研究を行う。 我々は,スケールチャネルネットワークの共分散と不変性を分析するための形式的手法を開発し,スケールチャネルネットワーク全体の性能に異なる設計選択がどう影響するかを検討する。 まず,前述した2つのスケールチャネルネットワーク設計が,トレーニングセットに存在しないスケールに対して十分に一般化していないことを示す。 理論的に説明し,これらのケースにおいて一般化が失敗した理由を実験的に示す。 そこで我々は,画像のより大きな部分を分解能を低下させて処理する,新しいタイプのスケールチャネルアーキテクチャを提案する。 この新しいタイプのスケールチャネルネットワークは、非常によく一般化され、十分な解像度と境界効果がないことが示されている。 提案するFovMaxとFovAvgのネットワークは,1スケールのトレーニングデータを用いたトレーニングにおいても,ほぼ同一のスケール範囲で動作し,小さなサンプル状態の大規模なデータセットから学習する際の性能も向上する。

The ability to handle large scale variations is crucial for many real world visual tasks. A straightforward approach for handling scale in a deep network is to process an image at several scales simultaneously in a set of scale channels. Scale invariance can then, in principle, be achieved by using weight sharing between the scale channels together with max or average pooling over the outputs from the scale channels. The ability of such scale channel networks to generalise to scales not present in the training set over significant scale ranges has, however, not previously been explored. In this paper, we present a systematic study of this methodology by implementing different types of scale channel networks and evaluating their ability to generalise to previously unseen scales. We develop a formalism for analysing the covariance and invariance properties of scale channel networks, and explore how different design choices, unique to scaling transformations, affect the overall performance of scale channel networks. We first show that two previously proposed scale channel network designs do not generalise well to scales not present in the training set. We explain theoretically and demonstrate experimentally why generalisation fails in these cases. We then propose a new type of foveated scale channel architecture}, where the scale channels process increasingly larger parts of the image with decreasing resolution. This new type of scale channel network is shown to generalise extremely well, provided sufficient image resolution and the absence of boundary effects. Our proposed FovMax and FovAvg networks perform almost identically over a scale range of 8, also when training on single scale training data, and do also give improved performance when learning from datasets with large scale variations in the small sample regime.
翻訳日:2021-06-14 14:26:58 公開日:2021-06-11
# Few-Shot 3D再構成のための合成形状の事前学習

Learning Compositional Shape Priors for Few-Shot 3D Reconstruction ( http://arxiv.org/abs/2106.06440v1 )

ライセンス: Link先を確認
Mateusz Michalkiewicz, Stavros Tsogkas, Sarah Parisot, Mahsa Baktashmotlagh, Anders Eriksson, Eugene Belilovsky(参考訳) シングルビュー3次元再構成における深部畳み込みニューラルネットワークの性能は、これらのモデルが出力空間の3次元構造に関する非自明な推論を行うことを示している。 近年の研究では、標準ベンチマークにおいて、複雑なエンコーダ-デコーダアーキテクチャは、最も近いベースラインや、カテゴリ単位の大量のデータを利用する単純な線形デコーダモデルと同様に振る舞うことが示されている。 しかし、教師付きトレーニングのための大規模な3次元形状の収集は、面倒なプロセスである。より現実的で制約の少ないタスクは、利用可能なトレーニング例がほとんどないカテゴリの3次元形状を推論し、新しいオブジェクトクラスにうまく一般化できるモデルを要求する。 本研究では,ネットワークが新たなカテゴリの推論に先立って情報型を学習しなければならない,このマイナショット学習環境において,ナイーブなベースラインが失敗することを実験的に実証する。 データから直接クラス固有のグローバルな形状を学習する3つの方法を提案する。 これらの手法を用いることで,3次元形状に関するマルチスケール情報をキャプチャし,暗黙的な構成構造によりクラス内変動を考慮できる。 一般的なShapeNetデータセットの実験では,本手法がゼロショットベースラインを40%以上上回り,現在の最先端を10%以上上回っている。

The impressive performance of deep convolutional neural networks in single-view 3D reconstruction suggests that these models perform non-trivial reasoning about the 3D structure of the output space. Recent work has challenged this belief, showing that, on standard benchmarks, complex encoder-decoder architectures perform similarly to nearest-neighbor baselines or simple linear decoder models that exploit large amounts of per-category data. However, building large collections of 3D shapes for supervised training is a laborious process; a more realistic and less constraining task is inferring 3D shapes for categories with few available training examples, calling for a model that can successfully generalize to novel object classes. In this work we experimentally demonstrate that naive baselines fail in this few-shot learning setting, in which the network must learn informative shape priors for inference of new categories. We propose three ways to learn a class-specific global shape prior, directly from data. Using these techniques, we are able to capture multi-scale information about the 3D shape, and account for intra-class variability by virtue of an implicit compositional structure. Experiments on the popular ShapeNet dataset show that our method outperforms a zero-shot baseline by over 40%, and the current state-of-the-art by over 10%, in terms of relative performance, in the few-shot setting.12
翻訳日:2021-06-14 14:26:33 公開日:2021-06-11
# k-shot nas:k-shot supernetsによるnasの学習可能なウェイトシェアリング

K-shot NAS: Learnable Weight-Sharing for NAS with K-shot Supernets ( http://arxiv.org/abs/2106.06442v1 )

ライセンス: Link先を確認
Xiu Su, Shan You, Mingkai Zheng, Fei Wang, Chen Qian, Changshui Zhang, Chang Xu(参考訳) NASの1ショットの重み共有では、各操作(各層における)の重みは、スーパーネット内のすべてのアーキテクチャ(パス)と同一である。 しかし、これは異なる経路に対応するために操作重みを調整する可能性を排除し、評価結果の信頼性を制限している。 本稿では,1つのスーパーネットを数える代わりに,k$-shotスーパーネットを導入し,各操作の重みを辞書として取り上げる。 各パスの操作重みは、辞書内の項目とsimplexコードとの凸結合として表現される。 これにより、より高いランク(K>1$)のスタンドアローン重み行列の行列近似が可能になる。 各パスに対してアーキテクチャカスタマイズされたコードを生成するために、 \textit{simplex-net}が導入される。 その結果、全ての経路は、$K$-shotスーパーネットで重みを共有する方法を適応的に学習し、それに対応する重みを取得することでより良い評価を行うことができる。 k$-shotスーパーネットとsimplex-netは反復的に訓練することができ、さらに探索をチャンネル次元にまで拡張する。 ベンチマークデータセットの大規模な実験により、KショットNASはパスの評価精度を大幅に改善し、性能が著しく向上することが示された。

In one-shot weight sharing for NAS, the weights of each operation (at each layer) are supposed to be identical for all architectures (paths) in the supernet. However, this rules out the possibility of adjusting operation weights to cater for different paths, which limits the reliability of the evaluation results. In this paper, instead of counting on a single supernet, we introduce $K$-shot supernets and take their weights for each operation as a dictionary. The operation weight for each path is represented as a convex combination of items in a dictionary with a simplex code. This enables a matrix approximation of the stand-alone weight matrix with a higher rank ($K>1$). A \textit{simplex-net} is introduced to produce architecture-customized code for each path. As a result, all paths can adaptively learn how to share weights in the $K$-shot supernets and acquire corresponding weights for better evaluation. $K$-shot supernets and simplex-net can be iteratively trained, and we further extend the search to the channel dimension. Extensive experiments on benchmark datasets validate that K-shot NAS significantly improves the evaluation accuracy of paths and thus brings in impressive performance improvements.
翻訳日:2021-06-14 14:26:08 公開日:2021-06-11
# 手動組立シナリオにおける近時間エゴセントリック知覚のための小物体検出

Small Object Detection for Near Real-Time Egocentric Perception in a Manual Assembly Scenario ( http://arxiv.org/abs/2106.06403v1 )

ライセンス: Link先を確認
Hooman Tavakoli, Snehal Walunj, Parsha Pahlevannejad, Christiane Plociennik, and Martin Ruskowski(参考訳) ヘッドウーンの拡張現実デバイスのビデオストリーム中の小さなオブジェクトをほぼリアルタイムで検出することは、大きな課題だ。訓練データは通常不足しており、入力されたビデオストリームは限られた品質であり、小さなオブジェクトは検出するのが非常に難しい。 しかし、工業的シナリオでは、小さな物体の検出に文脈知識を活用することがしばしば可能である。 さらに、オブジェクトのCADデータは一般的に利用可能であり、合成トレーニングデータを生成するために使用できる。 筆者らは,cadデータと現実の背景に基づくトレーニングデータセットを生成できるという手動組立シナリオにおいて,エゴセントリックな知覚のための,ほぼリアルタイムの小型物体検出パイプラインについて述べる。 次に、2段階検出プロセスのためにYOLOv4モデルをトレーニングする。 拡張現実デバイスであるMicrosoft Hololens 2.0のパイプラインを評価した。

Detecting small objects in video streams of head-worn augmented reality devices in near real-time is a huge challenge: training data is typically scarce, the input video stream can be of limited quality, and small objects are notoriously hard to detect. In industrial scenarios, however, it is often possible to leverage contextual knowledge for the detection of small objects. Furthermore, CAD data of objects are typically available and can be used to generate synthetic training data. We describe a near real-time small object detection pipeline for egocentric perception in a manual assembly scenario: We generate a training data set based on CAD data and realistic backgrounds in Unity. We then train a YOLOv4 model for a two-stage detection process: First, the context is recognized, then the small object of interest is detected. We evaluate our pipeline on the augmented reality device Microsoft Hololens 2.
翻訳日:2021-06-14 14:25:50 公開日:2021-06-11
# NAAQA: 音響質問応答のためのニューラルネットワーク

NAAQA: A Neural Architecture for Acoustic Question Answering ( http://arxiv.org/abs/2106.06147v1 )

ライセンス: Link先を確認
Jerome Abdelnour, Jean Rouat, Giampiero Salvi(参考訳) aqa(a acoustic question answering)タスクの目標は、音響シーンの内容に関する自由形式のテキスト質問に答えることである。 VQA(Visual Question Answering)タスクにインスパイアされたものだ。 本稿では,従来導入されていたCLEARデータセットに基づいて,音響入力の特定の課題を強調するAQAの新しいベンチマークを提案する。 一定期間のシーン。 また、音響入力の特定の特性を活用するニューラルネットワークであるNAAQAを紹介する。 時間と周波数の1次元畳み込みを用いた音響コンテンツの2次元分光時間表現は、有望な結果を示し、モデルの複雑さの低減を可能にする。 NAAQAは従来のVQAモデルの約7倍のパラメータでAQAタスクの精度の91.6%を達成する。 本報告では,異なる質問タイプに対する結果の詳細な分析を行う。 この音響的文脈における座標マップの有効性についても検討し、時間座標マップは時間的局所化能力を高め、ネットワークの性能を約17ポイント向上させることを示した。

The goal of the Acoustic Question Answering (AQA) task is to answer a free-form text question about the content of an acoustic scene. It was inspired by the Visual Question Answering (VQA) task. In this paper, based on the previously introduced CLEAR dataset, we propose a new benchmark for AQA that emphasizes the specific challenges of acoustic inputs, e.g. variable duration scenes. We also introduce NAAQA, a neural architecture that leverages specific properties of acoustic inputs. The usage of time and frequency 1D convolutions to process 2D spectro-temporal representations of acoustic content shows promising results and enables reductions in model complexity. NAAQA achieves 91.6% of accuracy on the AQA task with about 7 times fewer parameters than the previously explored VQA model. We provide a detailed analysis of the results for the different question types. The effectiveness of coordinate maps in this acoustic context was also studied and we show that time coordinate maps augment temporal localization capabilities which enhance performance of the network by about 17 percentage points.
翻訳日:2021-06-14 14:25:37 公開日:2021-06-11
# マルチタスク学習を用いたNested and Balanced Entity Recognition

Nested and Balanced Entity Recognition using Multi-Task Learning ( http://arxiv.org/abs/2106.06216v1 )

ライセンス: Link先を確認
Andreas Waldis and Luca Mazzola(参考訳) テキスト内のエンティティ認識(ER)は自然言語処理の基本的な課題であり、知識抽出、テキスト要約、キーワード抽出といったタスクに依存することができる。 エンティティは単一の単語または連続した単語の列で構成され、通信の基本構成要素を構成する。 メインストリームERアプローチは主に平坦な構造に限られており、内部を無視しながら最外側のエンティティに集中している。 本稿では,重ね合わせとネスト化の複雑さを扱う部分層ネットワークアーキテクチャを提案する。 提案するアーキテクチャは,(1)共有シーケンス層と(2)複数のタグ付け層を持つスタックコンポーネントの2つの部分からなる。 このようなアーキテクチャの採用は、特定の単語長に対する過度な適合を防止し、低い周波数にもかかわらず長いエンティティのパフォーマンスを維持するという利点がある。 提案アーキテクチャの有効性を検証するため,概念(CR)と名前付きエンティティ(NER)の2種類の実体を認識するために,このアーキテクチャを訓練し,評価する。 提案手法は最先端のNER性能を実現し,従来のCR手法よりも優れていた。 これらの有望な結果を考えると、イベントの抽出や議論的なコンポーネントの検出など、他のケースでアーキテクチャを進化させる可能性を見出します。

Entity Recognition (ER) within a text is a fundamental exercise in Natural Language Processing, enabling further depending tasks such as Knowledge Extraction, Text Summarisation, or Keyphrase Extraction. An entity consists of single words or of a consecutive sequence of terms, constituting the basic building blocks for communication. Mainstream ER approaches are mainly limited to flat structures, concentrating on the outermost entities while ignoring the inner ones. This paper introduces a partly-layered network architecture that deals with the complexity of overlapping and nested cases. The proposed architecture consists of two parts: (1) a shared Sequence Layer and (2) a stacked component with multiple Tagging Layers. The adoption of such an architecture has the advantage of preventing overfit to a specific word-length, thus maintaining performance for longer entities despite their lower frequency. To verify the proposed architecture's effectiveness, we train and evaluate this architecture to recognise two kinds of entities - Concepts (CR) and Named Entities (NER). Our approach achieves state-of-the-art NER performances, while it outperforms previous CR approaches. Considering these promising results, we see the possibility to evolve the architecture for other cases such as the extraction of events or the detection of argumentative components.
翻訳日:2021-06-14 14:25:22 公開日:2021-06-11
# GDI: 強化学習と教師付き学習との違いを再考する

GDI: Rethinking What Makes Reinforcement Learning Different From Supervised Learning ( http://arxiv.org/abs/2106.06232v1 )

ライセンス: Link先を確認
Jiajun Fan, Changnan Xiao, Yue Huang(参考訳) 深部Qネットワーク(DQN)は, 深部学習(DL)と強化学習(RL)を組み合わせることで, 深部強化学習(DRL)の扉を蹴り上げた。 DQNは、この特性がトレーニングの不安定性を引き起こす可能性があると判断し、プロパティの欠点を扱う効果的な方法を提案した。 予測されたデータ分布と地上の真理データ分布とのギャップを緩和すると同時に,教師あり学習(SL)の失敗を解消することが,RLにとって極めて重要である。 この新たな視点から、一般化政策イテレーション(GPI)と呼ばれるRLの基本パラダイムをより一般化されたバージョンに拡張し、これを一般化データ分散イテレーション(GDI)と呼ぶ。 我々は,大規模RLアルゴリズムと手法をGDIパラダイムに統合し,GDIの特殊な事例の一つとみなすことができると考えている。 GDI が GPI よりも優れている理由と動作方法の理論的証明を提供する。 GDIに基づくいくつかの実用的なアルゴリズムが提案され、その有効性と拡張性を検証する。 実験により、アーケード学習環境(ALE)におけるSOTA(State-of-the-art)のパフォーマンスが実証され、このアルゴリズムは9620.98%の平均正規化スコア(HNS)、1146.39%の中央値HNS、22の人的世界記録ブレークスルー(HWRB)をわずか200フレームで達成した。 我々の研究は、RL研究を先導し、人間の世界記録を征服し、パフォーマンスと効率の両面で真のスーパーヒューマンエージェントを追求することを目的としています。

Deep Q Network (DQN) firstly kicked the door of deep reinforcement learning (DRL) via combining deep learning (DL) with reinforcement learning (RL), which has noticed that the distribution of the acquired data would change during the training process. DQN found this property might cause instability for training, so it proposed effective methods to handle the downside of the property. Instead of focusing on the unfavourable aspects, we find it critical for RL to ease the gap between the estimated data distribution and the ground truth data distribution while supervised learning (SL) fails to do so. From this new perspective, we extend the basic paradigm of RL called the Generalized Policy Iteration (GPI) into a more generalized version, which is called the Generalized Data Distribution Iteration (GDI). We see massive RL algorithms and techniques can be unified into the GDI paradigm, which can be considered as one of the special cases of GDI. We provide theoretical proof of why GDI is better than GPI and how it works. Several practical algorithms based on GDI have been proposed to verify the effectiveness and extensiveness of it. Empirical experiments prove our state-of-the-art (SOTA) performance on Arcade Learning Environment (ALE), wherein our algorithm has achieved 9620.98% mean human normalized score (HNS), 1146.39% median HNS and 22 human world record breakthroughs (HWRB) using only 200 training frames. Our work aims to lead the RL research to step into the journey of conquering the human world records and seek real superhuman agents on both performance and efficiency.
翻訳日:2021-06-14 14:25:01 公開日:2021-06-11
# 教師なし逆問題に対する未ロールアルゴリズムによる辞書と事前学習

Dictionary and prior learning with unrolled algorithms for unsupervised inverse problems ( http://arxiv.org/abs/2106.06338v1 )

ライセンス: Link先を確認
Beno\^it Mal\'ezieux, Thomas Moreau, Matthieu Kowalski(参考訳) 逆問題は、ノイズの多い観測結果の回復である。 古典的な解決アプローチの一つは、スパーシティを活用し、信号の事前知識を再構成アルゴリズムに統合し、妥当な解を得ることである。 しかし、この前はデータに十分に適合していないかもしれない。 本研究では,二段階問題として,劣化測定から辞書と事前学習を学習し,未熟なアルゴリズムを活用し,合成と解析の近似定式化を解く。 辞書学習における自動微分の実証的・理論的解析を行い,この文脈における展開の長所と短所をよりよく理解する。 その結果, 勾配推定を改善することで, 少数の繰り返しの回復過程を高速化するアルゴリズムが得られた。 そこで,解析と合成を,いくつかの辞書や先行クラスの真理データにアクセスすることなく,逆問題に対するアンロールアルゴリズムの性能を評価することによって比較する。 分析は良い結果を得るが、合成はより堅牢であり、パフォーマンスが良い。 最後に,劣化測定によるパターン学習と構造学習の手法について述べる。

Inverse problems consist in recovering a signal given noisy observations. One classical resolution approach is to leverage sparsity and integrate prior knowledge of the signal to the reconstruction algorithm to get a plausible solution. Still, this prior might not be sufficiently adapted to the data. In this work, we study Dictionary and Prior learning from degraded measurements as a bi-level problem, and we take advantage of unrolled algorithms to solve approximate formulations of Synthesis and Analysis. We provide an empirical and theoretical analysis of automatic differentiation for Dictionary Learning to understand better the pros and cons of unrolling in this context. We find that unrolled algorithms speed up the recovery process for a small number of iterations by improving the gradient estimation. Then we compare Analysis and Synthesis by evaluating the performance of unrolled algorithms for inverse problems, without access to any ground truth data for several classes of dictionaries and priors. While Analysis can achieve good results,Synthesis is more robust and performs better. Finally, we illustrate our method on pattern and structure learning tasks from degraded measurements.
翻訳日:2021-06-14 14:24:02 公開日:2021-06-11
# PriorGrad: データ駆動適応型事前処理による条件付き拡散モデルの改善

PriorGrad: Improving Conditional Denoising Diffusion Models with Data-Driven Adaptive Prior ( http://arxiv.org/abs/2106.06406v1 )

ライセンス: Link先を確認
Sang-gil Lee, Heeseung Kim, Chaehun Shin, Xu Tan, Chang Liu, Qi Meng, Tao Qin, Wei Chen, Sungroh Yoon, Tie-Yan Liu(参考訳) 近年,データ密度の勾配を推定して高品質なサンプルを生成するための拡散確率モデルが提案されている。 このフレームワークは、先行ノイズを標準ガウス分布と仮定するが、対応するデータ分布は標準ガウス分布よりも複雑であり、データと前との相違により、先行ノイズをデータサンプルに分解する非効率性をもたらす可能性がある。 本稿では,条件情報に基づくデータ統計から導出される適応前処理を適用することにより,条件拡散モデル(例えばメルスペクトログラムを条件とするボコーダ)の効率を向上させる優先順位付けを提案する。 事前段階の訓練・サンプリング手順を定式化し,理論解析により適応型事前手法の利点を実証する。 音声領域に着目し,スペクトル領域と時間領域の両方に基づく最近提案された拡散に基づく音声生成モデルについて考察し,データとパラメータの効率と品質の向上につながるより高速な収束を実現し,データ駆動適応型プリミティブの効率を実証する。

Denoising diffusion probabilistic models have been recently proposed to generate high-quality samples by estimating the gradient of the data density. The framework assumes the prior noise as a standard Gaussian distribution, whereas the corresponding data distribution may be more complicated than the standard Gaussian distribution, which potentially introduces inefficiency in denoising the prior noise into the data sample because of the discrepancy between the data and the prior. In this paper, we propose PriorGrad to improve the efficiency of the conditional diffusion model (for example, a vocoder using a mel-spectrogram as the condition) by applying an adaptive prior derived from the data statistics based on the conditional information. We formulate the training and sampling procedures of PriorGrad and demonstrate the advantages of an adaptive prior through a theoretical analysis. Focusing on the audio domain, we consider the recently proposed diffusion-based audio generative models based on both the spectral and time domains and show that PriorGrad achieves a faster convergence leading to data and parameter efficiency and improved quality, and thereby demonstrating the efficiency of a data-driven adaptive prior.
翻訳日:2021-06-14 14:23:46 公開日:2021-06-11
# 連続型育種ギブズサンプリング

Continuous Herded Gibbs Sampling ( http://arxiv.org/abs/2106.06430v1 )

ライセンス: Link先を確認
Laura M. Wolf and Marcus Baum(参考訳) herdingは確率分布から決定論的サンプルを順次生成する手法である。 本研究では, 連続密度のカーネルハーディングとギブスサンプリングを組み合わせた連続型群集化ギブスサンプリング器を提案する。 本アルゴリズムは, 接合密度から直接サンプリングすることなく, 高次元多変量確率密度から決定的にサンプリングすることができる。 ガウス混合密度を用いた実験では、L2の誤差はカーネルのハーディングと同様に減少し、計算時間は著しく小さく、すなわち次元数で線形であることが示されている。

Herding is a technique to sequentially generate deterministic samples from a probability distribution. In this work, we propose a continuous herded Gibbs sampler, that combines kernel herding on continuous densities with Gibbs sampling. Our algorithm allows for deterministically sampling from high-dimensional multivariate probability densities, without directly sampling from the joint density. Experiments with Gaussian mixture densities indicate that the L2 error decreases similarly to kernel herding, while the computation time is significantly lower, i.e., linear in the number of dimensions.
翻訳日:2021-06-14 14:23:27 公開日:2021-06-11
# 自然周波数最大化のための多層構造を有するセル複合材料のデータ駆動型マルチスケール設計

Data-Driven Multiscale Design of Cellular Composites with Multiclass Microstructures for Natural Frequency Maximization ( http://arxiv.org/abs/2106.06478v1 )

ライセンス: Link先を確認
Liwei Wang, Anton van Beek, Daicong Da, Yu-Chin Chan, Ping Zhu, Wei Chen(参考訳) 工学構造の自然な周波数最適化のために、セル複合材料は固体上のエッジを持つことが示されている。 しかし、既存の細胞複合材料のマルチスケール設計手法は計算的に徹底的であるか、単一の構造に制限されている。 本稿では,種々の構造クラスを選択できるマルチスケール設計を実現するためのデータ駆動トポロジー最適化(to)手法を提案する。 鍵となる構成要素は、新しい潜在変数ガウス過程 (LVGP) モデルであり、そこでは様々なマイクロ構造のクラスを低次元連続ラテント空間にマッピングする。 クラス間の解釈可能な距離計量を提供し、同質化剛性テンソルに対するそれらの効果を捉える。 設計変数として潜在ベクトルを導入することにより、クラス間の剛性行列の微分可能遷移は解析的勾配で容易に達成できる。 LVGPを密度ベースTOと統合した後、効率的なデータ駆動型細胞複合最適化プロセスを開発し、自然周波数最適化のための微細構造概念と関連する体積分画の同時探索を可能にした。 例えば、多層構造を持つセル設計は、シングルスケールとシングルクラス設計の両方よりも高い自然周波数が得られる。 このフレームワークは、熱コンプライアンスや動的応答最適化など、他のマルチスケールTO問題にも容易に拡張できる。

For natural frequency optimization of engineering structures, cellular composites have been shown to possess an edge over solid. However, existing multiscale design methods for cellular composites are either computationally exhaustive or confined to a single class of microstructures. In this paper, we propose a data-driven topology optimization (TO) approach to enable the multiscale design of cellular structures with various choices of microstructure classes. The key component is a newly proposed latent-variable Gaussian process (LVGP) model through which different classes of microstructures are mapped into a low-dimensional continuous latent space. It provides an interpretable distance metric between classes and captures their effects on the homogenized stiffness tensors. By introducing latent vectors as design variables, a differentiable transition of stiffness matrix between classes can be easily achieved with an analytical gradient. After integrating LVGP with the density-based TO, an efficient data-driven cellular composite optimization process is developed to enable concurrent exploration of microstructure concepts and the associated volume fractions for natural frequency optimization. Examples reveal that the proposed cellular designs with multiclass microstructures achieve higher natural frequencies than both single-scale and single-class designs. This framework can be easily extended to other multi-scale TO problems, such as thermal compliance and dynamic response optimization.
翻訳日:2021-06-14 14:23:18 公開日:2021-06-11
# 逆問題に対する最適正則化器の学習

Learning the optimal regularizer for inverse problems ( http://arxiv.org/abs/2106.06513v1 )

ライセンス: Link先を確認
Giovanni S. Alberti, Ernesto De Vito, Matti Lassas, Luca Ratti, Matteo Santacesaria(参考訳) この場合、線型逆問題 $y=Ax+\epsilon$ を考えると、$A\colon X\to Y$ は分離可能なヒルベルト空間 $X$ と $Y$ の間の既知の線型作用素であり、$x$ は$X$ のランダム変数であり、$\epsilon$ は$Y$ のゼロ平均ランダムプロセスである。 この設定は、デノイング、デブロアリング、X線トモグラフィなどの画像の逆問題を含む。 正規化の古典的な枠組みでは、正規化汎関数が前もって与えられず、データから学習される場合に焦点を当てる。 最初の結果は、平均二乗誤差に関して最適一般化されたチホノフ正則化器の特性である。 前方演算子 $a$ とは完全に独立であり、x$ の平均と共分散のみに依存する。 そこで,本研究では,x$とy$の両方のサンプルをベースとした教師なしと,x$のサンプルのみに基づく教師なしという,2つの異なるフレームワークの有限トレーニングセットから正規化子を学習する問題を考察する。 どちらの場合も、x$ と $\epsilon$ の分布に関する弱い仮定の下で、部分ガウス変数の場合を含む一般化境界を証明する。 我々の境界は無限次元空間に保たれ、より細かい離散化は学習問題を難しくしないことを示す。 結果は数値シミュレーションによって検証される。

In this work, we consider the linear inverse problem $y=Ax+\epsilon$, where $A\colon X\to Y$ is a known linear operator between the separable Hilbert spaces $X$ and $Y$, $x$ is a random variable in $X$ and $\epsilon$ is a zero-mean random process in $Y$. This setting covers several inverse problems in imaging including denoising, deblurring, and X-ray tomography. Within the classical framework of regularization, we focus on the case where the regularization functional is not given a priori but learned from data. Our first result is a characterization of the optimal generalized Tikhonov regularizer, with respect to the mean squared error. We find that it is completely independent of the forward operator $A$ and depends only on the mean and covariance of $x$. Then, we consider the problem of learning the regularizer from a finite training set in two different frameworks: one supervised, based on samples of both $x$ and $y$, and one unsupervised, based only on samples of $x$. In both cases, we prove generalization bounds, under some weak assumptions on the distribution of $x$ and $\epsilon$, including the case of sub-Gaussian variables. Our bounds hold in infinite-dimensional spaces, thereby showing that finer and finer discretizations do not make this learning problem harder. The results are validated through numerical simulations.
翻訳日:2021-06-14 14:22:59 公開日:2021-06-11
# PyGAD: 直感的な遺伝的アルゴリズムPythonライブラリ

PyGAD: An Intuitive Genetic Algorithm Python Library ( http://arxiv.org/abs/2106.06158v1 )

ライセンス: Link先を確認
Ahmed Fawzy Gad(参考訳) 本稿では、遺伝的アルゴリズムを構築するためのオープンソースのpythonライブラリpygadを紹介する。 PyGADは幅広いパラメータをサポートし、ライフサイクルのすべてをユーザがコントロールできるようにします。 これは、個体数、遺伝子値の範囲、遺伝子データ型、親選択、交叉、突然変異を含むが、制限されていない。 PyGADは、ユーザーがフィットネス機能をカスタマイズできる汎用最適化ライブラリとして設計されている。 その用途は、フィットネス機能の構築、pygad.gaクラスのインスタンスの作成、pygad.ga.run()メソッド呼び出しの3つの主要なステップから成り立っている。 このライブラリは、PyGAD自身またはKerasやPyTorchといったフレームワークで作成されたディープラーニングモデルのトレーニングをサポートする。 PyGADは安定した状態にあるため、ユーザの要求する機能やGitHub https://github.com/ahmedfgad/GeneticAlgorithmPythonで受け取った機能拡張に対応するために、活発に開発されている。 PyGADにはドキュメント https://pygad.readthedocs.io が付属している。

This paper introduces PyGAD, an open-source easy-to-use Python library for building the genetic algorithm. PyGAD supports a wide range of parameters to give the user control over everything in its life cycle. This includes, but is not limited to, population, gene value range, gene data type, parent selection, crossover, and mutation. PyGAD is designed as a general-purpose optimization library that allows the user to customize the fitness function. Its usage consists of 3 main steps: build the fitness function, create an instance of the pygad.GA class, and calling the pygad.GA.run() method. The library supports training deep learning models created either with PyGAD itself or with frameworks like Keras and PyTorch. Given its stable state, PyGAD is also in active development to respond to the user's requested features and enhancement received on GitHub https://github.com/ahmedfgad/GeneticAlgorithmPython. PyGAD comes with documentation https://pygad.readthedocs.io for further details and examples.
翻訳日:2021-06-14 14:22:08 公開日:2021-06-11
# KRADA: オープンワールドセマンティックセグメンテーションのためのノウンリージョン対応ドメインアライメント

KRADA: Known-region-aware Domain Alignment for Open World Semantic Segmentation ( http://arxiv.org/abs/2106.06237v1 )

ライセンス: Link先を確認
Chenhong Zhou, Feng Liu, Chen Gong, Tongliang Liu, Bo Han, William Cheung(参考訳) 意味セグメンテーションでは,画像内のすべての画素にカテゴリラベルを割り当てるようにピクセルレベル分類器を訓練し,ラベル付きトレーニング画像とラベルなしテスト画像は同じ分布から取得し,同じラベルセットを共有する。 しかし、オープン世界では、ラベルのないテスト画像は、おそらく未知のカテゴリを含み、ラベル付き画像とは異なる分布を持つ。 そこで,本稿では,ラベル付きイメージと未ラベルのオープンワールドイメージでピクセルレベルの分類器をトレーニングしなければならない,新たな,より現実的な,より困難な問題設定について検討する。 OSSでは、訓練された分類器が未知のクラスピクセルを特定し、既知のクラスピクセルを適切に分類することが期待されている。 OSS を解決するために,未知のクラス画素がどの分布に従うかを調べる。 そこで, 画像中の未知領域を形成するために, 画素が未知のクラスの分布にどのように適合するかを統計的に測定し, 高度に適合した画素を選択した。 最終的に、未知のクラスを識別し、ラベル付きおよびラベルなしのオープンワールド画像中の既知のクラスの分布を整列する、エンドツーエンドの学習フレームワークKRADAを提案する。 KRADAの有効性は、2つの合成タスクと1つのCOVID-19セグメンテーションタスクで検証されている。

In semantic segmentation, we aim to train a pixel-level classifier to assign category labels to all pixels in an image, where labeled training images and unlabeled test images are from the same distribution and share the same label set. However, in an open world, the unlabeled test images probably contain unknown categories and have different distributions from the labeled images. Hence, in this paper, we consider a new, more realistic, and more challenging problem setting where the pixel-level classifier has to be trained with labeled images and unlabeled open-world images -- we name it open world semantic segmentation (OSS). In OSS, the trained classifier is expected to identify unknown-class pixels and classify known-class pixels well. To solve OSS, we first investigate which distribution that unknown-class pixels obey. Then, motivated by the goodness-of-fit test, we use statistical measurements to show how a pixel fits the distribution of an unknown class and select highly-fitted pixels to form the unknown region in each image. Eventually, we propose an end-to-end learning framework, known-region-aware domain alignment (KRADA), to distinguish unknown classes while aligning distributions of known classes in labeled and unlabeled open-world images. The effectiveness of KRADA has been verified on two synthetic tasks and one COVID-19 segmentation task.
翻訳日:2021-06-14 14:21:51 公開日:2021-06-11
# 一般識別型特徴学習とクラス対数ニューラルネットワークを用いた深度学習手法の一般化を支援するフレームワーク

A Framework to Enhance Generalization of Deep Metric Learning methods using General Discriminative Feature Learning and Class Adversarial Neural Networks ( http://arxiv.org/abs/2106.06420v1 )

ライセンス: Link先を確認
Karrar Al-Kaabi, Reza Monsefi, Davood Zabihzadeh(参考訳) メトリック学習アルゴリズムは、意味的に類似したデータ項目を結合し、異なる類似データを遠隔で保持する距離関数を学習することを目的としている。 伝統的なマハラノビス距離学習は線型射影を見つけるのに等価である。 対照的に、データから特徴を自動的に抽出し、入力空間から意味的な埋め込み空間への非線形変換を学習するDeep Metric Learning (DML)法が提案されている。 近年,新しいサンプリング戦略や損失関数を提供することで,学習指標の識別能力を高めるために,多くのDML手法が提案されている。 このアプローチは、トレーニングとテストの両方の例が同じカテゴリのセットから来ている場合、非常に役立ちます。 しかし、画像検索や人物識別といったDMLの多くの応用では効果が低い。 ここでは、DMLは観察されたクラスから一般的な意味概念を学び、未知のカテゴリからのオブジェクトのランク付けや識別に使用するべきである。 学習した表現の一般化能力を無視し、観察されたクラスにより差別的な埋め込みを学ぶことを強調すると、オーバーフィッティング問題につながる可能性がある。 この制限に対処するために,ZSL(Zero-Shot Learning)設定における既存のDML手法の一般化能力を高めるためのフレームワークを提案する。 より一般的な表現を学ぶために、深層ニューラルネットワークにおける中間層の特徴マップを用い、注意機構を通じてその識別力を高めることを提案する。 さらに、dmlタスクにクラス不変機能を求めるためにディープモデルを実行するために、クラス逆ネットワークが利用される。 我々は、zsl設定で広く使われているマシンビジョンデータセットの作業を評価する。

Metric learning algorithms aim to learn a distance function that brings the semantically similar data items together and keeps dissimilar ones at a distance. The traditional Mahalanobis distance learning is equivalent to find a linear projection. In contrast, Deep Metric Learning (DML) methods are proposed that automatically extract features from data and learn a non-linear transformation from input space to a semantically embedding space. Recently, many DML methods are proposed focused to enhance the discrimination power of the learned metric by providing novel sampling strategies or loss functions. This approach is very helpful when both the training and test examples are coming from the same set of categories. However, it is less effective in many applications of DML such as image retrieval and person-reidentification. Here, the DML should learn general semantic concepts from observed classes and employ them to rank or identify objects from unseen categories. Neglecting the generalization ability of the learned representation and just emphasizing to learn a more discriminative embedding on the observed classes may lead to the overfitting problem. To address this limitation, we propose a framework to enhance the generalization power of existing DML methods in a Zero-Shot Learning (ZSL) setting by general yet discriminative representation learning and employing a class adversarial neural network. To learn a more general representation, we propose to employ feature maps of intermediate layers in a deep neural network and enhance their discrimination power through an attention mechanism. Besides, a class adversarial network is utilized to enforce the deep model to seek class invariant features for the DML task. We evaluate our work on widely used machine vision datasets in a ZSL setting.
翻訳日:2021-06-14 14:21:26 公開日:2021-06-11
# メタ適応非線形制御:理論とアルゴリズム

Meta-Adaptive Nonlinear Control: Theory and Algorithms ( http://arxiv.org/abs/2106.06098v1 )

ライセンス: Link先を確認
Guanya Shi, Kamyar Azizzadenesheli, Soon-Jo Chung, Yisong Yue(参考訳) オンラインメタ適応制御(OMAC)と呼ばれる適応非線形制御のためのオンラインマルチタスク学習手法を提案する。 目的は、環境依存のダイナミクスが共有表現でうまく捉えられることを前提に、逆乱や未知の$\textit{environment-dependent}$非線形ダイナミクスの非線形システムを制御することである。 我々のアプローチはロボット制御によって動機付けられており、ロボットシステムは迅速に適応しなければならない新しい環境条件に遭遇する。 オンライン表現学習を制御理論から確立した手法に統合し、制御理論と学習理論の両方の保証をもたらす統一フレームワークに到達させることが重要となる。 我々は,様々な条件下でのアプローチのインスタンス化を行い,マルチタスク適応非線形制御のための最初の非漸近的エンドツーエンド収束保証を実現する。 OMACは深層表現学習と統合することもできる。 実験の結果、OMACは共有表現を学習しない従来の適応制御手法よりも大幅に優れていた。

We present an online multi-task learning approach for adaptive nonlinear control, which we call Online Meta-Adaptive Control (OMAC). The goal is to control a nonlinear system subject to adversarial disturbance and unknown $\textit{environment-dependent}$ nonlinear dynamics, under the assumption that the environment-dependent dynamics can be well captured with some shared representation. Our approach is motivated by robot control, where a robotic system encounters a sequence of new environmental conditions that it must quickly adapt to. A key emphasis is to integrate online representation learning with established methods from control theory, in order to arrive at a unified framework that yields both control-theoretic and learning-theoretic guarantees. We provide instantiations of our approach under varying conditions, leading to the first non-asymptotic end-to-end convergence guarantee for multi-task adaptive nonlinear control. OMAC can also be integrated with deep representation learning. Experiments show that OMAC significantly outperforms conventional adaptive control approaches which do not learn the shared representation.
翻訳日:2021-06-14 14:21:00 公開日:2021-06-11
# ラベルノイズsgdは平坦な大域的最小値を好む

Label Noise SGD Provably Prefers Flat Global Minimizers ( http://arxiv.org/abs/2106.06530v1 )

ライセンス: Link先を確認
Alex Damian, Tengyu Ma, Jason Lee(参考訳) 過度パラメータ化モデルでは、確率勾配降下(SGD)のノイズは最適化軌道を暗黙的に規則化し、どの局所最小SGDが収束するかを決定する。 ノイズラベルによるトレーニングが一般化を改善することを示す実証的研究により,ラベルノイズを伴うSGDの暗黙的な正規化効果について検討した。 ラベルノイズを持つsgd は正規化損失の定常点 $l(\theta) +\lambda r(\theta)$ に収束し、ここで $l(\theta)$ はトレーニング損失、$\lambda$ はステップサイズ、ラベルノイズの強度、バッチサイズに依存する効果的な正規化パラメータであり、$r(\theta)$ は鋭い最小化をペナライズする明示的な正規化子である。 本解析は,ヘシアンの大きな固有値が小さい値よりもペナルティ化される線形スケーリング則を超えて,大きな学習率による追加の正規化効果を明らかにする。 また,一般損失関数付き分類,運動量付きsgd,一般騒音共分散型sgdの拡張を証明し,ブラン等以前の作業を大幅に強化した。 グローバル収束と大きな学習率、およびhaochenらへの貢献。 一般的なモデルです

In overparametrized models, the noise in stochastic gradient descent (SGD) implicitly regularizes the optimization trajectory and determines which local minimum SGD converges to. Motivated by empirical studies that demonstrate that training with noisy labels improves generalization, we study the implicit regularization effect of SGD with label noise. We show that SGD with label noise converges to a stationary point of a regularized loss $L(\theta) +\lambda R(\theta)$, where $L(\theta)$ is the training loss, $\lambda$ is an effective regularization parameter depending on the step size, strength of the label noise, and the batch size, and $R(\theta)$ is an explicit regularizer that penalizes sharp minimizers. Our analysis uncovers an additional regularization effect of large learning rates beyond the linear scaling rule that penalizes large eigenvalues of the Hessian more than small ones. We also prove extensions to classification with general loss functions, SGD with momentum, and SGD with general noise covariance, significantly strengthening the prior work of Blanc et al. to global convergence and large learning rates and of HaoChen et al. to general models.
翻訳日:2021-06-14 14:20:45 公開日:2021-06-11
# ステップワイド回帰によるスパースベイズ学習

Sparse Bayesian Learning via Stepwise Regression ( http://arxiv.org/abs/2106.06095v1 )

ライセンス: Link先を確認
Sebastian Ament and Carla Gomes(参考訳) SBL(Sparse Bayesian Learning)は確率モデルにおける疎性を達成するための強力なフレームワークである。 本稿では,sblの相関マッチング追跡(rmp)と呼ばれる座標アセンシングアルゴリズムを提案し,ノイズ分散パラメータがゼロとなると,rmpが段階的回帰と驚くほどの相関を示すことを示す。 さらに、RMPにも光を当てるステップワイド回帰アルゴリズムの新たな保証を導出する。 前方回帰の保証は, 雑音と直交追従する決定論的, 確率的結果を改善する。 決定された系上での逆回帰の解析は、もし満足すれば結果の最適性を保証する部分集合選択問題に対する最適解の残差に結束する。 我々の知る限り、この境界は多項式時間で計算できる最初のものであり、行列の最小特異値に大きく依存する。 種々の特徴選択アルゴリズムを用いた数値実験を報告する。 特に、RMPとその制限変数は効率的であり、相関した特徴を持つ強い性能を維持している。

Sparse Bayesian Learning (SBL) is a powerful framework for attaining sparsity in probabilistic models. Herein, we propose a coordinate ascent algorithm for SBL termed Relevance Matching Pursuit (RMP) and show that, as its noise variance parameter goes to zero, RMP exhibits a surprising connection to Stepwise Regression. Further, we derive novel guarantees for Stepwise Regression algorithms, which also shed light on RMP. Our guarantees for Forward Regression improve on deterministic and probabilistic results for Orthogonal Matching Pursuit with noise. Our analysis of Backward Regression on determined systems culminates in a bound on the residual of the optimal solution to the subset selection problem that, if satisfied, guarantees the optimality of the result. To our knowledge, this bound is the first that can be computed in polynomial time and depends chiefly on the smallest singular value of the matrix. We report numerical experiments using a variety of feature selection algorithms. Notably, RMP and its limiting variant are both efficient and maintain strong performance with correlated features.
翻訳日:2021-06-14 14:20:17 公開日:2021-06-11
# スパーステンソルPCAの複雑さ

The Complexity of Sparse Tensor PCA ( http://arxiv.org/abs/2106.06308v1 )

ライセンス: Link先を確認
Davin Choo, Tommaso d'Orsi(参考訳) a tensor $\pmb Y = \pmb W + \lambda x^{\otimes p}$ with $\pmb W \in \otimes^p\mathbb{R}^n$ having i.d。 gaussianエントリ 目標は、$k$-sparse 単位ベクトル $x \in \mathbb{r}^n$を回復することである。 このモデルはスパースPCA(ウィグナー形式)とテンソルPCAの両方をキャプチャする。 k \leq \sqrt{n}$ の非常にスパースな状態に対して、単純な多項式時間アルゴリズムと指数時間排他的探索アルゴリズムをスムーズに補間するアルゴリズムの族を示す。 任意の 1 ドルの \leq t \leq k$ に対して、我々のアルゴリズムは信号対雑音比 $\lambda \geq \tilde{\mathcal{o}} (\sqrt{t} \cdot (k/t)^{p/2})$ in time $\tilde{\mathcal{o}}(n^{p+t})$ のスパースベクトルを復元し、行列の設定(多項式時間とサブ指数時間)の保証をキャプチャする。 我々の結果は当然、$r$ distinct $k$-sparse signal with disjoint support, which is independent of the number of spikes。 スパースPCAの制限された場合においても、既知のアルゴリズムは、$\lambda \geq \tilde{\mathcal{O}}(k \cdot r)$に対してのみスパースベクトルを復元するが、我々のアルゴリズムは$\lambda \geq \tilde{\mathcal{O}}(k)$を必要とする。 最後に,低次度比を解析することにより,信号対雑音比と走行時間とのトレードオフを示す厳密な証拠を用いて,これらのアルゴリズム結果を補完する。 この下界は、スパースPCAとテンソルPCAの両方の既知の下界をキャプチャする。 この一般的なモデルでは、サンプル数$n$、スパーシティ$k$、テンソルパワー$p$の間のより複雑な3方向のトレードオフを観察します。

We study the problem of sparse tensor principal component analysis: given a tensor $\pmb Y = \pmb W + \lambda x^{\otimes p}$ with $\pmb W \in \otimes^p\mathbb{R}^n$ having i.i.d. Gaussian entries, the goal is to recover the $k$-sparse unit vector $x \in \mathbb{R}^n$. The model captures both sparse PCA (in its Wigner form) and tensor PCA. For the highly sparse regime of $k \leq \sqrt{n}$, we present a family of algorithms that smoothly interpolates between a simple polynomial-time algorithm and the exponential-time exhaustive search algorithm. For any $1 \leq t \leq k$, our algorithms recovers the sparse vector for signal-to-noise ratio $\lambda \geq \tilde{\mathcal{O}} (\sqrt{t} \cdot (k/t)^{p/2})$ in time $\tilde{\mathcal{O}}(n^{p+t})$, capturing the state-of-the-art guarantees for the matrix settings (in both the polynomial-time and sub-exponential time regimes). Our results naturally extend to the case of $r$ distinct $k$-sparse signals with disjoint supports, with guarantees that are independent of the number of spikes. Even in the restricted case of sparse PCA, known algorithms only recover the sparse vectors for $\lambda \geq \tilde{\mathcal{O}}(k \cdot r)$ while our algorithms require $\lambda \geq \tilde{\mathcal{O}}(k)$. Finally, by analyzing the low-degree likelihood ratio, we complement these algorithmic results with rigorous evidence illustrating the trade-offs between signal-to-noise ratio and running time. This lower bound captures the known lower bounds for both sparse PCA and tensor PCA. In this general model, we observe a more intricate three-way trade-off between the number of samples $n$, the sparsity $k$, and the tensor power $p$.
翻訳日:2021-06-14 14:20:02 公開日:2021-06-11
# 自然言語生成のためのプレトレイン・フィネチューンパラダイムにおけるブリッジングサブワードギャップ

Bridging Subword Gaps in Pretrain-Finetune Paradigm for Natural Language Generation ( http://arxiv.org/abs/2106.06125v1 )

ライセンス: Link先を確認
Xin Liu, Baosong Yang, Dayiheng Liu, Haibo Zhang, Weihua Luo, Min Zhang, Haiying Zhang, Jinsong Su(参考訳) プリトレイン・フィニチューンパラダイムにおけるよく知られた制限は、その柔軟性が1つのサイズに適合する語彙によって引き起こされることである。 これは、自然言語生成(nlg)タスクに事前訓練されたモデルを適用する場合、特に上流タスクと下流タスクの間のサブワード分布が著しく異なる場合、効果を弱める可能性がある。 この問題にアプローチするために,バニラプリトレイン-フィニチューンパイプラインを余分な埋め込み転送ステップで拡張する。 具体的には、任意の入力トークンの表現を生成するためのプラグアンドプレイ埋め込みジェネレータを導入する。 したがって、下流タスクへのミスマッチトークンの埋め込みも効率的に初期化できる。 プレトレイン-ファインチューン方式で様々なNLGタスクを実験する。 実験結果と広範な分析結果から,提案手法は語彙の移動を自由に感じられる機会を与え,より効率よく,より優れた下流NLGモデルを実現することが示唆された。

A well-known limitation in pretrain-finetune paradigm lies in its inflexibility caused by the one-size-fits-all vocabulary. This potentially weakens the effect when applying pretrained models into natural language generation (NLG) tasks, especially for the subword distributions between upstream and downstream tasks with significant discrepancy. Towards approaching this problem, we extend the vanilla pretrain-finetune pipeline with an extra embedding transfer step. Specifically, a plug-and-play embedding generator is introduced to produce the representation of any input token, according to pre-trained embeddings of its morphologically similar ones. Thus, embeddings of mismatch tokens in downstream tasks can also be efficiently initialized. We conduct experiments on a variety of NLG tasks under the pretrain-finetune fashion. Experimental results and extensive analyses show that the proposed strategy offers us opportunities to feel free to transfer the vocabulary, leading to more efficient and better performed downstream NLG models.
翻訳日:2021-06-14 14:18:42 公開日:2021-06-11
# CONDA: ゲーム内毒性の理解と検出のためのコンテキストデュアルアノテーションデータセット

CONDA: a CONtextual Dual-Annotated dataset for in-game toxicity understanding and detection ( http://arxiv.org/abs/2106.06213v1 )

ライセンス: Link先を確認
Henry Weld, Guanghao Huang, Jean Lee, Tongshu Zhang, Kunze Wang, Xinghong Guo, Siqu Long, Josiah Poon, Soyeon Caren Han(参考訳) 従来の毒性検出モデルは、文脈の深い理解なしに単一の発話レベルに焦点を当ててきた。 我々は,自然言語理解(nlu)のコアタスクである統合意図分類とスロット充填解析を可能にする,ゲーム内有毒言語検出のための新しいデータセットcondaを紹介する。 データセットは、dota 2マッチの1万9千のチャットログから1万1千の会話から45kの発話からなる。 本稿では,発話やトークンレベルのパターン,リッチなコンテキストチャット履歴を扱う,堅牢な二重意味レベル毒性フレームワークを提案する。 データセットの添付はゲーム内毒性の分析であり、発話、トークン、二重レベルのコンテキストの包括的な理解を提供する。 また,NLUにインスパイアされたその指標を毒性検出タスクに適用し,毒性とゲーム特有の側面を評価する。 CONDA上での強力なNLUモデルの評価を行い、異なる意図クラスとスロットクラスに対してきめ細かい結果を提供する。 さらに,他の毒性データセットとの比較により,本データセットの毒性特性のカバレッジについて検討した。

Traditional toxicity detection models have focused on the single utterance level without deeper understanding of context. We introduce CONDA, a new dataset for in-game toxic language detection enabling joint intent classification and slot filling analysis, which is the core task of Natural Language Understanding (NLU). The dataset consists of 45K utterances from 12K conversations from the chat logs of 1.9K completed Dota 2 matches. We propose a robust dual semantic-level toxicity framework, which handles utterance and token-level patterns, and rich contextual chatting history. Accompanying the dataset is a thorough in-game toxicity analysis, which provides comprehensive understanding of context at utterance, token, and dual levels. Inspired by NLU, we also apply its metrics to the toxicity detection tasks for assessing toxicity and game-specific aspects. We evaluate strong NLU models on CONDA, providing fine-grained results for different intent classes and slot classes. Furthermore, we examine the coverage of toxicity nature in our dataset by comparing it with other toxicity datasets.
翻訳日:2021-06-14 14:18:26 公開日:2021-06-11
# 実践的NLPリーダーボードの構築に関する考察:機械翻訳の場合

A Discussion on Building Practical NLP Leaderboards: The Case of Machine Translation ( http://arxiv.org/abs/2106.06292v1 )

ライセンス: Link先を確認
Sebastin Santy and Prasanta Bhattacharya(参考訳) AIとMLアプリケーションの最近の進歩は、NLP研究の急速な進歩の恩恵を受けている。 リーダーボードは、競争モデル開発を通じてNLPの進歩を追跡し、加速するための一般的なメカニズムとして現れています。 これは関心と参加を増しているが、単一および正確性に基づくメトリクスへの過度な依存は、現実世界の文脈で考慮すべき重要な指標に焦点を移している。 本稿では,精度指標のみに焦点をあてたリスクに関する予備的な議論を行い,モデルの実世界の実用性をよりよく反映できる,より実用的で効果的なリーダーボードの開発方法について,最近の議論に焦点をあてる。

Recent advances in AI and ML applications have benefited from rapid progress in NLP research. Leaderboards have emerged as a popular mechanism to track and accelerate progress in NLP through competitive model development. While this has increased interest and participation, the over-reliance on single, and accuracy-based metrics have shifted focus from other important metrics that might be equally pertinent to consider in real-world contexts. In this paper, we offer a preliminary discussion of the risks associated with focusing exclusively on accuracy metrics and draw on recent discussions to highlight prescriptive suggestions on how to develop more practical and effective leaderboards that can better reflect the real-world utility of models.
翻訳日:2021-06-14 14:18:11 公開日:2021-06-11
# 自己ラベル単語アライメントによる言語間学習モデルの改善

Improving Pretrained Cross-Lingual Language Models via Self-Labeled Word Alignment ( http://arxiv.org/abs/2106.06381v1 )

ライセンス: Link先を確認
Zewen Chi, Li Dong, Bo Zheng, Shaohan Huang, Xian-Ling Mao, Heyan Huang, Furu Wei(参考訳) 言語横断モデルは通常、多言語テキストやパラレル文のマスキング言語モデリングで事前訓練される。 本稿では,新しい言語間事前学習タスクとして,単語のアライメントについて述べる。 具体的には、並列文に対する最初の自己ラベルの単語アライメントを行う。 その後、ビット組のトークンをランダムにマスクする。 マスクされたトークンが与えられた場合、モデルはポインタネットワークを使用して他の言語で整列したトークンを予測する。 上記2つのステップを期待最大化方式で交互に実行する。 実験の結果,様々なデータセット,特に質問応答や構造化予測といったトークンレベルのタスクにおける言語間転送性が向上した。 さらに、このモデルは事前学習された単語調整器として機能し、アライメントベンチマークで合理的に低いエラー率を達成することができる。 コードとプリトレーニングされたパラメータは、https://github.com/czwin32768/xlm-alignで利用可能である。

The cross-lingual language models are typically pretrained with masked language modeling on multilingual text or parallel sentences. In this paper, we introduce denoising word alignment as a new cross-lingual pre-training task. Specifically, the model first self-labels word alignments for parallel sentences. Then we randomly mask tokens in a bitext pair. Given a masked token, the model uses a pointer network to predict the aligned token in the other language. We alternately perform the above two steps in an expectation-maximization manner. Experimental results show that our method improves cross-lingual transferability on various datasets, especially on the token-level tasks, such as question answering, and structured prediction. Moreover, the model can serve as a pretrained word aligner, which achieves reasonably low error rates on the alignment benchmarks. The code and pretrained parameters are available at https://github.com/CZWin32768/XLM-Align.
翻訳日:2021-06-14 14:17:57 公開日:2021-06-11
# エージェントはどのように地場学習の質問をするべきか? 注釈付き対話コーパス

How Should Agents Ask Questions For Situated Learning? An Annotated Dialogue Corpus ( http://arxiv.org/abs/2106.06504v1 )

ライセンス: Link先を確認
Felix Gervits, Antonio Roque, Gordon Briggs, Matthias Scheutz, Matthew Marge(参考訳) 配置された環境で新しい概念に直面するインテリジェントエージェントは、人間のチームメイトに物理的な世界について学ぶために質問する必要があります。 この問題をより深く理解するには、配置されたタスクベースのインタラクションで質問を行うデータが必要です。 そこで本研究では,協調的なツール編成タスクを行うロボットの役割を人間の参加者が果たすオンラインインタラクティブな仮想環境において収集される,新たな対話コーパスである human-robot dialogue learning (hurdl) コーパスを提案する。 コーパスデータとそれに対応するアノテーションスキームを記述し、人間が現在位置する環境での学習を促進するために求める質問の形式と内容について考察する。 我々は,知的エージェントの質問生成を改善するための実験的な情報源としてコーパスを提供する。

Intelligent agents that are confronted with novel concepts in situated environments will need to ask their human teammates questions to learn about the physical world. To better understand this problem, we need data about asking questions in situated task-based interactions. To this end, we present the Human-Robot Dialogue Learning (HuRDL) Corpus - a novel dialogue corpus collected in an online interactive virtual environment in which human participants play the role of a robot performing a collaborative tool-organization task. We describe the corpus data and a corresponding annotation scheme to offer insight into the form and content of questions that humans ask to facilitate learning in a situated environment. We provide the corpus as an empirically-grounded resource for improving question generation in situated intelligent agents.
翻訳日:2021-06-14 14:17:46 公開日:2021-06-11
# 非教師対象再識別のためのクラスタリングコンセンサスによる擬似ラベルの精製

Refining Pseudo Labels with Clustering Consensus over Generations for Unsupervised Object Re-identification ( http://arxiv.org/abs/2106.06133v1 )

ライセンス: Link先を確認
Xiao Zhang, Yixiao Ge, Yu Qiao, Hongsheng Li(参考訳) 教師なしオブジェクト再同定は、アノテーションなしでオブジェクト検索の識別表現を学ぶことを目的としている。 クラスタリングベースの手法は、生成された擬似ラベルでトレーニングを行い、現在この研究の方向性を支配している。 しかし、彼らはまだ擬似ラベルノイズの問題に悩まされている。 この課題に対処するために、クラスタリングコンセンサスを用いて連続訓練世代間の擬似ラベル類似性を適切に推定し、時間的に伝播およびアンサンブルされた擬似ラベルを用いて洗練された擬似ラベルを提案する。 我々の知る限りでは、世代ごとに動的に変化するクラスで分類を改善するために時間的アンサンブルの精神を活用する最初の試みである。 提案する擬似ラベル精錬戦略は単純だが有効であり、既存のクラスタリングに基づく教師なし再同定手法にシームレスに統合することができる。 提案手法では,MSMT17データセットを最大8.8%改善することで,最先端手法をさらに強化することができる。

Unsupervised object re-identification targets at learning discriminative representations for object retrieval without any annotations. Clustering-based methods conduct training with the generated pseudo labels and currently dominate this research direction. However, they still suffer from the issue of pseudo label noise. To tackle the challenge, we propose to properly estimate pseudo label similarities between consecutive training generations with clustering consensus and refine pseudo labels with temporally propagated and ensembled pseudo labels. To the best of our knowledge, this is the first attempt to leverage the spirit of temporal ensembling to improve classification with dynamically changing classes over generations. The proposed pseudo label refinery strategy is simple yet effective and can be seamlessly integrated into existing clustering-based unsupervised re-identification methods. With our proposed approach, state-of-the-art method can be further boosted with up to 8.8% mAP improvements on the challenging MSMT17 dataset.
翻訳日:2021-06-14 14:16:26 公開日:2021-06-11
# Team RUC_AIM3 Technical Report at ActivityNet 2021: Entities Object Localization

Team RUC_AIM3 Technical Report at ActivityNet 2021: Entities Object Localization ( http://arxiv.org/abs/2106.06138v1 )

ライセンス: Link先を確認
Ludan Ruan (1), Jieting Chen (1), Yuqing Song (1), Shizhe Chen (2), Qin Jin (1) ((1) Renmin University of China, (2) INRIA)(参考訳) エンティティオブジェクトローカライゼーション(eol)は、キャプションの生成とオブジェクトの接地からなる記述の接地や忠実性を評価することを目的としている。 以前の作業では、各モジュールの複雑さを制限する2つのモジュールをフレームワークで共同でトレーニングすることで、この問題に対処する。 そこで本研究では,これら2つのモジュールを2段階に分割し,システム全体の性能向上を図ることを提案する。 キャプション生成のために,リッチオブジェクトを用いたイベント記述生成のための統合マルチモーダル事前学習モデル(umpm)を提案する。 対象の接地については,最先端検出モデルmdetrを微調整し,接地結果をより忠実にするためのポスト処理法を設計する。 提案システムでは,サブタスクiと0.2477 f1_all_per_sentのテストセット上で72.57のローカライズ精度を持つ,activitynet 2021におけるエンティティオブジェクトローカライゼーションチャレンジにおいて,両方のサブタスクにおける最先端のパフォーマンスを実現している。

Entities Object Localization (EOL) aims to evaluate how grounded or faithful a description is, which consists of caption generation and object grounding. Previous works tackle this problem by jointly training the two modules in a framework, which limits the complexity of each module. Therefore, in this work, we propose to divide these two modules into two stages and improve them respectively to boost the whole system performance. For the caption generation, we propose a Unified Multi-modal Pre-training Model (UMPM) to generate event descriptions with rich objects for better localization. For the object grounding, we fine-tune the state-of-the-art detection model MDETR and design a post processing method to make the grounding results more faithful. Our overall system achieves the state-of-the-art performances on both sub-tasks in Entities Object Localization challenge at Activitynet 2021, with 72.57 localization accuracy on the testing set of sub-task I and 0.2477 F1_all_per_sent on the hidden testing set of sub-task II.
翻訳日:2021-06-14 14:16:13 公開日:2021-06-11
# MlTr: Transformer を用いたマルチラベル分類

MlTr: Multi-label Classification with Transformer ( http://arxiv.org/abs/2106.06195v1 )

ライセンス: Link先を確認
Xing Cheng, Hezheng Lin, Xiangyu Wu, Fan Yang, Dong Shen, Zhongyuan Wang, Nian Shi, Honglin Liu(参考訳) マルチラベル画像分類のタスクは、画像に示されるすべてのオブジェクトラベルを認識することである。 何年も進歩してきたが、コンボリューションカーネルの表現能力によって制限された、以前の畳み込みニューラルネットワーク(CNN)ベースのモデルでは、小さなオブジェクト、類似したオブジェクト、そして高い条件付き確率のオブジェクトが依然として主要なボトルネックとなっている。 近年のビジョントランスフォーマネットワークでは,局所的な意味情報を表現するピクセル粒度の特徴を抽出し,グローバル空間依存のマイニングには不十分である。 本稿では,CNNベースの手法が遭遇する3つの重要な問題を指摘した上で,特定のトランスフォーマーモジュールを動作させる可能性について考察する。 我々は,ウィンドウ分割,ウィンドウ内画素注目,クロスウィンドウ注意,特にマルチラベル画像分類タスクの性能向上などを備えたマルチラベルトランスフォーマーアーキテクチャ(mltr)を提案する。 提案するmltrは,ms-coco,pascal-voc,nus-wideなどの多層データセットについて,それぞれ88.5%,95.8%,65.5%の最先端の結果を示す。 コードは近くhttps://github.com/starmemda/mltr/で入手できる。

The task of multi-label image classification is to recognize all the object labels presented in an image. Though advancing for years, small objects, similar objects and objects with high conditional probability are still the main bottlenecks of previous convolutional neural network(CNN) based models, limited by convolutional kernels' representational capacity. Recent vision transformer networks utilize the self-attention mechanism to extract the feature of pixel granularity, which expresses richer local semantic information, while is insufficient for mining global spatial dependence. In this paper, we point out the three crucial problems that CNN-based methods encounter and explore the possibility of conducting specific transformer modules to settle them. We put forward a Multi-label Transformer architecture(MlTr) constructed with windows partitioning, in-window pixel attention, cross-window attention, particularly improving the performance of multi-label image classification tasks. The proposed MlTr shows state-of-the-art results on various prevalent multi-label datasets such as MS-COCO, Pascal-VOC, and NUS-WIDE with 88.5%, 95.8%, and 65.5% respectively. The code will be available soon at https://github.com/starmemda/MlTr/
翻訳日:2021-06-14 14:15:46 公開日:2021-06-11
# AugNet: イメージ拡張による教師なし視覚表現学習

AugNet: End-to-End Unsupervised Visual Representation Learning with Image Augmentation ( http://arxiv.org/abs/2106.06250v1 )

ライセンス: Link先を確認
Mingxiang Chen, Zhanguo Chang, Haonan Lu, Bitao Yang, Zhuang Li, Liufang Guo, Zhecheng Wang(参考訳) 人工知能におけるこれまでの成果の大部分は、多数の注釈付きトレーニングデータを必要とする教師あり学習によって達成された。 教師なし学習はそのような困難を克服するための効果的な解決策の1つである。 本研究では,未ラベル画像の集合から画像特徴を学習するための新しいディープラーニング学習パラダイムであるAugNetを提案する。 本研究では, 画像間の類似性を, 組込み空間における距離測定値として構築する手法を開発した。 本手法は,低次元空間における画像表現が可能であり,画像分類や画像類似性比較などの下流タスクで競合することを実証する。 具体的には,教師なしクラスタリングによるstl10データセットとcifar100データセットにおいて,60%以上と27%の精度を達成した。 さらに、多くのディープラーニングベースの画像検索アルゴリズムとは異なり、本手法では、特徴抽出器をトレーニングするために外部の注釈付きデータセットにアクセスする必要はなく、機能表現能力や使い易い特性に匹敵する、あるいはさらに優れた特徴を示す。 本手法は,いくつかの領域外画像データセットにおいて,最先端画像検索アルゴリズムを上回っている。 モデル実装のコードはhttps://github.com/chenmingxiang110/augnetで入手できる。

Most of the achievements in artificial intelligence so far were accomplished by supervised learning which requires numerous annotated training data and thus costs innumerable manpower for labeling. Unsupervised learning is one of the effective solutions to overcome such difficulties. In our work, we propose AugNet, a new deep learning training paradigm to learn image features from a collection of unlabeled pictures. We develop a method to construct the similarities between pictures as distance metrics in the embedding space by leveraging the inter-correlation between augmented versions of samples. Our experiments demonstrate that the method is able to represent the image in low dimensional space and performs competitively in downstream tasks such as image classification and image similarity comparison. Specifically, we achieved over 60% and 27% accuracy on the STL10 and CIFAR100 datasets with unsupervised clustering, respectively. Moreover, unlike many deep-learning-based image retrieval algorithms, our approach does not require access to external annotated datasets to train the feature extractor, but still shows comparable or even better feature representation ability and easy-to-use characteristics. In our evaluations, the method outperforms all the state-of-the-art image retrieval algorithms on some out-of-domain image datasets. The code for the model implementation is available at https://github.com/chenmingxiang110/AugNet.
翻訳日:2021-06-14 14:15:20 公開日:2021-06-11
# モデルベースとモデルフリーのヒューマンリコンストラクションのギャップを埋める

Bridge the Gap Between Model-based and Model-free Human Reconstruction ( http://arxiv.org/abs/2106.06313v1 )

ライセンス: Link先を確認
Lixiang Lin and Jianke Zhu(参考訳) 多様な衣服様式の身体形状の多様性と複雑さのため、単一の画像から人間の幾何学を直接推定することは困難である。 モデルに基づくアプローチのほとんどは、過度に平らな表面を持つ最小限の服を着た体の形状とポーズを予測するために限られている。 詳細なジオメトリをキャプチャするが、モデルフリーな方法は固定メッシュトポロジーを欠いている。 そこで本研究では,モデルベースとモデルフリーのギャップを埋めることにより,新しいトポロジー保存型ヒト再構成手法を提案する。 グラフ畳み込みニューラルネットワークによって構築された暗黙の面と明示的なメッシュモデルを同時に予測するエンドツーエンドニューラルネットワークを提案する。 さらに、暗黙曲面とパラメトリックメッシュモデルの間の頂点オフセットを推定するために、余剰グラフ畳み込みニューラルネットワークを用いる。 最後に,暗黙空間におけるニューラルネットワーク出力を洗練するための効率的な暗黙的登録手法を提案する。 deephuman datasetの実験により、我々のアプローチが有効であることが示された。

It is challenging to directly estimate the geometry of human from a single image due to the high diversity and complexity of body shapes with the various clothing styles. Most of model-based approaches are limited to predict the shape and pose of a minimally clothed body with over-smoothing surface. Although capturing the fine detailed geometries, the model-free methods are lack of the fixed mesh topology. To address these issues, we propose a novel topology-preserved human reconstruction approach by bridging the gap between model-based and model-free human reconstruction. We present an end-to-end neural network that simultaneously predicts the pixel-aligned implicit surface and the explicit mesh model built by graph convolutional neural network. Moreover, an extra graph convolutional neural network is employed to estimate the vertex offsets between the implicit surface and parametric mesh model. Finally, we suggest an efficient implicit registration method to refine the neural network output in implicit space. Experiments on DeepHuman dataset showed that our approach is effective.
翻訳日:2021-06-14 14:15:01 公開日:2021-06-11
# SimSwap: 高忠実な顔スワッピングのための効率的なフレームワーク

SimSwap: An Efficient Framework For High Fidelity Face Swapping ( http://arxiv.org/abs/2106.06340v1 )

ライセンス: Link先を確認
Renwang Chen, Xuanhong Chen, Bingbing Ni, Yanhao Ge(参考訳) 我々は,汎用的で忠実な顔交換を目的とした,Simple Swap (SimSwap) と呼ばれる効率的なフレームワークを提案する。 顔の表情や視線方向などの属性を保存する能力に欠ける従来のアプローチとは対照的に,我々のフレームワークでは,対象顔の属性を保存しながら,任意の元顔のアイデンティティを任意のターゲット顔に転送することができる。 上記の欠陥を、以下の2つの方法で克服する。 まず,ID注入モジュール(IIM)について,特徴レベルにおいて原面の識別情報をターゲット面に転送する。 このモジュールを用いることで、識別固有の顔交換アルゴリズムのアーキテクチャを任意の顔交換のためのフレームワークに拡張する。 第二に、我々のフレームワークが暗黙的に顔の属性を保存するのを効率的に支援するWeak Feature Matching Lossを提案する。 我々のSimSwapは、従来の最先端手法よりも優れた属性を保ちながら、競争力のあるアイデンティティ性能を達成することができることを示した。 コードはすでにgithubで公開されている。

We propose an efficient framework, called Simple Swap (SimSwap), aiming for generalized and high fidelity face swapping. In contrast to previous approaches that either lack the ability to generalize to arbitrary identity or fail to preserve attributes like facial expression and gaze direction, our framework is capable of transferring the identity of an arbitrary source face into an arbitrary target face while preserving the attributes of the target face. We overcome the above defects in the following two ways. First, we present the ID Injection Module (IIM) which transfers the identity information of the source face into the target face at feature level. By using this module, we extend the architecture of an identity-specific face swapping algorithm to a framework for arbitrary face swapping. Second, we propose the Weak Feature Matching Loss which efficiently helps our framework to preserve the facial attributes in an implicit way. Extensive experiments on wild faces demonstrate that our SimSwap is able to achieve competitive identity performance while preserving attributes better than previous state-of-the-art methods. The code is already available on github: https://github.com/neuralchen/SimSwap.
翻訳日:2021-06-14 14:14:46 公開日:2021-06-11
# Part-Aware Panoptic Segmentation

Part-aware Panoptic Segmentation ( http://arxiv.org/abs/2106.06351v1 )

ライセンス: Link先を確認
Daan de Geus, Panagiotis Meletis, Chenyang Lu, Xiaoxiao Wen, Gijs Dubbelman(参考訳) 本稿では,複数の抽象レベルでシーンを理解し,シーン解析と部分解析のタスクを統合することを目的とした,pps(part-aware panoptic segmentation)の新たなシーン理解タスクを紹介する。 この新しいタスクのために、よく使われる2つのデータセット、CityscapesとPascal VOCに一貫したアノテーションを提供する。 さらに,PPSを評価するための指標として,Part-Aware Panoptic Quality (PartPQ)を提案する。 この新しいタスクは、メトリックとアノテーションを使って、panoptic segmentationとpart segmentationのための既存のstate-of-the-artメソッドの結果をマージすることによって、複数のベースラインを設定します。 最後に,このタスクにおける抽象化の異なるレベルの重要性を評価する実験をいくつか実施する。

In this work, we introduce the new scene understanding task of Part-aware Panoptic Segmentation (PPS), which aims to understand a scene at multiple levels of abstraction, and unifies the tasks of scene parsing and part parsing. For this novel task, we provide consistent annotations on two commonly used datasets: Cityscapes and Pascal VOC. Moreover, we present a single metric to evaluate PPS, called Part-aware Panoptic Quality (PartPQ). For this new task, using the metric and annotations, we set multiple baselines by merging results of existing state-of-the-art methods for panoptic segmentation and part segmentation. Finally, we conduct several experiments that evaluate the importance of the different levels of abstraction in this single task.
翻訳日:2021-06-14 14:14:26 公開日:2021-06-11
# 連続生成ゼロショットセマンティックセグメンテーション

Conterfactual Generative Zero-Shot Semantic Segmentation ( http://arxiv.org/abs/2106.06360v1 )

ライセンス: Link先を確認
Feihong Shen and Jun Liu and Ping Hu(参考訳) ゼロショット学習はコンピュータビジョンの重要な部分です。 古典的なダウンストリームタスクとして、ゼロショットセマンティックセグメンテーションは、その適用価値から研究されている。 一般的なゼロショットセマンティクスセグメンテーションの方法の1つは、生成モデルに基づいている。 しかし, 因果推論の観点からは, 原モデルの結果は突発的な統計的関係の影響を受けていることがわかった。 したがって、予測の性能は厳しいバイアスを示す。 本研究では,元モデルにおける共同創設者を避けるために,反事実的手法を検討する。 この手法に基づき,ゼロショット意味セグメンテーションのための新しいフレームワークを提案する。 私たちのモデルは、Pascal-VOCとPascal-Contextの2つの実世界のデータセットのベースラインモデルと比較する。 実験の結果,提案モデルが既存モデルを上回る可能性があり,性能向上のための追加構造の利用が期待できることがわかった。 また,本研究では,グラフ畳み込みネットワーク(gcn)に基づく単純な構造も設計する。

zero-shot learning is an essential part of computer vision. As a classical downstream task, zero-shot semantic segmentation has been studied because of its applicant value. One of the popular zero-shot semantic segmentation methods is based on the generative model Most new proposed works added structures on the same architecture to enhance this model. However, we found that, from the view of causal inference, the result of the original model has been influenced by spurious statistical relationships. Thus the performance of the prediction shows severe bias. In this work, we consider counterfactual methods to avoid the confounder in the original model. Based on this method, we proposed a new framework for zero-shot semantic segmentation. Our model is compared with baseline models on two real-world datasets, Pascal-VOC and Pascal-Context. The experiment results show proposed models can surpass previous confounded models and can still make use of additional structures to improve the performance. We also design a simple structure based on Graph Convolutional Networks (GCN) in this work.
翻訳日:2021-06-14 14:14:13 公開日:2021-06-11
# 注意に基づく部分顔認識

Attention-based Partial Face Recognition ( http://arxiv.org/abs/2106.06415v1 )

ライセンス: Link先を確認
Stefan H\"ormann and Zeyuan Zhang and Martin Knoche and Torben Teepe and Gerhard Rigoll(参考訳) 群衆のような制約のない環境で撮影された顔の写真は、しばしば前景の物や人によって隠されているため、現在の顔認識アプローチの課題となっている。 しかし、部分的な顔の認識に関する研究はほとんど行われていない。 そこで本研究では,異なる領域の異なる顔を認識することのできる部分的顔認識手法を提案する。 本稿では,resnetの中間特徴マップの注意プーリングと分離アグリゲーションモジュールを組み合わせることにより,これを実現する。 さらに,注意マップが多様であり,オクルードされた部分を扱うために,部分的な顔に共通の損失を適応させる。 我々の徹底的な分析は、自然および合成的に隠蔽された部分面を含む、複数のベンチマークプロトコルの下で全てのベースラインを上回ります。 本手法は,隠蔽面の関連部分に焦点をあてることが可能である。

Photos of faces captured in unconstrained environments, such as large crowds, still constitute challenges for current face recognition approaches as often faces are occluded by objects or people in the foreground. However, few studies have addressed the task of recognizing partial faces. In this paper, we propose a novel approach to partial face recognition capable of recognizing faces with different occluded areas. We achieve this by combining attentional pooling of a ResNet's intermediate feature maps with a separate aggregation module. We further adapt common losses to partial faces in order to ensure that the attention maps are diverse and handle occluded parts. Our thorough analysis demonstrates that we outperform all baselines under multiple benchmark protocols, including naturally and synthetically occluded partial faces. This suggests that our method successfully focuses on the relevant parts of the occluded face.
翻訳日:2021-06-14 14:13:59 公開日:2021-06-11
# View-Atribute Attention Localizationに基づく映像監視シナリオにおける歩行者属性認識

Pedestrian Attribute Recognition in Video Surveillance Scenarios Based on View-attribute Attention Localization ( http://arxiv.org/abs/2106.06485v1 )

ライセンス: Link先を確認
Weichen Chen (1) Xinyi Yu (1) Linlin Ou (1) ((1) Collage of Information Engineering, Zhejiang University of Technology, Hangzhou, China)(参考訳) 監視シナリオにおける歩行者属性の認識は、特定の属性が不正確な位置にあるため、依然として困難な課題である。 本稿では,属性とビューの強い関連性に基づき,特定のビュー属性をキャプチャし,アテンション機構により属性対応領域を局所化する,アテンションに基づく新しいビュー属性ローカライズ手法を提案する。 特定のビュー属性は、抽出された属性特徴と、異なるビューからの属性に対する信頼度としてビュー予測器によって予測される4つのビュースコアによって構成される。 ビュー属性は、深い特徴抽出を監督するために浅いネットワーク層に返される。 ビュー属性の位置を探索するために、画像が狭い範囲に制約される高さ及び幅方向の入力属性特徴の空間情報を集約するために、地域的注意を導入する。 さらに、上記2つの空間方向にビューフィーチャーのチャネル間依存性を埋め込む。 高さと幅の分岐のチャネル依存性の比をバランスさせて狭い範囲を絞り込み、注目属性特化領域を得る。 最終ビュー属性認識結果は、地域注意の出力とビュー予測器からのビュースコアを組み合わせることで得られる。 3つのワイドデータセット(RAP, RAPv2, PETA, PA-100K)の実験により, 最先端手法と比較して, 提案手法の有効性が示された。

Pedestrian attribute recognition in surveillance scenarios is still a challenging task due to inaccurate localization of specific attributes. In this paper, we propose a novel view-attribute localization method based on attention (VALA), which relies on the strong relevance between attributes and views to capture specific view-attributes and to localize attribute-corresponding areas by attention mechanism. A specific view-attribute is composed by the extracted attribute feature and four view scores which are predicted by view predictor as the confidences for attribute from different views. View-attribute is then delivered back to shallow network layers for supervising deep feature extraction. To explore the location of a view-attribute, regional attention is introduced to aggregate spatial information of the input attribute feature in height and width direction for constraining the image into a narrow range. Moreover, the inter-channel dependency of view-feature is embedded in the above two spatial directions. An attention attribute-specific region is gained after fining the narrow range by balancing the ratio of channel dependencies between height and width branches. The final view-attribute recognition outcome is obtained by combining the output of regional attention with the view scores from view predictor. Experiments on three wide datasets (RAP, RAPv2, PETA, and PA-100K) demonstrate the effectiveness of our approach compared with state-of-the-art methods.
翻訳日:2021-06-14 14:13:45 公開日:2021-06-11
# 画像テキストマッチングのためのステップワイズ階層アライメントネットワーク

Step-Wise Hierarchical Alignment Network for Image-Text Matching ( http://arxiv.org/abs/2106.06509v1 )

ライセンス: Link先を確認
Zhong Ji, Kexin Chen, Haoran Wang(参考訳) 画像テキストマッチングは、視覚と言語の間の意味的ギャップを埋める上で中心的な役割を果たす。 正確な視覚的セマンティックアライメントを達成するための重要なポイントは、画像とテキスト間の細粒度の相互対応を捉えることである。 従来のほとんどの手法は、視覚と意味の相互作用を発見するための単一ステップの推論に依存しており、階層的な微細な関連性を見つけるための多レベル情報を利用する能力が欠如している。 そこで本研究では,画像テキストマッチングを多段階クロスモーダル推論プロセスに分解するステップワイズ階層アライメントネットワーク(shan)を提案する。 具体的には,まず,グローバル・ローカル・グローバル・グローバル・グローバル・グローバル・アライメントを文脈レベルで逐次実行する。 このプログレッシブアライメント戦略は,画像とテキストの階層的相関を理解するための,より補完的で十分な意味的手がかりをモデルに提供する。 2つのベンチマークデータセットの実験結果から,提案手法の優位性を示した。

Image-text matching plays a central role in bridging the semantic gap between vision and language. The key point to achieve precise visual-semantic alignment lies in capturing the fine-grained cross-modal correspondence between image and text. Most previous methods rely on single-step reasoning to discover the visual-semantic interactions, which lacks the ability of exploiting the multi-level information to locate the hierarchical fine-grained relevance. Different from them, in this work, we propose a step-wise hierarchical alignment network (SHAN) that decomposes image-text matching into multi-step cross-modal reasoning process. Specifically, we first achieve local-to-local alignment at fragment level, following by performing global-to-local and global-to-global alignment at context level sequentially. This progressive alignment strategy supplies our model with more complementary and sufficient semantic clues to understand the hierarchical correlations between image and text. The experimental results on two benchmark datasets demonstrate the superiority of our proposed method.
翻訳日:2021-06-14 14:13:24 公開日:2021-06-11
# 日時と位置認識によるRNN-T ASRの性能向上

Improving RNN-T ASR Performance with Date-Time and Location Awareness ( http://arxiv.org/abs/2106.06183v1 )

ライセンス: Link先を確認
Swayambhu Nath Ray, Soumyajit Mitra, Raghavendra Bilgi, Sri Garimella(参考訳) 本稿では、ニューラルネットワーク(rnn-t)に基づく自動音声認識(asr)モデルにコンテキストを組み込むことによる、仮想アシスタントの音声認識改善の利点について検討する。 具体的には、発話が話される時点から抽出されたメタ情報と、近似位置情報を用いて、ASRコンテキストを認識させる。 これらの文脈情報を個別に使用すると、ベースラインに対して最大3.48%の性能が向上し、コンテキストが組み合わされた場合、相補的な特徴が学習され、認識が4.62%向上することを示す。 特定の領域では、これらの文脈信号は最大11.5%の改善を示し、他の領域では顕著な劣化はない。 私たちは30K時間と10K時間のサイズのデータに基づいてトレーニングされたモデルで実験を行いました。 10K時間データセットによる改善の規模は,30K時間データセットによる改善の規模よりもはるかに高いことを示す。 その結果,asrモデルの学習に限定されたデータを用いることで,文脈信号による性能向上が期待できることがわかった。

In this paper, we explore the benefits of incorporating context into a Recurrent Neural Network (RNN-T) based Automatic Speech Recognition (ASR) model to improve the speech recognition for virtual assistants. Specifically, we use meta information extracted from the time at which the utterance is spoken and the approximate location information to make ASR context aware. We show that these contextual information, when used individually, improves overall performance by as much as 3.48% relative to the baseline and when the contexts are combined, the model learns complementary features and the recognition improves by 4.62%. On specific domains, these contextual signals show improvements as high as 11.5%, without any significant degradation on others. We ran experiments with models trained on data of sizes 30K hours and 10K hours. We show that the scale of improvement with the 10K hours dataset is much higher than the one obtained with 30K hours dataset. Our results indicate that with limited data to train the ASR model, contextual signals can improve the performance significantly.
翻訳日:2021-06-14 14:13:07 公開日:2021-06-11
# コンビネーションロックを回す: 単語置換による学習可能なテキストバックドア攻撃

Turn the Combination Lock: Learnable Textual Backdoor Attacks via Word Substitution ( http://arxiv.org/abs/2106.06361v1 )

ライセンス: Link先を確認
Fanchao Qi, Yuan Yao, Sophia Xu, Zhiyuan Liu, Maosong Sun(参考訳) 最近の研究では、ニューラルネットワーク処理(NLP)モデルがバックドア攻撃に弱いことが示されている。 バックドアで注入されたモデルは通常、良質な例で実行されるが、バックドアがアクティブになったときに攻撃者が特定した予測を生成し、現実世界のアプリケーションに深刻なセキュリティ脅威をもたらす。 既存のテキストバックドア攻撃はバックドアの可視性にほとんど注意を払わないため、容易に検出してブロックすることができる。 本研究では,単語置換の学習可能な組み合わせによって活性化される,見えないバックドアを提案する。 また,NLPモデルにバックドアを注入することで,攻撃成功率を100%近く向上させることができる一方で,既存の防衛戦略や人体検査にも極めて不可視であることを示す。 その結果、NLPモデルのセキュリティに深刻な警告が生まれ、さらなる研究が解決される必要がある。 この論文のすべてのデータとコードはhttps://github.com/thunlp/BkdAtk-LWSで公開されている。

Recent studies show that neural natural language processing (NLP) models are vulnerable to backdoor attacks. Injected with backdoors, models perform normally on benign examples but produce attacker-specified predictions when the backdoor is activated, presenting serious security threats to real-world applications. Since existing textual backdoor attacks pay little attention to the invisibility of backdoors, they can be easily detected and blocked. In this work, we present invisible backdoors that are activated by a learnable combination of word substitution. We show that NLP models can be injected with backdoors that lead to a nearly 100% attack success rate, whereas being highly invisible to existing defense strategies and even human inspections. The results raise a serious alarm to the security of NLP models, which requires further research to be resolved. All the data and code of this paper are released at https://github.com/thunlp/BkdAtk-LWS.
翻訳日:2021-06-14 14:12:50 公開日:2021-06-11
# Twin Neural Network Regression - 半教師付き回帰アルゴリズム

Twin Neural Network Regression is a Semi-Supervised Regression Algorithm ( http://arxiv.org/abs/2106.06124v1 )

ライセンス: Link先を確認
Sebastian J. Wetzel, Roger G. Melko, Isaac Tamblyn(参考訳) ツインニューラルネットワーク回帰(TNNR)は、半教師付き回帰アルゴリズムであり、ラベル付きアンカーデータポイントが存在する限り、ラベル付きアンカーデータポイントでトレーニングすることができる。 TNNRは、ターゲット自体ではなく、2つの異なるデータポイントのターゲット値の違いを予測するように訓練されている。 未知のデータポイントの目標とすべてのトレーニングデータポイントとの予測誤差をセンセンブルすることで、元の回帰問題の非常に正確な予測を得ることができる。 予測された違いのループはすべてゼロにまとめられるため、ループ内のデータ自体がラベルされていない場合でも、トレーニングデータにループが供給される。 セミ教師付きトレーニングは、すでに最先端にあるTNNRのパフォーマンスを大幅に改善する。

Twin neural network regression (TNNR) is a semi-supervised regression algorithm, it can be trained on unlabelled data points as long as other, labelled anchor data points, are present. TNNR is trained to predict differences between the target values of two different data points rather than the targets themselves. By ensembling predicted differences between the targets of an unseen data point and all training data points, it is possible to obtain a very accurate prediction for the original regression problem. Since any loop of predicted differences should sum to zero, loops can be supplied to the training data, even if the data points themselves within loops are unlabelled. Semi-supervised training improves TNNR performance, which is already state of the art, significantly.
翻訳日:2021-06-14 14:12:15 公開日:2021-06-11
# 不正確なADMMによる個人的フェデレーション学習

Differentially Private Federated Learning via Inexact ADMM ( http://arxiv.org/abs/2106.06127v1 )

ライセンス: Link先を確認
Minseok Ryu and Kibaek Kim(参考訳) 差分プライバシー(DP)技術は、データプライバシを学習エージェント間の通信に対する推論攻撃から保護するために、フェデレーション学習モデルに適用することができる。 しかし、DPのテクニックは、強力なデータのプライバシーを確保しながら、学習性能の向上を妨げる。 本稿では,ラプラス分布から発生するランダムノイズによる目的的摂動を伴う信頼領域部分問題の列を解く,乗算アルゴリズムの非可逆交方向法を開発した。 我々のアルゴリズムは全ての反復に対して$\bar{\epsilon}$-DP と $\mathcal{O}(1/T)$ の期待収束率を示し、ここでは$T$ は反復数である。 MNIST と FEMNIST のデータセットを画像分類に用いて,既存の DP アルゴリズムと比較してテスト誤差を少なくとも2,2\% 削減し,同じレベルのデータプライバシーを実現することを示した。 また,本アルゴリズムは既存のアルゴリズムよりも高速に収束することを示す。

Differential privacy (DP) techniques can be applied to the federated learning model to protect data privacy against inference attacks to communication among the learning agents. The DP techniques, however, hinder achieving a greater learning performance while ensuring strong data privacy. In this paper we develop a DP inexact alternating direction method of multipliers algorithm that solves a sequence of trust-region subproblems with the objective perturbation by random noises generated from a Laplace distribution. We show that our algorithm provides $\bar{\epsilon}$-DP for every iteration and $\mathcal{O}(1/T)$ rate of convergence in expectation, where $T$ is the number of iterations. Using MNIST and FEMNIST datasets for the image classification, we demonstrate that our algorithm reduces the testing error by at most $22\%$ compared with the existing DP algorithm, while achieving the same level of data privacy. The numerical experiment also shows that our algorithm converges faster than the existing algorithm.
翻訳日:2021-06-14 14:12:03 公開日:2021-06-11
# 部分ラベル学習における平均損失のロバスト性について

On the Robustness of Average Losses for Partial-Label Learning ( http://arxiv.org/abs/2106.06152v1 )

ライセンス: Link先を確認
Jiaqi Lv, Lei Feng, Miao Xu, Bo An, Gang Niu, Xin Geng, Masashi Sugiyama(参考訳) 部分ラベル(pl)学習は典型的な弱い教師付き分類問題であり、例のplは固定だが未知の候補が真のラベルであるような候補ラベルの集合である。 pl学習には、2つの研究線がある: (a) 識別ベース戦略(ibs) 各ラベル集合を純化し、真のラベルを抽出する; (b) 平均ベース戦略(abs) すべての候補をトレーニングのために等しく扱う。 過去20年間、IBSはABSよりもずっとホットな話題だった。 本稿では,ABSを理論的に解析し,損失関数のロバスト性という意味でも有望であることを示す。 具体的には、クリーンまたはノイズのplを生成するための5つの問題設定を検討し、境界付きマルチクラス損失を含む平均pl損失は、真のラベル支配下では常に頑健であるが、非境界型マルチクラス損失(例えば、クロスエントロピー損失)を伴う平均pl損失は堅牢ではないことを証明した。 理論的な結果を検証する実験も行います。 IBSはヒューリスティックであり、同様の証明手法によってその堅牢性を証明できないので、ABSは理論的な観点からより有利であり、ABSに続くより先進的なPL学習手法の設計に注意を払う価値がある。

Partial-label (PL) learning is a typical weakly supervised classification problem, where a PL of an instance is a set of candidate labels such that a fixed but unknown candidate is the true label. For PL learning, there are two lines of research: (a) the identification-based strategy (IBS) purifies each label set and extracts the true label; (b) the average-based strategy (ABS) treats all candidates equally for training. In the past two decades, IBS was a much hotter topic than ABS, since it was believed that IBS is more promising. In this paper, we theoretically analyze ABS and find it also promising in the sense of the robustness of its loss functions. Specifically, we consider five problem settings for the generation of clean or noisy PLs, and we prove that average PL losses with bounded multi-class losses are always robust under mild assumptions on the domination of true labels, while average PL losses with unbounded multi-class losses (e.g., the cross-entropy loss) may not be robust. We also conduct experiments to validate our theoretical findings. Note that IBS is heuristic, and we cannot prove its robustness by a similar proof technique; hence, ABS is more advantageous from a theoretical point of view, and it is worth paying attention to the design of more advanced PL learning methods following ABS.
翻訳日:2021-06-14 14:11:46 公開日:2021-06-11
# 生成・注釈・学習:生成モデルによる自己学習・知識蒸留の促進

Generate, Annotate, and Learn: Generative Models Advance Self-Training and Knowledge Distillation ( http://arxiv.org/abs/2106.06168v1 )

ライセンス: Link先を確認
Xuanli He, Islam Nassar, Jamie Kiros, Gholamreza Haffari, Mohammad Norouzi(参考訳) Semi-Supervised Learning (SSL)は多くのアプリケーションドメインで成功している。 知識蒸留(kd)は深層ネットワークとアンサンブルの圧縮を可能にし、新しいタスク固有のラベルなしの例で知識を蒸留する場合の最良の結果を得る。 しかし、タスク固有の未ラベルデータを見つけるのは難しい。 我々は,無条件生成モデルを用いて非ラベルデータを合成し,ssl と kd を異なるタスクで前進させる "generate, annotate, learn (gal)" という汎用フレームワークを提案する。 タスク固有の生成モデルを得るために、オープンドメインデータに基づいて事前訓練された汎用生成モデルを採用し、特定のタスクからの入力を微調整する。 次に,既存の分類器を用いて,生成した未ラベルのサンプルにソフトな擬似ラベルをアノテートする。 各GLUEタスクの入力を微調整した GPT2-large から生成されたサンプルと自己学習を組み合わせた場合、GLUEベンチマーク上で強力な RoBERTa-large ベースラインを上回ります。 さらに、GPT-2サンプル上のKDはGLUEリーダーボード上の6層トランスのための新しい最先端技術をもたらす。 最後に、GALによる自己学習は、CIFAR-10の画像分類とUCIレポジトリからの4つの表型タスクに大きく貢献する

Semi-Supervised Learning (SSL) has seen success in many application domains, but this success often hinges on the availability of task-specific unlabeled data. Knowledge distillation (KD) has enabled compressing deep networks and ensembles, achieving the best results when distilling knowledge on fresh task-specific unlabeled examples. However, task-specific unlabeled data can be challenging to find. We present a general framework called "generate, annotate, and learn (GAL)" that uses unconditional generative models to synthesize in-domain unlabeled data, helping advance SSL and KD on different tasks. To obtain strong task-specific generative models, we adopt generic generative models, pretrained on open-domain data, and fine-tune them on inputs from specific tasks. Then, we use existing classifiers to annotate generated unlabeled examples with soft pseudo labels, which are used for additional training. When self-training is combined with samples generated from GPT2-large, fine-tuned on the inputs of each GLUE task, we outperform a strong RoBERTa-large baseline on the GLUE benchmark. Moreover, KD on GPT-2 samples yields a new state-of-the-art for 6-layer transformers on the GLUE leaderboard. Finally, self-training with GAL offers significant gains on image classification on CIFAR-10 and four tabular tasks from the UCI repository
翻訳日:2021-06-14 14:11:20 公開日:2021-06-11
# ディスカウント因子のTaylor拡大

Taylor Expansion of Discount Factors ( http://arxiv.org/abs/2106.06170v1 )

ライセンス: Link先を確認
Yunhao Tang, Mark Rowland, R\'emi Munos, Michal Valko(参考訳) 実効強化学習(RL)では、値関数を推定するために使われる割引係数は、評価目的を定義するために使われる値としばしば異なる。 本研究では,この割引要因の相違が学習中に与える影響について検討し,二つの異なる割引要因の値関数を補間する目的のファミリーを発見する。 分析では、価値関数を推定し、実証的なパフォーマンス向上を示すポリシーの最適化を行う新しい方法を提案する。 このフレームワークは、ポリシー最適化アルゴリズムによく使われる深いrlヒューリスティックな修正に関する新たな洞察をもたらす。

In practical reinforcement learning (RL), the discount factor used for estimating value functions often differs from that used for defining the evaluation objective. In this work, we study the effect that this discrepancy of discount factors has during learning, and discover a family of objectives that interpolate value functions of two distinct discount factors. Our analysis suggests new ways for estimating value functions and performing policy optimization updates, which demonstrate empirical performance gains. This framework also leads to new insights on commonly-used deep RL heuristic modifications to policy optimization algorithms.
翻訳日:2021-06-14 14:10:55 公開日:2021-06-11
# 因果性レンズによる対向性ロバスト性

Adversarial Robustness through the Lens of Causality ( http://arxiv.org/abs/2106.06196v1 )

ライセンス: Link先を確認
Yonggang Zhang, Mingming Gong, Tongliang Liu, Gang Niu, Xinmei Tian, Bo Han, Bernhard Sch\"olkopf and Kun Zhang(参考訳) ディープニューラルネットワークの敵対的脆弱性は、機械学習に大きな注目を集めている。 因果的観点からは、逆攻撃は自然データ上の特定の種類の分布変化と見なすことができる。 因果推論は,分布変化をモデル化する本能を持つので,因果関係を敵意的脆弱性の軽減に組み込むことを提案する。 しかし, 敵対的攻撃の直感と頑健なDNNの発達の因果的定式化はいまだに文献に欠けている。 このギャップを埋めるために,敵の例の生成過程をモデル化する因果グラフを構築し,敵の攻撃の直観を定式化する敵の分布を定義する。 因果的な見地からすると、ラベルはインスタンスが与えられたときにスタイル(コンテンツに依存しない)情報と散発的に相関する。 突発的相関は, 自然分布とは大きく異なるスタイル情報とラベルの統計的条件関係を組み込むことによって, 逆分布を構築することを示唆している。 このように、突発的相関に適合するDNNは、敵の分布に弱い。 そこで本研究では,自然分布と逆分布の差異を解消する逆分布アライメント法を提案する。 大規模実験により提案手法の有効性が示された。 本手法は,敵の脆弱性を緩和するために因果性を利用する最初の試みと見なすことができる。

The adversarial vulnerability of deep neural networks has attracted significant attention in machine learning. From a causal viewpoint, adversarial attacks can be considered as a specific type of distribution change on natural data. As causal reasoning has an instinct for modeling distribution change, we propose to incorporate causality into mitigating adversarial vulnerability. However, causal formulations of the intuition of adversarial attack and the development of robust DNNs are still lacking in the literature. To bridge this gap, we construct a causal graph to model the generation process of adversarial examples and define the adversarial distribution to formalize the intuition of adversarial attacks. From a causal perspective, we find that the label is spuriously correlated with the style (content-independent) information when an instance is given. The spurious correlation implies that the adversarial distribution is constructed via making the statistical conditional association between style information and labels drastically different from that in natural distribution. Thus, DNNs that fit the spurious correlation are vulnerable to the adversarial distribution. Inspired by the observation, we propose the adversarial distribution alignment method to eliminate the difference between the natural distribution and the adversarial distribution. Extensive experiments demonstrate the efficacy of the proposed method. Our method can be seen as the first attempt to leverage causality for mitigating adversarial vulnerability.
翻訳日:2021-06-14 14:10:48 公開日:2021-06-11
# LocoProp: ローカルロス最適化によるBackPropの強化

LocoProp: Enhancing BackProp via Local Loss Optimization ( http://arxiv.org/abs/2106.06199v1 )

ライセンス: Link先を確認
Ehsan Amid, Rohan Anil, and Manfred K. Warmuth(参考訳) ニューラルネットワークの最適化のための局所損失構築手法について検討する。 まず、各層と局所目標の事前活性化の2乗損失を最小化し、さらに重み付けの正則化項を最小化する。 ターゲットは、ローカル目的の最初の勾配降下ステップがバニラバックプロップを回復するように選択され、各問題に対する正確な解決策は、事前条件付き勾配更新をもたらす。 局所問題凸w.r.tを維持する伝達関数に合わせて各層にブレグマン分散を形成することにより局所損失構造を改善する。 重さだ 一般化された局所問題は、第1ステップがBackPropを回復するウェイト上の小さな勾配降下ステップをとることで繰り返し解決される。 我々はいくつかの改善を行い、コンバージェンスを継続的に改善し、一階法と二階法のギャップを小さくすることを示す。

We study a local loss construction approach for optimizing neural networks. We start by motivating the problem as minimizing a squared loss between the pre-activations of each layer and a local target, plus a regularizer term on the weights. The targets are chosen so that the first gradient descent step on the local objectives recovers vanilla BackProp, while the exact solution to each problem results in a preconditioned gradient update. We improve the local loss construction by forming a Bregman divergence in each layer tailored to the transfer function which keeps the local problem convex w.r.t. the weights. The generalized local problem is again solved iteratively by taking small gradient descent steps on the weights, for which the first step recovers BackProp. We run several ablations and show that our construction consistently improves convergence, reducing the gap between first-order and second-order methods.
翻訳日:2021-06-14 14:10:29 公開日:2021-06-11
# TrafficStream: グラフニューラルネットワークと連続学習に基づくストリーミングトラフィックフロー予測フレームワーク

TrafficStream: A Streaming Traffic Flow Forecasting Framework Based on Graph Neural Networks and Continual Learning ( http://arxiv.org/abs/2106.06273v1 )

ライセンス: Link先を確認
Xu Chen and Junshan Wang and Kunqing Xie(参考訳) 展開される交通センサの急速な増加に伴い、大量のトラフィックフローデータが収集され、トラフィックフローの長期的進化とトラフィックネットワークの段階的拡大が明らかになった。 これらの交通流を正確に予測する方法は,交通システムの効率向上に非常に重要であるとして,研究者の注目を集めている。 しかし、既存の手法は主に静的ネットワークの時空間相関に着目しており、拡張と進化パターンを持つネットワーク上で効率的にモデルを学習する問題は少ない。 そこで我々は,グラフニューラルネットワーク(GNN)と連続学習(CL)に基づくストリームトラフィックフロー予測フレームワークであるTrafficStreamを提案する。 まず,長期間に出現した新たなパターンをモデルに巧みに統合し,トラヒックパターン融合手法を設計する。 新しいトラフィックパターンをマイニングするために,JS分割に基づくアルゴリズムを提案する。 次に,学習した知識を統合して現在のモデルに移すclを提案する。 具体的には、履歴データの再生とパラメータスムーシングの2つの戦略を採用する。 モデルの有効性と有効性を検証するために,ストリーミングトラフィックデータセットを構築した。 大規模な実験は、長期ストリーミングネットワークシーンで高い効率でトラフィックパターンを抽出する優れた可能性を示している。 ソースコードはhttps://github.com/AprLie/TrafficStreamで入手できる。

With the rapid growth of traffic sensors deployed, a massive amount of traffic flow data are collected, revealing the long-term evolution of traffic flows and the gradual expansion of traffic networks. How to accurately forecasting these traffic flow attracts the attention of researchers as it is of great significance for improving the efficiency of transportation systems. However, existing methods mainly focus on the spatial-temporal correlation of static networks, leaving the problem of efficiently learning models on networks with expansion and evolving patterns less studied. To tackle this problem, we propose a Streaming Traffic Flow Forecasting Framework, TrafficStream, based on Graph Neural Networks (GNNs) and Continual Learning (CL), achieving accurate predictions and high efficiency. Firstly, we design a traffic pattern fusion method, cleverly integrating the new patterns that emerged during the long-term period into the model. A JS-divergence-based algorithm is proposed to mine new traffic patterns. Secondly, we introduce CL to consolidate the knowledge learned previously and transfer them to the current model. Specifically, we adopt two strategies: historical data replay and parameter smoothing. We construct a streaming traffic dataset to verify the efficiency and effectiveness of our model. Extensive experiments demonstrate its excellent potential to extract traffic patterns with high efficiency on long-term streaming network scene. The source code is available at https://github.com/AprLie/TrafficStream.
翻訳日:2021-06-14 14:10:12 公開日:2021-06-11
# 生涯学習への新しいアプローチ:プラスチック支持構造

A Novel Approach to Lifelong Learning: The Plastic Support Structure ( http://arxiv.org/abs/2106.06298v1 )

ライセンス: Link先を確認
Georges Kanaan, Kai Wen Zheng and Lucas Fenaux(参考訳) 本稿では,学習課題の喪失を防止しつつ,新たな課題を学習するために必要な能力を持つネットワークを実現する,コンパクトなカプセル化支援構造を導入する,生涯学習への新たなアプローチを提案する。 これは、ニューロンを高いセマンティックドリフトで分割し、新しいタスクを手元にエンコードする隣のネットワークを構築することで達成される。 我々はこれをPlastic Support Structure (PSS)と呼び、ネットワークの既存の構造に効率的にエンコードできない新しいタスクを学習するためのコンパクトな構造である。 我々は、PSSを既存の生涯学習アーキテクチャに対して公開データセット上で検証し、それらと同じような性能を示すが、タスクの事前の知識がなく、場合によってはパラメータが少なく、特定のタスクに関連する特定の機能のためのカプセル化されたコンテナである、より理解しやすい方法で、ネットワークがより多くのタスクを学習するための理想的な"アドオン"ソリューションであることを示す。

We propose a novel approach to lifelong learning, introducing a compact encapsulated support structure which endows a network with the capability to expand its capacity as needed to learn new tasks while preventing the loss of learned tasks. This is achieved by splitting neurons with high semantic drift and constructing an adjacent network to encode the new tasks at hand. We call this the Plastic Support Structure (PSS), it is a compact structure to learn new tasks that cannot be efficiently encoded in the existing structure of the network. We validate the PSS on public datasets against existing lifelong learning architectures, showing it performs similarly to them but without prior knowledge of the task and in some cases with fewer parameters and in a more understandable fashion where the PSS is an encapsulated container for specific features related to specific tasks, thus making it an ideal "add-on" solution for endowing a network to learn more tasks.
翻訳日:2021-06-14 14:09:51 公開日:2021-06-11
# 分布強化学習におけるリスク自動適応

Automatic Risk Adaptation in Distributional Reinforcement Learning ( http://arxiv.org/abs/2106.06317v1 )

ライセンス: Link先を確認
Frederik Schubert, Theresa Eimer, Bodo Rosenhahn, Marius Lindauer(参考訳) 実運用における強化学習(rl)エージェントの使用には,エージェントとその環境の親しみによる最適化結果の考慮が必要である。 これは特に、エラーが高いコストや損害につながる可能性がある安全クリティカルな環境で重要である。 分布RLでは、推定した戻り分布の歪み測定によってリスク感度を制御できる。 しかし、これらの歪み関数にはリスクレベルの推定が必要であり、これは取得が難しく、現在の状態に依存する。 本研究では,静的リスクレベル推定の最適性を示し,各環境ステップにおけるリスクレベルを動的に選択する手法を提案する。 本手法は,ランダムネットワーク蒸留誤差を用いて,未知環境と未知環境の両方において適切なリスクレベルを推定する。 いくつかの移動環境において, リスク認識エージェントとリスク認識エージェントの両方と比較して, 失敗率を最大7倍に低下させ, 一般化性能を最大14%向上させた。

The use of Reinforcement Learning (RL) agents in practical applications requires the consideration of suboptimal outcomes, depending on the familiarity of the agent with its environment. This is especially important in safety-critical environments, where errors can lead to high costs or damage. In distributional RL, the risk-sensitivity can be controlled via different distortion measures of the estimated return distribution. However, these distortion functions require an estimate of the risk level, which is difficult to obtain and depends on the current state. In this work, we demonstrate the suboptimality of a static risk level estimation and propose a method to dynamically select risk levels at each environment step. Our method ARA (Automatic Risk Adaptation) estimates the appropriate risk level in both known and unknown environments using a Random Network Distillation error. We show reduced failure rates by up to a factor of 7 and improved generalization performance by up to 14% compared to both risk-aware and risk-agnostic agents in several locomotion environments.
翻訳日:2021-06-14 14:09:34 公開日:2021-06-11
# jkonet: 人口動態の近位最適輸送モデル

JKOnet: Proximal Optimal Transport Modeling of Population Dynamics ( http://arxiv.org/abs/2106.06345v1 )

ライセンス: Link先を確認
Charlotte Bunne, Laetitia Meng-Papaxanthos, Andreas Krause, Marco Cuturi(参考訳) 時間とともに進化する点の異種集団を考える。 人口はサイズと自然の両方で進化するが、異なるタイムスタンプで撮影されたスナップショットを通して定期的に観察することができる。 これらのスナップショットは、その時点の人口からポイントをサンプリングし、ポイントクラウドを復元する機能を作成することで生成される。 これらのスナップショットは集団の進化について記述しているが、個々の軌道について直接の洞察を与えていない。 このシナリオは、単細胞ゲノミクス実験、粒子の追跡、群集運動の研究など、いくつかの応用で遭遇する。 本稿では,jordan-kinderlehrer-otto (jko) の近位スキームから得られる動的現象をモデル化する。 JKOのスキームは、人口がt$で取る構成は、w.r.tの減少から引き離すものであると仮定している。 最適な輸送距離 w.r.t.で計算されたエネルギー(学習しようとするモデル)。 以前の構成。 そこで我々は,入力凸ニューラルネットワーク (ICNN) を用いて解いた(小さな)最適変位と,測定値のエネルギーモデルを組み合わせたニューラルネットワーク JKOnet を提案する。 人口動態の説明と予測のためのモデルの適用性を実証する。

Consider a heterogeneous population of points evolving with time. While the population evolves, both in size and nature, we can observe it periodically, through snapshots taken at different timestamps. Each of these snapshots is formed by sampling points from the population at that time, and then creating features to recover point clouds. While these snapshots describe the population's evolution on aggregate, they do not provide directly insights on individual trajectories. This scenario is encountered in several applications, notably single-cell genomics experiments, tracking of particles, or when studying crowd motion. In this paper, we propose to model that dynamic as resulting from the celebrated Jordan-Kinderlehrer-Otto (JKO) proximal scheme. The JKO scheme posits that the configuration taken by a population at time $t$ is one that trades off a decrease w.r.t. an energy (the model we seek to learn) penalized by an optimal transport distance w.r.t. the previous configuration. To that end, we propose JKOnet, a neural architecture that combines an energy model on measures, with (small) optimal displacements solved with input convex neural networks (ICNN). We demonstrate the applicability of our model to explain and predict population dynamics.
翻訳日:2021-06-14 14:09:20 公開日:2021-06-11
# スケールするニューラルシンボリック回帰

Neural Symbolic Regression that Scales ( http://arxiv.org/abs/2106.06427v1 )

ライセンス: Link先を確認
Luca Biggio, Tommaso Bendinelli, Alexander Neitz, Aurelien Lucchi, Giambattista Parascandolo(参考訳) 記号方程式は科学的発見の中核にある。 入力-出力ペアの集合から基底方程式を発見するタスクは記号回帰と呼ばれる。 伝統的に、シンボリック回帰法は経験によって改善されない手作りの戦略を用いる。 本稿では,大規模事前学習を利用した最初の記号回帰手法を提案する。 非有界な方程式集合を手続き的に生成し、同時にトランスフォーマーを事前学習し、対応する入力出力ペアから記号方程式を予測する。 テスト時に新しい点の集合についてモデルをクエリし、その出力を使って方程式の探索をガイドする。 このアプローチがよく知られた物理方程式の集合を再発見し、より多くのデータや計算によって時間とともに改善できることを実証的に示す。

Symbolic equations are at the core of scientific discovery. The task of discovering the underlying equation from a set of input-output pairs is called symbolic regression. Traditionally, symbolic regression methods use hand-designed strategies that do not improve with experience. In this paper, we introduce the first symbolic regression method that leverages large scale pre-training. We procedurally generate an unbounded set of equations, and simultaneously pre-train a Transformer to predict the symbolic equation from a corresponding set of input-output-pairs. At test time, we query the model on a new set of points and use its output to guide the search for the equation. We show empirically that this approach can re-discover a set of well-known physical equations, and that it improves over time with more data and compute.
翻訳日:2021-06-14 14:08:58 公開日:2021-06-11
# 反爆発としてのオフライン強化学習

Offline Reinforcement Learning as Anti-Exploration ( http://arxiv.org/abs/2106.06431v1 )

ライセンス: Link先を確認
Shideh Rezaeifar, Robert Dadashi, Nino Vieillard, L\'eonard Hussenot, Olivier Bachem, Olivier Pietquin, Matthieu Geist(参考訳) オフライン強化学習(RL)は、システムと対話することなく、固定データセットから最適な制御を学ぶことを目的としている。 この設定のエージェントは、データから結果が予測できないアクションを選択することを避けるべきです。 これは、そのような行動を好むRLにおける探索の逆である。 そこで我々は,新しいオフラインrlエージェントの設計において,ボーナスに基づく探索に関する文献から着想を得た。 中心となるアイデアは、探索のために追加するのではなく、報酬から予測ベースの探査ボーナスを減じることだ。 これにより、ポリシーはデータセットのサポートに近づき続けることができる。 このアプローチを、データに対する学習ポリシーのより一般的な正規化と結びつけます。 可変オートエンコーダの予測誤差に基づいてボーナスを付与することにより, エージェントは連続的な制御ロコモーションと操作タスクのセット上で, 技術と競合することを示す。

Offline Reinforcement Learning (RL) aims at learning an optimal control from a fixed dataset, without interactions with the system. An agent in this setting should avoid selecting actions whose consequences cannot be predicted from the data. This is the converse of exploration in RL, which favors such actions. We thus take inspiration from the literature on bonus-based exploration to design a new offline RL agent. The core idea is to subtract a prediction-based exploration bonus from the reward, instead of adding it for exploration. This allows the policy to stay close to the support of the dataset. We connect this approach to a more common regularization of the learned policy towards the data. Instantiated with a bonus based on the prediction error of a variational autoencoder, we show that our agent is competitive with the state of the art on a set of continuous control locomotion and manipulation tasks.
翻訳日:2021-06-14 14:08:45 公開日:2021-06-11
# multi-receiver online bayesian persuasion

Multi-Receiver Online Bayesian Persuasion ( http://arxiv.org/abs/2106.06480v1 )

ライセンス: Link先を確認
Matteo Castiglioni, Alberto Marchesi, Andrea Celli, Nicola Gatti(参考訳) ベイズ的説得は、情報発信者が自己興味のある受信者の行動に影響を与える情報の一部を開示する方法を研究する。 古典的なモデルは、送信者が受信機のユーティリティを知っているという厳密な仮定を作る。 これは、送信者が未知で敵対的に選択されたタイプの受信者に対して繰り返し向き合うオンライン学習フレームワークを考えることで緩和できる。 我々は,複数の受信機を備えたオンラインベイズ型説得セットを初めて調査した。 オフラインモデルの慣習として、外部性やバイナリアクションのないケースに焦点を当てます。 我々のゴールは、多項式ごとの実行時間を持つ送信者のための非回帰アルゴリズムを設計することである。 まず、0 < \alpha \leq 1$ に対して、送信者のユーティリティ関数が超モジュラーまたは匿名である場合、多項式時間 no-\alpha$-regret アルゴリズムは存在しない。 次に、サブモジュラー送信者のユーティリティ関数の場合に焦点を当て、この場合、多項式時間 no-$(1 - \frac{1}{e})$-regret アルゴリズムを設計することができることを示す。 そこで本研究では,オンライン学習問題を扱うための一般的なオンライン勾配降下方式を提案する。 これは近似射影オラクルの存在を必要とする。 私たちの設定では、多項式時間で実装可能な投影オラクルが1つ存在することを示します。

Bayesian persuasion studies how an informed sender should partially disclose information to influence the behavior of a self-interested receiver. Classical models make the stringent assumption that the sender knows the receiver's utility. This can be relaxed by considering an online learning framework in which the sender repeatedly faces a receiver of an unknown, adversarially selected type. We study, for the first time, an online Bayesian persuasion setting with multiple receivers. We focus on the case with no externalities and binary actions, as customary in offline models. Our goal is to design no-regret algorithms for the sender with polynomial per-iteration running time. First, we prove a negative result: for any $0 < \alpha \leq 1$, there is no polynomial-time no-$\alpha$-regret algorithm when the sender's utility function is supermodular or anonymous. Then, we focus on the case of submodular sender's utility functions and we show that, in this case, it is possible to design a polynomial-time no-$(1 - \frac{1}{e})$-regret algorithm. To do so, we introduce a general online gradient descent scheme to handle online learning problems with a finite number of possible loss functions. This requires the existence of an approximate projection oracle. We show that, in our setting, there exists one such projection oracle which can be implemented in polynomial time.
翻訳日:2021-06-14 14:07:36 公開日:2021-06-11
# JPEGゴーストを用いた画像法医学的手法

An Image Forensic Technique Based on JPEG Ghosts ( http://arxiv.org/abs/2106.06439v1 )

ライセンス: Link先を確認
Divakar Singh(参考訳) 画像編集ツールの使い勝手は前例のない成長により、デジタル画像のパワーを脅かしている。画像は1000語以上の価値があるはずだったが、現在では、画像の認証や完全性が無傷であることを証明できるだけに留まっている。 本稿では,JPEG画像に対するディジタル画像法学手法を提案する。 ゴースト画像と呼ばれる鍛造部がカバー画像と異なる圧縮品質を有する場合、画像中の偽物を検出することができる。 これは、JPEG画像を異なるJPEG品質で保存することに基づいており、カバー画像と同じJPEG品質で保存された場合には、鍛造部分の検出が最大となる。 また,SSIM(Structuor similarity Index Measure)や画像のエネルギーを用いて類似性を解析することにより,カバー画像のJPEG品質を正確に予測することができる。 SSIMの第1の最大値または第1のミニマエネルギーは、カバー画像JPEGの品質に対応する。 我々は、ゴーストとカバー画像のjpeg圧縮品質を変化させるadatasetを作成し、実験結果のスケーラビリティを検証するとともに、攻撃シナリオの異なる実験を行った。 高品質のカバー画像に埋め込まれた高品質のゴースト画像,高品質のカバー画像に埋め込まれた低品質のゴースト画像,およびゴースト画像とカバー画像の両方が同一品質で,提案手法は,10×10サイズの画素ブロックのフォージェリーであっても,改ざんした部分を正確に位置決めすることができる。我々の技術は,コピー・モーブ・フォージェリー,テキストの挿入,画像への再スケーリング,ゴースト画像の再スケーリング,カバー画像への貼り付けといった他の攻撃シナリオに対しても堅牢である。

The unprecedented growth in the easy availability of photo-editing tools has endangered the power of digital images.An image was supposed to be worth more than a thousand words,but now this can be said only if it can be authenticated orthe integrity of the image can be proved to be intact. In thispaper, we propose a digital image forensic technique for JPEG images. It can detect any forgery in the image if the forged portion called a ghost image is having a compression quality different from that of the cover image. It is based on resaving the JPEG image at different JPEG qualities, and the detection of the forged portion is maximum when it is saved at the same JPEG quality as the cover image. Also, we can precisely predictthe JPEG quality of the cover image by analyzing the similarity using Structural Similarity Index Measure (SSIM) or the energyof the images. The first maxima in SSIM or the first minima inenergy correspond to the cover image JPEG quality. We created adataset for varying JPEG compression qualities of the ghost and the cover images and validated the scalability of the experimental results.We also, experimented with varied attack scenarios, e.g. high-quality ghost image embedded in low quality of cover image,low-quality ghost image embedded in high-quality of cover image,and ghost image and cover image both at the same quality.The proposed method is able to localize the tampered portions accurately even for forgeries as small as 10x10 sized pixel blocks.Our technique is also robust against other attack scenarios like copy-move forgery, inserting text into image, rescaling (zoom-out/zoom-in) ghost image and then pasting on cover image.
翻訳日:2021-06-14 14:07:15 公開日:2021-06-11
# 点雲のオクター表現符号化における確率のニューラルネットワークモデリング

Neural Network Modeling of Probabilities for Coding the Octree Representation of Point Clouds ( http://arxiv.org/abs/2106.06482v1 )

ライセンス: Link先を確認
Emre Can Kaya, Ioan Tabus(参考訳) 本稿では,ボクセル周辺の広い3次元の状況に応じて,ボクセルの占有状況の符号化確率をニューラルネットワークを用いて推定する,新しいロスレスポイントクラウド圧縮アルゴリズムについて述べる。 ポイントクラウドはoctreeとして表現され、各解像度層はシーケンシャルにエンコードされ、最下位の解像度から最終解像度に到達するまで算術符号化によってデコードされる。 octreeの各ノードにおける分割パターンの各ボクセルの占有確率はニューラルネットワークによってモデル化され、入力時にエンコードされるノードを取り巻く3dコンテキストに対応する複数のoctreeノードの既にエンコードされた占有状態(過去と現在の解像度)を有する。 アルゴリズムは高速で遅いバージョンを持ち、コンテキストの異なるボクセルを選択する高速バージョンは、エンコーダとデコーダの両方で、ニューラルネットワークによって推定される大きなテンプレートのバッチを送信することで並列化を増加させる。 提案したアルゴリズムは、ベンチマークデータセット上で最先端の結果を得る。 実装はhttps://github.com/marmus12/nnctxで公開される。

This paper describes a novel lossless point cloud compression algorithm that uses a neural network for estimating the coding probabilities for the occupancy status of voxels, depending on wide three dimensional contexts around the voxel to be encoded. The point cloud is represented as an octree, with each resolution layer being sequentially encoded and decoded using arithmetic coding, starting from the lowest resolution, until the final resolution is reached. The occupancy probability of each voxel of the splitting pattern at each node of the octree is modeled by a neural network, having at its input the already encoded occupancy status of several octree nodes (belonging to the past and current resolutions), corresponding to a 3D context surrounding the node to be encoded. The algorithm has a fast and a slow version, the fast version selecting differently several voxels of the context, which allows an increased parallelization by sending larger batches of templates to be estimated by the neural network, at both encoder and decoder. The proposed algorithms yield state-of-the-art results on benchmark datasets. The implementation will be made available at https://github.com/marmus12/nnctx
翻訳日:2021-06-14 14:06:43 公開日:2021-06-11
# 長編映像からのマクロ・マイクロ表現スポッティングのための浅層光フロー3ストリームcnn

Shallow Optical Flow Three-Stream CNN for Macro- and Micro-Expression Spotting from Long Videos ( http://arxiv.org/abs/2106.06489v1 )

ライセンス: Link先を確認
Gen-Bing Liong, John See, Lai-Kuan Wong(参考訳) 表情は目に見えるものから微妙なものまで様々である。 近年、マイクロ表現の分析は、人間の真の感情の抑制に起因する自然発生であり、幅広い応用の可能性を持つ研究者の注目を集めている。 しかし, ビデオ中のマイクロ表現の発見は, 正規表現やマクロ表現に絡み合うとますます困難になる。 本稿では,表現区間内に存在するフレームの確率を推定するスコアを推定するために,浅い光流3ストリームCNN(SOFTNet)モデルを提案する。 本研究では,スポッティングタスクを回帰問題とすることで,学習プロセスを容易にするために擬似ラベルを導入する。 本稿では,CAS(ME)$^{2}$で最先端の性能を達成し,SAMM Long Videosでも同様に有望な結果が得られるMEGC 2020ベンチマークにおいて,提案手法の有効性と有効性を示す。

Facial expressions vary from the visible to the subtle. In recent years, the analysis of micro-expressions $-$ a natural occurrence resulting from the suppression of one's true emotions, has drawn the attention of researchers with a broad range of potential applications. However, spotting microexpressions in long videos becomes increasingly challenging when intertwined with normal or macro-expressions. In this paper, we propose a shallow optical flow three-stream CNN (SOFTNet) model to predict a score that captures the likelihood of a frame being in an expression interval. By fashioning the spotting task as a regression problem, we introduce pseudo-labeling to facilitate the learning process. We demonstrate the efficacy and efficiency of the proposed approach on the recent MEGC 2020 benchmark, where state-of-the-art performance is achieved on CAS(ME)$^{2}$ with equally promising results on SAMM Long Videos.
翻訳日:2021-06-14 14:06:24 公開日:2021-06-11
# オンライン広告における自動入札のための協調競争型マルチエージェントフレームワーク

A Cooperative-Competitive Multi-Agent Framework for Auto-bidding in Online Advertising ( http://arxiv.org/abs/2106.06224v1 )

ライセンス: Link先を確認
Chao Wen, Miao Xu, Zhilin Zhang, Zhenzhe Zheng, Yuhui Wang, Xiangyu Liu, Yu Rong, Dong Xie, Xiaoyang Tan, Chuan Yu, Jian Xu, Fan Wu, Guihai Chen, Xiaoqiang Zhu(参考訳) オンライン広告において、自動入札は、単に高いレベルのキャンペーン目標と制約を表現するだけで、広告主が好む広告パフォーマンス指標を最適化するための必須のツールとなっている。 先行研究では,エージェント間の相互影響をモデル化することなく,単一エージェント視点からの自動入札エージェントの設計を検討する。 本稿では、分散マルチエージェントシステムの観点からこの問題を考察し、自動入札(MAAB)のための汎用マルチエージェント強化学習フレームワークを提案する。 まず, 自動入札エージェント間の競合関係と協調関係について検討し, 複合協調競争パラダイムを確立するための温度調整型クレジット割り当てを提案する。 エージェント間の競争と協力のトレードオフを慎重に行うことで、個々の広告主の効用だけでなくシステムパフォーマンス(社会福祉)も保証する均衡状態に達することができる。 第2に、協力の基盤となる低価格入札の結束行動が観察されていることから、各エージェントにパーソナライズされた入札バーを設定し、収益の低下を緩和するバーエージェントを提案する。 第3に,MAABを数百万の広告主による大規模広告システムに展開するために,平均場アプローチを提案する。 平均的な自動入札エージェントと同じ目的の広告主をグループ化することにより、広告主間のインタラクションが大幅に単純化され、maabの効率的なトレーニングが実現する。 オフライン産業データセットとalibaba広告プラットフォームに関する広範な実験は、我々のアプローチが社会福祉の観点からいくつかの基準手法を上回っており、広告プラットフォームの収益を保証していることを示している。

In online advertising, auto-bidding has become an essential tool for advertisers to optimize their preferred ad performance metrics by simply expressing the high-level campaign objectives and constraints. Previous works consider the design of auto-bidding agents from the single-agent view without modeling the mutual influence between agents. In this paper, we instead consider this problem from the perspective of a distributed multi-agent system, and propose a general Multi-Agent reinforcement learning framework for Auto-Bidding, namely MAAB, to learn the auto-bidding strategies. First, we investigate the competition and cooperation relation among auto-bidding agents, and propose temperature-regularized credit assignment for establishing a mixed cooperative-competitive paradigm. By carefully making a competition and cooperation trade-off among the agents, we can reach an equilibrium state that guarantees not only individual advertiser's utility but also the system performance (social welfare). Second, due to the observed collusion behaviors of bidding low prices underlying the cooperation, we further propose bar agents to set a personalized bidding bar for each agent, and then to alleviate the degradation of revenue. Third, to deploy MAAB to the large-scale advertising system with millions of advertisers, we propose a mean-field approach. By grouping advertisers with the same objective as a mean auto-bidding agent, the interactions among advertisers are greatly simplified, making it practical to train MAAB efficiently. Extensive experiments on the offline industrial dataset and Alibaba advertising platform demonstrate that our approach outperforms several baseline methods in terms of social welfare and guarantees the ad platform's revenue.
翻訳日:2021-06-14 14:05:45 公開日:2021-06-11
# Score-based Generative Model を用いた逆浄化

Adversarial purification with Score-based generative models ( http://arxiv.org/abs/2106.06041v1 )

ライセンス: Link先を確認
Jongmin Yoon, Sung Ju Hwang, Juho Lee(参考訳) 画像分類器の敵意攻撃に対する標準的な防御法として敵意訓練が考えられる一方で、攻撃された画像を単独の浄化モデルでクリーン画像に精製する敵意浄化法が、代替防御法として期待されている。 近年,Markov-Chain Monte-Carlo (MCMC) で訓練されたEnergy-based Model (EBM) が浄化モデルとして強調され,EBMの勾配を用いて長めのMarkov-chainを走らせることで攻撃画像が浄化される。 しかし, この浄化に必要なMCMCステップの数が多すぎるため, EBMを用いた対向浄化の実用性には疑問が残る。 本稿では,Denoising Score-Matching (DSM) を訓練したEMMに基づく新しい逆浄化法を提案する。 DSMで訓練されたESMは、数ステップで迅速に攻撃画像の浄化ができることを示す。 さらに,画像にランダムノイズを注入する簡易で効果的なランダム化浄化手法を提案する。 このプロセスは、ランダムノイズによって画像に課される敵の摂動を遮蔽し、その画像をESMが正常に雑音化できる体制に導く。 本手法は様々な攻撃に対して堅牢であり,その最先端性能を示す。

While adversarial training is considered as a standard defense method against adversarial attacks for image classifiers, adversarial purification, which purifies attacked images into clean images with a standalone purification model, has shown promises as an alternative defense method. Recently, an Energy-Based Model (EBM) trained with Markov-Chain Monte-Carlo (MCMC) has been highlighted as a purification model, where an attacked image is purified by running a long Markov-chain using the gradients of the EBM. Yet, the practicality of the adversarial purification using an EBM remains questionable because the number of MCMC steps required for such purification is too large. In this paper, we propose a novel adversarial purification method based on an EBM trained with Denoising Score-Matching (DSM). We show that an EBM trained with DSM can quickly purify attacked images within a few steps. We further introduce a simple yet effective randomized purification scheme that injects random noises into images before purification. This process screens the adversarial perturbations imposed on images by the random noises and brings the images to the regime where the EBM can denoise well. We show that our purification method is robust against various attacks and demonstrate its state-of-the-art performances.
翻訳日:2021-06-14 14:05:19 公開日:2021-06-11
# 単調ニューラルネットワーク:Chiller Plants Energy Optimizationのためのディープラーニングとドメイン知識を組み合わせる

Monotonic Neural Network: combining Deep Learning with Domain Knowledge for Chiller Plants Energy Optimization ( http://arxiv.org/abs/2106.06143v1 )

ライセンス: Link先を確認
Fanhe Ma, Faen Zhang, Shenglan Ben, Shuxin Qin, Pengcheng Zhou, Changsheng Zhou and Fengyi Xu(参考訳) 本稿では,低温植物のエネルギー最適化問題を解決するための,ドメイン知識に基づく深層学習フレームワークの構築に注目する。 ディープラーニングのホットスポットアプリケーション(例)と比較すると 実世界の物理システムにおける深層ネットワークトレーニングのための膨大なデータを収集することは困難である。 既存の手法の多くは、複雑なシステムを線形モデルに還元し、小さなサンプルの訓練を容易にする。 そこで,本研究では,低冗長関数空間を持つ非線形モデルを構築するために,深層ネットワークの構造と損失設計におけるドメイン知識を検討する。 特に、ほとんどの冷却器のエネルギー消費推定は、入力出力単調問題として物理的に見なすことができる。 したがって、システムの物理的挙動を模倣するために、単調な制約を持つニューラルネットワークを設計できる。 提案手法をデータセンターの冷却システムで検証し, 実験結果から, 既存の冷却システムと比較して, エネルギー最適化におけるフレームワークの優位性を示した。

In this paper, we are interested in building a domain knowledge based deep learning framework to solve the chiller plants energy optimization problems. Compared to the hotspot applications of deep learning (e.g. image classification and NLP), it is difficult to collect enormous data for deep network training in real-world physical systems. Most existing methods reduce the complex systems into linear model to facilitate the training on small samples. To tackle the small sample size problem, this paper considers domain knowledge in the structure and loss design of deep network to build a nonlinear model with lower redundancy function space. Specifically, the energy consumption estimation of most chillers can be physically viewed as an input-output monotonic problem. Thus, we can design a Neural Network with monotonic constraints to mimic the physical behavior of the system. We verify the proposed method in a cooling system of a data center, experimental results show the superiority of our framework in energy optimization compared to the existing ones.
翻訳日:2021-06-14 14:04:53 公開日:2021-06-11
# 巨大グラフを用いた混合CPU-GPU学習のためのグローバル近隣サンプリング

Global Neighbor Sampling for Mixed CPU-GPU Training on Giant Graphs ( http://arxiv.org/abs/2106.06150v1 )

ライセンス: Link先を確認
Jialin Dong, Da Zheng, Lin F. Yang, Geroge Karypis(参考訳) グラフニューラルネットワーク(GNN)は、グラフデータから学習するための強力なツールであり、ソーシャルネットワークレコメンデーション、不正検出、グラフ検索などの様々なアプリケーションで広く利用されている。 これらのアプリケーション内のグラフは概して大きく、通常は数億のノードを含む。 このような大きなグラフ上でGNNモデルを効率的にトレーニングすることは大きな課題である。 大規模なグラフ上でのミニバッチトレーニングを実現するためのサンプリングベース手法が数多く提案されているが、GPUや混合CPU-GPUのトレーニングを必要とする真の産業規模のグラフでは、これらの手法が動作しないことが証明されている。 最先端のサンプリングベース手法は通常、cpuとgpu間のデータ移動がボトルネックとなる現実のハードウェア設定に最適化されていない。 この問題に対処するため,我々は,CPU-GPU混合トレーニングに特化した巨大グラフ上でのGNNのトレーニングを目的としたGlobal Neighborhood Smplingを提案する。 このアルゴリズムは、すべてのミニバッチに対して定期的にノードのグローバルキャッシュをサンプリングし、gpuに格納する。 このグローバルキャッシュは、GPU内でのミニバッチのサンプリングを可能にし、特に入力層におけるミニバッチのノード数を劇的に削減し、トレーニング収束率やモデルの精度を損なうことなく、CPUとGPU間のデータコピーとミニバッチ計算を減らす。 我々は,この手法を高度に効率的に実装し,その実装が巨大グラフ上のノード毎隣接サンプリングベースラインを2x-4xの係数で上回ることを示す。 LADIESよりもはるかに高い精度で2X-14Xの係数で小さな層でLADIESを効率よく実装し,提案アルゴリズムを理論的に解析し,適切なサイズのキャッシュノードデータを用いて,基礎となるノードワイドサンプリング法と同等の収束率を持つことを示す。

Graph neural networks (GNNs) are powerful tools for learning from graph data and are widely used in various applications such as social network recommendation, fraud detection, and graph search. The graphs in these applications are typically large, usually containing hundreds of millions of nodes. Training GNN models on such large graphs efficiently remains a big challenge. Despite a number of sampling-based methods have been proposed to enable mini-batch training on large graphs, these methods have not been proved to work on truly industry-scale graphs, which require GPUs or mixed-CPU-GPU training. The state-of-the-art sampling-based methods are usually not optimized for these real-world hardware setups, in which data movement between CPUs and GPUs is a bottleneck. To address this issue, we propose Global Neighborhood Sampling that aims at training GNNs on giant graphs specifically for mixed-CPU-GPU training. The algorithm samples a global cache of nodes periodically for all mini-batches and stores them in GPUs. This global cache allows in-GPU importance sampling of mini-batches, which drastically reduces the number of nodes in a mini-batch, especially in the input layer, to reduce data copy between CPU and GPU and mini-batch computation without compromising the training convergence rate or model accuracy. We provide a highly efficient implementation of this method and show that our implementation outperforms an efficient node-wise neighbor sampling baseline by a factor of 2X-4X on giant graphs. It outperforms an efficient implementation of LADIES with small layers by a factor of 2X-14X while achieving much higher accuracy than LADIES.We also theoretically analyze the proposed algorithm and show that with cached node data of a proper size, it enjoys a comparable convergence rate as the underlying node-wise sampling method.
翻訳日:2021-06-14 14:04:38 公開日:2021-06-11
# DRLD-SP:エッジ対応車載インターネットにおける深層強化学習に基づく動的サービス配置

DRLD-SP: A Deep Reinforcement Learning-based Dynamic Service Placement in Edge-Enabled Internet of Vehicles ( http://arxiv.org/abs/2106.06291v1 )

ライセンス: Link先を確認
Anum Talpur and Mohan Gurusamy(参考訳) 5Gとエッジコンピューティングの成長により、自動車のインターネットが誕生した。 異なるタイプのサービスをサポートし、異なるリソースとサービス要件を持つ。 しかし、エッジでの限られた資源、車両の高モビリティ、需要の増加、サービス要求タイプの動的性は、サービスの配置を困難にしている。 典型的な静的配置ソリューションは、トラフィック移動性とサービスダイナミクスを考慮していないため、効果的ではない。 サービス配置のためのIoVの動的処理は重要かつ困難な問題であり、本論文における作業の中心となる。 本稿では,車両の移動性,需要の変化,サービス要求のダイナミクスを考慮しつつ,最大エッジリソース使用量とサービス遅延を最小限に抑えることを目的とした,深層強化学習に基づく動的サービス配置(drld-sp)フレームワークを提案する。 シミュレーション実験にはSUMOとMATLABを用いる。 実験の結果,DRLD-SP法は有効であり,他の静的および動的配置法よりも優れていた。

The growth of 5G and edge computing has enabled the emergence of Internet of Vehicles. It supports different types of services with different resource and service requirements. However, limited resources at the edge, high mobility of vehicles, increasing demand, and dynamicity in service request-types have made service placement a challenging task. A typical static placement solution is not effective as it does not consider the traffic mobility and service dynamics. Handling dynamics in IoV for service placement is an important and challenging problem which is the primary focus of our work in this paper. We propose a Deep Reinforcement Learning-based Dynamic Service Placement (DRLD-SP) framework with the objective of minimizing the maximum edge resource usage and service delay while considering the vehicle's mobility, varying demand, and dynamics in the requests for different types of services. We use SUMO and MATLAB to carry out simulation experiments. The experimental results show that the proposed DRLD-SP approach is effective and outperforms other static and dynamic placement approaches.
翻訳日:2021-06-14 14:04:04 公開日:2021-06-11
# 実践的垂直的フェデレーション学習における記録的類似性

Exploiting Record Similarity for Practical Vertical Federated Learning ( http://arxiv.org/abs/2106.06312v1 )

ライセンス: Link先を確認
Zhaomin Wu, Qinbin Li, Bingsheng He(参考訳) 機械学習のプライバシへの関心が高まる中、生データを明かすことなく協調学習を可能にするために連合学習が導入された。 特に、パーティが同じサンプルセットを共有するが、部分的な機能しか持たない \textit{vertical federated learning} (vfl) には、幅広い現実世界のアプリケーションがある。 しかしながら、VFL の既存の研究は 'record linkage' プロセスの研究はめったにない。 彼らは、異なるパーティのデータがリンクされていると仮定するアルゴリズムを設計するか、正確なリンクやトップ1リンクのような単純なリンク手法を使用する。 これらのアプローチは、GPSロケーションやファジィマッチングを必要とするノイズの多いタイトルなど、多くのアプリケーションには適さない。 本稿では,より現実世界のアプリケーションに適した新しい類似性に基づくvflフレームワークfeedsimを設計し,従来のvflタスクで高いパフォーマンスを実現する。 さらに,類似性を共有することによって生じるプライバシーリスクを理論的に分析する。 3つの合成データセットと様々な類似度メトリクスを持つ5つの実世界のデータセットに関する実験は、feedsimが常に最先端のベースラインを上回ることを示している。

As the privacy of machine learning has drawn increasing attention, federated learning is introduced to enable collaborative learning without revealing raw data. Notably, \textit{vertical federated learning} (VFL), where parties share the same set of samples but only hold partial features, has a wide range of real-world applications. However, existing studies in VFL rarely study the ``record linkage'' process. They either design algorithms assuming the data from different parties have been linked or use simple linkage methods like exact-linkage or top1-linkage. These approaches are unsuitable for many applications, such as the GPS location and noisy titles requiring fuzzy matching. In this paper, we design a novel similarity-based VFL framework, FedSim, which is suitable for more real-world applications and achieves higher performance on traditional VFL tasks. Moreover, we theoretically analyze the privacy risk caused by sharing similarities. Our experiments on three synthetic datasets and five real-world datasets with various similarity metrics show that FedSim consistently outperforms other state-of-the-art baselines.
翻訳日:2021-06-14 14:03:46 公開日:2021-06-11
# 強化学習による無人区間における自動車両の丁寧な挙動

Courteous Behavior of Automated Vehicles at Unsignalized Intersections via Reinforcement Learning ( http://arxiv.org/abs/2106.06369v1 )

ライセンス: Link先を確認
Shengchao Yan, Tim Welschehold, Daniel B\"uscher, Wolfram Burgard(参考訳) 今日の人間主導のトラフィックから純粋に自動化されたトラフィックへの移行は、徐々に進化し、近い将来に混在するトラフィックを経験することになるでしょう。 接続された自動車両は、衝突回避の改善や交通波の低減など、人力車両や交通システム全体に対して、さまざまな方法で恩恵を受けることができる。 多くの研究が交差点管理の改善、交通の重大なボトルネック、インテリジェントな交通信号や専用自動走行車によって行われている。 しかし,未標識交差点における混在交通改善の問題点は少ない。 本稿では,深層強化学習を用いた混在交通状況における交差点交通流の最適化手法を提案する。 我々の強化学習エージェントは、信号のない交差点で接続された自動運転車が道路の権利を放棄し、交通の流れを最適化するために他の車両に利する、集中型制御器のポリシーを学習する。 本手法を実装し,シミュレーションおよび実際の交通データに基づいて,交通シミュレータsumoでテストを行った。 提案手法は,混合交通環境において無信号交差点を経由するトラヒックフローを著しく改善すると同時に,信号交差点に対する最先端のトラヒック信号制御装置と比較して,幅広いトラヒック状況での性能を向上させることを実証する。

The transition from today's mostly human-driven traffic to a purely automated one will be a gradual evolution, with the effect that we will likely experience mixed traffic in the near future. Connected and automated vehicles can benefit human-driven ones and the whole traffic system in different ways, for example by improving collision avoidance and reducing traffic waves. Many studies have been carried out to improve intersection management, a significant bottleneck in traffic, with intelligent traffic signals or exclusively automated vehicles. However, the problem of how to improve mixed traffic at unsignalized intersections has received less attention. In this paper, we propose a novel approach to optimizing traffic flow at intersections in mixed traffic situations using deep reinforcement learning. Our reinforcement learning agent learns a policy for a centralized controller to let connected autonomous vehicles at unsignalized intersections give up their right of way and yield to other vehicles to optimize traffic flow. We implemented our approach and tested it in the traffic simulator SUMO based on simulated and real traffic data. The experimental evaluation demonstrates that our method significantly improves traffic flow through unsignalized intersections in mixed traffic settings and also provides better performance on a wide range of traffic situations compared to the state-of-the-art traffic signal controller for the corresponding signalized intersection.
翻訳日:2021-06-14 14:03:27 公開日:2021-06-11
# 同期・非同期分散学習のためのcnnの分離学習

Decoupled Greedy Learning of CNNs for Synchronous and Asynchronous Distributed Learning ( http://arxiv.org/abs/2106.06401v1 )

ライセンス: Link先を確認
Eugene Belilovsky (MILA), Louis Leconte (MLIA, CMAP), Lucas Caccia (MILA), Michael Eickenberg, Edouard Oyallon (MLIA)(参考訳) バックプロパゲーションを用いたニューラルネットワークトレーニングの非効率性として一般的に引用されているのは、更新ロックの問題である。 この問題を緩和できる代替案がいくつか提案されている。 この文脈では、最小のフィードバックに基づく単純な代替案を考え、これをdecoupled greedy learning(dgl)と呼ぶ。 近年,大規模画像分類における畳み込みニューラルネットワーク(cnns)の文脈において有効であることが示されている。 この目的を最適化することで、レイヤトレーニングを分離し、ネットワーク内のレイヤやモジュールを潜在的に線形並列化でトレーニングすることが可能になります。 リプレイバッファを使用することで、このアプローチが非同期設定にまで拡張可能であることを示します。 帯域幅とメモリの問題に対処するため,オンラインベクトル量子化に基づく手法を提案する。 これにより、バッファの再生に必要なモジュールとメモリ間の通信帯域を大幅に削減できる。 このアプローチが収束し、シーケンシャルソルバと比較できることを理論的および実証的に示す。 CIFAR-10データセットと大規模イメージネットデータセットの代替手法に対するDGLの有効性を示す。

A commonly cited inefficiency of neural network training using back-propagation is the update locking problem: each layer must wait for the signal to propagate through the full network before updating. Several alternatives that can alleviate this issue have been proposed. In this context, we consider a simple alternative based on minimal feedback, which we call Decoupled Greedy Learning (DGL). It is based on a classic greedy relaxation of the joint training objective, recently shown to be effective in the context of Convolutional Neural Networks (CNNs) on large-scale image classification. We consider an optimization of this objective that permits us to decouple the layer training, allowing for layers or modules in networks to be trained with a potentially linear parallelization. With the use of a replay buffer we show that this approach can be extended to asynchronous settings, where modules can operate and continue to update with possibly large communication delays. To address bandwidth and memory issues we propose an approach based on online vector quantization. This allows to drastically reduce the communication bandwidth between modules and required memory for replay buffers. We show theoretically and empirically that this approach converges and compare it to the sequential solvers. We demonstrate the effectiveness of DGL against alternative approaches on the CIFAR-10 dataset and on the large-scale ImageNet dataset.
翻訳日:2021-06-14 14:03:05 公開日:2021-06-11
# キーフレームに着目した視覚模倣学習

Keyframe-Focused Visual Imitation Learning ( http://arxiv.org/abs/2106.06452v1 )

ライセンス: Link先を確認
Chuan Wen, Jierui Lin, Jianing Qian, Yang Gao, Dinesh Jayaraman(参考訳) 模擬学習は、事前記録された専門家のデモンストレーションを模倣してポリシーを制御する。 部分的に観察可能な環境では、模倣ポリシーは観察履歴に依存する必要があるが、一見パラドックス的な結果の多くは、最新の観察にのみアクセスするポリシーのパフォーマンスを示している。 因果グラフ学習から深い情報のボトルネックまで,近年のソリューションは有望な結果を示しているが,視覚的模倣のような現実的な設定には達しなかった。 専門家のアクション・チェンジポイントに対応するキーフレームの重み付けを行うことにより,これらのアプローチに勝るソリューションを提案する。 この単純なアプローチは、複雑な視覚模倣設定に簡単にスケールできる。 画像ベースGym MuJoCo連続制御タスクにおいて,すべてのベースラインに対して一貫した性能向上を示す。 最後に,carla photorealistic vision-based urban driving simulatorにおいて,運転行動クローンの長期的課題を観察履歴から効果的に模倣して解決する。 補足資料とコード at: \url{https://tinyurl.com/imitation-keyframes}。

Imitation learning trains control policies by mimicking pre-recorded expert demonstrations. In partially observable settings, imitation policies must rely on observation histories, but many seemingly paradoxical results show better performance for policies that only access the most recent observation. Recent solutions ranging from causal graph learning to deep information bottlenecks have shown promising results, but failed to scale to realistic settings such as visual imitation. We propose a solution that outperforms these prior approaches by upweighting demonstration keyframes corresponding to expert action changepoints. This simple approach easily scales to complex visual imitation settings. Our experimental results demonstrate consistent performance improvements over all baselines on image-based Gym MuJoCo continuous control tasks. Finally, on the CARLA photorealistic vision-based urban driving simulator, we resolve a long-standing issue in behavioral cloning for driving by demonstrating effective imitation from observation histories. Supplementary materials and code at: \url{https://tinyurl.com/imitation-keyframes}.
翻訳日:2021-06-14 14:02:45 公開日:2021-06-11
# トロイの木馬ニューラルネットワークのトポロジカル検出

Topological Detection of Trojaned Neural Networks ( http://arxiv.org/abs/2106.06469v1 )

ライセンス: Link先を確認
Songzhu Zheng, Yikai Zhang, Hubert Wagner, Mayank Goswami, Chao Chen(参考訳) ディープニューラルネットワークにはセキュリティ上の問題が知られている。 脅威の一つは トロイの木馬攻撃だ 攻撃者はトロイの木馬の訓練サンプルを通じてモデルの動きを密かに操作し、後に悪用される。 基本的な神経科学の原理で導かれ、トロイの木馬のモデルを特徴づける微妙で重要な構造的偏差を発見する。 分析ではトポロジカルツールを使用します。 これにより、ネットワーク内の高次依存関係をモデル化し、異なるネットワークを堅牢に比較し、構造的異常をローカライズすることができます。 興味深い観察の1つは、トロイの木馬モデルが入力層から出力層への短いカットを発達させることである。 これらの観測から着想を得て,トロイの木馬モデルのロバスト検出戦略を考案する。 標準ベースラインと比較すると、複数のベンチマークでパフォーマンスが向上する。

Deep neural networks are known to have security issues. One particular threat is the Trojan attack. It occurs when the attackers stealthily manipulate the model's behavior through Trojaned training samples, which can later be exploited. Guided by basic neuroscientific principles we discover subtle -- yet critical -- structural deviation characterizing Trojaned models. In our analysis we use topological tools. They allow us to model high-order dependencies in the networks, robustly compare different networks, and localize structural abnormalities. One interesting observation is that Trojaned models develop short-cuts from input to output layers. Inspired by these observations, we devise a strategy for robust detection of Trojaned models. Compared to standard baselines it displays better performance on multiple benchmarks.
翻訳日:2021-06-14 14:02:29 公開日:2021-06-11
# chemrl-gem:geometry enhanced molecular representation learning for property prediction

ChemRL-GEM: Geometry Enhanced Molecular Representation Learning for Property Prediction ( http://arxiv.org/abs/2106.06130v1 )

ライセンス: Link先を確認
Xiaomin Fang, Lihang Liu, Jieqiong Lei, Donglong He, Shanzhuo Zhang, Jingbo Zhou, Fan Wang, Hua Wu, and Haifeng Wang(参考訳) 効果的な分子表現学習は、分子特性の予測を促進するために非常に重要である。 グラフニューラルネットワーク(GNN)の最近の進歩は、分子表現学習にGNNを適用することに大きな期待を示している。 さらに、近年の研究では、ラベルが不十分な分子の問題を克服するために、GNNを事前訓練するための自己教師付き学習手法が成功したことも示されている。 しかし、既存のGNNや事前学習戦略は通常、分子の幾何学的情報を完全に活用せずに、トポロジカルグラフデータとして扱う。 一方、分子の3次元空間構造(分子幾何学)は、分子の物理的、化学的、生物学的性質を決定する上で最も重要な要素の1つである。 そこで本研究では,化学表現学習のためのGEM(Geometry Enhanced Molecular representation learning)を提案する。 まず、分子内の原子、結合、結合角を同時にモデル化する幾何学に基づくGNNアーキテクチャを設計する。 具体的には、分子の二重グラフを考案した: 1つは原子結合関係を符号化し、2つ目は結合-角関係を符号化する。 さらに,考案されたGNNアーキテクチャ上に,局所的およびグローバルな分子3D構造を利用して空間的知識を学習するための幾何レベルの自己教師型学習戦略を提案する。 我々は,ChemRL-GEMを,異なる分子ベンチマーク上での様々な最先端(SOTA)ベースラインと比較し,ChemRL-GEMが回帰および分類タスクにおいて,すべてのベースラインを著しく上回ることを示す。 例えば、実験の結果、回帰タスクのsotaベースラインと比較すると、平均で8.8\%$の全体的な改善を示し、提案手法の優位性を示した。

Effective molecular representation learning is of great importance to facilitate molecular property prediction, which is a fundamental task for the drug and material industry. Recent advances in graph neural networks (GNNs) have shown great promise in applying GNNs for molecular representation learning. Moreover, a few recent studies have also demonstrated successful applications of self-supervised learning methods to pre-train the GNNs to overcome the problem of insufficient labeled molecules. However, existing GNNs and pre-training strategies usually treat molecules as topological graph data without fully utilizing the molecular geometry information. Whereas, the three-dimensional (3D) spatial structure of a molecule, a.k.a molecular geometry, is one of the most critical factors for determining molecular physical, chemical, and biological properties. To this end, we propose a novel Geometry Enhanced Molecular representation learning method (GEM) for Chemical Representation Learning (ChemRL). At first, we design a geometry-based GNN architecture that simultaneously models atoms, bonds, and bond angles in a molecule. To be specific, we devised double graphs for a molecule: The first one encodes the atom-bond relations; The second one encodes bond-angle relations. Moreover, on top of the devised GNN architecture, we propose several novel geometry-level self-supervised learning strategies to learn spatial knowledge by utilizing the local and global molecular 3D structures. We compare ChemRL-GEM with various state-of-the-art (SOTA) baselines on different molecular benchmarks and exhibit that ChemRL-GEM can significantly outperform all baselines in both regression and classification tasks. For example, the experimental results show an overall improvement of $8.8\%$ on average compared to SOTA baselines on the regression tasks, demonstrating the superiority of the proposed method.
翻訳日:2021-06-14 14:01:56 公開日:2021-06-11
# 二元分類モデルとクラスセントロイドを用いた異常音検出

Anomalous Sound Detection Using a Binary Classification Model and Class Centroids ( http://arxiv.org/abs/2106.06151v1 )

ライセンス: Link先を確認
Ibuki Kuroyanagi, Tomoki Hayashi, Kazuya Takeda, Tomoki Toda(参考訳) 未知の異常音を検出する異常音検出システムは通常、通常の音声データのみを用いて構築する必要がある。 また、システムの動作を通じて蓄積される少量の異常音データを効果的に利用することにより、システムを改善することが望ましい。 これらの要件を満たす方法の1つとして,正規データだけでなく,他の領域の異常データを用いて,異常データを用いて容易に更新可能な擬似異常音データとして,バイナリ分類モデルに注目する。 本稿では,距離学習に基づく新しい損失関数を実装し,二元分類モデルのための特徴空間内の各クラスセントロイド間の距離関係を学習する。 提案する二分分類と計量学習のマルチタスク学習により,正規クラスと異常クラスを線形に分離可能なまま,クラス内分散を最小化しクラス間分散を最大化する特徴空間を構築することができる。 また, 2次分類モデルをさらに改善するための異常音データの追加の有効性についても検討した。 特徴空間における各クラスセントロイド間の距離を考慮に入れた二分分類と計量学習を用いたマルチタスク学習が有効であり,訓練中に少量の異常データを用いても性能を著しく向上できることを示した。

An anomalous sound detection system to detect unknown anomalous sounds usually needs to be built using only normal sound data. Moreover, it is desirable to improve the system by effectively using a small amount of anomalous sound data, which will be accumulated through the system's operation. As one of the methods to meet these requirements, we focus on a binary classification model that is developed by using not only normal data but also outlier data in the other domains as pseudo-anomalous sound data, which can be easily updated by using anomalous data. In this paper, we implement a new loss function based on metric learning to learn the distance relationship from each class centroid in feature space for the binary classification model. The proposed multi-task learning of the binary classification and the metric learning makes it possible to build the feature space where the within-class variance is minimized and the between-class variance is maximized while keeping normal and anomalous classes linearly separable. We also investigate the effectiveness of additionally using anomalous sound data for further improving the binary classification model. Our results showed that multi-task learning using binary classification and metric learning to consider the distance from each class centroid in the feature space is effective, and performance can be significantly improved by using even a small amount of anomalous data during training.
翻訳日:2021-06-14 14:01:26 公開日:2021-06-11
# Catch-A-Waveform:単一事例から音声を生成する学習

Catch-A-Waveform: Learning to Generate Audio from a Single Short Example ( http://arxiv.org/abs/2106.06426v1 )

ライセンス: Link先を確認
Gal Greshler, Tamar Rott Shaham and Tomer Michaeli(参考訳) 音声生成のモデルは、通常数時間の録音で訓練される。 ここでは,1つの訓練信号から数秒から数秒程度で音声源の本質を捉えることが可能であることを示す。 具体的には、任意のドメイン(例えば、)から1つの短い音声信号でトレーニングできるGANベースの生成モデルを提案する。 スピーチ、音楽など) 事前トレーニングや他の外部の監視は必要ありません。 トレーニングが完了すると、トレーニング波形と意味的類似性を維持しながら、音声プリミティブの新しい構成を示す任意の持続時間のランダムなサンプルを生成することができます。 これにより、新しいジャズ即興曲や新しいアカペラ・ラップの変奏曲を単一の短い例に基づいて生成し、有名な曲のコヒーレントな修正(例)など、多くの興味深い応用が可能となる。 ビートルズの曲にオリジナル録音のみに基づく新しい歌詞を追加し、欠落した部分(塗装)を埋め込み、音声信号の帯域を拡大し(超高解像度)、クリーンなトレーニング例にアクセスせずに古い録音を拡張した。 いずれにせよ,20秒以内のトレーニングオーディオは,我々のモデルが最先端の結果を得るのに十分であることを示す。 これは、一般的な音声信号の性質に関する事前知識の欠如にもかかわらずである。

Models for audio generation are typically trained on hours of recordings. Here, we illustrate that capturing the essence of an audio source is typically possible from as little as a few tens of seconds from a single training signal. Specifically, we present a GAN-based generative model that can be trained on one short audio signal from any domain (e.g. speech, music, etc.) and does not require pre-training or any other form of external supervision. Once trained, our model can generate random samples of arbitrary duration that maintain semantic similarity to the training waveform, yet exhibit new compositions of its audio primitives. This enables a long line of interesting applications, including generating new jazz improvisations or new a-cappella rap variants based on a single short example, producing coherent modifications to famous songs (e.g. adding a new verse to a Beatles song based solely on the original recording), filling-in of missing parts (inpainting), extending the bandwidth of a speech signal (super-resolution), and enhancing old recordings without access to any clean training example. We show that in all cases, no more than 20 seconds of training audio commonly suffice for our model to achieve state-of-the-art results. This is despite its complete lack of prior knowledge about the nature of audio signals in general.
翻訳日:2021-06-14 14:01:03 公開日:2021-06-11
# Internet of Medical ThingsにおけるECGモニタリングのための適応型認知センサノード

An adaptive cognitive sensor node for ECG monitoring in the Internet of Medical Things ( http://arxiv.org/abs/2106.06498v1 )

ライセンス: Link先を確認
Matteo Antonio Scrugli, Daniela Loi, Luigi Raffo, Paolo Meloni(参考訳) 医療機器のインターネット(iomt)パラダイムは、複数の臨床試験や医療手順において主流になりつつある。 これは、非常に正確でコンパクトなセンサーデバイスと通信インフラに依存しており、データ収集と継続的患者監視を実装するという、これまで整合性のない可能性を秘めている。 それでも、この技術の可能性を完全に活用するには、いくつかのステップが必要である。 まず、エッジコンピューティングパラダイムを図に追加する必要があります。 IoMTノードのスケーラビリティ、ポータビリティ、信頼性、応答性を改善するために、一定のレベルの近接センサ処理を有効にする必要がある。 第2に、人工知能やディープラーニングに基づくもののような、新しい、ますます正確なデータ分析アルゴリズムを活用しなければならない。 これらの目的を達成するために、IoMTノードのデザイナやプログラマは、低消費電力のウェアラブルおよびポータブルな処理システム上でかなり複雑な計算タスクを実行するために、厳しい最適化タスクに直面する必要がある。 本研究では,資源制約型コンピューティングプラットフォームにおける認知データ解析アルゴリズムの実装について検討する。 電力消費を最小限に抑えるため,機器のハードウェアおよびソフトウェア構成を動的に管理し,実行時に必要な動作モードに適応する適応層を追加する。 我々は,低消費電力マイクロコントローラ上での心電図(ECG)トレースの分類に畳み込みニューラルネットワークを用いたユースケースに対するアプローチを評価した。 実験の結果,ノード設定を実行時にワークロードに適応させることで,最大50%の消費電力を削減でき,MIT-BIH Arrhythmiaデータセット上の不整脈障害検出の精度が98%以上に達することがわかった。

The Internet of Medical Things (IoMT) paradigm is becoming mainstream in multiple clinical trials and healthcare procedures. It relies on novel very accurate and compact sensing devices and communication infrastructures, opening previously unmatched possibilities of implementing data collection and continuous patient monitoring. Nevertheless, to fully exploit the potential of this technology, some steps forwards are needed. First, the edge-computing paradigm must be added to the picture. A certain level of near-sensor processing has to be enabled, to improve the scalability, portability, reliability, responsiveness of the IoMT nodes. Second, novel, increasingly accurate, data analysis algorithms, such as those based on artificial intelligence and Deep Learning, must be exploited. To reach these objectives, designers, programmers of IoMT nodes, have to face challenging optimization tasks, in order to execute fairly complex computing tasks on low-power wearable and portable processing systems, with tight power and battery lifetime budgets. In this work, we explore the implementation of cognitive data analysis algorithm on resource-constrained computing platforms. To minimize power consumption, we add an adaptivity layer that dynamically manages the hardware and software configuration of the device to adapt it at runtime to the required operating mode. We have assessed our approach on a use-case using a convolutional neural network to classify electrocardiogram (ECG) traces on a low-power microcontroller. Our experimental results show that adapting the node setup to the workload at runtime can save up to 50% power consumption and a quantized neural network reaches an accuracy value higher than 98% for arrhythmia disorders detection on MIT-BIH Arrhythmia dataset.
翻訳日:2021-06-14 14:00:41 公開日:2021-06-11