このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210602となっている論文です。

PDF登録状況(公開日: 20210602)

TitleAuthorsAbstract論文公表日・翻訳日
# ヘリカル対称性を持つ系のAb initioフレームワーク:理論、数値的実装およびナノ構造におけるねじり変形への応用

Ab initio framework for systems with helical symmetry: theory, numerical implementation and applications to torsional deformations in nanostructures ( http://arxiv.org/abs/2008.02267v2 )

ライセンス: Link先を確認
Amartya S. Banerjee(参考訳) 我々は、ヘリカル対称性を持つナノ構造のための自己整合第一原理シミュレーション法であるヘリカルDFTを定式化し、実装する。 このような材料は、ナノテクノロジー、化学、生物学のあらゆる分野でよく表現されており、前例のない材料特性と関連していると期待されている。 我々は、ヘリカルブロッホ波と呼ばれるヘリカルナノ構造の単一電子問題に対する特別な解の存在と完全性を示す。 ヘリカルナノ構造に対するコーン・シャム密度汎関数論方程式は、これらの解の助けを借りて基本領域に還元される。 我々の数学的処理における重要な要素は、直接積分の意味でハミルトニアンのブロック対角化を実行するためのヘリカルブロッホ・フロケット変換の定義と利用である。 ヘリカル座標における対称性適応有限差分戦略を開発し、支配方程式を識別し、提案手法の動作実現を実現する。 数値的な実装の精度と収束性を例を通して検証する。 最後に、ヘリカルDFTを用いてジグザグとキラル単一壁黒蛍光体(すなわち、リン)ナノチューブの特性を研究する。 我々はシミュレーションを用いてジグザグナノチューブのねじり剛性を評価する。 さらに, このナノチューブの電子特性は, 絶縁体から金属への遷移を観察する。 また, キラルなホスホレンナノチューブでは, 軸方向のひずみにより同様の遷移が促進されることがわかった。 特に、この性質の自己整合ab慣性シミュレーションは前例がなく、他の体系的第一原理法の範囲外である。 最後に、様々な将来の道と応用について議論する。

We formulate and implement Helical DFT -- a self-consistent first principles simulation method for nanostructures with helical symmetries. Such materials are well represented in all of nanotechnology, chemistry and biology, and are expected to be associated with unprecedented material properties. We rigorously demonstrate the existence and completeness of special solutions to the single electron problem for helical nanostructures, called helical Bloch waves. We describe how the Kohn-Sham Density Functional Theory equations for a helical nanostructure can be reduced to a fundamental domain with the aid of these solutions. A key component in our mathematical treatment is the definition and use of a helical Bloch-Floquet transform to perform a block-diagonalization of the Hamiltonian in the sense of direct integrals. We develop a symmetry-adapted finite-difference strategy in helical coordinates to discretize the governing equations, and obtain a working realization of the proposed approach. We verify the accuracy and convergence properties of our numerical implementation through examples. Finally, we employ Helical DFT to study the properties of zigzag and chiral single wall black phosphorus (i.e., phosphorene) nanotubes. We use our simulations to evaluate the torsional stiffness of a zigzag nanotube ab initio. Additionally, we observe an insulator-to-metal-like transition in the electronic properties of this nanotube as it is subjected to twisting. We also find that a similar transition can be effected in chiral phosphorene nanotubes by means of axial strains. Notably, self-consistent ab initio simulations of this nature are unprecedented and well outside the scope of any other systematic first principles method in existence. We end with a discussion on various future avenues and applications.
翻訳日:2023-05-07 02:15:03 公開日:2021-06-02
# 雑音型中間スケール量子デバイスを用いた格子ゲージ理論と動的量子相転移

Lattice gauge theory and dynamical quantum phase transitions using noisy intermediate scale quantum devices ( http://arxiv.org/abs/2008.08980v3 )

ライセンス: Link先を確認
Simon Panyella Pedersen, Nikolaj Thomas Zinner(参考訳) 格子ゲージ理論は、粒子物理学の最も基本的なモデルに関する魅力的なリッチな理論のクラスであり、量子レベルの実験的制御が増加するにつれて、動的量子相転移のような非平衡効果への関心が高まっている。 これらの物理理論が短期量子デバイスでどのようにアクセスできるかを実証するために、質量項のクエンチに従う(1+1)d u(1)量子リンクモデルのダイナミクスについて研究する。 このシステムは, 解析的に解ける最小のシステムでも, 考慮された全てのシステムサイズに対して, 動的量子相転移を行う。 そこで我々は,ゼロがLoschmidt振幅の構造と相関するゲージ不変な文字列順序パラメータを考案し,その順序パラメータを短期デバイス実験に役立てる。 ロスシュミット振幅の零点と我々の次数パラメータの零点は、それらの相の渦によって明らかにされ、位相不変な巻数によって数えられる。 ノイズの多い中間量子デバイスを念頭に置いて,U(1)量子リンクモデルの汎用実装のための超伝導回路のクラスを提案する。 これらの回路の原理は、他のより複雑なゲージ対称性を実装するために一般化することができる。 さらに、回路を任意の格子構成にモジュール化することができる。 回路のダイナミクスを現実的な回路パラメータでシミュレートすることで、目標のダイナミクスを99.5\%$以上の安定した平均忠実性で実装できることが分かりました。 最後に、共振器を1つのサブセットに分散結合した全ての自由度に関する情報を得る手法を用いて、回路の読み出しについて検討する。 これは、Loschmidt振幅と順序パラメータの両方にアクセスするための直接的かつ比較的単純なプロトコルを構成する。

Lattice gauge theories are a fascinating and rich class of theories relating to the most fundamental models of particle physics, and as experimental control on the quantum level increases there is a growing interest in non-equilibrium effects such as dynamical quantum phase transitions. To demonstrate how these physical theories can be accessed in near-term quantum devices, we study the dynamics of a (1+1)D U(1) quantum link model following quenches of its mass-term. We find that the system undergoes dynamical quantum phase transitions for all system sizes considered, even the smallest where the dynamics can be solved analytically. We devise a gauge invariant string order parameter whose zeros correlates with the structure of the Loschmidt amplitude, making the order parameter useful for experimental study in near-term devices. The zeros of the Loschmidt amplitude as well as the zeros of our order parameter are revealed by vortices in their phases, which can be counted by a topologically invariant winding number. With noisy intermediate scale quantum devices in mind, we propose a class of superconducting circuits for the general implementation of U(1) quantum link models. The principles of these circuits can be generalized to implement other, more complicated gauge symmetries. Furthermore, the circuit can be modularly scaled to any lattice configuration. Simulating the circuit dynamics with realistic circuit parameters we find that it implements the target dynamics with a steady average fidelity of $ 99.5\% $ or higher. Finally, we consider readout of the circuit using a method that yields information about all the degrees of freedom with resonators coupled dispersively to only a subset of them. This constitutes a direct and relatively straightforward protocol to access both Loschmidt amplitudes and the order parameter.
翻訳日:2023-05-05 12:28:24 公開日:2021-06-02
# システム環境デコヒーレント力学における完全相補関係

Complete complementarity relations in system-environment decoherent dynamics ( http://arxiv.org/abs/2009.09769v3 )

ライセンス: Link先を確認
Marcos L. W. Basso, Jonas Maziero(参考訳) 完全相補関係の観点から,システム環境情報の流れを考察する。 我々は, 振幅減衰, 位相減衰, ビットフリップ, ビット位相フリップ, 位相フリップ, デポーラライズ, 相関振幅減衰など, 一般的に用いられる雑音量子チャネルについて考察する。 まず、エンタングルメントの量子化子である線形エントロピーを用いて、エンタングルメントがどのように再分配され、システム全体の自由度間の一般的な相関関係に変換されるかを調べる。 例えば、多成分量子コヒーレンス(multipartite quantum coherence)やシステムの異なる分割の相関量子コヒーレンス(interms of the correlationd quantum coherence)という用語で、絡み合いエントロピーを表現することが考えられる。 さらに,非分極化およびビット位相フリップチャネルでは,波面と粒子面が共に分解あるいは増大できることに気付く。 さらに、環境を純粋な量子システムの一部として考えることにより、線形エントロピーは特定のサブシステムの混合度を測定するだけでなく、サブシステムと世界の他の部分との相関尺度であることが示されている。

We investigate the system-environment information flow from the point of view ofcomplete complementarity relations. We consider some commonly used noisy quantum channels:Amplitude damping, phase damping, bit flip, bit-phase flip, phase flip, depolarizing, and correlatedamplitude damping. By starting with an entangled bipartite pure quantum state, with the linearentropy being the quantifier of entanglement, we study how entanglement is redistributed and turnedinto general correlations between the degrees of freedom of the whole system. For instance, it ispossible to express the entanglement entropy in terms of the multipartite quantum coherence or interms of the correlated quantum coherence of the different partitions of the system. In addition,we notice that for the depolarizing and bit-phase flip channels the wave and particle aspects candecrease or increase together. Besides, by considering the environment as part of a pure quantumsystem, the linear entropy is shown to be not just a measure of mixedness of a particular subsystem,but a correlation measure of the subsystem with rest of the world.
翻訳日:2023-05-01 11:19:35 公開日:2021-06-02
# 回転連結安定化符号によるコヒーレントエラーの回避

Avoiding coherent errors with rotated concatenated stabilizer codes ( http://arxiv.org/abs/2010.00538v2 )

ライセンス: Link先を確認
Yingkai Ouyang(参考訳) コヒーレントエラーは、集合結合から生じるもので、多くの現実的な量子系において支配的なノイズであり、オットが確率的誤りと見なすよりも被害が大きい。 本稿では,コード結合による定常励起符号と安定化符号の統合を提案する。 すなわち、$[[n,k,d]$の安定化器外符号とデュアルレール内符号を連結することにより、コヒーレント位相誤差から免疫する$[[2n,k,d]$の定数励起符号を得るとともに、パウリ回転安定化器符号と等価となる。 安定化器外符号が耐故障性を持つ場合、定励起符号は確率誤差に対して耐故障性閾値を有する。 外部コードを4ビット振幅減衰符号として設定すると、8ビット定数励起符号が1つの振幅減衰誤差を補正し、この符号のポテンシャルを量子メモリとして解析する。

Coherent errors, which arise from collective couplings, are a dominant form of noise in many realistic quantum systems, and are more damaging than oft considered stochastic errors. Here, we propose integrating stabilizer codes with constant-excitation codes by code concatenation. Namely, by concatenating an $[[n,k,d]]$ stabilizer outer code with dual-rail inner codes, we obtain a $[[2n,k,d]]$ constant-excitation code immune from coherent phase errors and also equivalent to a Pauli-rotated stabilizer code. When the stabilizer outer code is fault-tolerant, the constant-excitation code has a positive fault-tolerant threshold against stochastic errors. Setting the outer code as a four-qubit amplitude damping code yields an eight-qubit constant-excitation code that corrects a single amplitude damping error, and we analyze this code's potential as a quantum memory.
翻訳日:2023-04-30 11:58:14 公開日:2021-06-02
# 逆ゴーストイメージング

Counterfactual Ghost Imaging ( http://arxiv.org/abs/2010.14292v3 )

ライセンス: Link先を確認
Jonte Hance and John Rarity(参考訳) ゴーストイメージングのプロトコルは、常にオブジェクトを非現実的に撮像する方法で、そのオブジェクトと光が相互作用することはない。 これはコミュニケーションを超えて反事実性という考え方を拡張し、この興味深い現象がいかにメトロロジーに活用できるかを示している。 無限の限界において、撮像された物体に光子が入ることはないので、最も光に敏感な物体でさえ、損傷することなく撮像する方法を示す。 無限の極限にない場合でも、従来のプロトコルよりも可視性と信号と雑音の比が大幅に改善され、吸収強度は桁違いに減少する。

We give a protocol for ghost imaging in a way that is always counterfactual - while imaging an object, no light interacts with that object. This extends the idea of counterfactuality beyond communication, showing how this interesting phenomenon can be leveraged for metrology. Given, in the infinite limit, no photons ever go to the imaged object, it presents a method of imaging even the most light-sensitive of objects without damaging them. Even when not in the infinite limit, it still provides a many-fold improvement in visibility and signal-to-noise ratio over previous protocols, with over an order of magnitude reduction in absorbed intensity.
翻訳日:2023-04-27 08:42:06 公開日:2021-06-02
# 動的カシミール効果の顕微鏡モデルとしてのクビット運動

Qubit Motion as a Microscopic Model for the Dynamical Casimir Effect ( http://arxiv.org/abs/2011.02822v2 )

ライセンス: Link先を確認
Andr\'es Agust\'i and Laura Garc\'ia-\'Alvarez and Enrique Solano and Carlos Sab\'in(参考訳) 鏡の動きによる真空からの光子の生成は、動的カシミール効果(dynamical casimir effect, dce)として知られている。 一般に、この現象は時間依存境界条件を持つ場によって効果的に記述される。 あるいは、時間に依存しない境界条件で効果を再現できるdceの微視的モデルを考える。 フィールドの他に、そのようなモデルは鏡の内部構造をモデル化するサブシステムを含む。 本研究では,鏡の最も簡単なシステム,すなわち空洞内を移動し,ボソニックモードの1つに結合するキュービットについて検討する。 我々は、その物理的性質に依存しない量子ビット運動の特定の条件下では、鏡の微視的モデルに期待されるように、量子ビット状態を変更することなく多数の光子を生成することができることを見出した。

The generation of photons from the vacuum by means of the movement of a mirror is known as the dynamical Casimir effect (DCE). In general, this phenomenon is effectively described by a field with time-dependent boundary conditions. Alternatively, we consider a microscopic model of the DCE capable of reproducing the effect with no time-dependent boundary conditions. Besides the field, such a model comprises a subsystem modeling the mirror's internal structure. In this work, we study the most straightforward system for the mirror: a qubit moving in a cavity and coupled to one of the bosonic modes. We find that under certain conditions on the qubit's movement that do not depend on its physical properties, a large number of photons may be generated without changing the qubit state, as should be expected for a microscopic model of the mirror.
翻訳日:2023-04-25 05:27:37 公開日:2021-06-02
# クロス共振効果を用いたディジタルアナログ量子シミュレーション

Digital-Analog Quantum Simulations Using The Cross-Resonance Effect ( http://arxiv.org/abs/2011.10507v2 )

ライセンス: Link先を確認
Tasio Gonzalez-Raya, Rodrigo Asensio-Perea, Ana Martin, Lucas C. C\'eleri, Mikel Sanz, Pavel Lougovski, and Eugene F. Dumitrescu(参考訳) ディジタルアナログ量子計算は、1量子および2量子ビットゲートのシーケンスをシステムの基盤となるハミルトニアンによって生成されるユニタリ変換に置き換えることで、短期的な量子情報処理に必要な現在実現不可能なリソース要件を削減することを目的としている。 このパラダイムに触発されて、超伝導アーキテクチャを検討し、2量子ビット相互作用から1d鎖と2d二乗格子に作用するアナログハミルトニアンまで摂動理論の1次まで交叉共振効果を拡張し、適切な基準系において純粋に2局所ハミルトニアンとなる。 単一量子ゲートによるアナログハミルトニアンダイナミクスの強化により、より多様な異なるアナログハミルトニアンを生成する方法が示される。 次に、様々なアナログハミルトニアン間を必要に応じてトグルし、イジング、xy$、ハイゼンベルクスピンモデルのダイナミクスをシミュレートするユニタリ配列を合成する。 私たちの動力学シミュレーションは1dの ising と $xy$ モデルではエラーフリーです。 また, 2d $xy$と1dハイゼンベルク鎖のトローター誤差は, ディジタル分解に関して一定の係数で減少することを示した。 これらの重要な短期的スピードアップを実現するために、量子シミュレーションで使用するアナログハミルトニアンのキャラクタリゼーションと校正に要する実践的考察について議論する。 我々は、相互作用スピンの様々なモデルに対するより複雑なデジタル・アナログ量子シミュレーションに使用できる新しいアナログハミルトニアンを導出するために、ハミルトニアン・トグル法をどのように拡張できるかという議論を締めくくった。

Digital-analog quantum computation aims to reduce the currently infeasible resource requirements needed for near-term quantum information processing by replacing sequences of one- and two-qubit gates with a unitary transformation generated by the systems' underlying Hamiltonian. Inspired by this paradigm, we consider superconducting architectures and extend the cross-resonance effect, up to first order in perturbation theory, from a two-qubit interaction to an analog Hamiltonian acting on 1D chains and 2D square lattices which, in an appropriate reference frame, results in a purely two-local Hamiltonian. By augmenting the analog Hamiltonian dynamics with single-qubit gates we show how one may generate a larger variety of distinct analog Hamiltonians. We then synthesize unitary sequences, in which we toggle between the various analog Hamiltonians as needed, simulating the dynamics of Ising, $XY$, and Heisenberg spin models. Our dynamics simulations are Trotter error-free for the Ising and $XY$ models in 1D. We also show that the Trotter errors for 2D $XY$ and 1D Heisenberg chains are reduced, with respect to a digital decomposition, by a constant factor. In order to realize these important near-term speedups, we discuss the practical considerations needed to accurately characterize and calibrate our analog Hamiltonians for use in quantum simulations. We conclude with a discussion of how the Hamiltonian toggling techniques could be extended to derive new analog Hamiltonians which may be of use in more complex digital-analog quantum simulations for various models of interacting spins.
翻訳日:2023-04-23 14:56:54 公開日:2021-06-02
# 多体量子状態の違いの定量化

Quantifying the difference between many-body quantum states ( http://arxiv.org/abs/2012.05619v5 )

ライセンス: Link先を確認
Davide Girolami, Fabio Anz\`a(参考訳) 量子状態重なり合いは、2つの量子状態の違いの教科書測度である。 しかし、多体システムの複雑な構成を比較するのは不適切である。 この問題は広く用いられている量子状態の忠実度と関連する距離によって継承される。 これらの制約を克服する情報理論の新たなクラスである重み付き距離を導入する。 多くの粒子の2つの量子状態の区別がいかに困難であるかを定量化し、必要な測定装置の構造を分解する。 したがって、複雑な量子デバイスの理論的および実験的性能を評価するために使用できる。 また、量子プロセスの入力状態と出力状態の間の新たに定義された「重み付きビュール長」が、変換の実験コストの低い値であることが示される。 その結果、物理資源を計算リソースに変換する能力に対する正確な量子限界が明らかになった。

The quantum state overlap is the textbook measure of the difference between two quantum states. Yet, it is inadequate to compare the complex configurations of many-body systems. The problem is inherited by the widely employed quantum state fidelity and related distances. We introduce the weighted distances, a new class of information-theoretic measures that overcome these limitations. They quantify how hard it is to discriminate between two quantum states of many particles, factoring in the structure of the required measurement apparatus. Therefore, they can be used to evaluate both the theoretical and the experimental performances of complex quantum devices. We also show that the newly defined "weighted Bures length" between the input and output states of a quantum process is a lower bound to the experimental cost of the transformation. The result uncovers an exact quantum limit to our ability to convert physical resources into computational ones.
翻訳日:2023-04-21 05:55:59 公開日:2021-06-02
# SIMONブロック暗号における量子キー回復攻撃

Quantum Key Recovery Attack on SIMON Block Cipher ( http://arxiv.org/abs/2012.08321v2 )

ライセンス: Link先を確認
Hui Liu, Li Yang(参考訳) 軽量なブロック暗号の量子セキュリティはますます注目を集めている。 しかし、従来のブロック暗号に対する量子攻撃は主に量子徹底探索に焦点を当てているが、古典的な暗号解析法と組み合わせた量子専用攻撃は十分に研究されていない。 本稿では,Q1モデルの量子振幅増幅アルゴリズムを用いてSIMONブロック暗号に対する量子鍵回復攻撃について検討する。 まず、SIMONブロック暗号における量子マスターキー徹底探索の量子回路複雑性を再解析する。 クリフォードゲート数をより正確に推定し、Tゲート数を減少させる。 また,回路の微妙な変更により,T深度と全深度も減少する。 次に,FSE 2014でビリュコフらによって与えられたSIMON32, SIMON48, SIMON64の差分暗号解析に基づいて, これらのSIMON変種に対する量子ラウンドキー回復攻撃を行い, 量子回路の複雑さを別々に解析する。 例えば、19ラウンドのSIMON32/64の量子攻撃を例に挙げ、鍵回復過程の量子回路を設計する。 この攻撃の2つのフェーズは別々に2つのQAAインスタンスと見なすことができ、最初のQAAインスタンスは4つのサブQAAインスタンスから構成される。 その結果,19ラウンドのSIMON32/64,19ラウンドのSIMON48,26ラウンドのSIMON64/128に対する量子専用攻撃の暗号化複雑性と回路複雑度は,これらの変種に対する量子完全探索よりも低いことがわかった。 我々の研究はまず、量子回路の複雑さの観点からSIMONブロック暗号に対する量子専用攻撃を研究し、量子専用攻撃の複雑さをより詳細に分析する。

The quantum security of lightweight block ciphers is receiving more and more attention. However, the existing quantum attacks on lightweight block ciphers mainly focused on the quantum exhaustive search, while the quantum dedicated attacks combined with classical cryptanalysis methods haven't been well studied. In this paper, we study quantum key recovery attack on SIMON block cipher using Quantum Amplitude Amplification algorithm in Q1 model. At first, we reanalyze the quantum circuit complexity of quantum master key exhaustive search on SIMON block cipher. The Clifford gates count is estimated more accurately and the T gate count is reduced. We also reduce the T-depth and Full-depth due to some minor modifications to the circuit. Then, based on the differential cryptanalysis on SIMON32, SIMON48 and SIMON64 given by Biryukov et al. in FSE 2014, we give quantum round key recovery attacks on these SIMON variants and analyze quantum circuit complexity separately. We take the quantum attack on 19-round SIMON32/64 for an example and design the quantum circuit of the key recovery process. The two phases of this attack could be regarded as two QAA instances separately, and the first QAA instance consists of four sub-QAA instances. We conclude that the encryption complexity and circuit complexity of quantum dedicated attacks on 19-round SIMON32/64, 19-round SIMON 48 and 26-round SIMON64/128 are both lower than those of the quantum exhaustive search on these variants separately. Our work firstly studies the quantum dedicated attack on SIMON block cipher from the perspective of quantum circuit complexity, which is a more fine-grained analysis of quantum dedicated attacks' complexity.
翻訳日:2023-04-21 01:15:13 公開日:2021-06-02
# 適応計測を用いた効率的な量子ビット位相推定

Efficient qubit phase estimation using adaptive measurements ( http://arxiv.org/abs/2012.11088v2 )

ライセンス: Link先を確認
Marco A. Rodr\'iguez-Garc\'ia, Isaac P\'erez Castillo, P. Barberis-Blostein(参考訳) 物理系の量子位相を正しく推定することは、量子論から暗号まで幅広い応用のために、量子パラメータ推定理論において中心的な問題である。 理想的には、最適量子推定器はいわゆる量子クレーア・ラオ境界によって与えられるので、任意の測定戦略はできるだけ近い推定を得ることを目指している。 しかし、多くの場合、量子位相を推定する現在の最先端の手法はこの限界に達しない。 本研究では、量子ビットの位相推定のための様々なスキームを徹底的に検討し、これらの手法が量子クレーア・ラオ境界に達することを禁止する基礎問題を特定し、この問題を回避するための共変測定に基づく新しい適応スキームを提案する。 モンテカルロシミュレーションにより,提案手法が現在利用可能な手法よりも数学的に,実験的に,より現実的で,効率的であることが確認された。

Estimating correctly the quantum phase of a physical system is a central problem in quantum parameter estimation theory due to its wide range of applications from quantum metrology to cryptography. Ideally, the optimal quantum estimator is given by the so-called quantum Cram\'er-Rao bound, so any measurement strategy aims to obtain estimations as close as possible to it. However, more often than not, the current state-of-the-art methods to estimate quantum phases fail to reach this bound as they rely on maximum likelihood estimators of non-identifiable likelihood functions. In this work we thoroughly review various schemes for estimating the phase of a qubit, identifying the underlying problem which prohibits these methods to reach the quantum Cram\'er-Rao bound, and propose a new adaptive scheme based on covariant measurements to circumvent this problem. Our findings are carefully checked by Monte Carlo simulations, showing that the method we propose is both mathematically and experimentally more realistic and more efficient than the methods currently available.
翻訳日:2023-04-20 00:36:02 公開日:2021-06-02
# 一般化文字列ネットモデル:徹底的な説明

Generalized string-net models: A thorough exposition ( http://arxiv.org/abs/2012.14424v3 )

ライセンス: Link先を確認
Chien-Hung Lin, Michael Levin, and Fiona J. Burnell(参考訳) 本稿では, 2次元位相的に順序付けられた物質相の大きな族を実現する,完全可解格子モデルのクラスである一般化文字列ネットモデルの構築方法について述べる。 これらのモデルの基底状態は異なる "string-net configurations" の重ね合わせと見なすことができ、各string-net 構成は $xy$ 平面で描かれたラベル付きエッジを持つ三価グラフである。 この構成が元のストリングネット構成よりも一般的であるのは、元の構成とは異なり、四面体反射対称性が仮定されておらず、基底状態波動関数 $\phi$ が「等方的」であるとも仮定されていないことである:すなわち、一般化された設定では、2つのストリングネット構成 $x_1, x_2$ が互いに連続的に変形でき、異なる基底状態振幅を持つことができる。 その結果、一般化された文字列ネットモデルは、元の構成に到達できない位相位相を実現できる。 本稿では, 基底状態波動関数, ハミルトニアン, および一般化文字列ネットモデルに対する最小自己抵抗条件について, 従来の文献よりも詳細に論じる。 また、これらのモデルで任意の励起を生成する文字列演算子の構築方法を示し、これらの励起のブレイディング統計を計算する方法を示す。 最後に、一般化された文字列ネットモデルにおいて、平面または球面上の等方的基底波動関数を持つ必要十分条件を導出する。

We describe how to construct generalized string-net models, a class of exactly solvable lattice models that realize a large family of 2D topologically ordered phases of matter. The ground states of these models can be thought of as superpositions of different "string-net configurations", where each string-net configuration is a trivalent graph with labeled edges, drawn in the $xy$ plane. What makes this construction more general than the original string-net construction is that, unlike the original construction, tetrahedral reflection symmetry is not assumed, nor is it assumed that the ground state wave function $\Phi$ is "isotropic": i.e. in the generalized setup, two string-net configurations $X_1, X_2$ that can be continuously deformed into one another can have different ground state amplitudes, $\Phi(X_1) \neq \Phi(X_2)$. As a result, generalized string-net models can realize topological phases that are inaccessible to the original construction. In this paper, we provide a more detailed discussion of ground state wave functions, Hamiltonians, and minimal self-consistency conditions for generalized string-net models than what exists in the previous literature. We also show how to construct string operators that create anyon excitations in these models, and we show how to compute the braiding statistics of these excitations. Finally, we derive necessary and sufficient conditions for generalized string-net models to have isotropic ground state wave functions on the plane or the sphere -- a property that may be useful in some applications.
翻訳日:2023-04-19 01:39:47 公開日:2021-06-02
# a\times b=c$ in $2+1$D TQFT

$a\times b=c$ in $2+1$D TQFT ( http://arxiv.org/abs/2012.14689v4 )

ライセンス: Link先を確認
Matthew Buican, Linfeng Li, and Rajath Radhakrishnan(参考訳) 我々は、2+1$Dの位相量子場理論(TQFTs)の大域的性質に対するアロン融合方程式 $a\times b=c$ の影響について研究する。 ここで、$a$と$b$は、互いに融合してユニークなanyon、$c$を与えるanyonです。 よく知られているように、a$ と b$ の少なくとも一方がアーベルであるとき、そのような方程式は理論の一様対称性の側面を記述する。 a$ と $b$ が非アーベルであるとき、そのような融合の最も明らかな方法は、TQFT を自明な相互ブレイディングで TQFT の積に分解し、$a$ と $b$ が別の因子に置かれることである。 より一般に、非アーベル $a$ と $b$ に対するそのような融合の出現は、TQFT におけるゼロ形式対称性の表示、すなわち「準ゼロ形式対称性」と呼ばれるもの(最大のマチュー群に基づく離散ゲージ理論の場合、$M_{24}$)、あるいは非モジュラー融合部分圏の存在を示すこともできる。 我々はこれらのアイデアを、連続ゲージ群と関連するコセットに基づくチャーン・サイモンズ理論(twisted and unwisted)離散ゲージ理論から様々なTQFT設定で研究する。 その過程で、様々な有用な定理が証明される。

We study the implications of the anyon fusion equation $a\times b=c$ on global properties of $2+1$D topological quantum field theories (TQFTs). Here $a$ and $b$ are anyons that fuse together to give a unique anyon, $c$. As is well known, when at least one of $a$ and $b$ is abelian, such equations describe aspects of the one-form symmetry of the theory. When $a$ and $b$ are non-abelian, the most obvious way such fusions arise is when a TQFT can be resolved into a product of TQFTs with trivial mutual braiding, and $a$ and $b$ lie in separate factors. More generally, we argue that the appearance of such fusions for non-abelian $a$ and $b$ can also be an indication of zero-form symmetries in a TQFT, of what we term "quasi-zero-form symmetries" (as in the case of discrete gauge theories based on the largest Mathieu group, $M_{24}$), or of the existence of non-modular fusion subcategories. We study these ideas in a variety of TQFT settings from (twisted and untwisted) discrete gauge theories to Chern-Simons theories based on continuous gauge groups and related cosets. Along the way, we prove various useful theorems.
翻訳日:2023-04-18 11:58:07 公開日:2021-06-02
# ニューアット量子エラーデコーダ

A NEAT Quantum Error Decoder ( http://arxiv.org/abs/2101.08093v2 )

ライセンス: Link先を確認
Hugo Th\'eveniaut and Evert van Nieuwenburg(参考訳) 本稿では,bitflipとデポーラライズノイズを用いてトーリック符号上で量子誤り復号を行うポリシネットワークの最適化における進化的巧妙なアルゴリズムの利用について検討する。 これらのNEAT最適化ネットワークデコーダは、以前報告した機械学習ベースのデコーダと同等の性能を持つが、それを行うために約3~4桁のパラメータを使用する。

We investigate the use of the evolutionary NEAT algorithm for the optimization of a policy network that performs quantum error decoding on the toric code, with bitflip and depolarizing noise, one qubit at a time. We find that these NEAT-optimized network decoders have similar performance to previously reported machine-learning based decoders, but use roughly three to four orders of magnitude fewer parameters to do so.
翻訳日:2023-04-14 11:27:08 公開日:2021-06-02
# 強電界における電子-ポジトロン真空不安定性 相対論的半古典的アプローチ

Electron-positron vacuum instability in strong electric fields. Relativistic semiclassical approach ( http://arxiv.org/abs/2102.07182v2 )

ライセンス: Link先を確認
D. N. Voskresensky(参考訳) 強電界における電子-ポジトロン真空の不安定性について検討した。 まず、クーロン中心に落下するとスピンレスボソンが$Z>137/2$、電子が$Z>137$となる。 次に、電荷 $z>z_{\rm cr}\simeq 170$ を持つ有限サイズの核の場における深い電子準位と自発的な陽電子生成の記述に集中する。 次に、これらの効果は低エネルギー重イオン衝突に応用するために研究される。 次に,z\gg z_{\rm cr}$ の超電荷核の場において,上連続体が下連続体 $\epsilon =-m$ の境界を横切るような「電子凝縮」現象を考える。 最後に、電荷源からの超短距離でのQED真空の偏極と電子凝縮の多粒子問題に注目する。 我々は、ソースのサイズが極サイズ$r_{\rm pole}$より大きい場合、真空の誘電率を0とし、より小さい$r_{\rm pole}$である場合の主な違いを論じる。 いくつかの議論はQEDの論理的一貫性を支持する。 すべての問題は、同じ相対論的半古典的アプローチで考慮される。

Instability of electron-positron vacuum in strong electric fields is studied. First, falling to the Coulomb center is discussed at $Z>137/2$ for a spinless boson and at $Z>137$ for electron. Then, focus is concentrated on description of deep electron levels and spontaneous positron production in the field of a finite-size nucleus with the charge $Z>Z_{\rm cr}\simeq 170$. Next, these effects are studied in application to the low-energy heavy-ion collisions. Then, we consider phenomenon of "electron condensation" on levels of upper continuum crossed the boundary of the lower continuum $\epsilon =-m$ in the field of a supercharged nucleus with $Z\gg Z_{\rm cr}$. Finally, attention is focused on many-particle problems of polarization of the QED vacuum and electron condensation at ultra-short distances from a source of charge. We argue for a principal difference of cases, when the size of the source is larger than the pole size $r_{\rm pole}$, at which the dielectric permittivity of the vacuum reaches zero, and smaller $r_{\rm pole}$. Some arguments are presented in favor of the logical consistency of QED. All problems are considered within the same relativistic semiclassical approach.
翻訳日:2023-04-11 04:20:03 公開日:2021-06-02
# 無限距離結合量子キックロータにおけるカオスとサブディフフュージョン

Chaos and subdiffusion in the infinite-range coupled quantum kicked rotors ( http://arxiv.org/abs/2102.07872v2 )

ライセンス: Link先を確認
Angelo Russomanno, Michele Fava, and Rosario Fazio(参考訳) 無限範囲結合された量子キックローターを、相互作用するボソニックモデル上にマッピングする。 このようにして、非常に大きなシステムサイズまで正確な対角化を適用でき、システムは大きなサイズ制限でエルゴード性を持つ傾向があることを確認できる。 熱力学的極限では、システムは、効果的に非線形な単回転ハミルトニアンと等価な一連のグロス・ピタエフスキー方程式によって記述される。 これらの方程式は、幅広いパラメータで指数 $\gamma\sim 2/3$ を持つエネルギーのパワーロー時間の増加をもたらす。 この発見は、実効非線形単回転ハミルトニアンの雑音挙動と単回転フロケ状態のアンダーソン局在に基づくマスター方程式のアプローチによって説明される。 さらに,最大のリアプノフ指数を用いてカオスの研究を行い,運動量の増加とともに位相空間の一部に対して0に減少することを示した。 最後に、非相互作用力学の運動のいくつかのストロボスコープフロッケ積分が、ネホロシェフの定理に従って相互作用強度に関連する時間スケールで初期値から逸脱することを示した。

We map the infinite-range coupled quantum kicked rotors over an infinite-range coupled interacting bosonic model. In this way we can apply exact diagonalization up to quite large system sizes and confirm that the system tends to ergodicity in the large-size limit. In the thermodynamic limit the system is described by a set of coupled Gross-Pitaevskij equations equivalent to an effective nonlinear single-rotor Hamiltonian. These equations give rise to a power-law increase in time of the energy with exponent $\gamma\sim 2/3$ in a wide range of parameters. We explain this finding by means of a master-equation approach based on the noisy behaviour of the effective nonlinear single-rotor Hamiltonian and on the Anderson localization of the single-rotor Floquet states. Furthermore, we study chaos by means of the largest Lyapunov exponent and find that it decreases towards zero for portions of the phase space with increasing momentum. Finally, we show that some stroboscopic Floquet integrals of motion of the noninteracting dynamics deviate from their initial values over a time scale related to the interaction strength according to the Nekhoroshev theorem.
翻訳日:2023-04-11 02:12:18 公開日:2021-06-02
# 相対論的ボソンに対するハイゼンベルクの不確かさ関係

Heisenberg uncertainty relations for relativistic bosons ( http://arxiv.org/abs/2103.02514v2 )

ライセンス: Link先を確認
Iwo Bialynicki-Birula and Adam Prystupiuk(参考訳) この研究は、相対論的粒子に対するハイゼンベルクの不確実性関係を導出するために \cite{bb1,bb2,bb3} で開始されたプログラムを完成させる。 スピン0とスピン1を持つ大規模相対論的粒子に対する鋭い不確かさ関係が導かれる。 主な結論は、相対論的ボソンの不確実性関係は相対論的フェルミオンと著しく異なることである。 ボソンの不確かさの関係はエネルギー密度に基づいている。 4つの電流の時間成分に基づく不確実性関係は、電子に対して \cite{bb3} でなされたように、矛盾をもたらすため、維持できないことが示されている。

This work completes the program started in \cite{bb1,bb2,bb3} to derive the Heisenberg uncertainty relation for relativistic particles. Sharp uncertainty relations for massive relativistic particles with spin 0 and spin 1 are derived. The main conclusion is that the uncertainty relations for relativistic bosons are markedly different from those for relativistic fermions. The uncertainty relations for bosons are based on the energy density. It is shown that the uncertainty relations based on the time-component of the four-current, as was have done in \cite{bb3} for electrons, are untenable because they lead to contradictions.
翻訳日:2023-04-09 08:02:44 公開日:2021-06-02
# コヒーレント時間遅延フィードバックによるエネルギー時間絡みの増強

Boosting energy-time entanglement using coherent time-delayed feedback ( http://arxiv.org/abs/2103.02689v2 )

ライセンス: Link先を確認
Kisa Barkemeyer, Marcel Hohn, Stephan Reitzenstein, and Alexander Carmele(参考訳) フランソン干渉計における2光子干渉の可視性は、光子のエネルギー-時間絡み合いの指標となる。 本稿では,コヒーレントな時間遅延フィードバック機構を実装し,第2次コヒーレンス関数における干渉の可視性を制御する。 行列積状態フレームワーク内の非マルコフ力学をシミュレーションした結果,3レベル系(3LS)から放出される2つの光子の視認性は,3LSの上層部の崩壊を遅くすることで,幅広いパラメータに対して著しく向上できることがわかった。

The visibility of the two-photon interference in the Franson interferometer serves as a measure of the energy-time entanglement of the photons. We propose to control the visibility of the interference in the second-order coherence function by implementing a coherent time-delayed feedback mechanism. Simulating the non-Markovian dynamics within the matrix product state framework, we find that the visibility for two photons emitted from a three-level system (3LS) in ladder configuration can be enhanced significantly for a wide range of parameters by slowing down the decay of the upper level of the 3LS.
翻訳日:2023-04-09 07:41:56 公開日:2021-06-02
# 窒素空洞中心と捕捉粒子を用いたスピンメカニクス

Spin-mechanics with nitrogen-vacancy centers and trapped particles ( http://arxiv.org/abs/2104.10244v2 )

ライセンス: Link先を確認
Maxime Perdriat, Cl\'ement Pellet-Mary, Paul Huillery, Lo\"ic Rondin, Gabriel H\'etet(参考訳) 量子状態におけるマクロ振動子の運動の制御は、近年の激しい研究の対象となっている。 この方向では、微小物体の運動がレーザー光の圧力と強く結びついているオプト・メカニカル・システムは非常に成功した。 特に、超低真空条件下での環境からの非常に高い分離により、浮遊物体の運動を量子レベルで操作することができる。 量子構造に入るため、ダイヤモンド中の窒素空洞(nv)中心の電子スピンや浮遊機械振動子などの1つの長寿命原子スピンを用いたスキームが提案されている。 単一スピンレベルでは、スピンの固有量子の性質を振動子に移すことができる可能性があり、量子センシングや量子力学のテストに先を越すことができる。 実験者の道具箱にスピン自由度を加えることで、凝縮物と原子物理学の間の交差点で非常に豊かな遊び場にアクセスできる。 本稿では,固体中の捕捉粒子と電子スピンの相互作用を利用したスピンメカニクスにおける最近の実験成果を概観し,今後の課題について考察する。 我々の焦点は、現在の実験に近い理論的な背景と、一度乗り越えればこれらのシステムが潜在能力を解き放つことができる実験的な限界に焦点を当てています。

Controlling the motion of macroscopic oscillators in the quantum regime has been the subject of intense research in recent decades. In this direction, opto-mechanical systems, where the motion of micro-objects is strongly coupled with laser light radiation pressure, have had tremendous success. In particular, the motion of levitating objects can be manipulated at the quantum level thanks to their very high isolation from the environment under ultra-low vacuum conditions. To enter the quantum regime, schemes using single long-lived atomic spins, such as the electronic spin of nitrogen-vacancy (NV) centers in diamond, coupled with levitating mechanical oscillators have been proposed. At the single spin level, they offer the formidable prospect of transferring the spins' inherent quantum nature to the oscillators, with foreseeable far-reaching implications in quantum sensing and tests of quantum mechanics. Adding the spin degrees of freedom to the experimentalists' toolbox would enable access to a very rich playground at the crossroads between condensed matter and atomic physics. We review recent experimental work in the field of spin-mechanics that employ the interaction between trapped particles and electronic spins in the solid state and discuss the challenges ahead. Our focus is on the theoretical background close to the current experiments, as well as on the experimental limits, that, once overcome, will enable these systems to unleash their full potential.
翻訳日:2023-04-03 02:20:15 公開日:2021-06-02
# 低線量放射線源に対するトラップイオン量の影響

Susceptibility of Trapped-Ion Qubits to Low-Dose Radiation Sources ( http://arxiv.org/abs/2105.02753v2 )

ライセンス: Link先を確認
Jiafeng Cui, A.J. Rasmusson, Marissa D'Onofrio, Yuanheng Xie, Evangeline Wolanski, and Philip Richerme(参考訳) 閉じ込められたイオン量子システムの少量の電離放射線に対するリアルタイム感受性を実験的に検討した。 我々は、イオントラップ装置を様々な$\alpha$、$\beta$、$\gamma$ソースに公開し、閉じ込められたイオン量子ビットライフタイム、コヒーレンス時間、ゲートフィダリティ、および動きの加熱速度の変化を測定する。 その結果,低線量放射線源の存在下でのイオントラップ性能の定量的劣化は認められなかった。 この発見は、極端環境におけるイオンベースの量子情報システムの使用の長期的展望を助長し、閉じ込められたイオン量子プロセッサのエラーを誘発するために、はるかに大きな線量を必要とする可能性があることを示唆している。

We experimentally study the real-time susceptibility of trapped-ion quantum systems to small doses of ionizing radiation. We expose an ion-trap apparatus to a variety of $\alpha$, $\beta$, and $\gamma$ sources and measure the resulting changes in trapped-ion qubit lifetimes, coherence times, gate fidelities, and motional heating rates. We found no quantifiable degradation of ion trap performance in the presence of low-dose radiation sources for any of the measurements performed. This finding is encouraging for the long-term prospects of using ion-based quantum information systems in extreme environments, indicating that much larger doses may be required to induce errors in trapped-ion quantum processors.
翻訳日:2023-04-01 07:49:40 公開日:2021-06-02
# $\lambda\phi^4$場が媒介する長距離イジング相互作用 : 捕捉したイオンの結晶における音の再正規化の探索

Long-range Ising interactions mediated by $\lambda\phi^4$ fields: probing the renormalisation of sound in crystals of trapped ions ( http://arxiv.org/abs/2105.06886v2 )

ライセンス: Link先を確認
G. Mart\'in-V\'azquez, G. Aarts, M. M\"uller and A. Bermudez(参考訳) 実時間力学と散乱実験に関するすべての関連情報を含む自己相互作用型スカラー量子場理論(QFT)の生成関数は、特定のソース関数のセットを利用するインターフェロメトリプロトコルを介して、多部結合型2レベルセンサーの集合にマッピングすることができる。 通常、インパルス的なデルタ様ソースにフォーカスするが、これらは$n$ポイントのファインマンプロパゲータに直接アクセスするので、常にオンのハーモニックソースを使用することで、センシングプロトコルを実質的に単純化できることを示す。 特定の状況下では、量子センサの効果的なリアルタイムダイナミクスは、長距離結合を持つ量子イジングモデルによって記述することができる。 構造相転移近傍で捕捉されたイオン結晶の量子化音波を記述した長波長QFTを特徴付けるために、この検出プロトコルがどう関係するかを詳細に分析し、関連する音の正規化を特徴付ける新しい経路を開く。

The generating functional of a self-interacting scalar quantum field theory (QFT), which contains all the relevant information about real-time dynamics and scattering experiments, can be mapped onto a collection of multipartite-entangled two-level sensors via an interferometric protocol that exploits a specific set of source functions. Although one typically focuses on impulsive delta-like sources, as these give direct access to $n$-point Feynman propagators, we show in this work that using always-on harmonic sources can simplify substantially the sensing protocol. In a specific regime, the effective real-time dynamics of the quantum sensors can be described by a quantum Ising model with long-range couplings, the range and strength of which contains all the relevant information about the renormalisation of the QFT, which can now be extracted in the absence of multi-partite entanglement. We present a detailed analysis of how this sensing protocol can be relevant to characterise the long-wavelength QFT that describes quantised sound waves of trapped-ion crystals in the vicinity of a structural phase transition, opening a new route to characterise the associated renormalisation of sound.
翻訳日:2023-03-31 04:10:44 公開日:2021-06-02
# 測定の不確かさと非局所量子相関の関係に関する実験的検討

Experimental investigation of the relation between measurement uncertainties and non-local quantum correlations ( http://arxiv.org/abs/2106.01052v1 )

ライセンス: Link先を確認
Kengo Matsuyama, Holger F. Hofmann, Masataka Iinuma(参考訳) ベルの不等式は、それぞれの系における非可換可観測性を含む相関の和によって定義される。 ベルの不等式に対する振動は、これらの観測対象の関節測定の精度が量子力学的不確実性関係によって制限されるためのみ可能である。 本稿では, 局所測定の不確かさと相関の大きさの関係を, 偏光交絡光子対を作成し, 異なる不確かさトレードオフにおける非可換偏光成分の連成測定により検討する。 測定の可視性の変化は、測定結果の特定のペアの確率がゼロに近づくような測定の不確実性の間の非自明なバランスの存在を明らかにした。 これらの高コントラストの結果は、光子間の量子相関が最大値に近いことを示し、ベルの不等式違反のセルソン境界が、関節測定の精度を制限する最小の不確実性によって定義されることを確認する。

Bell's inequalities are defined by sums of correlations involving non-commuting observables in each of the two systems. Violations of Bell's inequalities are only possible because the precision of any joint measurement of these observables will be limited by quantum mechanical uncertainty relations. In this paper we explore the relation between the local measurement uncertainties and the magnitude of the correlations by preparing polarization entangled photon pairs and performing joint measurements of non-commuting polarization components at different uncertainty trade-offs. The change in measurement visibility reveals the existence of a non-trivial balance between the measurement uncertainties where the probabilities of a specific pair of measurement outcomes approaches zero because of the particular combination of enhancement and suppression of the experimentally observed correlations. The occurrence of these high-contrast results shows that the quantum correlations between the photons are close to their maximal value, confirming that the Cirel'son bound of Bell's inequality violations is defined by the minimal uncertainties that limit the precision of joint measurements.
翻訳日:2023-03-28 01:32:43 公開日:2021-06-02
# ダイヤモンド中のPb関連色中心のスペクトル特性

Spectral features of Pb-related color centers in diamond ( http://arxiv.org/abs/2106.01049v1 )

ライセンス: Link先を確認
Sviatoslav Ditalia Tchernij, Emilio Corte, Tobias L\"uhmann, Paolo Traina, S\'ebastien Pezzagna, Ivo Pietro Degiovanni, Georgios Provatas, Ekaterina Moreva, Jan Meijer, Paolo Olivero, Marco Genovese, Jacopo Forneris(参考訳) Pb不純物に基づくダイヤモンド色中心の光学特性の系統的評価について報告する。 405-520nm帯の異なる励起波長と4-300k帯の異なる温度で分光発光のアンサンブル発光分析を行った。 観測されたスペクトルの特徴はpb関連欠陥に関連する異なる放出線からなる。 最後に、490.5nmのレーザー励起下での単一光子放射体を室温で調べ、既に報告されている514nmの励起に対して異なるスペクトルシグネチャを明らかにする。 この研究は、Pb関連色中心に関する以前の研究において、一連のスペクトル特徴の寄与とこの種の欠陥の形成過程の理解の両方において大きな進展を示し、量子技術における高インパクト応用のためのこのシステムの可能性を明らかにする。

We report on the systematic characterization of the optical properties of diamond color centers based on Pb impurities. An ensemble photoluminescence analysis of their spectral emission was performed at different excitation wavelengths in the 405-520 nm range and at different temperatures in the 4-300 K range. The series of observed spectral features consist of different emission lines associated with Pb-related defects. Finally, a room-temperature investigation of single-photon emitters under 490.5 nm laser excitation is reported, revealing different spectral signatures with respect to those already reported under 514 nm excitation. This work represents a substantial progress with respect to previous studies on Pb-related color centers, both in the attribution of an articulated series of spectral features and in the understanding of the formation process of this type of defect, thus clarifying the potential of this system for high-impact applications in quantum technologies.
翻訳日:2023-03-28 01:32:27 公開日:2021-06-02
# Wigner-Yanaseスキュー情報決定法としての固体中の多重量子NMR

Multiple quantum NMR in solids as a method of determination of Wigner-Yanase skew information ( http://arxiv.org/abs/2106.01017v1 )

ライセンス: Link先を確認
S. I. Doronin, E. B. Fel'dman, I. D. Lazarev(参考訳) Wigner-Yanaseスキュー情報と多重量子(MQ)NMRコヒーレンスとの接続は、固体中のMQ NMR実験において双極子-双極子相互作用を伴う核スピンの異なる温度と進化時間で考慮される。 温度$T$のWigner-Yanaseスキュー情報は、進化時間の2倍温度のMQ NMRスペクトルの2倍の2番目のモーメントと等しいことが示されている。 Wigner-Yanase情報とFisher情報とで得られる多スピン絡みの比較を行う。

A connection of the Wigner-Yanase skew information and multiple quantum (MQ) NMR coherences is considered at different temperatures and evolution times of nuclear spins with dipole-dipole interactions in MQ NMR experiments in solids. It is shown that the Wigner-Yanase skew information at temperature $T$ is equal to the double second moment of the MQ NMR spectrum at the double temperature for any evolution times. A comparison of the many-spin entanglement obtained with the Wigner-Yanase information and the Fisher information is conducted.
翻訳日:2023-03-28 01:31:52 公開日:2021-06-02
# 新型コロナウイルス感染時のオンラインソーシャルネットワークに関する議論 : イタリアの事例研究

Debate on Online Social Networks at the Time of COVID-19: An Italian Case Study ( http://arxiv.org/abs/2106.01013v1 )

ライセンス: Link先を確認
Martino Trevisan, Luca Vassio, Danilo Giordano(参考訳) 新型コロナウイルス(COVID-19)のパンデミックは、医療だけでなく、人々の習慣や生活する社会にも大きな影響を与えている。 イタリアなどの国々は、数ヶ月にわたって総ロックダウンを強制し、人口の大半は自宅に留まらざるを得なくなった。 この間、オンラインソーシャルネットワークは、これまで以上に、ソーシャルライフの代替ソリューションとして、ユーザーが相互に対話し、議論することを可能にしてきた。 したがって、パンデミックによって引き起こされたソーシャルネットワークの利用の変化を理解することが最重要となる。 本稿では、2020年前半のイタリアにおける人気インフルエンサーの相互作用パターンが、instagramとfacebookのソーシャルネットワークでどのように変化したかを分析した。 この数ヶ月の間に1億4000万件以上の投稿に5億5500万件以上のコメントが寄せられた。 これらのインフルエンサーの投稿に対するエンゲージメントを分析し比較し、集計されたユーザ活動の定量的数値を提供する。 さらに, ロックダウン前後における使用パターンの変化を示すとともに, 活動量の増加と, 日毎, 週毎の変動が認められた。 また,コメントの心理言語学的特性を通じてユーザの感情分析を行い,パンデミックに関連する話題の急速な増加と消失を検証した。 さらなる分析をサポートするため、匿名化されたデータセットをリリースする。

The COVID-19 pandemic is not only having a heavy impact on healthcare but also changing people's habits and the society we live in. Countries such as Italy have enforced a total lockdown lasting several months, with most of the population forced to remain at home. During this time, online social networks, more than ever, have represented an alternative solution for social life, allowing users to interact and debate with each other. Hence, it is of paramount importance to understand the changing use of social networks brought about by the pandemic. In this paper, we analyze how the interaction patterns around popular influencers in Italy changed during the first six months of 2020, within Instagram and Facebook social networks. We collected a large dataset for this group of public figures, including more than 54 million comments on over 140 thousand posts for these months. We analyze and compare engagement on the posts of these influencers and provide quantitative figures for aggregated user activity. We further show the changes in the patterns of usage before and during the lockdown, which demonstrated a growth of activity and sizable daily and weekly variations. We also analyze the user sentiment through the psycholinguistic properties of comments, and the results testified the rapid boom and disappearance of topics related to the pandemic. To support further analyses, we release the anonymized dataset.
翻訳日:2023-03-28 01:31:43 公開日:2021-06-02
# 単一量子ドットを用いた超高速電気遷移体の光電子サンプリング

Optoelectronic sampling of ultrafast electric transients with single quantum dots ( http://arxiv.org/abs/2106.00994v1 )

ライセンス: Link先を確認
Alex Widhalm, Sebastian Krehs, Dustin Siebert, Nand Lal Sharma, Timo Langer, Bj\"orn Jonas, Dirk Reuter, Andreas Thiede, Jens F\"orstner and Artur Zrenner(参考訳) 我々は,超高速電気信号の光電子サンプリングのためのセンサデバイスとして,低容量単一量子ドットフォトダイオードを開発した。 スターク効果により、時間依存の電気信号が遷移エネルギーの時間依存シフトに変換される。 このシフトは光電流検出による共鳴psレーザー分光によって正確に測定される。 実験では,超高速CMOS回路のレーザ同期出力パルスを高分解能でサンプリングした。 量子ドットセンサー装置を用いて、mV範囲の電圧分解能を持つ20pps以下のトランジェントをサンプリングすることができた。

In our work, we have engineered low capacitance single quantum dot photodiodes as sensor devices for the optoelectronic sampling of ultrafast electric signals. By the Stark effect, a time-dependent electric signal is converted into a time-dependent shift of the transition energy. This shift is measured accurately by resonant ps laser spectroscopy with photocurrent detection. In our experiments, we sample the laser synchronous output pulse of an ultrafast CMOS circuit with high resolution. With our quantum dot sensor device, we were able to sample transients below 20 ps with a voltage resolution in the mV-range.
翻訳日:2023-03-28 01:31:23 公開日:2021-06-02
# John Bell氏の講演「オブジェクトとオブジェクト」: 交換

John Bell on 'Subject and Object': an Exchange ( http://arxiv.org/abs/2106.01298v1 )

ライセンス: Link先を確認
Hans Halvorson, Jeremy Butterfield(参考訳) この三部紙は、 (i)ベル(1973年)の論文「主観と対象」のハルボルソンによる批判 (ii) バターフィールドのコメント (iii)ハルヴァーソンの回答。 付録は、ハルボルソンの批判の焦点であるベルからの節を与える。

This three-part paper comprises: (i) a critique by Halvorson of Bell's (1973) paper "Subject and Object"; (ii) a comment by Butterfield; (iii) a reply by Halvorson. An Appendix gives the passage from Bell that is the focus of Halvorson's critique.
翻訳日:2023-03-28 01:23:32 公開日:2021-06-02
# ウェル配置と制御の協調最適化のための多段マルチスワームpso

Multi-stage, multi-swarm PSO for joint optimization of well placement and control ( http://arxiv.org/abs/2106.01146v1 )

ライセンス: Link先を確認
Ajitabh Kumar(参考訳) 粒子群最適化(PSO)を含む進化的最適化アルゴリズムは、石油産業において生産計画と制御に成功している。 このような最適化研究は、多くの決定変数、生産シナリオ、不確実性のため、非常に難しい。 本研究では, 初期収束, 大域的最適解の過剰な影響, 発振など, 正準PSOアルゴリズムの特定の問題を修正するために, マルチステージマルチスワムPSO (MS2PSO) を提案する。 アルゴリズムの有効性を比較するために,Olympusベンチマークを用いて複数の実験を行った。 標準PSOハイパーパラメータは、初期探査と後期探査を優先するために最初に調整される。 次に、2段マルチスウォームPSO(2SPSO)を用い、第1段の多重スワームが第2段の単一スウォームに崩壊する。 最後に、複数のステージと複数のSwarmを持つMS2PSOを使用し、各ステージの後にSwarmが再帰的に崩壊する。 複数のスウォーム戦略は、多様性を人口内に保持し、複数のモードを探索することを保証する。 ステージングにより、初期段階の局所的なオプティマが早期収束に繋がらないことが保証される。 最適化テストケースは、90の制御変数と20年間のフローシミュレーションからなる。 異なるアルゴリズム設計には独自の利点と欠点があることが観察された。 複数のSwarmとステージはアルゴリズムが局所最適化から離れていくのに役立つが、同時に収束のためにもっと多くのイテレーションを必要とすることもある。 2SPSOとMS2PSOはどちらも高次元と高次探索が望まれる多重モードの問題に有用である。

Evolutionary optimization algorithms, including particle swarm optimization (PSO), have been successfully applied in oil industry for production planning and control. Such optimization studies are quite challenging due to large number of decision variables, production scenarios, and subsurface uncertainties. In this work, a multi-stage, multi-swarm PSO (MS2PSO) is proposed to fix certain issues with canonical PSO algorithm such as premature convergence, excessive influence of global best solution, and oscillation. Multiple experiments are conducted using Olympus benchmark to compare the efficacy of algorithms. Canonical PSO hyperparameters are first tuned to prioritize exploration in early phase and exploitation in late phase. Next, a two-stage multi-swarm PSO (2SPSO) is used where multiple-swarms of the first stage collapse into a single swarm in the second stage. Finally, MS2PSO with multiple stages and multiple swarms is used in which swarms recursively collapse after each stage. Multiple swarm strategy ensures that diversity is retained within the population and multiple modes are explored. Staging ensures that local optima found during initial stage does not lead to premature convergence. Optimization test case comprises of 90 control variables and a twenty year period of flow simulation. It is observed that different algorithm designs have their own benefits and drawbacks. Multiple swarms and stages help algorithm to move away from local optima, but at the same time they may also necessitate larger number of iterations for convergence. Both 2SPSO and MS2PSO are found to be helpful for problems with high dimensions and multiple modes where greater degree of exploration is desired.
翻訳日:2023-03-28 01:21:59 公開日:2021-06-02
# 行動の神経基盤を理解するツールとしての計算モデルの情報理論的解析

Information theoretic analysis of computational models as a tool to understand the neural basis of behaviors ( http://arxiv.org/abs/2106.05186v1 )

ライセンス: Link先を確認
Madhavun Candadai(参考訳) 今世紀最大の研究課題の1つは、脳体環境システムにおける行動の神経基盤を理解することである。 この目的のために、研究はいくつかの方向に進展してきたが、主に脳に集中している。 行動の神経基盤を研究する際に身体と環境を包含することへの受容と集中が高まっているが、動物研究者はしばしば技術や道具によって制限される。 計算モデルは、基盤が測定され干渉できるモデルシステムを研究できる代替フレームワークを提供する。 これらのモデルは、実験をガイドする仮説生成フレームワークとして機能する。 さらに、我々が望むように介入できる能力は、自然システムでは実行できない方法でこれらのモデルの詳細な分析を行うことができる。 この目的のために、情報理論は、これらの脳体環境モデルの動作に関する洞察を提供する強力なツールとして浮上している。 本稿では,計算モデルの情報理論解析が,行動の神経基盤をよりよく理解するための強力な研究手法であることを示すための紹介,レビュー,議論を行う。

One of the greatest research challenges of this century is to understand the neural basis for how behavior emerges in brain-body-environment systems. To this end, research has flourished along several directions but have predominantly focused on the brain. While there is in an increasing acceptance and focus on including the body and environment in studying the neural basis of behavior, animal researchers are often limited by technology or tools. Computational models provide an alternative framework within which one can study model systems where ground-truth can be measured and interfered with. These models act as a hypothesis generation framework that would in turn guide experimentation. Furthermore, the ability to intervene as we please, allows us to conduct in-depth analysis of these models in a way that cannot be performed in natural systems. For this purpose, information theory is emerging as a powerful tool that can provide insights into the operation of these brain-body-environment models. In this work, I provide an introduction, a review and discussion to make a case for how information theoretic analysis of computational models is a potent research methodology to help us better understand the neural basis of behavior.
翻訳日:2023-03-28 01:14:26 公開日:2021-06-02
# 2次元3体四極子-四極子相互作用

Two-dimensional three-body quadrupole-quadrupole interactions ( http://arxiv.org/abs/2106.01479v1 )

ライセンス: Link先を確認
Jianing Han(参考訳) 双極子間相互作用やファンデルワールス相互作用と同様に、四極子-四極子相互作用は四極子間の相互作用である。 本稿では、高励起原子またはリドバーグ原子間の四極子相互作用の研究を行う。 加えて、1次元の2次元四重極-四重極相互作用に主焦点をあてた他の多くの計算とは異なり、本論文の主な目的は2次元の3重四重極-四重極相互作用の研究である。 具体的には,2次元立体相互作用について検討した。 この研究には、量子コンピューティングのための四重極遮断、四重極相互作用に基づく分子の生成など、多くの応用がある。

Similar to interactions between dipoles, or van der Waals interactions, quadrupole-quadrupole interactions are interactions between quadrupoles. In this article, we study the quadrupole interactions between highly excited atoms or Rydberg atoms. In addition, unlike many other calculations, in which the primary focus was on the one-dimensional two-body quadrupole-quadrupole interactions, the primary aim of this article is to study the two-dimensional few-body quadrupole-quadrupole interactions. Specifically, the two-dimensional three-body interactions are investigated. This research has many applications, such as quadrupole-blockade for quantum computing, creating molecules based on quadrupole interactions.
翻訳日:2023-03-28 01:14:10 公開日:2021-06-02
# 分極符号化QKDネットワークのための再構成可能なリレー

A Reconfigurable Relay for Polarization Encoded QKD Networks ( http://arxiv.org/abs/2106.01475v1 )

ライセンス: Link先を確認
Jing Wang and Bernardo A. Huberman(参考訳) 本稿では,量子鍵分布(QKD)ネットワークを分極するリレーノードを再構成する手法を提案する。 リレーは信頼モードと信頼できないモードを切り替えて、異なるネットワーク条件、リレー距離、セキュリティ要件に適応することができる。 これはQKDネットワークが動作する距離を拡張するだけでなく、P2MPネットワークトポロジも可能にする。 提案アーキテクチャは、安価で繊細な単一光子検出器(SPD)をリレーノードに集中化し、メンテナンスと冷却が容易で、各ユーザノードを簡素化し、低コストのキュービット準備のための商用デバイスのみを必要とする。

We propose a method for reconfiguring a relay node for polarization encoded quantum key distribution (QKD) networks. The relay can be switched between trusted and untrusted modes to adapt to different network conditions, relay distances, and security requirements. This not only extends the distance over which a QKD network operates but also enables point-to-multipoint (P2MP) network topologies. The proposed architecture centralizes the expensive and delicate single-photon detectors (SPDs) at the relay node with eased maintenance and cooling while simplifying each user node so that it only needs commercially available devices for low-cost qubit preparation.
翻訳日:2023-03-28 01:13:57 公開日:2021-06-02
# 交換結合シリコン量子ドットにおけるスピンバルブ量子ダイナミクス

Spin-Valley Qubit Dynamics In Exchange Coupled Silicon Quantum Dots ( http://arxiv.org/abs/2106.01391v1 )

ライセンス: Link先を確認
Donovan Buterakos and Sankar Das Sarma(参考訳) バレー状態の存在は、シリコン量子ドットにおける量子情報技術を実現するための重要な障害である。 我々は,バレー自由度を持つ交換結合量子ドットのダイナミクスを研究するために摂動解析手法を用いる。 谷の分裂が大きく、電子が適切に谷の固有状態に初期化されない場合、系の時間進化はスピン・バレーの絡み合いを引き起こす。 スピンバレーの絡み合いは、谷の分裂が小さく、電子が同じ谷の状態に初期化されない場合にも起こる。 さらに,小谷分割の場合,スピンバルブの絡み合いは2量子ビット系の測定確率には影響しないが,より多くの量子ビットを持つ系が影響を受ける。 つまり、2量子ビットシステムで測定された2量子ビットゲートのフィデリティは、バレー自由度の影響を見逃す可能性がある。 我々の研究は、システム温度が非常に低い場合でも、谷の存在がマルチビットの忠実度に悪影響を及ぼすことを示した。

The presence of valley states is a significant obstacle to realizing quantum information technologies in Silicon quantum dots, as leakage into alternate valley states can introduce errors into the computation. We use a perturbative analytical approach to study the dynamics of exchange-coupled quantum dots with valley degrees of freedom. We show that if the valley splitting is large and electrons are not properly initialized to valley eigenstates, then time evolution of the system will lead to spin-valley entanglement. Spin-valley entanglement will also occur if the valley splitting is small and electrons are not initialized to the same valley state. Additionally, we show that for small valley splitting, spin-valley entanglement does not affect measurement probabilities of two-qubit systems; however, systems with more qubits will be affected. This means that two-qubit gate fidelities measured in two-qubit systems may miss the effects of valley degrees of freedom. Our work shows how the existence of valleys may adversely affect multiqubit fidelities even when the system temperature is very low.
翻訳日:2023-03-28 01:13:17 公開日:2021-06-02
# 因果階層をまたがる確率論的推論

Probabilistic Reasoning across the Causal Hierarchy ( http://arxiv.org/abs/2001.02889v5 )

ライセンス: Link先を確認
Duligur Ibeling, Thomas Icard(参考訳) 本稿では,確率的論理言語として,関連,介入,反事実の三層因果階層の形式化を提案する。 私たちの言語は厳密に表現力を高めており、条件付き独立性やベイズ推論を含む定量的確率的推論を表現できる最初の言語であり、因果効果のdo計算をコードする第2言語であり、任意の反事実クエリに対して完全に表現可能なdo計算をキャプチャする第3言語です。 構造因果モデルと確率的プログラムの両方に対して対応する有限公理級数を与え、各言語に対する満足度と妥当性が多項式空間で決定可能であることを示す。

We propose a formalization of the three-tier causal hierarchy of association, intervention, and counterfactuals as a series of probabilistic logical languages. Our languages are of strictly increasing expressivity, the first capable of expressing quantitative probabilistic reasoning -- including conditional independence and Bayesian inference -- the second encoding do-calculus reasoning for causal effects, and the third capturing a fully expressive do-calculus for arbitrary counterfactual queries. We give a corresponding series of finitary axiomatizations complete over both structural causal models and probabilistic programs, and show that satisfiability and validity for each language are decidable in polynomial space.
翻訳日:2023-01-13 05:16:38 公開日:2021-06-02
# 分岐ポリシー学習のための分岐境界探索木パラメータ化

Parameterizing Branch-and-Bound Search Trees to Learn Branching Policies ( http://arxiv.org/abs/2002.05120v4 )

ライセンス: Link先を確認
Giulia Zarpellon, Jason Jo, Andrea Lodi and Yoshua Bengio(参考訳) ブランチ・アンド・バウンド (B&B) は、Mixed-Integer Linear Programming Problem (MILP) の解法として一般的に用いられる木探索法である。 MILPの分岐ポリシーの学習は活発な研究領域となり、ほとんどの研究は、強い分岐規則を模倣し、異なる問題のクラスに特化することを提案している。 我々は、異種MILPをまたいで一般化するポリシーを学ぶことを目指しており、B&B探索木の状態のパラメータ化がこの種の一般化に役立つという仮説を立てている。 本稿では,新しい模倣学習フレームワークを提案し,分岐を表現するための新しい入力機能とアーキテクチャを紹介する。 MILPベンチマークインスタンス上での実験では,探索木の状態の明示的なパラメータ化を,高い精度とより小さなB&B木の両方の観点から分岐決定を変調する利点を明らかに示している。 結果として得られたポリシーは、"ブランチを学ぶ"という現在の最先端の手法よりもはるかに優れている。

Branch and Bound (B&B) is the exact tree search method typically used to solve Mixed-Integer Linear Programming problems (MILPs). Learning branching policies for MILP has become an active research area, with most works proposing to imitate the strong branching rule and specialize it to distinct classes of problems. We aim instead at learning a policy that generalizes across heterogeneous MILPs: our main hypothesis is that parameterizing the state of the B&B search tree can aid this type of generalization. We propose a novel imitation learning framework, and introduce new input features and architectures to represent branching. Experiments on MILP benchmark instances clearly show the advantages of incorporating an explicit parameterization of the state of the search tree to modulate the branching decisions, in terms of both higher accuracy and smaller B&B trees. The resulting policies significantly outperform the current state-of-the-art method for "learning to branch" by effectively allowing generalization to generic unseen instances.
翻訳日:2023-01-01 18:43:46 公開日:2021-06-02
# トレーニングやテストデータへのアクセスのない最先端ニューラルネットワークの品質の予測

Predicting trends in the quality of state-of-the-art neural networks without access to training or testing data ( http://arxiv.org/abs/2002.06716v2 )

ライセンス: Link先を確認
Charles H. Martin, Tongsu (Serena) Peng, and Michael W. Mahoney(参考訳) 多くのアプリケーションでは、他の人がトレーニングしたニューラルネットワークモデルで動作します。 このような事前訓練されたモデルでは、トレーニングデータやテストデータにアクセスできない場合がある。 さらに、トレーニングデータの詳細、損失関数、ハイパーパラメータ値など、モデルの詳細を知らない場合もある。 1つまたは複数の事前訓練されたモデルを考えると、モデルの性能や品質について何かを言うのは難しい。 ここでは、何百という事前学習済みモデルの詳細なメタ分析を提供することで、この課題に対処します。 本研究では,最近開発された重み付き自己正則化理論から,規範に基づくキャパシティ制御指標と電力法に基づく指標について検討する。 基準に基づくメトリクスは、よく訓練されたモデルに対して報告されたテスト精度とよく相関するが、よく訓練されたモデルと不十分なモデルとを区別できないことが多い。 また、パワーローベースのメトリクスは、所定のアーキテクチャで訓練された一連のモデル間の識別を定量的に改善し、訓練されたモデルと訓練不足モデルとの識別を質的に改善する。 これらの方法は、トレーニング/テストの精度を調べるだけでは検出できない、事前訓練されたニューラルネットワークに問題があるかどうかを特定するために使用できる。

In many applications, one works with neural network models trained by someone else. For such pretrained models, one may not have access to training data or test data. Moreover, one may not know details about the model, e.g., the specifics of the training data, the loss function, the hyperparameter values, etc. Given one or many pretrained models, it is a challenge to say anything about the expected performance or quality of the models. Here, we address this challenge by providing a detailed meta-analysis of hundreds of publicly-available pretrained models. We examine norm based capacity control metrics as well as power law based metrics from the recently-developed Theory of Heavy-Tailed Self Regularization. We find that norm based metrics correlate well with reported test accuracies for well-trained models, but that they often cannot distinguish well-trained versus poorly-trained models. We also find that power law based metrics can do much better -- quantitatively better at discriminating among series of well-trained models with a given architecture; and qualitatively better at discriminating well-trained versus poorly-trained models. These methods can be used to identify when a pretrained neural network has problems that cannot be detected simply by examining training/test accuracies.
翻訳日:2022-12-31 12:27:36 公開日:2021-06-02
# 意味的類似性による学習は抽象的要約をより良くする

Learning by Semantic Similarity Makes Abstractive Summarization Better ( http://arxiv.org/abs/2002.07767v2 )

ライセンス: Link先を確認
Wonjin Yoon, Yoon Sun Yeo, Minbyul Jeong, Bong-Jun Yi, Jaewoo Kang(参考訳) 事前訓練された言語モデルを利用することで、要約モデルは最近急速に進歩した。 しかし、モデルは主にROUGEなどの自動評価指標によって評価される。 ROUGEは人間の評価スコアと正の相関を持つことで知られているが、その脆弱性と実際の品質の差が批判されている。 本稿では,最近のLM, BART, およびベンチマークデータセットであるCNN/DMの参照要約を,クラウドソースによる人体評価指標を用いて比較する。 興味深いことに、モデル生成要約は参照要約と比較して高いスコアを受け取る。 実験結果から,まずcnn/dmデータセットの本質的特徴,事前学習された言語モデルの進展,トレーニングデータの一般化能力について考察した。 最後に,モデル生成要約に関する知見を共有し,抽象要約のための学習方法を考える。

By harnessing pre-trained language models, summarization models had rapid progress recently. However, the models are mainly assessed by automatic evaluation metrics such as ROUGE. Although ROUGE is known for having a positive correlation with human evaluation scores, it has been criticized for its vulnerability and the gap between actual qualities. In this paper, we compare the generated summaries from recent LM, BART, and the reference summaries from a benchmark dataset, CNN/DM, using a crowd-sourced human evaluation metric. Interestingly, model-generated summaries receive higher scores relative to reference summaries. Stemming from our experimental results, we first argue the intrinsic characteristics of the CNN/DM dataset, the progress of pre-trained language models, and their ability to generalize on the training data. Finally, we share our insights into the model-generated summaries and presents our thought on learning methods for abstractive summarization.
翻訳日:2022-12-30 20:10:51 公開日:2021-06-02
# 大規模変圧器モデル圧縮:BERTを事例として

Compressing Large-Scale Transformer-Based Models: A Case Study on BERT ( http://arxiv.org/abs/2002.11985v2 )

ライセンス: Link先を確認
Prakhar Ganesh, Yao Chen, Xin Lou, Mohammad Ali Khan, Yin Yang, Hassan Sajjad, Preslav Nakov, Deming Chen, Marianne Winslett(参考訳) 事前訓練されたTransformerベースのモデルは、様々な自然言語処理(NLP)タスクに対して最先端のパフォーマンスを達成した。 しかし、これらのモデルは何十億ものパラメータを持ち、したがってリソース不足で計算集約的なので、低機能デバイスや厳格なレイテンシ要件を持つアプリケーションに適している。 この可能性の1つはモデル圧縮であり、多くの研究の注目を集めている。 本稿では,特に人気のあるBERTモデルに着目し,トランスフォーマーの圧縮に関する研究を要約する。 特に, BERTの圧縮技術の現状を調査し, 大規模トランスフォーマーモデルの圧縮における現在のベストプラクティスを明らかにするとともに, 各種手法の動作に関する知見を提供する。 我々の分類と分析は、軽量で正確で汎用的なNLPモデルを実現するための将来的な研究の方向性にも光を当てています。

Pre-trained Transformer-based models have achieved state-of-the-art performance for various Natural Language Processing (NLP) tasks. However, these models often have billions of parameters, and, thus, are too resource-hungry and computation-intensive to suit low-capability devices or applications with strict latency requirements. One potential remedy for this is model compression, which has attracted a lot of research attention. Here, we summarize the research in compressing Transformers, focusing on the especially popular BERT model. In particular, we survey the state of the art in compression for BERT, we clarify the current best practices for compressing large-scale Transformer models, and we provide insights into the workings of various methods. Our categorization and analysis also shed light on promising future research directions for achieving lightweight, accurate, and generic NLP models.
翻訳日:2022-12-28 07:38:10 公開日:2021-06-02
# GAMI-Net:構造化相互作用を持つ一般化付加モデルに基づく説明可能なニューラルネットワーク

GAMI-Net: An Explainable Neural Network based on Generalized Additive Models with Structured Interactions ( http://arxiv.org/abs/2003.07132v2 )

ライセンス: Link先を確認
Zebin Yang, Aijun Zhang, Agus Sudjianto(参考訳) 実際のアプリケーションでニューラルネットワークモデルを使用する場合、解釈可能性の欠如は避けられない問題である。 本稿では,構造的相互作用を持つ一般化付加モデル(GAMI-Net)に基づく説明可能なニューラルネットワークを提案し,予測精度とモデル解釈可能性とのバランスを良好に追求する。 gami-netは複数のサブネットワークを付加した分断フィードフォワードネットワークであり、各サブネットワークは複数の隠れレイヤで構成され、1つの主要な効果または1つの対の相互作用をキャプチャするように設計されている。 さらに3つの解釈可能性の側面が検討されています a) 控えめな表現に対して最も重要な効果を選択すること b) 遺伝性,ペアワイズ相互作用は,少なくともその親の主要効果の少なくとも1つが存在する場合にのみ含むことができる。 c) 主作用と対角的相互作用を相互に区別可能な限界明快さ 最初に主要な効果を訓練し、その後にペアワイズ相互作用を残差に適合させる適応訓練アルゴリズムを開発した。 合成関数と実世界のデータセットの両方の数値実験により,提案モデルが優れた解釈性を有し,説明可能なブースティングマシンや他の古典的機械学習モデルと比較して,競合予測精度を維持していることが示された。

The lack of interpretability is an inevitable problem when using neural network models in real applications. In this paper, an explainable neural network based on generalized additive models with structured interactions (GAMI-Net) is proposed to pursue a good balance between prediction accuracy and model interpretability. GAMI-Net is a disentangled feedforward network with multiple additive subnetworks; each subnetwork consists of multiple hidden layers and is designed for capturing one main effect or one pairwise interaction. Three interpretability aspects are further considered, including a) sparsity, to select the most significant effects for parsimonious representations; b) heredity, a pairwise interaction could only be included when at least one of its parent main effects exists; and c) marginal clarity, to make main effects and pairwise interactions mutually distinguishable. An adaptive training algorithm is developed, where main effects are first trained and then pairwise interactions are fitted to the residuals. Numerical experiments on both synthetic functions and real-world datasets show that the proposed model enjoys superior interpretability and it maintains competitive prediction accuracy in comparison to the explainable boosting machine and other classic machine learning models.
翻訳日:2022-12-23 02:55:47 公開日:2021-06-02
# ニューラルネットワークはどのように光フローを推定するか? 神経心理学に触発された研究

How Do Neural Networks Estimate Optical Flow? A Neuropsychology-Inspired Study ( http://arxiv.org/abs/2004.09317v2 )

ライセンス: Link先を確認
D. B. de Jong, F. Paredes-Vall\'es, G. C. H. E. de Croon(参考訳) エンドツーエンドの訓練された畳み込みニューラルネットワークは、光学フロー推定のブレークスルーにつながっている。 最新の進歩は、アーキテクチャを改善し、利用可能なMPI-Sintelデータセットに新しいベンチマークを設定することで、光学フローの推定を改善することに重点を置いている。 本稿では,深層ニューラルネットワークが光流れを推定する方法について検討する。 これらのネットワーク機能の重要性に関する理解を深める (i)認識不能な入力に対する一般化能力の評価、 (ii)パフォーマンスを改善するための変更を提案する。 本研究では,光フロー推定のためのエンコーダデコーダニューラルネットワークのプロトタイプとして,FlowNetSに着目した。 さらに,神経心理学研究において,動物の脳に存在する運動フィルターの解明に重要な役割を果たしたフィルタ同定法を用いる。 提案手法は,FlowNetSの最深層におけるフィルタが,様々な動作パターンに敏感であることを示す。 動物脳で実証されているように、翻訳フィルターを見つけるだけでなく、人工ニューラルネットワークで簡単に測定できるため、拡張、回転、閉塞フィルターも発表しています。 さらに, 哺乳類の一次視覚野において, ネットワークの精製部と知覚的補充過程に類似性が認められた。

End-to-end trained convolutional neural networks have led to a breakthrough in optical flow estimation. The most recent advances focus on improving the optical flow estimation by improving the architecture and setting a new benchmark on the publicly available MPI-Sintel dataset. Instead, in this article, we investigate how deep neural networks estimate optical flow. A better understanding of how these networks function is important for (i) assessing their generalization capabilities to unseen inputs, and (ii) suggesting changes to improve their performance. For our investigation, we focus on FlowNetS, as it is the prototype of an encoder-decoder neural network for optical flow estimation. Furthermore, we use a filter identification method that has played a major role in uncovering the motion filters present in animal brains in neuropsychological research. The method shows that the filters in the deepest layer of FlowNetS are sensitive to a variety of motion patterns. Not only do we find translation filters, as demonstrated in animal brains, but thanks to the easier measurements in artificial neural networks, we even unveil dilation, rotation, and occlusion filters. Furthermore, we find similarities in the refinement part of the network and the perceptual filling-in process which occurs in the mammal primary visual cortex.
翻訳日:2022-12-11 18:18:51 公開日:2021-06-02
# 「性差別するが...」:心理学的尺度と対立サンプルを用いた性差別検出の再考

"Call me sexist, but...": Revisiting Sexism Detection Using Psychological Scales and Adversarial Samples ( http://arxiv.org/abs/2004.12764v2 )

ライセンス: Link先を確認
Mattia Samory, Indira Sen, Julian Kohne, Fabian Floeck, Claudia Wagner(参考訳) 研究はオンラインで性差別を効果的に検出する自動化手法に焦点を当てている。 過剰な性差別は見つけやすいように見えるが、その微妙な形式や多様体表現は見当たらない。 本稿では,セクシズムの異なる次元について,心理的尺度の実施を根拠として概説する。 このスケールから、ソーシャルメディアにおける性差別のコードブックを導き、既存のデータセットや新しいデータセットに注釈を付け、性差別の構成に関してその幅と妥当性の限界を指摘します。 次に,アノテーテッドデータセットを利用して逆例を生成し,セクシズム検出法の信頼性をテストする。 結果は、現在の機械学習モデルは、性差別の非常に狭い言語マーカーを拾い上げ、ドメイン外の例にうまく一般化しないことを示している。 しかし、トレーニング時に多様なデータや敵対的な例を含むと、より一般化し、データ収集のアーティファクトに対してより堅牢なモデルが得られる。 スケールベースのコードブックと最先端技術の欠点に関する洞察を提供することで、データ収集に対する理論駆動アプローチの振り返りを含む、性差別検出のための、より良くより広いモデルの開発に貢献できることを願っています。

Research has focused on automated methods to effectively detect sexism online. Although overt sexism seems easy to spot, its subtle forms and manifold expressions are not. In this paper, we outline the different dimensions of sexism by grounding them in their implementation in psychological scales. From the scales, we derive a codebook for sexism in social media, which we use to annotate existing and novel datasets, surfacing their limitations in breadth and validity with respect to the construct of sexism. Next, we leverage the annotated datasets to generate adversarial examples, and test the reliability of sexism detection methods. Results indicate that current machine learning models pick up on a very narrow set of linguistic markers of sexism and do not generalize well to out-of-domain examples. Yet, including diverse data and adversarial examples at training time results in models that generalize better and that are more robust to artifacts of data collection. By providing a scale-based codebook and insights regarding the shortcomings of the state-of-the-art, we hope to contribute to the development of better and broader models for sexism detection, including reflections on theory-driven approaches to data collection.
翻訳日:2022-12-09 05:48:12 公開日:2021-06-02
# モジュール要約技術を用いた博士論文からのSOAPノートの生成

Generating SOAP Notes from Doctor-Patient Conversations Using Modular Summarization Techniques ( http://arxiv.org/abs/2005.01795v3 )

ライセンス: Link先を確認
Kundan Krishna, Sopan Khosla, Jeffrey P. Bigham, Zachary C. Lipton(参考訳) 各患者訪問の後、医師はSOAPノートと呼ばれる長い半構造化された臨床サマリーを作成した。 臨床医や研究者にとって価値はないが、デジタルSOAPノートを作成するのは負担がかかり、医師のバーンアウトに寄与する。 本稿では, 医師と患者との会話の書き起こしに基づいて, 深層要約モデルを活用するための最初の完全パイプラインについて紹介する。 抽出-吸収スペクトルのスペクトルを探索した後,Cluster2Sentというアルゴリズムを提案する。 (i)各要約部に関連する重要な発話を抽出する (ii)関連発話をまとめ、その後 (iii)クラスタ毎に1つの要約文を生成する。 cluster2sentは、純粋に抽象的な8ルージュ1点を上回り、専門家によって評価されるように、より事実的で一貫性のある文を生成する。 再現性向上のために、パブリックなAMIデータセットにも同様の利点を示す。 本結果は,要約コーパスを構築する際に,要約をセクションに構造化し,証拠を注釈する利点について述べる。

Following each patient visit, physicians draft long semi-structured clinical summaries called SOAP notes. While invaluable to clinicians and researchers, creating digital SOAP notes is burdensome, contributing to physician burnout. In this paper, we introduce the first complete pipelines to leverage deep summarization models to generate these notes based on transcripts of conversations between physicians and patients. After exploring a spectrum of methods across the extractive-abstractive spectrum, we propose Cluster2Sent, an algorithm that (i) extracts important utterances relevant to each summary section; (ii) clusters together related utterances; and then (iii) generates one summary sentence per cluster. Cluster2Sent outperforms its purely abstractive counterpart by 8 ROUGE-1 points, and produces significantly more factual and coherent sentences as assessed by expert human evaluators. For reproducibility, we demonstrate similar benefits on the publicly available AMI dataset. Our results speak to the benefits of structuring summaries into sections and annotating supporting evidence when constructing summarization corpora.
翻訳日:2022-12-06 23:55:16 公開日:2021-06-02
# ProSelfLC:ロバストディープニューラルネットワークのトレーニングのためのプログレッシブセルフラベル補正

ProSelfLC: Progressive Self Label Correction for Training Robust Deep Neural Networks ( http://arxiv.org/abs/2005.03788v6 )

ライセンス: Link先を確認
Xinshao Wang, Yang Hua, Elyor Kodirov, David A. Clifton, Neil M. Robertson(参考訳) 頑健なディープニューラルネットワーク(DNN)を訓練するために,出力正則化,自己および非自己ラベル補正(LC)を含む,いくつかの目標修正アプローチを体系的に検討した。 1) 自己LCは、自身の知識を活用して、余分なモデルを必要としないため、最も魅力的である。 しかし、学習者の信頼度を自動的に判断する方法は、文献ではうまく答えられていない。 2)低エントロピー予測に報いる方法もあれば,どちらがよいのかを問いかける方法もある。 最初の問題を解決するために、ニューラルネットワークはノイズ[3]と最小エントロピー正規化原理[10]を付ける前に有意義なパターンを学習し、学習時間とエントロピーに応じて設計されるProSelfLCという新しいエンドツーエンド手法を提案する。 具体的には、モデルが十分な時間トレーニングを受けており、その予測が低エントロピー(高い信頼度)である場合、予測されたラベル分布に対する信頼度を徐々に増加させます。 第2の課題として,ProSelfLCでは,有意義な低エントロピー状態を再定義し,学習者に対して最適化することが実証されている。 これはエントロピーの最小化の防御となる。 クリーンかつノイズの多い環境において,ProSelfLCの有効性を示す。 ソースコードはhttps://github.com/XinshaoAmosWang/ProSelfLC-CVPR2021で公開されている。 キーワード:エントロピー最小化、最大エントロピー、信頼度ペナルティ、自己知識蒸留、ラベル修正、ラベルノイズ、半教師付き学習、出力正規化

To train robust deep neural networks (DNNs), we systematically study several target modification approaches, which include output regularisation, self and non-self label correction (LC). Two key issues are discovered: (1) Self LC is the most appealing as it exploits its own knowledge and requires no extra models. However, how to automatically decide the trust degree of a learner as training goes is not well answered in the literature? (2) Some methods penalise while the others reward low-entropy predictions, prompting us to ask which one is better? To resolve the first issue, taking two well-accepted propositions--deep neural networks learn meaningful patterns before fitting noise [3] and minimum entropy regularisation principle [10]--we propose a novel end-to-end method named ProSelfLC, which is designed according to learning time and entropy. Specifically, given a data point, we progressively increase trust in its predicted label distribution versus its annotated one if a model has been trained for enough time and the prediction is of low entropy (high confidence). For the second issue, according to ProSelfLC, we empirically prove that it is better to redefine a meaningful low-entropy status and optimise the learner toward it. This serves as a defence of entropy minimisation. We demonstrate the effectiveness of ProSelfLC through extensive experiments in both clean and noisy settings. The source code is available at https://github.com/XinshaoAmosWang/ProSelfLC-CVPR2021. Keywords: entropy minimisation, maximum entropy, confidence penalty, self knowledge distillation, label correction, label noise, semi-supervised learning, output regularisation
翻訳日:2022-12-05 22:31:17 公開日:2021-06-02
# 三次元ブラインド混合手法を用いた混合初期手続き型設計ツールの評価

Evaluating Mixed-Initiative Procedural Level Design Tools using a Triple-Blind Mixed-Method User Study ( http://arxiv.org/abs/2005.07478v2 )

ライセンス: Link先を確認
Sean P. Walton and Alma A. M. Rahat and James Stovold(参考訳) ゲームレベルの手続き的生成における混合イニシアティブツールの有効性に関するトリプルブレンド混合手法ユーザスタディから得られた結果について報告する。 対話的進化的最適化を用いたレベル生成ツールを考案した。 (a)デザイン空間を探索するデザイナーを支援することに焦点を当て、 b) レベルを設計することでのみ、デザイナと対話する必要があります。 このツールは、手書き地図のレベルデザインパターンを特定し、その情報を使ってインタラクティブな最適化アルゴリズムを駆動する。 ランダムなレベルの提案を提供するツールが与えられた設計者に対して,混合イニシアティブツールを用いた設計経験を比較した厳密なユーザ調査を行った。 混合イニシアティブツールを用いた設計者は、レベルデザインタスクへの関与が増し、新しいアイデアやデザインの方向性を刺激する効果があると報告した。 これは、手続き的コンテンツ生成が人間の設計プロセスをサポートする強力なツールとして使用できることを示す重要な証拠となる。

Results from a triple-blind mixed-method user study into the effectiveness of mixed-initiative tools for the procedural generation of game levels are presented. A tool which generates levels using interactive evolutionary optimisation was designed for this study which (a) is focused on supporting the designer to explore the design space and (b) only requires the designer to interact with it by designing levels. The tool identifies level design patterns in an initial hand-designed map and uses that information to drive an interactive optimisation algorithm. A rigorous user study was designed which compared the experiences of designers using the mixed-initiative tool to designers who were given a tool which provided completely random level suggestions. The designers using the mixed-initiative tool showed an increased engagement in the level design task, reporting that it was effective in inspiring new ideas and design directions. This provides significant evidence that procedural content generation can be used as a powerful tool to support the human design process.
翻訳日:2022-12-02 22:25:55 公開日:2021-06-02
# VideoForensicsHQ:高品質な顔ビデオ検出

VideoForensicsHQ: Detecting High-quality Manipulated Face Videos ( http://arxiv.org/abs/2005.10360v2 )

ライセンス: Link先を確認
Gereon Fox, Wentao Liu, Hyeongwoo Kim, Hans-Peter Seidel, Mohamed Elgharib, Christian Theobalt(参考訳) 高品質な顔ビデオの合成に新たなアプローチが悪質な意図でビデオを操作するために誤用される可能性があるという懸念がある。 そのため、研究コミュニティは修正映像の検出方法を開発し、このタスクのためのベンチマークデータセットを組み立てた。 本稿では,偽造検知器の性能が,人間の目で見る人工物の存在にどのように依存するかを検討する。 前例のない品質の顔ビデオ偽造検出のための新しいベンチマークデータセットを導入する。 既存の検出技術では、人間の目を確実に騙す偽物を検出するのが困難であることを示すことができる。 そこで我々は,空間的特徴と時間的特徴の組み合わせを検証し,検出精度と一般化の両面で既存手法より優れている新しい検出器群を導入した。

There are concerns that new approaches to the synthesis of high quality face videos may be misused to manipulate videos with malicious intent. The research community therefore developed methods for the detection of modified footage and assembled benchmark datasets for this task. In this paper, we examine how the performance of forgery detectors depends on the presence of artefacts that the human eye can see. We introduce a new benchmark dataset for face video forgery detection, of unprecedented quality. It allows us to demonstrate that existing detection techniques have difficulties detecting fakes that reliably fool the human eye. We thus introduce a new family of detectors that examine combinations of spatial and temporal features and outperform existing approaches both in terms of detection accuracy and generalization.
翻訳日:2022-12-01 05:48:46 公開日:2021-06-02
# 2次推論とトレーニングデータの混合による拡張ユニバーサル依存性解析

Enhanced Universal Dependency Parsing with Second-Order Inference and Mixture of Training Data ( http://arxiv.org/abs/2006.01414v3 )

ライセンス: Link先を確認
Xinyu Wang, Yong Jiang, Kewei Tu(参考訳) 本稿では, \textit{iwpt 2020 shared task} に提案するシステムについて述べる。 本システムは2次推論を備えたグラフベースパーサである。 低リソースのタミルコーパスでは、タミルの訓練データを他の言語と特別に混合し、タミルの性能を大幅に改善する。 提案要求の誤解のため、接続されていないグラフを提出したので、システムでは10チーム以上でtextbf{6th} をランク付けするしかありません。 しかし、この問題を修正した後、我々のシステムは公式な結果においてtextbf{1st} をランク付けしたチームよりも 0.6 ELAS である。

This paper presents the system used in our submission to the \textit{IWPT 2020 Shared Task}. Our system is a graph-based parser with second-order inference. For the low-resource Tamil corpus, we specially mixed the training data of Tamil with other languages and significantly improved the performance of Tamil. Due to our misunderstanding of the submission requirements, we submitted graphs that are not connected, which makes our system only rank \textbf{6th} over 10 teams. However, after we fixed this problem, our system is 0.6 ELAS higher than the team that ranked \textbf{1st} in the official results.
翻訳日:2022-11-25 23:16:58 公開日:2021-06-02
# MISIM:文脈認識型セマンティック構造を用いたニューラルコードセマンティックス類似システム

MISIM: A Neural Code Semantics Similarity System Using the Context-Aware Semantics Structure ( http://arxiv.org/abs/2006.05265v6 )

ライセンス: Link先を確認
Fangke Ye, Shengtian Zhou, Anand Venkat, Ryan Marcus, Nesime Tatbul, Jesmin Jahan Tithi, Niranjan Hasabnis, Paul Petersen, Timothy Mattson, Tim Kraska, Pradeep Dubey, Vivek Sarkar, Justin Gottschlich(参考訳) コードのセマンティクスの類似性は、コードのレコメンデーション、ソフトウェア欠陥の自動修正、クローン検出など、多くのタスクで使用できる。 しかし、そのようなシステムの精度はまだ汎用的信頼性のレベルに達していない。 そこで本研究では,2つのコアコンポーネントからなるニューラルコードセマンティクス類似性システムであるmachine inferred code similarity (misim)を提案する。 i)MISIMは、コード構文からセマンティクスを引き上げるために構築された、新しいコンテキスト対応セマンティクス構造を使用する。 (ii)MISIMは、学習パラメータを持つ様々なニューラルネットワークアーキテクチャに使用できる拡張可能なニューラルネットワーク類似性スコアリングアルゴリズムを使用する。 我々はMISIMを4つの最先端システムと比較し、さらに2つの手動モデル、1800万行以上のコードからなる328Kプログラムを含む。 実験の結果、misimは(map@rを使って)次の最高のパフォーマンスシステムよりも8.08%精度が良いことがわかった。

Code semantics similarity can be used for many tasks such as code recommendation, automated software defect correction, and clone detection. Yet, the accuracy of such systems has not yet reached a level of general purpose reliability. To help address this, we present Machine Inferred Code Similarity (MISIM), a neural code semantics similarity system consisting of two core components: (i)MISIM uses a novel context-aware semantics structure, which was purpose-built to lift semantics from code syntax; (ii)MISIM uses an extensible neural code similarity scoring algorithm, which can be used for various neural network architectures with learned parameters. We compare MISIM to four state-of-the-art systems, including two additional hand-customized models, over 328K programs consisting of over 18 million lines of code. Our experiments show that MISIM has 8.08% better accuracy (using MAP@R) compared to the next best performing system.
翻訳日:2022-11-25 03:34:10 公開日:2021-06-02
# ヘイスタックの針:極端クラス不均衡下におけるラベル効率評価

Needle in a Haystack: Label-Efficient Evaluation under Extreme Class Imbalance ( http://arxiv.org/abs/2006.06963v2 )

ライセンス: Link先を確認
Neil G. Marchant and Benjamin I. P. Rubinstein(参考訳) レコードリンクや極端な分類のような重要なタスクは、100万以上の多数インスタンスに1つの少数インスタンスを持つ、極端なクラス不均衡を示す。 統計的に重要な評価を達成するのにさえ、すべてのクラスの十分なサンプルを取得することは非常に困難であり、現在のほとんどのアプローチは、低い見積もりまたは非現実的なコストを生み出す。 この課題に対して重要なサンプリングが課されている場合、性能指標に制限のある制約が課され、見積もりには適切な保証が与えられず、評価はラベルに適応できない。 本稿では,適応的重要度サンプリングに基づくオンライン評価フレームワークを開発する。 ターゲットのパフォーマンス指標とモデルが $p(y|x)$ として与えられると、フレームワークは、統計的精度を最大化するために、アイテムに対する分布をラベルに適応させる。 結果のパフォーマンス推定に対して強い一貫性と中心極限定理を確立し、ディリクレツリーモデルを利用する実例でフレームワークをインスタンス化する。 実験は、固定ラベル予算において最先端のmseよりも優れた平均的なmseを示す。

Important tasks like record linkage and extreme classification demonstrate extreme class imbalance, with 1 minority instance to every 1 million or more majority instances. Obtaining a sufficient sample of all classes, even just to achieve statistically-significant evaluation, is so challenging that most current approaches yield poor estimates or incur impractical cost. Where importance sampling has been levied against this challenge, restrictive constraints are placed on performance metrics, estimates do not come with appropriate guarantees, or evaluations cannot adapt to incoming labels. This paper develops a framework for online evaluation based on adaptive importance sampling. Given a target performance metric and model for $p(y|x)$, the framework adapts a distribution over items to label in order to maximize statistical precision. We establish strong consistency and a central limit theorem for the resulting performance estimates, and instantiate our framework with worked examples that leverage Dirichlet-tree models. Experiments demonstrate an average MSE superior to state-of-the-art on fixed label budgets.
翻訳日:2022-11-22 03:24:23 公開日:2021-06-02
# 連続時間ベイズネットワークの構造学習のための制約に基づくアルゴリズム

A Constraint-Based Algorithm for the Structural Learning of Continuous-Time Bayesian Networks ( http://arxiv.org/abs/2007.03248v3 )

ライセンス: Link先を確認
Alessandro Bregoli, Marco Scutari, Fabio Stella(参考訳) 動的ベイズネットワークは離散時間モデルとして文献でよく研究されてきたが、その連続時間拡張は比較的注目されていない。 本稿では,連続時間ベイズネットワークの構造を学習する最初の制約ベースアルゴリズムを提案する。 条件付き独立性を確立するために提案する異なる統計テストと基礎となる仮説について考察する。 さらに,提案アルゴリズムにおける最良ケースと最悪のケースの計算複雑性を分析し,議論する。 最後に,その性能を合成データを用いて検証し,その強みと限界をnodelman et al.(2003)のスコアベースの構造学習アルゴリズムと比較した。 後者はバイナリ変数を持つネットワークの学習においてより正確であるのに対して、制約に基づくアプローチは2つ以上の値を想定した変数に対してより正確である。 数値実験により、スコアベースおよび制約ベースアルゴリズムが計算時間に匹敵することを確認した。

Dynamic Bayesian networks have been well explored in the literature as discrete-time models: however, their continuous-time extensions have seen comparatively little attention. In this paper, we propose the first constraint-based algorithm for learning the structure of continuous-time Bayesian networks. We discuss the different statistical tests and the underlying hypotheses used by our proposal to establish conditional independence. Furthermore, we analyze and discuss the computational complexity of the best and worst cases for the proposed algorithm. Finally, we validate its performance using synthetic data, and we discuss its strengths and limitations comparing it with the score-based structure learning algorithm from Nodelman et al. (2003). We find the latter to be more accurate in learning networks with binary variables, while our constraint-based approach is more accurate with variables assuming more than two values. Numerical experiments confirm that score-based and constraint-based algorithms are comparable in terms of computation time.
翻訳日:2022-11-12 18:22:06 公開日:2021-06-02
# 蒸留・効率的モデルによる実用的リリーディングに向けて

Towards Practical Lipreading with Distilled and Efficient Models ( http://arxiv.org/abs/2007.06504v3 )

ライセンス: Link先を確認
Pingchuan Ma, Brais Martinez, Stavros Petridis, Maja Pantic(参考訳) lipreadingは、ニューラルネットワークの復活によって、多くの進歩を目の当たりにしている。 近年の研究では、最適アーキテクチャの発見や一般化の向上など、パフォーマンスの向上に重点を置いている。 しかし、現在の手法と実践的なシナリオにおける効果的なリップリーディングの展開要件との間には、依然として大きなギャップがある。 本稿では, このギャップを著しく埋める一連のイノベーションを提案する。まず, 自己蒸留を用いてLRWとLRW-1000を88.5%, 46.6%に大差で, 最先端性能を向上する。 次に,ds-tcnヘッドを奥行き分離可能な時間畳み込みネットワークとして設計し,計算コストを(かなり効率のよい)原型モデルに削減する手法を提案する。 第3に, 知識蒸留は軽量モデルの性能回復に非常に有効なツールであることを示す。 この結果、精度と効率のトレードオフが異なる様々なモデルが得られる。 しかしながら、我々の最も有望な軽量モデルは、計算コストとパラメータ数の点で8.2倍と3.9倍の削減を示しながら、現在の最先端のモデルと同等であり、実用的な応用にリップリーディングモデルの展開を期待する。

Lipreading has witnessed a lot of progress due to the resurgence of neural networks. Recent works have placed emphasis on aspects such as improving performance by finding the optimal architecture or improving generalization. However, there is still a significant gap between the current methodologies and the requirements for an effective deployment of lipreading in practical scenarios. In this work, we propose a series of innovations that significantly bridge that gap: first, we raise the state-of-the-art performance by a wide margin on LRW and LRW-1000 to 88.5% and 46.6%, respectively using self-distillation. Secondly, we propose a series of architectural changes, including a novel Depthwise Separable Temporal Convolutional Network (DS-TCN) head, that slashes the computational cost to a fraction of the (already quite efficient) original model. Thirdly, we show that knowledge distillation is a very effective tool for recovering performance of the lightweight models. This results in a range of models with different accuracy-efficiency trade-offs. However, our most promising lightweight models are on par with the current state-of-the-art while showing a reduction of 8.2x and 3.9x in terms of computational cost and number of parameters, respectively, which we hope will enable the deployment of lipreading models in practical applications.
翻訳日:2022-11-10 23:23:30 公開日:2021-06-02
# データストリームの周波数推定:最適なハッシュスキームの学習

Frequency Estimation in Data Streams: Learning the Optimal Hashing Scheme ( http://arxiv.org/abs/2007.09261v2 )

ライセンス: Link先を確認
Dimitris Bertsimas and Vassilis Digalakis Jr(参考訳) 本稿では,最適化と機械学習に基づくデータストリームにおける周波数推定問題に対する新しいアプローチを提案する。 限られたストレージを用いてデータ蒸気の周波数分布を維持するためにランダムハッシュに強く依存する最先端のストリーミング周波数推定アルゴリズムとは対照的に,提案手法は観測されたストリームプレフィックスをほぼ最適にハッシュ要素に利用し,ターゲットの周波数分布を圧縮する。 我々は,観測されたストリームプレフィックスで見られる要素に対する最適あるいは準最適ハッシュスキームを計算し,機械学習を用いて未知の要素をハッシュする,正確な混合整数線形最適化法を開発した。 さらに,より効率的なブロック座標降下アルゴリズムを開発し,実例で示すように高品質な解を生成できるとともに,特に動的計画法を用いて,提案手法を線形時間に正確に解くことができる。 提案手法を合成データセットと実世界の検索クエリデータの両方で実証的に評価する。 提案手法は, 推定誤差の平均(要素単位)と推定誤差の平均(要素単位)で1~2桁, 予測誤差で45~90%の精度で既存手法より優れていることを示す。

We present a novel approach for the problem of frequency estimation in data streams that is based on optimization and machine learning. Contrary to state-of-the-art streaming frequency estimation algorithms, which heavily rely on random hashing to maintain the frequency distribution of the data steam using limited storage, the proposed approach exploits an observed stream prefix to near-optimally hash elements and compress the target frequency distribution. We develop an exact mixed-integer linear optimization formulation, which enables us to compute optimal or near-optimal hashing schemes for elements seen in the observed stream prefix; then, we use machine learning to hash unseen elements. Further, we develop an efficient block coordinate descent algorithm, which, as we empirically show, produces high quality solutions, and, in a special case, we are able to solve the proposed formulation exactly in linear time using dynamic programming. We empirically evaluate the proposed approach both on synthetic datasets and on real-world search query data. We show that the proposed approach outperforms existing approaches by one to two orders of magnitude in terms of its average (per element) estimation error and by 45-90% in terms of its expected magnitude of estimation error.
翻訳日:2022-11-09 14:59:05 公開日:2021-06-02
# FIVES: 大規模タブラルデータのためのエッジ検索による機能インタラクション

FIVES: Feature Interaction Via Edge Search for Large-Scale Tabular Data ( http://arxiv.org/abs/2007.14573v2 )

ライセンス: Link先を確認
Yuexiang Xie, Zhen Wang, Yaliang Li, Bolin Ding, Nezihe Merve G\"urel, Ce Zhang, Minlie Huang, Wei Lin, Jingren Zhou(参考訳) 高次インタラクティブ機能は、異なる列間の相関を捉え、ユビキタスな表データの様々な学習タスクを強化することを約束する。 インタラクティブな特徴の自動生成を実現するために、既存の作業は特徴空間を明示的に横切るか、あるいはいくつかの設計されたモデルの中間活性化を通じて暗黙的に相互作用を表現する。 これら2つの手法は,機能解釈性と検索効率の間には,本質的にトレードオフが存在することを示している。 両者の利点を両立させるため,定義した特徴グラフ上のエッジ探索として,対話的特徴生成のタスクを定式化するFIVES (Feature Interaction Via Edge Search) という新しい手法を提案する。 具体的には, 有用な対話的特徴を探索する動機づけとなる理論的な証拠を, 順に提示する。 次に,専用グラフニューラルネットワーク(gnn)と特徴グラフに付随する隣接テンソルを最適化することにより,この探索戦略のインスタンス化を行う。 このようにして、提案手法は、GNNの典型的なトレーニングコースとして、時間消費トラバースを単純化し、学習した隣接テンソルに応じて明示的な特徴生成を可能にする。 ベンチマークと実世界の両方のデータセットの実験結果は、いくつかの最先端手法よりもFIVESの利点を示している。 さらに、FIVESによって識別されるインタラクティブ機能は、世界有数のeコマースプラットフォームであるTaobaoのレコメンデータシステムにデプロイされる。 オンラインA/Bテストの結果、提案手法であるFIVESの有効性をさらに検証し、Alibaba Cloudの顧客にAIユーティリティとしてFIVESを提供する。

High-order interactive features capture the correlation between different columns and thus are promising to enhance various learning tasks on ubiquitous tabular data. To automate the generation of interactive features, existing works either explicitly traverse the feature space or implicitly express the interactions via intermediate activations of some designed models. These two kinds of methods show that there is essentially a trade-off between feature interpretability and search efficiency. To possess both of their merits, we propose a novel method named Feature Interaction Via Edge Search (FIVES), which formulates the task of interactive feature generation as searching for edges on the defined feature graph. Specifically, we first present our theoretical evidence that motivates us to search for useful interactive features with increasing order. Then we instantiate this search strategy by optimizing both a dedicated graph neural network (GNN) and the adjacency tensor associated with the defined feature graph. In this way, the proposed FIVES method simplifies the time-consuming traversal as a typical training course of GNN and enables explicit feature generation according to the learned adjacency tensor. Experimental results on both benchmark and real-world datasets show the advantages of FIVES over several state-of-the-art methods. Moreover, the interactive features identified by FIVES are deployed on the recommender system of Taobao, a worldwide leading e-commerce platform. Results of an online A/B testing further verify the effectiveness of the proposed method FIVES, and we further provide FIVES as AI utilities for the customers of Alibaba Cloud.
翻訳日:2022-11-05 19:33:18 公開日:2021-06-02
# スパース高次元ベクトル自己回帰における構造推論

Structural Inference in Sparse High-Dimensional Vector Autoregressions ( http://arxiv.org/abs/2007.15535v2 )

ライセンス: Link先を確認
Jonas Krampe, Efstathios Paparoditis, Carsten Trenkler(参考訳) スパース, 構造的高次元ベクトル自己回帰(SVAR)システムにおけるインパルス応答の統計的推測を考察する。 高次元設定においてインパルス応答の一貫した推定器を導入し、同じパラメータに対する妥当な推論手順を提案する。 デルタメソッドのような標準手順は適用されないので、我々の設定における統計的推測はより深く関与する。 局所射影方程式を用いて,まずvar系に付随する移動平均パラメータの正規化推定器の非分離バージョンを構築する。 次に, 上記の非分離型推定器と同時衝突行列の非正規化推定器を組み合わせた構造的インパルス応答の推定を行い, システムの高次元性を考慮した。 構造的インパルス応答の導出した推定器の分布はガウス極限を持つことを示す。 また,この分布を推定するための有効なブートストラップ手順を提案する。 インパルス応答に対する信頼区間の構築および予測誤差分散分解試験における推論手法の適用について述べる。 我々の手順はシミュレーションによって示される。

We consider statistical inference for impulse responses in sparse, structural high-dimensional vector autoregressive (SVAR) systems. We introduce consistent estimators of impulse responses in the high-dimensional setting and suggest valid inference procedures for the same parameters. Statistical inference in our setting is much more involved since standard procedures, like the delta-method, do not apply. By using local projection equations, we first construct a de-sparsified version of regularized estimators of the moving average parameters associated with the VAR system. We then obtain estimators of the structural impulse responses by combining the aforementioned de-sparsified estimators with a non-regularized estimator of the contemporaneous impact matrix, also taking into account the high-dimensionality of the system. We show that the distribution of the derived estimators of structural impulse responses has a Gaussian limit. We also present a valid bootstrap procedure to estimate this distribution. Applications of the inference procedure in the construction of confidence intervals for impulse responses as well as in tests for forecast error variance decomposition are presented. Our procedure is illustrated by means of simulations.
翻訳日:2022-11-05 14:44:02 公開日:2021-06-02
# BraggNN:ディープラーニングによる高速X線ブラッグピーク解析

BraggNN: Fast X-ray Bragg Peak Analysis Using Deep Learning ( http://arxiv.org/abs/2008.08198v2 )

ライセンス: Link先を確認
Zhengchun Liu, Hemant Sharma, Jun-Sang Park, Peter Kenesei, Antonino Miceli, Jonathan Almer, Rajkumar Kettimuthu, Ian Foster(参考訳) 高エネルギー回折顕微鏡のようなX線回折に基づく顕微鏡技術は、高精度な回折ピークの位置の知識に依存している。 これらの位置は通常、観測された領域検出器データの強度を擬似Voigtのような理論的なピーク形状に合わせることで計算される。 実験が複雑化し、検出器技術が進化するにつれて、そのようなピーク検出と形状のフィッティングの計算コストは、その場実験中にリアルタイムフィードバックに必要な迅速な分析の最大のハードルとなる。 そこで本研究では,従来の擬似Voigtのピークフィッティングよりも高速にピーク位置を決定する深層学習に基づくBraggNNを提案する。 テストデータセットに適用された場合、BraggNNは従来の手法と比較して0.29ピクセル未満と0.57ピクセル未満のエラーをそれぞれ75%と95%で与えている。 実実験データに適用した場合,BraggNNが計算したピーク位置を用いた3次元再構成では,従来の2次元擬似ボオグトフィッティングを用いて決定したピーク位置を用いた再現に比べて平均15%よい結果が得られる。 ディープラーニングメソッドの実装や専用モデル推論アクセラレーターの最近の進歩により、braggnnは従来の方法に比べて大幅にパフォーマンスが向上し、例えば、アウトオブボックスソフトウェアを備えたコンシューマクラスのgpuカードの従来の方法よりも200倍以上高速になった。

X-ray diffraction based microscopy techniques such as High Energy Diffraction Microscopy rely on knowledge of the position of diffraction peaks with high precision. These positions are typically computed by fitting the observed intensities in area detector data to a theoretical peak shape such as pseudo-Voigt. As experiments become more complex and detector technologies evolve, the computational cost of such peak detection and shape fitting becomes the biggest hurdle to the rapid analysis required for real-time feedback during in-situ experiments. To this end, we propose BraggNN, a deep learning-based method that can determine peak positions much more rapidly than conventional pseudo-Voigt peak fitting. When applied to a test dataset, BraggNN gives errors of less than 0.29 and 0.57 pixels, relative to the conventional method, for 75% and 95% of the peaks, respectively. When applied to a real experimental dataset, a 3D reconstruction that used peak positions computed by BraggNN yields 15% better results on average as compared to a reconstruction obtained using peak positions determined using conventional 2D pseudo-Voigt fitting. Recent advances in deep learning method implementations and special-purpose model inference accelerators allow BraggNN to deliver enormous performance improvements relative to the conventional method, running, for example, more than 200 times faster than a conventional method on a consumer-class GPU card with out-of-the-box software.
翻訳日:2022-10-27 22:14:37 公開日:2021-06-02
# 埋め込みやシーケンスラベルの改善は?

More Embeddings, Better Sequence Labelers? ( http://arxiv.org/abs/2009.08330v3 )

ライセンス: Link先を確認
Xinyu Wang, Yong Jiang, Nguyen Bach, Tao Wang, Zhongqiang Huang, Fei Huang, Kewei Tu(参考訳) 最近の研究は文脈埋め込みのファミリを提案し、非文脈埋め込みよりもシーケンスラベルの精度を大幅に向上させる。 しかし、異なる種類の埋め込みを様々な設定で組み合わせることで、より良いシーケンスラベルを作成できるかどうかについては明確な結論はない。 In this paper, we conduct extensive experiments on 3 tasks over 18 datasets and 8 languages to study the accuracy of sequence labeling with various embedding concatenations and make three observations: (1) concatenating more embedding variants leads to better accuracy in rich-resource and cross-domain settings and some conditions of low-resource settings; (2) concatenating additional contextual sub-word embeddings with contextual character embeddings hurts the accuracy in extremely low-resource settings; (3) based on the conclusion of (1), concatenating additional similar contextual embeddings cannot lead to further improvements. これらの結論が、より強力なシーケンスラベルをさまざまな設定で構築する上で役立つことを願っています。

Recent work proposes a family of contextual embeddings that significantly improves the accuracy of sequence labelers over non-contextual embeddings. However, there is no definite conclusion on whether we can build better sequence labelers by combining different kinds of embeddings in various settings. In this paper, we conduct extensive experiments on 3 tasks over 18 datasets and 8 languages to study the accuracy of sequence labeling with various embedding concatenations and make three observations: (1) concatenating more embedding variants leads to better accuracy in rich-resource and cross-domain settings and some conditions of low-resource settings; (2) concatenating additional contextual sub-word embeddings with contextual character embeddings hurts the accuracy in extremely low-resource settings; (3) based on the conclusion of (1), concatenating additional similar contextual embeddings cannot lead to further improvements. We hope these conclusions can help people build stronger sequence labelers in various settings.
翻訳日:2022-10-17 08:26:35 公開日:2021-06-02
# 難読勾配による安定化ニューラルネットワークの逆ロバスト性

Adversarial Robustness of Stabilized NeuralODEs Might be from Obfuscated Gradients ( http://arxiv.org/abs/2009.13145v2 )

ライセンス: Link先を確認
Yifei Huang, Yaodong Yu, Hongyang Zhang, Yi Ma, Yuan Yao(参考訳) 本稿では,ニューラルネットワークが自然に訓練された場合でも,ホワイトボックス攻撃による非自明な対角的ロバスト性を実現するニューラルネットワーク正規微分方程式(ODE)の確率的に安定なアーキテクチャを提案する。 強固なホワイトボックス攻撃に耐える既存の防衛手法の多くは、ニューラルネットワークの堅牢性を改善するために、敵意的に訓練する必要があるため、自然の正確性と敵意の強固さの間のトレードオフを犯さなければならない。 動的システム理論に着想を得て, ODEブロックがスキュー対称であり, 入力出力安定であることが証明されたSONetというニューラルネットワークを設計した。 自然訓練により、SONetは、自然な精度を犠牲にすることなく、最先端の対人防御手法と同等の堅牢性を達成することができる。 例えば pgd-20 (\ell_\infty=0.031$) による cifar-10 データセットへの攻撃では、91.57\% と自然精度 62.35\% が達成され、取引で訓練された resnet のアーキテクチャは、それぞれ自然で堅牢な 76.29\% と 45.24\% が達成される。 この驚くべき結果の裏にある可能性を理解するために、このような対角的堅牢性の基礎となるメカニズムをさらに探求する。 適応段差数値ODEソルバであるDOPRI5は、トレーニング損失の勾配情報に敏感なPGD攻撃に失敗する勾配マスキング効果を示し、一方、頑健な勾配のCW攻撃や、勾配のないSPSA攻撃を騙すことは不可能である。 このことは、ODEベースのネットワークの対角ロバスト性は、主に数値ODEソルバの難解勾配に由来するという新しい説明を与える。

In this paper we introduce a provably stable architecture for Neural Ordinary Differential Equations (ODEs) which achieves non-trivial adversarial robustness under white-box adversarial attacks even when the network is trained naturally. For most existing defense methods withstanding strong white-box attacks, to improve robustness of neural networks, they need to be trained adversarially, hence have to strike a trade-off between natural accuracy and adversarial robustness. Inspired by dynamical system theory, we design a stabilized neural ODE network named SONet whose ODE blocks are skew-symmetric and proved to be input-output stable. With natural training, SONet can achieve comparable robustness with the state-of-the-art adversarial defense methods, without sacrificing natural accuracy. Even replacing only the first layer of a ResNet by such a ODE block can exhibit further improvement in robustness, e.g., under PGD-20 ($\ell_\infty=0.031$) attack on CIFAR-10 dataset, it achieves 91.57\% and natural accuracy and 62.35\% robust accuracy, while a counterpart architecture of ResNet trained with TRADES achieves natural and robust accuracy 76.29\% and 45.24\%, respectively. To understand possible reasons behind this surprisingly good result, we further explore the possible mechanism underlying such an adversarial robustness. We show that the adaptive stepsize numerical ODE solver, DOPRI5, has a gradient masking effect that fails the PGD attacks which are sensitive to gradient information of training loss; on the other hand, it cannot fool the CW attack of robust gradients and the SPSA attack that is gradient-free. This provides a new explanation that the adversarial robustness of ODE-based networks mainly comes from the obfuscated gradients in numerical ODE solvers.
翻訳日:2022-10-13 21:07:06 公開日:2021-06-02
# 文脈で語彙的セマンティックギャップを埋める話者

Speakers Fill Lexical Semantic Gaps with Context ( http://arxiv.org/abs/2010.02172v3 )

ライセンス: Link先を確認
Tiago Pimentel, Rowan Hall Maudslay, Dami\'an Blasi, Ryan Cotterell(参考訳) 語彙の曖昧さは言語に広まり、経済的な単語形態の再利用を可能にし、言語をより効率的にする。 If ambiguous words cannot be disambiguated from context, however, this gain in efficiency might make language less clear -- resulting in frequent miscommunication. For a language to be clear and efficiently encoded, we posit that the lexical ambiguity of a word type should correlate with how much information context provides about it, on average. To investigate whether this is the case, we operationalise the lexical ambiguity of a word as the entropy of meanings it can take, and provide two ways to estimate this -- one which requires human annotation (using WordNet), and one which does not (using BERT), making it readily applicable to a large number of languages. 我々は,6つの高リソース言語において,BERTに基づく曖昧さの推定値とWordNetにおける単語の同義語数(例えば$\rho = 0.40$)との間に,ピアソンの有意な相関関係があることを示し,これらの指標を検証する。 次に、単語の語彙的曖昧さは文脈的不確実性と負の相関を持つべきという主仮説を検証し、分析する18のタイプ論的に多様な言語すべてにおいて有意な相関を見出す。 これは、曖昧さの存在下で、話者は文脈をより情報的にすることで補償することを示唆している。

Lexical ambiguity is widespread in language, allowing for the reuse of economical word forms and therefore making language more efficient. If ambiguous words cannot be disambiguated from context, however, this gain in efficiency might make language less clear -- resulting in frequent miscommunication. For a language to be clear and efficiently encoded, we posit that the lexical ambiguity of a word type should correlate with how much information context provides about it, on average. To investigate whether this is the case, we operationalise the lexical ambiguity of a word as the entropy of meanings it can take, and provide two ways to estimate this -- one which requires human annotation (using WordNet), and one which does not (using BERT), making it readily applicable to a large number of languages. We validate these measures by showing that, on six high-resource languages, there are significant Pearson correlations between our BERT-based estimate of ambiguity and the number of synonyms a word has in WordNet (e.g. $\rho = 0.40$ in English). We then test our main hypothesis -- that a word's lexical ambiguity should negatively correlate with its contextual uncertainty -- and find significant correlations on all 18 typologically diverse languages we analyse. This suggests that, in the presence of ambiguity, speakers compensate by making contexts more informative.
翻訳日:2022-10-10 21:31:11 公開日:2021-06-02
# マルコフ連鎖を用いた変分オートエンコーダの偏差勾配推定

Unbiased Gradient Estimation for Variational Auto-Encoders using Coupled Markov Chains ( http://arxiv.org/abs/2010.01845v2 )

ライセンス: Link先を確認
Francisco J. R. Ruiz, Michalis K. Titsias, Taylan Cemgil, Arnaud Doucet(参考訳) 変分オートエンコーダ(varuational auto-encoder, vae)は、オートエンコーダのようなアーキテクチャで2つのニューラルネットワークを持つ、深い潜伏変数モデルである。 限界確率の計算には潜在空間上の難解な積分が伴うため、パラメータを最大可能性(ML)でフィッティングすることは困難であり、VAEは変分下界の最大化によって訓練される。 本稿では,対数様勾配の偏りのない推定器を導入することで,VAEのためのMLトレーニング手法を開発する。 重み付き自己エンコーダ(IWAE)と同様、重要サンプルの集合で潜在空間を拡大し、さらにこの拡張空間上でマルコフ連鎖モンテカルロカップリング手順を構築することにより、推定器を得る。 有限時間および有限分散で推定器を計算できる条件を提供する。 偏りのない推定器を装着したvaesは予測性能が向上することを示す。

The variational auto-encoder (VAE) is a deep latent variable model that has two neural networks in an autoencoder-like architecture; one of them parameterizes the model's likelihood. Fitting its parameters via maximum likelihood (ML) is challenging since the computation of the marginal likelihood involves an intractable integral over the latent space; thus the VAE is trained instead by maximizing a variational lower bound. Here, we develop a ML training scheme for VAEs by introducing unbiased estimators of the log-likelihood gradient. We obtain the estimators by augmenting the latent space with a set of importance samples, similarly to the importance weighted auto-encoder (IWAE), and then constructing a Markov chain Monte Carlo coupling procedure on this augmented space. We provide the conditions under which the estimators can be computed in finite time and with finite variance. We show experimentally that VAEs fitted with unbiased estimators exhibit better predictive performance.
翻訳日:2022-10-10 20:38:15 公開日:2021-06-02
# ロバスト等尺非剛性構造

Robust Isometric Non-Rigid Structure-from-Motion ( http://arxiv.org/abs/2010.04690v2 )

ライセンス: Link先を確認
Shaifali Parashar, Adrien Bartoli and Daniel Pizarro(参考訳) 非Rigid Structure-from-Motion (NRSfM)は、モノクロ2D画像間の対応から変形可能な3Dオブジェクトを再構成する。 現在のNRSfM法は, 対応誤りに対処できる統計的堅牢性に欠けており, これにより, 誤りを生じやすい自動的な対応が不可能となり, NRSfMの範囲が厳しく制限される。 等尺性を利用してNRSfMを頑健に解く3ステップの自動パイプラインを提案する。 ステップ1は、対応から光の流れを計算し、ステップ2は複数の参照画像を用いて各3D点の正規ベクトルを再構成し、それらを統合して最良の参照で表面を形成する。 重要なことに、各ステップは誤った対応を破棄またはフラグするように設計されている。 我々は,ワープ推定による光学フローのロバスト化,局所正規化とそのロバスト化に対する新しい高速解析解,および3次元局所等長性の新しいスケール非依存測度について考察した。 実験の結果,本手法は合成データと実データの両方において,既存の手法を一貫して上回っていることがわかった。

Non-Rigid Structure-from-Motion (NRSfM) reconstructs a deformable 3D object from the correspondences established between monocular 2D images. Current NRSfM methods lack statistical robustness, which is the ability to cope with correspondence errors.This prevents one to use automatically established correspondences, which are prone to errors, thereby strongly limiting the scope of NRSfM. We propose a three-step automatic pipeline to solve NRSfM robustly by exploiting isometry. Step 1 computes the optical flow from correspondences, step 2 reconstructs each 3D point's normal vector using multiple reference images and integrates them to form surfaces with the best reference and step 3 rejects the 3D points that break isometry in their local neighborhood. Importantly, each step is designed to discard or flag erroneous correspondences. Our contributions include the robustification of optical flow by warp estimation, new fast analytic solutions to local normal reconstruction and their robustification, and a new scale-independent measure of 3D local isometric coherence. Experimental results show that our robust NRSfM method consistently outperforms existing methods on both synthetic and real datasets.
翻訳日:2022-10-09 06:00:11 公開日:2021-06-02
# メッセージパッシングとエンドツーエンドトレーニングによる第2次ニューラル依存関係解析

Second-Order Neural Dependency Parsing with Message Passing and End-to-End Training ( http://arxiv.org/abs/2010.05003v2 )

ライセンス: Link先を確認
Xinyu Wang, Kewei Tu(参考訳) 本稿では,メッセージパッシングとエンドツーエンドニューラルネットワークを用いた2次グラフ型ニューラル依存解析を提案する。 我々のアプローチは、最先端の2階グラフベースのニューラル依存パーサの精度に適合し、トレーニングとテストの両方で大幅に高速であることを示す。 また, 1次解析よりも2次解析の利点を実証的に示し, BERT埋め込みにおける頭部選択構造制約の有用性がなくなることを観察した。

In this paper, we propose second-order graph-based neural dependency parsing using message passing and end-to-end neural networks. We empirically show that our approaches match the accuracy of very recent state-of-the-art second-order graph-based neural dependency parsers and have significantly faster speed in both training and testing. We also empirically show the advantage of second-order parsing over first-order parsing and observe that the usefulness of the head-selection structured constraint vanishes when using BERT embedding.
翻訳日:2022-10-08 22:37:49 公開日:2021-06-02
# 構造的知識蒸留 : 構造的予測器の情報抽出

Structural Knowledge Distillation: Tractably Distilling Information for Structured Predictor ( http://arxiv.org/abs/2010.05010v4 )

ライセンス: Link先を確認
Xinyu Wang, Yong Jiang, Zhaohui Yan, Zixia Jia, Nguyen Bach, Tao Wang, Zhongqiang Huang, Fei Huang, Kewei Tu(参考訳) 知識蒸留は、大きなモデル(教師)からよりきめ細かいモデル(学生)へ、モデル間で知識を伝達する重要な技術である。 知識蒸留の目的的機能は、典型的には教師と学生の出力分布の相互エントロピーである。 しかし、構造的予測問題の場合、出力空間は指数関数的な大きさであるため、クロスエントロピー目的は直接計算し最適化することが困難になる。 本稿では,教師モデルや学生モデルの典型的な選択に対して,構造化予測のための知識蒸留目標の因子化形式を導出する。 特に,4つのシナリオにおけるシーケンスラベリングと依存性解析モデル間の構造知識蒸留のトラクタビリティと実証的有効性を示す。 1) 教師と学生は,出力構造スコアリング機能の同じ因子化形式を共有している。 2) 生徒の因子化は,教師の因子化よりもきめ細かい下位構造を生成する。 3) 教師の因子化は,学生の因子化よりもきめ細かい下位構造を生成する。 4) 教師と生徒の因子化形式は相容れない。

Knowledge distillation is a critical technique to transfer knowledge between models, typically from a large model (the teacher) to a more fine-grained one (the student). The objective function of knowledge distillation is typically the cross-entropy between the teacher and the student's output distributions. However, for structured prediction problems, the output space is exponential in size; therefore, the cross-entropy objective becomes intractable to compute and optimize directly. In this paper, we derive a factorized form of the knowledge distillation objective for structured prediction, which is tractable for many typical choices of the teacher and student models. In particular, we show the tractability and empirical effectiveness of structural knowledge distillation between sequence labeling and dependency parsing models under four different scenarios: 1) the teacher and student share the same factorization form of the output structure scoring function; 2) the student factorization produces more fine-grained substructures than the teacher factorization; 3) the teacher factorization produces more fine-grained substructures than the student factorization; 4) the factorization forms from the teacher and the student are incompatible.
翻訳日:2022-10-08 22:19:06 公開日:2021-06-02
# オンライン多重テストのための動的アルゴリズム

Dynamic Algorithms for Online Multiple Testing ( http://arxiv.org/abs/2010.13953v3 )

ライセンス: Link先を確認
Ziyu Xu, Aaditya Ramdas(参考訳) 提案手法は,従来の手法よりも桁違いに高い出力を達成しつつ,偽発見超越(FDX)を確実に制御するオンライン多重テストのための新しいアルゴリズムを導出する。 初期のアルゴリズムはより"静的"であり、新しいアルゴリズムはアルゴリズムが蓄積した富の量に基づいてテストレベルの動的調整を可能にする。 様々な合成実験において,我々のアルゴリズムが高いパワーを発揮できることを実証する。 また、SupLORDはFDRとFDXの両方にエラー制御を提供し、停止時にFDRを制御できることを示す。 停止時間は特に重要であり、実験者はFDRの望ましい制御を維持しながら実験を早期に終了させる。 SupLORDは、私たちの知る限り、オンライン設定の時間停止時にFDRを制御できる最初の非自明なアルゴリズムです。

We derive new algorithms for online multiple testing that provably control false discovery exceedance (FDX) while achieving orders of magnitude more power than previous methods. This statistical advance is enabled by the development of new algorithmic ideas: earlier algorithms are more "static" while our new ones allow for the dynamical adjustment of testing levels based on the amount of wealth the algorithm has accumulated. We demonstrate that our algorithms achieve higher power in a variety of synthetic experiments. We also prove that SupLORD can provide error control for both FDR and FDX, and controls FDR at stopping times. Stopping times are particularly important as they permit the experimenter to end the experiment arbitrarily early while maintaining desired control of the FDR. SupLORD is the first non-trivial algorithm, to our knowledge, that can control FDR at stopping times in the online setting.
翻訳日:2022-10-02 19:57:50 公開日:2021-06-02
# VECO: 言語理解と生成のための可変かつ柔軟な言語間事前学習

VECO: Variable and Flexible Cross-lingual Pre-training for Language Understanding and Generation ( http://arxiv.org/abs/2010.16046v2 )

ライセンス: Link先を確認
Fuli Luo, Wei Wang, Jiahao Liu, Yijia Liu, Bin Bi, Songfang Huang, Fei Huang, Luo Si(参考訳) 多言語事前学習における既存の研究は、複数の言語のための統一トランスフォーマーエンコーダをトレーニングすることで、言語間転送の可能性を示している。 しかしながら、この研究の多くは、言語間の相関を促進するために、共通語彙とバイリンガル文脈にのみ依存しており、言語間の文脈表現の整合には緩く暗黙的である。 本稿では,Transformerエンコーダにクロスアテンションモジュールを挿入し,言語間の相互依存を明確に構築する。 独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。 さらに重要なのは、下流タスクを微調整する場合、クロスアテンションモジュールをオンデマンドでプラグインまたはアウトできるため、言語理解から生成に至るまで、言語間タスクの幅広い範囲の恩恵を受けられることだ。 提案するクロスリンガルモデルは,テキスト分類,シーケンスラベリング,質問応答,文検索などを含む,xtremeベンチマークのさまざまなクロスリンガル理解タスクに対して,新たな最先端結果を提供する。 クロスランガル生成タスクでは、既存の言語モデルと最先端のトランスフォーマーをWMT14英語からドイツ語、英語からフランス語への翻訳データセットで上回り、最大1~2BLEUまで向上する。

Existing work in multilingual pretraining has demonstrated the potential of cross-lingual transferability by training a unified Transformer encoder for multiple languages. However, much of this work only relies on the shared vocabulary and bilingual contexts to encourage the correlation across languages, which is loose and implicit for aligning the contextual representations between languages. In this paper, we plug a cross-attention module into the Transformer encoder to explicitly build the interdependence between languages. It can effectively avoid the degeneration of predicting masked words only conditioned on the context in its own language. More importantly, when fine-tuning on downstream tasks, the cross-attention module can be plugged in or out on-demand, thus naturally benefiting a wider range of cross-lingual tasks, from language understanding to generation. As a result, the proposed cross-lingual model delivers new state-of-the-art results on various cross-lingual understanding tasks of the XTREME benchmark, covering text classification, sequence labeling, question answering, and sentence retrieval. For cross-lingual generation tasks, it also outperforms all existing cross-lingual models and state-of-the-art Transformer variants on WMT14 English-to-German and English-to-French translation datasets, with gains of up to 1~2 BLEU.
翻訳日:2022-10-01 16:45:02 公開日:2021-06-02
# 条件付きニューラルシーケンス生成における幻覚内容の検出

Detecting Hallucinated Content in Conditional Neural Sequence Generation ( http://arxiv.org/abs/2011.02593v3 )

ライセンス: Link先を確認
Chunting Zhou, Graham Neubig, Jiatao Gu, Mona Diab, Paco Guzman, Luke Zettlemoyer, Marjan Ghazvininejad(参考訳) ニューラルシーケンスモデルは、高度に流れる文を生成することができるが、最近の研究では、入力がサポートしていない追加のコンテンツを幻覚させる傾向があることも示されている。 ユーザが誤ったコンテンツを見せていると判断することができないため、これらのさまざまな流動的で間違ったアウトプットは特に問題となる。 これらの誤りを検知するために、出力シーケンスの各トークンが幻覚的(入力に含まれていない)かどうかを予測し、新しい手動アノテート評価セットを収集するタスクを提案する。 また,機械翻訳実験(MT)や抽象的要約実験を含む合成データに基づいて調整された事前学習言語モデルを用いて幻覚を検出する手法を提案する。 さらに,トークンレベルの幻覚ラベルを用いて,低リソースmtにおけるターゲットシーケンス上のきめ細かな損失を定義し,強力なベースラインメソッドに対する大幅な改善を実現する方法を示す。 また,MTの単語レベルの品質評価にも適用し,教師なしと教師なしの両方で有効性を示す。 コードとデータはhttps://github.com/violet-zct/fairseq-detect-hallucinationで入手できる。

Neural sequence models can generate highly fluent sentences, but recent studies have also shown that they are also prone to hallucinate additional content not supported by the input. These variety of fluent but wrong outputs are particularly problematic, as it will not be possible for users to tell they are being presented incorrect content. To detect these errors, we propose a task to predict whether each token in the output sequence is hallucinated (not contained in the input) and collect new manually annotated evaluation sets for this task. We also introduce a method for learning to detect hallucinations using pretrained language models fine tuned on synthetic data that includes automatically inserted hallucinations Experiments on machine translation (MT) and abstractive summarization demonstrate that our proposed approach consistently outperforms strong baselines on all benchmark datasets. We further demonstrate how to use the token-level hallucination labels to define a fine-grained loss over the target sequence in low-resource MT and achieve significant improvements over strong baseline methods. We also apply our method to word-level quality estimation for MT and show its effectiveness in both supervised and unsupervised settings. Codes and data available at https://github.com/violet-zct/fairseq-detect-hallucination.
翻訳日:2022-09-29 11:11:20 公開日:2021-06-02
# 視覚トランスフォーマーを用いた人間中心時空間ビデオグラウンディング

Human-centric Spatio-Temporal Video Grounding With Visual Transformers ( http://arxiv.org/abs/2011.05049v2 )

ライセンス: Link先を確認
Zongheng Tang, Yue Liao, Si Liu, Guanbin Li, Xiaojie Jin, Hongxu Jiang, Qian Yu, Dong Xu(参考訳) 本研究では,Humancentric Spatio-Temporal Video Grounding (HC-STVG)を提案する。 画像やビデオにおける既存の参照表現タスクとは異なり、hc-stvgは対象者の時空間的チューブを、所定のテクストラル記述に基づいた未トリミングビデオからローカライズすることを目的としている。 このタスクは、特に医療やセキュリティ関連のアプリケーションにおいて有用であり、監視ビデオは非常に長いが、特定の期間に特定の人物のみが関与する。 HC-STVGは、空間的(場所)と時間的(場所)の両方のローカライゼーションを必要とするビデオグラウンドタスクである。 残念ながら、既存の接地方法は、このタスクをうまく扱えない。 この課題に対処するために,視覚変換器を用いた時空間グラウンドリング (STGVT) という効果的なベースライン手法を提案し,ビデオ文マッチングと時間的ローカライゼーションのクロスモーダル表現を抽出する。 この作業を容易にするため,複雑な多人数シーンに5,660対の映像文からなるHC-STVGデータセットを寄贈した。 具体的には、各ビデオは20秒間続き、自然の問合せ文と平均17.25ワードをペアリングする。 このデータセットで広範囲な実験が行われ、新しく導入されたメソッドが既存のベースラインメソッドよりも優れています。

In this work, we introduce a novel task - Humancentric Spatio-Temporal Video Grounding (HC-STVG). Unlike the existing referring expression tasks in images or videos, by focusing on humans, HC-STVG aims to localize a spatiotemporal tube of the target person from an untrimmed video based on a given textural description. This task is useful, especially for healthcare and security-related applications, where the surveillance videos can be extremely long but only a specific person during a specific period of time is concerned. HC-STVG is a video grounding task that requires both spatial (where) and temporal (when) localization. Unfortunately, the existing grounding methods cannot handle this task well. We tackle this task by proposing an effective baseline method named Spatio-Temporal Grounding with Visual Transformers (STGVT), which utilizes Visual Transformers to extract cross-modal representations for video-sentence matching and temporal localization. To facilitate this task, we also contribute an HC-STVG dataset consisting of 5,660 video-sentence pairs on complex multi-person scenes. Specifically, each video lasts for 20 seconds, pairing with a natural query sentence with an average of 17.25 words. Extensive experiments are conducted on this dataset, demonstrating the newly-proposed method outperforms the existing baseline methods.
翻訳日:2022-09-27 07:06:44 公開日:2021-06-02
# zero-shot face anti-spoofing における視覚トランスフォーマーの有効性について

On the Effectiveness of Vision Transformers for Zero-shot Face Anti-Spoofing ( http://arxiv.org/abs/2011.08019v2 )

ライセンス: Link先を確認
Anjith George and Sebastien Marcel(参考訳) 顔認識システムの攻撃に対する脆弱性は、セキュリティクリティカルなシナリオでの使用を制限している。 このような悪意のある試みを検出する自動方法は、顔認識技術の安全な使用には不可欠である。 このような攻撃を検出する様々な方法が提案されているが、そのほとんどはトレーニングセットに適合し、目に見えない攻撃や環境への一般化に失敗している。 本研究では,ゼロショット・アンチスプーフィングタスクに視覚トランスフォーマーモデルからの転送学習を用いる。 提案手法の有効性は,公開データセットの実験を通じて実証される。 提案手法は,hq-wmca および siw-m データセットのゼロショットプロトコルにおける最先端メソッドを大きなマージンで上回っている。 さらにこのモデルでは、データベース間のパフォーマンスも大幅に向上している。

The vulnerability of face recognition systems to presentation attacks has limited their application in security-critical scenarios. Automatic methods of detecting such malicious attempts are essential for the safe use of facial recognition technology. Although various methods have been suggested for detecting such attacks, most of them over-fit the training set and fail in generalizing to unseen attacks and environments. In this work, we use transfer learning from the vision transformer model for the zero-shot anti-spoofing task. The effectiveness of the proposed approach is demonstrated through experiments in publicly available datasets. The proposed approach outperforms the state-of-the-art methods in the zero-shot protocols in the HQ-WMCA and SiW-M datasets by a large margin. Besides, the model achieves a significant boost in cross-database performance as well.
翻訳日:2022-09-25 00:32:19 公開日:2021-06-02
# 条件付きGANトレーニングの再考:幾何学的構造付き潜在多様体を用いたアプローチ

Rethinking conditional GAN training: An approach using geometrically structured latent manifolds ( http://arxiv.org/abs/2011.13055v3 )

ライセンス: Link先を確認
Sameera Ramasinghe, Moshiur Farazi, Salman Khan, Nick Barnes, Stephen Gould(参考訳) 条件付きGAN(cGAN)はその初歩的な形態で、生成された出力の多様性の欠如や潜在多様体と出力多様体の間の歪みなどの重大な欠点に悩まされる。 結果を改善する努力がなされているが、潜在空間と出力空間の位相ミスマッチのような不快な副作用に苦しむことがある。 これとは対照的に,我々は幾何学的観点からこの問題に取り組み,潜在変数と出力多様体の間の双リプシッツ写像を体系的に奨励することにより,バニラcGANの多様性と視覚的品質の両方を高める新しいトレーニング機構を提案する。 我々は, 多様性を欠いたベースラインcgan (pix2pix) 上でのソリューションの有効性を検証し, そのトレーニング機構(pix2pix-geo)を変更するだけで, 幅広い画像から画像への翻訳タスクにおいて, より多様で現実的なアウトプットが得られることを示す。 コードはhttps://github.com/samgregoost/rethinking-cgansで入手できる。

Conditional GANs (cGAN), in their rudimentary form, suffer from critical drawbacks such as the lack of diversity in generated outputs and distortion between the latent and output manifolds. Although efforts have been made to improve results, they can suffer from unpleasant side-effects such as the topology mismatch between latent and output spaces. In contrast, we tackle this problem from a geometrical perspective and propose a novel training mechanism that increases both the diversity and the visual quality of a vanilla cGAN, by systematically encouraging a bi-lipschitz mapping between the latent and the output manifolds. We validate the efficacy of our solution on a baseline cGAN (i.e., Pix2Pix) which lacks diversity, and show that by only modifying its training mechanism (i.e., with our proposed Pix2Pix-Geo), one can achieve more diverse and realistic outputs on a broad set of image-to-image translation tasks. Codes are available at https://github.com/samgregoost/Rethinking-CGANs.
翻訳日:2022-09-21 03:12:24 公開日:2021-06-02
# siamese と triplet network を用いた仮説音声セグメントの再クラスタ化に基づく教師なし音声単語発見

Unsupervised Spoken Term Discovery Based on Re-clustering of Hypothesized Speech Segments with Siamese and Triplet Networks ( http://arxiv.org/abs/2011.14062v2 )

ライセンス: Link先を確認
Man-Ling Sung, Tan Lee(参考訳) 書き起こされていない音声からの音声の発見は、2段階のプロセスで行うことができる。 第1段階では、ラベルなしの音声は、教師なしの方法で学習されモデル化される一連のサブワード単位に復号される。 第2段階では、復号されたサブワードシーケンス上で部分シーケンスマッチングとクラスタリングを行い、検出された単語またはフレーズのセットを生成する。 このアプローチの限界は、サブワード復号の結果が誤っており、エラーがその後のステップに影響を与えることである。 Siamese/Tripletネットワークは、発見プロセスを改善するセグメント表現を学習するための1つのアプローチであるが、完全な教師なしシナリオ下での音声語発見の課題は、トレーニング例が利用できないことである。 本稿では,初期仮説列クラスタからトレーニング例を生成することを提案する。 siamese/tripletネットワークは、2つの音声セグメント間の類似度を測定するために仮定された例に基づいて訓練され、ここで仮定された全てのサブワードシーケンスを再クラスタ化し、話し言葉の発見を達成する。 実験の結果,本手法はシャム語と三重項ネットワークの訓練例を得るのに有効であり,従来の二段法に比べて発話項発見の有効性が向上した。

Spoken term discovery from untranscribed speech audio could be achieved via a two-stage process. In the first stage, the unlabelled speech is decoded into a sequence of subword units that are learned and modelled in an unsupervised manner. In the second stage, partial sequence matching and clustering are performed on the decoded subword sequences, resulting in a set of discovered words or phrases. A limitation of this approach is that the results of subword decoding could be erroneous, and the errors would impact the subsequent steps. While Siamese/Triplet network is one approach to learn segment representations that can improve the discovery process, the challenge in spoken term discovery under a complete unsupervised scenario is that training examples are unavailable. In this paper, we propose to generate training examples from initial hypothesized sequence clusters. The Siamese/Triplet network is trained on the hypothesized examples to measure the similarity between two speech segments and hereby perform re-clustering of all hypothesized subword sequences to achieve spoken term discovery. Experimental results show that the proposed approach is effective in obtaining training examples for Siamese and Triplet networks, improving the efficacy of spoken term discovery as compared with the original two-stage method.
翻訳日:2022-09-19 19:49:18 公開日:2021-06-02
# フルステアブル3次元球状ニューロン

Fully Steerable 3D Spherical Neurons ( http://arxiv.org/abs/2106.13863v1 )

ライセンス: Link先を確認
Pavlo Melnyk, Michael Felsberg, M{\aa}rten Wadenb\"ack(参考訳) 低レベルのビジョン理論から生まれたsteerable filterは、ディープラーニングで対応するものを見つけた。 初期の研究はステアリング定理を使用し、剛体変換に同値な畳み込みネットワークを提示した。 本研究では,球面決定面から構成し,点雲上で操作する,操舵可能なフィードフォワード学習に基づくアプローチを提案する。 我々の理論の固有の幾何学的3d構造から、我々はその原子部分である超球ニューロンに対する3dステアビリティ制約を導出する。 回転同分散を活用し、モデルパラメータが推論時に完全に制御可能であることを示す。 提案する球面フィルタバンクは、オンライン最適化の後、未知方向における既知の合成点集合に対する不変クラス予測を可能にする。

Emerging from low-level vision theory, steerable filters found their counterpart in deep learning. Earlier works used the steering theorems and presented convolutional networks equivariant to rigid transformations. In our work, we propose a steerable feed-forward learning-based approach that consists of spherical decision surfaces and operates on point clouds. Due to the inherent geometric 3D structure of our theory, we derive a 3D steerability constraint for its atomic parts, the hypersphere neurons. Exploiting the rotational equivariance, we show how the model parameters are fully steerable at inference time. The proposed spherical filter banks enable to make equivariant and, after online optimization, invariant class predictions for known synthetic point sets in unknown orientations.
翻訳日:2021-07-04 19:35:49 公開日:2021-06-02
# (参考訳) ネットワークトラフィック分類のためのディープラーニング

Deep Learning for Network Traffic Classification ( http://arxiv.org/abs/2106.12693v1 )

ライセンス: CC0 1.0
Niloofar Bayat and Weston Jackson and Derrick Liu(参考訳) ネットワークトラフィックを監視してコンテンツ、サービス、アプリケーションを特定することは、ネットワークトラフィック制御システムにおいて活発な研究トピックである。 現代のファイアウォールはパケットを復号する機能を提供するが、プライバシー擁護者には魅力がない。 したがって、暗号化されたトラフィックから情報を識別することは難しい課題である。 それにもかかわらず、以前の研究は、アプリケーションとサービス識別を可能にする機械学習メソッドを特定した。 このプロセスでは、ネットワークパケットデータから高レベルの特徴抽出を行い、トラフィック識別のための堅牢な機械学習分類器を訓練する。 本稿では,パケット,ペイロード,時間列の深層学習アーキテクチャのアンサンブルを用いた分類手法を提案する。 私たちの知る限り、サーバ名表示(SNI)分類問題にこのようなディープラーニングアーキテクチャが適用されたのはこれが初めてです。 我々のアンサンブルモデルは、アート機械学習の手法の状態を破り、最新のモデルはgithubで見ることができる: \url{https://github.com/niloofarbayat/NetworkClassification}

Monitoring network traffic to identify content, services, and applications is an active research topic in network traffic control systems. While modern firewalls provide the capability to decrypt packets, this is not appealing for privacy advocates. Hence, identifying any information from encrypted traffic is a challenging task. Nonetheless, previous work has identified machine learning methods that may enable application and service identification. The process involves high level feature extraction from network packet data then training a robust machine learning classifier for traffic identification. We propose a classification technique using an ensemble of deep learning architectures on packet, payload, and inter-arrival time sequences. To our knowledge, this is the first time such deep learning architectures have been applied to the Server Name Indication (SNI) classification problem. Our ensemble model beats the state of the art machine learning methods and our up-to-date model can be found on github: \url{https://github.com/niloofarbayat/NetworkClassification}
翻訳日:2021-06-27 12:46:54 公開日:2021-06-02
# (参考訳) K-12コンピューティング教育における機械学習教育の可能性と落とし穴

Teaching Machine Learning in K-12 Computing Education: Potential and Pitfalls ( http://arxiv.org/abs/2106.11034v1 )

ライセンス: CC BY 4.0
Matti Tedre, Tapani Toivonen, Juho Kaihila, Henriikka Vartiainen, Teemu Valtonen, Ilkka Jormanainen, and Arnold Pears(参考訳) 過去数十年にわたり、機械学習技術の多くの実践的応用が、多くのコンピューティング分野におけるデータ駆動型アプローチの可能性を示している。 機械学習は、高等教育における計算カリキュラムにますます含まれており、K-12コンピューティング教育にも、急速に多くの取り組みが拡大している。 機械学習がK-12コンピューティング教育に入ると、そのようなシステムの文脈における直観やエージェンシーがどのように発達するかを理解することが重要な研究領域となる。 しかし、学校や教師は、従来の計算思考と従来の人工知能を学校のカリキュラムに統合することにすでに苦労しているため、K-12で機械学習を教えることの難しさを理解することは、コンピューティング教育研究にとってさらに難しい課題だ。 現代コンピューティングの分野における機械学習の中心的な位置にもかかわらず、コンピュータ教育研究機関は、人々が機械学習システムを訓練、テスト、改善、デプロイする方法についての非常に少ない研究を包含している。 これは特にK-12のカリキュラム空間に当てはまる。 本稿は,k-12 教育における機械学習教育に関連する教育実践,理論,技術における新たな軌跡を示す。 この記事は、コンピュータ教育全般の文脈における既存の仕事の場を定め、k-12コンピューティング教育者がこの課題に直面する際に考慮すべきいくつかの違いを述べる。 この記事では、機械学習をより広範なK-12コンピューティングカリキュラムに統合するために必要とされるパラダイムシフトの重要な側面に焦点を当てる。 重要なステップは、ルールベースの"伝統的"プログラミングが、次世代の計算思考の発展における中心的な側面であり、ブロックを構築するという信念を捨てることである。

Over the past decades, numerous practical applications of machine learning techniques have shown the potential of data-driven approaches in a large number of computing fields. Machine learning is increasingly included in computing curricula in higher education, and a quickly growing number of initiatives are expanding it in K-12 computing education, too. As machine learning enters K-12 computing education, understanding how intuition and agency in the context of such systems is developed becomes a key research area. But as schools and teachers are already struggling with integrating traditional computational thinking and traditional artificial intelligence into school curricula, understanding the challenges behind teaching machine learning in K-12 is an even more daunting challenge for computing education research. Despite the central position of machine learning in the field of modern computing, the computing education research body of literature contains remarkably few studies of how people learn to train, test, improve, and deploy machine learning systems. This is especially true of the K-12 curriculum space. This article charts the emerging trajectories in educational practice, theory, and technology related to teaching machine learning in K-12 education. The article situates the existing work in the context of computing education in general, and describes some differences that K-12 computing educators should take into account when facing this challenge. The article focuses on key aspects of the paradigm shift that will be required in order to successfully integrate machine learning into the broader K-12 computing curricula. A crucial step is abandoning the belief that rule-based "traditional" programming is a central aspect and building block in developing next generation computational thinking.
翻訳日:2021-06-27 12:36:16 公開日:2021-06-02
# (参考訳) MathBERT:数学教育における一般NLPタスクのための事前学習言語モデル

MathBERT: A Pre-trained Language Model for General NLP Tasks in Mathematics Education ( http://arxiv.org/abs/2106.07340v1 )

ライセンス: CC BY-SA 4.0
Jia Tracy Shen, Michiharu Yamashita, Ethan Prihar, Neil Heffernan, Xintao Wu, Dongwon Lee(参考訳) BERTモデルの転写学習特性のため、研究者は、独自のBERTを巨大なドメイン固有コーパスで事前学習することで、ベースBERTよりも優れたパフォーマンスを実現している。 数学テキストは数学の方程式や記号を含むことが多いため、一般的な英語の文脈で事前訓練されたBERTモデルは、数学教育において自然言語処理(NLP)のタスクに適さない。 そこで本研究では,算数固有の問題に取り組むために,プレkから卒業レベルの数学内容を含む大規模数学的コーパス上で事前訓練されたBERTであるMathBERTを提案する。 さらに,MathBERTを事前学習するための数学的語彙を生成するとともに,従来のBERT語彙と事前学習したMathBERTとの比較を行う。 数学教育における3つの重要な課題(知識要素,自動学習,知識追跡予測)を選択し,その評価を行った。 実験の結果, MathBERT は BERT を 2-9 % 差で上回っていることがわかった。 数学の語彙で事前訓練されたMathBERTは、元の語彙で訓練されたMathBERTよりも優れており、私たちの知る限り、MathBERTは汎用数学教育タスクのための最初の事前学習モデルである。

Due to the transfer learning nature of BERT model, researchers have achieved better performance than base BERT by further pre-training the original BERT on a huge domain-specific corpus. Due to the special nature of mathematical texts which often contain math equations and symbols, the original BERT model pre-trained on general English context will not fit Natural Language Processing (NLP) tasks in mathematical education well. Therefore, we propose MathBERT, a BERT pre-trained on large mathematical corpus including pre-k to graduate level mathematical content to tackle math-specific tasks. In addition, We generate a customized mathematical vocabulary to pre-train with MathBERT and compare the performance to the MathBERT pre-trained with the original BERT vocabulary. We select three important tasks in mathematical education such as knowledge component, auto-grading, and knowledge tracing prediction to evaluate the performance of MathBERT. Our experiments show that MathBERT outperforms the base BERT by 2-9\% margin. In some cases, MathBERT pre-trained with mathematical vocabulary is better than MathBERT trained with original vocabulary.To our best knowledge, MathBERT is the first pre-trained model for general purpose mathematics education tasks.
翻訳日:2021-06-20 21:26:53 公開日:2021-06-02
# (参考訳) GemNet: 分子のためのユニバーサル指向グラフニューラルネットワーク

GemNet: Universal Directional Graph Neural Networks for Molecules ( http://arxiv.org/abs/2106.08903v1 )

ライセンス: CC BY 4.0
Johannes Klicpera, Florian Becker, Stephan G\"unnemann(参考訳) 効果的に分子相互作用を予測することは、分子動力学を桁違いに加速し、化学シミュレーションに革命をもたらす可能性がある。 グラフニューラルネットワーク(GNN)は、最近、固定分子カーネルに基づく古典的な手法に取って代わり、このタスクで大きな成功を収めた。 しかし、通常のGNNはある種のグラフを区別できないため、理論的な観点からはまだ非常に限定的なように見える。 この研究では、理論と実践の間のこのギャップを閉じます。 有向エッジ埋め込みと2ホップメッセージパッシングを持つgnnは、大域的な回転と変換に不変であり、置換に同値な予測に対する普遍的近似子であることを示す。 次に、これらの洞察と複数の構造改善を利用して、gemnet(geometry message passing neural network)を提案します。 複数のアブレーション研究において提案した変化の利点を実証する。 GemNetは、COLLおよびMD17分子動力学データセットの以前のモデルよりも36%優れており、特に最も困難な分子でよく機能している。

Effectively predicting molecular interactions has the potential to accelerate molecular dynamics by multiple orders of magnitude and thus revolutionize chemical simulations. Graph neural networks (GNNs) have recently shown great successes for this task, overtaking classical methods based on fixed molecular kernels. However, they still appear very limited from a theoretical perspective, since regular GNNs cannot distinguish certain types of graphs. In this work we close this gap between theory and practice. We show that GNNs with directed edge embeddings and two-hop message passing are indeed universal approximators for predictions that are invariant to global rotation and translation, and equivariant to permutation. We then leverage these insights and multiple structural improvements to propose the geometric message passing neural network (GemNet). We demonstrate the benefits of the proposed changes in multiple ablation studies. GemNet outperforms previous models on the COLL and MD17 molecular dynamics datasets by 36%, performing especially well on the most challenging molecules.
翻訳日:2021-06-20 21:12:35 公開日:2021-06-02
# (参考訳) 地中真実のポストホック検証と転倒可能性

Posthoc Verification and the Fallibility of the Ground Truth ( http://arxiv.org/abs/2106.07353v1 )

ライセンス: CC BY 4.0
Yifan Ding, Nicholas Botzer, Tim Weninger(参考訳) 分類器は通常、事前に定義されたデータセットを使用しており、モデルは通常、人間の注釈付きラベルで作られるホールドアウトテストセット上で、事前定義されたメトリクスによって評価される。 これらの評価に使用されるメトリクスは、明確に定義された基底真理ラベルの可用性に結びついており、通常、これらのメトリクスは不正確な一致を許さない。 これらのノイズの多い基底的真理ラベルと厳密な評価指標は、評価結果の妥当性とリアリズムを損なう可能性がある。 本稿では,これらの懸念を議論し,エンティティリンク(el)タスクに関する体系的なポストホック検証実験を行う。 アノテーションに自由形式のアノテーションを提供することを求める従来の方法論とは異なり、アノテーションは事実(つまりポストホック)の後のアノテーションの正しさを検証するように求めます。 プレアノテーション評価と比較して,最先端ELモデルはポストホック評価法により極めて良好に動作した。 posthoc validationはまた、基底真理データセットの検証を許可する。 驚くべきことに、ELモデルからの予測は、基礎的な真実よりも類似または高い検証率を持っていた。 本研究は,これらの知見と今後の評価への提言に関する議論から締めくくっている。

Classifiers commonly make use of pre-annotated datasets, wherein a model is evaluated by pre-defined metrics on a held-out test set typically made of human-annotated labels. Metrics used in these evaluations are tied to the availability of well-defined ground truth labels, and these metrics typically do not allow for inexact matches. These noisy ground truth labels and strict evaluation metrics may compromise the validity and realism of evaluation results. In the present work, we discuss these concerns and conduct a systematic posthoc verification experiment on the entity linking (EL) task. Unlike traditional methodologies, which asks annotators to provide free-form annotations, we ask annotators to verify the correctness of annotations after the fact (i.e., posthoc). Compared to pre-annotation evaluation, state-of-the-art EL models performed extremely well according to the posthoc evaluation methodology. Posthoc validation also permits the validation of the ground truth dataset. Surprisingly, we find predictions from EL models had a similar or higher verification rate than the ground truth. We conclude with a discussion on these findings and recommendations for future evaluations.
翻訳日:2021-06-20 20:52:01 公開日:2021-06-02
# (参考訳) 協調学習環境における長期物体検出と追跡

Long Term Object Detection and Tracking in Collaborative Learning Environments ( http://arxiv.org/abs/2106.07556v1 )

ライセンス: CC BY 4.0
Sravani Teeparthi(参考訳) ビデオにおける人間の活動認識は、特に大きなビデオデータベースの分析を必要とする場合、多くの関心を集めている難しい問題である。 AOLMEプロジェクトは、中学生がデジタル画像やビデオを処理することで、数学、計算機科学、工学を探求するための協調学習環境を提供する。 このプロジェクトの一環として、分析のために約2200時間のビデオデータが収集された。 データセットのサイズのため、データセットのすべての動画を手作業で分析することは困難である。 したがって、関心のあるアクティビティを検出できる信頼性の高いコンピュータベースの方法が必要となる。 私の論文は、長いビデオの中でオブジェクトを検出し追跡するための正確な方法の開発に焦点を当てています。 すべてのモデルは、7つのセッションから45分から90分まで、ビデオで検証される。 キーボード検出器は、結合(IoU)の0.5の交差点で92%の非常に高い平均精度(AP)を達成した。 さらに,高速トラッカーKCF(159fps)を併用した検出器システムを開発し,精度を犠牲にすることなくアルゴリズムの動作を著しく高速化した。 解像度858X480 @30 fpsの23分間のビデオでは、検出のみを4.7倍、組み合わせたアルゴリズムを平均IoUの0.84倍と0.82倍の21倍の速度で実行する。 ハンド検出器は0.5IoUで平均精度(AP)を72%達成した。 最適なデータ拡張パラメータを用いて検出結果が81%に向上した。 ハンド検出器は4.7倍、APは81%、IoUは0.5である。 提案手法は投射とクラスタリングと統合して正確な提案生成を行う。 このアプローチは偽陽性手の検出数を80%削減する。 全体の手検出システムは4倍の速度で動作し、現在の共同作業グループのすべての活動領域をキャプチャする。

Human activity recognition in videos is a challenging problem that has drawn a lot of interest, particularly when the goal requires the analysis of a large video database. AOLME project provides a collaborative learning environment for middle school students to explore mathematics, computer science, and engineering by processing digital images and videos. As part of this project, around 2200 hours of video data was collected for analysis. Because of the size of the dataset, it is hard to analyze all the videos of the dataset manually. Thus, there is a huge need for reliable computer-based methods that can detect activities of interest. My thesis is focused on the development of accurate methods for detecting and tracking objects in long videos. All the models are validated on videos from 7 different sessions, ranging from 45 minutes to 90 minutes. The keyboard detector achieved a very high average precision (AP) of 92% at 0.5 intersection over union (IoU). Furthermore, a combined system of the detector with a fast tracker KCF (159fps) was developed so that the algorithm runs significantly faster without sacrificing accuracy. For a video of 23 minutes having resolution 858X480 @ 30 fps, the detection alone runs at 4.7Xthe real-time, and the combined algorithm runs at 21Xthe real-time for an average IoU of 0.84 and 0.82, respectively. The hand detector achieved average precision (AP) of 72% at 0.5 IoU. The detection results were improved to 81% using optimal data augmentation parameters. The hand detector runs at 4.7Xthe real-time with AP of 81% at 0.5 IoU. The hand detection method was integrated with projections and clustering for accurate proposal generation. This approach reduced the number of false-positive hand detections by 80%. The overall hand detection system runs at 4Xthe real-time, capturing all the activity regions of the current collaborative group.
翻訳日:2021-06-20 20:40:29 公開日:2021-06-02
# 人工知覚学習:弱い監督を伴う画像分類

Artificial Perceptual Learning: Image Categorization with Weak Supervision ( http://arxiv.org/abs/2106.07559v1 )

ライセンス: Link先を確認
Chengliang Tang, Mar\'ia Uriarte, Helen Jin, Douglas C. Morton, Tian Zheng(参考訳) 機械学習は、十分な注釈付きトレーニングサンプルのセットで教師付き学習タスクで大きな成功を収めた。 しかし、多くの実践的な状況では、高価で労働集約的なラベル付けプロセスのため、トレーニングデータによって提供される強固で高品質な監視は利用できない。 オブジェクトのカテゴリを自動的に識別し認識することは、コンピュータビジョンにおいて重要な課題であるが未解決の課題である。 本稿では,弱い教師付き画像分類の問題に対処するため,新しい機械学習フレームワークである人工知覚学習(APL)を提案する。 提案するAPLフレームワークは,幼児分類として知られる認知発達過程を模倣するビルディングブロックとして,最先端の機械学習アルゴリズムを用いて構築されている。 プエルトリコのエルユンケ熱帯雨林の8,000ヘクタールの樹種を対象に,広視野の細粒生態調査を実施し,その枠組みを解明した。 これは木製キャノピーのラベルなしの高精細空中画像に基づいている。 これらの画像のうち1%に満たない位置にあるラベルは、この学習フレームワークの唯一の弱い監督役である。 提案手法が人間レベルの認知経済を実現することを示すために,高品質な人間のアノテーションを用いた画像セットを用いて,提案フレームワークを検証する。

Machine learning has achieved much success on supervised learning tasks with large sets of well-annotated training samples. However, in many practical situations, such strong and high-quality supervision provided by training data is unavailable due to the expensive and labor-intensive labeling process. Automatically identifying and recognizing object categories in a large volume of unlabeled images with weak supervision remains an important, yet unsolved challenge in computer vision. In this paper, we propose a novel machine learning framework, artificial perceptual learning (APL), to tackle the problem of weakly supervised image categorization. The proposed APL framework is constructed using state-of-the-art machine learning algorithms as building blocks to mimic the cognitive development process known as infant categorization. We develop and illustrate the proposed framework by implementing a wide-field fine-grain ecological survey of tree species over an 8,000-hectare area of the El Yunque rainforest in Puerto Rico. It is based on unlabeled high-resolution aerial images of the tree canopy. Misplaced ground-based labels were available for less than 1% of these images, which serve as the only weak supervision for this learning framework. We validate the proposed framework using a small set of images with high quality human annotations and show that the proposed framework attains human-level cognitive economy.
翻訳日:2021-06-20 16:08:19 公開日:2021-06-02
# moleman氏: 参照のみのエンティティと参照アノテーションネットワークのリンク

MOLEMAN: Mention-Only Linking of Entities with a Mention Annotation Network ( http://arxiv.org/abs/2106.07352v1 )

ライセンス: Link先を確認
Nicholas FitzGerald, Jan A. Botha, Daniel Gillick, Daniel M. Bikel, Tom Kwiatkowski, Andrew McCallum(参考訳) 本稿では、エンティティリンクに対するインスタンスベースの近接アプローチを提案する。 各エンティティを1つのベクトルで表現する従来のエンティティ検索システムとは対照的に、同じエンティティの類似の言及を異なるエンティティの言及よりもベクトル空間に近づけることを学ぶコンテキスト化された参照エンコーダを構築する。 このアプローチは、推論がトレーニングセット内のラベル付きエンティティの完全なセットから取得し、最も近い参照の隣人のエンティティラベルを適用することを伴うため、エンティティのすべての言及が"クラスプロトタイプ"として機能することを可能にする。 本モデルは,ウィキペディアのハイパーリンクから派生した参照ペアの多言語コーパスに基づいて学習し,約7億の参照のインデックス上で最寄りの推測を行う。 トレーニングが簡単で、解釈可能な予測を提供し、2つの多言語エンティティリンクベンチマークで他のシステムよりも優れています。

We present an instance-based nearest neighbor approach to entity linking. In contrast to most prior entity retrieval systems which represent each entity with a single vector, we build a contextualized mention-encoder that learns to place similar mentions of the same entity closer in vector space than mentions of different entities. This approach allows all mentions of an entity to serve as "class prototypes" as inference involves retrieving from the full set of labeled entity mentions in the training set and applying the nearest mention neighbor's entity label. Our model is trained on a large multilingual corpus of mention pairs derived from Wikipedia hyperlinks, and performs nearest neighbor inference on an index of 700 million mentions. It is simpler to train, gives more interpretable predictions, and outperforms all other systems on two multilingual entity linking benchmarks.
翻訳日:2021-06-20 16:08:01 公開日:2021-06-02
# 有意義なユーザエクスペリエンスと人間中心技術の設計を学ぶための認知科学の視点

A Cognitive Science perspective for learning how to design meaningful user experiences and human-centered technology ( http://arxiv.org/abs/2106.07553v1 )

ライセンス: Link先を確認
Sara Kingsley(参考訳) 本稿では、認知科学、人間-コンピュータインタラクション(hci)、自然言語処理(nlp)の文献をレビューし、類似推論(ar)がコミュニケーションや学習技術、オンラインコミュニティやデジタルプラットフォームの設計にどのように役立つかを考察する。 まず、アナログ推論(AR)を定義し、計算科学におけるARの使用事例を示す。 スキーマの概念は、コンピューティングのユースケースとともに導入された。 最後に、計算機科学におけるアナログ推論とスキーマ手法の今後の研究のために推奨される。

This paper reviews literature in cognitive science, human-computer interaction (HCI) and natural-language processing (NLP) to consider how analogical reasoning (AR) could help inform the design of communication and learning technologies, as well as online communities and digital platforms. First, analogical reasoning (AR) is defined, and use-cases of AR in the computing sciences are presented. The concept of schema is introduced, along with use-cases in computing. Finally, recommendations are offered for future work on using analogical reasoning and schema methods in the computing sciences.
翻訳日:2021-06-20 16:06:29 公開日:2021-06-02
# (参考訳) 脳波に基づく発作予測のためのランダム森林分類器

Random Forest classifier for EEG-based seizure prediction ( http://arxiv.org/abs/2106.04510v1 )

ライセンス: CC BY 4.0
Remy Ben Messaoud and Mario Chavez(参考訳) てんかん発作の予測は、計算てんかん研究コミュニティでかなりの関心を集めている。 本稿では,最先端技術に勝るてんかん発作予測のための機械学習手法を提案する。 我々は,ランダムフォレスト分類器を用いてinterictalに対して前ictalである確率を計算し,アルゴリズムのロバスト性を高めるための新しい概念を導入する。 発作予測地平線(SPH)を5分,発作発生期間(SOP)を30分とするベンチマーク頭皮脳波CHB-MITデータセットの20例について検討した。 本手法は82.07 %の感度と0.0799 /hの低偽陽性率(fpr)を達成する。 また頭蓋内脳波記録についても検討した。

Epileptic seizure prediction has gained considerable interest in the computational Epilepsy research community. This paper presents a Machine Learning based method for epileptic seizure prediction which outperforms state-of-the art methods. We compute a probability for a given epoch, of being pre-ictal against interictal using the Random Forest classifier and introduce new concepts to enhance the robustness of the algorithm to false alarms. We assessed our method on 20 patients of the benchmark scalp EEG CHB-MIT dataset for a seizure prediction horizon (SPH) of 5 minutes and a seizure occurrence period (SOP) of 30 minutes. Our approach achieves a sensitivity of 82.07 % and a low false positive rate (FPR) of 0.0799 /h. We also tested our approach on intracranial EEG recordings.
翻訳日:2021-06-15 13:23:53 公開日:2021-06-02
# サンスクリットにおける自動音声認識--新しい音声コーパスとモデリングインサイト

Automatic Speech Recognition in Sanskrit: A New Speech Corpus and Modelling Insights ( http://arxiv.org/abs/2106.05852v1 )

ライセンス: Link先を確認
Devaraja Adiga, Rishabh Kumar, Amrith Krishna, Preethi Jyothi, Ganesh Ramakrishnan, Pawan Goyal(参考訳) サンスクリット語における自動音声認識(asr)は、言語に存在する様々な言語的特徴から興味深い。 サンスクリット語は語彙的に生産的であり、単語境界における電話の音素同化を行い、綴りの慣習や発音のバリエーションを示す。 本研究では,サンスクリットasrにおける単位選択の影響に着目し,サンスクリットにおける自動音声認識(asr)に関する最初の大規模研究を提案する。 そこで本研究では,サンスクリット語で表現される言語的特徴のいくつかを忠実に捉えた78時間のasrデータセットをリリースする。 サンスクリットにおけるASRシステムにおける異なる音響モデルと言語モデルユニットの役割について検討する。 また、単語中の1つの母音から次の母音への文字列をキャプチャする音節レベルの単位選択にインスパイアされた新しいモデリング単位を提案する。 また、サンスクリットにおけるグラフ表現の選択の重要性を強調し、この選択が単語誤り率(WER)に与える影響を示す。 最後に、これらの知見をSanskrit ASRから拡張し、他の2つのIndic言語であるGujaratiとTeluguでASRシステムを構築する。 いずれの言語においても,asrにおける音韻ベースのグラフ表現の使用は,ネイティブスクリプトを使用するasrシステムと比較して性能が向上することを示す実験結果が得られた。

Automatic speech recognition (ASR) in Sanskrit is interesting, owing to the various linguistic peculiarities present in the language. The Sanskrit language is lexically productive, undergoes euphonic assimilation of phones at the word boundaries and exhibits variations in spelling conventions and in pronunciations. In this work, we propose the first large scale study of automatic speech recognition (ASR) in Sanskrit, with an emphasis on the impact of unit selection in Sanskrit ASR. In this work, we release a 78 hour ASR dataset for Sanskrit, which faithfully captures several of the linguistic characteristics expressed by the language. We investigate the role of different acoustic model and language model units in ASR systems for Sanskrit. We also propose a new modelling unit, inspired by the syllable level unit selection, that captures character sequences from one vowel in the word to the next vowel. We also highlight the importance of choosing graphemic representations for Sanskrit and show the impact of this choice on word error rates (WER). Finally, we extend these insights from Sanskrit ASR for building ASR systems in two other Indic languages, Gujarati and Telugu. For both these languages, our experimental results show that the use of phonetic based graphemic representations in ASR results in performance improvements as compared to ASR systems that use native scripts.
翻訳日:2021-06-13 14:01:45 公開日:2021-06-02
# クラスター解析の一般粗さモデリング

General Rough Modeling of Cluster Analysis ( http://arxiv.org/abs/2106.04683v1 )

ライセンス: Link先を確認
A. Mani(参考訳) 本研究では,特定の部分代数系に対してクラスタリングの一般的な理論的枠組みを提案する。 彼女の理論は、状況(したがって意味論)で実現されるあらゆる形態の情報の異なる概念に必要な最小限の仮定を分離するのに役立つ。 \emph{it's well-known that the limited number of proofs in the theory of hard and soft clustering that were exists, most involved statistical assumptions} として知られる。 特定の経験的な実践で機能するように見えるため、多くの方法が機能するようです。 クラスタリングを解析するための新しい一般的な粗い手法が発明され、より明確な概念と汚染のない理論的証明がもたらされる。 検証の数値的アイデアは、一般的な粗近似に基づくものに置き換えられることも提案されている。 アプローチの本質は簡潔に説明され、例によってサポートされている。

In this research, a general theoretical framework for clustering is proposed over specific partial algebraic systems by the present author. Her theory helps in isolating minimal assumptions necessary for different concepts of clustering information in any form to be realized in a situation (and therefore in a semantics). \emph{It is well-known that of the limited number of proofs in the theory of hard and soft clustering that are known to exist, most involve statistical assumptions}. Many methods seem to work because they seem to work in specific empirical practice. A new general rough method of analyzing clusterings is invented, and this opens the subject to clearer conceptions and contamination-free theoretical proofs. Numeric ideas of validation are also proposed to be replaced by those based on general rough approximation. The essence of the approach is explained in brief and supported by an example.
翻訳日:2021-06-13 14:01:24 公開日:2021-06-02
# 2次元生成逆ネットワークを用いた標準12誘導心電図の合成

Synthesis of standard 12-lead electrocardiograms using two dimensional generative adversarial network ( http://arxiv.org/abs/2106.03701v1 )

ライセンス: Link先を確認
Yu-He Zhang and Saeed Babaeizadeh(参考訳) 本稿では,左室肥大症(lvh),左分枝束ブロック(lbbb),急性心筋梗塞(acutmi),正常の4種類の信号に対応する合成標準12誘導心電図を作成するための,二次元(2次元)2方向長短期記憶生成逆流ネットワーク(gan)を提案する。 完全なエンドツーエンドプロセスを使用して、視覚検査を必要としない合成ECGを生成し、検証する。 提案モデルは,LVHが98%,LBBBが93%,ACUTMIが79%,正常が59%の合成標準ECG信号を生成することができる。 データの統計的評価により、合成心電図はトレーニング心電図に対して偏りや過度に適応していないことが確認され、多種多様な形態的特徴にまたがる。 本研究は、2D GANを用いて、実ECGの多様なデータベースを人工的に増強するのに適した標準の12リードECGを作成できることを示し、より広範なECGデータセットの需要に対する解決策を提供する。

This paper proposes a two-dimensional (2D) bidirectional long short-term memory generative adversarial network (GAN) to produce synthetic standard 12-lead ECGs corresponding to four types of signals: left ventricular hypertrophy (LVH), left branch bundle block (LBBB), acute myocardial infarction (ACUTMI), and Normal. It uses a fully automatic end-to-end process to generate and verify the synthetic ECGs that does not require any visual inspection. The proposed model is able to produce synthetic standard 12-lead ECG signals with success rates of 98% for LVH, 93% for LBBB, 79% for ACUTMI, and 59% for Normal. Statistical evaluation of the data confirms that the synthetic ECGs are not biased towards or overfitted to the training ECGs, and span a wide range of morphological features. This study demonstrates that it is feasible to use a 2D GAN to produce standard 12-lead ECGs suitable to augment artificially a diverse database of real ECGs, thus providing a possible solution to the demand for extensive ECG datasets.
翻訳日:2021-06-13 14:00:04 公開日:2021-06-02
# 学術的盗作との闘い--意味的類似性に基づくアプローチ

The Struggle with Academic Plagiarism: Approaches based on Semantic Similarity ( http://arxiv.org/abs/2106.04404v1 )

ライセンス: Link先を確認
Tedo Vrbanec and Ana Mestrovic(参考訳) 近年は学術的盗作が深刻な問題となっている。 デジタル情報の不可解な情報源が存在しているため、今日ではこれまでにないほど盗用が容易である。 良いことに、盗作検出技術は改善され、教育における盗作の試行を検出するのに十分な力を持っている。 私たちは現在、Turnitin、iThenticate、SafeAssignなどの効率的な盗作検知ソフトウェアを目撃しています。 紹介では,クロアチアの学術コミュニティにおいて,大学や科学雑誌の盗作検出に使用されるソフトウェアについて検討する。 問題は:これで十分か? 現在のソフトウェアは成功したことが証明されているが、パラフレーズや難解な盗作を識別する問題は未解決のままである。 本稿では, 盗作検知タスクにおける意味的類似性対策の活用について報告する。

Academic plagiarism is a serious problem nowadays. Due to the existence of inexhaustible sources of digital information, today it is easier to plagiarize more than ever before. The good thing is that plagiarism detection techniques have improved and are powerful enough to detect attempts of plagiarism in education. We are now witnessing efficient plagiarism detection software in action, such as Turnitin, iThenticate or SafeAssign. In the introduction we explore software that is used within the Croatian academic community for plagiarism detection in universities and/or in scientific journals. The question is: is this enough? Current software has proven to be successful, however the problem of identifying paraphrasing or obfuscation plagiarism remains unresolved. In this paper we present a report of how semantic similarity measures can be used in the plagiarism detection task.
翻訳日:2021-06-13 13:59:41 公開日:2021-06-02
# フェデレーションニューラルコラボレーティブフィルタ

Federated Neural Collaborative Filtering ( http://arxiv.org/abs/2106.04405v1 )

ライセンス: Link先を確認
Vasileios Perifanis and Pavlos S. Efraimidis(参考訳) 本稿では,ncf(state-of-the-art neural collaborative filtering)アプローチのフェデレーションバージョンを提案する。 FedNCFと名付けられたこのシステムは、ユーザが生データを公開したり送信したりすることなく、学習ができる。 実験的な検証により、FedNCFは元のNCFシステムと同等のレコメンデーション品質を達成している。 FL(Federated Learning)は、生のデータ伝送なしでの学習を可能にするが、最近の攻撃はFLだけではプライバシーの懸念を排除していないことを示した。 この課題を克服するために、プライバシ保護強化とセキュアアグリゲーションスキームを統合し、元のモデルの品質に影響を与えることなく、誠実だが正確(HBC)なエンティティに対するセキュリティ要件を満たす。 最後に,協調フィルタリング(cf)タスクにおけるflの適用における特異性について検討するとともに,計算コストの観点からプライバシー保護機構の評価を行った。

In this work, we present a federated version of the state-of-the-art Neural Collaborative Filtering (NCF) approach for item recommendations. The system, named FedNCF, allows learning without requiring users to expose or transmit their raw data. Experimental validation shows that FedNCF achieves comparable recommendation quality to the original NCF system. Although federated learning (FL) enables learning without raw data transmission, recent attacks showed that FL alone does not eliminate privacy concerns. To overcome this challenge, we integrate a privacy-preserving enhancement with a secure aggregation scheme that satisfies the security requirements against an honest-but-curious (HBC) entity, without affecting the quality of the original model. Finally, we discuss the peculiarities observed in the application of FL in a collaborative filtering (CF) task as well as we evaluate the privacy-preserving mechanism in terms of computational cost.
翻訳日:2021-06-13 13:59:11 公開日:2021-06-02
# マルチドメイン環境意思決定における不均一雑音短信号カモフラージュ

Heterogeneous Noisy Short Signal Camouflage in Multi-Domain Environment Decision-Making ( http://arxiv.org/abs/2106.02044v1 )

ライセンス: Link先を確認
Piyush K. Sharma(参考訳) 業界と政府の2つ以上のデジタルデバイス間のデータ転送は、安全でアジャイルな技術を要求する。 デジタル情報配信にはiot(internet of things, モノのインターネット)デバイスや、スマートシティの出現や戦場のインターネット(internet of battlefield things, iobt)など、文民と軍事の両方で人気を集めているデータ融合技術が必要となることが多い。 これは通常、複数のソースからデータをキャプチャして統合する必要がある。 データセットは必ずしも同じセンサー起源ではないため、融合データは通常、複雑なビッグデータ問題を引き起こす。 IoTデータセットの潜在的にセンシティブな性質のため、ブロックチェーン技術はIoTデータセットのセキュアな共有を容易にするために使用される。 しかし、ブロックチェーンには複雑さ、スケーラビリティ、過度のエネルギー消費に関するいくつかの制限がある。 画像や音声信号に変換することで,情報(センサ信号)を隠蔽する手法を提案する。 軍事近代化に向けた最新の試みの1つとして、インテリジェントな識別・検出操作を実現する上での課題を調査し、ウェアラブルデバイスからの特定のジェスチャー警告システムへの将来の応用を支援するためのディープラーニング・異常検出モデルの有効性を実証する。

Data transmission between two or more digital devices in industry and government demands secure and agile technology. Digital information distribution often requires deployment of Internet of Things (IoT) devices and Data Fusion techniques which have also gained popularity in both, civilian and military environments, such as, emergence of Smart Cities and Internet of Battlefield Things (IoBT). This usually requires capturing and consolidating data from multiple sources. Because datasets do not necessarily originate from identical sensors, fused data typically results in a complex Big Data problem. Due to potentially sensitive nature of IoT datasets, Blockchain technology is used to facilitate secure sharing of IoT datasets, which allows digital information to be distributed, but not copied. However, blockchain has several limitations related to complexity, scalability, and excessive energy consumption. We propose an approach to hide information (sensor signal) by transforming it to an image or an audio signal. In one of the latest attempts to the military modernization, we investigate sensor fusion approach by investigating the challenges of enabling an intelligent identification and detection operation and demonstrates the feasibility of the proposed Deep Learning and Anomaly Detection models that can support future application for specific hand gesture alert system from wearable devices.
翻訳日:2021-06-07 14:48:19 公開日:2021-06-02
# (参考訳) 自己教師付き特徴学習と共起解析による教師なし行動セグメンテーション

Unsupervised Action Segmentation with Self-supervised Feature Learning and Co-occurrence Parsing ( http://arxiv.org/abs/2105.14158v2 )

ライセンス: CC BY 4.0
Zhe Wang, Hao Chen, Xinyu Li, Chunhui Liu, Yuanjun Xiong, Joseph Tighe, Charless Fowlkes(参考訳) 時間的アクションセグメンテーションは、ビデオの各フレームをアクションラベルで分類するタスクである。 しかし、大規模なビデオコーパス内のすべてのフレームに注釈を付けることで、包括的な教師付きトレーニングデータセットを構築するのは非常にコストがかかる。 そこで本研究では,ラベルのないビデオのコーパス上で動作し,ビデオ全体の時間的セグメント集合を予測できる自己教師あり手法について検討する。 これを実現するために,自己教師付きビデオ分類アプローチを活用して,教師なし特徴抽出を行う。 これらの特徴に加えて,行動の構造に基づくサブアクション間の相関を捉えるだけでなく,そのサブアクションの時間軌道を正確かつ一般的な方法で推定する,新しい共起動作解析アルゴリズムであるCAPを開発した。 従来のデータセット(Breakfast, 50Salads)と、より複雑なアクティビティ構造と類似のサブアクションを持つよりきめ細かなアクションデータセット(FineGym)の両方を評価した。 その結果,提案手法は最大22倍の精度で3つのデータセットの最先端性能を達成し,その有効性と一般化性を示すとともに,弱教師付きアプローチよりも優れていることがわかった。

Temporal action segmentation is a task to classify each frame in the video with an action label. However, it is quite expensive to annotate every frame in a large corpus of videos to construct a comprehensive supervised training dataset. Thus in this work we explore a self-supervised method that operates on a corpus of unlabeled videos and predicts a likely set of temporal segments across the videos. To do this we leverage self-supervised video classification approaches to perform unsupervised feature extraction. On top of these features we develop CAP, a novel co-occurrence action parsing algorithm that can not only capture the correlation among sub-actions underlying the structure of activities, but also estimate the temporal trajectory of the sub-actions in an accurate and general way. We evaluate on both classic datasets (Breakfast, 50Salads) and emerging fine-grained action datasets (FineGym) with more complex activity structures and similar sub-actions. Results show that our method achieves state-of-the-art performance on all three datasets with up to 22\% improvement, and can even outperform some weakly-supervised approaches, demonstrating its effectiveness and generalizability.
翻訳日:2021-06-05 23:07:23 公開日:2021-06-02
# (参考訳) DNA-GCN:DNA-タンパク質結合予測のためのグラフ畳み込みネットワーク

DNA-GCN: Graph convolutional networks for predicting DNA-protein binding ( http://arxiv.org/abs/2106.01836v1 )

ライセンス: CC BY 4.0
Yuhang Guo, Xiao Luo, Liang Chen and Minghua Deng(参考訳) DNA-タンパク質結合の予測はバイオインフォマティクスにおいて重要で古典的な問題である。 畳み込みニューラルネットワークは、DNA-タンパク質結合の配列特異性をモデル化する従来の手法よりも優れている。 しかし、これらの研究はグラフ畳み込みネットワークをモチーフ推論に用いていない。 本研究では,グラフ畳み込みネットワークをモチーフ推論に用いることを提案する。 我々は、k-mer共起およびk-mer配列関係に基づくデータセット全体のシーケンスk-merグラフを構築し、データセット全体のDNA-GCN(DNA-GCN)を学習する。 私たちのdna-gcnは、すべてのノードの1つのホットな表現で初期化され、k-merと配列の両方の埋め込みを共同で学習します。 ENCODEから50のデータセットでモデルを評価した。 DNA-GCNはベースラインモデルと競合する性能を示した。 さらに、モデルを分析し、異なるデータセットに適合するようにいくつかの異なるアーキテクチャを設計します。

Predicting DNA-protein binding is an important and classic problem in bioinformatics. Convolutional neural networks have outperformed conventional methods in modeling the sequence specificity of DNA-protein binding. However, none of the studies has utilized graph convolutional networks for motif inference. In this work, we propose to use graph convolutional networks for motif inference. We build a sequence k-mer graph for the whole dataset based on k-mer co-occurrence and k-mer sequence relationship and then learn DNA Graph Convolutional Network (DNA-GCN) for the whole dataset. Our DNA-GCN is initialized with a one-hot representation for all nodes, and it then jointly learns the embeddings for both k-mers and sequences, as supervised by the known labels of sequences. We evaluate our model on 50 datasets from ENCODE. DNA-GCN shows its competitive performance compared with the baseline model. Besides, we analyze our model and design several different architectures to help fit different datasets.
翻訳日:2021-06-05 07:41:09 公開日:2021-06-02
# (参考訳) MP-MRIによる前立腺癌のディープラーニング解析

Deep Learning Based Analysis of Prostate Cancer from MP-MRI ( http://arxiv.org/abs/2106.01835v1 )

ライセンス: CC BY 4.0
Pedro C. Neto(参考訳) 前立腺癌の診断は、過剰診断の問題に直面し、不必要な治療による副作用を損なう。 生体生検を行うためにマルチパラメトリック磁気共鳴画像を使用することで、過度な診断を軽減し、健康な患者に対する副作用を減少させることが研究で示されている。 本研究では,MRIを応用したコンピュータ支援診断のための深層学習手法について検討する。 臨床的に重要な病変の分類から、病変の検出・分節化まで、いくつかの診断問題は、深層学習に基づくアプローチによって解決される。 前立腺癌の診断には2つの問題があった。 まず、XmasNetは病変の分類に関する2つの大きな実験に使われた。 第2に, 前立腺および後発の前立腺癌病変について, 検出および分節化実験を行った。 前者は2次元空間を通して病変を探索し、後者は3次元入力を扱うモデルを検討した。 この作業のために、探索された3Dモデルは、3D U-Netと事前訓練された3D ResNet-18である。 これらすべての問題を厳密に分析し,2つのネットワーク,2つの収穫技術,2つの再サンプリング技術,2つの作物サイズ,5つの入力サイズとデータ拡張実験を行った。 セグメンテーションには2つのモデルがあり、2つの入力サイズとデータ拡張が実験された。 しかし, 病変の臨床的意義の2次分類と前立腺の検出・分節化は, 所望の結果(0.870 AUC, 0.915 点)をすでに達成しているが, PIRADS スコアの分類と病変の分節化は, 改善すべきマージンが大きい(0.664 点, 0.690 点)。

The diagnosis of prostate cancer faces a problem with overdiagnosis that leads to damaging side effects due to unnecessary treatment. Research has shown that the use of multi-parametric magnetic resonance images to conduct biopsies can drastically help to mitigate the overdiagnosis, thus reducing the side effects on healthy patients. This study aims to investigate the use of deep learning techniques to explore computer-aid diagnosis based on MRI as input. Several diagnosis problems ranging from classification of lesions as being clinically significant or not to the detection and segmentation of lesions are addressed with deep learning based approaches. This thesis tackled two main problems regarding the diagnosis of prostate cancer. Firstly, XmasNet was used to conduct two large experiments on the classification of lesions. Secondly, detection and segmentation experiments were conducted, first on the prostate and afterward on the prostate cancer lesions. The former experiments explored the lesions through a two-dimensional space, while the latter explored models to work with three-dimensional inputs. For this task, the 3D models explored were the 3D U-Net and a pretrained 3D ResNet-18. A rigorous analysis of all these problems was conducted with a total of two networks, two cropping techniques, two resampling techniques, two crop sizes, five input sizes and data augmentations experimented for lesion classification. While for segmentation two models, two input sizes and data augmentations were experimented. However, while the binary classification of the clinical significance of lesions and the detection and segmentation of the prostate already achieve the desired results (0.870 AUC and 0.915 dice score respectively), the classification of the PIRADS score and the segmentation of lesions still have a large margin to improve (0.664 accuracy and 0.690 dice score respectively).
翻訳日:2021-06-05 07:32:57 公開日:2021-06-02
# (参考訳) 変分量子アルゴリズムの単一成分勾配規則

Single-component gradient rules for variational quantum algorithms ( http://arxiv.org/abs/2106.01388v1 )

ライセンス: CC BY 4.0
Thomas Hubregtsen, Frederik Wilde, Shozab Qasim, Jens Eisert(参考訳) 多くの短期量子コンピューティングアルゴリズムは変分量子アルゴリズムとして考え出され、パラメータ化量子回路はハイブリッド量子古典的な構成で最適化される。 例えば、変分量子固有解法、量子近似最適化アルゴリズム、および量子支援機械学習の文脈における様々なアルゴリズムである。 このようなアルゴリズムの一般的なボトルネックは、変動パラメータの最適化によって構成される。 一般的な最適化手法のセットは、回路評価によって得られる勾配の推定に有効である。 我々は、これらの回路評価を勾配規則として組み合わせる方法を参照する。 この研究は、量子ゲートのパラメータを個別に変化する勾配規則の族を包括的に描いている。 このファミリーの最も有名なメンバーはパラメータシフト則と有限差分法である。 このファミリーを統一するために,上記のファミリーのすべてのメンバを特別なケースとして表現する一般化されたパラメータシフトルールを提案し,これらすべてがどのようにして完全一階と二階の導関数の線形結合へのアクセスを提供するかについて議論する。 さらに, 1 つの非シフト評価と 1 つのシフト回路評価が存在しないパラメータシフト規則が存在しないことを証明し,新しい勾配規則への新たな展望を提案する。

Many near-term quantum computing algorithms are conceived as variational quantum algorithms, in which parameterized quantum circuits are optimized in a hybrid quantum-classical setup. Examples are variational quantum eigensolvers, quantum approximate optimization algorithms as well as various algorithms in the context of quantum-assisted machine learning. A common bottleneck of any such algorithm is constituted by the optimization of the variational parameters. A popular set of optimization methods work on the estimate of the gradient, obtained by means of circuit evaluations. We will refer to the way in which one can combine these circuit evaluations as gradient rules. This work provides a comprehensive picture of the family of gradient rules that vary parameters of quantum gates individually. The most prominent known members of this family are the parameter shift rule and the finite differences method. To unite this family, we propose a generalized parameter shift rule that expresses all members of the aforementioned family as special cases, and discuss how all of these can be seen as providing access to a linear combination of exact first- and second-order derivatives. We further prove that a parameter shift rule with one non-shifted evaluation and only one shifted circuit evaluation can not exist does not exist, and introduce a novel perspective for approaching new gradient rules.
翻訳日:2021-06-05 07:03:38 公開日:2021-06-02
# (参考訳) パーソナライズされたフィードバックによるpythonプログラムの設計品質の自動評価

Automatic Assessment of the Design Quality of Python Programs with Personalized Feedback ( http://arxiv.org/abs/2106.01399v1 )

ライセンス: CC BY 4.0
J. Walker Orr, Nathaniel Russell(参考訳) プログラム機能の評価は、一般的に直進単体テストで行うことができる。 しかし、プログラムの設計品質を評価することは、はるかに困難で微妙な問題である。 プログラムの可読性と保守性に影響を与えるため、設計品質は重要な考慮事項である。 デザイン品質を評価し、パーソナライズされたフィードバックを与えることは、インストラクターやアシスタントのタスクに非常に時間がかかる。 これにより、小さなクラス設定にパーソナライズされたフィードバックを与えるスケールが制限される。 さらに、設計品質はニュアンスが高く、規則の集合として簡潔に表現することが難しい。 これらの理由から,プログラムの設計を自動評価するニューラルネットワークモデルを提案し,修正方法を学生に指導するパーソナライズされたフィードバックを提供する。 モデルの有効性はPythonで書かれた学生プログラムのコーパスで評価される。 このモデルの精度はデータセットによって83.67%から94.27%であり、過去のインストラクターの評価と比べて設計スコアを予測する。 最後に,モデルが生成したパーソナライズされたフィードバックに基づいて,学生がプログラムの設計を改善する方法を提案する。 この研究に参加した学生はプログラムのデザインスコアを19.58%改善した。

The assessment of program functionality can generally be accomplished with straight-forward unit tests. However, assessing the design quality of a program is a much more difficult and nuanced problem. Design quality is an important consideration since it affects the readability and maintainability of programs. Assessing design quality and giving personalized feedback is very time consuming task for instructors and teaching assistants. This limits the scale of giving personalized feedback to small class settings. Further, design quality is nuanced and is difficult to concisely express as a set of rules. For these reasons, we propose a neural network model to both automatically assess the design of a program and provide personalized feedback to guide students on how to make corrections. The model's effectiveness is evaluated on a corpus of student programs written in Python. The model has an accuracy rate from 83.67% to 94.27%, depending on the dataset, when predicting design scores as compared to historical instructor assessment. Finally, we present a study where students tried to improve the design of their programs based on the personalized feedback produced by the model. Students who participated in the study improved their program design scores by 19.58%.
翻訳日:2021-06-05 06:48:55 公開日:2021-06-02
# (参考訳) 変形性音声変換における話者識別のための2段階パラダイムの予備的検討

A Preliminary Study of a Two-Stage Paradigm for Preserving Speaker Identity in Dysarthric Voice Conversion ( http://arxiv.org/abs/2106.01415v1 )

ライセンス: CC BY 4.0
Wen-Chin Huang, Kazuhiro Kobayashi, Yu-Huai Peng, Ching-Feng Liu, Yu Tsao, Hsin-Min Wang, Tomoki Toda(参考訳) ダイアートリック音声変換(dvc)における話者アイデンティティ維持のための新しいパラダイムを提案する。 統計学的vcにより, 構音の質の低下は著しく改善するが, 構音障害患者の正常な発話は収集がほぼ不可能であるため, これまでの研究は患者の個性回復に失敗した。 そこで本研究では,DVCに対する新たな2段階的アプローチを提案する。 まず、強力な並列シーケンス・ツー・シーケンスモデルにより、入力されたdysarthric音声を中間生成物として基準話者の通常の音声に変換し、変分オートエンコーダで実現された非並列フレームワイズvcモデルにより、拡張された品質を保ちながら、基準音声の話者アイデンティティを患者の声に変換する。 いくつかの設計オプションについて検討する。 実験評価の結果, 話者同一性を維持しつつ, 構音質を向上させるためのアプローチの可能性が示された。

We propose a new paradigm for maintaining speaker identity in dysarthric voice conversion (DVC). The poor quality of dysarthric speech can be greatly improved by statistical VC, but as the normal speech utterances of a dysarthria patient are nearly impossible to collect, previous work failed to recover the individuality of the patient. In light of this, we suggest a novel, two-stage approach for DVC, which is highly flexible in that no normal speech of the patient is required. First, a powerful parallel sequence-to-sequence model converts the input dysarthric speech into a normal speech of a reference speaker as an intermediate product, and a nonparallel, frame-wise VC model realized with a variational autoencoder then converts the speaker identity of the reference speech back to that of the patient while assumed to be capable of preserving the enhanced quality. We investigate several design options. Experimental evaluation results demonstrate the potential of our approach to improving the quality of the dysarthric speech while maintaining the speaker identity.
翻訳日:2021-06-05 06:40:47 公開日:2021-06-02
# (参考訳) ebola optimization search algorithm (eosa) : エボラウイルス病の伝播モデルに基づく新しいメタヒューリスティックアルゴリズム

Ebola Optimization Search Algorithm (EOSA): A new metaheuristic algorithm based on the propagation model of Ebola virus disease ( http://arxiv.org/abs/2106.01416v1 )

ライセンス: CC BY 4.0
Olaide N. Oyelade and Absalom E. Ezugwu(参考訳) エボラウイルスと事実上の病気は、感受性、感染、隔離、入院、回復、死亡する集団の周囲にランダムに個体を移動させる傾向がある。 ウイルスを媒介する病気の伝播効果により,新たなバイオインスパイアされた集団最適化アルゴリズムが提案されている。 本稿では,エボラ最適化アルゴリズム(EOSA)というメタヒューリスティックアルゴリズムを提案する。 本研究は、エボラウイルス病の伝播機構をモデル化し、伝播の全ての一貫した状態を強調した。 このモデルはさらに一階微分方程式に基づく数学的モデルを用いて表現された。 その後、新しいメタヒューリスティックアルゴリズムを開発するために、伝播と数学的モデルの組み合わせが適応された。 提案手法の性能と性能を他の最適化手法と比較して評価するため,基礎となる伝搬モデルと数理モデルを用いてEVDのシミュレーションを成功させる方法について検討した。 さらに, IEEE CEC-2017ベンチマーク関数は, 古典的(47) と制約付き(30) の2つのベンチマーク関数からなる。 その結果,提案アルゴリズムの性能は,スケーラビリティ解析,収束解析,感度解析に基づく他の最先端最適化手法と競合することが示唆された。 広範なシミュレーション結果から,eosaはpso( particle swarm optimization algorithm)やga(genetic algorithm)、abc(artificial bee colony algorithm)など、シフト・高次元・大規模探索範囲の問題において、他の最先端のメタヒューリスティック最適化アルゴリズムよりも優れていることが示された。

The Ebola virus and the disease in effect tend to randomly move individuals in the population around susceptible, infected, quarantined, hospitalized, recovered, and dead sub-population. Motivated by the effectiveness in propagating the disease through the virus, a new bio-inspired and population-based optimization algorithm is proposed. This paper presents a novel metaheuristic algorithm named Ebola optimization algorithm (EOSA). To correctly achieve this, this study models the propagation mechanism of the Ebola virus disease, emphasising all consistent states of the propagation. The model was further represented using a mathematical model based on first-order differential equations. After that, the combined propagation and mathematical models were adapted for developing the new metaheuristic algorithm. To evaluate the proposed method's performance and capability compared with other optimization methods, the underlying propagation and mathematical models were first investigated to determine how they successfully simulate the EVD. Furthermore, two sets of benchmark functions consisting of forty-seven (47) classical and over thirty (30) constrained IEEE CEC-2017 benchmark functions are investigated numerically. The results indicate that the performance of the proposed algorithm is competitive with other state-of-the-art optimization methods based on scalability analysis, convergence analysis, and sensitivity analysis. Extensive simulation results indicate that the EOSA outperforms other state-of-the-art popular metaheuristic optimization algorithms such as the Particle Swarm Optimization Algorithm (PSO), Genetic Algorithm (GA), and Artificial Bee Colony Algorithm (ABC) on some shifted, high dimensional and large search range problems.
翻訳日:2021-06-05 06:28:50 公開日:2021-06-02
# (参考訳) 並列化トンプソンサンプリング

Parallelizing Thompson Sampling ( http://arxiv.org/abs/2106.01420v1 )

ライセンス: CC BY 4.0
Amin Karbasi, Vahab Mirrokni, Mohammad Shadravan(参考訳) 探索と探索のトレードオフを効率的にバランスしながら、オンライン意思決定問題において情報並列性をどのように活用できるか? 本稿では,2つの正準オンライン意思決定問題,すなわち,有限個のアームを持つ確率的多腕バンディットと線形文脈バンディットに対するバッチトンプソンサンプリングフレームワークを提案する。 時間軸の$T$、我々の \textit{batch} Thompson Sampling ポリシは、完全にシーケンシャルなものと同じ(漸近的な)後悔境界を達成すると同時に、$O(\log T)$バッチクエリのみを実行します。 この指数関数的縮小、すなわち相互作用の数を$t$から$o(\log t)$に減らすために、われわれのバッチポリシーは探索と爆発のトレードオフのバランスをとるために各バッチの持続時間を動的に決定する。 また,動的バッチ割り当てが静的バッチ割り当てなどの自然なベースラインを劇的に上回ることを示す。

How can we make use of information parallelism in online decision making problems while efficiently balancing the exploration-exploitation trade-off? In this paper, we introduce a batch Thompson Sampling framework for two canonical online decision making problems, namely, stochastic multi-arm bandit and linear contextual bandit with finitely many arms. Over a time horizon $T$, our \textit{batch} Thompson Sampling policy achieves the same (asymptotic) regret bound of a fully sequential one while carrying out only $O(\log T)$ batch queries. To achieve this exponential reduction, i.e., reducing the number of interactions from $T$ to $O(\log T)$, our batch policy dynamically determines the duration of each batch in order to balance the exploration-exploitation trade-off. We also demonstrate experimentally that dynamic batch allocation dramatically outperforms natural baselines such as static batch allocations.
翻訳日:2021-06-05 06:16:22 公開日:2021-06-02
# (参考訳) Unsharp Mask Guided Filtering

Unsharp Mask Guided Filtering ( http://arxiv.org/abs/2106.01428v1 )

ライセンス: CC BY 4.0
Zenglin Shi, Yunlu Chen, Efstratios Gavves, Pascal Mettes, and Cees G.M. Snoek(参考訳) 本論文の目的は、追加のガイダンス画像によるフィルタリングにおける構造伝達の重要性を強調するガイド付き画像フィルタリングである。 手動設計関数を用いた古典的ガイド付きフィルタ転送構造に対し、最近のガイド付きフィルタはディープネットワークのパラメトリック学習によってかなり進歩している。 最先端技術はディープネットワークを利用して誘導フィルタの2つのコア係数を推定する。 本研究では,両係数を同時に推定することで,haloアーチファクトと構造的不整合が生じることを仮定する。 単一係数のみを必要とするエッジエンハンスメントの古典的な手法であるunsharp maskingに着想を得て,ガイド付きフィルタの新規で簡易な定式化を提案する。 我々の定式化は低域フィルタに先立ってフィルタを楽しみ、単一の係数を推定することで明示的な構造伝達を可能にする。 提案した定式化に基づいて,1つのネットワークから複数のフィルタリング結果を提供する連続的なガイド付きフィルタリングネットワークを導入し,精度と効率のトレードオフを可能にする。 広範なアブレーション,比較,分析により,提案手法とネットワークの有効性と効率が示され,アップサンプリング,デノイジング,クロスモダリティフィルタリングなどのフィルタリングタスクにまたがって最先端の結果が得られた。 コードは \url{https://github.com/shizenglin/unsharp-mask-guided-filtering} で入手できる。

The goal of this paper is guided image filtering, which emphasizes the importance of structure transfer during filtering by means of an additional guidance image. Where classical guided filters transfer structures using hand-designed functions, recent guided filters have been considerably advanced through parametric learning of deep networks. The state-of-the-art leverages deep networks to estimate the two core coefficients of the guided filter. In this work, we posit that simultaneously estimating both coefficients is suboptimal, resulting in halo artifacts and structure inconsistencies. Inspired by unsharp masking, a classical technique for edge enhancement that requires only a single coefficient, we propose a new and simplified formulation of the guided filter. Our formulation enjoys a filtering prior from a low-pass filter and enables explicit structure transfer by estimating a single coefficient. Based on our proposed formulation, we introduce a successive guided filtering network, which provides multiple filtering results from a single network, allowing for a trade-off between accuracy and efficiency. Extensive ablations, comparisons and analysis show the effectiveness and efficiency of our formulation and network, resulting in state-of-the-art results across filtering tasks like upsampling, denoising, and cross-modality filtering. Code is available at \url{https://github.com/shizenglin/Unsharp-Mask-Guided-Filtering}.
翻訳日:2021-06-05 06:15:15 公開日:2021-06-02
# (参考訳) スパース正規化のための滑らかなバイレベルプログラミング

Smooth Bilevel Programming for Sparse Regularization ( http://arxiv.org/abs/2106.01429v1 )

ライセンス: CC BY 4.0
Clarice Poon and Gabriel Peyr\'e(参考訳) 反復的重み付け最小正方形(irls)は、機械学習におけるスパーシティ強化回帰問題を解決するための一般的なアプローチである。 state of the artアプローチはより効率的だが、通常は特定の座標プラニングスキームに依存している。 本研究では,irlsの驚くほど単純な再パラメータ化と,(交互なスキームではなく)2段階の解像度を組み合わせることで,幅広いスパース性(ラッソ,グループラッソ,トレースノルム正規化など),正規化強度(ハード制約を含む),設計行列(微分作用素と相関した設計から配置)において最高性能を達成できることを示す。 IRLSと同様に、この手法は線形システム分解のみを含むが、鋭いコントラストでは滑らかな関数の最小化に対応する。 非凸であるにもかかわらず、スパイラルなミニマが存在しないことと、サドル点が常に降下方向が存在することを示せる。 したがって、bfgs準ニュートンソルバの使用を提唱し、この手法をシンプルでロバストで効率的なものにする。 我々は,ラッソ,グループラッソ,トレースノルム,線形制約問題に対して,アルゴリズムの収束速度の数値ベンチマークを行う。 これらの結果は,本手法の汎用性を強調し,研究中のML問題の特異性に応じて,異なる解法を使用する必要性を排除した。

Iteratively reweighted least square (IRLS) is a popular approach to solve sparsity-enforcing regression problems in machine learning. State of the art approaches are more efficient but typically rely on specific coordinate pruning schemes. In this work, we show how a surprisingly simple reparametrization of IRLS, coupled with a bilevel resolution (instead of an alternating scheme) is able to achieve top performances on a wide range of sparsity (such as Lasso, group Lasso and trace norm regularizations), regularization strength (including hard constraints), and design matrices (ranging from correlated designs to differential operators). Similarly to IRLS, our method only involves linear systems resolutions, but in sharp contrast, corresponds to the minimization of a smooth function. Despite being non-convex, we show that there is no spurious minima and that saddle points are "ridable", so that there always exists a descent direction. We thus advocate for the use of a BFGS quasi-Newton solver, which makes our approach simple, robust and efficient. We perform a numerical benchmark of the convergence speed of our algorithm against state of the art solvers for Lasso, group Lasso, trace norm and linearly constrained problems. These results highlight the versatility of our approach, removing the need to use different solvers depending on the specificity of the ML problem under study.
翻訳日:2021-06-05 05:50:12 公開日:2021-06-02
# (参考訳) AI計画ヒューリスティックと機械学習による異種システムの最適化:性能とエネルギー意識のアプローチ

Optimization of Heterogeneous Systems with AI Planning Heuristics and Machine Learning: A Performance and Energy Aware Approach ( http://arxiv.org/abs/2106.01441v1 )

ライセンス: CC BY 4.0
Suejb Memeti and Sabri Pllana(参考訳) ヘテロジニアスコンピューティングシステムは高性能でエネルギー効率が高い。 しかし、このようなシステムを最適に活用するには、ホストCPUと高速化デバイスに分散するソリューションが必要である。 本稿では、パラメータ空間探索のためのAI計画ヒューリスティックスと、性能とエネルギー評価のための機械学習モデルを組み合わせて、ほぼ最適システム構成を決定する性能とエネルギー意識のアプローチを提案する。 データ並列アプリケーションでは、作業のほぼ最適ホストデバイス分布、必要な処理ユニット数、それに対応するスケジューリング戦略を決定する。 我々はGPUやIntel Xeon Phiで高速化された異種システムに対するアプローチを評価する。 実験の結果, 合理的な構成の約7%しか評価せず, 最適に近いシステム構成が得られた。 さらに,機械学習モデルを用いたシステム構成のジュール当たりの性能推定は,プログラム実行によるシステム評価よりも1000倍以上高速である。

Heterogeneous computing systems provide high performance and energy efficiency. However, to optimally utilize such systems, solutions that distribute the work across host CPUs and accelerating devices are needed. In this paper, we present a performance and energy aware approach that combines AI planning heuristics for parameter space exploration with a machine learning model for performance and energy evaluation to determine a near-optimal system configuration. For data-parallel applications our approach determines a near-optimal host-device distribution of work, number of processing units required and the corresponding scheduling strategy. We evaluate our approach for various heterogeneous systems accelerated with GPU or the Intel Xeon Phi. The experimental results demonstrate that our approach finds a near-optimal system configuration by evaluating only about 7% of reasonable configurations. Furthermore, the performance per Joule estimation of system configurations using our machine learning model is more than 1000x faster compared to the system evaluation by program execution.
翻訳日:2021-06-05 05:48:59 公開日:2021-06-02
# (参考訳) ベイズ減衰ニューラルプロセスを用いた天文多変量時系列からのブラックホール特性の推定

Inferring Black Hole Properties from Astronomical Multivariate Time Series with Bayesian Attentive Neural Processes ( http://arxiv.org/abs/2106.01450v1 )

ライセンス: CC BY 4.0
Ji Won Park, Ashley Villar, Yin Li, Yan-Fei Jiang, Shirley Ho, Joshua Yao-Yu Lin, Philip J. Marshall, Aaron Roodman(参考訳) 宇宙で最も極端な天体のうち、活動銀河核 (AGN) は、ブラックホールが周囲の物質を供給している銀河の中心である。 AGNによって放出される光の変動パターンは、基礎となるブラックホールの物理的性質に関する情報を含んでいる。 今後の望遠鏡は、複数のブロードバンド波長で1億AGN以上を観測し、長いギャップと不規則サンプリングを備えた多変量時系列の大規模なサンプルを生成する。 本稿では,AGN時系列を再構成し,その質量と光度を含むブラックホールの物理量に対して後方確率密度分布(PDF)を同時に推定する手法を提案する。 本手法を11,000 AGNのシミュレーションデータセットに適用し, 推定ブラックホール質量の0.4 dexと0.3 dexの精度と精度を報告する。 この研究は、AGNの確率的時系列再構成とパラメータ推論をエンドツーエンドで扱う最初のものである。

Among the most extreme objects in the Universe, active galactic nuclei (AGN) are luminous centers of galaxies where a black hole feeds on surrounding matter. The variability patterns of the light emitted by an AGN contain information about the physical properties of the underlying black hole. Upcoming telescopes will observe over 100 million AGN in multiple broadband wavelengths, yielding a large sample of multivariate time series with long gaps and irregular sampling. We present a method that reconstructs the AGN time series and simultaneously infers the posterior probability density distribution (PDF) over the physical quantities of the black hole, including its mass and luminosity. We apply this method to a simulated dataset of 11,000 AGN and report precision and accuracy of 0.4 dex and 0.3 dex in the inferred black hole mass. This work is the first to address probabilistic time series reconstruction and parameter inference for AGN in an end-to-end fashion.
翻訳日:2021-06-05 05:32:08 公開日:2021-06-02
# (参考訳) 多言語音声翻訳のための軽量アダプタチューニング

Lightweight Adapter Tuning for Multilingual Speech Translation ( http://arxiv.org/abs/2106.01463v1 )

ライセンス: CC BY 4.0
Hang Le, Juan Pino, Changhan Wang, Jiatao Gu, Didier Schwab, Laurent Besacier(参考訳) 適応モジュールはNLPのファインチューニングの代替として最近導入された。 アダプタチューニングは、モデルの事前訓練されたパラメータを凍結し、レイヤ間で軽量モジュールを注入することで、少数のタスク固有のトレーニング可能なパラメータを追加する。 本稿では,多言語ニューラルマシン翻訳のためのアダプタチューニングについて検討する一方で,多言語音声翻訳のためのアダプタの包括的解析を提案する。 異なる事前学習モデル(並列データで訓練された多言語STや、非並列多言語データで訓練された多言語BART(mBART))から始めると、(a)パラメータで低いコストでSTを特定の言語対に効率よく専門化し、(b)自動音声認識(ASR)タスクとmBART事前学習モデルから多言語STタスクへ変換できることが示される。 実験によると、アダプタチューニングは完全な微調整に競合する結果をもたらすが、パラメータ効率ははるかに高い。

Adapter modules were recently introduced as an efficient alternative to fine-tuning in NLP. Adapter tuning consists in freezing pretrained parameters of a model and injecting lightweight modules between layers, resulting in the addition of only a small number of task-specific trainable parameters. While adapter tuning was investigated for multilingual neural machine translation, this paper proposes a comprehensive analysis of adapters for multilingual speech translation (ST). Starting from different pre-trained models (a multilingual ST trained on parallel data or a multilingual BART (mBART) trained on non-parallel multilingual data), we show that adapters can be used to: (a) efficiently specialize ST to specific language pairs with a low extra cost in terms of parameters, and (b) transfer from an automatic speech recognition (ASR) task and an mBART pre-trained model to a multilingual ST task. Experiments show that adapter tuning offer competitive results to full fine-tuning, while being much more parameter-efficient.
翻訳日:2021-06-05 04:54:58 公開日:2021-06-02
# (参考訳) 言語間の要約評価の有効性の評価

Evaluating the Efficacy of Summarization Evaluation across Languages ( http://arxiv.org/abs/2106.01478v1 )

ライセンス: CC BY 4.0
Fajri Koto and Jey Han Lau and Timothy Baldwin(参考訳) 英語向けに開発された自動要約評価法は、他の言語にも日常的に適用されるが、パン言語学的効果を体系的に定量化する最初の試みである。 我々は、8つの異なる言語に対する要約コーパスを取り、フォーカス(精度)とカバレッジ(リコール)のために手動で生成された要約を注釈付けする。 これに基づいて,19の要約評価指標を評価し,bertscoreにおける多言語bertの使用は,英語のそれよりも高いレベルにおいて,すべての言語で良好に機能することを示す。

While automatic summarization evaluation methods developed for English are routinely applied to other languages, this is the first attempt to systematically quantify their panlinguistic efficacy. We take a summarization corpus for eight different languages, and manually annotate generated summaries for focus (precision) and coverage (recall). Based on this, we evaluate 19 summarization evaluation metrics, and find that using multilingual BERT within BERTScore performs well across all languages, at a level above that for English.
翻訳日:2021-06-05 04:38:43 公開日:2021-06-02
# (参考訳) MedNLIは免疫ではない:臨床領域における自然言語推論アーティファクト

MedNLI Is Not Immune: Natural Language Inference Artifacts in the Clinical Domain ( http://arxiv.org/abs/2106.01491v1 )

ライセンス: CC BY 4.0
Christine Herlihy and Rachel Rudinger(参考訳) crowdworkerが構築した自然言語推論(nli)データセットには、仮説のみの分類器がランダム以上のパフォーマンスを達成するためのアノテーションプロセスに関連する統計的アーティファクトが含まれていることが示されている(poliak et al., 2018; gururanganet et al., 2018; tsuchiya, 2018)。 臨床記録から抽出した前提付き医師注記データセットであるMedNLIには,これらのアーティファクトが含まれているかを検討した(Romanov and Shivade, 2018)。 仮説は、応答性、持続性、確率に関連する修飾子と同様に、前提において特定の概念のジェネリックバージョンを含む。 ニュートラル仮説(Neutral hypothess)は、前提における条件と共起する、あるいは原因となる条件と振舞いを特徴付ける。 矛盾仮説は、前提を明確に否定し、良い健康の主張を通じて暗黙的に否定する。 逆フィルタリングは、難しいサブセットで評価すると性能が劣化することを示す。 知識集約ドメインのための代替データセット構築戦略の分割情報とレコメンデーションを提供する。

Crowdworker-constructed natural language inference (NLI) datasets have been found to contain statistical artifacts associated with the annotation process that allow hypothesis-only classifiers to achieve better-than-random performance (Poliak et al., 2018; Gururanganet et al., 2018; Tsuchiya, 2018). We investigate whether MedNLI, a physician-annotated dataset with premises extracted from clinical notes, contains such artifacts (Romanov and Shivade, 2018). We find that entailed hypotheses contain generic versions of specific concepts in the premise, as well as modifiers related to responsiveness, duration, and probability. Neutral hypotheses feature conditions and behaviors that co-occur with, or cause, the condition(s) in the premise. Contradiction hypotheses feature explicit negation of the premise and implicit negation via assertion of good health. Adversarial filtering demonstrates that performance degrades when evaluated on the difficult subset. We provide partition information and recommendations for alternative dataset construction strategies for knowledge-intensive domains.
翻訳日:2021-06-05 04:25:04 公開日:2021-06-02
# (参考訳) 質問についてもっと知ることが役に立つ: 質問回答における校正の改善

Knowing More About Questions Can Help: Improving Calibration in Question Answering ( http://arxiv.org/abs/2106.01494v1 )

ライセンス: CC BY 4.0
Shujian Zhang, Chengyue Gong, Eunsol Choi(参考訳) 質問応答のキャリブレーションについて検討し、各質問に対する解答が正しいかどうかを推定する。 モデルの信頼性スコアに主に依存する以前の作業とは異なり、キャリブレータは入力例に関する情報(質問やエビデンスコンテキストなど)を組み込んでいます。 逆変換によるデータ拡張と合わせて,本手法は読解ベンチマークの校正精度を5~10%向上させる。 さらに、検索に基づくスパン予測モデルと回答生成モデルの校正精度を比較し、オープン検索設定における第1の校正結果を示す。 ここでも、我々のアプローチはモデルの信頼性に依存するキャリブレータよりも一貫した利得を示している。 我々のシンプルで効率的な校正器は、多くのタスクやモデルアーキテクチャに容易に適応でき、全ての設定で堅牢なゲインを示す。

We study calibration in question answering, estimating whether model correctly predicts answer for each question. Unlike prior work which mainly rely on the model's confidence score, our calibrator incorporates information about the input example (e.g., question and the evidence context). Together with data augmentation via back translation, our simple approach achieves 5-10% gains in calibration accuracy on reading comprehension benchmarks. Furthermore, we present the first calibration study in the open retrieval setting, comparing the calibration accuracy of retrieval-based span prediction models and answer generation models. Here again, our approach shows consistent gains over calibrators relying on the model confidence. Our simple and efficient calibrator can be easily adapted to many tasks and model architectures, showing robust gains in all settings.
翻訳日:2021-06-05 04:13:03 公開日:2021-06-02
# (参考訳) 人との説明空間と説明可能なAIチームワーク

Towards an Explanation Space to Align Humans and Explainable-AI Teamwork ( http://arxiv.org/abs/2106.01503v1 )

ライセンス: CC BY 4.0
Garrick Cabour, Andr\'es Morales, \'Elise Ledoux, Samuel Bassetto(参考訳) エンドユーザに有意義で実行可能な説明を提供することは、現実世界で説明可能なインテリジェントシステムを実装するための基本的な前提条件である。 説明可能性とは、静的設計の原則ではなく、ユーザとaiシステム間のインタラクションである。 説明の内容はコンテキスト依存であり、ユーザとそのコンテキストに関するエビデンスによって定義されなければならない。 本稿では,ユーザインスパイアされた視点から説明空間を定義する形式的アーキテクチャを提案する。 このアーキテクチャは、(1)エンドユーザー精神モデル、(2)エンドユーザー認知プロセス、(3)ユーザーインターフェース、(4)人間-説明エージェント、(5)エージェントプロセス、という5つのタスクの説明要件を概説する。 まずアーキテクチャの各コンポーネントを定義します。 次に、設計者を支援するためにアーキテクチャのコンポーネントを集約したモデリングツールであるabstracted explanation spaceを提案する。 説明すべき事項の仕様(コンテンツ - エンドユーザのメンタルモデル)、なぜこの説明が必要なのか(コンテキスト - エンドユーザの認知プロセス)、それを説明する方法(フォーマット人間-説明エージェントとユーザインターフェース)、そしていつ説明すべきかをガイドする。 次に、航空機のメンテナンスドメインで進行中のケーススタディでツールの使用例を示す。 最後に、ツールの潜在的な貢献、改善のための既知の制限/課題、今後の作業について論じる。

Providing meaningful and actionable explanations to end-users is a fundamental prerequisite for implementing explainable intelligent systems in the real world. Explainability is a situated interaction between a user and the AI system rather than being static design principles. The content of explanations is context-dependent and must be defined by evidence about the user and its context. This paper seeks to operationalize this concept by proposing a formative architecture that defines the explanation space from a user-inspired perspective. The architecture comprises five intertwined components to outline explanation requirements for a task: (1) the end-users mental models, (2) the end-users cognitive process, (3) the user interface, (4) the human-explainer agent, and the (5) agent process. We first define each component of the architecture. Then we present the Abstracted Explanation Space, a modeling tool that aggregates the architecture's components to support designers in systematically aligning explanations with the end-users work practices, needs, and goals. It guides the specifications of what needs to be explained (content - end-users mental model), why this explanation is necessary (context - end-users cognitive process), to delimit how to explain it (format - human-explainer agent and user interface), and when should the explanations be given. We then exemplify the tool's use in an ongoing case study in the aircraft maintenance domain. Finally, we discuss possible contributions of the tool, known limitations/areas for improvement, and future work to be done.
翻訳日:2021-06-05 03:56:08 公開日:2021-06-02
# ドメイン識別とグラディエント・リバーサルによる表情分類器のドメイン適応

Domain Adaptation for Facial Expression Classifier via Domain Discrimination and Gradient Reversal ( http://arxiv.org/abs/2106.01467v1 )

ライセンス: Link先を確認
Kamil Akhmetov(参考訳) コンピュータシステムへの共感は、マシンが顧客の意図を理解し、ニーズによりよいサービスを提供できるようになれば、人間とコンピュータのコミュニケーションの質を大幅に向上させることができる。 異なる研究(文学的レビュー)によると、視覚情報は人間の相互作用の最も重要な経路の1つであり、表情から捉えられる重要な行動信号を含んでいる。 そのため、医療、社会学、心理学、ドライバーセーフティ、バーチャルリアリティー、認知科学、セキュリティ、エンタテインメント、マーケティングなど様々な応用分野があるため、表情認識(fer)の分野での研究が過去10年間にわたって関心を集めてきたのは、一貫して自然である。 本稿では、FERタスクのための新しいアーキテクチャを提案し、ドメイン識別損失正規化が学習プロセスに与える影響を検討する。 古典的なトレーニング条件と教師なしのドメイン適応シナリオの両方を含む観察に関して、考慮されたドメイン適応アプローチ統合の重要な側面が追跡される。 この結果は、この分野におけるさらなる研究の基礎となるかもしれない。

Bringing empathy to a computerized system could significantly improve the quality of human-computer communications, as soon as machines would be able to understand customer intentions and better serve their needs. According to different studies (Literature Review), visual information is one of the most important channels of human interaction and contains significant behavioral signals, that may be captured from facial expressions. Therefore, it is consistent and natural that the research in the field of Facial Expression Recognition (FER) has acquired increased interest over the past decade due to having diverse application area including health-care, sociology, psychology, driver-safety, virtual reality, cognitive sciences, security, entertainment, marketing, etc. We propose a new architecture for the task of FER and examine the impact of domain discrimination loss regularization on the learning process. With regard to observations, including both classical training conditions and unsupervised domain adaptation scenarios, important aspects of the considered domain adaptation approach integration are traced. The results may serve as a foundation for further research in the field.
翻訳日:2021-06-04 16:27:29 公開日:2021-06-02
# LLC: 正確な多目的学習低次元バイナリコード

LLC: Accurate, Multi-purpose Learnt Low-dimensional Binary Codes ( http://arxiv.org/abs/2106.01487v1 )

ライセンス: Link先を確認
Aditya Kusupati, Matthew Wallingford, Vivek Ramanujan, Raghav Somani, Jae Sung Park, Krishna Pillutla, Prateek Jain, Sham Kakade, Ali Farhadi(参考訳) インスタンスとクラスのバイナリ表現を学ぶことは、いくつかの高ポテンシャルアプリケーションを持つ古典的な問題である。 現代の設定では、高次元のニューラル表現を低次元のバイナリコードに圧縮することは難しい作業であり、しばしば大きなビットコードが必要である。 本稿では,インスタンスやクラスに対して,低次元バイナリコード(llc)を学習するための新しい手法を提案する。 本手法では,アノテート属性やラベルメタデータなどのサイド情報を必要としないため,超低次元バイナリコード(ImageNet-1Kでは約20ビット)を学習する。 学習したコードは超効率的であり、ImageNet-1K上のResNet50のほぼ最適な分類精度を保証している。 学習したコードは、クラスを直感的に分類することで、データの中で本質的に重要な特徴を捉える。 さらに,効率的な画像検索やoed(out-of-distribution)検出問題に適用することにより,コードの品質を定量的に測定する。 imagenet-100検索問題では、学習したバイナリコードは10ビットのみを使用して16ビットハッシュネットを上回り、10次元の実表現と同じくらい正確である。 最後に、学習したバイナリコードは、しきい値を調整するのに3000近いサンプルを必要とするベースラインと同じくらい正確にood検出を実行できます。 コードと事前訓練されたモデルはhttps://github.com/RAIVNLab/LLC.comで入手できる。

Learning binary representations of instances and classes is a classical problem with several high potential applications. In modern settings, the compression of high-dimensional neural representations to low-dimensional binary codes is a challenging task and often require large bit-codes to be accurate. In this work, we propose a novel method for Learning Low-dimensional binary Codes (LLC) for instances as well as classes. Our method does not require any side-information, like annotated attributes or label meta-data, and learns extremely low-dimensional binary codes (~20 bits for ImageNet-1K). The learnt codes are super-efficient while still ensuring nearly optimal classification accuracy for ResNet50 on ImageNet-1K. We demonstrate that the learnt codes capture intrinsically important features in the data, by discovering an intuitive taxonomy over classes. We further quantitatively measure the quality of our codes by applying it to the efficient image retrieval as well as out-of-distribution (OOD) detection problems. For ImageNet-100 retrieval problem, our learnt binary codes outperform 16 bit HashNet using only 10 bits and also are as accurate as 10 dimensional real representations. Finally, our learnt binary codes can perform OOD detection, out-of-the-box, as accurately as a baseline that needs ~3000 samples to tune its threshold, while we require none. Code and pre-trained models are available at https://github.com/RAIVNLab/LLC.
翻訳日:2021-06-04 16:27:10 公開日:2021-06-02
# 弱い教師付き学習はモデリング文化の融合を生み出す

Weakly Supervised Learning Creates a Fusion of Modeling Cultures ( http://arxiv.org/abs/2106.01485v1 )

ライセンス: Link先を確認
Chengliang Tang, Gan Yuan, Tian Zheng(参考訳) 過去20年間、breimanらによって提唱されたアルゴリズムモデリングフレームワークが大きな成功を収めてきた。 (2001). それでも、これらのブラックボックスモデルの優れた予測性能は、強い監督の可用性に大きく依存しています。 正確で正確な接地ラベルの大規模なセット。 実際には、強力な監督は利用できないか高価なものになり、弱い監督下でのモデリング技術を要求する。 本稿では、弱教師付き学習における鍵となる概念を要約し、この分野の最近の発展について論じる。 弱い監督下でのアルゴリズムモデリングだけでは、不安定で誤解を招く結果につながる可能性がある。 有望な方向性は、データモデリング文化をこのようなフレームワークに統合することだ。

The past two decades have witnessed the great success of the algorithmic modeling framework advocated by Breiman et al. (2001). Nevertheless, the excellent prediction performance of these black-box models rely heavily on the availability of strong supervision, i.e. a large set of accurate and exact ground-truth labels. In practice, strong supervision can be unavailable or expensive, which calls for modeling techniques under weak supervision. In this comment, we summarize the key concepts in weakly supervised learning and discuss some recent developments in the field. Using algorithmic modeling alone under a weak supervision might lead to unstable and misleading results. A promising direction would be integrating the data modeling culture into such a framework.
翻訳日:2021-06-04 16:24:24 公開日:2021-06-02
# DeepCompress: 効率的なポイントクラウドジオメトリ圧縮

DeepCompress: Efficient Point Cloud Geometry Compression ( http://arxiv.org/abs/2106.01504v1 )

ライセンス: Link先を確認
Ryan Killea, Yun Li, Saeed Bastani, Paul McLachlan(参考訳) ポイントクラウドは基本的なデータ型であり、3dコンテンツがよりユビキタスになるにつれてますます関心を集めている。 ポイントクラウドを使用するアプリケーションは、仮想、拡張現実、複合現実と自律運転を含む。 本稿では,既存の3次元オブジェクト検出および画像圧縮アーキテクチャの原理を取り入れた,点雲圧縮のためのより効率的なディープラーニングベースのエンコーダアーキテクチャを提案する。 本研究では,計算効率の高いニューラルネットワーク圧縮(cenic)から学習した活性化関数を取り入れ,よりパラメータ効率の高い畳み込みブロックを設計することで,効率と性能が劇的に向上することを示す。 提案するアーキテクチャは一般化された分割正規化活性化を取り入れ、空間分離可能なインセプションv4インスパイアドブロックを提案する。 次に、標準JPEG Pleno 8i Voxelized Full Bodiesデータセットの速度歪み曲線を評価し、モデルの性能を評価する。 提案手法は,BjontegardデルタレートとPSNR値において,ベースラインアプローチよりも小さなマージンで優れているが,必要なエンコーダ畳み込み操作を8%削減し,総エンコーダパラメータを20%削減する。 提案するアーキテクチャは, 単独で考えると, シャムファー距離0.02パーセントの小さなペナルティと, 同じピーク信号対雑音比で, 点から平面距離へのビットレート 0.32 % の増大である。

Point clouds are a basic data type that is increasingly of interest as 3D content becomes more ubiquitous. Applications using point clouds include virtual, augmented, and mixed reality and autonomous driving. We propose a more efficient deep learning-based encoder architecture for point clouds compression that incorporates principles from established 3D object detection and image compression architectures. Through an ablation study, we show that incorporating the learned activation function from Computational Efficient Neural Image Compression (CENIC) and designing more parameter-efficient convolutional blocks yields dramatic gains in efficiency and performance. Our proposed architecture incorporates Generalized Divisive Normalization activations and propose a spatially separable InceptionV4-inspired block. We then evaluate rate-distortion curves on the standard JPEG Pleno 8i Voxelized Full Bodies dataset to evaluate our model's performance. Our proposed modifications outperform the baseline approaches by a small margin in terms of Bjontegard delta rate and PSNR values, yet reduces necessary encoder convolution operations by 8 percent and reduces total encoder parameters by 20 percent. Our proposed architecture, when considered on its own, has a small penalty of 0.02 percent in Chamfer's Distance and 0.32 percent increased bit rate in Point to Plane Distance for the same peak signal-to-noise ratio.
翻訳日:2021-06-04 16:23:03 公開日:2021-06-02
# 不確実性定量化360:AIの不確かさの定量化とコミュニケーションのためのホロスティックツールキット

Uncertainty Quantification 360: A Holistic Toolkit for Quantifying and Communicating the Uncertainty of AI ( http://arxiv.org/abs/2106.01410v1 )

ライセンス: Link先を確認
Soumya Ghosh, Q. Vera Liao, Karthikeyan Natesan Ramamurthy, Jiri Navratil, Prasanna Sattigeri, Kush R. Varshney, Yunfeng Zhang(参考訳) 本稿では,AIモデルの不確実性定量化のためのオープンソースのPythonツールキットUncertainty Quantification 360 (UQ360)について述べる。 The goal of this toolkit is twofold: firstly, to provide a broad range of capabilities to streamline, and hopefully foster the common practices of quantifying, evaluating, improving, and communicating uncertainty in the AI application development lifecycle; secondly, to disseminate the latest research and educational materials for uncertainty quantification in machine learning, and encourage further exploration of its utility and connections to other pillars of trustworthy AI such as fairness and explainability. Pythonパッケージ(\url{https://github.com/IBM/UQ360})の他に、インタラクティブな体験(\url{http://uq360.mybluemix.net})と、研究者や開発者が高品質の不確かさを効果的に生成・伝達するのに役立つ教育ツールとしてのガイダンス教材を開発しました。

In this paper, we describe an open source Python toolkit named Uncertainty Quantification 360 (UQ360) for the uncertainty quantification of AI models. The goal of this toolkit is twofold: firstly, to provide a broad range of capabilities to streamline, and hopefully foster the common practices of quantifying, evaluating, improving, and communicating uncertainty in the AI application development lifecycle; secondly, to disseminate the latest research and educational materials for uncertainty quantification in machine learning, and encourage further exploration of its utility and connections to other pillars of trustworthy AI such as fairness and explainability. Beyond the Python package (\url{https://github.com/IBM/UQ360}), we have developed an interactive experience (\url{http://uq360.mybluemix.net}) and guidance materials as educational tools to aid researchers and developers in producing and communicating high-quality uncertainties in an effective manner.
翻訳日:2021-06-04 16:13:04 公開日:2021-06-02
# container: コンテキスト集約ネットワーク

Container: Context Aggregation Network ( http://arxiv.org/abs/2106.01401v1 )

ライセンス: Link先を確認
Peng Gao, Jiasen Lu, Hongsheng Li, Roozbeh Mottaghi, Aniruddha Kembhavi(参考訳) 畳み込みニューラルネットワーク(CNN)はコンピュータビジョンにおいて、無数の効率的かつ効率的なバリエーションを持ち、ユビキタスである。 近年,自然言語処理に最初に導入されたトランスフォーマーがコンピュータビジョンに採用されている。 アーリーアダプターは引き続きCNNバックボーンを採用するが、最新のネットワークはエンドツーエンドのCNNフリートランスフォーマーソリューションである。 最近の驚くべき発見は、従来の畳み込みやトランスフォーマーコンポーネントを持たない単純なMLPベースのソリューションが、効果的な視覚表現を生成できることを示している。 CNN, Transformer および MLP-Mixers は完全に異なるアーキテクチャと見なすことができるが,ニューラルネットワークスタック内の空間コンテキストを集約するより一般的な手法の特殊なケースであることを示す統一ビューを提供する。 我々は,CNNでよく見られる,局所畳み込み操作の帰納的バイアスを引き続き活用しながら,長距離相互作用 \emph{a la} 変換器を利用するマルチヘッドコンテキストアグリゲーションのための汎用ビルディングブロックである \model (CONText AggregatIon NEtwoRk) を提案する。 In contrast to Transformer-based methods that do not scale well to downstream tasks that rely on larger input image resolutions, our efficient network, named \modellight, can be employed in object detection and instance segmentation networks such as DETR, RetinaNet and Mask-RCNN to obtain an impressive detection mAP of 38.9, 43.8, 45.1 and mask mAP of 41.3, providing large improvements of 6.6, 7.3, 6.9 and 6.6 pts respectively, compared to a ResNet-50 backbone with a comparable compute and parameter size. また,DINOフレームワーク上のDeiTと比較して,自己教師型学習における有望な結果が得られる。

Convolutional neural networks (CNNs) are ubiquitous in computer vision, with a myriad of effective and efficient variations. Recently, Transformers -- originally introduced in natural language processing -- have been increasingly adopted in computer vision. While early adopters continue to employ CNN backbones, the latest networks are end-to-end CNN-free Transformer solutions. A recent surprising finding shows that a simple MLP based solution without any traditional convolutional or Transformer components can produce effective visual representations. While CNNs, Transformers and MLP-Mixers may be considered as completely disparate architectures, we provide a unified view showing that they are in fact special cases of a more general method to aggregate spatial context in a neural network stack. We present the \model (CONText AggregatIon NEtwoRk), a general-purpose building block for multi-head context aggregation that can exploit long-range interactions \emph{a la} Transformers while still exploiting the inductive bias of the local convolution operation leading to faster convergence speeds, often seen in CNNs. In contrast to Transformer-based methods that do not scale well to downstream tasks that rely on larger input image resolutions, our efficient network, named \modellight, can be employed in object detection and instance segmentation networks such as DETR, RetinaNet and Mask-RCNN to obtain an impressive detection mAP of 38.9, 43.8, 45.1 and mask mAP of 41.3, providing large improvements of 6.6, 7.3, 6.9 and 6.6 pts respectively, compared to a ResNet-50 backbone with a comparable compute and parameter size. Our method also achieves promising results on self-supervised learning compared to DeiT on the DINO framework.
翻訳日:2021-06-04 16:11:36 公開日:2021-06-02
# クロスドメインオブジェクト検出のためのマルチスケールドメイン適応yolo

Multiscale Domain Adaptive YOLO for Cross-Domain Object Detection ( http://arxiv.org/abs/2106.01483v1 )

ライセンス: Link先を確認
Mazin Hnewa and Hayder Radha(参考訳) ドメイン適応の領域は多くのアプリケーションで遭遇するドメインシフト問題に対処するのに役立ちました。 この問題は、トレーニングに使用されるソースデータの分布と、実際のテストシナリオで使用されるターゲットデータとの差に起因する。 本稿では、複数のドメイン適応パスと対応するドメイン分類器を、最近導入されたYOLOv4オブジェクト検出器の異なるスケールで利用し、ドメイン不変性を生成する新しいMultiScale Domain Adaptive YOLO(MS-DAYOLO)フレームワークを提案する。 一般的なデータセットを用いて提案手法を訓練・テストする。 本実験は,提案したMS-DAYOLOを用いたYOLOv4のトレーニングや,自律運転用車両の厳しい気象条件を示す目標データを用いたテストにおいて,物体検出性能が著しく向上したことを示す。

The area of domain adaptation has been instrumental in addressing the domain shift problem encountered by many applications. This problem arises due to the difference between the distributions of source data used for training in comparison with target data used during realistic testing scenarios. In this paper, we introduce a novel MultiScale Domain Adaptive YOLO (MS-DAYOLO) framework that employs multiple domain adaptation paths and corresponding domain classifiers at different scales of the recently introduced YOLOv4 object detector to generate domain-invariant features. We train and test our proposed method using popular datasets. Our experiments show significant improvements in object detection performance when training YOLOv4 using the proposed MS-DAYOLO and when tested on target data representing challenging weather conditions for autonomous driving applications.
翻訳日:2021-06-04 16:11:11 公開日:2021-06-02
# 事前学習モデルのパーソナライズ

Personalizing Pre-trained Models ( http://arxiv.org/abs/2106.01499v1 )

ライセンス: Link先を確認
Mina Khan, P Srivatsa, Advait Rane, Shriram Chenniappa, Asadali Hazariwala, and Pattie Maes(参考訳) 大規模データセットでトレーニングされた自己監督的あるいは弱い教師付きモデルでは、数ショット設定で多様なデータセットへのサンプル効率の移行が示されている。 我々は,上流の事前学習モデルが下流のマイナショット,マルチラベル,継続的な学習タスクにどのように活用できるかを検討する。 私たちのモデルであるCLIPPER(CLIP PERsonalized)では,弱い自然言語による画像表現学習モデルであるCLIPのイメージ表現を使用している。 マルチラベル・連続・少数ショット学習のためのMWI(Multi-label Weight Imprinting)と呼ばれる手法を開発し,CLIPPERはMWIを用いてCLIPの画像表現を行う。 CLIPPERを10のシングルラベルと5のマルチラベルデータセットで評価した。 我々のモデルは、堅牢で競争力のある性能を示し、数ショット、複数ラベル、連続学習のための新しいベンチマークを設定しました。 当社の軽量技術は計算効率も高く,データが上流モデルに送信されないため,プライバシ保護アプリケーションを可能にする。

Self-supervised or weakly supervised models trained on large-scale datasets have shown sample-efficient transfer to diverse datasets in few-shot settings. We consider how upstream pretrained models can be leveraged for downstream few-shot, multilabel, and continual learning tasks. Our model CLIPPER (CLIP PERsonalized) uses image representations from CLIP, a large-scale image representation learning model trained using weak natural language supervision. We developed a technique, called Multi-label Weight Imprinting (MWI), for multi-label, continual, and few-shot learning, and CLIPPER uses MWI with image representations from CLIP. We evaluated CLIPPER on 10 single-label and 5 multi-label datasets. Our model shows robust and competitive performance, and we set new benchmarks for few-shot, multi-label, and continual learning. Our lightweight technique is also compute-efficient and enables privacy-preserving applications as the data is not sent to the upstream model for fine-tuning.
翻訳日:2021-06-04 16:10:54 公開日:2021-06-02
# 勾配支援学習

Gradient Assisted Learning ( http://arxiv.org/abs/2106.01425v1 )

ライセンス: Link先を確認
Enmao Diao, Jie Ding, Vahid Tarokh(参考訳) 分散環境では、金融機関、医療センター、小売市場といった様々な組織間のコラボレーションが、サービスとパフォーマンスの向上に不可欠である。 しかし、基盤となるエンティティは、プライベートデータ、プロプライエタリなモデル、客観的関数を共有することにはほとんど関心がないかもしれない。 これらのプライバシー要件はコラボレーションの新たな課題を生み出した。 本研究では,データやモデル,目的関数を共有せずに,教師付き学習タスクにおいて相互に支援を行う新しい手法であるグラディエント支援学習(GAL)を提案する。 この枠組みでは,各参加者は局所的損失関数の集合を協調的に最適化し,各参加者は目的関数の勾配を反復的に適合させることで,自発的に独自のモデルを構築する。 実験により、すべてのデータ、モデル、目的関数が完全に開示されると、グラディエント支援学習は集中学習に近いパフォーマンスを達成できることが示された。

In distributed settings, collaborations between different entities, such as financial institutions, medical centers, and retail markets, are crucial to providing improved service and performance. However, the underlying entities may have little interest in sharing their private data, proprietary models, and objective functions. These privacy requirements have created new challenges for collaboration. In this work, we propose Gradient Assisted Learning (GAL), a new method for various entities to assist each other in supervised learning tasks without sharing data, models, and objective functions. In this framework, all participants collaboratively optimize the aggregate of local loss functions, and each participant autonomously builds its own model by iteratively fitting the gradients of the objective function. Experimental studies demonstrate that Gradient Assisted Learning can achieve performance close to centralized learning when all data, models, and objective functions are fully disclosed.
翻訳日:2021-06-04 16:06:10 公開日:2021-06-02
# SemiFL: ラベルなしクライアントによる半教師付きフェデレーション学習

SemiFL: Communication Efficient Semi-Supervised Federated Learning with Unlabeled Clients ( http://arxiv.org/abs/2106.01432v1 )

ライセンス: Link先を確認
Enmao Diao, Jie Ding, Vahid Tarokh(参考訳) Federated Learningは、スマートフォンやIoTデバイスなど、多数の分散クライアントの計算とプライベートデータリソースを使用することで、マシンラーニングモデルをトレーニングすることが可能になる。 フェデレーション学習(fl)に関する既存の研究の多くは、クライアントが接地ラベルを持っていると仮定している。 しかし、多くの実践シナリオでは、クライアントは専門知識の欠如など、タスク固有のデータをラベル付けできない場合がある。 本研究では,ラベル付きデータセットをホストするサーバについて検討し,未ラベルのデータをクライアントに活用して教師あり学習を行う。 本稿では,Semi-Supervised Federated Learning (SSFL) の課題に対処するため,SemiFLと呼ばれる新しいフェデレートラーニングフレームワークを提案する。 SemiFLでは、クライアントは完全にラベル付きデータを持ち、サーバはラベル付きデータが少ない。 SemiFLはサーバ側の教師なしデータとクライアント側の教師なしデータのトレーニングを分離するため通信効率が良い。 学習性能を向上させるsemiflの様々な効率的な戦略を示す。 広範な経験的評価により,通信効率のよい手法がラベルなしクライアントによるラベル付きサーバの性能を大幅に向上できることが証明された。 さらに,semiflは,完全教師付きデータでトレーニングされた既存のfl結果を上回ることができ,最先端の中央集中型半教師付き学習(ssl)法と競合することを示した。 例えば、標準的な通信効率の良いシナリオでは、サーバで4000のラベル付きサンプルしか持たないcifar10データセットで93%の精度を実現できる。 このような精度は、50000のラベル付きデータからトレーニングされた結果からわずか2%離れており、通信効率の良い設定で既存のssflメソッドで約30%改善されている。

Federated Learning allows training machine learning models by using the computation and private data resources of a large number of distributed clients such as smartphones and IoT devices. Most existing works on Federated Learning (FL) assume the clients have ground-truth labels. However, in many practical scenarios, clients may be unable to label task-specific data, e.g., due to lack of expertise. In this work, we consider a server that hosts a labeled dataset, and wishes to leverage clients with unlabeled data for supervised learning. We propose a new Federated Learning framework referred to as SemiFL in order to address the problem of Semi-Supervised Federated Learning (SSFL). In SemiFL, clients have completely unlabeled data, while the server has a small amount of labeled data. SemiFL is communication efficient since it separates the training of server-side supervised data and client-side unsupervised data. We demonstrate various efficient strategies of SemiFL that enhance learning performance. Extensive empirical evaluations demonstrate that our communication efficient method can significantly improve the performance of a labeled server with unlabeled clients. Moreover, we demonstrate that SemiFL can outperform many existing FL results trained with fully supervised data, and perform competitively with the state-of-the-art centralized Semi-Supervised Learning (SSL) methods. For instance, in standard communication efficient scenarios, our method can perform 93% accuracy on the CIFAR10 dataset with only 4000 labeled samples at the server. Such accuracy is only 2% away from the result trained from 50000 fully labeled data, and it improves about 30% upon existing SSFL methods in the communication efficient setting.
翻訳日:2021-06-04 16:05:55 公開日:2021-06-02
# Twitterのメンタルヘルスをめぐる言語変化の定量化

Quantifying language changes surrounding mental health on Twitter ( http://arxiv.org/abs/2106.01481v1 )

ライセンス: Link先を確認
Anne Marie Stupinski, Thayer Alshaabi, Michael V. Arnold, Jane Lydia Adams, Joshua R. Minot, Matthew Price, Peter Sheridan Dodds, Christopher M. Danforth(参考訳) メンタルヘルスの課題は、毎年世界の人口の約10%を苦しめていると考えられており、多くは汚名とサービスへのアクセスが制限されているため治療を受けていない。 ここでは,2012年以降の英語ツイートの約10%のデータストリームから解析した1-,2-,3-gramの収集を通じて,メンタルヘルスに関連する単語やフレーズの傾向を考察する。 精神保健言語の時間的ダイナミクスについて検討し,2012年から2018年の間に「メンタルヘルス」という言葉の人気が2桁近く増加したことを発見した。 我々は,「メンタルヘルス」が毎年,精神的健康意識のキャンペーンによって確実に急増していること,また,自殺による乱射事件や有名人の死亡,自殺を描写する人気フィクションなどに対して,予測不可能な反応を示した。 成長期を通じて安定しながらも, 「メンタルヘルス」を含むメッセージの陽性度は近年低下している。 最後に、元のツイートの割合を使ってリツイートし、社会的増幅によるメンタルヘルス言語の出現率を定量化する。 2015年以降、リツイートによるメンタルヘルスの言及はますます増加しており、Twitter上でのメンタルヘルスに関する議論に関連するスティグマは時間とともに減少していることを示唆している。

Mental health challenges are thought to afflict around 10% of the global population each year, with many going untreated due to stigma and limited access to services. Here, we explore trends in words and phrases related to mental health through a collection of 1- , 2-, and 3-grams parsed from a data stream of roughly 10% of all English tweets since 2012. We examine temporal dynamics of mental health language, finding that the popularity of the phrase 'mental health' increased by nearly two orders of magnitude between 2012 and 2018. We observe that mentions of 'mental health' spike annually and reliably due to mental health awareness campaigns, as well as unpredictably in response to mass shootings, celebrities dying by suicide, and popular fictional stories portraying suicide. We find that the level of positivity of messages containing 'mental health', while stable through the growth period, has declined recently. Finally, we use the ratio of original tweets to retweets to quantify the fraction of appearances of mental health language due to social amplification. Since 2015, mentions of mental health have become increasingly due to retweets, suggesting that stigma associated with discussion of mental health on Twitter has diminished with time.
翻訳日:2021-06-04 16:02:59 公開日:2021-06-02
# ntire 2021 challenge on high dynamic range imaging: dataset, methods and results

NTIRE 2021 Challenge on High Dynamic Range Imaging: Dataset, Methods and Results ( http://arxiv.org/abs/2106.01439v1 )

ライセンス: Link先を確認
Eduardo P\'erez-Pellitero and Sibi Catley-Chandar and Ale\v{s} Leonardis and Radu Timofte(参考訳) 本稿では, cvpr 2021 とともに開催された新しい画像復元・強調技術ワークショップ (ntire) の一環として, 高ダイナミックレンジ (hdr) イメージングに関する最初の課題について述べる。 本写本は,新たに導入されたデータセット,提案手法,その成果に焦点を当てている。 この課題は、1つまたは複数の低ダイナミックレンジ(LDR)観測からHDR画像を推定することを目的としている。 トラック1では1つのLDR画像のみが入力として提供され、トラック2では3つの異なるフレーム間の動きを持つLDR画像が利用可能である。 両トラックの最終的な目標は,直立トネマッピング操作と直立トネマッピング操作の両方を用いて,PSNRによる最適目標HDR再構成を実現することである。

This paper reviews the first challenge on high-dynamic range (HDR) imaging that was part of the New Trends in Image Restoration and Enhancement (NTIRE) workshop, held in conjunction with CVPR 2021. This manuscript focuses on the newly introduced dataset, the proposed methods and their results. The challenge aims at estimating a HDR image from one or multiple respective low-dynamic range (LDR) observations, which might suffer from under- or over-exposed regions and different sources of noise. The challenge is composed by two tracks: In Track 1 only a single LDR image is provided as input, whereas in Track 2 three differently-exposed LDR images with inter-frame motion are available. In both tracks, the ultimate goal is to achieve the best objective HDR reconstruction in terms of PSNR with respect to a ground-truth image, evaluated both directly and with a canonical tonemapping operation.
翻訳日:2021-06-04 16:02:25 公開日:2021-06-02
# Barbershop: セグメンテーションマスクを用いたGANベースの画像合成

Barbershop: GAN-based Image Compositing using Segmentation Masks ( http://arxiv.org/abs/2106.01505v1 )

ライセンス: Link先を確認
Peihao Zhu, Rameen Abdal, John Femiani, Peter Wonka(参考訳) 複数の画像から特徴をシームレスにブレンドすることは、画像の異なる部分間の結合を引き起こす照明、幾何学、部分的閉塞の複雑な関係のため、非常に困難である。 gansに関する最近の研究は、写実的な髪や顔の合成を可能にするが、それらを結合したイメージパッチではなく、単一のコヒーレントで妥当なイメージにまとめることは依然として困難である。 本稿では,GAN-インバージョンに基づく画像ブレンディング,特にヘアスタイル転写問題に対する新しい解を提案する。 本稿では,画像の細部保存や空間情報の符号化に優れる画像ブレンディングのための新しい潜時空間を提案し,共通セグメンテーションマスクに適合するように画像をわずかに修正できる新しいGAN埋め込みアルゴリズムを提案する。 提案手法では,モグラやシワなどの具体的詳細を含む複数の参照画像から視覚特性の転送が可能であり,潜在空間で画像ブレンドを行うため,コヒーレントな画像の合成が可能である。 我々のアプローチは、他のアプローチに存在するアーティファクトのブレンドを回避し、グローバルに一貫したイメージを見つける。 ユーザによる調査では,ブレンディングソリューションが95%以上であるのに対して,ユーザによる評価では,現在の技術よりも大きな改善が見られた。

Seamlessly blending features from multiple images is extremely challenging because of complex relationships in lighting, geometry, and partial occlusion which cause coupling between different parts of the image. Even though recent work on GANs enables synthesis of realistic hair or faces, it remains difficult to combine them into a single, coherent, and plausible image rather than a disjointed set of image patches. We present a novel solution to image blending, particularly for the problem of hairstyle transfer, based on GAN-inversion. We propose a novel latent space for image blending which is better at preserving detail and encoding spatial information, and propose a new GAN-embedding algorithm which is able to slightly modify images to conform to a common segmentation mask. Our novel representation enables the transfer of the visual properties from multiple reference images including specific details such as moles and wrinkles, and because we do image blending in a latent-space we are able to synthesize images that are coherent. Our approach avoids blending artifacts present in other approaches and finds a globally consistent image. Our results demonstrate a significant improvement over the current state of the art in a user study, with users preferring our blending solution over 95 percent of the time.
翻訳日:2021-06-04 16:02:07 公開日:2021-06-02
# q-RBFNN:量子計算に基づくRBFニューラルネットワーク

q-RBFNN:A Quantum Calculus-based RBF Neural Network ( http://arxiv.org/abs/2106.01370v1 )

ライセンス: Link先を確認
Syed Saiq Hussain, Muhammad Usman, Taha Hasan Masood Siddique, Imran Naseem, Roberto Togneri, Mohammed Bennamoun(参考訳) 本研究では,放射状基底関数ニューラルネットワーク(RBFNN)に対する確率勾配降下に基づく新しい学習手法を提案する。 提案手法は、ジャクソン微分(Jackson derivative)とも呼ばれるq勾配に基づく。 接点を求める従来の勾配とは対照的に、q-勾配は関数のセカントを見つけ、最適な解に向かって大きなステップを取る。 提案した$q$-RBFNNは最小二乗アルゴリズムの文脈における収束性能について解析する。 特に、ウィナー溶液の閉形式式を求め、学習率(ステップサイズ)の安定性境界を求める。 解析結果はコンピュータシミュレーションによって検証される。 さらに,安定状態性能のトレードオフを伴わない収束速度を改善するために,時間変化の$q$-parameterの適応手法を提案する。

In this research a novel stochastic gradient descent based learning approach for the radial basis function neural networks (RBFNN) is proposed. The proposed method is based on the q-gradient which is also known as Jackson derivative. In contrast to the conventional gradient, which finds the tangent, the q-gradient finds the secant of the function and takes larger steps towards the optimal solution. The proposed $q$-RBFNN is analyzed for its convergence performance in the context of least square algorithm. In particular, a closed form expression of the Wiener solution is obtained, and stability bounds of the learning rate (step-size) is derived. The analytical results are validated through computer simulation. Additionally, we propose an adaptive technique for the time-varying $q$-parameter to improve convergence speed with no trade-offs in the steady state performance.
翻訳日:2021-06-04 15:58:52 公開日:2021-06-02
# 中国ショップのロボット:位置特定ナビゲーション行動における強化学習の利用

Robot in a China Shop: Using Reinforcement Learning for Location-Specific Navigation Behaviour ( http://arxiv.org/abs/2106.01434v1 )

ライセンス: Link先を確認
Xihan Bian and Oscar Mendez and Simon Hadfield(参考訳) ロボットは複数の異なる環境で動作する必要がある。 同様のタスクを実行しても、現在の環境に最も合うように、異なる振る舞いをデプロイする必要がある。 本稿では,マルチタスク学習問題として扱われるナビゲーションの新しいアプローチを提案する。 これにより、ロボットは異なる環境の視覚的ナビゲーションタスクで異なる振る舞いを学べると同時に、環境間での専門知識の共有も学べる。 シミュレーション環境と実環境データの両方において,本手法を評価した。 本手法では, 学習時間を26%削減するとともに, 精度を向上させることができる。

Robots need to be able to work in multiple different environments. Even when performing similar tasks, different behaviour should be deployed to best fit the current environment. In this paper, We propose a new approach to navigation, where it is treated as a multi-task learning problem. This enables the robot to learn to behave differently in visual navigation tasks for different environments while also learning shared expertise across environments. We evaluated our approach in both simulated environments as well as real-world data. Our method allows our system to converge with a 26% reduction in training time, while also increasing accuracy.
翻訳日:2021-06-04 15:58:41 公開日:2021-06-02
# 滑らかなアルゴリズムによるミニマックス最適化

Minimax Optimization with Smooth Algorithmic Adversaries ( http://arxiv.org/abs/2106.01488v1 )

ライセンス: Link先を確認
Tanner Fiez, Chi Jin, Praneeth Netrapalli, Lillian J. Ratliff(参考訳) 本稿では,$f$ が$x$ の非凸と$y$の非凸の両方になるような困難な設定において,minimax 最適化 $\min_x \max_y f(x, y)$ を考える。 このような最適化問題は、GAN(generative adversarial network)のトレーニングを含む多くの機械学習パラダイムに生じるが、効率的な計算可能な最適性の概念の欠如や、既存のアルゴリズムの循環的・変動的挙動など、理論上の基本的問題は残っている。 我々のフレームワークは、計算予算の下では、非凹型最大化が一般にnpハードであるため、max-playerが$f(x,\cdot)$を完全に最大化することはできないという実践的考察から生まれたものです。 そこで,本研究では,対戦相手が展開するスムーズなアルゴリズム(すなわち,最大最大化ではなく最大化)に対して,Min-playerが対戦する新しいアルゴリズムを提案する。 我々のアルゴリズムは、単調な進行(極限周期を持たないため)を保証し、多項式数反復において適切な「定常点」を求める。 本フレームワークでは,複数ステップの確率勾配を加味したスムーズなアルゴリズムとその高速化版について検討する。 さらに,理論的な結果を確認し,提案手法の有効性を実証する補完実験を行った。

This paper considers minimax optimization $\min_x \max_y f(x, y)$ in the challenging setting where $f$ can be both nonconvex in $x$ and nonconcave in $y$. Though such optimization problems arise in many machine learning paradigms including training generative adversarial networks (GANs) and adversarially robust models, many fundamental issues remain in theory, such as the absence of efficiently computable optimality notions, and cyclic or diverging behavior of existing algorithms. Our framework sprouts from the practical consideration that under a computational budget, the max-player can not fully maximize $f(x,\cdot)$ since nonconcave maximization is NP-hard in general. So, we propose a new algorithm for the min-player to play against smooth algorithms deployed by the adversary (i.e., the max-player) instead of against full maximization. Our algorithm is guaranteed to make monotonic progress (thus having no limit cycles), and to find an appropriate "stationary point" in a polynomial number of iterations. Our framework covers practical settings where the smooth algorithms deployed by the adversary are multi-step stochastic gradient ascent, and its accelerated version. We further provide complementing experiments that confirm our theoretical findings and demonstrate the effectiveness of the proposed approach in practice.
翻訳日:2021-06-04 15:58:33 公開日:2021-06-02
# セキュアなデータ転送と決定のためのマルチセンサフュージョンと信号画像符号化によるIoTソリューション

IoT Solutions with Multi-Sensor Fusion and Signal-Image Encoding for Secure Data Transfer and Decision Making ( http://arxiv.org/abs/2106.01497v1 )

ライセンス: Link先を確認
Piyush K. Sharma, Mark Dennison, Adrienne Raglin(参考訳) IoT(Internet of Things)デバイスのデプロイとデータフュージョン技術は、パブリックドメインと政府ドメインで人気を集めている。 これは通常、複数のソースからデータをキャプチャして統合する必要がある。 データセットは必ずしも同じセンサー起源ではないため、融合データは通常複雑なデータ問題を引き起こす。 軍では、異質なIoTデバイスがプロセスやタスクをどのように役立つかを調査しているため、マルチセンサーアプローチを調査している。 さらに,情報(信号)を変換し,IoTウェアラブルデバイスから可逆で,意思決定支援の可視化が容易な画像にデータを統合(融合)するための画像符号化手法の信号を提案する。 さらに、インテリジェントな識別・検出操作を可能にする課題を調査し、ウェアラブルデバイスからのハンドジェスチャデータを活用した将来のアプリケーションを支援する深層学習・異常検出モデルの実現可能性を示す。

Deployment of Internet of Things (IoT) devices and Data Fusion techniques have gained popularity in public and government domains. This usually requires capturing and consolidating data from multiple sources. As datasets do not necessarily originate from identical sensors, fused data typically results in a complex data problem. Because military is investigating how heterogeneous IoT devices can aid processes and tasks, we investigate a multi-sensor approach. Moreover, we propose a signal to image encoding approach to transform information (signal) to integrate (fuse) data from IoT wearable devices to an image which is invertible and easier to visualize supporting decision making. Furthermore, we investigate the challenge of enabling an intelligent identification and detection operation and demonstrate the feasibility of the proposed Deep Learning and Anomaly Detection models that can support future application that utilizes hand gesture data from wearable devices.
翻訳日:2021-06-04 15:58:07 公開日:2021-06-02
# Ember: 類似性ベースのキーレス結合によるコードのコンテキスト拡張

Ember: No-Code Context Enrichment via Similarity-Based Keyless Joins ( http://arxiv.org/abs/2106.01501v1 )

ライセンス: Link先を確認
Sahaana Suri, Ihab F. Ilyas, Christopher R\'e, Theodoros Rekatsinas(参考訳) 単一のエンティティを記述する情報は、特定のビジネスニーズに合わせた複数のデータセットやテーブルに分散することができ、明示的なリンクキー(キーと外部のキーの関係やヒューリスティック関数など)は存在しない。 キーレスジョインを使用したコンテキスト強化あるいは断片化コンテキストの再構築は、構造化データソース上の機械学習(ML)パイプラインの暗黙的あるいは明示的なステップである。 このプロセスは退屈でドメイン固有であり、入力データと高レベルの設定ファイルだけでMLパイプラインを作成できる、今や普及しているノーコードMLシステムではサポートされていない。 そこで本稿では,キーレス結合を抽象化し,自動化してコンテキストエンリッチメントを一般化するシステムであるEmberを提案する。 私たちのキーとなる洞察は、Emberがタスク固有の埋め込みに集約されたインデックスを構築することで、一般的なキーレスジョイン演算を可能にすることです。 EmberはTransformerベースの表現学習技術を利用して、これらの埋め込みを学ぶ。 emberを開発する際のアーキテクチャの原則と運用者について説明し、emberが検索、推薦、質問応答を含む5つのドメインでコードなしのパイプラインを開発することができ、選択肢を最大39%リコールでき、1行構成の変更しかできないことを実証的に示します。

Structured data, or data that adheres to a pre-defined schema, can suffer from fragmented context: information describing a single entity can be scattered across multiple datasets or tables tailored for specific business needs, with no explicit linking keys (e.g., primary key-foreign key relationships or heuristic functions). Context enrichment, or rebuilding fragmented context, using keyless joins is an implicit or explicit step in machine learning (ML) pipelines over structured data sources. This process is tedious, domain-specific, and lacks support in now-prevalent no-code ML systems that let users create ML pipelines using just input data and high-level configuration files. In response, we propose Ember, a system that abstracts and automates keyless joins to generalize context enrichment. Our key insight is that Ember can enable a general keyless join operator by constructing an index populated with task-specific embeddings. Ember learns these embeddings by leveraging Transformer-based representation learning techniques. We describe our core architectural principles and operators when developing Ember, and empirically demonstrate that Ember allows users to develop no-code pipelines for five domains, including search, recommendation and question answering, and can exceed alternatives by up to 39% recall, with as little as a single line configuration change.
翻訳日:2021-06-04 15:57:53 公開日:2021-06-02
# 学習能力の不確定性

Undecidability of Learnability ( http://arxiv.org/abs/2106.01382v1 )

ライセンス: Link先を確認
Matthias C. Caro(参考訳) 機械学習の研究者や実践者は、さまざまな学習モデルを着実に拡大している。 彼らはこれを深い理論分析と経験的ヒューリスティックを通して達成した。 しかし、新たに提案されたモデルが実際にデータから学べるかどうかを厳格に評価するための汎用的な手順は知られていない。 そのような手続きは存在しないことを示す。 PACのバイナリ分類、一様および普遍的なオンライン学習、および教師と教師の相互作用による正確な学習においては、学習性は一般に、形式的なシステムにおける公理の独立性や計算不可能性の両方において決定不可能である。 我々の証明は、形式システムの一貫性問題とチューリングマシンの停止問題を学習可能性を特徴付ける複雑性尺度にコード化する関数クラスの計算可能構成を通じて進行する。 私たちの研究は、機械学習の理論的基礎に決定不能が現れていることを示しています。 新しい学習モデルを評価するプロセスを一般的に自動化することはできません。

Machine learning researchers and practitioners steadily enlarge the multitude of successful learning models. They achieve this through in-depth theoretical analyses and experiential heuristics. However, there is no known general-purpose procedure for rigorously evaluating whether newly proposed models indeed successfully learn from data. We show that such a procedure cannot exist. For PAC binary classification, uniform and universal online learning, and exact learning through teacher-learner interactions, learnability is in general undecidable, both in the sense of independence of the axioms in a formal system and in the sense of uncomputability. Our proofs proceed via computable constructions of function classes that encode the consistency problem for formal systems and the halting problem for Turing machines into complexity measures that characterize learnability. Our work shows that undecidability appears in the theoretical foundations of machine learning: There is no one-size-fits-all algorithm for deciding whether a machine learning model can be successful. We cannot in general automatize the process of assessing new learning models.
翻訳日:2021-06-04 15:56:23 公開日:2021-06-02
# multilingual and code-switching asrのためのデュアルスクリプトe2eフレームワーク

Dual Script E2E framework for Multilingual and Code-Switching ASR ( http://arxiv.org/abs/2106.01400v1 )

ライセンス: Link先を確認
Mari Ganesh Kumar, Jom Kuriakose, Anand Thyagachandran, Arun Kumar A, Ashish Seth, Lodagala Durga Prasad, Saish Jaiswal, Anusha Prakash, Hema Murthy(参考訳) インドには複数の言語があるが、言語の自動音声認識(asr)システムの訓練は難しい。 時間とともに、各言語は英語などの他の言語からの単語を採用し、コードミキシングに繋がる。 インドのほとんどの言語にも独自のスクリプトがあり、多言語およびコードスイッチングASRシステムのトレーニングにおいて大きな制限となる。 本研究は,テキスト音声合成の結果に触発されて,インド語の多言語およびコードスイッチングASRを学習するために,社内ルールベースの音素レベル共通ラベルセット(CLS)表現を使用する。 本稿では2つのエンドツーエンド(E2E)ASRシステムを提案する。 最初のシステムでは、E2EモデルはCLS表現に基づいて訓練され、我々はネイティブ言語スクリプトを復元するために、新しいデータ駆動バックエンドを使用する。 第2のシステムでは,CLS表現とネイティブ言語文字を同時に学習に使用するE2Eモデルの変更を提案する。 我々は,indic asr challenge 2021の多言語およびコードスイッチングタスクについて結果を示す。 課題開発データに基づいて,多言語タスクとコードスイッチングタスクのベースラインシステムに対する単語誤り率の6%と5%の改善(近似)を実現した。

India is home to multiple languages, and training automatic speech recognition (ASR) systems for languages is challenging. Over time, each language has adopted words from other languages, such as English, leading to code-mixing. Most Indian languages also have their own unique scripts, which poses a major limitation in training multilingual and code-switching ASR systems. Inspired by results in text-to-speech synthesis, in this work, we use an in-house rule-based phoneme-level common label set (CLS) representation to train multilingual and code-switching ASR for Indian languages. We propose two end-to-end (E2E) ASR systems. In the first system, the E2E model is trained on the CLS representation, and we use a novel data-driven back-end to recover the native language script. In the second system, we propose a modification to the E2E model, wherein the CLS representation and the native language characters are used simultaneously for training. We show our results on the multilingual and code-switching tasks of the Indic ASR Challenge 2021. Our best results achieve 6% and 5% improvement (approx) in word error rate over the baseline system for the multilingual and code-switching tasks, respectively, on the challenge development data.
翻訳日:2021-06-04 15:56:08 公開日:2021-06-02
# Ethical-Advice Taker: 言語モデルは自然言語の介入を理解するか?

Ethical-Advice Taker: Do Language Models Understand Natural Language Interventions? ( http://arxiv.org/abs/2106.01465v1 )

ライセンス: Link先を確認
Jieyu Zhao, Daniel Khashabi, Tushar Khot, Ashish Sabharwal, and Kai-Wei Chang(参考訳) 自然言語を使用してモデルの振る舞いに介入し、望ましい方法で予測を変更することは可能か? 読解システムにおける自然言語介入の有効性について検討し,社会ステレオタイプの文脈で検討した。 具体的には,言語理解タスクであるLingguistic Ethical Interventions (LEI)を提案する。そこでは,倫理と公平の文脈固有の原則を伝達することにより,QAモデルの非倫理的行動を修正することを目的とする。 そこで本研究では, システムの社会的ステレオタイプを定量化し, 異なる倫理的介入や, 望ましいモデル行動によって定量化する手法を提案する。 私たちのゼロショット評価では、今日の強力なニューラルネットワークモデルでさえ、極めて倫理的な対応が不十分であること、つまり、これらの介入が単純な文として述べられているにもかかわらず、驚くほど倫理的な介入に反応しないことが分かりました。 少ないショット学習はモデルの振る舞いを改善するが、特に様々な種類の一般化を評価する場合、望ましい結果には程遠い。 我々の新しい課題は、コミュニティに新しい言語理解の挑戦をもたらす。

Is it possible to use natural language to intervene in a model's behavior and alter its prediction in a desired way? We investigate the effectiveness of natural language interventions for reading-comprehension systems, studying this in the context of social stereotypes. Specifically, we propose a new language understanding task, Linguistic Ethical Interventions (LEI), where the goal is to amend a question-answering (QA) model's unethical behavior by communicating context-specific principles of ethics and equity to it. To this end, we build upon recent methods for quantifying a system's social stereotypes, augmenting them with different kinds of ethical interventions and the desired model behavior under such interventions. Our zero-shot evaluation finds that even today's powerful neural language models are extremely poor ethical-advice takers, that is, they respond surprisingly little to ethical interventions even though these interventions are stated as simple sentences. Few-shot learning improves model behavior but remains far from the desired outcome, especially when evaluated for various types of generalization. Our new task thus poses a novel language understanding challenge for the community.
翻訳日:2021-06-04 12:28:05 公開日:2021-06-02
# すべてを統括する1つの表現:ジェネリック表現を用いた数少ない学習におけるサポート外例の同定

One Representation to Rule Them All: Identifying Out-of-Support Examples in Few-shot Learning with Generic Representations ( http://arxiv.org/abs/2106.01423v1 )

ライセンス: Link先を確認
Henry Kvinge, Scott Howland, Nico Courts, Lauren A. Phillips, John Buckheit, Zachary New, Elliott Skomski, Jung H. Lee, Sandeep Tiwari, Jessica Hibler, Courtney D. Corley, Nathan O. Hodas(参考訳) 数発の学習の分野では、小さなデータ体制で運用できる強力なモデルの開発に顕著な進歩を遂げている。 これらのメソッドのほぼ全てが、遭遇したすべてのラベルのないインスタンスは、サンプルを持ついくつかの既知のクラスに属していると仮定する。 の例を日常的に見つけている実世界のユースケースでは、これは問題となる可能性がある。 本稿では,OOS(out-of- supported)の例について述べる。 本稿では,この問題が分布外検出と微妙に異なるかを説明し,汎用表現と呼ぶ固定点を用いたプロトタイプネットワークフレームワーク内でのOOS例の同定方法について述べる。 本稿では,本稿で提案する他の手法と同様に,文献における既存手法よりも優れていることを示す。 最後に,このような汎用点の使用がモデルの特徴空間の幾何学にどのように影響するかを検討する。

The field of few-shot learning has made remarkable strides in developing powerful models that can operate in the small data regime. Nearly all of these methods assume every unlabeled instance encountered will belong to a handful of known classes for which one has examples. This can be problematic for real-world use cases where one routinely finds 'none-of-the-above' examples. In this paper we describe this challenge of identifying what we term 'out-of-support' (OOS) examples. We describe how this problem is subtly different from out-of-distribution detection and describe a new method of identifying OOS examples within the Prototypical Networks framework using a fixed point which we call the generic representation. We show that our method outperforms other existing approaches in the literature as well as other approaches that we propose in this paper. Finally, we investigate how the use of such a generic point affects the geometry of a model's feature space.
翻訳日:2021-06-04 12:26:45 公開日:2021-06-02
# すべての知識が平等であるとは限らない

Not All Knowledge Is Created Equal ( http://arxiv.org/abs/2106.01489v1 )

ライセンス: Link先を確認
Ziyun Li, Xinshao Wang, Haojin Yang, Di Hu, Neil M. Robertson, David A. Clifton, Christoph Meinel(参考訳) 相互知識蒸留(mkd)は、他のモデルから知識を蒸留することでモデルを改善する。 しかし、すべての知識が確実かつ正しいわけではない。 例えば、ラベルノイズは通常、望ましくない記憶のために信頼性の低いモデルをもたらす [1, 2]。 間違った知識は助けよりも学習を誤解させる。 この問題は、2つの側面によって処理できる: (i) 知識が(知識源の信頼性)から得られるモデルの信頼性を改善する; (ii) 蒸留のための信頼できる知識を選択する。 文献では、モデルをより信頼性の高いものにしながら、選択的なMKDはほとんど注目されない。 そこで我々は選択的MKDの研究に焦点をあて,本研究におけるその重要性を強調した。 具体的には、MKDフレームワーク、信頼性知識の選択、そして相互蒸留(Mutual Distillation, CMD)を設計する。 CMDのキーコンポーネントは汎用的な知識選択の定式化であり、選択しきい値が静的(CMD-S)かプログレッシブ(CMD-P)になる。 さらにcmdは、ゼロ知識とすべての知識という2つの特別なケースをカバーし、統一mkdフレームワークへと導かれる。 CMD-PはCMD-Sよりも優れていた。 主な理由は、モデルの知識がアップグレードされ、トレーニングが進むにつれて自信が増すからです。 CMDの有効性を実証し、CMDの設計を徹底的に正当化するために、大規模な実験を行う。 例えば、CMD-Pはラベルノイズに対するロバスト性を示す新しい最先端結果を得る。

Mutual knowledge distillation (MKD) improves a model by distilling knowledge from another model. However, not all knowledge is certain and correct, especially under adverse conditions. For example, label noise usually leads to less reliable models due to the undesired memorisation [1, 2]. Wrong knowledge misleads the learning rather than helps. This problem can be handled by two aspects: (i) improving the reliability of a model where the knowledge is from (i.e., knowledge source's reliability); (ii) selecting reliable knowledge for distillation. In the literature, making a model more reliable is widely studied while selective MKD receives little attention. Therefore, we focus on studying selective MKD and highlight its importance in this work. Concretely, a generic MKD framework, Confident knowledge selection followed by Mutual Distillation (CMD), is designed. The key component of CMD is a generic knowledge selection formulation, making the selection threshold either static (CMD-S) or progressive (CMD-P). Additionally, CMD covers two special cases: zero knowledge and all knowledge, leading to a unified MKD framework. We empirically find CMD-P performs better than CMD-S. The main reason is that a model's knowledge upgrades and becomes confident as the training progresses. Extensive experiments are present to demonstrate the effectiveness of CMD and thoroughly justify the design of CMD. For example, CMD-P obtains new state-of-the-art results in robustness against label noise.
翻訳日:2021-06-04 12:26:10 公開日:2021-06-02
# 音声認識のための注意に基づく文脈言語モデル適応

Attention-based Contextual Language Model Adaptation for Speech Recognition ( http://arxiv.org/abs/2106.01451v1 )

ライセンス: Link先を確認
Richard Diehl Martinez, Scott Novotney, Ivan Bulyko, Ariya Rastrow, Andreas Stolcke, Ankur Gandhe(参考訳) 音声認識のための言語モデリング(LM)は通常、発話レベルの文脈情報を組み込まない。 しかし、音声アシスタントのような一部のドメインでは、発話が話される時間などの追加のコンテキストが、豊富な入力信号を提供する。 本稿では,テキストと非言語文脈データの両方でニューラルネットワークの音声認識モデルを学習するための注意機構を提案する。 一般的な音声アシスタントプラットフォームで収集された発話の大規模非特定データセットに適用すると,文脈情報を含まない標準LMに対して,難読度を7.0%削減する。 提案手法は,データセットの長い尾から抽出した発話に対して,標準的なLMに対して9.0%,文脈的LMの最先端モデルと比較して2.8%以上のパープレキシティを向上する。

Language modeling (LM) for automatic speech recognition (ASR) does not usually incorporate utterance level contextual information. For some domains like voice assistants, however, additional context, such as the time at which an utterance was spoken, provides a rich input signal. We introduce an attention mechanism for training neural speech recognition language models on both text and non-linguistic contextual data. When applied to a large de-identified dataset of utterances collected by a popular voice assistant platform, our method reduces perplexity by 7.0% relative over a standard LM that does not incorporate contextual information. When evaluated on utterances extracted from the long tail of the dataset, our method improves perplexity by 9.0% relative over a standard LM and by over 2.8% relative when compared to a state-of-the-art model for contextual LM.
翻訳日:2021-06-04 12:23:41 公開日:2021-06-02
# 選択の学習:新しいオブジェクトキャプションのための完全な注意的アプローチ

Learning to Select: A Fully Attentive Approach for Novel Object Captioning ( http://arxiv.org/abs/2106.01424v1 )

ライセンス: Link先を確認
Marco Cagrandi, Marcella Cornia, Matteo Stefanini, Lorenzo Baraldi, Rita Cucchiara(参考訳) 画像キャプションモデルは最近、標準的なデータセットに適用すると印象的な結果が得られた。 しかし、現実のシナリオに切り替えることは、既存のトレーニングセットでカバーされていない、より多種多様なビジュアルコンセプトによって、課題となる。 このため、最近、トレーニングフェーズで目に見えないオブジェクトのキャプションモデルをテストするパラダイムとして、斬新なオブジェクトキャプション(noc)が登場している。 本稿では,画像の最も関連性の高い対象を学習するnocに対して,学習セットへの順応性によらず選択し,それに従って言語モデルの生成過程を制約する新しい手法を提案する。 私たちのアーキテクチャは、制約を組み込む際にも、完全に適応的でエンドツーエンドのトレーニングが可能です。 保持されたCOCOデータセットで実験を行い、新しいオブジェクトへの適応性とキャプションの品質の両方の観点から、最先端の技術を実証した。

Image captioning models have lately shown impressive results when applied to standard datasets. Switching to real-life scenarios, however, constitutes a challenge due to the larger variety of visual concepts which are not covered in existing training sets. For this reason, novel object captioning (NOC) has recently emerged as a paradigm to test captioning models on objects which are unseen during the training phase. In this paper, we present a novel approach for NOC that learns to select the most relevant objects of an image, regardless of their adherence to the training set, and to constrain the generative process of a language model accordingly. Our architecture is fully-attentive and end-to-end trainable, also when incorporating constraints. We perform experiments on the held-out COCO dataset, where we demonstrate improvements over the state of the art, both in terms of adaptability to novel objects and caption quality.
翻訳日:2021-06-04 12:22:47 公開日:2021-06-02
# SMURF:典型的分析によるカプセル評価のための意味的・言語的不定形核融合

SMURF: SeMantic and linguistic UndeRstanding Fusion for Caption Evaluation via Typicality Analysis ( http://arxiv.org/abs/2106.01444v1 )

ライセンス: Link先を確認
Joshua Feinglass and Yezhou Yang(参考訳) 視覚キャプションのオープンエンドな性質は、評価の難しい領域となっている。 提案されたモデルの大部分は、人間関係を改善するための専門的なトレーニングに依存しているため、採用、一般化、説明性は限られている。 我々は,情報理論に根ざした評価の新しい定式化である「定型性(typicality)」を導入する。 典型性は、新しいセマンティック比較、SPARCS、および参照なし流速評価指標を開発するためのフレームワークとして役立ちます。 分析の過程で, 計量SPURTSで捉えたスタイルと, 文法的なアウトリー・ペナルティ(outlier penalties)の形で捉えた文法という, フラレンシの2つの次元が自然に現れる。 ベンチマークデータセットに関する広範な実験とアブレーション研究を通じて、これらの分割された意味論と流布の次元が、キャプタの違いに対するシステムレベルの洞察をいかに高めるかを示す。 提案手法とそれらの組み合わせであるSMURFは,他のルールベース評価指標と比較した場合,人間の判断と最先端の相関が得られた。

The open-ended nature of visual captioning makes it a challenging area for evaluation. The majority of proposed models rely on specialized training to improve human-correlation, resulting in limited adoption, generalizability, and explainabilty. We introduce "typicality", a new formulation of evaluation rooted in information theory, which is uniquely suited for problems lacking a definite ground truth. Typicality serves as our framework to develop a novel semantic comparison, SPARCS, as well as referenceless fluency evaluation metrics. Over the course of our analysis, two separate dimensions of fluency naturally emerge: style, captured by metric SPURTS, and grammar, captured in the form of grammatical outlier penalties. Through extensive experiments and ablation studies on benchmark datasets, we show how these decomposed dimensions of semantics and fluency provide greater system-level insight into captioner differences. Our proposed metrics along with their combination, SMURF, achieve state-of-the-art correlation with human judgment when compared with other rule-based evaluation metrics.
翻訳日:2021-06-04 12:22:34 公開日:2021-06-02
# BERT-Defense:認知刺激による対人攻撃に対するBERTに基づく確率モデル

BERT-Defense: A Probabilistic Model Based on BERT to Combat Cognitively Inspired Orthographic Adversarial Attacks ( http://arxiv.org/abs/2106.01452v1 )

ライセンス: Link先を確認
Yannik Keller, Jan Mackensen, Steffen Eger(参考訳) 敵対的攻撃は、ディープラーニングシステムの重要な盲点を露呈する。 単語と文レベルの攻撃シナリオは主に、NLPモデルを騙す入力の意味的なパラフレーズを見つけることを扱うが、文字レベルの攻撃は通常、入力ストリームにタイプミスを挿入する。 これらはスペル修正モジュールによって容易に防御できると考えられている。 本研究では,標準スペルチェッカーとPruthi et alのアプローチの両方を示す。 (2019)は、挿入、削除、スワップに対する防御訓練を行い、Eger and Benz (2020)で最近提案された文字レベルのベンチマークでは、視覚的および音声的摂動や単語分割の欠如など、より困難な攻撃を含むパフォーマンスが不十分である。 対照的に、文脈非依存の文字レベル情報とBERTのマスキング言語モデリングの文脈依存情報を組み合わせた非訓練的反復的アプローチは、アマゾン・メカニカル・トルク(AMT)が監督する3ショット・ラーニング(3ショット・ラーニング)による人間の群衆労働者に匹敵する。

Adversarial attacks expose important blind spots of deep learning systems. While word- and sentence-level attack scenarios mostly deal with finding semantic paraphrases of the input that fool NLP models, character-level attacks typically insert typos into the input stream. It is commonly thought that these are easier to defend via spelling correction modules. In this work, we show that both a standard spellchecker and the approach of Pruthi et al. (2019), which trains to defend against insertions, deletions and swaps, perform poorly on the character-level benchmark recently proposed in Eger and Benz (2020) which includes more challenging attacks such as visual and phonetic perturbations and missing word segmentations. In contrast, we show that an untrained iterative approach which combines context-independent character-level information with context-dependent information from BERT's masked language modeling can perform on par with human crowd-workers from Amazon Mechanical Turk (AMT) supervised via 3-shot learning.
翻訳日:2021-06-04 12:21:39 公開日:2021-06-02
# 目標ベース強化学習のための表現学習としての変分エンパワーメント

Variational Empowerment as Representation Learning for Goal-Based Reinforcement Learning ( http://arxiv.org/abs/2106.01404v1 )

ライセンス: Link先を確認
Jongwook Choi, Archit Sharma, Honglak Lee, Sergey Levine, Shixiang Shane Gu(参考訳) 目標達成のための学習と相互情報(MI)の最大化による多様なスキルの学習が,自己指導型強化学習の原則として提案されている。 標準目標条件付きRL(GCRL)が変分エンハンスメントの最適化目標によってカプセル化されているという単純な観察から始まり、GCRLとMIベースのRLを単一のファミリに一般化し、変分型GCRL(VGCRL)、変分MI最大化、変分エンハンスメントをゴールゴール達成のための機能的に認識された状態表現を取得する表現学習手法として解釈する。 This novel perspective allows us to: (1) derive simple but unexplored variants of GCRL to study how adding small representation capacity can already expand its capabilities; (2) investigate how discriminator function capacity and smoothness determine the quality of discovered skills, or latent goals, through modifying latent dimensionality and applying spectral normalization; (3) adapt techniques such as hindsight experience replay (HER) from GCRL to MI-based RL; and lastly, (4) propose a novel evaluation metric, named latent goal reaching (LGR), for comparing empowerment algorithms with different choices of latent dimensionality and discriminator parameterization. 原理的数学的導出と注意深い実験研究を通じて,本研究は,目標ベースrlにおける表現学習手法の評価,解析,開発のための新しい基礎を築いている。

Learning to reach goal states and learning diverse skills through mutual information (MI) maximization have been proposed as principled frameworks for self-supervised reinforcement learning, allowing agents to acquire broadly applicable multitask policies with minimal reward engineering. Starting from a simple observation that the standard goal-conditioned RL (GCRL) is encapsulated by the optimization objective of variational empowerment, we discuss how GCRL and MI-based RL can be generalized into a single family of methods, which we name variational GCRL (VGCRL), interpreting variational MI maximization, or variational empowerment, as representation learning methods that acquire functionally-aware state representations for goal reaching. This novel perspective allows us to: (1) derive simple but unexplored variants of GCRL to study how adding small representation capacity can already expand its capabilities; (2) investigate how discriminator function capacity and smoothness determine the quality of discovered skills, or latent goals, through modifying latent dimensionality and applying spectral normalization; (3) adapt techniques such as hindsight experience replay (HER) from GCRL to MI-based RL; and lastly, (4) propose a novel evaluation metric, named latent goal reaching (LGR), for comparing empowerment algorithms with different choices of latent dimensionality and discriminator parameterization. Through principled mathematical derivations and careful experimental studies, our work lays a novel foundation from which to evaluate, analyze, and develop representation learning techniques in goal-based RL.
翻訳日:2021-06-04 12:19:53 公開日:2021-06-02
# 多様体学習のための矩形流れ

Rectangular Flows for Manifold Learning ( http://arxiv.org/abs/2106.01413v1 )

ライセンス: Link先を確認
Anthony L. Caterini, Gabriel Loaiza-Ganem, Geoff Pleiss, John P. Cunningham(参考訳) フローの正規化は可逆的なニューラルネットワークであり、容量の移動可能な変更項を持ち、パラメータの最適化を最大確率で効率的に行うことができる。 しかし、興味のあるデータは一般に、高次元の環境空間に埋め込まれた(しばしば未知の)低次元多様体に存在すると仮定される。 構成上、可逆性要求は学習された分布の高次元的サポートを意味するため、結果はモデリングミスマッチとなる。 低次元空間から高次元空間への写像である射出流は、多様体上の分布を学習することでこの矛盾を解消しようとするが、結果として得られる体積変化項は評価が難しくなる。 現在のアプローチでは、この項を完全に様々なヒューリスティックを使って計算するのを避けるか、多様体が事前に知られていると仮定する。 代わりに, 数値線形代数から自動微分法や手法を注意深く利用して, モデルのパラメータに関して, この項の勾配を気軽に計算する方法を2つ提案する。 どちらの手法も、この多様体上に投影されたデータのエンドツーエンドの非線形多様体学習と密度推定を行う。 提案手法のトレードオフを実証的に検証し, 体積変化項を無視するアプローチを, 多様体とそれに対応する分布をより正確に学習し, アウト・オブ・ディストリビューション検出の有望な結果を示す。

Normalizing flows are invertible neural networks with tractable change-of-volume terms, which allows optimization of their parameters to be efficiently performed via maximum likelihood. However, data of interest is typically assumed to live in some (often unknown) low-dimensional manifold embedded in high-dimensional ambient space. The result is a modelling mismatch since -- by construction -- the invertibility requirement implies high-dimensional support of the learned distribution. Injective flows, mapping from low- to high-dimensional space, aim to fix this discrepancy by learning distributions on manifolds, but the resulting volume-change term becomes more challenging to evaluate. Current approaches either avoid computing this term entirely using various heuristics, or assume the manifold is known beforehand and therefore are not widely applicable. Instead, we propose two methods to tractably calculate the gradient of this term with respect to the parameters of the model, relying on careful use of automatic differentiation and techniques from numerical linear algebra. Both approaches perform end-to-end nonlinear manifold learning and density estimation for data projected onto this manifold. We study the trade-offs between our proposed methods, empirically verify that we outperform approaches ignoring the volume-change term by more accurately learning manifolds and the corresponding distributions on them, and show promising results on out-of-distribution detection.
翻訳日:2021-06-04 12:17:17 公開日:2021-06-02
# 構造的、教師付き、生成的逆行学習による非循環グラフのテスト

Testing Directed Acyclic Graph via Structural, Supervised and Generative Adversarial Learning ( http://arxiv.org/abs/2106.01474v1 )

ライセンス: Link先を確認
Chengchun Shi, Yunzhe Zhou and Lexin Li(参考訳) 本稿では,有向非巡回グラフ(DAG)の新しい仮説テスト法を提案する。 DAG推定法には豊富なクラスがあるが、DAG推論法には相対的な妥当性がある。 さらに、既存の手法は、線形モデルや追加モデルのような特定のモデル構造を課し、独立したデータ観測を仮定することが多い。 提案したテストでは、ランダム変数間の関連性は非線形であり、データは時間依存である。 非常に柔軟なニューラルネットワーク学習者に基づいてテストを構築します。 実験の漸近的保証を定めつつ,被験者数や各被験者の時点数を無限に分散させることを可能とした。 シミュレーションと脳結合ネットワーク解析により,実験の有効性を示す。

In this article, we propose a new hypothesis testing method for directed acyclic graph (DAG). While there is a rich class of DAG estimation methods, there is a relative paucity of DAG inference solutions. Moreover, the existing methods often impose some specific model structures such as linear models or additive models, and assume independent data observations. Our proposed test instead allows the associations among the random variables to be nonlinear and the data to be time-dependent. We build the test based on some highly flexible neural networks learners. We establish the asymptotic guarantees of the test, while allowing either the number of subjects or the number of time points for each subject to diverge to infinity. We demonstrate the efficacy of the test through simulations and a brain connectivity network analysis.
翻訳日:2021-06-04 12:16:52 公開日:2021-06-02
# トランスフォーマーは、無限次元の非マーサーバイナリカーネルマシンである

Transformers are Deep Infinite-Dimensional Non-Mercer Binary Kernel Machines ( http://arxiv.org/abs/2106.01506v1 )

ライセンス: Link先を確認
Matthew A. Wright, Joseph E. Gonzalez(参考訳) 自然言語処理のようなコアai分野に普及しているにもかかわらず、トランスフォーマーモデルのような深い注意に基づくニューラルネットワークの仕組みは、完全には理解されていない。 本稿では,トランスフォーマーの動作を理解するための新しい視点を提案する。 特に,一対のバナッハ空間上のカーネル学習法として,トランスフォーマの演算の核となる「ドート生成的注意」を特徴付けることができることを示す。 特に、トランスフォーマーのカーネルは無限の特徴次元を持つのが特徴である。 その過程で、標準的なカーネル学習問題をバイナリ設定に拡張し、2つの入力ドメインからデータを取得し、各クロスドメインペアに対して応答を定義する。 非マーサー(非定義、非対称)なカーネル(学習した関数はヒルベルト空間ではなく、カーネルバナッハ空間を再現する要素である)を持つこれらのバイナリカーネルマシンの新しい表現子定理を証明し、トランスフォーマー計算が任意のバイナリ非マーサー再生成核バナッハ空間を学習できることを示す新しい普遍近似定理を証明した。 我々はTransformerの新しいカーネルを実験し、標準Transformerカーネルの無限次元性が部分的に性能に寄与することを示す結果を得た。 本論文は,現代機械-学習における非常に重要だが理解が不十分なモデルに対する新たな理論的理解を提供する。

Despite their ubiquity in core AI fields like natural language processing, the mechanics of deep attention-based neural networks like the Transformer model are not fully understood. In this article, we present a new perspective towards understanding how Transformers work. In particular, we show that the "dot-product attention" that is the core of the Transformer's operation can be characterized as a kernel learning method on a pair of Banach spaces. In particular, the Transformer's kernel is characterized as having an infinite feature dimension. Along the way we consider an extension of the standard kernel learning problem to a binary setting, where data come from two input domains and a response is defined for every cross-domain pair. We prove a new representer theorem for these binary kernel machines with non-Mercer (indefinite, asymmetric) kernels (implying that the functions learned are elements of reproducing kernel Banach spaces rather than Hilbert spaces), and also prove a new universal approximation theorem showing that the Transformer calculation can learn any binary non-Mercer reproducing kernel Banach space pair. We experiment with new kernels in Transformers, and obtain results that suggest the infinite dimensionality of the standard Transformer kernel is partially responsible for its performance. This paper's results provide a new theoretical understanding of a very important but poorly understood model in modern machine~learning.
翻訳日:2021-06-04 12:16:40 公開日:2021-06-02
# (参考訳) 分類的モジュラリティを用いた単語埋め込みの評価

Evaluating Word Embeddings with Categorical Modularity ( http://arxiv.org/abs/2106.00877v1 )

ライセンス: CC BY 4.0
S\'ilvia Casacuberta, Karina Halevy, Dami\'an E. Blasi(参考訳) 単語埋め込み品質を評価するために,新しい低リソース内在指標である分類的モジュラリティを導入する。 カテゴリーモジュラリティ(英: Categorical modularity)とは、ある固定された意味圏の集合から単語のベクトルを埋め込んだ$k$-nearest(英語版)近傍グラフに基づくグラフモジュラリティの計量である。 我々は29言語で59の神経生物学的に動機付けられた意味カテゴリーに属する500語のコアセットを使用し、言語ごとの3つの単語埋め込みモデル(FastText, MUSE, subs2vec)を分析した。 感情分析と単語類似性計算の単言語的タスク,およびバイリンガル語彙誘導の両言語間タスクにおいて,カテゴリー的モジュラリティと性能との間には,中程度の正の相関関係が認められた。 全体として、分類モジュラリティは、下流タスクのパフォーマンスに関する非自明な予測情報を提供し、セマンティック情報損失に関するメタ予測特性のモデルによる相関関係の分解も提案する。

We introduce categorical modularity, a novel low-resource intrinsic metric to evaluate word embedding quality. Categorical modularity is a graph modularity metric based on the $k$-nearest neighbor graph constructed with embedding vectors of words from a fixed set of semantic categories, in which the goal is to measure the proportion of words that have nearest neighbors within the same categories. We use a core set of 500 words belonging to 59 neurobiologically motivated semantic categories in 29 languages and analyze three word embedding models per language (FastText, MUSE, and subs2vec). We find moderate to strong positive correlations between categorical modularity and performance on the monolingual tasks of sentiment analysis and word similarity calculation and on the cross-lingual task of bilingual lexicon induction both to and from English. Overall, we suggest that categorical modularity provides non-trivial predictive information about downstream task performance, with breakdowns of correlations by model suggesting some meta-predictive properties about semantic information loss as well.
翻訳日:2021-06-04 09:12:01 公開日:2021-06-02
# (参考訳) 部分的ワッサースタイン被覆

Partial Wasserstein Covering ( http://arxiv.org/abs/2106.00886v1 )

ライセンス: CC BY 4.0
Keisuke Kawano, Satoshi Koide, Keisuke Otaki(参考訳) 候補データセットから小さなサブセットを選択し、それを小さなデータセットに追加することで、経験的分布の観点から、小さなデータセット(例えば、開発データセット)を使用して大きなデータセット(例えば、アプリケーションデータセット)をエミュレートすることを目的として、partment wassersteinと呼ばれる一般的なタスクを検討する。 我々はこのタスクをワッサーシュタイン偏差を目的関数とする離散最適化問題としてモデル化する。 この問題はnp-hardであるが、亜モジュラー性を持つことを証明し、0.63近似のグリーディアルゴリズムを使うことができる。 しかし,目的関数評価ごとに線形計画が必要となるため,アルゴリズムの効率は低下する。 この難しさを克服するため,我々は,強い双対性に基づく感度解析や,最適移動場におけるいわゆる$c$-transformといった一連の手法からなる加速度アルゴリズムを提案する。 実験により,運転シーンデータセットを含む部分的なwassersteinダイバージェンスの観点から2つのデータセットを効率的に作成できることを実証した。

We consider a general task called partial Wasserstein covering with the goal of emulating a large dataset (e.g., application dataset) using a small dataset (e.g., development dataset) in terms of the empirical distribution by selecting a small subset from a candidate dataset and adding it to the small dataset. We model this task as a discrete optimization problem with partial Wasserstein divergence as an objective function. Although this problem is NP-hard, we prove that it has the submodular property, allowing us to use a greedy algorithm with a 0.63 approximation. However, the greedy algorithm is still inefficient because it requires linear programming for each objective function evaluation. To overcome this difficulty, we propose quasi-greedy algorithms for acceleration, which consist of a series of techniques such as sensitivity analysis based on strong duality and the so-called $C$-transform in the optimal transport field. Experimentally, we demonstrate that we can efficiently make two datasets similar in terms of partial Wasserstein divergence, including driving scene datasets.
翻訳日:2021-06-04 08:56:59 公開日:2021-06-02
# (参考訳) 微分可能な点過程とそのスパイクニューラルネットワークへの応用

A Differentiable Point Process with Its Application to Spiking Neural Networks ( http://arxiv.org/abs/2106.00901v1 )

ライセンス: CC BY 4.0
Hiroshi Kajino(参考訳) 本稿では,スパイクニューラルネットワーク(SNN)の確率論的モデルに対する学習アルゴリズムについて述べる。 Jimenez Rezende & Gerstner (2014) は隠れたニューロンでSNNを訓練するための確率的変分推論アルゴリズムを提案した。 このアルゴリズムはスコア関数勾配推定器を用いて変動分布を更新する。 本稿では,経路方向勾配推定器に基づくSNNの代替勾配推定器を提案する。 主な技術的困難は、任意の点過程の実現を区別するための一般的な方法の欠如である。 本稿では,本論文の技術的ハイライトである微分可能な点過程を開発し,snsのパスワイズ勾配推定器の導出に適用する。 勾配推定器の有効性を数値シミュレーションにより検証する。

This paper is concerned about a learning algorithm for a probabilistic model of spiking neural networks (SNNs). Jimenez Rezende & Gerstner (2014) proposed a stochastic variational inference algorithm to train SNNs with hidden neurons. The algorithm updates the variational distribution using the score function gradient estimator, whose high variance often impedes the whole learning algorithm. This paper presents an alternative gradient estimator for SNNs based on the path-wise gradient estimator. The main technical difficulty is a lack of a general method to differentiate a realization of an arbitrary point process, which is necessary to derive the path-wise gradient estimator. We develop a differentiable point process, which is the technical highlight of this paper, and apply it to derive the path-wise gradient estimator for SNNs. We investigate the effectiveness of our gradient estimator through numerical simulation.
翻訳日:2021-06-04 08:40:24 公開日:2021-06-02
# (参考訳) 低頻度単語の再生:非自己回帰翻訳における並列データの利用

Rejuvenating Low-Frequency Words: Making the Most of Parallel Data in Non-Autoregressive Translation ( http://arxiv.org/abs/2106.00903v1 )

ライセンス: CC0 1.0
Liang Ding, Longyue Wang, Xuebo Liu, Derek F. Wong, Dacheng Tao and Zhaopeng Tu(参考訳) 知識蒸留(KD)は、非自己回帰翻訳(NAT)モデルを訓練するための合成データを構築するために一般的に用いられる。 しかし、蒸留された単語と原データとの間には低周波単語の相違があり、低周波単語の予測により多くの誤りが生じる。 問題を緩和するために、プレトレーニングを利用して生データをNATに直接公開する。 有向アライメントを解析した結果,KD は低周波ソース語をより確定的にターゲットに整合させるが,十分な低周波ワードをターゲットからソースに整合させることができないことがわかった。 そこで本研究では,低周波ターゲット単語のアライメントを増加させる逆kdを提案する。 そこで本研究では,NAT性能向上のための新たなトレーニング戦略として,これらの相補的アプローチを組み合わせる。 2つの高度なアーキテクチャで5つの翻訳ベンチマーク実験を行った。 提案手法は低周波単語の翻訳誤りを低減し,翻訳品質を大幅に向上させることができることを示す。 提案手法は,WMT14 と WMT16 のルーマニア英語データセットに対して,それぞれ 28.2 と 33.9 のBLEU 点を達成している。 私たちのコード、データ、トレーニングされたモデルは、 \url{https://github.com/longyuewangdcu/RLFW-NAT}で利用可能です。

Knowledge distillation (KD) is commonly used to construct synthetic data for training non-autoregressive translation (NAT) models. However, there exists a discrepancy on low-frequency words between the distilled and the original data, leading to more errors on predicting low-frequency words. To alleviate the problem, we directly expose the raw data into NAT by leveraging pretraining. By analyzing directed alignments, we found that KD makes low-frequency source words aligned with targets more deterministically but fails to align sufficient low-frequency words from target to source. Accordingly, we propose reverse KD to rejuvenate more alignments for low-frequency target words. To make the most of authentic and synthetic data, we combine these complementary approaches as a new training strategy for further boosting NAT performance. We conduct experiments on five translation benchmarks over two advanced architectures. Results demonstrate that the proposed approach can significantly and universally improve translation quality by reducing translation errors on low-frequency words. Encouragingly, our approach achieves 28.2 and 33.9 BLEU points on the WMT14 English-German and WMT16 Romanian-English datasets, respectively. Our code, data, and trained models are available at \url{https://github.com/longyuewangdcu/RLFW-NAT}.
翻訳日:2021-06-04 08:17:04 公開日:2021-06-02
# (参考訳) 低価格ステレオビジョンシステム(格差マップ)を数ドルで提供

Low-cost Stereovision system (disparity map) for few dollars ( http://arxiv.org/abs/2106.00905v1 )

ライセンス: CC0 1.0
R. Ildar and E. Pomazov(参考訳) 本稿では,プロトタイプと工業設計の両方において,低コストセグメントにおけるステレオビジョンの分野における最新の展開について分析する。 ステレオビジョンの理論を解説し,カメラとデータ転送プロトコルに関する情報と各種デバイスとの互換性について述べる。 ステレオビジョンプロセスにおける画像処理の分野における理論を考察し,キャリブレーションプロセスについて詳述する。 最終的に,開発したステレオビジョンシステムを示し,このようなシステムを開発する際に考慮すべき要点を提示した。 最後に,Windows オペレーティングシステムのpython言語におけるステレオビジョンパラメータをリアルタイムに調整するソフトウェアを紹介した。

The paper presents an analysis of the latest developments in the field of stereo vision in the low-cost segment, both for prototypes and for industrial designs. We described the theory of stereo vision and presented information about cameras and data transfer protocols and their compatibility with various devices. The theory in the field of image processing for stereo vision processes is considered and the calibration process is described in detail. Ultimately, we presented the developed stereo vision system and provided the main points that need to be considered when developing such systems. The final, we presented software for adjusting stereo vision parameters in real-time in the python language in the Windows operating system.
翻訳日:2021-06-04 08:03:10 公開日:2021-06-02
# (参考訳) 固定点ネットワークによる平衡予測を学ぶ

Learn to Predict Equilibria via Fixed Point Networks ( http://arxiv.org/abs/2106.00906v1 )

ライセンス: CC BY 4.0
Howard Heaton, Daniel McKenzie, Qiuwei Li, Samy Wu Fung, Stanley Osher, Wotao Yin(参考訳) 対話エージェントのシステムはコンテキストゲームとしてモデル化され、コンテキストは任意のエージェント(例えば)の制御を超えて追加情報を符号化する。 交通の天気と市場経済の財政政策) そのようなシステムでは、最も可能性の高い結果はナッシュ平衡によって与えられる。 多くの実践的な設定では、ゲーム平衡のみが観察され、ゲームモデルの最適パラメータが不明である。 この研究は、暗黙の深度ニューラルネットワークのクラスであるNash Fixed Point Networks (N-FPNs)を導入し、コンテキストゲームのNash平衡を出力する。 N-FPNアーキテクチャはデータ駆動モデリングを制約付きで融合させる。 文脈ゲームにおける平衡観測から、N-FPNパラメータは、文脈のみに与えられる平衡結果を予測するために学習される。 本稿では,N-FPNのエンドツーエンドトレーニング方式を提案する。 N-FPNはまた、コストのかかる投影を避けるために、新しい制約デカップリングスキームを利用する。 与えられた数値的な例は、原子ゲームや非原子ゲーム(例えば、N-FPN)に対する効果を示している。 交通経路)。

Systems of interacting agents can often be modeled as contextual games, where the context encodes additional information, beyond the control of any agent (e.g. weather for traffic and fiscal policy for market economies). In such systems, the most likely outcome is given by a Nash equilibrium. In many practical settings, only game equilibria are observed, while the optimal parameters for a game model are unknown. This work introduces Nash Fixed Point Networks (N-FPNs), a class of implicit-depth neural networks that output Nash equilibria of contextual games. The N-FPN architecture fuses data-driven modeling with provided constraints. Given equilibrium observations of a contextual game, N-FPN parameters are learnt to predict equilibria outcomes given only the context. We present an end-to-end training scheme for N-FPNs that is simple and memory efficient to implement with existing autodifferentiation tools. N-FPNs also exploit a novel constraint decoupling scheme to avoid costly projections. Provided numerical examples show the efficacy of N-FPNs on atomic and non-atomic games (e.g. traffic routing).
翻訳日:2021-06-04 07:58:40 公開日:2021-06-02
# (参考訳) TransMIL:全スライド画像の古典化のためのトランスフォーマーベース関連マルチインスタンス学習

TransMIL: Transformer based Correlated Multiple Instance Learning for Whole Slide Image Classication ( http://arxiv.org/abs/2106.00908v1 )

ライセンス: CC BY 4.0
Zhuchen Shao, Hao Bian, Yang Chen, Yifeng Wang, Jian Zhang, Xiangyang Ji, Yongbing Zhang(参考訳) マルチプル・インスタンス・ラーニング(MIL)は,スライド画像全体(WSI)に基づく病理診断において,弱い教師付き分類を解く強力なツールである。 しかし、現在のMIL法は通常、独立分布と同一分布の仮説に基づいているため、異なるインスタンス間の相関は無視される。 この問題に対処するため,我々は相関型MILと呼ばれる新しいフレームワークを提案し,収束の証明を提供した。 この枠組みに基づいて、形態情報と空間情報の両方を探索するトランスフォーマーベースのMIL(TransMIL)を考案した。 提案するtransmilは,非バランス・バランス・バイナリ/マルチプル分類を効果的に処理でき,可視化と解釈性が向上する。 3つの異なる計算病理問題に対して様々な実験を行い,最先端法と比較して高い性能と高速収束を達成した。 バイナリ腫瘍分類のためのAUCのテストは、CAMELYON16データセットよりも最大93.09%高い。 また、がんサブタイプの分類に関するAUCは、それぞれTGA-NSCLCデータセットとTGA-RCCデータセットよりも96.03%、98.82%である。

Multiple instance learning (MIL) is a powerful tool to solve the weakly supervised classification in whole slide image (WSI) based pathology diagnosis. However, the current MIL methods are usually based on independent and identical distribution hypothesis, thus neglect the correlation among different instances. To address this problem, we proposed a new framework, called correlated MIL, and provided a proof for convergence. Based on this framework, we devised a Transformer based MIL (TransMIL), which explored both morphological and spatial information. The proposed TransMIL can effectively deal with unbalanced/balanced and binary/multiple classification with great visualization and interpretability. We conducted various experiments for three different computational pathology problems and achieved better performance and faster convergence compared with state-of-the-art methods. The test AUC for the binary tumor classification can be up to 93.09% over CAMELYON16 dataset. And the AUC over the cancer subtypes classification can be up to 96.03% and 98.82% over TCGA-NSCLC dataset and TCGA-RCC dataset, respectively.
翻訳日:2021-06-04 07:33:20 公開日:2021-06-02
# (参考訳) ガウス過程を用いた非線形システムの同時学習に基づく追従制御

Concurrent Learning Based Tracking Control of Nonlinear Systems using Gaussian Process ( http://arxiv.org/abs/2106.00910v1 )

ライセンス: CC BY 4.0
Vedant Bhandari and Erkan Kayacan(参考訳) 本稿では,オンライン外乱学習におけるパラメータ推定と非パラメトリックガウス過程のツールとしての同時学習の適用性を示す。 フィードバック線形化の文脈において,両手法を順次利用して制御則を構築する。 並列学習アルゴリズムは、フィードバック線形化法則の設計に使用される永続的な励起を必要としない構造的不確実性のシステムパラメータを推定する。 そして、非パラメトリックガウス過程は非構造不確かさを学習する。 n階系の閉ループ系安定性はリャプノフ安定性定理を用いて証明される。 シミュレーションの結果, モデルパラメータの真の値が提供されていない場合, (ii) パラメータが真の値に収束した後に導入された外乱が存在する場合, (iii) システムパラメータが外乱の存在下で真の値に収束していない場合, 追跡誤差が最小化されていることがわかった。

This paper demonstrates the applicability of the combination of concurrent learning as a tool for parameter estimation and non-parametric Gaussian Process for online disturbance learning. A control law is developed by using both techniques sequentially in the context of feedback linearization. The concurrent learning algorithm estimates the system parameters of structured uncertainty without requiring persistent excitation, which are used in the design of the feedback linearization law. Then, a non-parametric Gaussian Process learns unstructured uncertainty. The closed-loop system stability for the nth-order system is proven using the Lyapunov stability theorem. The simulation results show that the tracking error is minimized (i) when true values of model parameters have not been provided, (ii) in the presence of disturbances introduced once the parameters have converged to their true values and (iii) when system parameters have not converged to their true values in the presence of disturbances.
翻訳日:2021-06-04 07:15:27 公開日:2021-06-02
# (参考訳) 3次元建物再建のための翻訳対称性を考慮したファサード解析

Translational Symmetry-Aware Facade Parsing for 3D Building Reconstruction ( http://arxiv.org/abs/2106.00912v1 )

ライセンス: CC BY 4.0
Hantang Liu, Wentong Li, Jianke Zhu(参考訳) ファサードを効果的に解析することは、ナビゲーション、コンピュータ支援設計、デジタルエンターテイメントのための都市生成など、高精度な地図に大量の応用を施した重要なコンピュータビジョン問題である3Dビルディング再構築に不可欠である。 この目的のために、キーは2次元画像から形状文法を正確に効率的に取得する方法である。 セマンティック解析における有望な結果のメリットを享受しながらも、ディープラーニング手法は、人造構造において重要な役割を果たすアーキテクチャルールを直接利用することはできない。 本稿では,深部ニューラルネットワーク改善のための新しい翻訳対称性に基づくアプローチを提案する。 本手法では,ベースパーサとしてディープラーニングモデルを用い,翻訳対称性を利用したモジュールを用いて初期解析結果を洗練する。 従来のセマンティクスセグメンテーションやバウンディングボックス予測とは対照的に,単一ステージネットワークにおいてアンカーフリー検出を伴うセグメンテーションを融合する新しい手法を提案する。 ファサードを形状文法に解析した後、Blenderのような市販のレンダリングエンジンを使用して、手続きモデルを用いて現実的な高品質な3Dモデルを再構築する。 提案手法が最先端手法よりも優れている3つの公開データセットについて実験を行った。 さらに,2次元ファサード画像から構築した3次元ビルディングモデルについて解説した。

Effectively parsing the facade is essential to 3D building reconstruction, which is an important computer vision problem with a large amount of applications in high precision map for navigation, computer aided design, and city generation for digital entertainments. To this end, the key is how to obtain the shape grammars from 2D images accurately and efficiently. Although enjoying the merits of promising results on the semantic parsing, deep learning methods cannot directly make use of the architectural rules, which play an important role for man-made structures. In this paper, we present a novel translational symmetry-based approach to improving the deep neural networks. Our method employs deep learning models as the base parser, and a module taking advantage of translational symmetry is used to refine the initial parsing results. In contrast to conventional semantic segmentation or bounding box prediction, we propose a novel scheme to fuse segmentation with anchor-free detection in a single stage network, which enables the efficient training and better convergence. After parsing the facades into shape grammars, we employ an off-the-shelf rendering engine like Blender to reconstruct the realistic high-quality 3D models using procedural modeling. We conduct experiments on three public datasets, where our proposed approach outperforms the state-of-the-art methods. In addition, we have illustrated the 3D building models built from 2D facade images.
翻訳日:2021-06-04 07:03:42 公開日:2021-06-02
# (参考訳) 拡張性、グラフニューラルネットワークに基づく大規模柔軟有機分子の精密力場開発

An Extendible, Graph-Neural-Network-Based Approach for Accurate Force Field Development of Large Flexible Organic Molecules ( http://arxiv.org/abs/2106.00927v1 )

ライセンス: CC BY 4.0
Xufei Wang, Yuanda Xu, Han Zheng, Kuang Yu(参考訳) 正確な力場は、有機高分子と生体分子の全ての分子力学シミュレーションの成功の鍵である。 密度汎関数理論を超える精度は分子間相互作用を記述するためにしばしば必要であるが、ほとんどの相関波動関数 (CW) 法は大きな分子では違法に高価である。 したがって、CWレベルの精度で大きなフレキシブルな有機分子のための拡張可能なab initio力場を開発することが大きな課題である。 本研究では,物理駆動非結合ポテンシャルとデータ駆動サブグラフニューラルネットワーク結合モデル(sgnn)を組み合わせることで,この課題に対処した。 ポリエチレングリコールポリマー鎖の試験により, 異なる大きさの分子に対して高い精度とロバスト性が得られた。 したがって、小さな分子断片(CW法に容易にアクセス可能なサイズ)から力場を開発し、それを大きなポリマーに安全に移動させることで、次世代の有機力場への新たな経路を開拓することができる。

An accurate force field is the key to the success of all molecular mechanics simulations on organic polymers and biomolecules. Accuracy beyond density functional theory is often needed to describe the intermolecular interactions, while most correlated wavefunction (CW) methods are prohibitively expensive for large molecules. Therefore, it posts a great challenge to develop an extendible ab initio force field for large flexible organic molecules at CW level of accuracy. In this work, we face this challenge by combining the physics-driven nonbonding potential with a data-driven subgraph neural network bonding model (named sGNN). Tests on polyethylene glycol polymer chains show that our strategy is highly accurate and robust for molecules of different sizes. Therefore, we can develop the force field from small molecular fragments (with sizes easily accessible to CW methods) and safely transfer it to large polymers, thus opening a new path to the next-generation organic force fields.
翻訳日:2021-06-04 06:48:01 公開日:2021-06-02
# (参考訳) OntoGum: コンテキスト化されたSOTA参照解決を12世代で評価する

OntoGUM: Evaluating Contextualized SOTA Coreference Resolution on 12 More Genres ( http://arxiv.org/abs/2106.00933v1 )

ライセンス: CC BY 4.0
Yilun Zhu, Sameer Pradhan, Amir Zeldes(参考訳) SOTAコアレゾリューションはOntoNotesベンチマークでますます印象的なスコアを生成する。 しかし、より多くのジャンルで同じスキームに従う比較データの欠如は、ドメインデータを開く一般化可能性を評価するのを難しくしている。 本稿では、最新のニューラルLMベースのエンドツーエンドシステムがドメイン外において著しく劣化していることを示すデータセットと包括的評価を提供する。 OntoNotesライクなコア推論データセットOntoGUMを公開し、12のジャンルをカバーする英語コーパスであるGUMから変換し、決定論的ルールを用いて評価する。 GUMのリッチな構文および談話アノテーションのおかげで,OntoNotesガイドラインに従って,最大規模の人間注釈付きコア参照コーパスを作成することができ,OntoNotesスキームとの整合性を評価するための最初の方法となる。 12分野にわたる領域外評価は、決定論的および深層学習システムにおいて15-20%の劣化を示し、既存のコア参照解決モデルに一般化性や隠蔽性がないことを示している。

SOTA coreference resolution produces increasingly impressive scores on the OntoNotes benchmark. However lack of comparable data following the same scheme for more genres makes it difficult to evaluate generalizability to open domain data. This paper provides a dataset and comprehensive evaluation showing that the latest neural LM based end-to-end systems degrade very substantially out of domain. We make an OntoNotes-like coreference dataset called OntoGUM publicly available, converted from GUM, an English corpus covering 12 genres, using deterministic rules, which we evaluate. Thanks to the rich syntactic and discourse annotations in GUM, we are able to create the largest human-annotated coreference corpus following the OntoNotes guidelines, and the first to be evaluated for consistency with the OntoNotes scheme. Out-of-domain evaluation across 12 genres shows nearly 15-20% degradation for both deterministic and deep learning systems, indicating a lack of generalizability or covert overfitting in existing coreference resolution models.
翻訳日:2021-06-04 06:28:57 公開日:2021-06-02
# (参考訳) モデルがいつ、なぜ失敗するのか? 感性分析のためのヒューマン・イン・ザ・ループ誤差検出フレームワーク

When and Why does a Model Fail? A Human-in-the-loop Error Detection Framework for Sentiment Analysis ( http://arxiv.org/abs/2106.00954v1 )

ライセンス: CC BY 4.0
Zhe Liu, Yufan Guo, Jalal Mahmud(参考訳) ディープニューラルネットワークは感情分析タスクに広く採用され、有効であることが証明されているが、モデル開発者が、デプロイ前に存在する可能性のある誤った予測のためにモデルを評価することは依然として困難である。 一度デプロイすると、創発的エラーは予測実行時に識別しにくくなり、ソースへのトレースが不可能になる。 そこで本研究では,説明可能な特徴に基づく感情分析のための誤り検出フレームワークを提案する。 我々は,グローバルレベルの特徴量評価を行い,続いてグローバルレベルの特徴量分析とローカルレベルの特徴量分析を統合した。 実験結果から,ループ内介入の制限により,未確認データの誤モデル予測を高精度に検出できることがわかった。

Although deep neural networks have been widely employed and proven effective in sentiment analysis tasks, it remains challenging for model developers to assess their models for erroneous predictions that might exist prior to deployment. Once deployed, emergent errors can be hard to identify in prediction run-time and impossible to trace back to their sources. To address such gaps, in this paper we propose an error detection framework for sentiment analysis based on explainable features. We perform global-level feature validation with human-in-the-loop assessment, followed by an integration of global and local-level feature contribution analysis. Experimental results show that, given limited human-in-the-loop intervention, our method is able to identify erroneous model predictions on unseen data with high precision.
翻訳日:2021-06-04 06:20:03 公開日:2021-06-02
# (参考訳) 相互増強ステレオ画像の超解像化と差分推定のためのフィードバックネットワーク

Feedback Network for Mutually Boosted Stereo Image Super-Resolution and Disparity Estimation ( http://arxiv.org/abs/2106.00985v1 )

ライセンス: CC BY 4.0
Qinyan Dai, Juncheng Li, Qiaosi Yi, Faming Fang and Guixu Zhang(参考訳) ステレオ設定では、画像超解像(SR)と不均一性推定の問題は、各問題の結果が他方の解決に役立つように相互に関連している。 異なるビュー間の対応を効果的に活用することでsrの性能が向上する一方、より詳細な高分解能(hr)特徴は対応推定に有用である。 このモチベーションに基づき,ステレオ画像の超解像と不均質推定を同時に処理し,それらを相互に相互作用させて性能を向上するステレオ超解像・不均質推定フィードバックネットワーク(SSRDE-FNet)を提案する。 具体的には、SSRDE-FNetは左右のビューのための2つの二重再帰サブネットワークで構成されている。 低分解能(LR)空間におけるクロスビュー情報利用に加えて、SRプロセスによって生成されたHR表現を利用して、HR特徴を集約してより微細なSR結果を生成することができる高精度なHR不均質推定を行う。 その後、提案したHR Disparity Information Feedback (HRDIF) メカニズムは、HR Disparityによって運ばれた情報を以前のレイヤに返却し、SR画像再構成をさらに洗練する。 大規模な実験はSSRDE-FNetの有効性と進歩を示す。

Under stereo settings, the problem of image super-resolution (SR) and disparity estimation are interrelated that the result of each problem could help to solve the other. The effective exploitation of correspondence between different views facilitates the SR performance, while the high-resolution (HR) features with richer details benefit the correspondence estimation. According to this motivation, we propose a Stereo Super-Resolution and Disparity Estimation Feedback Network (SSRDE-FNet), which simultaneously handles the stereo image super-resolution and disparity estimation in a unified framework and interact them with each other to further improve their performance. Specifically, the SSRDE-FNet is composed of two dual recursive sub-networks for left and right views. Besides the cross-view information exploitation in the low-resolution (LR) space, HR representations produced by the SR process are utilized to perform HR disparity estimation with higher accuracy, through which the HR features can be aggregated to generate a finer SR result. Afterward, the proposed HR Disparity Information Feedback (HRDIF) mechanism delivers information carried by HR disparity back to previous layers to further refine the SR image reconstruction. Extensive experiments demonstrate the effectiveness and advancement of SSRDE-FNet.
翻訳日:2021-06-04 06:10:38 公開日:2021-06-02
# (参考訳) OctoPath: 移動ロボットの局所軌道計画へのOcTreeによる自己教師付き学習アプローチ

OctoPath: An OcTree Based Self-Supervised Learning Approach to Local Trajectory Planning for Mobile Robots ( http://arxiv.org/abs/2106.00988v1 )

ライセンス: CC BY 4.0
Bogdan Trasnea, Cosmin Ginerica, Mihai Zaha, Gigel Macesanu, Claudiu Pozna, Sorin Grigorescu(参考訳) 自律移動ロボットは通常、複雑な環境で運転する場合、困難な状況に直面します。 すなわち、静的および動的障害を認識し、運転経路を計画し、動作を実行する必要がある。 知覚と経路計画の問題に対処するため,本論文では,エンコーダ・デコーダ深層ニューラルネットワークであるoctopathを提案する。 3次元octree環境モデルによって提供される離散化を用いて, 軌道予測を構成可能な分解能を持つ分類問題として再評価する。 トレーニング中、OctoPathは、所定のトレーニングデータセット内の予測と手動で駆動するトラジェクトリ間のエラーを最小限にする。 これにより、出力軌道点に無限の状態空間が存在する場合、回帰に基づく軌道推定の落とし穴を避けることができる。 環境センシングは40チャンネルの機械式LiDARセンサを用いて行われ、慣性測定ユニットと車輪のオドメトリーを用いて状態推定を行う。 実験はシミュレーションと実生活の両方で実施され、我々の開発したGridSimシミュレータとRovisLabのAutonomous Mobile Test Unitプラットフォームを用いて行われた。 我々は,CNN学習に基づく最適経路計画法と同様に,ベースラインハイブリッドA-Starアルゴリズムと回帰型教師あり学習法とをベンチマークしながら,屋内と屋外の異なる運転シナリオにおけるOctoPathの予測を評価する。

Autonomous mobile robots are usually faced with challenging situations when driving in complex environments. Namely, they have to recognize the static and dynamic obstacles, plan the driving path and execute their motion. For addressing the issue of perception and path planning, in this paper, we introduce OctoPath , which is an encoder-decoder deep neural network, trained in a self-supervised manner to predict the local optimal trajectory for the ego-vehicle. Using the discretization provided by a 3D octree environment model, our approach reformulates trajectory prediction as a classification problem with a configurable resolution. During training, OctoPath minimizes the error between the predicted and the manually driven trajectories in a given training dataset. This allows us to avoid the pitfall of regression-based trajectory estimation, in which there is an infinite state space for the output trajectory points. Environment sensing is performed using a 40-channel mechanical LiDAR sensor, fused with an inertial measurement unit and wheels odometry for state estimation. The experiments are performed both in simulation and real-life, using our own developed GridSim simulator and RovisLab's Autonomous Mobile Test Unit platform. We evaluate the predictions of OctoPath in different driving scenarios, both indoor and outdoor, while benchmarking our system against a baseline hybrid A-Star algorithm and a regression-based supervised learning method, as well as against a CNN learning-based optimal path planning method.
翻訳日:2021-06-04 05:52:00 公開日:2021-06-02
# (参考訳) sequence to general tree: knowledge-guided geometry word problem solve

Sequence to General Tree: Knowledge-Guided Geometry Word Problem Solving ( http://arxiv.org/abs/2106.00990v1 )

ライセンス: CC BY 4.0
Shih-hung Tsai, Chao-Chun Liang, Hsin-Min Wang, Keh-Yih Su(参考訳) 近年のディープラーニングの進歩により、ニューラルソルバは数学用語の問題解決において有望な結果を得た。 しかし、これらのSOTAソルバは基本演算子を含む二進表現木しか生成せず、数学公式を明示的に用いていない。 結果として、それらが生成する式木は、複数の演算子と定数を使って1つの式を表現する必要があるため、長く解釈できない。 本稿では,ノードを任意の数の引数で定式化できる解釈可能かつ実行可能な演算木を生成することを学習するシーケンス・ツー・ジェネラル・ツリー(S2G)を提案する。 ノードが公式になることが許されたため、S2Gは数学的領域の知識を問題解決に取り入れることを学び、結果をより解釈できる。 実験により、S2Gはドメイン知識を必要とする問題に対する強力なベースラインに対してより良いパフォーマンスを達成できることが示された。

With the recent advancements in deep learning, neural solvers have gained promising results in solving math word problems. However, these SOTA solvers only generate binary expression trees that contain basic arithmetic operators and do not explicitly use the math formulas. As a result, the expression trees they produce are lengthy and uninterpretable because they need to use multiple operators and constants to represent one single formula. In this paper, we propose sequence-to-general tree (S2G) that learns to generate interpretable and executable operation trees where the nodes can be formulas with an arbitrary number of arguments. With nodes now allowed to be formulas, S2G can learn to incorporate mathematical domain knowledge into problem-solving, making the results more interpretable. Experiments show that S2G can achieve a better performance against strong baselines on problems that require domain knowledge.
翻訳日:2021-06-04 05:31:53 公開日:2021-06-02
# (参考訳) 到達可能なマルチテスタビリティを最大化するためのウォーミングアップリカレントニューラルネットワーク

Warming-up recurrent neural networks to maximize reachable multi-stability greatly improves learning ( http://arxiv.org/abs/2106.01001v1 )

ライセンス: CC BY 4.0
Nicolas Vecoven and Damien Ernst and Guillaume Drion(参考訳) リカレントニューラルネットワークのトレーニングは、時間依存が長くなると難しいことが知られている。 そのため、長期メモリを必要とするベンチマークにおいて、ゲートリカレントユニットや長時間メモリなどの標準ゲートセルをトレーニングすることは困難な作業である。 本研究では「ウォームアップ(warm-up)」と呼ばれるプロセスを通じて、任意のリカレントネットワーク接続を初期化する一般的な方法を提案する。 この初期化プロセスは、ネットワーク到達可能なマルチ安定性を最大化するように設計されている。 関連する入力トラジェクタを通じて到達可能なネットワーク内のアトラクタの数。 ウォーミングアップはトレーニング前に、特別に設計された損失に対する確率的勾配降下を用いて行われる。 温暖化は、複数のリカレントセルタイプに対する長期記憶ベンチマークにおいて、リカレントニューラルネットワークの性能を大幅に改善するが、精度を損なうことがある。 そこで本研究では,高レベルな精度を維持しつつ,長時間連続学習の大幅な向上を示す部分ウォームアップを伴う並列リカレントネットワーク構造を提案する。 このアプローチは、長期記憶を必要とする場合の再発細胞タイプの学習能力を改善するための一般的なフレームワークを提供する。

Training recurrent neural networks is known to be difficult when time dependencies become long. Consequently, training standard gated cells such as gated recurrent units and long-short term memory on benchmarks where long-term memory is required remains an arduous task. In this work, we propose a general way to initialize any recurrent network connectivity through a process called "warm-up" to improve its capability to learn arbitrarily long time dependencies. This initialization process is designed to maximize network reachable multi-stability, i.e. the number of attractors within the network that can be reached through relevant input trajectories. Warming-up is performed before training, using stochastic gradient descent on a specifically designed loss. We show that warming-up greatly improves recurrent neural network performance on long-term memory benchmarks for multiple recurrent cell types, but can sometimes impede precision. We therefore introduce a parallel recurrent network structure with partial warm-up that is shown to greatly improve learning on long time-series while maintaining high levels of precision. This approach provides a general framework for improving learning abilities of any recurrent cell type when long-term memory is required.
翻訳日:2021-06-04 05:21:56 公開日:2021-06-02
# (参考訳) fedhealth 2: 個別医療のためのバッチ正規化による重み付きフェデレーション転送学習

FedHealth 2: Weighted Federated Transfer Learning via Batch Normalization for Personalized Healthcare ( http://arxiv.org/abs/2106.01009v1 )

ライセンス: CC BY 4.0
Yiqiang Chen, Wang Lu, Jindong Wang, Xin Qin(参考訳) 機械学習アプリケーションの成功は、しばしば大量のデータを必要とする。 近年,特に医療分野において,データプライバシやセキュリティの需要により,フェデレートラーニング(FL)が注目されている。 しかし、クライアント間でドメインシフトが存在する場合、既存のFLアプローチのパフォーマンスは低下することが多く、以前の研究ではヘルスケアのパーソナライズに重点を置いていた。 本稿では、FedHealth \cite{chen2020fedhealth}の拡張であるFedHealth 2を提案し、ドメインシフトに対処し、ローカルクライアント向けにパーソナライズされたモデルを取得する。 fedhealth 2は、事前トレーニングされたモデルを介してクライアントの類似性を取得し、局所的なバッチ正規化を保ちながら、すべての重み付きモデルの平均化を行う。 ウェアラブルな活動認識とCOVID-19補助診断実験は、プライバシとセキュリティを損なうことなく、FedHealth 2がより良い精度(アクティビティ認識の10%以上の改善)とパーソナライズされた医療を実現することを評価している。

The success of machine learning applications often needs a large quantity of data. Recently, federated learning (FL) is attracting increasing attention due to the demand for data privacy and security, especially in the medical field. However, the performance of existing FL approaches often deteriorates when there exist domain shifts among clients, and few previous works focus on personalization in healthcare. In this article, we propose FedHealth 2, an extension of FedHealth \cite{chen2020fedhealth} to tackle domain shifts and get personalized models for local clients. FedHealth 2 obtains the client similarities via a pretrained model, and then it averages all weighted models with preserving local batch normalization. Wearable activity recognition and COVID-19 auxiliary diagnosis experiments have evaluated that FedHealth 2 can achieve better accuracy (10%+ improvement for activity recognition) and personalized healthcare without compromising privacy and security.
翻訳日:2021-06-04 05:10:42 公開日:2021-06-02
# (参考訳) 一人の教師は十分か? 複数の教師による事前学習型言語モデル蒸留

One Teacher is Enough? Pre-trained Language Model Distillation from Multiple Teachers ( http://arxiv.org/abs/2106.01023v1 )

ライセンス: CC BY 4.0
Chuhan Wu, Fangzhao Wu, Yongfeng Huang(参考訳) プレトレーニング言語モデル(PLM)はNLPにおいて大きな成功を収めている。 しかし、その巨大なモデルサイズは、多くの実用的なシステムでその応用を妨げる。 知識蒸留はPLMを圧縮する一般的な手法であり、大きな教師のPLMから小さな学生モデルを学ぶ。 しかし、一人の教師から学んだ知識は限定的であり、偏りもあるため、低品質の生徒モデルとなる。 本稿では,事前学習型言語モデル圧縮のためのマルチ教師ナレッジ蒸留フレームワークMT-BERTを提案する。 MT-BERT では,複数の教師 PLM を下流タスクで協調的に微調整するマルチ教師共同ファインタニング手法を設計する。 さらに,隠蔽状態とソフトラベルの両方において有用な知識を複数の教師PLMから学生モデルに伝達するために,多教師の隠蔽損失と多教師の蒸留損失を提案する。 PLMの圧縮におけるMT-BERTの有効性を3つのベンチマークデータセットで検証した。

Pre-trained language models (PLMs) achieve great success in NLP. However, their huge model sizes hinder their applications in many practical systems. Knowledge distillation is a popular technique to compress PLMs, which learns a small student model from a large teacher PLM. However, the knowledge learned from a single teacher may be limited and even biased, resulting in low-quality student model. In this paper, we propose a multi-teacher knowledge distillation framework named MT-BERT for pre-trained language model compression, which can train high-quality student model from multiple teacher PLMs. In MT-BERT we design a multi-teacher co-finetuning method to jointly finetune multiple teacher PLMs in downstream tasks with shared pooling and prediction layers to align their output space for better collaborative teaching. In addition, we propose a multi-teacher hidden loss and a multi-teacher distillation loss to transfer the useful knowledge in both hidden states and soft labels from multiple teacher PLMs to the student model. Experiments on three benchmark datasets validate the effectiveness of MT-BERT in compressing PLMs.
翻訳日:2021-06-04 05:00:23 公開日:2021-06-02
# (参考訳) Who Blames or Endors Whom? ニューステキストにおけるエンティティ対エンティティ指向感情抽出

Who Blames or Endorses Whom? Entity-to-Entity Directed Sentiment Extraction in News Text ( http://arxiv.org/abs/2106.01033v1 )

ライセンス: CC BY-SA 4.0
Kunwoo Park, Zhufeng Pan, and Jungseock Joo(参考訳) 誰がニューステキストで誰を非難するか、支持するかを理解することは、計算社会科学における重要な研究課題である。 しかし、感情分析の伝統的な方法やデータセットは、エンティティ間で表現される感情の方向を考慮しないため、政治的テキストの領域には適していない。 本稿では、あるニュース文書から政治団体間の有向感情関係を識別する新たなNLPタスクを提案し、これを「有向感情抽出」と呼ぶ。 百万規模のニュースコーパスから、政治団体の感情関係を手作業で注釈付けしたニュース文のデータセットを構築する。 本稿では,複数問合せタスクの予測と結果の組み合わせにより,対象クラスを推論する事前学習型トランスフォーマーの簡易かつ効果的な手法を提案する。 2016年アメリカ合衆国大統領選挙と新型コロナウイルス(covid-19)の2つの主要イベントにおいて、政体間の肯定的・否定的な意見を分析し、社会科学研究のための提案手法の有用性を実証する。 新たに提案された問題,データ,手法は,学際的NLP法と応用の今後の研究を促進する。

Understanding who blames or supports whom in news text is a critical research question in computational social science. Traditional methods and datasets for sentiment analysis are, however, not suitable for the domain of political text as they do not consider the direction of sentiments expressed between entities. In this paper, we propose a novel NLP task of identifying directed sentiment relationship between political entities from a given news document, which we call directed sentiment extraction. From a million-scale news corpus, we construct a dataset of news sentences where sentiment relations of political entities are manually annotated. We present a simple but effective approach for utilizing a pretrained transformer, which infers the target class by predicting multiple question-answering tasks and combining the outcomes. We demonstrate the utility of our proposed method for social science research questions by analyzing positive and negative opinions between political entities in two major events: 2016 U.S. presidential election and COVID-19. The newly proposed problem, data, and method will facilitate future studies on interdisciplinary NLP methods and applications.
翻訳日:2021-06-04 04:52:05 公開日:2021-06-02
# (参考訳) Hi-Transformer: 効率的な文書モデリングのための階層型インタラクティブトランス

Hi-Transformer: Hierarchical Interactive Transformer for Efficient and Effective Long Document Modeling ( http://arxiv.org/abs/2106.01040v1 )

ライセンス: CC0 1.0
Chuhan Wu, Fangzhao Wu, Tao Qi, Yongfeng Huang(参考訳) Transformerはテキストモデリングにおいて重要である。 しかし,入力テキスト長の二次的複雑さのため,長い文書を扱うのが困難である。 この問題に対処するために,効率的な長文モデリングのための階層型対話型変換器(Hi-Transformer)を提案する。 ハイトランスフォーマーは、まず文表現を学習し、次に文書表現を学習する階層的な方法で文書をモデル化する。 複雑性を効果的に低減し、また各文のモデリングにおいてグローバルな文書コンテキストをキャプチャする。 具体的には,まず文変換器を用いて各文の表現を学習する。 次に、これらの文表現からグローバル文書コンテキストをモデル化するために文書トランスフォーマを使用する。 次に、別の文変換器を用いて、グローバル文書コンテキストを用いた文モデリングを強化する。 最後に,階層的プーリング手法を用いて文書埋め込みを行う。 長期文書モデリングにおけるHi-Transformerの有効性と有効性を検証する。

Transformer is important for text modeling. However, it has difficulty in handling long documents due to the quadratic complexity with input text length. In order to handle this problem, we propose a hierarchical interactive Transformer (Hi-Transformer) for efficient and effective long document modeling. Hi-Transformer models documents in a hierarchical way, i.e., first learns sentence representations and then learns document representations. It can effectively reduce the complexity and meanwhile capture global document context in the modeling of each sentence. More specifically, we first use a sentence Transformer to learn the representations of each sentence. Then we use a document Transformer to model the global document context from these sentence representations. Next, we use another sentence Transformer to enhance sentence modeling using the global document context. Finally, we use hierarchical pooling method to obtain document embedding. Extensive experiments on three benchmark datasets validate the efficiency and effectiveness of Hi-Transformer in long document modeling.
翻訳日:2021-06-04 04:37:11 公開日:2021-06-02
# (参考訳) 非ガウス分布の不斉性を利用した知識グラフの因果発見

Causal Discovery in Knowledge Graphs by Exploiting Asymmetric Properties of Non-Gaussian Distributions ( http://arxiv.org/abs/2106.01043v1 )

ライセンス: CC BY 4.0
Rohan Giriraj, Sinnu Susan Thomas(参考訳) 近年,機械学習モデルにおける一般化と解釈可能性向上のために,因果モデリングが広く用いられている。 ランダムな試行がない場合の因果関係を判断するために、十分なドメイン知識を与えられた反ファクトや介入を用いて因果系をモデル化することができる。 しかし、ドメイン知識がほとんど欠落しているケースがいくつかあり、唯一のリコースは統計的手法を用いて因果関係を推定することである。 構造化されていないデータにおける因果関係を推定する方法はいくつかあるが、知識グラフ(KG)における因果関係を推定するための明確に定義されたフレームワークはまだ見つかっていない。 ドメイン間の複雑な関係を持つデータのためのセマンティックフレームワークを提供するのが一般的である。 本研究では, kg における因果関係の発見を可能にするハイブリッドアプローチを定義する。 提案手法は,非ガウス的モデルを用いた非ガウス的行列の瞬時因果構造,すなわち非ガウス的セッティングにおける変数の因果順序を求めることに基づく。 非実験行列は、KGの隣接テンソルを分解して得られる低次元テンソル射影である。 因果発見のための2つのアルゴリズムと、kgを分解し、それらを組み合わせて1kgの因果構造を得る2つのアルゴリズムを用いる。

In recent years, causal modelling has been used widely to improve generalization and to provide interpretability in machine learning models. To determine cause-effect relationships in the absence of a randomized trial, we can model causal systems with counterfactuals and interventions given enough domain knowledge. However, there are several cases where domain knowledge is almost absent and the only recourse is using a statistical method to estimate causal relationships. While there have been several works done in estimating causal relationships in unstructured data, we are yet to find a well-defined framework for estimating causal relationships in Knowledge Graphs (KG). It is commonly used to provide a semantic framework for data with complex inter-domain relationships. In this work, we define a hybrid approach that allows us to discover cause-effect relationships in KG. The proposed approach is based around the finding of the instantaneous causal structure of a non-experimental matrix using a non-Gaussian model, i.e; finding the causal ordering of the variables in a non-Gaussian setting. The non-experimental matrix is a low-dimensional tensor projection obtained by decomposing the adjacency tensor of a KG. We use two different pre-existing algorithms, one for the causal discovery and the other for decomposing the KG and combining them to get the causal structure in a KG.
翻訳日:2021-06-04 04:29:59 公開日:2021-06-02
# (参考訳) 期待されるScalarised Returns支配 - 複数目的決定のための新しいソリューションコンセプト

Expected Scalarised Returns Dominance: A New Solution Concept for Multi-Objective Decision Making ( http://arxiv.org/abs/2106.01048v1 )

ライセンス: CC BY 4.0
Conor F. Hayes, Timothy Verstraeten, Diederik M. Roijers, Enda Howley, Patrick Mannion(参考訳) 多くの現実世界のシナリオでは、ユーザのユーティリティはポリシーの単一の実行から派生しています。 この場合、多目的強化学習を適用するには、期待するリターンの有用性を最適化する必要がある。 目的(ユーティリティ関数としても知られる)に対するユーザの好みが不明で、特定が難しい、さまざまなシナリオが存在する。 このようなシナリオでは、最適なポリシーのセットを学ぶ必要があります。 しかし、期待されるユーティリティを最大化しなければならない設定は、多目的強化学習コミュニティによってほとんど見過ごされ、その結果、最適解のセットがまだ定義されていない。 本稿では,期待できる実用性を最大化するための解集合を構築するための基準として,一階の確率的支配を提案する。 また,一階の確率的支配を拡張して,一連の最適政策を実践的に学習可能にする,期待スカラーリターン(destination scalarised return, esr)支配と呼ばれる新しい支配基準を提案する。 次に、ESR支配的なポリシーの集合であるESRセットと呼ばれる新しいソリューションの概念を定義します。 最後に,多目的分散表型強化学習(MOT-DRL)アルゴリズムを定義し,多目的マルチアームバンディット設定のESR集合を学習する。

In many real-world scenarios, the utility of a user is derived from the single execution of a policy. In this case, to apply multi-objective reinforcement learning, the expected utility of the returns must be optimised. Various scenarios exist where a user's preferences over objectives (also known as the utility function) are unknown or difficult to specify. In such scenarios, a set of optimal policies must be learned. However, settings where the expected utility must be maximised have been largely overlooked by the multi-objective reinforcement learning community and, as a consequence, a set of optimal solutions has yet to be defined. In this paper we address this challenge by proposing first-order stochastic dominance as a criterion to build solution sets to maximise expected utility. We also propose a new dominance criterion, known as expected scalarised returns (ESR) dominance, that extends first-order stochastic dominance to allow a set of optimal policies to be learned in practice. We then define a new solution concept called the ESR set, which is a set of policies that are ESR dominant. Finally, we define a new multi-objective distributional tabular reinforcement learning (MOT-DRL) algorithm to learn the ESR set in a multi-objective multi-armed bandit setting.
翻訳日:2021-06-04 04:17:37 公開日:2021-06-02
# (参考訳) 拡張現実応用における建物識別のための新しいエッジ検出演算子

A Novel Edge Detection Operator for Identifying Buildings in Augmented Reality Applications ( http://arxiv.org/abs/2106.01055v1 )

ライセンス: CC0 1.0
Ciprian Orhei and Silviu Vert and Radu Vasiu(参考訳) 拡張現実(Augmented Reality)は環境改善技術であり、観光や文化など多くの分野に広く応用されている。 この分野での大きな課題の1つは、コンピュータビジョン技術による正確な建物情報の検出と抽出である。 エッジ検出は、コンピュータビジョンにおける多くの特徴抽出ソリューションのビルディングブロック操作の1つである。 ARシステムは、建物の抽出や建物からのファサード詳細の抽出にエッジ検出を使用する。 本稿では,建築輪郭やファサードの特徴をよりよく抽出することを目的とした,エッジ検出のための新しいフィルタ演算子を提案する。 提案フィルタは,我々の目的にとって重要な垂直・水平方向のエッジを見つけるための重みを与える。

Augmented Reality is an environment-enhancing technology, widely applied in many domains, such as tourism and culture. One of the major challenges in this field is precise detection and extraction of building information through Computer Vision techniques. Edge detection is one of the building blocks operations for many feature extraction solutions in Computer Vision. AR systems use edge detection for building extraction or for extraction of facade details from buildings. In this paper, we propose a novel filter operator for edge detection that aims to extract building contours or facade features better. The proposed filter gives more weight for finding vertical and horizontal edges that is an important feature for our aim.
翻訳日:2021-06-04 04:16:34 公開日:2021-06-02
# (参考訳) ジョンはメアリーを褒めたの? LMにおける難因性バイアスと明示的キューとの相互作用

John praised Mary because he? Implicit Causality Bias and Its Interaction with Explicit Cues in LMs ( http://arxiv.org/abs/2106.01060v1 )

ライセンス: CC BY 4.0
Yova Kementchedjhieva, Mark Anderson and Anders S{\o}gaard(参考訳) 一部の対人動詞は、因果関係を主題または対象に暗黙的に関連付けることができ、従って暗黙の因果性(IC)バイアスを持つとされる。 このバイアスにより、因果関係は物語から推論され、言語理解を支援する。 我々は,事前学習言語モデル(PLM)がICバイアスを符号化し,推論時に利用するかどうかを検討する。 3つの異なるPLMアーキテクチャでは、異なる度合いではあるものの、そうであることがわかる。 しかし、因果関係は必ずしも暗黙的である必要はなく、従属節で明示された原因がある場合、主節の動詞に付随する矛盾したICバイアスが人間の処理の遅れにつながる。 動詞の語彙意味論から,文レベルの意味論から,2つの矛盾する信号を統合する際に人間が直面する一時的な課題は,因果関係に依存するタスクのモデルに対する高い誤り率に反映されると仮定した。 以上の結果から,PLMは高次信号よりも語彙パターンを優先する傾向が示唆された。

Some interpersonal verbs can implicitly attribute causality to either their subject or their object and are therefore said to carry an implicit causality (IC) bias. Through this bias, causal links can be inferred from a narrative, aiding language comprehension. We investigate whether pre-trained language models (PLMs) encode IC bias and use it at inference time. We find that to be the case, albeit to different degrees, for three distinct PLM architectures. However, causes do not always need to be implicit -- when a cause is explicitly stated in a subordinate clause, an incongruent IC bias associated with the verb in the main clause leads to a delay in human processing. We hypothesize that the temporary challenge humans face in integrating the two contradicting signals, one from the lexical semantics of the verb, one from the sentence-level semantics, would be reflected in higher error rates for models on tasks dependent on causal links. The results of our study lend support to this hypothesis, suggesting that PLMs tend to prioritize lexical patterns over higher-order signals.
翻訳日:2021-06-04 04:10:56 公開日:2021-06-02
# (参考訳) 議論的テキストに対する情報的結論の生成

Generating Informative Conclusions for Argumentative Texts ( http://arxiv.org/abs/2106.01064v1 )

ライセンス: CC BY 4.0
Shahbaz Syed, Khalid Al-Khatib, Milad Alshomary, Henning Wachsmuth, and Martin Potthast(参考訳) 議論的なテキストの目的は、ある結論を支持することである。 しかし、しばしば省略され、読者がそれを推測することを期待する。 個々のテキストを読むのに適しているが、この修辞的装置は多くのテキスト(例えば検索エンジンやソーシャルメディア)を閲覧する場合のアクセシビリティを制限する。 これらのシナリオでは、明示的な結論は議論的なテキストのよい要約となる。 これは、結論が情報であり、特定の概念をテキストから強調する場合に特に当てはまる。 本稿では,まず webis-conclugen-21 をコンパイルし,136,996 個の議論テキストの大規模コーパスを作成し,その結論を述べる。 第2に、結論生成のための2つのパラダイム、すなわち1つの抽出、もう1つの抽象的な性質について検討する。 後者は、制御コードを通じてデータを増大させ、コーパスのいくつかのサブセットでBARTモデルを微調整する議論的な知識を利用する。 第3に、タスクに対するコーパスの適合性、二つの世代のパラダイムの違い、情報性と簡潔さのトレードオフ、議論的知識のエンコーディングの影響について、洞察を提供する。 コーパス、コード、トレーニングされたモデルが公開されている。

The purpose of an argumentative text is to support a certain conclusion. Yet, they are often omitted, expecting readers to infer them rather. While appropriate when reading an individual text, this rhetorical device limits accessibility when browsing many texts (e.g., on a search engine or on social media). In these scenarios, an explicit conclusion makes for a good candidate summary of an argumentative text. This is especially true if the conclusion is informative, emphasizing specific concepts from the text. With this paper we introduce the task of generating informative conclusions: First, Webis-ConcluGen-21 is compiled, a large-scale corpus of 136,996 samples of argumentative texts and their conclusions. Second, two paradigms for conclusion generation are investigated; one extractive, the other abstractive in nature. The latter exploits argumentative knowledge that augment the data via control codes and finetuning the BART model on several subsets of the corpus. Third, insights are provided into the suitability of our corpus for the task, the differences between the two generation paradigms, the trade-off between informativeness and conciseness, and the impact of encoding argumentative knowledge. The corpus, code, and the trained models are publicly available.
翻訳日:2021-06-04 03:50:38 公開日:2021-06-02
# (参考訳) 最適輸送予測によるグループフェアネスの検証

Testing Group Fairness via Optimal Transport Projections ( http://arxiv.org/abs/2106.01070v1 )

ライセンス: CC BY 4.0
Nian Si and Karthyek Murthy and Jose Blanchet and Viet Anh Nguyen(参考訳) 与えられた機械学習分類器が、幅広いグループフェアネスの概念を満たさないかどうかを検出するための統計的テストフレームワークを提案する。 提案したテストは、アルゴリズムに固有のバイアスがあるか、あるいはデータのランダム性のために、柔軟で解釈可能で統計的に厳密な検査ツールである。 グループフェアネスを定義し、モデルパラメータに不連続な複数の影響基準から生じる可能性のある統計的課題は、最適輸送を用いたグループフェア確率モデルの集合に経験的測度を投影することによって、都合よく取り組まれる。 この統計は線形プログラミングを用いて効率的に計算し、その漸近分布を明示的に求める。 提案フレームワークは, 複合フェアネス仮説と複数の感度特性を用いた公正性試験にも利用できる。 最適輸送試験定式化は、監査で観測されるバイアスをなくすための最小共変量摂動を特徴付けることにより、解釈性を向上させる。

We present a statistical testing framework to detect if a given machine learning classifier fails to satisfy a wide range of group fairness notions. The proposed test is a flexible, interpretable, and statistically rigorous tool for auditing whether exhibited biases are intrinsic to the algorithm or due to the randomness in the data. The statistical challenges, which may arise from multiple impact criteria that define group fairness and which are discontinuous on model parameters, are conveniently tackled by projecting the empirical measure onto the set of group-fair probability models using optimal transport. This statistic is efficiently computed using linear programming and its asymptotic distribution is explicitly obtained. The proposed framework can also be used to test for testing composite fairness hypotheses and fairness with multiple sensitive attributes. The optimal transport testing formulation improves interpretability by characterizing the minimal covariate perturbations that eliminate the bias observed in the audit.
翻訳日:2021-06-04 03:31:33 公開日:2021-06-02
# (参考訳) KO-PDE:変数係数を持つ部分微分方程式のカーネル最適化発見

KO-PDE: Kernel Optimized Discovery of Partial Differential Equations with Varying Coefficients ( http://arxiv.org/abs/2106.01078v1 )

ライセンス: CC BY 4.0
Yingtao Luo, Qiang Liu, Yuntian Chen, Wenbo Hu, Jun Zhu(参考訳) 科学データに適合する偏微分方程式(PDE)は、様々な数学的対象に対する説明可能なメカニズムで物理法則を表現することができる。 ほとんどの自然力学は、PDE発見の重要性を強調する様々な係数 (PDEs-VC) を持つPDEによって表現される。 従来のアルゴリズムはPDEs-VCのいくつかの単純な例を発見できるが、係数推定の不正確さの結果、より複雑な係数を持つPDEの発見には失敗する。 本稿では,隣接係数のカーネル密度推定を取り入れ,係数推定誤差を低減したカーネル最適化回帰手法であるko-pdeを提案する。 KO-PDEは、以前のベースラインが失敗し、データ内の避けられないノイズに対してより堅牢なPDE-VCを発見することができる。 実験では、流体力学における7つの挑戦的時空間科学的データセットのPDE-VCがすべてKO-PDEによって発見され、3つのベースラインがほとんどのケースで誤った結果を示す。 KO-PDEは最先端の性能で、現実世界で発見されたPDEを用いて自然現象の自動記述に光を当てる。

Partial differential equations (PDEs) fitting scientific data can represent physical laws with explainable mechanisms for various mathematically-oriented subjects. Most natural dynamics are expressed by PDEs with varying coefficients (PDEs-VC), which highlights the importance of PDE discovery. Previous algorithms can discover some simple instances of PDEs-VC but fail in the discovery of PDEs with coefficients of higher complexity, as a result of coefficient estimation inaccuracy. In this paper, we propose KO-PDE, a kernel optimized regression method that incorporates the kernel density estimation of adjacent coefficients to reduce the coefficient estimation error. KO-PDE can discover PDEs-VC on which previous baselines fail and is more robust against inevitable noise in data. In experiments, the PDEs-VC of seven challenging spatiotemporal scientific datasets in fluid dynamics are all discovered by KO-PDE, while the three baselines render false results in most cases. With state-of-the-art performance, KO-PDE sheds light on the automatic description of natural phenomenons using discovered PDEs in the real world.
翻訳日:2021-06-04 02:47:58 公開日:2021-06-02
# (参考訳) リハーサル型連続学習のためのオンラインコアセット選択

Online Coreset Selection for Rehearsal-based Continual Learning ( http://arxiv.org/abs/2106.01085v1 )

ライセンス: CC BY 4.0
Jaehong Yoon, Divyam Madaan, Eunho Yang, Sung Ju Hwang(参考訳) データセットはタスクを記述するための重要な証拠の集まりです。 しかしながら、データセット内の各データポイントは、他のデータポイントよりも代表的あるいは情報的であるため、同じポテンシャルを持っていない。 データポイント間のこの不平等な重要性は、リハーサルベースの継続的学習に大きな影響を与え、そこでは、後に再生されるトレーニング例(コアセット)のサブセットを格納し、破滅的な忘れを軽減します。 連続学習では、コアセットに格納されたサンプルの品質がモデルの有効性と効率に直接影響する。 コアセット選択問題は、不均衡連続学習や騒がしいデータシナリオなど、現実的な設定の下でさらに重要になる。 そこで本研究では,オンライン・コアセット選択 (ocs) を提案する。オンライン・コアセット選択 (ocs, online coreset selection) は,各イテレーションにおいて最も代表的かつ情報的なコアセットを選択し,オンラインで学習する手法である。 提案手法は,過去のタスクに対して高親和性サンプルを選択しながら,目標データセットへのモデル適応を最大化する。 我々は,様々な標準,不均衡,騒がしいデータセットに対するコアセット選択機構の有効性を検証するとともに,タスク適応性が向上し,サンプル効率のよい方法で壊滅的な忘れることを防止することを実証した。

A dataset is a shred of crucial evidence to describe a task. However, each data point in the dataset does not have the same potential, as some of the data points can be more representative or informative than others. This unequal importance among the data points may have a large impact in rehearsal-based continual learning, where we store a subset of the training examples (coreset) to be replayed later to alleviate catastrophic forgetting. In continual learning, the quality of the samples stored in the coreset directly affects the model's effectiveness and efficiency. The coreset selection problem becomes even more important under realistic settings, such as imbalanced continual learning or noisy data scenarios. To tackle this problem, we propose Online Coreset Selection (OCS), a simple yet effective method that selects the most representative and informative coreset at each iteration and trains them in an online manner. Our proposed method maximizes the model's adaptation to a target dataset while selecting high-affinity samples to past tasks, which directly inhibits catastrophic forgetting. We validate the effectiveness of our coreset selection mechanism over various standard, imbalanced, and noisy datasets against strong continual learning baselines, demonstrating that it improves task adaptation and prevents catastrophic forgetting in a sample-efficient manner.
翻訳日:2021-06-04 01:14:27 公開日:2021-06-02
# (参考訳) belabBERT: 精神医学分類に適用されるオランダのRoBERTaベースの言語モデル

belabBERT: a Dutch RoBERTa-based language model applied to psychiatric classification ( http://arxiv.org/abs/2106.01091v1 )

ライセンス: CC BY 4.0
Joppe Wouts, Janna de Boer, Alban Voppel, Sanne Brederoo, Sander van Splunter and Iris Sommer(参考訳) 自然言語処理(nlp)は、酔い、精神疾患の存在、気道障害の存在、ストレス状態など、人間の特性や状態を自動的に認識するための重要な手段になりつつある。 このようなアプリケーションはオンラインヘルプラインの重要な柱となり、徐々にehealthモジュールに導入される可能性がある。 しかし、NLPは言語固有のものであり、オランダ語のような言語ではNLPモデルは少ない。 その結果、近年のオランダのNLPモデルは、文に対する長い範囲のセマンティックな依存性を低く捉えている。 本稿では,RoBERTaアーキテクチャを拡張した新しいオランダ語モデルであるbelabBERTを紹介する。 belabBERTは、大規模なオランダ語コーパス(+32GB)のWebクロードテキストでトレーニングされている。 精神疾患の分類にbelabBERTを適用した。 まず、belabBERTを用いたテキスト分類の強度を評価し、既存のRobBERTモデルと比較した。 そして,精神疾患の音声分類とbelabBERTの性能を比較した。 最後に、簡単な調査を行い、フレームワークをハイブリッドテキストとオーディオベースの分類に拡張した。 以上の結果から,BlabBERTはオランダ語でもっとも優れたテキスト分類ネットワークであるRobBERTよりも優れていた。 BelabBERTはオーディオのみに基づく分類でも優れている。

Natural language processing (NLP) is becoming an important means for automatic recognition of human traits and states, such as intoxication, presence of psychiatric disorders, presence of airway disorders and states of stress. Such applications have the potential to be an important pillar for online help lines, and may gradually be introduced into eHealth modules. However, NLP is language specific and for languages such as Dutch, NLP models are scarce. As a result, recent Dutch NLP models have a low capture of long range semantic dependencies over sentences. To overcome this, here we present belabBERT, a new Dutch language model extending the RoBERTa architecture. belabBERT is trained on a large Dutch corpus (+32 GB) of web crawled texts. We applied belabBERT to the classification of psychiatric illnesses. First, we evaluated the strength of text-based classification using belabBERT, and compared the results to the existing RobBERT model. Then, we compared the performance of belabBERT to audio classification for psychiatric disorders. Finally, a brief exploration was performed, extending the framework to a hybrid text- and audio-based classification. Our results show that belabBERT outperformed the current best text classification network for Dutch, RobBERT. belabBERT also outperformed classification based on audio alone.
翻訳日:2021-06-04 00:39:49 公開日:2021-06-02
# (参考訳) 圧縮アンサンブルの統計的最適条件

Statistical optimality conditions for compressive ensembles ( http://arxiv.org/abs/2106.01092v1 )

ライセンス: CC BY 4.0
Henry W. J. Reeve, Ata Kaban(参考訳) 本稿では,高次元データの独立ランダム圧縮を訓練した低複雑さ経験的リスクミニマイザのアンサンブルを理論的に解析する枠組みを提案する。 まず, 圧縮可能性の自然な概念を用いて, 過剰リスクに対する一般分布依存上界を導入する。 この境界は元のデータ表現の次元とは独立であり、圧縮的アプローチの組込み正規化効果を説明する。 次に、ジョンソン-リンデンシュトラウス写像を圧縮スキームとして考慮し、この一般化を分類および回帰タスクに縛り付ける。 これらの課題のそれぞれに対して、圧縮可能性関数の厳密な上限を策定し、圧縮アルゴリズムが最小値-最適値の最大値を得るような幾何学的性質の分布条件を明らかにする。 圧縮分類の場合、これは、境界領域の仮定よりもはるかに一般的なフレキシブルモーメント条件とともに、穏やかな幾何学的マージン条件で達成される。 強い凸な滑らかな損失関数を持つ回帰の場合、圧縮回帰は、ほぼ最適の保証でスペクトル減衰を利用することができる。 加えて、中央上界の鍵となる要素は、依存経験過程の統合的偏差の高確率一様上界であり、これは独立した興味を持つかもしれない。

We present a framework for the theoretical analysis of ensembles of low-complexity empirical risk minimisers trained on independent random compressions of high-dimensional data. First we introduce a general distribution-dependent upper-bound on the excess risk, framed in terms of a natural notion of compressibility. This bound is independent of the dimension of the original data representation, and explains the in-built regularisation effect of the compressive approach. We then instantiate this general bound to classification and regression tasks, considering Johnson-Lindenstrauss mappings as the compression scheme. For each of these tasks, our strategy is to develop a tight upper bound on the compressibility function, and by doing so we discover distributional conditions of geometric nature under which the compressive algorithm attains minimax-optimal rates up to at most poly-logarithmic factors. In the case of compressive classification, this is achieved with a mild geometric margin condition along with a flexible moment condition that is significantly more general than the assumption of bounded domain. In the case of regression with strongly convex smooth loss functions we find that compressive regression is capable of exploiting spectral decay with near-optimal guarantees. In addition, a key ingredient for our central upper bound is a high probability uniform upper bound on the integrated deviation of dependent empirical processes, which may be of independent interest.
翻訳日:2021-06-04 00:27:41 公開日:2021-06-02
# (参考訳) T-BERT -- トピックモデルとBERTを統合したマイクロブロッグの知覚解析モデル

T-BERT -- Model for Sentiment Analysis of Micro-blogs Integrating Topic Model and BERT ( http://arxiv.org/abs/2106.01097v1 )

ライセンス: CC BY 4.0
Sarojadevi Palani, Prabhu Rajagopal, Sidharth Pancholi(参考訳) 近年, 感情分析(SA)は, ソーシャルメディアプラットフォームの採用や利用の増加を契機に, 電子商取引, 消費者ビジネス, 政治など様々な分野に影響を及ぼす研究領域となっている。 このような文脈に現れる教師なしの短いテキストからトピックや感情を抽出することは困難であり、それらには比喩的な単語、強みのあるデータ、そして一つの単語やフレーズに考えられる多くの意味の共存が含まれている。 ほとんどの先行研究は、クリーンデータセット上の特定のテーマ/レトリック/フォーカスコンテンツに基づいている。 本報告では、人気のあるマイクロブログプラットフォームから得られた生の生のデータセットから、感情分類タスクにおけるBERT(Bidirectional Encoder Representations from Transformers)の有効性を示す。 T-BERT フレームワークは、潜在トピックとコンテキスト BERT 埋め込みを組み合わせることで得られる性能向上を示す。 NimbleBox.aiプラットフォームを使用して,Nvidia Tesla K80(CUDA),4コアCPU,Google Cloud Platformインスタンス上で動作する15GB RAMを備えた,約42000データセットのアンサンブルで数値実験を行った。 実験の結果,提案手法を用いた感情分類において,BERTにトピックを追加し,90.81%の精度で精度を向上した。

Sentiment analysis (SA) has become an extensive research area in recent years impacting diverse fields including ecommerce, consumer business, and politics, driven by increasing adoption and usage of social media platforms. It is challenging to extract topics and sentiments from unsupervised short texts emerging in such contexts, as they may contain figurative words, strident data, and co-existence of many possible meanings for a single word or phrase, all contributing to obtaining incorrect topics. Most prior research is based on a specific theme/rhetoric/focused-content on a clean dataset. In the work reported here, the effectiveness of BERT(Bidirectional Encoder Representations from Transformers) in sentiment classification tasks from a raw live dataset taken from a popular microblogging platform is demonstrated. A novel T-BERT framework is proposed to show the enhanced performance obtainable by combining latent topics with contextual BERT embeddings. Numerical experiments were conducted on an ensemble with about 42000 datasets using NimbleBox.ai platform with a hardware configuration consisting of Nvidia Tesla K80(CUDA), 4 core CPU, 15GB RAM running on an isolated Google Cloud Platform instance. The empirical results show that the model improves in performance while adding topics to BERT and an accuracy rate of 90.81% on sentiment classification using BERT with the proposed approach.
翻訳日:2021-06-04 00:26:35 公開日:2021-06-02
# (参考訳) 安全な肺癌放射線治療のための非バイアスオンライン再発最適化を用いた再発ニューラルネットワークを用いた外部マーカーの位置予測

Prediction of the Position of External Markers Using a Recurrent Neural Network Trained With Unbiased Online Recurrent Optimization for Safe Lung Cancer Radiotherapy ( http://arxiv.org/abs/2106.01100v1 )

ライセンス: CC BY 4.0
Michel Pohl, Mitsuru Uesaka, Hiroyuki Takahashi, Kazuyuki Demachi and Ritu Bhusal Chhatkuli(参考訳) 肺癌放射線療法では、胸部における赤外線反射物体の位置を記録し、腫瘍の位置を推定することができる。 しかし、放射線治療システムは通常、放射線伝達精度を阻害するロボット制御の制限に固有の遅延を有する。 この現象を考慮していないと、健康な組織に不必要に損傷を与え、放射線肺炎などの副作用を引き起こす可能性がある。 本研究では,73秒から222秒の間隔で呼吸する健常人の胸部と腹部の3つの外部マーカーの3次元位置に関する9つの観察記録を用いた。 サンプリング周波数は10hzで、記録された軌跡の振幅は優占方向の6mmから40mmである。 我々は、未バイアスオンライン再帰最適化(UORO)を訓練したリカレントニューラルネットワーク(RNN)を用いて、各マーカーの位置を0.1秒から2.0秒間の地平線値(事前の時間間隔)と同時に予測する。 実時間繰り返し学習、最小平均平方(LMS)、オフライン線形回帰を訓練したRNNと比較した。 訓練と相互評価は、各シーケンスの1分間に行われる。 UOROは平均して最低根平均二乗(RMS)と最大誤差(それぞれ1.3mmと8.8mm)を達成し、時間当たりの予測時間は2.8ms以下である(Dell Intel core i9-9900K 3.60Ghz)。 線形回帰は地平線値0.1sと0.2sに対して最も低いRMS誤差を持ち、次は地平線値0.3sから0.5s、UOROは0.6s以上である。

During lung cancer radiotherapy, the position of infrared reflective objects on the chest can be recorded to estimate the tumor location. However, radiotherapy systems usually have a latency inherent to robot control limitations that impedes the radiation delivery precision. Not taking this phenomenon into account may cause unwanted damage to healthy tissues and lead to side effects such as radiation pneumonitis. In this research, we use nine observation records of the three-dimensional position of three external markers on the chest and abdomen of healthy individuals breathing during intervals from 73s to 222s. The sampling frequency is equal to 10Hz and the amplitudes of the recorded trajectories range from 6mm to 40mm in the superior-inferior direction. We forecast the location of each marker simultaneously with a horizon value (the time interval in advance for which the prediction is made) between 0.1s and 2.0s, using a recurrent neural network (RNN) trained with unbiased online recurrent optimization (UORO). We compare its performance with an RNN trained with real-time recurrent learning, least mean squares (LMS), and offline linear regression. Training and cross-validation are performed during the first minute of each sequence. On average, UORO achieves the lowest root-mean-square (RMS) and maximum error, equal respectively to 1.3mm and 8.8mm, with a prediction time per time step lower than 2.8ms (Dell Intel core i9-9900K 3.60Ghz). Linear regression has the lowest RMS error for the horizon values 0.1s and 0.2s, followed by LMS for horizon values between 0.3s and 0.5s, and UORO for horizon values greater than 0.6s.
翻訳日:2021-06-04 00:13:20 公開日:2021-06-02
# (参考訳) ピンボール損失支援ベクトルマシンの改良

Improvement over Pinball Loss Support Vector Machine ( http://arxiv.org/abs/2106.01109v1 )

ライセンス: CC BY 4.0
Pritam Anand, Reshma Rastogi and Suresh Chandra(参考訳) 近年,Huangらによって提案されたPinball Los Support Vector Machine(Pin-SVM)モデルの拡張について議論する論文がいくつかある。 Pin-SVM分類器は、パラメータ$\tau$で定義されたPinball損失関数を扱う。 パラメータ $\tau$ は $[ -1,1]$ で値を取ることができる。 既存のPin-SVMモデルは、$\tau$ in $[ -1,1]$のすべての値に対して同じ最適化問題を解決する必要がある。 本稿では,バイナリ分類タスクのための既存のPin-SVMモデルを改善する。 最初は、pin-svmモデル(huangなど)には大きな困難があることに気付きました。 [1]) for $ -1 \leq \tau < 0$。 具体的には、pin-svmモデルは、異なる最適化問題の解が -1 \leq \tau < 0$ であることを示す。 さらに、統一pin-svmと呼ばれる統一モデルを提案し、すべての$-1\leq \tau \leq 1$に対してqppが有効となり、使用がより便利になる。 提案する統一pin-svmモデルは,実世界のデータセットを用いた広範囲な数値実験によって実証的に正当化されてきた既存のpin-svmモデルよりも精度が大幅に向上する。

Recently, there have been several papers that discuss the extension of the Pinball loss Support Vector Machine (Pin-SVM) model, originally proposed by Huang et al.,[1][2]. Pin-SVM classifier deals with the pinball loss function, which has been defined in terms of the parameter $\tau$. The parameter $\tau$ can take values in $[ -1,1]$. The existing Pin-SVM model requires to solve the same optimization problem for all values of $\tau$ in $[ -1,1]$. In this paper, we improve the existing Pin-SVM model for the binary classification task. At first, we note that there is major difficulty in Pin-SVM model (Huang et al. [1]) for $ -1 \leq \tau < 0$. Specifically, we show that the Pin-SVM model requires the solution of different optimization problem for $ -1 \leq \tau < 0$. We further propose a unified model termed as Unified Pin-SVM which results in a QPP valid for all $-1\leq \tau \leq 1$ and hence more convenient to use. The proposed Unified Pin-SVM model can obtain a significant improvement in accuracy over the existing Pin-SVM model which has also been empirically justified by extensive numerical experiments with real-world datasets.
翻訳日:2021-06-03 23:54:06 公開日:2021-06-02
# (参考訳) センサノードのエネルギー管理のための強化学習における逆関数の設計と比較

Design and Comparison of Reward Functions in Reinforcement Learning for Energy Management of Sensor Nodes ( http://arxiv.org/abs/2106.01114v1 )

ライセンス: CC BY 4.0
Yohann Rioual (1), Yannick Le Moullec (2), Johann Laurent (1), Muhidul Islam Khan (2) and Jean-Philippe Diguet (3) ((1) Lab-STICC, University Bretagne Sud, (2) Thomas Johann Seebeck Department of Electronics, Tallinn University of Technology, (3) IRL CNRS CROSSING)(参考訳) IoT(Internet-of-Things)パラダイムの最近の進歩により、リモート監視への関心が高まっている。 センサノードと呼ばれる小さなデバイスを使って、環境からデータを収集して処理できる新しいアプリケーションが登場した。 しかし、より多くのデータが処理され、より長い運用期間で送信される。 同時に、バッテリー技術は、こうした需要の増加に対応するのに十分な速度で改善されていない。 これによりエネルギー消費問題はますます難しくなり、従来のエネルギー源を補完する小型のエネルギー収穫装置が出現した。 それでも、収穫されたエネルギーはノード操作中に著しく変動し、実際に利用可能なエネルギー資源の不確実性が増大する。 近年,特に強化学習を用いたエネルギー管理手法が開発されている。 しかし、強化学習では、アルゴリズムの性能は報酬関数に大きく依存する。 本稿では2つの貢献について述べる。 まず、5つの異なる報酬関数を探索し、そのような関数で使用する最も適切な変数を特定し、望ましい振る舞いを得る。 q-learningアルゴリズムを用いて, 収穫エネルギーに応じてエネルギー消費量を調整する実験を行った。 5つの報酬関数による結果は、その選択がノードのエネルギー消費に与える影響を示す。 次に,非固定型バランシングパラメータを用いて,エネルギー消費とノード性能の妥協を見出すことのできる2つの報酬関数を提案する。 シミュレーションの結果,提案した報奨関数は,バッテリレベルに応じてノードの性能を調整し,学習時間を短縮することがわかった。

Interest in remote monitoring has grown thanks to recent advancements in Internet-of-Things (IoT) paradigms. New applications have emerged, using small devices called sensor nodes capable of collecting data from the environment and processing it. However, more and more data are processed and transmitted with longer operational periods. At the same, the battery technologies have not improved fast enough to cope with these increasing needs. This makes the energy consumption issue increasingly challenging and thus, miniaturized energy harvesting devices have emerged to complement traditional energy sources. Nevertheless, the harvested energy fluctuates significantly during the node operation, increasing uncertainty in actually available energy resources. Recently, approaches in energy management have been developed, in particular using reinforcement learning approaches. However, in reinforcement learning, the algorithm's performance relies greatly on the reward function. In this paper, we present two contributions. First, we explore five different reward functions to identify the most suitable variables to use in such functions to obtain the desired behaviour. Experiments were conducted using the Q-learning algorithm to adjust the energy consumption depending on the energy harvested. Results with the five reward functions illustrate how the choice thereof impacts the energy consumption of the node. Secondly, we propose two additional reward functions able to find the compromise between energy consumption and a node performance using a non-fixed balancing parameter. Our simulation results show that the proposed reward functions adjust the node's performance depending on the battery level and reduce the learning time.
翻訳日:2021-06-03 23:43:12 公開日:2021-06-02
# (参考訳) 反実および不変データ生成によるロバスト分類モデルの構築

Towards Robust Classification Model by Counterfactual and Invariant Data Generation ( http://arxiv.org/abs/2106.01127v1 )

ライセンス: CC BY 4.0
Chun-Hao Chang, George Alexandru Adam, Anna Goldenberg(参考訳) 科学、産業、社会全般における機械学習の応用の成功にもかかわらず、多くのアプローチは非破壊的であることが知られており、しばしば予測を行うために急激な相関に依存する。 このような特徴に依存することで、そのような相関関係が壊れている未発見の環境への一般化が妨げられる。 本研究では,画像分類に焦点をあてて2つのデータ生成プロセスを提案する。 ラベルに責任のある機能(causal)のサブセットの人間のアノテーションが与えられた場合(例えば) 境界ボックス) この因果集合を変更して、同じラベル(すなわち、もはや同じラベルを持たない代理画像を生成する。 counterfactual (複数形 counterfactuals) また、元のラベルとして認識されている画像を生成するために、非因果的特徴を変更し、これらの特徴に不変なモデルを学ぶのに役立ちます。 いくつかの挑戦的なデータセットでは、我々のデータ生成は、急激な相関が壊れたときの精度で最先端の手法より優れており、より優れた説明を提供する因果的特徴に焦点を絞っている。

Despite the success of machine learning applications in science, industry, and society in general, many approaches are known to be non-robust, often relying on spurious correlations to make predictions. Spuriousness occurs when some features correlate with labels but are not causal; relying on such features prevents models from generalizing to unseen environments where such correlations break. In this work, we focus on image classification and propose two data generation processes to reduce spuriousness. Given human annotations of the subset of the features responsible (causal) for the labels (e.g. bounding boxes), we modify this causal set to generate a surrogate image that no longer has the same label (i.e. a counterfactual image). We also alter non-causal features to generate images still recognized as the original labels, which helps to learn a model invariant to these features. In several challenging datasets, our data generations outperform state-of-the-art methods in accuracy when spurious correlations break, and increase the saliency focus on causal features providing better explanations.
翻訳日:2021-06-03 23:29:14 公開日:2021-06-02
# (参考訳) 低ランク結合とコストを用いた線形時間Gromov Wasserstein距離

Linear-Time Gromov Wasserstein Distances using Low Rank Couplings and Costs ( http://arxiv.org/abs/2106.01128v1 )

ライセンス: CC BY 4.0
Meyer Scetbon, Gabriel Peyr\'e, Marco Cuturi(参考訳) 異種空間に居住する関連するデータセットを比較して整列する能力は、機械学習においてますます重要な役割を果たす。 gromov-wasserstein (gw)形式はこの問題に取り組むのに役立つ。 その主な目標は、比較不能なデータセットにポイントを登録できる代入(より一般的には結合行列)を求めることである。 非凸かつ二次的な最適輸送(OT)の一般化として、GWはNPハードである。 しかし、ヒューリスティックスは実際かなりうまく機能することが知られており、最先端の手法は入れ子化された正規化ot問題の列を解くことである。 人気があるとはいえ、このヒューリスティックはスケールするにはコストがかかりすぎ、サンプル数に3分の1の複雑さがある。 本稿では,Sinkhornアルゴリズムの最近の変種が,GWの分解能を大幅に向上させる方法を示す。 この変種は、許容結合の集合を2つの部分結合の積として低階分解を許容するものに制限する。 各サブカップリングを交互に更新することで、本アルゴリズムはサンプル数に対して二次時間で問題の静止点を計算する。 コスト行列が低ランクであるとき、我々のアルゴリズムは時間複雑性$\mathcal{O}(n)$である。 シミュレーションおよび実データに対する提案手法の有効性を実証する。

The ability to compare and align related datasets living in heterogeneous spaces plays an increasingly important role in machine learning. The Gromov-Wasserstein (GW) formalism can help tackle this problem. Its main goal is to seek an assignment (more generally a coupling matrix) that can register points across otherwise incomparable datasets. As a non-convex and quadratic generalization of optimal transport (OT), GW is NP-hard. Yet, heuristics are known to work reasonably well in practice, the state of the art approach being to solve a sequence of nested regularized OT problems. While popular, that heuristic remains too costly to scale, with cubic complexity in the number of samples $n$. We show in this paper how a recent variant of the Sinkhorn algorithm can substantially speed up the resolution of GW. That variant restricts the set of admissible couplings to those admitting a low rank factorization as the product of two sub-couplings. By updating alternatively each sub-coupling, our algorithm computes a stationary point of the problem in quadratic time with respect to the number of samples. When cost matrices have themselves low rank, our algorithm has time complexity $\mathcal{O}(n)$. We demonstrate the efficiency of our method on simulated and real data.
翻訳日:2021-06-03 23:12:42 公開日:2021-06-02
# (参考訳) 深層強化学習に向けて

Towards Deeper Deep Reinforcement Learning ( http://arxiv.org/abs/2106.01151v1 )

ライセンス: CC BY 4.0
Johan Bjorck, Carla P. Gomes, Kilian Q. Weinberger(参考訳) コンピュータビジョンや自然言語処理では、モデルの能力向上につながるモデルアーキテクチャの革新が、確実にパフォーマンスの向上に変換されている。 この傾向とは対照的に、最先端強化学習(RL)アルゴリズムは小さなMLPしか使用せず、性能の向上はアルゴリズムの革新から生じることが多い。 RLの小さなデータセットは過剰適合を避けるために単純なモデルを必要とするという仮説は自然であるが、この仮説は証明されていない。 本稿では,小型MLPをスキップ接続と正規化を備えた大規模ネットワークと交換することにより,RLエージェントがどのように影響するかについて検討する。 経験的に、このようなアーキテクチャをna\"積極的に採用することは不安定さと性能の低下をもたらし、実際に単純なモデルが普及する原因となる可能性が高いことを検証します。 しかし,データセットのサイズが制限要因ではないことを示し,その代わりに,sacのアクタが批判者を通じて勾配を取る内在的不安定性が原因であると主張する。 簡単な平滑化手法がこの問題を緩和し,大規模アーキテクチャによる安定したトレーニングを可能にすることを実証する。 平滑化の後、より大きなモデルは最先端のエージェントに劇的なパフォーマンス改善をもたらす - アルゴリズム的なイノベーションに加えて、モデルアーキテクチャに重点を置くことで、より"簡単"な成果が得られることを示唆する。

In computer vision and natural language processing, innovations in model architecture that lead to increases in model capacity have reliably translated into gains in performance. In stark contrast with this trend, state-of-the-art reinforcement learning (RL) algorithms often use only small MLPs, and gains in performance typically originate from algorithmic innovations. It is natural to hypothesize that small datasets in RL necessitate simple models to avoid overfitting; however, this hypothesis is untested. In this paper we investigate how RL agents are affected by exchanging the small MLPs with larger modern networks with skip connections and normalization, focusing specifically on soft actor-critic (SAC) algorithms. We verify, empirically, that na\"ively adopting such architectures leads to instabilities and poor performance, likely contributing to the popularity of simple models in practice. However, we show that dataset size is not the limiting factor, and instead argue that intrinsic instability from the actor in SAC taking gradients through the critic is the culprit. We demonstrate that a simple smoothing method can mitigate this issue, which enables stable training with large modern architectures. After smoothing, larger models yield dramatic performance improvements for state-of-the-art agents -- suggesting that more "easy" gains may be had by focusing on model architectures in addition to algorithmic innovations.
翻訳日:2021-06-03 22:23:35 公開日:2021-06-02
# (参考訳) エンドツーエンドNLP知識グラフ構築

End-to-End NLP Knowledge Graph Construction ( http://arxiv.org/abs/2106.01167v1 )

ライセンス: CC BY 4.0
Ishani Mondal, Yufang Hou and Charles Jochim(参考訳) 本稿では科学論文からNLP知識グラフ(KG)のエンドツーエンド構築について考察する。 タスクとデータセット間の評価、タスクと評価メトリクス間の評価、および同じタイプのエンティティ間のcoreferentおよび関連関係の4つのタイプの関係の抽出に焦点を当てた。 例えば、F1スコアはF測度とコアフェレントである。 我々はこれらの関係タイプごとに新しい手法を導入し、最終フレームワーク(SciNLP-KG)をACLアンソロジーから30,000のNLP論文に適用して大規模なKGを構築する。 その結果,KGは高品質な情報を含むことがわかった。

This paper studies the end-to-end construction of an NLP Knowledge Graph (KG) from scientific papers. We focus on extracting four types of relations: evaluatedOn between tasks and datasets, evaluatedBy between tasks and evaluation metrics, as well as coreferent and related relations between the same type of entities. For instance, F1-score is coreferent with F-measure. We introduce novel methods for each of these relation types and apply our final framework (SciNLP-KG) to 30,000 NLP papers from ACL Anthology to build a large-scale KG, which can facilitate automatically constructing scientific leaderboards for the NLP community. The results of our experiments indicate that the resulting KG contains high-quality information.
翻訳日:2021-06-03 22:02:55 公開日:2021-06-02
# (参考訳) 人間とボットの相互作用における言語的制約を特徴付けるボット生成テキストの検出

Detecting Bot-Generated Text by Characterizing Linguistic Accommodation in Human-Bot Interactions ( http://arxiv.org/abs/2106.01170v1 )

ライセンス: CC BY 4.0
Paras Bhatt and Anthony Rios(参考訳) 言語生成モデルの民主化は、健康に関する質問に答えることから、AI駆動のチューリングサービスを提供することで教育を強化することまで、多くのドメインに恩恵をもたらす。 しかし、言語生成モデルの民主化は、誤情報を拡散するから、ヘイトスピーチのある特定のグループをターゲットにするまで、人間のようなテキストを大規模に生成しやすくする。 したがって、人々がボットとどのように相互作用するかを理解し、ボット生成テキストを検出する方法を開発することが不可欠である。 本稿では,ボットが生成したテキスト検出手法が,ボットのテキストを直接使用するのではなく,人々の反応に関する情報を使用する場合,データセットやモデル間でより堅牢であることを示す。 また,言語的アライメントを分析し,人間とロボットの会話の違いについて考察する。

Language generation models' democratization benefits many domains, from answering health-related questions to enhancing education by providing AI-driven tutoring services. However, language generation models' democratization also makes it easier to generate human-like text at-scale for nefarious activities, from spreading misinformation to targeting specific groups with hate speech. Thus, it is essential to understand how people interact with bots and develop methods to detect bot-generated text. This paper shows that bot-generated text detection methods are more robust across datasets and models if we use information about how people respond to it rather than using the bot's text directly. We also analyze linguistic alignment, providing insight into differences between human-human and human-bot conversations.
翻訳日:2021-06-03 21:47:32 公開日:2021-06-02
# (参考訳) 不均衡データ分類のための遺伝的プログラミングに基づくハイブリッドアンサンブル最適化アルゴリズム

Hybrid Ensemble optimized algorithm based on Genetic Programming for imbalanced data classification ( http://arxiv.org/abs/2106.01176v1 )

ライセンス: CC BY 4.0
Maliheh Roknizadeh, Hossein Monshizadeh Naeen(参考訳) データマイニングの分野で最も重要な議論の1つは、不均衡なデータの分類である。 近年,アルゴリズムレベル(内部)アプローチ,データレベル(外部)技術,コスト依存手法など,いくつかの手法が提案されている。 不均衡なデータ分類に関する広範な研究が行われているが、バランスを取るためにサンプルの重要性に注意を払わない、分類器の適切な数を決定する、分類器の組み合わせで分類器の最適化を行わないなど、未解決の課題がいくつか残っている。 本稿では,訓練データセット,特にマイノリティクラスにおけるサンプリングにおけるアンサンブル法の効率を向上させること,および既存の手法よりも分類器を結合するための基本的な分類器を決定することを目的とする。 我々は2種類の不均衡データ分類のための遺伝的プログラミング(GP)に基づくハイブリッドアンサンブルアルゴリズムを提案した。 本研究では,uci機械学習リポジトリの履歴データを用いて,不均衡データセットのマイノリティクラスを評価する。 提案アルゴリズムの性能はrapid-miner studio v.7.5で評価した。 実験結果から,提案手法をトレーニングセットのサイズで指定したデータセット上での性能は,マイノリティクラス予測の他の次元よりも40%,50%高い精度を示した。

One of the most significant current discussions in the field of data mining is classifying imbalanced data. In recent years, several ways are proposed such as algorithm level (internal) approaches, data level (external) techniques, and cost-sensitive methods. Although extensive research has been carried out on imbalanced data classification, however, several unsolved challenges remain such as no attention to the importance of samples to balance, determine the appropriate number of classifiers, and no optimization of classifiers in the combination of classifiers. The purpose of this paper is to improve the efficiency of the ensemble method in the sampling of training data sets, especially in the minority class, and to determine better basic classifiers for combining classifiers than existing methods. We proposed a hybrid ensemble algorithm based on Genetic Programming (GP) for two classes of imbalanced data classification. In this study uses historical data from UCI Machine Learning Repository to assess minority classes in imbalanced datasets. The performance of our proposed algorithm is evaluated by Rapid-miner studio v.7.5. Experimental results show the performance of the proposed method on the specified data sets in the size of the training set shows 40% and 50% better accuracy than other dimensions of the minority class prediction.
翻訳日:2021-06-03 21:30:29 公開日:2021-06-02
# (参考訳) 情報ボトルネックによるスパイクニューラルネットワークの時間デコードへの学習

Learning to Time-Decode in Spiking Neural Networks Through the Information Bottleneck ( http://arxiv.org/abs/2106.01177v1 )

ライセンス: CC BY 4.0
Nicolas Skatchkovsky, Osvaldo Simeone, Hyeryung Jang(参考訳) スパイキングニューラルネットワーク(SNN)のトレーニングにおける重要な課題の1つは、ターゲットの出力は通常、分類のラベルや生成モデルの画像のような自然な信号の形で発生し、スパイクにエンコードする必要があることである。 これはターゲットスパイキング信号を手作りすることで行われ、スパイクを自然信号(例えばレートデコード)にデコードするメカニズムを暗黙的に修正する。 ターゲット信号と復号規則の任意の選択は、一般的にスパイクのタイミングで情報をエンコードし処理するsnの能力を損なう。 この問題に対処するため、この研究は、符号化SNNと復号ニューラルネットワーク(ANN)からなるハイブリッド変分オートエンコーダアーキテクチャを導入している。 復号ANNの役割は、SNNによって出力されるスパイキング信号をターゲットの自然信号に変換する方法を学ぶことである。 代理勾配による情報ボトルネック訓練基準を最適化する新しいエンドツーエンド学習ルールが導入された。 本手法の適用性を実生活データセットを含む様々なタスクの実験的な設定で示す。

One of the key challenges in training Spiking Neural Networks (SNNs) is that target outputs typically come in the form of natural signals, such as labels for classification or images for generative models, and need to be encoded into spikes. This is done by handcrafting target spiking signals, which in turn implicitly fixes the mechanisms used to decode spikes into natural signals, e.g., rate decoding. The arbitrary choice of target signals and decoding rule generally impairs the capacity of the SNN to encode and process information in the timing of spikes. To address this problem, this work introduces a hybrid variational autoencoder architecture, consisting of an encoding SNN and a decoding Artificial Neural Network (ANN). The role of the decoding ANN is to learn how to best convert the spiking signals output by the SNN into the target natural signal. A novel end-to-end learning rule is introduced that optimizes a directed information bottleneck training criterion via surrogate gradients. We demonstrate the applicability of the technique in an experimental settings on various tasks, including real-life datasets.
翻訳日:2021-06-03 21:18:44 公開日:2021-06-02
# (参考訳) 文的内容認識における表現言語

Figurative Language in Recognizing Textual Entailment ( http://arxiv.org/abs/2106.01195v1 )

ライセンス: CC BY 4.0
Tuhin Chakrabarty, Debanjan Ghosh, Adam Poliak, Smaranda Muresan(参考訳) 本稿では、図形言語に焦点をあてたRTEデータセットの集合を紹介する。 我々は、さまざまなフィギュラティブ言語に注釈付けされた5つの既存のデータセット(シミュラ、比喩、皮肉)を活用し、12,500以上のRTEサンプルにフレーム化します。 結果と分析から,これらのモデルでは図形言語を十分に捉えられず,現実的な推論や世界知識の推論に苦慮している可能性が示唆された。 最終的に、私たちのデータセットはRTEモデルを評価する上で困難なテストベッドを提供します。

We introduce a collection of recognizing textual entailment (RTE) datasets focused on figurative language. We leverage five existing datasets annotated for a variety of figurative language -- simile, metaphor, and irony -- and frame them into over 12,500 RTE examples.We evaluate how well state-of-the-art models trained on popular RTE datasets capture different aspects of figurative language. Our results and analyses indicate that these models might not sufficiently capture figurative language, struggling to perform pragmatic inference and reasoning about world knowledge. Ultimately, our datasets provide a challenging testbed for evaluating RTE models.
翻訳日:2021-06-03 20:59:05 公開日:2021-06-02
# (参考訳) irene: トランスフォーマーの解釈可能なエネルギー予測

IrEne: Interpretable Energy Prediction for Transformers ( http://arxiv.org/abs/2106.01199v1 )

ライセンス: CC BY-SA 4.0
Qingqing Cao, Yash Kumar Lal, Harsh Trivedi, Aruna Balasubramanian, Niranjan Balasubramanian(参考訳) NLPモデルの既存のソフトウェアベースのエネルギー測定は、エネルギー消費とモデル実行の間の複雑な相互作用を考慮していないため正確ではない。 本稿では,幅広いトランスフォーマーベースNLPモデルの推定エネルギー消費を正確に予測する,解釈可能で拡張可能なエネルギー予測システムIrEneを提案する。 IrEneはモデルツリーグラフを構築し、NLPモデルを低レベルの機械学習プリミティブ(ML)に分解したモジュールに分解する。 IrEne氏はMLプリミティブの推論エネルギー消費を、一般化可能な機能と詳細なランタイムリソース使用量の関数として予測する。 IrEneはこれらの低レベルの予測を再帰的に集約し、各モジュールのエネルギーと最終的にモデル全体のエネルギーを予測する。 複数のトランスフォーマーモデルに対する実験により、IrEneは基底真実と比較して7%以下の誤差でトランスフォーマーモデルの推論エネルギー消費を予測する。 対照的に、既存のエネルギーモデルでは50%以上の誤差がある。 また, エネルギーボトルネック分析や, 異なる建築選択のエネルギー影響の簡易評価にイレンが利用できることを示す。 コードとデータはhttps://github.com/stonybrooknlp/ireneでリリースします。

Existing software-based energy measurements of NLP models are not accurate because they do not consider the complex interactions between energy consumption and model execution. We present IrEne, an interpretable and extensible energy prediction system that accurately predicts the inference energy consumption of a wide range of Transformer-based NLP models. IrEne constructs a model tree graph that breaks down the NLP model into modules that are further broken down into low-level machine learning (ML) primitives. IrEne predicts the inference energy consumption of the ML primitives as a function of generalizable features and fine-grained runtime resource usage. IrEne then aggregates these low-level predictions recursively to predict the energy of each module and finally of the entire model. Experiments across multiple Transformer models show IrEne predicts inference energy consumption of transformer models with an error of under 7% compared to the ground truth. In contrast, existing energy models see an error of over 50%. We also show how IrEne can be used to conduct energy bottleneck analysis and to easily evaluate the energy impact of different architectural choices. We release the code and data at https://github.com/StonyBrookNLP/irene.
翻訳日:2021-06-03 20:48:22 公開日:2021-06-02
# (参考訳) 予知妊娠におけるクロスドキュメント照合

Cross-document Coreference Resolution over Predicted Mentions ( http://arxiv.org/abs/2106.01210v1 )

ライセンス: CC BY 4.0
Arie Cattan, Alon Eirew, Gabriel Stanovsky, Mandar Joshi, Ido Dagan(参考訳) コリファレンスの解決は、主に単一のドキュメントの範囲内で調査されており、エンドツーエンドモデルに基づいた近年の印象的な進歩を示している。 しかし、クロスドキュメント(CD)コア参照解決のより困難な課題は、金の言及にのみ適用された最近のモデルでは、比較的未調査のままであった。 本稿では,文書内コリファレンスの顕著なモデルをcd設定に拡張した,原文からのcdコリファレンス解決のための最初のエンド・ツー・エンドモデルを提案する。 当社のモデルは、ゴールド言及に関するイベントとエンティティのコリファレンス解決の競合結果を達成します。 さらに重要なことは、予測された言及に対するCDコア参照解決のための標準ECB+データセットに基づいて、第一基準結果を設定しました。 さらに,本モデルでは外部リソースを使用しないため,最近のCDコア参照解決システムよりもシンプルで効率的である。

Coreference resolution has been mostly investigated within a single document scope, showing impressive progress in recent years based on end-to-end models. However, the more challenging task of cross-document (CD) coreference resolution remained relatively under-explored, with the few recent models applied only to gold mentions. Here, we introduce the first end-to-end model for CD coreference resolution from raw text, which extends the prominent model for within-document coreference to the CD setting. Our model achieves competitive results for event and entity coreference resolution on gold mentions. More importantly, we set first baseline results, on the standard ECB+ dataset, for CD coreference resolution over predicted mentions. Further, our model is simpler and more efficient than recent CD coreference resolution systems, while not using any external resources.
翻訳日:2021-06-03 20:29:07 公開日:2021-06-02
# (参考訳) 立証的チューリング過程

Evidential Turing Processes ( http://arxiv.org/abs/2106.01216v1 )

ライセンス: CC BY 4.0
Melih Kandemir, Abdullah Akg\"ul, Manuel Haussmann, Gozde Unal(参考訳) 信頼性の高い予測不確実性i)のある確率的分類器は、ターゲット領域データに適合し、i)ターゲット領域の困難な領域(例えば、)で校正されたクラス確率を提供する。 クラスオーバーラップ) と iii) ターゲットドメインから出てくるクエリを正確に識別し、拒否する。 本稿では, 上記の3つの重要な特性を全て備え, 完全不確実性定量化を実現することができる, 顕在的深層学習, ニューラルプロセス, ニューラルチューリングマシンのオリジナルの組み合わせを紹介する。 本手法は,3つの画像分類ベンチマークと2つのニューラルネットアーキテクチャを用いて,複数の不確実性定量化指標に対して,その1つまたは数つに明示的に調整した手法に対して,一貫性のある,あるいは優れたスコアを与える。 この統一ソリューションは、安全性クリアランスのための実装フレンドリで計算効率の良いレシピを提供し、ディープニューラルネットにおける認識認知のアルゴリズム的ルーツの調査に知的経済を提供する。

A probabilistic classifier with reliable predictive uncertainties i) fits successfully to the target domain data, ii) provides calibrated class probabilities in difficult regions of the target domain (e.g. class overlap), and iii) accurately identifies queries coming out of the target domain and reject them. We introduce an original combination of evidential deep learning, neural processes, and neural Turing machines capable of providing all three essential properties mentioned above for total uncertainty quantification. We observe our method on three image classification benchmarks and two neural net architectures to consistently give competitive or superior scores with respect to multiple uncertainty quantification metrics against state-of-the-art methods explicitly tailored to one or a few of them. Our unified solution delivers an implementation-friendly and computationally efficient recipe for safety clearance and provides intellectual economy to an investigation of algorithmic roots of epistemic awareness in deep neural nets.
翻訳日:2021-06-03 20:17:45 公開日:2021-06-02
# (参考訳) Cross Pseudo Supervision を用いた半監督セマンティックセマンティックセグメンテーション

Semi-Supervised Semantic Segmentation with Cross Pseudo Supervision ( http://arxiv.org/abs/2106.01226v1 )

ライセンス: CC BY 4.0
Xiaokang Chen, Yuhui Yuan, Gang Zeng, Jingdong Wang(参考訳) 本稿では,ラベル付きデータと追加ラベル付きデータの両方を探索し,半教師付きセマンティックセマンティックセマンティクス問題について検討する。 本稿では,クロス擬似監視(CPS)と呼ばれる新しい整合性正規化手法を提案する。 提案手法は,入力画像の初期化の異なる2つのセグメンテーションネットワークに一貫性を付与する。 1つの摂動セグメンテーションネットワークから出力される擬似1ホットラベルマップは、標準のクロスエントロピー損失で他のセグメンテーションネットワークを監督するために使用される。 CPS整合性には2つの役割がある: 同じ入力画像に対する2つの摂動ネットワークの予測間の高い類似性を奨励し、擬似ラベル付きラベル付きラベル付きデータを使用することでトレーニングデータを拡張する。 実験の結果,Cityscapes と PASCAL VOC 2012 を用いた半教師付きセグメンテーション性能が得られた。

In this paper, we study the semi-supervised semantic segmentation problem via exploring both labeled data and extra unlabeled data. We propose a novel consistency regularization approach, called cross pseudo supervision (CPS). Our approach imposes the consistency on two segmentation networks perturbed with different initialization for the same input image. The pseudo one-hot label map, output from one perturbed segmentation network, is used to supervise the other segmentation network with the standard cross-entropy loss, and vice versa. The CPS consistency has two roles: encourage high similarity between the predictions of two perturbed networks for the same input image, and expand training data by using the unlabeled data with pseudo labels. Experiment results show that our approach achieves the state-of-the-art semi-supervised segmentation performance on Cityscapes and PASCAL VOC 2012.
翻訳日:2021-06-03 19:57:13 公開日:2021-06-02
# (参考訳) ドメイン外データによる低リソースASRの性能向上

Improving low-resource ASR performance with untranscribed out-of-domain data ( http://arxiv.org/abs/2106.01227v1 )

ライセンス: CC BY 4.0
Jayadev Billa(参考訳) 半教師付き訓練(SST)は、低リソース言語における音声認識性能を改善するために、非転写/ラベル付き音声データを活用する一般的な手法である。 しかし、利用可能なラベルなし音声が対象領域に不一致である場合、SSTは効果が低く、多くの場合、元のシステムよりも悪い性能を示す。 本稿では、未転写のドメイン外音声データのみをターゲット言語で容易に利用できる場合、低リソースASRの問題に対処する。 具体的には、Webリソース、特にニュース/トピック放送データに近いYouTubeデータを用いて、会話/電話音声(ターゲットドメイン)の性能向上を図る。 SSTを利用すると、トレーニングデータでドメイン外のデータをプールするだけでワードエラー率(WER)が低下するケースもあるが、いずれの場合も、ドメイン外のデータをトレーニングして、元のトレーニングデータで結果モデルを微調整すると改善が見られる。 準教師付き書き起こしによる2000時間の目標言語でのYouTubeオーディオの摂動を利用して、複数の言語/データセットの改善、ベースラインシステムに対するWERの最大16.3%の改善、トレーニングデータにドメイン外のデータをプールするシステムに対するWERの最大7.4%の改善を示す。

Semi-supervised training (SST) is a common approach to leverage untranscribed/unlabeled speech data to improve automatic speech recognition performance in low-resource languages. However, if the available unlabeled speech is mismatched to the target domain, SST is not as effective, and in many cases performs worse than the original system. In this paper, we address the issue of low-resource ASR when only untranscribed out-of-domain speech data is readily available in the target language. Specifically, we look to improve performance on conversational/telephony speech (target domain) using web resources, in particular YouTube data, which more closely resembles news/topical broadcast data. Leveraging SST, we show that while in some cases simply pooling the out-of-domain data with the training data lowers word error rate (WER), in all cases, we see improvements if we train first with the out-of-domain data and then fine-tune the resulting model with the original training data. Using 2000 hours of speed perturbed YouTube audio in each target language, with semi-supervised transcripts, we show improvements on multiple languages/data sets, of up to 16.3% relative improvement in WER over the baseline systems and up to 7.4% relative improvement in WER over a system that simply pools the out-of-domain data with the training data.
翻訳日:2021-06-03 19:43:09 公開日:2021-06-02
# (参考訳) 概念マッピングを用いたメタファー生成

Metaphor Generation with Conceptual Mappings ( http://arxiv.org/abs/2106.01228v1 )

ライセンス: CC BY 4.0
Kevin Stowe, Tuhin Chakrabarty, Nanyun Peng, Smaranda Muresan, Iryna Gurevych(参考訳) 抽象概念間のニュアンス関係を理解する必要があるため、メタファの生成は難しい作業である。 本稿では,関連する動詞を置換することで,リテラル表現を付与したメタファ文を生成することを目的とする。 概念的メタファー理論の導出により,認知領域間の概念的マッピングを符号化して有意義なメタファー表現を生成することにより,生成過程を制御することを提案する。 これを実現するために,1) FrameNet ベースの埋め込みを用いてドメイン間のマッピングを学習し,レキシカルレベル (CM-Lex) に適用し,2) ソース/ターゲットペアを導出し,制御されたSeq-to-seq生成モデル (CM-BART) を訓練する。 基礎的メタファーと概念的メタファーの存在度を自動的および人間的評価により評価する。 教師なしCM-Lexモデルは近年のディープラーニングメタファ生成システムと競合し,CM-BARTは自動評価と人的評価の両方において,他のモデルよりも優れていることを示す。

Generating metaphors is a difficult task as it requires understanding nuanced relationships between abstract concepts. In this paper, we aim to generate a metaphoric sentence given a literal expression by replacing relevant verbs. Guided by conceptual metaphor theory, we propose to control the generation process by encoding conceptual mappings between cognitive domains to generate meaningful metaphoric expressions. To achieve this, we develop two methods: 1) using FrameNet-based embeddings to learn mappings between domains and applying them at the lexical level (CM-Lex), and 2) deriving source/target pairs to train a controlled seq-to-seq generation model (CM-BART). We assess our methods through automatic and human evaluation for basic metaphoricity and conceptual metaphor presence. We show that the unsupervised CM-Lex model is competitive with recent deep learning metaphor generation systems, and CM-BART outperforms all other models both in automatic and human evaluations.
翻訳日:2021-06-03 19:32:40 公開日:2021-06-02
# (参考訳) 低いパープレキシティは人間らしくない

Lower Perplexity is Not Always Human-Like ( http://arxiv.org/abs/2106.01229v1 )

ライセンス: CC BY 4.0
Tatsuki Kuribayashi, Yohei Oseki, Takumi Ito, Ryo Yoshida, Masayuki Asahara, Kentaro Inui(参考訳) 計算精神言語学では、人間の読書行動(例えば目の動き)に対して様々な言語モデルが評価され、人間のような計算モデルを構築している。 しかし、最近の一般社会における言語的普遍化の傾向にもかかわらず、以前のほとんどの取り組みは英語にのみ焦点をあててきた。 このギャップを埋めるために,計算心理言語学の確立された結果を言語間で一般化できるかどうかを検討する。 具体的には,言語モデルが持つ低いパープレキシティ,より人間的な言語モデルという,確立された一般化を再検討する。 我々の実験は、この確立された一般化が驚くべき普遍性の欠如を示すことを示した。 さらに、この英語と日本語の相違は、(一様でない)情報密度の観点からさらに考察される。 この結果から,人型計算モデルの構築には言語間評価が必要であることが示唆された。

In computational psycholinguistics, various language models have been evaluated against human reading behavior (e.g., eye movement) to build human-like computational models. However, most previous efforts have focused almost exclusively on English, despite the recent trend towards linguistic universal within the general community. In order to fill the gap, this paper investigates whether the established results in computational psycholinguistics can be generalized across languages. Specifically, we re-examine an established generalization -- the lower perplexity a language model has, the more human-like the language model is -- in Japanese with typologically different structures from English. Our experiments demonstrate that this established generalization exhibits a surprising lack of universality; namely, lower perplexity is not always human-like. Moreover, this discrepancy between English and Japanese is further explored from the perspective of (non-)uniform information density. Overall, our results suggest that a cross-lingual evaluation will be necessary to construct human-like computational models.
翻訳日:2021-06-03 19:16:40 公開日:2021-06-02
# (参考訳) 農村保健情報アクセスのための多言語医療質問応答と情報検索

Multilingual Medical Question Answering and Information Retrieval for Rural Health Intelligence Access ( http://arxiv.org/abs/2106.01251v1 )

ライセンス: CC BY 4.0
Vishal Vinod, Susmit Agrawal, Vipul Gaurav, Pallavi R, Savita Choudhary(参考訳) いくつかの発展途上国の農村地域では、質の高い医療、医療インフラ、専門的な診断へのアクセスはほとんど利用できない。 これらの地域の多くは徐々にインターネットインフラにアクセスし始めているが、医療従事者との持続的なコミュニケーションを可能にする十分な接続を持っていない。 この医療アクセスの欠如、患者の以前の健康記録の欠如、先住民族の言語における情報の入手不能などによるいくつかの死亡は容易に防止できる。 本稿では,機械学習とNLP(Natural Language Processing)技術の驚異的な進歩を生かして,低リソース,多言語,医用予備的な一対一の医療アシスタントを設計するアプローチについて述べる。 我々の貢献には、名前付き認識に必要なNLPパイプラインの定義、言語に依存しない文の埋め込み、自然言語翻訳、情報検索、質問応答、最終クエリ処理のための生成事前学習が含まれる。 本パイプラインの有望な結果とEHR(Electronic Health Record)解析の予備的結果を得た。 このNLPパイプラインを通じて,患者に予備医療情報を提供することを目標とし,認定医の診断に取って代わるものではない。 対象分野の専門家からの入力を用いて,BioBERTをベースとしたNLPモデルを事前学習・微調整するための大規模なコーパスを作成した。 我々はNLPアーキテクチャの最近の進歩を期待し、その一部は効率的でプライバシ保護のモデルであり、ソリューションのさらなる影響と個々のタスクパフォーマンスの改善を期待する。

In rural regions of several developing countries, access to quality healthcare, medical infrastructure, and professional diagnosis is largely unavailable. Many of these regions are gradually gaining access to internet infrastructure, although not with a strong enough connection to allow for sustained communication with a medical practitioner. Several deaths resulting from this lack of medical access, absence of patient's previous health records, and the unavailability of information in indigenous languages can be easily prevented. In this paper, we describe an approach leveraging the phenomenal progress in Machine Learning and NLP (Natural Language Processing) techniques to design a model that is low-resource, multilingual, and a preliminary first-point-of-contact medical assistant. Our contribution includes defining the NLP pipeline required for named-entity-recognition, language-agnostic sentence embedding, natural language translation, information retrieval, question answering, and generative pre-training for final query processing. We obtain promising results for this pipeline and preliminary results for EHR (Electronic Health Record) analysis with text summarization for medical practitioners to peruse for their diagnosis. Through this NLP pipeline, we aim to provide preliminary medical information to the user and do not claim to supplant diagnosis from qualified medical practitioners. Using the input from subject matter experts, we have compiled a large corpus to pre-train and fine-tune our BioBERT based NLP model for the specific tasks. We expect recent advances in NLP architectures, several of which are efficient and privacy-preserving models, to further the impact of our solution and improve on individual task performance.
翻訳日:2021-06-03 19:00:20 公開日:2021-06-02
# (参考訳) 調査等価性:人間ラベルに対する分類器の精度測定方法

Survey Equivalence: A Procedure for Measuring Classifier Accuracy Against Human Labels ( http://arxiv.org/abs/2106.01254v1 )

ライセンス: CC BY 4.0
Paul Resnick, Yuqing Kong, Grant Schoenebeck, Tim Weninger(参考訳) 多くの分類タスクでは、根底的な真理はうるさいか主観的である。 2つの代替紙タイトルのうちどちらが優れているか? このコメントは有毒ですか? このニュース記事の政治的傾向は何か。 我々は,1人以上のレイパーを対象にした調査によって,基礎的真理が定義されているため,調査設定などのタスクを参照する。 調査設定では, 精度, リコール, クロスエントロピーといった従来の分類器の精度測定では, 評価器の質と, 人間のレーダ間の一致度が一致している。 したがって、彼ら自身に意味のある解釈はない。 分類器から予測されたデータセットと項目毎のKレーティングが与えられた場合、任意の精度測定を直観的な解釈に再スケールする手順を述べる。 重要な洞察は、パーサーの過半数の投票など、基礎的真理の最良の代理者ではなく、一度に1人の人間格付け者に対して分類器を得点させることである。 このスコアは、他の予測者のスコア、特に他の複数の人格のラベルを組み合わせた予測値と比較することができる。 任意の分類器の調査等価性は、分類器で見られるものと同じ期待スコアを生成するのに必要な最小限のラッカー数である。

In many classification tasks, the ground truth is either noisy or subjective. Examples include: which of two alternative paper titles is better? is this comment toxic? what is the political leaning of this news article? We refer to such tasks as survey settings because the ground truth is defined through a survey of one or more human raters. In survey settings, conventional measurements of classifier accuracy such as precision, recall, and cross-entropy confound the quality of the classifier with the level of agreement among human raters. Thus, they have no meaningful interpretation on their own. We describe a procedure that, given a dataset with predictions from a classifier and K ratings per item, rescales any accuracy measure into one that has an intuitive interpretation. The key insight is to score the classifier not against the best proxy for the ground truth, such as a majority vote of the raters, but against a single human rater at a time. That score can be compared to other predictors' scores, in particular predictors created by combining labels from several other human raters. The survey equivalence of any classifier is the minimum number of raters needed to produce the same expected score as that found for the classifier.
翻訳日:2021-06-03 18:53:19 公開日:2021-06-02
# (参考訳) ステップサイズを固定した線形確率近似の高次確率境界

Tight High Probability Bounds for Linear Stochastic Approximation with Fixed Stepsize ( http://arxiv.org/abs/2106.01257v1 )

ライセンス: CC BY 4.0
Alain Durmus, Eric Moulines, Alexey Naumov, Sergey Samsonov, Kevin Scaman, Hoi-To Wai(参考訳) 本稿では,線形確率近似 (lsa) アルゴリズムの非漸近的解析について述べる。 この手法の族は、多くの機械学習タスクに現れ、線型システムの近似解を得るために使われる: $\bar{A}\theta = \bar{b}$ for that $\bar{A}$ and $\bar{b}$ can only access through random estimates $\{({\bf A}_n, {\bf b}_n): n \in \mathbb{N}^*\}$。 本解析は,タイトであることが示される行列の積に対するモーメントと高確率境界に関する新しい結果に基づいている。 従来より弱い条件下での lsa の性能に関する高い確率境界を導出する。 $\{({\bf a}_n, {\bf b}_n): n \in \mathbb{n}^*\}$ である。 しかし,それとは対照的に,多項式濃度境界をステップ化によって順序付きで定めている。 我々の結論は、ランダム行列の列$\{{\bf A}_n: n \in \mathbb{N}^*\}$に関する追加の仮定なしでは改善できないことを示し、特にガウス的あるいは指数関数的な高確率境界は保持できない。 最後に、我々は、反復の数とステップ化に関してシャープな順序で境界を確立することに特に注意し、その主項は中央極限定理に現れる共分散行列を含む。

This paper provides a non-asymptotic analysis of linear stochastic approximation (LSA) algorithms with fixed stepsize. This family of methods arises in many machine learning tasks and is used to obtain approximate solutions of a linear system $\bar{A}\theta = \bar{b}$ for which $\bar{A}$ and $\bar{b}$ can only be accessed through random estimates $\{({\bf A}_n, {\bf b}_n): n \in \mathbb{N}^*\}$. Our analysis is based on new results regarding moments and high probability bounds for products of matrices which are shown to be tight. We derive high probability bounds on the performance of LSA under weaker conditions on the sequence $\{({\bf A}_n, {\bf b}_n): n \in \mathbb{N}^*\}$ than previous works. However, in contrast, we establish polynomial concentration bounds with order depending on the stepsize. We show that our conclusions cannot be improved without additional assumptions on the sequence of random matrices $\{{\bf A}_n: n \in \mathbb{N}^*\}$, and in particular that no Gaussian or exponential high probability bounds can hold. Finally, we pay a particular attention to establishing bounds with sharp order with respect to the number of iterations and the stepsize and whose leading terms contain the covariance matrices appearing in the central limit theorems.
翻訳日:2021-06-03 18:19:03 公開日:2021-06-02
# (参考訳) ロバストネス評価と操作プロファイルによる深層学習分類器の信頼性の評価

Assessing the Reliability of Deep Learning Classifiers Through Robustness Evaluation and Operational Profiles ( http://arxiv.org/abs/2106.01258v1 )

ライセンス: CC BY 4.0
Xingyu Zhao, Wei Huang, Alec Banks, Victoria Cox, David Flynn, Sven Schewe, Xiaowei Huang(参考訳) ディープラーニング(DL)の利用は、ますます高度なアプリケーションへと進歩している。 トランスフォーメーション機能を提供する大きな可能性を示す一方で、DLは重要な機能の信頼性に関する新たな課題も提起している。 本稿では,与えられたアプリケーションのロバスト性評価と運用プロファイル(op)から得られた証拠に基づいて,dl分類器のモデル非依存信頼性評価手法を提案する。 入力空間を小さなセルに分割し、そのロバスト性(基礎的真実まで)をopに従って「組み立てる」ことで、セルのロバスト性と運用に関する推定器が提供されます。 信頼度推定 入力毎の誤分類の確率(pmi)の観点からは、信頼度レベルとともに導出することができる。 簡単なケーススタディでプロトタイプツールを実演する。 モデル仮定と実世界のアプリケーションの拡張についても論じる。 私たちのモデルは、DLの信頼性を評価することの難しさを容易に明らかにします(例)。 基礎的な真実とスケーラビリティの問題を伴うデータの欠如) この研究の方向性を進めるための予備的かつ妥協されたソリューションを提供する。

The utilisation of Deep Learning (DL) is advancing into increasingly more sophisticated applications. While it shows great potential to provide transformational capabilities, DL also raises new challenges regarding its reliability in critical functions. In this paper, we present a model-agnostic reliability assessment method for DL classifiers, based on evidence from robustness evaluation and the operational profile (OP) of a given application. We partition the input space into small cells and then "assemble" their robustness (to the ground truth) according to the OP, where estimators on the cells' robustness and OPs are provided. Reliability estimates in terms of the probability of misclassification per input (pmi) can be derived together with confidence levels. A prototype tool is demonstrated with simplified case studies. Model assumptions and extension to real-world applications are also discussed. While our model easily uncovers the inherent difficulties of assessing the DL dependability (e.g. lack of data with ground truth and scalability issues), we provide preliminary/compromised solutions to advance in this research direction.
翻訳日:2021-06-03 17:48:05 公開日:2021-06-02
# (参考訳) 行列分解と測地線距離の解釈

Matrix factorisation and the interpretation of geodesic distance ( http://arxiv.org/abs/2106.01260v1 )

ライセンス: CC BY 4.0
Nick Whiteley, Annie Gray and Patrick Rubin-Delanchy(参考訳) グラフや類似性行列が与えられたとき、ノード間の真の距離の概念を回復する問題を考える。 汎用的潜在位置モデルに基づく多様体幾何学の新しい知見を通して、これは行列分解と非線形次元還元の2つのステップで達成できることを示した。 この組み合わせは、最初のステップで得られる点雲が、潜在距離が測地線距離として符号化される多様体に近いため有効である。 したがって、測地距離を近似する非線形次元縮小ツールは、単純な変換まで潜在位置を回復することができる。 スペクトル埋め込みが使用される場合の詳細な説明と、isomapが続き、他の手法の組み合わせに対する実験的な証拠を提供する。

Given a graph or similarity matrix, we consider the problem of recovering a notion of true distance between the nodes, and so their true positions. Through new insights into the manifold geometry underlying a generic latent position model, we show that this can be accomplished in two steps: matrix factorisation, followed by nonlinear dimension reduction. This combination is effective because the point cloud obtained in the first step lives close to a manifold in which latent distance is encoded as geodesic distance. Hence, a nonlinear dimension reduction tool, approximating geodesic distance, can recover the latent positions, up to a simple transformation. We give a detailed account of the case where spectral embedding is used, followed by Isomap, and provide encouraging experimental evidence for other combinations of techniques.
翻訳日:2021-06-03 17:31:59 公開日:2021-06-02
# (参考訳) テキスト分類のためのより識別可能かつ等速なトランスフォーマー

More Identifiable yet Equally Performant Transformers for Text Classification ( http://arxiv.org/abs/2106.01269v1 )

ライセンス: CC BY-SA 4.0
Rishabh Bhardwaj, Navonil Majumder, Soujanya Poria, Eduard Hovy(参考訳) 解釈性はモデルの予測の信頼性の重要な側面である。 トランスフォーマーの予測は注意重み、すなわち自己着脱単位(ヘッド)で生成される確率分布によって広く説明される。 現在の実証研究は、注意重みが特異でないことを証明することによって説明できないという証拠のシャーレを提供している。 最近の研究では、注意重みの非識別性を証明することによって、この観察に対する理論的正当性を示した。 ヘッドへの入力とその出力に対して、その中に生成される注意重みがユニークであれば、その重みを識別可能なものとします。 本研究では,注目重みの識別可能性に関する理論的解析と実証観察を行う。 以前の研究で無視されているように、キーベクトルの隠れた役割を明らかにすることで、現在認識しているよりも注意重みが識別可能である。 しかし、重みは、解釈に不適当な非普遍的な注意を向ける傾向にある。 この問題に対処するために,キーと値ベクトルの関係を分離し,入力の所望の長さまで識別可能な重みを与えるエンコーダレイヤの変種を提供する。 多様なテキスト分類タスクに対して経験的正当化を提供することにより,このようなバリエーションの適用性を証明する。 実装はhttps://github.com/declare-lab/identizable-transformersで利用可能である。

Interpretability is an important aspect of the trustworthiness of a model's predictions. Transformer's predictions are widely explained by the attention weights, i.e., a probability distribution generated at its self-attention unit (head). Current empirical studies provide shreds of evidence that attention weights are not explanations by proving that they are not unique. A recent study showed theoretical justifications to this observation by proving the non-identifiability of attention weights. For a given input to a head and its output, if the attention weights generated in it are unique, we call the weights identifiable. In this work, we provide deeper theoretical analysis and empirical observations on the identifiability of attention weights. Ignored in the previous works, we find the attention weights are more identifiable than we currently perceive by uncovering the hidden role of the key vector. However, the weights are still prone to be non-unique attentions that make them unfit for interpretation. To tackle this issue, we provide a variant of the encoder layer that decouples the relationship between key and value vector and provides identifiable weights up to the desired length of the input. We prove the applicability of such variations by providing empirical justifications on varied text classification tasks. The implementations are available at https://github.com/declare-lab/identifiable-transformers.
翻訳日:2021-06-03 16:56:34 公開日:2021-06-02
# (参考訳) 安定保証をもつ動的ネットワークに対するスペクトル埋め込み

Spectral embedding for dynamic networks with stability guarantees ( http://arxiv.org/abs/2106.01282v1 )

ライセンス: CC BY 4.0
Ian Gallagher, Andrew Jones and Patrick Rubin-Delanchy(参考訳) 各ノードの時間発展するベクトル表現を得るために動的ネットワークを組み込むことの問題を考察し、一つのノード、複数のコミュニティ、あるいはグラフ全体の振る舞いの変化を記述するのに使うことができる。 このオープン・エンド・リミットが与えられた場合、各ノードの時空間的位置の安定性を保証したい: 与えられた時刻(断面的安定性)と一定位置(断面的安定性)が同じ位置にあるノードに、異なる時間(縦的安定性)にわたって同じ位置にある単一ノードに割り当てる。 これらの性質は、ジェネリック動的潜在位置モデルで正式に定義される。 このモデルを多層ランダムドット積グラフとして再キャストする方法を示すことにより,動的確率ブロックモデルの下での時空間クラスタリングなどの安定性の両条件を満たす拡張隣接スペクトル埋め込みが実現可能であることを示す。 また,オムニバス,独立あるいは時間平均スペクトル埋め込みなどの代替手法は,いずれかの安定性を欠いていることを示す。

We consider the problem of embedding a dynamic network, to obtain time-evolving vector representations of each node, which can then be used to describe the changes in behaviour of a single node, one or more communities, or the entire graph. Given this open-ended remit, we wish to guarantee stability in the spatio-temporal positioning of the nodes: assigning the same position, up to noise, to nodes behaving similarly at a given time (cross-sectional stability) and a constant position, up to noise, to a single node behaving similarly across different times (longitudinal stability). These properties are defined formally within a generic dynamic latent position model. By showing how this model can be recast as a multilayer random dot product graph, we demonstrate that unfolded adjacency spectral embedding satisfies both stability conditions, allowing, for example, spatio-temporal clustering under the dynamic stochastic block model. We also show how alternative methods, such as omnibus, independent or time-averaged spectral embedding, lack one or the other form of stability.
翻訳日:2021-06-03 16:43:50 公開日:2021-06-02
# (参考訳) SAINT:Row AttentionとContrastive Pre-Trainingによる語彙データのためのニューラルネットワークの改良

SAINT: Improved Neural Networks for Tabular Data via Row Attention and Contrastive Pre-Training ( http://arxiv.org/abs/2106.01342v1 )

ライセンス: CC BY 4.0
Gowthami Somepalli, Micah Goldblum, Avi Schwarzschild, C. Bayan Bruss, Tom Goldstein(参考訳) タブラルデータは、不正検出からゲノム学、医療に至るまで、機械学習の多くの影響の高い応用を支えている。 勾配上昇や無作為林などの表層問題に対する古典的なアプローチは、実践者によって広く用いられている。 しかし、近年のディープラーニング手法は、一般的な技術と競合する性能を達成している。 テーブル型データ問題を解決するために,ハイブリッドなディープラーニングアプローチを考案する。 提案手法である saint は行と列の両方に注意を払っており,拡張埋め込みメソッドも備えている。 また,ラベルの不足時に使用するコントラスト型自己教師付き事前学習法についても検討した。 SAINTは、従来のディープラーニングメソッドよりもパフォーマンスを継続的に改善し、XGBoost、CatBoost、LightGBMなど、さまざまなベンチマークタスクにおいて、勾配向上メソッドよりもパフォーマンスが向上している。

Tabular data underpins numerous high-impact applications of machine learning from fraud detection to genomics and healthcare. Classical approaches to solving tabular problems, such as gradient boosting and random forests, are widely used by practitioners. However, recent deep learning methods have achieved a degree of performance competitive with popular techniques. We devise a hybrid deep learning approach to solving tabular data problems. Our method, SAINT, performs attention over both rows and columns, and it includes an enhanced embedding method. We also study a new contrastive self-supervised pre-training method for use when labels are scarce. SAINT consistently improves performance over previous deep learning methods, and it even outperforms gradient boosting methods, including XGBoost, CatBoost, and LightGBM, on average over a variety of benchmark tasks.
翻訳日:2021-06-03 16:22:58 公開日:2021-06-02
# (参考訳) グラフベース分類器の効率的な説明について

On Efficiently Explaining Graph-Based Classifiers ( http://arxiv.org/abs/2106.01350v1 )

ライセンス: CC BY 4.0
Xuanxiang Huang, Yacine Izza, Alexey Ignatiev, Joao Marques-Silva(参考訳) 近年の研究では、決定木(DT)は解釈可能であるだけでなく、DTの1つのPI展開を計算するための多項式時間アルゴリズムも提案されている。 本稿では,決定木や二分決定ダイアグラムを含む大域的に決定グラフと呼ばれる幅広い分類器に対して,その多値変種に対して,多項式時間計算アルゴリズムが存在することを示す。 さらに,1つの対照的な説明を計算するための多項式時間アルゴリズムを提案する。 これらの新しいアルゴリズムは説明グラフ(xpg)に基づいている。 XpGは、決定グラフに対する説明の理論的および実用的な計算を可能にするグラフ表現である。 さらに,本論文では,説明の列挙に有効な解法を提案するとともに,ある特徴が何らかの説明に含まれるかどうかを判断する複雑さについて考察する。 決定木を具体例にすると、すべての対照的な説明の集合は多項式時間で列挙できることを示した。 最後に,本論文で提案するアルゴリズムの実用性について,幅広い公開ベンチマークで検証した。

Recent work has shown that not only decision trees (DTs) may not be interpretable but also proposed a polynomial-time algorithm for computing one PI-explanation of a DT. This paper shows that for a wide range of classifiers, globally referred to as decision graphs, and which include decision trees and binary decision diagrams, but also their multi-valued variants, there exist polynomial-time algorithms for computing one PI-explanation. In addition, the paper also proposes a polynomial-time algorithm for computing one contrastive explanation. These novel algorithms build on explanation graphs (XpG's). XpG's denote a graph representation that enables both theoretical and practically efficient computation of explanations for decision graphs. Furthermore, the paper pro- poses a practically efficient solution for the enumeration of explanations, and studies the complexity of deciding whether a given feature is included in some explanation. For the concrete case of decision trees, the paper shows that the set of all contrastive explanations can be enumerated in polynomial time. Finally, the experimental results validate the practical applicability of the algorithms proposed in the paper on a wide range of publicly available benchmarks.
翻訳日:2021-06-03 16:04:55 公開日:2021-06-02
# (参考訳) FGVC8ワークショップにおけるセミスーパービジョンiNaturalistチャレンジ

The Semi-Supervised iNaturalist Challenge at the FGVC8 Workshop ( http://arxiv.org/abs/2106.01364v1 )

ライセンス: CC BY 4.0
Jong-Chyi Su and Subhransu Maji(参考訳) Semi-iNatは、クラス、きめ細かいカテゴリ、ラベル付きデータとラベルなしデータのドメインシフトの長い分布を持つ、半教師付き分類のための挑戦的なデータセットである。 このデータセットは、CVPR 2021のFGVC8ワークショップで開催される、半教師付き認識チャレンジの第2回の背後にある。 このデータセット(i)は、以前のものと異なり、自然分類学における異なる王国の種のイメージを含み、(ii)より大きなスケールで、合計330kの画像に対して810種と1629種がクラス外種、(iii)クラス外ラベルを提供していないが、ラベルのない画像に対して粗い分類学的ラベル(キングダムとフィラム)を提供する。 この文書では、ベースラインの結果と、ここで利用可能なデータセットの詳細を次のように記述している。

Semi-iNat is a challenging dataset for semi-supervised classification with a long-tailed distribution of classes, fine-grained categories, and domain shifts between labeled and unlabeled data. This dataset is behind the second iteration of the semi-supervised recognition challenge to be held at the FGVC8 workshop at CVPR 2021. Different from the previous one, this dataset (i) includes images of species from different kingdoms in the natural taxonomy, (ii) is at a larger scale --- with 810 in-class and 1629 out-of-class species for a total of 330k images, and (iii) does not provide in/out-of-class labels, but provides coarse taxonomic labels (kingdom and phylum) for the unlabeled images. This document describes baseline results and the details of the dataset which is available here: \url{https://github.com/cvl-umass/semi-inat-2021}.
翻訳日:2021-06-03 15:19:34 公開日:2021-06-02
# 教師なし視覚検査による極低データ体制のためのデータ強化と事前学習ネットワーク

Data augmentation and pre-trained networks for extremely low data regimes unsupervised visual inspection ( http://arxiv.org/abs/2106.01277v1 )

ライセンス: Link先を確認
Pierre Gutierrez, Antoine Cordier, Tha\"is Caldeira, Th\'eophile Sautory(参考訳) 教師なし異常検出のための事前学習されたニューラルネットワークからの深い機能の利用は、最近コンピュータビジョンの分野で勢いを増している。 特に、産業検査アプリケーションは、MVTec Anomaly Detection (MVTec AD)データセットにおける関連手法の複数の成功によって示されているように、このような特徴を利用することができる。 これらの手法は、ImageNetのような補助的な分類タスクで事前訓練されたニューラルネットワークを利用する。 しかし、我々の知る限り、これらのアプローチ間の低データ構造に対する堅牢性の比較研究はまだ行われていない。 品質検査の応用においては,小シリーズでは大量の画像が利用できないため,限られたサンプルサイズを扱うことが重要である。 本研究では,MVTec ADで利用可能なデータ量,KNN,Mahalanobis,PaDiMの3つの手法を比較することを目的とする。 これらの手法はほとんどの場合、小さなサンプルサイズに対して堅牢であるが、元の画像空間でデータ拡張を使用することで大きな恩恵を受けることができる。

The use of deep features coming from pre-trained neural networks for unsupervised anomaly detection purposes has recently gathered momentum in the computer vision field. In particular, industrial inspection applications can take advantage of such features, as demonstrated by the multiple successes of related methods on the MVTec Anomaly Detection (MVTec AD) dataset. These methods make use of neural networks pre-trained on auxiliary classification tasks such as ImageNet. However, to our knowledge, no comparative study of robustness to the low data regimes between these approaches has been conducted yet. For quality inspection applications, the handling of limited sample sizes may be crucial as large quantities of images are not available for small series. In this work, we aim to compare three approaches based on deep pre-trained features when varying the quantity of available data in MVTec AD: KNN, Mahalanobis, and PaDiM. We show that although these methods are mostly robust to small sample sizes, they still can benefit greatly from using data augmentation in the original image space, which allows to deal with very small production runs.
翻訳日:2021-06-03 14:52:31 公開日:2021-06-02
# 質問応答に対する逆データ収集の有効性について:大規模ランダム化研究の結果から

On the Efficacy of Adversarial Data Collection for Question Answering: Results from a Large-Scale Randomized Study ( http://arxiv.org/abs/2106.00872v1 )

ライセンス: Link先を確認
Divyansh Kaushik, Douwe Kiela, Zachary C. Lipton, Wen-tau Yih(参考訳) 逆データ収集(ADC)では、人間の労働力がモデルとリアルタイムで対話し、誤った予測を誘発する例を作成しようとする。 研究者たちは、これらのより困難なデータセットで訓練されたモデルが表面パターンに頼らず、脆くならないことを望んでいる。 しかし、ADCの直感的な魅力にもかかわらず、敵対的データセットのトレーニングがより堅牢なモデルを生成するかどうかは不明だ。 本稿では,質問応答に焦点をあてた大規模制御研究を行い,作業員をランダムに割り当て,(i)逆方向(ループ内モデル付き)あるいは(ii)標準方式(モデルなし)の問合せを行う。 様々なモデルやデータセットを通して、敵データに基づいて訓練されたモデルは、通常、他の敵データセットよりも優れているが、ドメイン外評価セットの多様なコレクションでは、より悪い。 最後に,vs標準(adversarial)データの質的分析を行い,重要な違いを特定し,今後の研究のためのガイダンスを提供する。

In adversarial data collection (ADC), a human workforce interacts with a model in real time, attempting to produce examples that elicit incorrect predictions. Researchers hope that models trained on these more challenging datasets will rely less on superficial patterns, and thus be less brittle. However, despite ADC's intuitive appeal, it remains unclear when training on adversarial datasets produces more robust models. In this paper, we conduct a large-scale controlled study focused on question answering, assigning workers at random to compose questions either (i) adversarially (with a model in the loop); or (ii) in the standard fashion (without a model). Across a variety of models and datasets, we find that models trained on adversarial data usually perform better on other adversarial datasets but worse on a diverse collection of out-of-domain evaluation sets. Finally, we provide a qualitative analysis of adversarial (vs standard) data, identifying key differences and offering guidance for future research.
翻訳日:2021-06-03 14:51:47 公開日:2021-06-02
# DialoGraph: 解釈可能な戦略グラフネットワークをネゴシエーション対話に組み込む

DialoGraph: Incorporating Interpretable Strategy-Graph Networks into Negotiation Dialogues ( http://arxiv.org/abs/2106.00920v1 )

ライセンス: Link先を確認
Rishabh Joshi, Vidhisha Balachandran, Shikhar Vashishth, Alan Black, Yulia Tsvetkov(参考訳) 交渉を成功させるためには、流動的なコミュニケーションが十分ではなく、説得力のある交渉戦略の実践的な計画が不可欠である。 現代の対話エージェントは流麗な文を生成するのに優れているが、それらはまだ実用的根拠がなく、戦略的に推論できない。 本稿では,グラフニューラルネットワークを用いた対話における実用的戦略を取り入れた交渉システムであるdialogographを提案する。 DialoGraphは、対話コンテキストを考慮して、戦略のシーケンス間の依存関係を明示的に組み込んで、次の最適な戦略の改善と解釈を可能にする。 本手法は,戦略/ダイアローグ行動予測の精度と下流対話応答生成の質の両方において,先行手法よりも優れている。 学習戦略グラフのさらなるメリットを質的に示し、対話の過程における効果的な交渉戦略の明確な関連性を提供し、解釈可能かつ戦略的対話をもたらす。

To successfully negotiate a deal, it is not enough to communicate fluently: pragmatic planning of persuasive negotiation strategies is essential. While modern dialogue agents excel at generating fluent sentences, they still lack pragmatic grounding and cannot reason strategically. We present DialoGraph, a negotiation system that incorporates pragmatic strategies in a negotiation dialogue using graph neural networks. DialoGraph explicitly incorporates dependencies between sequences of strategies to enable improved and interpretable prediction of next optimal strategies, given the dialogue context. Our graph-based method outperforms prior state-of-the-art negotiation models both in the accuracy of strategy/dialogue act prediction and in the quality of downstream dialogue response generation. We qualitatively show further benefits of learned strategy-graphs in providing explicit associations between effective negotiation strategies over the course of the dialogue, leading to interpretable and strategic dialogues.
翻訳日:2021-06-03 14:51:31 公開日:2021-06-02
# 少数の部分ラベル学習

Few-Shot Partial-Label Learning ( http://arxiv.org/abs/2106.00984v1 )

ライセンス: Link先を確認
Yunfeng Zhao, Guoxian Yu, Lei Liu, Zhongmin Yan, Lizhen Cui and Carlotta Domeniconi(参考訳) 部分ラベル学習(PLL)は一般に、過度に注釈付けされたサンプルをトレーニングすることで、耐雑音性のあるマルチクラス分類器を誘導することに焦点を当てている。 既存のPLLソリューションの基本的な約束は、トレーニングに十分な部分ラベル(PL)サンプルが存在することである。 しかし、新しいタスクを扱う際に手元にいくつかのplサンプルを持っていない方が一般的である。 さらに、既存の数発の学習アルゴリズムはサポートセットの正確なラベルを仮定するので、無関係なラベルはメタラーナーを著しく誤解させ、それによって性能が損なわれる可能性がある。 数ショットの学習環境でPLLを有効にする方法は重要な問題であるが、まだ十分に研究されていない。 本稿では,FsPLL (Few-shot PLL) と呼ばれる手法を提案する。 FsPLLはまず、埋め込みネットワークによる適応距離メトリック学習を行い、以前に遭遇したタスクのプロトタイプを修正する。 次に、埋め込みネットワークにおいて、新しいタスクの各クラスのプロトタイプを計算する。 見えない例を各プロトタイプまでの距離で分類することができる。 広く使用されているマイナショットデータセット(omniglotとminiimagenet)の実験結果から、fspllは、さまざまな設定で最先端のメソッドよりも優れたパフォーマンスを実現でき、新しいタスクに迅速に適応するにはサンプルが少ないことが分かりました。

Partial-label learning (PLL) generally focuses on inducing a noise-tolerant multi-class classifier by training on overly-annotated samples, each of which is annotated with a set of labels, but only one is the valid label. A basic promise of existing PLL solutions is that there are sufficient partial-label (PL) samples for training. However, it is more common than not to have just few PL samples at hand when dealing with new tasks. Furthermore, existing few-shot learning algorithms assume precise labels of the support set; as such, irrelevant labels may seriously mislead the meta-learner and thus lead to a compromised performance. How to enable PLL under a few-shot learning setting is an important problem, but not yet well studied. In this paper, we introduce an approach called FsPLL (Few-shot PLL). FsPLL first performs adaptive distance metric learning by an embedding network and rectifying prototypes on the tasks previously encountered. Next, it calculates the prototype of each class of a new task in the embedding network. An unseen example can then be classified via its distance to each prototype. Experimental results on widely-used few-shot datasets (Omniglot and miniImageNet) demonstrate that our FsPLL can achieve a superior performance than the state-of-the-art methods across different settings, and it needs fewer samples for quickly adapting to new tasks.
翻訳日:2021-06-03 14:51:16 公開日:2021-06-02
# Evidence-based Factual Error Correction

Evidence-based Factual Error Correction ( http://arxiv.org/abs/2106.01072v1 )

ライセンス: Link先を確認
James Thorne, Andreas Vlachos(参考訳) 本稿では,クレームに対して編集を行うことで,生成した書き換えが証拠によってより良く支持されるようにする,事実的誤り訂正の課題を紹介する。 これは、否定された、または証拠によって部分的に支持された文章を訂正するメカニズムを提供することで、よく検討された事実検証のタスクを拡張する。 証拠を伴うラベル付きクレームのみを含む既存の事実チェックデータセットから事実誤り訂正システムを訓練することは可能であるが,その補正は不可能である。 そこで我々は,2段階の遠隔監視手法を用いて,証拠を疑似クレームに組み込んで修正を行う。 提案手法はt5トランスフォーマ(英語版)と検索されたエビデンス(英語版)に基づき、ポインタのコピーネットワークと金の証拠を用いた既存の研究よりも優れた結果を達成し、人間の評価で5倍以上のインスタンスに対して正確な事実的誤り訂正を行い、sariスコアを125倍に増やした。 この評価は,最近のfact verification shared taskに基づく65,000インスタンスのデータセット上で実施し,タスクのさらなる作業を可能にするためにリリースする。

This paper introduces the task of factual error correction: performing edits to a claim so that the generated rewrite is better supported by evidence. This extends the well-studied task of fact verification by providing a mechanism to correct written texts that are refuted or only partially supported by evidence. We demonstrate that it is feasible to train factual error correction systems from existing fact checking datasets which only contain labeled claims accompanied by evidence, but not the correction. We achieve this by employing a two-stage distant supervision approach that incorporates evidence into masked claims when generating corrections. Our approach, based on the T5 transformer and using retrieved evidence, achieved better results than existing work which used a pointer copy network and gold evidence, producing accurate factual error corrections for 5x more instances in human evaluation and a .125 increase in SARI score. The evaluation is conducted on a dataset of 65,000 instances based on a recent fact verification shared task and we release it to enable further work on the task.
翻訳日:2021-06-03 14:50:51 公開日:2021-06-02
# 抽象要約のための構造的テンソル生成表現を用いた変換器の強化

Enriching Transformers with Structured Tensor-Product Representations for Abstractive Summarization ( http://arxiv.org/abs/2106.01317v1 )

ライセンス: Link先を確認
Yichen Jiang, Asli Celikyilmaz, Paul Smolensky, Paul Soulos, Sudha Rao, Hamid Palangi, Roland Fernandez, Caitlin Smith, Mohit Bansal, Jianfeng Gao(参考訳) 抽象要約は、入力文書の簡潔な要約を作成する作業であり、(1)ソース文書を推論して、長い文書に散在する有意義な情報の断片を判断し、(2)これら有能な事実を再構成して結束したテキストを、これらの事実を結びつける複雑な関係を忠実に反映する短い要約に構成することが必要である。 本稿では, 抽象的な要約作業のために, TP-TRANSFORMER (Schlag et al., 2019) を用いて, オリジナルのTransformer (Vaswani et al., 2017) を明示的に構成したTensor Product Representation (TPR) に適応させる。 このモデルの重要な特徴は、各トークンに対して2つの別々の表現をエンコードして、(ロールベクターで)構文構造と(フィラーベクターで)意味コンテンツを表す構造バイアスである。 次にモデルがロールとフィラーベクトルを層出力としてTPRにバインドする。 構造化された中間表現は、要約を生成する際に、モデルが内容(有意な事実)と構造(事実を接続する構文)をよりよく制御できると主張している。 実験により, TP-TRANSFORMERは, 自動評価と人的評価の両方に基づいて, 抽象的な要約データセットにおいて, トランスフォーマと元のTP-TRANSFORMERを著しく上回っていることがわかった。 いくつかの構文的および意味的探索タスクにおいて、ロールベクトルにおける創発的構造情報を示し、TPR層出力における構文的解釈性を改善した。 コードとモデルはhttps://github.com/jiangycTarheel/TPT-Summ.comで公開されている。

Abstractive summarization, the task of generating a concise summary of input documents, requires: (1) reasoning over the source document to determine the salient pieces of information scattered across the long document, and (2) composing a cohesive text by reconstructing these salient facts into a shorter summary that faithfully reflects the complex relations connecting these facts. In this paper, we adapt TP-TRANSFORMER (Schlag et al., 2019), an architecture that enriches the original Transformer (Vaswani et al., 2017) with the explicitly compositional Tensor Product Representation (TPR), for the task of abstractive summarization. The key feature of our model is a structural bias that we introduce by encoding two separate representations for each token to represent the syntactic structure (with role vectors) and semantic content (with filler vectors) separately. The model then binds the role and filler vectors into the TPR as the layer output. We argue that the structured intermediate representations enable the model to take better control of the contents (salient facts) and structures (the syntax that connects the facts) when generating the summary. Empirically, we show that our TP-TRANSFORMER outperforms the Transformer and the original TP-TRANSFORMER significantly on several abstractive summarization datasets based on both automatic and human evaluations. On several syntactic and semantic probing tasks, we demonstrate the emergent structural information in the role vectors and improved syntactic interpretability in the TPR layer outputs. Code and models are available at https://github.com/jiangycTarheel/TPT-Summ.
翻訳日:2021-06-03 14:50:31 公開日:2021-06-02
# multiprover: ルール推論における解釈性向上のための複数の証明を生成する

multiPRover: Generating Multiple Proofs for Improved Interpretability in Rule Reasoning ( http://arxiv.org/abs/2106.01354v1 )

ライセンス: Link先を確認
Swarnadeep Saha, Prateek Yadav, Mohit Bansal(参考訳) 我々は、自然言語の事実とルールの形で明示的な知識を推論すること(Clark et al., 2020)を目標とする言語形式推論の一種に焦点を当てる。 PRover (Saha et al., 2020) と名付けられた最近の研究は、質問に答え、答えを説明する証明グラフを生成することによってそのような推論を行う。 しかし、構成的推論は必ずしもユニークではなく、正しい答えに到達するには複数の方法があるかもしれない。 そこで本研究では,自然言語規則ベースの推論のために複数の証明グラフを生成するという,新たな課題に対処する。 それぞれの証明は、答えに対する異なる理論的根拠を与え、そのような推論システムの解釈可能性を改善する。 すべての証明グラフから共同で学習し,複数の証明間の相関関係を利用するために,各証明が有向グラフとして表現される構造化出力空間上の集合生成問題として,この課題を提起する。 証明セット生成モデルの2つの変種である multiPRover を提案する。 第1のモデルであるMultilabel-multiPRoverは、証明間の複数ラベル分類と暗黙条件による証明の集合を生成するが、第2のモデルであるIterative-multiPRoverは、以前に生成された証明を明示的に条件付けすることによって、反復的に証明を生成する。 複数の合成、ゼロショット、ヒューマンパラフレーズデータセットの実験により、両方のマルチプローバーモデルが複数の金の証明を含むデータセット上でPRoverを著しく上回っていることが明らかとなった。 iteration-multiprover はゼロショットシナリオにおいて最先端の証明 f1 を得る。 また、複数の証明がより頻繁に行われる推論の深みを必要とする問題に対して、より一般化する。 私たちのコードとモデルはhttps://github.com/swarnaHub/multiPRoverで公開されています。

We focus on a type of linguistic formal reasoning where the goal is to reason over explicit knowledge in the form of natural language facts and rules (Clark et al., 2020). A recent work, named PRover (Saha et al., 2020), performs such reasoning by answering a question and also generating a proof graph that explains the answer. However, compositional reasoning is not always unique and there may be multiple ways of reaching the correct answer. Thus, in our work, we address a new and challenging problem of generating multiple proof graphs for reasoning over natural language rule-bases. Each proof provides a different rationale for the answer, thereby improving the interpretability of such reasoning systems. In order to jointly learn from all proof graphs and exploit the correlations between multiple proofs for a question, we pose this task as a set generation problem over structured output spaces where each proof is represented as a directed graph. We propose two variants of a proof-set generation model, multiPRover. Our first model, Multilabel-multiPRover, generates a set of proofs via multi-label classification and implicit conditioning between the proofs; while the second model, Iterative-multiPRover, generates proofs iteratively by explicitly conditioning on the previously generated proofs. Experiments on multiple synthetic, zero-shot, and human-paraphrased datasets reveal that both multiPRover models significantly outperform PRover on datasets containing multiple gold proofs. Iterative-multiPRover obtains state-of-the-art proof F1 in zero-shot scenarios where all examples have single correct proofs. It also generalizes better to questions requiring higher depths of reasoning where multiple proofs are more frequent. Our code and models are publicly available at https://github.com/swarnaHub/multiPRover
翻訳日:2021-06-03 14:50:02 公開日:2021-06-02
# 学習オプティマイザへの一般化アプローチ

A Generalizable Approach to Learning Optimizers ( http://arxiv.org/abs/2106.00958v1 )

ライセンス: Link先を確認
Diogo Almeida, Clemens Winter, Jie Tang, Wojciech Zaremba(参考訳) ニューラルネットワークを最適化する学習の核となる問題は、現実世界の問題に対する一般化の欠如である。 そこで本研究では,モデルパラメータではなくオプティマイザハイパーパラメータを,新たな特徴やアクション,報酬関数を用いて直接更新する方法を,一般化優先の観点から設計したシステムについて述べる。 このシステムはトレーニング中に見えないモダリティを含むすべてのニューラルネットワークタスクでadamを上回っている。 ImageNetでは2倍のスピードアップを実現し、トレーニングタスクよりも5桁以上の計算量で言語モデリングタスクの2.5倍のスピードアップを実現しています。

A core issue with learning to optimize neural networks has been the lack of generalization to real world problems. To address this, we describe a system designed from a generalization-first perspective, learning to update optimizer hyperparameters instead of model parameters directly using novel features, actions, and a reward function. This system outperforms Adam at all neural network tasks including on modalities not seen during training. We achieve 2x speedups on ImageNet, and a 2.5x speedup on a language modeling task using over 5 orders of magnitude more compute than the training tasks.
翻訳日:2021-06-03 14:49:04 公開日:2021-06-02
# 政策後悔によるml決定の長期的影響への取り組み

Addressing the Long-term Impact of ML Decisions via Policy Regret ( http://arxiv.org/abs/2106.01325v1 )

ライセンス: Link先を確認
David Lindner and Hoda Heidari and Andreas Krause(参考訳) 機械学習(ml)は、ローン、教育、雇用などの分野における個人やコミュニティへの機会配分をますます知らしめている。 このような決定は、しばしば被写体の将来の特性や能力に前もって未知の方法で影響する。 したがって、意思決定者は、マルチアームのバンディットのような探索探索のジレンマに直面している。 以前の作業の後、私たちはコミュニティを武器としてモデル化します。 MLに基づくアロケーション決定の長期的効果を捉えるため、意思決定者が腕を引っ張るたびに各腕からの報酬が進化する環境について検討する。 プル数は当初増加するが、ある時点の後に減少する(そして残る)かもしれない報酬機能に焦点を当てています。 我々は、許容できる機会の逐次配置は、armの成長の可能性を考慮に入れなければならないと主張している。 我々は、しばしば議論される外部の後悔よりも強い概念である政策後悔の概念を通じてこれらの考察を捉え、十分長い時間軸に対して確実に下位線形の政策後悔を持つアルゴリズムを提案する。 私たちは経験的にアルゴリズムをいくつかのベースラインと比較し、特に長い時間軸において、一貫してアルゴリズムを上回っています。

Machine Learning (ML) increasingly informs the allocation of opportunities to individuals and communities in areas such as lending, education, employment, and beyond. Such decisions often impact their subjects' future characteristics and capabilities in an a priori unknown fashion. The decision-maker, therefore, faces exploration-exploitation dilemmas akin to those in multi-armed bandits. Following prior work, we model communities as arms. To capture the long-term effects of ML-based allocation decisions, we study a setting in which the reward from each arm evolves every time the decision-maker pulls that arm. We focus on reward functions that are initially increasing in the number of pulls but may become (and remain) decreasing after a certain point. We argue that an acceptable sequential allocation of opportunities must take an arm's potential for growth into account. We capture these considerations through the notion of policy regret, a much stronger notion than the often-studied external regret, and present an algorithm with provably sub-linear policy regret for sufficiently long time horizons. We empirically compare our algorithm with several baselines and find that it consistently outperforms them, in particular for long time horizons.
翻訳日:2021-06-03 14:48:54 公開日:2021-06-02
# 文書レベルの名前付きエンティティ認識におけるグローバルコンテキスト情報の利用

Exploiting Global Contextual Information for Document-level Named Entity Recognition ( http://arxiv.org/abs/2106.00887v1 )

ライセンス: Link先を確認
Zanbo Wang, Wei Wei, Xianling Mao, Shanshan Feng, Pan Zhou, Zhiyong He and Sheng Jiang(参考訳) 既存の名前付きエンティティ認識(NER)アプローチのほとんどは、ローカルコンテキストの依存関係をキャプチャするシーケンスラベリングモデルに基づいている。 しかし、入力として1つの文を取る方法は、特に局所的文脈情報が限定的または曖昧である場合に有用である、連続的でないグローバルコンテキストのモデリングを妨げている。 そこで本稿では,グローバルコンテキスト拡張ドキュメントレベルner(gcdoc)と呼ばれるモデルを提案する。 単語レベルでは、文書グラフは単語間のより広範な依存関係をモデル化し、グラフニューラルネットワーク(GNN)を介して各単語の豊富な文脈表現を得る。 ノイズ情報の干渉を避けるため,我々はさらに2つの戦略を提案する。 まず,認識的不確実性理論を応用して,表現が信頼性の低いトークンを見つけ出すことにより,文書グラフのプルネリングを支援する。 次に、文書グラフのエッジの重みを効果的に学習し、雑音の隣ノードの重要性を低減するために、選択的補助分類器を提案する。 文レベルでは、単一文以外の広い文脈を適切にモデル化するために、隣接文をエンコードし、注意とゲーティング機構を介して現在の文表現と融合するクロスセンスモジュールを用いる。 2つのベンチマークNERデータセット(CoNLL 2003 と Ontonotes 5.0 の英語データセット)の大規模な実験により,提案モデルの有効性が示された。 我々のモデルは,CoNLL 2003データセットで92.22(BERTで93.40),Ontonotes 5.0データセットで88.32(BERTで90.49)に達し,新たな最先端パフォーマンスを実現する。

Most existing named entity recognition (NER) approaches are based on sequence labeling models, which focus on capturing the local context dependencies. However, the way of taking one sentence as input prevents the modeling of non-sequential global context, which is useful especially when local context information is limited or ambiguous. To this end, we propose a model called Global Context enhanced Document-level NER (GCDoc) to leverage global contextual information from two levels, i.e., both word and sentence. At word-level, a document graph is constructed to model a wider range of dependencies between words, then obtain an enriched contextual representation for each word via graph neural networks (GNN). To avoid the interference of noise information, we further propose two strategies. First we apply the epistemic uncertainty theory to find out tokens whose representations are less reliable, thereby helping prune the document graph. Then a selective auxiliary classifier is proposed to effectively learn the weight of edges in document graph and reduce the importance of noisy neighbour nodes. At sentence-level, for appropriately modeling wider context beyond single sentence, we employ a cross-sentence module which encodes adjacent sentences and fuses it with the current sentence representation via attention and gating mechanisms. Extensive experiments on two benchmark NER datasets (CoNLL 2003 and Ontonotes 5.0 English dataset) demonstrate the effectiveness of our proposed model. Our model reaches F1 score of 92.22 (93.40 with BERT) on CoNLL 2003 dataset and 88.32 (90.49 with BERT) on Ontonotes 5.0 dataset, achieving new state-of-the-art performance.
翻訳日:2021-06-03 14:48:22 公開日:2021-06-02
# COM2SENSE: 補完文による常識推論ベンチマーク

COM2SENSE: A Commonsense Reasoning Benchmark with Complementary Sentences ( http://arxiv.org/abs/2106.00969v1 )

ライセンス: Link先を確認
Shikhar Singh, Nuan Wen, Yu Hou, Pegah Alipoormolabashi, Te-Lin Wu, Xuezhe Ma, Nanyun Peng(参考訳) 常識推論は人間にとって直感的であるが、人工知能(AI)の長期的な課題であった。 事前学習された言語モデルの最近の進歩は、いくつかのcommonsenseベンチマークデータセットで有望な結果を示している。 しかし、モデルの常識推論能力を評価するためのこれらのベンチマークの信頼性と包括性はまだ不明である。 この目的のために,自然言語true/false文を含む新しい共通意味推論ベンチマークデータセットを導入し,各サンプルとそれと相補的なサンプルを組み合わせることにより,4k文対を生成する。 エージェントが与えられた状況に対して常識推論を行う能力を確実に測定するためのペアワイズ精度指標を提案する。 データセットはクラウドソースされ、挑戦的なサンプルにインセンティブを与えるために、敵対的なmodel-in-the-loopセットアップで拡張される。 常識能力の体系的分析を容易にするため,知識領域,推論シナリオ,数理性の次元に沿ったデータセットを設計する。 実験結果から,我々の最強のベースライン(UnifiedQA-3B)は,微調整後の標準精度が約71%,対角精度が約51%,人的性能が約95%であった。 データセットはhttps://github.com/PlusLabNLP/Com2Senseで公開されている。

Commonsense reasoning is intuitive for humans but has been a long-term challenge for artificial intelligence (AI). Recent advancements in pretrained language models have shown promising results on several commonsense benchmark datasets. However, the reliability and comprehensiveness of these benchmarks towards assessing model's commonsense reasoning ability remains unclear. To this end, we introduce a new commonsense reasoning benchmark dataset comprising natural language true/false statements, with each sample paired with its complementary counterpart, resulting in 4k sentence pairs. We propose a pairwise accuracy metric to reliably measure an agent's ability to perform commonsense reasoning over a given situation. The dataset is crowdsourced and enhanced with an adversarial model-in-the-loop setup to incentivize challenging samples. To facilitate a systematic analysis of commonsense capabilities, we design our dataset along the dimensions of knowledge domains, reasoning scenarios and numeracy. Experimental results demonstrate that our strongest baseline (UnifiedQA-3B), after fine-tuning, achieves ~71% standard accuracy and ~51% pairwise accuracy, well below human performance (~95% for both metrics). The dataset is available at https://github.com/PlusLabNLP/Com2Sense.
翻訳日:2021-06-03 14:47:53 公開日:2021-06-02
# SocAoG:対話における社会的関係推論のためのインクリメンタルグラフ解析

SocAoG: Incremental Graph Parsing for Social Relation Inference in Dialogues ( http://arxiv.org/abs/2106.01006v1 )

ライセンス: Link先を確認
Liang Qiu, Yuan Liang, Yizhou Zhao, Pan Lu, Baolin Peng, Zhou Yu, Ying Nian Wu, Song-Chun Zhu(参考訳) 対話から社会的関係を推測することは、人間の言語をより良く解釈し、それに応じて行動するために感情的にインテリジェントなロボットを構築するために不可欠である。 我々は、グループ間の関係の整合性を保ち、属性を推論の手がかりとして活用するために、SocAoGという名前のAnd-or Graphをモデル化する。 さらに, 逐次構造予測タスクを定式化し, 着信音声の動的推論に対してSocAoGを漸進的に解析するための$\alpha$-$\beta$-$\gamma$戦略を提案する。 (i) 対話の意味論に基づく属性と関係の予測を行う$\alpha$プロセス, (ii) 関連属性に基づく社会的関係の更新を行う$\beta$プロセス, (iii) 対人関係に基づく個人属性の更新を行う$\gamma$プロセス。 DialogRE と MovieGraph の実証実験結果から,我々のモデルは最先端の手法よりも社会的関係を正確に推定できることがわかった。 さらに, アブレーション研究は3つのプロセスが互いに補完し合うことを示し, 事例研究は動的関係推論を示す。

Inferring social relations from dialogues is vital for building emotionally intelligent robots to interpret human language better and act accordingly. We model the social network as an And-or Graph, named SocAoG, for the consistency of relations among a group and leveraging attributes as inference cues. Moreover, we formulate a sequential structure prediction task, and propose an $\alpha$-$\beta$-$\gamma$ strategy to incrementally parse SocAoG for the dynamic inference upon any incoming utterance: (i) an $\alpha$ process predicting attributes and relations conditioned on the semantics of dialogues, (ii) a $\beta$ process updating the social relations based on related attributes, and (iii) a $\gamma$ process updating individual's attributes based on interpersonal social relations. Empirical results on DialogRE and MovieGraph show that our model infers social relations more accurately than the state-of-the-art methods. Moreover, the ablation study shows the three processes complement each other, and the case study demonstrates the dynamic relational inference.
翻訳日:2021-06-03 14:47:32 公開日:2021-06-02
# 事実検証のためのトピック・アウェア・エビデンス推論とスタンス・アグリゲーション

Topic-Aware Evidence Reasoning and Stance-Aware Aggregation for Fact Verification ( http://arxiv.org/abs/2106.01191v1 )

ライセンス: Link先を確認
Jiasheng Si, Deyu Zhou, Tongzhe Li, Xingyu Shi, Yulan He(参考訳) ファクト検証は、クレームの真正性を評価するために、複数の回収された証拠を同時に推論および集約する必要がある、困難なタスクである。 既存のアプローチは、典型的には(i)異なる粒度レベルでのクレームとエビデンス間のセマンティックな相互作用を探求するが、検証に不可欠であると考えられる推論過程においてそれらのトピックの一貫性を捉えることができず、(ii)クレームに対する暗黙の姿勢を考慮せずに複数のエビデンスを等しく集約し、刺激的な情報を導入する。 To alleviate the above issues, we propose a novel topic-aware evidence reasoning and stance-aware aggregation model for more accurate fact verification, with the following four key properties: 1) checking topical consistency between the claim and evidence; 2) maintaining topical coherence among multiple pieces of evidence; 3) ensuring semantic similarity between the global topic information and the semantic representation of evidence; 4) aggregating evidence based on their implicit stances to the claim. 2つのベンチマークデータセットで実施された大規模な実験は、事実検証のためのいくつかの最先端アプローチよりも提案モデルの方が優れていることを示す。 ソースコードはhttps://github.com/jasenchn/TARSAから取得できる。

Fact verification is a challenging task that requires simultaneously reasoning and aggregating over multiple retrieved pieces of evidence to evaluate the truthfulness of a claim. Existing approaches typically (i) explore the semantic interaction between the claim and evidence at different granularity levels but fail to capture their topical consistency during the reasoning process, which we believe is crucial for verification; (ii) aggregate multiple pieces of evidence equally without considering their implicit stances to the claim, thereby introducing spurious information. To alleviate the above issues, we propose a novel topic-aware evidence reasoning and stance-aware aggregation model for more accurate fact verification, with the following four key properties: 1) checking topical consistency between the claim and evidence; 2) maintaining topical coherence among multiple pieces of evidence; 3) ensuring semantic similarity between the global topic information and the semantic representation of evidence; 4) aggregating evidence based on their implicit stances to the claim. Extensive experiments conducted on the two benchmark datasets demonstrate the superiority of the proposed model over several state-of-the-art approaches for fact verification. The source code can be obtained from https://github.com/jasenchn/TARSA.
翻訳日:2021-06-03 14:47:07 公開日:2021-06-02
# Global-Selector: マルチターン応答選択のためのベンチマークデータセットとモデルアーキテクチャ

Global-Selector: A New Benchmark Dataset and Model Architecture for Multi-turn Response Selection ( http://arxiv.org/abs/2106.01263v1 )

ライセンス: Link先を確認
Chiyu Song, Hongliang He, Huachuan Qiu, Haofei Yu, Zhenzhong Lan(参考訳) 対話システムの本質的な構成要素として,マルチターン応答選択は,対話流動性を改善するために候補群間の最適な応答を選択することを目的としている。 本稿では,現在の応答選択アプローチの3つの問題,特に世代ベースの対話エージェントについて検討する: (i)既存のアプローチは文のスコアリング問題としてしばしば定式化され,応答間の関係を考慮しない。 (II)既存のモデルは対話履歴に大きく重なる望ましくない候補を選択する傾向がある。 (iii) 学習中の負のインスタンスは主にコーパスからのランダムサンプリングによって構築されるが、実際には生成された候補はより密接な分布を持つ。 上記の問題に対処するため、ConvAI2+と呼ばれる新しいデータセットを作成し、Global-Selectorと呼ばれる新しい応答セレクタを提案する。 実験の結果、convai2+でトレーニングされたグローバルセレクタは精度と推論速度の両方において顕著な改善が見られた。

As an essential component of dialogue systems, multi-turn response selection aims to pick out the optimal response among a set of candidates to improve the dialogue fluency. In this paper, we investigate three problems of current response selection approaches, especially for generation-based conversational agents: (i) Existing approaches are often formulated as a sentence scoring problem, which does not consider relationships between responses. (ii) Existing models tend to select undesirable candidates that have large overlaps with the dialogue history. (iii) Negative instances in training are mainly constructed by random sampling from the corpus, whereas generated candidates in practice typically have a closer distribution. To address the above problems, we create a new dataset called ConvAI2+ and propose a new response selector called Global-Selector. Experimental results show that Global-Selector trained on ConvAI2+ have noticeable improvements in both accuracy and inference speed.
翻訳日:2021-06-03 14:46:46 公開日:2021-06-02
# 事前学習トランスフォーマーによる非教師なし領域検出

Unsupervised Out-of-Domain Detection via Pre-trained Transformers ( http://arxiv.org/abs/2106.00948v1 )

ライセンス: Link先を確認
Keyang Xu, Tongzheng Ren, Shikun Zhang, Yihao Feng and Caiming Xiong(参考訳) 実世界の機械学習アプリケーションは、しばしば制御不能で悪意のある入力を受ける。 ドメイン外の入力は予測不能なアウトプットを引き起こし、時には破滅的な安全上の問題を引き起こす可能性がある。 ドメイン外検出に関する以前の研究では、ドメイン内タスクラベルが必要であり、教師付き分類シナリオに限定されている。 本研究は、教師なしのドメイン内データのみを用いて、ドメイン外サンプルを検出する問題に取り組む。 事前学習したトランスの潜在表現を利用し、全ての層にまたがる特徴を変換してドメイン外検出器を効率的に構築する方法を提案する。 検出精度を高めるために, 2つの領域特異的微調整手法がさらに提案されている。 2つのデータセットにおける関連手法の実証評価により,本手法がドメイン外検出能力を大幅に向上することを確認した。

Deployed real-world machine learning applications are often subject to uncontrolled and even potentially malicious inputs. Those out-of-domain inputs can lead to unpredictable outputs and sometimes catastrophic safety issues. Prior studies on out-of-domain detection require in-domain task labels and are limited to supervised classification scenarios. Our work tackles the problem of detecting out-of-domain samples with only unsupervised in-domain data. We utilize the latent representations of pre-trained transformers and propose a simple yet effective method to transform features across all layers to construct out-of-domain detectors efficiently. Two domain-specific fine-tuning approaches are further proposed to boost detection accuracy. Our empirical evaluations of related methods on two datasets validate that our method greatly improves out-of-domain detection ability in a more general scenario.
翻訳日:2021-06-03 14:46:27 公開日:2021-06-02
# 衝突課題におけるオフポリシー予測学習アルゴリズムの実証的比較

An Empirical Comparison of Off-policy Prediction Learning Algorithms on the Collision Task ( http://arxiv.org/abs/2106.00922v1 )

ライセンス: Link先を確認
Sina Ghiassian, Richard S. Sutton(参考訳) オフポリシー予測 -- 別のポリシーに従って生成されたデータから、あるポリシーの価値関数を学習する -- は、強化学習において最も難しい部分課題の1つです。 本稿では,線形関数近似を用いた11の顕著なオフポリシー学習アルゴリズムによる実証的な結果を示す:5つのグラディエント-TD法,2つの強調-TD法,オフポリシーTD($\lambda$),Vtrace,およびツリーバックアップとABQのバージョンを予測設定に適用する。 私たちの実験では、衝突が障害物と衝突するかどうかを予測しようとする自動運転車に類似した、小さな理想化されたオフポリシー問題である衝突タスクを使用しました。 学習速度,漸近的誤差レベル,ステップサイズおよびブートストラップパラメータに対する感度に応じてアルゴリズムの性能を評価した。 これらの尺度により、11のアルゴリズムは衝突タスクで部分的に順序付けできる。 上位層では、2つのEmphatic-TDアルゴリズムが最も速く、最も低いエラーに達し、パラメータ設定に堅牢であった。 中間層では5つの勾配tdアルゴリズムとオフポリシーtd($\lambda$)はブートストラップパラメータに敏感であった。 下位層はvtrace、tree backup、abqで構成されており、これらのアルゴリズムは高速ではなく、他のアルゴリズムよりも漸近的エラーを持っていた。 我々の結果はこの課題に決定的だが、アルゴリズムのメリットを総合的に評価する前に、より多くのタスクで実験する必要がある。

Off-policy prediction -- learning the value function for one policy from data generated while following another policy -- is one of the most challenging subproblems in reinforcement learning. This paper presents empirical results with eleven prominent off-policy learning algorithms that use linear function approximation: five Gradient-TD methods, two Emphatic-TD methods, Off-policy TD($\lambda$), Vtrace, and versions of Tree Backup and ABQ modified to apply to a prediction setting. Our experiments used the Collision task, a small idealized off-policy problem analogous to that of an autonomous car trying to predict whether it will collide with an obstacle. We assessed the performance of the algorithms according to their learning rate, asymptotic error level, and sensitivity to step-size and bootstrapping parameters. By these measures, the eleven algorithms can be partially ordered on the Collision task. In the top tier, the two Emphatic-TD algorithms learned the fastest, reached the lowest errors, and were robust to parameter settings. In the middle tier, the five Gradient-TD algorithms and Off-policy TD($\lambda$) were more sensitive to the bootstrapping parameter. The bottom tier comprised Vtrace, Tree Backup, and ABQ; these algorithms were no faster and had higher asymptotic error than the others. Our results are definitive for this task, though of course experiments with more tasks are needed before an overall assessment of the algorithms' merits can be made.
翻訳日:2021-06-03 14:46:01 公開日:2021-06-02
# jumbo: オフラインデータを用いたスケーラブルなマルチタスクベイズ最適化

JUMBO: Scalable Multi-task Bayesian Optimization using Offline Data ( http://arxiv.org/abs/2106.00942v1 )

ライセンス: Link先を確認
Kourosh Hakhamaneshi, Pieter Abbeel, Vladimir Stojanovic, Aditya Grover(参考訳) マルチタスクベイズ最適化(MBO)の目標は、他の補助関数のオフライン評価へのアクセスを前提として、ターゲットのブラックボックス関数を正確に最適化するために必要なクエリ数を最小化することである。 オフラインデータセットが大きい場合、以前のアプローチのスケーラビリティは表現力と推論品質を犠牲にしている。 JUMBOは,2つのガウス過程(GP)のトレーニングから得られる取得信号と,オフラインデータを用いて事前訓練したディープニューラルネットワークの特徴空間で動作するウォームGPを組み合わせて,これらの制約を副次的に処理するMBOアルゴリズムである。 このような分解は、オンラインデータとオフラインデータから派生した情報の信頼性を動的に制御し、事前トレーニングされたニューラルネットワークを使用することで、大規模なオフラインデータセットへのスケーラビリティを実現する。 理論的には、ジャンボの後悔の限界を導出し、gp-ucb(srinivas et. srinivas. )に似た条件下では、no-regretを実現できることを示した。 アル 2010). 実世界の2つの最適化問題(ハイパーパラメータ最適化と自動回路設計)における既存手法に対する性能改善を実証的に示す。

The goal of Multi-task Bayesian Optimization (MBO) is to minimize the number of queries required to accurately optimize a target black-box function, given access to offline evaluations of other auxiliary functions. When offline datasets are large, the scalability of prior approaches comes at the expense of expressivity and inference quality. We propose JUMBO, an MBO algorithm that sidesteps these limitations by querying additional data based on a combination of acquisition signals derived from training two Gaussian Processes (GP): a cold-GP operating directly in the input domain and a warm-GP that operates in the feature space of a deep neural network pretrained using the offline data. Such a decomposition can dynamically control the reliability of information derived from the online and offline data and the use of pretrained neural networks permits scalability to large offline datasets. Theoretically, we derive regret bounds for JUMBO and show that it achieves no-regret under conditions analogous to GP-UCB (Srinivas et. al. 2010). Empirically, we demonstrate significant performance improvements over existing approaches on two real-world optimization problems: hyper-parameter optimization and automated circuit design.
翻訳日:2021-06-03 14:45:37 公開日:2021-06-02
# 密度比補正を用いたオフポリティポリシ最適化手法の収束率について

On the Convergence Rate of Off-Policy Policy Optimization Methods with Density-Ratio Correction ( http://arxiv.org/abs/2106.00993v1 )

ライセンス: Link先を確認
Jiawei Huang, Nan Jiang(参考訳) 本稿では,関数近似条件下での状態-作用密度比を補正したオフ政治政策改善アルゴリズムの収束特性について検討し,目的関数を最大値最適化問題として定式化する。 学習目標のバイアスを特徴付け,有限時間収束保証を持つ2つの戦略を提案する。 最初の戦略では、収束率$O(\epsilon^{-3})$で、$\epsilon$への依存が最適であるアルゴリズムP-SREDAを提案する。 第2の戦略として,O-SPIMという非政治アクター批判型アルゴリズムを提案する。 我々はO-SPIMが総複雑性$O(\epsilon^{-4})$の定常点に収束していることを証明する。

In this paper, we study the convergence properties of off-policy policy improvement algorithms with state-action density ratio correction under function approximation setting, where the objective function is formulated as a max-max-min optimization problem. We characterize the bias of the learning objective and present two strategies with finite-time convergence guarantees. In our first strategy, we present algorithm P-SREDA with convergence rate $O(\epsilon^{-3})$, whose dependency on $\epsilon$ is optimal. In our second strategy, we propose a new off-policy actor-critic style algorithm named O-SPIM. We prove that O-SPIM converges to a stationary point with total complexity $O(\epsilon^{-4})$, which matches the convergence rate of some recent actor-critic algorithms in the on-policy setting.
翻訳日:2021-06-03 14:45:13 公開日:2021-06-02
# 決定トランスフォーマー:シーケンスモデリングによる強化学習

Decision Transformer: Reinforcement Learning via Sequence Modeling ( http://arxiv.org/abs/2106.01345v1 )

ライセンス: Link先を確認
Lili Chen, Kevin Lu, Aravind Rajeswaran, Kimin Lee, Aditya Grover, Michael Laskin, Pieter Abbeel, Aravind Srinivas, Igor Mordatch(参考訳) 本稿ではシーケンスモデリング問題として強化学習(RL)を抽象化するフレームワークを提案する。 これにより、Transformerアーキテクチャのシンプルさとスケーラビリティ、およびGPT-xやBERTといった言語モデリングにおける関連する進歩について説明できる。 特に,RLの問題を条件付きシーケンスモデルとして用いたアーキテクチャであるDecision Transformerを提案する。 値関数や計算ポリシー勾配に適合する以前のRLのアプローチとは異なり、決定変換器は因果的にマスクされた変換器を利用して最適な動作を出力する。 所望のリターン(リワード)、過去の状態、アクションに自己回帰モデルを条件付けすることで、決定変換モデルは、所望のリターンを達成する将来のアクションを生成することができる。 その単純さにもかかわらず、Decision Transformerは、Atari、OpenAI Gym、Key-to-Doorタスク上での最先端のモデルフリーオフラインRLベースラインのパフォーマンスにマッチする。

We present a framework that abstracts Reinforcement Learning (RL) as a sequence modeling problem. This allows us to draw upon the simplicity and scalability of the Transformer architecture, and associated advances in language modeling such as GPT-x and BERT. In particular, we present Decision Transformer, an architecture that casts the problem of RL as conditional sequence modeling. Unlike prior approaches to RL that fit value functions or compute policy gradients, Decision Transformer simply outputs the optimal actions by leveraging a causally masked Transformer. By conditioning an autoregressive model on the desired return (reward), past states, and actions, our Decision Transformer model can generate future actions that achieve the desired return. Despite its simplicity, Decision Transformer matches or exceeds the performance of state-of-the-art model-free offline RL baselines on Atari, OpenAI Gym, and Key-to-Door tasks.
翻訳日:2021-06-03 14:44:59 公開日:2021-06-02
# 会話型質問への回答:調査

Conversational Question Answering: A Survey ( http://arxiv.org/abs/2106.00874v1 )

ライセンス: Link先を確認
Munazza Zaib and Wei Emma Zhang and Quan Z. Sheng and Adnan Mahmood and Yang Zhang(参考訳) 質問応答(QA)システムは、自然言語の非構造化データや構造化データを含む様々なフォーマットで利用可能な情報をクエリする方法を提供する。 これは会話型人工知能(ai)のかなりの部分を構成するもので、会話型質問応答(cqa)に関する特別な研究トピックの導入につながった。 既存の研究の焦点はシングルターンQAとなっているが、マルチターンQAの分野は、大規模なマルチターンQAデータセットが利用可能であることや、事前訓練された言語モデルの開発などにより、近年注目を集めている。 最近、毎年多くのモデルや研究論文が文献に追加されているため、今後の研究を合理化するために、関連する研究を統一的に整理し提示する必要がある。 この調査は、2016-2021年のレビュー論文に基づいて、CQAの最先端研究動向を包括的にレビューする試みである。 以上の結果から,会話型AIの分野をさまざまな観点から活性化する一ターンQAから多ターンQAへの傾向が示唆された。 この調査は、CQA分野の強力な基盤を築きたいと願う研究コミュニティにエピトームを提供することを目的としている。

Question answering (QA) systems provide a way of querying the information available in various formats including, but not limited to, unstructured and structured data in natural languages. It constitutes a considerable part of conversational artificial intelligence (AI) which has led to the introduction of a special research topic on Conversational Question Answering (CQA), wherein a system is required to understand the given context and then engages in multi-turn QA to satisfy the user's information needs. Whilst the focus of most of the existing research work is subjected to single-turn QA, the field of multi-turn QA has recently grasped attention and prominence owing to the availability of large-scale, multi-turn QA datasets and the development of pre-trained language models. With a good amount of models and research papers adding to the literature every year recently, there is a dire need of arranging and presenting the related work in a unified manner to streamline future research. This survey, therefore, is an effort to present a comprehensive review of the state-of-the-art research trends of CQA primarily based on reviewed papers from 2016-2021. Our findings show that there has been a trend shift from single-turn to multi-turn QA which empowers the field of Conversational AI from different perspectives. This survey is intended to provide an epitome for the research community with the hope of laying a strong foundation for the field of CQA.
翻訳日:2021-06-03 14:44:20 公開日:2021-06-02
# テキストによるデータベース推論

Database Reasoning Over Text ( http://arxiv.org/abs/2106.01074v1 )

ライセンス: Link先を確認
James Thorne, Majid Yazdani, Marzieh Saeidi, Fabrizio Silvestri, Sebastian Riedel, Alon Halevy(参考訳) ニューラルモデルでは、自然言語テキストからのクエリに対する応答のパフォーマンスが印象的な向上を見せている。 しかし、既存の作品では「20世紀に誕生したすべての女性アスリートのリスト」のようなデータベースクエリをサポートできないため、結合、フィルタリング、集約といった操作に関連する一連の事実を推論する必要がある。 現状の変圧器モデルは, 小型データベースではよく機能するが, ノイズの多いデータ処理, 数値演算, 事実を集約するクエリに制限があることを示す。 テキストから複数のスパンにまたがるデータベーススタイルのクエリに応答し,大規模に集約するモジュールアーキテクチャを提案する。 このようなクエリを探索する新しいデータセットであるWikiNLDBを用いてアーキテクチャを評価する。 私たちのアーキテクチャは数千の事実を含むデータベースにスケールしますが、現代のモデルはどれだけの事実をエンコードできるかによって制限されています。 小さなデータベースを直接比較すると,回答全体の精度は85%から90%に向上する。 大規模データベースでは,この手法は精度を保ちながら,トランスフォーマーベースラインはコンテキストを符号化できなかった。

Neural models have shown impressive performance gains in answering queries from natural language text. However, existing works are unable to support database queries, such as "List/Count all female athletes who were born in 20th century", which require reasoning over sets of relevant facts with operations such as join, filtering and aggregation. We show that while state-of-the-art transformer models perform very well for small databases, they exhibit limitations in processing noisy data, numerical operations, and queries that aggregate facts. We propose a modular architecture to answer these database-style queries over multiple spans from text and aggregating these at scale. We evaluate the architecture using WikiNLDB, a novel dataset for exploring such queries. Our architecture scales to databases containing thousands of facts whereas contemporary models are limited by how many facts can be encoded. In direct comparison on small databases, our approach increases overall answer accuracy from 85% to 90%. On larger databases, our approach retains its accuracy whereas transformer baselines could not encode the context.
翻訳日:2021-06-03 14:43:57 公開日:2021-06-02
# 対照的なACE: 因果メカニズムのアライメントによるドメインの一般化

Contrastive ACE: Domain Generalization Through Alignment of Causal Mechanisms ( http://arxiv.org/abs/2106.00925v1 )

ライセンス: Link先を確認
Yunqi Wang, Furui Liu, Zhitang Chen, Qing Lian, Shoubo Hu, Jianye Hao, Yik-Chung Wu(参考訳) ドメインの一般化は、複数のソースドメインから下流のタスクに意味的に意味を持ちながら、異なるディストリビューションにまたがる知識の不変性を学ぶことを目的としている。 基本的な目的は、これらの観測分布の背後にある「不変」を理解することであり、そのような不変性は因果関係に密接な関係があることが示されている。 既存の多くのアプローチでは、因果的特徴がドメイン間で不変であるという特性を利用するが、その特徴のラベルに対する平均因果的効果の因果的不変性を考慮する。 この不変性は、ドメイン間の分類器による因果予測の安定性を強制する特徴に対して介入を行う訓練アプローチを規則化する。 そこで本研究では,学習過程に機構の不変性を導入することで,領域の一般化問題に光を当てる。 いくつかのベンチマークデータセットの実験では,SOTAに対する提案手法の性能が示されている。

Domain generalization aims to learn knowledge invariant across different distributions while semantically meaningful for downstream tasks from multiple source domains, to improve the model's generalization ability on unseen target domains. The fundamental objective is to understand the underlying "invariance" behind these observational distributions and such invariance has been shown to have a close connection to causality. While many existing approaches make use of the property that causal features are invariant across domains, we consider the causal invariance of the average causal effect of the features to the labels. This invariance regularizes our training approach in which interventions are performed on features to enforce stability of the causal prediction by the classifier across domains. Our work thus sheds some light on the domain generalization problem by introducing invariance of the mechanisms into the learning process. Experiments on several benchmark datasets demonstrate the performance of the proposed method against SOTAs.
翻訳日:2021-06-03 14:42:34 公開日:2021-06-02
# カーネル手法としてのRNNのフラーミング:ニューラルODEアプローチ

Framing RNN as a kernel method: A neural ODE approach ( http://arxiv.org/abs/2106.01202v1 )

ライセンス: Link先を確認
Adeline Fermanian, Pierre Marion, Jean-Philippe Vert, G\'erard Biau(参考訳) リカレントニューラルネットワーク(recurrent neural network, rnn)を連続時間神経微分方程式として解釈し、適切な条件下では、rnnの解は、シグネチャとして知られる入力シーケンスの特定の特徴集合の線形関数と見なすことができることを示した。 この接続により、適切な再生カーネルヒルベルト空間において、RNNをカーネルメソッドとしてフレーム化することができる。 その結果、大規模な再帰型ネットワークの一般化と安定性に関する理論的保証が得られる。 その結果はシミュレーションデータセットで示される。

Building on the interpretation of a recurrent neural network (RNN) as a continuous-time neural differential equation, we show, under appropriate conditions, that the solution of a RNN can be viewed as a linear function of a specific feature set of the input sequence, known as the signature. This connection allows us to frame a RNN as a kernel method in a suitable reproducing kernel Hilbert space. As a consequence, we obtain theoretical guarantees on generalization and stability for a large class of recurrent networks. Our results are illustrated on simulated datasets.
翻訳日:2021-06-03 14:42:17 公開日:2021-06-02
# 深層学習に基づくPV生成の多出力量子化予測

Deep learning-based multi-output quantile forecasting of PV generation ( http://arxiv.org/abs/2106.01271v1 )

ライセンス: Link先を確認
Jonathan Dumas, Colin Cointe, Xavier Fettweis, Bertrand Corn\'elusse(参考訳) 本稿では,近年のディープラーニングの進展を利用して,確率的PV予測器を開発する。 encorder-decoderという名前のカスタマイズされた予測ツールは、日内複数出力のpv量子量予測を計算し、時間相関を効率的に捉えるために実装されている。 モデルは、確率予測分布の事前知識を前提としない非パラメトリックなアプローチである量子回帰を用いて訓練される。 ケーススタディはベルギーのリエージュ大学 (ULi\`ege) の現場で測定されたPV生産から成り立っている。 深層学習モデルの入力には,気候学研究室が提供する地域気候モデルからの天気予報が用いられる。 予測品質は連続的なランク付け確率と間隔スコアによって定量的に評価される。 その結果、このアーキテクチャは予測品質を向上し、堅牢な最適化のために日々の意思決定ツールに組み込まれる計算効率が向上した。

This paper develops probabilistic PV forecasters by taking advantage of recent breakthroughs in deep learning. It tailored forecasting tool, named encoder-decoder, is implemented to compute intraday multi-output PV quantiles forecasts to efficiently capture the time correlation. The models are trained using quantile regression, a non-parametric approach that assumes no prior knowledge of the probabilistic forecasting distribution. The case study is composed of PV production monitored on-site at the University of Li\`ege (ULi\`ege), Belgium. The weather forecasts from the regional climate model provided by the Laboratory of Climatology are used as inputs of the deep learning models. The forecast quality is quantitatively assessed by the continuous ranked probability and interval scores. The results indicate this architecture improves the forecast quality and is computationally efficient to be incorporated in an intraday decision-making tool for robust optimization.
翻訳日:2021-06-03 14:42:08 公開日:2021-06-02
# 監視シナリオにおけるオンラインおよびリアルタイム追跡

Online and Real-Time Tracking in a Surveillance Scenario ( http://arxiv.org/abs/2106.01153v1 )

ライセンス: Link先を確認
Oliver Urbann, Oliver Bredtmann, Maximilian Otten, Jan-Philip Richter, Thilo Bauer, David Zibriczky(参考訳) 本稿では,監視シナリオにおける追跡手法を提案する。 このシナリオの典型的な側面は24/7の動作で、多数の物体や人物を持つ人間の高さの上に静的カメラが取り付けられている。 Multiple Object Tracking Benchmark 20 (MOT20)はこのシナリオを最もよく反映している。 このベンチマークでは,我々のアプローチがリアルタイムに実現可能であることを示すことができ,HOTA,MOTA,IFF1の他のリアルタイム能力を持つアプローチよりも優れています。 我々は,線形実行時(二次的ではなく)に修正された高速シャムネットワークを用いて,検出から指紋を生成することで,これを実現する。 これにより、指紋のコサイン類似性、結合点の交叉、画像の画素距離比など、複数の追跡特定格付けに基づいてカルマンフィルタに検出を関連付けることができる。

This paper presents an approach for tracking in a surveillance scenario. Typical aspects for this scenario are a 24/7 operation with a static camera mounted above the height of a human with many objects or people. The Multiple Object Tracking Benchmark 20 (MOT20) reflects this scenario best. We can show that our approach is real-time capable on this benchmark and outperforms all other real-time capable approaches in HOTA, MOTA, and IDF1. We achieve this by contributing a fast Siamese network reformulated for linear runtime (instead of quadratic) to generate fingerprints from detections. Thus, it is possible to associate the detections to Kalman filters based on multiple tracking specific ratings: Cosine similarity of fingerprints, Intersection over Union, and pixel distance ratio in the image.
翻訳日:2021-06-03 14:41:53 公開日:2021-06-02
# ニューラルネットワークによる大規模拡張型ネットワークセキュリティゲームの実現

Solving Large-Scale Extensive-Form Network Security Games via Neural Fictitious Self-Play ( http://arxiv.org/abs/2106.00897v1 )

ライセンス: Link先を確認
Wanqi Xue, Youzhi Zhang, Shuxin Li, Xinrun Wang, Bo An, Chai Kiat Yeo(参考訳) ネットワークインフラストラクチャのセキュリティは、現実世界では重要だ。 ネットワークドメインにおける攻撃者を保護するためにセキュリティリソースをデプロイする問題は、Network Security Games(NSG)としてモデル化できる。 残念ながら、ディープラーニングベースのアプローチを含む既存のアプローチは、大規模な大規模nsgを解決するには非効率である。 本稿では,ニューラル・フィクション・セルフプレイ(NFSP)に基づく大規模広義NSGを解くための新しい学習パラダイムNSG-NFSPを提案する。 Our main contributions include: i) reforming the best response (BR) policy network in NFSP to be a mapping from action-state pair to action-value, to make the calculation of BR possible in NSGs; ii) converting the average policy network of an NFSP agent into a metric-based classifier, helping the agent to assign distributions only on legal actions rather than all actions; iii) enabling NFSP with high-level actions, which can benefit training efficiency and stability in NSGs; and iv) leveraging information contained in graphs of NSGs by learning efficient graph node embeddings. 我々のアルゴリズムはスケーラビリティとソリューションの品質の両方において最先端のアルゴリズムを大幅に上回っている。

Securing networked infrastructures is important in the real world. The problem of deploying security resources to protect against an attacker in networked domains can be modeled as Network Security Games (NSGs). Unfortunately, existing approaches, including the deep learning-based approaches, are inefficient to solve large-scale extensive-form NSGs. In this paper, we propose a novel learning paradigm, NSG-NFSP, to solve large-scale extensive-form NSGs based on Neural Fictitious Self-Play (NFSP). Our main contributions include: i) reforming the best response (BR) policy network in NFSP to be a mapping from action-state pair to action-value, to make the calculation of BR possible in NSGs; ii) converting the average policy network of an NFSP agent into a metric-based classifier, helping the agent to assign distributions only on legal actions rather than all actions; iii) enabling NFSP with high-level actions, which can benefit training efficiency and stability in NSGs; and iv) leveraging information contained in graphs of NSGs by learning efficient graph node embeddings. Our algorithm significantly outperforms state-of-the-art algorithms in both scalability and solution quality.
翻訳日:2021-06-03 14:41:43 公開日:2021-06-02
# プライバシー保護と信頼性のあるマルチエージェント学習フレームワーク

A Privacy-Preserving and Trustable Multi-agent Learning Framework ( http://arxiv.org/abs/2106.01242v1 )

ライセンス: Link先を確認
Anudit Nagar, Cuong Tran, Ferdinando Fioretto(参考訳) 分散マルチエージェント学習により、エージェントはデータセットを共有することなく、モデルを協調的にトレーニングできる。 この設定によってある程度のプライバシーが保証されるが、データが直接共有されていない場合でも、トレーニングプロセスはデータ再構成やモデル反転攻撃といったプライバシー攻撃に弱いことが示されている。 さらに、逆ラベルやランダムなデータをトレーニングする悪意のあるエージェントは、グローバルモデルの精度を任意に弱める可能性がある。 本稿では,これらの課題に対処し,エージェントデータの強力なプライバシ保護を保証するために差分プライバシに依存する分散学習(PT-DL)と,信頼性を保証するEthereumスマートコントラクトを提案する。 本論文は,PT-DLが悪意のある信頼モデルにおいて50%の衝突攻撃に対して高い確率で回復可能であることを示し,その実験により,複数の分類タスクにおいて,プライバシ保護および信頼性の高い分散マルチエージェント学習システムとして提案されたモデルの利点が示された。

Distributed multi-agent learning enables agents to cooperatively train a model without requiring to share their datasets. While this setting ensures some level of privacy, it has been shown that, even when data is not directly shared, the training process is vulnerable to privacy attacks including data reconstruction and model inversion attacks. Additionally, malicious agents that train on inverted labels or random data, may arbitrarily weaken the accuracy of the global model. This paper addresses these challenges and presents Privacy-preserving and trustable Distributed Learning (PT-DL), a fully decentralized framework that relies on Differential Privacy to guarantee strong privacy protections of the agents' data, and Ethereum smart contracts to ensure trustability. The paper shows that PT-DL is resilient up to a 50% collusion attack, with high probability, in a malicious trust model and the experimental evaluation illustrates the benefits of the proposed model as a privacy-preserving and trustable distributed multi-agent learning system on several classification tasks.
翻訳日:2021-06-03 14:41:28 公開日:2021-06-02
# NeRP:未知物体のニューラル再構成計画

NeRP: Neural Rearrangement Planning for Unknown Objects ( http://arxiv.org/abs/2106.01352v1 )

ライセンス: Link先を確認
Ahmed H. Qureshi, Arsalan Mousavian, Chris Paxton, Michael C. Yip, and Dieter Fox(参考訳) ロボットは、人間の環境でより広く使われるようになるにつれて、様々な物体を複雑で任意の方法で操作することが期待される。 そのため、オブジェクトの再配置は近年、AI能力の重要なベンチマークとして注目されている。 提案するNeRP(Neural Rearrangement Planning, ニューラルリアレンジ計画)は, 未確認物体と協調して動作し, シミュレーションデータに基づいて学習し, 実世界へ一般化する多段階ニューラルオブジェクトアレンジメント計画法である。 我々はNeRPをいくつかの単純でモデルベースのベースラインと比較し、我々のアプローチが測定しやすく、未確認のオブジェクトを少ないステップで効率的に配置できることを示した。 最後に、実世界のいくつかの挑戦的な再配置問題について示す。

Robots will be expected to manipulate a wide variety of objects in complex and arbitrary ways as they become more widely used in human environments. As such, the rearrangement of objects has been noted to be an important benchmark for AI capabilities in recent years. We propose NeRP (Neural Rearrangement Planning), a deep learning based approach for multi-step neural object rearrangement planning which works with never-before-seen objects, that is trained on simulation data, and generalizes to the real world. We compare NeRP to several naive and model-based baselines, demonstrating that our approach is measurably better and can efficiently arrange unseen objects in fewer steps and with less planning time. Finally, we demonstrate it on several challenging rearrangement problems in the real world.
翻訳日:2021-06-03 14:41:08 公開日:2021-06-02
# ベクトル変数を用いた潜在木学習のロバスト化アルゴリズム

Robustifying Algorithms of Learning Latent Trees with Vector Variables ( http://arxiv.org/abs/2106.00885v1 )

ライセンス: Link先を確認
Fengzhuo Zhang, Vincent Y. F. Tan(参考訳) 我々は,その部分集合が任意に破損した場合に,ベクトル観測によりガウスの潜在木モデルの構造を学習することを検討する。 まず、実効深度が観測ノード数で有界であるという仮定なしに、再帰的グループ (RG) と Chow-Liu Recursive Grouping (CLRG) のサンプル複雑度を示し、Choi et al において結果を著しく一般化する。 (2011). CLRGにおけるChow-Liu初期化は,木径の指数関数化から隠れマルコフモデル(HMM)の対数化まで,RGのサンプル複雑性を大幅に減少させることを示す。 次に,RG,CLRG,Neighbor Joining (NJ) およびSpectral NJ (SNJ) をトラッピングした内積を用いて強化する。 これらの堅牢化アルゴリズムは、クリーンサンプル数の平方根まで多くの汚職を許容することができる。 最後に、潜在木の構造学習において、最初の既知のインスタンス依存不合理性を導出する。 CLRG と NJ のロバストバージョンの最適性は、それらのサンプルの複雑さと不合理性の結果を比較して検証する。

We consider learning the structures of Gaussian latent tree models with vector observations when a subset of them are arbitrarily corrupted. First, we present the sample complexities of Recursive Grouping (RG) and Chow-Liu Recursive Grouping (CLRG) without the assumption that the effective depth is bounded in the number of observed nodes, significantly generalizing the results in Choi et al. (2011). We show that Chow-Liu initialization in CLRG greatly reduces the sample complexity of RG from being exponential in the diameter of the tree to only logarithmic in the diameter for the hidden Markov model (HMM). Second, we robustify RG, CLRG, Neighbor Joining (NJ) and Spectral NJ (SNJ) by using the truncated inner product. These robustified algorithms can tolerate a number of corruptions up to the square root of the number of clean samples. Finally, we derive the first known instance-dependent impossibility result for structure learning of latent trees. The optimalities of the robust version of CLRG and NJ are verified by comparing their sample complexities and the impossibility result.
翻訳日:2021-06-03 14:40:17 公開日:2021-06-02
# グラフ生成モデルのための評価指標:問題、落とし穴、実践的解決策

Evaluation Metrics for Graph Generative Models: Problems, Pitfalls, and Practical Solutions ( http://arxiv.org/abs/2106.01098v1 )

ライセンス: Link先を確認
Leslie O'Bray, Max Horn, Bastian Rieck, Karsten Borgwardt(参考訳) グラフ生成モデルは機械学習の非常に活発な分野である。 複雑さが増し続ける新しいモデルが着実に発展していることを考えると、それらを評価し比較するための原則に基づいた方法を提供する必要がある。 本稿では,比較指標の望ましい基準を列挙し,これらの指標の開発について議論し,それぞれの表現力の比較を行う。 現在使用されている主要なメトリクスを体系的に評価し、研究者が必然的に経験できる課題と落とし穴を強調します。 次に、適切な指標の集合を記述し、それらの実用的適合性について推奨し、合成生成した摂動グラフおよび最近提案されたグラフ生成モデル上での挙動を分析する。

Graph generative models are a highly active branch of machine learning. Given the steady development of new models of ever-increasing complexity, it is necessary to provide a principled way to evaluate and compare them. In this paper, we enumerate the desirable criteria for comparison metrics, discuss the development of such metrics, and provide a comparison of their respective expressive power. We perform a systematic evaluation of the main metrics in use today, highlighting some of the challenges and pitfalls researchers inadvertently can run into. We then describe a collection of suitable metrics, give recommendations as to their practical suitability, and analyse their behaviour on synthetically generated perturbed graphs as well as on recently proposed graph generative models.
翻訳日:2021-06-03 14:40:00 公開日:2021-06-02
# Gradient Descent を用いた単一ニューロンのバイアス学習

Learning a Single Neuron with Bias Using Gradient Descent ( http://arxiv.org/abs/2106.01101v1 )

ライセンス: Link先を確認
Gal Vardi, Gilad Yehudai, Ohad Shamir(参考訳) reluアクティベーションで実現可能な設定において、偏り項 (\mathbf{x} \mapsto \sigma(<\mathbf{w},\mathbf{x}> + b) を持つ単一ニューロンを勾配降下を用いて学習するという根本的な問題を理論的に研究する。 おそらく、これはバイアスのないケース(かつては単一ニューロンに焦点をあてていた)と、最適化幾何学といくつかのシナリオにおいて勾配法が成功する能力の両方において、かなり異なる、より難しい問題であることを示している。 我々は,この問題に関する詳細な研究を行い,目的の臨界点を特徴付け,失敗事例を示し,様々な仮定の下での正の収束保証を提供する。 結果を証明するために、独立した関心を持つツールを開発し、単一ニューロンを学習する前の結果を改善する。

We theoretically study the fundamental problem of learning a single neuron with a bias term ($\mathbf{x} \mapsto \sigma(<\mathbf{w},\mathbf{x}> + b)$) in the realizable setting with the ReLU activation, using gradient descent. Perhaps surprisingly, we show that this is a significantly different and more challenging problem than the bias-less case (which was the focus of previous works on single neurons), both in terms of the optimization geometry as well as the ability of gradient methods to succeed in some scenarios. We provide a detailed study of this problem, characterizing the critical points of the objective, demonstrating failure cases, and providing positive convergence guarantees under different sets of assumptions. To prove our results, we develop some tools which may be of independent interest, and improve previous results on learning single neurons.
翻訳日:2021-06-03 14:39:48 公開日:2021-06-02
# 超解法レジームにおけるウェーブベース逆問題解決のための高精度かつロバストなディープラーニングフレームワーク

Accurate and Robust Deep Learning Framework for Solving Wave-Based Inverse Problems in the Super-Resolution Regime ( http://arxiv.org/abs/2106.01143v1 )

ライセンス: Link先を確認
Matthew Li, Laurent Demanet, Leonardo Zepeda-N\'u\~nez(参考訳) 本稿では,すべての長さスケールにわたる逆波散乱問題を包括的に解決するエンドツーエンドのディープラーニングフレームワークを提案する。 本フレームワークは,新たに導入された広帯域バタフライネットワークと,トレーニング中に動的にノイズを注入する簡単なトレーニング手順から構成される。 我々の訓練されたネットワークは、古典的な撮像方式で競争的な結果をもたらすが、最も注目すべきは、他の同等の手法が失敗する超解像方式でも成功することだ。 これは、(i)波長以下の幾何学的特徴を持つ散乱器の再構成と、(ii)2つ以上の散乱器を古典的な回折限界以下で分離した場合の正確な撮像の両方を含む。 これらの特性は, 強い雑音の存在下においても保持され, トレーニングセットにこれまでなかった散乱体にまで拡張されることを示す。 さらに、当社のネットワークはリスタート不要のトレーニングが簡単で、最適化ベースのアルゴリズムよりも桁違いに速いオンラインランタイムを備えています。 我々は,様々な散乱媒質を用いて実験を行い,振動波散乱データに特化する古典的インバージョンと競合するネットワークアーキテクチャの両方に優れた性能を示す。

We propose an end-to-end deep learning framework that comprehensively solves the inverse wave scattering problem across all length scales. Our framework consists of the newly introduced wide-band butterfly network coupled with a simple training procedure that dynamically injects noise during training. While our trained network provides competitive results in classical imaging regimes, most notably it also succeeds in the super-resolution regime where other comparable methods fail. This encompasses both (i) reconstruction of scatterers with sub-wavelength geometric features, and (ii) accurate imaging when two or more scatterers are separated by less than the classical diffraction limit. We demonstrate these properties are retained even in the presence of strong noise and extend to scatterers not previously seen in the training set. In addition, our network is straightforward to train requiring no restarts and has an online runtime that is an order of magnitude faster than optimization-based algorithms. We perform experiments with a variety of wave scattering mediums and we demonstrate that our proposed framework outperforms both classical inversion and competing network architectures that specialize in oscillatory wave scattering data.
翻訳日:2021-06-03 14:39:30 公開日:2021-06-02
# 文字レベル埋め込みと多段階注意U-Netによるエンドツーエンド情報抽出

End-to-End Information Extraction by Character-Level Embedding and Multi-Stage Attentional U-Net ( http://arxiv.org/abs/2106.00952v1 )

ライセンス: Link先を確認
Tuan-Anh Nguyen Dang and Dat-Thanh Nguyen(参考訳) 請求書やレシート,銀行振替など,構造化されていない大量の文書をデジタル化する必要性から,近年,文書画像からの情報抽出が注目されている。 本稿では,文書の2次元キャラクタグリッド埋め込みに関するエンドツーエンド情報抽出のための新しいディープラーニングアーキテクチャ,すなわち \textit{multi-stage attentional u-net}を提案する。 2次元要素間のテキストと空間の関係を効果的に把握するために,本モデルは,自己保持機構とボックス畳み込みの効率的な利用と合わせて,特殊な多段エンコーダデコーダ設計を利用する。 異なるデータセットに対する実験結果から,40 % のパラメータを用いてベースラインの U-Net アーキテクチャよりも高い性能を示した。 さらに、誤ったOCRのベースラインと限られたトレーニングデータシナリオも大幅に改善され、現実のアプリケーションでは実用的になる。

Information extraction from document images has received a lot of attention recently, due to the need for digitizing a large volume of unstructured documents such as invoices, receipts, bank transfers, etc. In this paper, we propose a novel deep learning architecture for end-to-end information extraction on the 2D character-grid embedding of the document, namely the \textit{Multi-Stage Attentional U-Net}. To effectively capture the textual and spatial relations between 2D elements, our model leverages a specialized multi-stage encoder-decoders design, in conjunction with efficient uses of the self-attention mechanism and the box convolution. Experimental results on different datasets show that our model outperforms the baseline U-Net architecture by a large margin while using 40\% fewer parameters. Moreover, it also significantly improved the baseline in erroneous OCR and limited training data scenario, thus becomes practical for real-world applications.
翻訳日:2021-06-03 14:39:10 公開日:2021-06-02
# 3次元解剖学的脳MRIにおけるCNNのベンチマーク:アーキテクチャ、データ拡張、ディープラーニング

Benchmarking CNN on 3D Anatomical Brain MRI: Architectures, Data Augmentation and Deep Ensemble Learning ( http://arxiv.org/abs/2106.01132v1 )

ライセンス: Link先を確認
Benoit Dufumier, Pietro Gori, Ilaria Battaglia, Julie Victor, Antoine Grigis, Edouard Duchesnay(参考訳) ディープラーニング(DL)、特にCNNモデルは、さまざまなビジョンタスクのデファクトメソッドとなり、従来の機械学習(ML)メソッドよりも優れています。 その結果、特に表現型予測やコンピュータ支援診断において、神経画像の分野で多くの注目を集めた。 しかしながら、現在の研究の多くは、特定の前処理パイプラインやカスタムCNNアーキテクチャとともに、小さなシングルサイトコホートを扱うことが多いため、比較するのは困難である。 本稿では,Voxel-Based Morphometry(VBM)前処理と準RAW画像の両面から,データ拡張と深層アンサンブル学習の利点を評価するため,最近のSOTA(State-of-the-art)3D CNNの広範なベンチマークを提案する。 年齢予測,性別分類,統合失調症診断の3つの課題について,N=10kスキャンを含む多地点脳解剖学的MRIデータセットを用いて実験を行った。 その結果,VBM画像の予測精度は準RAWデータよりも有意に向上した。 トレーニングセットが10kサンプルに近づき、準ローデータがほぼVBMの性能に達すると、この発見は進化した。 さらに,線形モデルはVBMデータ上でSOTA CNNと同等に動作することを示した。 また、DenseNetとSmall-DenseNetは、私たちが提案したより軽量なバージョンで、すべてのデータ構造のパフォーマンスにおいて良い妥協をもたらすことを実証しました。 したがって、既定のアーキテクチャとして採用することを提案する。 また,N=10kのマルチサイトイメージをトレーニングしても,現在のCNNは依然として買収サイトに偏っていることも確認した。 この文脈では、VBM前処理は、このサイト効果を制限する効率的な方法を提供する。 驚いたことに、データ拡張技術の明確なメリットは見つからなかった。 最後に,大規模CNNモデルの校正に深層アンサンブル学習が適していることを確認した。

Deep Learning (DL) and specifically CNN models have become a de facto method for a wide range of vision tasks, outperforming traditional machine learning (ML) methods. Consequently, they drew a lot of attention in the neuroimaging field in particular for phenotype prediction or computer-aided diagnosis. However, most of the current studies often deal with small single-site cohorts, along with a specific pre-processing pipeline and custom CNN architectures, which make them difficult to compare to. We propose an extensive benchmark of recent state-of-the-art (SOTA) 3D CNN, evaluating also the benefits of data augmentation and deep ensemble learning, on both Voxel-Based Morphometry (VBM) pre-processing and quasi-raw images. Experiments were conducted on a large multi-site 3D brain anatomical MRI data-set comprising N=10k scans on 3 challenging tasks: age prediction, sex classification, and schizophrenia diagnosis. We found that all models provide significantly better predictions with VBM images than quasi-raw data. This finding evolved as the training set approaches 10k samples where quasi-raw data almost reach the performance of VBM. Moreover, we showed that linear models perform comparably with SOTA CNN on VBM data. We also demonstrated that DenseNet and tiny-DenseNet, a lighter version that we proposed, provide a good compromise in terms of performance in all data regime. Therefore, we suggest to employ them as the architectures by default. Critically, we also showed that current CNN are still very biased towards the acquisition site, even when trained with N=10k multi-site images. In this context, VBM pre-processing provides an efficient way to limit this site effect. Surprisingly, we did not find any clear benefit from data augmentation techniques. Finally, we proved that deep ensemble learning is well suited to re-calibrate big CNN models without sacrificing performance.
翻訳日:2021-06-03 14:38:52 公開日:2021-06-02
# nystr\"om法とばらばらな変分ガウス過程の接続と等価性

Connections and Equivalences between the Nystr\"om Method and Sparse Variational Gaussian Processes ( http://arxiv.org/abs/2106.01121v1 )

ライセンス: Link先を確認
Veit Wild, Motonobu Kanagawa, Dino Sejdinovic(参考訳) 我々は,Nystr\"om法とSparse Variational Gaussian Processes (SVGP)に着目し,カーネル法とガウス過程(GP)を大規模データに拡張するためのスパース近似手法の関連性を検討する。 gps とカーネル法に対するスパース近似法は代数的類似性を共有しているが、文献にはそれらの関係性についての深い理解が欠けている。 これはGPコミュニティとカーネルコミュニティの間の通信の障害になり得るため、一方からもう一方へ結果の転送が困難になる。 我々のモチベーションは、GPとカーネルメソッドのスパース近似の接続を明確にすることで、この可能な障害を取り除くことである。 本研究では,回帰問題の文脈において,nystr\"omとsvgp近似という2つの一般的なアプローチを研究し,それらの関係と等価性を確立する。 特に、svgp近似の rkhs 解釈を提供し、svgp のエビデンス下限が nystr\"om 近似の目的関数を含むことを示し、2つのアプローチの間の代数的同値の起源を明らかにする。 また,最近確立された SVGP の収束結果と Nystr\"om 法の近似品質との関連性についても検討した。

We investigate the connections between sparse approximation methods for making kernel methods and Gaussian processes (GPs) scalable to massive data, focusing on the Nystr\"om method and the Sparse Variational Gaussian Processes (SVGP). While sparse approximation methods for GPs and kernel methods share some algebraic similarities, the literature lacks a deep understanding of how and why they are related. This is a possible obstacle for the communications between the GP and kernel communities, making it difficult to transfer results from one side to the other. Our motivation is to remove this possible obstacle, by clarifying the connections between the sparse approximations for GPs and kernel methods. In this work, we study the two popular approaches, the Nystr\"om and SVGP approximations, in the context of a regression problem, and establish various connections and equivalences between them. In particular, we provide an RKHS interpretation of the SVGP approximation, and show that the Evidence Lower Bound of the SVGP contains the objective function of the Nystr\"om approximation, revealing the origin of the algebraic equivalence between the two approaches. We also study recently established convergence results for the SVGP and how they are related to the approximation quality of the Nystr\"om method.
翻訳日:2021-06-03 14:38:22 公開日:2021-06-02
# 重み付きデータを用いた微分プライベート確率凸最適化の精度向上

Improved Rates for Differentially Private Stochastic Convex Optimization with Heavy-Tailed Data ( http://arxiv.org/abs/2106.01336v1 )

ライセンス: Link先を確認
Gautam Kamath, Xingtu Liu, Huanyu Zhang(参考訳) 差分プライバシーの制約の下で,重み付きデータを用いた確率凸最適化について検討した。 この問題に関するほとんどの先行研究は、損失関数がリプシッツである場合に限られる。 代わりに、Wang, Xiao, Devadas, Xu によって導入されたように、勾配の分布が k$-次モーメントに有界であるという仮定で一般凸損失函数を研究する。 我々は、それぞれ凸と強い凸損失関数に対して、近似微分プライバシーの下で、過剰な集団リスクを$\tilde{O}\left(\sqrt {\frac{d}{n}}+\left(\frac{d}{\epsilon n}\right)^{\frac{k-1}{k}}\right)$と$\tilde{O}\left(\frac{d}{n}+\left(\frac{d}{\epsilon n}\right)^{\frac{2k-2}{k}}\right)$で改善した上限を提供する。 また、純粋な微分プライバシーの制約の下で下限とほぼ一致することを証明し、我々の境界が厳密であることの強い証拠を与えます。

We study stochastic convex optimization with heavy-tailed data under the constraint of differential privacy. Most prior work on this problem is restricted to the case where the loss function is Lipschitz. Instead, as introduced by Wang, Xiao, Devadas, and Xu, we study general convex loss functions with the assumption that the distribution of gradients has bounded $k$-th moments. We provide improved upper bounds on the excess population risk under approximate differential privacy of $\tilde{O}\left(\sqrt{\frac{d}{n}}+\left(\frac{d}{\epsilon n}\right)^{\frac{k-1}{k}}\right)$ and $\tilde{O}\left(\frac{d}{n}+\left(\frac{d}{\epsilon n}\right)^{\frac{2k-2}{k}}\right)$ for convex and strongly convex loss functions, respectively. We also prove nearly-matching lower bounds under the constraint of pure differential privacy, giving strong evidence that our bounds are tight.
翻訳日:2021-06-03 14:37:59 公開日:2021-06-02
# トランスフォーマによる算術語問題の解法と問題テキストの前処理

Solving Arithmetic Word Problems with Transformers and Preprocessing of Problem Text ( http://arxiv.org/abs/2106.00893v1 )

ライセンス: Link先を確認
Kaden Griffith and Jugal Kalita(参考訳) 本稿では, infix, prefix, postfix 表記法において, 数学用語問題を等価な算術式に変換するために訓練されたトランスフォーマーネットワークの利用について概説する。 我々は、多くの神経構成の結果を比較し、4つのデータセットのうち3つで報告されたアプローチよりも多くの構成が優れており、20パーセンテージ以上の精度が大幅に向上していることを見出した。 最高のニューラルネットワークアプローチは、いくつかのデータセットの以前の最先端と比較して精度を30%向上させる。

This paper outlines the use of Transformer networks trained to translate math word problems to equivalent arithmetic expressions in infix, prefix, and postfix notations. We compare results produced by many neural configurations and find that most configurations outperform previously reported approaches on three of four datasets with significant increases in accuracy of over 20 percentage points. The best neural approaches boost accuracy by 30% when compared to the previous state-of-the-art on some datasets.
翻訳日:2021-06-03 14:36:29 公開日:2021-06-02
# 普遍文エンコーダとしての離散コサイン変換

Discrete Cosine Transform as Universal Sentence Encoder ( http://arxiv.org/abs/2106.00934v1 )

ライセンス: Link先を確認
Nada Almarwani and Mona Diab(参考訳) 現代の文エンコーダは、句、文、段落を含む単語列の根底にある言語特性をキャプチャする密度の高いベクトル表現を生成するために使用される。 このような表現は、感情分析、質問応答、テキスト分類などの最終タスクの分類器を訓練するのに理想的です。 事前学習プロトコルで使用する汎用文表現を効率よく生成するモデルが提案されている。 平均化が最もよく使われる文エンコーダであるのに対し、離散コサイン変換(DCT)は、最近、平均化よりも実用的な効率を損なうことなく、与えられたテキストの基本的な構文特性をキャプチャする代替手段として提案されている。 しかし、他のほとんどの文エンコーダと同様に、DCT文エンコーダは英語でのみ評価された。 この目的のために、DCTエンコーダを用いて、ドイツ語、フランス語、スペイン語、ロシア語など様々な言語に対して普遍的な文表現を生成する。 実験結果から,複数の標準データセット上での強いベースライン上で一貫した性能向上を実現するDCT符号化の有効性が明らかとなった。

Modern sentence encoders are used to generate dense vector representations that capture the underlying linguistic characteristics for a sequence of words, including phrases, sentences, or paragraphs. These kinds of representations are ideal for training a classifier for an end task such as sentiment analysis, question answering and text classification. Different models have been proposed to efficiently generate general purpose sentence representations to be used in pretraining protocols. While averaging is the most commonly used efficient sentence encoder, Discrete Cosine Transform (DCT) was recently proposed as an alternative that captures the underlying syntactic characteristics of a given text without compromising practical efficiency compared to averaging. However, as with most other sentence encoders, the DCT sentence encoder was only evaluated in English. To this end, we utilize DCT encoder to generate universal sentence representation for different languages such as German, French, Spanish and Russian. The experimental results clearly show the superior effectiveness of DCT encoding in which consistent performance improvements are achieved over strong baselines on multiple standardized datasets.
翻訳日:2021-06-03 14:36:22 公開日:2021-06-02
# Evidence-based Fact Checking のためのマルチレベル注意モデル

A Multi-Level Attention Model for Evidence-Based Fact Checking ( http://arxiv.org/abs/2106.00950v1 )

ライセンス: Link先を確認
Canasai Kruengkrai, Junichi Yamagishi, Xin Wang(参考訳) 証拠に基づく事実チェックは、テキストソースから抽出された証拠に対する主張の真偽を検証することを目的としている。 主張と証拠の関係を効果的に捉える表現を学ぶことは困難である。 最近の最先端のアプローチは、グラフ構造に基づく洗練されたモデルの開発が進んでいる。 シーケンス構造をトレーニング可能な,シンプルなモデルを提案する。 本モデルは,異なるレベルでの相互注意を可能とし,共同訓練の恩恵を受ける。 事実抽出・検証のための大規模データセット(fever)の結果,本モデルがグラフベースアプローチを上回っており,ラベル精度とフィーバースコアのそれぞれ1.09%,1.42%向上していることがわかった。

Evidence-based fact checking aims to verify the truthfulness of a claim against evidence extracted from textual sources. Learning a representation that effectively captures relations between a claim and evidence can be challenging. Recent state-of-the-art approaches have developed increasingly sophisticated models based on graph structures. We present a simple model that can be trained on sequence structures. Our model enables inter-sentence attentions at different levels and can benefit from joint training. Results on a large-scale dataset for Fact Extraction and VERification (FEVER) show that our model outperforms the graph-based approaches and yields 1.09% and 1.42% improvements in label accuracy and FEVER score, respectively, over the best published model.
翻訳日:2021-06-03 14:36:03 公開日:2021-06-02
# 検索型質問応答システムのための回答生成

Answer Generation for Retrieval-based Question Answering Systems ( http://arxiv.org/abs/2106.00955v1 )

ライセンス: Link先を確認
Chao-Chun Hsu, Eric Lind, Luca Soldaini, Alessandro Moschitti(参考訳) 近年のトランスフォーマーベースモデルの進歩により,質問回答システム(QA)による正しい回答を提供する能力が大幅に向上し,特に検索ベースシステムの中核コンポーネントである回答文選択モデル(AS2)が目覚ましい結果を得た。 一般的には有効だが、たとえ正しい情報を含んでいても、検索された全ての候補者が品質が悪い場合、これらのモデルは満足のいく答えを提供しない。 AS2では、与えられた質問に対して検索された候補のうち、最高の回答文を選択するためにモデルが訓練される。 本稿では,AS2トップ候補の集合から回答を生成することを提案する。 最適な候補を選択するのではなく、候補セットから回答を生成するためにシーケンスからシーケンストランスフォーマモデルを訓練する。 3つの英語as2データセットで行ったテストでは、最先端よりも精度が最大32点向上しました。

Recent advancements in transformer-based models have greatly improved the ability of Question Answering (QA) systems to provide correct answers; in particular, answer sentence selection (AS2) models, core components of retrieval-based systems, have achieved impressive results. While generally effective, these models fail to provide a satisfying answer when all retrieved candidates are of poor quality, even if they contain correct information. In AS2, models are trained to select the best answer sentence among a set of candidates retrieved for a given question. In this work, we propose to generate answers from a set of AS2 top candidates. Rather than selecting the best candidate, we train a sequence to sequence transformer model to generate an answer from a candidate set. Our tests on three English AS2 datasets show improvement up to 32 absolute points in accuracy over the state of the art.
翻訳日:2021-06-03 14:35:51 公開日:2021-06-02
# revcore:レビューによるリコメンデーション

RevCore: Review-augmented Conversational Recommendation ( http://arxiv.org/abs/2106.00957v1 )

ライセンス: Link先を確認
Yu Lu, Junwei Bao, Yan Song, Zichen Ma, Shuguang Cui, Youzheng Wu, and Xiaodong He(参考訳) 既存の会話レコメンデーション(CR)システムは通常、短い対話履歴や馴染みのない項目で行うと、不十分な項目情報に悩まされる。 外部情報(例えばレビュー)を組み込むことは、この問題を軽減する潜在的な解決策である。 レビューは、様々な関心事に関するリッチで詳細なユーザーエクスペリエンスを提供することが多いので、情報的な会話の中で高品質なレコメンデーションを提供するのに理想的なリソースである。 本稿では、レビューをシームレスに組み込んでアイテム情報を充実させ、コヒーレントかつインフォメーションな応答を生成するための新しいエンド・ツー・エンドのフレームワーク、revcore(review-augmented conversational recommender)を設計した。 より詳しくは、感情一貫性のあるレビューを抽出し、レビューに富んだエンティティベースの提案を行うとともに、レビューアテンティブなエンコーダデコーダを用いて応答生成を行う。 実験の結果,提案手法は,推薦と会話の反応の両方において,優れた性能が得られることが示された。

Existing conversational recommendation (CR) systems usually suffer from insufficient item information when conducted on short dialogue history and unfamiliar items. Incorporating external information (e.g., reviews) is a potential solution to alleviate this problem. Given that reviews often provide a rich and detailed user experience on different interests, they are potential ideal resources for providing high-quality recommendations within an informative conversation. In this paper, we design a novel end-to-end framework, namely, Review-augmented Conversational Recommender (RevCore), where reviews are seamlessly incorporated to enrich item information and assist in generating both coherent and informative responses. In detail, we extract sentiment-consistent reviews, perform review-enriched and entity-based recommendations for item suggestions, as well as use a review-attentive encoder-decoder for response generation. Experimental results demonstrate the superiority of our approach in yielding better performance on both recommendation and conversation responding.
翻訳日:2021-06-03 14:35:37 公開日:2021-06-02
# モーメントインパクト分類のための談話構造探索

Exploring Discourse Structures for Argument Impact Classification ( http://arxiv.org/abs/2106.00976v1 )

ライセンス: Link先を確認
Xin Liu, Jiefu Ou, Yangqiu Song, Xin Jiang(参考訳) 議論間の談話関係は議論の論理的構造を明らかにする。 しかしながら、議論関係の順序がクレームの影響にどのように影響するかを明示的に研究する以前の研究はない。 本稿では,文脈経路に沿った2つの議論間の談話関係が,議論の説得力を特定する上で不可欠な要因であることを実証的に示す。 さらに,大規模言語モデルから派生した文脈的特徴を持つ文レベル構造談話情報を注入・融合するDisCOCを提案する。 実験結果と広範囲な分析により,文脈やテキストを明示的にモデル化する注意機構とゲート機構が,Durmusらによって定義された議論影響分類作業に役立つことが明らかとなった。 (2019)と分類されるクレームの文脈パス間の談話構造により,さらに性能が向上する。

Discourse relations among arguments reveal logical structures of a debate conversation. However, no prior work has explicitly studied how the sequence of discourse relations influence a claim's impact. This paper empirically shows that the discourse relations between two arguments along the context path are essential factors for identifying the persuasive power of an argument. We further propose DisCOC to inject and fuse the sentence-level structural discourse information with contextualized features derived from large-scale language models. Experimental results and extensive analysis show that the attention and gate mechanisms that explicitly model contexts and texts can indeed help the argument impact classification task defined by Durmus et al. (2019), and discourse structures among the context path of the claim to be classified can further boost the performance.
翻訳日:2021-06-03 14:35:19 公開日:2021-06-02
# 機械読解モデルがショートカットを学習する理由

Why Machine Reading Comprehension Models Learn Shortcuts? ( http://arxiv.org/abs/2106.01024v1 )

ライセンス: Link先を確認
Yuxuan Lai, Chen Zhang, Yansong Feng, Quzhe Huang, and Dongyan Zhao(参考訳) 近年の研究では、多くの機械学習理解モデル(MRC)が、ベンチマークデータセット上で人間に近づいたり、より良く動作することが報告されている。 しかし、既存の研究によると、多くのmrcモデルがこれらのベンチマークを上回るショートカットを学ぶ可能性があるが、実際のアプリケーションでは性能が不十分である。 本研究では,期待される理解スキルではなく,これらのモデルがショートカットを学習する理由を探る。 現在のデータセットの多くの質問がショートカットのソリューションを持っているという観察に基づいて、トレーニングデータにおけるショートカットの質問の大部分が、モデルを過度にショートカットのトリックに依存していると論じる。 この仮説を検討するために,質問に対してショートカットソリューションを用いて回答できるかどうかを示すアノテーション付き合成データセットを2つ慎重に設計する。 さらに,ショートカットと挑戦的質問に関する学習難度を定量的に解析する2つの新しい手法を提案し,その2つの質問の異なるパフォーマンスの背後にある固有の学習メカニズムを明らかにする。 徹底的な実証分析により、MCCモデルは挑戦的な質問よりも早くショートカットの質問を学習する傾向にあり、トレーニングセットにおけるショートカットの質問の割合は、訓練後期の洗練された推論スキルの探索を妨げることが示された。

Recent studies report that many machine reading comprehension (MRC) models can perform closely to or even better than humans on benchmark datasets. However, existing works indicate that many MRC models may learn shortcuts to outwit these benchmarks, but the performance is unsatisfactory in real-world applications. In this work, we attempt to explore, instead of the expected comprehension skills, why these models learn the shortcuts. Based on the observation that a large portion of questions in current datasets have shortcut solutions, we argue that larger proportion of shortcut questions in training data make models rely on shortcut tricks excessively. To investigate this hypothesis, we carefully design two synthetic datasets with annotations that indicate whether a question can be answered using shortcut solutions. We further propose two new methods to quantitatively analyze the learning difficulty regarding shortcut and challenging questions, and revealing the inherent learning mechanism behind the different performance between the two kinds of questions. A thorough empirical analysis shows that MRC models tend to learn shortcut questions earlier than challenging questions, and the high proportions of shortcut questions in training sets hinder models from exploring the sophisticated reasoning skills in the later stage of training.
翻訳日:2021-06-03 14:35:10 公開日:2021-06-02
# 人工言語を用いたニューラルネットワークモデルの帰納バイアスの検討

Examining the Inductive Bias of Neural Language Models with Artificial Languages ( http://arxiv.org/abs/2106.01044v1 )

ライセンス: Link先を確認
Jennifer C. White and Ryan Cotterell(参考訳) 言語モデルは多種多様な言語をモデル化するために使用されるため、タスクに使用されるニューラルアーキテクチャが特定のタイプの言語をモデル化するための帰納的バイアスを持つかどうかを問うのは当然である。 これらのバイアスの調査は、実験装置に現れる多くの変数のために複雑であることが証明された。 言語は多種多様であり,共同創設者としての役割を果たさずに1つか2つの言語を抽出することは困難である。 本稿では,人工言語を用いた言語モデルの帰納バイアスを調べる新しい手法を提案する。 これらの言語は、単語順などのタイプ論的特徴のみが異なる言語にまたがって並列コーパスを作成できるように構築されています。 次に、それらを言語モデルのトレーニングとテストに使用します。 これは完全に制御された因果関係のフレームワークを構成し、文法工学がニューラルモデルを分析するのに有用なツールであることを示す。 lstmsは単語の順序付けに関してあまり好ましくないが、トランスフォーマーは他の命令よりも明確な選好を示す。 さらに、LSTMの帰納バイアスも変換器のバイアスも、証明された自然言語で見られる傾向を反映していないことが判明した。

Since language models are used to model a wide variety of languages, it is natural to ask whether the neural architectures used for the task have inductive biases towards modeling particular types of languages. Investigation of these biases has proved complicated due to the many variables that appear in the experimental setup. Languages vary in many typological dimensions, and it is difficult to single out one or two to investigate without the others acting as confounders. We propose a novel method for investigating the inductive biases of language models using artificial languages. These languages are constructed to allow us to create parallel corpora across languages that differ only in the typological feature being investigated, such as word order. We then use them to train and test language models. This constitutes a fully controlled causal framework, and demonstrates how grammar engineering can serve as a useful tool for analyzing neural models. Using this method, we find that commonly used neural architectures exhibit different inductive biases: LSTMs display little preference with respect to word ordering, while transformers display a clear preference for some orderings over others. Further, we find that neither the inductive bias of the LSTM nor that of the transformer appears to reflect any tendencies that we see in attested natural languages.
翻訳日:2021-06-03 14:34:49 公開日:2021-06-02
# キャッケード対直接音声翻訳:違いは相変わらず変わるのか?

Cascade versus Direct Speech Translation: Do the Differences Still Make a Difference? ( http://arxiv.org/abs/2106.01045v1 )

ライセンス: Link先を確認
Luisa Bentivogli, Mauro Cettolo, Marco Gaido, Alina Karakanta, Alberto Martinelli, Matteo Negri, Marco Turchi(参考訳) 最初の概念実証から5年後、音声翻訳(ST)への直接的なアプローチは、従来のカスケードソリューションと競合している。 この着実な進歩を踏まえて、両者のパフォーマンスギャップは閉じていると主張することができるだろうか? この質問から,2つのパラダイムを表す最先端システム間の体系的比較を提案する。 3つの言語方向(英語・ドイツ語・イタリア語・スペイン語)に注目して,高品質なポストエディタとアノテーションを活用した自動的・手作業による評価を行った。 i) 2つのパラダイム間のギャップは閉じており、i) それらの振る舞いで観察される微妙な違いは、人間が区別しても、他方よりも1つの方が好ましくもないのに十分ではない。

Five years after the first published proofs of concept, direct approaches to speech translation (ST) are now competing with traditional cascade solutions. In light of this steady progress, can we claim that the performance gap between the two is closed? Starting from this question, we present a systematic comparison between state-of-the-art systems representative of the two paradigms. Focusing on three language directions (English-German/Italian/Spanish), we conduct automatic and manual evaluations, exploiting high-quality professional post-edits and annotations. Our multi-faceted analysis on one of the few publicly available ST benchmarks attests for the first time that: i) the gap between the two paradigms is now closed, and ii) the subtle differences observed in their behavior are not sufficient for humans neither to distinguish them nor to prefer one over the other.
翻訳日:2021-06-03 14:34:28 公開日:2021-06-02
# 外部言語のためのMinimaxとNeyman-Pearsonメタラーニング

Minimax and Neyman-Pearson Meta-Learning for Outlier Languages ( http://arxiv.org/abs/2106.01051v1 )

ライセンス: Link先を確認
Edoardo Maria Ponti, Rahul Aralikatte, Disha Shrivastava, Siva Reddy, Anders S{\o}gaard(参考訳) モデルに依存しないメタラーニング(MAML)は、最近、サンプル効率のよい方法でリソースの乏しい言語を学習する戦略として提案されている。 それにもかかわらず、これらの言語の特性はしばしば訓練中に利用可能なものによく表されない。 したがって、我々はi.i.d.を主張する。 MAMLの仮定は言語間NLPに不適である。 実際、意思決定理論の枠組みの下では、mamlは(一様事前で)トレーニング言語間で予想されるリスクを最小限に抑えるものとして解釈することができる。 一方,Neyman-Pearson MAMLは各言語のリスクを最大しきい値に制限するのに対して,Minimax MAMLは言語間のリスクを最大に抑える。 どちらの基準も完全に差別化可能な2プレイヤーゲームである。 そこで本研究では,Nash平衡に対する局所近似に対する適応的最適解法を提案する。 2つの一般的なNLPタスク(音声タグ付けと質問応答)におけるモデル変異の評価を行った。 マルチソーストランスファーとバニラMAMLと比較して,低リソース言語におけるゼロおよび少数ショット設定における平均および最小パフォーマンスのゲインを報告する。

Model-agnostic meta-learning (MAML) has been recently put forth as a strategy to learn resource-poor languages in a sample-efficient fashion. Nevertheless, the properties of these languages are often not well represented by those available during training. Hence, we argue that the i.i.d. assumption ingrained in MAML makes it ill-suited for cross-lingual NLP. In fact, under a decision-theoretic framework, MAML can be interpreted as minimising the expected risk across training languages (with a uniform prior), which is known as Bayes criterion. To increase its robustness to outlier languages, we create two variants of MAML based on alternative criteria: Minimax MAML reduces the maximum risk across languages, while Neyman-Pearson MAML constrains the risk in each language to a maximum threshold. Both criteria constitute fully differentiable two-player games. In light of this, we propose a new adaptive optimiser solving for a local approximation to their Nash equilibrium. We evaluate both model variants on two popular NLP tasks, part-of-speech tagging and question answering. We report gains for their average and minimum performance across low-resource languages in zero- and few-shot settings, compared to joint multi-source transfer and vanilla MAML.
翻訳日:2021-06-03 14:34:16 公開日:2021-06-02
# 同期置換に対するテキスト-SQLモデルのロバスト性に向けて

Towards Robustness of Text-to-SQL Models against Synonym Substitution ( http://arxiv.org/abs/2106.01065v1 )

ライセンス: Link先を確認
Yujian Gan, Xinyun Chen, Qiuping Huang, Matthew Purver, John R. Woodward, Jinxia Xie, Pengsheng Huang(参考訳) 近年,テキスト記述をSQLクエリに変換するニューラルネットワークの研究が著しく進展している。 いくつかの公開ベンチマークで優れたパフォーマンスを達成したにもかかわらず、既存のtext-to-sqlモデルは、典型的には自然言語(nl)の単語とテーブルスキーマのトークンの辞書マッチングに依存している。 本研究では,テキスト間SQLモデルの同義置換に対する堅牢性について検討する。 特に,テキスト・トゥ・SQL翻訳のためのSpiderベンチマークに基づく人間計算データセットであるSpider-Synを紹介する。 spider-synのnl質問は、スキーマ関連の単語を現実世界の質問パラフレーズを反映した手動で選択したシノニムに置き換えることで、スパイダーから修正される。 我々は,NL問合せとテーブルスキーマとの明示的な対応を排除し,その精度を劇的に低下させることを観察した。 最後に,モデルロバスト性を改善するための2つのアプローチについて述べる。 アプローチの第1カテゴリは、モデル入力を変更することでテーブルスキーマに対する追加の同義語アノテーションを使用し、第2カテゴリは敵の訓練に基づいている。 両アプローチのカテゴリが防御なしで相手を著しく上回り,第1カテゴリのアプローチがより効果的であることを実証した。

Recently, there has been significant progress in studying neural networks to translate text descriptions into SQL queries. Despite achieving good performance on some public benchmarks, existing text-to-SQL models typically rely on the lexical matching between words in natural language (NL) questions and tokens in table schemas, which may render the models vulnerable to attacks that break the schema linking mechanism. In this work, we investigate the robustness of text-to-SQL models to synonym substitution. In particular, we introduce Spider-Syn, a human-curated dataset based on the Spider benchmark for text-to-SQL translation. NL questions in Spider-Syn are modified from Spider, by replacing their schema-related words with manually selected synonyms that reflect real-world question paraphrases. We observe that the accuracy dramatically drops by eliminating such explicit correspondence between NL questions and table schemas, even if the synonyms are not adversarially selected to conduct worst-case adversarial attacks. Finally, we present two categories of approaches to improve the model robustness. The first category of approaches utilizes additional synonym annotations for table schemas by modifying the model input, while the second category is based on adversarial training. We demonstrate that both categories of approaches significantly outperform their counterparts without the defense, and the first category of approaches are more effective.
翻訳日:2021-06-03 14:33:56 公開日:2021-06-02
# 対話感情検出のための話題駆動・知識認識変換器

Topic-Driven and Knowledge-Aware Transformer for Dialogue Emotion Detection ( http://arxiv.org/abs/2106.01071v1 )

ライセンス: Link先を確認
Lixing Zhu and Gabriele Pergola and Lin Gui and Deyu Zhou and Yulan He(参考訳) 対話における感情検出は、会話の基礎となる主題の特定、関連する常識知識、感情状態間の複雑な遷移パターンを必要とするため、難しい。 本稿では,上記の課題に対処するトピック駆動型知識認識変換器を提案する。 まず、トピック検出に特化した追加レイヤを持つトピック拡張言語モデル(LM)を設計する。 トピック拡張LMは、対話コンテキスト情報に基づく知識ベースから派生したコモンセンスステートメントと結合される。 最後に、変圧器ベースのエンコーダ−デコーダアーキテクチャが、話題情報と常識情報を融合し、感情ラベルシーケンス予測を行う。 このモデルは、対話感情検出の4つのデータセットで実験され、既存の最先端アプローチよりも実証的に優れていることを示している。 定量的および質的な結果は、モデルが感情カテゴリーの識別に役立つトピックを発見できることを示している。

Emotion detection in dialogues is challenging as it often requires the identification of thematic topics underlying a conversation, the relevant commonsense knowledge, and the intricate transition patterns between the affective states. In this paper, we propose a Topic-Driven Knowledge-Aware Transformer to handle the challenges above. We firstly design a topic-augmented language model (LM) with an additional layer specialized for topic detection. The topic-augmented LM is then combined with commonsense statements derived from a knowledge base based on the dialogue contextual information. Finally, a transformer-based encoder-decoder architecture fuses the topical and commonsense information, and performs the emotion label sequence prediction. The model has been experimented on four datasets in dialogue emotion detection, demonstrating its superiority empirically over the existing state-of-the-art approaches. Quantitative and qualitative results show that the model can discover topics which help in distinguishing emotion categories.
翻訳日:2021-06-03 14:33:33 公開日:2021-06-02
# SyGNS: 自然言語意味論に基づく体系的一般化テストベッド

SyGNS: A Systematic Generalization Testbed Based on Natural Language Semantics ( http://arxiv.org/abs/2106.01077v1 )

ライセンス: Link先を確認
Hitomi Yanaka, Koji Mineshima, Kentaro Inui(参考訳) 近年、ディープニューラルネットワーク(DNN)は、意味論的に挑戦するNLPタスクにおいて大きな成功を収めているが、DNNモデルが構成的意味を捉えることができるかどうかは不明である。 そこで本研究では,自然言語セマンティックス(SyGNS)に基づく体系的一般化テストベッドを提案する。 sygnsを用いて、量子化子や否定といった論理表現の新たな組み合わせを含む文をニューラルネットワークが体系的に解析できるかどうかをテストする。 実験により、Transformer と GRU モデルは、与えられたトレーニングインスタンスに類似しているが、他のモデルには似ていない量化器、否定器、修飾器の組み合わせに一般化できることが示されている。 また、意味表現の形式が単純であれば、見当たらない組み合わせに対する一般化性能がよいことが分かる。 SyGNSのデータとコードはhttps://github.com/verypluming/SyGNSで公開されている。

Recently, deep neural networks (DNNs) have achieved great success in semantically challenging NLP tasks, yet it remains unclear whether DNN models can capture compositional meanings, those aspects of meaning that have been long studied in formal semantics. To investigate this issue, we propose a Systematic Generalization testbed based on Natural language Semantics (SyGNS), whose challenge is to map natural language sentences to multiple forms of scoped meaning representations, designed to account for various semantic phenomena. Using SyGNS, we test whether neural networks can systematically parse sentences involving novel combinations of logical expressions such as quantifiers and negation. Experiments show that Transformer and GRU models can generalize to unseen combinations of quantifiers, negations, and modifiers that are similar to given training instances in form, but not to the others. We also find that the generalization performance to unseen combinations is better when the form of meaning representations is simpler. The data and code for SyGNS are publicly available at https://github.com/verypluming/SyGNS.
翻訳日:2021-06-03 14:33:20 公開日:2021-06-02
# スパース注意はより解釈可能か?

Is Sparse Attention more Interpretable? ( http://arxiv.org/abs/2106.01087v1 )

ライセンス: Link先を確認
Clara Meister, Stefan Lazov, Isabelle Augenstein, Ryan Cotterell(参考訳) 影響のある入力が強調されるという仮定の下で、モデルの解釈性を高めることにはあまり注意が払われていない。 しかし、注意分布は一般に入力自体よりもモデルの内部の表現を超越しており、この仮定が有益でないことを示唆している。 我々は注意の解釈可能性を探る最近の研究に基づいて、注意を説明可能性ツールとして使う能力にスパーシティがどう影響するかを理解するための一連の実験をデザインする。 3つのテキスト分類タスクにおいて、入力とインデックス付き中間表現の間の弱い関係のみが存在することを検証する。 さらに,注意度分布のばらつきから,他の経路を経由する影響のある入力のばらばらな集合への妥当なマッピングは見つからなかった。 むしろ、この環境では、スパーシリティを誘発することで、モデルの振る舞いを理解するツールとして注意が使われる可能性が低くなることを観察する。

Sparse attention has been claimed to increase model interpretability under the assumption that it highlights influential inputs. Yet the attention distribution is typically over representations internal to the model rather than the inputs themselves, suggesting this assumption may not have merit. We build on the recent work exploring the interpretability of attention; we design a set of experiments to help us understand how sparsity affects our ability to use attention as an explainability tool. On three text classification tasks, we verify that only a weak relationship between inputs and co-indexed intermediate representations exists -- under sparse attention and otherwise. Further, we do not find any plausible mappings from sparse attention distributions to a sparse set of influential inputs through other avenues. Rather, we observe in this setting that inducing sparsity may make it less plausible that attention can be used as a tool for understanding model behavior.
翻訳日:2021-06-03 14:32:59 公開日:2021-06-02
# LGESQL: 局所的および非局所的関係を混合したライングラフ強化テキスト-SQLモデル

LGESQL: Line Graph Enhanced Text-to-SQL Model with Mixed Local and Non-Local Relations ( http://arxiv.org/abs/2106.01093v1 )

ライセンス: Link先を確認
Ruisheng Cao, Lu Chen, Zhi Chen, Su Zhu and Kai Yu(参考訳) 本研究の目的は,テキストからSQLへのタスクにおける異種グラフ符号化の問題に対処することである。 従来の方法はノード中心であり、単にエッジタイプをパラメータ化するために異なる重み行列を使用するだけで、1)エッジのトポロジ構造に埋め込まれたリッチセマンティクスを無視し、2)各ノードのローカルな関係と非ローカルな関係を区別できない。 そこで本稿では,Line Graph Enhanced Text-to-SQL(LGESQL)モデルを提案する。 線グラフにより、メッセージはノード間の接続だけでなく、有向エッジのトポロジーを通じてより効率的に伝播する。 さらに、局所的関係と非局所的関係はグラフ反復の間に識別的に統合される。 また,エンコーダの識別能力を向上させるため,グラフプルーニングと呼ばれる補助タスクを設計する。 我々のフレームワークは、書き込み時のクロスドメインテキスト-SQLベンチマークSpider上で、最先端の結果(Gloveが62.8%、Electraが72.0%)を達成する。

This work aims to tackle the challenging heterogeneous graph encoding problem in the text-to-SQL task. Previous methods are typically node-centric and merely utilize different weight matrices to parameterize edge types, which 1) ignore the rich semantics embedded in the topological structure of edges, and 2) fail to distinguish local and non-local relations for each node. To this end, we propose a Line Graph Enhanced Text-to-SQL (LGESQL) model to mine the underlying relational features without constructing meta-paths. By virtue of the line graph, messages propagate more efficiently through not only connections between nodes, but also the topology of directed edges. Furthermore, both local and non-local relations are integrated distinctively during the graph iteration. We also design an auxiliary task called graph pruning to improve the discriminative capability of the encoder. Our framework achieves state-of-the-art results (62.8% with Glove, 72.0% with Electra) on the cross-domain text-to-SQL benchmark Spider at the time of writing.
翻訳日:2021-06-03 14:32:44 公開日:2021-06-02
# NLP文学における形式的倫理的レビューの利用:歴史的動向と現状

Use of Formal Ethical Reviews in NLP Literature: Historical Trends and Current Practices ( http://arxiv.org/abs/2106.01105v1 )

ライセンス: Link先を確認
Sebastin Santy, Anku Rani, Monojit Choudhury(参考訳) 近年,言語技術研究の倫理的側面が注目されている。 専門的な倫理委員会・委員会の審査・承認を受けた人間を対象とする研究を行うのが標準的な慣行である。 nlp研究における倫理的承認について、どの程度一般的に言及されているか? どんな研究や研究の側面がこのようなレビューの対象になるのか? NLPの倫理に関する懸念や議論が高まり、NLP研究の形式的倫理的レビューの高まりも観察できるだろうか? もしそうなら、これは以前不足していた倫理的問題に対する意識が高まったことを意味するのだろうか? 我々は、aclアンソロジーの詳細な量的・質的分析を行い、認知科学、機械学習、データマイニング、システムといった他の関連する分野のトレンドと比較することで、これらの問題に対処することを目指している。

Ethical aspects of research in language technologies have received much attention recently. It is a standard practice to get a study involving human subjects reviewed and approved by a professional ethics committee/board of the institution. How commonly do we see mention of ethical approvals in NLP research? What types of research or aspects of studies are usually subject to such reviews? With the rising concerns and discourse around the ethics of NLP, do we also observe a rise in formal ethical reviews of NLP studies? And, if so, would this imply that there is a heightened awareness of ethical issues that was previously lacking? We aim to address these questions by conducting a detailed quantitative and qualitative analysis of the ACL Anthology, as well as comparing the trends in our field to those of other related disciplines, such as cognitive science, machine learning, data mining, and systems.
翻訳日:2021-06-03 14:32:24 公開日:2021-06-02
# DynaEval: ターンと対話レベルの統一評価

DynaEval: Unifying Turn and Dialogue Level Evaluation ( http://arxiv.org/abs/2106.01112v1 )

ライセンス: Link先を確認
Chen Zhang, Yiming Chen, Luis Fernando D'Haro, Yan Zhang, Thomas Friedrichs, Grandee Lee, Haizhou Li(参考訳) 対話は本質的には対話者間のマルチターン対話である。 効果的な評価基準は、そのような相互作用のダイナミクスを反映すべきである。 既存の自動メトリクスはターンレベルの品質に非常に重点を置いています。 そこで本研究では,ターンレベルの評価を行うだけでなく,対話全体の質を総合的に検討できる統一的な自動評価フレームワークdynaevalを提案する。 dynaevalでは、グラフ畳み込みネットワーク(graph convolutional network, gcn)が、グラフノードが個々の発話を表現し、エッジが1対の発話間の依存関係を表すトータルな対話をモデル化するために採用されている。 対照的な損失は、慎重に構築された負のサンプルとよく形成された対話を区別するために適用される。 実験の結果,DynaEvalは最先端の対話コヒーレンスモデルよりも優れており,旋回・対話レベルの複数の対話評価面において,人間の判断と強く相関していることがわかった。

A dialogue is essentially a multi-turn interaction among interlocutors. Effective evaluation metrics should reflect the dynamics of such interaction. Existing automatic metrics are focused very much on the turn-level quality, while ignoring such dynamics. To this end, we propose DynaEval, a unified automatic evaluation framework which is not only capable of performing turn-level evaluation, but also holistically considers the quality of the entire dialogue. In DynaEval, the graph convolutional network (GCN) is adopted to model a dialogue in totality, where the graph nodes denote each individual utterance and the edges represent the dependency between pairs of utterances. A contrastive loss is then applied to distinguish well-formed dialogues from carefully constructed negative samples. Experiments show that DynaEval significantly outperforms the state-of-the-art dialogue coherence model, and correlates strongly with human judgements across multiple dialogue evaluation aspects at both turn and dialogue level.
翻訳日:2021-06-03 14:32:10 公開日:2021-06-02
# 感情支援対話システムに向けて

Towards Emotional Support Dialog Systems ( http://arxiv.org/abs/2106.01144v1 )

ライセンス: Link先を確認
Siyang Liu, Chujie Zheng, Orianna Demasi, Sahand Sabour, Yu Li, Zhou Yu, Yong Jiang, Minlie Huang(参考訳) 感情的サポートは、社会的インタラクション、メンタルヘルスサポート、カスタマーサービスチャットなど、多くの会話シナリオにおいて重要な能力である。 適切な手順に従い、様々な支援スキルを使用することは、効果的に支援を提供するのに役立つ。 しかしながら、適切に設計されたタスクや効果的な感情支援会話のコーパスが欠如していることから、対話システムへの感情支援構築に関する研究は未解決のままである。 本稿では,感情支援対話(ESC)タスクを定義し,ヘルピングスキル理論に基づくESCフレームワークを提案する。 我々は,豊富なアノテーション(特にサポート戦略)を備えた感情支援対話データセット(esconv)をヘルプシーカーおよびサポーターモードで構築する。 効果的な感情支援の例を提供する高品質な会話のコーパスを確保するため,支援者のためのトレーニングチュートリアルの設計や,データ収集時の品質管理のメカニズムに多大な努力を払っている。 最後に,感情的支援を提供する能力に関して,最先端の対話モデルを評価する。 以上の結果から,より効果的な情緒的支援を提供するための支援戦略と,より感情的支援システムのトレーニングにおけるesconvの有用性が示唆された。

Emotional support is a crucial ability for many conversation scenarios, including social interactions, mental health support, and customer service chats. Following reasonable procedures and using various support skills can help to effectively provide support. However, due to the lack of a well-designed task and corpora of effective emotional support conversations, research on building emotional support into dialog systems remains untouched. In this paper, we define the Emotional Support Conversation (ESC) task and propose an ESC Framework, which is grounded on the Helping Skills Theory. We construct an Emotion Support Conversation dataset (ESConv) with rich annotation (especially support strategy) in a help-seeker and supporter mode. To ensure a corpus of high-quality conversations that provide examples of effective emotional support, we take extensive effort to design training tutorials for supporters and several mechanisms for quality control during data collection. Finally, we evaluate state-of-the-art dialog models with respect to the ability to provide emotional support. Our results show the importance of support strategies in providing effective emotional support and the utility of ESConv in training more emotional support systems.
翻訳日:2021-06-03 14:31:52 公開日:2021-06-02
# コンテキスト埋め込み空間における等方性改善のためのクラスタベースアプローチ

A Cluster-based Approach for Improving Isotropy in Contextual Embedding Space ( http://arxiv.org/abs/2106.01183v1 )

ライセンス: Link先を確認
Sara Rajaee and Mohammad Taher Pilehvar(参考訳) 文脈表現(cwrs)における表現変性問題は、無関係な単語が過度に正の相関を持つ異方性円錐を形成することにより、埋め込み空間の表現性が損なわれる。 この問題に対処する既存の技術は、追加の目的を持つモデルを再訓練する学習プロセスを必要とし、主に等方性を研究するためにグローバルアセスメントを採用する。 等方性に関する定量的解析から,CWRのクラスター構造により局所的な評価がより正確である可能性が示唆された。 この観察に基づいて,コンテキスト埋め込み空間におけるデジェネレーション問題に対処するローカルクラスタベース手法を提案する。 句読点や停止語を含むクラスタでは、局所的な支配方向が構造情報を符号化し、セマンティックタスクにおけるCWRのパフォーマンスを改善することができることを示す。 さらに,動詞表現における時制情報は意味論的に支配的であることがわかった。 動詞表現の主流方向を除去することで,空間をセマンティックな応用に適合させることができることを示す。 提案するクラスタベース手法は,複数のタスクにおけるデジェネレーション問題を軽減できることを実証する。

The representation degeneration problem in Contextual Word Representations (CWRs) hurts the expressiveness of the embedding space by forming an anisotropic cone where even unrelated words have excessively positive correlations. Existing techniques for tackling this issue require a learning process to re-train models with additional objectives and mostly employ a global assessment to study isotropy. Our quantitative analysis over isotropy shows that a local assessment could be more accurate due to the clustered structure of CWRs. Based on this observation, we propose a local cluster-based method to address the degeneration issue in contextual embedding spaces. We show that in clusters including punctuations and stop words, local dominant directions encode structural information, removing which can improve CWRs performance on semantic tasks. Moreover, we find that tense information in verb representations dominates sense semantics. We show that removing dominant directions of verb representations can transform the space to better suit semantic applications. Our experiments demonstrate that the proposed cluster-based method can mitigate the degeneration problem on multiple tasks.
翻訳日:2021-06-03 14:31:35 公開日:2021-06-02
# 文脈型言語モデルと階層的推論による自己監督型文書類似度ランキング

Self-Supervised Document Similarity Ranking via Contextualized Language Models and Hierarchical Inference ( http://arxiv.org/abs/2106.01186v1 )

ライセンス: Link先を確認
Dvir Ginzburg and Itzik Malkiel and Oren Barkan and Avi Caciularu and Noam Koenigstein(参考訳) 本稿では,ソース(クエリ)文書と意味的類似性に応じて文書の集合をランク付けする問題に対する新しいモデルを提案する。 文書対文書類似度ランキングの問題は研究されているが、現代の手法のほとんどは比較的短い文書に制限されているか、「根拠」類似度ラベルの存在に依存している。 しかし、ほとんどの現実世界では、類似性ラベルが利用できないため、類似性ランキングは教師なしの問題である。 さらに、理想的なモデルは文書の長さによって制限されてはならない。 そこで本稿では,任意の長さの文書に適用可能な文書類似性の自己管理手法であるSDRを紹介する。 重要なことに、SDRはLongformerの最大トークン制限4,096を超え、非常に長いドキュメントに効果的に適用できる。 大規模な文書データセットの大規模な評価は、SDRがすべての指標でその代替品を著しく上回っていることを示している。 ラベルなし文書類似度ランキングの今後の研究を加速し,コミュニティへのさらなる貢献として,文書類似度評価の人手による2つのテストセットを公表する。 SDRコードとデータセットは公開されている。

We present a novel model for the problem of ranking a collection of documents according to their semantic similarity to a source (query) document. While the problem of document-to-document similarity ranking has been studied, most modern methods are limited to relatively short documents or rely on the existence of "ground-truth" similarity labels. Yet, in most common real-world cases, similarity ranking is an unsupervised problem as similarity labels are unavailable. Moreover, an ideal model should not be restricted by documents' length. Hence, we introduce SDR, a self-supervised method for document similarity that can be applied to documents of arbitrary length. Importantly, SDR can be effectively applied to extremely long documents, exceeding the 4,096 maximal token limits of Longformer. Extensive evaluations on large document datasets show that SDR significantly outperforms its alternatives across all metrics. To accelerate future research on unlabeled long document similarity ranking, and as an additional contribution to the community, we herein publish two human-annotated test sets of long documents similarity evaluation. The SDR code and datasets are publicly available.
翻訳日:2021-06-03 14:31:18 公開日:2021-06-02
# ターゲット微調整による神経モデルの制約に基づく行動の解明

Uncovering Constraint-Based Behavior in Neural Models via Targeted Fine-Tuning ( http://arxiv.org/abs/2106.01207v1 )

ライセンス: Link先を確認
Forrest Davis and Marten van Schijndel(参考訳) 成長する文学組織は、大規模で事前訓練された言語モデルに埋め込まれた言語知識の詳細に焦点を当てている。 既存の研究により、モデルの非言語バイアスは、言語の一般化からモデルの振る舞いを遠ざけることが示されている。 非言語的モデルバイアスではなく、言語内で競合する言語プロセスが、基礎となる言語知識を曖昧にする可能性があると仮定した。 我々は、英語、中国語、スペイン語、イタリア語の4つの言語で1つの現象を探索することで、この主張を試した。 人間の行動は言語間で類似していることがわかったが、モデル行動の言語間差異は見いだされている。 言語における競合するプロセスがモデル行動の制約として機能し、ターゲットとなる微調整が学習された制約を再重み付けし、それ以外はモデルの休眠的言語知識を明らかにすることを実証する。 以上の結果から,モデルは言語における言語的制約と相対的ランキングの両方を学習する必要があることが示唆された。

A growing body of literature has focused on detailing the linguistic knowledge embedded in large, pretrained language models. Existing work has shown that non-linguistic biases in models can drive model behavior away from linguistic generalizations. We hypothesized that competing linguistic processes within a language, rather than just non-linguistic model biases, could obscure underlying linguistic knowledge. We tested this claim by exploring a single phenomenon in four languages: English, Chinese, Spanish, and Italian. While human behavior has been found to be similar across languages, we find cross-linguistic variation in model behavior. We show that competing processes in a language act as constraints on model behavior and demonstrate that targeted fine-tuning can re-weight the learned constraints, uncovering otherwise dormant linguistic knowledge in models. Our results suggest that models need to learn both the linguistic constraints in a language and their relative ranking, with mismatches in either producing non-human-like behavior.
翻訳日:2021-06-03 14:31:02 公開日:2021-06-02
# 様々なnerサブタスクのための統一生成フレームワーク

A Unified Generative Framework for Various NER Subtasks ( http://arxiv.org/abs/2106.01223v1 )

ライセンス: Link先を確認
Hang Yan, Tao Gui, Junqi Dai, Qipeng Guo, Zheng Zhang and Xipeng Qiu(参考訳) 名前付きエンティティ認識(NER)は、文中のエンティティを表すスパンを識別するタスクである。 エンティティがネストしているか不連続であるかにかかわらず、NERタスクはフラットなNER、ネストされたNER、不連続なNERサブタスクに分類される。 これらのサブタスクは主にトークンレベルのシーケンスラベリングまたはスパンレベルの分類によって解決されている。 しかし、これらのソリューションは3種類のNERサブタスクを同時に扱うことはほとんどできない。 そこで我々は,NERサブタスクをエンティティスパンシーケンス生成タスクとして定式化することを提案する。 統一されたフレームワークに基づいて、事前トレーニングされたseq2seqモデルを利用して、タグスキーマやスパンを列挙する方法を特別な設計なしに、3種類のnerサブタスクをすべて解決できます。 3種類のエンティティ表現を利用して、エンティティをシーケンスにリニア化します。 提案するフレームワークは,2つの平らなNERデータセット,3つのネストされたNERデータセット,および3つの不連続なNERデータセットを含む,8つの英語NERデータセットに対して,最新技術(SoTA)あるいはSoTAに近いパフォーマンスを実現する。

Named Entity Recognition (NER) is the task of identifying spans that represent entities in sentences. Whether the entity spans are nested or discontinuous, the NER task can be categorized into the flat NER, nested NER, and discontinuous NER subtasks. These subtasks have been mainly solved by the token-level sequence labelling or span-level classification. However, these solutions can hardly tackle the three kinds of NER subtasks concurrently. To that end, we propose to formulate the NER subtasks as an entity span sequence generation task, which can be solved by a unified sequence-to-sequence (Seq2Seq) framework. Based on our unified framework, we can leverage the pre-trained Seq2Seq model to solve all three kinds of NER subtasks without the special design of the tagging schema or ways to enumerate spans. We exploit three types of entity representations to linearize entities into a sequence. Our proposed framework is easy-to-implement and achieves state-of-the-art (SoTA) or near SoTA performance on eight English NER datasets, including two flat NER datasets, three nested NER datasets, and three discontinuous NER datasets.
翻訳日:2021-06-03 14:30:43 公開日:2021-06-02
# 変圧器のアテンション値の分布, 疎性および推定時間量子化について

On the Distribution, Sparsity, and Inference-time Quantization of Attention Values in Transformers ( http://arxiv.org/abs/2106.01335v1 )

ライセンス: Link先を確認
Tianchu Ji, Shraddhan Jain, Michael Ferdman, Peter Milder, H. Andrew Schwartz, Niranjan Balasubramanian(参考訳) NLPタスクは、アプリケーション時間(推論)におけるトランスフォーマーの注意機構から本当にどのくらいの情報が必要なのか? 最近の研究から, 変圧器にはスパーシリティがあり, 計算中の浮動小数点を最小限の精度で最小限の値に識別できることが分かっている。 しかし、これは全く新しいモデルを作り直すことさえ必要であり、どちらも高価で二酸化炭素を排出する可能性がある。 トレーニングを必要としない最適化に重点を置き,必要な注意値の全範囲を体系的に検討した。 これはプルーニングとログスケールマッピングの両方を用いて、少数の(例)しか生成しない推論時間量子化手法の設計を通知する。 2^3$)ユニークな値。 質問応答と感情分析のタスクでは、注意値の80%近くを最小(<1.0\%$)の相対的損失でゼロにプルーピングできることがわかった。 我々は,このプルーニング手法と組み合わせて,注意値を3ビット形式に定量化することで,微調整されたRoBERTaによる質問応答の精度を0.8%低下させることができた。

How much information do NLP tasks really need from a transformer's attention mechanism at application-time (inference)? From recent work, we know that there is sparsity in transformers and that the floating-points within its computation can be discretized to fewer values with minimal loss to task accuracies. However, this requires retraining or even creating entirely new models, both of which can be expensive and carbon-emitting. Focused on optimizations that do not require training, we systematically study the full range of typical attention values necessary. This informs the design of an inference-time quantization technique using both pruning and log-scaled mapping which produces only a few (e.g. $2^3$) unique values. Over the tasks of question answering and sentiment analysis, we find nearly 80% of attention values can be pruned to zeros with minimal ($< 1.0\%$) relative loss in accuracy. We use this pruning technique in conjunction with quantizing the attention values to only a 3-bit format, without retraining, resulting in only a 0.8% accuracy reduction on question answering with fine-tuned RoBERTa.
翻訳日:2021-06-03 14:30:22 公開日:2021-06-02
# 視覚リッチ文書情報抽出のためのスパン抽出手法

A Span Extraction Approach for Information Extraction on Visually-Rich Documents ( http://arxiv.org/abs/2106.00978v1 )

ライセンス: Link先を確認
Tuan-Anh D. Nguyen, Hieu M. Vu, Nguyen Hong Son, Minh-Tien Nguyen(参考訳) 近年,トランスフォーマーに基づく言語モデルの適応により,情報抽出(IE)がSOTAの性能を向上し,事前学習手法の可能性を実証している。 本稿では,VRDにおける言語モデル事前学習の能力向上のための新しいアプローチを提案する。 まず、クエリベースの新しいIEモデルを導入し、一般的に使用されるシーケンスラベリングアプローチの代わりにスパン抽出の定式化を採用する。 次に,スパン抽出形式をさらに拡張するために,文書内の意味エンティティ間の関係をモデル化することに焦点を当てた新しい学習タスクを提案する。 このタスクはスパンを再帰的に抽出することができ、トレーニング済みの目的とIEダウンストリームタスクの両方として使用できる。 一般的なビジネス文書(請求書,領収書)の各種データセットの評価から,提案手法は,複数のダウンストリームIEタスクからモデル知識を蓄積する機構を提供しながら,既存のモデルの性能を大幅に向上させることができることを示す。

Information extraction (IE) from visually-rich documents (VRDs) has achieved SOTA performance recently thanks to the adaptation of Transformer-based language models, which demonstrates great potential of pre-training methods. In this paper, we present a new approach to improve the capability of language model pre-training on VRDs. Firstly, we introduce a new IE model that is query-based and employs the span extraction formulation instead of the commonly used sequence labelling approach. Secondly, to further extend the span extraction formulation, we propose a new training task which focuses on modelling the relationships between semantic entities within a document. This task enables the spans to be extracted recursively and can be used as both a pre-training objective as well as an IE downstream task. Evaluation on various datasets of popular business documents (invoices, receipts) shows that our proposed method can improve the performance of existing models significantly, while providing a mechanism to accumulate model knowledge from multiple downstream IE tasks.
翻訳日:2021-06-03 14:30:04 公開日:2021-06-02
# 汎用形式理解のためのエンド・ツー・エンド階層関係抽出

End-to-End Hierarchical Relation Extraction for Generic Form Understanding ( http://arxiv.org/abs/2106.00980v1 )

ライセンス: Link先を確認
Tuan-Anh Nguyen Dang, Duc-Thanh Hoang, Quang-Bach Tran, Chih-Wei Pan, Thanh-Dat Nguyen(参考訳) フォーム理解は、入力文書から意味的エンティティとその階層的関係を認識することを目的とした難しい問題である。 従来のアプローチでは,タスクの複雑さに対処する上で,これらの目的を別々に扱うことが困難であった。 そこで本研究では,エンティティ検出とリンク予測の両方をエンドツーエンドで共同で行う新しいディープニューラルネットワークを提案する。 本モデルでは,多段階注意型u-netアーキテクチャをリンク予測のための部分インテンシティフィールドと部分アソシエーションフィールドで拡張し,エンティティリンクによる追加監督により空間情報フローを強化した。 提案手法は,エンティティラベリングとエンティティリンクタスクの両方において,元のモデルと最先端のベースラインを大きく上回る,ノイズスキャンされた文書(funsd)データセットの形式理解におけるモデルの有効性を示す。

Form understanding is a challenging problem which aims to recognize semantic entities from the input document and their hierarchical relations. Previous approaches face significant difficulty dealing with the complexity of the task, thus treat these objectives separately. To this end, we present a novel deep neural network to jointly perform both entity detection and link prediction in an end-to-end fashion. Our model extends the Multi-stage Attentional U-Net architecture with the Part-Intensity Fields and Part-Association Fields for link prediction, enriching the spatial information flow with the additional supervision from entity linking. We demonstrate the effectiveness of the model on the Form Understanding in Noisy Scanned Documents (FUNSD) dataset, where our method substantially outperforms the original model and state-of-the-art baselines in both Entity Labeling and Entity Linking task.
翻訳日:2021-06-03 14:29:45 公開日:2021-06-02
# 滑らかなQラーニング:類似性を用いたQラーニングの高速化

Smooth Q-learning: Accelerate Convergence of Q-learning Using Similarity ( http://arxiv.org/abs/2106.01134v1 )

ライセンス: Link先を確認
Wei Liao and Xiaohui Wei and Jizhou Lai(参考訳) 本稿ではQ-ラーニングの改善について述べる。 提案手法では,異なる状態と行動の類似性を考慮した古典的なQ-ラーニングとは異なる。 トレーニング中に、同様の状態-動作ペアのQ値が同期的に更新される新しい更新メカニズムが使用される。 提案手法は,表型q-learning関数と深層q-learningを併用して用いることができる。 また,古典的なQ-ラーニングと比較して,提案手法は性能が著しく向上したことを示す。

An improvement of Q-learning is proposed in this paper. It is different from classic Q-learning in that the similarity between different states and actions is considered in the proposed method. During the training, a new updating mechanism is used, in which the Q value of the similar state-action pairs are updated synchronously. The proposed method can be used in combination with both tabular Q-learning function and deep Q-learning. And the results of numerical examples illustrate that compared to the classic Q-learning, the proposed method has a significantly better performance.
翻訳日:2021-06-03 14:29:29 公開日:2021-06-02
# 光リモートセンシング画像における物体検出のための回転同変特徴ピラミッドネットワーク

Rotation Equivariant Feature Image Pyramid Network for Object Detection in Optical Remote Sensing Imagery ( http://arxiv.org/abs/2106.00880v1 )

ライセンス: Link先を確認
Pourya Shamsolmoali, Masoumeh Zareapoor, Jocelyn Chanussot, Huiyu Zhou, and Jie Yang(参考訳) ここ数年、リモートセンシング画像(rsis)のオブジェクト検出は大幅に進歩しており、オブジェクトは一般的に大規模なバリエーションで分散され、異なる種類の方向を持つ。 それでも、現在の畳み込みニューラルネットワークアプローチには、サイズや回転の変化といった課題に対処する能力がない。 これらの問題に対処するため、回転同値畳み込みに基づく画像ピラミッドネットワークである回転同値特徴像ピラミッドネットワーク(REFIPN)を提案する。 提案するピラミッドネットワークは, 新規な畳み込みフィルタを用いて, 広い範囲で特徴を抽出する。 これらの特徴はベクトル場を生成し、画像上のすべての空間的位置に対して最も高い方向の重みと角度を決定するために用いられる。 最後に、抽出された特徴は検出器の予測層を通過する。 提案モデルの検出性能は,2つのベンチマークで検証し,提案手法が良好な効率で最先端の性能を実現できることを示す。

Over the last few years, there has been substantial progress in object detection on remote sensing images (RSIs) where objects are generally distributed with large-scale variations and have different types of orientations. Nevertheless, most of the current convolution neural network approaches lack the ability to deal with the challenges such as size and rotation variations. To address these problems, we propose the rotation equivariant feature image pyramid network (REFIPN), an image pyramid network based on rotation equivariance convolution. The proposed pyramid network extracts features in a wide range of scales and orientations by using novel convolution filters. These features are used to generate vector fields and determine the weight and angle of the highest-scoring orientation for all spatial locations on an image. Finally, the extracted features go through the prediction layers of the detector. The detection performance of the proposed model is validated on two commonly used aerial benchmarks and the results show our propose model can achieve state-of-the-art performance with satisfactory efficiency.
翻訳日:2021-06-03 14:28:42 公開日:2021-06-02
# リカレントニューラルネットワークを用いた空間プーリングのための消費者画像品質予測

Consumer Image Quality Prediction using Recurrent Neural Networks for Spatial Pooling ( http://arxiv.org/abs/2106.00918v1 )

ライセンス: Link先を確認
Jari Korhonen, Yicheng Su, Junyong You(参考訳) 近年,畳み込みニューラルネットワーク(cnn)を用いた主観的画質予測が期待できる結果が得られた。 しかし、CNNアーキテクチャは小さな解像度の入力画像のために設計されているため、高解像度画像品質評価にCNNを使うことは依然として課題である。 本研究では,人間の視覚系(HVS)の注意機構を再現するために,深部CNNを用いた特徴抽出器によって抽出された空間領域(パッチ)から抽出された特徴の空間プールにリカレントニューラルネットワーク(RNN)を用いて画像品質モデルを提案する。 近年公表された2つの画像品質データセットと異なる解像度の画像を用いて実験を行った結果,提案手法の品質予測精度は,最先端のベンチマークモデルと競合することが示された。

Promising results for subjective image quality prediction have been achieved during the past few years by using convolutional neural networks (CNN). However, the use of CNNs for high resolution image quality assessment remains a challenge, since typical CNN architectures have been designed for small resolution input images. In this study, we propose an image quality model that attempts to mimic the attention mechanism of human visual system (HVS) by using a recurrent neural network (RNN) for spatial pooling of the features extracted from different spatial areas (patches) by a deep CNN-based feature extractor. The experimental study, conducted by using images with different resolutions from two recently published image quality datasets, indicates that the quality prediction accuracy of the proposed method is competitive against benchmark models representing the state-of-the-art, and the proposed method also performs consistently on different resolution versions of the same dataset.
翻訳日:2021-06-03 14:28:26 公開日:2021-06-02
# 統一手術スキルアセスメントに向けて

Towards Unified Surgical Skill Assessment ( http://arxiv.org/abs/2106.01035v1 )

ライセンス: Link先を確認
Daochang Liu, Qiyue Li, Tingting Jiang, Yizhou Wang, Rulin Miao, Fei Shan, Ziyu Li(参考訳) 外科的スキルは手術の安全性や患者の幸福に大きな影響を与える。 伝統的な外科的スキルの評価には、効率性と再現性に欠ける厳格な手作業が含まれる。 そこで本研究では,手術映像を用いて手術の成績を自動的に予測する。 本稿では, 手術器具の使用状況, 術中イベントパターン, その他の技術プロキシなど, 外科的スキルを構成する複数の側面を考慮に入れた, 自動手術スキル評価のための統合型マルチパスフレームワークを提案する。 これらの異なる側面間の依存性関係は、フレームワーク内のパス依存モジュールによって特別にモデル化されます。 手術シミュレーションのJIGSAWSデータセットと腹腔鏡下手術の新たな臨床データセットについて広範な実験を行った。 提案手法は両データセットで有望な結果が得られ,0.71 スペアーマン相関から 0.80 までのシミュレーションデータセットの最先端技術が得られた。 また,複数のスキルを組み合わせることで,単一のスキルに依存するよりも優れたパフォーマンスが得られることを示した。

Surgical skills have a great influence on surgical safety and patients' well-being. Traditional assessment of surgical skills involves strenuous manual efforts, which lacks efficiency and repeatability. Therefore, we attempt to automatically predict how well the surgery is performed using the surgical video. In this paper, a unified multi-path framework for automatic surgical skill assessment is proposed, which takes care of multiple composing aspects of surgical skills, including surgical tool usage, intraoperative event pattern, and other skill proxies. The dependency relationships among these different aspects are specially modeled by a path dependency module in the framework. We conduct extensive experiments on the JIGSAWS dataset of simulated surgical tasks, and a new clinical dataset of real laparoscopic surgeries. The proposed framework achieves promising results on both datasets, with the state-of-the-art on the simulated dataset advanced from 0.71 Spearman's correlation to 0.80. It is also shown that combining multiple skill aspects yields better performance than relying on a single aspect.
翻訳日:2021-06-03 14:28:12 公開日:2021-06-02
# ビデオオブジェクトセグメンテーション参照のためのトップダウン視点からのクロスモーダルインタラクションの再考

Rethinking Cross-modal Interaction from a Top-down Perspective for Referring Video Object Segmentation ( http://arxiv.org/abs/2106.01061v1 )

ライセンス: Link先を確認
Chen Liang, Yu Wu, Tianfei Zhou, Wenguan Wang, Zongxin Yang, Yunchao Wei and Yi Yang(参考訳) ビデオオブジェクトセグメンテーション(RVOS)は、ビデオオブジェクトを自然言語参照のガイダンスでセグメント化することを目的としている。 従来の手法は通常、画像格子上の言語参照を直接接地することでrvoに取り組む。 このようなボトムアップ戦略は、オブジェクトレベルの手がかりを探索するのに失敗し、容易に劣る結果につながる。 この作業では、代わりに2段階のトップダウンのRVOSソリューションを提案しました。 まず、複数のサンプルフレームから検出されたオブジェクトマスクをビデオ全体に伝播させることで、オブジェクトトラッカーの徹底的なセットを構築する。 第2に,インスタンスレベルの視覚的関係とクロスモーダルインタラクションを同時にかつ効率的にモデル化する,トランスフォーマティブベースのトラックレット言語グラウンドングモジュールを提案する。 私たちのモデルは、CVPR2021 Referring Youtube-VOS Challengeで1位です。

Referring video object segmentation (RVOS) aims to segment video objects with the guidance of natural language reference. Previous methods typically tackle RVOS through directly grounding linguistic reference over the image lattice. Such bottom-up strategy fails to explore object-level cues, easily leading to inferior results. In this work, we instead put forward a two-stage, top-down RVOS solution. First, an exhaustive set of object tracklets is constructed by propagating object masks detected from several sampled frames to the entire video. Second, a Transformer-based tracklet-language grounding module is proposed, which models instance-level visual relations and cross-modal interactions simultaneously and efficiently. Our model ranks first place on CVPR2021 Referring Youtube-VOS challenge.
翻訳日:2021-06-03 14:27:57 公開日:2021-06-02
# TSI:ビデオ行動認識のための時間的衛生統合

TSI: Temporal Saliency Integration for Video Action Recognition ( http://arxiv.org/abs/2106.01088v1 )

ライセンス: Link先を確認
Haisheng Su, Jinyuan Feng, Dongliang Wang, Weihao Gan, Wei Wu, Yu Qiao(参考訳) 効率的な時空間モデリングはビデオ行動認識において重要な課題である。 既存の最先端手法は、動きの手がかりを利用して、連続するフレーム上の時間差を通じて、短時間の時間的モデリングを支援する。 しかし、カメラの動きにより背景ノイズが必然的に導入される。 また、異なる行動の動作も様々である。 本稿では、主にSalient Motion Excitation(SME)モジュールとCTI(Cross-scale Temporal Integration)モジュールを含む、TSI(Temporal Saliency Integration)ブロックを提案する。 具体的には, 周辺フレーム間の背景抑圧とピラミッドの特徴差を連続的に行い, 背景雑音の少ない動きのダイナミックスを捉えることを目的としている。 ctiは、それぞれ別々の1次元畳み込みのグループを通してマルチスケールの時間モデルを実行するように設計されている。 一方、異なるスケールにわたる時間的相互作用は注意機構と統合される。 これら2つのモジュールを通じて、制限された追加パラメータを導入することで、長期間の時間関係を効率的にエンコードすることができる。 提案手法の有効性と優位性を示すために,いくつかの一般的なベンチマーク (Something v1 & v2, Kinetics-400, UCF-101, HMDB-51) を用いて実験を行った。

Efficient spatiotemporal modeling is an important yet challenging problem for video action recognition. Existing state-of-the-art methods exploit motion clues to assist in short-term temporal modeling through temporal difference over consecutive frames. However, background noises will be inevitably introduced due to the camera movement. Besides, movements of different actions can vary greatly. In this paper, we propose a Temporal Saliency Integration (TSI) block, which mainly contains a Salient Motion Excitation (SME) module and a Cross-scale Temporal Integration (CTI) module. Specifically, SME aims to highlight the motion-sensitive area through local-global motion modeling, where the background suppression and pyramidal feature difference are conducted successively between neighboring frames to capture motion dynamics with less background noises. CTI is designed to perform multi-scale temporal modeling through a group of separate 1D convolutions respectively. Meanwhile, temporal interactions across different scales are integrated with attention mechanism. Through these two modules, long short-term temporal relationships can be encoded efficiently by introducing limited additional parameters. Extensive experiments are conducted on several popular benchmarks (i.e., Something-Something v1 & v2, Kinetics-400, UCF-101, and HMDB-51), which demonstrate the effectiveness and superiority of our proposed method.
翻訳日:2021-06-03 14:27:45 公開日:2021-06-02
# ImVoxelNet:単眼・多視野汎用3Dオブジェクト検出のためのVoxels投影画像

ImVoxelNet: Image to Voxels Projection for Monocular and Multi-View General-Purpose 3D Object Detection ( http://arxiv.org/abs/2106.01178v1 )

ライセンス: Link先を確認
Danila Rukhovich, Anna Vorontsova, Anton Konushin(参考訳) 本稿では,多視点RGBに基づく3Dオブジェクト検出の課題をエンドツーエンド最適化問題として紹介する。 そこで本研究では,単眼または多視点rgb画像に基づく3次元物体検出の完全畳み込み手法であるimvoxelnetを提案する。 各マルチビュー入力における単眼画像の数は、トレーニングと推論の間に変動しうるが、実際には、この数は各マルチビュー入力に対して一意である。 ImVoxelNetは、屋内と屋外の両方のシーンをうまく処理する。 具体的には、RGB画像を受け入れるすべての方法の中で、KITTI (monocular) と nuScenes (multi-view) ベンチマークにおける車両検出の最先端結果を達成する。 さらに、SUN RGB-Dデータセット上の既存のRGBベースの3Dオブジェクト検出手法を上回る。 ScanNetでは、ImVoxelNetがマルチビュー3Dオブジェクト検出のための新しいベンチマークを設定している。 ソースコードとトレーニングされたモデルは \url{https://github.com/saic-vul/imvoxelnet} で入手できる。

In this paper, we introduce the task of multi-view RGB-based 3D object detection as an end-to-end optimization problem. To address this problem, we propose ImVoxelNet, a novel fully convolutional method of 3D object detection based on monocular or multi-view RGB images. The number of monocular images in each multi-view input can variate during training and inference; actually, this number might be unique for each multi-view input. ImVoxelNet successfully handles both indoor and outdoor scenes, which makes it general-purpose. Specifically, it achieves state-of-the-art results in car detection on KITTI (monocular) and nuScenes (multi-view) benchmarks among all methods that accept RGB images. Moreover, it surpasses existing RGB-based 3D object detection methods on the SUN RGB-D dataset. On ScanNet, ImVoxelNet sets a new benchmark for multi-view 3D object detection. The source code and the trained models are available at \url{https://github.com/saic-vul/imvoxelnet}.
翻訳日:2021-06-03 14:27:24 公開日:2021-06-02
# dfgc 2021:ディープフェイクゲームコンテスト

DFGC 2021: A DeepFake Game Competition ( http://arxiv.org/abs/2106.01217v1 )

ライセンス: Link先を確認
Bo Peng, Hongxing Fan, Wei Wang, Jing Dong, Yuezun Li, Siwei Lyu, Qi Li, Zhenan Sun, Han Chen, Baoying Chen, Yanjie Hu, Shenghai Luo, Junrui Huang, Yutong Yao, Boyuan Liu, Hefei Ling, Guosheng Zhang, Zhiliang Xu, Changtao Miao, Changlei Lu, Shan He, Xiaoyan Wu, Wanyi Zhuang(参考訳) 本稿では,DFGC 2021コンペティションの概要を紹介する。 DeepFakeの技術は急速に発展しており、現実的なフェイススワップはますます認知しにくくなっている。 同時に、DeepFake検出方法も改善されている。 DeepFakeのクリエーターとディテクターの2人組のゲームがある。 このコンペティションは、現在の最先端のDeepFake生成と検出方法の間の対戦ゲームをベンチマークするための共通プラットフォームを提供する。 本稿では、このコンペティションの組織、成果、そしてトップソリューションを紹介し、このイベントで得られた洞察を共有します。 また、参加者から収集したDFGC-21テストデータセットもリリースし、研究コミュニティにさらなる利益をもたらしました。

This paper presents a summary of the DFGC 2021 competition. DeepFake technology is developing fast, and realistic face-swaps are increasingly deceiving and hard to detect. At the same time, DeepFake detection methods are also improving. There is a two-party game between DeepFake creators and detectors. This competition provides a common platform for benchmarking the adversarial game between current state-of-the-art DeepFake creation and detection methods. In this paper, we present the organization, results and top solutions of this competition and also share our insights obtained during this event. We also release the DFGC-21 testing dataset collected from our participants to further benefit the research community.
翻訳日:2021-06-03 14:27:07 公開日:2021-06-02
# オープンドメイン質問応答のためのハッシュを用いた効率よいパス検索

Efficient Passage Retrieval with Hashing for Open-domain Question Answering ( http://arxiv.org/abs/2106.00882v1 )

ライセンス: Link先を確認
Ikuya Yamada, Akari Asai, Hannaneh Hajishirzi(参考訳) ほとんどの最先端のオープンドメイン質問応答システムは、ニューラルネットワークモデルを使用して、パスを連続ベクトルにエンコードし、知識ソースから抽出する。 しかし、そのような検索モデルは、パスインデックスの巨大なサイズのため、大きなメモリを必要とすることが多い。 本稿では,dpr(state-of-the-art dense passage retriever)に学習・ハッシュ手法を統合し,連続ベクトルではなくコンパクトなバイナリコードを用いてパスインデックスを表現する,メモリ効率のよいニューラルネットワーク検索モデルであるbinary passage retriever(bpr)を提案する。 bprは、バイナリコードに基づく効率的な候補生成と、連続ベクトルに基づく正確な再ランキングの2つのタスクでマルチタスクの目的で訓練される。 DPRと比較して、BPRは2つの標準オープンドメイン質問応答ベンチマークであるNatural QuestionsとTriviaQAにおいて、メモリコストを65GBから2GBに大幅に削減する。 私たちのコードとトレーニングされたモデルは、https://github.com/studio-ousia/bprで利用可能です。

Most state-of-the-art open-domain question answering systems use a neural retrieval model to encode passages into continuous vectors and extract them from a knowledge source. However, such retrieval models often require large memory to run because of the massive size of their passage index. In this paper, we introduce Binary Passage Retriever (BPR), a memory-efficient neural retrieval model that integrates a learning-to-hash technique into the state-of-the-art Dense Passage Retriever (DPR) to represent the passage index using compact binary codes rather than continuous vectors. BPR is trained with a multi-task objective over two tasks: efficient candidate generation based on binary codes and accurate reranking based on continuous vectors. Compared with DPR, BPR substantially reduces the memory cost from 65GB to 2GB without a loss of accuracy on two standard open-domain question answering benchmarks: Natural Questions and TriviaQA. Our code and trained models are available at https://github.com/studio-ousia/bpr.
翻訳日:2021-06-03 14:26:57 公開日:2021-06-02
# タスク指向対話システムの高品質多様化

High-Quality Diversification for Task-Oriented Dialogue Systems ( http://arxiv.org/abs/2106.00891v1 )

ライセンス: Link先を確認
Zhiwen Tang, Hrishikesh Kulkarni, Grace Hui Yang(参考訳) 多くのタスク指向対話システムは、ユーザに対して適切に応答するポリシーを学習し、タスクを成功させるために、深層強化学習(DRL)を使用している。 多様な対話路を持つDRLエージェントの訓練は、稀なユーザ要求や目に見えない状況に備える。 1つの効果的な多様化方法は、エージェントが多様な学習されたユーザーモデルと対話できるようにすることである。 しかし、これらの人工ユーザモデルによって作成された軌跡には生成エラーが含まれ、エージェントのポリシーに素早く伝播する可能性がある。 したがって、多様化の質を制御し、騒音に抵抗することが重要である。 本稿では,シミュレータで訓練されたタスク指向対話システムのための新しい対話多様化手法を提案する。 I-SEE(Intermittent Short Extension Ensemble)は,多様なユーザモデルのアンサンブルと相互作用する強度を制約し,多様化の質を効果的に制御する手法である。 Multiwozデータセットの評価から、I-SEEはいくつかの最先端DRL対話エージェントの性能を高めることに成功した。

Many task-oriented dialogue systems use deep reinforcement learning (DRL) to learn policies that respond to the user appropriately and complete the tasks successfully. Training DRL agents with diverse dialogue trajectories prepare them well for rare user requests and unseen situations. One effective diversification method is to let the agent interact with a diverse set of learned user models. However, trajectories created by these artificial user models may contain generation errors, which can quickly propagate into the agent's policy. It is thus important to control the quality of the diversification and resist the noise. In this paper, we propose a novel dialogue diversification method for task-oriented dialogue systems trained in simulators. Our method, Intermittent Short Extension Ensemble (I-SEE), constrains the intensity to interact with an ensemble of diverse user models and effectively controls the quality of the diversification. Evaluations on the Multiwoz dataset show that I-SEE successfully boosts the performance of several state-of-the-art DRL dialogue agents.
翻訳日:2021-06-03 14:26:40 公開日:2021-06-02
# 自然テキスト衛生化によるテキスト分析のための微分プライバシー

Differential Privacy for Text Analytics via Natural Text Sanitization ( http://arxiv.org/abs/2106.01221v1 )

ライセンス: Link先を確認
Xiang Yue, Minxin Du, Tianhao Wang, Yaliang Li, Huan Sun and Sherman S. M. Chow(参考訳) テキストは高度な知識を提供する。 しかし、テキストは機密情報も伝達する。 汎用言語モデルと差分プライバシー(DP)によるドメイン固有メカニズムの成功にもかかわらず、既存のテキスト衛生機構は高次元のテキスト表現によって呪われているように、依然として低実用性を提供する。 下流分析に衛生的テキストを利用するという副次的な問題も未調査である。 本論文は,テキスト衛生への直接的なアプローチである。 私たちの洞察は、新しいローカルdp概念を通じて感度と類似性の両方を検討することです。 衛生化されたテキストは、私たちの衛生に配慮した事前訓練と微調整にも貢献し、将来性のあるユーティリティを備えたBERT言語モデル上でのプライバシー保護自然言語処理を可能にします。 驚くべきことに、高いユーティリティは推論攻撃の成功率を高めません。

Texts convey sophisticated knowledge. However, texts also convey sensitive information. Despite the success of general-purpose language models and domain-specific mechanisms with differential privacy (DP), existing text sanitization mechanisms still provide low utility, as cursed by the high-dimensional text representation. The companion issue of utilizing sanitized texts for downstream analytics is also under-explored. This paper takes a direct approach to text sanitization. Our insight is to consider both sensitivity and similarity via our new local DP notion. The sanitized texts also contribute to our sanitization-aware pretraining and fine-tuning, enabling privacy-preserving natural language processing over the BERT language model with promising utility. Surprisingly, the high utility does not boost up the success rate of inference attacks.
翻訳日:2021-06-03 14:26:24 公開日:2021-06-02
# 意思決定指向クラスタリング:価格と電力消費スケジューリングへの応用

Decision-making Oriented Clustering: Application to Pricing and Power Consumption Scheduling ( http://arxiv.org/abs/2106.01021v1 )

ライセンス: Link先を確認
Chao Zhang, Samson Lasaulce, Martin Hennebel, Lucas Saludjian, Patrick Panciatici, and H. Vincent Poor(参考訳) データクラスタリングは、エネルギー資源管理の分野における道具である。 従来のクラスタリングでは、クラスタ化されたデータの最終的な使用を考慮していないため、エネルギーや計算リソースの最適でない使用につながる可能性がある。 クラスタ化されたデータを意思決定エンティティが使用する場合、クラスタ化スキームを意思決定エンティティが実行した最終タスクに合わせることで、かなりの利益が得られることが分かる。 最終的なパフォーマンス向上の鍵は、後続の意思決定エンティティに固有のデータ空間の重要な属性を自動的に抽出し、予め定義された従来のメトリクスに基づいてデータ空間を分割するのではなく、これらの属性に基づいてデータ空間を分割することです。 この目的のために,意思決定指向クラスタリングの枠組みを定式化し,データ空間の意思決定に基づく分割と適切な代表決定を提供するアルゴリズムを提案する。 この新たなフレームワークとアルゴリズムを、リアルタイム価格と消費電力スケジューリングの典型的な問題に適用することにより、リアルタイム価格の最適価格プロファイルの表現や、シミュレーションで示すように電力消費スケジューリングを行うために必要なクラスタの量を大幅に削減するといった、洞察に富んだ分析結果を得る。

Data clustering is an instrumental tool in the area of energy resource management. One problem with conventional clustering is that it does not take the final use of the clustered data into account, which may lead to a very suboptimal use of energy or computational resources. When clustered data are used by a decision-making entity, it turns out that significant gains can be obtained by tailoring the clustering scheme to the final task performed by the decision-making entity. The key to having good final performance is to automatically extract the important attributes of the data space that are inherently relevant to the subsequent decision-making entity, and partition the data space based on these attributes instead of partitioning the data space based on predefined conventional metrics. For this purpose, we formulate the framework of decision-making oriented clustering and propose an algorithm providing a decision-based partition of the data space and good representative decisions. By applying this novel framework and algorithm to a typical problem of real-time pricing and that of power consumption scheduling, we obtain several insightful analytical results such as the expression of the best representative price profiles for real-time pricing and a very significant reduction in terms of required clusters to perform power consumption scheduling as shown by our simulations.
翻訳日:2021-06-03 14:25:51 公開日:2021-06-02
# 長列記憶におけるリハーサルの学習

Learning to Rehearse in Long Sequence Memorization ( http://arxiv.org/abs/2106.01096v1 )

ライセンス: Link先を確認
Zhu Zhang, Chang Zhou, Jianxin Ma, Zhijie Lin, Jingren Zhou, Hongxia Yang and Zhou Zhao(参考訳) 既存の推論タスクは、入力内容が推論中に常にアクセス可能であり、無制限のストレージリソースを必要とし、長いシーケンスの厳しい遅延に悩まされているという重要な仮定を持つことが多い。 記憶資源が限られた長いシーケンスの効率的な推論を実現するために、メモリ拡張ニューラルネットワークは、人間ライクなライトリードメモリを導入し、1パスで長い入力シーケンスを圧縮して記憶し、メモリのみに基づいてその後のクエリに答えようとする。 しかし、2つの重大な欠点がある: 1) メモリを現在の情報から継続的に更新し、必然的に初期の内容を忘れる; 2) 重要な情報を区別せず、全てのコンテンツを平等に扱う。 本稿では,歴史サンプルを用いた自己教師型リハーサルによる長期記憶を改善するためのリハーサルメモリ(RM)を提案する。 早期情報の段階的忘れを緩和するため, 自己指導型リハーサルトレーニングを再現性や親しみやすいタスクで設計する。 さらに,リハーサルトレーニングのための情報断片選択のための履歴サンプルの設計を行い,重要な情報にメモリを集中させる。 我々は,合成babiタスクによるリハーサルメモリの性能評価と,テキスト/ビデオ質問応答や長いシーケンスでのレコメンデーションを含むいくつかの下流タスクによる評価を行った。

Existing reasoning tasks often have an important assumption that the input contents can be always accessed while reasoning, requiring unlimited storage resources and suffering from severe time delay on long sequences. To achieve efficient reasoning on long sequences with limited storage resources, memory augmented neural networks introduce a human-like write-read memory to compress and memorize the long input sequence in one pass, trying to answer subsequent queries only based on the memory. But they have two serious drawbacks: 1) they continually update the memory from current information and inevitably forget the early contents; 2) they do not distinguish what information is important and treat all contents equally. In this paper, we propose the Rehearsal Memory (RM) to enhance long-sequence memorization by self-supervised rehearsal with a history sampler. To alleviate the gradual forgetting of early information, we design self-supervised rehearsal training with recollection and familiarity tasks. Further, we design a history sampler to select informative fragments for rehearsal training, making the memory focus on the crucial information. We evaluate the performance of our rehearsal memory by the synthetic bAbI task and several downstream tasks, including text/video question answering and recommendation on long sequences.
翻訳日:2021-06-03 14:25:31 公開日:2021-06-02
# 仮想走行テストのためのカバレッジに基づくシーンファジング

Coverage-based Scene Fuzzing for Virtual Autonomous Driving Testing ( http://arxiv.org/abs/2106.00873v1 )

ライセンス: Link先を確認
Zhisheng Hu, Shengjian Guo, Zhenyu Zhong, Kang Li(参考訳) シミュレーションに基づく仮想テストは、自動運転システムの安全性を確保するための重要なステップとなっている。 テスタは仮想運転シーンを手作りし、周囲の交通状況や天候条件など、さまざまな環境設定をする必要がある。 膨大な構成可能性のため、産業レベルの自動運転システムの欠陥を検出するのに人的努力は非効率である。 本稿では,様々な構成パラメータを自動生成して新たな運転シーンを生成するための,カバレッジ駆動ファジリング手法を提案する。 実験の結果,本手法は,テスタが設計した初期設定から新たなリスクシーンを導出する際のコストを大幅に削減できることがわかった。 自動運転システムの仮想テストでは、自動ファジングが一般的なプラクティスになると思います。

Simulation-based virtual testing has become an essential step to ensure the safety of autonomous driving systems. Testers need to handcraft the virtual driving scenes and configure various environmental settings like surrounding traffic, weather conditions, etc. Due to the huge amount of configuration possibilities, the human efforts are subject to the inefficiency in detecting flaws in industry-class autonomous driving system. This paper proposes a coverage-driven fuzzing technique to automatically generate diverse configuration parameters to form new driving scenes. Experimental results show that our fuzzing method can significantly reduce the cost in deriving new risky scenes from the initial setup designed by testers. We expect automated fuzzing will become a common practice in virtual testing for autonomous driving systems.
翻訳日:2021-06-03 14:25:09 公開日:2021-06-02
# 求職者の問題をスケジューリングする学習:グラフニューラルネットワークと強化学習を用いた表現と政策学習

Learning to schedule job-shop problems: Representation and policy learning using graph neural network and reinforcement learning ( http://arxiv.org/abs/2106.01086v1 )

ライセンス: Link先を確認
Junyoung Park, Jaehyeong Chun, Sang Hun Kim, Youngkook Kim, Jinkyoo Park(参考訳) 本稿では,グラフニューラルネットワーク(GNN)と強化学習(RL)を用いて,ジョブショップ問題(JSSP)のスケジューリングを学習するフレームワークを提案する。 本研究では,JSSPのスケジューリング過程を,JSSPの構造を考慮した状態のグラフ表現を用いた逐次決定問題として定式化する。 定式化問題の解決にあたり,提案フレームワークはGNNを用いて,JSSPの空間構造をグラフ(表現学習)として埋め込んだノード特徴を学習し,組込みノード特徴を最適なスケジューリング動作(政治学習)にマッピングする最適なスケジューリングポリシを導出する。 我々は、PPO(Proximal Policy Optimization)に基づくRL戦略を用いて、これらの2つのモジュールをエンドツーエンドでトレーニングする。 我々は、GNNスケジューラが、超一般化能力のため、様々なベンチマークJSSP上で、事実上好まれるディスパッチルールやRLベースのスケジューラよりも優れていることを実証的に示す。 また,提案フレームワークが(サイズやパラメータの面で)完全に新しいjsspのスケジュールに利用できる転送可能なスケジューリングポリシーを,さらなるトレーニングなしで学習できることを確認した。

We propose a framework to learn to schedule a job-shop problem (JSSP) using a graph neural network (GNN) and reinforcement learning (RL). We formulate the scheduling process of JSSP as a sequential decision-making problem with graph representation of the state to consider the structure of JSSP. In solving the formulated problem, the proposed framework employs a GNN to learn that node features that embed the spatial structure of the JSSP represented as a graph (representation learning) and derive the optimum scheduling policy that maps the embedded node features to the best scheduling action (policy learning). We employ Proximal Policy Optimization (PPO) based RL strategy to train these two modules in an end-to-end fashion. We empirically demonstrate that the GNN scheduler, due to its superb generalization capability, outperforms practically favored dispatching rules and RL-based schedulers on various benchmark JSSP. We also confirmed that the proposed framework learns a transferable scheduling policy that can be employed to schedule a completely new JSSP (in terms of size and parameters) without further training.
翻訳日:2021-06-03 14:24:59 公開日:2021-06-02
# ニューラルマシン翻訳のための単言語データ不確かさを用いた自己学習サンプリング

Self-Training Sampling with Monolingual Data Uncertainty for Neural Machine Translation ( http://arxiv.org/abs/2106.00941v1 )

ライセンス: Link先を確認
Wenxiang Jiao, Xing Wang, Zhaopeng Tu, Shuming Shi, Michael R. Lyu, Irwin King(参考訳) モデルトレーニングを合成並列データで強化することにより、nmt性能の向上に有効であることが証明されている。 一般的な実践は、大規模単言語データのランダムなサンプリングされたサブセットに基づいて合成データを構築することである。 本研究では,並列データを補完する最も情報性の高い単言語文を選択することで,サンプリング手順の改善を提案する。 この目的のために,並列データから抽出したバイリンガル辞書を用いて,単言語文の不確実性を計算する。 直感的には、不確実性の低い単言語文は一般的に、追加の利得を与えない容易に翻訳できるパターンに対応する。 そこで本研究では,不確実性の高い単言語文を高い確率でサンプリングして自己学習するために,不確実性に基づくサンプリング戦略を考案する。 大規模 wmt 英語$\rightarrow$german と英語$\rightarrow$ chinese データセットの実験結果は、提案手法の有効性を示している。 広範囲な分析により,不確定な単言語文の学習を強調することで,不確実性文の翻訳品質が向上し,ターゲット側での低頻度単語の予測にも有用であることが示唆された。

Self-training has proven effective for improving NMT performance by augmenting model training with synthetic parallel data. The common practice is to construct synthetic data based on a randomly sampled subset of large-scale monolingual data, which we empirically show is sub-optimal. In this work, we propose to improve the sampling procedure by selecting the most informative monolingual sentences to complement the parallel data. To this end, we compute the uncertainty of monolingual sentences using the bilingual dictionary extracted from the parallel data. Intuitively, monolingual sentences with lower uncertainty generally correspond to easy-to-translate patterns which may not provide additional gains. Accordingly, we design an uncertainty-based sampling strategy to efficiently exploit the monolingual data for self-training, in which monolingual sentences with higher uncertainty would be sampled with higher probability. Experimental results on large-scale WMT English$\Rightarrow$German and English$\Rightarrow$Chinese datasets demonstrate the effectiveness of the proposed approach. Extensive analyses suggest that emphasizing the learning on uncertain monolingual sentences by our approach does improve the translation quality of high-uncertainty sentences and also benefits the prediction of low-frequency words at the target side.
翻訳日:2021-06-03 14:24:37 公開日:2021-06-02
# 縦型多発性硬化症脳画像における自覚的病変変化の検出と局在

Self-supervised Lesion Change Detection and Localisation in Longitudinal Multiple Sclerosis Brain Imaging ( http://arxiv.org/abs/2106.00919v1 )

ライセンス: Link先を確認
Minh-Son To, Ian G Sarno, Chee Chong, Mark Jenkinson and Gustavo Carneiro(参考訳) 縦断画像は、多くの医療状況の管理と追跡に不可欠な要素である。 連続画像における病変変化の存在は、臨床意思決定に大きな影響を与え、自動変化検出における重要な役割を強調する。 病変の変化はシリアルイメージングにおける異常を表現することができ、アノテーションの可用性が制限され、考慮すべきさまざまな変更が考えられる。 そこで本研究では,病変を含まないシリアル画像のみを用いた教師なし異常検出および局所化手法を提案する。 トレーニングでは, 連続画像の病変変化を自動的に合成し, モデルの訓練を自己監督するために用いられる検出と局所化の擬似ラベルを導入する。 合成画像におけるこれらの病変の希少さを考慮し,不均衡な局所的Tversky損失を伴ってモデルを訓練する。 異なるデータセットでトレーニングされた教師付きモデルと比較すると,多発性硬化症患者の縦型磁気共鳴画像における新しい脱髄病変の検出と局所化における競合性を示す。 モデルのコードはgithubで入手できる。

Longitudinal imaging forms an essential component in the management and follow-up of many medical conditions. The presence of lesion changes on serial imaging can have significant impact on clinical decision making, highlighting the important role for automated change detection. Lesion changes can represent anomalies in serial imaging, which implies a limited availability of annotations and a wide variety of possible changes that need to be considered. Hence, we introduce a new unsupervised anomaly detection and localisation method trained exclusively with serial images that do not contain any lesion changes. Our training automatically synthesises lesion changes in serial images, introducing detection and localisation pseudo-labels that are used to self-supervise the training of our model. Given the rarity of these lesion changes in the synthesised images, we train the model with the imbalance robust focal Tversky loss. When compared to supervised models trained on different datasets, our method shows competitive performance in the detection and localisation of new demyelinating lesions on longitudinal magnetic resonance imaging in multiple sclerosis patients. Code for the models will be made available on GitHub.
翻訳日:2021-06-03 14:23:21 公開日:2021-06-02
# CNNによる胸部X線診断の改善の試み

Tips and Tricks to Improve CNN-based Chest X-ray Diagnosis: A Survey ( http://arxiv.org/abs/2106.00997v1 )

ライセンス: Link先を確認
Changhee Han, Takayuki Okamoto, Koichi Takeuchi, Dimitris Katsios, Andrey Grushnikov, Masaaki Kobayashi, Antoine Choppin, Yutaka Kurashina, Yuki Shimahara(参考訳) 畳み込みニューラルネットワーク(CNN)は本質的に大規模なデータを必要とするが、Chest X-Ray(CXR)のイメージはデータ/アノテーションを欠く傾向にあり、過度に適合する。 そこで本研究では,cxr診断の一般化を図るための工夫を徹底的に紹介する: (i) 追加データの利用方法, (ii) 強化・蒸留データ, (iii) 正規化訓練, (iv) 効率的なセグメンテーションを行う方法である。 また, LPIXEL の CNN-based CXR ソリューションである EIRL Chest Nodule を応用し, 放射線技師・非放射線学者の結節検出感度を 0.100/0.131 改善し, 特異性を維持した。

Convolutional Neural Networks (CNNs) intrinsically requires large-scale data whereas Chest X-Ray (CXR) images tend to be data/annotation-scarce, leading to over-fitting. Therefore, based on our development experience and related work, this paper thoroughly introduces tricks to improve generalization in the CXR diagnosis: how to (i) leverage additional data, (ii) augment/distillate data, (iii) regularize training, and (iv) conduct efficient segmentation. As a development example based on such optimization techniques, we also feature LPIXEL's CNN-based CXR solution, EIRL Chest Nodule, which improved radiologists/non-radiologists' nodule detection sensitivity by 0.100/0.131, respectively, while maintaining specificity.
翻訳日:2021-06-03 14:23:06 公開日:2021-06-02
# NVC-Net: エンドツーエンドの音声変換

NVC-Net: End-to-End Adversarial Voice Conversion ( http://arxiv.org/abs/2106.00992v1 )

ライセンス: Link先を確認
Bac Nguyen and Fabien Cardinaux(参考訳) 音声変換は音声合成の多くの応用で人気が高まっている。 そのアイデアは、言語内容を変えながら、ある話者から別の話者に声のアイデンティティを変更することである。 多くの音声変換手法は、音声特徴から音声を再構成するためにボコーダを使うことに依存しており、その結果、音声品質はそのようなボコーダに大きく依存する。 本稿では,任意の長さの生音声波形上で直接音声変換を行う,エンドツーエンドの敵対ネットワークであるNVC-Netを提案する。 話者アイデンティティを音声コンテンツから切り離すことにより、NVC-Netは非並列な従来の多対多音声変換と、目に見えないターゲット話者の短い発話からゼロショット音声変換を行うことができる。 重要なのは、NVC-Netは非自己回帰的で完全な畳み込みであり、高速な推論を実現することである。 我々のモデルはNVIDIA V100 GPU上で3600kHz以上の速度でサンプルを生成することができ、同じハードウェア構成下での最先端の手法よりも桁違いに高速である。 非並列多対多音声変換タスクの客観的および主観的評価は、NVC-Netが、パラメータが著しく少ない競合結果を得ることを示す。

Voice conversion has gained increasing popularity in many applications of speech synthesis. The idea is to change the voice identity from one speaker into another while keeping the linguistic content unchanged. Many voice conversion approaches rely on the use of a vocoder to reconstruct the speech from acoustic features, and as a consequence, the speech quality heavily depends on such a vocoder. In this paper, we propose NVC-Net, an end-to-end adversarial network, which performs voice conversion directly on the raw audio waveform of arbitrary length. By disentangling the speaker identity from the speech content, NVC-Net is able to perform non-parallel traditional many-to-many voice conversion as well as zero-shot voice conversion from a short utterance of an unseen target speaker. Importantly, NVC-Net is non-autoregressive and fully convolutional, achieving fast inference. Our model is capable of producing samples at a rate of more than 3600 kHz on an NVIDIA V100 GPU, being orders of magnitude faster than state-of-the-art methods under the same hardware configurations. Objective and subjective evaluations on non-parallel many-to-many voice conversion tasks show that NVC-Net obtains competitive results with significantly fewer parameters.
翻訳日:2021-06-03 14:22:28 公開日:2021-06-02
# ボトムアップとトップダウンニューラルプロセッシングシステムの設計:自然と人工知能の収束としてのニューロモーフィックインテリジェンス

Bottom-Up and Top-Down Neural Processing Systems Design: Neuromorphic Intelligence as the Convergence of Natural and Artificial Intelligence ( http://arxiv.org/abs/2106.01288v1 )

ライセンス: Link先を確認
Charlotte Frenkel, David Bol, Giacomo Indiveri(参考訳) ムーアの法則は指数関数計算能力の期待を駆り立ててきたが、システム全体のパフォーマンスを改善するための新しい方法が求められている。 これらの方法の1つは、生物学的ニューラルプロセッシングシステムの柔軟性と計算効率を達成することを約束する、脳にインスパイアされた新しいコンピューティングアーキテクチャの探求である。 この文脈では、ニューロモーフィックインテリジェンスは、処理とメモリを密に配置するスパイクニューラルネットワークアーキテクチャの実装に基づく、コンピューティングのパラダイムシフトを表している。 本稿では,既存のシリコン実装におけるさまざまな粒度レベルを概観し,自然知能(ボットアップ)の再現を目的としたアプローチと,実用的な人工知能アプリケーション(トップダウン)の解決を目的としたアプローチを比較し,これらの目標を達成するために使用される回路設計スタイルの利点を評価する。 まず、時間多重化、インメモリ計算、新しいデバイスによる処理とメモリの境界を識別するアナログ、混合信号、デジタル回路設計方式を提案する。 次に、ボトムアップとトップダウンの各アプローチの主なトレードオフを強調し、シリコン実装を調査し、設計ガイドラインを抽出するために詳細な比較分析を行う。 最後に,従来の機械学習アクセラレータと比較して,ニューロモルフィックエッジコンピューティングの競争上の優位性を達成するために必要なシナジーと欠落要素の両方を特定し,ニューロモルフィックインテリジェンスに向けたフレームワークの鍵となる要素を概説する。

While Moore's law has driven exponential computing power expectations, its nearing end calls for new avenues for improving the overall system performance. One of these avenues is the exploration of new alternative brain-inspired computing architectures that promise to achieve the flexibility and computational efficiency of biological neural processing systems. Within this context, neuromorphic intelligence represents a paradigm shift in computing based on the implementation of spiking neural network architectures tightly co-locating processing and memory. In this paper, we provide a comprehensive overview of the field, highlighting the different levels of granularity present in existing silicon implementations, comparing approaches that aim at replicating natural intelligence (bottom-up) versus those that aim at solving practical artificial intelligence applications (top-down), and assessing the benefits of the different circuit design styles used to achieve these goals. First, we present the analog, mixed-signal and digital circuit design styles, identifying the boundary between processing and memory through time multiplexing, in-memory computation and novel devices. Next, we highlight the key tradeoffs for each of the bottom-up and top-down approaches, survey their silicon implementations, and carry out detailed comparative analyses to extract design guidelines. Finally, we identify both necessary synergies and missing elements required to achieve a competitive advantage for neuromorphic edge computing over conventional machine-learning accelerators, and outline the key elements for a framework toward neuromorphic intelligence.
翻訳日:2021-06-03 14:22:11 公開日:2021-06-02
# ランダムニューラルネットワークを用いた効率的な分散分類のための超次元計算

Hyperdimensional Computing for Efficient Distributed Classification with Randomized Neural Networks ( http://arxiv.org/abs/2106.00881v1 )

ライセンス: Link先を確認
Antonello Rosato, Massimo Panella, Denis Kleyko(参考訳) 教師あり学習領域では、近年の計算コストの高いアルゴリズムの普及を考えると、よりシンプルで、より軽く、より計算量の多いトレーニングと推論のアプローチに注意が向けられている。 特に、一般化された基本的なアプローチを考えると、ランダム化アルゴリズムは現在復活している。 ランダム化されたニューラルネットワークを用いて、データを中央に保存することも共有することもできない状況下で使用できる分散分類を研究する。 本稿では,局所的分類器を他のエージェントと共有する場合に,損失の大きい圧縮手法を応用し,分散分類のより効率的な解法を提案する。 このアプローチは超次元コンピューティングの枠組みから始まり、ここで適応される。 データセットの集合に関する実験の結果、提案手法は通常、局所的な分類器よりも精度が高く、ベンチマーク(集中型分類器)に近づくことを示した。 この研究は、分散ランダム化ニューラルネットワークの変動地平線を分析するための第一歩と考えることができる。

In the supervised learning domain, considering the recent prevalence of algorithms with high computational cost, the attention is steering towards simpler, lighter, and less computationally extensive training and inference approaches. In particular, randomized algorithms are currently having a resurgence, given their generalized elementary approach. By using randomized neural networks, we study distributed classification, which can be employed in situations were data cannot be stored at a central location nor shared. We propose a more efficient solution for distributed classification by making use of a lossy compression approach applied when sharing the local classifiers with other agents. This approach originates from the framework of hyperdimensional computing, and is adapted herein. The results of experiments on a collection of datasets demonstrate that the proposed approach has usually higher accuracy than local classifiers and getting close to the benchmark - the centralized classifier. This work can be considered as the first step towards analyzing the variegated horizon of distributed randomized neural networks.
翻訳日:2021-06-03 14:21:19 公開日:2021-06-02
# 注意型リカレントニューラルネットワークを用いた深部個人化グルコースレベル予測

Deep Personalized Glucose Level Forecasting Using Attention-based Recurrent Neural Networks ( http://arxiv.org/abs/2106.00884v1 )

ライセンス: Link先を確認
Mohammadreza Armandpour, Brian Kidd, Yu Du, Jianhua Z. Huang(参考訳) 本稿では,血糖予測の問題点を考察し,深いパーソナライズド・ソリューションを提供する。 糖尿病患者の血糖値を予測することは、異常な血糖値の健康上の合併症が深刻であり、時には死亡につながるため、大きな価値がある。 したがって、潜在的な問題の患者に正確かつ迅速に警告できるモデルを持つことが不可欠である。 より深い血糖予測モデルを構築するため,データを解析し,重要なパターンを検出する。 1-- 患者ごとにパーソナライズされたモデルとグローバルモデルの両方を学習する、2- 注意機構と抽出された時間特徴を使用してデータの長期的な依存関係をよりよく学習する、3- 時系列データのための新しい堅牢なトレーニング手順を導入する。 実データセット上でモデルの有効性を実証的に示す。

In this paper, we study the problem of blood glucose forecasting and provide a deep personalized solution. Predicting blood glucose level in people with diabetes has significant value because health complications of abnormal glucose level are serious, sometimes even leading to death. Therefore, having a model that can accurately and quickly warn patients of potential problems is essential. To develop a better deep model for blood glucose forecasting, we analyze the data and detect important patterns. These observations helped us to propose a method that has several key advantages over existing methods: 1- it learns a personalized model for each patient as well as a global model; 2- it uses an attention mechanism and extracted time features to better learn long-term dependencies in the data; 3- it introduces a new, robust training procedure for time series data. We empirically show the efficacy of our model on a real dataset.
翻訳日:2021-06-03 14:21:04 公開日:2021-06-02
# ナップサック付きmnlバンド

MNL-Bandit with Knapsacks ( http://arxiv.org/abs/2106.01135v1 )

ライセンス: Link先を確認
Abdellah Aznag, Vineet Goyal and Noemie Perivier(参考訳) 販売者がN$の代替品の在庫を固定し、T$の期間に順次届く未知の需要に直面している場合の動的品揃え選択問題を考える。 各期間において、売り手は顧客に提供する製品(最大で1ドル)の品揃えを決定する必要がある。 顧客の応答は、パラメータ$v$を持つ未知の多項ロジットモデル(mnl)に従っている。 売り手の目標は、N$の商品の固定初期在庫から予想される総売上を最大化することである。 我々は、モデルパラメータの軽度な仮定の下で、$\tilde O\left(K \sqrt{K N T}\left(1 + \frac{\sqrt{v_{\max}}}{q_{\min}}\text{OPT}\right) \right)を後悔するポリシーを与える。 特に、我々の政策は、大規模な在庫設定において、ほぼ最適の$\tilde O(\sqrt{T})$後悔を達成する。 本政策は, 在庫制約を伴わない UCB-based approach for MNL-bandit in [1], and address the inventory constraints through an indexly sized LP that we present a tractable approximation while keep the $\tilde O(\sqrt{T})$ regret bound。

We consider a dynamic assortment selection problem where a seller has a fixed inventory of $N$ substitutable products and faces an unknown demand that arrives sequentially over $T$ periods. In each period, the seller needs to decide on the assortment of products (of cardinality at most $K$) to offer to the customers. The customer's response follows an unknown multinomial logit model (MNL) with parameters $v$. The goal of the seller is to maximize the total expected revenue given the fixed initial inventory of $N$ products. We give a policy that achieves a regret of $\tilde O\left(K \sqrt{K N T}\left(1 + \frac{\sqrt{v_{\max}}}{q_{\min}}\text{OPT}\right) \right)$ under a mild assumption on the model parameters. In particular, our policy achieves a near-optimal $\tilde O(\sqrt{T})$ regret in the large inventory setting. Our policy builds upon the UCB-based approach for MNL-bandit without inventory constraints in [1] and addresses the inventory constraints through an exponentially sized LP for which we present a tractable approximation while keeping the $\tilde O(\sqrt{T})$ regret bound.
翻訳日:2021-06-03 14:20:49 公開日:2021-06-02
# 深層学習に基づく圧縮UGCビデオの完全参照と非参照品質評価モデル

Deep Learning based Full-reference and No-reference Quality Assessment Models for Compressed UGC Videos ( http://arxiv.org/abs/2106.01111v1 )

ライセンス: Link先を確認
Wei Sun and Tao Wang and Xiongkuo Min and Fuwang Yi and Guangtao Zhai(参考訳) 本稿では,圧縮されたユーザ生成コンテンツ(UGC)ビデオの品質を評価するための,ディープラーニングに基づくビデオ品質評価(VQA)フレームワークを提案する。 提案するVQAフレームワークは,機能抽出モジュール,品質回帰モジュール,品質プールモジュールの3つのモジュールで構成されている。 特徴抽出モジュールでは,畳み込みニューラルネットワーク(cnn)ネットワークの中間層から最終品質認識機能表現に機能を融合することで,低レベルから高レベルまでの視覚情報をフルに活用することができる。 具体的には、全中間層から抽出された特徴マップの構造とテクスチャの類似性を全参照(fr)vqaモデルの特徴表現として算出し、中間特徴マップによって融合された最終特徴マップのグローバル平均および標準偏差をno参照(nr)vqaモデルの特徴表現として算出する。 品質回帰モジュールでは,完全接続(fc)層を用いて品質認識機能をフレームレベルのスコアに回帰する。 最後に、ビデオレベルスコアにフレームレベルスコアをプールするために、主観的にインスパイアされた時間プーリング戦略を採用する。 提案モデルは,圧縮されたUGC VQAデータベース上での最先端FRモデルとNR VQAモデルの中で最高の性能を達成し,また,現在開発中のUGC VQAデータベース上ではかなり優れた性能を達成する。

In this paper, we propose a deep learning based video quality assessment (VQA) framework to evaluate the quality of the compressed user's generated content (UGC) videos. The proposed VQA framework consists of three modules, the feature extraction module, the quality regression module, and the quality pooling module. For the feature extraction module, we fuse the features from intermediate layers of the convolutional neural network (CNN) network into final quality-aware feature representation, which enables the model to make full use of visual information from low-level to high-level. Specifically, the structure and texture similarities of feature maps extracted from all intermediate layers are calculated as the feature representation for the full reference (FR) VQA model, and the global mean and standard deviation of the final feature maps fused by intermediate feature maps are calculated as the feature representation for the no reference (NR) VQA model. For the quality regression module, we use the fully connected (FC) layer to regress the quality-aware features into frame-level scores. Finally, a subjectively-inspired temporal pooling strategy is adopted to pool frame-level scores into the video-level score. The proposed model achieves the best performance among the state-of-the-art FR and NR VQA models on the Compressed UGC VQA database and also achieves pretty good performance on the in-the-wild UGC VQA databases.
翻訳日:2021-06-03 14:20:27 公開日:2021-06-02
# デジタルホモトピー関係とデジタルホモロジー理論

Digital homotopy relations and digital homology theories ( http://arxiv.org/abs/2106.01171v1 )

ライセンス: Link先を確認
P. Christopher Staecker(参考訳) 本稿では,デジタル画像のトポロジで発達した2つのホモトピー関係と4つのホモロジー理論に関する結果を証明する。 我々は「強ホモトピー」と呼ばれるデジタル連続関数に対する新しいタイプのホモトピー関係を導入する。 デジタルホモトピーと強ホモトピーはどちらも古典的トポロジカルホモトピーの自然なデジタル化であり、それらの違いは平面におけるデジタル4-アジャクティと8-アジャクティの差に類似している。 クライク複体のホモロジーであるarslan et alによる単純ホモロジー理論、d. w. leeによる特異単純ホモロジー理論、jamilとaliによる立方体ホモロジー理論、そして容易に計算できる$c_1$-adjacencyを持つデジタル画像の新しい種類の立方体ホモロジー、そしてkaraca \&egeによる構成を一般化した4つの異なるデジタルホモロジー理論も検討する。 2つの単相ホモロジー理論は互いに同型であるが、2つの立方体理論とは異なっている。 また、ホモトピー写像は立方体ホモロジー理論において同じ誘導準同型を持ち、強ホモトピー写像は単純理論において同じ誘導準同型を持つことを示す。

In this paper we prove results relating to two homotopy relations and four homology theories developed in the topology of digital images. We introduce a new type of homotopy relation for digitally continuous functions which we call "strong homotopy." Both digital homotopy and strong homotopy are natural digitizations of classical topological homotopy: the difference between them is analogous to the difference between digital 4-adjacency and 8-adjacency in the plane. We also consider four different digital homology theories: a simplicial homology theory by Arslan et al which is the homology of the clique complex, a singular simplicial homology theory by D. W. Lee, a cubical homology theory by Jamil and Ali, and a new kind of cubical homology for digital images with $c_1$-adjacency which is easily computed, and generalizes a construction by Karaca \& Ege. We show that the two simplicial homology theories are isomorphic to each other, but distinct from the two cubical theories. We also show that homotopic maps have the same induced homomorphisms in the cubical homology theory, and strong homotopic maps additionally have the same induced homomorphisms in the simplicial theory.
翻訳日:2021-06-03 14:20:00 公開日:2021-06-02
# 一般化平均密度最密部分グラフ問題

The Generalized Mean Densest Subgraph Problem ( http://arxiv.org/abs/2106.00909v1 )

ライセンス: Link先を確認
Nate Veldt and Austin R. Benson and Jon Kleinberg(参考訳) 大きなグラフの密度の高い部分グラフを見つけることはグラフマイニングの標準的な問題であり、理論的な豊かさと多くの実用的応用の両方について広く研究されてきた。 本稿では,グラフの次数列の計算一般化に基づく1つのパラメータ$p$でパラメータ化された,高密度なサブグラフ対象の新たなファミリーを紹介する。 我々の目標は、標準密度のサブグラフ問題と最大$k$-coreを特別なケースとして捉え、他の密度のサブグラフの概念を探す際に、これらの2つの目的の間を補間し、外挿する方法を提供する。 アルゴリズム的貢献の観点で、我々はまず、繰り返しサブモジュラー最小化を用いて、すべての$p \geq 1$の多項式時間で目標を最小化できることを示した。 我々の研究の大きな貢献は、理論と実践の両方において密接な部分グラフに対する様々な種類の剥離アルゴリズムの性能を分析することである。 標準的な剥離アルゴリズムは、一般化された目的に対して任意に不利な動作をすることができることを証明するが、$p \geq 1$に対して少なくとも1/2$の近似保証を持ち、$p \rightarrow \infty$として1に収束するより洗練された剥離法を設計する。 実際、このアルゴリズムは最適解に対して極めて優れた近似値を求め、大きなグラフにスケールし、多くの領域から来るグラフの密度に関する様々な意味のある概念を強調する。 さらに、あるノードの除去が近隣の他のノードにどのように影響するかをよりよく説明することで、標準的な剥離アルゴリズムよりも最も密度の高い部分グラフ問題を近似することができる。

Finding dense subgraphs of a large graph is a standard problem in graph mining that has been studied extensively both for its theoretical richness and its many practical applications. In this paper we introduce a new family of dense subgraph objectives, parameterized by a single parameter $p$, based on computing generalized means of degree sequences of a subgraph. Our objective captures both the standard densest subgraph problem and the maximum $k$-core as special cases, and provides a way to interpolate between and extrapolate beyond these two objectives when searching for other notions of dense subgraphs. In terms of algorithmic contributions, we first show that our objective can be minimized in polynomial time for all $p \geq 1$ using repeated submodular minimization. A major contribution of our work is analyzing the performance of different types of peeling algorithms for dense subgraphs both in theory and practice. We prove that the standard peeling algorithm can perform arbitrarily poorly on our generalized objective, but we then design a more sophisticated peeling method which for $p \geq 1$ has an approximation guarantee that is always at least $1/2$ and converges to 1 as $p \rightarrow \infty$. In practice, we show that this algorithm obtains extremely good approximations to the optimal solution, scales to large graphs, and highlights a range of different meaningful notions of density on graphs coming from numerous domains. Furthermore, it is typically able to approximate the densest subgraph problem better than the standard peeling algorithm, by better accounting for how the removal of one node affects other nodes in its neighborhood.
翻訳日:2021-06-03 14:18:47 公開日:2021-06-02
# 多分解能グラフ変分オートエンコーダ

Multiresolution Graph Variational Autoencoder ( http://arxiv.org/abs/2106.00967v1 )

ライセンス: Link先を確認
Truong Son Hy and Risi Kondor(参考訳) 本稿では,多分解能グラフネットワーク(MGN)と多分解能グラフ変分オートエンコーダ(MGVAE)を提案する。 各解像度レベルでは、MGNはグラフを符号化し、それを互いに排他的なクラスタに分割し、より低い解像度に粗くする。 MGVAEはMGNに基づく階層的生成モデルを構築し、粗いグラフの階層を変動的に自動符号化する。 提案するフレームワークはノードの順序付けに関するエンドツーエンドの置換同型である。 提案手法は, 引用グラフのリンク予測, 教師なし分子表現学習, 分子特性予測, 分子生成, 一般グラフ生成, グラフベース画像生成など, 様々な生成タスクで成功している。

In this paper, we propose Multiresolution Graph Networks (MGN) and Multiresolution Graph Variational Autoencoders (MGVAE) to learn and generate graphs in a multiresolution and equivariant manner. At each resolution level, MGN employs higher order message passing to encode the graph while learning to partition it into mutually exclusive clusters and coarsening into a lower resolution. MGVAE constructs a hierarchical generative model based on MGN to variationally autoencode the hierarchy of coarsened graphs. Our proposed framework is end-to-end permutation equivariant with respect to node ordering. Our methods have been successful with several generative tasks including link prediction on citation graphs, unsupervised molecular representation learning to predict molecular properties, molecular generation, general graph generation and graph-based image generation.
翻訳日:2021-06-03 14:18:16 公開日:2021-06-02
# 時変チャネル上での協調推論のためのエネルギー効率の高いモデル圧縮と分割

Energy-Efficient Model Compression and Splitting for Collaborative Inference Over Time-Varying Channels ( http://arxiv.org/abs/2106.00995v1 )

ライセンス: Link先を確認
Mounssif Krouka, Anis Elgabli, Chaouki Ben Issaid and Mehdi Bennis(参考訳) 今日のインテリジェントアプリケーションは、ディープニューラルネットワーク(DNN)などの機械学習(ML)技術を使用して、高いパフォーマンスを実現することができる。 伝統的に、リモートDNN推論問題では、エッジデバイスは、推論タスクを実行するリモートノードに生データを送信する。 しかし、これは高い送信エネルギーコストを発生させ、データのプライバシーを危険にさらす可能性がある。 本稿では,エッジノードとリモートノードを分割したモデル圧縮と時間変動モデルを用いて,エッジデバイスにおける総エネルギーコストを削減する手法を提案する。 時間変化表現は時間変化チャネルを考慮し、高精度(低損失)を維持しつつエッジデバイス全体のエネルギーを大幅に削減することができる。 提案手法はMNISTデータセットを用いて画像分類タスクに実装し,異なるチャネル条件をエミュレートするための軌道ナビゲーションシナリオとしてシステム環境をシミュレートする。 数値シミュレーションにより,提案手法は,異なるチャネル条件および帯域幅選択において頑健な性能を示しながら,検討したベースラインと比較して最小のエネルギー消費とCO_2$エミッションをもたらすことが示された。

Today's intelligent applications can achieve high performance accuracy using machine learning (ML) techniques, such as deep neural networks (DNNs). Traditionally, in a remote DNN inference problem, an edge device transmits raw data to a remote node that performs the inference task. However, this may incur high transmission energy costs and puts data privacy at risk. In this paper, we propose a technique to reduce the total energy bill at the edge device by utilizing model compression and time-varying model split between the edge and remote nodes. The time-varying representation accounts for time-varying channels and can significantly reduce the total energy at the edge device while maintaining high accuracy (low loss). We implement our approach in an image classification task using the MNIST dataset, and the system environment is simulated as a trajectory navigation scenario to emulate different channel conditions. Numerical simulations show that our proposed solution results in minimal energy consumption and $CO_2$ emission compared to the considered baselines while exhibiting robust performance across different channel conditions and bandwidth regime choices.
翻訳日:2021-06-03 14:18:00 公開日:2021-06-02
# アナログ通信とエアアグリゲーションを用いたコミュニケーション効率の高い分割学習

Communication-Efficient Split Learning Based on Analog Communication and Over the Air Aggregation ( http://arxiv.org/abs/2106.00999v1 )

ライセンス: Link先を確認
Mounssif Krouka, Anis Elgabli, Chaouki ben Issaid, and Mehdi Bennis(参考訳) スプリットラーニング(sl)は、プライバシ保護機能と計算能力に制限のあるデバイスの協調推論を可能にする能力によって、最近人気を集めている。 標準slアルゴリズムは理想的なデジタル通信システムであり、通信帯域の少ない問題を無視する。 しかし、多数のエージェント、限られた帯域幅リソース、時間変化のある通信チャネルでは、通信帯域幅がボトルネックとなる可能性がある。 そこで本研究では,エージェント側に付加層を導入し,エアアグリゲーションを克服するために重みとバイアスの選択を制約する,リモート推論問題を解決するための新しいslフレームワークを提案する。 したがって,提案手法は,限られた帯域幅で遠隔推論が可能なエージェントの数に対して,通信コストを一定に維持する。 数値計算の結果,提案アルゴリズムは通信効率において,特にエージェント数が増大するにつれて,デジタル実装よりも優れていた。

Split-learning (SL) has recently gained popularity due to its inherent privacy-preserving capabilities and ability to enable collaborative inference for devices with limited computational power. Standard SL algorithms assume an ideal underlying digital communication system and ignore the problem of scarce communication bandwidth. However, for a large number of agents, limited bandwidth resources, and time-varying communication channels, the communication bandwidth can become the bottleneck. To address this challenge, in this work, we propose a novel SL framework to solve the remote inference problem that introduces an additional layer at the agent side and constrains the choices of the weights and the biases to ensure over the air aggregation. Hence, the proposed approach maintains constant communication cost with respect to the number of agents enabling remote inference under limited bandwidth. Numerical results show that our proposed algorithm significantly outperforms the digital implementation in terms of communication-efficiency, especially as the number of agents grows large.
翻訳日:2021-06-03 14:17:43 公開日:2021-06-02
# 深層強化学習に基づくUAVナビゲーションと制御:隠れ経験リプレイアプローチによるソフトアクター批判

Deep Reinforcement Learning-based UAV Navigation and Control: A Soft Actor-Critic with Hindsight Experience Replay Approach ( http://arxiv.org/abs/2106.01016v1 )

ライセンス: Link先を確認
Myoung Hoon Lee, Jun Moon(参考訳) 本稿では,深部強化学習(DRL)アルゴリズムのクラスを構成するHER(Handsight Experience Replay)を備えたSACHER(Software actor-critic, SAC)を提案する。 SACは、最大エントロピーフレームワークに基づく非政治モデルフリーのDRLアルゴリズムとして知られており、探索、堅牢性、学習性能の点で、以前のDRLアルゴリズムよりも優れている。 しかし, SACでは, エントロピー向上目標の最大化は学習結果の最適性を低下させる可能性がある。 drlアルゴリズムの性能を向上させるサンプル効率の高いリプレイ手法として知られ、失敗と成功の両方から学べるようにしている。 SAC に HER を適用し,SAC の学習性能を向上させるために SACHER を提案する。 より正確には、HERはSACのサンプル効率を改善するので、SACHERはSACよりも迅速により正確に所望の最適結果を達成する。 本研究では,無人航空機(UAV)の航法制御問題にSACHERを適用し,各種障害物下でのUAVの最適航法経路を生成する。 具体的には,現在最先端のDRLアルゴリズムであるSACとDDPGと比較することにより,UAV動作における追跡誤差と累積報酬の観点からSACHERの有効性を示す。 なお、UAVナビゲーションおよび制御問題におけるSACHERは、UAVの任意のモデルに適用可能である。

In this paper, we propose SACHER (soft actor-critic (SAC) with hindsight experience replay (HER)), which constitutes a class of deep reinforcement learning (DRL) algorithms. SAC is known as an off-policy model-free DRL algorithm based on the maximum entropy framework, which outperforms earlier DRL algorithms in terms of exploration, robustness and learning performance. However, in SAC, maximizing the entropy-augmented objective may degrade the optimality of the learning outcomes. HER is known as a sample-efficient replay method that enhances the performance of off-policy DRL algorithms by allowing them to learn from both failures and successes. We apply HER to SAC and propose SACHER to improve the learning performance of SAC. More precisely, SACHER achieves the desired optimal outcomes faster and more accurately than SAC, since HER improves the sample efficiency of SAC. We apply SACHER to the navigation and control problem of unmanned aerial vehicles (UAVs), where SACHER generates the optimal navigation path of the UAV under various obstacles in operation. Specifically, we show the effectiveness of SACHER in terms of the tracking error and cumulative reward in UAV operation by comparing them with those of state-of-the-art DRL algorithms, SAC and DDPG. Note that SACHER in UAV navigation and control problems can be applied to arbitrary models of UAVs.
翻訳日:2021-06-03 14:17:28 公開日:2021-06-02
# 物理層通信におけるディープニューラルネットワークのブラックボックスの開放

Opening the Black Box of Deep Neural Networks in Physical Layer Communication ( http://arxiv.org/abs/2106.01124v1 )

ライセンス: Link先を確認
Jun Liu, Kai Mei, Dongtang Ma and Jibo Wei(参考訳) ディープニューラルネットワーク(DNN)ベースの物理層技術は、通信システムを強化する可能性から、かなりの関心を集めている。 しかしながら、物理層におけるほとんどの研究はDNNの実装に焦点を当てる傾向にあるが、DNNが通信システムでどのように機能するか理論的には理解していない。 本稿では,DNNが従来の手法と比較して物理層で同等の性能を達成できる理由と,計算複雑性の観点からコストを定量的に分析することを目的とする。 さらに,情報理論的な概念の下でdnnベースの通信システムにおいて,情報がどのように流れるのかを実験的に検証する。

Deep Neural Network (DNN)-based physical layer techniques are attracting considerable interest due to their potential to enhance communication systems. However, most studies in the physical layer have tended to focus on the implement of DNN but not to theoretically understand how does a DNN work in a communication system. In this letter, we aim to quantitatively analyse why DNNs can achieve comparable performance in the physical layer comparing with traditional techniques and its cost in terms of computational complexity. We further investigate and also experimentally validate how information is flown in a DNN-based communication system under the information theoretic concepts.
翻訳日:2021-06-03 14:17:05 公開日:2021-06-02
# 微分軌道重み付けによる実験データからのニューラルネットワーク電位の学習

Learning neural network potentials from experimental data via Differentiable Trajectory Reweighting ( http://arxiv.org/abs/2106.01138v1 )

ライセンス: Link先を確認
Stephan Thaler and Julija Zavadlav(参考訳) 分子動力学(md)では、量子力学データでボトムアップを訓練したニューラルネットワーク(nn)ポテンシャルが近年大きな成功を収めている。 実験データから直接NN電位を学習するトップダウンアプローチは、一般的にMDシミュレーションをバックプロパゲートする際に数値や計算上の問題に直面している。 本稿では,mdシミュレーションによる時間非依存オブザーバブルの微分をバイパスする微分可能軌道再重み付け(difftre)法を提案する。 熱力学的摂動理論を応用し、爆発的な勾配を回避し、トップダウン学習のための勾配計算で約2桁の速度アップを達成する。 本研究では, 熱力学, 構造, 機械的特性を含む種々の実験的観測値に基づいて, ダイヤモンドの原子モデルと粗粒水モデルに対するNN電位の学習におけるDiffTReの有効性を示す。 重要なことに、DiffTReはボトムアップ構造粗粒化法、例えば反復ボルツマンの任意のポテンシャルへの逆変換を一般化する。 提案手法はnn電位を実験データで高めるための重要なマイルストーンであり、特に正確なボトムアップデータが利用できない場合である。

In molecular dynamics (MD), neural network (NN) potentials trained bottom-up on quantum mechanical data have seen tremendous success recently. Top-down approaches that learn NN potentials directly from experimental data have received less attention, typically facing numerical and computational challenges when backpropagating through MD simulations. We present the Differentiable Trajectory Reweighting (DiffTRe) method, which bypasses differentiation through the MD simulation for time-independent observables. Leveraging thermodynamic perturbation theory, we avoid exploding gradients and achieve around 2 orders of magnitude speed-up in gradient computation for top-down learning. We show effectiveness of DiffTRe in learning NN potentials for an atomistic model of diamond and a coarse-grained model of water based on diverse experimental observables including thermodynamic, structural and mechanical properties. Importantly, DiffTRe also generalizes bottom-up structural coarse-graining methods such as iterative Boltzmann inversion to arbitrary potentials. The presented method constitutes an important milestone towards enriching NN potentials with experimental data, particularly when accurate bottom-up data is unavailable.
翻訳日:2021-06-03 14:16:54 公開日:2021-06-02
# (参考訳) レベル適応型クレジット割り当てを用いた協調型マルチエージェント転送学習

Cooperative Multi-Agent Transfer Learning with Level-Adaptive Credit Assignment ( http://arxiv.org/abs/2106.00517v2 )

ライセンス: CC BY 4.0
Tianze Zhou, Fubiao Zhang, Kun Shao, Kai Li, Wenhan Huang, Jun Luo, Weixun Wang, Yaodong Yang, Hangyu Mao, Bin Wang, Dong Li, Wulong Liu, Jianye Hao(参考訳) 協調型マルチエージェント強化学習(MARL)への移行学習は近年注目されている。 単一エージェントの設定とは対照的に、協調的なMARLでは調整が不可欠である。 しかし,既存の転送手法はエージェントポリシーにのみ焦点をあて,協調知識を無視する。 本稿では,コーディネーション全体を複数の協調パターンに適切に分解することで,ロバストな協調知識の伝達を実現するアーキテクチャを提案する。 我々は、レベル適応型QTransformer(LA-QTransformer)と呼ばれる新しいミキシングネットワークを用いて、クレジット代入を考慮したエージェント調整を実現し、協調知識の伝達に特化した新しいレベル適応型QTransformer(LA-Transformer)によって実現された異なるエージェントに対する適切な調整パターンを実現する。 さらに,Population Invariant agent with Transformer (PIT) という新しいエージェントネットワークを用いて,多種多様なシナリオにおけるコーディネーション転送を実現する。 StarCraft IIの大規模なマイクロマネジメント実験により、LA-QTransformerとPITは最先端のベースラインに比べて優れた性能を発揮することが示された。

Extending transfer learning to cooperative multi-agent reinforcement learning (MARL) has recently received much attention. In contrast to the single-agent setting, the coordination indispensable in cooperative MARL constrains each agent's policy. However, existing transfer methods focus exclusively on agent policy and ignores coordination knowledge. We propose a new architecture that realizes robust coordination knowledge transfer through appropriate decomposition of the overall coordination into several coordination patterns. We use a novel mixing network named level-adaptive QTransformer (LA-QTransformer) to realize agent coordination that considers credit assignment, with appropriate coordination patterns for different agents realized by a novel level-adaptive Transformer (LA-Transformer) dedicated to the transfer of coordination knowledge. In addition, we use a novel agent network named Population Invariant agent with Transformer (PIT) to realize the coordination transfer in more varieties of scenarios. Extensive experiments in StarCraft II micro-management show that LA-QTransformer together with PIT achieves superior performance compared with state-of-the-art baselines.
翻訳日:2021-06-03 11:19:22 公開日:2021-06-02
# 純粋相関に対する反実的不変性:なぜ、どのようにストレステストに合格するか

Counterfactual Invariance to Spurious Correlations: Why and How to Pass Stress Tests ( http://arxiv.org/abs/2106.00545v2 )

ライセンス: Link先を確認
Victor Veitch, Alexander D'Amour, Steve Yadlowsky, Jacob Eisenstein(参考訳) インフォーマルに、'spurious correlation' とは、アナリストが重要とすべきでないと考える入力データのある側面に対するモデルの依存である。 機械学習では、これらはノウ・イ・ユー・サー・イットの性格を持ち、例えば、文の主題の性別を変更すると感情予測者の出力が変化する。 スプリアス相関をチェックするために、入力データの無関係な部分を摂動させ、モデル予測が変化するかどうかを確認することで、モデルにストレステストを加えることができる。 本稿では,因果推論ツールを用いたストレステストについて検討する。 入力の無関係な部分を変更することは、モデル予測を変えるべきではないという要求の形式化として、emph{counterfactual invariance}を導入する。 我々は,非現実的不変性とドメイン外のモデル性能を結合し,非現実的不変性予測を学習するための実践的なスキームを提供する。 反事実的不変性の意味と意味は、データの真の基礎となる因果構造に依存することが判明した。 個々の因果構造は、反事実的不変性を誘導するために異なる正則化スキームを必要とする。 同様に、反事実不変性は、基礎となる因果構造によって異なる領域シフトが保証されることを意味する。 この理論はテキスト分類の実験的な結果によって支持されている。

Informally, a `spurious correlation' is the dependence of a model on some aspect of the input data that an analyst thinks shouldn't matter. In machine learning, these have a know-it-when-you-see-it character; e.g., changing the gender of a sentence's subject changes a sentiment predictor's output. To check for spurious correlations, we can `stress test' models by perturbing irrelevant parts of input data and seeing if model predictions change. In this paper, we study stress testing using the tools of causal inference. We introduce \emph{counterfactual invariance} as a formalization of the requirement that changing irrelevant parts of the input shouldn't change model predictions. We connect counterfactual invariance to out-of-domain model performance, and provide practical schemes for learning (approximately) counterfactual invariant predictors (without access to counterfactual examples). It turns out that both the means and implications of counterfactual invariance depend fundamentally on the true underlying causal structure of the data. Distinct causal structures require distinct regularization schemes to induce counterfactual invariance. Similarly, counterfactual invariance implies different domain shift guarantees depending on the underlying causal structure. This theory is supported by empirical results on text classification.
翻訳日:2021-06-03 11:03:38 公開日:2021-06-02
# 木バンクが漏れているため」の複製と拡張:グラフ同型、共変、パーザ性能

Replicating and Extending "Because Their Treebanks Leak": Graph Isomorphism, Covariants, and Parser Performance ( http://arxiv.org/abs/2106.00352v2 )

ライセンス: Link先を確認
Mark Anderson and Anders S{\o}gaard and Carlos G\'omez Rodr\'iguez(参考訳) s{\o}gaard (2020) は、テストデータに含まれる木の割合がトレーニングセット内の木に同型であることを示唆する結果を得た。 NLPの他の統計分析と同様に、結果は線形回帰評価に基づく。 しかし,本研究には方法論的な問題があり,信頼性の低いサンプルサイズを用いて実施した。 そこで本研究では,文の長さを単位とする複製研究を行い,グラフ同型に関して,文のごく一部しか性能に変化がないことを示す。 さらに,共変量を制御する際に,野生におけるパーサ性能とグラフアイソモーフィズムの相関は消失する。 しかし、共変を固定した制御実験では、強い相関関係が観察される。 このような統計的分析から得られた結論は、より容易に要因を分解することで、制御された実験がそれらを補う必要があることを示唆する。

S{\o}gaard (2020) obtained results suggesting the fraction of trees occurring in the test data isomorphic to trees in the training set accounts for a non-trivial variation in parser performance. Similar to other statistical analyses in NLP, the results were based on evaluating linear regressions. However, the study had methodological issues and was undertaken using a small sample size leading to unreliable results. We present a replication study in which we also bin sentences by length and find that only a small subset of sentences vary in performance with respect to graph isomorphism. Further, the correlation observed between parser performance and graph isomorphism in the wild disappears when controlling for covariants. However, in a controlled experiment, where covariants are kept fixed, we do observe a strong correlation. We suggest that conclusions drawn from statistical analyses like this need to be tempered and that controlled experiments can complement them by more readily teasing factors apart.
翻訳日:2021-06-03 11:03:16 公開日:2021-06-02
# 確率論的ニューラルネットワークと深層確率モデルを用いた確率論的深層学習

Probabilistic Deep Learning with Probabilistic Neural Networks and Deep Probabilistic Models ( http://arxiv.org/abs/2106.00120v2 )

ライセンス: Link先を確認
Daniel T. Chang(参考訳) 確率的ディープラーニング(probabilistic Deep Learning)は、モデル不確実性とデータ不確実性の両方を考慮に入れたディープラーニングである。 これは確率モデルとディープニューラルネットワークの使用に基づいている。 確率的ニューラルネットワークと確率的モデルという2つの確率的ディープラーニングのアプローチを区別する。 前者は、不確かさを表現し処理できる確率的層を利用するディープニューラルネットワークを使用し、後者は確率的モデルを使用して、確率変数間の複雑な非線形確率的関係をキャプチャするディープニューラルネットワークコンポーネントを組み込む。 本稿では、ベイズ型ニューラルネットワークと混合密度ネットワーク(確率的ニューラルネットワーク)、変分オートエンコーダ、深いガウス過程、深層混合効果モデル(ディープ確率モデル)など、それぞれのアプローチの主な例について議論する。 TensorFlow Probabilityは確率的モデリングと推論のためのライブラリであり、確率的ディープラーニングのアプローチの両方に使用できる。 イラストにはコード例が含まれています。

Probabilistic deep learning is deep learning that accounts for uncertainty, both model uncertainty and data uncertainty. It is based on the use of probabilistic models and deep neural networks. We distinguish two approaches to probabilistic deep learning: probabilistic neural networks and deep probabilistic models. The former employs deep neural networks that utilize probabilistic layers which can represent and process uncertainty; the latter uses probabilistic models that incorporate deep neural network components which capture complex non-linear stochastic relationships between the random variables. We discuss some major examples of each approach including Bayesian neural networks and mixture density networks (for probabilistic neural networks), and variational autoencoders, deep Gaussian processes and deep mixed effects models (for deep probabilistic models). TensorFlow Probability is a library for probabilistic modeling and inference which can be used for both approaches of probabilistic deep learning. We include its code examples for illustration.
翻訳日:2021-06-03 11:03:01 公開日:2021-06-02
# 並列データのない低リソース関連言語への高リソースNMTモデルの適用

Adapting High-resource NMT Models to Translate Low-resource Related Languages without Parallel Data ( http://arxiv.org/abs/2105.15071v2 )

ライセンス: Link先を確認
Wei-Jen Ko, Ahmed El-Kishky, Adithya Renduchintala, Vishrav Chaudhary, Naman Goyal, Francisco Guzm\'an, Pascale Fung, Philipp Koehn, Mona Diab(参考訳) 並列データの不足は、低リソース言語のための高品質機械翻訳システムのトレーニングの大きな障害である。 幸運なことに、一部の低リソース言語は言語的に関連があるか、高リソース言語と類似している。 本研究では,この言語重なりを利用して,モノリンガルデータのみを用いた低リソース言語への翻訳を容易にするとともに,関連する高リソース言語の並列データも活用する。 我々の手法であるNMT-Adaptは,低リソース適応にモノリンガルデータを利用するために,デノイング自動符号化,バックトランスレーション,対向目的を組み合わせた。 3つの異なる言語ファミリーから7つの言語を実験し,本手法が他の翻訳ベースラインと比較して低リソース言語への翻訳を著しく改善することを示す。

The scarcity of parallel data is a major obstacle for training high-quality machine translation systems for low-resource languages. Fortunately, some low-resource languages are linguistically related or similar to high-resource languages; these related languages may share many lexical or syntactic structures. In this work, we exploit this linguistic overlap to facilitate translating to and from a low-resource language with only monolingual data, in addition to any parallel data in the related high-resource language. Our method, NMT-Adapt, combines denoising autoencoding, back-translation and adversarial objectives to utilize monolingual data for low-resource adaptation. We experiment on 7 languages from three different language families and show that our technique significantly improves translation into low-resource language compared to other translation baselines.
翻訳日:2021-06-03 11:02:30 公開日:2021-06-02
# パープレキシティを越えた言語モデルの評価

Language Model Evaluation Beyond Perplexity ( http://arxiv.org/abs/2106.00085v2 )

ライセンス: Link先を確認
Clara Meister, Ryan Cotterell(参考訳) そこで我々は,自然言語モデルがいかに自然言語を学習するかを定量化する代替手法を提案する。 この疑問に答えるために,言語モデルから生成したテキストが,学習した人間の生成したテキストに存在する統計的傾向を示すか分析する。 我々は,これらの傾向に対する言語モデルの適合性を評価するために,重要度テストを備えたフレームワークを提供する。 ニューラルネットワークモデルは、考慮される傾向のサブセットのみを学習しているように見えるが、(現在)提案された理論分布よりも経験的傾向と密接に一致している。 さらに、異なる分布に対する適合性はモデルアーキテクチャと生成戦略の両方に大きく依存する。 具体的な例として、核サンプリングスキームで生成されたテキストは、標準祖先サンプリングで生成されたテキストよりも自然言語のタイプ-トケン関係に密着しており、lstmからのテキストは、長さ、ストップワード、シンボルに対する自然言語分布を驚くほど反映している。

We propose an alternate approach to quantifying how well language models learn natural language: we ask how well they match the statistical tendencies of natural language. To answer this question, we analyze whether text generated from language models exhibits the statistical tendencies present in the human-generated text on which they were trained. We provide a framework--paired with significance tests--for evaluating the fit of language models to these trends. We find that neural language models appear to learn only a subset of the tendencies considered, but align much more closely with empirical trends than proposed theoretical distributions (when present). Further, the fit to different distributions is highly-dependent on both model architecture and generation strategy. As concrete examples, text generated under the nucleus sampling scheme adheres more closely to the type--token relationship of natural language than text produced using standard ancestral sampling; text from LSTMs reflects the natural language distributions over length, stopwords, and symbols surprisingly well.
翻訳日:2021-06-03 11:02:16 公開日:2021-06-02
# HERALD:ソーシャル・会話におけるユーザ・ディエンジメントを効果的に検出するアノテーション手法

HERALD: An Annotation Efficient Method to Detect User Disengagement in Social Conversations ( http://arxiv.org/abs/2106.00162v2 )

ライセンス: Link先を確認
Weixin Liang, Kai-Hui Liang, Zhou Yu(参考訳) オープンドメインダイアログシステムには、人間に魅力的な会話体験を提供することという、ユーザ中心の目標がある。 ユーザエンゲージメントはオープンドメインダイアログシステムを評価する上で最も重要な指標の1つであり、ダイアログポリシー学習のためにリアルタイムフィードバックとしても使用できる。 ユーザの離脱を検出する既存の作業は、通常、多くのダイアログのサンプルを手作業でラベル付けする必要がある。 本稿では,学習データアノテーションプロセスを再編成する,効率的なアノテーションフレームワークHERALDを提案する。 具体的には、トレーニングサンプルを手動でラベル付けするのではなく、トレーニングサンプルを自動的にラベル付けするヒューリスティックのセットを使用します。 次に、Shapleyアルゴリズムを用いて弱いラベル付きデータを復調する。 最後に、ユーザエンゲージメント検出器をトレーニングするために、デノライズドデータを使用します。 実験の結果,herbledはアノテーションの効率を大幅に向上し,2つのダイアログコーパスにおいて86%のユーザ離脱検出精度を達成した。

Open-domain dialog systems have a user-centric goal: to provide humans with an engaging conversation experience. User engagement is one of the most important metrics for evaluating open-domain dialog systems, and could also be used as real-time feedback to benefit dialog policy learning. Existing work on detecting user disengagement typically requires hand-labeling many dialog samples. We propose HERALD, an efficient annotation framework that reframes the training data annotation process as a denoising problem. Specifically, instead of manually labeling training samples, we first use a set of labeling heuristics to label training samples automatically. We then denoise the weakly labeled data using the Shapley algorithm. Finally, we use the denoised data to train a user engagement detector. Our experiments show that HERALD improves annotation efficiency significantly and achieves 86% user disengagement detection accuracy in two dialog corpora.
翻訳日:2021-06-03 11:02:00 公開日:2021-06-02
# 新物理検出のための機械学習非保守ダイナミクス

Machine-Learning Non-Conservative Dynamics for New-Physics Detection ( http://arxiv.org/abs/2106.00026v2 )

ライセンス: Link先を確認
Ziming Liu, Bohan Wang, Qi Meng, Wei Chen, Max Tegmark and Tie-Yan Liu(参考訳) エネルギー保存は基本的な物理原理であり、その分解はしばしば新しい物理学を意味する。 本稿では,データ駆動型新しい物理発見手法を提案する。 具体的には、未知の力によって支配される軌道を考慮し、我々のニューラル新物理検出器(NNPhD)は、力場をラグランジアンニューラルネットワーク(LNN)と普遍近似器ネットワーク(UAN)で表される保守的および非保守的成分に分解し、力回復誤差の最小化と予測される非保守的力の大きさの1/$の一定値の値を求める。 任意の力に対して、相転移が$\lambda$=1で起こることを示す。 我々は、NNPhDがおもちゃの数値実験で新しい物理学を発見し、湿った二重振り子からの摩擦(1493)、天王星の軌道からの海王星(1846)、吸気軌道からの重力波(2017)を再発見することに成功した。 また,NNPhDと積分器の結合が,減衰二重振り子の将来を予測する従来の手法よりも優れていることを示す。

Energy conservation is a basic physics principle, the breakdown of which often implies new physics. This paper presents a method for data-driven "new physics" discovery. Specifically, given a trajectory governed by unknown forces, our Neural New-Physics Detector (NNPhD) aims to detect new physics by decomposing the force field into conservative and non-conservative components, which are represented by a Lagrangian Neural Network (LNN) and a universal approximator network (UAN), respectively, trained to minimize the force recovery error plus a constant $\lambda$ times the magnitude of the predicted non-conservative force. We show that a phase transition occurs at $\lambda$=1, universally for arbitrary forces. We demonstrate that NNPhD successfully discovers new physics in toy numerical experiments, rediscovering friction (1493) from a damped double pendulum, Neptune from Uranus' orbit (1846) and gravitational waves (2017) from an inspiraling orbit. We also show how NNPhD coupled with an integrator outperforms previous methods for predicting the future of a damped double pendulum.
翻訳日:2021-06-03 11:01:44 公開日:2021-06-02