このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20201006となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 後方散乱損失に対する非相反光学的絡み合い Nonreciprocal Optomechanical Entanglement against Backscattering Losses ( http://arxiv.org/abs/2002.11148v4 ) ライセンス: Link先を確認 | Ya-Feng Jiao, Sheng-Dian Zhang, Yan-Lei Zhang, Adam Miranowicz, Le-Man Kuang, Hui Jing | (参考訳) 本研究では,光と運動の非相反的な量子絡み合いを実現する方法を提案し,そのランダム損失に対する直観的ロバスト性を明らかにする。
サニャック効果によってスピン共振器の逆伝搬光を分割することにより、光子とフォノンは選択された方向に強く絡み合うことができるが、他方では完全に相関しない。
これにより、古典的非相反性がなくても量子非相反性を実現することができ、実用装置における後方散乱損失に対する著しい絡み合い回復を実現することができる。
我々の研究は、様々な非相互デバイスを利用して、ノイズ耐性量子プロセッサの構築、カイラルネットワークの実現、バックアクション免疫量子センサーによって量子資源を保護し、設計する方法を提供する。 We propose how to achieve nonreciprocal quantum entanglement of light and motion and reveal its counterintuitive robustness against random losses. We find that by splitting the counterpropagating lights of a spinning resonator via the Sagnac effect, photons and phonons can be entangled strongly in a chosen direction but fully uncorrelated in the other. This makes it possible both to realize quantum nonreciprocity even in the absence of any classical nonreciprocity and also to achieve significant entanglement revival against backscattering losses in practical devices. Our work provides a way to protect and engineer quantum resources by utilizing diverse nonreciprocal devices, for building noise-tolerant quantum processors, realizing chiral networks, and backaction-immune quantum sensors. | 翻訳日:2023-06-01 23:45:08 公開日:2020-10-06 |
# 外部量子可観測性と運用量子作業変動定理としての働き Work as an external quantum observable and an operational quantum work fluctuation theorem ( http://arxiv.org/abs/2003.06437v2 ) ライセンス: Link先を確認 | Konstantin Beyer, Kimmo Luoma, and Walter T. Strunz | (参考訳) 駆動システムにおける外部測定可能な量子ワークの定義を提案する。
作業は、システムを強制する制御装置上で量子可観測性として与えられ、ハミルトニアン$H_\mathcal{S}$の知識なしに決定できる。
我々は、$H_\mathcal{S}$の知識に依存する量子作業ゆらぎ定理は、古典的な定理とは対照的に、ほとんど実践的な関連性がないと論じる。
この枠組みを用いて, 自由エネルギー差の境界を決定する実験において, 操作的にアクセス可能であり, 原理的に実装可能なゆらぎ定理を導出する。 We propose a definition of externally measurable quantum work in driven systems. Work is given as a quantum observable on a control device which is forcing the system and can be determined without knowledge of the system Hamiltonian $H_\mathcal{S}$. We argue that quantum work fluctuation theorems which rely on the knowledge of $H_\mathcal{S}$ are of little practical relevance, contrary to their classical counterparts. Using our framework, we derive a fluctuation theorem which is operationally accessible and could in principle be implemented in experiments to determine bounds on free energy differences of unknown systems. | 翻訳日:2023-05-29 06:14:18 公開日:2020-10-06 |
# 可観測物の客観性の出現に関する精製ダイヤモンドノルム Refined diamond norm bounds on the emergence of objectivity of observables ( http://arxiv.org/abs/2003.08153v2 ) ライセンス: Link先を確認 | Eugenia Colafranceschi, Ludovico Lami, Gerardo Adesso and Tommaso Tufarelli | (参考訳) 量子ダーウィン主義の理論は、我々の客観的な古典的現実が量子世界からどのように発生したかを説明することを目的としており、複数の観測者がアクセス可能な量子システムに関する情報の分布を分析している。
以前の研究では、環境フラグメントの数が増えると、システムからオブザーバへの情報フローをモデル化する量子チャネルは、ダイアモンドノルム距離の観点で任意に近接し、観測可能なチャネルの客観性を保証することを示しており、収束はダイヤモンドノルム距離の上限によって定式化され、フラグメントの数が増えるにつれて減少する。
ここでは、無限次元の量子系に対するオブザーバブルのオブジェクティビティの出現に関するより厳密なダイアモンドノルム境界を導出し、有限次元と無限次元のケースを橋渡しできるアプローチを提供する。
さらに, 純損失チャネルによって与えられるシステム環境ダイナミクスの特定のモデルを考慮して, 境界の厳密性を調べる。
最後に、Brand\~{a}o et al によって得られる結果を無限次元に一般化する。
(6・7908(2015))は、多くの当事者に相互関係の一方的な再分配という観点から量子不協和の運用的特徴付けを提供する。
この結果は、量子-古典遷移における客観性の上昇を定量的に評価するための統一フレームワークを提供する。 The theory of Quantum Darwinism aims to explain how our objective classical reality arises from the quantum world, by analysing the distribution of information about a quantum system that is accessible to multiple observers, who probe the system by intercepting fragments of its environment. Previous work showed that, when the number of environmental fragments grows, the quantum channels modelling the information flow from system to observers become arbitrarily close - in terms of diamond norm distance - to "measure-and-prepare" channels, ensuring objectivity of observables; the convergence is formalised by an upper bound on the diamond norm distance, which decreases with increasing number of fragments. Here, we derive tighter diamond norm bounds on the emergence of objectivity of observables for quantum systems of infinite dimension, providing an approach which can bridge between the finite- and the infinite-dimensional cases. Furthermore, we probe the tightness of our bounds by considering a specific model of a system-environment dynamics given by a pure loss channel. Finally, we generalise to infinite dimensions a result obtained by Brand\~{a}o et al. [Nat. Commun. 6, 7908 (2015)], which provides an operational characterisation of quantum discord in terms of one-sided redistribution of correlations to many parties. Our results provide a unifying framework to benchmark quantitatively the rise of objectivity in the quantum-to-classical transition. | 翻訳日:2023-05-28 20:15:17 公開日:2020-10-06 |
# マルコフ散逸を伴うLipkin-Meshkov-Glickモデルのボゾン表現 Bosonic representation of a Lipkin-Meshkov-Glick model with Markovian dissipation ( http://arxiv.org/abs/2004.02232v3 ) ライセンス: Link先を確認 | Jan C. Louw, Michael Kastner and Johannes N. Kriel | (参考訳) マルコフ散逸の存在下でのリプキン-メシュコフ-グリック模型の力学について, 遅延時間力学と熱平衡へのアプローチに着目して検討する。
対応するリンドブラッドマスター方程式のベクトルボソニック表現を用いて、弱散逸極限における縮退摂動理論を用いて、リウヴィリアン超作用素の固有値と固有ベクトルを解析的に取得し、密度作用素と可観測作用素の時間発展に関する閉形式解析式を得る。
このアプローチは大規模システムでは有効であるが、無限系結果に対する先行方向の有限サイズ補正を考慮に入れる。
適用例として, 拡散型リプキン・メシュコフ・グリックモデルでは, 減衰振動を重畳した熱状態の連続体を通過して平衡状態に到達し, 一般に浴温度と異なる温度で平衡状態に達することを示す。
正確な数値結果と比較し,解析手法の限界について考察する。 We study the dynamics of a Lipkin-Meshkov-Glick model in the presence of Markovian dissipation, with a focus on late-time dynamics and the approach to thermal equilibrium. Making use of a vectorized bosonic representation of the corresponding Lindblad master equation, we use degenerate perturbation theory in the weak-dissipation limit to analytically obtain the eigenvalues and eigenvectors of the Liouvillian superoperator, which in turn give access to closed-form analytical expressions for the time evolution of the density operator and observables. Our approach is valid for large systems, but takes into account leading-order finite-size corrections to the infinite-system result. As an application, we show that the dissipative Lipkin-Meshkov-Glick model equilibrates by passing through a continuum of thermal states with damped oscillations superimposed, until finally reaching an equilibrium state with a temperature that in general differs from the bath temperature. We discuss limitations of our analytic techniques by comparing to exact numerical results. | 翻訳日:2023-05-26 08:24:52 公開日:2020-10-06 |
# 自律的量子誤差補正によるボソニック量子ビットの保護 Protecting a Bosonic Qubit with Autonomous Quantum Error Correction ( http://arxiv.org/abs/2004.09322v2 ) ライセンス: Link先を確認 | Jeffrey M. Gertler, Brian Baker, Juliang Li, Shruti Shirol, Jens Koch, and Chen Wang | (参考訳) 脆弱な物理量子ビットから普遍量子コンピュータを構築するには、量子誤差補正(qec)の効果的な実装が不可欠であり、中心的な課題である。
既存のQECの実証は、離散誤差症候群の測定と適応回復操作のスケジュールに基づいている。
これらのアクティブルーチンはハードウェア集約的であり、エラーの導入と伝播の傾向があり、大規模な量子コンピュータで処理能力の大部分を消費することが期待されている。
原則として、QECは量子システム内での散逸を調整することで、自律的かつ継続的に実現することができるが、この戦略はいまだに困難である。
ここでは、超伝導空洞の「オーディンガー猫様多光子状態」の論理量子ビットを符号化し、エラーシンドローム作用素を直接安定化する補正散逸過程、すなわち光子数パリティを示す。
連続波制御フィールドのみを実装したこのパッシブプロトコルは、単一光子損失に対する自律的補正を実現し、マルチ光子量子ビットのコヒーレンス時間を2倍以上増加させる。
特にqecは、以前のqecデモに必要な技術的洗練度とは対照的に、忠実度の高い読み出しや高速なデジタルフィードバックを伴わない、控えめなハードウェア構成で実現されている。
今後の量子コンピューティングアーキテクチャにおいて、他のエラー抑制や位相安定化技術と相似して、資源効率の良い代替手段として貯水池工学を提案する。 To build a universal quantum computer from fragile physical qubits, effective implementation of quantum error correction (QEC) is an essential requirement and a central challenge. Existing demonstrations of QEC are based on a schedule of discrete error syndrome measurements and adaptive recovery operations. These active routines are hardware intensive, prone to introducing and propagating errors, and expected to consume a vast majority of the processing power in a large-scale quantum computer. In principle, QEC can be realized autonomously and continuously by tailoring dissipation within the quantum system, but this strategy has remained challenging so far. Here we encode a logical qubit in Schr\"odinger cat-like multiphoton states of a superconducting cavity, and demonstrate a corrective dissipation process that directly stabilizes an error syndrome operator: the photon number parity. Implemented with continuous-wave control fields only, this passive protocol realizes autonomous correction against single-photon loss and boosts the coherence time of the multiphoton qubit by over a factor of two. Notably, QEC is realized in a modest hardware setup with neither high-fidelity readout nor fast digital feedback, in contrast to the technological sophistication required for prior QEC demonstrations. Compatible with other error suppression and phase stabilization techniques, our experiment suggests reservoir engineering as a resource-efficient alternative or supplement to active QEC in future quantum computing architectures. | 翻訳日:2023-05-22 22:57:03 公開日:2020-10-06 |
# ネットワーク特徴抽出に基づくチームパフォーマンス評価モデル Team Performance Evaluation Model based on Network Feature Extraction ( http://arxiv.org/abs/2004.11039v2 ) ライセンス: Link先を確認 | Ruilin Chen, Kaiyan Chang, Kaiyuan Tian | (参考訳) 今日の社会ではチームワークがますます重要になっている。
本稿では,チームパフォーマンス評価の問題について述べる。
複雑なネットワーク特徴抽出により、パスネットワークとチームパフォーマンス評価モデルを確立する。
最後に,huskiesチームの戦略を提案し,そのモデルを一般チームに拡張する。 Teamwork is increasingly important in today's society. This paper aims at the problem of team performance evaluation. Through complex network feature extraction, we establishes the passing network and team performance evaluation model. Finally, this paper proposes strategy for Huskies team and extend the model to the general team. | 翻訳日:2023-05-22 08:28:40 公開日:2020-10-06 |
# ボソニックダイナミクスにおける多体干渉 Many-body interference in bosonic dynamics ( http://arxiv.org/abs/2005.07239v2 ) ライセンス: Link先を確認 | Gabriel Dufour, Tobias Br\"unner, Alberto Rodr\'iguez, Andreas Buchleitner | (参考訳) 我々は,多粒子干渉が一般の$-$の相互作用を持つ$-$のボソニック系の力学に与える影響を体系的に研究する枠組みを開発する。
複数の識別可能な種に属するボゾンの混合物を考えることで、多粒子干渉のレベルを調整し、観測可能な時間の依存する期待値で対応するシグネチャを識別できる。
これらの期待値に対する干渉寄与は、干渉粒子の数に基づいて分類することができる。
相互作用は、追加で高次な干渉の寄与を生じることが示される。
最後に、部分微分可能なボソンのヒルベルト空間をユニタリ群の既約表現に分解して、(独立)可微分性のスペクトル特性を決定する。 We develop a framework to systematically investigate the influence of many-particle interference on the dynamics of generic $-$ possibly interacting $-$ bosonic systems. We consider mixtures of bosons which belong to several distinguishable species, allowing us to tune the level of many-particle interference, and identify the corresponding signatures in the time-dependent expectation values of observables. Interference contributions to these expectation values can be classified based on the number of interfering particles. Interactions are shown to generate a series of additional, higher-order interference contributions. Finally, based on a decomposition of the Hilbert space of partially distinguishable bosons into irreducible representations of the unitary group, we determine some spectral characteristics of (in)distinguishability. | 翻訳日:2023-05-20 05:09:44 公開日:2020-10-06 |
# 2つの重力猫状態の量子重ね合わせ Quantum Superposition of Two Gravitational Cat States ( http://arxiv.org/abs/2007.06446v3 ) ライセンス: Link先を確認 | Charis Anastopoulos and Bei-Lok Hu | (参考訳) 我々は、重力猫状態(gravcat)の探索に関する初期の研究を拡張し、arxiv:1504.03103を例示モデルとボース・アインシュタイン凝縮系(bec)における2つのグラブキャットの量子重ね合わせに適用する。
重力量子物理学とマクロ量子現象の基本的な理論値に加えて、この研究は重力によって引き起こされる絡み合いと摂動重力の量子的性質を測定するための実験的提案に理論的裏付けを与えることができる。
まず、二重井戸ポテンシャルによって生じる猫の状態を考える。
2段階システムとして近似すると、グラブキャットの対は重力誘起ラビ振動と重力誘起ラビのエネルギー固有状態の絡み合いによって特徴づけられる。
第2部では、(非相対論的)場の量子論を記述し、BECで形成されたグラブキャットに対する重力グロス・ピタエフスキー方程式を導出する。
量子ローターの数学的類似性を用いて、BECの2グレーブキャット系の性質とその物理的帰結と観測可能性について検討する。
最後に、代替量子理論の予測との比較を行い、その影響について説明する。 We extend our earlier work on probing a gravitational cat state (gravcat)---see, arXiv:1504.03103 ---to the quantum superposition of two gravcats in an exemplary model and in Bose-Einstein condensates (BEC). In addition to its basic theoretical values in gravitational quantum physics and macroscopic quantum phenomena this investigation can provide some theoretical support to experimental proposals for measuring gravity-induced entanglement and the quantum nature of perturbative gravity. In the first part we consider cat states generated by double-well potentials. Approximated as two-level systems, a pair of gravcats is characterized by gravity-induced Rabi oscillations, and by gravity-induced entanglement of its energy eigenstates. In the second part we turn to a (non-relativistic) quantum field theory description and derive a gravitational Gross-Pitaevsky equation for gravcats formed in BECs. Using a mathematical analogy to quantum rotors, we explore the properties of the two-gravcat system for BECs, its physical consequences and observational possibilities. Finally we discuss our results in comparison to predictions of alternative quantum theories, and we explain their implications. | 翻訳日:2023-05-10 04:27:55 公開日:2020-10-06 |
# 純粋送信欠陥の存在下での量子バックフロー Quantum backflow in the presence of a purely transmitting defect ( http://arxiv.org/abs/2007.07393v2 ) ライセンス: Link先を確認 | Alexandre Hefren de Vasconcelos Jr | (参考訳) 量子逆流効果を解析し、その空間的範囲への制限として、純粋に透過する不連続なジャンプ相の存在下での散乱状況について拡張する。
解析的および数値的な比較は、欠陥が$\delta$関数ポテンシャルによって表される異なる状況で行われる。
さらに,この分析を保全法則に適合させる。 We analyse the quantum backflow effect and extend it, as a limiting constraint to its spatial extent, for scattering situations in the presence of a purely transmitting discontinuous jump-defect. Analytical and numerical comparisons are made with a different situation in which a defect is represented by a $\delta$ function potential. Furthermore, we make the analysis compatible with conservation laws. | 翻訳日:2023-05-10 01:50:26 公開日:2020-10-06 |
# 励起子線に沿ったエネルギー輸送の暗い側面:オンサイトエネルギー障壁は、光学的に暗い部分空間を通る効率的で振動による輸送を容易にする The dark side of energy transport along excitonic wires: On-site energy barriers facilitate efficient, vibrationally-mediated transport through optically dark subspaces ( http://arxiv.org/abs/2007.15993v2 ) ライセンス: Link先を確認 | Scott Davidson, Amir Fruchtman, Felix Pollock and Erik Gauger | (参考訳) ダークステート保護に基づく新しい直感的手法を提案し,本質的なエネルギー勾配を持つ分子部位の連鎖からなる'ワイヤ'によるエキシトン輸送効率を著しく向上させる。
具体的には, 輸送経路に沿って一定間隔でエネルギー景観に「バリア」を導入することで, 系内のサブラジアントおよびスーパーラジアント固有状態の明瞭な分離により, 望ましくない放射再結合過程が抑制されることを明らかにした。
結果として、非常に長いチェーンであっても、送信電力が何桁もの桁違いに改善される可能性がある。
そこで本研究では, この現象のロバスト性から, システム特性および環境特性の変化を解析し, この現象が様々な熱環境および光環境領域において有益であることを示す。
最後に,ここで提示する新しいエネルギーランドスケープは,有機太陽電池などのナノスケール輸送シナリオにおいて励起子拡散が典型的に発生する短距離スケールを克服するための有用な基盤となりうることを示す。 We present a novel, counter-intuitive method, based on dark state protection, for significantly improving exciton transport efficiency through `wires' comprising a chain of molecular sites with an intrinsic energy gradient. Specifically, by introducing `barriers' to the energy landscape at regular intervals along the transport path, we find that undesirable radiative recombination processes are suppressed due to a clear separation of sub-radiant and super-radiant eigenstates in the system. This, in turn, can lead to an improvement in transmitted power by many orders of magnitude, even for very long chains. From there, we analyse the robustness of this phenomenon to changes in both system and environment properties to show that this effect can be beneficial over a range of different thermal and optical environment regimes. Finally, we show that the novel energy landscape presented here may provide a useful foundation for overcoming the short length scales over which exciton diffusion typically occurs in organic photo-voltaics and other nanoscale transport scenarios, thus leading to considerable potential improvements in the efficiency of such devices. | 翻訳日:2023-05-07 12:41:35 公開日:2020-10-06 |
# 量子シミュレーションにおけるハミルトントモグラフィ Entanglement Hamiltonian Tomography in Quantum Simulation ( http://arxiv.org/abs/2009.09000v2 ) ライセンス: Link先を確認 | Christian Kokail, Rick van Bijnen, Andreas Elben, Beno\^it Vermersch, Peter Zoller | (参考訳) 絡み合いは量子多体物理学の重要な要素であり、量子シミュレータの閉系力学における絡み合いの特徴と定量化は、今日の中間スケール量子デバイスの時代において顕著な課題である。
本稿では,スピン系の密度行列と絡み合いスペクトルを再構成するための効率的なトモグラフィープロトコルについて述べる。
鍵となるステップは、準局所小体項のみを含む絡み合いハミルトニアンの項による還元密度行列のパラメトリゼーションである。
このアンザッツは、少数のランダム化測定値から独立に検証できる。
アンサッツは、クエンチ力学における共形場理論や、基底状態に対するビソグナーノ・ウィッチマンの定理によって提唱されている。
このプロトコルは量子シミュレータでこれらの理論のテストベッドを提供するだけでなく、これらのレジーム以外でも適用できる。
数値シミュレーションを用いて1次元の長距離Isingモデルのプロトコルの有効性と有効性を示す。
さらに、10ドルと20ドルのイオン量子シミュレータのデータを分析することで、そのデータを解析します。
Science, 2019]では、クエンチ力学における絡み合いスペクトルの進化の測定を実演しています。 Entanglement is the crucial ingredient of quantum many-body physics, and characterizing and quantifying entanglement in closed system dynamics of quantum simulators is an outstanding challenge in today's era of intermediate scale quantum devices. Here we discuss an efficient tomographic protocol for reconstructing reduced density matrices and entanglement spectra for spin systems. The key step is a parametrization of the reduced density matrix in terms of an entanglement Hamiltonian involving only quasi local few-body terms. This ansatz is fitted to, and can be independently verified from, a small number of randomised measurements. The ansatz is suggested by Conformal Field Theory in quench dynamics, and via the Bisognano-Wichmann theorem for ground states. Not only does the protocol provide a testbed for these theories in quantum simulators, it is also applicable outside these regimes. We show the validity and efficiency of the protocol for a long-range Ising model in 1D using numerical simulations. Furthermore, by analyzing data from $10$ and $20$ ion quantum simulators [Brydges \textit{et al.}, Science, 2019], we demonstrate measurement of the evolution of the entanglement spectrum in quench dynamics. | 翻訳日:2023-05-01 21:56:43 公開日:2020-10-06 |
# メリーランド大学とカーネギーメロン大学がfacebookと共同で行ったcovid-19の症状調査のための重みと方法論 Weights and Methodology Brief for the COVID-19 Symptom Survey by University of Maryland and Carnegie Mellon University, in Partnership with Facebook ( http://arxiv.org/abs/2009.14675v2 ) ライセンス: Link先を確認 | Neta Barkay, Curtiss Cobb, Roee Eilat, Tal Galili, Daniel Haimovich, Sarah LaRocca, Katherine Morris, Tal Sarig | (参考訳) Facebookは、新型コロナウイルス研究を支援する学術機関と提携している。
現在、米国内のfacebookアプリのユーザに対して、カーネギーメロン大学(cmu)デルフィ研究センターの教員が収集した調査を依頼しています。
このイニシアチブの一環として,調査統計学のベストプラクティスを適用して,(1) 標本設計と(2) 調査重量の2つのコンポーネントを設計・実行し,そのサンプルが一般人口の代表的になるようにしている。
本稿では,データ利用者が重みを使って分析を行えるようにするために,これらの取り組みに用いた手法について述べる。 Facebook is partnering with academic institutions to support COVID-19 research. Currently, we are inviting Facebook app users in the United States to take a survey collected by faculty at Carnegie Mellon University (CMU) Delphi Research Center, and we are inviting Facebook app users in more than 200 countries or territories globally to take a survey collected by faculty at the University of Maryland (UMD) Joint Program in Survey Methodology (JPSM). As part of this initiative, we are applying best practices from survey statistics to design and execute two components: (1) sampling design and (2) survey weights, which make the sample more representative of the general population. This paper describes the methods we used in these efforts in order to allow data users to execute their analyses using the weights. | 翻訳日:2023-05-01 00:24:49 公開日:2020-10-06 |
# アカデミアにおけるH-Index, Stress, Tenure & Reference Management Software の利用状況 A Survey of H-index, Stress, Tenure & Reference Management software use in Academia ( http://arxiv.org/abs/2010.00358v3 ) ライセンス: Link先を確認 | Jose Berengueres, Pavel Nesterov | (参考訳) 本稿では,arxiv.orgの著者2286名を対象に,ストレス,引用ツールの使用習慣,主観的幸福感,h-インデックス,研究トピック,在職期間に関する調査を行った。
ph.d.の学生は全教職の中で主観的幸福度が最も低いと報告している。
教員はストレスの最低レベルを報告します。
大学生と大学院生はストレスの最も高いレベルを報告します。
教員でない者は、postdocsに似たストレスを報告します。
引用管理ツールとh-indexの関連はみられなかった。
在任期間の平均年齢は34.9歳である。
また,ストレスレベルと研究課題との間に有意な関連はみられなかった。 We describe the findings of a survey that covered the topics of stress, citation tool use habits, subjective happiness, h-index, research topic and tenure among a sample of 2286 authors of arxiv.org. Ph.D. students report the lowest subjective happiness score among all faculty roles, while tenured faculty report the highest. Tenured faculty report the lowest levels of stress. Undergraduate and graduate students report the highest levels of stress. Non-tenured faculty report stress similar to postdocs. No association between citation management tool usage and h-index was found. The average age at tenure start is 34.9 years. In addition, no significant association between stress levels and the research topic was found | 翻訳日:2023-04-30 12:08:53 公開日:2020-10-06 |
# 超決定論 : 複雑化のためのガイド Superdeterminism: A Guide for the Perplexed ( http://arxiv.org/abs/2010.01324v2 ) ライセンス: Link先を確認 | Sabine Hossenfelder | (参考訳) 超決定論は現在、局所的で決定論的であり、量子力学の観測された相関を生じさせる唯一の既知の自然の一貫した記述である。
ここでは、このアプローチが有望な理由を説明し、一般的な落とし穴を避けるためのアドバイスを読者に提供する。
特に、超決定論が科学の脅威ではなく、必ずしも微調整されていない理由、将来の入力の関連性、オープンな問題は何かを説明します。 Superdeterminism is presently the only known consistent description of nature that is local, deterministic, and can give rise to the observed correlations of quantum mechanics. I here want to explain what makes this approach promising and offer the reader some advice for how to avoid common pitfalls. In particular, I explain why superdeterminism is not a threat to science, is not necessarily finetuned, what the relevance of future input is, and what the open problems are. | 翻訳日:2023-04-30 02:16:30 公開日:2020-10-06 |
# スピン-1ハイゼンベルクダイヤモンドクラスターからのニッケル錯体[ni4(co3)2(aetpy)8](clo4)4の磁化高原の性質に関する研究 Insights into nature of magnetization plateaus of a nickel complex [Ni4(CO3)2(aetpy)8](ClO4)4 from a spin-1 Heisenberg diamond cluster ( http://arxiv.org/abs/2010.02535v1 ) ライセンス: Link先を確認 | Katarina Karlova, Jozef Strecka, Jozef Hanis, and Masayuki Hagiwara | (参考訳) 2つの異なる結合定数を持つスピン-1ハイゼンベルクダイヤモンドクラスターの磁気的及び磁気カロリスティックな性質を、ダイヤモンドスピンクラスターの反対側に位置するスピン-1エンティティによって形成される複合スピンの局所保存を用いたカムベ法に基づく正確な対角化の助けを借りて研究した。
スピン-1ハイゼンベルクダイヤモンドクラスターは、飽和磁化の1/4,1/2,3/4の中間プラトーとして低温磁化曲線に現れるいくつかの興味深い量子基底状態を示す。
さらに、スピン-1ハイゼンベルクダイヤモンドクラスターは、断熱脱磁によって達成される低温冷蔵に関係のある、強化された磁気カロリック効果を示すかもしれない。
反強磁性結合定数 J1/kB = 41.4K と J2/kB = 9.2K のスピン-1ハイゼンベルクダイヤモンドクラスターは、飽和磁化の1/2および3/4で検出された中間プラトーのサイズと位置を含む四核ニッケル錯体 [Ni4(CO3)2(aetpy)8](ClO4)4(aetpy = 2-aminoethyl-pyridine) に記録された低温磁化曲線を良好に再現する。
実験的に観察された分数磁化高原の微視的性質を明らかにするとともに、単価または二重価結合を持つ原子価結合結晶を用いて解釈する。
デルタS = 10.6 J/(K.kg) の温度範囲で最大等温エントロピー変化を期待できる低温冷却剤を2.3K以下の温度範囲で得ることが示唆された。 Magnetic and magnetocaloric properties of a spin-1 Heisenberg diamond cluster with two different coupling constants are investigated with the help of an exact diagonalization based on the Kambe's method, which employs a local conservation of composite spins formed by spin-1 entities located in opposite corners of a diamond spin cluster. It is shown that the spin-1 Heisenberg diamond cluster exhibits several intriguing quantum ground states, which are manifested in low-temperature magnetization curves as intermediate plateaus at 1/4, 1/2 and 3/4 of the saturation magnetization. Besides, the spin-1 Heisenberg diamond cluster may also exhibit an enhanced magnetocaloric effect, which may be relevant for a low-temperature refrigeration achieved through the adiabatic demagnetization. It is evidenced that the spin-1 Heisenberg diamond cluster with the antiferromagnetic coupling constants J1/kB = 41.4 K and J2/kB = 9.2 K satisfactorily reproduces a low-temperature magnetization curve recorded for the tetranuclear nickel complex [Ni4(CO3)2(aetpy)8](ClO4)4 (aetpy = 2-aminoethyl-pyridine) including a size and position of intermediate plateaus detected at 1/2 and 3/4 of the saturation magnetization. A microscopic nature of fractional magnetization plateaus observed experimentally is clarified and interpreted in terms of valence-bond crystal with either a single or double valence bond. It is suggested that this frustrated magnetic molecule can provide a prospective cryogenic coolant with the maximal isothermal entropy change - Delta S = 10.6 J/(K.kg) in a temperature range below 2.3 K. | 翻訳日:2023-04-29 20:30:22 公開日:2020-10-06 |
# 負イオンの準有界状態の予測 Predicting quasibound states of negative ions ( http://arxiv.org/abs/2010.02489v1 ) ライセンス: Link先を確認 | M. S. Safronova, C. Cheung, M. G. Kozlov, S. E. Spielman, N. D. Gibson, and C. W. Walter | (参考訳) 本研究では,新しい高精度理論的手法を用いて負イオンの準バウンドスペクトルの精度を実証した。
実験ケースとしてLa$^-$を用いたのは, 準有界状態 (C. W. Walter et al., PRA, in press (2020), arXiv:2010.01122] への遷移に起因する光剥離スペクトル中の11の共鳴エネルギーを測定した最近の実験である。
観測されたすべての共鳴を同定し、以前の実験範囲のすぐ外側でさらに1つのピークを予測した。
理論的予測の後、ピークは予測波長で観測され、同定が検証された。
同じアプローチは、幅広い負イオンにも適用できる。
さらに、本研究で報告されている理論の進歩は、様々な応用に必要な中性および正イオンの原子遷移特性の大量生成に利用できる。 We demonstrated the accurate prediction of a quasibound spectrum of a negative ion using a novel high-precision theoretical approach. We used La$^-$ as a test case due to a recent experiment that measured energies of 11 resonances in its photodetachment spectrum attributed to transitions to quasibound states [C. W. Walter et al., PRA, in press (2020); arXiv:2010.01122]. We identified all of the observed resonances, and predicted one more peak just outside the range of the prior experiment. Following the theoretical prediction, the peak was observed at the predicted wavelength, validating the identification. The same approach is applicable to a wide range of negative ions. Moreover, theory advances reported in this work can be used for massive generation of atomic transition properties for neutrals and positive ions needed for a variety of applications. | 翻訳日:2023-04-29 20:29:28 公開日:2020-10-06 |
# 直流電力流の量子計算解法 Quantum Computing Solution of DC Power Flow ( http://arxiv.org/abs/2010.02442v1 ) ライセンス: Link先を確認 | Rozhin Eskandarpour, Kumar Ghosh, Amin Khodaei, Liuxi Zhang, Aleksi Paaso, Shay Bahramirad | (参考訳) 本稿では,実用的な量子コンピュータを用いて,直流電力流という基本的な電力系統問題をモデル化し,解決する。
HHL(Harrow-Hassidim-Lloyd)量子アルゴリズムは直流電力フロー問題を解決するために用いられる。
線形方程式系(sle)の解に対するhhlアルゴリズムは、古典的コンピュータを指数関数的に高速化する。
パワーフロー問題を解決するためのサイズと頻度がより重要になるとき、スピードアップのアドバンテージはより重要である。
電力システムに対する検証済み量子コンピューティングアプリケーションは、現時点では存在しない。
本稿では,(1)量子技術を用いて実用的な電力系統問題を解くこと,(2)他の多くの臨界格子問題におけるアプリケーションによる基本電力系統問題を解くことによって量子グリッド基盤を構築すること,(3)多くの電力系統問題において幅広い応用を有するSLEをHHLで解くこと,の実証を行う。
利用可能な量子コンピューティングハードウェアとソフトウェアの制限を考慮すると、小さな3バスシステムはテストやデモンストレーションの目的で使用される。
提案手法の利点と効果をibmオープンソース量子コンピュータを用いて実証し、4量子ビット量子情報プロセッサを用いた概念実証実験により報告する。 In this paper, we model and solve a fundamental power system problem, i.e., DC power flow, using a practical quantum computer. The Harrow-Hassidim-Lloyd (HHL) quantum algorithm is used to solve the DC power flow problem. The HHL algorithm for the solution of a system of linear equations (SLE) offers an exponential speedup over the classical computers. The speedup advantage is more significant when the size and the frequency of solving the power flow problem become more substantial. Verified quantum computing applications to power systems are merely nonexistent at this point. Through this paper, we plan to (1) provide a proof-of-concept that practical power system problems can be solved using quantum technology, (2) build a quantum-grid foundation by solving a fundamental power system problem with applications in many other critical grid problems, and (3) apply HHL to solve an SLE which has broad applications in many power system problems. A small 3-bus system is used for testing and demonstration purposes, considering the limitations of the available quantum computing hardware and software. The proposed method's merits and effectiveness are demonstrated using IBM open-source quantum computer and reported through proof-of-concept experimental demonstration using a 4-qubit quantum information processor. | 翻訳日:2023-04-29 20:29:12 公開日:2020-10-06 |
# エントロピー連続性境界と最終的に絡み合うチャネル Entropic Continuity Bounds & Eventually Entanglement-Breaking Channels ( http://arxiv.org/abs/2010.02408v1 ) ライセンス: Link先を確認 | Eric P. Hanson | (参考訳) この論文の前半では、シュール凹函数の局所的および一様連続性境界を確立するための一般的な手法を提案する。
本手法は,量子状態間の距離とメジャー化の関係を明らかにした。
すなわち、メジャー化前順序は、この距離において最低で$\epsilon$-balls を超える。
距離 $\epsilon$ の関数としてのメジャー化最小化子の経路を追跡することで、「メジャー化フロー」の経路を得る。
これにより、フォン・ノイマンのエントロピーに有界な Audenaert-Fannes 連続性(英語版)の新たな証明が得られ、これは、$\alpha$-R\enyi entropy を含む他の函数に拡張され、$\alpha > 1$ の場合の新しい境界が得られる。
この手法を、あるランダムグラフモデルの連結成分の数や、確率変数の別個の実現数など、他のシュア凹函数に適用する。
第2部では、興味のあるシステムが1回に1つずつプローブのシーケンスと相互作用する反復的な相互作用システムについて検討する。
繰り返し発生する相互作用系がシステムと無タッチ参照の間の初期的な絡み合いを有限ステップで断ち切る特性を特徴付ける。
さらに、プローブとシステムとの相互作用が緩やかに変化した場合(つまり断熱的)、ランダウアーの境界の飽和、系のエントロピー変化とプローブのエネルギー変化の間の不等式を解析し、ステップの数が無限大になり、連続するプローブ間の差とそれらの相互作用の差が消える。
この分析は、プローブのエネルギーを各相互作用前後で測定する2回測定プロトコルを用いて、細粒度レベルで進行する。 In the first part of this thesis, we present a general technique for establishing local and uniform continuity bounds for Schur concave functions. Our technique uses a particular relationship between majorization and the trace distance between quantum states. Namely, the majorization pre-order attains a minimum over $\epsilon$-balls in this distance. By tracing the path of the majorization-minimizer as a function of the distance $\epsilon$, we obtain the path of "majorization flow". This yields a new proof of the Audenaert-Fannes continuity bound for the von Neumann entropy in a universal framework which extends to the other functions, including the $\alpha$-R\'enyi entropy, for which we obtain novel bounds in the case $\alpha > 1$. We apply this technique to other Schur concave functions, such as the number of connected components of a certain random graph model, and the number of distinct realizations of a random variable. In the second part, we consider repeated interaction systems, in which a system of interest interacts with a sequence of probes one at a time. We characterize which repeated interaction systems break any initially-present entanglement between the system and an untouched reference after finitely many steps. Additionally, when the probes and their interactions with the system are slowly-varying (i.e. adiabatic), we analyze the saturation of Landauer's bound, an inequality between the entropy change of the system and the energy change of the probes, in the limit in which the number of steps tends to infinity and both the difference between consecutive probes and the difference between their interactions vanishes. This analysis proceeds at a fine-grained level by means of a two-time measurement protocol, in which the energy of the probes is measured before and after each interaction. | 翻訳日:2023-04-29 20:28:52 公開日:2020-10-06 |
# 正確な回転波近似を定義するための提案公理の解法 Refuting a Proposed Axiom for Defining the Exact Rotating Wave Approximation ( http://arxiv.org/abs/2010.02751v1 ) ライセンス: Link先を確認 | Daniel Zeuch, David P. DiVincenzo | (参考訳) 線形駆動型量子二値系(qubit)では、回転フレーム内のシクロイダル様軌道に沿ったストロボクロピック点の集合をarXiv:1807.02858で導入された正確な回転波近似を用いて近似することができる。
この研究は、有効ハミルトニアン級数 $\mathcal H_{\text{eff}}$ が滑らかな qubit 軌道を生成することを導入し、この級数はマグナス展開とテイラー級数、マグナス・テイラー展開の組み合わせを用いて得られる。
しかし、このハミルトニアン級数は任意のパルス形状に対して収束することが保証されないので、同じ研究は有効ハミルトニアンの公理的定義を仮定する。
提案された公理の最初の2つは$\mathcal H_{\text{eff}}$を定義する。
(i)分析的であり、かつ、
(II)ストロボスコープの時間進化を生成する。
本研究では,上述の滑らかな軌跡によって動機づけられた,第3の公理を探究する。
(iii) フルパルス持続時間を超えたハミルトニアンの正の固有値の積分は、この$\mathcal h_{\text{eff}}$ によって最小化されるという変分原理。
我々は、この積分の変動最小化により、この第3公理の妥当性を数値的に否定する。 For a linearly driven quantum two-level system, or qubit, sets of stroboscropic points along the cycloidal-like trajectory in the rotating frame can be approximated using the exact rotating wave approximation introduced in arXiv:1807.02858. That work introduces an effective Hamiltonian series $\mathcal H_{\text{eff}}$ generating smoothed qubit trajectories; this series has been obtained using a combination of a Magnus expansion and a Taylor series, a Magnus-Taylor expansion. Since, however, this Hamiltonian series is not guaranteed to converge for arbitrary pulse shapes, the same work hypothesizes an axiomatic definition of the effective Hamiltonian. The first two of the proposed axioms define $\mathcal H_{\text{eff}}$ to (i) be analytic and (ii) generate a stroboscopic time evolution. In this work we probe a third axiom---motivated by the smoothed trajectories mentioned above---namely, (iii) a variational principle stating that the integral of the Hamiltonian's positive eigenvalue taken over the full pulse duration is minimized by this $\mathcal H_{\text{eff}}$. We numerically refute the validity of this third axiom via a variational minimization of the said integral. | 翻訳日:2023-04-29 20:25:29 公開日:2020-10-06 |
# 3次元系におけるアト秒干渉の非局所機構 Nonlocal mechanisms of attosecond interferometry in three-dimensional systems ( http://arxiv.org/abs/2010.02735v1 ) ライセンス: Link先を確認 | Denis Jelovina, Armin Scrinzi, Hans Jakob W\"orner, Axel Schild | (参考訳) Attosecond Interferometry (AI) は、補助レーザーの存在下でアト秒パルス列を持つ系をイオン化する実験技術である。
この補助レーザーは、光電子波パケットが同じ最終状態に達するための複数の経路を提供し、これらの経路の干渉は物質の特性を調べるために使用できる。
aiのメカニズムは、気体相の孤立した原子や分子についてよく理解されているが、凝縮相、特に研究中の基質が透明であればあまり理解されていない。
その後、近隣の原子からの散乱により電子に新たな経路が開く。
これらの追加経路が1次元および3次元モデルシステムの助けを借りて測定された光イオン化遅延に与える影響について検討する。
いずれの場合においても、全遅延は、移動中の電子散乱の効果を含む局所的(光イオン化)遅延と非局所的遅延の合計として表現できることがわかった。
1Dシステムは、非局所遅延は、イオン化と散乱が起こる部位間の距離の振動関数であることを示す。
同様の結果は3Dで得られるが,非局所遅延の変調深度は有効散乱断面積に強く依存することがわかった。
我々は,低光子エネルギー (20-30 eV) の液体のような不規則系のアト秒間干渉は, イオン化体の即時環境によって誘起される光イオン化ダイナミクスの変化に主に遅延に敏感であり, 媒質を透過する際の電子散乱は少ないと結論付けた。 Attosecond interferometry (AI) is an experimental technique based on ionizing a system with an attosecond pulse train in the presence of an assisting laser. This assisting laser provides multiple pathways for the photoelectron wave packet to reach the same final state, and interference of these pathways can be used to probe properties of matter. The mechanism of AI is well-understood for isolated atoms and molecules in the gas phase, but not so much in the condensed phase, especially if the substrate under study is transparent. Then, additional pathways open up for the electron due to scattering from neighbouring atoms. We investigate to what extent these additional pathways influence the measured photoionization delay with the help of one- and three-dimensional model systems. In both cases, we find that the total delay can be expressed as the sum of a local (photoionization) delay and a non-local delay which contains the effect of electron scattering during transport. The 1D system shows that the non-local delay is an oscillatory function of the distance between the sites where ionization and scattering take place. A similar result is obtained in 3D, but the modulation depth of the non-local delay is found to strongly depend on the effective scattering cross section. We conclude that attosecond interferometry of disordered systems like liquids at low photon energies (20-30 eV) is mainly sensitive to the local delay, i.e., to changes of the photoionization dynamics induced by the immediate environment of the ionized entity, and less to electron scattering during transport through the medium. | 翻訳日:2023-04-29 20:24:52 公開日:2020-10-06 |
# $\Lambda$型3レベル系の量子光学系における暗黒状態と損失誘起現象 Dark-state and loss-induced phenomena in the quantum-optical regime of $\Lambda$-type three-level systems ( http://arxiv.org/abs/2010.02585v1 ) ライセンス: Link先を確認 | H. Rose, D. V. Popolitova, O. V. Tikhonova, T. Meier, P. R. Sharapova | (参考訳) 物質の量子光との相互作用は、半古典的アプローチでは説明できない現象をもたらす。
特に興味深いのは、高次フォック状態の過程を許容する広い光子数分布を持つ状態である。
ここでは、量子光によって励起される3つの電子レベルを持つJaynes-Cummings型モデルを分析する。
量子光として、コヒーレントかつ圧縮された状態を考える。
シミュレーションでは,実系に関係のあるデファスメント,キャビティ,放射損失など,いくつかの損失機構について検討した。
我々は、損失によって電子レベルの人口を制御でき、コヒーレントな人口トラッピングを誘発するだけでなく、量子場間の光子統計の再分配や、さらにはフォトン統計をあるフィールドから別のフィールドへ移動させることも可能であることを実証する。
さらに,新しい量である量子分極を導入し解析し,古典分極と比較してその基礎的な違いを示す。
量子偏光と第3層の個体群を用いて、量子光の存在下での電磁誘起透過性を調べ、光を絞った場合の特異な特徴を示す。
最後に、異なる種類の損失の存在下で、フィールド間の量子相関を研究し分析する。 The interaction of matter with quantum light leads to phenomena which cannot be explained by semiclassical approaches. Of particular interest are states with broad photon number distributions which allow processes with high-order Fock states. Here, we analyze a Jaynes-Cummings-type model with three electronic levels which is excited by quantum light. As quantum light we consider coherent and squeezed states. In our simulations we include several loss mechanisms, namely, dephasing, cavity, and radiative losses which are relevant in real systems. We demonstrate that losses allow one to control the population of electronic levels and may induce coherent population trapping, as well as lead to a redistribution of the photon statistics among the quantum fields and even to a transfer of the photon statistics from one field to another. Moreover, we introduce and analyze a novel quantity, the quantum polarization, and demonstrate its fundamental difference compared to the classical polarization. Using the quantum polarization and the third level population, we investigate electromagnetically induced transparency in the presence of quantum light and show its special features for the case of squeezed light. Finally, quantum correlations between fields are studied and analyzed in the presence of different types of losses. | 翻訳日:2023-04-29 20:23:26 公開日:2020-10-06 |
# 検証位相推定による誤差緩和 Error mitigation via verified phase estimation ( http://arxiv.org/abs/2010.02538v1 ) ライセンス: Link先を確認 | Thomas E. O'Brien, Stefano Polla, Nicholas C. Rubin, William J. Huggins, Sam McArdle, Sergio Boixo, Jarrod R. McClean, and Ryan Babbush | (参考訳) 量子コンピュータにおけるノイズの蓄積は、量子アルゴリズムの古典的手法を超えての推進を阻害する主要な問題である。
今後10年間、量子エラー訂正に必要なオーバーヘッドを期待できないので、その間、量子コンピューティングを最大限に活用するためには、低コストで計算不能なエラー軽減技術に頼らなければならない。
本稿では,期待値推定における誤差を低減できる量子位相推定に基づく新しい誤差軽減手法を提案する。
一般的な考え方は、システムレジスタが起動状態になるのを効果的に後選択しながらフェーズ推定を適用することです。
この手法を「検証位相推定(verified phase estimation; vpe)」と呼び、短期的実装のための制御回路を単純化するために制御量子ビットを使わずに機能させることができることを示した。
VPEを用いて, 位相推定の複雑さを考慮に入れた後でも) 短期誤差率での未緩和推定よりも, 複数桁の精度向上による中間スケール量子回路の数値シミュレーションにおける期待値の推定を実証した。
我々の数値的な結果は、VPEが発生する可能性のある単一エラーに対して緩和可能であることを示唆している。すなわち、推定期待値の誤差は、回路内の任意の点において発生するエラーの確率であるO(p^2)としてスケールする。
この特性とサンプリングノイズに対するロバスト性を組み合わせることで、VPEは短期量子実験における誤差を緩和する実用的な手法であることが明らかになった。 The accumulation of noise in quantum computers is the dominant issue stymieing the push of quantum algorithms beyond their classical counterparts. We do not expect to be able to afford the overhead required for quantum error correction in the next decade, so in the meantime we must rely on low-cost, unscalable error mitigation techniques to bring quantum computing to its full potential. This paper presents a new error mitigation technique based on quantum phase estimation that can also reduce errors in expectation value estimation (e.g., for variational algorithms). The general idea is to apply phase estimation while effectively post-selecting for the system register to be in the starting state, which allows us to catch and discard errors which knock us away from there. We refer to this technique as "verified phase estimation" (VPE) and show that it can be adapted to function without the use of control qubits in order to simplify the control circuitry for near-term implementations. Using VPE, we demonstrate the estimation of expectation values on numerical simulations of intermediate scale quantum circuits with multiple orders of magnitude improvement over unmitigated estimation at near-term error rates (even after accounting for the additional complexity of phase estimation). Our numerical results suggest that VPE can mitigate against any single errors that might occur; i.e., the error in the estimated expectation values often scale as O(p^2), where p is the probability of an error occurring at any point in the circuit. This property, combined with robustness to sampling noise reveal VPE as a practical technique for mitigating errors in near-term quantum experiments. | 翻訳日:2023-04-29 20:22:51 公開日:2020-10-06 |
# ノイズ量子誤り訂正回路における真の多部絡みの効率的かつ堅牢な証明 Efficient and robust certification of genuine multipartite entanglement in noisy quantum error correction circuits ( http://arxiv.org/abs/2010.02941v1 ) ライセンス: Link先を確認 | Andrea Rodriguez-Blanco, Alejandro Bermudez, Markus M\"uller, Farid Shahandeh | (参考訳) ノイズを受ける現実的な量子プロセッサにおいて、量子誤差補正(qec)回路の正しい機能を保証することはフォールトトレランスを達成するために不可欠である。
完全に動作するQEC回路の最初のチェックポイントは、物理量子ビットの全てのサブシステムにまたがる真のマルチパーティ・エンタングルメントを作成することである。
提案手法は, 実験ノイズや不完全性に対して高効率かつ堅牢な, 真のマルチパーティ・エンタングルメント(GME)を証明するための条件付き目撃手法である。
具体的には, 線形な二分割数における絡み合いの検出が, 線形にスケールする多数の測定値により, GMEの認証に十分であることを示す。
さらに, 本手法は, 従来の手法に比べて微細化とロバスト性が向上し, ビセパブル状態の凸殻から状態を切り離す標準的な手順を超越している。
本手法は,距離3トポロジカルカラーコードとそのフラグに基づくフォールトトレラントバージョンのスタビライザ演算子のノイズ読み出しに適用する。
特に,3種類のノイズ,すなわち一様脱分極ノイズ,2量子ゲート脱分極ノイズ,ビットフリップ計測ノイズの組合せについて検討した。
我々は,本手法を標準的な非効率な忠実度試験と,効率的な目撃者のペアと比較し,本手法のロバスト性の向上を検証した。
最後に、我々は分析の完全な翻訳をトラップイオンネイティブゲートセットに提供し、実験的な応用に適しています。 Ensuring the correct functioning of quantum error correction (QEC) circuits is crucial to achieve fault tolerance in realistic quantum processors subjected to noise. The first checkpoint for a fully operational QEC circuit is to create genuine multipartite entanglement across all subsystems of physical qubits. We introduce a conditional witnessing technique to certify genuine multipartite entanglement (GME) that is efficient in the number of subsystems and, importantly, robust against experimental noise and imperfections. Specifically, we prove that the detection of entanglement in a linear number of bipartitions by a number of measurements that also scales linearly, suffices to certify GME. Moreover, our method goes beyond the standard procedure of separating the state from the convex hull of biseparable states, yielding an improved finesse and robustness compared to previous techniques. We apply our method to the noisy readout of stabilizer operators of the distance-three topological color code and its flag-based fault-tolerant version. In particular, we subject the circuits to combinations of three types of noise, namely, uniform depolarizing noise, two-qubit gate depolarizing noise, and bit-flip measurement noise. We numerically compare our method with the standard, yet generally inefficient, fidelity test and to a pair of efficient witnesses, verifying the increased robustness of our method. Last but not least, we provide the full translation of our analysis to a trapped-ion native gate set that makes it suitable for experimental applications. | 翻訳日:2023-04-29 20:14:57 公開日:2020-10-06 |
# 誤り訂正符号のための貯留層工学のスケールアップ Scaling up reservoir engineering for error-correcting codes ( http://arxiv.org/abs/2010.02850v1 ) ライセンス: Link先を確認 | Vincent Martin and Alain Sarlette | (参考訳) 誤り訂正符号は通常、いくつかの症候群観測器の射影測定結果に応じて一元的補正を施すことによって誤りに対処するよう想定される。
そこで本研究では,より統合的な手法を提案する。そこでは,設計された環境によって,連続的かつ自律的に誤り訂正を適用する。
我々は,ビットフリップエラーに対処する反復符号の提案と,より強力な情報保護に向けて論理量子ビットを符号化するネットワークのスケールアップ方法に焦点を当てた。
課題は、高次エラーを自律的に修正できるネットワークアーキテクチャを考案することであり、オール・ツー・オールまたはオール・ツー・ワンのカップリングを避けることによって、実験的な実現に向けて現実的なままである。 Error-correcting codes are usually envisioned to counter errors by operating unitary corrections depending on the projective measurement results of some syndrome observables. We here propose a way to use them in a more integrated way, where the error correction is applied continuously and autonomously by an engineered environment. We focus on a proposal for the repetition code that counters bit-flip errors, and how to scale up the network encoding a logical quantum bit, towards stronger information protection. The challenge has been to devise a network architecture which allows to autonomously correct higher-order errors, while remaining realistic towards experimental realization by avoiding all-to-all or all-to-one coupling. | 翻訳日:2023-04-29 20:12:43 公開日:2020-10-06 |
# 応答:「カシミール力によって媒介される真空ギャップを横切る熱伝達について」への回答 Reply to: Reply to "On the heat transfer across a vacuum gap mediated by Casimir force" ( http://arxiv.org/abs/2010.02773v1 ) ライセンス: Link先を確認 | Svend-Age Biehs and Achim Kittel and Philippe Ben-Abdallah | (参考訳) ここでは、我々の出版物のプレプリント(arxiv:2003.00760)に関するli et al.(arxiv:2009.09377)のコメント(z. naturforsch. a 75, 803-807; doi:10.1515/zna-2020-0204)に回答する。 Here we reply to the comment of Li et al. (arXiv:2009.09377) on the preprint (arXiv:2003.00760) of our publication (Z. Naturforsch. A 75, 803-807; DOI:10.1515/zna-2020-0204). | 翻訳日:2023-04-29 20:12:18 公開日:2020-10-06 |
# 測定過程における量子性の低下:粗粒チャネルの作用 Decay of quantumness in a measurement process: Action of a coarse-graining channel ( http://arxiv.org/abs/2010.03076v1 ) ライセンス: Link先を確認 | Gabriel Dias Carvalho and Pedro Silva Correia | (参考訳) 重ね合わせにおける量子ビットからなるシステムは、N量子ビット状態からなる測定装置と相互作用する。
Looking at the emerging, effective description of the apparatus given by the action of a coarse-graining channel, we have been able to recover information about the superposition coefficients of the system.We have also been able to visualize the death of quantum correlations between system and apparatus and the death of quantum coherences in the apparatus' effective state, in the limit of a strong coarse-graining action - a situation akin to decoherence, although it is not necessary to evoke any interaction with the surrounding environment. A model of a quantum measurement process is presented: a system consisting of a qubit in a superposition interacts with a measuring apparatus consisting of a N qubit state. Looking at the emerging, effective description of the apparatus given by the action of a coarse-graining channel, we have been able to recover information about the superposition coefficients of the system.We have also been able to visualize the death of quantum correlations between system and apparatus and the death of quantum coherences in the apparatus' effective state, in the limit of a strong coarse-graining action - a situation akin to decoherence, although it is not necessary to evoke any interaction with the surrounding environment. | 翻訳日:2023-04-29 20:05:18 公開日:2020-10-06 |
# 光領域における精密フィールドセンシングのための原子光の絡み合い Atom-light entanglement for precise field sensing in the optical domain ( http://arxiv.org/abs/2010.03043v1 ) ライセンス: Link先を確認 | Diego Barberena, Robert J. Lewis-Swan, Ana Maria Rey, James K. Thompson | (参考訳) 光キャビティに閉じ込められた冷却原子のマクロアレーは、キャビティモードと原子アンサンブルの同時相互作用により、強い原子-光集団結合状態に達することができる。
最近の研究で我々は、光領域における精密電場センシングのためのキャビティQEDシステムにおける強い原子-光相互作用と集合的な原子-光相互作用を利用するプロトコルを報告した。
長寿命アルカリ-アース原子を用いたQED実験において, 標準量子限界よりも10ドル~20ドル~20ドル程度のメロジカルゲインが得られることを示した。
本稿では, 正確な解析計算と数値シミュレーションの両方を用いてプロトコルについてより深く議論し, 現在の実験における光子損失と自然放出, 自然デコヒーレンス機構を徹底的に考慮した上で, 予測された拡張が持つ正確な条件について述べる。
ここで示した分析は、プロトコルのベンチマークとキャビティqedアレイの実用性に役立つだけでなく、閉じ込められたイオンの配列など、他の実験プラットフォームでの適用性に必要な条件も設定する。 Macroscopic arrays of cold atoms trapped in optical cavities can reach the strong atom-light collective coupling regime thanks to the simultaneous interactions of the cavity mode with the atomic ensemble. In a recent work we reported a protocol that takes advantage of the strong and collective atom-light interactions in cavity QED systems for precise electric field sensing in the optical domain. We showed that it can provide between $10$-$20$~dB of metrological gain over the standard quantum limit in current cavity QED experiments operating with long-lived alkaline-earth atoms. Here, we give a more in depth discussion of the protocol using both exact analytical calculations and numerical simulations, and describe the precise conditions under which the predicted enhancement holds after thoroughly accounting for both photon loss and spontaneous emission, natural decoherence mechanisms in current experiments. The analysis presented here not only serves to benchmark the protocol and its utility in cavity QED arrays but also sets the conditions required for its applicability in other experimental platforms such as arrays of trapped ions. | 翻訳日:2023-04-29 20:04:40 公開日:2020-10-06 |
# 量子ウォークと量子リング。
モアレパターンによる量子ウォークの構成と磁場印加の効果 Quantum Walk and Quantum Rings. Effects of a Magnetic Field applied and construction of Quantum Walk by a Moire pattern ( http://arxiv.org/abs/2010.03005v1 ) ライセンス: Link先を確認 | C\'esar Alonso-Lobo, Manuel Mart\'inez-Quesada | (参考訳) 量子環はこれまでに様々な方法でシミュレートされてきたが、この研究では新しい近似が考えられる。
角運動量のない粒子を使い、幾何的な設定の異なるスペクトルが得られます。
これらのスペクトルは、LではなくKに依存し、磁場の応用も分析され、Aharonov-Bohmのような効果が観察される。
新しい数学のテクニックも紹介されている。
この新しいアプローチでは、スペクトル行列は別の方法で扱うことができ、そのような方法でモアレパターンのスペクトルを扱うことができると考えている。
さらに、ある種の二重同心量子環による2つの電子の量子ウォーキングと、モアレ環による同じ電子の量子ウォーキングが、あるパラメータでなければ、同じスペクトルを持つ可能性があることを示す。
だから、似たような振る舞いや類似した特性を見せるかもしれない Quantum Rings have been simulated so far in many ways, but in this work a new aproximation is deemed. We use particles without angular momentum and several spectra, for different geometric settings, are gotten. These spectra depends on K, not on L. The application of a magnetic field is also analysed, and an Aharonov-Bohm kind of effect is observed. Some new math technique is introduced as well. We think that with this new approach the spectrum matrix can be treated in a distinct way, and in such a manner is how we get to handle the Moire pattern spectrum. Furthermore, we show that two electrons quantum walking by some kind of double concentric Quantum Rings and those very same electrons quantum walking by a Moire circunference could indeed have, if not for some parameters, the same spectrum. So they might somehow display similar behaviour and similar properties | 翻訳日:2023-04-29 20:03:57 公開日:2020-10-06 |
# 群れパラメータ干渉計:HOM効果の一般化 A bunching parameter interferometer: Generalization of HOM effect ( http://arxiv.org/abs/2010.02967v1 ) ライセンス: Link先を確認 | Avi Marchewka | (参考訳) 光子は束ねられるか、束ねられていないか、それともより広い現象の特定のケースなのか?
ここでは、束縛されていない光子は、実際に束縛パラメータと呼ばれる連続パラメータによってパラメータ化されたプロセスの極端な2つのケースであり、(主に)束縛パラメータの全値の構成と測定に使用できる束縛干渉計を提案する。
最後に、バンドリングパラメータの適用として、HOM効果のディップグラフがどのように一般化されるかを示す。 Are photons either bunched or unbunched, or are these particular cases of a wider phenomenon? Here we will show that bunched and unbunched photons are indeed two extreme cases of a process parameterized by a continuous parameter, called the bunching parameter, and (mainly) we will suggest a bunching interferometer that can be used for the construction and measurement of the full range of values of the above bunching parameter. Finally, as an application of the bunching parameter, we will show how the dip graph of the HOM effect is generalized | 翻訳日:2023-04-29 20:03:26 公開日:2020-10-06 |
# オープンで信頼できるAIとHRIシステムを実現するためのポリシ・アズ・ア・サービス・フレームワーク Towards a Policy-as-a-Service Framework to Enable Compliant, Trustworthy AI and HRI Systems in the Wild ( http://arxiv.org/abs/2010.07022v1 ) ライセンス: Link先を確認 | Alexis Morris and Hallie Siegel and Jonathan Kelly | (参考訳) 信頼できる自律システムを構築することは、単に「常に正しいことをする」エージェントを雇おうとする以上の多くの理由から難しい。
信頼の問題は本質的に社会技術的であり、究極的にはエージェント、人間、組織、さらには政府や法律機関の間で起こりうる、幅広い複雑な人間的要因と多次元の関係を伴っている。
この複雑さは、信頼できるAIとHRIシステムの開発に重大な障壁をもたらす。システム開発者は、自分たちのシステムを"常に正しいことをする"ことを望むかもしれないが、一般的に、この結果を保証するために法律、規制、ポリシー、倫理に関する実践的なツールや専門知識が欠けている。
本稿では, 信頼性の「ファジィ」な社会技術的側面と, 設計・展開の両面での配慮の必要性を強調した。
AIとHRIによる信頼できるエンジニアリングの議論に貢献したい。
一 信頼できるコンピューティングに取り組む際に考慮すべきポリシーの状況及び利用可能な信頼モデルの必要性について記述すること。
二 システム工学過程における設計的介入の機会を強調すること、及び
iii) 開発および(事実上)ランタイムプロセス中の信頼という曖昧な問題に対処するために、aiシステムエンジニアが容易に適用できる"policy-as-a-service"(paas)フレームワークの概念を導入すること。
ポリシー設計パラメータの開発とポリシー標準のメンテナンスをポリシー専門家にオフロードするPaaSアプローチが、実行時の信頼機能を実現することを想定しています。 Building trustworthy autonomous systems is challenging for many reasons beyond simply trying to engineer agents that 'always do the right thing.' There is a broader context that is often not considered within AI and HRI: that the problem of trustworthiness is inherently socio-technical and ultimately involves a broad set of complex human factors and multidimensional relationships that can arise between agents, humans, organizations, and even governments and legal institutions, each with their own understanding and definitions of trust. This complexity presents a significant barrier to the development of trustworthy AI and HRI systems---while systems developers may desire to have their systems 'always do the right thing,' they generally lack the practical tools and expertise in law, regulation, policy and ethics to ensure this outcome. In this paper, we emphasize the "fuzzy" socio-technical aspects of trustworthiness and the need for their careful consideration during both design and deployment. We hope to contribute to the discussion of trustworthy engineering in AI and HRI by i) describing the policy landscape that must be considered when addressing trustworthy computing and the need for usable trust models, ii) highlighting an opportunity for trustworthy-by-design intervention within the systems engineering process, and iii) introducing the concept of a "policy-as-a-service" (PaaS) framework that can be readily applied by AI systems engineers to address the fuzzy problem of trust during the development and (eventually) runtime process. We envision that the PaaS approach, which offloads the development of policy design parameters and maintenance of policy standards to policy experts, will enable runtime trust capabilities intelligent systems in the wild. | 翻訳日:2023-04-29 19:55:08 公開日:2020-10-06 |
# 量子力学における隠れた人間の変数? Hidden human variables in quantum mechanics? ( http://arxiv.org/abs/2010.03419v1 ) ライセンス: Link先を確認 | G\"ote Nyman | (参考訳) 量子力学におけるオブザーバの問題は、新しい人間のコンテンツを得ることである。
ウィグナーの友人のパラドックスとその拡張バージョンは、量子現象を観測するだけでなく、通信し、記憶を持ち、超サーバパワーを持つオブザーバーを持つ。
オブザーバはパーティクルパスとステートメモリで表現され、高度なAIはオブザーバとして振る舞うことが提案されている。
量子力学における観測者の堅固な理論が新たに求められている。
観測者理論の2つの異なる分野が出現している。
純粋に物理的なものはハイゼンベルク型であり、例えば関係量子力学では観測者が他の物理量子系と見なされる。
他分枝は精神、精神状態、記憶などの複雑な人間の能力を持つため、心理的に富み、また観察者は継続的に更新され科学的な期待(QBism)を持つ活動的で経験的なエージェントとみなされる。
人間の観察者は特別な場合であり、他の量子力学システムとは異なるのか?
なぜ量子力学における一般観測者の理論が存在しないのか?
量子力学的解釈がどのようにオブザーバーを扱い、隠れた人間の変数の概念はオブザーバーの理論的な性質についての議論を継続するために提案されている。 The problem of the observer in quantum mechanics is getting new human content. The paradox of Wigner's friend and its extended versions have observers who not only observe quantum phenomena, but communicate, have memories and even super-observer powers. Observers are represented by particle paths and state memories and advanced AI has been suggested to act as an observer. There is a new call for a solid theory of the observer in quantum mechanics. Two different branches of observer theories have emerged. The purely physical one is Heisenbergian, e.g. relational quantum mechanics where the observer is considered as any other physical quantum system. The other branch is psychologically rich as its observer has complex human faculties such as a mind, mental states and memory (Many minds), or the observer is considered as an active and experiencing agent, with continuously refreshed, scientific expectations (QBism). Is the human observer a special case, different from other quantum mechanical systems? Why is there no theory of the general observer in quantum mechanics? A historical summary is covered on how quantum mechanical interpretations have treated the observer, and the concept of hidden human variables is suggested to continue the discussion on the theoretical nature of the observer. | 翻訳日:2023-04-29 19:54:25 公開日:2020-10-06 |
# NISQ時代のクビットマッピング問題に対するハードウェア・アウェア・ヒューリスティック A Hardware-Aware Heuristic for the Qubit Mapping Problem in the NISQ Era ( http://arxiv.org/abs/2010.03397v1 ) ライセンス: Link先を確認 | Siyuan Niu (LIRMM), Adrien Suau (LIRMM, CERFACS), Gabriel Staffelbach (CERFACS), Aida Todri-Sanial (LIRMM, CNRS) | (参考訳) 量子ハードウェアの実現にはいくつかの物理的制限があるため、今日の量子コンピュータはノイズ中間スケール量子(NISQ)ハードウェアとして資格がある。
NISQハードウェアは、少数のキュービット(50から数百)とノイズの多い操作によって特徴付けられる。
さらに、超伝導量子チップの現在の実現は、量子ビット間の全対全接続が理想的ではなく、最も近い近傍接続である。
これらのハードウェア制限は、追加の低レベル要件を追加する。
量子回路を実際のチップに送信する前に対処する必要がある。
これらの要件を満たすことはプログラマにとって面倒な作業です。
代わりに、所定のハードウェアに量子回路を適用するタスクはコンパイラに委ねられる。
本稿では,回路全体の信頼性を向上させるため,キャリブレーションデータを考慮したハードウェアアウェアマッピング遷移アルゴリズム(ha)を提案する。
ibm量子ハードウェアにおける評価の結果、我々のhaアプローチは、追加ゲート数と回路忠実度の両方において、最先端技術よりも優れています。 Due to several physical limitations in the realisation of quantum hardware, today's quantum computers are qualified as Noisy Intermediate-Scale Quantum (NISQ) hardware. NISQ hardware is characterized by a small number of qubits (50 to a few hundred) and noisy operations. Moreover, current realisations of superconducting quantum chips do not have the ideal all-to-all connectivity between qubits but rather at most a nearest-neighbour connectivity. All these hardware restrictions add supplementary low-level requirements. They need to be addressed before submitting the quantum circuit to an actual chip. Satisfying these requirements is a tedious task for the programmer. Instead, the task of adapting the quantum circuit to a given hardware is left to the compiler. In this paper, we propose a Hardware-Aware mapping transition algorithm (HA) that takes the calibration data into account with the aim to improve the overall fidelity of the circuit. Evaluation results on IBM quantum hardware show that our HA approach can outperform the state of the art both in terms of the number of additional gates and circuit fidelity. | 翻訳日:2023-04-29 19:54:04 公開日:2020-10-06 |
# 一般化計算の統一的側面 Unifying Aspects of Generalized Calculus ( http://arxiv.org/abs/2010.03366v1 ) ライセンス: Link先を確認 | Marek Czachor | (参考訳) 非ニュートン計算は、一般化された熱統計学の分野や古典的情報理論と量子的情報理論の境界地帯で長年に渡り起こった様々な考えを自然に統一する。
形式主義は、非常に一般的であり、数学の学部課程から知っている計算と同じくらい単純である。
その理論的なポテンシャルは大きいが、まだ不明または未承認である。 Non-Newtonian calculus naturally unifies various ideas that have occurred over the years in the field of generalized thermostatistics, or in the borderland between classical and quantum information theory. The formalism, being very general, is as simple as the calculus we know from undergraduate courses of mathematics. Its theoretical potential is huge, and yet it remains unknown or unappreciated. | 翻訳日:2023-04-29 19:53:09 公開日:2020-10-06 |
# i updateed the <ref>: The Evolution of References in the English Wikipedia and the Implications for Altmetrics 'I Updated the <ref>': The Evolution of References in the English Wikipedia and the Implications for Altmetrics ( http://arxiv.org/abs/2010.03083v1 ) ライセンス: Link先を確認 | Olga Zagovora, Roberto Ulloa, Katrin Weller, Fabian Fl\"ock | (参考訳) この研究により、2019年6月まで英語ウィキペディアで使用されていたすべての参照(5500万件以上)の歴史の公開データセットを提示する。
ウィキペディアで参照を識別し、監視する新しい手法を適用したので、それぞれの参照に対して、関連するアクション(生成、修正、削除、再試行)に関するデータを提供できる。
この手法と得られたデータセットの精度は,包括的crowdworkerラベリングキャンペーンによって確認された。
データセットを用いて、ウィキペディア参照の時間的進化とユーザの編集行動を研究する。
1)参照と文書の識別子(doi, pubmedid, pmc, isbn, issn, arxiv id)の持続的な増加、(2) 参照のキュレーション作業のほとんどは登録された人間(ボットや匿名の編集者ではない)によって行われている。
我々は、ウィキペディアの参照の進化は、それらの傾向にあるコミュニティプロセスのダイナミクスを含む、アルトメトリックの関連指標の設計に活用されるべきであり、我々のデータセットはそのような取り組みのために重要なものであると結論付けた。 With this work, we present a publicly available dataset of the history of all the references (more than 55 million) ever used in the English Wikipedia until June 2019. We have applied a new method for identifying and monitoring references in Wikipedia, so that for each reference we can provide data about associated actions: creation, modifications, deletions, and reinsertions. The high accuracy of this method and the resulting dataset was confirmed via a comprehensive crowdworker labelling campaign. We use the dataset to study the temporal evolution of Wikipedia references as well as users' editing behaviour. We find evidence of a mostly productive and continuous effort to improve the quality of references: (1) there is a persistent increase of reference and document identifiers (DOI, PubMedID, PMC, ISBN, ISSN, ArXiv ID), and (2) most of the reference curation work is done by registered humans (not bots or anonymous editors). We conclude that the evolution of Wikipedia references, including the dynamics of the community processes that tend to them should be leveraged in the design of relevance indexes for altmetrics, and our dataset can be pivotal for such effort. | 翻訳日:2023-04-29 19:52:46 公開日:2020-10-06 |
# 深いロバストなマルチレベルセマンティッククロスモーダルハッシュ Deep Robust Multilevel Semantic Cross-Modal Hashing ( http://arxiv.org/abs/2002.02698v2 ) ライセンス: Link先を確認 | Ge Song, Jun Zhao, Xiaoyang Tan | (参考訳) ハッシュベースのクロスモーダル検索は、最近大きな進歩を遂げた。
しかし、異なるモダリティからのデータをジョイントハミング空間に簡単に埋め込むことは、必然的に本質的なモダリティの不一致とノイズのために誤ったコードを生み出す。
より正確なクロスモーダル検索のための新しいロバスト多レベルセマンティックハッシュ(RMSH)を提案する。
リッチなセマンティクスでデータ間のきめ細かい類似性を保ちつつ、相似点間の距離が強靭性のために特定の値よりも大きいことを明示的に要求する。
このために,情報符号化理論解析に基づいて,この値の有効範囲を与え,その目標をマージン適応三重項損失に具体化する。
さらに,類似情報のスパーシティ問題を軽減するため,複数のハッシュ符号を用いてセルド・セレン意味を探索する疑似コードを導入する。
3つのベンチマーク実験から導出境界の有効性が示され,本手法は最先端の性能を実現する。 Hashing based cross-modal retrieval has recently made significant progress. But straightforward embedding data from different modalities into a joint Hamming space will inevitably produce false codes due to the intrinsic modality discrepancy and noises. We present a novel Robust Multilevel Semantic Hashing (RMSH) for more accurate cross-modal retrieval. It seeks to preserve fine-grained similarity among data with rich semantics, while explicitly require distances between dissimilar points to be larger than a specific value for strong robustness. For this, we give an effective bound of this value based on the information coding-theoretic analysis, and the above goals are embodied into a margin-adaptive triplet loss. Furthermore, we introduce pseudo-codes via fusing multiple hash codes to explore seldom-seen semantics, alleviating the sparsity problem of similarity information. Experiments on three benchmarks show the validity of the derived bounds, and our method achieves state-of-the-art performance. | 翻訳日:2023-01-03 04:53:40 公開日:2020-10-06 |
# 一般化された2層ニューラルネットワークのタンジェントカーネル解析 A Generalized Neural Tangent Kernel Analysis for Two-layer Neural Networks ( http://arxiv.org/abs/2002.04026v2 ) ライセンス: Link先を確認 | Zixiang Chen and Yuan Cao and Quanquan Gu and Tong Zhang | (参考訳) ディープラーニング理論における最近のブレークスルーは、過剰パラメータのディープニューラルネットワークのトレーニングが、 \textit{neural tangent kernel} (ntk)と呼ばれるカーネル関数によって特徴づけられることを示している。
しかし、NTKに基づく解析では、トレーニング中にネットワークの重みが初期化に非常に近づき、正規化器や勾配雑音に対処できないため、この種の結果がプラクティスと完全に一致しないことが知られている。
本稿では,一般化された神経接核解析を行い,重み減衰を伴う雑音勾配降下が依然として「カーネル様」な挙動を示すことを示す。
これは、トレーニング損失が一定の精度まで線形に収束することを意味する。
また,重み減衰を伴う雑音勾配降下により学習した2層ニューラルネットワークに対する新しい一般化誤差を定式化する。 A recent breakthrough in deep learning theory shows that the training of over-parameterized deep neural networks can be characterized by a kernel function called \textit{neural tangent kernel} (NTK). However, it is known that this type of results does not perfectly match the practice, as NTK-based analysis requires the network weights to stay very close to their initialization throughout training, and cannot handle regularizers or gradient noises. In this paper, we provide a generalized neural tangent kernel analysis and show that noisy gradient descent with weight decay can still exhibit a "kernel-like" behavior. This implies that the training loss converges linearly up to a certain accuracy. We also establish a novel generalization error bound for two-layer neural networks trained by noisy gradient descent with weight decay. | 翻訳日:2023-01-02 08:39:53 公開日:2020-10-06 |
# 自己スーパービジョンによるユニバーサルドメイン適応 Universal Domain Adaptation through Self Supervision ( http://arxiv.org/abs/2002.07953v3 ) ライセンス: Link先を確認 | Kuniaki Saito, Donghyun Kim, Stan Sclaroff, Kate Saenko | (参考訳) 教師なしドメイン適応メソッドは伝統的にすべてのソースカテゴリがターゲットドメインに存在すると仮定する。
実際には、2つのドメイン間のカテゴリの重なりについてはほとんど知られていない。
いくつかのメソッドは、部分的またはオープンセットのカテゴリでターゲット設定を扱うが、特定の設定が優先的であると仮定する。
本稿では,任意のカテゴリシフトを処理可能な,エントロピー最適化(DANCE)によるドメイン適応近傍クラスタリングを提案する。
まず、ターゲットに対して識別可能な特徴を学習するために、ソースカテゴリに完全に依存できないため、自己組織化された方法でターゲットドメインの構造を学習するための新しい近隣クラスタリング手法を提案する。
第2に、エントロピーに基づく機能アライメントと拒否を使用して、ターゲット機能をソースにアライメントするか、あるいはエントロピーに基づいて未知のカテゴリとして拒絶する。
我々は、DANCEがオープンセット、オープンパーティル、部分的なドメイン適応設定でベースラインより優れていることを示す広範な実験を通して示す。
実装はhttps://github.com/VisionLearningGroup/DANCEで確認できる。 Unsupervised domain adaptation methods traditionally assume that all source categories are present in the target domain. In practice, little may be known about the category overlap between the two domains. While some methods address target settings with either partial or open-set categories, they assume that the particular setting is known a priori. We propose a more universally applicable domain adaptation framework that can handle arbitrary category shift, called Domain Adaptative Neighborhood Clustering via Entropy optimization (DANCE). DANCE combines two novel ideas: First, as we cannot fully rely on source categories to learn features discriminative for the target, we propose a novel neighborhood clustering technique to learn the structure of the target domain in a self-supervised way. Second, we use entropy-based feature alignment and rejection to align target features with the source, or reject them as unknown categories based on their entropy. We show through extensive experiments that DANCE outperforms baselines across open-set, open-partial and partial domain adaptation settings. Implementation is available at https://github.com/VisionLearningGroup/DANCE. | 翻訳日:2022-12-30 14:02:39 公開日:2020-10-06 |
# 質問回答のための教師なし質問分解 Unsupervised Question Decomposition for Question Answering ( http://arxiv.org/abs/2002.09758v3 ) ライセンス: Link先を確認 | Ethan Perez, Patrick Lewis, Wen-tau Yih, Kyunghyun Cho, Douwe Kiela | (参考訳) 既存のQAシステムが答えられるような、より単純なサブクエストにハードな質問を分解することで、質問応答(QA)を改善することを目指している。
分解による質問のラベル付けは難しいので、サブクエストを生成するために教師なしのアプローチをとっており、インターネットから何百万という質問を活用できます。
具体的には、1つのハードでマルチホップな質問を、より単純でシングルホップなサブクエリにマップする方法を学習するOne-to-N Unsupervised Sequence Transduction(ONUS)のアルゴリズムを提案する。
サブ質問に対して、既定のqaモデルで回答し、結果の回答を最終回答に組み合わせた再結合モデルに与えます。
当初,ドメイン外,マルチホップ開発セットのベースラインが強かったため,HotpotQAでは大きなQA改善が見られた。
OnUSは、QAの教師付きおよびヒューリスティックな分解方法の実用性に適合し、これらの方法を超える頻度で、様々な種類の質問を分解することを自動的に学習する。
質的に、サブクエスチョーションを使うことは、なぜqaシステムが予測を行うのかを解明するのに有益である。 We aim to improve question answering (QA) by decomposing hard questions into simpler sub-questions that existing QA systems are capable of answering. Since labeling questions with decompositions is cumbersome, we take an unsupervised approach to produce sub-questions, also enabling us to leverage millions of questions from the internet. Specifically, we propose an algorithm for One-to-N Unsupervised Sequence transduction (ONUS) that learns to map one hard, multi-hop question to many simpler, single-hop sub-questions. We answer sub-questions with an off-the-shelf QA model and give the resulting answers to a recomposition model that combines them into a final answer. We show large QA improvements on HotpotQA over a strong baseline on the original, out-of-domain, and multi-hop dev sets. ONUS automatically learns to decompose different kinds of questions, while matching the utility of supervised and heuristic decomposition methods for QA and exceeding those methods in fluency. Qualitatively, we find that using sub-questions is promising for shedding light on why a QA system makes a prediction. | 翻訳日:2022-12-29 18:45:27 公開日:2020-10-06 |
# motion-excited sampler:sparked priorによるビデオ敵対的攻撃 Motion-Excited Sampler: Video Adversarial Attack with Sparked Prior ( http://arxiv.org/abs/2003.07637v2 ) ライセンス: Link先を確認 | Hu Zhang, Linchao Zhu, Yi Zhu and Yi Yang | (参考訳) 深層ニューラルネットワークは、小さくて知覚できない摂動に影響を受けやすいことが知られている。
以前の敵攻撃の研究のほとんどは画像モデルに重点を置いていたが、ビデオモデルの脆弱性は調査されていない。
本稿では,映像フレーム間の固有移動パターンと局所相対運動を利用して,映像モデルを攻撃することを目的とする。
そこで本研究では,動きを感知する雑音を事前に得るための効果的な運動提示型サンプリング器を提案する。
先行したフレーム相関をスパークし,相対運動によるビデオダイナミックスを活用した。
勾配推定のスパークド・プリエントを用いることで,クエリ数の少ない様々なビデオ分類モデルへの攻撃を成功させることができる。
4つのベンチマークデータセットの広範な実験結果から,提案手法の有効性が検証された。 Deep neural networks are known to be susceptible to adversarial noise, which are tiny and imperceptible perturbations. Most of previous work on adversarial attack mainly focus on image models, while the vulnerability of video models is less explored. In this paper, we aim to attack video models by utilizing intrinsic movement pattern and regional relative motion among video frames. We propose an effective motion-excited sampler to obtain motion-aware noise prior, which we term as sparked prior. Our sparked prior underlines frame correlations and utilizes video dynamics via relative motion. By using the sparked prior in gradient estimation, we can successfully attack a variety of video classification models with fewer number of queries. Extensive experimental results on four benchmark datasets validate the efficacy of our proposed method. | 翻訳日:2022-12-22 21:03:12 公開日:2020-10-06 |
# 信頼できるリンク予測のための知識グラフ埋め込みの校正評価 Evaluating the Calibration of Knowledge Graph Embeddings for Trustworthy Link Prediction ( http://arxiv.org/abs/2004.01168v3 ) ライセンス: Link先を確認 | Tara Safavi, Danai Koutra, Edgar Meij | (参考訳) 知識グラフ埋め込み(KGE)モデルによる予測の信頼性についてはほとんど分かっていない。
本稿では,KGEモデルのキャリブレーションや,予測知識グラフの予測正しさを反映した信頼度スコアを出力する程度を調査することで,この方向に向けた最初の一歩を踏み出す。
我々はまず、知識グラフに存在しない予測三重項を偽とみなす標準的なクローズドワールド仮定(CWA)に基づいて評価を行い、この一般的だが狭い仮定の下で既存のキャリブレーション手法がKGEに有効であることを示す。
次に、より現実的で挑戦的なopen-world assumption(owa)を紹介し、観測されていない予測は、接地ラベルが得られるまで真あるいは偽と見なされない。
ここでは,既存のキャリブレーション手法はCWAよりもOWAの方がはるかに効果的であることを示し,その相違点を説明する。
最後に,KGEのキャリブレーションを実践者の視点で活用するために,我々は,知識グラフ完成タスクにおいて,キャリブレーションされた予測が人間のパフォーマンスを向上させることを示す,人間とAIのコラボレーションのユニークなケーススタディを行う。 Little is known about the trustworthiness of predictions made by knowledge graph embedding (KGE) models. In this paper we take initial steps toward this direction by investigating the calibration of KGE models, or the extent to which they output confidence scores that reflect the expected correctness of predicted knowledge graph triples. We first conduct an evaluation under the standard closed-world assumption (CWA), in which predicted triples not already in the knowledge graph are considered false, and show that existing calibration techniques are effective for KGE under this common but narrow assumption. Next, we introduce the more realistic but challenging open-world assumption (OWA), in which unobserved predictions are not considered true or false until ground-truth labels are obtained. Here, we show that existing calibration techniques are much less effective under the OWA than the CWA, and provide explanations for this discrepancy. Finally, to motivate the utility of calibration for KGE from a practitioner's perspective, we conduct a unique case study of human-AI collaboration, showing that calibrated predictions can improve human performance in a knowledge graph completion task. | 翻訳日:2022-12-17 09:29:56 公開日:2020-10-06 |
# SelfORE:オープンな関係抽出のための自己教師付き関係特徴学習 SelfORE: Self-supervised Relational Feature Learning for Open Relation Extraction ( http://arxiv.org/abs/2004.02438v2 ) ライセンス: Link先を確認 | Xuming Hu, Chenwei Zhang, Yusong Xu, Lijie Wen, Philip S. Yu | (参考訳) オープンリレーション抽出は、自然言語文からオープンドメイン関係事実を抽出するタスクである。
既存の著作では、ヒューリスティックスや遠隔教師付きアノテーションを使用して、事前定義された関係性よりも教師付き分類器を訓練するか、または差別力の少ない追加の仮定で教師なしの手法を採用する。
本研究では,文脈付き関係特徴の適応クラスタリングに大規模事前学習言語モデルを活用することで,弱い自己教師付き信号を利用する自己教師型フレームワークであるSelfOREを提案し,関係分類における文脈付き特徴を改善することで自己教師型信号のブートストラップを行う。
3つのデータセットの実験結果から,オープンドメイン関係抽出におけるSelfOREの有効性とロバスト性を示した。 Open relation extraction is the task of extracting open-domain relation facts from natural language sentences. Existing works either utilize heuristics or distant-supervised annotations to train a supervised classifier over pre-defined relations, or adopt unsupervised methods with additional assumptions that have less discriminative power. In this work, we proposed a self-supervised framework named SelfORE, which exploits weak, self-supervised signals by leveraging large pretrained language model for adaptive clustering on contextualized relational features, and bootstraps the self-supervised signals by improving contextualized features in relation classification. Experimental results on three datasets show the effectiveness and robustness of SelfORE on open-domain Relation Extraction when comparing with competitive baselines. | 翻訳日:2022-12-16 05:24:13 公開日:2020-10-06 |
# 自己教師付きニューラルマシン翻訳における自己誘導型カリキュラム学習 Self-Induced Curriculum Learning in Self-Supervised Neural Machine Translation ( http://arxiv.org/abs/2004.03151v2 ) ライセンス: Link先を確認 | Dana Ruiter, Josef van Genabith and Cristina Espa\~na-Bonet | (参考訳) 自己教師付きニューラルネットワーク翻訳(SSNMT)は、並列ではなく、同等のコーパスから適切なトレーニングデータを識別し、選択し、2つのタスクが互いを活発な円で支え合うように翻訳することを学ぶ。
本研究では,SSNMTモデルがトレーニング中に行うサンプリング選択について,詳細な分析を行う。
そのように指示されていなければ、モデルが増加のサンプルを自己選択する方法を示します。
(i)複雑さ、および
(ii)タスク関連性と組み合わせて
(iii)教育課程の実施。
システム内部表現型とシステム内部表現型の相互スーパービジョン信号のダイナミクスが抽出および翻訳性能に不可欠であることを観察する。
ssnmtは,銃声-fog可読性指標を用いて,高校生に適したウィキペディアデータから抽出・学習を開始し,一年生に適したコンテンツへと素早く移行する。 Self-supervised neural machine translation (SSNMT) jointly learns to identify and select suitable training data from comparable (rather than parallel) corpora and to translate, in a way that the two tasks support each other in a virtuous circle. In this study, we provide an in-depth analysis of the sampling choices the SSNMT model makes during training. We show how, without it having been told to do so, the model self-selects samples of increasing (i) complexity and (ii) task-relevance in combination with (iii) performing a denoising curriculum. We observe that the dynamics of the mutual-supervision signals of both system internal representation types are vital for the extraction and translation performance. We show that in terms of the Gunning-Fog Readability index, SSNMT starts extracting and learning from Wikipedia data suitable for high school students and quickly moves towards content suitable for first year undergraduate students. | 翻訳日:2022-12-15 23:48:11 公開日:2020-10-06 |
# 構造化入出力翻訳学習のためのグラフからツリーへのニューラルネットワーク : 意味解析と数語問題への応用 Graph-to-Tree Neural Networks for Learning Structured Input-Output Translation with Applications to Semantic Parsing and Math Word Problem ( http://arxiv.org/abs/2004.13781v2 ) ライセンス: Link先を確認 | Shucheng Li, Lingfei Wu, Shiwei Feng, Fangli Xu, Fengyuan Xu and Sheng Zhong | (参考訳) 有名なSeq2Seqテクニックとその多くの変種は、ニューラルマシン翻訳、セマンティックパーシング、数学語の問題解決など、多くのタスクにおいて優れたパフォーマンスを達成する。
しかし、これらのモデルは入力オブジェクトをシーケンスとしてのみ考慮し、符号化のための重要な構造情報を無視するか、単に出力オブジェクトをデコードのための構造オブジェクトではなくシーケンス出力として扱う。
本稿では,グラフエンコーダと階層木デコーダから構成され,グラフ構造入力を符号化し,木構造出力を復号するグラフ-ト-ト-ト-ト-ニューラルネットワークを提案する。
特に,ニューラルセマンティクス解析と数学用語問題という2つの問題を解決するためのモデルについて検討した。
我々の大規模な実験は、Graph2Treeモデルがこれらのタスクにおける他の最先端モデルのパフォーマンスより優れているか、あるいは一致していることを示している。 The celebrated Seq2Seq technique and its numerous variants achieve excellent performance on many tasks such as neural machine translation, semantic parsing, and math word problem solving. However, these models either only consider input objects as sequences while ignoring the important structural information for encoding, or they simply treat output objects as sequence outputs instead of structural objects for decoding. In this paper, we present a novel Graph-to-Tree Neural Networks, namely Graph2Tree consisting of a graph encoder and a hierarchical tree decoder, that encodes an augmented graph-structured input and decodes a tree-structured output. In particular, we investigated our model for solving two problems, neural semantic parsing and math word problem. Our extensive experiments demonstrate that our Graph2Tree model outperforms or matches the performance of other state-of-the-art models on these tasks. | 翻訳日:2022-12-15 22:37:17 公開日:2020-10-06 |
# 信頼認識型推薦システムに関する調査--深層学習の視点から Survey for Trust-aware Recommender Systems: A Deep Learning Perspective ( http://arxiv.org/abs/2004.03774v2 ) ライセンス: Link先を確認 | Manqing Dong, Feng Yuan, Lina Yao, Xianzhi Wang, Xiwei Xu and Liming Zhu | (参考訳) 既存のレコメンデーションシステムにとって大きな課題は、ユーザがレコメンデーションシステムに説明の欠如や不正確なレコメンデーション結果の欠如を信用できないことだ。
したがって、信頼できるレコメンデーションシステムを採用することが重要になる。
本調査は,ユーザの社会的関係を利用するソーシャルアウェアレコメンダシステム,不正なノイズ(スパムや偽情報など)をフィルタリングし,攻撃耐性を高める堅牢なレコメンダシステム,レコメンダシステム,レコメンデーション項目の説明を提供する説明可能なレコメンダシステム,の3つのカテゴリを体系的に要約する。
我々は,レコメンデーション研究の新しい分野である深層学習技術に基づく研究に焦点を当てている。 A significant remaining challenge for existing recommender systems is that users may not trust the recommender systems for either lack of explanation or inaccurate recommendation results. Thus, it becomes critical to embrace a trustworthy recommender system. This survey provides a systemic summary of three categories of trust-aware recommender systems: social-aware recommender systems that leverage users' social relationships; robust recommender systems that filter untruthful noises (e.g., spammers and fake information) or enhance attack resistance; explainable recommender systems that provide explanations of recommended items. We focus on the work based on deep learning techniques, an emerging area in the recommendation research. | 翻訳日:2022-12-15 09:38:52 公開日:2020-10-06 |
# 予習変圧器モデルの冗長性解析 Analyzing Redundancy in Pretrained Transformer Models ( http://arxiv.org/abs/2004.04010v2 ) ライセンス: Link先を確認 | Fahim Dalvi, Hassan Sajjad, Nadir Durrani and Yonatan Belinkov | (参考訳) トランスフォーマーベースのディープNLPモデルは、数億のパラメータを使って訓練され、計算制約のある環境での適用性を制限する。
本稿では,これらの制約の原因を,汎用冗長性とタスク固有の冗長性という2つのクラスに分類される冗長性の概念を定義することによって検討する。
我々は、BERTとXLNetという2つの人気のある事前訓練モデルを特定し、それらが表現レベルとよりきめ細かいニューロンレベルでどれだけ冗長性を示すかを研究する。
私たちの分析は、次のような興味深い洞察を示しています。
一 ネットワーク上のニューロンの八5%が冗長で、
ii) 下流タスクに最適化する場合、少なくとも92%は削除することができる。
提案手法は, ニューロンの10%以上を使用しながら, 97%の性能を保ちながら, 効率的な特徴に基づく伝達学習手法を提案する。 Transformer-based deep NLP models are trained using hundreds of millions of parameters, limiting their applicability in computationally constrained environments. In this paper, we study the cause of these limitations by defining a notion of Redundancy, which we categorize into two classes: General Redundancy and Task-specific Redundancy. We dissect two popular pretrained models, BERT and XLNet, studying how much redundancy they exhibit at a representation-level and at a more fine-grained neuron-level. Our analysis reveals interesting insights, such as: i) 85% of the neurons across the network are redundant and ii) at least 92% of them can be removed when optimizing towards a downstream task. Based on our analysis, we present an efficient feature-based transfer learning procedure, which maintains 97% performance while using at-most 10% of the original neurons. | 翻訳日:2022-12-15 08:10:12 公開日:2020-10-06 |
# Bang for Your Buck:頑丈な質問に対する自然の誘惑 More Bang for Your Buck: Natural Perturbation for Robust Question Answering ( http://arxiv.org/abs/2004.04849v2 ) ライセンス: Link先を確認 | Daniel Khashabi, Tushar Khot, Ashish Sabharwal | (参考訳) 最近のモデルは多数のnlpデータセットで人間レベルのスコアを達成しているが、入力の小さな変化にかなり敏感である。
全く新しい例のトレーニングセットを構築することでこの問題に対処する標準的なアプローチの代替として、サンプルの摂動を最小限に抑えることを提案する。
特に当社のアプローチでは、まずシードサンプルのセットを収集し、次に(ルールベースのマシンの摂動とは対照的に)人間主導の自然摂動を適用することで、ゴールドラベルも変更します。
ローカルな摂動は、完全に新しい例を書くよりも作成が比較的簡単(従って安い)であることの利点がある。
この現象の影響を評価するために,最近の質問応答データセット(boolq)を考察し,摂動コスト比の関数として,既存の質問を摂動する相対コストとゼロから新しい質問を作成することの利点について考察する。
自然摂動が適度に安価に作成できる場合、これらのモデルを使用してモデルをトレーニングすることはより効果的である:そのようなモデルは、元のBoolQデータセットのパフォーマンスを維持しながら、より堅牢性とより良い一般化を示す。 While recent models have achieved human-level scores on many NLP datasets, we observe that they are considerably sensitive to small changes in input. As an alternative to the standard approach of addressing this issue by constructing training sets of completely new examples, we propose doing so via minimal perturbation of examples. Specifically, our approach involves first collecting a set of seed examples and then applying human-driven natural perturbations (as opposed to rule-based machine perturbations), which often change the gold label as well. Local perturbations have the advantage of being relatively easier (and hence cheaper) to create than writing out completely new examples. To evaluate the impact of this phenomenon, we consider a recent question-answering dataset (BoolQ) and study the benefit of our approach as a function of the perturbation cost ratio, the relative cost of perturbing an existing question vs. creating a new one from scratch. We find that when natural perturbations are moderately cheaper to create, it is more effective to train models using them: such models exhibit higher robustness and better generalization, while retaining performance on the original BoolQ dataset. | 翻訳日:2022-12-15 01:52:53 公開日:2020-10-06 |
# 私のように聞こえるか?
実践的自己意識による対話におけるペルソナ一貫性の向上 Will I Sound Like Me? Improving Persona Consistency in Dialogues through Pragmatic Self-Consciousness ( http://arxiv.org/abs/2004.05816v2 ) ライセンス: Link先を確認 | Hyunwoo Kim, Byeongchang Kim, Gunhee Kim | (参考訳) 対話エージェントのパーソナリティ一貫性を改善するタスクについて検討する。
一貫性に対処する最近のモデルは、しばしば追加の自然言語推論(NLI)ラベルでトレーニングするか、あるいは一貫性を維持するためにトレーニングされた追加モジュールを生成エージェントにアタッチする。
しかし、このような追加のラベルや訓練は要求される。
また,最も優れたペルソナ系エージェントでさえ,矛盾する単語に敏感であることがわかった。
社会的認知と実用性に触発されて、私たちは既存の対話エージェントに、想像上のリスナーを通して、公的な自意識を持たせた。
弊社のアプローチは,Rational Speech Acts framework(Frank and Goodman, 2012)に基づいて,対話エージェントによる発話矛盾の回避を可能にする。
我々は、通常手動またはランダムに行われる散逸子選択を学習することで、フレームワークをさらに拡張する。
対話nli (welleck et al., 2019) とペルソナチャット (zhang et al., 2018) のデータセットの結果は、我々のアプローチが矛盾を減らし、既存の対話モデルの一貫性を向上させることを示している。
さらに,対話におけるペルソナ以外の文脈整合性を改善するために一般化できることを示す。 We explore the task of improving persona consistency of dialogue agents. Recent models tackling consistency often train with additional Natural Language Inference (NLI) labels or attach trained extra modules to the generative agent for maintaining consistency. However, such additional labels and training can be demanding. Also, we find even the best-performing persona-based agents are insensitive to contradictory words. Inspired by social cognition and pragmatics, we endow existing dialogue agents with public self-consciousness on the fly through an imaginary listener. Our approach, based on the Rational Speech Acts framework (Frank and Goodman, 2012), can enforce dialogue agents to refrain from uttering contradiction. We further extend the framework by learning the distractor selection, which has been usually done manually or randomly. Results on Dialogue NLI (Welleck et al., 2019) and PersonaChat (Zhang et al., 2018) dataset show that our approach reduces contradiction and improves consistency of existing dialogue models. Moreover, we show that it can be generalized to improve context-consistency beyond persona in dialogues. | 翻訳日:2022-12-13 23:51:59 公開日:2020-10-06 |
# 言語表現のための中心的推論学習 Coreferential Reasoning Learning for Language Representation ( http://arxiv.org/abs/2004.06870v2 ) ライセンス: Link先を確認 | Deming Ye, Yankai Lin, Jiaju Du, Zhenghao Liu, Peng Li, Maosong Sun, Zhiyuan Liu | (参考訳) BERTのような言語表現モデルは、平文から文脈意味情報を効果的に捉えることができ、適切な微調整を施した多くの下流NLPタスクにおいて有望な結果が得られることが証明されている。
しかし、既存の言語表現モデルは、全言論のコヒーレントな理解に欠かせないコア推論を明示的に扱えない。
この問題に対処するため,我々は,文脈におけるcoreferentialリレーションをキャプチャ可能な,新しい言語表現モデルcorefbertを提案する。
実験結果から、CorefBERTは既存のベースラインモデルと比較して、他の一般的なNLPタスクにおいて従来のモデルに匹敵する性能を維持しつつ、コアとなる推論を必要とする様々な下流のNLPタスクにおいて、一貫した改善を達成できることが示された。
本論文のソースコードと実験の詳細はhttps://github.com/thunlp/CorefBERT.comから入手できる。 Language representation models such as BERT could effectively capture contextual semantic information from plain text, and have been proved to achieve promising results in lots of downstream NLP tasks with appropriate fine-tuning. However, most existing language representation models cannot explicitly handle coreference, which is essential to the coherent understanding of the whole discourse. To address this issue, we present CorefBERT, a novel language representation model that can capture the coreferential relations in context. The experimental results show that, compared with existing baseline models, CorefBERT can achieve significant improvements consistently on various downstream NLP tasks that require coreferential reasoning, while maintaining comparable performance to previous models on other common NLP tasks. The source code and experiment details of this paper can be obtained from https://github.com/thunlp/CorefBERT. | 翻訳日:2022-12-13 03:32:06 公開日:2020-10-06 |
# エキスパートとしてのエンティティ: Entity Supervisionによるスパースメモリアクセス Entities as Experts: Sparse Memory Access with Entity Supervision ( http://arxiv.org/abs/2004.07202v2 ) ライセンス: Link先を確認 | Thibault F\'evry, Livio Baldini Soares, Nicholas FitzGerald, Eunsol Choi, Tom Kwiatkowski | (参考訳) 言語モデルの学習パラメータにおいて,エンティティに関する宣言的知識をキャプチャする問題に焦点を当てた。
我々は、テキストに言及されたエンティティの異なる記憶にアクセスすることができる新しいモデル、Entities as Experts (EAE)を紹介します。
エンティティ知識をシーケンスモデルに統合する以前の取り組みとは異なり、EAEのエンティティ表現はテキストから直接学習される。
我々は、eaeの学習した表現がトリビアカの質問に答えるのに十分な知識を捉えていることを示す: "who dr. who villain have been by roger delgado, anthony ainley, eric roberts?" パラメータの10倍のエンコーダ-ジェネレータトランスフォーマーモデルよりも優れている。
LAMAの知識調査によると、EAEは同様の大きさのBERTよりも現実的な知識を持ち、また外部のエンティティ知識を統合した以前のアプローチも含んでいる。
EAEはパラメータと特定のエンティティを関連付けるため、推論時にのみそのパラメータのごく一部にアクセスする必要があり、EAEのパフォーマンスにはエンティティの正確な識別と表現が不可欠であることを示す。 We focus on the problem of capturing declarative knowledge about entities in the learned parameters of a language model. We introduce a new model - Entities as Experts (EAE) - that can access distinct memories of the entities mentioned in a piece of text. Unlike previous efforts to integrate entity knowledge into sequence models, EAE's entity representations are learned directly from text. We show that EAE's learned representations capture sufficient knowledge to answer TriviaQA questions such as "Which Dr. Who villain has been played by Roger Delgado, Anthony Ainley, Eric Roberts?", outperforming an encoder-generator Transformer model with 10x the parameters. According to the LAMA knowledge probes, EAE contains more factual knowledge than a similarly sized BERT, as well as previous approaches that integrate external sources of entity knowledge. Because EAE associates parameters with specific entities, it only needs to access a fraction of its parameters at inference time, and we show that the correct identification and representation of entities is essential to EAE's performance. | 翻訳日:2022-12-13 02:45:53 公開日:2020-10-06 |
# ゲート型畳み込みニューラルネットワークを用いた認知症検出のための音声パラ言語的アプローチ Speech Paralinguistic Approach for Detecting Dementia Using Gated Convolutional Neural Network ( http://arxiv.org/abs/2004.07992v3 ) ライセンス: Link先を確認 | Mariana Rodrigues Makiuchi, Tifani Warnita, Nakamasa Inoue, Koichi Shinoda, Michitaka Yoshimura, Momoko Kitazawa, Kei Funaki, Yoko Eguchi, Taishiro Kishimoto | (参考訳) 音声データのみを利用して認知症を自動的に検出する非侵襲的かつ費用効果の高い手法を提案する。
短い音声セグメントのパラ言語的特徴を抽出し、GCNN(Gated Convolutional Neural Networks)を用いて認知症や健康に分類する。
我々は,Pitt Corpus の手法と,我々のデータセットである PROMPT Database を用いて評価を行った。
提案手法は平均114秒の音声データを用いてPitt Corpus上で73.1%の精度が得られる。
PROMPTデータベースでは,4秒の音声データを用いて74.7%の精度を示し,全患者の音声データを使用すると80.8%に向上する。
さらに,ミルド認知障害(MCI)クラスを含む3クラス分類問題に対して,40秒の音声データを用いて,60.6%の精度で評価を行った。 We propose a non-invasive and cost-effective method to automatically detect dementia by utilizing solely speech audio data. We extract paralinguistic features for a short speech segment and use Gated Convolutional Neural Networks (GCNN) to classify it into dementia or healthy. We evaluate our method on the Pitt Corpus and on our own dataset, the PROMPT Database. Our method yields the accuracy of 73.1% on the Pitt Corpus using an average of 114 seconds of speech data. In the PROMPT Database, our method yields the accuracy of 74.7% using 4 seconds of speech data and it improves to 80.8% when we use all the patient's speech data. Furthermore, we evaluate our method on a three-class classification problem in which we included the Mild Cognitive Impairment (MCI) class and achieved the accuracy of 60.6% with 40 seconds of speech data. | 翻訳日:2022-12-12 22:20:40 公開日:2020-10-06 |
# 非監督的ジェンダーバイアスの発見 Unsupervised Discovery of Implicit Gender Bias ( http://arxiv.org/abs/2004.08361v2 ) ライセンス: Link先を確認 | Anjalie Field, Yulia Tsvetkov | (参考訳) 社会での流行にもかかわらず、社会的偏見を識別することは困難であり、主にこの領域における人間の判断は信頼できない。
コメントレベルで女性に対するジェンダーバイアスを識別するために教師なしのアプローチを取り、バイアスを含む可能性のあるテキストを表面化するモデルを提示します。
主な課題は、データ内の他のアーティファクトではなく、暗黙のバイアスの兆候にモデルを集中させることです。
したがって,提案手法では,適応性マッチングと逆学習によってコンファウンドの影響を低減できる。
我々の分析は、女性政治家に向けられた偏見のあるコメントには、さまざまな批判が含まれていることを示している。
最終的に私たちの研究は、主観的な人間の判断に頼ることなく、さまざまな領域の微妙な偏見を捉える方法を提供する。 Despite their prevalence in society, social biases are difficult to identify, primarily because human judgements in this domain can be unreliable. We take an unsupervised approach to identifying gender bias against women at a comment level and present a model that can surface text likely to contain bias. Our main challenge is forcing the model to focus on signs of implicit bias, rather than other artifacts in the data. Thus, our methodology involves reducing the influence of confounds through propensity matching and adversarial learning. Our analysis shows how biased comments directed towards female politicians contain mixed criticisms, while comments directed towards other female public figures focus on appearance and sexualization. Ultimately, our work offers a way to capture subtle biases in various domains without relying on subjective human judgements. | 翻訳日:2022-12-12 13:16:06 公開日:2020-10-06 |
# 病原体感染を想定した利用者位置のプライバシー対応エンコーディングに関する近距離探索 Approximate Nearest Neighbour Search on Privacy-aware Encoding of User Locations to Identify Susceptible Infections in Simulated Epidemics ( http://arxiv.org/abs/2004.08851v2 ) ライセンス: Link先を確認 | Chandan Biswas, Debasis Ganguly and Ujjwal Bhattacharya | (参考訳) 新型コロナウイルス(covid-19)パンデミック(covid-19)で感染が急増している中、感染者に近づいたため、感染が疑われる可能性のある患者をできるだけ早く追跡することが不可欠である。
この早期接触追跡は、地域内での感染の拡散率を制限する可能性がある。
本稿では、感染した人とその位置のリストから、このような感受性のある人のリストを効果的かつ効率的に見つけることができるかを検討する。
情報検索(検索)の観点からこの問題に対処するため、各時刻における各人物の位置をベクトル空間内の点として瞬時に表現する。
対象者の指定したリストの場所をクエリとして使用することにより、近距離近傍(ann)に基づくインデックス化と検索アプローチを適用して、リアルタイムにトップkを疑うユーザのリストを取得することの実現可能性について検討する。
真のユーザ位置情報からの情報を活用することで,セキュリティやプライバシの懸念がもたらされるため,距離保存符号化手法がANN手法の有効性に与える影響についても検討する。
実データと合成データを用いた実験により、既存の ann アプローチ (kd-tree と hnsw) で検索された感受性のあるユーザのトップkリストが、十分な精度とリコール値をもたらすことが証明された。 Amidst an increasing number of infected cases during the Covid-19 pandemic, it is essential to trace, as early as possible, the susceptible people who might have been infected by the disease due to their close proximity with people who were tested positive for the virus. This early contact tracing is likely to limit the rate of spread of the infection within a locality. In this paper, we investigate how effectively and efficiently can such a list of susceptible people be found given a list of infected persons and their locations. To address this problem from an information retrieval (search) perspective, we represent the location of each person at each time instant as a point in a vector space. By using the locations of the given list of infected persons as queries, we investigate the feasibility of applying approximate nearest neighbour (ANN) based indexing and retrieval approaches to obtain a list of top-k suspected users in real-time. Since leveraging information from true user location data can lead to security and privacy concerns, we also investigate what effects does distance-preserving encoding methods have on the effectiveness of the ANN methods. Experiments conducted on real and synthetic datasets demonstrate that the top-k retrieved lists of susceptible users retrieved with existing ANN approaches (KD-tree and HNSW) yield satisfactory precision and recall values, thus indicating that ANN approaches can potentially be applied in practice to facilitate real-time contact tracing even under the presence of imposed privacy constraints. | 翻訳日:2022-12-12 00:45:05 公開日:2020-10-06 |
# 注意はウェイトだけではない:ベクトルノルムを用いたトランスフォーマーの解析 Attention is Not Only a Weight: Analyzing Transformers with Vector Norms ( http://arxiv.org/abs/2004.10102v2 ) ライセンス: Link先を確認 | Goro Kobayashi, Tatsuki Kuribayashi, Sho Yokoi, Kentaro Inui | (参考訳) 自然言語処理で最近かなりの成功を収めたトランスフォーマーの重要な要素は注意である。
そのため,トランスフォーマーの様々な言語機能について,注意重みと特定の言語現象の並列性の分析に焦点をあてる研究が盛んに行われている。
本稿では,注意重みのみを注意の出力を決定する2つの要因の1つに過ぎず,変換された入力ベクトルのノルムである第2因子を組み込んだノルムベース分析を提案する。
BERTとTransformerを用いたニューラルマシン翻訳システムの標準解析の結果は以下の通りである。
(i)従来の研究とは対照的に、BERTは特別なトークンに注意を払わず、
(ii)Transformerの注意機構から適切な単語アライメントを抽出できる。
これらの結果はトランスフォーマーの内部動作に関する洞察を与える。 Attention is a key component of Transformers, which have recently achieved considerable success in natural language processing. Hence, attention is being extensively studied to investigate various linguistic capabilities of Transformers, focusing on analyzing the parallels between attention weights and specific linguistic phenomena. This paper shows that attention weights alone are only one of the two factors that determine the output of attention and proposes a norm-based analysis that incorporates the second factor, the norm of the transformed input vectors. The findings of our norm-based analyses of BERT and a Transformer-based neural machine translation system include the following: (i) contrary to previous studies, BERT pays poor attention to special tokens, and (ii) reasonable word alignment can be extracted from attention mechanisms of Transformer. These findings provide insights into the inner workings of Transformers. | 翻訳日:2022-12-11 06:57:10 公開日:2020-10-06 |
# オクタ:対象感分析における課題と矛盾 Octa: Omissions and Conflicts in Target-Aspect Sentiment Analysis ( http://arxiv.org/abs/2004.13150v2 ) ライセンス: Link先を確認 | Zhe Zhang, Chung-Wei Hang, Munindar P. Singh | (参考訳) 意見テキストの感情は、しばしばアスペクトとターゲットワード(あるいはターゲット)の両方によって決定される。
ターゲットと側面が微妙な方法で相互結合し、しばしば相反する感情を生み出すのを観察します。
したがって、既存の感情分析モデルのように、アスペクトとターゲットからの感情のナイーブな集約がパフォーマンスを損なう。
我々は感情を推測する上での側面と目標を共同で考慮するアプローチであるオクターを提案する。
ターゲットとコンテキストワード間の関係をキャプチャして定量化するために、オクタは、暗黙的あるいは行方不明のターゲットを扱う選択的自己アテンション機構を使用している。
具体的には、ターゲットとコンテキストワード間の選択的注意と、アスペクトに基づく単語に対する注意という、2つの注意メカニズムがある。
ベンチマークデータセットでは、Octaは主要なモデルを大きなマージンで上回り、精度は1.6%から4.3%になる。 Sentiments in opinionated text are often determined by both aspects and target words (or targets). We observe that targets and aspects interrelate in subtle ways, often yielding conflicting sentiments. Thus, a naive aggregation of sentiments from aspects and targets treated separately, as in existing sentiment analysis models, impairs performance. We propose Octa, an approach that jointly considers aspects and targets when inferring sentiments. To capture and quantify relationships between targets and context words, Octa uses a selective self-attention mechanism that handles implicit or missing targets. Specifically, Octa involves two layers of attention mechanisms for, respectively, selective attention between targets and context words and attention over words based on aspects. On benchmark datasets, Octa outperforms leading models by a large margin, yielding (absolute) gains in accuracy of 1.6% to 4.3%. | 翻訳日:2022-12-09 05:20:15 公開日:2020-10-06 |
# PODNet:小さなタスクインクリメンタル学習のためのポーリング出力蒸留 PODNet: Pooled Outputs Distillation for Small-Tasks Incremental Learning ( http://arxiv.org/abs/2004.13513v3 ) ライセンス: Link先を確認 | Arthur Douillard, Matthieu Cord, Charles Ollion, Thomas Robert, Eduardo Valle | (参考訳) 生涯学習は多くの注目を集めているが、既存の研究は破滅的な忘れ物と闘い、段階的な学習の長い期間にわたって知識を蓄積している。
本研究では,表現学習にインスパイアされたモデルPODNetを提案する。
古いクラスを思い出し、新しいクラスを学ぶ際の妥協を慎重にバランスさせることで、podnetは、小さなインクリメンタルなタスクの非常に長い実行でも、破滅的な忘れ方と戦っている。
PODNetは、モデル全体に適用される効率的な空間ベースの蒸留損失と、クラス毎に複数のプロキシベクトルからなる表現によって、既存の技術に革新をもたらす。
我々はこれらのイノベーションを徹底的に検証し、CIFAR100、ImageNet100、ImageNet1000という3つのデータセット上の3つの最先端モデルと比較する。
以上の結果から,PODNetの精度は12.10点,6.51点,2.85点であった。
コードはhttps://github.com/arthurdouillard/incremental_learning.pytorchで入手できる。 Lifelong learning has attracted much attention, but existing works still struggle to fight catastrophic forgetting and accumulate knowledge over long stretches of incremental learning. In this work, we propose PODNet, a model inspired by representation learning. By carefully balancing the compromise between remembering the old classes and learning new ones, PODNet fights catastrophic forgetting, even over very long runs of small incremental tasks --a setting so far unexplored by current works. PODNet innovates on existing art with an efficient spatial-based distillation-loss applied throughout the model and a representation comprising multiple proxy vectors for each class. We validate those innovations thoroughly, comparing PODNet with three state-of-the-art models on three datasets: CIFAR100, ImageNet100, and ImageNet1000. Our results showcase a significant advantage of PODNet over existing art, with accuracy gains of 12.10, 6.51, and 2.85 percentage points, respectively. Code is available at https://github.com/arthurdouillard/incremental_learning.pytorch | 翻訳日:2022-12-08 23:28:02 公開日:2020-10-06 |
# 文学的社会ネットワークにおける情報伝達の計測 Measuring Information Propagation in Literary Social Networks ( http://arxiv.org/abs/2004.13980v2 ) ライセンス: Link先を確認 | Matthew Sims, David Bamman | (参考訳) 本稿では,文字Aから文字Bから文字Cに渡される情報の断片を,テキストでのみ記述した上で識別することを目的とした,文学における情報伝達をモデル化するタスクを提案する。
本稿では、この領域における情報伝達を測定するための新しいパイプラインについて述べるとともに、話者属性のための新しいデータセットを公開し、このパイプラインの重要なコンポーネントを、以前研究されたよりも広い範囲の文学テキストで評価できるようにする。
このパイプラインを用いて,5,000以上のフィクション作品における情報伝達のダイナミクスを分析し,異なるコミュニティ間をつなぐ構造的穴を埋めるキャラクタを通して情報が流れること,女性であるキャラクタが男性であるキャラクタよりもはるかに頻繁にこの役割を果たすように描かれることを見出した。 We present the task of modeling information propagation in literature, in which we seek to identify pieces of information passing from character A to character B to character C, only given a description of their activity in text. We describe a new pipeline for measuring information propagation in this domain and publish a new dataset for speaker attribution, enabling the evaluation of an important component of this pipeline on a wider range of literary texts than previously studied. Using this pipeline, we analyze the dynamics of information propagation in over 5,000 works of fiction, finding that information flows through characters that fill structural holes connecting different communities, and that characters who are women are depicted as filling this role much more frequently than characters who are men. | 翻訳日:2022-12-08 14:09:10 公開日:2020-10-06 |
# UDapter: 真に普遍的な依存関係解析のための言語適応 UDapter: Language Adaptation for Truly Universal Dependency Parsing ( http://arxiv.org/abs/2004.14327v2 ) ライセンス: Link先を確認 | Ahmet \"Ust\"un, Arianna Bisazza, Gosse Bouma, Gertjan van Noord | (参考訳) 多言語依存構文解析の最近の進歩は、真に普遍的なパーサーのアイデアを現実に近づけた。
しかし、言語間の干渉やモデル容量の抑制は依然として大きな障害である。
そこで本稿では,コンテキストパラメータ生成とアダプタモジュールに基づく多言語タスク適応手法を提案する。
このアプローチでは、言語間でモデルパラメータを共有しながら、言語埋め込みを通じてアダプタを学ぶことができる。
また、既存の言語型学機能を解析ネットワークに簡単にかつ効果的に統合できる。
その結果得られたパーサーであるUDapterは、高リソースおよび低リソース(ゼロショット)言語の大部分で強いモノリンガルと多言語ベースラインを上回り、提案された適応アプローチの成功を示している。
この成功の鍵は,タイプ的特徴によるソフトパラメータの共有である。 Recent advances in multilingual dependency parsing have brought the idea of a truly universal parser closer to reality. However, cross-language interference and restrained model capacity remain major obstacles. To address this, we propose a novel multilingual task adaptation approach based on contextual parameter generation and adapter modules. This approach enables to learn adapters via language embeddings while sharing model parameters across languages. It also allows for an easy but effective integration of existing linguistic typology features into the parsing network. The resulting parser, UDapter, outperforms strong monolingual and multilingual baselines on the majority of both high-resource and low-resource (zero-shot) languages, showing the success of the proposed adaptation approach. Our in-depth analyses show that soft parameter sharing via typological features is key to this success. | 翻訳日:2022-12-08 13:51:04 公開日:2020-10-06 |
# 接続性と内容関連性による雑音対話コーパスのフィルタリング Filtering Noisy Dialogue Corpora by Connectivity and Content Relatedness ( http://arxiv.org/abs/2004.14008v2 ) ライセンス: Link先を確認 | Reina Akama, Sho Yokoi, Jun Suzuki, Kentaro Inui | (参考訳) 大規模な対話データセットが最近、ニューラルネットワークエージェントのトレーニングに利用できるようになった。
しかし、これらのデータセットには許容できない発話対の非許容数が含まれていることが報告されている。
本稿では,その接続性と関連性の観点から,発話対の品質を評価する手法を提案する。
提案手法は,対話と言語学の研究コミュニティで広く共有されている知見に基づいて設計されている。
対話品質の人的判断と相対的に良好な相関関係があることを実証する。
さらに、大規模雑音対話コーパスから、潜在的に受け入れられない発話対をフィルタリングし、その品質を保証する。
提案手法によりフィルタリングされたトレーニングデータが応答生成における神経対話エージェントの品質を向上させることを実験的に確認する。 Large-scale dialogue datasets have recently become available for training neural dialogue agents. However, these datasets have been reported to contain a non-negligible number of unacceptable utterance pairs. In this paper, we propose a method for scoring the quality of utterance pairs in terms of their connectivity and relatedness. The proposed scoring method is designed based on findings widely shared in the dialogue and linguistics research communities. We demonstrate that it has a relatively good correlation with the human judgment of dialogue quality. Furthermore, the method is applied to filter out potentially unacceptable utterance pairs from a large-scale noisy dialogue corpus to ensure its quality. We experimentally confirm that training data filtered by the proposed method improves the quality of neural dialogue agents in response generation. | 翻訳日:2022-12-08 13:44:13 公開日:2020-10-06 |
# サブアスペクト関数を用いた抽出ニュース要約のための条件付きニューラル生成 Conditional Neural Generation using Sub-Aspect Functions for Extractive News Summarization ( http://arxiv.org/abs/2004.13983v3 ) ライセンス: Link先を確認 | Zhengyuan Liu, Ke Shi, Nancy F. Chen | (参考訳) 大規模トレーニングコーパスを用いたニューラルネットワークによって、テキスト要約に多くの進歩がもたらされた。
しかし、ニューズドメインでは、逆ピラミッド書き込みスタイルの出現により、位置関連の特徴を活用することで、ニューラルモデルは容易に過度に適合する。
加えて、異なるユーザー向けに様々な要約を生成するための方法が存在しない。
本稿では,サブアスペクト関数(重要度,多様性,位置)の集合を導入することで,要約生成を柔軟に制御できるニューラルフレームワークを提案する。
これらのサブaspect関数は一連の制御コードによって制御され、サマリ生成中にどのサブaspectにフォーカスするかを決定する。
位置偏りが最小の抽出要約は,位置選好を生かした標準モデルで生成した要約と同等であることを示す。
また、多様性を重視したニュース要約が、よりヒトのレーナーに好まれることを示す。
これらの結果は、より柔軟な制御オプションを提供する神経要約フレームワークが、異なるユーザの好みに合わせてカスタマイズすることが望ましいことを示唆している。 Much progress has been made in text summarization, fueled by neural architectures using large-scale training corpora. However, in the news domain, neural models easily overfit by leveraging position-related features due to the prevalence of the inverted pyramid writing style. In addition, there is an unmet need to generate a variety of summaries for different users. In this paper, we propose a neural framework that can flexibly control summary generation by introducing a set of sub-aspect functions (i.e. importance, diversity, position). These sub-aspect functions are regulated by a set of control codes to decide which sub-aspect to focus on during summary generation. We demonstrate that extracted summaries with minimal position bias is comparable with those generated by standard models that take advantage of position preference. We also show that news summaries generated with a focus on diversity can be more preferred by human raters. These results suggest that a more flexible neural summarization framework providing more control options could be desirable in tailoring to different user preferences, which is useful since it is often impractical to articulate such preferences for different applications a priori. | 翻訳日:2022-12-08 13:33:48 公開日:2020-10-06 |
# ToTTo: 制御されたテーブルからテキスト生成データセット ToTTo: A Controlled Table-To-Text Generation Dataset ( http://arxiv.org/abs/2004.14373v3 ) ライセンス: Link先を確認 | Ankur P. Parikh, Xuezhi Wang, Sebastian Gehrmann, Manaal Faruqui, Bhuwan Dhingra, Diyi Yang, Dipanjan Das | (参考訳) 我々は,wikipediaテーブルと強調されたテーブルセルのセットが与えられた場合,一文記述を生成するという,制御された生成タスクを提案する12万以上のトレーニング例を持つ,オープンドメインの英語テーブルツーテキストデータセットであるtottoを提案する。
ソーステーブルに自然だが忠実な生成ターゲットを得るために、アノテータがウィキペディアから既存の候補文を直接修正するデータセット構築プロセスを導入する。
本稿では,我々のデータセットとアノテーションプロセスの系統的解析と,いくつかの最先端ベースラインによる結果について述べる。
既存の手法では、表でサポートされていないフレーズを幻覚的に表現することが多いため、このデータセットは高精度条件付きテキスト生成のための有用な研究ベンチマークとして機能することを示唆している。 We present ToTTo, an open-domain English table-to-text dataset with over 120,000 training examples that proposes a controlled generation task: given a Wikipedia table and a set of highlighted table cells, produce a one-sentence description. To obtain generated targets that are natural but also faithful to the source table, we introduce a dataset construction process where annotators directly revise existing candidate sentences from Wikipedia. We present systematic analyses of our dataset and annotation process as well as results achieved by several state-of-the-art baselines. While usually fluent, existing methods often hallucinate phrases that are not supported by the table, suggesting that this dataset can serve as a useful research benchmark for high-precision conditional text generation. | 翻訳日:2022-12-08 12:48:27 公開日:2020-10-06 |
# SubjQA: 主観性とレビュー理解のためのデータセット SubjQA: A Dataset for Subjectivity and Review Comprehension ( http://arxiv.org/abs/2004.14283v3 ) ライセンス: Link先を確認 | Johannes Bjerva, Nikita Bhutani, Behzad Golshan, Wang-Chiew Tan, and Isabelle Augenstein | (参考訳) 主観性は客観的に観察も検証もできない内的意見や信念の表現であり、感情分析や言葉の曖昧さの解消に重要であることが示されている。
さらに、主観性はユーザー生成データの重要な側面である。
それにもかかわらず、質問応答(QA)など、そのようなデータが広まる文脈では主観性は研究されていない。
そこで我々は,新たなデータセットを構築しながら,主観性とQAの関係について検討する。
先行研究の分析と対比し,最近開発されたnlpアーキテクチャを用いた場合,主観性に関する知見が依然として残っていることを検証した。
主観性は、主観性とQAパフォーマンスのより複雑な相互作用があるにもかかわらず、QAの場合においても重要な特徴であることがわかった。
例えば、主観的質問は主観的回答と関連づけられるかもしれないし、そうでないかもしれない。
顧客レビューに基づいた英語のQAデータセット(SubjQA)をリリースし、6つの異なるドメインにまたがる質問や回答に対する主観的アノテーションを含む。 Subjectivity is the expression of internal opinions or beliefs which cannot be objectively observed or verified, and has been shown to be important for sentiment analysis and word-sense disambiguation. Furthermore, subjectivity is an important aspect of user-generated data. In spite of this, subjectivity has not been investigated in contexts where such data is widespread, such as in question answering (QA). We therefore investigate the relationship between subjectivity and QA, while developing a new dataset. We compare and contrast with analyses from previous work, and verify that findings regarding subjectivity still hold when using recently developed NLP architectures. We find that subjectivity is also an important feature in the case of QA, albeit with more intricate interactions between subjectivity and QA performance. For instance, a subjective question may or may not be associated with a subjective answer. We release an English QA dataset (SubjQA) based on customer reviews, containing subjectivity annotations for questions and answer spans across 6 distinct domains. | 翻訳日:2022-12-08 12:41:12 公開日:2020-10-06 |
# MAD-X:マルチタスク言語間転送のためのアダプタベースのフレームワーク MAD-X: An Adapter-Based Framework for Multi-Task Cross-Lingual Transfer ( http://arxiv.org/abs/2005.00052v3 ) ライセンス: Link先を確認 | Jonas Pfeiffer, Ivan Vuli\'c, Iryna Gurevych, Sebastian Ruder | (参考訳) 多言語BERTやXLM-Rのような最先端の訓練済み多言語モデルの背後にある主な目標は、ゼロショットまたは少数ショットのクロスリンガル転送を通じて、低リソース言語でのNLPアプリケーションを有効化およびブートストラップすることである。
しかしながら、モデルキャパシティの制限により、それらの転送性能は、事前トレーニング中に見つからない低リソース言語や言語において、正確には最も弱い。
モジュール言語とタスク表現を学習することにより、任意のタスクや言語への高いポータビリティとパラメータ効率の移行を可能にするアダプタベースのフレームワークであるMAD-Xを提案する。
さらに,学習済みの多言語モデルを新しい言語に適応するための,新しい非可逆アダプタアーキテクチャと強力なベースライン手法を導入する。
mad-xは、名前付きエンティティ認識と因果共通性推論において、タイプ論的に多様な言語の代表的集合を横断する言語間移動における芸術の状態を上回り、質問応答における競争結果を達成する。
私たちのコードとアダプタはAdapterHub.mlで利用可能です。 The main goal behind state-of-the-art pre-trained multilingual models such as multilingual BERT and XLM-R is enabling and bootstrapping NLP applications in low-resource languages through zero-shot or few-shot cross-lingual transfer. However, due to limited model capacity, their transfer performance is the weakest exactly on such low-resource languages and languages unseen during pre-training. We propose MAD-X, an adapter-based framework that enables high portability and parameter-efficient transfer to arbitrary tasks and languages by learning modular language and task representations. In addition, we introduce a novel invertible adapter architecture and a strong baseline method for adapting a pre-trained multilingual model to a new language. MAD-X outperforms the state of the art in cross-lingual transfer across a representative set of typologically diverse languages on named entity recognition and causal commonsense reasoning, and achieves competitive results on question answering. Our code and adapters are available at AdapterHub.ml | 翻訳日:2022-12-08 04:50:50 公開日:2020-10-06 |
# トピックモデルにうんざり?
事前訓練された単語埋め込みのクラスタも高速で良いトピックを作る! Tired of Topic Models? Clusters of Pretrained Word Embeddings Make for Fast and Good Topics too! ( http://arxiv.org/abs/2004.14914v2 ) ライセンス: Link先を確認 | Suzanna Sia, Ayush Dalmia, Sabrina J. Mielke | (参考訳) トピックモデルはドキュメントコレクションの基本的なテーマを明らかにするのに有用な分析ツールである。
提案手法は,生成的ストーリを示す確率論的トピックモデルを使用することであるが,本論文では,事前学習した単語の埋め込みをクラスタリングし,文書情報を重み付けしたクラスタリングと上位単語の再ランク付けを行う方法を提案する。
異なる単語埋め込みとクラスタリングアルゴリズムの組み合わせのベンチマークを提供し,pcaによる次元性低減による性能評価を行った。
このアプローチの最も優れた組み合わせは、従来のトピックモデルと同様に機能するが、ランタイムと計算の複雑さは低い。 Topic models are a useful analysis tool to uncover the underlying themes within document collections. The dominant approach is to use probabilistic topic models that posit a generative story, but in this paper we propose an alternative way to obtain topics: clustering pre-trained word embeddings while incorporating document information for weighted clustering and reranking top words. We provide benchmarks for the combination of different word embeddings and clustering algorithms, and analyse their performance under dimensionality reduction with PCA. The best performing combination for our approach performs as well as classical topic models, but with lower runtime and computational complexity. | 翻訳日:2022-12-08 04:34:07 公開日:2020-10-06 |
# BERTによるユニバーサル依存関係:より具体的でより一般的なもの Universal Dependencies according to BERT: both more specific and more general ( http://arxiv.org/abs/2004.14620v3 ) ライセンス: Link先を確認 | Tomasz Limisiewicz and Rudolf Rosa and David Mare\v{c}ek | (参考訳) 本研究は,自己意図からラベル付き依存木を抽出することにより,BERTが捉えた構文抽象の形式と範囲を分析することに焦点を当てる。
以前の研究では、個々のBERTヘッドが特定の依存関係関係型をエンコードする傾向があった。
BERTとUD(Universal Dependencies)アノテーションを明示的に比較することにより,これらの知見を拡張し,一対一で一致しないことが多いことを示す。
関係の同定と構文木構築の手法を提案する。
私たちのアプローチは、以前の作業よりもはるかに一貫性のある依存関係ツリーを生成します。
同時に、最小限の監督だけでうまく適用でき、言語をまたいでうまく一般化することができる。 This work focuses on analyzing the form and extent of syntactic abstraction captured by BERT by extracting labeled dependency trees from self-attentions. Previous work showed that individual BERT heads tend to encode particular dependency relation types. We extend these findings by explicitly comparing BERT relations to Universal Dependencies (UD) annotations, showing that they often do not match one-to-one. We suggest a method for relation identification and syntactic tree construction. Our approach produces significantly more consistent dependency trees than previous work, showing that it better explains the syntactic abstractions in BERT. At the same time, it can be successfully applied with only a minimal amount of supervision and generalizes well across languages. | 翻訳日:2022-12-08 04:16:59 公開日:2020-10-06 |
# 英語開発を使わない: 文脈埋め込みのゼロショット横断的評価について Don't Use English Dev: On the Zero-Shot Cross-Lingual Evaluation of Contextual Embeddings ( http://arxiv.org/abs/2004.15001v2 ) ライセンス: Link先を確認 | Phillip Keung, Yichao Lu, Julian Salazar, Vikas Bhardwaj | (参考訳) 多言語コンテキスト埋め込みは、ゼロショット言語間移動学習において最先端の性能を示し、多言語BERTは1つのソース言語で微調整され、異なるターゲット言語で評価される。
しかし、mBERTゼロショット精度の公表結果は、4つの論文のMLDoc分類タスクにおいて17ポイントまで異なる。
ゼロショット設定において、英語のデベロップメント精度を用いてモデル選択を行う標準的な手法は、MLDocとXNLIタスクで再現可能な結果を得るのが困難であることを示す。
英語開発精度は、ターゲット言語精度と無相関(あるいは反相関)であり、ゼロショット性能は、同じ微調整実行時と異なる微調整実行時で大きく異なる。
これらの再現性問題は、異なる事前訓練された埋め込み(例えば、XLM-RのMLQA)のタスクにも存在している。
ゼロショットの結果と一緒にオラクルスコアを提供することを推奨します。それでも、英語のデータを使って微調整しますが、ターゲットのデベロップメントセットでチェックポイントを選択します。
この上界を報告すれば、任意に悪いチェックポイントを避けることで結果がより一貫したものになる。 Multilingual contextual embeddings have demonstrated state-of-the-art performance in zero-shot cross-lingual transfer learning, where multilingual BERT is fine-tuned on one source language and evaluated on a different target language. However, published results for mBERT zero-shot accuracy vary as much as 17 points on the MLDoc classification task across four papers. We show that the standard practice of using English dev accuracy for model selection in the zero-shot setting makes it difficult to obtain reproducible results on the MLDoc and XNLI tasks. English dev accuracy is often uncorrelated (or even anti-correlated) with target language accuracy, and zero-shot performance varies greatly at different points in the same fine-tuning run and between different fine-tuning runs. These reproducibility issues are also present for other tasks with different pre-trained embeddings (e.g., MLQA with XLM-R). We recommend providing oracle scores alongside zero-shot results: still fine-tune using English data, but choose a checkpoint with the target dev set. Reporting this upper bound makes results more consistent by avoiding arbitrarily bad checkpoints. | 翻訳日:2022-12-08 03:13:22 公開日:2020-10-06 |
# CIRCE at SemEval-2020 Task 1: Ensembling Context-free and Context-Dependent Word Representations CIRCE at SemEval-2020 Task 1: Ensembling Context-Free and Context-Dependent Word Representations ( http://arxiv.org/abs/2005.06602v3 ) ライセンス: Link先を確認 | Martin P\"omsl (Osnabr\"uck University) and Roman Lyapin (Cogent Labs Inc.) | (参考訳) 本稿では,SemEval-2020 Task 1: Unsupervised Lexical Semantic Change Detection (Subtask)への貢献について述べる。
2) チームUG学生インターンが引き継ぐ。
文脈に依存しない単語表現に基づいて予測を行うアンサンブルモデルを提案する。
その結果,(1)文脈自由語表現は強固かつ強固なベースラインであり,(2)文分類目的を用いて有用な文脈依存語表現を得ることが可能であり,(3)これらの表現を組み合わせることでデータセットの性能が向上し,他に対する性能が低下することがわかった。 This paper describes the winning contribution to SemEval-2020 Task 1: Unsupervised Lexical Semantic Change Detection (Subtask 2) handed in by team UG Student Intern. We present an ensemble model that makes predictions based on context-free and context-dependent word representations. The key findings are that (1) context-free word representations are a powerful and robust baseline, (2) a sentence classification objective can be used to obtain useful context-dependent word representations, and (3) combining those representations increases performance on some datasets while decreasing performance on others. | 翻訳日:2022-12-08 03:11:23 公開日:2020-10-06 |
# トルク:時間順序問題に対する読み解きデータセット TORQUE: A Reading Comprehension Dataset of Temporal Ordering Questions ( http://arxiv.org/abs/2005.00242v2 ) ライセンス: Link先を確認 | Qiang Ning, Hao Wu, Rujun Han, Nanyun Peng, Matt Gardner, Dan Roth | (参考訳) 読解の重要な部分は、たとえそれらの関係が明示的に述べられなくても、テキストに記述された出来事間の時間的関係を理解できることである。
しかし、現在の機械読解ベンチマークは、時間現象をテストするための質問がほとんどないため、これらのベンチマークで訓練されたシステムには、"前/後(ある出来事)に何が起こったか"といった質問に答える能力がない。
TORQUEは3.2kニューススニペット上に構築された,時間的関係を問う21kの質問に対する新しい英語読解ベンチマークである。
その結果,RoBERTa-large は TORQUE の試験セットで 51% の精度で一致した。 A critical part of reading is being able to understand the temporal relationships between events described in a passage of text, even when those relationships are not explicitly stated. However, current machine reading comprehension benchmarks have practically no questions that test temporal phenomena, so systems trained on these benchmarks have no capacity to answer questions such as "what happened before/after [some event]?" We introduce TORQUE, a new English reading comprehension benchmark built on 3.2k news snippets with 21k human-generated questions querying temporal relationships. Results show that RoBERTa-large achieves an exact-match score of 51% on the test set of TORQUE, about 30% behind human performance. | 翻訳日:2022-12-07 23:36:15 公開日:2020-10-06 |
# 知識グラフ推論のためのルールガイダンスを用いた協調エージェントの学習 Learning Collaborative Agents with Rule Guidance for Knowledge Graph Reasoning ( http://arxiv.org/abs/2005.00571v2 ) ライセンス: Link先を確認 | Deren Lei and Gangrong Jiang and Xiaotao Gu and Kexuan Sun and Yuning Mao and Xiang Ren | (参考訳) ウォークベースのモデルは、解釈可能な決定を行いながら、十分なパフォーマンスを達成し、知識グラフ推論(KG)の利点を示している。
しかし、交通中のKGが提示するスパース報酬信号は、洗練された歩行に基づく強化学習(RL)モデルを導くには不十分であることが多い。
別のアプローチは、従来の記号法(例:ルール帰納法)を使用することで、優れた性能を達成するが、記号表現の制限により一般化が難しい。
本稿では,シンボルベースの手法によって生成される高品質なルールを利用して,歩行型エージェントの報酬管理を行うルールガイドを提案する。
ベンチマークデータセットの実験では、Re RuleGuiderは解釈可能性を失うことなく、ウォークベースモデルのパフォーマンスを改善する。 Walk-based models have shown their advantages in knowledge graph (KG) reasoning by achieving decent performance while providing interpretable decisions. However, the sparse reward signals offered by the KG during traversal are often insufficient to guide a sophisticated walk-based reinforcement learning (RL) model. An alternate approach is to use traditional symbolic methods (e.g., rule induction), which achieve good performance but can be hard to generalize due to the limitation of symbolic representation. In this paper, we propose RuleGuider, which leverages high-quality rules generated by symbolic-based methods to provide reward supervision for walk-based agents. Experiments on benchmark datasets show that RuleGuider improves the performance of walk-based models without losing interpretability. | 翻訳日:2022-12-07 22:33:59 公開日:2020-10-06 |
# NLPタスク間の転送可能性の探索と予測 Exploring and Predicting Transferability across NLP Tasks ( http://arxiv.org/abs/2005.00770v2 ) ライセンス: Link先を確認 | Tu Vu, Tong Wang, Tsendsuren Munkhdalai, Alessandro Sordoni, Adam Trischler, Andrew Mattarella-Micke, Subhransu Maji, Mohit Iyyer | (参考訳) NLPの最近の進歩は、大規模言語モデルのトレーニングと下流タスクへの転送の有効性を示している。
これらのモデルを言語モデリング以外のタスクで微調整することで、パフォーマンスをさらに向上できるだろうか?
本稿では,3種類の問題(テキスト分類,質問応答,シーケンスラベリング)において,33のNLPタスク間の伝達可能性について広範な研究を行う。
以上の結果から,特に目標タスクデータが不足している場合には,従来考えられていたよりも転送学習の方が有益であることが示唆され,ソースタスクが小さい場合や,ターゲットタスクと大きく異なる場合(例えば,DROP QAデータセットへのパート・オブ・音声のタグ付け転送など)にも性能が向上することが示された。
また,任意の対象タスクに対して最も転送可能なソースタスクを予測できるタスク埋め込みを開発し,ソースサイズとターゲットデータサイズで制御された実験においてその効果を検証する。
全体としては、ソースデータサイズ、タスクとドメインの類似性、タスクの複雑さといった要因が、転送可能性を決定する上で重要な役割を果たしていることが明らかとなった。 Recent advances in NLP demonstrate the effectiveness of training large-scale language models and transferring them to downstream tasks. Can fine-tuning these models on tasks other than language modeling further improve performance? In this paper, we conduct an extensive study of the transferability between 33 NLP tasks across three broad classes of problems (text classification, question answering, and sequence labeling). Our results show that transfer learning is more beneficial than previously thought, especially when target task data is scarce, and can improve performance even when the source task is small or differs substantially from the target task (e.g., part-of-speech tagging transfers well to the DROP QA dataset). We also develop task embeddings that can be used to predict the most transferable source tasks for a given target task, and we validate their effectiveness in experiments controlled for source and target data size. Overall, our experiments reveal that factors such as source data size, task and domain similarity, and task complexity all play a role in determining transferability. | 翻訳日:2022-12-07 12:24:04 公開日:2020-10-06 |
# RMM:対話ナビゲーションのための再帰的メンタルモデル RMM: A Recursive Mental Model for Dialog Navigation ( http://arxiv.org/abs/2005.00728v2 ) ライセンス: Link先を確認 | Homero Roman Roman, Yonatan Bisk, Jesse Thomason, Asli Celikyilmaz, Jianfeng Gao | (参考訳) 言語誘導型ロボットは、人間に質問をしたり、答えを理解できる必要がある。
既存の作品の多くは後者のみに焦点を当てている。
そこで本稿では,エージェントが2つのエージェントをナビゲートし,第2のエージェントが答える質問を行う2エージェントタスクを紹介する。
心の理論から着想を得た再帰的メンタルモデル(RMM)を提案する。
ナビゲーションエージェントは、所定の候補が生成した質問に対する回答をシミュレートするガイドエージェントをモデル化する。
ガイドエージェントは、ナビゲーションエージェントをモデルにして、回答を生成するのに要するナビゲーションステップをシミュレートする。
我々は,目標に向かって進行するエージェントを強化学習報酬信号として使用し,ナビゲーション行動だけでなく,質問と回答の生成も直接通知する。
我々はRMMが新しい環境へのより良い一般化を可能にすることを示した。
ロボットが質問や質問に答える必要がある人間とエージェントの対話において、インターロカタ・モデリングは先進的かもしれない。 Language-guided robots must be able to both ask humans questions and understand answers. Much existing work focuses only on the latter. In this paper, we go beyond instruction following and introduce a two-agent task where one agent navigates and asks questions that a second, guiding agent answers. Inspired by theory of mind, we propose the Recursive Mental Model (RMM). The navigating agent models the guiding agent to simulate answers given candidate generated questions. The guiding agent in turn models the navigating agent to simulate navigation steps it would take to generate answers. We use the progress agents make towards the goal as a reinforcement learning reward signal to directly inform not only navigation actions, but also both question and answer generation. We demonstrate that RMM enables better generalization to novel environments. Interlocutor modelling may be a way forward for human-agent dialogue where robots need to both ask and answer questions. | 翻訳日:2022-12-07 11:32:11 公開日:2020-10-06 |
# タスク表現を新しいタスクに変換する Transforming task representations to perform novel tasks ( http://arxiv.org/abs/2005.04318v3 ) ライセンス: Link先を確認 | Andrew K. Lampinen and James L. McClelland | (参考訳) インテリジェンスの重要な側面は、以前のタスクとの関係に基づいて、直接の経験(ゼロショット)なしで新しいタスクに適応できる能力である。
人間はこの認知的柔軟性を示すことができる。
対照的に、特定のタスクで超人的なパフォーマンスを達成するモデルは、わずかなタスクの変更にも適応できないことが多い。
そこで本研究では,従来のタスクとの関係に基づいて,新しいタスクに適応するための一般的な計算フレームワークを提案する。
まず,タスクのベクトル表現を学習する。
新しいタスクに適応するために,基本タスク表現を変換するメタマッピング,高次タスクを提案する。
本稿では,このフレームワークの有効性を,回帰から画像分類,強化学習に至るまで,様々なタスクや計算パラダイムで実証する。
ゼロショット学習における人間の適応性と言語に基づくアプローチを比較した。
これらの領域全体では、メタマッピングが成功し、新しいタスクが以前の経験と直接矛盾している場合でも、データなしで80~90%のパフォーマンスを達成することがよくある。
さらに,メタマッピングは学習関係を通じて新しいタスクに一般化できるだけでなく,訓練中に認識できない新しい関係を用いても一般化できることを示した。
最後に、メタマッピングを出発点として使用することで、新しいタスクで後の学習を劇的に加速し、学習時間と累積エラーを大幅に削減することができる。
本研究は,知的適応性の計算基盤を考察し,認知的柔軟性をモデル化し,より柔軟な人工知能システムを構築するためのフレームワークを提供する。 An important aspect of intelligence is the ability to adapt to a novel task without any direct experience (zero-shot), based on its relationship to previous tasks. Humans can exhibit this cognitive flexibility. By contrast, models that achieve superhuman performance in specific tasks often fail to adapt to even slight task alterations. To address this, we propose a general computational framework for adapting to novel tasks based on their relationship to prior tasks. We begin by learning vector representations of tasks. To adapt to new tasks, we propose meta-mappings, higher-order tasks that transform basic task representations. We demonstrate the effectiveness of this framework across a wide variety of tasks and computational paradigms, ranging from regression to image classification and reinforcement learning. We compare to both human adaptability and language-based approaches to zero-shot learning. Across these domains, meta-mapping is successful, often achieving 80-90% performance, without any data, on a novel task, even when the new task directly contradicts prior experience. We further show that meta-mapping can not only generalize to new tasks via learned relationships, but can also generalize using novel relationships unseen during training. Finally, using meta-mapping as a starting point can dramatically accelerate later learning on a new task, and reduce learning time and cumulative error substantially. Our results provide insight into a possible computational basis of intelligent adaptability and offer a possible framework for modeling cognitive flexibility and building more flexible artificial intelligence systems. | 翻訳日:2022-12-05 11:31:13 公開日:2020-10-06 |
# 解析多様体学習:連続制御のための表現の統合と評価 Analytic Manifold Learning: Unifying and Evaluating Representations for Continuous Control ( http://arxiv.org/abs/2006.08718v2 ) ライセンス: Link先を確認 | Rika Antonova, Maksim Maydanskiy, Danica Kragic, Sam Devlin, Katja Hofmann | (参考訳) ストリーミング高次元観測から再利用可能な状態表現を学習する問題に対処する。
これは強化学習(rl)のような領域において重要であり、トレーニング中に非定常データ分布を生成する。
2つの重要な貢献をします
まず,潜在状態と真の低次元状態の整合を測定する評価スイートを提案する。
我々は、広く使われている教師なし学習アプローチをベンチマークする。
これは潜在空間に追加の制約/目的を課す既存のアプローチの強みと限界を明らかにする。
第2の貢献は、潜在関係を学ぶための数学的定式化です。
ソースドメインで解析関係を学び、対象ドメインで学習するとき、潜在空間を構築するのにこれらの関係を使用する。
この定式化により、より一般的で柔軟で原理的に潜在空間を形作ることができる。
制約的な単純化やドメイン固有の情報を必要とすることなく、独立した関係を学ぶという概念を定式化する。
本稿では,数学的性質,具体的なアルゴリズムの実装,学習成功の検証,潜在関係の伝達について述べる。 We address the problem of learning reusable state representations from streaming high-dimensional observations. This is important for areas like Reinforcement Learning (RL), which yields non-stationary data distributions during training. We make two key contributions. First, we propose an evaluation suite that measures alignment between latent and true low-dimensional states. We benchmark several widely used unsupervised learning approaches. This uncovers the strengths and limitations of existing approaches that impose additional constraints/objectives on the latent space. Our second contribution is a unifying mathematical formulation for learning latent relations. We learn analytic relations on source domains, then use these relations to help structure the latent space when learning on target domains. This formulation enables a more general, flexible and principled way of shaping the latent space. It formalizes the notion of learning independent relations, without imposing restrictive simplifying assumptions or requiring domain-specific information. We present mathematical properties, concrete algorithms for implementation and experimental validation of successful learning and transfer of latent relations. | 翻訳日:2022-11-21 04:01:06 公開日:2020-10-06 |
# 連成形成における文脈的・可能性的推論 Contextual and Possibilistic Reasoning for Coalition Formation ( http://arxiv.org/abs/2006.11097v2 ) ライセンス: Link先を確認 | Antonis Bikakis, Patrice Caire | (参考訳) マルチエージェントシステムでは、エージェントは必要なリソースが不足している場合や必要なアクションを実行する能力がない場合など、目標を達成するために他のエージェントに依存する必要があることが多い。
エージェントは協力する必要がある。
では、疑問が浮かび上がってくる。 どのエージェントと協力するべきなのか?
エージェントが目標を達成するための、潜在的な連合とは何か?
可能性の数がとても多いので、どうやってプロセスを自動化するのか?
そして、エージェントが特定のタスクを実行する能力の不確実性を考慮して、最も適切な連立をどうやって選ぶのか?
本稿では,MSSツールを用いたマルチエージェントシステムにおけるエージェント間の連立関係の発見と評価について,エージェントの行動に関する不確実性を考慮して検討する。
私たちはまず、文脈的推論アプローチを用いて、連立の形成のためのソリューション空間を計算します。
第2に、エージェントをマルチコンテキストシステム(MCS)のコンテキストとしてモデル化し、エージェント間の依存関係をブリッジルールとしてモデル化する。
第3に,mcs平衡のアルゴリズムを用いて,すべての潜在的連立を体系的に計算し,機能的および非機能的要件を満たし,最適な解を選択する方法を提案する。
最後に,エージェントの行動の不確実性に対処するため,確率論的推論の特徴を用いてアプローチを拡張した。
ロボット工学の例を例に紹介する。 In multiagent systems, agents often have to rely on other agents to reach their goals, for example when they lack a needed resource or do not have the capability to perform a required action. Agents therefore need to cooperate. Then, some of the questions raised are: Which agent(s) to cooperate with? What are the potential coalitions in which agents can achieve their goals? As the number of possibilities is potentially quite large, how to automate the process? And then, how to select the most appropriate coalition, taking into account the uncertainty in the agents' abilities to carry out certain tasks? In this article, we address the question of how to find and evaluate coalitions among agents in multiagent systems using MCS tools, while taking into consideration the uncertainty around the agents' actions. Our methodology is the following: We first compute the solution space for the formation of coalitions using a contextual reasoning approach. Second, we model agents as contexts in Multi-Context Systems (MCS), and dependence relations among agents seeking to achieve their goals, as bridge rules. Third, we systematically compute all potential coalitions using algorithms for MCS equilibria, and given a set of functional and non-functional requirements, we propose ways to select the best solutions. Finally, in order to handle the uncertainty in the agents' actions, we extend our approach with features of possibilistic reasoning. We illustrate our approach with an example from robotics. | 翻訳日:2022-11-19 05:07:56 公開日:2020-10-06 |
# QTRAN++:協調型マルチエージェント強化学習のための値変換の改善 QTRAN++: Improved Value Transformation for Cooperative Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2006.12010v2 ) ライセンス: Link先を確認 | Kyunghwan Son, Sungsoo Ahn, Roben Delos Reyes, Jinwoo Shin, Yung Yi | (参考訳) QTRANはマルチエージェント強化学習(MARL)アルゴリズムで、最大級の共同動作値関数を学習することができる。
しかし、理論上の強い保証にもかかわらず、Starcraft Multi-Agent Challenge (SMAC)のような複雑な環境での実証的な性能は低い。
本稿では,QTRANの性能ボトルネックを特定し,QTRAN++と命名されたバージョンを提案する。
私たちの利益は
(i)qtranの訓練目標の安定化
(ii)qtranのアクション値推定器間の厳密な役割分離の除去、及び
(iii)価値変換のためのマルチヘッド混合ネットワークの導入。
広範な評価を通じて,我々の診断が正しいことを確認し,qtran++は経験的性能と理論的保証のギャップを橋渡しすることに成功した。
特に、QTRAN++はSMAC環境で最先端のパフォーマンスを新たに達成している。
コードはリリースされます。 QTRAN is a multi-agent reinforcement learning (MARL) algorithm capable of learning the largest class of joint-action value functions up to date. However, despite its strong theoretical guarantee, it has shown poor empirical performance in complex environments, such as Starcraft Multi-Agent Challenge (SMAC). In this paper, we identify the performance bottleneck of QTRAN and propose a substantially improved version, coined QTRAN++. Our gains come from (i) stabilizing the training objective of QTRAN, (ii) removing the strict role separation between the action-value estimators of QTRAN, and (iii) introducing a multi-head mixing network for value transformation. Through extensive evaluation, we confirm that our diagnosis is correct, and QTRAN++ successfully bridges the gap between empirical performance and theoretical guarantee. In particular, QTRAN++ newly achieves state-of-the-art performance in the SMAC environment. The code will be released. | 翻訳日:2022-11-18 04:44:50 公開日:2020-10-06 |
# 実世界のニューラルネットワークの連鎖グラフ解釈 A Chain Graph Interpretation of Real-World Neural Networks ( http://arxiv.org/abs/2006.16856v2 ) ライセンス: Link先を確認 | Yuesong Shen, Daniel Cremers | (参考訳) 過去10年間、さまざまな領域で最先端の研究と応用が盛んに行われてきた。
しかし、ほとんどの進歩は実証的に確立されており、その理論的分析はまだ不十分である。
ひとつの大きな問題は、ニューラルネットワーク(NN)を関数近似器として解釈することは、詳細な分析をサポートするには一般的すぎることです。
本稿では,nnsを連鎖グラフ (cgs) として,フィードフォワードを近似推定法として,代替解釈を提案することで,この問題を解決した。
CG解釈は、確率的グラフィカルモデルのリッチな理論的枠組みの中で、各NNコンポーネントの性質を規定する一方で、実際のNNを任意の深さ、マルチブランチ、様々なアクティベーションでカバーし、畳み込み/リカレント層、残留ブロック、ドロップアウトなどの共通構造をカバーしている。
我々は, cg解釈が様々なnn手法に対して新しい理論的支援と洞察を提供するとともに, 部分的に崩壊したフィードフォワード推論の概念のような新しい深層学習アプローチを導出できることを具体例で示す。
したがって、ニューラルネットワークの理解を深め、将来のディープラーニング研究に一貫性のある理論的な定式化を提供する、有望なフレームワークである。 The last decade has witnessed a boom of deep learning research and applications achieving state-of-the-art results in various domains. However, most advances have been established empirically, and their theoretical analysis remains lacking. One major issue is that our current interpretation of neural networks (NNs) as function approximators is too generic to support in-depth analysis. In this paper, we remedy this by proposing an alternative interpretation that identifies NNs as chain graphs (CGs) and feed-forward as an approximate inference procedure. The CG interpretation specifies the nature of each NN component within the rich theoretical framework of probabilistic graphical models, while at the same time remains general enough to cover real-world NNs with arbitrary depth, multi-branching and varied activations, as well as common structures including convolution / recurrent layers, residual block and dropout. We demonstrate with concrete examples that the CG interpretation can provide novel theoretical support and insights for various NN techniques, as well as derive new deep learning approaches such as the concept of partially collapsed feed-forward inference. It is thus a promising framework that deepens our understanding of neural networks and provides a coherent theoretical formulation for future deep learning research. | 翻訳日:2022-11-15 04:54:09 公開日:2020-10-06 |
# Federated Learning and Differential Privacy: ソフトウェアツール分析、Sherpa.ai FLフレームワーク、およびデータプライバシ保護のための方法論ガイドライン Federated Learning and Differential Privacy: Software tools analysis, the Sherpa.ai FL framework and methodological guidelines for preserving data privacy ( http://arxiv.org/abs/2007.00914v2 ) ライセンス: Link先を確認 | Nuria Rodr\'iguez-Barroso, Goran Stipcich, Daniel Jim\'enez-L\'opez, Jos\'e Antonio Ruiz-Mill\'an, Eugenio Mart\'inez-C\'amara, Gerardo Gonz\'alez-Seco, M. Victoria Luz\'on, Miguel \'Angel Veganzones, Francisco Herrera | (参考訳) データプライバシを保護する最先端の人工知能サービスに対する高い需要は、これらの要件に適合する新しい機械学習パラダイムの研究を促している。
フェデレーション学習は、データをデータサイロに保持する分散学習方法を通じて、データのプライバシを保護するという野心を持っている。
同様に、差分プライバシーは、フェデレーション学習の要素間のコミュニケーションにおけるプライバシー損失を測定することによって、データプライバシーの保護を改善することができる。
データプライバシ保護の課題に対するフェデレーション学習とディファレンシャルプライバシの将来のマッチングは、機能をサポートするいくつかのソフトウェアツールのリリースを招いているが、それらのテクニックに対する統一的なビジョンや、その使用をサポートする方法論的ワークフローが欠如している。
そこで本研究では,連合学習と差分プライバシーの全体観に基づいて構築された,sherpa.ai連合学習フレームワークを提案する。
これは、機械学習パラダイムをフェデレーション学習に適用する方法の研究と、フェデレーション学習と差分プライバシーに基づく人工知能サービスを開発するための方法論ガイドラインの定義から生まれた。
本稿では,Sherpa.aiフェデレートラーニングフレームワークで方法論ガイドラインに従う方法について,分類と回帰ユースケースを用いて示す。 The high demand of artificial intelligence services at the edges that also preserve data privacy has pushed the research on novel machine learning paradigms that fit those requirements. Federated learning has the ambition to protect data privacy through distributed learning methods that keep the data in their data silos. Likewise, differential privacy attains to improve the protection of data privacy by measuring the privacy loss in the communication among the elements of federated learning. The prospective matching of federated learning and differential privacy to the challenges of data privacy protection has caused the release of several software tools that support their functionalities, but they lack of the needed unified vision for those techniques, and a methodological workflow that support their use. Hence, we present the Sherpa.ai Federated Learning framework that is built upon an holistic view of federated learning and differential privacy. It results from the study of how to adapt the machine learning paradigm to federated learning, and the definition of methodological guidelines for developing artificial intelligence services based on federated learning and differential privacy. We show how to follow the methodological guidelines with the Sherpa.ai Federated Learning framework by means of a classification and a regression use cases. | 翻訳日:2022-11-14 12:48:14 公開日:2020-10-06 |
# UnRectDepthNet:共通カメラ歪みモデル処理のためのジェネリックフレームワークを用いた自己監督単眼深度推定 UnRectDepthNet: Self-Supervised Monocular Depth Estimation using a Generic Framework for Handling Common Camera Distortion Models ( http://arxiv.org/abs/2007.06676v3 ) ライセンス: Link先を確認 | Varun Ravi Kumar, Senthil Yogamani, Markus Bach, Christian Witt, Stefan Milz and Patrick Mader | (参考訳) 古典的コンピュータビジョンでは、整流は多視点深度推定の不可欠な部分である。
典型的には、エピポーラ補正とレンズ歪み補正を含む。
このプロセスは深さ推定を大幅に単純化し、cnnのアプローチで採用されている。
しかし、修正には、視野の縮小(FOV)、再サンプリング歪み、校正誤差に対する感度など、いくつかの副作用がある。
この効果は特に大きな歪み(広角魚眼カメラなど)の場合には顕著に発音される。
本稿では,非再現単眼映像から深さ,ユークリッド距離,視覚オドメトリを推定する汎用的なスケールアウェア自己教師付きパイプラインを提案する。
補正されたKITTIデータセットと同等のバレル歪みを有する未修正KITTIデータセットに対して、同様の精度を示す。
補正ステップがCNNモデルに暗黙的に吸収されるという直感は、複雑さを増すことなく歪みモデルを学習する。
提案手法は視野の縮小に悩まされず,推論時の修正に要する計算コストを回避する。
提案フレームワークの汎用性をさらに説明するために,190$^\circ$水平視野を持つ広角魚眼カメラに適用する。
トレーニングフレームワークUnRectDepthNetは、カメラ歪みモデルを引数として取り込んで、プロジェクションとアンプロジェクション機能を適用する。
提案アルゴリズムはkitti正規化データセット上でさらに評価され,これまでのfisheye distancenetの成果を改良した最新結果が得られる。
歪んだテストシーンのビデオシーケンスの質的な結果は、優れたパフォーマンス https://youtu.be/K6pbx3bU4Ssを示している。 In classical computer vision, rectification is an integral part of multi-view depth estimation. It typically includes epipolar rectification and lens distortion correction. This process simplifies the depth estimation significantly, and thus it has been adopted in CNN approaches. However, rectification has several side effects, including a reduced field of view (FOV), resampling distortion, and sensitivity to calibration errors. The effects are particularly pronounced in case of significant distortion (e.g., wide-angle fisheye cameras). In this paper, we propose a generic scale-aware self-supervised pipeline for estimating depth, euclidean distance, and visual odometry from unrectified monocular videos. We demonstrate a similar level of precision on the unrectified KITTI dataset with barrel distortion comparable to the rectified KITTI dataset. The intuition being that the rectification step can be implicitly absorbed within the CNN model, which learns the distortion model without increasing complexity. Our approach does not suffer from a reduced field of view and avoids computational costs for rectification at inference time. To further illustrate the general applicability of the proposed framework, we apply it to wide-angle fisheye cameras with 190$^\circ$ horizontal field of view. The training framework UnRectDepthNet takes in the camera distortion model as an argument and adapts projection and unprojection functions accordingly. The proposed algorithm is evaluated further on the KITTI rectified dataset, and we achieve state-of-the-art results that improve upon our previous work FisheyeDistanceNet. Qualitative results on a distorted test scene video sequence indicate excellent performance https://youtu.be/K6pbx3bU4Ss. | 翻訳日:2022-11-10 23:51:56 公開日:2020-10-06 |
# AdapterHub: トランスフォーマーを適応するためのフレームワーク AdapterHub: A Framework for Adapting Transformers ( http://arxiv.org/abs/2007.07779v3 ) ライセンス: Link先を確認 | Jonas Pfeiffer, Andreas R\"uckl\'e, Clifton Poth, Aishwarya Kamath, Ivan Vuli\'c, Sebastian Ruder, Kyunghyun Cho, Iryna Gurevych | (参考訳) NLPの現在のモダス・オペランディは、数百万から数十億のパラメータからなる訓練済みモデルのダウンロードと微調整を含む。
このような大規模なトレーニングモデルの収集と共有は高価で遅く、時間を要するため、多くのタスクから学習するより汎用的で汎用的なNLPメソッドへの進歩を妨げる。
事前訓練されたモデルの各レイヤに挿入される小さな学習ボトルネック層であるアダプタは、モデル全体の完全な微調整を回避してこの問題を改善する。
しかし、アダプタレイヤの共有と統合は簡単ではない。
さまざまなタスクや言語に対して,事前学習されたアダプタの動的"ストッチイン"を可能にするフレームワークであるadapterhubを提案する。
人気のあるHuggingFace Transformersライブラリの上に構築されたこのフレームワークは、タスクや言語をまたいだ最先端のトレーニング済みモデル(BERT、RoBERTa、XLM-Rなど)の極めて簡単かつ迅速な適応を可能にする。
アダプタのダウンロード、共有、トレーニングは可能な限りシームレスで、トレーニングスクリプトと特別なインフラストラクチャの変更を最小限にする。
当社のフレームワークは,特に低リソースシナリオにおいて,タスク固有のモデル共有へのスケーラブルで簡単なアクセスを可能にします。
adapterhubには最新のアダプタアーキテクチャがすべて含まれており、https://adapterhub.mlで見ることができる。 The current modus operandi in NLP involves downloading and fine-tuning pre-trained models consisting of millions or billions of parameters. Storing and sharing such large trained models is expensive, slow, and time-consuming, which impedes progress towards more general and versatile NLP methods that learn from and for many tasks. Adapters -- small learnt bottleneck layers inserted within each layer of a pre-trained model -- ameliorate this issue by avoiding full fine-tuning of the entire model. However, sharing and integrating adapter layers is not straightforward. We propose AdapterHub, a framework that allows dynamic "stitching-in" of pre-trained adapters for different tasks and languages. The framework, built on top of the popular HuggingFace Transformers library, enables extremely easy and quick adaptations of state-of-the-art pre-trained models (e.g., BERT, RoBERTa, XLM-R) across tasks and languages. Downloading, sharing, and training adapters is as seamless as possible using minimal changes to the training scripts and a specialized infrastructure. Our framework enables scalable and easy access to sharing of task-specific models, particularly in low-resource scenarios. AdapterHub includes all recent adapter architectures and can be found at https://AdapterHub.ml. | 翻訳日:2022-11-10 05:46:38 公開日:2020-10-06 |
# リカレントニューラルネットワークを用いた時系列予測のための高速雑音フィルタリングアルゴリズム A fast noise filtering algorithm for time series prediction using recurrent neural networks ( http://arxiv.org/abs/2007.08063v3 ) ライセンス: Link先を確認 | Boris Rubinstein | (参考訳) 近年の研究では、ノイズ入力に基づくリカレントニューラルネットワーク(RNN)による時系列予測が、スムーズな予測軌道を生成することが示されている。
本稿では,RNNの内部力学を考察し,そのような動作に必要な条件のセットを確立する。
この解析に基づいて,新しい近似アルゴリズムを提案し,精度を損なうことなく予測プロセスを著しく高速化することを示す。 Recent research demonstrate that prediction of time series by recurrent neural networks (RNNs) based on the noisy input generates a smooth anticipated trajectory. We examine the internal dynamics of RNNs and establish a set of conditions required for such behavior. Based on this analysis we propose a new approximate algorithm and show that it significantly speeds up the predictive process without loss of accuracy. | 翻訳日:2022-11-09 22:39:49 公開日:2020-10-06 |
# スーパーピクセルによるセルフスーパービジョン:注記なしの医用画像分割の訓練 Self-Supervision with Superpixels: Training Few-shot Medical Image Segmentation without Annotation ( http://arxiv.org/abs/2007.09886v2 ) ライセンス: Link先を確認 | Cheng Ouyang, Carlo Biffi, Chen Chen, Turkay Kart, Huaqi Qiu, Daniel Rueckert | (参考訳) ショーショットセマンティックセグメンテーション(FSS)は医療画像の応用に大きな可能性を持っている。
既存のFSS技術の多くは、トレーニングのために豊富な注釈付きセマンティッククラスを必要とする。
しかし、これらの方法はアノテーションの欠如により医用画像には適用できない可能性がある。
この問題に対処するために,(1) トレーニング中のアノテーションの必要をなくすために, 医用画像のための新しい自己監督型FSSフレームワークを提案する。
さらにスーパーピクセルベースの擬似ラベルが生成され,(2)先駆的ネットワークに接続された適応型局所プロトタイププーリングモジュールが医用画像分割における難解な前後不均衡問題を解決する。(3)ctおよびmriの腹部臓器分画とmriの心臓分画の3つの異なる課題を用いて,医用画像に対する提案手法の汎用性を示す。
以上の結果から, 医用画像分割では, 従来のfss法よりも, 訓練に手作業によるアノテーションを必要とする。 Few-shot semantic segmentation (FSS) has great potential for medical imaging applications. Most of the existing FSS techniques require abundant annotated semantic classes for training. However, these methods may not be applicable for medical images due to the lack of annotations. To address this problem we make several contributions: (1) A novel self-supervised FSS framework for medical images in order to eliminate the requirement for annotations during training. Additionally, superpixel-based pseudo-labels are generated to provide supervision; (2) An adaptive local prototype pooling module plugged into prototypical networks, to solve the common challenging foreground-background imbalance problem in medical image segmentation; (3) We demonstrate the general applicability of the proposed approach for medical images using three different tasks: abdominal organ segmentation for CT and MRI, as well as cardiac segmentation for MRI. Our results show that, for medical image segmentation, the proposed method outperforms conventional FSS methods which require manual annotations for training. | 翻訳日:2022-11-08 13:49:36 公開日:2020-10-06 |
# 弱教師付き時間行動定位のための等価分類マッピング Equivalent Classification Mapping for Weakly Supervised Temporal Action Localization ( http://arxiv.org/abs/2008.07728v2 ) ライセンス: Link先を確認 | Tao Zhao, Junwei Han, Le Yang, Dingwen Zhang | (参考訳) 弱い教師付き時間的行動の定位は近年新しく出現し、広く研究されているトピックである。
既存の方法は2つのローカライゼーション・バイ・クラス化パイプライン、すなわち前分類パイプラインと後分類パイプラインに分類することができる。
事前分類パイプラインは、まず各ビデオスニペットに対して分類を行い、次にスニペットレベル分類スコアを集計してビデオレベル分類スコアを得る。
対照的に、後分類パイプラインはまずスニペットレベルの特徴を集約し、集約された特徴に基づいてビデオレベルの分類スコアを予測する。
これら2つのパイプラインの分類器は、異なる方法で使用されるが、それらが果たす役割は全く同じで、与えられた特徴を分類して対応するアクションカテゴリを識別する。
この目的のために、理想的な分類器は両方のパイプラインを動作させることができる。
これにより、これらの2つのパイプラインを統一されたフレームワークで同時に学習し、効果的な分類器を得ることができます。
具体的には,提案する学習フレームワークにおいて2つの並列ネットワークストリームを実装し,2つのローカライゼーションパイプラインを同時にモデル化し,2つのネットワークストリームを同じ分類器で共有する。
これは、新しいECM(Equivalent Classification Mapping)メカニズムを実現する。
さらに,理想的分類器は2つの特性を持つ可能性がある。
1)前分類ストリームから得られたフレームレベルの分類スコアと、後分類ストリームの特徴集約重みとが一致すべきである。
2) この2つのストリームの分類結果は同一であるべきである。
これら2つの特徴に基づき,同値機構の徹底的なマイニングを支援するために,重み遷移モジュールと等価なトレーニング戦略を提案フレームワークに導入する。 Weakly supervised temporal action localization is a newly emerging yet widely studied topic in recent years. The existing methods can be categorized into two localization-by-classification pipelines, i.e., the pre-classification pipeline and the post-classification pipeline. The pre-classification pipeline first performs classification on each video snippet and then aggregate the snippet-level classification scores to obtain the video-level classification score. In contrast, the post-classification pipeline aggregates the snippet-level features first and then predicts the video-level classification score based on the aggregated feature. Although the classifiers in these two pipelines are used in different ways, the role they play is exactly the same---to classify the given features to identify the corresponding action categories. To this end, an ideal classifier can make both pipelines work. This inspires us to simultaneously learn these two pipelines in a unified framework to obtain an effective classifier. Specifically, in the proposed learning framework, we implement two parallel network streams to model the two localization-by-classification pipelines simultaneously and make the two network streams share the same classifier. This achieves the novel Equivalent Classification Mapping (ECM) mechanism. Moreover, we discover that an ideal classifier may possess two characteristics: 1) The frame-level classification scores obtained from the pre-classification stream and the feature aggregation weights in the post-classification stream should be consistent; 2) The classification results of these two streams should be identical. Based on these two characteristics, we further introduce a weight-transition module and an equivalent training strategy into the proposed learning framework, which assists to thoroughly mine the equivalence mechanism. | 翻訳日:2022-10-27 21:30:01 公開日:2020-10-06 |
# ディープニューラルネットワークを用いた独立ベクトル解析 Independent Vector Analysis with Deep Neural Network Source Priors ( http://arxiv.org/abs/2008.11273v2 ) ライセンス: Link先を確認 | Xi-Lin Li | (参考訳) 本稿では,畳み込み音声混合分離を用いた独立ベクトル解析(iva)における密度優先法を例示として検討する。
IVAの既存のソースプリエンスのほとんどは、音声の微細構造を捉えるのにシンプルすぎる。
ここでは、特定のプロキシ分離関連性能指標を最適化することにより、ディープニューラルネットワーク(DNN)のような普遍近似器を用いて音声密度の導出を効率的に推定できることを初めて示す。
実験の結果,オンライン実装の収束速度とバッチ実装のsir(signal-to-interference ratio)では,ニューラルネットワーク密度が先行することがわかった。 This paper studies the density priors for independent vector analysis (IVA) with convolutive speech mixture separation as the exemplary application. Most existing source priors for IVA are too simplified to capture the fine structures of speeches. Here, we first time show that it is possible to efficiently estimate the derivative of speech density with universal approximators like deep neural networks (DNN) by optimizing certain proxy separation related performance indices. Experimental results suggest that the resultant neural network density priors consistently outperform previous ones in convergence speed for online implementation and signal-to-interference ratio (SIR) for batch implementation. | 翻訳日:2022-10-26 02:53:23 公開日:2020-10-06 |
# 規則化勾配による対向変形に対する抵抗の改善 Improving Resistance to Adversarial Deformations by Regularizing Gradients ( http://arxiv.org/abs/2008.12997v2 ) ライセンス: Link先を確認 | Pengfei Xia and Bin Li | (参考訳) 現実的なアプリケーションにモデルをデプロイするためには、ディープニューラルネットワークの敵攻撃に対する耐性を改善することが重要である。
しかし、ほとんどの防衛手法は、深層モデルセキュリティにおいても同様に重要な、強度の摂動を防御し、位置摂動を無視して設計されている。
本稿では, 位置摂動の典型的なクラスである対向変形に着目し, モデルの抵抗性を改善するための流れ勾配正規化を提案する。
理論的には、入力勾配正規化と比較すると、流れ勾配の正規化はより厳密な境界を得ることができる。
複数のデータセット, アーキテクチャ, 対向変形に対して, 実験結果から, フロー勾配で訓練されたモデルは, 入力勾配で学習したモデルよりも優れた抵抗性が得られることが示唆された。
また, 本手法は, 対向変形による直接訓練と比較して, 未発見攻撃のより良い結果を得ることができ, この2つの手法を組み合わせることで, さらなる耐性向上が期待できる。 Improving the resistance of deep neural networks against adversarial attacks is important for deploying models to realistic applications. However, most defense methods are designed to defend against intensity perturbations and ignore location perturbations, which should be equally important for deep model security. In this paper, we focus on adversarial deformations, a typical class of location perturbations, and propose a flow gradient regularization to improve the resistance of models. Theoretically, we prove that, compared with input gradient regularization, regularizing flow gradients is able to get a tighter bound. Over multiple datasets, architectures, and adversarial deformations, our empirical results indicate that models trained with flow gradients can acquire a better resistance than trained with input gradients with a large margin, and also better than adversarial training. Moreover, compared with directly training with adversarial deformations, our method can achieve better results in unseen attacks, and combining these two methods can improve the resistance further. | 翻訳日:2022-10-23 16:54:55 公開日:2020-10-06 |
# マルチモーダル脳腫瘍の分類 Multimodal brain tumor classification ( http://arxiv.org/abs/2009.01592v2 ) ライセンス: Link先を確認 | Marvin Lerousseau, Eric Deutsh, Nikos Paragios | (参考訳) 癌は、観察の規模によって様々な種類の情報を提供する複雑な疾患である。
ほとんどの腫瘍診断は病理組織学的スライドを観察することによって行われるが、放射線画像はがん診断の有効性に関する追加の知識をもたらすべきである。
本研究は,全スライド画像と磁気共鳴画像を組み合わせて腫瘍を分類する深層学習法について検討する。
特に当社のソリューションは,スライドイメージ全体の分類のための強力で汎用的でモジュール型のアーキテクチャで構成されています。
2020年の計算精度医学チャレンジでは、3段階の非バランスな分類タスクで実験が予定されている。
比較評価 (検証) は, 0.913, 0.897, 0.951のkappaとf1(0. 0.91, 0.90, 0.94)である。
再現性や直接的なパフォーマンス比較を含む研究目的のために、最終提出されたモデルは、Dockerイメージで、https://hub.docker.com/repository/docker/marvinler/cpm_2020_marvinlerで使用することができる。 Cancer is a complex disease that provides various types of information depending on the scale of observation. While most tumor diagnostics are performed by observing histopathological slides, radiology images should yield additional knowledge towards the efficacy of cancer diagnostics. This work investigates a deep learning method combining whole slide images and magnetic resonance images to classify tumors. In particular, our solution comprises a powerful, generic and modular architecture for whole slide image classification. Experiments are prospectively conducted on the 2020 Computational Precision Medicine challenge, in a 3-classes unbalanced classification task. We report cross-validation (resp. validation) balanced-accuracy, kappa and f1 of 0.913, 0.897 and 0.951 (resp. 0.91, 0.90 and 0.94). For research purposes, including reproducibility and direct performance comparisons, our finale submitted models are usable off-the-shelf in a Docker image available at https://hub.docker.com/repository/docker/marvinler/cpm_2020_marvinler. | 翻訳日:2022-10-22 07:26:39 公開日:2020-10-06 |
# 機械学習ツールと技術を用いた医療バイオマーカーからのマルチモーダルうつ病重症度予測 Multimodal Depression Severity Prediction from medical bio-markers using Machine Learning Tools and Technologies ( http://arxiv.org/abs/2009.05651v2 ) ライセンス: Link先を確認 | Shivani Shimpi, Shyam Thombre, Snehal Reddy, Ritik Sharma, Srijan Singh | (参考訳) うつ病は世界中の精神疾患の主要な原因となっている。
無管理のうつ病による生命の喪失は注意すべき課題であるが、診断テストや主観性が欠如している。
近年,うつ病の診断とステージ予測の自動化に行動的手がかりが用いられている。
しかし、ラベル付きビヘイビアデータセットと膨大なバリエーションがないことは、タスクを達成する上で大きな課題であることを示している。
本稿では,ユーザからのマルチモーダルな入力を一連の事前定義された質問を通じて受け取り,それをCloud MLアーキテクチャに送信し,その厳密さを代表する抑うつ商を返送するクロスプラットフォームスマートフォンアプリケーションのパラダイムに焦点を当てた,新しいカスタムCMアンサンブルアプローチを提案する。
本アプリは,多クラス分類モデルに基づく抑うつの重症度を,言語,音声,視覚的モダリティを用いて推定する。
与えられたアプローチは、言語的特徴と視覚的特徴の低レベル記述子と、質問によって促された言語特徴のコンテキストに基づいて、抑うつ者の特徴を検出し、強調し、分類しようとする。
このモデルは0.88の精度と91.56%の精度を達成した。
さらなる最適化は、意思決定の各モダリティにおいて最も影響力のある特徴の選択を通じて、モダリティ内およびモダリティ間の関係を明らかにする。 Depression has been a leading cause of mental-health illnesses across the world. While the loss of lives due to unmanaged depression is a subject of attention, so is the lack of diagnostic tests and subjectivity involved. Using behavioural cues to automate depression diagnosis and stage prediction in recent years has relatively increased. However, the absence of labelled behavioural datasets and a vast amount of possible variations prove to be a major challenge in accomplishing the task. This paper proposes a novel Custom CM Ensemble approach and focuses on a paradigm of a cross-platform smartphone application that takes multimodal inputs from a user through a series of pre-defined questions, sends it to the Cloud ML architecture and conveys back a depression quotient, representative of its severity. Our app estimates the severity of depression based on a multi-class classification model by utilizing the language, audio, and visual modalities. The given approach attempts to detect, emphasize, and classify the features of a depressed person based on the low-level descriptors for verbal and visual features, and context of the language features when prompted with a question. The model achieved a precision value of 0.88 and an accuracy of 91.56%. Further optimization reveals the intramodality and intermodality relevance through the selection of the most influential features within each modality for decision making. | 翻訳日:2022-10-19 21:00:13 公開日:2020-10-06 |
# well-typedness 保証付き高速意味解析 Fast semantic parsing with well-typedness guarantees ( http://arxiv.org/abs/2009.07365v2 ) ライセンス: Link先を確認 | Matthias Lindemann, Jonas Groschwitz, Alexander Koller | (参考訳) AM依存性解析は、複数のグラフバンクにまたがる高精度なニューラルセマンティック解析の言語学的手法である。
セマンティック価をモデル化するが、既存のパーサを遅くする型システムに依存している。
本稿では,am依存構文解析のためのa*パーサとトランジッションベースのパーサについて述べる。 AM dependency parsing is a linguistically principled method for neural semantic parsing with high accuracy across multiple graphbanks. It relies on a type system that models semantic valency but makes existing parsers slow. We describe an A* parser and a transition-based parser for AM dependency parsing which guarantee well-typedness and improve parsing speed by up to 3 orders of magnitude, while maintaining or improving accuracy. | 翻訳日:2022-10-18 06:16:44 公開日:2020-10-06 |
# イベントの終端関係抽出のためのドメイン知識を活用した構造化ニューラルネット Domain Knowledge Empowered Structured Neural Net for End-to-End Event Temporal Relation Extraction ( http://arxiv.org/abs/2009.07373v2 ) ライセンス: Link先を確認 | Rujun Han, Yichao Zhou, Nanyun Peng | (参考訳) 事象の時間的関係の抽出は情報抽出の重要な課題であり、自然言語理解において重要な役割を果たす。
以前のシステムは、タスクのパフォーマンスを改善するためにディープラーニングと事前学習された言語モデルを活用する。
しかし、これらのシステムはしばしば2つの欠点に苦しむ。
1) 神経モデルに基づく最大後進(map)推論を行う場合,従来のシステムは,絶対正しいと仮定された構造的知識,すなわちハード制約のみを使用していた。
2) 限られたデータ量でのトレーニングにおける支配的時間関係の偏り予測。
これらの問題に対処するために,確率的ドメイン知識によって構築される分布的制約により,ディープニューラルネットワークを強化するフレームワークを提案する。
ラグランジュ緩和による制約付き推論問題を解き、エンドツーエンドのイベント時間関係抽出タスクに適用する。
実験の結果,ニュース領域と臨床領域で広く使用される2つのデータセットにおいて,統計学的に有意な意味を持つベースラインニューラルネットワークモデルの改善が可能となった。 Extracting event temporal relations is a critical task for information extraction and plays an important role in natural language understanding. Prior systems leverage deep learning and pre-trained language models to improve the performance of the task. However, these systems often suffer from two short-comings: 1) when performing maximum a posteriori (MAP) inference based on neural models, previous systems only used structured knowledge that are assumed to be absolutely correct, i.e., hard constraints; 2) biased predictions on dominant temporal relations when training with a limited amount of data. To address these issues, we propose a framework that enhances deep neural network with distributional constraints constructed by probabilistic domain knowledge. We solve the constrained inference problem via Lagrangian Relaxation and apply it on end-to-end event temporal relation extraction tasks. Experimental results show our framework is able to improve the baseline neural network models with strong statistical significance on two widely used datasets in news and clinical domains. | 翻訳日:2022-10-18 05:32:38 公開日:2020-10-06 |
# 第1回微小物体検出チャレンジ:方法と結果 The 1st Tiny Object Detection Challenge:Methods and Results ( http://arxiv.org/abs/2009.07506v2 ) ライセンス: Link先を確認 | Xuehui Yu, Zhenjun Han, Yuqi Gong, Nan Jiang, Jian Zhao, Qixiang Ye, Jie Chen, Yuan Feng, Bin Zhang, Xiaodi Wang, Ying Xin, Jingwei Liu, Mingyuan Mao, Sheng Xu, Baochang Zhang, Shumin Han, Cheng Gao, Wei Tang, Lizuo Jin, Mingbo Hong, Yuchao Yang, Shuiwang Li, Huan Luo, Qijun Zhao, and Humphrey Shi | (参考訳) The 1st Tiny Object Detection (TOD) Challengeは、視野の広い画像において、小さな人物検出に焦点を絞った、新しく正確なオブジェクト検出方法の開発を奨励することを目的としている。
TinyPersonデータセットはTOD Challengeに使用されており、公開されている。
1610の画像と72651のボックスレベルアノテーションがある。
世界から36チームが参加し、第1回todチャレンジに出場した。
本稿では,第1回TODチャレンジの概要を紹介するとともに,TODチャレンジに関心のある研究者を対象に,第1回TODチャレンジの簡単な紹介を行う。
ベンチマークデータセットとその他の情報は、https://github.com/ucas-vg/TinyBenchmarkを参照してください。 The 1st Tiny Object Detection (TOD) Challenge aims to encourage research in developing novel and accurate methods for tiny object detection in images which have wide views, with a current focus on tiny person detection. The TinyPerson dataset was used for the TOD Challenge and is publicly released. It has 1610 images and 72651 box-levelannotations. Around 36 participating teams from the globe competed inthe 1st TOD Challenge. In this paper, we provide a brief summary of the1st TOD Challenge including brief introductions to the top three methods.The submission leaderboard will be reopened for researchers that areinterested in the TOD challenge. The benchmark dataset and other information can be found at: https://github.com/ucas-vg/TinyBenchmark. | 翻訳日:2022-10-18 00:22:49 公開日:2020-10-06 |
# 教師なしNMTのための限定コーパスを用いた事前学習言語モデルの再利用 Reusing a Pretrained Language Model on Languages with Limited Corpora for Unsupervised NMT ( http://arxiv.org/abs/2009.07610v3 ) ライセンス: Link先を確認 | Alexandra Chronopoulou, Dario Stojanovski, Alexander Fraser | (参考訳) unmt(unsupervised neural machine translation)システムを初期化するために、大きな単言語データを持つ2つの言語で事前トレーニングされた言語モデル(lm)を使用することで、最先端の結果が得られる。
しかし、ある言語で限られたデータが利用できる場合、この方法は翻訳が不十分になる。
我々は、高リソース言語のみに事前学習されたlmを再利用する効果的なアプローチを提案する。
モノリンガルLMは両言語で微調整され、UNMTモデルの初期化に使用される。
事前訓練されたLMを再利用するには、新しい言語を説明するために、事前定義された語彙を変更する必要がある。
そこで我々は新しい語彙拡張法を提案する。
我々のアプローチであるRE-LMは、英語・マケドニア語(En-Mk)と英語・アルバニア語(En-Sq)の競合言語間事前学習モデル(XLM)より優れており、全4つの翻訳方向に対して+8.3 BLEUポイントを得られる。 Using a language model (LM) pretrained on two languages with large monolingual data in order to initialize an unsupervised neural machine translation (UNMT) system yields state-of-the-art results. When limited data is available for one language, however, this method leads to poor translations. We present an effective approach that reuses an LM that is pretrained only on the high-resource language. The monolingual LM is fine-tuned on both languages and is then used to initialize a UNMT model. To reuse the pretrained LM, we have to modify its predefined vocabulary, to account for the new language. We therefore propose a novel vocabulary extension method. Our approach, RE-LM, outperforms a competitive cross-lingual pretraining model (XLM) in English-Macedonian (En-Mk) and English-Albanian (En-Sq), yielding more than +8.3 BLEU points for all four translation directions. | 翻訳日:2022-10-17 23:54:13 公開日:2020-10-06 |
# seq2seqモデルの接触バイアスの最小化と関係抽出 Minimize Exposure Bias of Seq2Seq Models in Joint Entity and Relation Extraction ( http://arxiv.org/abs/2009.07503v2 ) ライセンス: Link先を確認 | Ranran Haoran Zhang, Qianying Liu, Aysa Xuemo Fan, Heng Ji, Daojian Zeng, Fei Cheng, Daisuke Kawahara and Sadao Kurohashi | (参考訳) 共同エンティティと関係抽出は、プレーンテキストから直接関係三重項を抽出することを目的としている。
先行研究は三重項列生成にシーケンシャル・ツー・シーケンス(seq2seq)モデルを活用する。
しかし、seq2seqは無順序三重項に対して不要な順序を強制し、エラーの蓄積に伴う大きな復号長を伴っている。
これらは露出バイアスをもたらし、モデルが頻繁なラベルの組み合わせに過剰に適合する可能性があるため、一般化を損なう。
本稿では,三重項内の3つに復号長を制限し,三重項間の順序を除去することにより,露出バイアスの影響を最小限に抑える新しいSequence-to-Unordered-Multi-Tree(Seq2UMTree)モデルを提案する。
我々は,DuIEとNYTの2つのデータセット上でモデルを評価し,露出バイアスがSeq2Seqモデルの性能に与える影響を系統的に検討した。
実験によると、最先端のSeq2Seqモデルは両方のデータセットにオーバーフィットし、Seq2UMTreeははるかに優れた一般化を示している。
私たちのコードはhttps://github.com/WindChimeRan/OpenJEREで利用可能です。 Joint entity and relation extraction aims to extract relation triplets from plain text directly. Prior work leverages Sequence-to-Sequence (Seq2Seq) models for triplet sequence generation. However, Seq2Seq enforces an unnecessary order on the unordered triplets and involves a large decoding length associated with error accumulation. These introduce exposure bias, which may cause the models overfit to the frequent label combination, thus deteriorating the generalization. We propose a novel Sequence-to-Unordered-Multi-Tree (Seq2UMTree) model to minimize the effects of exposure bias by limiting the decoding length to three within a triplet and removing the order among triplets. We evaluate our model on two datasets, DuIE and NYT, and systematically study how exposure bias alters the performance of Seq2Seq models. Experiments show that the state-of-the-art Seq2Seq model overfits to both datasets while Seq2UMTree shows significantly better generalization. Our code is available at https://github.com/WindChimeRan/OpenJERE . | 翻訳日:2022-10-17 22:43:05 公開日:2020-10-06 |
# CoDEx: 総合的な知識グラフ補完ベンチマーク CoDEx: A Comprehensive Knowledge Graph Completion Benchmark ( http://arxiv.org/abs/2009.07810v2 ) ライセンス: Link先を確認 | Tara Safavi, Danai Koutra | (参考訳) これはwikidataとwikipediaから抽出された知識グラフ補完データセットであり、既存の知識グラフ補完ベンチマークをスコープと難易度で改善する。
スコープの面では、CoDExは3つの知識グラフからなり、サイズと構造、実体と関係の多言語的な記述、そして数万の強負の3重グラフが成り立っている。
CoDExを特徴付けるために、我々は徹底的な実験分析とベンチマーク実験に貢献する。
まず,各CoDExデータセットを論理的関係パターンを用いて解析する。
次に,5種類の組込みモデルについて,codexにおけるベースラインリンク予測と3重分類結果について報告する。
最後に,一般的なFB15K-237知識グラフ補完データセットとCoDExを区別し,CoDExがより多彩で解釈可能なコンテンツをカバーしていることを示す。
データ、コード、事前訓練されたモデルはhttps://bit.ly/2EPbrJs.comで入手できる。 We present CoDEx, a set of knowledge graph completion datasets extracted from Wikidata and Wikipedia that improve upon existing knowledge graph completion benchmarks in scope and level of difficulty. In terms of scope, CoDEx comprises three knowledge graphs varying in size and structure, multilingual descriptions of entities and relations, and tens of thousands of hard negative triples that are plausible but verified to be false. To characterize CoDEx, we contribute thorough empirical analyses and benchmarking experiments. First, we analyze each CoDEx dataset in terms of logical relation patterns. Next, we report baseline link prediction and triple classification results on CoDEx for five extensively tuned embedding models. Finally, we differentiate CoDEx from the popular FB15K-237 knowledge graph completion dataset by showing that CoDEx covers more diverse and interpretable content, and is a more difficult link prediction benchmark. Data, code, and pretrained models are available at https://bit.ly/2EPbrJs. | 翻訳日:2022-10-17 22:42:45 公開日:2020-10-06 |
# 変化点検出による半教師付きシーケンス分類 Semi-supervised sequence classification through change point detection ( http://arxiv.org/abs/2009.11829v2 ) ライセンス: Link先を確認 | Nauman Ahad, Mark A. Davenport | (参考訳) シーケンシャルセンサデータは、様々な実用的な用途で生成される。
基本的な課題は、このようなシーケンシャルデータに対する効果的な分類器の学習である。
ディープラーニングは近年、音声などの領域で顕著なパフォーマンス向上をもたらしているが、これは高品質なラベル付きシーケンスの大きなデータセットの可用性に依存している。
しかし、多くのアプリケーションでは、関連するクラスラベルは極めて制限され、正確なラベリング/セグメンテーションは高ボリュームで実行するには高価すぎる。
しかし、大量のラベルのないデータがまだ利用できる可能性がある。
本稿では,このような文脈における半教師付き学習のための新しいフレームワークを提案する。
教師なしの方法では、変更点検出メソッドを使用して、可能性のあるクラス変更に対応するシーケンス内のポイントを識別することができる。
変化点が類似/異質な列の組の例を示し,ラベル付きと結合すると,半教師付き分類設定で使用できることを示す。
変更点とラベル付きデータを利用して、類似/異種シーケンスの例を作成し、ニューラルネットワークをトレーニングし、分類のための改良された表現を学ぶ。
本研究では,学習した表現がオートエンコーダで学習した表現よりも優れていることを示し,シミュレーションおよび実世界の人間の行動認識データセットの改善結果を得る。 Sequential sensor data is generated in a wide variety of practical applications. A fundamental challenge involves learning effective classifiers for such sequential data. While deep learning has led to impressive performance gains in recent years in domains such as speech, this has relied on the availability of large datasets of sequences with high-quality labels. In many applications, however, the associated class labels are often extremely limited, with precise labelling/segmentation being too expensive to perform at a high volume. However, large amounts of unlabeled data may still be available. In this paper we propose a novel framework for semi-supervised learning in such contexts. In an unsupervised manner, change point detection methods can be used to identify points within a sequence corresponding to likely class changes. We show that change points provide examples of similar/dissimilar pairs of sequences which, when coupled with labeled, can be used in a semi-supervised classification setting. Leveraging the change points and labeled data, we form examples of similar/dissimilar sequences to train a neural network to learn improved representations for classification. We provide extensive synthetic simulations and show that the learned representations are superior to those learned through an autoencoder and obtain improved results on both simulated and real-world human activity recognition datasets. | 翻訳日:2022-10-15 04:13:20 公開日:2020-10-06 |
# AutoETER:知識グラフ埋め込みのためのエンティティ型の自動表現 AutoETER: Automated Entity Type Representation for Knowledge Graph Embedding ( http://arxiv.org/abs/2009.12030v2 ) ライセンス: Link先を確認 | Guanglin Niu, Bo Li, Yongfei Zhang, Shiliang Pu, Jingyang Li | (参考訳) 知識グラフ埋め込み(KGE)の最近の進歩により、連続ベクトル空間における実体と関係を表現することができる。
いくつかの伝統的なKGEモデルは、追加の型情報を活用することで、明示的な型に完全に依存するエンティティの表現を改善することができる。
さらに、既存の方法のどれも対称性、反転、組成のすべての関係パターンを同時に推測することができず、1-N、N-1、N-Nの関係の複素特性も同時に推測できない。
任意のKGの型情報を探索するために,各エンティティの潜在型埋め込みを2つのエンティティの型間の翻訳操作として,関係認識プロジェクション機構を用いて学習する,Automated Entity TypE Representation (AutoETER) を用いた新しいKGEフレームワークを開発した。
特に,我々の設計した自動型表現学習機構は,どのKGEモデルにも容易に組み込めるプラグインモジュールである。
さらに、我々のアプローチは、すべての関係パターンと複雑な関係をモデル化し、推測することができる。
4つのデータセットにおける実験は、リンク予測タスクにおける最先端のベースラインと比較して、モデルの優れたパフォーマンスを示し、型クラスタリングの可視化は、型埋め込みの説明を明確にし、モデルの有効性を検証する。 Recent advances in Knowledge Graph Embedding (KGE) allow for representing entities and relations in continuous vector spaces. Some traditional KGE models leveraging additional type information can improve the representation of entities which however totally rely on the explicit types or neglect the diverse type representations specific to various relations. Besides, none of the existing methods is capable of inferring all the relation patterns of symmetry, inversion and composition as well as the complex properties of 1-N, N-1 and N-N relations, simultaneously. To explore the type information for any KG, we develop a novel KGE framework with Automated Entity TypE Representation (AutoETER), which learns the latent type embedding of each entity by regarding each relation as a translation operation between the types of two entities with a relation-aware projection mechanism. Particularly, our designed automated type representation learning mechanism is a pluggable module which can be easily incorporated with any KGE model. Besides, our approach could model and infer all the relation patterns and complex relations. Experiments on four datasets demonstrate the superior performance of our model compared to state-of-the-art baselines on link prediction tasks, and the visualization of type clustering provides clearly the explanation of type embeddings and verifies the effectiveness of our model. | 翻訳日:2022-10-14 22:12:43 公開日:2020-10-06 |
# 畳み込み型リカレントニューラルネットワークによる心電図分類 ECG Classification with a Convolutional Recurrent Neural Network ( http://arxiv.org/abs/2009.13320v2 ) ライセンス: Link先を確認 | Halla Sigurthorsdottir, J\'er\^ome Van Zaen, Ricard Delgado-Gonzalo, Mathieu Lemay | (参考訳) 我々は、Pink Irish Hatチームとして、PhyloNet/Computer in Cardiology 2020の課題に対して、12リードのECG信号を分類する畳み込みリカレントニューラルネットワークを開発した。
モデルは畳み込み層と繰り返し層を結合し、ECG信号のスライディングウィンドウを入力とし、各クラスの確率を出力とする。
畳み込み部は、各スライドウィンドウから特徴を抽出する。
双方向ゲートリカレントユニット(GRU)層とアテンション層は、これらの特徴を全てのウィンドウから単一の特徴ベクトルに集約する。
最後に、密度層はクラス確率を出力する。
最後に、テスト時間拡張(TTA)と最適化された決定しきい値を用いて決定する。
私たちのアーキテクチャのいくつかのハイパーパラメータは最適化されましたが、最も重要なのはオプティマイザの選択と畳み込み層ごとのフィルタ数でした。
我々のネットワークは、隠れ検証セットで0.511点、全隠れテストセットで0.167点を達成し、公式ランキングで41点中23位にランクインした。 We developed a convolutional recurrent neural network to classify 12-lead ECG signals for the challenge of PhysioNet/ Computing in Cardiology 2020 as team Pink Irish Hat. The model combines convolutional and recurrent layers, takes sliding windows of ECG signals as input and yields the probability of each class as output. The convolutional part extracts features from each sliding window. The bi-directional gated recurrent unit (GRU) layer and an attention layer aggregate these features from all windows into a single feature vector. Finally, a dense layer outputs class probabilities. The final decision is made using test time augmentation (TTA) and an optimized decision threshold. Several hyperparameters of our architecture were optimized, the most important of which turned out to be the choice of optimizer and the number of filters per convolutional layer. Our network achieved a challenge score of 0.511 on the hidden validation set and 0.167 on the full hidden test set, ranking us 23rd out of 41 in the official ranking. | 翻訳日:2022-10-13 22:33:43 公開日:2020-10-06 |
# 高不均衡・高次元データ分類のための弱監視型オーバーサンプリング Weakly Supervised-Based Oversampling for High Imbalance and High Dimensionality Data Classification ( http://arxiv.org/abs/2009.14096v2 ) ライセンス: Link先を確認 | Min Qian and Yan-Fu Li | (参考訳) 産業データセットの豊富さにより、いくつかのアプリケーション領域で不均衡な分類が一般的な問題となっている。
オーバーサンプリングは、不均衡な分類を解決する効果的な方法である。
既存のオーバーサンプリング手法の主な課題の1つは、新しい合成サンプルを正確にラベル付けることである。
合成サンプルの不正確なラベルはデータセットの分布を歪ませ、おそらく分類性能を悪化させる。
本稿では,従来のオーバーサンプリング手法による合成試料の不正確なラベル付けを扱うために,弱教師付き学習を提案する。
グラフ半教師付きSMOTEは,合成試料ラベルの信頼性を向上させるために開発された。
さらに,高次元データセットに対するコスト感受性近傍成分分析と高度不均衡データセットに対するブートストラップに基づくアンサンブルフレームワークを提案する。
提案手法は,8つの合成データセットと3つの実世界のデータセット,特に高不均衡および高次元問題に対する優れた分類性能を実現している。
平均的なパフォーマンスと堅牢性はベンチマーク手法よりも優れている。 With the abundance of industrial datasets, imbalanced classification has become a common problem in several application domains. Oversampling is an effective method to solve imbalanced classification. One of the main challenges of the existing oversampling methods is to accurately label the new synthetic samples. Inaccurate labels of the synthetic samples would distort the distribution of the dataset and possibly worsen the classification performance. This paper introduces the idea of weakly supervised learning to handle the inaccurate labeling of synthetic samples caused by traditional oversampling methods. Graph semi-supervised SMOTE is developed to improve the credibility of the synthetic samples' labels. In addition, we propose cost-sensitive neighborhood components analysis for high dimensional datasets and bootstrap based ensemble framework for highly imbalanced datasets. The proposed method has achieved good classification performance on 8 synthetic datasets and 3 real-world datasets, especially for high imbalance and high dimensionality problems. The average performances and robustness are better than the benchmark methods. | 翻訳日:2022-10-13 05:36:41 公開日:2020-10-06 |
# 混合畳み込みネットワークによる深層強化学習 Deep Reinforcement Learning with Mixed Convolutional Network ( http://arxiv.org/abs/2010.00717v2 ) ライセンス: Link先を確認 | Yanyu Zhang | (参考訳) 最近の研究では、1つの前面カメラからの生のピクセルを直接操舵コマンドにマップすることは驚くほど強力であることが示されている。
本稿では,OpenAI Gymの模倣学習を用いてCarRacing-v0を再生する畳み込みニューラルネットワーク(CNN)を提案する。
データセットは、ジムで手動でゲームをプレイして生成し、データ拡張法を使用して、データセットを以前より4倍大きく拡張する。
また,実際の速度,4つのABSセンサ,操舵輪位置,ジャイロスコープを画像毎に読み出し,センサ入力と画像入力を組み合わせた混合モデルの設計を行った。
トレーニング後、このモデルは道路の特徴の境界を自動的に検出し、ロボットを人間のように駆動する。
CarRacing-v0における平均報酬を用いたAlexNetとVGG16を比較することで,システム全体の性能が最大になる。 Recent research has shown that map raw pixels from a single front-facing camera directly to steering commands are surprisingly powerful. This paper presents a convolutional neural network (CNN) to playing the CarRacing-v0 using imitation learning in OpenAI Gym. The dataset is generated by playing the game manually in Gym and used a data augmentation method to expand the dataset to 4 times larger than before. Also, we read the true speed, four ABS sensors, steering wheel position, and gyroscope for each image and designed a mixed model by combining the sensor input and image input. After training, this model can automatically detect the boundaries of road features and drive the robot like a human. By comparing with AlexNet and VGG16 using the average reward in CarRacing-v0, our model wins the maximum overall system performance. | 翻訳日:2022-10-12 07:51:45 公開日:2020-10-06 |
# 会話における感情認識のための教師なしデータの抽出 Exploiting Unsupervised Data for Emotion Recognition in Conversations ( http://arxiv.org/abs/2010.01908v2 ) ライセンス: Link先を確認 | Wenxiang Jiao, Michael R. Lyu, Irwin King | (参考訳) Emotion Recognition in Conversations (ERC) は、会話中の話者の感情状態を予測することを目的としている。
文レベルのテキスト分類問題とは異なり、ERCタスクの教師付きデータは制限されており、モデルが最大限の効果を発揮できない可能性がある。
本稿では,よりアクセスしやすい教師なし会話データを活用するための新しい手法を提案する。
具体的には,会話中のマスクされた発話を埋めるために,候補回答から正しい回答を選択しようとする会話補完タスク(convcom)を提案する。
次に、ConvComタスク上で基本的なCOntext-Dependent Encoder(Pre-CODE)を事前訓練する。
最後に、ERCのデータセットにPre-CODEを微調整する。
実験の結果,教師なしデータに対する事前学習は,特にマイノリティ感情クラスにおいて,ercデータセットのパフォーマンスが著しく向上することが示された。 Emotion Recognition in Conversations (ERC) aims to predict the emotional state of speakers in conversations, which is essentially a text classification task. Unlike the sentence-level text classification problem, the available supervised data for the ERC task is limited, which potentially prevents the models from playing their maximum effect. In this paper, we propose a novel approach to leverage unsupervised conversation data, which is more accessible. Specifically, we propose the Conversation Completion (ConvCom) task, which attempts to select the correct answer from candidate answers to fill a masked utterance in a conversation. Then, we Pre-train a basic COntext- Dependent Encoder (Pre-CODE) on the ConvCom task. Finally, we fine-tune the Pre-CODE on the datasets of ERC. Experimental results demonstrate that pre-training on unsupervised data achieves significant improvement of performance on the ERC datasets, particularly on the minority emotion classes. | 翻訳日:2022-10-12 01:43:56 公開日:2020-10-06 |
# 形態的合意に基づくルールの自動抽出 Automatic Extraction of Rules Governing Morphological Agreement ( http://arxiv.org/abs/2010.01160v2 ) ライセンス: Link先を確認 | Aditi Chaudhary, Antonios Anastasopoulos, Adithya Pratapa, David R. Mortensen, Zaid Sheikh, Yulia Tsvetkov, Graham Neubig | (参考訳) 言語の記述文法を作成することは、言語の文書化と保存に必須のステップである。
しかし同時に、退屈で時間のかかる作業である。
本稿では,このプロセスの自動化に向けて,簡潔かつ人間的,機械可読な形式で原文から第一パス文法仕様を抽出する自動化フレームワークを開発する。
我々は、世界の多くの言語の文法の中核にあるモルフォシンタクティックな現象である合意を記述する規則の抽出に焦点をあてる。
このフレームワークをUniversal Dependenciesプロジェクトに含まれるすべての言語に適用し、有望な結果を得る。
本フレームワークは,言語間移動を用いた言語間変換を用いて,ゴールド標準アノテートされた大量のデータとほぼ同等の文法的仕様を抽出する。
我々は、この発見を、我々のフレームワークが生成する規則の人間的専門家による評価で確認し、平均精度は78%である。
抽出されたルールを示すインターフェースを https://neulab.github.io/lase/ でリリースします。 Creating a descriptive grammar of a language is an indispensable step for language documentation and preservation. However, at the same time it is a tedious, time-consuming task. In this paper, we take steps towards automating this process by devising an automated framework for extracting a first-pass grammatical specification from raw text in a concise, human- and machine-readable format. We focus on extracting rules describing agreement, a morphosyntactic phenomenon at the core of the grammars of many of the world's languages. We apply our framework to all languages included in the Universal Dependencies project, with promising results. Using cross-lingual transfer, even with no expert annotations in the language of interest, our framework extracts a grammatical specification which is nearly equivalent to those created with large amounts of gold-standard annotated data. We confirm this finding with human expert evaluations of the rules that our framework produces, which have an average accuracy of 78%. We release an interface demonstrating the extracted rules at https://neulab.github.io/lase/. | 翻訳日:2022-10-12 01:32:19 公開日:2020-10-06 |
# ロバストな顔理解のための3次元データ拡張 3D-Aided Data Augmentation for Robust Face Understanding ( http://arxiv.org/abs/2010.01246v2 ) ライセンス: Link先を確認 | Yifan Xing, Yuanjun Xiong, Wei Xia | (参考訳) データ拡張は、特に真理ラベルの取得が困難でコストがかかるタスクにおいて、データのギャップを狭め、人間のアノテーションのコストを削減するのに非常に効果的である。
顔認識では、顔画像の大きなポーズや照明変化が性能低下の重要な要因となっている。
しかし,これらの難解なシナリオ下での顔のランドマークの局所化,顔属性の分類,顔認識など,さまざまな顔理解タスクに対する人間のアノテーションは,取得に非常にコストがかかる。
したがって、これらのケースに対してデータ拡張を行うことが望ましい。
しかし、画像領域上の単純な2Dデータ拡張技術は、これらの困難なケースの要件を満たすことができない。
このようにして、3d顔モデリング、特に1枚の画像3d顔モデリングは、2dベースのデータ拡張以上の困難な条件に対して実現可能な解決策である。
そこで本研究では,幾何学的に正確な顔のランドマーク,属性,識別情報を関連付けた3次元顔のモデリングにより,照明条件の異なる複数の視点からリアルな3次元画像を生成する手法を提案する。
実験により,提案手法は様々な顔理解タスクの性能とロバスト性を大幅に向上し,複数のベンチマークで最先端の成果を得られた。 Data augmentation has been highly effective in narrowing the data gap and reducing the cost for human annotation, especially for tasks where ground truth labels are difficult and expensive to acquire. In face recognition, large pose and illumination variation of face images has been a key factor for performance degradation. However, human annotation for the various face understanding tasks including face landmark localization, face attributes classification and face recognition under these challenging scenarios are highly costly to acquire. Therefore, it would be desirable to perform data augmentation for these cases. But simple 2D data augmentation techniques on the image domain are not able to satisfy the requirement of these challenging cases. As such, 3D face modeling, in particular, single image 3D face modeling, stands a feasible solution for these challenging conditions beyond 2D based data augmentation. To this end, we propose a method that produces realistic 3D augmented images from multiple viewpoints with different illumination conditions through 3D face modeling, each associated with geometrically accurate face landmarks, attributes and identity information. Experiments demonstrate that the proposed 3D data augmentation method significantly improves the performance and robustness of various face understanding tasks while achieving state-of-arts on multiple benchmarks. | 翻訳日:2022-10-11 09:10:36 公開日:2020-10-06 |
# LaTeXによる再現可能な科学 Reproducible Science with LaTeX ( http://arxiv.org/abs/2010.01482v2 ) ライセンス: Link先を確認 | Haim Bar and HaiYing Wang | (参考訳) 本稿では、ラテックス文書から外部ソースコードを実行し、結果のポータブル文書フォーマット(pdf)ファイルに自動的に計算出力を含める手順を提案する。
プログラミングツールをLaTeX記述ツールに統合し、再現可能な研究の制作を容易にする。
提案手法では,LaTeX文書のコンパイル時に,お気に入りのLaTeXエディタを書き込みプロセスで使用しながら,任意のプログラミング言語やコマンドラインプログラムを簡単に呼び出すことができる。
必要なLaTeXセットアップ、新しいPythonパッケージ、定義されたプリアンブルについて詳しく説明し、提案した手順を説明するためにR、Julia、MatLabを使って既存の研究を再現する作業例を提供する。
また,文書のコンパイル時にシェルスクリプトを起動することで,システム設定情報を紙に含める方法についても示す。 This paper proposes a procedure to execute external source codes from a LaTeX document and include the calculation outputs in the resulting Portable Document Format (pdf) file automatically. It integrates programming tools into the LaTeX writing tool to facilitate the production of reproducible research. In our proposed approach to a LaTeX-based scientific notebook the user can easily invoke any programming language or a command-line program when compiling the LaTeX document, while using their favorite LaTeX editor in the writing process. The required LaTeX setup, a new Python package, and the defined preamble are discussed in detail, and working examples using R, Julia, and MatLab to reproduce existing research are provided to illustrate the proposed procedure. We also demonstrate how to include system setting information in a paper by invoking shell scripts when compiling the document. | 翻訳日:2022-10-11 03:57:58 公開日:2020-10-06 |
# 物体検出のための不確実性定量化と予測品質推定 MetaDetect: Uncertainty Quantification and Prediction Quality Estimates for Object Detection ( http://arxiv.org/abs/2010.01695v2 ) ライセンス: Link先を確認 | Marius Schubert, Karsten Kahl, Matthias Rottmann | (参考訳) 深層ニューラルネットワークを用いた物体検出では、ボックスワイズ対象性スコアは自信過剰になりがちであり、不正確な予測の存在に対する高い信頼を示すこともある。
したがって、予測の信頼性と信頼できる不確実性が最も高い。
本研究では,任意のニューラルネットワークに対して予測不確実性推定と品質推定を提供するポスト処理手法を提案する。
これらの推定は、構造化データセットの形で手作りの透明なメトリクスのセットを入力として受け取るポスト処理モデルによって学習される。
そこで,予測境界ボックスの2つのタスクを学習する。
我々は、正の値(\mathit{IoU}\geq0.5$)と偽の正の値(\mathit{IoU} < 0.5$)を区別し、メタ回帰を直接呼ぶ$\mathit{IoU}$値を予測する。
メタ分類モデルの確率は、成功と失敗の確率を学習することを目的としており、モデル化された予測の不確実性推定を提供する。
一方、メタ回帰は品質評価をもたらす。
数値実験では、利用可能なYOLOv3ネットワークとFaster-RCNNネットワークを用いて、Kitti、Pascal VOC、COCOデータセットのメタ分類と回帰性能を評価する。
私たちは、我々のメトリクスが実際に$\mathit{IoU}$とよく相関していることを示します。
メタ分類では98.92%までの分類精度と99.93%までのAUROCを得る。
メタ回帰では、最大91.78%のR^2$値を得る。
これらの結果は、他のネットワークの客観性スコアや他のベースラインアプローチと比べて大幅に改善される。
したがって, 基礎事実が存在しない場合に特に興味深い, 信頼性の高い不確実性と品質推定値が得られる。 In object detection with deep neural networks, the box-wise objectness score tends to be overconfident, sometimes even indicating high confidence in presence of inaccurate predictions. Hence, the reliability of the prediction and therefore reliable uncertainties are of highest interest. In this work, we present a post processing method that for any given neural network provides predictive uncertainty estimates and quality estimates. These estimates are learned by a post processing model that receives as input a hand-crafted set of transparent metrics in form of a structured dataset. Therefrom, we learn two tasks for predicted bounding boxes. We discriminate between true positives ($\mathit{IoU}\geq0.5$) and false positives ($\mathit{IoU} < 0.5$) which we term meta classification, and we predict $\mathit{IoU}$ values directly which we term meta regression. The probabilities of the meta classification model aim at learning the probabilities of success and failure and therefore provide a modelled predictive uncertainty estimate. On the other hand, meta regression gives rise to a quality estimate. In numerical experiments, we use the publicly available YOLOv3 network and the Faster-RCNN network and evaluate meta classification and regression performance on the Kitti, Pascal VOC and COCO datasets. We demonstrate that our metrics are indeed well correlated with the $\mathit{IoU}$. For meta classification we obtain classification accuracies of up to 98.92% and AUROCs of up to 99.93%. For meta regression we obtain an $R^2$ value of up to 91.78%. These results yield significant improvements compared to other network's objectness score and other baseline approaches. Therefore, we obtain more reliable uncertainty and quality estimates which is particularly interesting in the absence of ground truth. | 翻訳日:2022-10-11 03:24:35 公開日:2020-10-06 |
# 深層学習のための構成構造学習:なぜ経路分担が必要か Learning Compositional Structures for Deep Learning: Why Routing-by-agreement is Necessary ( http://arxiv.org/abs/2010.01488v2 ) ライセンス: Link先を確認 | Sai Raam Venkatraman, Ankit Anand, S. Balasubramanian, R. Raghunatha Sarma | (参考訳) ニューラルネットワークの構成性の形式的記述は、それが表現しようとするオブジェクトの形式文法構造に直接関連している。
この形式的な文法構造は、オブジェクトを構成するコンポーネントの種類と、それらが入ることが許される構成を指定する。
言い換えれば、オブジェクトはコンポーネントのパースツリーとして記述できる -- ニューラルネットワーク内のニューロン間の接続パターンを構築するための候補と見なすことができる構造である。
本稿では、カプセルネットワークがこのようなパースツリー構造をどのように適用できるかを示す畳み込みニューラルネットワークとカプセルネットワークの文法的記述を示す。
具体的には、動的ルーティングアルゴリズムにおける経路係数のエントロピーが、この能力を制御することを示す。
そこで本研究では,カプセル間の組成性を向上させるための損失関数として,経路重みのエントロピーを導入する。
構成構造を持つデータを用いて実験を行い,この損失によりカプセルネットワークが構成性の変化をより正確に検出できることを示した。
実験により, 経路重みのエントロピーが増加するにつれて, 組成変化を検出する能力が減少することが示された。
ルーティングなしでは、カプセルネットワークは畳み込みニューラルネットワークと同様に動作し、両方のモデルが構成性の変化を検出するために著しく機能する。
結果は、ルーティングはカプセルネットワークの重要な部分であり、その必要性に疑問を呈する最近の研究に効果的に対応していることを示している。
また、SmallNORB、CIFAR-10、FashionMNISTの実験により、この損失は、使用しないモデルに匹敵するカプセルネットワークモデルの精度を保っていることを示した。 A formal description of the compositionality of neural networks is associated directly with the formal grammar-structure of the objects it seeks to represent. This formal grammar-structure specifies the kind of components that make up an object, and also the configurations they are allowed to be in. In other words, objects can be described as a parse-tree of its components -- a structure that can be seen as a candidate for building connection-patterns among neurons in neural networks. We present a formal grammar description of convolutional neural networks and capsule networks that shows how capsule networks can enforce such parse-tree structures, while CNNs do not. Specifically, we show that the entropy of routing coefficients in the dynamic routing algorithm controls this ability. Thus, we introduce the entropy of routing weights as a loss function for better compositionality among capsules. We show by experiments, on data with a compositional structure, that the use of this loss enables capsule networks to better detect changes in compositionality. Our experiments show that as the entropy of the routing weights increases, the ability to detect changes in compositionality reduces. We see that, without routing, capsule networks perform similar to convolutional neural networks in that both these models perform badly at detecting changes in compositionality. Our results indicate that routing is an important part of capsule networks -- effectively answering recent work that has questioned its necessity. We also, by experiments on SmallNORB, CIFAR-10, and FashionMNIST, show that this loss keeps the accuracy of capsule network models comparable to models that do not use it . | 翻訳日:2022-10-11 03:16:11 公開日:2020-10-06 |
# dlgnet-task:マルチターンマルチドメインタスク指向対話をモデル化するエンドツーエンドニューラルネットワークフレームワーク DLGNet-Task: An End-to-end Neural Network Framework for Modeling Multi-turn Multi-domain Task-Oriented Dialogue ( http://arxiv.org/abs/2010.01693v2 ) ライセンス: Link先を確認 | Oluwatobi O. Olabiyi, Prarthana Bhattarai, C. Bayan Bruss, Zachary Kulis | (参考訳) タスク指向対話(tod)は、説明可能性と検証可能性の強い保証を持つ多数の個別制御可能なコンポーネントの複雑な相互結合を必要とする。
これにより、合理化されたエンドツーエンドのオープンドメイン対話システムのマルチターンマルチドメイン対話生成機能の採用が困難になっている。
本稿では,DLGNet や GPT-2/3 などの自己回帰型トランスフォーマネットワークを用いて,マルチターンマルチドメイン会話におけるユーザタスクを完了させる,統合されたタスク指向対話システム DLGNet-Task を提案する。
当社のフレームワークは,モジュール化アプローチのコントロール可能な,検証可能な,説明可能なアウトプットと,エンドツーエンドシステムの低開発,デプロイメント,メンテナンスコストを享受しています。
オープンドメインシステムコンポーネントを追加のTODシステムモジュールとして扱うことで、DLGNet-Taskは、自然言語理解(NLU)、状態追跡、アクションポリシー、自然言語生成(NLG)など、既存のモジュールアプローチのすべての機能ブロックの入力と出力の共用分布を学習することができる。
実際のシステムで一般的なように、モジュールを個別にトレーニングするのではなく、適切なモジュール分離と共同でトレーニングしました。
MultiWOZ2.1データセットで評価すると、DLGNet-Taskは既存の最先端のアプローチと同等のパフォーマンスを示している。
さらに、対話型AIシステムでDLGNet-Taskを使用すると、インテリジェントアシスタントを大規模に開発、デプロイ、保守するために必要な労力が削減される。 Task oriented dialogue (TOD) requires the complex interleaving of a number of individually controllable components with strong guarantees for explainability and verifiability. This has made it difficult to adopt the multi-turn multi-domain dialogue generation capabilities of streamlined end-to-end open-domain dialogue systems. In this paper, we present a new framework, DLGNet-Task, a unified task-oriented dialogue system which employs autoregressive transformer networks such as DLGNet and GPT-2/3 to complete user tasks in multi-turn multi-domain conversations. Our framework enjoys the controllable, verifiable, and explainable outputs of modular approaches, and the low development, deployment and maintenance cost of end-to-end systems. Treating open-domain system components as additional TOD system modules allows DLGNet-Task to learn the joint distribution of the inputs and outputs of all the functional blocks of existing modular approaches such as, natural language understanding (NLU), state tracking, action policy, as well as natural language generation (NLG). Rather than training the modules individually, as is common in real-world systems, we trained them jointly with appropriate module separations. When evaluated on the MultiWOZ2.1 dataset, DLGNet-Task shows comparable performance to the existing state-of-the-art approaches. Furthermore, using DLGNet-Task in conversational AI systems reduces the level of effort required for developing, deploying, and maintaining intelligent assistants at scale. | 翻訳日:2022-10-11 02:58:40 公開日:2020-10-06 |
# 深いガウス混合モデルによる欠落値の条件密度の推定 Estimating conditional density of missing values using deep Gaussian mixture model ( http://arxiv.org/abs/2010.02183v2 ) ライセンス: Link先を確認 | Marcin Przewi\k{e}\'zlikowski, Marek \'Smieja, {\L}ukasz Struski | (参考訳) 本研究は, 観測値から, 欠落値の条件確率分布を推定する問題を考える。
本稿では,深いニューラルネットワークの柔軟性とガウス混合モデル(GMM)の簡易性を組み合わせたアプローチを提案する。
不完全なデータポイントが与えられると、ニューラルネットワークは対応する条件密度を表すガウス分布のパラメータ(因子アナライザモデルとして)を返します。
我々は,本モデルが条件付きGMMよりもログ類似度が高いことを実験的に検証した。
また,本モデルの平均ベクトルを用いた欠落値の置換によるインプテーションは,視覚的に妥当であると考えられる。 We consider the problem of estimating the conditional probability distribution of missing values given the observed ones. We propose an approach, which combines the flexibility of deep neural networks with the simplicity of Gaussian mixture models (GMMs). Given an incomplete data point, our neural network returns the parameters of Gaussian distribution (in the form of Factor Analyzers model) representing the corresponding conditional density. We experimentally verify that our model provides better log-likelihood than conditional GMM trained in a typical way. Moreover, imputation obtained by replacing missing values using the mean vector of our model looks visually plausible. | 翻訳日:2022-10-10 22:07:24 公開日:2020-10-06 |
# AE-Netv2:画像融合効率とネットワークアーキテクチャの最適化 AE-Netv2: Optimization of Image Fusion Efficiency and Network Architecture ( http://arxiv.org/abs/2010.01863v2 ) ライセンス: Link先を確認 | Aiqing Fang, Xinbo Zhao, Jiaqi Yang, Beibei Qin, Yanning Zhang | (参考訳) 既存の画像融合手法は、画像融合効率とネットワークアーキテクチャの研究にほとんど注意を払わない。
しかし, 画像融合の効率と精度は, 実用化に重要な影響を与えている。
この問題を解決するために,AE-Netv2} に埋もれた \textit{efficient autonomous evolution image fusion 法を提案する。
深層学習に基づく他の画像融合法とは異なり、AE-Netv2は人間の脳認知機構にインスパイアされている。
まず,異なるネットワークアーキテクチャが画像融合品質および融合効率に与える影響について検討し,画像融合アーキテクチャの設計へのリファレンスを提供する。
次に, プール層が画像融合作業に与える影響について検討し, プール層を用いた画像融合手法を提案する。
最後に、異なる画像融合タスクの共通点と特徴について検討し、画像融合の分野における人間の脳の継続的な学習特性について研究する基礎となる。
総合実験では、GTX 2070上の100以上のFPSのリアルタイム速度で異なる融合タスクにおける最先端の手法と比較して、AE-Netv2の優位性を示す。
ディープラーニングに基づくすべてのテスト方法の中で、AE-Netv2は高速で、モデルサイズが小さく、堅牢性が向上している。 Existing image fusion methods pay few research attention to image fusion efficiency and network architecture. However, the efficiency and accuracy of image fusion has an important impact in practical applications. To solve this problem, we propose an \textit{efficient autonomous evolution image fusion method, dubed by AE-Netv2}. Different from other image fusion methods based on deep learning, AE-Netv2 is inspired by human brain cognitive mechanism. Firstly, we discuss the influence of different network architecture on image fusion quality and fusion efficiency, which provides a reference for the design of image fusion architecture. Secondly, we explore the influence of pooling layer on image fusion task and propose an image fusion method with pooling layer. Finally, we explore the commonness and characteristics of different image fusion tasks, which provides a research basis for further research on the continuous learning characteristics of human brain in the field of image fusion. Comprehensive experiments demonstrate the superiority of AE-Netv2 compared with state-of-the-art methods in different fusion tasks at a real time speed of 100+ FPS on GTX 2070. Among all tested methods based on deep learning, AE-Netv2 has the faster speed, the smaller model size and the better robustness. | 翻訳日:2022-10-10 21:50:01 公開日:2020-10-06 |
# 必須シナリオの省略による正規化対話生成 Regularizing Dialogue Generation by Imitating Implicit Scenarios ( http://arxiv.org/abs/2010.01893v2 ) ライセンス: Link先を確認 | Shaoxiong Feng, Xuancheng Ren, Hongshen Chen, Bin Sun, Kan Li, Xu Sun | (参考訳) 人間の対話はシナリオに基づいており、適切な反応は一般に、特定のシナリオに伴なう潜在的な文脈知識と関係している。
そこで本研究では,シナリオ知識を暗黙的に再構築するために,対話履歴と今後の会話の両方を考慮に入れたシナリオ視点から生成対話システムを改善することを提案する。
さらに、シナリオベースの対話モデルから階層的な監視信号に含まれるシナリオ知識を転送することで、将来の会話にアクセスできない従来の対話モデルを効果的に正規化し、将来の会話が実際の推論で不要になるように、模倣学習フレームワークを用いて会話シナリオをさらに内部化する。
広範に評価したところ,本手法は多様性と妥当性に関する最先端のベースラインを著しく上回り,シナリオ固有の知識を表現している。 Human dialogues are scenario-based and appropriate responses generally relate to the latent context knowledge entailed by the specific scenario. To enable responses that are more meaningful and context-specific, we propose to improve generative dialogue systems from the scenario perspective, where both dialogue history and future conversation are taken into account to implicitly reconstruct the scenario knowledge. More importantly, the conversation scenarios are further internalized using imitation learning framework, where the conventional dialogue model that has no access to future conversations is effectively regularized by transferring the scenario knowledge contained in hierarchical supervising signals from the scenario-based dialogue model, so that the future conversation is not required in actual inference. Extensive evaluations show that our approach significantly outperforms state-of-the-art baselines on diversity and relevance, and expresses scenario-specific knowledge. | 翻訳日:2022-10-10 21:33:37 公開日:2020-10-06 |
# 2次NLP逆数例 Second-Order NLP Adversarial Examples ( http://arxiv.org/abs/2010.01770v2 ) ライセンス: Link先を確認 | John X. Morris | (参考訳) NLPの逆例生成法は、言語モデルや文エンコーダのようなモデルに依存して、潜在的な逆例が有効かどうかを決定する。
これらの方法では、有効な敵の例は攻撃されているモデルを騙し、セマンティックまたは構文的に第2のモデルによって有効であると判断される。
これまでの研究は、攻撃されたモデルによるエラーなど、すべての例を数えてきた。
これらの逆例は攻撃されたモデルにおける欠陥ではなく、妥当性を決定するモデルにおける欠陥であると主張する。
そのような無効な入力を二階逆例と呼ぶ。
本稿では,制約の頑健性を評価するツールとして,制約頑健性曲線と関連する計量ACCSを提案する。
この曲線を生成するために,意味的類似性モデル上で直接動作する敵攻撃を設計する。
我々はユニバーサル文エンコーダ(use)とbertscoreという2つの制約をテストした。
以上の結果から,第2次例は存在するが,通常,最先端のモデルでは第1次逆の例ほど一般的ではないことが示された。
また, BERTScore は非効率であるのに対して, USE はNLP の逆例の制約として有効であることを示す。
この論文で実験を行うためのコードはhttps://github.com/jxmorris12/second-order-adversarial-examplesにある。 Adversarial example generation methods in NLP rely on models like language models or sentence encoders to determine if potential adversarial examples are valid. In these methods, a valid adversarial example fools the model being attacked, and is determined to be semantically or syntactically valid by a second model. Research to date has counted all such examples as errors by the attacked model. We contend that these adversarial examples may not be flaws in the attacked model, but flaws in the model that determines validity. We term such invalid inputs second-order adversarial examples. We propose the constraint robustness curve and associated metric ACCS as tools for evaluating the robustness of a constraint to second-order adversarial examples. To generate this curve, we design an adversarial attack to run directly on the semantic similarity models. We test on two constraints, the Universal Sentence Encoder (USE) and BERTScore. Our findings indicate that such second-order examples exist, but are typically less common than first-order adversarial examples in state-of-the-art models. They also indicate that USE is effective as constraint on NLP adversarial examples, while BERTScore is nearly ineffectual. Code for running the experiments in this paper is available at https://github.com/jxmorris12/second-order-adversarial-examples. | 翻訳日:2022-10-10 21:22:55 公開日:2020-10-06 |
# 自己監督型変分オートエンコーダ Self-Supervised Variational Auto-Encoders ( http://arxiv.org/abs/2010.02014v2 ) ライセンス: Link先を確認 | Ioannis Gatopoulos and Jakub M. Tomczak | (参考訳) 密度推定、圧縮、データ生成は人工知能の重要なタスクである。
変分自動エンコーダ(VAE)は、これらの目標を達成するための単一のフレームワークである。
本稿では,自己教師付き変分オートエンコーダ(self-supervised variational auto-encoder,selfvae)と呼ばれる,決定論的・離散的変分後部モデルについて述べる。
このタイプのモデルは、目的関数を単純化しながら条件付きサンプリングと無条件サンプリングの両方を実行することができる。
まず、単一の自己教師付き変換を潜在変数として使用し、変換はダウンスケーリングかエッジ検出のいずれかである。
次に、階層的なアーキテクチャ、すなわち複数の変換を検討し、VAEと比較してその利点を示します。
データ再構成における自己VAEの柔軟性は、データ圧縮タスクにおいて特に興味深いユースケースを見つけます。
本稿では,3つのベンチマーク画像データ(Cifar10, Imagenette64, CelebA)にアプローチの有効性を示す。 Density estimation, compression and data generation are crucial tasks in artificial intelligence. Variational Auto-Encoders (VAEs) constitute a single framework to achieve these goals. Here, we present a novel class of generative models, called self-supervised Variational Auto-Encoder (selfVAE), that utilizes deterministic and discrete variational posteriors. This class of models allows to perform both conditional and unconditional sampling, while simplifying the objective function. First, we use a single self-supervised transformation as a latent variable, where a transformation is either downscaling or edge detection. Next, we consider a hierarchical architecture, i.e., multiple transformations, and we show its benefits compared to the VAE. The flexibility of selfVAE in data reconstruction finds a particularly interesting use case in data compression tasks, where we can trade-off memory for better data quality, and vice-versa. We present performance of our approach on three benchmark image data (Cifar10, Imagenette64, and CelebA). | 翻訳日:2022-10-10 20:48:04 公開日:2020-10-06 |
# STP-UDGAT:次のPOI勧告のための時空間ユーザ次元グラフアテンションネットワーク STP-UDGAT: Spatial-Temporal-Preference User Dimensional Graph Attention Network for Next POI Recommendation ( http://arxiv.org/abs/2010.07024v1 ) ライセンス: Link先を確認 | Nicholas Lim, Bryan Hooi, See-Kiong Ng, Xueou Wang, Yong Liang Goh, Renrong Weng, Jagannadan Varadarajan | (参考訳) Next Point-of-Interest (POI)レコメンデーションは、位置情報ベースのソーシャルネットワーク(LBSN)と交通機関の領域における長年の問題である。
最近のリカレントニューラルネットワーク(RNN)に基づくアプローチは、独立したユーザ訪問シーケンスに基づいて、ローカルビューでPOI-POI関係を学習する。
これにより、グローバルビューのユーザを直接接続して学習し、セマンティックにトレーニングされたPOIを推奨することが可能になる。
本研究では,グローバルな空間的時間的嗜好(STP)地区でパーソナライズされたユーザの嗜好を同時に活用し,新たなPOIを探索し,ユーザが他のユーザから選択的に学習できるようにする新しい探索探索モデルである空間的時間的ユーザ次元グラフ注意ネットワーク(STP-UDGAT)を提案する。
さらに,stpグラフの構造を活用し,探索中に新たな高次poi近傍を見つけるための仮面付きセルフアテンションオプションとしてランダムウォークを提案する。
6つの実世界のデータセットにおける実験結果は、我々のモデルはベースラインと最先端のメソッドを大きく上回っていることを示している。 Next Point-of-Interest (POI) recommendation is a longstanding problem across the domains of Location-Based Social Networks (LBSN) and transportation. Recent Recurrent Neural Network (RNN) based approaches learn POI-POI relationships in a local view based on independent user visit sequences. This limits the model's ability to directly connect and learn across users in a global view to recommend semantically trained POIs. In this work, we propose a Spatial-Temporal-Preference User Dimensional Graph Attention Network (STP-UDGAT), a novel explore-exploit model that concurrently exploits personalized user preferences and explores new POIs in global spatial-temporal-preference (STP) neighbourhoods, while allowing users to selectively learn from other users. In addition, we propose random walks as a masked self-attention option to leverage the STP graphs' structures and find new higher-order POI neighbours during exploration. Experimental results on six real-world datasets show that our model significantly outperforms baseline and state-of-the-art methods. | 翻訳日:2022-10-10 08:11:51 公開日:2020-10-06 |
# 物理流体の線形解法のための機械学習プリコンディショナー Machine-Learned Preconditioners for Linear Solvers in Geophysical Fluid Flows ( http://arxiv.org/abs/2010.02866v1 ) ライセンス: Link先を確認 | Jan Ackmann (1), Peter D. D\"uben (2), Tim N. Palmer (1), Piotr K. Smolarkiewicz (3) ((1) University of Oxford, Oxford, UK, (2) European Centre For Medium Range Weather Forecasts, Reading, UK, (3) National Center for Atmospheric Research, Boulder, USA) | (参考訳) 気象・気候モデルのための半単純,グリッドポイントモデルアプローチのバックボーンである線形解法の性能向上のために,機械学習手法をプリコンディショニングに使用できるかどうかを検証した。
リニアソルバのフレームワークに機械学習メソッドを組み込むことは、リニアソルバが十分な事前セットの精度に達することを保証するため、マシンラーニングアプローチがしばしば批判される潜在的なロバスト性問題を回避する。
このアプローチは、従来のプレコンディショナーの事前可用性を必要とせず、複雑性と機械学習設計の選択に関して非常に柔軟である。
いくつかの機械学習手法は、概念的により複雑な大気モデルに類似した半単純時間ステップを持つ浅水モデルの最適前提条件を学ぶために用いられる。
機械学習プリコンディショナーは、従来のプリコンディショナーと競合しており、トレーニングデータセットのダイナミックレンジ外で使用しても良い結果が得られる。 It is tested whether machine learning methods can be used for preconditioning to increase the performance of the linear solver -- the backbone of the semi-implicit, grid-point model approach for weather and climate models. Embedding the machine-learning method within the framework of a linear solver circumvents potential robustness issues that machine learning approaches are often criticized for, as the linear solver ensures that a sufficient, pre-set level of accuracy is reached. The approach does not require prior availability of a conventional preconditioner and is highly flexible regarding complexity and machine learning design choices. Several machine learning methods are used to learn the optimal preconditioner for a shallow-water model with semi-implicit timestepping that is conceptually similar to more complex atmosphere models. The machine-learning preconditioner is competitive with a conventional preconditioner and provides good results even if it is used outside of the dynamical range of the training dataset. | 翻訳日:2022-10-10 08:11:11 公開日:2020-10-06 |
# ラグランジュ深層学習による宇宙流体力学生成のための効果的な物理法則の学習 Learning effective physical laws for generating cosmological hydrodynamics with Lagrangian Deep Learning ( http://arxiv.org/abs/2010.02926v1 ) ライセンス: Link先を確認 | Biwei Dai and Uros Seljak | (参考訳) 生成モデルの目的は、データ間の複雑な関係を学習して新しいシミュレーションデータを作成することであるが、現在のアプローチは非常に高い次元で失敗する。
真のデータ生成プロセスが物理過程に基づく場合、これらのプロセスは対称性と制約を課し、生成モデルは基礎となる物理の効果的な記述を学習することで生成モデルを非常に高次元に拡張することができる。
本研究では,この目的のためにラグランジアンディープラーニング (LDL) を提案し,それを宇宙力学シミュレーションの出力の学習に適用する。
このモデルは、観測可能な粒子を記述するラグランジアン変位の層を用いて、有効な物理法則を学ぶ。
変位は、翻訳的および回転的不変性を明確に満足する有効ポテンシャルの勾配としてモデル化される。
学習されたパラメータの総数はオーダー10のみであり、有効理論パラメータと見なすことができる。
我々は、n体ソルバfastpmとldlを組み合わせることで、暗黒物質から恒星の地図、ガス密度、温度まで、幅広い宇宙論的アウトプットに適用する。
LDLの計算コストは、完全な流体力学シミュレーションよりも4桁近く低いが、同じ解像度でそれを上回る。
初期条件から最終出力までの10層のみでこれを達成し、何千もの時間ステップを持つ典型的な宇宙論的シミュレーションとは対照的である。
これにより、大きな暗黒物質シミュレーションを必要とせずに、このフレームワーク内での宇宙観測を完全に分析できる可能性が開ける。 The goal of generative models is to learn the intricate relations between the data to create new simulated data, but current approaches fail in very high dimensions. When the true data generating process is based on physical processes these impose symmetries and constraints, and the generative model can be created by learning an effective description of the underlying physics, which enables scaling of the generative model to very high dimensions. In this work we propose Lagrangian Deep Learning (LDL) for this purpose, applying it to learn outputs of cosmological hydrodynamical simulations. The model uses layers of Lagrangian displacements of particles describing the observables to learn the effective physical laws. The displacements are modeled as the gradient of an effective potential, which explicitly satisfies the translational and rotational invariance. The total number of learned parameters is only of order 10, and they can be viewed as effective theory parameters. We combine N-body solver FastPM with LDL and apply them to a wide range of cosmological outputs, from the dark matter to the stellar maps, gas density and temperature. The computational cost of LDL is nearly four orders of magnitude lower than the full hydrodynamical simulations, yet it outperforms it at the same resolution. We achieve this with only of order 10 layers from the initial conditions to the final output, in contrast to typical cosmological simulations with thousands of time steps. This opens up the possibility of analyzing cosmological observations entirely within this framework, without the need for large dark-matter simulations. | 翻訳日:2022-10-10 08:09:12 公開日:2020-10-06 |
# 単眼深度推定ネットワークにおける逆パッチ攻撃 Adversarial Patch Attacks on Monocular Depth Estimation Networks ( http://arxiv.org/abs/2010.03072v1 ) ライセンス: Link先を確認 | Koichiro Yamanaka, Ryutaroh Matsumoto, Keita Takahashi, and Toshiaki Fujii | (参考訳) 深層畳み込みニューラルネットワーク(CNN)の優れた学習能力のおかげで、CNNを用いた単眼深度推定は近年大きな成功を収めている。
しかし、単眼画像だけでの深度推定は本質的に不適切な問題であり、このアプローチには固有の脆弱性があると思われる。
この限界を明らかにするために,単眼深度推定における逆パッチ攻撃法を提案する。
より具体的には、ターゲットメソッドを騙してパターンが配置された領域の誤った深さを推定できる人工パターン(敵パッチ)を生成します。
実際のシーンに印刷パターンを物理的に配置することで,本手法を実世界で実現することができる。
また,攻撃時の単眼深度推定の挙動を,敵攻撃による可能性のある中間層および領域の活性化レベルを可視化することによって解析した。 Thanks to the excellent learning capability of deep convolutional neural networks (CNN), monocular depth estimation using CNNs has achieved great success in recent years. However, depth estimation from a monocular image alone is essentially an ill-posed problem, and thus, it seems that this approach would have inherent vulnerabilities. To reveal this limitation, we propose a method of adversarial patch attack on monocular depth estimation. More specifically, we generate artificial patterns (adversarial patches) that can fool the target methods into estimating an incorrect depth for the regions where the patterns are placed. Our method can be implemented in the real world by physically placing the printed patterns in real scenes. We also analyze the behavior of monocular depth estimation under attacks by visualizing the activation levels of the intermediate layers and the regions potentially affected by the adversarial attack. | 翻訳日:2022-10-10 08:08:10 公開日:2020-10-06 |
# 非線形作用素の固有ベクトルの反復計算法 Iterative Methods for Computing Eigenvectors of Nonlinear Operators ( http://arxiv.org/abs/2010.02890v1 ) ライセンス: Link先を確認 | Guy Gilboa | (参考訳) 本章では非線形固有値問題を解くための反復的手法について検討する。
これらは変分画像処理、グラフ分割と分類、非線形物理学などに現れる。
正準固有確率は$T(u)=\lambda u$, ここで$T:\R^n\to \R^n$は有界非線形作用素である。
その他の固有値問題の変種についても論じる。
近年,著者らによって共著された5つのアルゴリズムの進歩について述べる。
各アルゴリズムは、一意の問題を解決するか、理論の基礎を改善する。
このアルゴリズムは、連続時間領域における固有関数に収束する非線形PDEとして理解することができる。
これにより、離散反復過程のユニークなビューと理解が可能になる。
最後に、古典的アルゴリズムとディープネットワークに基づく非線形デノイザの先行に関するいくつかの例と知見とともに、結果を数値的に評価する方法を示す。 In this chapter we are examining several iterative methods for solving nonlinear eigenvalue problems. These arise in variational image-processing, graph partition and classification, nonlinear physics and more. The canonical eigenproblem we solve is $T(u)=\lambda u$, where $T:\R^n\to \R^n$ is some bounded nonlinear operator. Other variations of eigenvalue problems are also discussed. We present a progression of 5 algorithms, coauthored in recent years by the author and colleagues. Each algorithm attempts to solve a unique problem or to improve the theoretical foundations. The algorithms can be understood as nonlinear PDE's which converge to an eigenfunction in the continuous time domain. This allows a unique view and understanding of the discrete iterative process. Finally, it is shown how to evaluate numerically the results, along with some examples and insights related to priors of nonlinear denoisers, both classical algorithms and ones based on deep networks. | 翻訳日:2022-10-10 08:07:56 公開日:2020-10-06 |
# 大規模ゼロショット学習における意味表現としての文の利用 Using Sentences as Semantic Representations in Large Scale Zero-Shot Learning ( http://arxiv.org/abs/2010.02959v1 ) ライセンス: Link先を確認 | Yannick Le Cacheux and Herv\'e Le Borgne and Michel Crucianu | (参考訳) ゼロショット学習(zero-shot learning)は、目に見えるクラスと対応するクラス意味表現のサンプル間のマルチモーダルな関係を学習することで、トレーニング中に視覚的なインスタンスが利用できない、未発見のクラスのインスタンスを認識することを目的としている。
これらのクラス表現は通常、大きなデータセットや単語の埋め込みにうまくスケールしない属性から成り、パフォーマンスが低下する。
良いトレードオフは、自然言語で短い文章をクラス記述として使うことである。
このような短い記述をZSL設定で使用するための様々な解を探索し、単純な手法では文だけでは良い結果が得られないが、通常の単語埋め込みと文の組み合わせは、現在の最先端よりも大幅に優れていることを示す。 Zero-shot learning aims to recognize instances of unseen classes, for which no visual instance is available during training, by learning multimodal relations between samples from seen classes and corresponding class semantic representations. These class representations usually consist of either attributes, which do not scale well to large datasets, or word embeddings, which lead to poorer performance. A good trade-off could be to employ short sentences in natural language as class descriptions. We explore different solutions to use such short descriptions in a ZSL setting and show that while simple methods cannot achieve very good results with sentences alone, a combination of usual word embeddings and sentences can significantly outperform current state-of-the-art. | 翻訳日:2022-10-10 08:00:12 公開日:2020-10-06 |
# Deep Neural Network: ゲノムシークエンシングエラーを減らすための効率的で最適化された機械学習パラダイム Deep Neural Network: An Efficient and Optimized Machine Learning Paradigm for Reducing Genome Sequencing Error ( http://arxiv.org/abs/2010.03420v1 ) ライセンス: Link先を確認 | Ferdinand Kartriku, Dr. Robert Sowah and Charles Saah | (参考訳) 多くの分野で使用したゲノムデータですが、シークエンシングプロセスで使用されるプラットフォームのほとんどは、重大なエラーを引き起こします。
つまり、これらのデータから生成された分析と推論には、修正が必要なエラーがある可能性がある。
ゲノムエラーの置換とインデルの2つの主なタイプについて - 我々の研究はインデルの修正に焦点を当てている。
選択したデータセットのシークエンシングにおける誤りの訂正にディープラーニングアプローチを用いた。 Genomic data I used in many fields but, it has become known that most of the platforms used in the sequencing process produce significant errors. This means that the analysis and inferences generated from these data may have some errors that need to be corrected. On the two main types of genome errors - substitution and indels - our work is focused on correcting indels. A deep learning approach was used to correct the errors in sequencing the chosen dataset | 翻訳日:2022-10-10 07:59:55 公開日:2020-10-06 |
# OCT-GAN:人間の視神経の光コヒーレンス・トモグラフィー画像からの単一ステップ影とノイズ除去 OCT-GAN: Single Step Shadow and Noise Removal from Optical Coherence Tomography Images of the Human Optic Nerve Head ( http://arxiv.org/abs/2010.11698v1 ) ライセンス: Link先を確認 | Haris Cheong, Sripad Krishna Devalla, Thanadet Chuangsuwanich, Tin A. Tun, Xiaofei Wang, Tin Aung, Leopold Schmetterer, Martin L. Buist, Craig Boote, Alexandre H. Thi\'ery, and Micha\"el J. A. Girard | (参考訳) oct b-scans内のスペックルノイズと網膜影は重要なエッジ、微細なテクスチャ、深部組織を阻害し、アルゴリズムや臨床医による正確かつ堅牢な診断を防ぐ。
我々は、ノイズと網膜のシャドウの両方を10.4msで除去する単一プロセスを開発した。
提案アルゴリズムの平均勾配等級 (AGM) は現状よりも57.2%高く, ピーク信号対雑音比 (PSNR) , ノイズ比 (CNR) , 構造類似度指標 (SSIM) はシングルフレームのBスキャンに比べて11.1%, 154%, 187%増加した。
網膜神経線維層(RNFL)、光受容体層(PR)、網膜色素上皮層(RPE)の平均層内コントラストは、それぞれ0.362 \pm 0.133から0.142 \pm 0.102, 0.449 \pm 0.116から0.0904 \pm 0.0769, 0.381 \pm 0.100から0.00590 \pm 0.0451へと低下した。
提案アルゴリズムは,長い画像取得時間の必要性を低減し,高価なハードウェア要件を最小化し,OCT画像の動作アーティファクトを低減する。 Speckle noise and retinal shadows within OCT B-scans occlude important edges, fine textures and deep tissues, preventing accurate and robust diagnosis by algorithms and clinicians. We developed a single process that successfully removed both noise and retinal shadows from unseen single-frame B-scans within 10.4ms. Mean average gradient magnitude (AGM) for the proposed algorithm was 57.2% higher than current state-of-the-art, while mean peak signal to noise ratio (PSNR), contrast to noise ratio (CNR), and structural similarity index metric (SSIM) increased by 11.1%, 154% and 187% respectively compared to single-frame B-scans. Mean intralayer contrast (ILC) improvement for the retinal nerve fiber layer (RNFL), photoreceptor layer (PR) and retinal pigment epithelium (RPE) layers decreased from 0.362 \pm 0.133 to 0.142 \pm 0.102, 0.449 \pm 0.116 to 0.0904 \pm 0.0769, 0.381 \pm 0.100 to 0.0590 \pm 0.0451 respectively. The proposed algorithm reduces the necessity for long image acquisition times, minimizes expensive hardware requirements and reduces motion artifacts in OCT images. | 翻訳日:2022-10-10 07:59:40 公開日:2020-10-06 |
# 回転同変点雲ネットワークの普遍性について On the Universality of Rotation Equivariant Point Cloud Networks ( http://arxiv.org/abs/2010.02449v1 ) ライセンス: Link先を確認 | Nadav Dym and Haggai Maron | (参考訳) ポイントクラウド上の学習関数は、コンピュータビジョン、コンピュータグラフィックス、物理、化学など、多くの分野に応用されている。
近年、点雲の3つの形状保存変換(翻訳、回転、置換)すべてに不変あるいは同変である神経アーキテクチャへの関心が高まっている。
本稿では,これらのアーキテクチャの近似能力に関する最初の研究について述べる。
まず、同変多項式の空間の新たなキャラクタリゼーションに基づいて、同変アーキテクチャが普遍近似特性を持つための2つの十分条件を導出する。
次にこれらの条件を用いて、最近提案された2つのモデルが普遍的であることを示す。 Learning functions on point clouds has applications in many fields, including computer vision, computer graphics, physics, and chemistry. Recently, there has been a growing interest in neural architectures that are invariant or equivariant to all three shape-preserving transformations of point clouds: translation, rotation, and permutation. In this paper, we present a first study of the approximation power of these architectures. We first derive two sufficient conditions for an equivariant architecture to have the universal approximation property, based on a novel characterization of the space of equivariant polynomials. We then use these conditions to show that two recently suggested models are universal, and for devising two other novel universal architectures. | 翻訳日:2022-10-10 07:58:27 公開日:2020-10-06 |
# コスメティクスからエレクトロニクスへのオンラインショッピング行動の分類:分析フレームワーク Categorizing Online Shopping Behavior from Cosmetics to Electronics: An Analytical Framework ( http://arxiv.org/abs/2010.02503v1 ) ライセンス: Link先を確認 | Sohini Roychowdhury, Wenxi Li, Ebrahim Alareqi, Akhilesh Pandita, Ao Liu, Joakim Soderberg | (参考訳) デジタルマーケティングの時代における現代企業の成功要因は、顧客がオンラインショッピングパターンに基づいてどう考え、どのように振る舞うかを理解することである。
アンケートやアンケートを通じて消費者の洞察を収集する従来の手法は、市場インテリジェンスユニットの記述分析の基礎をいまだに形成しているが、このプロセスを自動化するための機械学習フレームワークを提案する。
本稿では,ユーザと製品間のセッションレベルのインタラクションレコードを処理し,セッションレベル,ユーザジャーニーレベル,購入イベントに至る顧客の行動特有のパターンを予測するモジュール型コンシューマデータ分析プラットフォームを提案する。
計算フレームワークを探究し,2つのビッグデータセット-cosmeticsと,サイズ2gbと15gbのコンシューマエレクトロニクスについて,それぞれテスト結果を提供する。
提案手法は, 97~99%の分類精度を達成し, ユーザ・ジャーナルレベルの購入予測をリコールし, 購入行動を5クラスタに分類し, 両データセットの購入比率を増加させる。
したがって、提案されたフレームワークは、他の大きなeコマースデータセットに拡張可能で、自動購入予測と説明的な消費者洞察を得ることができる。 A success factor for modern companies in the age of Digital Marketing is to understand how customers think and behave based on their online shopping patterns. While the conventional method of gathering consumer insights through questionnaires and surveys still form the bases of descriptive analytics for market intelligence units, we propose a machine learning framework to automate this process. In this paper we present a modular consumer data analysis platform that processes session level interaction records between users and products to predict session level, user journey level and customer behavior specific patterns leading towards purchase events. We explore the computational framework and provide test results on two Big data sets-cosmetics and consumer electronics of size 2GB and 15GB, respectively. The proposed system achieves 97-99% classification accuracy and recall for user-journey level purchase predictions and categorizes buying behavior into 5 clusters with increasing purchase ratios for both data sets. Thus, the proposed framework is extendable to other large e-commerce data sets to obtain automated purchase predictions and descriptive consumer insights. | 翻訳日:2022-10-10 07:58:14 公開日:2020-10-06 |
# 潜在力モデルを用いた遺伝子制御ネットワーク推論 Gene Regulatory Network Inference with Latent Force Models ( http://arxiv.org/abs/2010.02555v1 ) ライセンス: Link先を確認 | Jacob Moss, Pietro Li\'o | (参考訳) タンパク質合成の遅延は、RNAシークエンシング時系列データから遺伝子制御ネットワーク(GRN)を構築する際に相反する効果をもたらす。
正確なGRNは、発達、疾患経路、薬物副作用をモデル化する際に非常に洞察に富む。
実験データに適合するメカニスティック方程式とベイズアプローチを組み合わせることで,翻訳遅延を組み込んだモデルを提案する。
これにより生物学的解釈性が向上し、ガウス過程を用いることで、核を通じての非線形表現性や、自然に生物の変動を計算できる。 Delays in protein synthesis cause a confounding effect when constructing Gene Regulatory Networks (GRNs) from RNA-sequencing time-series data. Accurate GRNs can be very insightful when modelling development, disease pathways, and drug side-effects. We present a model which incorporates translation delays by combining mechanistic equations and Bayesian approaches to fit to experimental data. This enables greater biological interpretability, and the use of Gaussian processes enables non-linear expressivity through kernels as well as naturally accounting for biological variation. | 翻訳日:2022-10-10 07:57:55 公開日:2020-10-06 |
# wasserstein barycentersを用いた大気ガス濃度平均化 Averaging Atmospheric Gas Concentration Data using Wasserstein Barycenters ( http://arxiv.org/abs/2010.02762v1 ) ライセンス: Link先を確認 | Mathieu Barr\'e, Cl\'ement Giron, Matthieu Mazzolini, Alexandre d'Aspremont | (参考訳) hyperspectral satellite imagesは、世界中の温室効果ガス濃度を毎日報告している。
これらの画像の単純な平均を時間とともに取ると、相対的な放射率を大まかに見積もるが、大気輸送は、単純な平均がこれらの放出源を特定できないことを意味する。
気象データと組み合わさったワッサーシュタイン・バリセンタを用いて, ガス濃度データセットの平均化と, 質量集中性の向上を提案する。 Hyperspectral satellite images report greenhouse gas concentrations worldwide on a daily basis. While taking simple averages of these images over time produces a rough estimate of relative emission rates, atmospheric transport means that simple averages fail to pinpoint the source of these emissions. We propose using Wasserstein barycenters coupled with weather data to average gas concentration data sets and better concentrate the mass around significant sources. | 翻訳日:2022-10-10 07:57:45 公開日:2020-10-06 |
# Dif-MAML:分散マルチエージェントメタラーニング Dif-MAML: Decentralized Multi-Agent Meta-Learning ( http://arxiv.org/abs/2010.02870v1 ) ライセンス: Link先を確認 | Mert Kayaalp, Stefan Vlaski, Ali H. Sayed | (参考訳) メタラーニングの目的は、観察したタスクから得られた知識を活用して、目に見えないタスクへの適応を改善することである。
そのため、メタ学習者は、より多くの観察されたタスクとタスク毎のデータ量でトレーニングされた時に、より一般化することができる。
必要なリソースの量を考えると、タスク、それぞれのデータ、必要な計算能力が単一の中央の場所で利用可能になることは一般的には困難である。
これらのリソースがいくつかのグラフトポロジーによって接続された複数のエージェントに分散される状況に遭遇するのはより自然である。
メタラーニングの形式化は、学習者がエージェント全体に広がる情報と計算能力の恩恵を受ける、この分散的な設定に実際に適しています。
そこで本研究では,拡散ベースmamlまたはdif-mamlと呼ばれる協調型完全分散マルチエージェントメタラーニングアルゴリズムを提案する。
分散最適化アルゴリズムは、スケーラビリティ、通信ボトルネックの回避、プライバシー保証の観点から、集中的な実装よりも優れている。
本研究は, 提案手法により, 非凸環境においても, エージェントの集合が線形速度で合意に達し, 集合MAML目標の定常点に収束することを示すための詳細な理論的解析を行う。
シミュレーション結果は,従来の非協力的な設定と比較して,理論的な知見と優れた性能を示す。 The objective of meta-learning is to exploit the knowledge obtained from observed tasks to improve adaptation to unseen tasks. As such, meta-learners are able to generalize better when they are trained with a larger number of observed tasks and with a larger amount of data per task. Given the amount of resources that are needed, it is generally difficult to expect the tasks, their respective data, and the necessary computational capacity to be available at a single central location. It is more natural to encounter situations where these resources are spread across several agents connected by some graph topology. The formalism of meta-learning is actually well-suited to this decentralized setting, where the learner would be able to benefit from information and computational power spread across the agents. Motivated by this observation, in this work, we propose a cooperative fully-decentralized multi-agent meta-learning algorithm, referred to as Diffusion-based MAML or Dif-MAML. Decentralized optimization algorithms are superior to centralized implementations in terms of scalability, avoidance of communication bottlenecks, and privacy guarantees. The work provides a detailed theoretical analysis to show that the proposed strategy allows a collection of agents to attain agreement at a linear rate and to converge to a stationary point of the aggregate MAML objective even in non-convex environments. Simulation results illustrate the theoretical findings and the superior performance relative to the traditional non-cooperative setting. | 翻訳日:2022-10-10 07:57:36 公開日:2020-10-06 |
# 多くのヒントによるオンライン線形最適化 Online Linear Optimization with Many Hints ( http://arxiv.org/abs/2010.03082v1 ) ライセンス: Link先を確認 | Aditya Bhaskara and Ashok Cutkosky and Ravi Kumar and Manish Purohit | (参考訳) 本研究では,学習者が決定に先立って各ラウンドでK$"hint"ベクトルにアクセス可能なオンライン線形最適化(OLO)問題について検討する。
この設定では、コストベクトルと正の相関を持つ$k$ヒントの凸結合が存在する場合、対数的後悔を得るアルゴリズムを考案する。
これは、$K=1$の場合にのみ考慮する以前の作業を大幅に拡張する。
そこで本研究では,多くの任意のOLOアルゴリズムを組み合わせることで,後続のアルゴリズムに対する最小の後悔よりも,対数的に悪い要因のみを求める方法を開発した。 We study an online linear optimization (OLO) problem in which the learner is provided access to $K$ "hint" vectors in each round prior to making a decision. In this setting, we devise an algorithm that obtains logarithmic regret whenever there exists a convex combination of the $K$ hints that has positive correlation with the cost vectors. This significantly extends prior work that considered only the case $K=1$. To accomplish this, we develop a way to combine many arbitrary OLO algorithms to obtain regret only a logarithmically worse factor than the minimum regret of the original algorithms in hindsight; this result is of independent interest. | 翻訳日:2022-10-10 07:50:58 公開日:2020-10-06 |
# 維持血液透析患者の貧血予防のためのaisacs(artificial intelligence supported anemia control system) Artificial intelligence supported anemia control system (AISACS) to prevent anemia in maintenance hemodialysis patients ( http://arxiv.org/abs/2010.03948v1 ) ライセンス: Link先を確認 | Toshiaki Ohara, Hiroshi Ikeda, Yoshiki Sugitani, Hiroshi Suito, Viet Quang Huy Huynh, Masaru Kinomura, Soichiro Haraguchi and Kazufumi Sakurama | (参考訳) エリスロポエシス刺激薬(esas)と鉄サプリメント(iss)を予防処置として用いる貧血は、血液透析患者にとって重要な困難を呈する。
それにもかかわらず、そのような薬を適切に管理できる医師の数は、血液透析患者の急激な増加に対応していない。
さらに、ESAの高コストは医療保険システムに重荷を課す。
経験者からの投与方向データを用いて訓練した人工知能支援貧血管理システム(AISACS)を開発した。
本システムでは,適切なデータ選択と整流技術が重要な役割を果たす。
ESAに関連する意思決定は、2段階の分類手法を導入する多クラス分類問題を引き起こす。
いくつかの検証では、AISACSは72-87%、臨床的に適切な分類率92-98%で高い性能を示した。 Anemia, for which erythropoiesis-stimulating agents (ESAs) and iron supplements (ISs) are used as preventive measures, presents important difficulties for hemodialysis patients. Nevertheless, the number of physicians able to manage such medications appropriately is not keeping pace with the rapid increase of hemodialysis patients. Moreover, the high cost of ESAs imposes heavy burdens on medical insurance systems. An artificial-intelligence-supported anemia control system (AISACS) trained using administration direction data from experienced physicians has been developed by the authors. For the system, appropriate data selection and rectification techniques play important roles. Decision making related to ESAs poses a multi-class classification problem for which a two-step classification technique is introduced. Several validations have demonstrated that AISACS exhibits high performance with correct classification rates of 72-87% and clinically appropriate classification rates of 92-98%. | 翻訳日:2022-10-10 07:50:47 公開日:2020-10-06 |
# 未知環境マッピングのための異種多エージェント強化学習 Heterogeneous Multi-Agent Reinforcement Learning for Unknown Environment Mapping ( http://arxiv.org/abs/2010.02663v1 ) ライセンス: Link先を確認 | Ceyer Wakilpoor, Patrick J. Martin, Carrie Rebhuhn, Amanda Vu | (参考訳) 不均一なマルチエージェントシナリオにおける強化学習は、現実世界のアプリケーションにとって重要であるが、均質な設定や単純なベンチマークで見られる以上の課題を提示する。
本研究では、異種エージェントのチームが未知環境をカバーするための分散制御ポリシーを学習できるようにするアクター批判アルゴリズムを提案する。
この任務は、無人航空機のチームを配置することで危険地域における状況認識を高めたい国家の安全及び緊急対応機関への関心である。
未知環境におけるこのマルチエージェントカバレッジパス計画問題を解くために,我々は,新しい状態エンコード構造と三重項学習損失により,マルチエージェントアクタ-クリティックアーキテクチャを強化し,異種エージェント学習を支援する。
本研究では,乱れや通信遅延,エージェントの喪失といった実環境要因を含むシミュレーション環境を開発し,エージェントのチームを訓練し,その堅牢性と柔軟性を探索する。 Reinforcement learning in heterogeneous multi-agent scenarios is important for real-world applications but presents challenges beyond those seen in homogeneous settings and simple benchmarks. In this work, we present an actor-critic algorithm that allows a team of heterogeneous agents to learn decentralized control policies for covering an unknown environment. This task is of interest to national security and emergency response organizations that would like to enhance situational awareness in hazardous areas by deploying teams of unmanned aerial vehicles. To solve this multi-agent coverage path planning problem in unknown environments, we augment a multi-agent actor-critic architecture with a new state encoding structure and triplet learning loss to support heterogeneous agent learning. We developed a simulation environment that includes real-world environmental factors such as turbulence, delayed communication, and agent loss, to train teams of agents as well as probe their robustness and flexibility to such disturbances. | 翻訳日:2022-10-10 07:50:14 公開日:2020-10-06 |
# 音声変換チャレンジ2020のシーケンス・ツー・シーケンスベースライン:カスケードASRとTS The Sequence-to-Sequence Baseline for the Voice Conversion Challenge 2020: Cascading ASR and TTS ( http://arxiv.org/abs/2010.02434v1 ) ライセンス: Link先を確認 | Wen-Chin Huang, Tomoki Hayashi, Shinji Watanabe, Tomoki Toda | (参考訳) 本稿では,音声変換チャレンジ(VCC)2020におけるSequence-to-Sequence(seq2seq)ベースラインシステムを提案する。
本稿では、まず入力音声を自動音声認識(ASR)モデルで書き起こし、次にテキスト音声合成(TTS)モデルでターゲットの声を生成する方法を提案する。
提案手法は,オープンソースのエンドツーエンド音声処理ツールキットであるESPnetと,コミュニティが提供する多くの事前学習モデルを利用して,シーケンス・ツー・シーケンス(seq2seq)フレームワークで再検討する。
公式評価の結果,提案システムは変換の類似性という点で上位のシステムであり,Seq2seqモデルが話者識別を変換できる可能性を示している。
https://github.com/espnet/espnet/tree/master/egs/vcc20。 This paper presents the sequence-to-sequence (seq2seq) baseline system for the voice conversion challenge (VCC) 2020. We consider a naive approach for voice conversion (VC), which is to first transcribe the input speech with an automatic speech recognition (ASR) model, followed using the transcriptions to generate the voice of the target with a text-to-speech (TTS) model. We revisit this method under a sequence-to-sequence (seq2seq) framework by utilizing ESPnet, an open-source end-to-end speech processing toolkit, and the many well-configured pretrained models provided by the community. Official evaluation results show that our system comes out top among the participating systems in terms of conversion similarity, demonstrating the promising ability of seq2seq models to convert speaker identity. The implementation is made open-source at: https://github.com/espnet/espnet/tree/master/egs/vcc20. | 翻訳日:2022-10-10 07:49:40 公開日:2020-10-06 |
# ASDN: 任意規模の超解像のための深層畳み込みネットワーク ASDN: A Deep Convolutional Network for Arbitrary Scale Image Super-Resolution ( http://arxiv.org/abs/2010.02414v1 ) ライセンス: Link先を確認 | Jialiang Shen, Yucheng Wang, Jian Zhang | (参考訳) 深部畳み込みニューラルネットワークは、超解法(SR)のピーク信号-雑音比を大幅に改善した。
しかし、イメージビューアアプリケーションは、ユーザーが任意の拡大スケールまでズームできるのが一般的であり、これまでのところ、膨大な計算コストで大量のトレーニングスケールを課している。
任意のスケールSRのより計算効率の良いモデルを得るために、ラプラシアンピラミッド法を用いて、ラプラシアン周波数表現における高周波画像の詳細を用いて、任意のスケールの高分解能画像(HR)を再構成する。
1 と 2 の小さなスケールの SR の場合、画像はプレ計算されたラプラシアピラミッドのスパースセットからの補間によって構成される。
大きなスケールのsrは、小さなスケールからの再帰によって計算され、計算コストを大幅に削減する。
完全な比較のために、様々なベンチマークを用いて固定および任意のスケールの実験を行う。
固定スケールでは、ASDNはPSNRの約1dBで事前定義されたアップサンプリング手法(SRCNN、VDSR、DRRNなど)より優れている。
いずれにせよ、ASDNは多くのスケールでMeta-SRを超える。 Deep convolutional neural networks have significantly improved the peak signal-to-noise ratio of SuperResolution (SR). However, image viewer applications commonly allow users to zoom the images to arbitrary magnification scales, thus far imposing a large number of required training scales at a tremendous computational cost. To obtain a more computationally efficient model for arbitrary scale SR, this paper employs a Laplacian pyramid method to reconstruct any-scale high-resolution (HR) images using the high-frequency image details in a Laplacian Frequency Representation. For SR of small-scales (between 1 and 2), images are constructed by interpolation from a sparse set of precalculated Laplacian pyramid levels. SR of larger scales is computed by recursion from small scales, which significantly reduces the computational cost. For a full comparison, fixed- and any-scale experiments are conducted using various benchmarks. At fixed scales, ASDN outperforms predefined upsampling methods (e.g., SRCNN, VDSR, DRRN) by about 1 dB in PSNR. At any-scale, ASDN generally exceeds Meta-SR on many scales. | 翻訳日:2022-10-10 07:49:22 公開日:2020-10-06 |
# 逆行性損失を伴うスタイルトランスファーネットワークを用いた病理組織染色 Histopathological Stain Transfer using Style Transfer Network with Adversarial Loss ( http://arxiv.org/abs/2010.02659v1 ) ライセンス: Link先を確認 | Harshal Nishar, Nikhil Chavanke, Nitin Singhal | (参考訳) 単一のラボおよび/またはスキャナから得られた病理画像に基づいて訓練されたディープラーニングモデルは、異なる染色プロトコルで他のスキャナ/ラボから得られた画像に対して、低い推論性能を与える。
近年,この課題に対処するために,画像染色正規化のための研究が盛んに行われている。
そこで本研究では, 高速ニューラルネットワークを用いた染色正規化問題に対して, 逆損失を併用した新しい手法を提案する。
また,高分解能ネットワーク(HRNet)をベースとした新しいステンレストランスジェネレータネットワークを提案する。
このアプローチは、8つの異なる研究室から得られた全スライド画像(WSI)でテストされ、1つの研究室の画像が参照染色として扱われた。
この染色にディープラーニングモデルが組み込まれ、残りの画像は対応するステンドトランスファージェネレータネットワークを使用してその上に転送された。
実験により, 染色正規化を施さない場合と比較して, 良好な視覚的品質で染色正規化を達成でき, 推論性能が向上することが示唆された。 Deep learning models that are trained on histopathological images obtained from a single lab and/or scanner give poor inference performance on images obtained from another scanner/lab with a different staining protocol. In recent years, there has been a good amount of research done for image stain normalization to address this issue. In this work, we present a novel approach for the stain normalization problem using fast neural style transfer coupled with adversarial loss. We also propose a novel stain transfer generator network based on High-Resolution Network (HRNet) which requires less training time and gives good generalization with few paired training images of reference stain and test stain. This approach has been tested on Whole Slide Images (WSIs) obtained from 8 different labs, where images from one lab were treated as a reference stain. A deep learning model was trained on this stain and the rest of the images were transferred to it using the corresponding stain transfer generator network. Experimentation suggests that this approach is able to successfully perform stain normalization with good visual quality and provides better inference performance compared to not applying stain normalization. | 翻訳日:2022-10-10 07:49:02 公開日:2020-10-06 |
# 画像分類を用いた超音波ガイド放射線治療のための補助プローブ位置決め Assisted Probe Positioning for Ultrasound Guided Radiotherapy Using Image Sequence Classification ( http://arxiv.org/abs/2010.02732v1 ) ライセンス: Link先を確認 | Alexander Grimwood, Helen McNair, Yipeng Hu, Ester Bonmati, Dean Barratt, Emma Harris | (参考訳) 前立腺外照射療法における経皮的超音波画像誘導は, 患者設定中の各セッションにおけるプローブと前立腺の整合性を必要とする。
プローブ配置と超音波画像インタープレテーションは操作者のスキルに基づく手作業であり、放射線治療精度を低下させる操作間不確実性をもたらす。
画像とプローブ位置データの共同分類により,高精度なプローブ配置を確保する方法を示す。
マルチ入力マルチタスクアルゴリズムを用いて、光学的追跡された超音波プローブからの空間座標データを、繰り返しニューラルネットワークを用いて画像クラスシファイアと組み合わせ、リアルタイムで2セットの予測を生成する。
第1セットは、外部前立腺、前立腺周囲、前立腺中心といったクラスを用いて、視野で見える関連する前立腺解剖を識別する。
第2のセットでは、プローブと前立腺中心との間のアライメント(左、右、ストップ)を達成するために、プローブ角調整を推奨している。
アルゴリズムは,32例の61症例から9,743例の臨床画像を用いて訓練,試験を行った。
2/3と3/3の閾値で3人の経験的観察者から切り離された分類ラベルに対する分類精度を評価した。
観測者間で一致した画像の場合、解剖学的分類精度は97.2%、プローブ調整精度は94.9%であった。
このアルゴリズムは、2.8$^{\circ}$ (2.6$^{\circ}$)平均オブザーバ範囲に匹敵する、完全なオブザーバのコンセンサスを持つ角度ラベルから平均3.7$^{\circ}$ (1.2$^{\circ}$)の平均(標準偏差)の範囲内の最適なプローブアライメントを同定した。
そこで本研究では,超音波画像解釈の経験が限られたra-diotherapyの実践者に対して,患者設定時の実時間フィードバックを効果的に提供するアルゴリズムを提案する。 Effective transperineal ultrasound image guidance in prostate external beam radiotherapy requires consistent alignment between probe and prostate at each session during patient set-up. Probe placement and ultrasound image inter-pretation are manual tasks contingent upon operator skill, leading to interoperator uncertainties that degrade radiotherapy precision. We demonstrate a method for ensuring accurate probe placement through joint classification of images and probe position data. Using a multi-input multi-task algorithm, spatial coordinate data from an optically tracked ultrasound probe is combined with an image clas-sifier using a recurrent neural network to generate two sets of predictions in real-time. The first set identifies relevant prostate anatomy visible in the field of view using the classes: outside prostate, prostate periphery, prostate centre. The second set recommends a probe angular adjustment to achieve alignment between the probe and prostate centre with the classes: move left, move right, stop. The algo-rithm was trained and tested on 9,743 clinical images from 61 treatment sessions across 32 patients. We evaluated classification accuracy against class labels de-rived from three experienced observers at 2/3 and 3/3 agreement thresholds. For images with unanimous consensus between observers, anatomical classification accuracy was 97.2% and probe adjustment accuracy was 94.9%. The algorithm identified optimal probe alignment within a mean (standard deviation) range of 3.7$^{\circ}$ (1.2$^{\circ}$) from angle labels with full observer consensus, comparable to the 2.8$^{\circ}$ (2.6$^{\circ}$) mean interobserver range. We propose such an algorithm could assist ra-diotherapy practitioners with limited experience of ultrasound image interpreta-tion by providing effective real-time feedback during patient set-up. | 翻訳日:2022-10-10 07:48:42 公開日:2020-10-06 |
# 病的視覚的質問応答 Pathological Visual Question Answering ( http://arxiv.org/abs/2010.12435v1 ) ライセンス: Link先を確認 | Xuehai He, Zhuo Cai, Wenlan Wei, Yichen Zhang, Luntian Mou, Eric Xing, Pengtao Xie | (参考訳) アメリカ病理学会(ABP)の理事会認定試験に合格する「AI病理学」を開発することは可能か?
このようなシステムを構築するには、3つの課題に取り組む必要がある。
まず、AIエージェントに質問とともに病理像を提示し、正しい回答を依頼する視覚的質問応答(VQA)データセットを作成する必要がある。
プライバシー上の懸念から、病理画像は通常公開されていない。
さらに、よく訓練された病理学者だけが病理画像を理解することができるが、AI研究のためのデータセットを作成する時間はほとんどない。
第二の課題は、高度に経験を積んだ病理学者を雇って、病理の視覚的な質問や回答を作成することは難しいため、結果として得られた病理VQAデータセットにはエラーが含まれる可能性があることである。
これらのノイズや誤ったデータを用いたトレーニング病理VQAモデルは、目に見えない画像でうまく一般化できない問題モデルにつながる。
第3の課題は、QAペアの医療概念と知識は非常に多様であり、モデリングトレーニングで利用可能なQAペアの数は限られていることである。
限られたデータに基づいて多様な医療概念を効果的に表現する方法が技術的に求められている。
本稿では,これら3つの課題を解決することを目的とする。
我々の知る限りでは、私たちの研究は病理VQA問題に最初に取り組むものである。
公開されている病理VQAデータセットが不足している問題に対処するため、PathVQAデータセットを作成します。
第2の課題に対処するために,我々は学習・無視アプローチを提案する。
第3の課題に対処するため,我々はクロスモーダル自己教師付き学習の利用を提案する。
開発したpathvqaデータセット上で実験を行い,提案手法とクロスモーダル自己教師付き学習手法の有効性を示す。 Is it possible to develop an "AI Pathologist" to pass the board-certified examination of the American Board of Pathology (ABP)? To build such a system, three challenges need to be addressed. First, we need to create a visual question answering (VQA) dataset where the AI agent is presented with a pathology image together with a question and is asked to give the correct answer. Due to privacy concerns, pathology images are usually not publicly available. Besides, only well-trained pathologists can understand pathology images, but they barely have time to help create datasets for AI research. The second challenge is: since it is difficult to hire highly experienced pathologists to create pathology visual questions and answers, the resulting pathology VQA dataset may contain errors. Training pathology VQA models using these noisy or even erroneous data will lead to problematic models that cannot generalize well on unseen images. The third challenge is: the medical concepts and knowledge covered in pathology question-answer (QA) pairs are very diverse while the number of QA pairs available for modeling training is limited. How to learn effective representations of diverse medical concepts based on limited data is technically demanding. In this paper, we aim to address these three challenges. To our best knowledge, our work represents the first one addressing the pathology VQA problem. To deal with the issue that a publicly available pathology VQA dataset is lacking, we create PathVQA dataset. To address the second challenge, we propose a learning-by-ignoring approach. To address the third challenge, we propose to use cross-modal self-supervised learning. We perform experiments on our created PathVQA dataset and the results demonstrate the effectiveness of our proposed learning-by-ignoring method and cross-modal self-supervised learning methods. | 翻訳日:2022-10-10 07:42:40 公開日:2020-10-06 |
# クエリ生成のための行動仮説の導入 Incorporating Behavioral Hypotheses for Query Generation ( http://arxiv.org/abs/2010.02667v1 ) ライセンス: Link先を確認 | Ruey-Cheng Chen, Chia-Jung Lee | (参考訳) 生成ニューラルネットワークはクエリ提案に有効であることが示されている。
条件生成問題として一般的に挙げられるこのタスクは、検索セッションのユーザからの早期の入力を活用して、後で発行される可能性のあるクエリを予測することを目的としている。
ユーザ入力は、クエリやクリックなど、さまざまな形式のもので、それぞれが対応する行動パターンを通じてチャンネルされる意味的なシグナルを暗示することができる。
本稿では、これらの振る舞いバイアスをクエリ生成の仮説として導き出し、汎用エンコーダデコーダトランスフォーマーフレームワークを任意の仮説の集合として提示する。
実験結果から,提案手法は最近のBARTモデルと比較して,トップ$k$ワード誤り率とBert F1スコアを大幅に改善することが示された。 Generative neural networks have been shown effective on query suggestion. Commonly posed as a conditional generation problem, the task aims to leverage earlier inputs from users in a search session to predict queries that they will likely issue at a later time. User inputs come in various forms such as querying and clicking, each of which can imply different semantic signals channeled through the corresponding behavioral patterns. This paper induces these behavioral biases as hypotheses for query generation, where a generic encoder-decoder Transformer framework is presented to aggregate arbitrary hypotheses of choice. Our experimental results show that the proposed approach leads to significant improvements on top-$k$ word error rate and Bert F1 Score compared to a recent BART model. | 翻訳日:2022-10-10 07:42:02 公開日:2020-10-06 |
# 世代別ランキングによる[CLS]を超えて Beyond [CLS] through Ranking by Generation ( http://arxiv.org/abs/2010.03073v1 ) ライセンス: Link先を確認 | Cicero Nogueira dos Santos, Xiaofei Ma, Ramesh Nallapati, Zhiheng Huang, Bing Xiang | (参考訳) 文書のランク付けが文書の言語モデルからクエリを生成するタスクと見なされる情報検索のための生成モデルは、過去に様々なirタスクで非常に成功しました。
しかし、現代のディープニューラルネットワークの出現に伴い、文書やクエリのセマンティックな類似性をモデル化する識別的ランキング関数に注目が移った。
近年, GPT2 や BART などの深層生成モデルは優れたテキストジェネレータであることが示されているが, ローダとしての有効性はまだ証明されていない。
本研究では,情報検索のための生成的枠組みを再考し,その生成的アプローチが,回答選択タスクにおける意味的類似性に基づく判別モデルと同じくらい有効であることを示す。
さらに、IRにおける異種損失の有効性を示す。 Generative models for Information Retrieval, where ranking of documents is viewed as the task of generating a query from a document's language model, were very successful in various IR tasks in the past. However, with the advent of modern deep neural networks, attention has shifted to discriminative ranking functions that model the semantic similarity of documents and queries instead. Recently, deep generative models such as GPT2 and BART have been shown to be excellent text generators, but their effectiveness as rankers have not been demonstrated yet. In this work, we revisit the generative framework for information retrieval and show that our generative approaches are as effective as state-of-the-art semantic similarity-based discriminative models for the answer selection task. Additionally, we demonstrate the effectiveness of unlikelihood losses for IR. | 翻訳日:2022-10-10 07:41:50 公開日:2020-10-06 |
# ベクトルベクトル行列アーキテクチャ:NLPアプリケーションにおける低遅延推論のための新しいハードウェア対応フレームワーク Vector-Vector-Matrix Architecture: A Novel Hardware-Aware Framework for Low-Latency Inference in NLP Applications ( http://arxiv.org/abs/2010.08412v1 ) ライセンス: Link先を確認 | Matthew Khoury and Rumen Dangovski and Longwu Ou and Preslav Nakov and Yichen Shen and Li Jing | (参考訳) ディープニューラルネットワークは、ニューラルネットワーク翻訳(NMT)から対話システムまで、信頼できる自然言語処理(NLP)アプリケーションを構築するための標準アプローチとなっている。
しかし、モデルサイズを大きくすることで精度を向上させるには、大量のハードウェア計算が必要であるため、推論時にNLPアプリケーションを著しく遅くすることができる。
この問題に対処するため,NMTにおける推定時間の遅延を大幅に低減するベクトルベクトル行列アーキテクチャ(VVMA)を提案する。
このアーキテクチャは、低遅延ベクトルベクトル演算と高遅延ベクトル行列演算を持つ特殊なハードウェアを利用する。
また、効率の良い行列乗算器に依存する事実上全てのモデルのパラメータとフロップ数を削減し、精度に大きな影響を与えない。
本研究では,NMTのシーケンス・ツー・シーケンスモデルとトランスフォーマーモデルのレイテンシを4倍に削減できることを示す実験結果を示す。
最後に、VVMAが他のドメインに拡張されていることを示す証拠を示し、その効率的な使用のための新しいハードウェアについて論じる。 Deep neural networks have become the standard approach to building reliable Natural Language Processing (NLP) applications, ranging from Neural Machine Translation (NMT) to dialogue systems. However, improving accuracy by increasing the model size requires a large number of hardware computations, which can slow down NLP applications significantly at inference time. To address this issue, we propose a novel vector-vector-matrix architecture (VVMA), which greatly reduces the latency at inference time for NMT. This architecture takes advantage of specialized hardware that has low-latency vector-vector operations and higher-latency vector-matrix operations. It also reduces the number of parameters and FLOPs for virtually all models that rely on efficient matrix multipliers without significantly impacting accuracy. We present empirical results suggesting that our framework can reduce the latency of sequence-to-sequence and Transformer models used for NMT by a factor of four. Finally, we show evidence suggesting that our VVMA extends to other domains, and we discuss novel hardware for its efficient use. | 翻訳日:2022-10-10 07:41:33 公開日:2020-10-06 |
# バイナリ埋め込みと三元モデル係数によるメモリと計算効率のよいカーネルsvm Memory and Computation-Efficient Kernel SVM via Binary Embedding and Ternary Model Coefficients ( http://arxiv.org/abs/2010.02577v1 ) ライセンス: Link先を確認 | Zijian Lei, Liang Lan | (参考訳) カーネル近似はカーネルSVMのトレーニングと予測のスケールアップに広く用いられている。
しかし、携帯電話、スマートウォッチ、IoTデバイスなどのメモリ制限されたデバイスにデプロイしたい場合、カーネル近似モデルのメモリと計算コストは依然として高すぎる。
そこで本研究では,バイナリ埋め込み係数とバイナリモデル係数の両方を用いて,新しいメモリおよび計算効率の高いカーネルsvmモデルを提案する。
まず、カーネルの類似性を保ちながら、データのコンパクトなバイナリ埋め込みを生成する効率的な方法を提案する。
第2に,損失関数と正則化の異なる3次係数を持つ線形分類モデルを学ぶための,単純かつ効果的なアルゴリズムを提案する。
我々のアルゴリズムは、学習段階において係数が1$、$0$、または$1$を許容し、二項分類のためのモデル推論中に係数$0$を除去できるため、既存の二項係数の学習作業よりも優れた一般化精度が得られる。
さらに,アルゴリズムの収束度とモデルの推論複雑性を詳細に解析する。
解析により,局所最適化への収束が保証され,モデルの推論複雑性は他の競合する手法よりもはるかに低いことがわかった。
提案手法は, メモリコストが30KB未満の高精度な非線形SVMモデルを構築することができることを示した。 Kernel approximation is widely used to scale up kernel SVM training and prediction. However, the memory and computation costs of kernel approximation models are still too high if we want to deploy them on memory-limited devices such as mobile phones, smartwatches, and IoT devices. To address this challenge, we propose a novel memory and computation-efficient kernel SVM model by using both binary embedding and binary model coefficients. First, we propose an efficient way to generate compact binary embedding of the data, preserving the kernel similarity. Second, we propose a simple but effective algorithm to learn a linear classification model with ternary coefficients that can support different types of loss function and regularizer. Our algorithm can achieve better generalization accuracy than existing works on learning binary coefficients since we allow coefficient to be $-1$, $0$, or $1$ during the training stage, and coefficient $0$ can be removed during model inference for binary classification. Moreover, we provide a detailed analysis of the convergence of our algorithm and the inference complexity of our model. The analysis shows that the convergence to a local optimum is guaranteed, and the inference complexity of our model is much lower than other competing methods. Our experimental results on five large real-world datasets have demonstrated that our proposed method can build accurate nonlinear SVM models with memory costs less than 30KB. | 翻訳日:2022-10-10 07:41:15 公開日:2020-10-06 |
# スペクトルフィルタリングのチェビシェフ多項式による高速メッシュデータ拡張 Fast Mesh Data Augmentation via Chebyshev Polynomial of Spectral filtering ( http://arxiv.org/abs/2010.02811v1 ) ライセンス: Link先を確認 | Shih-Gu Huang, Moo K. Chung, Anqi Qiu, and Alzheimer's Disease Neuroimaging Initiative | (参考訳) ディープニューラルネットワークは、コンピュータビジョンと医用画像解析における強力な学習技術の1つとして認識されている。
トレーニングされたディープニューラルネットワークは、これまで見たことのない新しいデータに一般化する必要がある。
実際には、利用可能なトレーニングデータが少なく、データセットを拡張するために拡張が使用されることが多い。
グラフ畳み込みニューラルネットワーク(graph-CNN)はディープラーニングで広く使用されているが、グラフや表面のデータを生成するための拡張手法が不足している。
本研究では,LB-eigDA (Laplace-Beltrami eigenfunction Data Augmentation) とChebyshev polynomial Data Augmentation (C-pDA) の2つの非バイアス拡張手法を提案する。
LB-eigDAは、LB係数の再サンプリングを介してデータを増大させる。
LB-eigDAと並行して,LBスペクトルフィルタの多項式近似を用いた高速拡張手法C-pDAを導入する。
チェビシェフ多項式近似と再サンプリング信号を用いてLBスペクトル帯域通過フィルタを設計し,新しいデータを生成する。
まず,シミュレーションデータを用いてLB-eigDAとC-pDAを検証し,分類精度の向上を目的とした。
次に、アルツハイマー病神経画像イニシアチブ(ADNI)の脳画像を用いて、皮質表面に表される皮質の厚みを抽出し、2つの拡張法の使用法を説明する。
拡張皮質厚みは実データと類似したパターンを持つことを示す。
次に,C-pDAはLB-eigDAよりもはるかに高速であることを示す。
最後に,C-pDAはグラフCNNのAD分類精度を向上させることができることを示す。 Deep neural networks have recently been recognized as one of the powerful learning techniques in computer vision and medical image analysis. Trained deep neural networks need to be generalizable to new data that was not seen before. In practice, there is often insufficient training data available and augmentation is used to expand the dataset. Even though graph convolutional neural network (graph-CNN) has been widely used in deep learning, there is a lack of augmentation methods to generate data on graphs or surfaces. This study proposes two unbiased augmentation methods, Laplace-Beltrami eigenfunction Data Augmentation (LB-eigDA) and Chebyshev polynomial Data Augmentation (C-pDA), to generate new data on surfaces, whose mean is the same as that of real data. LB-eigDA augments data via the resampling of the LB coefficients. In parallel with LB-eigDA, we introduce a fast augmentation approach, C-pDA, that employs a polynomial approximation of LB spectral filters on surfaces. We design LB spectral bandpass filters by Chebyshev polynomial approximation and resample signals filtered via these filters to generate new data on surfaces. We first validate LB-eigDA and C-pDA via simulated data and demonstrate their use for improving classification accuracy. We then employ the brain images of Alzheimer's Disease Neuroimaging Initiative (ADNI) and extract cortical thickness that is represented on the cortical surface to illustrate the use of the two augmentation methods. We demonstrate that augmented cortical thickness has a similar pattern to real data. Second, we show that C-pDA is much faster than LB-eigDA. Last, we show that C-pDA can improve the AD classification accuracy of graph-CNN. | 翻訳日:2022-10-10 07:40:36 公開日:2020-10-06 |
# 最新のディープラーニングと従来の最適化分析の調和:本質的学習率 Reconciling Modern Deep Learning with Traditional Optimization Analyses: The Intrinsic Learning Rate ( http://arxiv.org/abs/2010.02916v1 ) ライセンス: Link先を確認 | Zhiyuan Li, Kaifeng Lyu, Sanjeev Arora | (参考訳) 最近の研究(Li と Arora, 2020)は、今日のディープラーニングにおける一般的な正規化スキーム(バッチ正規化を含む)の使用は、従来の最適化の観点から、例えば指数関数的に増加する学習率の使用から遠ざかることができることを示唆している。
本論文は,従来の視点から正規化ネットの挙動が逸脱する他の方法に着目し,従来の枠組みの適切な適応による数学研究のための形式的枠組み,すなわち,勾配雑音を捕捉する雑音項を用いた適切な確率微分方程式(sde)によるsgd誘導訓練軌道のモデル化について述べる。
こうなる。
(a)正常な学習率と体重減少係数の積である新しい「本質的学習率」パラメータ。
SDEの分析は、学習の有効速度がどのように変化し、内在性LRの制御の下で時間とともに平衡することを示す。
(b)良質な一般化には、トレーニングの開始時に大きな学習率が必要であるという一般の信念への挑戦(理論と実験)
c) 数学的直観に基づく新たな実験は,sde解析によって示唆される指数的時間収束とは対照的に,本質的学習率の逆として(関数空間において)平衡へのステップの数はスケールすることを示唆している。
我々はこれをFast Equilibrium Conjectureと呼び、バッチ正規化が有効である理由の鍵となることを示唆する。 Recent works (e.g., (Li and Arora, 2020)) suggest that the use of popular normalization schemes (including Batch Normalization) in today's deep learning can move it far from a traditional optimization viewpoint, e.g., use of exponentially increasing learning rates. The current paper highlights other ways in which behavior of normalized nets departs from traditional viewpoints, and then initiates a formal framework for studying their mathematics via suitable adaptation of the conventional framework namely, modeling SGD-induced training trajectory via a suitable stochastic differential equation (SDE) with a noise term that captures gradient noise. This yields: (a) A new ' intrinsic learning rate' parameter that is the product of the normal learning rate and weight decay factor. Analysis of the SDE shows how the effective speed of learning varies and equilibrates over time under the control of intrinsic LR. (b) A challenge -- via theory and experiments -- to popular belief that good generalization requires large learning rates at the start of training. (c) New experiments, backed by mathematical intuition, suggesting the number of steps to equilibrium (in function space) scales as the inverse of the intrinsic learning rate, as opposed to the exponential time convergence bound implied by SDE analysis. We name it the Fast Equilibrium Conjecture and suggest it holds the key to why Batch Normalization is effective. | 翻訳日:2022-10-10 07:40:06 公開日:2020-10-06 |
# 腫瘍治療フィールドの高速推定法 A Method for Tumor Treating Fields Fast Estimation ( http://arxiv.org/abs/2010.02644v1 ) ライセンス: Link先を確認 | Reuben R Shamir and Zeev Bomzon | (参考訳) 腫瘍治療分野(ttfields)は、特定の種類のがんに対してfdaが承認した治療であり、患者の寿命を大幅に延長する。
腫瘍内のttフィールドの強度は治療の結果と相関し, 患者が生存する期間が長ければ長いほどその強度は増大する。
そのため,TTFieldsトランスデューサアレイ位置を最適化し,その強度を最大化することが示唆された。
このような最適化には、シミュレーションフレームワークにおけるTTFieldの複数の計算が必要である。
しかし、これらの計算は一般に有限要素法や時間消費の類似の手法を用いて行われる。
したがって、実際には限られた数のトランスデューサアレイ位置のみを検査できる。
そこで本研究では,TTFieldsの強度を高速に推定する手法を開発した。
我々は, 患者頭部のセグメンテーション, 組織電気的特性の表, トランスデューサアレイの位置を入力できる手法を設計し, 実装した。
ランダムフォレスト回帰器にいくつかの関連するパラメータを組み込むことで、TTFields強度の空間推定を出力する。
症例10名 (20 ta レイアウト) において, この手法を評価した。
計算時間は提案手法で1.5分,商用シミュレーションで180~240分であった。
平均誤差は商業シミュレーションの結果と比較して0.14V/cm(SD = 0.06V/cm)であった。
これらの結果から, TTFields の高速な推定が可能であることが示唆された。
本手法は治療の最適化を容易にし、患者の寿命をさらに延長することができる。 Tumor Treating Fields (TTFields) is an FDA approved treatment for specific types of cancer and significantly extends patients life. The intensity of the TTFields within the tumor was associated with the treatment outcomes: the larger the intensity the longer the patients are likely to survive. Therefore, it was suggested to optimize TTFields transducer array location such that their intensity is maximized. Such optimization requires multiple computations of TTFields in a simulation framework. However, these computations are typically performed using finite element methods or similar approaches that are time consuming. Therefore, only a limited number of transducer array locations can be examined in practice. To overcome this issue, we have developed a method for fast estimation of TTFields intensity. We have designed and implemented a method that inputs a segmentation of the patients head, a table of tissues electrical properties and the location of the transducer array. The method outputs a spatial estimation of the TTFields intensity by incorporating a few relevant parameters in a random-forest regressor. The method was evaluated on 10 patients (20 TA layouts) in a leave-one-out framework. The computation time was 1.5 minutes using the suggested method, and 180-240 minutes using the commercial simulation. The average error was 0.14 V/cm (SD = 0.06 V/cm) in comparison to the result of the commercial simulation. These results suggest that a fast estimation of TTFields based on a few parameters is feasible. The presented method may facilitate treatment optimization and further extend patients life. | 翻訳日:2022-10-10 07:33:27 公開日:2020-10-06 |
# 深部注視による微細粒状インスタンス分類 Microscopic fine-grained instance classification through deep attention ( http://arxiv.org/abs/2010.02818v1 ) ライセンス: Link先を確認 | Mengran Fan, Tapabrata Chakrabort, Eric I-Chao Chang, Yan Xu, Jens Rittscher | (参考訳) 限られたサンプルで微視的な画像データの細かな分類は、コンピュータビジョンとバイオメディカルイメージングにおいてオープンな問題である。
深層学習に基づく視覚システムは高解像度の画像を扱うが、バイオメディカル画像の微妙な詳細は高解像度を必要とする。
このギャップを埋めるために、エンドツーエンドで2つのタスクを同時に実行する、シンプルで効果的なディープネットワークを提案する。
まず、追加のアノテーションやリージョンの提案なしに、高解像度で複数のキーインスタンスに集中できるゲート型アテンションモジュールを使用する。
第二に、最終画像レベルの分類には、グローバルな構造的特徴と局所的なインスタンス的特徴が融合される。
その結果、堅牢で軽量なトレーニング可能な深層ネットワークが実現し、2つの微細なマルチインスタンスのバイオメディカルイメージ分類タスク、すなわちベンチマーク乳がん組織学データセットと新たな真菌種の菌学データセットが実現した。
さらに,臨床に関連のある特徴と学習した特徴の一致を可視化することにより,提案モデルの解釈可能性を示す。 Fine-grained classification of microscopic image data with limited samples is an open problem in computer vision and biomedical imaging. Deep learning based vision systems mostly deal with high number of low-resolution images, whereas subtle detail in biomedical images require higher resolution. To bridge this gap, we propose a simple yet effective deep network that performs two tasks simultaneously in an end-to-end manner. First, it utilises a gated attention module that can focus on multiple key instances at high resolution without extra annotations or region proposals. Second, the global structural features and local instance features are fused for final image level classification. The result is a robust but lightweight end-to-end trainable deep network that yields state-of-the-art results in two separate fine-grained multi-instance biomedical image classification tasks: a benchmark breast cancer histology dataset and our new fungi species mycology dataset. In addition, we demonstrate the interpretability of the proposed model by visualising the concordance of the learned features with clinically relevant features. | 翻訳日:2022-10-10 07:32:53 公開日:2020-10-06 |
# 時間的インセプションモジュールを用いた動き予測 Motion Prediction Using Temporal Inception Module ( http://arxiv.org/abs/2010.03006v1 ) ライセンス: Link先を確認 | Tim Lebailly, Sena Kiciroglu, Mathieu Salzmann, Pascal Fua, Wei Wang | (参考訳) 人間の運動予測は、ロボット工学や自動運転の多くの応用に必須の要素である。
近年,この問題を解決するためにシーケンス・ツー・シーケンス深層学習モデルが提案されている。
しかし、彼らは異なる長さの入力に対して異なる時間スケールを利用することに焦点を合わせていない。
我々は、様々な時間スケールが重要であり、異なる受容野を持つ過去のフレームを見ることができるため、より良い予測につながると論じている。
本稿では,人間の動作を符号化するTIM(Temporal Inception Module)を提案する。
提案フレームワークは,TIMを用いて,異なる入力長に対して異なるカーネルサイズを用いて,畳み込み層を用いて入力埋め込みを生成する。
標準的な動き予測ベンチマークデータセットであるHuman3.6MとCMUのモーションキャプチャデータセットの実験結果から,我々の手法は一貫して技術手法の状態を上回ります。 Human motion prediction is a necessary component for many applications in robotics and autonomous driving. Recent methods propose using sequence-to-sequence deep learning models to tackle this problem. However, they do not focus on exploiting different temporal scales for different length inputs. We argue that the diverse temporal scales are important as they allow us to look at the past frames with different receptive fields, which can lead to better predictions. In this paper, we propose a Temporal Inception Module (TIM) to encode human motion. Making use of TIM, our framework produces input embeddings using convolutional layers, by using different kernel sizes for different input lengths. The experimental results on standard motion prediction benchmark datasets Human3.6M and CMU motion capture dataset show that our approach consistently outperforms the state of the art methods. | 翻訳日:2022-10-10 07:31:51 公開日:2020-10-06 |
# 時間バッファ付きストリーミングビデオにおけるオンライン行動検出 Online Action Detection in Streaming Videos with Time Buffers ( http://arxiv.org/abs/2010.03016v1 ) ライセンス: Link先を確認 | Bowen Zhang, Hao Chen, Meng Wang, Yuanjun Xiong | (参考訳) ライブストリーミングビデオにおけるオンラインの時間的動作検出の問題点を定式化し,ライブストリーミングビデオの1つの重要な特性として,最新のキャプチャーフレームと視聴者が見る実際のフレームとの間には,通常放送遅延があることを認めた。
オンラインアクション検出タスクの標準設定は、新しいフレームがキャプチャされた直後の即時予測を必要とする。
遅延に対する考慮の欠如は,不必要な制約をモデルに課すことであり,この問題には適さないことを示す。
本稿では,ライブストリーミング動画の遅延によって生じる小さな「バッファ時間」をモデルが利用できるような問題設定を採用することを提案する。
我々は2つの主要なコンポーネント、フラット化i3dとウィンドウベースの抑制を備えた、オンラインのアクション開始・終了検出フレームワークを設計した。
提案手法に基づく3つの標準時間行動検出ベンチマーク実験により,提案手法の有効性を実証した。
広義のアプリケーションでこの問題に対して適切な問題設定を行うことで,既成のオンライン行動検出モデルよりもはるかに優れた検出精度が得られることを示す。 We formulate the problem of online temporal action detection in live streaming videos, acknowledging one important property of live streaming videos that there is normally a broadcast delay between the latest captured frame and the actual frame viewed by the audience. The standard setting of the online action detection task requires immediate prediction after a new frame is captured. We illustrate that its lack of consideration of the delay is imposing unnecessary constraints on the models and thus not suitable for this problem. We propose to adopt the problem setting that allows models to make use of the small `buffer time' incurred by the delay in live streaming videos. We design an action start and end detection framework for this online with buffer setting with two major components: flattened I3D and window-based suppression. Experiments on three standard temporal action detection benchmarks under the proposed setting demonstrate the effectiveness of the proposed framework. We show that by having a suitable problem setting for this problem with wide-applications, we can achieve much better detection accuracy than off-the-shelf online action detection models. | 翻訳日:2022-10-10 07:31:39 公開日:2020-10-06 |
# IS-CAM:公理に基づく説明のための統合スコアCAM IS-CAM: Integrated Score-CAM for axiomatic-based explanations ( http://arxiv.org/abs/2010.03023v1 ) ライセンス: Link先を確認 | Rakshit Naidu, Ankita Ghosh, Yash Maurya, Shamanth R Nayak K, Soumya Snigdha Kundu | (参考訳) 畳み込みニューラルネットワークは、人間が内部機能を解釈できないため、ブラックボックスモデルとして知られている。
そこで我々は,IS-CAM(Integrated Score-CAM)を提案し,Score-CAMパイプライン内の統合操作を導入し,視覚的によりシャープな属性マップを定量的に実現した。
本手法は、ilsvrc 2012検証データセットから2000個のランダムに選択された画像を用いて評価され、異なるモデルや手法を考慮したis-camの汎用性が証明される。 Convolutional Neural Networks have been known as black-box models as humans cannot interpret their inner functionalities. With an attempt to make CNNs more interpretable and trustworthy, we propose IS-CAM (Integrated Score-CAM), where we introduce the integration operation within the Score-CAM pipeline to achieve visually sharper attribution maps quantitatively. Our method is evaluated on 2000 randomly selected images from the ILSVRC 2012 Validation dataset, which proves the versatility of IS-CAM to account for different models and methods. | 翻訳日:2022-10-10 07:31:24 公開日:2020-10-06 |
# 細粒度視覚分類のための視覚注意意識データ拡張によるドメイン適応伝達学習 Domain Adaptive Transfer Learning on Visual Attention Aware Data Augmentation for Fine-grained Visual Categorization ( http://arxiv.org/abs/2010.03071v1 ) ライセンス: Link先を確認 | Ashiq Imran and Vassilis Athitsos | (参考訳) Fine-Grained Visual Categorization (FGVC) はコンピュータビジョンにおける課題である。
クラス内差が大きいことやクラス間差が微妙であることが特徴である。
本稿では、ニューラルネットワークモデルが視覚的注意機構を通じてデータ拡張技術を用いて追加データによって供給されている弱い教師付き方法でこの問題に取り組む。
ベースネットワークモデルに基づく微調整によるドメイン適応型知識伝達を行う。
我々は,6つの挑戦的かつ一般的なFGVCデータセットの実験を行い,大規模データセットで事前学習した深層学習モデルInceptionV3の特徴を取り入れた注意認識データ拡張技術を用いて,アキュラシーの競争力向上を示す。
提案手法は,複数のFGVCデータセット上で競合する手法より優れ,他のデータセット上で競合する結果を示す。
大規模データセットからの転送学習は,複数のfgvcデータセットの最先端結果が得られる視覚注意に基づくデータ拡張により効果的に活用できることを示す。
我々は実験を総合的に分析する。
本手法は, CUB200-2011 Bird, Flowers-102, FGVC-Aircrafts といった細粒度分類データセットを用いて, 最先端の分類結果を実現する。 Fine-Grained Visual Categorization (FGVC) is a challenging topic in computer vision. It is a problem characterized by large intra-class differences and subtle inter-class differences. In this paper, we tackle this problem in a weakly supervised manner, where neural network models are getting fed with additional data using a data augmentation technique through a visual attention mechanism. We perform domain adaptive knowledge transfer via fine-tuning on our base network model. We perform our experiment on six challenging and commonly used FGVC datasets, and we show competitive improvement on accuracies by using attention-aware data augmentation techniques with features derived from deep learning model InceptionV3, pre-trained on large scale datasets. Our method outperforms competitor methods on multiple FGVC datasets and showed competitive results on other datasets. Experimental studies show that transfer learning from large scale datasets can be utilized effectively with visual attention based data augmentation, which can obtain state-of-the-art results on several FGVC datasets. We present a comprehensive analysis of our experiments. Our method achieves state-of-the-art results in multiple fine-grained classification datasets including challenging CUB200-2011 bird, Flowers-102, and FGVC-Aircrafts datasets. | 翻訳日:2022-10-10 07:30:55 公開日:2020-10-06 |
# NLP評価におけるテキスト・エンターメントの認識に関する調査 A Survey on Recognizing Textual Entailment as an NLP Evaluation ( http://arxiv.org/abs/2010.03061v1 ) ライセンス: Link先を確認 | Adam Poliak | (参考訳) 異なるNLPシステムの意味的理解を比較するための統合評価フレームワークとして,RTE(Recognizing Textual Entailment)を提案する。
本稿では,NLPシステムの推論能力の評価と理解のための様々なアプローチの概要について述べる。
RTEデータセットと、NLPシステムをきめ細かいレベルで評価するために使用できる特定の言語現象に焦点を当てたRTEデータセットの進歩に焦点を当てて、RTEの議論に焦点を当てる。
我々は、NLPシステムを評価する際、コミュニティは特定の言語現象に焦点を当てた新しいRTEデータセットを利用するべきであると結論づけた。 Recognizing Textual Entailment (RTE) was proposed as a unified evaluation framework to compare semantic understanding of different NLP systems. In this survey paper, we provide an overview of different approaches for evaluating and understanding the reasoning capabilities of NLP systems. We then focus our discussion on RTE by highlighting prominent RTE datasets as well as advances in RTE dataset that focus on specific linguistic phenomena that can be used to evaluate NLP systems on a fine-grained level. We conclude by arguing that when evaluating NLP systems, the community should utilize newly introduced RTE datasets that focus on specific linguistic phenomena. | 翻訳日:2022-10-10 07:24:53 公開日:2020-10-06 |
# Anubhuti -- ベンガルの短編小説の感情分析のための注釈付きデータセット Anubhuti -- An annotated dataset for emotional analysis of Bengali short stories ( http://arxiv.org/abs/2010.03065v1 ) ライセンス: Link先を確認 | Aditya Pal and Bhaskar Karn | (参考訳) 何千もの短編小説や記事は今日、世界中の様々な言語で書かれています。
バングラ語(バングラ語: Bengali)はヒンディー語に次いでインドで2番目に高い言語であり、バングラデシュの国語である。
本研究は、ベンガルの短編作家が表現した感情を分析する最初のテキストコーパスであるanubhutiの作成を詳細に報告している。
本稿では,アノテーションの言語的専門知識とラベリングの明確な方法論により,データ収集手法,手動アノテーション処理,結果として得られるアノテーション間合意の高まりについて述べる。
また、Bengaliのような低リソース言語で生データやアノテーションの収集に直面する課題にも対処しています。
我々は、ベースライン機械学習と感情分類のためのディープラーニングモデルを用いて、データセットのパフォーマンスを検証し、これらの標準モデルがanubhuti上で高い精度と関連する特徴選択を持っていることを見出した。
また、このデータセットが言語学者やデータ分析者にとって、ベンガル文学の作家が表現する感情の流れを研究する上で、どのように興味を持つのかについても説明する。 Thousands of short stories and articles are being written in many different languages all around the world today. Bengali, or Bangla, is the second highest spoken language in India after Hindi and is the national language of the country of Bangladesh. This work reports in detail the creation of Anubhuti -- the first and largest text corpus for analyzing emotions expressed by writers of Bengali short stories. We explain the data collection methods, the manual annotation process and the resulting high inter-annotator agreement of the dataset due to the linguistic expertise of the annotators and the clear methodology of labelling followed. We also address some of the challenges faced in the collection of raw data and annotation process of a low resource language like Bengali. We have verified the performance of our dataset with baseline Machine Learning as well as a Deep Learning model for emotion classification and have found that these standard models have a high accuracy and relevant feature selection on Anubhuti. In addition, we also explain how this dataset can be of interest to linguists and data analysts to study the flow of emotions as expressed by writers of Bengali literature. | 翻訳日:2022-10-10 07:24:42 公開日:2020-10-06 |
# 計画認識による規範同定 Norm Identification through Plan Recognition ( http://arxiv.org/abs/2010.02627v1 ) ライセンス: Link先を確認 | Nir Oren and Felipe Meneguzzi | (参考訳) 社会ルールは、規範が示すように、多エージェント社会に行動安定性の程度を提供することを目的としている。
ノルムは、許可、義務、禁止という非合法的な概念を用いて社会を規制し、社会で何が起こり得るか、必要でなければいけないかを特定する。
規範的システムの多くの実装は、標準の集合は設計時に静的で定義されているという仮定、社会に参加するエージェントはすぐに規範の完全な集合を知らせられる、社会内のエージェントの集合は変化しない、そして全てのエージェントは既存の規範を認識しているという仮定の様々な組み合わせを仮定している。
いずれかの仮定が取り下げられた場合、エージェントは、現在社会に存在している規範の集合を識別するか、あるいは不意に規範に違反するリスクを負うメカニズムが必要である。
本稿では,解析に基づく計画認識と階層型タスクネットワーク(htn)計画機構を組み合わせた規範識別機構を開発し,他のエージェントによる行動解析を行う。
我々の基本的なメカニズムは、規範違反が発生した状況では学べないが、違反発生時に動作可能な拡張について述べる。 Societal rules, as exemplified by norms, aim to provide a degree of behavioural stability to multi-agent societies. Norms regulate a society using the deontic concepts of permissions, obligations and prohibitions to specify what can, must and must not occur in a society. Many implementations of normative systems assume various combinations of the following assumptions: that the set of norms is static and defined at design time; that agents joining a society are instantly informed of the complete set of norms; that the set of agents within a society does not change; and that all agents are aware of the existing norms. When any one of these assumptions is dropped, agents need a mechanism to identify the set of norms currently present within a society, or risk unwittingly violating the norms. In this paper, we develop a norm identification mechanism that uses a combination of parsing-based plan recognition and Hierarchical Task Network (HTN) planning mechanisms, which operates by analysing the actions performed by other agents. While our basic mechanism cannot learn in situations where norm violations take place, we describe an extension which is able to operate in the presence of violations. | 翻訳日:2022-10-10 07:24:23 公開日:2020-10-06 |
# OracleによるAI安全性テストの場としてのChess Chess as a Testing Grounds for the Oracle Approach to AI Safety ( http://arxiv.org/abs/2010.02911v1 ) ライセンス: Link先を確認 | James D. Miller, Roman Yampolskiy, Olle Haggstrom, Stuart Armstrong | (参考訳) 強力な超知能AIの危険性を減らすために、メッセージの送受信のみが可能な最初のAIオーラクルを作るかもしれない。
本稿では、機械学習を用いて、チェスのアドバイスを提供する2種類の狭義のAIオラクルを作成するための、潜在的に実用的な方法を提案する。
プレイヤーは、どの種類の神託と相互作用しているかはわからないだろう。
オラクルはチェスの分野のプレイヤーよりもはるかに知性が高いので、これらのオラクルの経験は将来の人工知能のオラクルの準備に役立つかもしれない。 To reduce the danger of powerful super-intelligent AIs, we might make the first such AIs oracles that can only send and receive messages. This paper proposes a possibly practical means of using machine learning to create two classes of narrow AI oracles that would provide chess advice: those aligned with the player's interest, and those that want the player to lose and give deceptively bad advice. The player would be uncertain which type of oracle it was interacting with. As the oracles would be vastly more intelligent than the player in the domain of chess, experience with these oracles might help us prepare for future artificial general intelligence oracles. | 翻訳日:2022-10-10 07:24:01 公開日:2020-10-06 |
# ICCV 2019のCOCOとMapillary共同ワークショップ:COCOインスタンスセグメンテーションチャレンジトラック Joint COCO and Mapillary Workshop at ICCV 2019: COCO Instance Segmentation Challenge Track ( http://arxiv.org/abs/2010.02475v1 ) ライセンス: Link先を確認 | Zeming Li, Yuchen Ma, Yukang Chen, Xiangyu Zhang, Jian Sun | (参考訳) 本稿では,2パス方式で動作し,まずインスタンスを検出してセグメンテーションを得る,オブジェクト検出/インスタンスセグメンテーションシステムであるmegdetv2を提案する。
我々のベースライン検出器は主にRPN++と呼ばれる新しい設計のRPNに基づいている。
COCO-2019 検出/インスタンス分割テスト-dev データセットでは,2018 年の勝率それぞれ 5.0/4.2 を上回った 61.0/53.1 mAP を達成した。
私たちはCOCO Challenge 2019と2020で最高の成果を上げています。 In this report, we present our object detection/instance segmentation system, MegDetV2, which works in a two-pass fashion, first to detect instances then to obtain segmentation. Our baseline detector is mainly built on a new designed RPN, called RPN++. On the COCO-2019 detection/instance-segmentation test-dev dataset, our system achieves 61.0/53.1 mAP, which surpassed our 2018 winning results by 5.0/4.2 respectively. We achieve the best results in COCO Challenge 2019 and 2020. | 翻訳日:2022-10-10 07:23:29 公開日:2020-10-06 |
# 粗いラベル付き画像を用いた無線センサネットワークのための深層ニューラルネットワークの訓練 Training Deep Neural Networks for Wireless Sensor Networks Using Loosely and Weakly Labeled Images ( http://arxiv.org/abs/2010.02546v1 ) ライセンス: Link先を確認 | Qianwei Zhou, Yuhang Chen, Baoqing Li, Xiaoxin Li, Chen Zhou, Jingchang Huang, Haigen Hu | (参考訳) ディープラーニングはここ数年で目覚ましい成功を収めてきたが、データ、エネルギー、計算リソースが限られている画像認識のための無線センサネットワーク(wsns)にディープニューラルネットワークを適用するという報告はほとんど発表されていない。
本研究では,最小作業量で効率的なネットワークを訓練するために,コスト効率のよいドメイン一般化(cedg)アルゴリズムを提案する。
CEDGは、自動的に割り当てられた合成ドメインを介して、公開ソースドメインからアプリケーション固有のターゲットドメインにネットワークを転送する。
ターゲットドメインはパラメータチューニングから分離され、モデル選択とテストのみに使用される。
対象領域は、新たなターゲットカテゴリを持ち、焦点が合わず、解像度が低く、照明が低く、撮影角度が低い低画質の画像で構成されているため、ソースドメインと大きく異なる。
トレーニングされたネットワークは、予測当たり約7m(resnet-20は約41m)の乗算があり、デジタル信号プロセッサチップが我々のwsnでリアルタイムに認識できるほど小さい。
被検出領域および非平衡領域におけるカテゴリーレベルの平均誤差は41.12%減少している。 Although deep learning has achieved remarkable successes over the past years, few reports have been published about applying deep neural networks to Wireless Sensor Networks (WSNs) for image targets recognition where data, energy, computation resources are limited. In this work, a Cost-Effective Domain Generalization (CEDG) algorithm has been proposed to train an efficient network with minimum labor requirements. CEDG transfers networks from a publicly available source domain to an application-specific target domain through an automatically allocated synthetic domain. The target domain is isolated from parameters tuning and used for model selection and testing only. The target domain is significantly different from the source domain because it has new target categories and is consisted of low-quality images that are out of focus, low in resolution, low in illumination, low in photographing angle. The trained network has about 7M (ResNet-20 is about 41M) multiplications per prediction that is small enough to allow a digital signal processor chip to do real-time recognitions in our WSN. The category-level averaged error on the unseen and unbalanced target domain has been decreased by 41.12%. | 翻訳日:2022-10-10 07:23:00 公開日:2020-10-06 |
# グラフインスタンス正規化を用いた任意スタイル転送 Arbitrary Style Transfer using Graph Instance Normalization ( http://arxiv.org/abs/2010.02560v1 ) ライセンス: Link先を確認 | Dongki Jung, Seunghan Yang, Jaehoon Choi, Changick Kim | (参考訳) スタイル転送は画像合成タスクであり、コンテンツを保持しながらある画像のスタイルを別の画像に適用する。
統計的手法では、適応インスタンス正規化(adaptive instance normalization:adain)はソースイメージを白くし、特徴の平均とばらつきを正規化することで対象画像のスタイルを適用する。
しかし、各インスタンスの特徴統計は機能間の固有の関係を無視しているため、個々のトレーニングデータセットに適合しながらグローバルなスタイルを学ぶのは難しい。
本稿では,グラフ畳み込みネットワークを用いたスタイル転送のための新しい学習可能な正規化手法であるグラフインスタンス正規化(grin)を提案する。
このアルゴリズムは、インスタンス間で共有される同様の情報を考慮し、スタイル転送アプローチをより堅牢にする。
さらに、この単純なモジュールは画像から画像への変換やドメイン適応といった他のタスクにも適用できる。 Style transfer is the image synthesis task, which applies a style of one image to another while preserving the content. In statistical methods, the adaptive instance normalization (AdaIN) whitens the source images and applies the style of target images through normalizing the mean and variance of features. However, computing feature statistics for each instance would neglect the inherent relationship between features, so it is hard to learn global styles while fitting to the individual training dataset. In this paper, we present a novel learnable normalization technique for style transfer using graph convolutional networks, termed Graph Instance Normalization (GrIN). This algorithm makes the style transfer approach more robust by taking into account similar information shared between instances. Besides, this simple module is also applicable to other tasks like image-to-image translation or domain adaptation. | 翻訳日:2022-10-10 07:22:40 公開日:2020-10-06 |
# ヘブライ語の形態的曖昧さとダイアクリティックス回復のための新しい挑戦セット A Novel Challenge Set for Hebrew Morphological Disambiguation and Diacritics Restoration ( http://arxiv.org/abs/2010.02864v1 ) ライセンス: Link先を確認 | Avi Shmidman, Joshua Guedalia, Shaltiel Shmidman, Moshe Koppel, Reut Tsarfaty | (参考訳) 形態解析学の主要な課題の1つは、ホモグラフの曖昧さである。
特に難しいのは、アンバランスな曖昧さのケースであり、分析可能な1つが他のものよりもはるかに頻度が高い。
そのような場合、性能を適切に評価したり、効果的な分類器を訓練するために、マイノリティ分析の十分な例が存在しない可能性がある。
本稿ではヘブライ語における不均衡な形態的曖昧さの問題に対処する。
我々は、21のヘブライのホモグラフの各々の分析の実質的な証明を含む、ヘブライのホモグラフの最初の挑戦セットを提供する。
ヘブライ語の曖昧さのSOTAは、アンバランスな曖昧さのケースでは不十分であることを示す。
新たなデータセットを活用することで,21単語すべてに対して新たな最先端技術を実現し,平均f1スコアを0.67から0.95に改善した。
得られた注釈付きデータセットは、さらなる研究のために公開されています。 One of the primary tasks of morphological parsers is the disambiguation of homographs. Particularly difficult are cases of unbalanced ambiguity, where one of the possible analyses is far more frequent than the others. In such cases, there may not exist sufficient examples of the minority analyses in order to properly evaluate performance, nor to train effective classifiers. In this paper we address the issue of unbalanced morphological ambiguities in Hebrew. We offer a challenge set for Hebrew homographs -- the first of its kind -- containing substantial attestation of each analysis of 21 Hebrew homographs. We show that the current SOTA of Hebrew disambiguation performs poorly on cases of unbalanced ambiguity. Leveraging our new dataset, we achieve a new state-of-the-art for all 21 words, improving the overall average F1 score from 0.67 to 0.95. Our resulting annotated datasets are made publicly available for further research. | 翻訳日:2022-10-10 07:15:26 公開日:2020-10-06 |
# COD3S:離散意味記号を用いた逆生成 COD3S: Diverse Generation with Discrete Semantic Signatures ( http://arxiv.org/abs/2010.02882v1 ) ライセンス: Link先を確認 | Nathaniel Weir, Jo\~ao Sedoc, and Benjamin Van Durme | (参考訳) ニューラル・シークエンス・トゥ・シークエンス(seq2seq)モデルを用いて意味的に多様な文を生成する新しい手法であるcod3sを提案する。
入力に条件付けされたSeq2seqモデルは、典型的には意味論的および構文的に同質な文集合を生成するため、一対多のシーケンス生成タスクでは不十分である。
この二段階アプローチは,局所感性ハッシュ(lsh)に基づく意味文符号における条件付き生成と,人間による意味文類似度判定と高い相関性を有する出力多様性を向上させる。
一般に当てはまるが、提案のもっともらしい原因や効果を予測するタスクである因果生成にCOD3Sを適用する。
本手法により得られた応答がタスク性能を低下させることなく多様性を向上させることを自動的および人間的評価により実証する。 We present COD3S, a novel method for generating semantically diverse sentences using neural sequence-to-sequence (seq2seq) models. Conditioned on an input, seq2seq models typically produce semantically and syntactically homogeneous sets of sentences and thus perform poorly on one-to-many sequence generation tasks. Our two-stage approach improves output diversity by conditioning generation on locality-sensitive hash (LSH)-based semantic sentence codes whose Hamming distances highly correlate with human judgments of semantic textual similarity. Though it is generally applicable, we apply COD3S to causal generation, the task of predicting a proposition's plausible causes or effects. We demonstrate through automatic and human evaluation that responses produced using our method exhibit improved diversity without degrading task performance. | 翻訳日:2022-10-10 07:15:12 公開日:2020-10-06 |
# 落ち着きと探索: テキストベースのゲームにおけるアクション生成のための言語モデル Keep CALM and Explore: Language Models for Action Generation in Text-based Games ( http://arxiv.org/abs/2010.02903v1 ) ライセンス: Link先を確認 | Shunyu Yao, Rohan Rao, Matthew Hausknecht, Karthik Narasimhan | (参考訳) テキストベースのゲームは、自然言語で操作し、巨大なアクション空間を扱う自律エージェントにとって、ユニークな課題である。
本稿では,各ゲーム状態におけるアクション候補のコンパクトなセットを生成するための文脈行動言語モデル(CALM)を提案する。
我々の重要な洞察は、人間のゲームプレイ上で言語モデルを訓練することであり、そこでは、人々が言語的先行性を示し、ゲーム履歴に規定された有望なアクションに対する一般的なゲームセンスを示す。
我々はCALMと強化学習エージェントを組み合わせて、生成したアクション候補を再ランクしてゲーム内報酬を最大化する。
トレーニング中,落ち着きのないゲームにおいて,jerichoベンチマークを用いたアプローチを評価した。
本手法は,従来の最先端モデルと比較して平均ゲームスコアを69%向上させた。
驚くべきことに、これらのゲームの半分でCALMは、真実を許容できるアクションにアクセスできる他のモデルと競争している。
コードとデータはhttps://github.com/princeton-nlp/calm-textgameで入手できる。 Text-based games present a unique challenge for autonomous agents to operate in natural language and handle enormous action spaces. In this paper, we propose the Contextual Action Language Model (CALM) to generate a compact set of action candidates at each game state. Our key insight is to train language models on human gameplay, where people demonstrate linguistic priors and a general game sense for promising actions conditioned on game history. We combine CALM with a reinforcement learning agent which re-ranks the generated action candidates to maximize in-game rewards. We evaluate our approach using the Jericho benchmark, on games unseen by CALM during training. Our method obtains a 69% relative improvement in average game score over the previous state-of-the-art model. Surprisingly, on half of these games, CALM is competitive with or better than other models that have access to ground truth admissible actions. Code and data are available at https://github.com/princeton-nlp/calm-textgame. | 翻訳日:2022-10-10 07:14:57 公開日:2020-10-06 |
# 対話型言語学習のための改良型反復学習 Supervised Seeded Iterated Learning for Interactive Language Learning ( http://arxiv.org/abs/2010.02975v1 ) ライセンス: Link先を確認 | Yuchen Lu, Soumye Singhal, Florian Strub, Olivier Pietquin, Aaron Courville | (参考訳) 言語ドリフトは、対話を通じて言語モデルをトレーニングする上で、大きな障害のひとつです。
単語ベースの会話エージェントがタスクの完了に向けて訓練されると、自然言語を活用するよりも言語を発明する傾向がある。
最近の文献では、この現象に部分的に対処する2つの一般的な方法として、Supervised Selfplay (S2P)とSeeded Iterated Learning (SIL)がある。
S2Pは、ドリフトに対抗するために対話的および監督された損失を共同で訓練する一方で、SILは言語ドリフトの発生を防ぐためにトレーニングダイナミクスを変更する。
本稿では,まず,その弱点,すなわち後期トレーニングの崩壊,および人間のコーパス上での評価における負の可能性について述べる。
これらの観察から,それぞれの弱さを最小限に抑えるために,教師付きシード反復学習を導入する。
次に,言語ドリフト翻訳ゲームにおける \algo の有効性を示す。 Language drift has been one of the major obstacles to train language models through interaction. When word-based conversational agents are trained towards completing a task, they tend to invent their language rather than leveraging natural language. In recent literature, two general methods partially counter this phenomenon: Supervised Selfplay (S2P) and Seeded Iterated Learning (SIL). While S2P jointly trains interactive and supervised losses to counter the drift, SIL changes the training dynamics to prevent language drift from occurring. In this paper, we first highlight their respective weaknesses, i.e., late-stage training collapses and higher negative likelihood when evaluated on human corpus. Given these observations, we introduce Supervised Seeded Iterated Learning to combine both methods to minimize their respective weaknesses. We then show the effectiveness of \algo in the language-drift translation game. | 翻訳日:2022-10-10 07:14:39 公開日:2020-10-06 |
# semantic priming による bert の lexical cues に対する感受性の検討 Exploring BERT's Sensitivity to Lexical Cues using Tests from Semantic Priming ( http://arxiv.org/abs/2010.03010v1 ) ライセンス: Link先を確認 | Kanishka Misra, Allyson Ettinger, Julia Taylor Rayz | (参考訳) 文脈における単語確率を推定するために訓練されたモデルは、自然言語処理においてユビキタスになった。
これらのモデルは、単語の確率を知らせるために、どのような文脈で語彙的手がかりを使うのか?
そこで本研究では,事前学習されたbertモデルを用いて,semantic primingによるテストを行うケーススタディを提案する。
人間にプライミングを示す英語の語彙的刺激を用いて、bertもまた「プリミング」を示し、文脈が関連語を含む場合と関連しない単語を含む場合の確率の高い単語を予測する。
この効果は、コンテキストによって提供される情報量が増えるにつれて減少する。
フォローアップ分析により、bertは関連する素語にますます注意をそらされ、文脈がより情報になり、関連語に低い確率を割り当てる。
本研究は,これらのモデルにおける単語予測の研究において,文脈制約の影響を考慮することの重要性を強調し,ヒューマンプロセッシングとの類似性を強調する。 Models trained to estimate word probabilities in context have become ubiquitous in natural language processing. How do these models use lexical cues in context to inform their word probabilities? To answer this question, we present a case study analyzing the pre-trained BERT model with tests informed by semantic priming. Using English lexical stimuli that show priming in humans, we find that BERT too shows "priming," predicting a word with greater probability when the context includes a related word versus an unrelated one. This effect decreases as the amount of information provided by the context increases. Follow-up analysis shows BERT to be increasingly distracted by related prime words as context becomes more informative, assigning lower probabilities to related words. Our findings highlight the importance of considering contextual constraint effects when studying word prediction in these models, and highlight possible parallels with human processing. | 翻訳日:2022-10-10 07:13:21 公開日:2020-10-06 |
# イベント引数抽出のためのリソース強化ニューラルモデル Resource-Enhanced Neural Model for Event Argument Extraction ( http://arxiv.org/abs/2010.03022v1 ) ライセンス: Link先を確認 | Jie Ma, Shuai Wang, Rishita Anubhai, Miguel Ballesteros, Yaser Al-Onaizan | (参考訳) イベント引数抽出(EAE)は、イベントの引数を特定し、それらの引数が果たす役割を分類することを目的としている。
以前の作業で多大な努力を払っているにも関わらず、(1)データの不足。
(2) 長距離依存性、特にイベントトリガと遠くのイベント引数の間の接続をキャプチャする。
(3) イベントトリガ情報を候補引数表現に統合する。
1) ラベルのないデータを用いて異なる方法で探索する。
2)では,依存性解析を利用して注意機構を誘導する構文変換器を提案する。
(3)では,複数の種類のトリガ依存シーケンス表現を持つトリガ対応シーケンスエンコーダを提案する。
また、金のアノテートされたテキストや平文からの引数抽出もサポートしています。
ACE2005ベンチマーク実験により,本手法が新たな最先端技術を実現することを示す。 Event argument extraction (EAE) aims to identify the arguments of an event and classify the roles that those arguments play. Despite great efforts made in prior work, there remain many challenges: (1) Data scarcity. (2) Capturing the long-range dependency, specifically, the connection between an event trigger and a distant event argument. (3) Integrating event trigger information into candidate argument representation. For (1), we explore using unlabeled data in different ways. For (2), we propose to use a syntax-attending Transformer that can utilize dependency parses to guide the attention mechanism. For (3), we propose a trigger-aware sequence encoder with several types of trigger-dependent sequence representations. We also support argument extraction either from text annotated with gold entities or from plain text. Experiments on the English ACE2005 benchmark show that our approach achieves a new state-of-the-art. | 翻訳日:2022-10-10 07:13:05 公開日:2020-10-06 |
# 中間層に簡単な知識蒸留技術が組み合わされば、なぜスキップできるのか? Why Skip If You Can Combine: A Simple Knowledge Distillation Technique for Intermediate Layers ( http://arxiv.org/abs/2010.03034v1 ) ライセンス: Link先を確認 | Yimeng Wu, Peyman Passban, Mehdi Rezagholizade, Qun Liu | (参考訳) コンピューティングパワーの増大に伴い、ニューラルネットワーク翻訳(NMT)モデルも成長し、より良くなっていく。
しかし、メモリの制約のため、エッジデバイスへのデプロイも困難になる。
この問題に対処するために、広く正確に訓練された教師ネットワーク(t)から知識をコンパクトな学生ネットワーク(s)に蒸留することが一般的である。
知識蒸留(KD)はほとんどの場合有用であるが,本研究は既存のKD技術が深部NMTエンジンに適さないことを示すため,新しい代替案を提案する。
本稿では、低リソース設定を目標とし、ポルトガル語、トルコ語、英語、ドイツ語の方向に対する翻訳エンジンの評価を行う。
この技術を使って訓練した学生はパラメータが50%少なく、12層教師に匹敵する結果が得られる。 With the growth of computing power neural machine translation (NMT) models also grow accordingly and become better. However, they also become harder to deploy on edge devices due to memory constraints. To cope with this problem, a common practice is to distill knowledge from a large and accurately-trained teacher network (T) into a compact student network (S). Although knowledge distillation (KD) is useful in most cases, our study shows that existing KD techniques might not be suitable enough for deep NMT engines, so we propose a novel alternative. In our model, besides matching T and S predictions we have a combinatorial mechanism to inject layer-level supervision from T to S. In this paper, we target low-resource settings and evaluate our translation engines for Portuguese--English, Turkish--English, and English--German directions. Students trained using our technique have 50% fewer parameters and can still deliver comparable results to those of 12-layer teachers. | 翻訳日:2022-10-10 07:12:52 公開日:2020-10-06 |
# BERTがPunta Canaは美しいだけでなく、豪華だ: 文脈表現によるScalar形容詞のランク付け BERT Knows Punta Cana is not just beautiful, it's gorgeous: Ranking Scalar Adjectives with Contextualised Representations ( http://arxiv.org/abs/2010.02686v1 ) ライセンス: Link先を確認 | Aina Gar\'i Soler, Marianna Apidianaki | (参考訳) 美しく、美しく、豪華な形容詞は、修飾されるが強度が異なる名詞の肯定的な性質を表現している。
これらの違いは自然言語理解や推論において重要である。
本研究では,スカラー形容詞の強度検出のためのBERTに基づく新しい手法を提案する。
文脈表現から直接導出されるベクトルによる強度をモデル化し,スカラー形容詞のランク付けに成功していることを示す。
モデルは、本質的に、金の標準データセットと間接的な質問応答タスクの両方で評価します。
その結果, bert はスカラー形容詞の意味に関する豊富な知識をエンコードし, 静的組込みや, 専用リソースにアクセス可能な以前のモデルよりも優れた品質インテンシティランキングを提供することができた。 Adjectives like pretty, beautiful and gorgeous describe positive properties of the nouns they modify but with different intensity. These differences are important for natural language understanding and reasoning. We propose a novel BERT-based approach to intensity detection for scalar adjectives. We model intensity by vectors directly derived from contextualised representations and show they can successfully rank scalar adjectives. We evaluate our models both intrinsically, on gold standard datasets, and on an Indirect Question Answering task. Our results demonstrate that BERT encodes rich knowledge about the semantics of scalar adjectives, and is able to provide better quality intensity rankings than static embeddings and previous models with access to dedicated resources. | 翻訳日:2022-10-10 07:05:50 公開日:2020-10-06 |
# 事前学習言語モデルにおける個々のニューロンの分析 Analyzing Individual Neurons in Pre-trained Language Models ( http://arxiv.org/abs/2010.02695v1 ) ライセンス: Link先を確認 | Nadir Durrani and Hassan Sajjad and Fahim Dalvi and Yonatan Belinkov | (参考訳) 深部NLPモデルで学習した表現によって得られた言語知識を実証するために多くの分析が行われてきたが、個々のニューロンに対してはほとんど注目されていない。
i) 事前学習モデルにおける個々のニューロンは言語情報を取り込むか?
ii) ネットワークのどの部分が特定の言語現象についてもっと学ぶのか?
iii) 情報はどの程度分散しているか、あるいは集中しているか。
そして
iv)これらの特性の学習において,さまざまなアーキテクチャがどう違うのか?
言語的タスクを予測できるニューロンの小さなサブセットは,より少ないニューロンに局在する低レベルタスク(形態学など)と,より高レベルな構文予測タスク(構文予測)を見出した。
私たちの研究は、興味深いクロスアーキテクチャの比較も示しています。
例えば、XLNet のニューロンは、BERT などの特性を予測する際により局所化され、解離し、より分散され、結合される。 While a lot of analysis has been carried to demonstrate linguistic knowledge captured by the representations learned within deep NLP models, very little attention has been paid towards individual neurons.We carry outa neuron-level analysis using core linguistic tasks of predicting morphology, syntax and semantics, on pre-trained language models, with questions like: i) do individual neurons in pre-trained models capture linguistic information? ii) which parts of the network learn more about certain linguistic phenomena? iii) how distributed or focused is the information? and iv) how do various architectures differ in learning these properties? We found small subsets of neurons to predict linguistic tasks, with lower level tasks (such as morphology) localized in fewer neurons, compared to higher level task of predicting syntax. Our study also reveals interesting cross architectural comparisons. For example, we found neurons in XLNet to be more localized and disjoint when predicting properties compared to BERT and others, where they are more distributed and coupled. | 翻訳日:2022-10-10 07:05:36 公開日:2020-10-06 |
# 構造化トランスフォーマによるステップワイズ抽出要約と計画 Stepwise Extractive Summarization and Planning with Structured Transformers ( http://arxiv.org/abs/2010.02744v1 ) ライセンス: Link先を確認 | Shashi Narayan and Joshua Maynez and Jakub Adamek and Daniele Pighin and Bla\v{z} Bratani\v{c} and Ryan McDonald | (参考訳) 構造化変圧器-HiBERTと拡張変圧器を用いたエンコーダ中心のステップワイズモデルを提案する。
既生成のサマリを補助サブストラクタとして構造化トランスフォーマに注入することにより,ステップワイズサマリ化を実現する。
我々のモデルは、長い入力の構造をモデル化するだけでなく、タスク固有の冗長性を考慮したモデリングにも依存せず、様々なタスクのための汎用的な抽出コンテンツプランナとなっている。
cnn/dailymail抽出要約で評価すると、ステップワイズモデルは冗長性を意識したモデリングや文フィルタリングなしにルージュの観点から最先端のパフォーマンスを実現する。
これはまた、rotowire table-to-text生成にも当てはまります。私たちのモデルは、以前報告されたコンテンツの選択、計画、順序付けのメトリクスを上回っており、ステップワイズモデリングの強みを強調しています。
テストする2つの構造化トランスフォーマのうち、ステップワイズ拡張トランスフォーマは、両方のデータセットで最高のパフォーマンスを提供し、これらの課題に対して新しい標準を設定します。 We propose encoder-centric stepwise models for extractive summarization using structured transformers -- HiBERT and Extended Transformers. We enable stepwise summarization by injecting the previously generated summary into the structured transformer as an auxiliary sub-structure. Our models are not only efficient in modeling the structure of long inputs, but they also do not rely on task-specific redundancy-aware modeling, making them a general purpose extractive content planner for different tasks. When evaluated on CNN/DailyMail extractive summarization, stepwise models achieve state-of-the-art performance in terms of Rouge without any redundancy aware modeling or sentence filtering. This also holds true for Rotowire table-to-text generation, where our models surpass previously reported metrics for content selection, planning and ordering, highlighting the strength of stepwise modeling. Amongst the two structured transformers we test, stepwise Extended Transformers provides the best performance across both datasets and sets a new standard for these challenges. | 翻訳日:2022-10-10 07:04:58 公開日:2020-10-06 |
# エネルギーベース推論ネットワークを用いた任意順序系列ラベリングの探索 An Exploration of Arbitrary-Order Sequence Labeling via Energy-Based Inference Networks ( http://arxiv.org/abs/2010.02789v1 ) ライセンス: Link先を確認 | Lifu Tu, Tianyu Liu, Kevin Gimpel | (参考訳) 自然言語処理における多くのタスクは、シーケンスラベリング、セマンティックロールラベリング、構文解析、機械翻訳などの構造化出力の予測を含む。
研究者たちはこれらの問題に深層表現学習を適用しつつあるが、これらのアプローチの構造的要素は通常非常に単純である。
そこで本研究では,ラベル配列全体を考慮した複数の高次エネルギー項を提案し,ラベル間の複雑な依存関係を列ラベリングで捉える。
我々は、畳み込み、再帰、自己注意ネットワークから引き出されたこれらのエネルギー用語に神経パラメータ化を用いる。
学習エネルギーに基づく推論ネットワーク(tu and gimpel, 2018)の枠組みを用いて,そのようなモデルによるトレーニングや推論の難しさに対処する。
この手法は4つのシーケンスラベリングタスクで様々な高次エネルギー項を用いることで、単純で局所的な分類器と同じ復号速度で大幅に改善できることを実証的に証明する。
また、ノイズの多いデータ条件に対処する高次エネルギーも見出す。 Many tasks in natural language processing involve predicting structured outputs, e.g., sequence labeling, semantic role labeling, parsing, and machine translation. Researchers are increasingly applying deep representation learning to these problems, but the structured component of these approaches is usually quite simplistic. In this work, we propose several high-order energy terms to capture complex dependencies among labels in sequence labeling, including several that consider the entire label sequence. We use neural parameterizations for these energy terms, drawing from convolutional, recurrent, and self-attention networks. We use the framework of learning energy-based inference networks (Tu and Gimpel, 2018) for dealing with the difficulties of training and inference with such models. We empirically demonstrate that this approach achieves substantial improvement using a variety of high-order energy terms on four sequence labeling tasks, while having the same decoding speed as simple, local classifiers. We also find high-order energies to help in noisy data conditions. | 翻訳日:2022-10-10 07:04:42 公開日:2020-10-06 |
# COSMIC:会話におけるeMotion Identificationのためのコモンセンス知識 COSMIC: COmmonSense knowledge for eMotion Identification in Conversations ( http://arxiv.org/abs/2010.02795v1 ) ライセンス: Link先を確認 | Deepanway Ghosal, Navonil Majumder, Alexander Gelbukh, Rada Mihalcea, Soujanya Poria | (参考訳) 本稿では,コモンセンス知識を用いた会話における発話レベルの感情認識の課題に対処する。
我々は、心的状態、出来事、因果関係など、常識の異なる要素を取り入れた新しいフレームワークであるCOSMICを提案し、会話に参加する対話者間の相互作用を学習する。
現在の最先端の手法は、文脈の伝播、感情の変化の検出、関連する感情のクラス間の差別化においてしばしば困難に直面する。
異なるコモンセンス表現を学習することで、COSMICはこれらの課題に対処し、4つの異なるベンチマークの会話データセット上で感情認識のための新しい最先端の結果を達成する。
私たちのコードはhttps://github.com/declare-lab/conv-emotionで利用可能です。 In this paper, we address the task of utterance level emotion recognition in conversations using commonsense knowledge. We propose COSMIC, a new framework that incorporates different elements of commonsense such as mental states, events, and causal relations, and build upon them to learn interactions between interlocutors participating in a conversation. Current state-of-the-art methods often encounter difficulties in context propagation, emotion shift detection, and differentiating between related emotion classes. By learning distinct commonsense representations, COSMIC addresses these challenges and achieves new state-of-the-art results for emotion recognition on four different benchmark conversational datasets. Our code is available at https://github.com/declare-lab/conv-emotion. | 翻訳日:2022-10-10 07:04:23 公開日:2020-10-06 |
# 次元選択による内在探索 Intrinsic Probing through Dimension Selection ( http://arxiv.org/abs/2010.02812v1 ) ライセンス: Link先を確認 | Lucas Torroba Hennigen, Adina Williams, Ryan Cotterell | (参考訳) 現代のほとんどのNLPシステムは、様々なタスクにおいて驚くほど高いパフォーマンスが得られる事前訓練された文脈表現を使用している。
このような高いパフォーマンスは、ある種の言語構造がこれらの表現に根ざしない限りはあり得ず、それを探究する研究が盛んに行われている。
本稿では,言語情報が表現内でどのように構造化されているかを示す内在的探索と,先行研究で広く普及している外在的探索とを区別し,抽出に成功したことを示すことによって,そのような情報の存在を主張するのみである。
そこで本研究では,単語埋め込みにおける言語情報の分散や焦点決定を可能にする,分解可能な多変量ガウス探索に基づく新しいフレームワークを提案する。
次に、36言語にわたる様々なモルフォシンタクティック属性に対して、fastTextとBERTを探索する。
ほとんどの属性は数個のニューロンによって確実に符号化されており、fastTextはBERTよりも言語構造に集中している。 Most modern NLP systems make use of pre-trained contextual representations that attain astonishingly high performance on a variety of tasks. Such high performance should not be possible unless some form of linguistic structure inheres in these representations, and a wealth of research has sprung up on probing for it. In this paper, we draw a distinction between intrinsic probing, which examines how linguistic information is structured within a representation, and the extrinsic probing popular in prior work, which only argues for the presence of such information by showing that it can be successfully extracted. To enable intrinsic probing, we propose a novel framework based on a decomposable multivariate Gaussian probe that allows us to determine whether the linguistic information in word embeddings is dispersed or focal. We then probe fastText and BERT for various morphosyntactic attributes across 36 languages. We find that most attributes are reliably encoded by only a few neurons, with fastText concentrating its linguistic structure more than BERT. | 翻訳日:2022-10-10 07:04:11 公開日:2020-10-06 |
# QADiscourse - QAペアとしての談話関係 - 表現、クラウドソーシング、ベースライン QADiscourse -- Discourse Relations as QA Pairs: Representation, Crowdsourcing and Baselines ( http://arxiv.org/abs/2010.02815v1 ) ライセンス: Link先を確認 | Valentina Pyatkin, Ayal Klein, Reut Tsarfaty, Ido Dagan | (参考訳) 談話関係は2つの命題が相互にどのように関連しているかを記述し、それらを自動的に識別することは自然言語理解の不可欠な部分である。
しかし、談話関係の注釈は一般的に専門的な注釈者を必要とする。
近年,質問・回答(QA)ペアを通じて,文の意味的側面を表現し,クラウドソース化している。
本稿では,QAペアとしての談話関係の表現を新たに提案し,これらの質問や回答を直感的に表現するインタフェースを通じて,談話関係に注釈を付けた広範囲データをクラウドソースすることを可能にする。
提案した表現に基づいて,新しい広範囲QADiscourseデータセットと,QADiscourse関係を予測するためのベースラインアルゴリズムを収集する。 Discourse relations describe how two propositions relate to one another, and identifying them automatically is an integral part of natural language understanding. However, annotating discourse relations typically requires expert annotators. Recently, different semantic aspects of a sentence have been represented and crowd-sourced via question-and-answer (QA) pairs. This paper proposes a novel representation of discourse relations as QA pairs, which in turn allows us to crowd-source wide-coverage data annotated with discourse relations, via an intuitively appealing interface for composing such questions and answers. Based on our proposed representation, we collect a novel and wide-coverage QADiscourse dataset, and present baseline algorithms for predicting QADiscourse relations. | 翻訳日:2022-10-10 07:03:56 公開日:2020-10-06 |
# CoRefi: リファレンスアノテーションのためのクラウドソーシングスイート CoRefi: A Crowd Sourcing Suite for Coreference Annotation ( http://arxiv.org/abs/2010.02588v1 ) ライセンス: Link先を確認 | Aaron Bornstein, Arie Cattan, Ido Dagan | (参考訳) 参照アノテーションは、重要なが高価で時間を要するタスクであり、複雑な意思決定ガイドラインに基づいて訓練された専門家アノテータがしばしば関与する。
より安価で効率的なアノテーションを実現するために,クラウドソーシングを指向したwebベースのコリファレンスアノテーションスイートcorefiを提案する。
コアコア参照アノテーションツール以外にも、CoRefiはタスクのガイド付きオンボードとレビューフェーズのための新しいアルゴリズムを提供している。
CoRefiはオープンソースで、人気のあるクラウドソーシングプラットフォームを含むあらゆるウェブサイトに直接組み込まれている。
CoRefi Demo: aka.ms/corefi Video Tour: aka.ms/corefivideo Github Repo: https://github.com/aribornstein/corefi Coreference annotation is an important, yet expensive and time consuming, task, which often involved expert annotators trained on complex decision guidelines. To enable cheaper and more efficient annotation, we present CoRefi, a web-based coreference annotation suite, oriented for crowdsourcing. Beyond the core coreference annotation tool, CoRefi provides guided onboarding for the task as well as a novel algorithm for a reviewing phase. CoRefi is open source and directly embeds into any website, including popular crowdsourcing platforms. CoRefi Demo: aka.ms/corefi Video Tour: aka.ms/corefivideo Github Repo: https://github.com/aribornstein/corefi | 翻訳日:2022-10-10 06:57:20 公開日:2020-10-06 |
# 自然言語コマンドに基づくシーングラフの修正 Scene Graph Modification Based on Natural Language Commands ( http://arxiv.org/abs/2010.02591v1 ) ライセンス: Link先を確認 | Xuanli He, Quan Hung Tran, Gholamreza Haffari, Walter Chang, Trung Bui, Zhe Lin, Franck Dernoncourt, Nhan Dam | (参考訳) グラフやパースツリーのような構造化表現は多くの自然言語処理システムにおいて重要な役割を果たす。
近年,マルチターンユーザインタフェースの進歩は,情報ソースを付加した構造化表現を制御・更新する必要性が高まっている。
グラフにテキストをマップしたり、ツリーをパースするパーサーのパフォーマンス向上に多くの取り組みがなされているが、これらの表現を直接操作する問題を探究する者はごくわずかである。
本稿では,既存のシーングラフの更新方法を学習する上で,新たなユーザの指示によって学習する必要があるグラフ修正の新たな問題について検討する。
グラフベーススパース変換器とクロスアテンション情報融合に基づく新しいモデルでは,機械翻訳やグラフ生成の文献に適合した従来のシステムよりも優れていた。
我々はさらに,この新たな問題の今後の研究を促進するために,大規模なグラフ修正データセットを研究コミュニティに寄贈する。 Structured representations like graphs and parse trees play a crucial role in many Natural Language Processing systems. In recent years, the advancements in multi-turn user interfaces necessitate the need for controlling and updating these structured representations given new sources of information. Although there have been many efforts focusing on improving the performance of the parsers that map text to graphs or parse trees, very few have explored the problem of directly manipulating these representations. In this paper, we explore the novel problem of graph modification, where the systems need to learn how to update an existing scene graph given a new user's command. Our novel models based on graph-based sparse transformer and cross attention information fusion outperform previous systems adapted from the machine translation and graph generation literature. We further contribute our large graph modification datasets to the research community to encourage future research for this new problem. | 翻訳日:2022-10-10 06:57:09 公開日:2020-10-06 |
# エストニア語のためのニューラル音声合成 Neural Speech Synthesis for Estonian ( http://arxiv.org/abs/2010.02636v1 ) ライセンス: Link先を確認 | Liisa R\"atsep, Liisi Piits, Hille Pajupuu, Indrek Hein, Mark Fi\v{s}el | (参考訳) この技術報告は、エストニア語のための音声合成を改善するために、タルトゥ大学のNLP研究グループとエストニア語研究所が共同で行った成果について述べる。
報告書(エストニア語で書かれている)は、プロジェクトの結果を説明し、(1)6人の話者から合計92.4時間の音声合成データを収集し、公開する(cc-by-4.0)。
https://konekorpus.tartunlp.ai and https://www.eki.ee/litsents/。
2) ニューラル音声合成のためのソフトウェアとモデルがオープンソース(mitライセンス)である。
https://koodivaramu.eesti.ee/tartunlp/text-to-speech で入手できる。
(3) 新たなモデルの評価を行い,既存のソリューションと比較した(EKI, http://www.eki.ee/heli/, Googleのエストニア語音声合成はhttps://translate.google.comからアクセス)。
評価には、文レベルと長い抜粋のための音声受理性MOSスコア、詳細なエラー解析と前処理モジュールの評価が含まれる。 This technical report describes the results of a collaboration between the NLP research group at the University of Tartu and the Institute of Estonian Language on improving neural speech synthesis for Estonian. The report (written in Estonian) describes the project results, the summary of which is: (1) Speech synthesis data from 6 speakers for a total of 92.4 hours is collected and openly released (CC-BY-4.0). Data available at https://konekorpus.tartunlp.ai and https://www.eki.ee/litsents/. (2) software and models for neural speech synthesis is released open-source (MIT license). Available at https://koodivaramu.eesti.ee/tartunlp/text-to-speech . (3) We ran evaluations of the new models and compared them to other existing solutions (HMM-based HTS models from EKI, http://www.eki.ee/heli/, and Google's speech synthesis for Estonian, accessed via https://translate.google.com). Evaluation includes voice acceptability MOS scores for sentence-level and longer excerpts, detailed error analysis and evaluation of the pre-processing module. | 翻訳日:2022-10-10 06:56:40 公開日:2020-10-06 |
# ニューラルマシン翻訳モデルのスパース性について On the Sparsity of Neural Machine Translation Models ( http://arxiv.org/abs/2010.02646v1 ) ライセンス: Link先を確認 | Yong Wang, Longyue Wang, Victor O.K. Li, Zhaopeng Tu | (参考訳) 現代のニューラルマシン翻訳(NMT)モデルは多数のパラメータを使用し、深刻な過パラメータ化を引き起こし、典型的には計算資源の未利用を引き起こす。
この問題への対応として,冗長パラメータを再利用できるかどうかを実証的に検討した。
実験と分析は異なるデータセットとNTTアーキテクチャで体系的に行われる。
ご覧の通りです
1) 刈り取ったパラメータは、最大+0.8 bleu点でベースラインモデルを改善するために再帰することができる。
2)低レベル語彙情報のモデリング能力を高めるため,再帰パラメータが再配置される。 Modern neural machine translation (NMT) models employ a large number of parameters, which leads to serious over-parameterization and typically causes the underutilization of computational resources. In response to this problem, we empirically investigate whether the redundant parameters can be reused to achieve better performance. Experiments and analyses are systematically conducted on different datasets and NMT architectures. We show that: 1) the pruned parameters can be rejuvenated to improve the baseline model by up to +0.8 BLEU points; 2) the rejuvenated parameters are reallocated to enhance the ability of modeling low-level lexical information. | 翻訳日:2022-10-10 06:56:21 公開日:2020-10-06 |
# 複数質問応答のためのエビデンスフィルタを用いた文脈モデリング Context Modeling with Evidence Filter for Multiple Choice Question Answering ( http://arxiv.org/abs/2010.02649v1 ) ライセンス: Link先を確認 | Sicheng Yu, Hao Zhang, Wei Jing, Jing Jiang | (参考訳) MCQA(Multi-Choice Question Answering)は、機械読解における課題である。
MCQAの主な課題は、正しい答えをサポートする与えられたコンテキストから"エビデンス"を抽出することである。
openbookqaデータセットでは、文脈における文の相互独立性のため、"evidence"を抽出する必要性が特に重要である。
既存の作業は、人間の努力に過度に依存するルールで注釈付きの証拠や遠方の監督によってこの問題に取り組む。
この課題に対処するために,異なる選択肢に関して符号化されたコンテキスト間の関係をモデル化し,証拠文を強調表示し,無関係な文をフィルタリングする,簡易かつ効果的な手法を提案する。
提案手法は,OpenbookQAの広範な実験を通じて,提案手法が同じバックボーンとより多くのトレーニングデータを使用するモデルよりも優れていることを示すとともに,パラメータ解析により,我々のアプローチの解釈可能性も示している。 Multiple-Choice Question Answering (MCQA) is a challenging task in machine reading comprehension. The main challenge in MCQA is to extract "evidence" from the given context that supports the correct answer. In the OpenbookQA dataset, the requirement of extracting "evidence" is particularly important due to the mutual independence of sentences in the context. Existing work tackles this problem by annotated evidence or distant supervision with rules which overly rely on human efforts. To address the challenge, we propose a simple yet effective approach termed evidence filtering to model the relationships between the encoded contexts with respect to different options collectively and to potentially highlight the evidence sentences and filter out unrelated sentences. In addition to the effective reduction of human efforts of our approach compared, through extensive experiments on OpenbookQA, we show that the proposed approach outperforms the models that use the same backbone and more training data; and our parameter analysis also demonstrates the interpretability of our approach. | 翻訳日:2022-10-10 06:56:11 公開日:2020-10-06 |
# 議論における暗黙の仮定の抽出 Extracting Implicitly Asserted Propositions in Argumentation ( http://arxiv.org/abs/2010.02654v1 ) ライセンス: Link先を確認 | Yohan Jo, Jacky Visser, Chris Reed, Eduard Hovy | (参考訳) 議論は、質問、報告されたスピーチ、命令など様々な修辞的装置に対応している。
これらの修辞的ツールは通常、議論に関係のある命題を暗黙的に主張するので、それらの真の意味を理解することは、特定の議論を適切に理解するための鍵となる。
しかし、多くの議論採掘システムと計算言語学の研究は議論において暗黙的に主張された命題にほとんど注意を払わなかった。
本稿では,質問,報告音声,議論の要項において暗黙的に主張される命題を抽出するための幅広い計算手法について検討する。
2016年アメリカ合衆国大統領選挙の討論やオンライン解説のコーパスでモデルを評価することで、計算モデルの有効性と限界を実証する。
本研究は,議論における論点マイニングとこれらの修辞的装置の意味論について,今後の研究に役立つかもしれない。 Argumentation accommodates various rhetorical devices, such as questions, reported speech, and imperatives. These rhetorical tools usually assert argumentatively relevant propositions rather implicitly, so understanding their true meaning is key to understanding certain arguments properly. However, most argument mining systems and computational linguistics research have paid little attention to implicitly asserted propositions in argumentation. In this paper, we examine a wide range of computational methods for extracting propositions that are implicitly asserted in questions, reported speech, and imperatives in argumentation. By evaluating the models on a corpus of 2016 U.S. presidential debates and online commentary, we demonstrate the effectiveness and limitations of the computational models. Our study may inform future research on argument mining and the semantics of these rhetorical devices in argumentation. | 翻訳日:2022-10-10 06:55:39 公開日:2020-10-06 |
# Aspect-Category Sentiment Analysisのためのマルチインスタンスマルチラベル学習ネットワーク Multi-Instance Multi-Label Learning Networks for Aspect-Category Sentiment Analysis ( http://arxiv.org/abs/2010.02656v1 ) ライセンス: Link先を確認 | Yuncong Li, Cunxiang Yin, Sheng-hua Zhong and Xu Pan | (参考訳) アスペクトカテゴリー感情分析(ACSA)は、与えられたアスペクトカテゴリに対する文の感情極性を予測することを目的としている。
文中の特定のアスペクトカテゴリに対する感情を検出するために、ほとんどの従来の手法は、まずアスペクトカテゴリのためのアスペクトカテゴリ固有の文表現を生成し、その表現に基づいて感情極性を予測する。
これらの方法は、文中のアスペクトカテゴリの感情が、文中のアスペクトカテゴリを示す単語の感情の集約であるという事実を無視し、結果として副最適性能をもたらす。
本稿では,文を袋,単語をインスタンスとして扱うアスペクトカテゴリー感情分析(ac-mimlln)と,アスペクトカテゴリを表す単語をアスペクトカテゴリのキーインスタンスとして扱うマルチインスタンス学習ネットワークを提案する。
文とアスペクトカテゴリが与えられた場合、ac-mimllnはまずインスタンスの感情を予測し、次にアスペクトカテゴリのキーインスタンスを見つけ、最後に、キーインスタンス感情を集約することで、文の感情をアスペクトカテゴリに向けて取得する。
ac-mimllnの有効性を示す3つの公開データセットに関する実験結果 Aspect-category sentiment analysis (ACSA) aims to predict sentiment polarities of sentences with respect to given aspect categories. To detect the sentiment toward a particular aspect category in a sentence, most previous methods first generate an aspect category-specific sentence representation for the aspect category, then predict the sentiment polarity based on the representation. These methods ignore the fact that the sentiment of an aspect category mentioned in a sentence is an aggregation of the sentiments of the words indicating the aspect category in the sentence, which leads to suboptimal performance. In this paper, we propose a Multi-Instance Multi-Label Learning Network for Aspect-Category sentiment analysis (AC-MIMLLN), which treats sentences as bags, words as instances, and the words indicating an aspect category as the key instances of the aspect category. Given a sentence and the aspect categories mentioned in the sentence, AC-MIMLLN first predicts the sentiments of the instances, then finds the key instances for the aspect categories, finally obtains the sentiments of the sentence toward the aspect categories by aggregating the key instance sentiments. Experimental results on three public datasets demonstrate the effectiveness of AC-MIMLLN. | 翻訳日:2022-10-10 06:55:27 公開日:2020-10-06 |
# 議論における攻撃可能な文の検出 Detecting Attackable Sentences in Arguments ( http://arxiv.org/abs/2010.02660v1 ) ライセンス: Link先を確認 | Yohan Jo, Seojin Bang, Emaad Manzoor, Eduard Hovy, Chris Reed | (参考訳) 議論の中で攻撃的な文を見つけることは、議論における反論の成功への第一歩である。
オンライン議論における文攻撃可能性の大規模分析について述べる。
議論における攻撃の原因を分析し,関連する文の特徴を同定する。
文の攻撃性は文の内容,命題タイプ,トーンに関するこれらの特徴の多くに関連付けられており,外部知識源が攻撃性に関する有用な情報を提供できることを示す。
これらの結果をもとに,機械学習モデルによって,攻撃可能な文を自動的に検出できることを実証した。 Finding attackable sentences in an argument is the first step toward successful refutation in argumentation. We present a first large-scale analysis of sentence attackability in online arguments. We analyze driving reasons for attacks in argumentation and identify relevant characteristics of sentences. We demonstrate that a sentence's attackability is associated with many of these characteristics regarding the sentence's content, proposition types, and tone, and that an external knowledge source can provide useful information about attackability. Building on these findings, we demonstrate that machine learning models can automatically detect attackable sentences in arguments, significantly better than several baselines and comparably well to laypeople. | 翻訳日:2022-10-10 06:55:07 公開日:2020-10-06 |
# データの再帰: ニューラルマシン翻訳における非アクティブなトレーニング例の活用 Data Rejuvenation: Exploiting Inactive Training Examples for Neural Machine Translation ( http://arxiv.org/abs/2010.02552v1 ) ライセンス: Link先を確認 | Wenxiang Jiao, Xing Wang, Shilin He, Irwin King, Michael R. Lyu, Zhaopeng Tu | (参考訳) 大規模なトレーニングデータセットは、最近のニューラルマシン翻訳(NMT)モデルの成功の中核にある。
しかし、大規模データにおける複雑なパターンや潜在的なノイズは、NMTモデルのトレーニングを困難にしている。
本研究では,モデル性能にあまり寄与しない非アクティブなトレーニング例を特定し,非アクティブな例の存在がデータ分布に依存することを示す。
さらに,非アクティブな例を活用し,大規模データセット上でのnmtモデルのトレーニングを改善するために,データの再帰についても紹介する。
提案するフレームワークは3つのフェーズで構成されている。
まず、元のトレーニングデータに基づいて識別モデルを訓練し、不活性な例とアクティブな例を文レベルの出力確率で識別する。
次に、アクティブな例で再帰モデルをトレーニングし、不活性な例を前方変換で再ラベル付けする。
最後に、再帰的な例とアクティブな例を組み合わせて最終nmtモデルをトレーニングする。
WMT14の英語・ドイツ語・英語・フランス語データセットによる実験結果から,提案したデータ再生は一貫して,いくつかの強力なNMTモデルの性能を著しく向上させることが示された。
広範な解析結果から,nmtモデルの学習過程を安定化・加速し,最終モデルの一般化能力が向上することが明らかとなった。 Large-scale training datasets lie at the core of the recent success of neural machine translation (NMT) models. However, the complex patterns and potential noises in the large-scale data make training NMT models difficult. In this work, we explore to identify the inactive training examples which contribute less to the model performance, and show that the existence of inactive examples depends on the data distribution. We further introduce data rejuvenation to improve the training of NMT models on large-scale datasets by exploiting inactive examples. The proposed framework consists of three phases. First, we train an identification model on the original training data, and use it to distinguish inactive examples and active examples by their sentence-level output probabilities. Then, we train a rejuvenation model on the active examples, which is used to re-label the inactive examples with forward-translation. Finally, the rejuvenated examples and the active examples are combined to train the final NMT model. Experimental results on WMT14 English-German and English-French datasets show that the proposed data rejuvenation consistently and significantly improves performance for several strong NMT models. Extensive analyses reveal that our approach stabilizes and accelerates the training process of NMT models, resulting in final models with better generalization capability. | 翻訳日:2022-10-10 06:49:08 公開日:2020-10-06 |
# PolicyQA: プライバシポリシのための可読性データセット PolicyQA: A Reading Comprehension Dataset for Privacy Policies ( http://arxiv.org/abs/2010.02557v1 ) ライセンス: Link先を確認 | Wasi Uddin Ahmad and Jianfeng Chi and Yuan Tian and Kai-Wei Chang | (参考訳) プライバシーポリシーの文書は長く冗長です。
質問応答(QA)システムは、ユーザにとって重要で重要な情報を見つけるのに役立つ。
この領域における先行研究は、QAタスクが与えられたポリシー文書から最も関連性の高いテキストセグメントまたは文のリストを取得するものである。
反対に,ポリシー文書から短いテキストスパンをユーザに提供することで,長いテキストセグメントからターゲット情報を検索する負担を軽減できると主張する。
本稿では,既存のWebサイトプライバシポリシ115のコーパスから収集した25,017の理解スタイルの例を含むデータセットであるPolicyQAを提案する。
PolicyQAは、幅広いプライバシープラクティスのために書かれた714の人手による質問を提供する。
既存の2つのニューラルQAモデルを評価し、厳密な分析を行い、ポリシQAが提供する利点と課題を明らかにする。 Privacy policy documents are long and verbose. A question answering (QA) system can assist users in finding the information that is relevant and important to them. Prior studies in this domain frame the QA task as retrieving the most relevant text segment or a list of sentences from the policy document given a question. On the contrary, we argue that providing users with a short text span from policy documents reduces the burden of searching the target information from a lengthy text segment. In this paper, we present PolicyQA, a dataset that contains 25,017 reading comprehension style examples curated from an existing corpus of 115 website privacy policies. PolicyQA provides 714 human-annotated questions written for a wide range of privacy practices. We evaluate two existing neural QA models and perform rigorous analysis to reveal the advantages and challenges offered by PolicyQA. | 翻訳日:2022-10-10 06:48:41 公開日:2020-10-06 |
# LEGAL-BERT: ロースクールから真っ直ぐ出るマペット LEGAL-BERT: The Muppets straight out of Law School ( http://arxiv.org/abs/2010.02559v1 ) ライセンス: Link先を確認 | Ilias Chalkidis, Manos Fergadiotis, Prodromos Malakasiotis, Nikolaos Aletras and Ion Androutsopoulos | (参考訳) BERTはいくつかのNLPタスクで素晴らしいパフォーマンスを達成した。
しかし、専門分野における適応ガイドラインに関する調査は限られている。
ここでは、BERTモデルを下流の法的タスクに適用するためのいくつかのアプローチを検討し、複数のデータセットで評価する。
以上の結果から,事前学習と微調整に関する従来のガイドラインは,しばしば盲目的に従っているが,法的領域において必ずしも一般化していないことが示唆された。
そこで本研究では,特定ドメインにBERTを適用する際の戦略を体系的に検討する。
これらは
(a)元のBERTを箱から使いなさい。
(b)領域固有のコーパスの追加事前訓練によりBERTを適応させ、
(c)ドメイン固有コーパスのスクラッチからプレトレインBERT。
また、下流タスクの微調整を行う際に、より広いパラメータ探索空間を提案し、法的なNLP研究、計算法則、法的な技術応用を支援するためのBERTモデルのファミリーであるLEGAL-BERTをリリースする。 BERT has achieved impressive performance in several NLP tasks. However, there has been limited investigation on its adaptation guidelines in specialised domains. Here we focus on the legal domain, where we explore several approaches for applying BERT models to downstream legal tasks, evaluating on multiple datasets. Our findings indicate that the previous guidelines for pre-training and fine-tuning, often blindly followed, do not always generalize well in the legal domain. Thus we propose a systematic investigation of the available strategies when applying BERT in specialised domains. These are: (a) use the original BERT out of the box, (b) adapt BERT by additional pre-training on domain-specific corpora, and (c) pre-train BERT from scratch on domain-specific corpora. We also propose a broader hyper-parameter search space when fine-tuning for downstream tasks and we release LEGAL-BERT, a family of BERT models intended to assist legal NLP research, computational law, and legal technology applications. | 翻訳日:2022-10-10 06:48:18 公開日:2020-10-06 |
# スパース教師の転用による最小資源による言語間テキスト分類 Cross-Lingual Text Classification with Minimal Resources by Transferring a Sparse Teacher ( http://arxiv.org/abs/2010.02562v1 ) ライセンス: Link先を確認 | Giannis Karamanolakis, Daniel Hsu, Luis Gravano | (参考訳) 言語間テキスト分類は、他の言語からのラベル付き文書を活用することにより、ターゲット言語で手動でラベル付けされた文書の必要性を軽減する。
既存の言語間の監督の移行には並列コーパスのような高価な言語間リソースが必要であり、より安価な言語間表現学習はラベル付きドキュメントを使わずに分類器を訓練する。
そこで本研究では,少数の単語翻訳の形で,最小の言語間資源を用いて,対象言語において「弱く」監督を行う言語間教師・教師間指導手法であるcltsを提案する。
翻訳予算が限られているため、CLTSは言語間で最も重要なタスク固有のシード語のみを抽出し、翻訳されたシード語に基づいて教師分類器を初期化する。
そして、CLTSは、未ラベルのターゲット文書のシード語の文脈を利用して、より強力な学生を反復訓練し、教師より優れています。
cltsは18の多様な言語でシンプルで驚くほど効果的である: たった20の種単語を転送することで、手持ちのロジスティック回帰学生でさえ、最先端のクロスリンガルメソッド(例えば多言語bertに基づく)よりも優れている。
さらに、CLTSは任意の種類の学生分類器に対応できる: 単言語的なBERTの学生を利用することで、さらに改善され、12%の精度でさらに高価なアプローチを上回ります。
最後に、CLTSは少数の単語翻訳を使用して、低リソース言語における新しいタスクに対処する。 Cross-lingual text classification alleviates the need for manually labeled documents in a target language by leveraging labeled documents from other languages. Existing approaches for transferring supervision across languages require expensive cross-lingual resources, such as parallel corpora, while less expensive cross-lingual representation learning approaches train classifiers without target labeled documents. In this work, we propose a cross-lingual teacher-student method, CLTS, that generates "weak" supervision in the target language using minimal cross-lingual resources, in the form of a small number of word translations. Given a limited translation budget, CLTS extracts and transfers only the most important task-specific seed words across languages and initializes a teacher classifier based on the translated seed words. Then, CLTS iteratively trains a more powerful student that also exploits the context of the seed words in unlabeled target documents and outperforms the teacher. CLTS is simple and surprisingly effective in 18 diverse languages: by transferring just 20 seed words, even a bag-of-words logistic regression student outperforms state-of-the-art cross-lingual methods (e.g., based on multilingual BERT). Moreover, CLTS can accommodate any type of student classifier: leveraging a monolingual BERT student leads to further improvements and outperforms even more expensive approaches by up to 12% in accuracy. Finally, CLTS addresses emerging tasks in low-resource languages using just a small number of word translations. | 翻訳日:2022-10-10 06:48:01 公開日:2020-10-06 |
# supmmd:最大平均差を用いた抽出要約のための文重要度モデル SupMMD: A Sentence Importance Model for Extractive Summarization using Maximum Mean Discrepancy ( http://arxiv.org/abs/2010.02568v1 ) ライセンス: Link先を確認 | Umanga Bista, Alexander Patrick Mathews, Aditya Krishna Menon, Lexing Xie | (参考訳) 多文書要約に関するほとんどの研究は、個々の文書集合に存在する情報の一般的な要約に焦点を当てている。
しかし、各セットに存在する新しい情報を特定することが目的である更新要約の未調査設定は、同じ実践的関心(例えば、進化するニューストピックに関する更新を読者に提示するなど)である。
本研究では,カーネル2サンプルテストからの最大平均誤差に基づいて,総括および更新要約を行う新しい手法であるsupmmdを提案する。
supmmdは、カバー範囲と多様性のために教師なし学習と教師なし学習の両方を組み合わせる。
さらに,複数の情報ソース(テキストの特徴や知識に基づく概念など)間の類似性を活用するために,複数のカーネル学習を適用する。
DUC-2004 および TAC-2009 データセット上での現在の技術状況を満たしたり超えたりすることで,SupMMD の有効性を示す。 Most work on multi-document summarization has focused on generic summarization of information present in each individual document set. However, the under-explored setting of update summarization, where the goal is to identify the new information present in each set, is of equal practical interest (e.g., presenting readers with updates on an evolving news topic). In this work, we present SupMMD, a novel technique for generic and update summarization based on the maximum mean discrepancy from kernel two-sample testing. SupMMD combines both supervised learning for salience and unsupervised learning for coverage and diversity. Further, we adapt multiple kernel learning to make use of similarity across multiple information sources (e.g., text features and knowledge based concepts). We show the efficacy of SupMMD in both generic and update summarization tasks by meeting or exceeding the current state-of-the-art on the DUC-2004 and TAC-2009 datasets. | 翻訳日:2022-10-10 06:47:31 公開日:2020-10-06 |
# StyleDGPT:事前学習言語モデルによるスティル化応答生成 StyleDGPT: Stylized Response Generation with Pre-trained Language Models ( http://arxiv.org/abs/2010.02569v1 ) ライセンス: Link先を確認 | Ze Yang, Wei Wu, Can Xu, Xinnian Liang, Jiaqi Bai, Liran Wang, Wei Wang, Zhoujun Li | (参考訳) 所望のスタイルに従って応答を生成することは、オープンドメイン対話システムの応用を拡張する大きな可能性を秘めているが、訓練のための並列データの欠如は避けられている。
本研究では,様々な自然言語タスクにブレークスルーをもたらす事前学習型言語モデルを用いた課題について検討する。
この目的のために, 単語レベルと文レベルの両方において, ターゲットスタイルに対して応答生成を操るために, 微調整ステップにKL損失とスタイル分類器を導入する。
2つの公開データセットによる総合的な実証研究は、我々のモデルがスタイル整合性と文脈整合性の両方の観点から最先端の手法を大幅に上回っていることを示している。 Generating responses following a desired style has great potentials to extend applications of open-domain dialogue systems, yet is refrained by lacking of parallel data for training. In this work, we explore the challenging task with pre-trained language models that have brought breakthrough to various natural language tasks. To this end, we introduce a KL loss and a style classifier to the fine-tuning step in order to steer response generation towards the target style in both a word-level and a sentence-level. Comprehensive empirical studies with two public datasets indicate that our model can significantly outperform state-of-the-art methods in terms of both style consistency and contextual coherence. | 翻訳日:2022-10-10 06:47:16 公開日:2020-10-06 |
# 目的は重要か?
代名詞解決のための訓練目的の比較 Does the Objective Matter? Comparing Training Objectives for Pronoun Resolution ( http://arxiv.org/abs/2010.02570v1 ) ライセンス: Link先を確認 | Yordan Yordanov, Oana-Maria Camburu, Vid Kocijan, Thomas Lukasiewicz | (参考訳) 代名詞分解の難しいケースは、長年にわたって常識推論のベンチマークとして用いられてきた。
近年の文献では、事前学習された言語モデルを用いて代名詞分解に関する最先端の結果が得られた。
総合的に、トレーニングと評価の4つのカテゴリが導入された。
これらの研究で使用されるトレーニングデータセットの多様性と事前訓練された言語モデルにより、トレーニング対象の選択が重要かどうかが明確になる。
本研究では,目的の4つのカテゴリを表わす4つのモデルの性能と種別安定性を公平に比較した。
提案実験により, 順序付けの目的がドメイン内最良であるのに対して, 候補と代名詞間の意味的類似性が最良であることを示す。
また,他の目的を用いた場合ではそうではないシーケンスランキングを用いて,モデルのシード方向の不安定性を観察する。 Hard cases of pronoun resolution have been used as a long-standing benchmark for commonsense reasoning. In the recent literature, pre-trained language models have been used to obtain state-of-the-art results on pronoun resolution. Overall, four categories of training and evaluation objectives have been introduced. The variety of training datasets and pre-trained language models used in these works makes it unclear whether the choice of training objective is critical. In this work, we make a fair comparison of the performance and seed-wise stability of four models that represent the four categories of objectives. Our experiments show that the objective of sequence ranking performs the best in-domain, while the objective of semantic similarity between candidates and pronoun performs the best out-of-domain. We also observe a seed-wise instability of the model using sequence ranking, which is not the case when the other objectives are used. | 翻訳日:2022-10-10 06:47:05 公開日:2020-10-06 |
# 制限付きアノテーションを用いたユニバーサル自然言語処理:開始点としてのテキストエンタテインメントの試行 Universal Natural Language Processing with Limited Annotations: Try Few-shot Textual Entailment as a Start ( http://arxiv.org/abs/2010.02584v1 ) ライセンス: Link先を確認 | Wenpeng Yin, Nazneen Fatema Rajani, Dragomir Radev, Richard Socher, Caiming Xiong | (参考訳) 異なるNLP問題に対処する標準的な方法は、まず問題固有のデータセットを構築し、次にこのデータセットに適合するモデルを構築することである。
究極の人工知能を構築するためには、タスク固有のアノテーションが制限されるさまざまな新しい問題に対処できる単一のマシンを欲しがる。
我々は、このようなNLP問題に対する統一的な解決法として、テキストエンテーメントを導入する。
しかし、現在の研究では、以下の質問に対してあまりインクが流れていない。
(i)事前訓練されたテキストエンターメントシステムは、ドメイン固有の少数の例だけでドメインをまたいでどのように一般化するか。
そして
(ii)NLPタスクをテキストエンターメントに変換する価値はいつあるのか?
このタスクのためにリッチなアノテーションが得られれば、変換は不要であると主張する。
特に、ターゲットのNLPタスクがアノテーションが不十分である場合、テキストの細部は特に重要です。
ユニバーサルNLPは、おそらく異なるルーチンによって達成できる。
本稿では,Universal Few-shot Textual Entailment (UFO-Entail)を紹介する。
このフレームワークにより,事前学習済みの補足モデルが,新たな補足ドメインを数ショット設定でうまく動作することを実証し,エンドタスクアノテーションが制限された場合の質問応答やコリファレンス解決など,いくつかの下流nlpタスクの統一解法としての有効性を示す。
コード: https://github.com/salesforce/universalfewshotnlp A standard way to address different NLP problems is by first constructing a problem-specific dataset, then building a model to fit this dataset. To build the ultimate artificial intelligence, we desire a single machine that can handle diverse new problems, for which task-specific annotations are limited. We bring up textual entailment as a unified solver for such NLP problems. However, current research of textual entailment has not spilled much ink on the following questions: (i) How well does a pretrained textual entailment system generalize across domains with only a handful of domain-specific examples? and (ii) When is it worth transforming an NLP task into textual entailment? We argue that the transforming is unnecessary if we can obtain rich annotations for this task. Textual entailment really matters particularly when the target NLP task has insufficient annotations. Universal NLP can be probably achieved through different routines. In this work, we introduce Universal Few-shot textual Entailment (UFO-Entail). We demonstrate that this framework enables a pretrained entailment model to work well on new entailment domains in a few-shot setting, and show its effectiveness as a unified solver for several downstream NLP tasks such as question answering and coreference resolution when the end-task annotations are limited. Code: https://github.com/salesforce/UniversalFewShotNLP | 翻訳日:2022-10-10 06:46:52 公開日:2020-10-06 |
# 性能予測によるスパン識別タスクの分割 Dissecting Span Identification Tasks with Performance Prediction ( http://arxiv.org/abs/2010.02587v1 ) ライセンス: Link先を確認 | Sean Papay and Roman Klinger and Sebastian Pad\'o | (参考訳) チャンキング、NER、コードスイッチング検出などのスパン識別(略してスパンID)タスクは、テキスト内の関連するスパンの識別と分類をモデルに依頼する。
NLPの基盤であり、共通の構造を共有するにもかかわらず、これらのタスクのプロパティがそれらの困難にどのように影響するかについての洞察はほとんどなく、モデルファミリーがIDタスクにまたがってどのように機能するか、なぜなのかについてのガイダンスはほとんどない。
我々は、パフォーマンス予測を通じてIDタスクを解析し、ニューラルアーキテクチャが異なるタスクでどのように機能するかを推定する。
私たちの貢献は
(a)性能予測を通知できるスパンIDタスクのキープロパティを識別する。
b) 英語データに関する大規模実験を行い,アーキテクチャの選択をサポートする未認識のスパンidタスクのパフォーマンスを予測するモデルを構築した。
c) メタモデルのパラメータを調査し,モデルとタスク特性の相互作用がスパンid性能に与える影響について新たな知見を得た。
例えば、スパン周波数はLSTMにとって特に重要であり、スパンがまれで境界が不連続な場合にCRFが役立ちます。 Span identification (in short, span ID) tasks such as chunking, NER, or code-switching detection, ask models to identify and classify relevant spans in a text. Despite being a staple of NLP, and sharing a common structure, there is little insight on how these tasks' properties influence their difficulty, and thus little guidance on what model families work well on span ID tasks, and why. We analyze span ID tasks via performance prediction, estimating how well neural architectures do on different tasks. Our contributions are: (a) we identify key properties of span ID tasks that can inform performance prediction; (b) we carry out a large-scale experiment on English data, building a model to predict performance for unseen span ID tasks that can support architecture choices; (c), we investigate the parameters of the meta model, yielding new insights on how model and task properties interact to affect span ID performance. We find, e.g., that span frequency is especially important for LSTMs, and that CRFs help when spans are infrequent and boundaries non-distinctive. | 翻訳日:2022-10-10 06:46:31 公開日:2020-10-06 |
# 抽象テキスト要約における多要素補正 Multi-Fact Correction in Abstractive Text Summarization ( http://arxiv.org/abs/2010.02443v1 ) ライセンス: Link先を確認 | Yue Dong, Shuohang Wang, Zhe Gan, Yu Cheng, Jackie Chi Kit Cheung and Jingjing Liu | (参考訳) 事前学習されたニューラル抽象要約システムは、少なくともROUGEの観点からは、ニュース要約性能に関する抽出戦略を支配している。
しかしながら、システム生成の抽象要約は、ソーステキストに関して誤った事実を生成するという、事実的不整合の落とし穴に直面することが多い。
この課題に対処するために,質問応答モデルから学んだ知識を活用して,スパン選択によるシステム生成要約の補正を行う2つの事実補正モデルからなるSpan-Factを提案する。
我々のモデルは、抽象的な要約モデルによって生成された要約の構文構造を維持しながら、ソーステキストのセマンティック一貫性を確保するために、エンティティを反復的または自動回帰的に置き換えるシングルまたはマルチマスキング戦略を採用している。
実験の結果,自動測定と人的評価の両面において,要約品質を犠牲にすることなく,システム生成要約の事実整合性を大幅に向上させることができた。 Pre-trained neural abstractive summarization systems have dominated extractive strategies on news summarization performance, at least in terms of ROUGE. However, system-generated abstractive summaries often face the pitfall of factual inconsistency: generating incorrect facts with respect to the source text. To address this challenge, we propose Span-Fact, a suite of two factual correction models that leverages knowledge learned from question answering models to make corrections in system-generated summaries via span selection. Our models employ single or multi-masking strategies to either iteratively or auto-regressively replace entities in order to ensure semantic consistency w.r.t. the source text, while retaining the syntactic structure of summaries generated by abstractive summarization models. Experiments show that our models significantly boost the factual consistency of system-generated summaries without sacrificing summary quality in terms of both automatic metrics and human evaluation. | 翻訳日:2022-10-10 06:39:29 公開日:2020-10-06 |
# 事前学習言語モデルから抽出した構文の分岐バイアスについて On the Branching Bias of Syntax Extracted from Pre-trained Language Models ( http://arxiv.org/abs/2010.02448v1 ) ライセンス: Link先を確認 | Huayang Li, Lemao Liu, Guoping Huang, Shuming Shi | (参考訳) 多くの取り組みは、事前訓練された言語モデルから選挙区木を抽出し、しばしば特徴定義と解析の2段階に進む。
しかし、この種の方法は分岐バイアスの問題に陥り、偏りが同じ分岐を持つ言語のパフォーマンスを膨らませる可能性がある。
本研究では,言語モデルや抽出手法と無関係な言語とその逆言語の性能差を比較することにより,分岐バイアスを定量的に測定する手法を提案する。
さらに,解析アルゴリズム,特徴定義,言語モデルという3つの要因が分岐バイアスに与える影響を分析した。
実験によると、いくつかの既存の研究が分岐バイアスを示しており、これらの3つの要因の実装によって分岐バイアスを導入することができる。 Many efforts have been devoted to extracting constituency trees from pre-trained language models, often proceeding in two stages: feature definition and parsing. However, this kind of methods may suffer from the branching bias issue, which will inflate the performances on languages with the same branch it biases to. In this work, we propose quantitatively measuring the branching bias by comparing the performance gap on a language and its reversed language, which is agnostic to both language models and extracting methods. Furthermore, we analyze the impacts of three factors on the branching bias, namely parsing algorithms, feature definitions, and language models. Experiments show that several existing works exhibit branching biases, and some implementations of these three factors can introduce the branching bias. | 翻訳日:2022-10-10 06:39:13 公開日:2020-10-06 |
# 言葉は行動に相応しいか?
オンライン公開メッセージによるコミットメントの定量化 Are Words Commensurate with Actions? Quantifying Commitment to a Cause from Online Public Messaging ( http://arxiv.org/abs/2010.02466v1 ) ライセンス: Link先を確認 | Zhao Wang, Jennifer Cutler, Aron Culotta | (参考訳) 企業や政治家などの公共団体は、オンラインソーシャルネットワークを使って、選挙区と直接コミュニケーションをとるようになっている。
多くの場合、この公開メッセージングは、環境や公衆衛生といった特定の原因や問題とエンティティを整合させることを目的としています。
しかし、消費者や有権者として、公共メッセージングに基づく原因に対するエンティティの真のコミットメントを評価することは困難である。
本稿では,原因に対するコミットメントレベルに応じてメッセージを分類するテキスト分類手法を提案する。
次に、このようなメッセージのボリュームを、エンティティの行動に基づく外部評価(例えば、環境に関する政治家の投票記録や、環境非営利団体からの会社の評価)と比較する。
低レベルと高レベルのコミットメントメッセージを区別することで、真にコミットされたエンティティをより確実に識別できるのです。
さらに、分類されたメッセージと外部のレーティングの相違を測定することで、公開メッセージが行動と一致しないエンティティを識別し、潜在的に「不適切な」メッセージキャンペーンを特定するための方法論を提供する。 Public entities such as companies and politicians increasingly use online social networks to communicate directly with their constituencies. Often, this public messaging is aimed at aligning the entity with a particular cause or issue, such as the environment or public health. However, as a consumer or voter, it can be difficult to assess an entity's true commitment to a cause based on public messaging. In this paper, we present a text classification approach to categorize a message according to its commitment level toward a cause. We then compare the volume of such messages with external ratings based on entities' actions (e.g., a politician's voting record with respect to the environment or a company's rating from environmental non-profits). We find that by distinguishing between low- and high- level commitment messages, we can more reliably identify truly committed entities. Furthermore, by measuring the discrepancy between classified messages and external ratings, we can identify entities whose public messaging does not align with their actions, thereby providing a methodology to identify potentially "inauthentic" messaging campaigns. | 翻訳日:2022-10-10 06:39:00 公開日:2020-10-06 |
# 反復的ドメイン逆変換 Iterative Domain-Repaired Back-Translation ( http://arxiv.org/abs/2010.02473v1 ) ライセンス: Link先を確認 | Hao-Ran Wei, Zhirui Zhang, Boxing Chen, Weihua Luo | (参考訳) 本稿では,ドメイン内並列コーパスが少ない,あるいは存在しない,低リソースのドメイン固有翻訳に焦点を当てる。
この場合の一般的な効果的な戦略は、バックトランスレーション法によるドメイン内のモノリンガルデータの利用である。
しかし、合成並列データはドメイン外システムによって生成され、ドメイン適応の貧弱なパフォーマンスをもたらすため、非常にノイズが多い。
そこで本研究では, 合成バイリンガルデータの翻訳を洗練するために, domain-repair (dr) モデルを導入する反復型ドメインリペアバックトランスレーションフレームワークを提案する。
そこで本研究では,単言語文の往復翻訳によるDRモデルトレーニングに対応するデータを構築し,統合学習フレームワークを設計し,ペア型DRモデルとNMTモデルを協調的に最適化する。
特定のドメインと一般ドメインから特定のドメインにNMTモデルを適応させる実験は,提案手法の有効性を実証し,非適応モデルとバックトランスレーションの平均15.79および4.47BLEUの改善を達成した。 In this paper, we focus on the domain-specific translation with low resources, where in-domain parallel corpora are scarce or nonexistent. One common and effective strategy for this case is exploiting in-domain monolingual data with the back-translation method. However, the synthetic parallel data is very noisy because they are generated by imperfect out-of-domain systems, resulting in the poor performance of domain adaptation. To address this issue, we propose a novel iterative domain-repaired back-translation framework, which introduces the Domain-Repair (DR) model to refine translations in synthetic bilingual data. To this end, we construct corresponding data for the DR model training by round-trip translating the monolingual sentences, and then design the unified training framework to optimize paired DR and NMT models jointly. Experiments on adapting NMT models between specific domains and from the general domain to specific domains demonstrate the effectiveness of our proposed approach, achieving 15.79 and 4.47 BLEU improvements on average over unadapted models and back-translation. | 翻訳日:2022-10-10 06:38:43 公開日:2020-10-06 |
# 助けて!
Identifying Advice のアドバイス Help! Need Advice on Identifying Advice ( http://arxiv.org/abs/2010.02494v1 ) ライセンス: Link先を確認 | Venkata Subrahmanyan Govindarajan, Benjamin T Chen, Rebecca Warholic, Katrin Erk, Junyi Jessy Li | (参考訳) 人間は言語を使ってさまざまなタスクを実行します。
オンラインのアドバイスフォーラムでは、アドバイスは感情的なサポートのような非アドバイスと混同され、時には明示的に、時には暗黙的に述べられる。
実際には、アドバイスを識別する能力は、オンラインのアドバイス・シーキングの効率を劇的に向上させ、自然言語生成システムにおけるアドバイスの提供を促進する。
Redditの2つのアドバイスフォーラム、r/AskParentsとr/needadviceのデータセットを英語で提示し、投稿中の文章にアドバイスが含まれているか否かを解説する。
我々の分析は、アドバイス談話における豊かな言語現象を明らかにする。
事前学習した言語モデルでは,ルールベースシステムよりもアドバイスを捉えることができるが,アドバイスの同定は困難であり,今後の研究の方向性を明らかにする。
コメント: EMNLP 2020で発表する。 Humans use language to accomplish a wide variety of tasks - asking for and giving advice being one of them. In online advice forums, advice is mixed in with non-advice, like emotional support, and is sometimes stated explicitly, sometimes implicitly. Understanding the language of advice would equip systems with a better grasp of language pragmatics; practically, the ability to identify advice would drastically increase the efficiency of advice-seeking online, as well as advice-giving in natural language generation systems. We present a dataset in English from two Reddit advice forums - r/AskParents and r/needadvice - annotated for whether sentences in posts contain advice or not. Our analysis reveals rich linguistic phenomena in advice discourse. We present preliminary models showing that while pre-trained language models are able to capture advice better than rule-based systems, advice identification is challenging, and we identify directions for future research. Comments: To be presented at EMNLP 2020. | 翻訳日:2022-10-10 06:38:09 公開日:2020-10-06 |
# 生成テキストの言語的品質評価のためのGRUEN GRUEN for Evaluating Linguistic Quality of Generated Text ( http://arxiv.org/abs/2010.02498v1 ) ライセンス: Link先を確認 | Wanzheng Zhu, Suma Bhat | (参考訳) 生成テキストの評価には自動評価指標が不可欠である。
これまでのところ、これらのメトリクスはシステム出力のコンテンツ選択の側面にのみ焦点を合わせており、言語品質の側面を完全に無視している。
我々は、GRUENを用いて文法性、非冗長性、focU、生成したテキストの構造とコヒーレンスを評価することにより、このギャップを埋める。
GRUENはBERTベースのモデルと構文、意味、文脈の特徴のクラスを使用してシステム出力を調べる。
入力として人間の参照を必要とする既存の評価指標とは異なり、GRUENは参照なしであり、システム出力のみを必要とする。
さらに、教師なし、決定論的、様々なタスクに適応できるという利点もある。
4つの言語生成タスクに対する7つのデータセットの実験から,提案手法は人間の判断と高い相関性を示す。 Automatic evaluation metrics are indispensable for evaluating generated text. To date, these metrics have focused almost exclusively on the content selection aspect of the system output, ignoring the linguistic quality aspect altogether. We bridge this gap by proposing GRUEN for evaluating Grammaticality, non-Redundancy, focUs, structure and coherENce of generated text. GRUEN utilizes a BERT-based model and a class of syntactic, semantic, and contextual features to examine the system output. Unlike most existing evaluation metrics which require human references as an input, GRUEN is reference-less and requires only the system output. Besides, it has the advantage of being unsupervised, deterministic, and adaptable to various tasks. Experiments on seven datasets over four language generation tasks show that the proposed metric correlates highly with human judgments. | 翻訳日:2022-10-10 06:37:54 公開日:2020-10-06 |
# 韓国nlp課題のトークン化戦略に関する実証的研究 An Empirical Study of Tokenization Strategies for Various Korean NLP Tasks ( http://arxiv.org/abs/2010.02534v1 ) ライセンス: Link先を確認 | Kyubyong Park, Joohong Lee, Seongbo Jang, Dawoon Jung | (参考訳) 通常、トークン化はほとんどのテキスト処理における最初のステップである。
トークンは、テキストのコンテキスト情報を埋め込むアトミックユニットとして機能するので、トークンの定義はモデルの性能において決定的な役割を果たす。バイトペアエンコーディング(bpe)はその単純さと普遍性からデファクトスタンダードトークン化メソッドとみなされてきたが、bpeがすべての言語やタスクで最も機能するかどうかはまだ不明である。
本稿では,韓国のNLPタスクにおいて,最も優れたトークン化戦略とは何か,という質問に答えるために,いくつかのトークン化戦略をテストする。
実験結果から, 韓国の機械翻訳やKorNLI, KorSTS, NSMC, PAWS-Xなどの自然言語理解タスクにおいて, 形態的セグメンテーションとBPEの併用が有効であることが示唆された。
例外として、韓国のSQuADの拡張であるKorQuADでは、BPEセグメンテーションが最も効果的であることが判明した。 Typically, tokenization is the very first step in most text processing works. As a token serves as an atomic unit that embeds the contextual information of text, how to define a token plays a decisive role in the performance of a model.Even though Byte Pair Encoding (BPE) has been considered the de facto standard tokenization method due to its simplicity and universality, it still remains unclear whether BPE works best across all languages and tasks. In this paper, we test several tokenization strategies in order to answer our primary research question, that is, "What is the best tokenization strategy for Korean NLP tasks?" Experimental results demonstrate that a hybrid approach of morphological segmentation followed by BPE works best in Korean to/from English machine translation and natural language understanding tasks such as KorNLI, KorSTS, NSMC, and PAWS-X. As an exception, for KorQuAD, the Korean extension of SQuAD, BPE segmentation turns out to be the most effective. | 翻訳日:2022-10-10 06:37:41 公開日:2020-10-06 |
# 明示的アライメントは多言語エンコーダを頑健に改善するか? Do Explicit Alignments Robustly Improve Multilingual Encoders? ( http://arxiv.org/abs/2010.02537v1 ) ライセンス: Link先を確認 | Shijie Wu, Mark Dredze | (参考訳) マルチリンガルBERT(mBERT)、XLM-RoBERTa(XLMR)およびその他の教師なしマルチリンガルエンコーダは、言語間表現を効果的に学習することができる。
EuroparlやMultiUNのようなbitextに基づく明示的なアライメント目的は、これらの表現をさらに改善することが示されている。
しかし、単語レベルのアライメントはしばしば最適ではなく、そのようなバイテキストは多くの言語で利用できない。
本稿では,このような信号をより有効活用できる新しいコントラストアライメント目的を提案するとともに,これらのアライメント手法が,OPUSコレクションの100万組のランダムサンプルとして,アライメントデータのノイズの多いソースに適応できるかどうかを検討する。
さらに,1つのモデルが実行される1つのデータセットで結果を報告するのではなく,異なる種による複数の実行の平均と標準導出を4つのデータセットとタスクで報告する。
我々のより広範な分析により、我々の新しい目的は以前の作業より優れているが、これらの手法はより堅牢な評価フレームワークでパフォーマンスを向上しないことがわかった。
さらに、より良い基盤となるモデルを使用することで得られる利益は、アライメントトレーニングのメリットを生かします。
これらの否定的な結果は、これらの手法の評価においてより注意を喚起し、明示的なアライメント目的を適用する際の制限を提案する。 Multilingual BERT (mBERT), XLM-RoBERTa (XLMR) and other unsupervised multilingual encoders can effectively learn cross-lingual representation. Explicit alignment objectives based on bitexts like Europarl or MultiUN have been shown to further improve these representations. However, word-level alignments are often suboptimal and such bitexts are unavailable for many languages. In this paper, we propose a new contrastive alignment objective that can better utilize such signal, and examine whether these previous alignment methods can be adapted to noisier sources of aligned data: a randomly sampled 1 million pair subset of the OPUS collection. Additionally, rather than report results on a single dataset with a single model run, we report the mean and standard derivation of multiple runs with different seeds, on four datasets and tasks. Our more extensive analysis finds that, while our new objective outperforms previous work, overall these methods do not improve performance with a more robust evaluation framework. Furthermore, the gains from using a better underlying model eclipse any benefits from alignment training. These negative results dictate more care in evaluating these methods and suggest limitations in applying explicit alignment objectives. | 翻訳日:2022-10-10 06:37:23 公開日:2020-10-06 |
# マンモグラムの自動化のための計算手法の記述的解析と実用化 Descriptive analysis of computational methods for automating mammograms with practical applications ( http://arxiv.org/abs/2010.03378v1 ) ライセンス: Link先を確認 | Aparna Bhale, Manish Joshi | (参考訳) マンモグラフィーは乳がんの早期発見と診断のための重要なスクリーニング技術であり、死亡率の低下を支援する。
マンモグラムの実用的な応用は、乳がんの顕在化や識別に限らず、タスクベースのレンズ設計、画像圧縮、画像分類、コンテンツベースの画像検索などが含まれる。
マンモグラフィー計算解析法は,隠れた特徴を明らかにし,マンモグラフィーで重要な情報を抽出するのに有用なツールである。
デジタルマンモグラフィ(digital mammogram)は、従来のスクリーンフィルムマンモグラフィと並んで、マンモグラフィの自動化を容易にするマンモグラフィ画像である。
本稿では,デジタルマンモグラフィにおける計算の進歩を,計算マンモグラフィとその関連分野における研究と実践のコンパスとして利用するために記述的に論じる。
この議論はマンモグラムの様々な応用と自動化を目的とした研究に焦点を当てている。
画像の前処理、特徴抽出、マンモグラムの応用、スクリーンフィルムマンモグラム、デジタルマンモグラム、デジタルマンモグラムの実験のためのベンチマークコーパスの開発など、さまざまな視点をカバーしている。 Mammography is a vital screening technique for early revealing and identification of breast cancer in order to assist to decrease mortality rate. Practical applications of mammograms are not limited to breast cancer revealing, identification ,but include task based lens design, image compression, image classification, content based image retrieval and a host of others. Mammography computational analysis methods are a useful tool for specialists to reveal hidden features and extract significant information in mammograms. Digital mammograms are mammography images available along with the conventional screen-film mammography to make automation of mammograms easier. In this paper, we descriptively discuss computational advancement in digital mammograms to serve as a compass for research and practice in the domain of computational mammography and related fields. The discussion focuses on research aiming at a variety of applications and automations of mammograms. It covers different perspectives on image pre-processing, feature extraction, application of mammograms, screen-film mammogram, digital mammogram and development of benchmark corpora for experimenting with digital mammograms. | 翻訳日:2022-10-10 06:31:21 公開日:2020-10-06 |
# 高解像度3次元医用画像のメモリ効率GANによるドメイン翻訳 Memory-efficient GAN-based Domain Translation of High Resolution 3D Medical Images ( http://arxiv.org/abs/2010.03396v1 ) ライセンス: Link先を確認 | Hristina Uzunova, Jan Ehrhardt, Heinz Handels | (参考訳) generative adversarial networks (gans) は現在、膨大な計算需要のため、大規模な3d医療画像に適用されることはほとんどない。
本研究は,高解像度の3次元医用画像ボリュームをメモリ効率よく生成することにより,不適切なドメイン翻訳を確立するためのマルチスケールパッチベースのGANアプローチを提案する。
メモリ効率の良い画像生成を可能にする重要なアイデアは、まず画像の低解像度バージョンを生成し、続いて一定サイズのパッチを生成する。
パッチアーティファクトを回避し、グローバル情報を組み込むため、パッチ生成は以前の解像度スケールからパッチに条件付けされる。
マルチスケールのganは、画像スケッチからリアルに見える画像を生成するように訓練され、非ペアリングなドメイン翻訳を行う。
これにより、テストデータのトポロジを保持し、トレーニングドメインデータの外観を生成することができる。
ドメイン翻訳シナリオの評価は155x240x240の脳MRIと最大512x512x512の胸部CTで行う。
一般的なパッチベースアプローチと比較して、マルチレゾリューションスキームは画像品質の向上とパッチアーティファクトの防止を可能にする。
また、画像サイズから独立して一定のGPUメモリ要求を保証し、任意に大きな画像を生成することができる。 Generative adversarial networks (GANs) are currently rarely applied on 3D medical images of large size, due to their immense computational demand. The present work proposes a multi-scale patch-based GAN approach for establishing unpaired domain translation by generating 3D medical image volumes of high resolution in a memory-efficient way. The key idea to enable memory-efficient image generation is to first generate a low-resolution version of the image followed by the generation of patches of constant sizes but successively growing resolutions. To avoid patch artifacts and incorporate global information, the patch generation is conditioned on patches from previous resolution scales. Those multi-scale GANs are trained to generate realistically looking images from image sketches in order to perform an unpaired domain translation. This allows to preserve the topology of the test data and generate the appearance of the training domain data. The evaluation of the domain translation scenarios is performed on brain MRIs of size 155x240x240 and thorax CTs of size up to 512x512x512. Compared to common patch-based approaches, the multi-resolution scheme enables better image quality and prevents patch artifacts. Also, it ensures constant GPU memory demand independent from the image size, allowing for the generation of arbitrarily large images. | 翻訳日:2022-10-10 06:31:00 公開日:2020-10-06 |
# RANDGAN : 胸部X線における新型コロナウイルス検出のためのランダムなジェネレーティブ・アドバイザリー・ネットワーク RANDGAN: Randomized Generative Adversarial Network for Detection of COVID-19 in Chest X-ray ( http://arxiv.org/abs/2010.06418v1 ) ライセンス: Link先を確認 | Saman Motamed, Patrik Rogalla, Farzad Khalvati | (参考訳) 新型コロナウイルス(COVID-19)の感染拡大に伴い、医療機関は患者を診断・検査する能力を失っている。
研究は、胸部x線中のウイルス性細菌性肺炎からcovid-19の検出に有望な結果を示している。
医療画像を用いた新型コロナウイルス(COVID-19)検査の自動化は、医療システムにRT-PCR(リバース転写ポリメラーゼ連鎖反応)テストの十分な数がない患者の検査プロセスを高速化することができる。
畳み込みニューラルネットワーク(CNN)のような改良されたディープラーニングモデルでは、検出のタスクを正しく学習するために、すべてのクラスに十分なラベル付きデータが必要である。
ラベル付きデータの収集は厄介な作業であり、新型コロナウイルス(COVID-19)などのパンデミックの初期段階において、医療システムや放射線科医をさらに緊張させる時間と資源を必要とする。
本研究では,未知のクラス (COVID-19) のイメージを未知のクラス (Normal と Viral Pneumonia) から検出し,未知のクラス (COVID-19) のラベルやトレーニングデータを必要とせず,ランダムに生成する敵ネットワーク (RANDGAN) を提案する。
このデータセットは、複数のパブリックデータベースから、正常、肺炎、およびCOVID-19イメージで構成されています。
本研究では、トランスファーラーニングを用いて、COVIDxデータセット内の肺をセグメント化する。
次に、関心領域(肺)のセグメンテーションが、分類のタスクを正しく学習するために欠かせない理由を示し、特に、COVIDxデータセットの場合のように、異なるリソースの画像を含むデータセットにおいて。
最後に, 医用画像の異常検出におけるGANと比較し, 生成モデル (RANDGAN) を用いた新型コロナウイルス検出の成績を改善し, ROC曲線の面積を0.71から0.77に改善した。 COVID-19 spread across the globe at an immense rate has left healthcare systems incapacitated to diagnose and test patients at the needed rate. Studies have shown promising results for detection of COVID-19 from viral bacterial pneumonia in chest X-rays. Automation of COVID-19 testing using medical images can speed up the testing process of patients where health care systems lack sufficient numbers of the reverse-transcription polymerase chain reaction (RT-PCR) tests. Supervised deep learning models such as convolutional neural networks (CNN) need enough labeled data for all classes to correctly learn the task of detection. Gathering labeled data is a cumbersome task and requires time and resources which could further strain health care systems and radiologists at the early stages of a pandemic such as COVID-19. In this study, we propose a randomized generative adversarial network (RANDGAN) that detects images of an unknown class (COVID-19) from known and labelled classes (Normal and Viral Pneumonia) without the need for labels and training data from the unknown class of images (COVID-19). We used the largest publicly available COVID-19 chest X-ray dataset, COVIDx, which is comprised of Normal, Pneumonia, and COVID-19 images from multiple public databases. In this work, we use transfer learning to segment the lungs in the COVIDx dataset. Next, we show why segmentation of the region of interest (lungs) is vital to correctly learn the task of classification, specifically in datasets that contain images from different resources as it is the case for the COVIDx dataset. Finally, we show improved results in detection of COVID-19 cases using our generative model (RANDGAN) compared to conventional generative adversarial networks (GANs) for anomaly detection in medical images, improving the area under the ROC curve from 0.71 to 0.77. | 翻訳日:2022-10-10 06:30:41 公開日:2020-10-06 |
# テンソル分解による非パラメトリック密度推定の改善 Improving Nonparametric Density Estimation with Tensor Decompositions ( http://arxiv.org/abs/2010.02425v1 ) ライセンス: Link先を確認 | Robert A. Vandermeulen | (参考訳) 非パラメトリック密度推定器は低次元データに対してよく機能するが、その性能は高次元データに適用すると、おそらく次元性の呪いによって損なわれる。
これを回避する1つのテクニックは、特徴間の依存性を仮定せず、データは分離可能な密度からサンプリングされる。
これにより、各辺縁分布を独立に推定できるため、全関節密度の推定にかかわる遅い速度を回避することができる。
これはネーブベイズモデルで用いられる戦略であり、ランク1テンソルの推定に類似している。
本稿では、これらの改善が非負のテンソル分解を通じてモデル化する他の単純化された依存仮定に拡張できるかどうかを検討する。
中心的な理論的結果は,低ランク非負のPARAFACやTucker分解に対する推定の制限が,多次元ヒストグラムのビン幅速度の次元指数を除去することを証明する。
これらの結果は、既存の非負のテンソル因子化を直接ヒストグラム推定装置に適用することにより、高い統計的意義で実験的に検証される。 While nonparametric density estimators often perform well on low dimensional data, their performance can suffer when applied to higher dimensional data, owing presumably to the curse of dimensionality. One technique for avoiding this is to assume no dependence between features and that the data are sampled from a separable density. This allows one to estimate each marginal distribution independently thereby avoiding the slow rates associated with estimating the full joint density. This is a strategy employed in naive Bayes models and is analogous to estimating a rank-one tensor. In this paper we investigate whether these improvements can be extended to other simplified dependence assumptions which we model via nonnegative tensor decompositions. In our central theoretical results we prove that restricting estimation to low-rank nonnegative PARAFAC or Tucker decompositions removes the dimensionality exponent on bin width rates for multidimensional histograms. These results are validated experimentally with high statistical significance via direct application of existing nonnegative tensor factorization to histogram estimators. | 翻訳日:2022-10-10 06:29:51 公開日:2020-10-06 |
# 変圧器を用いた自己指導型学習の指導 Guiding Attention for Self-Supervised Learning with Transformers ( http://arxiv.org/abs/2010.02399v1 ) ライセンス: Link先を確認 | Ameet Deshpande, Karthik Narasimhan | (参考訳) 本稿では,双方向トランスフォーマを用いた効率的な自己教師あり学習を実現するための,簡便で効果的な手法を提案する。
我々のアプローチは、訓練されたモデルにおける自己注意パターンが非言語的規則性の大部分を含んでいることを示す最近の研究によって動機付けられている。
このようなパターンに合致するように注意ヘッドを誘導する計算効率のよい補助損失関数を提案する。
本手法は,実際の事前学習目標と無関係であり,モデルの収束が早くなり,ベースラインと比較してダウンストリームタスクのパフォーマンスが向上し,低リソース設定で最先端の成果が得られる。
また,注目頭部の言語特性が言語モデルの性能と必ずしも相関していないことも判明した。 In this paper, we propose a simple and effective technique to allow for efficient self-supervised learning with bi-directional Transformers. Our approach is motivated by recent studies demonstrating that self-attention patterns in trained models contain a majority of non-linguistic regularities. We propose a computationally efficient auxiliary loss function to guide attention heads to conform to such patterns. Our method is agnostic to the actual pre-training objective and results in faster convergence of models as well as better performance on downstream tasks compared to the baselines, achieving state of the art results in low-resource settings. Surprisingly, we also find that linguistic properties of attention heads are not necessarily correlated with language modeling performance. | 翻訳日:2022-10-10 06:29:14 公開日:2020-10-06 |
# 構造的近距離学習による単純かつ効果的な名付きエンティティ認識 Simple and Effective Few-Shot Named Entity Recognition with Structured Nearest Neighbor Learning ( http://arxiv.org/abs/2010.02405v1 ) ライセンス: Link先を確認 | Yi Yang and Arzoo Katiyar | (参考訳) 近接学習と構造化推論に基づく単純な数発のエンティティ認識(NER)システムを提案する。
本システムは,ソースドメイン上で訓練された教師付きNERモデルを特徴抽出器として利用する。
複数のテストドメインにまたがって、この特徴空間における最も近い隣接分類器は、標準的なメタ学習アプローチよりもはるかに効果的であることを示す。
さらに,高価なCRFトレーニングを伴わずに,エンティティタグ間のラベル依存性を捕捉する,安価で効果的な手法を提案する。
提案手法は,構造化復号と近接学習を組み合わせることで,従来のメタラーニングベースのシステムと比較して,f1得点を6,6,6,16,16,$絶対点で向上させる。 We present a simple few-shot named entity recognition (NER) system based on nearest neighbor learning and structured inference. Our system uses a supervised NER model trained on the source domain, as a feature extractor. Across several test domains, we show that a nearest neighbor classifier in this feature-space is far more effective than the standard meta-learning approaches. We further propose a cheap but effective method to capture the label dependencies between entity tags without expensive CRF training. We show that our method of combining structured decoding with nearest neighbor learning achieves state-of-the-art performance on standard few-shot NER evaluation tasks, improving F1 scores by $6\%$ to $16\%$ absolute points over prior meta-learning based systems. | 翻訳日:2022-10-10 06:29:02 公開日:2020-10-06 |
# 連続入力とカテゴリ入力の両方に対する低ランク相関行列をもつガウス過程モデル Gaussian Process Models with Low-Rank Correlation Matrices for Both Continuous and Categorical Inputs ( http://arxiv.org/abs/2010.02574v1 ) ライセンス: Link先を確認 | Dominik Kirchhoff, Sonja Kuhnt | (参考訳) 混合連続および分類ガウス過程モデルにおけるクロス相関行列の低ランク近似を用いた手法を提案する。
この新しい手法は、Lorlow-Rank correlation (LRC)と呼ばれ、近似の適切なランクを選択することで、問題のパラメータの数に柔軟に適応する能力を提供する。
さらに,連続入力と分類入力の両方に関わるモデルや最適化手法の精度を評価するために,テスト関数を定義する体系的なアプローチを提案する。
我々は,lrcを相関行列をモデル化する既存の手法と比較する。
その結果,新しい手法は相互相関推定や応答面予測において良好に動作することがわかった。
したがって、LCCは既存の手法、特にカテゴリ入力のレベルの組み合わせ数を増やすために柔軟で有用な追加である。 We introduce a method that uses low-rank approximations of cross-correlation matrices in mixed continuous and categorical Gaussian Process models. This new method -- called Low-Rank Correlation (LRC) -- offers the ability to flexibly adapt the number of parameters to the problem at hand by choosing an appropriate rank of the approximation. Furthermore, we present a systematic approach of defining test functions that can be used for assessing the accuracy of models or optimization methods that are concerned with both continuous and categorical inputs. We compare LRC to existing approaches of modeling the cross-correlation matrix. It turns out that the new approach performs well in terms of estimation of cross-correlations and response surface prediction. Therefore, LRC is a flexible and useful addition to existing methods, especially for increasing numbers of combinations of levels of the categorical inputs. | 翻訳日:2022-10-10 06:21:58 公開日:2020-10-06 |
# ハザードレートによる分布のテールウェイトの試験 Testing Tail Weight of a Distribution Via Hazard Rate ( http://arxiv.org/abs/2010.02888v1 ) ライセンス: Link先を確認 | Maryam Aliakbarpour, Amartya Shankha Biswas, Kavya Ravichandran, Ronitt Rubinfeld | (参考訳) データ分布の形状を理解することは、そのデータに使用されるアルゴリズムの種類に影響する可能性があるため、さまざまな分野の人々にとって興味深い。
分布のサンプルが与えられた場合、分布の尾を特徴付けるために、どれくらいの要素が頻繁に現れるかを理解する。
自然の平滑さと順序付けの仮定の下でのハザードレート率に基づく定義を通じて,重み付き分布と重み付き分布を区別する,慎重なバケットスキームに基づくアルゴリズムを開発した。
理論的結果を実証的に検証する。 Understanding the shape of a distribution of data is of interest to people in a great variety of fields, as it may affect the types of algorithms used for that data. Given samples from a distribution, we seek to understand how many elements appear infrequently, that is, to characterize the tail of the distribution. We develop an algorithm based on a careful bucketing scheme that distinguishes heavy-tailed distributions from non-heavy-tailed ones via a definition based on the hazard rate under some natural smoothness and ordering assumptions. We verify our theoretical results empirically. | 翻訳日:2022-10-10 06:21:46 公開日:2020-10-06 |
# pcal: 敵対的学習に基づくプライバシー保護型知的信用リスクモデリングフレームワーク PCAL: A Privacy-preserving Intelligent Credit Risk Modeling Framework Based on Adversarial Learning ( http://arxiv.org/abs/2010.02529v1 ) ライセンス: Link先を確認 | Yuli Zheng, Zhenyu Wu, Ye Yuan, Tianlong Chen, Zhangyang Wang | (参考訳) 信用リスクモデリングは私たちの日常生活に浸透した。
ほとんどの銀行や金融機関はこの手法を使って顧客の信頼性をモデル化している。
この分野では機械学習がますます使われているが、結果として生じる大規模な個人情報収集はプライバシー論争を復活させ、不正なハッカーによる毎年数十件のデータ漏洩事件や、認可された関係者による(さらに多くの)情報の誤用や誤用を考慮している。
そこで本研究では,PCAL(Adversarial Learning)に基づくプライバシ保護型信用リスクモデリングの枠組みを提案する。
PCALは、プライバシリスクの損失とユーティリティ指向の損失との重み付けにより、ターゲット予測タスクのパフォーマンスの重要なユーティリティ情報を維持しながら、元のデータセット内のプライベート情報を隠蔽することを目的としている。
PCALは、ユーティリティとプライバシ保護の両方の観点から、既成のオプションと比較される。
結果は,PCALがユーザデータから効果的なプライバシフリー表現を学習し,信用リスク分析のためのプライバシ保存機械学習の基盤となることを示唆している。 Credit risk modeling has permeated our everyday life. Most banks and financial companies use this technique to model their clients' trustworthiness. While machine learning is increasingly used in this field, the resulting large-scale collection of user private information has reinvigorated the privacy debate, considering dozens of data breach incidents every year caused by unauthorized hackers, and (potentially even more) information misuse/abuse by authorized parties. To address those critical concerns, this paper proposes a framework of Privacy-preserving Credit risk modeling based on Adversarial Learning (PCAL). PCAL aims to mask the private information inside the original dataset, while maintaining the important utility information for the target prediction task performance, by (iteratively) weighing between a privacy-risk loss and a utility-oriented loss. PCAL is compared against off-the-shelf options in terms of both utility and privacy protection. Results indicate that PCAL can learn an effective, privacy-free representation from user data, providing a solid foundation towards privacy-preserving machine learning for credit risk analysis. | 翻訳日:2022-10-10 06:21:19 公開日:2020-10-06 |
# インスタンスセグメンテーションと深さ推定によるパララックス運動効果の生成 Parallax Motion Effect Generation Through Instance Segmentation And Depth Estimation ( http://arxiv.org/abs/2010.02680v1 ) ライセンス: Link先を確認 | Allan Pinto, Manuel A. C\'ordova, Luis G. L. Decker, Jose L. Flores-Campana, Marcos R. Souza, Andreza A. dos Santos, Jhonatas S. Concei\c{c}\~ao, Henrique F. Gagliardi, Diogo C. Luvizon, Ricardo da S. Torres and Helio Pedrini | (参考訳) ステレオビジョンは、バーチャルおよび拡張現実アプリケーションのようなモダンなソリューションの開発にこの技術がもたらす無限の機会と応用のために、コンピュータビジョンにおけるトピックが増えている。
3次元仮想環境におけるユーザエクスペリエンスを高めるため,モーションパララックス推定はこの目的を達成する上で有望な手法である。
本稿では,最先端のインスタンスセグメンテーションと深さ推定手法を活用し,単一の画像からパララックス運動効果を生成するアルゴリズムを提案する。
本研究は,パララックス動作効果の効率と品質のトレードオフを検討するために,インスタンス分割と深さ推定を同時に推定できるマルチタスク学習ネットワークを考慮したアルゴリズムとの比較も示す。
実験結果と視覚品質評価により、pyd-netネットワークとマスクr-cnnやfbnetネットワークを組み合わせると、視覚品質の良い視差運動効果が得られることが示された。 Stereo vision is a growing topic in computer vision due to the innumerable opportunities and applications this technology offers for the development of modern solutions, such as virtual and augmented reality applications. To enhance the user's experience in three-dimensional virtual environments, the motion parallax estimation is a promising technique to achieve this objective. In this paper, we propose an algorithm for generating parallax motion effects from a single image, taking advantage of state-of-the-art instance segmentation and depth estimation approaches. This work also presents a comparison against such algorithms to investigate the trade-off between efficiency and quality of the parallax motion effects, taking into consideration a multi-task learning network capable of estimating instance segmentation and depth estimation at once. Experimental results and visual quality assessment indicate that the PyD-Net network (depth estimation) combined with Mask R-CNN or FBNet networks (instance segmentation) can produce parallax motion effects with good visual quality. | 翻訳日:2022-10-10 06:21:00 公開日:2020-10-06 |
# Vec2Instance: ディープインスタンスセグメンテーションのパラメータ化 Vec2Instance: Parameterization for Deep Instance Segmentation ( http://arxiv.org/abs/2010.02725v1 ) ライセンス: Link先を確認 | N. Lakmal Deshapriya, Matthew N. Dailey, Manzul Kumar Hazarika, Hiroyuki Miyazaki | (参考訳) ディープラーニングの最近の進歩は、オブジェクト分類、ローカライゼーション、セマンティックセグメンテーション、インスタンスセグメンテーションといったコンピュータビジョンタスクにおいて人間レベルの精度をもたらす。
本稿では,Vec2Instanceと呼ばれる,新しい深層畳み込みニューラルネットワークアーキテクチャについて述べる。
vec2instanceは、インスタンスのパラメトリゼーションのためのフレームワークを提供し、畳み込みニューラルネットワークが、centroids周辺のインスタンスの複雑な形状を効率的に見積もることができる。
本稿では,衛星画像のインスタンス分割処理におけるアーキテクチャの実現可能性について述べる。
さらに,衛星画像からフットプリントを抽出する新しい手法の有用性を示す。
アプローチのピクセル単位の精度は,最先端のMask RCNN (91 %) の精度に近い89 %である。
Vec2Instanceは複雑なインスタンスセグメンテーションパイプラインに代わるアプローチであり、シンプルさと直感性を提供する。
この研究で開発されたコードは、Vec2Instance GitHubリポジトリ、https://github.com/lakmalnd/Vec2Instanceで入手できる。 Current advances in deep learning is leading to human-level accuracy in computer vision tasks such as object classification, localization, semantic segmentation, and instance segmentation. In this paper, we describe a new deep convolutional neural network architecture called Vec2Instance for instance segmentation. Vec2Instance provides a framework for parametrization of instances, allowing convolutional neural networks to efficiently estimate the complex shapes of instances around their centroids. We demonstrate the feasibility of the proposed architecture with respect to instance segmentation tasks on satellite images, which have a wide range of applications. Moreover, we demonstrate the usefulness of the new method for extracting building foot-prints from satellite images. Total pixel-wise accuracy of our approach is 89\%, near the accuracy of the state-of-the-art Mask RCNN (91\%). Vec2Instance is an alternative approach to complex instance segmentation pipelines, offering simplicity and intuitiveness. The code developed under this study is available in the Vec2Instance GitHub repository, https://github.com/lakmalnd/Vec2Instance | 翻訳日:2022-10-10 06:20:42 公開日:2020-10-06 |
# 安全な3次元医用イメージング Secure 3D medical Imaging ( http://arxiv.org/abs/2010.03367v1 ) ライセンス: Link先を確認 | Shadi Al-Zu'bi | (参考訳) 画像セグメンテーションは、その重要性を証明し、健康システムや衛星指向軍事用途など、様々な領域で重要な役割を果たしている。
この文脈では、精度、画質、実行時間が常に考慮すべき主要な問題であると考えています。
多くの技術が適用され、実験結果からリアルタイム環境における2次元画像の魅力が示されたが、分割精度の向上が重要であるにもかかわらず、3次元画像のセグメンテーションに関する研究は乏しい。
具体的には、この領域でHMMが使われた。
しかし、異なるアクセラレータを使用して更新された時間の複雑さに苦しむ。
本稿では,効率的な3次元画像分割を行うことが重要であるため,複数の分散マシン間で3次元画像分割プロセスを分割する新しいシステムを提案する。
分散マルチメディアネットワークセグメンテーションの背景にある概念は、HMM(Hidden Markov Model)訓練のセグメンテーション計算時間を高速化するために用いられた。
さらに、この分散環境ではセキュアな送信が検討され、様々な双方向マルチメディアセキュリティアルゴリズムが適用されている。
この研究の貢献は、3D画像セグメンテーションのための効率的でセキュアなアルゴリズムを提供することにある。
多くの実験を通じて,本システムの有効性は,セグメンテーションの精度,セキュリティ,実行時間に匹敵するものであることが実証された。 Image segmentation has proved its importance and plays an important role in various domains such as health systems and satellite-oriented military applications. In this context, accuracy, image quality, and execution time deem to be the major issues to always consider. Although many techniques have been applied, and their experimental results have shown appealing achievements for 2D images in real-time environments, however, there is a lack of works about 3D image segmentation despite its importance in improving segmentation accuracy. Specifically, HMM was used in this domain. However, it suffers from the time complexity, which was updated using different accelerators. As it is important to have efficient 3D image segmentation, we propose in this paper a novel system for partitioning the 3D segmentation process across several distributed machines. The concepts behind distributed multi-media network segmentation were employed to accelerate the segmentation computational time of training Hidden Markov Model (HMMs). Furthermore, a secure transmission has been considered in this distributed environment and various bidirectional multimedia security algorithms have been applied. The contribution of this work lies in providing an efficient and secure algorithm for 3D image segmentation. Through a number of extensive experiments, it was proved that our proposed system is of comparable efficiency to the state of art methods in terms of segmentation accuracy, security and execution time. | 翻訳日:2022-10-10 06:19:40 公開日:2020-10-06 |
# チェックポイント付きニューラルネットワークにおける逐次変化点検出 Sequential Changepoint Detection in Neural Networks with Checkpoints ( http://arxiv.org/abs/2010.03053v1 ) ライセンス: Link先を確認 | Michalis K. Titsias, Jakub Sygnowski, Yutian Chen | (参考訳) 深層ニューラルネットワークなどの高度パラメータモデルに適用可能な,オンライン変更点検出と同時モデル学習のためのフレームワークを提案する。
単純な予測スコア関数の評価のみを必要とする一般化された確率比試験を逐次実施することにより、時間とともに変化点を検出する。
この手順では、実際のモデルパラメータの初期バージョンで構成されるチェックポイントを使用し、将来のデータで予測を行うことで、分布の変化を検出することができる。
シーケンシャルなテスト手順でType Iエラーをバウンドするアルゴリズムを定義する。
未知のタスク変更点を持つ連続学習アプリケーションに対して,本手法の有効性を実証し,オンラインベイズ変化点検出と比較し,改善効果を示す。 We introduce a framework for online changepoint detection and simultaneous model learning which is applicable to highly parametrized models, such as deep neural networks. It is based on detecting changepoints across time by sequentially performing generalized likelihood ratio tests that require only evaluations of simple prediction score functions. This procedure makes use of checkpoints, consisting of early versions of the actual model parameters, that allow to detect distributional changes by performing predictions on future data. We define an algorithm that bounds the Type I error in the sequential testing procedure. We demonstrate the efficiency of our method in challenging continual learning applications with unknown task changepoints, and show improved performance compared to online Bayesian changepoint detection. | 翻訳日:2022-10-10 06:11:37 公開日:2020-10-06 |
# ストリーミングデータに対するガウス過程回帰の分割 Splitting Gaussian Process Regression for Streaming Data ( http://arxiv.org/abs/2010.02424v1 ) ライセンス: Link先を確認 | Nick Terry and Youngjun Choe | (参考訳) ガウス過程は回帰のための柔軟なカーネルメソッドを提供する。
ガウス過程は多くの有用な理論的性質を持ち、実際に有用であることが証明されているが、観測数の減少に苦しむ。
特に、標準ガウス過程モデルを更新する3次時間の複雑さは、ストリーミングデータへの適用に一般的に適さない。
入力空間を順次分割し,各領域に局所化されたガウス過程を適合させるアルゴリズムを提案する。
このアルゴリズムは既存の手法よりも時間と空間の複雑さが優れており、そのシーケンシャルな性質によりストリーミングデータに適用することができる。
このアルゴリズムは、更新の時間複雑性が事前に指定したパラメータによって上界に密着したモデルを構築する。
我々の知る限りでは、このモデルは線形メモリ複雑性を実現する最初の局所ガウス過程回帰モデルである。
モデルの理論的連続性は証明されている。
ストリーミングデータに対する多次元回帰タスクにおける結果モデルの有効性を示す。 Gaussian processes offer a flexible kernel method for regression. While Gaussian processes have many useful theoretical properties and have proven practically useful, they suffer from poor scaling in the number of observations. In particular, the cubic time complexity of updating standard Gaussian process models make them generally unsuitable for application to streaming data. We propose an algorithm for sequentially partitioning the input space and fitting a localized Gaussian process to each disjoint region. The algorithm is shown to have superior time and space complexity to existing methods, and its sequential nature permits application to streaming data. The algorithm constructs a model for which the time complexity of updating is tightly bounded above by a pre-specified parameter. To the best of our knowledge, the model is the first local Gaussian process regression model to achieve linear memory complexity. Theoretical continuity properties of the model are proven. We demonstrate the efficacy of the resulting model on multi-dimensional regression tasks for streaming data. | 翻訳日:2022-10-10 06:11:26 公開日:2020-10-06 |
# BlendTorch: リアルタイムで適応的なドメインランダム化ライブラリ BlendTorch: A Real-Time, Adaptive Domain Randomization Library ( http://arxiv.org/abs/2010.11696v1 ) ライセンス: Link先を確認 | Christoph Heindl, Lukas Brunner, Sebastian Zambal, Josef Scharinger | (参考訳) ディープラーニング技術による複雑なコンピュータビジョンタスクの解決は、産業環境では利用できない大量の(教師付き)画像データに依存する。
トレーニングデータの欠如は、コンピュータビジョンにおける最先端の手法を産業応用に移すことを阻害し始める。
適応型ドメインランダム化(DR)ライブラリであるBlendTorchを導入し、合成トレーニングデータの無限ストリーム作成を支援する。
BlendTorchは、低忠実度シミュレーションを大々的にランダム化してデータを生成し、モデル学習のための人工的なトレーニングデータをリアルタイムで配布する。
BlendTorchでトレーニングされたモデルは、実または写真リアルなデータセットでトレーニングされたモデルよりも、産業オブジェクト検出タスクにおいて繰り返し良いパフォーマンスを示す。 Solving complex computer vision tasks by deep learning techniques relies on large amounts of (supervised) image data, typically unavailable in industrial environments. The lack of training data starts to impede the successful transfer of state-of-the-art methods in computer vision to industrial applications. We introduce BlendTorch, an adaptive Domain Randomization (DR) library, to help creating infinite streams of synthetic training data. BlendTorch generates data by massively randomizing low-fidelity simulations and takes care of distributing artificial training data for model learning in real-time. We show that models trained with BlendTorch repeatedly perform better in an industrial object detection task than those trained on real or photo-realistic datasets. | 翻訳日:2022-10-10 06:03:51 公開日:2020-10-06 |
# ロバストテキスト分類のためのスプリアス相関の同定 Identifying Spurious Correlations for Robust Text Classification ( http://arxiv.org/abs/2010.02458v1 ) ライセンス: Link先を確認 | Zhao Wang and Aron Culotta | (参考訳) テキスト分類器の予測は、しばしば散発的な相関(例えば「スピルバーグ」という用語は、意味的に肯定的な感情を伝達しないにもかかわらず、肯定的にレビューされた映画と相関する)によって駆動される。
本稿では,テキスト分類におけるスプリアスと真の相関を区別する手法を提案する。
我々はこれを,治療効果推定子から得られた特徴を用いて,教師付き分類問題として扱う。
これらの特徴の一般的な性質とその小さな次元性から、この手法は限られた訓練例でもうまく機能し、単語分類器を新しいドメインに転送することが可能である。
4つのデータセット(sentiment classification and toxicity detection)の実験は、このアプローチを使って特徴の選択を知らせることで、より堅牢な分類につながることを示唆している。 The predictions of text classifiers are often driven by spurious correlations -- e.g., the term `Spielberg' correlates with positively reviewed movies, even though the term itself does not semantically convey a positive sentiment. In this paper, we propose a method to distinguish spurious and genuine correlations in text classification. We treat this as a supervised classification problem, using features derived from treatment effect estimators to distinguish spurious correlations from "genuine" ones. Due to the generic nature of these features and their small dimensionality, we find that the approach works well even with limited training examples, and that it is possible to transport the word classifier to new domains. Experiments on four datasets (sentiment classification and toxicity detection) suggest that using this approach to inform feature selection also leads to more robust classification, as measured by improved worst-case accuracy on the samples affected by spurious correlations. | 翻訳日:2022-10-10 06:03:11 公開日:2020-10-06 |
# Amazonの多言語レビューコーパス The Multilingual Amazon Reviews Corpus ( http://arxiv.org/abs/2010.02573v1 ) ライセンス: Link先を確認 | Phillip Keung, Yichao Lu, Gy\"orgy Szarvas, Noah A. Smith | (参考訳) 我々は、多言語テキスト分類のための大規模なAmazonレビューコレクションであるMultilingual Amazon Reviews Corpus (MARC)を提示する。
コーパスには英語、日本語、ドイツ語、フランス語、スペイン語、中国語のレビューが含まれており、2015年から2019年にかけて収集された。
データセットの各レコードは、レビューテキスト、レビュータイトル、スターレーティング、匿名化されたレビューID、匿名化された製品ID、粗粒度製品カテゴリ(例えば、'books'、'appliances'など)を含む。
各言語には、トレーニング、開発、テストセットにそれぞれ20,000、5,000、5,000のレビューがある。
本稿では,教師付きテキスト分類とゼロショット言語間変換学習のためのベースライン結果について報告する。
本研究では,評価の順序的性質をmaeが考慮し,分類精度ではなく平均絶対誤差(mae)を用いることを提案する。 We present the Multilingual Amazon Reviews Corpus (MARC), a large-scale collection of Amazon reviews for multilingual text classification. The corpus contains reviews in English, Japanese, German, French, Spanish, and Chinese, which were collected between 2015 and 2019. Each record in the dataset contains the review text, the review title, the star rating, an anonymized reviewer ID, an anonymized product ID, and the coarse-grained product category (e.g., 'books', 'appliances', etc.) The corpus is balanced across the 5 possible star ratings, so each rating constitutes 20% of the reviews in each language. For each language, there are 200,000, 5,000, and 5,000 reviews in the training, development, and test sets, respectively. We report baseline results for supervised text classification and zero-shot cross-lingual transfer learning by fine-tuning a multilingual BERT model on reviews data. We propose the use of mean absolute error (MAE) instead of classification accuracy for this task, since MAE accounts for the ordinal nature of the ratings. | 翻訳日:2022-10-10 06:02:54 公開日:2020-10-06 |
# 無声音声のディジタル音声化 Digital Voicing of Silent Speech ( http://arxiv.org/abs/2010.02960v1 ) ライセンス: Link先を確認 | David Gaddy and Dan Klein | (参考訳) 本稿では,筋インパルスを捉えた筋電図(EMG)センサ計測に基づいて,無声音声を有声音声に変換し,無声音声に変換する作業について考察する。
先行研究は発声音声中に収集したemgの音声合成モデルを訓練することに焦点を当ててきたが,無声音声におけるemgの訓練は今回が初めてである。
音声信号からサイレント信号への音声ターゲットの転送によるサイレントEMGの訓練手法を提案する。
本手法は,有声データのみを訓練するベースラインと比較して,無声EMGから発生する音声の可聴性を大幅に向上させ,1つのデータ条件で64%から4%に,さらに88%から68%に低下させる。
この課題をさらに発展させるため,我々は,無声および発声顔面筋電図測定のデータセットを新たに公開する。 In this paper, we consider the task of digitally voicing silent speech, where silently mouthed words are converted to audible speech based on electromyography (EMG) sensor measurements that capture muscle impulses. While prior work has focused on training speech synthesis models from EMG collected during vocalized speech, we are the first to train from EMG collected during silently articulated speech. We introduce a method of training on silent EMG by transferring audio targets from vocalized to silent signals. Our method greatly improves intelligibility of audio generated from silent EMG compared to a baseline that only trains with vocalized data, decreasing transcription word error rate from 64% to 4% in one data condition and 88% to 68% in another. To spur further development on this task, we share our new dataset of silent and vocalized facial EMG measurements. | 翻訳日:2022-10-10 06:02:25 公開日:2020-10-06 |
# 一番いいのか?
自然言語処理のためのベイズ統計モデルの比較 Is the Best Better? Bayesian Statistical Model Comparison for Natural Language Processing ( http://arxiv.org/abs/2010.03088v1 ) ライセンス: Link先を確認 | Piotr Szyma\'nski, Kyle Gorman | (参考訳) 最近の研究は、自然言語処理モデルを比較するための標準分割の使用に関する懸念を提起している。
ベイズ統計モデルの比較手法を提案し、複数のデータセットにまたがる k-fold のクロスバリデーションを用いて、一方のモデルが他方よりも優れているか、あるいは両者が実質的に等価な結果をもたらすかを推定する。
この手法を用いて、2つのデータセットと3つの評価指標に6つの英語の音声タグをランク付けする。 Recent work raises concerns about the use of standard splits to compare natural language processing models. We propose a Bayesian statistical model comparison technique which uses k-fold cross-validation across multiple data sets to estimate the likelihood that one model will outperform the other, or that the two will produce practically equivalent results. We use this technique to rank six English part-of-speech taggers across two data sets and three evaluation metrics. | 翻訳日:2022-10-10 06:02:08 公開日:2020-10-06 |
# NLPアプリケーションのランクと実行時認識圧縮 Rank and run-time aware compression of NLP Applications ( http://arxiv.org/abs/2010.03193v1 ) ライセンス: Link先を確認 | Urmish Thakker, Jesse Beu, Dibakar Gope, Ganesh Dasika, Matthew Mattina | (参考訳) シーケンスモデルに基づくNLPアプリケーションは大きい。
しかし、そのメリットを享受する多くのアプリケーションは、非常に限られた計算能力とストレージ能力を持つ小さなデバイス上で動作します。
その結果,予測実行時間やタスク精度に悪影響を及ぼすことなく,大幅な圧縮を実現する圧縮技術が必要である。
本稿では,この双対目的を達成するために,ハイブリッド行列分解と呼ばれる新しい圧縮手法を提案する。
hmfは、インテリジェントなハイブリッド構造を用いて行列のランクを2倍にすることで、lmf(low-rank matrix factorization)技術を改善する。
さらに、密度行列を保存することにより、プルーニングや構造行列に基づく圧縮技術よりも高速な推論実行を実現する。
複数のタスクにわたる5つのNLPベンチマーク(Translation, Intent Detection, Language Modeling)に対するこの手法の影響を評価し、同様の精度の値と圧縮係数に対して、HMFはプルーニングよりも2.32倍以上高速で、LMFより16.77%高い精度で実行可能であることを示す。 Sequence model based NLP applications can be large. Yet, many applications that benefit from them run on small devices with very limited compute and storage capabilities, while still having run-time constraints. As a result, there is a need for a compression technique that can achieve significant compression without negatively impacting inference run-time and task accuracy. This paper proposes a new compression technique called Hybrid Matrix Factorization that achieves this dual objective. HMF improves low-rank matrix factorization (LMF) techniques by doubling the rank of the matrix using an intelligent hybrid-structure leading to better accuracy than LMF. Further, by preserving dense matrices, it leads to faster inference run-time than pruning or structure matrix based compression technique. We evaluate the impact of this technique on 5 NLP benchmarks across multiple tasks (Translation, Intent Detection, Language Modeling) and show that for similar accuracy values and compression factors, HMF can achieve more than 2.32x faster inference run-time than pruning and 16.77% better accuracy than LMF. | 翻訳日:2022-10-10 06:01:58 公開日:2020-10-06 |
# ベイズ最適化における追加木構造条件パラメータ空間:新しい共分散関数と高速実装 Additive Tree-Structured Conditional Parameter Spaces in Bayesian Optimization: A Novel Covariance Function and a Fast Implementation ( http://arxiv.org/abs/2010.03171v1 ) ライセンス: Link先を確認 | Xingchen Ma, Matthew B. Blaschko | (参考訳) ベイズ最適化(英: Bayesian Optimization, BO)は、ブラックボックス関数に対する標本効率のよいグローバル最適化アルゴリズムである。
条件パラメータ空間におけるモデルに基づく最適化に関する既存の文献は通常木の上に構築される。
本研究では,木構造関数に対する付加的仮定を一般化し,改良された試料効率,適用性,柔軟性を示す付加的木構造共分散関数を提案する。
さらに、パラメータ空間の構造情報とboループにおける加法仮定を組み込むことにより、取得関数を最適化する並列アルゴリズムを開発し、この最適化を低次元空間で行うことができる。
本稿では,ニューラルネットワーク圧縮問題に対する最適化ベンチマーク関数,トレーニング済みのVGG16およびResNet50モデルのプルーニング,ResNet20のアクティベーション関数の探索について述べる。
実験の結果,smac,tpe,jenattonらを含む条件付きパラメータ最適化技術(2017年)の現況を大きく上回っている。 Bayesian optimization (BO) is a sample-efficient global optimization algorithm for black-box functions which are expensive to evaluate. Existing literature on model based optimization in conditional parameter spaces are usually built on trees. In this work, we generalize the additive assumption to tree-structured functions and propose an additive tree-structured covariance function, showing improved sample-efficiency, wider applicability and greater flexibility. Furthermore, by incorporating the structure information of parameter spaces and the additive assumption in the BO loop, we develop a parallel algorithm to optimize the acquisition function and this optimization can be performed in a low dimensional space. We demonstrate our method on an optimization benchmark function, on a neural network compression problem, on pruning pre-trained VGG16 and ResNet50 models as well as on searching activation functions of ResNet20. Experimental results show our approach significantly outperforms the current state of the art for conditional parameter optimization including SMAC, TPE and Jenatton et al. (2017). | 翻訳日:2022-10-10 05:54:42 公開日:2020-10-06 |
# 事前学習した深部畳み込みニューラルネットワークとコンテキストマイニングによるビデオ異常検出 Video Anomaly Detection Using Pre-Trained Deep Convolutional Neural Nets and Context Mining ( http://arxiv.org/abs/2010.02406v1 ) ライセンス: Link先を確認 | Chongke Wu, Sicong Shao, Cihan Tunc, Salim Hariri | (参考訳) 異常検出は、知的監視システムにとって、悪意のある行為をタイムリーに検出する上で極めて重要である。
ディープラーニング手法を用いた多くのビデオ異常検出手法は、固定されたシナリオで単一のカメラビデオストリームに焦点を当てている。
これらのディープラーニング手法は、複雑な大規模トレーニングデータを使用する。
そこで本稿では,事前学習された畳み込みニューラルネットワークモデルを用いて特徴抽出と文脈マイニングを行い,モデルの複雑さが比較的低いデノージングオートエンコーダを用いて,iot(internet of things, モノのインターネット)のエッジデバイスなどのリソースに制約のあるデバイスに対して,効率的かつ正確な監視異常検出を行う方法を提案する。
我々の異常検出モデルは,対象分類や物体検出などの組み込みコンピュータビジョンモデルから得られた高レベル特徴に基づいて決定を行う。
さらに,高レベルの特徴から文脈特性を導出し,ビデオ異常検出法の性能をさらに向上させる。
2つのUCSDデータセットを使用して、比較的モデル複雑性の低いアプローチが、最先端のアプローチと比較して同等のパフォーマンスを達成できることを示す。 Anomaly detection is critically important for intelligent surveillance systems to detect in a timely manner any malicious activities. Many video anomaly detection approaches using deep learning methods focus on a single camera video stream with a fixed scenario. These deep learning methods use large-scale training data with large complexity. As a solution, in this paper, we show how to use pre-trained convolutional neural net models to perform feature extraction and context mining, and then use denoising autoencoder with relatively low model complexity to provide efficient and accurate surveillance anomaly detection, which can be useful for the resource-constrained devices such as edge devices of the Internet of Things (IoT). Our anomaly detection model makes decisions based on the high-level features derived from the selected embedded computer vision models such as object classification and object detection. Additionally, we derive contextual properties from the high-level features to further improve the performance of our video anomaly detection method. We use two UCSD datasets to demonstrate that our approach with relatively low model complexity can achieve comparable performance compared to the state-of-the-art approaches. | 翻訳日:2022-10-10 05:54:24 公開日:2020-10-06 |
# ブラックボックス画像分類モデルのカラーワイズサリエンシーの可視化 Visualizing Color-wise Saliency of Black-Box Image Classification Models ( http://arxiv.org/abs/2010.02468v1 ) ライセンス: Link先を確認 | Yuhki Hatakeyama (SenseTime Japan), Hiroki Sakuma (SenseTime Japan), Yoshinori Konishi (SenseTime Japan), and Kohei Suenaga (Kyoto University) | (参考訳) 機械学習に基づく画像分類が一般的である。
しかし、ディープラーニングを含む高度な方法によって与えられた分類結果は、しばしば解釈が難しい。
この解釈可能性の問題は、トレーニングされたモデルを安全クリティカルシステムにデプロイする際の大きな障害の1つである。
この問題に対処するためにいくつかの手法が提案されているが、そのうちの1つはRISEであり、各ピクセルの意義を説明するサーチマップと呼ばれる熱マップによる分類結果を説明するものである。
そこで本研究では,色情報を考慮した上昇の促進を目的としたmc-rise(multi-color rise)を提案する。
本手法は,元のRISEのように画像中の各画素の鮮度を示すだけでなく,各画素の色成分の重要度を示す。特に色情報(例えば,信号信号認識)が重要となる領域において,色情報を持つ鮮度マップが有用である。
我々はMC-RISEを実装し,2つのデータセット (GTSRB と ImageNet) を用いて画像分類結果の解釈手法と比較して,提案手法の有効性を実証した。 Image classification based on machine learning is being commonly used. However, a classification result given by an advanced method, including deep learning, is often hard to interpret. This problem of interpretability is one of the major obstacles in deploying a trained model in safety-critical systems. Several techniques have been proposed to address this problem; one of which is RISE, which explains a classification result by a heatmap, called a saliency map, which explains the significance of each pixel. We propose MC-RISE (Multi-Color RISE), which is an enhancement of RISE to take color information into account in an explanation. Our method not only shows the saliency of each pixel in a given image as the original RISE does, but the significance of color components of each pixel; a saliency map with color information is useful especially in the domain where the color information matters (e.g., traffic-sign recognition). We implemented MC-RISE and evaluate them using two datasets (GTSRB and ImageNet) to demonstrate the effectiveness of our methods in comparison with existing techniques for interpreting image classification results. | 翻訳日:2022-10-10 05:54:07 公開日:2020-10-06 |
# 学習可能なスケーリングファクタによる網羅的オンラインネットワークプルーニング Comprehensive Online Network Pruning via Learnable Scaling Factors ( http://arxiv.org/abs/2010.02623v1 ) ライセンス: Link先を確認 | Muhammad Umair Haider, Murtaza Taj | (参考訳) ディープニューラルネットワークアーキテクチャのデプロイにおける大きな課題のひとつは、そのサイズが推論時間とメモリ要求に悪影響を及ぼすことだ。
深層cnnは、その重要性に基づいてフィルターを取り除いたり、層やブロックを取り除いたりすることで幅方向に刈り取ることができる。
幅ワイズ・プルーニング(フィルタ・プルーニング)は学習可能なゲートやスイッチ、スパーシティ・レギュラライザで一般的に行われるが、レイヤーのプルーニングは、通常学生ネットワークと呼ばれるより小さなネットワークを手作業で設計することで任意に行われている。
本研究では,幅ワイドおよび深さワイドプルーニングを両立できる包括的プルーニング戦略を提案する。
これは、異なる粒度(神経、フィルター、層、ブロック)のゲートを導入することで実現され、フォワードパス毎に異なる粒度でプルーニングを同時に実行する目的関数を介して制御される。
本手法は,空間次元や接続タイプ(シーケンス,残差,並列,インセプション)に制約を伴わない,多様なアーキテクチャに適用できる。
本手法は,ベンチマークデータセットで評価した場合,精度を著しく損なうことなく,70%から90%の圧縮率が得られた。 One of the major challenges in deploying deep neural network architectures is their size which has an adverse effect on their inference time and memory requirements. Deep CNNs can either be pruned width-wise by removing filters based on their importance or depth-wise by removing layers and blocks. Width wise pruning (filter pruning) is commonly performed via learnable gates or switches and sparsity regularizers whereas pruning of layers has so far been performed arbitrarily by manually designing a smaller network usually referred to as a student network. We propose a comprehensive pruning strategy that can perform both width-wise as well as depth-wise pruning. This is achieved by introducing gates at different granularities (neuron, filter, layer, block) which are then controlled via an objective function that simultaneously performs pruning at different granularity during each forward pass. Our approach is applicable to wide-variety of architectures without any constraints on spatial dimensions or connection type (sequential, residual, parallel or inception). Our method has resulted in a compression ratio of 70% to 90% without noticeable loss in accuracy when evaluated on benchmark datasets. | 翻訳日:2022-10-10 05:53:29 公開日:2020-10-06 |
# 低次元2値畳み込みフィルタによる深部畳み込みニューラルネットワークの圧縮 Compressing Deep Convolutional Neural Networks by Stacking Low-dimensional Binary Convolution Filters ( http://arxiv.org/abs/2010.02778v1 ) ライセンス: Link先を確認 | Weichao Lan, Liang Lan | (参考訳) 深層畳み込みニューラルネットワーク(CNN)は多くの実生活問題に適用されている。
しかし、深層CNNモデルの膨大なメモリコストは、メモリ制限されたデバイス(携帯電話など)にそれらをデプロイする際の大きな課題となる。
ディープCNNモデルのメモリコストを下げるための一般的な方法の1つは、畳み込みフィルタの重みが1または-1であるバイナリCNNを訓練することである。
しかし、既存のバイナリCNNモデルの圧縮比は、約32で上界となる。
そこで本研究では,低次元2次畳み込みフィルタを積み重ねることで,深層cnnモデルを圧縮する新しい手法を提案する。
提案手法は,低次元バイナリ畳み込みフィルタの集合からフィルタを選択し,重ね合わせることで,標準畳み込みフィルタを近似する。
この低次元バイナリ畳み込みフィルタのセットは、与えられた畳み込み層に対してすべてのフィルタで共有される。
したがって,本手法はバイナリcnnモデルよりもはるかに大きな圧縮率を実現する。
提案モデルの学習のために,提案モデルが低次元バイナリフィルタにより生成された中間特徴写像の選択とスタックに等価であることを示す。
したがって,提案モデルは分割-変換-マージ戦略を用いて効率的に訓練することができる。
また、モデル推論におけるモデルのメモリおよび計算コストの詳細な分析も行います。
提案手法を2つのベンチマークデータセット上で,他の5つの一般的なモデル圧縮手法と比較した。
実験の結果,提案手法は既存の手法よりも圧縮率が高く,精度は同等であることがわかった。 Deep Convolutional Neural Networks (CNN) have been successfully applied to many real-life problems. However, the huge memory cost of deep CNN models poses a great challenge of deploying them on memory-constrained devices (e.g., mobile phones). One popular way to reduce the memory cost of deep CNN model is to train binary CNN where the weights in convolution filters are either 1 or -1 and therefore each weight can be efficiently stored using a single bit. However, the compression ratio of existing binary CNN models is upper bounded by around 32. To address this limitation, we propose a novel method to compress deep CNN model by stacking low-dimensional binary convolution filters. Our proposed method approximates a standard convolution filter by selecting and stacking filters from a set of low-dimensional binary convolution filters. This set of low-dimensional binary convolution filters is shared across all filters for a given convolution layer. Therefore, our method will achieve much larger compression ratio than binary CNN models. In order to train our proposed model, we have theoretically shown that our proposed model is equivalent to select and stack intermediate feature maps generated by low-dimensional binary filters. Therefore, our proposed model can be efficiently trained using the split-transform-merge strategy. We also provide detailed analysis of the memory and computation cost of our model in model inference. We compared the proposed method with other five popular model compression techniques on two benchmark datasets. Our experimental results have demonstrated that our proposed method achieves much higher compression ratio than existing methods while maintains comparable accuracy. | 翻訳日:2022-10-10 05:53:04 公開日:2020-10-06 |
# 離散最適化による解釈可能なシーケンス分類 Interpretable Sequence Classification via Discrete Optimization ( http://arxiv.org/abs/2010.02819v1 ) ライセンス: Link先を確認 | Maayan Shvo, Andrew C. Li, Rodrigo Toro Icarte, Sheila A. McIlraith | (参考訳) シーケンス分類は、一連の観測を与えられたクラスラベルを予測するタスクである。
医療監視や侵入検知などの多くの応用において、早期分類は介入を促すために重要である。
本研究では,進化する観測軌跡から早期分類を好む系列分類器を学習する。
多くの最先端シーケンス分類器はニューラルネットワークであり、特にLSTMは有限状態オートマトンであり、離散最適化によって学習される。
我々のオートマトンに基づく分類器は解釈可能であり, 説明, 反実的推論, 人為的ループ修正などがあり, 経験的性能は高い。
目標認識と行動分類データセットを用いた実験では、学習したオートマトンベースの分類器がLSTMベースの分類器と同等の性能を示し、解釈可能な利点が加わった。 Sequence classification is the task of predicting a class label given a sequence of observations. In many applications such as healthcare monitoring or intrusion detection, early classification is crucial to prompt intervention. In this work, we learn sequence classifiers that favour early classification from an evolving observation trace. While many state-of-the-art sequence classifiers are neural networks, and in particular LSTMs, our classifiers take the form of finite state automata and are learned via discrete optimization. Our automata-based classifiers are interpretable---supporting explanation, counterfactual reasoning, and human-in-the-loop modification---and have strong empirical performance. Experiments over a suite of goal recognition and behaviour classification datasets show our learned automata-based classifiers to have comparable test performance to LSTM-based classifiers, with the added advantage of being interpretable. | 翻訳日:2022-10-10 05:46:39 公開日:2020-10-06 |
# 安全意識強化学習(SARL) Safety Aware Reinforcement Learning (SARL) ( http://arxiv.org/abs/2010.02846v1 ) ライセンス: Link先を確認 | Santiago Miret, Somdeb Majumdar, Carroll Wainwright | (参考訳) 強化学習エージェントがますます複雑で現実世界の環境に統合されるにつれて、安全のための設計が重要視される。
特に,プライマリタスクのポリシの実行中にエージェントが望ましくない副作用を引き起こすようなシナリオの研究に注目する。
与えられた環境ダイナミクスのために複数のタスクを定義することができるので、2つの重要な課題がある。
まず、実行中の特定のタスクに依存しない環境に広く適用される安全の概念を抽象化する必要があります。
第2に、異なるポリシーを実行するエージェントのアクションを調整し、副作用を最小限に抑えるための安全性という抽象的な概念のメカニズムが必要です。
本研究では,仮想安全エージェントが主報酬に基づくエージェントの行動を調整し,副作用を最小限に抑える枠組みである安全意識強化学習(SARL)を提案する。
安全エージェントは、与えられた環境に対するタスク非依存の安全性の概念を学ぶ。
メインエージェントは、2つのエージェントのネイティブアクション確率間の距離によって与えられる正規化損失で訓練される。
安全エージェントは、その行動確率を介してタスク非依存の安全概念を効果的に抽象化するので、更なる訓練をすることなく、与えられた環境内で異なるタスクを解決する複数のポリシーを調整できる。
これとは対照的に,タスク固有の正規化メトリクスに依存したソリューションと,conwayのgame of lifeに基づいたsafelifeスイート上でのフレームワークのテストでは,動的環境における複雑なタスクが数多く含まれています。
私たちのソリューションは、プライマリとセーフティーの両方の目的に対してタスク固有の副作用のペナルティに依存するソリューションのパフォーマンスにマッチすると同時に、汎用性とポータビリティのメリットも提供しています。 As reinforcement learning agents become increasingly integrated into complex, real-world environments, designing for safety becomes a critical consideration. We specifically focus on researching scenarios where agents can cause undesired side effects while executing a policy on a primary task. Since one can define multiple tasks for a given environment dynamics, there are two important challenges. First, we need to abstract the concept of safety that applies broadly to that environment independent of the specific task being executed. Second, we need a mechanism for the abstracted notion of safety to modulate the actions of agents executing different policies to minimize their side-effects. In this work, we propose Safety Aware Reinforcement Learning (SARL) - a framework where a virtual safe agent modulates the actions of a main reward-based agent to minimize side effects. The safe agent learns a task-independent notion of safety for a given environment. The main agent is then trained with a regularization loss given by the distance between the native action probabilities of the two agents. Since the safe agent effectively abstracts a task-independent notion of safety via its action probabilities, it can be ported to modulate multiple policies solving different tasks within the given environment without further training. We contrast this with solutions that rely on task-specific regularization metrics and test our framework on the SafeLife Suite, based on Conway's Game of Life, comprising a number of complex tasks in dynamic environments. We show that our solution is able to match the performance of solutions that rely on task-specific side-effect penalties on both the primary and safety objectives while additionally providing the benefit of generalizability and portability. | 翻訳日:2022-10-10 05:46:25 公開日:2020-10-06 |
# CURI: 不確実性下での製品コンセプト学習のためのベンチマーク CURI: A Benchmark for Productive Concept Learning Under Uncertainty ( http://arxiv.org/abs/2010.02855v1 ) ライセンス: Link先を確認 | Ramakrishna Vedantam, Arthur Szlam, Maximilian Nickel, Ari Morcos, Brenden Lake | (参考訳) 人間は、構造化されたリレーショナル概念(同じ色を持つオブジェクトを持つシーン)や目標によって定義されたアドホックなカテゴリ(「頭の上に落ちる可能性のあるオブジェクト」)を含む、無限に多くの概念の空間において、実質的な不確実性の下で学び、推論することができる。
対照的に 標準分類ベンチマークは
1) カテゴリーラベルの固定セットのみを考慮する。
2)構成概念学習の評価を行なわない。
3)不確実性の下で推論の概念を明示的に捉えてはならない。
我々は、このギャップを埋めるために、新しい数ショットのメタラーニングベンチマーク、Composeal Reasoning Under Uncertainty (CURI)を導入しました。
CURIは、疎結合の抽象的な理解、生産的一般化、ブール演算の学習、変数バインディングなど、生産的および体系的な一般化の異なる側面を評価する。
重要なことに、各軸に沿った分布の一般化の難しさを評価するために、モデルに依存しない「構成性ギャップ」も定義している。
異なるモダリティ(イメージ、スキーマ、サウンド)、分割、特権付き補助概念情報、負の選択にまたがる様々なモデリング選択の広範囲な評価は、提案するタスクのモデリング進展のかなりのスコープを明らかにする。
すべてのコードとデータセットがオンラインで提供される。 Humans can learn and reason under substantial uncertainty in a space of infinitely many concepts, including structured relational concepts ("a scene with objects that have the same color") and ad-hoc categories defined through goals ("objects that could fall on one's head"). In contrast, standard classification benchmarks: 1) consider only a fixed set of category labels, 2) do not evaluate compositional concept learning and 3) do not explicitly capture a notion of reasoning under uncertainty. We introduce a new few-shot, meta-learning benchmark, Compositional Reasoning Under Uncertainty (CURI) to bridge this gap. CURI evaluates different aspects of productive and systematic generalization, including abstract understandings of disentangling, productive generalization, learning boolean operations, variable binding, etc. Importantly, it also defines a model-independent "compositionality gap" to evaluate the difficulty of generalizing out-of-distribution along each of these axes. Extensive evaluations across a range of modeling choices spanning different modalities (image, schemas, and sounds), splits, privileged auxiliary concept information, and choices of negatives reveal substantial scope for modeling advances on the proposed task. All code and datasets will be available online. | 翻訳日:2022-10-10 05:46:00 公開日:2020-10-06 |
# マルチタイプオブジェクト マルチビューマルチインスタンスマルチラベル学習 Multi-typed Objects Multi-view Multi-instance Multi-label Learning ( http://arxiv.org/abs/2010.02539v1 ) ライセンス: Link先を確認 | Yuanlin Yang, Guoxian Yu, Jun Wang, Carlotta Domeniconi, Xiangliang Zhang | (参考訳) マルチタイプオブジェクト Multi-view Multi-instance Multi-label Learning (M4L) は、多種多様なインスタンスで構成され、異種の特徴ビューで表現され、非排他的だがセマンティックに関連付けられたラベルのセットで注釈付けされた相互接続されたマルチタイプオブジェクト(またはバッグ)を扱う。
m4lは、通常のマルチビューマルチインスタンスマルチラベル学習(m3l:multi-view multi-instance multi-label learning)よりも一般的で強力である。
この新規で挑戦的な学習課題に対処するため、我々はM4L-JMF(Joint matrix factorization based solution)を開発した。
特に、M4L-JMFは、まず多種多様な属性と多種間(イントラ)結合を各データ行列にエンコードし、次いでこれらの行列を低ランクに分解し、各バッグとそのインスタンスの複合潜在表現を探索する。
さらに、個々のインスタンスにバッグのラベルを配布し、関連バッグにインスタンスのラベルを逆に集約するために、ディスパッチとアグリゲーションの用語が組み込まれている。
ベンチマーク実験の結果,M4L-JMFは既存のM3Lソリューションの新たな問題への適応よりもはるかに優れた結果が得られた。 Multi-typed objects Multi-view Multi-instance Multi-label Learning (M4L) deals with interconnected multi-typed objects (or bags) that are made of diverse instances, represented with heterogeneous feature views and annotated with a set of non-exclusive but semantically related labels. M4L is more general and powerful than the typical Multi-view Multi-instance Multi-label Learning (M3L), which only accommodates single-typed bags and lacks the power to jointly model the naturally interconnected multi-typed objects in the physical world. To combat with this novel and challenging learning task, we develop a joint matrix factorization based solution (M4L-JMF). Particularly, M4L-JMF firstly encodes the diverse attributes and multiple inter(intra)-associations among multi-typed bags into respective data matrices, and then jointly factorizes these matrices into low-rank ones to explore the composite latent representation of each bag and its instances (if any). In addition, it incorporates a dispatch and aggregation term to distribute the labels of bags to individual instances and reversely aggregate the labels of instances to their affiliated bags in a coherent manner. Experimental results on benchmark datasets show that M4L-JMF achieves significantly better results than simple adaptions of existing M3L solutions on this novel problem. | 翻訳日:2022-10-10 05:44:43 公開日:2020-10-06 |
# リサイクル可能なガウス過程 Recyclable Gaussian Processes ( http://arxiv.org/abs/2010.02554v1 ) ライセンス: Link先を確認 | Pablo Moreno-Mu\~noz, Antonio Art\'es-Rodr\'iguez and Mauricio A. \'Alvarez | (参考訳) ガウス過程に対する独立変分近似をリサイクルするための新しい枠組みを提案する。
主な貢献は、観測のサブセットを再訪することなく、適合したガウス過程の辞書を与える変分アンサンブルの構成である。
このフレームワークは、回帰、分類、異種タスク、すなわち同じ入力ドメイン上の連続変数と離散変数の混合を可能にする。
確率過程間のkullback-leibler発散に基づく無限次元積分作用素を用いて、任意の量の変分スパース近似を再結合し、異なる複雑性、確率モデル、擬似入力の位置を求める。
広範な結果は,大規模分散実験におけるフレームワークの有用性を示し,文献の正確な推論モデルと比較した。 We present a new framework for recycling independent variational approximations to Gaussian processes. The main contribution is the construction of variational ensembles given a dictionary of fitted Gaussian processes without revisiting any subset of observations. Our framework allows for regression, classification and heterogeneous tasks, i.e. mix of continuous and discrete variables over the same input domain. We exploit infinite-dimensional integral operators based on the Kullback-Leibler divergence between stochastic processes to re-combine arbitrary amounts of variational sparse approximations with different complexity, likelihood model and location of the pseudo-inputs. Extensive results illustrate the usability of our framework in large-scale distributed experiments, also compared with the exact inference models in the literature. | 翻訳日:2022-10-10 05:44:11 公開日:2020-10-06 |
# 機械学習における一般化境界の高確率とIn-Expectation Guaranteeについての一考察 A Note on High-Probability versus In-Expectation Guarantees of Generalization Bounds in Machine Learning ( http://arxiv.org/abs/2010.02576v1 ) ライセンス: Link先を確認 | Alexander Mey | (参考訳) 統計的機械学習理論は、しばしば機械学習モデルの一般化を保証する。
これらのモデルは、データサンプルに基づいているため、自然にゆらぎを伴います。
運が悪く、基礎となる分布を代表していないサンプルを収集すれば、信頼できる機械学習モデルを構築することは期待できない。
その後、機械学習モデルの性能に関する声明は、サンプリングプロセスを考慮に入れなければならない。
そのための2つの一般的なアプローチは、ランダムサンプリングプロセス上で、高い確率、または観測中の文を生成することである。
この短い注記では、あるステートメントを別のステートメントに変換する方法を示します。
技術的新奇性として、我々は未有界損失関数の場合に対処し、そこでは証人条件と呼ばれるかなり新しい仮定を用いる。 Statistical machine learning theory often tries to give generalization guarantees of machine learning models. Those models naturally underlie some fluctuation, as they are based on a data sample. If we were unlucky, and gathered a sample that is not representative of the underlying distribution, one cannot expect to construct a reliable machine learning model. Following that, statements made about the performance of machine learning models have to take the sampling process into account. The two common approaches for that are to generate statements that hold either in high-probability, or in-expectation, over the random sampling process. In this short note we show how one may transform one statement to another. As a technical novelty we address the case of unbounded loss function, where we use a fairly new assumption, called the witness condition. | 翻訳日:2022-10-10 05:44:02 公開日:2020-10-06 |
# erfit: 基礎となる動的方程式のデータ駆動システム同定のためのエントロピー回帰適合マットラブパッケージ ERFit: Entropic Regression Fit Matlab Package, for Data-Driven System Identification of Underlying Dynamic Equations ( http://arxiv.org/abs/2010.02411v1 ) ライセンス: Link先を確認 | Abd AlRahman AlMomani and Erik Bollt | (参考訳) データ駆動スパースシステムの識別は、科学と工学における幅広い問題の一般的なフレームワークとなる。
応用機械学習と人工知能アルゴリズムの重要性が増している問題である。
本研究では,エントロピー回帰法を用いて,スパースシステム識別のためのMATLABパッケージであるEntropic Regression Software Package (ERFit)を開発した。
コードには最小限の監督が必要で、科学や工学のさまざまな問題に容易に適応できる幅広い選択肢がある。
ERFitはhttps://github.com/almomaa/ERFit-Packageで利用可能である。 Data-driven sparse system identification becomes the general framework for a wide range of problems in science and engineering. It is a problem of growing importance in applied machine learning and artificial intelligence algorithms. In this work, we developed the Entropic Regression Software Package (ERFit), a MATLAB package for sparse system identification using the entropic regression method. The code requires minimal supervision, with a wide range of options that make it adapt easily to different problems in science and engineering. The ERFit is available at https://github.com/almomaa/ERFit-Package | 翻訳日:2022-10-10 05:37:42 公開日:2020-10-06 |
# ジェネレーティブ・ディバイサル・ネットワークを用いたマーケットプレースにおける行動可能なフィードバックの提供 Providing Actionable Feedback in Hiring Marketplaces using Generative Adversarial Networks ( http://arxiv.org/abs/2010.02419v1 ) ライセンス: Link先を確認 | Daniel Nemirovsky, Nicolas Thiebaut, Ye Xu, Abhishek Gupta | (参考訳) 機械学習予測器は、より優れた候補者とリクルーターエクスペリエンスを提供するために、雇用された世界最大の雇用プラットフォームを含む、生産環境にますます適用されている。
アクション可能なフィードバックを提供する能力は、候補者が市場で成功するチャンスを改善するために望ましい。
しかし最近まで、実用的なフィードバックの提供を目的とした手法は、リアリズムと遅延の点で制限されてきた。
本研究では,GAN(Generative Adversarial Networks)に基づく新たな手法を適用することで,これらの制限を克服し,実運用環境における候補に対してリアルタイムに実行可能なフィードバックを提供する方法について実証する。
実験結果は、GANベースのアプローチを、他の2つの最先端アプローチ(1000倍以上のレイテンシ向上を含む)と比較して、データセットに活用する大きなメリットを強調した。
また、このアプローチの潜在的な影響を、2つの実際の候補プロファイル例に詳しく説明します。 Machine learning predictors have been increasingly applied in production settings, including in one of the world's largest hiring platforms, Hired, to provide a better candidate and recruiter experience. The ability to provide actionable feedback is desirable for candidates to improve their chances of achieving success in the marketplace. Until recently, however, methods aimed at providing actionable feedback have been limited in terms of realism and latency. In this work, we demonstrate how, by applying a newly introduced method based on Generative Adversarial Networks (GANs), we are able to overcome these limitations and provide actionable feedback in real-time to candidates in production settings. Our experimental results highlight the significant benefits of utilizing a GAN-based approach on our dataset relative to two other state-of-the-art approaches (including over 1000x latency gains). We also illustrate the potential impact of this approach in detail on two real candidate profile examples. | 翻訳日:2022-10-10 05:37:23 公開日:2020-10-06 |
# データ同化を用いた新しいニューラルネットワークトレーニングフレームワーク A Novel Neural Network Training Framework with Data Assimilation ( http://arxiv.org/abs/2010.02626v1 ) ライセンス: Link先を確認 | Chong Chen, Qinghui Xing, Xin Ding, Yaru Xue, Tianfu Zhong | (参考訳) 近年、ディープラーニングの繁栄は、ニューラルネットワークに革命をもたらした。
しかし、学習アルゴリズムにおける勾配の依存性とオフライントレーニング機構により、ANNがさらなる改善を妨げている。
本研究では,勾配の計算を避けるために,データ同化に基づく勾配フリートレーニングフレームワークを提案する。
データ同化アルゴリズムでは、予測と観測の間の誤差共分散を用いてパラメータを最適化する。
フィードフォワードニューラルネットワーク(FNN)は、それぞれグラデーションリーなデータ同化アルゴリズム(Ensemble Kalman Filter(EnKF)とEnsemble Smoother with Multiple Data Assimilation(ESMDA))によって訓練される。
ESMDAは、オフライン学習とみなすことのできるすべての観測値を使ってパラメータを更新することで、FNNを事前定義されたイテレーションでトレーニングする。
EnKFは、オンライン学習とみなすパラメータを更新することで、新しい観察が可能になったときにFNNを最適化する。
Sine 関数と Mexican Hat 関数の回帰を伴う2つの合成ケースを仮定し,提案手法の有効性を検証した。
異なる手法の性能を評価する基準として、ルート平均角誤差(RMSE)と決定係数(R2)が用いられる。
その結果,提案手法は,グラデーションの適度な方法よりも優れた性能を示した。
提案されたフレームワークは、勾配に依存することなく、既存のann(畳み込みニューラルネットワーク、リカレントニューラルネットワーク)をオンライン/オフラインでトレーニングするための代替手段を提供する。 In recent years, the prosperity of deep learning has revolutionized the Artificial Neural Networks. However, the dependence of gradients and the offline training mechanism in the learning algorithms prevents the ANN for further improvement. In this study, a gradient-free training framework based on data assimilation is proposed to avoid the calculation of gradients. In data assimilation algorithms, the error covariance between the forecasts and observations is used to optimize the parameters. Feedforward Neural Networks (FNNs) are trained by gradient decent, data assimilation algorithms (Ensemble Kalman Filter (EnKF) and Ensemble Smoother with Multiple Data Assimilation (ESMDA)), respectively. ESMDA trains FNN with pre-defined iterations by updating the parameters using all the available observations which can be regard as offline learning. EnKF optimize FNN when new observation available by updating parameters which can be regard as online learning. Two synthetic cases with the regression of a Sine Function and a Mexican Hat function are assumed to validate the effectiveness of the proposed framework. The Root Mean Square Error (RMSE) and coefficient of determination (R2) are used as criteria to assess the performance of different methods. The results show that the proposed training framework performed better than the gradient decent method. The proposed framework provides alternatives for online/offline training the existing ANNs (e.g., Convolutional Neural Networks, Recurrent Neural Networks) without the dependence of gradients. | 翻訳日:2022-10-10 05:36:25 公開日:2020-10-06 |
# infomaxオプションによる多様な探索 Diverse Exploration via InfoMax Options ( http://arxiv.org/abs/2010.02756v1 ) ライセンス: Link先を確認 | Yuji Kanagawa and Tomoyuki Kaneko | (参考訳) 本稿では,強化学習における時間的抽象的行動や選択肢を自律的に発見する問題について検討する。
探索に適した多様な選択肢を学習するために,選択肢と対応する状態遷移の相互情報として定義されたインフォマックス終了目標を導入する。
我々は、オプションの終了条件によってこの目的を最大化するためのスケーラブルな最適化スキームを導出し、InfoMax Option Critic (IMOC)アルゴリズムを得る。
実証実験を通じて、IMOCは多様な選択肢を学習し、探索に利用することを示す。
さらに, IMOC は連続制御タスクに適していることを示す。 In this paper, we study the problem of autonomously discovering temporally abstracted actions, or options, for exploration in reinforcement learning. For learning diverse options suitable for exploration, we introduce the infomax termination objective defined as the mutual information between options and their corresponding state transitions. We derive a scalable optimization scheme for maximizing this objective via the termination condition of options, yielding the InfoMax Option Critic (IMOC) algorithm. Through illustrative experiments, we empirically show that IMOC learns diverse options and utilizes them for exploration. Moreover, we show that IMOC scales well to continuous control tasks. | 翻訳日:2022-10-10 05:35:53 公開日:2020-10-06 |
# 友情は私たちが必要とするすべてである - 顧客の振る舞いをモデリングするためのマルチグラフ埋め込みアプローチ Friendship is All we Need: A Multi-graph Embedding Approach for Modeling Customer Behavior ( http://arxiv.org/abs/2010.02780v1 ) ライセンス: Link先を確認 | Amir Jalilifard, Dehua Chen, Lucas Pereira Lopes, Isaac Ben-Akiva, Pedro Henrique Gon\c{c}alves Inazawa | (参考訳) 顧客行動を理解することは、特にフィンテックや電子商取引のような急速な成長分野において、業界における多くのユースケースにおいて基礎となる。
構造化データは、しばしばコストがかかり、時間がかかり、複雑な顧客の振る舞いを分析し、研究するのに不十分である。
本稿では,財務状況や利害関係に関する事前情報を持たずに,顧客の特徴をよりよく知るために,顧客を非線形に表現するためのマルチグラフ埋め込み手法を提案する。
本手法を適用すれば,友人関係ネットワークの情報のみを用いて,利用者の将来行動の予測を合理的に高精度に行うことができる。
潜在的な応用には、レコメンデーションシステムと信用リスク予測が含まれる。 Understanding customer behavior is fundamental for many use-cases in industry, especially in accelerated growth areas such as fin-tech and e-commerce. Structured data are often expensive, time-consuming and inadequate to analyze and study complex customer behaviors. In this paper, we propose a multi-graph embedding approach for creating a non-linear representation of customers in order to have a better knowledge of their characteristics without having any prior information about their financial status or their interests. By applying the current method we are able to predict users' future behavior with a reasonably high accuracy only by having the information of their friendship network. Potential applications include recommendation systems and credit risk forecasting. | 翻訳日:2022-10-10 05:35:43 公開日:2020-10-06 |
# 多言語ニューラルマシン翻訳のためのマルチタスク学習 Multi-task Learning for Multilingual Neural Machine Translation ( http://arxiv.org/abs/2010.02523v1 ) ライセンス: Link先を確認 | Yiren Wang, ChengXiang Zhai, Hany Hassan Awadalla | (参考訳) 単言語データは多言語ニューラルマシン翻訳(nmt)の改善に有用であることが示されているが、多言語nmt(mnmt)システムのための単言語データを有効にかつ効率的に活用することは、あまり検討されていない領域である。
本研究では,bitextデータ上での翻訳タスクと,モノリンガルデータ上での2つの認知タスクとを併用したマルチタスク学習(MTL)フレームワークを提案する。
WMTデータセットから10言語対のMNMTシステムについて広範な実証的研究を行った。
提案手法は,高リソース言語と低リソース言語の両方の翻訳品質を高いマージンで効果的に改善でき,個々のバイリンガルモデルよりも優れた結果が得られることを示す。
また,bitext 学習データを持たない言語対に対するゼロショット設定における提案手法の有効性を示す。
さらに,nmtタスクと言語間伝達学習nluタスクの両方に対する事前学習アプローチに対するmtlの有効性を示す。 While monolingual data has been shown to be useful in improving bilingual neural machine translation (NMT), effectively and efficiently leveraging monolingual data for Multilingual NMT (MNMT) systems is a less explored area. In this work, we propose a multi-task learning (MTL) framework that jointly trains the model with the translation task on bitext data and two denoising tasks on the monolingual data. We conduct extensive empirical studies on MNMT systems with 10 language pairs from WMT datasets. We show that the proposed approach can effectively improve the translation quality for both high-resource and low-resource languages with large margin, achieving significantly better results than the individual bilingual models. We also demonstrate the efficacy of the proposed approach in the zero-shot setup for language pairs without bitext training data. Furthermore, we show the effectiveness of MTL over pre-training approaches for both NMT and cross-lingual transfer learning NLU tasks; the proposed approach outperforms massive scale models trained on single task. | 翻訳日:2022-10-10 05:28:48 公開日:2020-10-06 |
# 教師なしグラフ学習による非ベクトル空間への単語埋め込み Embedding Words in Non-Vector Space with Unsupervised Graph Learning ( http://arxiv.org/abs/2010.02598v1 ) ライセンス: Link先を確認 | Max Ryabinin, Sergei Popov, Liudmila Prokhorenkova, Elena Voita | (参考訳) 単語をベクトル空間(word2vec, GloVe)の要素として表現するデファクト標準となっている。
この手法は便利であるが、言語には不自然である:単語は潜在階層構造を持つグラフを形成し、この構造は単語埋め込みによって明らかにされエンコードされなければならない。
graphglove: エンドツーエンドで学習される教師なしのグラフワード表現。
我々の設定では、各単語は重み付きグラフのノードであり、単語間の距離は対応するノード間の最短経路距離である。
本研究では,データ表現を微分可能な重み付きグラフとして学習し,グローブトレーニングアルゴリズムの修正に利用する手法を提案する。
グラフに基づく表現は,単語の類似性や類推タスクにおいて,ベクトルに基づく手法を実質的に上回っていることを示す。
解析の結果,学習グラフの構造は階層的であり,WordNetと類似しており,幾何学は非常に非自明であり,局所位相の異なる部分グラフを含んでいることがわかった。 It has become a de-facto standard to represent words as elements of a vector space (word2vec, GloVe). While this approach is convenient, it is unnatural for language: words form a graph with a latent hierarchical structure, and this structure has to be revealed and encoded by word embeddings. We introduce GraphGlove: unsupervised graph word representations which are learned end-to-end. In our setting, each word is a node in a weighted graph and the distance between words is the shortest path distance between the corresponding nodes. We adopt a recent method learning a representation of data in the form of a differentiable weighted graph and use it to modify the GloVe training algorithm. We show that our graph-based representations substantially outperform vector-based methods on word similarity and analogy tasks. Our analysis reveals that the structure of the learned graphs is hierarchical and similar to that of WordNet, the geometry is highly non-trivial and contains subgraphs with different local topology. | 翻訳日:2022-10-10 05:28:30 公開日:2020-10-06 |
# 事前学習したトランスフォーマーにおける言語知識の微調整と文レベル探索の相互作用について On the Interplay Between Fine-tuning and Sentence-level Probing for Linguistic Knowledge in Pre-trained Transformers ( http://arxiv.org/abs/2010.02616v1 ) ライセンス: Link先を確認 | Marius Mosbach, Anna Khokhlova, Michael A. Hedderich, Dietrich Klakow | (参考訳) 微調整事前訓練されたコンテキスト適応型埋め込みモデルは、NLPパイプラインの不可欠な部分となっている。
同時に、事前訓練されたモデルによって得られた言語知識を調査する手段として、探索が出現している。
しかし、微調整が事前訓練されたモデルの表現にどのように影響するか、それによって符号化される言語知識についてはほとんど理解されていない。
本稿ではこのギャップを埋めることに寄与する。
bert,roberta,albertの3つの事前学習モデルを調査し,微調整が表現に与える影響を文レベルで検証した。
いくつかのタスクを微調整すると、精度が大幅に変化し、事前学習されたモデルから言語知識が導入されたり取り除いたりする可能性がある。
しかし、これらの変更は様々なモデル、微調整、探索タスクで大きく異なる。
解析の結果,事前学習モデルの表現は微調整が実際に変化し,これらの変化は高層では一般的に大きいが,ごくわずかな場合のみ,微調整は事前学習モデルの強いプーリング法を用いた場合よりも精度向上に寄与することが明らかとなった。
以上の結果から,微調整の正と負の双方が探究に及ぼす影響は慎重に解釈する必要があると論じる。 Fine-tuning pre-trained contextualized embedding models has become an integral part of the NLP pipeline. At the same time, probing has emerged as a way to investigate the linguistic knowledge captured by pre-trained models. Very little is, however, understood about how fine-tuning affects the representations of pre-trained models and thereby the linguistic knowledge they encode. This paper contributes towards closing this gap. We study three different pre-trained models: BERT, RoBERTa, and ALBERT, and investigate through sentence-level probing how fine-tuning affects their representations. We find that for some probing tasks fine-tuning leads to substantial changes in accuracy, possibly suggesting that fine-tuning introduces or even removes linguistic knowledge from a pre-trained model. These changes, however, vary greatly across different models, fine-tuning and probing tasks. Our analysis reveals that while fine-tuning indeed changes the representations of a pre-trained model and these changes are typically larger for higher layers, only in very few cases, fine-tuning has a positive effect on probing accuracy that is larger than just using the pre-trained model with a strong pooling method. Based on our findings, we argue that both positive and negative effects of fine-tuning on probing require a careful interpretation. | 翻訳日:2022-10-10 05:28:15 公開日:2020-10-06 |
# 多言語モデルにおける否定的干渉について:発見とメタラーニング On Negative Interference in Multilingual Models: Findings and A Meta-Learning Treatment ( http://arxiv.org/abs/2010.03017v1 ) ライセンス: Link先を確認 | Zirui Wang, Zachary C. Lipton, Yulia Tsvetkov | (参考訳) 現代の多言語モデルは、複数の言語からの連結されたテキストに基づいて訓練され、各言語に利益(肯定的な転送)を与える。
しかし、近年の研究により、このアプローチは負の干渉として知られる高リソース言語の性能を低下させることができることが示されている。
本稿では,負の干渉に関する最初の体系的研究を行う。
従来の信念に反して、負の干渉は低リソース言語にも影響を及ぼすことを示す。
パラメータは言語共通構造を学ぶために最大に共有されるが、言語固有のパラメータは多言語モデルに存在し、負の干渉の原因となる可能性があることを実証する。
これらの観察に動機づけられたメタラーニングアルゴリズムは、言語固有の層をメタパラメータとして追加し、すべての言語における共有レイヤーの一般化を明示的に改善するようにトレーニングすることで、言語間転送性の向上と負の干渉を軽減する。
以上の結果から,従来よりも負の干渉が一般的であることが示唆され,多言語表現を改善するための新たな方向性が示唆された。 Modern multilingual models are trained on concatenated text from multiple languages in hopes of conferring benefits to each (positive transfer), with the most pronounced benefits accruing to low-resource languages. However, recent work has shown that this approach can degrade performance on high-resource languages, a phenomenon known as negative interference. In this paper, we present the first systematic study of negative interference. We show that, contrary to previous belief, negative interference also impacts low-resource languages. While parameters are maximally shared to learn language-universal structures, we demonstrate that language-specific parameters do exist in multilingual models and they are a potential cause of negative interference. Motivated by these observations, we also present a meta-learning algorithm that obtains better cross-lingual transferability and alleviates negative interference, by adding language-specific layers as meta-parameters and training them in a manner that explicitly improves shared layers' generalization on all languages. Overall, our results show that negative interference is more common than previously known, suggesting new directions for improving multilingual representations. | 翻訳日:2022-10-10 05:27:27 公開日:2020-10-06 |
# LSTMはボトムアップを構成する(そして学ぶ) LSTMs Compose (and Learn) Bottom-Up ( http://arxiv.org/abs/2010.04650v1 ) ライセンス: Link先を確認 | Naomi Saphra and Adam Lopez | (参考訳) NLPにおける最近の研究は、LSTM言語モデルが言語データの階層構造を捉えていることを示している。
既存の作業とは対照的に、構成行動につながる \textit{learning} プロセスを考える。
LSTMの逐次表現が階層的にどのように構成されるかについて、我々はLSTMにおける単語の意味間の分解相互依存性(DI)の関連尺度を、そのゲート相互作用に基づいて提示する。
この尺度と構文を英語データを用いた実験と結びつけ,構文距離の低い単語のペアでdiが高い値を示す。
これらの構成表現を訓練中に生じさせる帰納的バイアスを調べるために,合成データに関する簡単な実験を行う。
これらの合成実験は、学習過程を通じて階層構造がどのように発見されるかについての特定の仮説を支持している:LSTM構成表現は、子供から独立した長距離関係を学ぶのではなく、より短い子どもの効果的な表現に頼っている。 Recent work in NLP shows that LSTM language models capture hierarchical structure in language data. In contrast to existing work, we consider the \textit{learning} process that leads to their compositional behavior. For a closer look at how an LSTM's sequential representations are composed hierarchically, we present a related measure of Decompositional Interdependence (DI) between word meanings in an LSTM, based on their gate interactions. We connect this measure to syntax with experiments on English language data, where DI is higher on pairs of words with lower syntactic distance. To explore the inductive biases that cause these compositional representations to arise during training, we conduct simple experiments on synthetic data. These synthetic experiments support a specific hypothesis about how hierarchical structures are discovered over the course of training: that LSTM constituent representations are learned bottom-up, relying on effective representations of their shorter children, rather than learning the longer-range relations independently from children. | 翻訳日:2022-10-10 05:27:08 公開日:2020-10-06 |
# リモートセンシング画像の意味セグメンテーションのためのデータ駆動型ディープラーニングと知識誘導オントロジ推論の協調的促進 Collaboratively boosting data-driven deep learning and knowledge-guided ontological reasoning for semantic segmentation of remote sensing imagery ( http://arxiv.org/abs/2010.02451v1 ) ライセンス: Link先を確認 | Yansheng Li, Song Ouyang, and Yongjun Zhang | (参考訳) deep semantic segmentation network(dssn)は、ディープラーニングファミリのアーキテクチャのひとつとして、セマンティックセグメンテーションタスクである程度の成功を達成し、手作りの機能に基づいた従来の方法よりも明らかに優れています。
古典的なデータ駆動技術として、DSSNはエンドツーエンドのメカニズムで訓練でき、画像を理解するために低レベルおよび中レベルのキュー(すなわち識別画像構造)を使用する能力があるが、高レベルの推論能力に欠ける。
対照的に、人間は優れた推論能力を持ち、人間が基本的なrsドメイン知識を習得する場合のみ、rsイメージを確実に解釈することができる。
文献において、オントロジ・モデリングと推論は人間のドメイン知識を模倣し利用するための理想的な方法であるが、rsドメインで研究や採用されることは稀である。
本稿では,前述のdssnの限界を解消するために,データ駆動型ディープラーニングモジュールと知識誘導型オントロジ推論モジュールを反復的に組み合わせるための協調強化フレームワーク(cbf)を提案する。 As one kind of architecture from the deep learning family, deep semantic segmentation network (DSSN) achieves a certain degree of success on the semantic segmentation task and obviously outperforms the traditional methods based on hand-crafted features. As a classic data-driven technique, DSSN can be trained by an end-to-end mechanism and competent for employing the low-level and mid-level cues (i.e., the discriminative image structure) to understand images, but lacks the high-level inference ability. By contrast, human beings have an excellent inference capacity and can be able to reliably interpret the RS imagery only when human beings master the basic RS domain knowledge. In literature, ontological modeling and reasoning is an ideal way to imitate and employ the domain knowledge of human beings, but is still rarely explored and adopted in the RS domain. To remedy the aforementioned critical limitation of DSSN, this paper proposes a collaboratively boosting framework (CBF) to combine data-driven deep learning module and knowledge-guided ontological reasoning module in an iterative way. | 翻訳日:2022-10-10 05:26:30 公開日:2020-10-06 |
# RoFT: 機械生成テキストの人的検出評価ツール RoFT: A Tool for Evaluating Human Detection of Machine-Generated Text ( http://arxiv.org/abs/2010.03070v1 ) ライセンス: Link先を確認 | Liam Dugan, Daphne Ippolito, Arun Kirubarajan and Chris Callison-Burch | (参考訳) 近年、自然言語生成のための大規模ニューラルネットワーク(NLG)は、流用テキストを生成する能力の飛躍と限界を生み出している。
しかしながら,NLGシステム間の品質差を評価し,人間が生成したテキストをどのように知覚するかを理解するタスクは,依然として重要かつ困難なままである。
本システムデモでは,ユーザに対して,様々な領域における機械生成テキストの検出を試みることにより,これらの課題を解決するwebサイトであるreal or fake text (roft)を提案する。
本稿では,人間が書き始めた文章が機械生成に移行する境界を検出することに基づく新しい評価タスクを提案する。
マシン生成ニュースの検出に roft を用いた場合の予備結果を示す。 In recent years, large neural networks for natural language generation (NLG) have made leaps and bounds in their ability to generate fluent text. However, the tasks of evaluating quality differences between NLG systems and understanding how humans perceive the generated text remain both crucial and difficult. In this system demonstration, we present Real or Fake Text (RoFT), a website that tackles both of these challenges by inviting users to try their hand at detecting machine-generated text in a variety of domains. We introduce a novel evaluation task based on detecting the boundary at which a text passage that starts off human-written transitions to being machine-generated. We show preliminary results of using RoFT to evaluate detection of machine-generated news articles. | 翻訳日:2022-10-10 05:26:08 公開日:2020-10-06 |
# 変圧器デコーダのサブレイヤ機能について On the Sub-Layer Functionalities of Transformer Decoder ( http://arxiv.org/abs/2010.02648v1 ) ライセンス: Link先を確認 | Yilin Yang, Longyue Wang, Shuming Shi, Prasad Tadepalli, Stefan Lee and Zhaopeng Tu | (参考訳) トランスフォーマーをベースとしたニューラルマシン翻訳(NMT)のためのエンコーダ-デコーダアーキテクチャの解釈には大きな取り組みがあったが、デコーダはその重要な役割にもかかわらず、ほとんど検討されていない。
翻訳中、デコーダは、エンコーダからのソース言語テキストと、以前のステップで生成されたターゲット言語プレフィックスの両方を考慮し、出力トークンを予測する必要がある。
本研究では,トランスフォーマーをベースとしたデコーダが,ソースおよびターゲット言語からの情報をどのように活用するかを検討する。
3つの主要な翻訳データセット(WMT En-De, En-Fr, En-Zh)について広範な実験を行った。
我々の分析は、デコーダが異なるソースをいつ、どこで利用するかについての洞察を提供する。
これらの知見に基づき、各トランスフォーワードデコーダ層における残差フィードフォワードモジュールは、性能の低下を最小限に抑えることで、計算量とパラメータ数を大幅に削減することができ、その結果、トレーニングと推論の速度が大幅に向上することを示す。 There have been significant efforts to interpret the encoder of Transformer-based encoder-decoder architectures for neural machine translation (NMT); meanwhile, the decoder remains largely unexamined despite its critical role. During translation, the decoder must predict output tokens by considering both the source-language text from the encoder and the target-language prefix produced in previous steps. In this work, we study how Transformer-based decoders leverage information from the source and target languages -- developing a universal probe task to assess how information is propagated through each module of each decoder layer. We perform extensive experiments on three major translation datasets (WMT En-De, En-Fr, and En-Zh). Our analysis provides insight on when and where decoders leverage different sources. Based on these insights, we demonstrate that the residual feed-forward module in each Transformer decoder layer can be dropped with minimal loss of performance -- a significant reduction in computation and number of parameters, and consequently a significant boost to both training and inference speed. | 翻訳日:2022-10-10 05:19:54 公開日:2020-10-06 |
# 拡張テストスイートを用いたテキストからSQLへの意味評価 Semantic Evaluation for Text-to-SQL with Distilled Test Suites ( http://arxiv.org/abs/2010.02840v1 ) ライセンス: Link先を確認 | Ruiqi Zhong, Tao Yu, Dan Klein | (参考訳) 本稿では,テキスト対sqlモデルの意味的精度を近似するテストスイート精度を提案する。
本手法は,多数のランダムに生成したデータベースから,ゴールドクエリに対して高いコードカバレッジを実現する小さなテストスイートを蒸留する。
評価時に、蒸留試験スイート上で予測されたクエリの表記精度を算出し、それによって、セマンティック精度を効率的に算出する。
提案手法を用いて,スパイダーリーダボードに提出した21モデルを評価し,100例について常に正しいことを手作業で検証した。
対照的に、現在のスパイダー測度は平均で2.5%の偽陰性率、最悪の場合は8.1%となり、テストスイートの精度が必要であることを示している。
私たちの実装は、11のText-to-SQLデータセット用の蒸留テストスイートとともに、公開されています。 We propose test suite accuracy to approximate semantic accuracy for Text-to-SQL models. Our method distills a small test suite of databases that achieves high code coverage for the gold query from a large number of randomly generated databases. At evaluation time, it computes the denotation accuracy of the predicted queries on the distilled test suite, hence calculating a tight upper-bound for semantic accuracy efficiently. We use our proposed method to evaluate 21 models submitted to the Spider leader board and manually verify that our method is always correct on 100 examples. In contrast, the current Spider metric leads to a 2.5% false negative rate on average and 8.1% in the worst case, indicating that test suite accuracy is needed. Our implementation, along with distilled test suites for eleven Text-to-SQL datasets, is publicly available. | 翻訳日:2022-10-10 05:19:33 公開日:2020-10-06 |
# アスペクトカテゴリー感情分析のためのカテゴリ名埋め込み型多タスクインクリメンタル学習フレームワーク A Multi-Task Incremental Learning Framework with Category Name Embedding for Aspect-Category Sentiment Analysis ( http://arxiv.org/abs/2010.02784v1 ) ライセンス: Link先を確認 | Zehui Dai, Cheng Peng, Huajie Chen, and Yadong Ding | (参考訳) (T)アスペクトカテゴリー感情分析(ACSA)や対象アスペクトカテゴリ感情分析(TACSA)を含むACSAタスクは、予め定義されたカテゴリ上での感情極性を特定することを目的としている。
新しいカテゴリの増分学習は(T)ACSAの実応用に必要である。
現在のマルチタスク学習モデルは(T)ACSAタスクでは優れた性能を発揮するが、(T)ACSAインクリメンタル学習タスクでは破滅的な忘れの問題に悩まされる。
本稿では,段階的な学習が可能なマルチタスク学習を実現するために,カテゴリ名埋め込みネットワーク(CNE-net)を提案する。
我々は,全カテゴリで共有するエンコーダとデコーダをそれぞれ設定し,破滅的な忘れる問題を軽減した。
原文入力文の他に、タスク識別のために別の入力特徴、すなわちカテゴリ名を適用した。
我々のモデルは2つの(T)ACSAベンチマークデータセット上で最先端を達成した。
さらに,(t)acsaインクリメンタル学習のためのデータセットを提案し,他の強力なベースラインと比較して最高のパフォーマンスを達成した。 (T)ACSA tasks, including aspect-category sentiment analysis (ACSA) and targeted aspect-category sentiment analysis (TACSA), aims at identifying sentiment polarity on predefined categories. Incremental learning on new categories is necessary for (T)ACSA real applications. Though current multi-task learning models achieve good performance in (T)ACSA tasks, they suffer from catastrophic forgetting problems in (T)ACSA incremental learning tasks. In this paper, to make multi-task learning feasible for incremental learning, we proposed Category Name Embedding network (CNE-net). We set both encoder and decoder shared among all categories to weaken the catastrophic forgetting problem. Besides the origin input sentence, we applied another input feature, i.e., category name, for task discrimination. Our model achieved state-of-the-art on two (T)ACSA benchmark datasets. Furthermore, we proposed a dataset for (T)ACSA incremental learning and achieved the best performance compared with other strong baselines. | 翻訳日:2022-10-10 05:19:04 公開日:2020-10-06 |
# 胸部X線異常所見の報告のための視覚的セマンティックな埋め込み学習 Learning Visual-Semantic Embeddings for Reporting Abnormal Findings on Chest X-rays ( http://arxiv.org/abs/2010.02467v1 ) ライセンス: Link先を確認 | Jianmo Ni, Chun-Nan Hsu, Amilcare Gentili, Julian McAuley | (参考訳) 医療画像の自動レポート生成は、放射線技師の作業負荷を軽減する可能性から注目されている。
レポート生成に関する既存の作業は、しばしば完全なレポートを生成するためにエンコーダデコーダネットワークを訓練する。
しかし、そのようなモデルはデータバイアス(例えば〜ラベルの不均衡)の影響を受け、テキスト生成モデル(例えば〜繰り返し)に固有の共通の問題に直面している。
本研究は, 放射線画像の異常所見の報告に焦点をあて, 完全放射線画像のトレーニングではなく, レポートから異常所見を同定し, 教師なしクラスタリングと最小限のルールで分類する手法を提案する。
本稿では,この課題をクロスモーダル検索として定式化し,ジョイント埋め込み空間における画像の整列と微細な異常発見のための条件付き視覚意味埋め込みを提案する。
本手法は, 異常所見を検索し, 臨床精度とテキスト生成指標の両方で既存の生成モデルより優れていることを示す。 Automatic medical image report generation has drawn growing attention due to its potential to alleviate radiologists' workload. Existing work on report generation often trains encoder-decoder networks to generate complete reports. However, such models are affected by data bias (e.g.~label imbalance) and face common issues inherent in text generation models (e.g.~repetition). In this work, we focus on reporting abnormal findings on radiology images; instead of training on complete radiology reports, we propose a method to identify abnormal findings from the reports in addition to grouping them with unsupervised clustering and minimal rules. We formulate the task as cross-modal retrieval and propose Conditional Visual-Semantic Embeddings to align images and fine-grained abnormal findings in a joint embedding space. We demonstrate that our method is able to retrieve abnormal findings and outperforms existing generation models on both clinical correctness and text generation metrics. | 翻訳日:2022-10-10 05:18:46 公開日:2020-10-06 |
# エビデンスを見つける: テキスト視覚質問応答における位置認識型回答予測 Finding the Evidence: Localization-aware Answer Prediction for Text Visual Question Answering ( http://arxiv.org/abs/2010.02582v1 ) ライセンス: Link先を確認 | Wei Han and Hantao Huang and Tao Han | (参考訳) 画像テキストはシーンを理解し、推論を行うために必要な情報を持っている。
テキストベースの視覚的質問応答(text VQA)タスクは、画像中のテキストを読む必要がある視覚的質問に焦点を当てる。
既存のテキストVQAシステムは、光学文字認識(OCR)テキストまたは固定語彙から選択して回答を生成する。
テキストの位置情報は未使用であり、生成された回答の証拠が不足している。
そこで本稿では,この課題に対処するために,ローカライズ対応回答予測ネットワーク(LaAP-Net)を提案する。
我々のLaAP-Netは、質問に対する回答を生成するだけでなく、生成された回答の証拠としてバウンディングボックスを予測する。
さらに,マルチモーダル核融合のためのコンテキスト拡張型OCR表現(COR)を提案し,局所化作業を容易にする。
提案するLaAP-Netは、テキストVQAタスクの3つのベンチマークデータセットに対する既存のアプローチよりも顕著なマージンで優れている。 Image text carries essential information to understand the scene and perform reasoning. Text-based visual question answering (text VQA) task focuses on visual questions that require reading text in images. Existing text VQA systems generate an answer by selecting from optical character recognition (OCR) texts or a fixed vocabulary. Positional information of text is underused and there is a lack of evidence for the generated answer. As such, this paper proposes a localization-aware answer prediction network (LaAP-Net) to address this challenge. Our LaAP-Net not only generates the answer to the question but also predicts a bounding box as evidence of the generated answer. Moreover, a context-enriched OCR representation (COR) for multimodal fusion is proposed to facilitate the localization task. Our proposed LaAP-Net outperforms existing approaches on three benchmark datasets for the text VQA task by a noticeable margin. | 翻訳日:2022-10-10 05:18:30 公開日:2020-10-06 |
# メモリ制限によるメタ長学習の効率化 Efficient Meta Lifelong-Learning with Limited Memory ( http://arxiv.org/abs/2010.02500v1 ) ライセンス: Link先を確認 | Zirui Wang, Sanket Vaibhav Mehta, Barnab\'as P\'oczos and Jaime Carbonell | (参考訳) 現在の自然言語処理モデルは、1つのタスクでうまく機能するが、生涯にわたって再訓練されていることを忘れずに、新しいタスクを継続的に学習するのに失敗することが多い。
最先端の言語学習手法は、過去の例をエピソディックメモリに保存し、トレーニングと推論の両方の時間に再生する。
しかし,実験の後半で示されたように,(1)非現実的に大きなメモリモジュールを必要とすること,(2)負の転送に苦しむこと,(3)推論速度を著しく遅くする各テスト例に対して複数の局所的な適応ステップを必要とすること,の3つの大きな障害がある。
本稿では,生涯学習手法の3つの共通原則を特定し,それらを相乗的手法で組み合わせた効率的なメタライフロングフレームワークを提案する。
サンプル効率を達成するために,本手法は局所適応のためのより良い初期化を学ぶようにモデルを訓練する。
テキスト分類と質問応答ベンチマークに関する広範な実験は、1%のメモリサイズで最先端のパフォーマンスを実現し、マルチタスク学習でギャップを狭めることで、このフレームワークの有効性を示しています。
さらに,本手法は破滅的忘れと負の移動を同時に緩和することを示した。 Current natural language processing models work well on a single task, yet they often fail to continuously learn new tasks without forgetting previous ones as they are re-trained throughout their lifetime, a challenge known as lifelong learning. State-of-the-art lifelong language learning methods store past examples in episodic memory and replay them at both training and inference time. However, as we show later in our experiments, there are three significant impediments: (1) needing unrealistically large memory module to achieve good performance, (2) suffering from negative transfer, (3) requiring multiple local adaptation steps for each test example that significantly slows down the inference speed. In this paper, we identify three common principles of lifelong learning methods and propose an efficient meta-lifelong framework that combines them in a synergistic fashion. To achieve sample efficiency, our method trains the model in a manner that it learns a better initialization for local adaptation. Extensive experiments on text classification and question answering benchmarks demonstrate the effectiveness of our framework by achieving state-of-the-art performance using merely 1% memory size and narrowing the gap with multi-task learning. We further show that our method alleviates both catastrophic forgetting and negative transfer at the same time. | 翻訳日:2022-10-10 05:17:31 公開日:2020-10-06 |
# 大規模連続学習における記憶再生の有効性 The Effectiveness of Memory Replay in Large Scale Continual Learning ( http://arxiv.org/abs/2010.02418v1 ) ライセンス: Link先を確認 | Yogesh Balaji, Mehrdad Farajtabar, Dong Yin, Alex Mott, Ang Li | (参考訳) 本研究では,入力列内のタスクが分類に制限されず,出力が高次元であるような大規模環境での連続学習について検討する。
最先端の複数のメソッドの中で、バニラ・エクスペリエンス・リプレイ(er)はシンプルさにもかかわらず、パフォーマンスとスケーラビリティの両面で依然として非常に競争力があることがわかった。
しかし、小メモリのERでは劣化した性能が観察される。
特徴空間のさらなる可視化により、中間表現が分布的ドリフトを受けることが分かる。
既存の手法は通常入出力ペアのみを再生するが、その正規化効果は複雑な深層モデルやリプレイバッファサイズの少ない多様なタスクでは不十分であると仮定する。
この観察の後、入力出力ペアに加えて中間層の活性化を再生することを提案する。
生のアクティベーションマップの保存がメモリと計算コストを劇的に向上させることを考えると,レイヤアクティベーションの圧縮表現をリプレイバッファに保存するCompressed Activation Replay技術を提案する。
本手法は,リプレイ法に不要なメモリオーバヘッドを付加しながら,より優れた正規化効果を実現できることを示す。
タスクセットの多様さと標準共通データセット(Split-CIFARとSplit-miniImageNet)による大規模タスクノミーベンチマークの実験は、提案手法の有効性を実証している。 We study continual learning in the large scale setting where tasks in the input sequence are not limited to classification, and the outputs can be of high dimension. Among multiple state-of-the-art methods, we found vanilla experience replay (ER) still very competitive in terms of both performance and scalability, despite its simplicity. However, a degraded performance is observed for ER with small memory. A further visualization of the feature space reveals that the intermediate representation undergoes a distributional drift. While existing methods usually replay only the input-output pairs, we hypothesize that their regularization effect is inadequate for complex deep models and diverse tasks with small replay buffer size. Following this observation, we propose to replay the activation of the intermediate layers in addition to the input-output pairs. Considering that saving raw activation maps can dramatically increase memory and compute cost, we propose the Compressed Activation Replay technique, where compressed representations of layer activation are saved to the replay buffer. We show that this approach can achieve superior regularization effect while adding negligible memory overhead to replay method. Experiments on both the large-scale Taskonomy benchmark with a diverse set of tasks and standard common datasets (Split-CIFAR and Split-miniImageNet) demonstrate the effectiveness of the proposed method. | 翻訳日:2022-10-10 05:11:18 公開日:2020-10-06 |
# 逆環境における短距離話者検証のための統合ディープラーニングフレームワーク A Unified Deep Learning Framework for Short-Duration Speaker Verification in Adverse Environments ( http://arxiv.org/abs/2010.02477v1 ) ライセンス: Link先を確認 | Youngmoon Jung, Yeunju Choi, Hyungjun Lim, Hoirin Kim | (参考訳) 近年,仮想アシスタントの普及に伴い,話者検証 (SV) が注目されている。
同時に、SVシステムは、特に雑音や残響環境において、短い音声セグメントに対して堅牢でなければならないという要求が高まっている。
本稿では,音声活動検出(VAD)が適用されない長い非音声セグメントを含む音声ストリームに対して,システムは堅牢であるべきである。
これら2つの要件を満たすために,機能ピラミッドモジュール (FPM) ベースのマルチスケールアグリゲーション (MSA) と自己適応型ソフトVAD (SAS-VAD) を導入する。
雑音および残響環境における短い音声セグメントを扱うためのFPMベースのMSAを提案する。
また、SAS-VADを用いて、長い非音声セグメントへのロバスト性を高める。
音響歪み(ノイズや残響)に対する頑健性をさらに向上するため,マスキングに基づく音声強調法(SE)を適用した。
SV、VAD、SEモデルを統合されたディープラーニングフレームワークで組み合わせ、エンドツーエンドでネットワーク全体を共同でトレーニングします。
私たちの知る限りでは、この3つのモデルをディープラーニングフレームワークに組み込むことは初めてです。
韓国屋内(kid)とvoxcelebデータセットについて,ノイズや残響によって破損する実験を行った。
その結果,提案手法は課題条件下ではsvに有効であり,ベースラインi-vectorや深い話者埋め込みシステムよりも優れた性能を示す。 Speaker verification (SV) has recently attracted considerable research interest due to the growing popularity of virtual assistants. At the same time, there is an increasing requirement for an SV system: it should be robust to short speech segments, especially in noisy and reverberant environments. In this paper, we consider one more important requirement for practical applications: the system should be robust to an audio stream containing long non-speech segments, where a voice activity detection (VAD) is not applied. To meet these two requirements, we introduce feature pyramid module (FPM)-based multi-scale aggregation (MSA) and self-adaptive soft VAD (SAS-VAD). We present the FPM-based MSA to deal with short speech segments in noisy and reverberant environments. Also, we use the SAS-VAD to increase the robustness to long non-speech segments. To further improve the robustness to acoustic distortions (i.e., noise and reverberation), we apply a masking-based speech enhancement (SE) method. We combine SV, VAD, and SE models in a unified deep learning framework and jointly train the entire network in an end-to-end manner. To the best of our knowledge, this is the first work combining these three models in a deep learning framework. We conduct experiments on Korean indoor (KID) and VoxCeleb datasets, which are corrupted by noise and reverberation. The results show that the proposed method is effective for SV in the challenging conditions and performs better than the baseline i-vector and deep speaker embedding systems. | 翻訳日:2022-10-10 05:10:09 公開日:2020-10-06 |
# 質問に対する効率的なワンパス・エンド・エンド・エンティティリンク Efficient One-Pass End-to-End Entity Linking for Questions ( http://arxiv.org/abs/2010.02413v1 ) ライセンス: Link先を確認 | Belinda Z. Li, Sewon Min, Srinivasan Iyer, Yashar Mehdad and Wen-tau Yih | (参考訳) 本稿では,ビエンコーダを用いて1回のパスで参照検出とリンクを行う,高速なエンドツーエンドエンティティリンクモデルELQを提案する。
WebQSP と GraphQuestions で、質問毎に複数のエンティティをカバーする拡張アノテーションで評価され、ELQ は、それぞれ+12.7% と +19.6% F1 の大きなマージンで、過去の最先端よりも優れている。
非常に高速な推論時間(1つのCPUで1.57の例/s)で、ELQは下流の質問応答システムに役立つ。
概念実証実験において、ELQを用いることで、GraphRetriever(arXiv:1911.03868)の下流QA性能が大幅に向上することを示した。
コードとデータはhttps://github.com/facebookresearch/blink/tree/master/elqで利用可能 We present ELQ, a fast end-to-end entity linking model for questions, which uses a biencoder to jointly perform mention detection and linking in one pass. Evaluated on WebQSP and GraphQuestions with extended annotations that cover multiple entities per question, ELQ outperforms the previous state of the art by a large margin of +12.7% and +19.6% F1, respectively. With a very fast inference time (1.57 examples/s on a single CPU), ELQ can be useful for downstream question answering systems. In a proof-of-concept experiment, we demonstrate that using ELQ significantly improves the downstream QA performance of GraphRetriever (arXiv:1911.03868). Code and data available at https://github.com/facebookresearch/BLINK/tree/master/elq | 翻訳日:2022-10-10 05:09:35 公開日:2020-10-06 |
# 知識グラフ推論のための共同意味論とデータ駆動経路表現 Joint Semantics and Data-Driven Path Representation for Knowledge Graph Inference ( http://arxiv.org/abs/2010.02602v1 ) ライセンス: Link先を確認 | Guanglin Niu, Bo Li, Yongfei Zhang, Yongpan Sheng, Chuan Shi, Jingyang Li, Shiliang Pu | (参考訳) 大規模知識グラフ(KG)の推論は、質問応答のようなKGアプリケーションにとって非常に重要である。
パスベースの推論モデルは、kg内の純粋な三重項以外のパス上で多くの情報を活用することができるが、これはいくつかの課題に直面している。
さらに、いくつかのメソッドは、関係パスのみを考慮するか、関係パスに含まれるエンティティと関係の間の不均一性を無視する。
そこで本研究では,kg埋め込みの枠組みにおける説明可能性と一般化のバランスをとる,新たな統合意味論とデータ駆動経路表現を提案する。
より具体的には、透明かつ説明可能な経路合成法により、凝縮経路を得るために角規則を注入する。
エンティティコンバータは、経路に沿ったエンティティを、エンティティとリレーションの間の不均一性を減少させる関係に似た意味レベルでの表現に変換するように設計されている。
提案手法はリンク予測と経路問合せ応答という2つのタスクのクラスで評価される。
実験結果から, 各種技術ベースラインに対して, 顕著な性能向上が得られた。 Inference on a large-scale knowledge graph (KG) is of great importance for KG applications like question answering. The path-based reasoning models can leverage much information over paths other than pure triples in the KG, which face several challenges: all the existing path-based methods are data-driven, lacking explainability for path representation. Besides, some methods either consider only relational paths or ignore the heterogeneity between entities and relations both contained in paths, which cannot capture the rich semantics of paths well. To address the above challenges, in this work, we propose a novel joint semantics and data-driven path representation that balances explainability and generalization in the framework of KG embedding. More specifically, we inject horn rules to obtain the condensed paths by the transparent and explainable path composition procedure. The entity converter is designed to transform the entities along paths into the representations in the semantic level similar to relations for reducing the heterogeneity between entities and relations, in which the KGs both with and without type information are considered. Our proposed model is evaluated on two classes of tasks: link prediction and path query answering task. The experimental results show that it has a significant performance gain over several different state-of-the-art baselines. | 翻訳日:2022-10-10 05:08:22 公開日:2020-10-06 |
# PRover:ルールの解釈可能な推論の証明 PRover: Proof Generation for Interpretable Reasoning over Rules ( http://arxiv.org/abs/2010.02830v1 ) ライセンス: Link先を確認 | Swarnadeep Saha, Sayan Ghosh, Shashank Srivastava, Mohit Bansal | (参考訳) Clark et al. (2020) による最近の研究は、トランスフォーマーが自然言語で明示された知識に関する疑問に答えることによって「ソフトな定理証明者」として振る舞うことができることを示している。
本稿では,形式的定理証明のエミュレートに一歩近づき,ルールベース上の二項問題に共同で答え,対応する証明を生成する解釈可能な変換器モデルであるProVERを提案する。
我々のモデルは,効率的な制約付き学習パラダイムを用いて,証明グラフに対応するノードやエッジを予測することを学ぶ。
推論の間、グローバル制約のセットを満たす有効な証明が生成される。
我々は、合成、手書き、および人間の準規則ベースの実験を行い、優れた一般化性能を持つ、qaおよび証明生成に有望な結果を示す。
まず、プルーバーは87%の精度で証明を生成し、qaタスクのパフォーマンスをルールテイカーと比較して保持または改善する(ゼロショット評価では最大6%改善)。
第二に、推論の深さを下げる必要がある質問を訓練すると、より高い深さ(最大15%の改善)にかなりよく一般化する。
第3に、トレーニングデータの40%しか使用せず、ほぼ完璧なQA精度が98%に達する。
しかし、推論の深みを必要とする問題に対する証明を作成することは難しくなり、精度は「深み5」の65%に低下し、将来の作業に重要なスコープが示される。
私たちのコードとモデルはhttps://github.com/swarnaHub/PRoverで公開されています。 Recent work by Clark et al. (2020) shows that transformers can act as 'soft theorem provers' by answering questions over explicitly provided knowledge in natural language. In our work, we take a step closer to emulating formal theorem provers, by proposing PROVER, an interpretable transformer-based model that jointly answers binary questions over rule-bases and generates the corresponding proofs. Our model learns to predict nodes and edges corresponding to proof graphs in an efficient constrained training paradigm. During inference, a valid proof, satisfying a set of global constraints is generated. We conduct experiments on synthetic, hand-authored, and human-paraphrased rule-bases to show promising results for QA and proof generation, with strong generalization performance. First, PROVER generates proofs with an accuracy of 87%, while retaining or improving performance on the QA task, compared to RuleTakers (up to 6% improvement on zero-shot evaluation). Second, when trained on questions requiring lower depths of reasoning, it generalizes significantly better to higher depths (up to 15% improvement). Third, PROVER obtains near perfect QA accuracy of 98% using only 40% of the training data. However, generating proofs for questions requiring higher depths of reasoning becomes challenging, and the accuracy drops to 65% for 'depth 5', indicating significant scope for future work. Our code and models are publicly available at https://github.com/swarnaHub/PRover | 翻訳日:2022-10-10 05:02:20 公開日:2020-10-06 |
# LOGAN:クラスタリングによる局所グループバイアス検出 LOGAN: Local Group Bias Detection by Clustering ( http://arxiv.org/abs/2010.02867v1 ) ライセンス: Link先を確認 | Jieyu Zhao and Kai-Wei Chang | (参考訳) 機械学習技術は自然言語処理(NLP)で広く使われている。
しかし、最近の多くの研究で明らかになったように、機械学習モデルはしばしばデータの社会バイアスを継承し、増幅する。
モデル予測におけるバイアスを定量化する様々な指標が提案されている。
特に,テストコーパスにおける保護群と有利群とのモデル性能の相違について評価した。
しかし、コーパスレベルでバイアスを評価することは、モデルにバイアスがどのように埋め込まれているかを理解するのに十分ではない。
実際、データ全体の異なるグループ間で同様の集約パフォーマンスを持つモデルは、ローカルリージョンのインスタンスで異なる振る舞いをする可能性がある。
このような局所バイアスを分析し,検出するために,クラスタリングに基づく新しいバイアス検出手法であるLOGANを提案する。
毒性分類および対象分類タスクの実験は、LOGANが局所領域のバイアスを識別し、モデル予測におけるバイアスをよりよく分析できることを示している。 Machine learning techniques have been widely used in natural language processing (NLP). However, as revealed by many recent studies, machine learning models often inherit and amplify the societal biases in data. Various metrics have been proposed to quantify biases in model predictions. In particular, several of them evaluate disparity in model performance between protected groups and advantaged groups in the test corpus. However, we argue that evaluating bias at the corpus level is not enough for understanding how biases are embedded in a model. In fact, a model with similar aggregated performance between different groups on the entire data may behave differently on instances in a local region. To analyze and detect such local bias, we propose LOGAN, a new bias detection technique based on clustering. Experiments on toxicity classification and object classification tasks show that LOGAN identifies bias in a local region and allows us to better analyze the biases in model predictions. | 翻訳日:2022-10-10 05:01:39 公開日:2020-10-06 |
# 逆ロバスト性に対する有界関数による制約付きロジット Constraining Logits by Bounded Function for Adversarial Robustness ( http://arxiv.org/abs/2010.02558v1 ) ライセンス: Link先を確認 | Sekitoshi Kanai, Masanori Yamada, Shin'ya Yamaguchi, Hiroshi Takahashi, Yasutoshi Ida | (参考訳) 本論文では,softmax の直前の新しい有界関数の追加により,逆ロバスト性を改善する手法を提案する。
最近の研究では、ロジット正規化による小さなロジット(ソフトマックスの入力)がディープラーニングの敵対的堅牢性を向上させると仮定している。
この仮説に従い、普遍近似の仮定の下で最適点におけるロジットベクトルのノルムを解析し、softmax の前に有界関数を加えることでロジットを制約する新しい方法を検討する。
理論上, 経験的に, 共有活性化関数(例えば双曲接点)の追加による小ロジットは, 関数の入力ベクトル (pre-logit ベクトル) が大きなノルムを持つので, 対向ロジネスを向上しない。
理論的知見から,我々は新しい有界関数を開発した。
我々の関数の追加は、ロジットベクトルとプレロジットベクトルのノルムが小さいので、対向ロバスト性を改善する。
本手法はsoftmaxの前に1つのアクティベーション関数を追加するので,本手法と逆訓練を組み合わせることは容易である。
実験により,本手法は対向訓練を伴わない逆摂動データセットに対する精度の点で,ロジット正規化法に匹敵することを示した。
さらに、対向訓練を行う際のロジット正規化法や最近の防御法(商標)に匹敵するものである。 We propose a method for improving adversarial robustness by addition of a new bounded function just before softmax. Recent studies hypothesize that small logits (inputs of softmax) by logit regularization can improve adversarial robustness of deep learning. Following this hypothesis, we analyze norms of logit vectors at the optimal point under the assumption of universal approximation and explore new methods for constraining logits by addition of a bounded function before softmax. We theoretically and empirically reveal that small logits by addition of a common activation function, e.g., hyperbolic tangent, do not improve adversarial robustness since input vectors of the function (pre-logit vectors) can have large norms. From the theoretical findings, we develop the new bounded function. The addition of our function improves adversarial robustness because it makes logit and pre-logit vectors have small norms. Since our method only adds one activation function before softmax, it is easy to combine our method with adversarial training. Our experiments demonstrate that our method is comparable to logit regularization methods in terms of accuracies on adversarially perturbed datasets without adversarial training. Furthermore, it is superior or comparable to logit regularization methods and a recent defense method (TRADES) when using adversarial training. | 翻訳日:2022-10-10 05:00:52 公開日:2020-10-06 |
# 低次条件依存性から因果構造を復元する Recovering Causal Structures from Low-Order Conditional Independencies ( http://arxiv.org/abs/2010.02675v1 ) ライセンス: Link先を確認 | Marcel Wien\"obst and Maciej Li\'skiewicz | (参考訳) データから因果モデルを学ぶための一般的な障害の1つは、確率変数間の高次条件独立(CI)関係を推定することが難しいことである。
低次条件付きCIテストは、少数の観測でも正確に行うことができるので、カジュアル構造を決定するための合理的なアプローチは、単に低次CIをベースとすることである。
最近の研究では、例えばスパース真の因果モデルの場合、ゼロ階と1階の条件付き独立性から学んだ構造がモデルの良好な近似をもたらすことが確認されている。
しかし、ここでの課題は、与えられた低次のCIセットを忠実に説明する方法を提供することです。
本稿では,与えられた順序の条件付き不依存性の集合に対して,$k$ が小さい固定数であるような$k$ に等しい場合,与えられた集合の忠実なグラフィカル表現を計算するアルゴリズムを提案する。
本研究は,前回のペアリーズ・マージン・インデペンデンシーからの学習に関する研究を完結させ,一般化した。
さらに、ゲノムネットワークの推定に頻繁に使用される0-1グラフモデルを改善することができる。 One of the common obstacles for learning causal models from data is that high-order conditional independence (CI) relationships between random variables are difficult to estimate. Since CI tests with conditioning sets of low order can be performed accurately even for a small number of observations, a reasonable approach to determine casual structures is to base merely on the low-order CIs. Recent research has confirmed that, e.g. in the case of sparse true causal models, structures learned even from zero- and first-order conditional independencies yield good approximations of the models. However, a challenging task here is to provide methods that faithfully explain a given set of low-order CIs. In this paper, we propose an algorithm which, for a given set of conditional independencies of order less or equal to $k$, where $k$ is a small fixed number, computes a faithful graphical representation of the given set. Our results complete and generalize the previous work on learning from pairwise marginal independencies. Moreover, they enable to improve upon the 0-1 graph model which, e.g. is heavily used in the estimation of genome networks. | 翻訳日:2022-10-10 05:00:07 公開日:2020-10-06 |
# 意味グラフを用いた画像とテキストの表現学習 Learning to Represent Image and Text with Denotation Graph ( http://arxiv.org/abs/2010.02949v1 ) ライセンス: Link先を確認 | Bowen Zhang, Hexiang Hu, Vihan Jain, Eugene Ie, Fei Sha | (参考訳) 視覚と言語情報を融合して表現することを学ぶことは、多くのアプリケーションにおいて重要な研究課題である。
最近の進歩は、(言語モデリングから)事前学習とトランスフォーマーの注意層を活用し、画像を記述する言語表現に合わせた画像を含むデータセットから表現を学ぶ。
本稿では,これらのデータセットから自動的に抽出される画像とテキスト間の暗黙的,視覚的な表現から学習表現を提案する。
特に、画像を記述する文のような)特定の概念が、視覚的に接する抽象的で一般的な概念(ショートフレーズなど)とどのように結びつくかを表現するために、記述グラフを使用する。
この種の汎用関係は言語解析ツールを用いて発見することができる。
このような関係を学習表現に組み込む手法を提案する。
自動抽出した構造関係を利用して,最先端のマルチモーダル学習モデルをさらに改善できることを示す。
これらの表現は、クロスモーダル画像検索、参照表現、合成属性オブジェクト認識といった下流タスクにおいて、より強い経験結果をもたらす。
私たちのコードとFlickr30KとCOCOデータセットの抽出した記述グラフは、https://sha-lab.github.io/DG.com/で公開されています。 Learning to fuse vision and language information and representing them is an important research problem with many applications. Recent progresses have leveraged the ideas of pre-training (from language modeling) and attention layers in Transformers to learn representation from datasets containing images aligned with linguistic expressions that describe the images. In this paper, we propose learning representations from a set of implied, visually grounded expressions between image and text, automatically mined from those datasets. In particular, we use denotation graphs to represent how specific concepts (such as sentences describing images) can be linked to abstract and generic concepts (such as short phrases) that are also visually grounded. This type of generic-to-specific relations can be discovered using linguistic analysis tools. We propose methods to incorporate such relations into learning representation. We show that state-of-the-art multimodal learning models can be further improved by leveraging automatically harvested structural relations. The representations lead to stronger empirical results on downstream tasks of cross-modal image retrieval, referring expression, and compositional attribute-object recognition. Both our codes and the extracted denotation graphs on the Flickr30K and the COCO datasets are publically available on https://sha-lab.github.io/DG. | 翻訳日:2022-10-10 04:59:30 公開日:2020-10-06 |
# 条件付き正規化オートエンコーダを用いたテキストデータセットに対する毒物攻撃 Poison Attacks against Text Datasets with Conditional Adversarially Regularized Autoencoder ( http://arxiv.org/abs/2010.02684v1 ) ライセンス: Link先を確認 | Alvin Chan, Yi Tay, Yew-Soon Ong, Aston Zhang | (参考訳) 本稿では,自然言語推論(NLI)とテキスト分類システムにおいて致命的な脆弱性を示す。
より具体的には、NLPモデルに対する「バックドア中毒」攻撃を示す。
有毒化攻撃は条件付き対向正規化オートエンコーダ(cara)を用いて,潜在空間における有毒化による有毒化訓練サンプルを生成する。
1%の有毒データを追加するだけで, 被害者bertの分類器の予測は, 入力仮説に有毒署名を注入した場合, 80%以上の成功率で, 被毒ターゲットクラスに制御可能であることを示し, nliとテキスト分類システムが大きなセキュリティリスクに直面していることを実証した。 This paper demonstrates a fatal vulnerability in natural language inference (NLI) and text classification systems. More concretely, we present a 'backdoor poisoning' attack on NLP models. Our poisoning attack utilizes conditional adversarially regularized autoencoder (CARA) to generate poisoned training samples by poison injection in latent space. Just by adding 1% poisoned data, our experiments show that a victim BERT finetuned classifier's predictions can be steered to the poison target class with success rates of >80% when the input hypothesis is injected with the poison signature, demonstrating that NLI and text classification systems face a huge security risk. | 翻訳日:2022-10-10 04:53:22 公開日:2020-10-06 |
# 畳み込みニューラルネットワークアーキテクチャはいかにして対数と色調整を学んだか How Convolutional Neural Network Architecture Biases Learned Opponency and Colour Tuning ( http://arxiv.org/abs/2010.02634v1 ) ライセンス: Link先を確認 | Ethan Harris, Daniela Mihai, Jonathon Hare | (参考訳) 最近の研究は、第2層にボトルネックを導入して畳み込みニューラルネットワーク(CNN)アーキテクチャを変更することで、学習機能の変化をもたらすことを示唆している。
この関係を完全に理解するには、訓練されたネットワークを定量的に比較する方法が必要である。
電気生理学と心理物理学の分野は、このような比較を可能にする視覚システムを特徴づける多くの方法を開発した。
これらの手法に着想を得て,共進化ニューロンの空間的および色調曲線を求める手法を提案する。
異なる深さとボトルネック幅のCNNに対して,これらの分類を行う。
ボトルネック層のほとんどすべての細胞は空間的にも色的にも敵対的になり、ボトルネックに続く層内の細胞は非対極的になります。
色調データはさらに、ネットワークによってどのように色がエンコードされるかの理解を深めるために使用できる。
具体的な実演として、ボトルネックのない浅層ネットワークは複雑な非線形カラーシステムを学ぶのに対し、密なボトルネックを持つより深いネットワークはボトルネック層内で単純なチャネル対向コードを学ぶ。
さらに,色調データから低レベルな知見を補完する高レベル洞察を可能にする,訓練されたcnnのhue感度曲線を得る方法を開発した。
我々は,議論結果の堅牢性を確認するために,異なる条件下で一連のネットワークを訓練する。
最終的に、我々の手法と発見は先行技術と合わさり、訓練されたCNNを解釈する能力を強化し、アーキテクチャと学習された表現との関係について理解を深める。
すべての実験のコードはhttps://github.com/ecs-vlc/opponencyで入手できる。 Recent work suggests that changing Convolutional Neural Network (CNN) architecture by introducing a bottleneck in the second layer can yield changes in learned function. To understand this relationship fully requires a way of quantitatively comparing trained networks. The fields of electrophysiology and psychophysics have developed a wealth of methods for characterising visual systems which permit such comparisons. Inspired by these methods, we propose an approach to obtaining spatial and colour tuning curves for convolutional neurons, which can be used to classify cells in terms of their spatial and colour opponency. We perform these classifications for a range of CNNs with different depths and bottleneck widths. Our key finding is that networks with a bottleneck show a strong functional organisation: almost all cells in the bottleneck layer become both spatially and colour opponent, cells in the layer following the bottleneck become non-opponent. The colour tuning data can further be used to form a rich understanding of how colour is encoded by a network. As a concrete demonstration, we show that shallower networks without a bottleneck learn a complex non-linear colour system, whereas deeper networks with tight bottlenecks learn a simple channel opponent code in the bottleneck layer. We further develop a method of obtaining a hue sensitivity curve for a trained CNN which enables high level insights that complement the low level findings from the colour tuning data. We go on to train a series of networks under different conditions to ascertain the robustness of the discussed results. Ultimately, our methods and findings coalesce with prior art, strengthening our ability to interpret trained CNNs and furthering our understanding of the connection between architecture and learned representation. Code for all experiments is available at https://github.com/ecs-vlc/opponency. | 翻訳日:2022-10-10 04:52:53 公開日:2020-10-06 |
# 正規セグメンテーションのための低リソースチャレンジに取り組む Tackling the Low-resource Challenge for Canonical Segmentation ( http://arxiv.org/abs/2010.02804v1 ) ライセンス: Link先を確認 | Manuel Mager, \"Ozlem \c{C}etino\u{g}lu and Katharina Kann | (参考訳) 標準形態区分は、単語を標準化された形態素に分割する。
ここでは、トレーニングデータに制限がある場合のタスクに対するアプローチに関心があります。
超低リソース言語であるpopolucaとtepehuaの新しいデータセットを実験するために、ドイツ語、英語、インドネシアの低リソース言語をシミュレートした低リソース環境におけるモデルパフォーマンスを比較した。
本研究は、LSTMポインタジェネレータと、模倣学習で訓練されたハードモノトニックアテンションを持つシーケンス・ツー・シーケンスモデルという、形態素生成の密接に関連する領域から借用した2つの新しいモデルについて検討する。
低リソース環境では、新しいアプローチはすべての言語で11.4%の精度で既存のものより優れています。
しかしながら、エミュレートされた低リソースシナリオの精度は全言語で50%以上であるが、真の低リソース言語であるPopolucaとTepehuaでは、最良のモデルはそれぞれ37.4%と28.4%の精度しか得られていない。
したがって、標準セグメンテーションは低リソース言語では依然として難しい課題である。 Canonical morphological segmentation consists of dividing words into their standardized morphemes. Here, we are interested in approaches for the task when training data is limited. We compare model performance in a simulated low-resource setting for the high-resource languages German, English, and Indonesian to experiments on new datasets for the truly low-resource languages Popoluca and Tepehua. We explore two new models for the task, borrowing from the closely related area of morphological generation: an LSTM pointer-generator and a sequence-to-sequence model with hard monotonic attention trained with imitation learning. We find that, in the low-resource setting, the novel approaches outperform existing ones on all languages by up to 11.4% accuracy. However, while accuracy in emulated low-resource scenarios is over 50% for all languages, for the truly low-resource languages Popoluca and Tepehua, our best model only obtains 37.4% and 28.4% accuracy, respectively. Thus, we conclude that canonical segmentation is still a challenging task for low-resource languages. | 翻訳日:2022-10-10 04:52:28 公開日:2020-10-06 |
# 逆文法的誤り訂正 Adversarial Grammatical Error Correction ( http://arxiv.org/abs/2010.02407v1 ) ライセンス: Link先を確認 | Vipul Raheja and Dimitrios Alikaniotis | (参考訳) 文法的誤り訂正(GEC)の最近の研究は、ニューラルマシン翻訳(NMT)の進歩を活用し、文法的誤りと訂正された文の並列コーパスから書き直しを学習し、最先端の結果を得た。
同時に、gans(generative adversarial network)は、人間が生成したテキストと合成したテキストの違いを直接最小化することで、様々なタスクにまたがって現実的なテキストを生成することに成功した。
本稿では,ジェネレータ・判別子フレームワークを用いて,gecに対する逆学習手法を提案する。
ジェネレータはトランスフォーマーモデルであり、文法的に正しい文を生成するように訓練されている。
判別器は文対分類モデルであり、文法的訂正の品質に基づいて、与えられた文法的不正確な文のペアを判断するように訓練される。
並列テキスト上で判別器と生成器の両方を事前学習し,その後,文法的不正確なテキストの真正訂正である文に対して高い報酬を付与するポリシー勾配法を用いてさらに微調整する。
FCE, CoNLL-14, BEA-19データセットによる実験結果から, Adversarial-GEC は NMT ベースのベースラインに比べて競争力のある GEC 品質を達成できることが示された。 Recent works in Grammatical Error Correction (GEC) have leveraged the progress in Neural Machine Translation (NMT), to learn rewrites from parallel corpora of grammatically incorrect and corrected sentences, achieving state-of-the-art results. At the same time, Generative Adversarial Networks (GANs) have been successful in generating realistic texts across many different tasks by learning to directly minimize the difference between human-generated and synthetic text. In this work, we present an adversarial learning approach to GEC, using the generator-discriminator framework. The generator is a Transformer model, trained to produce grammatically correct sentences given grammatically incorrect ones. The discriminator is a sentence-pair classification model, trained to judge a given pair of grammatically incorrect-correct sentences on the quality of grammatical correction. We pre-train both the discriminator and the generator on parallel texts and then fine-tune them further using a policy gradient method that assigns high rewards to sentences which could be true corrections of the grammatically incorrect text. Experimental results on FCE, CoNLL-14, and BEA-19 datasets show that Adversarial-GEC can achieve competitive GEC quality compared to NMT-based baselines. | 翻訳日:2022-10-10 04:52:08 公開日:2020-10-06 |
# 意味駆動型文融合:モデリングと評価 Semantically Driven Sentence Fusion: Modeling and Evaluation ( http://arxiv.org/abs/2010.02592v1 ) ライセンス: Link先を確認 | Eyal Ben-David, Orgad Keller, Eric Malmi, Idan Szpektor, Roi Reichart | (参考訳) 文融合は関連文をコヒーレントテキストに結合する作業である。
このタスクの現在のトレーニングおよび評価スキームは、単一の参照基底構造に基づいており、有効な融合変種を考慮していない。
これは入力文間の意味的関係を頑健に捉えることを妨げている。
そこで本研究では,連結句の帰属同値類を通じて,接地正解を複数の参照に自動的に拡張する手法を提案する。
この手法を大規模データセットに適用し,モデルトレーニングと評価の両方に拡張データセットを使用する。
複数の参照を用いた意味表現の学習を改善するため,マルチタスク・フレームワークにおいて,補助的な談話分類タスクでモデルを強化した。
実験では,最先端モデルに対するアプローチの改善を強調する。 Sentence fusion is the task of joining related sentences into coherent text. Current training and evaluation schemes for this task are based on single reference ground-truths and do not account for valid fusion variants. We show that this hinders models from robustly capturing the semantic relationship between input sentences. To alleviate this, we present an approach in which ground-truth solutions are automatically expanded into multiple references via curated equivalence classes of connective phrases. We apply this method to a large-scale dataset and use the augmented dataset for both model training and evaluation. To improve the learning of semantic representation using multiple references, we enrich the model with auxiliary discourse classification tasks under a multi-tasking framework. Our experiments highlight the improvements of our approach over state-of-the-art models. | 翻訳日:2022-10-10 04:51:10 公開日:2020-10-06 |
# neural mask generator: 言語モデル適応のための適応型単語マスキング生成のための学習 Neural Mask Generator: Learning to Generate Adaptive Word Maskings for Language Model Adaptation ( http://arxiv.org/abs/2010.02705v1 ) ライセンス: Link先を確認 | Minki Kang, Moonsu Han, Sung Ju Hwang | (参考訳) 本研究では,言語モデルを特定の目標タスク(例えば質問応答)に効果的に適応させることができるような,自己教師付き事前学習のためのテキストのドメイン適応マスキングとタスク適応マスキングを自動的に生成する手法を提案する。
具体的には、生成したマスクを用いて、ターゲット言語モデルのさらなる事前学習を行うことで、目に見えないテキストのタスクパフォーマンスを向上させることができる、新しい強化学習ベースのフレームワークを提案する。
我々は,エントロピー正規化と経験リプレイを用いたオフ・ポリティカル・アクタ・クリティックを用いて強化学習を行い,与えられたテキスト中の単語の相対的重要性を考慮できるトランスフォーマティブ・ポリシー・ネットワークを提案する。
我々は,BERT と DistilBERT を言語モデルとして用い,複数の質問応答とテキスト分類データセットを用いてニューラルマスク生成(NMG)を検証する。 We propose a method to automatically generate a domain- and task-adaptive maskings of the given text for self-supervised pre-training, such that we can effectively adapt the language model to a particular target task (e.g. question answering). Specifically, we present a novel reinforcement learning-based framework which learns the masking policy, such that using the generated masks for further pre-training of the target language model helps improve task performance on unseen texts. We use off-policy actor-critic with entropy regularization and experience replay for reinforcement learning, and propose a Transformer-based policy network that can consider the relative importance of words in a given text. We validate our Neural Mask Generator (NMG) on several question answering and text classification datasets using BERT and DistilBERT as the language models, on which it outperforms rule-based masking strategies, by automatically learning optimal adaptive maskings. | 翻訳日:2022-10-10 04:50:49 公開日:2020-10-06 |