このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210910となっている論文です。

PDF登録状況(公開日: 20210910)

TitleAuthorsAbstract論文公表日・翻訳日
# 2つの都市の物語:covid-19パンデミックの間、在宅勤務するソフトウェア開発者

A Tale of Two Cities: Software Developers Working from Home During the COVID-19 Pandemic ( http://arxiv.org/abs/2008.11147v3 )

ライセンス: Link先を確認
Denae Ford and Margaret-Anne Storey and Thomas Zimmermann and Christian Bird and Sonia Jaffe and Chandra Maddila and Jenna L. Butler and Brian Houck and Nachiappan Nagappan(参考訳) 新型コロナウイルス(COVID-19)のパンデミックが世界中を揺さぶり、通常オフィスで働きながら在宅勤務する開発者を一晩で追い出した。 このシフトの大きさと、この新しい計画外の作業設定に伴う要因は、ソフトウェアエンジニアリングコミュニティが以前、リモートワークと認識していたものを超えます。 開発者とその生産性がどのように影響されたかを調べるため、私たちは2つの調査を配布しました(合計3,634の回答ですべての要求された質問に答えました)。 数学的な質的分析と統計的定量分析から、多くの異なる要因に影響された開発者体験の二分法があることが分かる(一部には利益があるが、他には課題がある)。 例えば、家族と親密な関係にあるというメリットもあったが、家族が仕事の場を共有して集中を妨げている人たちにとっては、課題だった。 私たちの調査では、(パンデミックな)リモートワークの将来がどのように進化するかについての洞察を提供するために、回答者からの強力なナラティブが生まれました。

The COVID-19 pandemic has shaken the world to its core and has provoked an overnight exodus of developers that normally worked in an office setting to working from home. The magnitude of this shift and the factors that have accompanied this new unplanned work setting go beyond what the software engineering community has previously understood to be remote work. To find out how developers and their productivity were affected, we distributed two surveys (with a combined total of 3,634 responses that answered all required questions) -- weeks apart to understand the presence and prevalence of the benefits, challenges, and opportunities to improve this special circumstance of remote work. From our thematic qualitative analysis and statistical quantitative analysis, we find that there is a dichotomy of developer experiences influenced by many different factors (that for some are a benefit, while for others a challenge). For example, a benefit for some was being close to family members but for others having family members share their working space and interrupting their focus, was a challenge. Our surveys led to powerful narratives from respondents and revealed the scale at which these experiences exist to provide insights as to how the future of (pandemic) remote work can evolve.
翻訳日:2023-05-04 23:52:48 公開日:2021-09-10
# 量子コードハミルトンの低エネルギー状態に対する回路下限

Circuit lower bounds for low-energy states of quantum code Hamiltonians ( http://arxiv.org/abs/2011.02044v5 )

ライセンス: Link先を確認
Anurag Anshu and Chinmay Nirkhe(参考訳) フリードマンとヘイスティングスのnlts(low-energy trivial states)予想(no low-energy trivial states)は、全ての低エネルギー状態の複雑性より低い超定数量子回路を持つ局所ハミルトニアンの存在を仮定し、量子pcp予想の解の根本的な障害を同定する。 本研究では,量子誤り訂正符号から生じる局所ハミルトニアンの低エネルギー状態に対する回路の低境界を証明し,エントロピー的および局所的不一致性議論に基づく新しい手法を提案する。 ほぼ線形またはほぼ線形距離のldpc安定化符号から生じる局所ハミルトニアンは、エネルギー o(n) の全ての状態の複雑性の超定数回路下界を証明できる。 そのような符号は存在することが知られており、必ずしも局所的にテスト可能であるとは限らない。 事実、そのような符号は2次元格子上に構築することもでき、物理的に関係のあるシステムであっても、低深度状態はグラウンドエネルギーを正確に近似することはできない。

The No Low-energy Trivial States (NLTS) conjecture of Freedman and Hastings, 2014 -- which posits the existence of a local Hamiltonian with a super-constant quantum circuit lower bound on the complexity of all low-energy states -- identifies a fundamental obstacle to the resolution of the quantum PCP conjecture. In this work, we provide new techniques, based on entropic and local indistinguishability arguments, that prove circuit lower bounds for all the low-energy states of local Hamiltonians arising from quantum error-correcting codes. For local Hamiltonians arising from nearly linear-rate or nearly linear-distance LDPC stabilizer codes, we prove super-constant circuit lower bounds for the complexity of all states of energy o(n). Such codes are known to exist and are not necessarily locally testable, a property previously suspected to be essential for the NLTS conjecture. Curiously, such codes can also be constructed on a two-dimensional lattice, showing that low-depth states cannot accurately approximate the ground-energy even in physically relevant systems.
翻訳日:2023-04-25 11:28:24 公開日:2021-09-10
# 実用的論理光子符号化を用いた誤り訂正エンタングルメントスワッピング

Error-correcting entanglement swapping using a practical logical photon encoding ( http://arxiv.org/abs/2101.11082v4 )

ライセンス: Link先を確認
Paul Hilaire, Edwin Barnes, Sophia E. Economou, Fr\'ed\'eric Grosshans(参考訳) 量子ネットワーク、モジュラーおよび融合に基づく量子コンピューティングを含むいくつかの新しい量子技術は、フォトニックベル状態測定を行う能力に極めて依存している。 したがって、光子損失とベル状態測定の50-%の成功確率はフォトニック量子技術に重大な制限を与える。 ここでは,フォトニックキュービットの論理エンコーディングにより,これら2つの課題を克服するプロトコルを開発した。 本手法では,数個の量子エミッタで決定論的に生成できる木グラフ状態論理エンコーディングを用い,ほぼ決定論的論理フォトニックベル状態測定を行い,記録損失許容しきい値を持つ光子損失を含む誤差にも保護する。

Several emerging quantum technologies, including quantum networks, modular and fusion-based quantum computing, rely crucially on the ability to perform photonic Bell state measurements. Therefore, photon losses and the 50\% success probablity upper bound of Bell state measurements pose a critical limitation to photonic quantum technologies. Here, we develop protocols that overcome these two key challenges through logical encoding of photonic qubits. Our approach uses a tree graph state logical encoding, which can be produced deterministically with a few quantum emitters, and achieves near-deterministic logical photonic Bell state measurements while also protecting against errors including photon losses, with a record loss-tolerance threshold.
翻訳日:2023-04-13 22:10:20 公開日:2021-09-10
# フェルミ・ハバードラダーにおける対称性検出型ハルデン相の実現

Realising the Symmetry-Protected Haldane Phase in Fermi-Hubbard Ladders ( http://arxiv.org/abs/2103.10421v2 )

ライセンス: Link先を確認
Pimonpan Sompet, Sarah Hirthe, Dominik Bourgund, Thomas Chalopin, Julian Bibo, Joannis Koepsell, Petar Bojovi\'c, Ruben Verresen, Frank Pollmann, Guillaume Salomon, Christian Gross, Timon A. Hilker, Immanuel Bloch(参考訳) 量子多体系におけるトポロジーは、物質の量子相の理解を大きく変えた。 これらの効果の解明に重要な役割を果たしたパラダイムモデルは反強磁性スピン-1 ハルデン鎖である。 基底状態は乱れた状態であり、分数スピン励起によって対称性が保護された4倍縮退したエッジ状態を持つ。 バルクでは、2点スピン相関の消失、ギャップ励起、特徴的な非局所次数パラメータによって特徴づけられる。 より最近では、ハルダン鎖は、量子情報や絡み合いに繋がる考えに基づく物質の対称性保護トポロジカル位相(SPT)のより一般的な分類スキームの具体例であることが理解された。 ここでは, フェルミ・ハバード・ラダーを用いた超冷原子量子シミュレータを用いて, このような位相的ハルダン相を実現する。 非局所相関関数と同様に, 単一部位および粒子分解測定を用いて, システムのエッジ特性とバルク特性を直接明らかにする。 システムのハバード相互作用強度を連続的に変化させることで、新しい相関子を用いたハイゼンベルクモデルの体制から遠く離れた位相(密度)変動の堅牢性を調べることができる。

Topology in quantum many-body systems has profoundly changed our understanding of quantum phases of matter. The paradigmatic model that has played an instrumental role in elucidating these effects is the antiferromagnetic spin-1 Haldane chain. Its ground state is a disordered state, with symmetry-protected fourfold-degenerate edge states due to fractional spin excitations. In the bulk, it is characterised by vanishing two-point spin correlations, gapped excitations, and a characteristic non-local order parameter. More recently it was understood that the Haldane chain forms a specific example of a more general classification scheme of symmetry protected topological (SPT) phases of matter that is based on ideas connecting to quantum information and entanglement. Here, we realise such a topological Haldane phase with Fermi-Hubbard ladders in an ultracold-atom quantum simulator. We directly reveal both edge and bulk properties of the system through the use of single-site and particle-resolved measurements as well as non-local correlation functions. Continuously changing the Hubbard interaction strength of the system allows us to investigate the robustness of the phase to charge (density) fluctuations far from the regime of the Heisenberg model employing a novel correlator.
翻訳日:2023-04-07 18:38:06 公開日:2021-09-10
# 線形偏光レーザーパルスによる強磁場電離における量子干渉とトンネル出口時間と運動量との関係

Quantum interference in strong-field ionization by a linearly polarized laser pulse, and its relevance to tunnel exit time and momentum ( http://arxiv.org/abs/2103.12699v2 )

ライセンス: Link先を確認
Szabolcs Hack, Szil\'ard Majorosi, Mih\'aly G. Benedict, S\'andor Varr\'o, Attila Czirj\'ak(参考訳) トンネル化を確実にするピーク強度を有する線形偏光単一サイクル近赤外レーザーパルスによる原子電子の解放について検討する。 瞬時ポテンシャルにおける位相空間解析とエネルギー分布から,トンネルと脱出経路間の量子干渉の重要性を明らかにした。 トンネルは空間的にも時間的にもぼやけており、平均エネルギーでのトンネルの寄与はほとんど無視できる。 量子運動量関数に基づき、強電界イオン化の古典的粒子近似のための改良初期条件の提案と正当化を行い、脱落電子の検出運動量からそれらを再構成する方法を示す。

We investigate the liberation of an atomic electron by a linearly polarized single-cycle near-infrared laser pulse having a peak intensity that ensures tunneling. Based on phase space analysis and energy distribution in the instantaneous potential, we reveal the importance of quantum interference between tunneling and over-the-barrier pathways of escape. Tunneling is blurred both in space and time, and the contribution of tunneling at the mean energy is almost negligible. We suggest and justify improved initial conditions for a classical particle approximation of strong-field ionization, based on the quantum momentum function, and we show how to reconstruct them from the detected momentum of an escaped electron.
翻訳日:2023-04-07 02:06:37 公開日:2021-09-10
# 回転型超流動He-4ナノ滴における渦アレイと表面キャピラリー波の共存

Coexistence of vortex arrays and surface capillary waves in spinning prolate superfluid He-4 nanodroplets ( http://arxiv.org/abs/2104.06712v2 )

ライセンス: Link先を確認
M. Pi, J.M. Escartin, F. Ancilotto and M. Barranco(参考訳) 密度汎関数理論では、数千のヘリウム原子からなる回転プロレートHe-4液滴における渦アレイと毛細管波の相互作用を研究した。 表面毛細管波は超流動のhe-4液滴においてユビキタスであり、液滴の大きさと角運動量によっては渦配列と共存することがある。 その結果, 小型プロレート液滴の平衡配置は渦フリーであり, 液滴の大きさが大きくなるにつれて渦ホスティングへと進化することがわかった。 この結果は最近の実験(s.m. o'connell et al., phys. rev. lett. 124, 215301 (2020))と一致しており、渦配列と毛細管波が非常に大きな滴の平衡配置に共存していることが明らかにされている。 剛体回転を行う粘性液滴とは対照的に、スピンhe-4液滴の安定相図は、無次元角運動量と角速度変数の観点からは普遍的に記述できない:代わりに、超流動ヘリウム液滴の回転特性は、彼らがホストする液滴の大きさと渦の数に明確な依存を示す。

Within Density Functional Theory, we have studied the interplay between vortex arrays and capillary waves in spinning prolate He-4 droplets made of several thousands of helium atoms. Surface capillary waves are ubiquitous in prolate superfluid He-4 droplets and, depending on the size and angular momentum of the droplet, they may coexist with vortex arrays. We have found that the equilibrium configuration of small prolate droplets is vortex-free, evolving towards vortex-hosting as the droplet size increases. This result is in agreement with a recent experiment [S.M. O'Connell et al., Phys. Rev. Lett. 124, 215301 (2020)], where it has been disclosed that vortex arrays and capillary waves coexist in the equilibrium configuration of very large drops. Contrarily to viscous droplets executing rigid body rotation, the stability phase diagram of spinning He-4 droplets cannot be universally described in terms of dimensionless angular momentum and angular velocity variables: instead, the rotational properties of superfluid helium droplets display a clear dependence on the droplet size and the number of vortices they host.
翻訳日:2023-04-03 21:11:39 公開日:2021-09-10
# MOVO: DLTベースのスマートモビリティのためのdApp

MOVO: a dApp for DLT-based Smart Mobility ( http://arxiv.org/abs/2104.13813v2 )

ライセンス: Link先を確認
Mirko Zichichi, Stefano Ferretti, Gabriele D'Angelo(参考訳) スマートモビリティに関する多くの研究は、透明性、トレーサビリティ、信頼性といった点で固有の利点があるため、これらのシステムに新たな分散ソフトウェアアーキテクチャを取り入れることに費やされている。 MOVOは、スマートモビリティのための分散アプリケーション(dApp)である。 以下を含む。 (i)車両及びスマートフォンセンサからデータを収集するモジュール (二 センサデータの保存及び検証のための分散Ledger Technologies(DLT)及び分散ファイルストレージ(DFS)との相互作用のためのコンポーネント (iii)デバイス間の"オフライン"インタラクションのためのモジュール。 dAppは、車内での使用を目的としたAndroidアプリケーションで構成されており、ユーザ/ドライバがコンテキスト的に生成されたデータ(例えば、ドライバーのストレスレベル、電気自動車のバッテリレベル)を収集し、DLT(IOTA DLTおよびEthereumスマートコントラクト)とDFS(IPFS)を使用して共有することができる。 第3のモジュールは、Wi-Fi Directを介して、2つのデバイスがDLT(暗号通貨とトークン)資産に関するデータと支払い情報を交換できる通信チャネルの実装で構成されている。 本稿では,主要なソフトウェアコンポーネントについて述べるとともに,実際の移動シナリオにおけるMOVO dAppの有効性を確認する実験的な評価を行う。

Plenty of research on smart mobility is currently devoted to the inclusion of novel decentralized software architectures to these systems, due to the inherent advantages in terms of transparency, traceability, trustworthiness. MOVO is a decentralized application (dApp) for smart mobility. It includes: (i) a module for collecting data from vehicles and smartphones sensors; (ii) a component for interacting with Distributed Ledger Technologies (DLT) and Decentralized File Storages (DFS), for storing and validating sensor data; (iii) a module for "offline" interaction between devices. The dApp consists of an Android application intended for use inside a vehicle, which helps the user/driver collect contextually generated data (e.g. a driver's stress level, an electric vehicle's battery level), which can then be shared through the use of DLT (i.e., IOTA DLT and Ethereum smart contracts) and DFS (i.e., IPFS). The third module consists of an implementation of a communication channel that, via Wi-Fi Direct, allows two devices to exchange data and payment information with respect to DLT (i.e. cryptocurrency and token) assets. In this paper, we describe the main software components and provide an experimental evaluation that confirms the viability of the MOVO dApp in real mobility scenarios.
翻訳日:2023-04-02 04:29:42 公開日:2021-09-10
# 位相推定を用いたスピンアンサンブルにおけるディック状態の準備

Preparing Dicke states in a spin ensemble using phase estimation ( http://arxiv.org/abs/2104.14310v4 )

ライセンス: Link先を確認
Yang Wang and Barbara M. Terhal(参考訳) 我々は,N$のスピン量子ビットを大域的に制御するDicke状態準備スキームを提案する。このスキームは,ユニタリ演算子の固有値を推定する標準位相推定アルゴリズムに基づいている。 このスキームは、スピンを$zz$-相互作用を介して、$\ceil*{\log_2 n} + 1$ ancilla qubit測定を用いてアンシラキュービットにまとめて結合することにより、非決定的にディッケ状態を作成する。 このようなディッケ状態の合成は、アンサンブル中のスピンが磁気センシングに使用される場合に役立つ:我々は、単一の超伝導磁束量子ビットに結合したダイヤモンド窒素空孔(nv)中心に位置する電子スピンのアンサンブルを用いて実現の可能性について議論する。 また,提案手法における雑音や制限の影響も分析した。

We present a Dicke state preparation scheme which uses global control of $N$ spin qubits: our scheme is based on the standard phase estimation algorithm, which estimates the eigenvalue of a unitary operator. The scheme prepares a Dicke state non-deterministically by collectively coupling the spins to an ancilla qubit via a $ZZ$-interaction, using $\ceil*{\log_2 N} + 1$ ancilla qubit measurements. The preparation of such Dicke states can be useful if the spins in the ensemble are used for magnetic sensing: we discuss a possible realization using an ensemble of electronic spins located at diamond Nitrogen-Vacancy (NV) centers coupled to a single superconducting flux qubit. We also analyze the effect of noise and limitations in our scheme.
翻訳日:2023-04-02 02:09:32 公開日:2021-09-10
# ビットへの結合による無限次元振動子からのクイディットの構成

Constructing Qudits from Infinite Dimensional Oscillators by Coupling to Qubits ( http://arxiv.org/abs/2105.02896v4 )

ライセンス: Link先を確認
Yuan Liu, Jasmine Sinanan-Singh, Matthew T. Kearney, Gabriel Mintzer, and Isaac L. Chuang(参考訳) 量子調和振動子のような無限次元の系は計算に潜在的に非有界なヒルベルト空間を与えるが、状態空間全体へのアクセスと操作には物理的に非現実的なエネルギーを必要とする。 そのような量子調和振動子が例えばjaynes-cummings相互作用によって量子ビットに結合されると、全ヒルベルト空間は独立にアクセス可能な定数エネルギーの部分空間に分離できるが、部分空間の数は依然として無限である。 それでも、閉4次元ヒルベルト空間は、クビットオシレータ系の最低エネルギー状態から解析的に構築することができる。 このアイデアを拡張して、標準のJaynes-Cummings Hamiltonian項の操作のみから生じる有限のユニタリ演算の下で閉じた$d$次元ヒルベルト空間を解析的に構成する方法を示す。 さらに、一階のサイドバンドパルスとキャリアパルスが量子演算の普遍的な集合を構成することを証明した。 この研究は、量子ビットとボソニックシステムの組み合わせが、量子情報処理のためのハードウェア効率の良い量子リソースとして役立つことを示唆している。

An infinite dimensional system such as a quantum harmonic oscillator offers a potentially unbounded Hilbert space for computation, but accessing and manipulating the entire state space requires a physically unrealistic amount of energy. When such a quantum harmonic oscillator is coupled to a qubit, for example via a Jaynes-Cummings interaction, it is well known that the total Hilbert space can be separated into independently accessible subspaces of constant energy, but the number of subspaces is still infinite. Nevertheless, a closed four-dimensional Hilbert space can be analytically constructed from the lowest energy states of the qubit-oscillator system. We extend this idea and show how a $d$-dimensional Hilbert space can be analytically constructed, which is closed under a finite set of unitary operations resulting solely from manipulating standard Jaynes-Cummings Hamiltonian terms. Moreover, we prove that the first-order sideband pulses and carrier pulses comprise a universal set for quantum operations on the qubit-oscillator qudit. This work suggests that the combination of a qubit and a bosonic system may serve as hardware-efficient quantum resources for quantum information processing.
翻訳日:2023-04-01 07:41:46 公開日:2021-09-10
# 個体群復元によるパウリ誤差推定

Pauli error estimation via Population Recovery ( http://arxiv.org/abs/2105.02885v2 )

ライセンス: Link先を確認
Steven T. Flammia and Ryan O'Donnell(参考訳) 量子ノイズモデルの推定に動機づけられ,パウリチャネルを学習する問題,あるいはより一般に任意のチャネルのパウリ誤差率について検討した。 Population Recovery" 問題への新たな還元法を用いることで、$n$-qubit チャネルの Pauli 誤差率を精度で$\epsilon$ in $\ell_\infty$, just $O(1/\epsilon^2) \log(n/\epsilon)$ で学習する極めて単純なアルゴリズムを与える。 これは対数係数に最適である。 提案アルゴリズムでは,無絡状態の準備と測定のみを使用し,測定後の古典的ランタイムは,測定データサイズよりもO(1/\epsilon)$因子が大きいだけである。 また、ヘラルド計測の失敗が確率 $\le 1/4$ で独立に発生するような、限られた測定ノイズモデルにも従わない。 次に、ノイズチャネルが同一性に近い場合を考えると、エラーのない結果が1-\eta$の確率で発生する。 小さな$\eta$の方法では、アルゴリズムを拡張して乗算精度1 \pm \epsilon$(つまり、加法精度$\epsilon \eta$)を、チャネルの$o\bigl(\frac{1}{\epsilon^2 \eta}\bigr) \log(n/\epsilon)$で適用できるようにします。

Motivated by estimation of quantum noise models, we study the problem of learning a Pauli channel, or more generally the Pauli error rates of an arbitrary channel. By employing a novel reduction to the "Population Recovery" problem, we give an extremely simple algorithm that learns the Pauli error rates of an $n$-qubit channel to precision $\epsilon$ in $\ell_\infty$ using just $O(1/\epsilon^2) \log(n/\epsilon)$ applications of the channel. This is optimal up to the logarithmic factors. Our algorithm uses only unentangled state preparation and measurements, and the post-measurement classical runtime is just an $O(1/\epsilon)$ factor larger than the measurement data size. It is also impervious to a limited model of measurement noise where heralded measurement failures occur independently with probability $\le 1/4$. We then consider the case where the noise channel is close to the identity, meaning that the no-error outcome occurs with probability $1-\eta$. In the regime of small $\eta$ we extend our algorithm to achieve multiplicative precision $1 \pm \epsilon$ (i.e., additive precision $\epsilon \eta$) using just $O\bigl(\frac{1}{\epsilon^2 \eta}\bigr) \log(n/\epsilon)$ applications of the channel.
翻訳日:2023-04-01 07:41:14 公開日:2021-09-10
# ホログラフィック励起状態における絡み合いくさび断面

Entanglement Wedge Cross Section in Holographic Excited States ( http://arxiv.org/abs/2105.12476v3 )

ライセンス: Link先を確認
Mohammad Sahraei, Mohammad Javad Vasli, M. Reza Mohammadi Mozaffar, Komeil Babaei Velni(参考訳) 境界励起状態に双対な漸近的なAdS測地におけるエンタングルメントウェッジ断面積(EWCS)を評価する。 2つの非結合ストリップからなる対称配置のために真空状態と他の状態との間のewcを計算する摂動解析を行い、パラメータ空間の特定の領域における解析結果を得る。 特に、バルク中の純粋に重力励起によって記述された状態は、EWCSへの先行補正は負であり、したがって境界部分領域間の相関は減少する。 また、電流およびスカラー凝縮を含む余剰物質場を追加することで、他の種類の励起も研究する。 本研究では,EWCSと双対な境界情報測度の一般的な性質,例えば浄化の絡み合い,対数否定性,反射エントロピーを明らかにする。 最後に,これらの結果がホログラム相互情報を含む他の相関指標の挙動とどのように一致しているかを考察する。

We evaluate the entanglement wedge cross section (EWCS) in asymptotically AdS geometries which are dual to boundary excited states. We carry out a perturbative analysis for calculating EWCS between the vacuum and other states for a symmetric configuration consisting of two disjoint strips and obtain analytical results in the specific regimes of the parameter space. In particular, when the states described by purely gravitational excitations in the bulk we find that the leading correction to EWCS is negative and hence the correlation between the boundary subregions decreases. We also study other types of excitations upon adding the extra matter fields including current and scalar condensate. Our study reveals some generic properties of boundary information measures dual to EWCS, e.g., entanglement of purification, logarithmic negativity and reflected entropy. Finally, we discuss how these results are consistent with the behavior of other correlation measures including the holographic mutual information.
翻訳日:2023-03-29 11:53:01 公開日:2021-09-10
# 雑音量子コンピュータ上でのオープン量子システムダイナミクスの効率的な量子シミュレーション

Efficient Quantum Simulation of Open Quantum System Dynamics on Noisy Quantum Computers ( http://arxiv.org/abs/2106.12882v3 )

ライセンス: Link先を確認
Shin Sun, Li-Chai Shih, Yuan-Chung Cheng(参考訳) 量子シミュレーションは、うるさい中間スケール量子(nisq)コンピュータで量子の優位性を示す最も有望な量子応用であるが、利用可能な量子シミュレーションアルゴリズムはエラーを起こしやすいため実現が難しい。 そこで本研究では,NISQ装置の固有ゲート誤差を利用して,アシラリー量子ビットや明示的なバス工学を使わずに,オープン量子系の動的シミュレーションを制御可能とし,不要な量子ノイズを有用な量子資源に変換する手法を提案する。 具体的には,IBM-Qクラウド上の光合成ダイマーシステムにおけるエネルギー伝達過程をシミュレートする。 設計されたデコヒーレンス誘導ゲートを用いることで、量子散逸ダイナミクスはコヒーレントからインコヒーレントにまたがって効率的にシミュレートできることを示す。 さらに,中間結合系における開量子力学の一貫性と予測シミュレーションを可能にするキャリブレーションルーチンを示す。 この研究は、nisq時代の量子優位の新しい方向性を提供する。

Quantum simulation represents the most promising quantum application to demonstrate quantum advantage on near-term noisy intermediate-scale quantum (NISQ) computers, yet available quantum simulation algorithms are prone to errors and thus difficult to be realized. Herein, we propose a novel scheme to utilize intrinsic gate errors of NISQ devices to enable controllable simulation of open quantum system dynamics without ancillary qubits or explicit bath engineering, thus turning unwanted quantum noises into useful quantum resources. Specifically, we simulate energy transfer process in a photosynthetic dimer system on IBM-Q cloud. By employing designed decoherence-inducing gates, we show that quantum dissipative dynamics can be simulated efficiently across coherent-to-incoherent regimes with results comparable to those of the numerically-exact classical method. Moreover, we demonstrate a calibration routine that enables consistent and predictive simulations of open-quantum system dynamics in the intermediate coupling regime. This work provides a new direction for quantum advantage in the NISQ era.
翻訳日:2023-03-25 16:19:52 公開日:2021-09-10
# テンソルコアを用いた量子分子動力学シミュレーション

Quantum-based Molecular Dynamics Simulations Using Tensor Cores ( http://arxiv.org/abs/2107.02737v2 )

ライセンス: Link先を確認
Joshua Finkelstein, Justin S. Smith, Susan M. Mniszewski, Kipton Barros, Christian F. A. Negre, Emanuel H. Rubensson, Anders M. N. Niklasson(参考訳) テンソルコアとテンソル処理ユニットは、人工知能アプリケーションにおけるディープニューラルネットワーク計算に特化したハードウェアアクセラレーションの新たな形態を表している。 テンソルコアは並外れた計算速度とエネルギー効率を提供するが、低精度浮動小数点演算のみを使用してテンソル収縮(行列行列乗算)のために設計された。 それにもかかわらず、量子ベースのボルン・オッペンハイマー分子動力学において、高精度な電子構造最適化と保守的な力評価を必要とする問題に対して、テンソルコアが高効率で適用可能であることを示す。 原子間力は、一般化されたディープニューラルネットワークから得られる電子構造からオンザフライで計算され、計算構造は、テンソルコアの例外的な処理パワーを自然に活用し、単一のNvidia A100 GPUのテンソルコア上で100Tflopsを超える高い性能を実現する。 低精度テンソルコア浮動小数点演算による数値的ノイズ条件により、近似的な電荷緩和と精度に制限された力評価を用いても、計算効率と長期安定性を組み合わせたラグランジアンボルン・オッペンハイマー分子動力学の枠組みを用いて安定な分子動力学軌道を生成する。 正規アンサンブルシミュレーションスキームも提示され、計算された力の付加的な数値ノイズをランゲヴィン様の力学に吸収する。

Tensor cores, along with tensor processing units, represent a new form of hardware acceleration specifically designed for deep neural network calculations in artificial intelligence applications. Tensor cores provide extraordinary computational speed and energy efficiency, but with the caveat that they were designed for tensor contractions (matrix-matrix multiplications) using only low-precision floating point operations. In spite of this, we demonstrate how tensor cores can be applied with high efficiency to the challenging and numerically sensitive problem of quantum-based Born-Oppenheimer molecular dynamics, which requires highly accurate electronic structure optimizations and conservative force evaluations. The interatomic forces are calculated on-the-fly from an electronic structure that is obtained from a generalized deep neural network, where the computational structure naturally takes advantage of the exceptional processing power of the tensor cores and allows for high performance in excess of 100 Tflops on the tensor cores of a single Nvidia A100 GPU. Stable molecular dynamics trajectories are generated using the framework of extended Lagrangian Born-Oppenheimer molecular dynamics, which combines computational efficiency with long-term stability, even when using approximate charge relaxations and force evaluations that are limited in accuracy by the numerically noisy conditions caused by the low precision tensor core floating-point operations. A canonical ensemble simulation scheme is also presented, where the additional numerical noise in the calculated forces is absorbed into a Langevin-like dynamics.
翻訳日:2023-03-23 06:30:33 公開日:2021-09-10
# 相互作用する電子のリアルタイムトンネルマップ:定常状態を超えた量子点接触における異常トンネル

Tunneling maps of interacting electrons in real time: anomalous tunneling in quantum point-contacts beyond the steady state regime ( http://arxiv.org/abs/2108.03259v2 )

ライセンス: Link先を確認
Taras Hutak, Gleb Skorobagatko(参考訳) 1次元トンネル接触による相互作用電子の強い相関輸送は、任意の時間スケールでの1次元電極のルッティンガー液体モデルにおいて、$ t> \hbar /\Lambda_{g} $ とみなす。 以前の結果、すなわち Ref で証明された自己平衡定理を用いる。 g.skorobagatko, ann.phys., 422, 168298 (2020)] 正確な分布関数 $ p(n,t) $ n $ electrons to tunnel through the contact during the fixed time interval $ t $は、ルッティンガー液体相関パラメータ値、バイアス電圧、温度の全ての利用可能な領域において、リアルタイムトンネルマップと呼ばれる3d強度グラフとして導出され、プロットされる。 得られたトンネルマップは、電子トンネル輸送の定常状態を超えた短時間スケールでの少数の電子に対するトンネル異常(通常高いトンネル確率)を明らかにする。 特に、リード中の強短距離電子-電子相互作用の場合には、$g \lesssim 1/2 $である。 発見される効果は自己平衡現象の直接の結果として扱うことができる。 このような異常な電子トンネルの特徴を定常状態法を用いて, 1次元量子点接触の異なるラッティンガー液体相関パラメータ値間の小さな差を精密に測定できることが示されている。

Strongly correlated transport of interacting electrons through the one-dimensional tunnel contact is considered within the Luttinger liquid model of one-dimensional electrodes on arbitrary time scales $ t> \hbar /\Lambda_{g} $. Using previous results, namely, the Self-equilibration theorem proven in Ref.[G.Skorobagatko, Ann.Phys., 422, 168298 (2020)] the exact distribution functions $ P(N,t) $ for the probabilities of $ N $ electrons to tunnel through the contact during the fixed time interval $ t $ are derived and plotted as 3D intensity graphs called real-time tunneling maps in a whole available region of Luttinger liquid correlation parameter values, bias voltages, and temperatures. The tunneling maps being obtained reveal tunneling anomalies -unusually high tunneling probabilities for the small numbers of electrons on the short-time scales beyond the steady state regime of electron tunnel transport. Especially, this concerns the case of strong short-range electron-electron interaction in the leads at $ g \lesssim 1/2 $. The effect being found can be treated as the direct consequence of the self-equilibration phenomenon. It is shown that features of such an anomalous electron tunneling beoynd the steady state regime can be used for precise experimental measurements of small differences between Luttinger liquid correlation parameter values in different one-dimensional quantum-point contacts.
翻訳日:2023-03-19 04:56:35 公開日:2021-09-10
# フェルミオン効果超作用素:任意のパリティ対称性を持つ量子系におけるフェルミオン環境の影響をシミュレートする手法の開発のための標準微分法

The Fermionic influence superoperator: a canonical derivation for the development of methods to simulate the influence of a Fermionic environment on a quantum system with arbitrary parity symmetry ( http://arxiv.org/abs/2108.09094v2 )

ライセンス: Link先を確認
Mauro Cirio, Po-Chen Kuo, Yueh-Nan Chen, Franco Nori, Neill Lambert(参考訳) 熱平衡下でフェルミオン環境に線形に結合したフェルミオン量子系の還元力学を生成できる影響スーパー演算子の正準導出について述べる。 この定式化を用いて、(マルコフ極限における)一般化されたLindbladマスター方程式と任意のパリティ対称性条件で有効な運動階層方程式の一般化版を導出し、系相関関数とスペクトルの正しい評価に重要である。

We present a canonical derivation of an influence superoperator which generates the reduced dynamics of a Fermionic quantum system linearly coupled to a Fermionic environment initially at thermal equilibrium. We use this formalism to derive a generalized-Lindblad master equation (in the Markovian limit) and a generalized version of the hierarchical equations of motion valid in arbitrary parity-symmetry conditions, important for the correct evaluation of system correlation functions and spectra.
翻訳日:2023-03-17 23:12:25 公開日:2021-09-10
# 一般化ダフィン・ケマー・ペティオー方程式と宇宙の虹重力下での非最小結合の相互作用

Interaction of the generalized Duffin-Kemmer-Petiau equation with a non-minimal coupling under the cosmic rainbow gravity ( http://arxiv.org/abs/2108.12832v2 )

ライセンス: Link先を確認
M. Hosseinpour, H. Hassanabadi, J. K\v{r}\'i\v{z}, S. Hassanabadi, and B.C. L\"utf\"uo\u{g}lu(参考訳) 本研究では,時空における宇宙トポロジ的欠陥の存在下でのレインボー重力の文脈における非最小結合相互作用を含む一般化Duffin-Kemmer-Petiau発振器について調査した。 本研究では, スピン-0粒子の相対論的量子力学を, カタナエフ-ヴォロヴィチ幾何学的アプローチによる分散関係の修正の下で検討する。 そこで, 幾何モデルに基づいて, 前述のボソニック系を若干の虹彩関数によって変化背景下で研究する。 このようにして,解析手法を用いて各シナリオに対応するエネルギー固有値と対応する波動関数を得る。 レインボー重力関数の選択にかかわらず、エネルギー固有値は対称、反対称、対称性の破れ特性を示すことができる。 さらに、欠陥角パラメータが解において重要な役割を果たすことが分かる。

In this study, we survey the generalized Duffin-Kemmer-Petiau oscillator containing a non-minimal coupling interaction in the context of rainbow gravity in the presence of cosmic topological defects in space-time. In this regard, we intend to investigate relativistic quantum dynamics of a spin-0 particle under the modification of the dispersion relation according to the Katanaev-Volovich geometric approach. Thus, based on the geometric model, we study the aforementioned bosonic system under the modified background by a few rainbow functions. In this way, by using an analytical method, we acquire energy eigenvalues and corresponding wave functions corresponding to each scenario. Regardless of rainbow gravity function selection, the energy eigenvalue can present symmetric, anti-symmetric, and symmetry breaking characteristics. Besides, one can see that the deficit angular parameter plays an important role in the solutions.
翻訳日:2023-03-16 21:15:28 公開日:2021-09-10
# 励起状態量子相転移に近い回避交差と動的トンネル

Avoided crossings and dynamical tunneling close to excited-state quantum phase transitions ( http://arxiv.org/abs/2109.02605v2 )

ライセンス: Link先を確認
D. J. Nader, C. A. Gonz\'alez-Rodr\'iguez, S. Lerma-Hern\'andez(参考訳) Wherlエントロピーを用いて、リプキン-メシュコフ-グリックモデルにおける回避交差近傍のエネルギー固有状態の位相空間における非局在化を研究する。 これらの回避された交差は、モデルのあるパラメータ領域の中間エネルギーに現れるが、古典的には、低エネルギー状態とは対照的に異なる位相空間領域に存在する軌道の対から発生し、モデルの離散パリティ対称性によって接続されない。 カップリングパラメータが変化するにつれて、励起状態量子相転移(ESQPT)の臨界エネルギーに近い固有状態に対して、Wherlエントロピーが突然増加することが観察される。 これにより、回避された交差が固有状態のフシミ関数における古典的軌跡の対の重ね合わせを伴うことを検出できる。 この重ね合わせは動的トンネルの強化をもたらすが、これは、2つの古典的軌道のパートナー領域に部分的に進化する最初のブロッホ状態を考えることで観察され、観測可能な天体の進化における量子古典的対応を破る。

Using the Wherl entropy, we study the delocalization in phase-space of energy eigenstates in the vicinity of avoided crossing in the Lipkin-Meshkov-Glick model. These avoided crossing, appearing at intermediate energies in a certain parameter region of the model, originate classically from pairs of trajectories lying in different phase space regions, which contrary to the low energy regime, are not connected by the discrete parity symmetry of the model. As coupling parameters are varied, a sudden increase of the Wherl entropy is observed for eigenstates close to the critical energy of the excited-state quantum phase transition (ESQPT). This allows to detect when an avoided crossing is accompanied by a superposition of the pair of classical trajectories in the Husimi functions of eigenstates. This superposition yields an enhancement of dynamical tunneling, which is observed by considering initial Bloch states that evolve partially into the partner region of the paired classical trajectories, thus breaking the quantum-classical correspondence in the evolution of observables.
翻訳日:2023-03-16 00:51:13 公開日:2021-09-10
# 格子輸送における断熱性への拡張ショートカットのロバスト性

Robustness of Enhanced Shortcuts to Adiabaticity in Lattice Transport ( http://arxiv.org/abs/2109.04420v2 )

ライセンス: Link先を確認
Chris Whitty, Anthony Kiely, Andreas Ruschhaupt(参考訳) adiabaticity (sta) は、断熱体制の外で高い忠実性を達成する量子制御技術の集まりである。 近年, adiabaticityへのショートカットの拡張が著者らによって提案されている [phys. rev. research 2, 023360 (2020)]。 この新しい手法であるextensed shortcuts to adiabaticity(esta)は、元のsta制御関数の拡張を提供し、staメソッドに適応できないシステムの効果的な制御を可能にする。 eSTAスキームは、STAスキームよりも安定性が向上していると推測されている。 我々は,光格子を用いた高速原子輸送にestaを適用し,適切な安定性対策を評価することで,この主張の数値的証拠を提供する。 我々は,eSTA方式が高忠実度を生成するだけでなく,従来のSTA方式よりも誤差に対して安定であることを示す。

Shortcuts to adiabaticity (STA) are a collection of quantum control techniques that achieve high fidelity outside of the adiabatic regime. Recently an extension to shortcuts to adiabaticity was proposed by the authors [Phys. Rev. Research 2, 023360 (2020)]. This new method, enhanced shortcuts to adiabaticity (eSTA), provides an extension to the original STA control functions and allows effective control of systems not amenable to STA methods. It is conjectured that eSTA schemes also enjoy an improved stability over their STA counterparts. We provide numerical evidence of this claim by applying eSTA to fast atomic transport using an optical lattice, and evaluating appropriate stability measures. We show that the eSTA schemes not only produce higher fidelities, but also remain more stable against errors than the original STA schemes.
翻訳日:2023-03-15 18:16:14 公開日:2021-09-10
# 捕捉イオンのコヒーレント変位運動モードからのエンタングリングゲート誤差

Entangling-gate error from coherently displaced motional modes of trapped ions ( http://arxiv.org/abs/2109.04395v2 )

ライセンス: Link先を確認
B. P. Ruzic, T. A. Barrick, J. D. Hunker, R. J. Law, B. K. McFarland, H. M. McGuinness, L. P. Parazzoli, J. D. Sterk, J. W. Van Der Wall, D. Stick(参考訳) トラップイオン量子コンピューティングにおけるエンタングゲートは主に、熱的かつ基底状態に近い初期運動分布を持つ静止イオンをターゲットにしている。 しかし、将来のシステムは、例えばイオン輸送、より長い運用時間、トラップアレイの空間的範囲の増加などにより、大きな非熱励起を引き起こす可能性が高い。 本稿では,このようなコヒーレントな運動励起がエンタングゲート誤差に与える影響を,ゲートの開始時に共有運動モードに存在する熱とコヒーレントな励起の両方を持つ一対のイオン量子ビット上で,モルマー・ソレンソンゲート(MS)のシミュレーションにより解析する。 実験騒音下では, 少数のコヒーレント変位がゲート性能を劇的に損なうことが分かり, 変位の位相を限定的に制御するだけで, この誤差を抑えることができることを示した。 次に、輸送イオンからの実験データを用いて、現実的な条件下でのMSゲート誤差に対するコヒーレント変位の影響を分析する。

Entangling gates in trapped-ion quantum computing have primarily targeted stationary ions with initial motional distributions that are thermal and close to the ground state. However, future systems will likely incur significant non-thermal excitation due to, e.g., ion transport, longer operational times, and increased spatial extent of the trap array. In this paper, we analyze the impact of such coherent motional excitation on entangling-gate error by performing simulations of Molmer-Sorenson (MS) gates on a pair of trapped-ion qubits with both thermal and coherent excitation present in a shared motional mode at the start of the gate. We discover that a small amount of coherent displacement dramatically erodes gate performance in the presence of experimental noise, and we demonstrate that applying only limited control over the phase of the displacement can suppress this error. We then use experimental data from transported ions to analyze the impact of coherent displacement on MS-gate error under realistic conditions.
翻訳日:2023-03-15 18:15:43 公開日:2021-09-10
# 46ノード量子大都市圏ネットワークの実装

Implementation of a 46-node quantum metropolitan area network ( http://arxiv.org/abs/2109.04736v1 )

ライセンス: Link先を確認
Teng-Yun Chen, Xiao Jiang, Shi-Biao Tang, Lei Zhou, Xiao Yuan, Hongyi Zhou, Jian Wang, Yang Liu, Luo-Kan Chen, Wei-Yue Liu, Hong-Fei Zhang, Ke Cui, Hao Liang, Xiao-Gang Li, Yingqiu Mao, Liu-Jun Wang, Si-Bo Feng, Qing Chen, Qiang Zhang, Li Li, Nai-Le Liu, Cheng-Zhi Peng, Xiongfeng Ma, Yong Zhao, Jian-Wei Pan(参考訳) 量子鍵分散(QKD)は、2つのリモートユーザー間で安全な鍵交換を可能にする。 セキュアな通信の最終的な目標は、グローバルな量子ネットワークを確立することだ。 既存のフィールドテストは量子ネットワークが実現可能であることを示唆している。 実用的な量子ネットワークを実現するためには,大規模ネットワークのための汎用トポロジの実現,ネットワークメンテナンスの簡易化,拡張可能な構成,ノード障害に対する堅牢性など,いくつかの課題を克服する必要がある。 この目的のために,46ノードの量子大都市圏ネットワークのフィールド演算を行い,最先端の量子技術でこれらすべての課題を克服できることを示す。 特に,ネットワークを拡張可能な構成で維持するための標準機器を用いて,異なるトポロジ構造を実現し,31ヶ月連続してネットワークを運用する。 高度なキー制御センタを用いたQKDペアリングとキー管理を実現する。 この実装では、最後のキーは、リアルタイム音声電話、テキストメッセージ、ワンタイムパッド暗号化によるファイル送信などのセキュアな通信に使用され、11対のユーザが同時に音声通話を行うことができる。 都市間量子バックボーンと地上サテライトリンクを組み合わせることで、メトロポリタンの実装はグローバル量子ネットワークへの道を開く。

Quantum key distribution (QKD) enables secure key exchanges between two remote users. The ultimate goal of secure communication is to establish a global quantum network. The existing field tests suggest that quantum networks are feasible. To achieve a practical quantum network, we need to overcome several challenges, including realising versatile topologies for large scales, simple network maintenance, extendable configuration, and robustness to node failures. To this end, we present a field operation of a quantum metropolitan-area network with 46 nodes and show that all these challenges can be overcome with cutting-edge quantum technologies. In particular, we realise different topological structures and continuously run the network for 31 months, by employing standard equipment for network maintenance with an extendable configuration. We realise QKD pairing and key management with a sophisticated key control center. In this implementation, the final keys have been used for secure communication such as real-time voice telephone, text messaging, and file transmission with one-time pad encryption, which can support 11 pairs of users to make audio calls simultaneously. Combined with inter-city quantum backbone and ground-satellite links, our metropolitan implementation paves the way toward a global quantum network.
翻訳日:2023-03-15 11:56:43 公開日:2021-09-10
# 局所発振器を用いた連続可変量子鍵分布の位相雑音モデル

Phase Noise Model for Continuous-Variable Quantum Key Distribution Using a Local Local Oscillator ( http://arxiv.org/abs/2109.04722v1 )

ライセンス: Link先を確認
Yun Shao, Heng Wang, Yaodi Pi, Wei Huang, Yang Li, Jinlu Liu, Jie Yang, Yichen Zhang, and Bingjie Xu(参考訳) 位相補償後の残相雑音の値は、局所発振器(LLO CV-QKD)システムを用いた連続可変量子鍵分布の性能改善の鍵となる限界の1つである。 しかし、例えば不完全なレーザー、検出器、不均衡干渉計などの現実的な装置の非理想性のため、現在のシステムにおける残相ノイズの値は依然として比較的大きい。 そこで我々は,LLO CV-QKD方式の位相雑音耐性を改善するための位相雑音モデルを開発した。 本モデルでは,検出効率とBob検出器の電子ノイズに付随する位相参照測定ノイズの一部,およびBob側における実時間監視位相参照強度が,Bobにより局所的に校正できるため信頼されていると考えられる。 位相雑音モデルを用いることでllo cv-qkdシステムのセキュアキーレートと伝送距離を大幅に改善できることを示す。 さらに,位相雑音モデルの優位性を実証するための実験を行う。 25kmの光ファイバーチャネルにおけるllo cv-qkdシステムの実験データに基づき, 位相雑音モデルにおけるセキュアキーレートが, 従来の位相雑音モデルよりも約40%高いことを実証した。

The value of residual phase noise, after phase compensation, is one of the key limitations of performance improvement for continuous-variable quantum key distribution using a local local oscillator (LLO CV-QKD) system, since it is the major excess noise. However, due to the non-ideality of the realistic devices implemented in practice, for example, imperfect lasers, detectors and unbalanced interferometers, the value of residual phase noise in current system is still relatively large. Here, we develop a phase noise model to improve the phase noise tolerance of the LLO CV-QKD schemes. In our model, part of the phase-reference measurement noise associated with detection efficiency and electronic noise of Bob's detector as well as a real-time monitored phasereference intensity at Bob's side is considered trusted because it can be locally calibrated by Bob. We show that using our phase noise model can significantly improve the secure key rate and transmission distance of the LLO CV-QKD system. We further conduct an experiment to substantiate the superiority of the phase noise model. Based on experimental data of a LLO CV-QKD system in the 25 km optical fiber channel, we demonstrate that the secure key rate under our phase noise model is approximately 40% higher than that under the conventional phase noise model.
翻訳日:2023-03-15 11:56:13 公開日:2021-09-10
# パーセプトロントレーニングのための擬似量子スピードアップ

Quadratic Quantum Speedup for Perceptron Training ( http://arxiv.org/abs/2109.04695v1 )

ライセンス: Link先を確認
Pengcheng Liao, Barry C. Sanders, Tim Byrnes(参考訳) バイナリ分類を行うパーセプトロンは、ニューラルネットワークの基本的な構成要素である。 大きさのデータセット~$N$ and margin~$\gamma$(与えられたデータがどの程度分離されているか)が与えられたとき、最もよく知られている量子トレーニングアルゴリズムのクエリ複雑性は$(\nicefrac{\sqrt{N}}{\gamma^2})\log(\nicefrac1{\gamma^2)}$または$\nicefrac{N}{\sqrt{\gamma}}$としてスケールする。 本稿では,パーセプトロンに対するバージョン空間量子トレーニング法を改良し,アルゴリズムのクエリ複雑性を$\sqrt{\nicefrac{n}{\gamma}}$に拡張する。 これは、正しく分類されたデータ要素の数の量子カウントを使用して、パーセプトロンのためのオラクルを構築することで達成される。 このようなオラクルを構築するためのクエリの複雑さは、古典的手法よりも2次的に改善されていることを示す。 そのようなオラクルが構築されると、境界付きエラー量子検索を使用してハイパープレーンインスタンスを検索できる。 本アルゴリズムの最適性は,クエリの複雑さが低い2段階のAND-ORツリーの評価をマルチ基準探索に還元することで証明される。 我々の量子トレーニングアルゴリズムは、多数のパーセプトロン上に構築されたニューラルネットワークのような、より複雑な機械学習モデルをトレーニングするために一般化することができる。

Perceptrons, which perform binary classification, are the fundamental building blocks of neural networks. Given a data set of size~$N$ and margin~$\gamma$ (how well the given data are separated), the query complexity of the best-known quantum training algorithm scales as either $(\nicefrac{\sqrt{N}}{\gamma^2})\log(\nicefrac1{\gamma^2)}$ or $\nicefrac{N}{\sqrt{\gamma}}$, which is achieved by a hybrid of classical and quantum search. In this paper, we improve the version space quantum training method for perceptrons such that the query complexity of our algorithm scales as $\sqrt{\nicefrac{N}{\gamma}}$. This is achieved by constructing an oracle for the perceptrons using quantum counting of the number of data elements that are correctly classified. We show that query complexity to construct such an oracle has a quadratic improvement over classical methods. Once such an oracle is constructed, bounded-error quantum search can be used to search over the hyperplane instances. The optimality of our algorithm is proven by reducing the evaluation of a two-level AND-OR tree (for which the query complexity lower bound is known) to a multi-criterion search. Our quantum training algorithm can be generalized to train more complex machine learning models such as neural networks, which are built on a large number of perceptrons.
翻訳日:2023-03-15 11:55:49 公開日:2021-09-10
# 散逸結合を有する一次元位相鎖のエッジ状態に対するマヨラナ様振動

Majorana-like oscillation for edge states in one-dimensional topological chain with dissipative couplings ( http://arxiv.org/abs/2109.04694v1 )

ライセンス: Link先を確認
Yang Zhang, Wei Nie, Yu-xi Liu(参考訳) エネルギーゼロに近いマヨラナモードの振動はマヨラナフェルミオンの確認に非常に重要な役割を果たす。 1次元su-schrieffer-heeger chain (sshc) におけるほぼゼロエネルギーのエッジ状態は、オンサイトが独立した環境によって引き起こされる散逸を持つとき、その位相的に保護された性質のために広範囲に研究されてきた。 ここでは,SSHcの近傍の2つの地点で共有される共通環境が,各地点間の散逸性結合を引き起こし,位相的に自明な位相を非自明な位相に変化させることを示す。 複素局在長を持つ2つの非エルミートエッジ状態の有限サイズハイブリダイゼーションに対するマヨラナ様振動は、散逸結合によって引き起こされる。 SSHcの制御可能なトポロジーパラメータは、マヨラナ振動を制御するナノワイヤにおける磁場の役割を担っている。 振動の測定方法を提案する。 本研究は、エッジ状態を操作する新しい方法を提供し、超伝導量子回路の現在の技術で実験的に実現可能である。

The oscillation of Majorana modes with near zero energy plays a very important role for ascertaining Majorana fermions. The edge states, which also have almost-zero-energy in one-dimensional Su-Schrieffer-Heeger chain (SSHc), have been extensively studied for their topologically protected properties when the on-sites have dissipations induced by independent environments. We here show that common environments shared by each pair of the nearest neighbour sites in the SSHc can result in dissipative couplings between sites, and thus change topologically trivial phase to nontrivial one. The Majorana-like oscillation for the finite-size hybridizations of two non-Hermitian edge states with complex localization lengths can be induced by the dissipative coupling. The controllable topology parameter of the SSHc plays the role of the magnetic field in the nanowire for controlling Majorana oscillation. The measurement for the oscillation is proposed. Our study provides a new way to manipulate edge states and is experimentally feasible within current technology of superconducting quantum circuits.
翻訳日:2023-03-15 11:55:22 公開日:2021-09-10
# エルミートエンドポイントを持つ非エルミート進化における作業統計

Work statistics in non-Hermitian evolutions with Hermitian endpoints ( http://arxiv.org/abs/2109.04693v1 )

ライセンス: Link先を確認
Zheng-Yang Zhou, Ze-Liang Xiang J. Q. You, and Franco Nori(参考訳) 特定の形のハミルトニアンを持つ非エルミート系は、新しい現象を示すことができる。 しかし、それらの量子熱力学的性質の研究は困難である。 特に、労働統計の計算は、状態規範の変化のため、非エルミート系において困難である。 この問題に対処するため、エルミート系における2点測定法を変更する。 修正法は、進化の前後にエルミート系である非エルミート系に適用することができる。 エルミート系では,本手法は2点測定法と等価である。 この系がエルミート系でない場合、この結果はより大きなエルミート系における統計の予測を表す。 例えば、非エルミート的なSu-Schrieffer-Heegerモデルで作業統計を計算する。 本結果は,非エルミート系における作業統計とエルミート系における作業統計との違いを明らかにした。

Non-Hermitian systems with specific forms of Hamiltonians can exhibit novel phenomena. However, it is difficult to study their quantum thermodynamical properties. In particular, the calculation of work statistics can be challenging in non-Hermitian systems due to the change of state norm. To tackle this problem, we modify the two-point measurement method in Hermitian systems. The modified method can be applied to non-Hermitian systems which are Hermitian before and after the evolution. In Hermitian systems, our method is equivalent to the two-point measurement method. When the system is non-Hermitian, our results represent a projection of the statistics in a larger Hermitian system. As an example, we calculate the work statistics in a non-Hermitian Su-Schrieffer-Heeger model. Our results reveal several differences between the work statistics in non-Hermitian systems and the one in Hermitian systems.
翻訳日:2023-03-15 11:55:05 公開日:2021-09-10
# 強磁場近似における$\omega -2\omega $原子イオン化の干渉:摂動レジームを超えて

Interference in $\omega -2\omega $ atomic ionization within the strong-field approximation: Beyond the perturbative regime ( http://arxiv.org/abs/2109.04969v1 )

ライセンス: Link先を確認
Diego G. Arb\'o and Sebasti\'an D. L\'opez(参考訳) 基本周波数$\omega$と2番目の高調波$\omega$の2色レーザーによる原子イオン化の干渉過程を解析した。 サイクル間干渉過程とサイクル内干渉過程の相互作用は、よく知られたウサギ(2光子遷移の干渉によるアト秒ハーモニックビーティングの再構成)と類似して、メインまたはatiピークとサイドバンドと名づけられる多光子ピークをもたらす。 我々はsaddle point approximation (spa) を用いて干渉電子軌道の複雑なイオン化時間を抽出する。 2色間の相対位相を変えることで、放出された電子の二重微分運動量分布を制御することができる。 我々は、強磁場近似 (sfa) 内の$\omega $ と$% 2\omega $フィールドの間の相対位相の関数としての電子放出の依存性について検討する。 偏光電界方向の電子前方放出を考慮した位相遅延の抽出に着目する。 我々は、ポンプの可視周波数と最初の高調波に対する電子放出の時間遅延をプローブ [ti:sapphire laser (800$ nm)] として、アルゴンイオン化のための典型的な$\omega -2\omega $ 構成の第一高調波 (400$ nm)] として特徴づける。 我々は,SPA結果と対応するSFA(さらなる近似を伴わない)と,それ以前の摂動理論との良好な一致を見出した。

We analyze interference processes in atomic ionization induced by a two-color laser with fundamental frequency $\omega $ and its second harmonic $2\omega $. The interplay between inter- and intracycle interference processes give rise to multiphoton peaks which can be named as main or ATI peaks and sidebands, in analogy to the well-known RABBIT (reconstruction of attosecond harmonic beating by interference of two-photon transitions). We use the saddle point approximation (SPA) to extract the complex ionization times of the interfering electron trajectories. Changing the relative phase between the two colors, the doubly differential momentum distribution of emitted electrons can be controlled. We study the dependence of the electron emission as a function of the relative phase between the $\omega $ and $% 2\omega $ fields within the strong field approximation (SFA) but beyond the perturbative regime. We focus on the extraction of the phase delays accounting the electron forward emission in the direction of the polarized electric fields. We characterize the time delays in the emission of electrons for visible frequency of the pump and its first harmonic as a probe [Ti:Sapphire laser ($800$ nm) together with the first harmonic ($400$ nm)] for a typical $\omega -2\omega $ configuration for argon ionization. We find excellent agreement between our SPA results and the corresponding SFA (without any further approximation) and also with previous perturbative theories.
翻訳日:2023-03-15 11:49:22 公開日:2021-09-10
# パルスレーザーアブレーションを用いた単一ストロンチウムイオンの表面電極トラップへの決定論的負荷

Deterministic loading of a single strontium ion into a surface electrode trap using pulsed laser ablation ( http://arxiv.org/abs/2109.04965v1 )

ライセンス: Link先を確認
Alto Osada and Atsushi Noguchi(参考訳) トラップイオン量子技術は、精密測定、量子通信、量子計算などの応用に向けて何十年も開発されてきた。 イオントラップにおけるイオンの振動運動のコヒーレントな操作はイオンによる量子情報処理にとって重要であるが、変動する電場環境に起因する望ましくないデコヒーレンスはしばしば安定かつ高忠実な操作を妨げる。 . これを回避する方法の1つは、汚染と熱生成を著しく低減した負荷方法であるイオン負荷にパルスレーザーアブレーションを採用することである。 低温環境との整合性などのアブレーション負荷の有用性にもかかわらず、一定の数のイオンを高い確率でロードすることが好ましい現実的な応用においては、負荷イオン数のランダム性は依然として問題である。 本稿では,レーザーアブレーションと連続光イオン化によって発生する表面電極トラップへのストロンチウムイオンの効率的な負荷を示す。 表面電極トラップへの単イオン負荷の確率は82\,\%と測定され、そのような決定論的単イオン負荷はトラップにイオンを1個ずつロードすることができる。 本研究は, クリーンで安定かつ決定論的なイオン負荷により, より機能的なイオントラップ量子デバイスを開発する方法である。

Trapped-ion quantum technologies have been developed for decades toward applications such as precision measurement, quantum communication and quantum computation. Coherent manipulation of ions' oscillatory motions in an ion trap is important for quantum information processing by ions, however, unwanted decoherence caused by fluctuating electric-field environment often hinders stable and high-fidelity operations.. One way to avoid this is to adopt pulsed laser ablation for ion loading, a loading method with significantly reduced pollution and heat production. Despite the usefulness of the ablation loading such as the compatibility with cryogenic environment, randomness of the number of loaded ions is still problematic in realistic applications where definite number of ions are preferably loaded with high probability. In this paper, we demonstrate an efficient loading of a single strontium ion into a surface electrode trap generated by laser ablation and successive photoionization. The probability of single-ion loading into a surface electrode trap is measured to be 82\,\%, and such a deterministic single-ion loading allows for loading ions into the trap one-by-one. Our results open up a way to develop more functional ion-trap quantum devices by the clean, stable, and deterministic ion loading.
翻訳日:2023-03-15 11:48:47 公開日:2021-09-10
# 反断熱駆動によるイジングスピンモデルの地中調製におけるポリノミアルスケーリングの促進

Polynomial scaling enhancement in ground-state preparation of Ising spin models via counter-diabatic driving ( http://arxiv.org/abs/2109.04962v1 )

ライセンス: Link先を確認
Andreas Hartmann and Glen Bigan Mbeng and Wolfgang Lechner(参考訳) スピン系の基底状態の準備は量子コンピューティングの基本的な操作であり、断熱量子コンピューティングの基礎として機能する。 量子計算のこの形式は、基本速度制限を課す断熱定理に従属する。 ダイアバティック・トランジションをカウンターダイアバティック・ドライビングを通じて導入することで、断熱性に対する厳しい要件が適用できることを示す。 我々は,異なるIsingスピンモデルに対して,地平線における局所およびマルチスピンカウンター二元系運転のスケーリング上の優位性を示す。

The preparation of ground states of spin systems is a fundamental operation in quantum computing and serves as the basis of adiabatic quantum computing. This form of quantum computation is subject to the adiabatic theorem which in turn poses a fundamental speed limit. We show that by employing diabatic transitions via counter diabatic driving a less strict requirement on adiabaticity applies. We demonstrate a scaling advantage from local and multi-spin counter diabatic driving in the ground-state fidelity compared to their adiabatic counterpart, for different Ising spin models.
翻訳日:2023-03-15 11:48:23 公開日:2021-09-10
# $*$-同型なゲーム代数を持つ同期ゲーム

Synchronous games with $*$-isomorphic game algebras ( http://arxiv.org/abs/2109.04859v1 )

ライセンス: Link先を確認
Samuel J. Harris(参考訳) 我々は、対応するゲーム代数が$*$-同型であるという意味で、同期非局所ゲームにいくつかの強い同値性を確立する。 まず、$nk$入力および$k$出力上の任意の同期ゲームのゲーム代数は、$nk$入力および$nk$出力上の関連する双同期ゲームのゲーム代数に同型であることを示す。 その結果、量子交換モデルには最適戦略が存在しず、量子近似モデルには存在しない、等しい問合せと解集合を持つ双同期ゲームが存在することを示した。 さらに、20ドルの質問と20ドルの回答を持ち、非ゼロのゲーム代数を持つが、V.I. Paulsen と M. Rahaman の問題を解くような通勤戦略に勝てない双同期ゲームを示す。 また、$n$の質問と$k>3$の回答を持つ任意の同期ゲーム代数と$n(k-2)の質問と$3$の回答を持つ同期ゲーム代数との間に$*$同型を示す。

We establish several strong equivalences of synchronous non-local games, in the sense that the corresponding game algebras are $*$-isomorphic. We first show that the game algebra of any synchronous game on $n$ inputs and $k$ outputs is $*$-isomorphic to the game algebra of an associated bisynchronous game on $nk$ inputs and $nk$ outputs. As a result, we show that there are bisynchronous games with equal question and answer sets, whose optimal strategies only exist in the quantum commuting model, and not in the quantum approximate model. Moreover, we exhibit a bisynchronous game with $20$ questions and $20$ answers that has a non-zero game algebra, but no winning commuting strategy, resolving a problem of V.I. Paulsen and M. Rahaman. We also exhibit a $*$-isomorphism between any synchronous game algebra with $n$ questions and $k>3$ answers and a synchronous game algebra with $n(k-2)$ questions and $3$ answers.
翻訳日:2023-03-15 11:48:12 公開日:2021-09-10
# 全ての古典的サンプリング回路は量子サンプリング回路である

Every Classical Sampling Circuit is a Quantum Sampling Circuit ( http://arxiv.org/abs/2109.04842v1 )

ライセンス: Link先を確認
Steven Herbert(参考訳) このノートでは、量子モンテカルロ積分(qmci)での使用に適した方法で確率分布を符号化する量子状態である「q-marginals」を紹介し、これらは興味の確率分布のために古典回路サンプリングから直接作成できることを示す。 This result is important as the quantum advantage in Monte Carlo integration is in the form of a reduction in the number of uses of a quantum state encoding the probability distribution (in QMCI) relative to the number of samples that would be required in classical MCI -- hence it only translates into a computational advantage if the number of operations required to prepare this quantum state encoding the probability distribution is comparable to the number of operations required to generate a classical sample (as the Q-marginal construction achieves).

This note introduces "Q-marginals", which are quantum states encoding some probability distribution in a manner suitable for use in Quantum Monte Carlo Integration (QMCI), and shows that these can be prepared directly from a classical circuit sampling for the probability distribution of interest. This result is important as the quantum advantage in Monte Carlo integration is in the form of a reduction in the number of uses of a quantum state encoding the probability distribution (in QMCI) relative to the number of samples that would be required in classical MCI -- hence it only translates into a computational advantage if the number of operations required to prepare this quantum state encoding the probability distribution is comparable to the number of operations required to generate a classical sample (as the Q-marginal construction achieves).
翻訳日:2023-03-15 11:47:53 公開日:2021-09-10
# 雑音を考慮した量子振幅推定

Noise-Aware Quantum Amplitude Estimation ( http://arxiv.org/abs/2109.04840v1 )

ライセンス: Link先を確認
Steven Herbert and Roland Guichard and Darren Ng(参考訳) 本稿では,NISQ量子振幅推定(QAE)のためのガウス雑音モデルについて,単純かつ合理的な仮定から導いた。 我々は,様々なIBM超伝導量子コンピュータ上で動作するQAEとハネウェルのH1トラップイオン量子コンピュータを用いて,提案モデルが実世界の実験データに適していることを示す。 次に、このノイズモデルを任意のNISQ QAEアルゴリズムに組み込む方法の例を示し、振幅推定が「ノイズ対応」であることを示す。

In this paper we derive from simple and reasonable assumptions a Gaussian noise model for NISQ Quantum Amplitude Estimation (QAE). We provide results from QAE run on various IBM superconducting quantum computers and Honeywell's H1 trapped-ion quantum computer to show that the proposed model is a good fit for real-world experimental data. We then give an example of how to embed this noise model into any NISQ QAE algorithm, such that the amplitude estimation is "noise-aware".
翻訳日:2023-03-15 11:47:42 公開日:2021-09-10
# 古典的ディジタル制御システムによる計測ベース量子コンピューティングのフォトニック実装に関する時間制約

Timing constraints imposed by classical digital control systems on photonic implementations of measurement-based quantum computing ( http://arxiv.org/abs/2109.04792v1 )

ライセンス: Link先を確認
John R. Scott and Krishna C. Balram(参考訳) 計測ベースの量子コンピューティング(MBQC)のフォトニック実装に関するアーキテクチャ研究の多くは、システムスケーリングに主要な制約を与えるという暗黙の仮定で、この問題に関わる量子リソースに焦点を当てている。 しかし、フォトニックMBQCの「フライングキュービット」アーキテクチャは、古典的な制御システムで満たさなければならない特定のタイミング制約を必要とする。 この古典的な制御は、例えば、単光子検出器からデジタルシステムと互換性のある電圧レベルへの信号の増幅、実装されている量子アルゴリズムに従って、測定結果をその後のクラスタ量子ビットを測定する基本設定に変換する制御システムの実装、これらの測定ベースを設定するのに必要なデジタル-アナログ変換器(dac)および増幅器システムを含む。 本稿では,デジタル論理がアナログシステムや量子ハードウェアに課すタイミング制約を理解することを目的として,離散可変フォトニックMBQCにおいて,任意の1量子ビット回転と制御NOTゲートを実装するために必要なディジタルシステムを,理想的なクラスタ状態発生器の存在下で解析する。 我々は,Xilinx FPGA (7シリーズ) の静的タイミング解析を用いて,適応的な測定処理を行うことができる速度の実際の上限を提供し,システムのフォトニッククロックレートを制約する。 本研究は,フォトニック量子コンピュータの難解な仕様を満たすために,量子システムと協調して古典制御系を設計することの重要性を指摘する。

Most of the architectural research on photonic implementations of measurement-based quantum computing (MBQC) has focused on the quantum resources involved in the problem with the implicit assumption that these will provide the main constraints on system scaling. However, the `flying-qubit' architecture of photonic MBQC requires specific timing constraints that need to be met by the classical control system. This classical control includes, for example: the amplification of the signals from single-photon detectors to voltage levels compatible with digital systems; the implementation of a control system which converts measurement outcomes into basis settings for measuring subsequent cluster qubits, in accordance with the quantum algorithm being implemented; and the digital-to-analog converter (DAC) and amplifier systems required to set these measurement bases using a fast phase modulator. In this paper, we analyze the digital system needed to implement arbitrary one-qubit rotations and controlled-NOT (CNOT) gates in discrete-variable photonic MBQC, in the presence of an ideal cluster state generator, with the main aim of understanding the timing constraints imposed by the digital logic on the analog system and quantum hardware. We use static timing analysis of a Xilinx FPGA (7 series) to provide a practical upper bound on the speed at which the adaptive measurement processing can be performed, in turn constraining the photonic clock rate of the system. Our work points to the importance of co-designing the classical control system in tandem with the quantum system in order to meet the challenging specifications of a photonic quantum computer.
翻訳日:2023-03-15 11:47:14 公開日:2021-09-10
# 任意の符号化方式による実用的な量子鍵分布のセキュリティ解析法

Security analysis method for practical quantum key distribution with arbitrary encoding schemes ( http://arxiv.org/abs/2109.04758v1 )

ライセンス: Link先を確認
Zehong Chang, Fumin Wang, Xiaoli Wang, Xiaofei Liu, Rongqian Wu, Yi lv and Pei Zhang(参考訳) 量子鍵分布(qkd)は徐々に実用的なセキュア通信の重要な要素となっている。 異なるシナリオでは、本物のqkdシステムのセキュリティ分析は複雑である。 複数の自由度符号化、非対称なプロトコル構造、機器欠陥、環境騒音などの現実的な要因に使用される普遍秘密鍵レート計算法は、いまだに不足している。 統計データの相関に基づいて,符号化方式に制約のないセキュリティ解析手法を提案する。 本手法は適用性と精度のトレードオフを行い,既存のQKDシステムを効果的に解析する。 ソース欠陥と高次元非対称プロトコルを解析することにより,その能力を説明する。 その結果,本手法はgottesman-lo-l\"utkenhaus-preskill (gllp) 解析よりも厳密な境界を与えることができ,複雑な符号化構造を持つプロトコルの解析に有用である。 我々の研究は、実用的なQKDのセキュリティ分析の基準となる可能性を持っている。

Quantum key distribution (QKD) gradually has become a crucial element of practical secure communication. In different scenarios, the security analysis of genuine QKD systems is complicated. A universal secret key rate calculation method, used for realistic factors such as multiple degrees of freedom encoding, asymmetric protocol structures, equipment flaws, environmental noise, and so on, is still lacking. Based on the correlations of statistical data, we propose a security analysis method without restriction on encoding schemes. This method makes a trade-off between applicability and accuracy, which can effectively analyze various existing QKD systems. We illustrate its ability by analyzing source flaws and a high-dimensional asymmetric protocol. Results imply that our method can give tighter bounds than the Gottesman-Lo-L\"utkenhaus-Preskill (GLLP) analysis and is beneficial to analyze protocols with complex encoding structures. Our work has the potential to become a reference standard for the security analysis of practical QKD.
翻訳日:2023-03-15 11:46:33 公開日:2021-09-10
# 拡散ルビジウム蒸気中における空間的多モード完全光渦ビームの位相勾配保護

Phase gradient protection of stored spatially multimode perfect optical vortex beams in a diffused rubidium vapor ( http://arxiv.org/abs/2109.04755v1 )

ライセンス: Link先を確認
Yun Chen, Jinwen Wang, Chengyuan Wang, Shougang Zhang, Mingtao Cao, Sonja Franke-Arnold, Hong Gao and Fuli Li(参考訳) 我々は,電磁誘導透過(EIT)による完全光渦(POV)と空間多重光渦(MPOV)ビームの高温気相中での光蓄積を実験的に検討した。 特に,原子拡散により得られた画像のぼやけを減少させるのに,位相勾配と位相特異性が果たす役割について検討する。 このような効果を示すために、3種類の表現が列挙される。 第一に、より大きい軌道角運動量(OAM)を持つPOVでは、リング幅の拡大が抑制される。 第二に、得られた二重リングMPOVビームのプロファイルは、渦電荷差に関連する規則的な暗い特異点分布を示す。 第3に、隣接するリング間のオフセット位相が$\pi$であるマルチリングMPOV間のライン位相特異点を設計することにより、トリプルリングMPOVの記憶率を大幅に改善する。 mpovストレージの実験的な実証により、空間多重化による量子メモリのデータ容量の増大と複雑な光渦アレイの生成と操作の新たな機会が開けた。

We experimentally investigate the optical storage of perfect optical vortex (POV) and spatially multimode perfect optical vortex (MPOV) beams via electromagnetically induced transparency (EIT) in a hot vapor cell. In particular, we study the role that phase gradients and phase singularities play in reducing the blurring of the retrieved images due to atomic diffusion. Three kinds of manifestations are enumerated to demonstrate such effect. Firstly, the suppression of the ring width broadening is more prominent for POVs with larger orbital angular momentum (OAM). Secondly, the retrieved double-ring MPOV beams' profiles present regular dark singularity distributions that are related to their vortex charge difference. Thirdly, the storage fidelities of the triple-ring MPOVs are substantially improved by designing line phase singularities between multi-ring MPOVs with the same OAM number but $\pi$ offset phases between adjacent rings. Our experimental demonstration of MPOV storage opens new opportunities for increasing data capacity in quantum memories by spatial multiplexing, as well as the generation and manipulation of complex optical vortex arrays.
翻訳日:2023-03-15 11:46:08 公開日:2021-09-10
# 量子コンピューティングのための高効率ノイズ除去技術

Efficient Noise Mitigation Technique for Quantum Computing ( http://arxiv.org/abs/2109.05136v1 )

ライセンス: Link先を確認
Ali Shaib, Mohamad H. Naim, Mohammed E. Fouda, Rouwaida Kanj, and Fadi Kurdahi(参考訳) 量子コンピュータは、現在のコンピュータの能力を超えた問題を解決することができる。 しかし、このようなシステムでは不要な相互作用から生じるノイズを処理する必要がある。 効率的で正確な量子ノイズプロファイリングと緩和に対処するプロトコルが提案されている。 本研究では,雑音低減に使用される雑音量子デバイスの平均出力を効率的に推定する新しいプロトコルを提案する。 マルチキュービット系の平均挙動は、クリフォードゲートを用いて異なる深さの回路の平均出力を推定するパウリチャネルの特別な形式として近似される。 特徴的パウリチャネル誤差率と状態準備および測定誤差を用いて異なる深さの出力を構築することにより、大規模なシミュレーションの必要性を排除し、効率的な緩和を可能にする。 4つのibm q 5量子ビット量子デバイス上で提案プロトコルの効率性を示す。 提案手法は,高効率ノイズ評価による精度の向上を示す。 提案手法を,未緩和法と純粋な測定誤差軽減法と比較して,最大88%,69%の改善を報告した。

Quantum computers have enabled solving problems beyond the current computers' capabilities. However, this requires handling noise arising from unwanted interactions in these systems. Several protocols have been proposed to address efficient and accurate quantum noise profiling and mitigation. In this work, we propose a novel protocol that efficiently estimates the average output of a noisy quantum device to be used for quantum noise mitigation. The multi-qubit system average behavior is approximated as a special form of a Pauli Channel where Clifford gates are used to estimate the average output for circuits of different depths. The characterized Pauli channel error rates, and state preparation and measurement errors are then used to construct the outputs for different depths thereby eliminating the need for large simulations and enabling efficient mitigation. We demonstrate the efficiency of the proposed protocol on four IBM Q 5-qubit quantum devices. Our method demonstrates improved accuracy with efficient noise characterization. We report up to 88\% and 69\% improvement for the proposed approach compared to the unmitigated, and pure measurement error mitigation approaches, respectively.
翻訳日:2023-03-15 11:39:28 公開日:2021-09-10
# Sliced Basis DMRGを用いた水素鎖のハバードモデルの構築

Constructing Hubbard Models for the Hydrogen Chain using Sliced Basis DMRG ( http://arxiv.org/abs/2109.05129v1 )

ライセンス: Link先を確認
Randy C. Sawaya, Steven R. White(参考訳) Sliced-basis DMRG(sb-DMRG)は水素原子の連鎖をシミュレートし、低エネルギーのハバード様モデルを構築するために用いられる。 ダウンフォールディング法は、まず、DMRG 1粒子密度行列の自然な軌道から構築された原子中心ワニエ関数の集合への基底の変更を含む。 その後、ワニエ関数モデルはハバードハミルトニアンの基底状態におけるワニエハミルトニアンの期待値を最小化することによってパラメータが決定される、ハバードハミルトニアンモデルに還元される。 この間接的変分法は水素鎖のコンパクトで単純なモデルを生成するだけでなく、単一粒子ホッピングと2粒子相互作用の範囲を制限したり、より従来的な下降の信頼性を評価するなど、効果的ハミルトニアンにおける制約の重要性を探求することができる。 モデル基底状態の絡み合いエントロピーは,dmrgとテンソルネットワークがモデルをシミュレートする能力を決定する重要な特性である。 反対に、短い範囲の相互作用は、しばしばより大きな絡み合いを持つ。

Sliced-basis DMRG(sb-DMRG) is used to simulate a chain of hydrogen atoms and to construct low-energy effective Hubbard-like models. The downfolding procedure first involves a change of basis to a set of atom-centered Wannier functions constructed from the natural orbitals of the exact DMRG one-particle density matrix. The Wannier function model is then reduced to a fewer-parameter Hubbard-like model, whose parameters are determined by minimizing the expectation value of the Wannier Hamiltonian in the ground state of the Hubbard Hamiltonian. This indirect variational procedure not only yields compact and simple models for the hydrogen chain, but also allows us to explore the importance of constraints in the effective Hamiltonian, such as the restricting the range of the single-particle hopping and two-particle interactions, and to assess the reliability of more conventional downfolding. The entanglement entropy for a model's ground state, cut in the middle, is an important property determining the ability of DMRG and tensor networks to simulate the model, and we study its variation with the range of the interactions. Counterintuitively, we find that shorter ranged interactions often have larger entanglement.
翻訳日:2023-03-15 11:39:14 公開日:2021-09-10
# 2つの新しいポテンシャルに対するシュリンガー方程式の境界状態解

Bound-state solutions of the Schr\"odinger equation for two novel potentials ( http://arxiv.org/abs/2109.05069v1 )

ライセンス: Link先を確認
A. D. Alhaidari and I. A. Assi(参考訳) スペクトル位相図 (spectral phase diagram) で示されるように、リッチな構造を持つ2つのポテンシャルモデルの束縛状態の1次元シュレーディンガー方程式を解く。 これらのポテンシャルは、正確に解くことができる問題の既知のクラスに属しない。 解はジャコビ多項式の項で書かれる平方可積分関数の有限級数である。

We solve the one-dimensional Schr\"odinger equation for the bound states of two potential models with a rich structure as shown by their "spectral phase diagram". These potentials do not belong to the well-known class of exactly solvable problems. The solutions are finite series of square integrable functions written in terms of the Jacobi polynomials.
翻訳日:2023-03-15 11:38:53 公開日:2021-09-10
# ダイヤモンド中の窒素空洞中心からの磁場依存性誘導放出

Magnetic-Field-Dependent Stimulated Emission from Nitrogen-Vacancy Centres in Diamond ( http://arxiv.org/abs/2109.05060v1 )

ライセンス: Link先を確認
F. Hahl, L. Lindner, X. Vidal, T. Ohshima, S. Onoda, S. Ishii, A. M. Zaitsev, M. Capelli, T. Luo, B. C. Gibson, A. D. Greentree and J. Jeske(参考訳) ダイヤモンド中の負の窒素空孔中心は、量子磁場センサーを約束している。 レーザー閾値磁気測定は、信号強度の増大と磁場コントラストによるnv中心アンサンブル感度の改善のための理論的アプローチである。 本研究はレーザーしきい値磁気メトリーを実験的に実証する。 532nmで励起され、710nmで共鳴シードされた高nvドープ低吸収ダイヤモンド利得媒質を含む超高精細レーザーキャビティを用いる。 これにより64%の励起放電による信号パワーの増幅が可能となる。 増幅の磁場依存性を示すとともに,NV中心アンサンブルからの磁場依存性の励起放出を示す。 この放出は、mW体制における33%のコントラストと最大出力パワーを示す。 これらのnv-centresのコヒーレントな読み出しの利点は、量子欠陥の新規キャビティおよびレーザー応用や、健康、研究、鉱業分野の感度を大幅に向上したダイヤモンドnv磁場センサへの道を開く。

Negatively charged nitrogen-vacancy centres in diamond are promising quantum magnetic field sensors. Laser threshold magnetometry has been a theoretical approach for the improvement of NV-centre ensemble sensitivity via increased signal strength and magnetic field contrast. In this work we experimentally demonstrate laser threshold magnetometry. We use a macroscopic high-finesse laser cavity containing a highly NV-doped and low absorbing diamond gain medium that is pumped at 532nm and resonantly seeded at 710nm. This enables amplification of the signal power by stimulated emission of 64%. We show the magnetic-field dependency of the amplification and thus, demonstrate magnetic-field dependent stimulated emission from an NV-centre ensemble. This emission shows a record contrast of 33% and a maximum output power in the mW regime. These advantages of coherent read-out of NV-centres pave the way for novel cavity and laser applications of quantum defects as well as diamond NV magnetic field sensors with significantly improved sensitivity for the health, research and mining sectors.
翻訳日:2023-03-15 11:38:25 公開日:2021-09-10
# テンプレートバンク探索における信号対ノイズ比とsnr-max検出統計 : 量子センサネットワークを用いたエキゾチック物理過渡現象

Signal-to-noise-ratio and SNR-max detection statistics in template bank searches for exotic physics transients with networks of quantum sensors ( http://arxiv.org/abs/2109.05011v1 )

ライセンス: Link先を確認
Tyler Daykin, Chris Ellis, Andrei Derevianko(参考訳) 信号対雑音比(SNR)検出統計学は広範に応用されている。 特定のテンプレートからのSNRが所望の偽陽性率で設定された閾値を超えると、電位イベントが記録される。 テンプレートバンク探索では、SNR統計の一般化はSNR-max統計であり、個々のテンプレートマッチングからSNRの絶対値の最大値として定義される。 個々のSNR実現はガウス分布であるが、SNR-max確率分布はガウス分布ではない。 さらに、個別のテンプレートバンクSNRを同じネットワークデータストリームで計算すると、SNRはテンプレート間で相関する。 クロステンポレート相関は、SNR-max確率分布としきい値SNR-max値に大きな影響を及ぼす。 大規模銀行に対するSNR-maxの計算しきい値の計算は禁じられ、SNR-max統計の計算特性に対する解析的アプローチを開発する。 これは、ほぼ直交するテンプレートバンクと、最も可能性の高いクロステンプレート相関値についてクロステンプレート相関係数が"スキーズ"されたバンクに対して行われる。 テンプレート間の相関係数はテンプレートの類似性を定量化するため、相関の増大は偽陽性率の特定の値に対するSNR-max閾値を減少させる。 銀行内のテンプレート数を増やすと、snr-maxしきい値が増加する。 色付きノイズとクロスノード相関を示すネットワークに対して,提案手法を導出する。 特定の応用は、原子時計によるダークマター探索と循環回転対称性を持つ'トイ'平面ネットワークで示される。

Signal-to-noise ratio (SNR) detection statistic has wide-spread applications. A potential event is recorded when the SNR from a specific template exceeds a threshold set by a desired false positive rate. In template bank searches, the generalization of the SNR statistic is the SNR-max statistic, defined as the maximum of the absolute value of SNRs from individual template matching. While individual SNR realizations are Gaussian distributed, SNR-max probability distribution is non-Gaussian. Moreover, as the individual template-bank SNRs are computed using the same network data streams, SNRs become correlated between templates. Cross-template correlations have sizable effect on the SNR-max probability distribution, and the threshold SNR-max values. Computing threshold SNR-max values for large banks is computationally prohibitive and we develop analytic approaches to computing properties of SNR-max statistic. This is done for nearly orthogonal template banks and for banks with cross-template correlation coefficients "squeezed" about the most probable cross-template correlation value. Since cross-template correlation coefficients quantify similarity of templates, increasing correlations decrease SNR-max thresholds for specific values of false positive rates. Increasing the number of templates in the bank increases the SNR-max thresholds. Our derivations are carried out for networks that may exhibit colored noise and cross-node correlations. Specific applications are illustrated with a dark matter search with atomic clocks and a ''toy'' planar network with cyclic rotational symmetry.
翻訳日:2023-03-15 11:37:36 公開日:2021-09-10
# 単体制約下における多体フェルミオン演算子圧縮

Compressing Many-Body Fermion Operators Under Unitary Constraints ( http://arxiv.org/abs/2109.05010v1 )

ライセンス: Link先を確認
Nicholas C. Rubin, Joonho Lee, Ryan Babbush(参考訳) 単一結合クラスタ状態を作成し、任意の基底電子構造のトロッターステップを適用するための最も効率的な量子回路は、フェルミオンガウス回路とイジング相互作用型回路のインターリーブシーケンスを含む。 これらの回路は、それらのユニタリを生成する二体作用素を積公式を用いてシミュレートされた二乗一体作用素の和として分解することから生じる。 本稿では, 2体演算子の単一粒子基底変換に比較して, 繰り返し複雑性が悪く, 解析的分解に比べて2体演算子の総和において, しばしば2体演算子の数が2倍に減少する計算アルゴリズムを提案する。 この数値計算手法の応用として,本プロトコルを汎用ユニタリ結合型クラスタ演算子の近似に利用し,基底状態への近似を反復的に構築する手法 (adapt-vqe など) に必要な高品質初期条件を準備できることを実証する。

The most efficient known quantum circuits for preparing unitary coupled cluster states and applying Trotter steps of the arbitrary basis electronic structure Hamiltonian involve interleaved sequences of fermionic Gaussian circuits and Ising interaction type circuits. These circuits arise from factorizing the two-body operators generating those unitaries as a sum of squared one-body operators that are simulated using product formulas. We introduce a numerical algorithm for performing this factorization that has an iteration complexity no worse than single particle basis transformations of the two-body operators and often results in many times fewer squared one-body operators in the sum of squares compared to the analytical decompositions. As an application of this numerical procedure, we demonstrate that our protocol can be used to approximate generic unitary coupled cluster operators and prepare the necessary high-quality initial states for techniques (like ADAPT-VQE) that iteratively construct approximations to the ground state.
翻訳日:2023-03-15 11:37:09 公開日:2021-09-10
# 捕捉イオンの絡み合った対の温度推定

Temperature estimation of an entangled pair of trapped ions ( http://arxiv.org/abs/2109.05008v1 )

ライセンス: Link先を確認
O. P. de S\'a Neto, H. A. S. Costa, G. A. Prataviera, and M. C. de Oliveira(参考訳) 相互作用する2つのイオンからなる系に推定理論を適用する。 本研究では,フィッシャー行列形式を用いてイオンの縦振動モードの温度を簡易に推定する手法を提案する。 イオン相互作用を用いて個々のイオンの温度を効果的に推定し、相互作用時間の進化を最適化し、イオンの1つ以上を測定する。 また,非熱水貯留層が推定手法に与える影響についても検討した。 圧縮熱貯留層によって導入されたイオン振動モードの1つの非古典性は、個々の温度の間接的な推測を改善する。

We apply estimation theory to a system formed by two interacting trapped ions. By using the Fisher matrix formalism, we introduce a simple scheme for estimation of the temperature of the longitudinal vibrational modes of the ions. We use the ions interaction to effectively infer the temperature of the individual ions, by optimising the interaction time evolution and by measuring only over one of the ions. We also investigate the effect of a non-thermal reservoir over the inference approach. The non-classicality of one of the ions vibrational modes, introduced due to a squeezed thermal reservoir, improves the indirect inference of the individual temperatures.
翻訳日:2023-03-15 11:36:52 公開日:2021-09-10
# データから空間を学習する:空間とU曲線の性質を学ぶ

Learning the Hypotheses Space from data: Learning Space and U-curve Property ( http://arxiv.org/abs/2001.09532v3 )

ライセンス: Link先を確認
Diego Marcondes, Adilson Simonis and Junior Barrera(参考訳) 本稿では、学習問題を仮説空間 $\mathcal{h}$ だけでなく、モデル選択アルゴリズムに適したドメインであるvc-dimensionプロパティによって制約された$\mathcal{h}$ のカバーである学習空間 $\mathbb{l}(\mathcal{h})$ によってモデル化する古典的な無依存なpac学習モデルの拡張を提案する。 我々の主な貢献は、$\mathbb{L}(\mathcal{H})$上で正規化モデル選択を行うデータ駆動の一般学習アルゴリズムである。 このアプローチの顕著で正式に証明された結果は、$\mathbb{L}(\mathcal{H})$上の条件と、$\mathbb{L}(\mathcal{H})$鎖上の真のU曲線であるサンプル外誤差曲面を推定する損失関数であり、$\mathbb{L}(\mathcal{H})$上のより効率的な探索を可能にする。 私たちの知る限りでは、これは最初の厳密な結果であり、候補モデルのファミリーの非完備な探索は最適な解を返すことができると断言している。 この新しいフレームワークでは、U曲線最適化アルゴリズムがモデル選択の自然なコンポーネントとなり、学習アルゴリズムとなる。 ここで提案される抽象的な一般的なフレームワークは、現代の学習モデルやニューラルアーキテクチャサーチのような分野に重要な影響を与える可能性がある。

This paper presents an extension of the classical agnostic PAC learning model in which learning problems are modelled not only by a Hypothesis Space $\mathcal{H}$, but also by a Learning Space $\mathbb{L}(\mathcal{H})$, which is a cover of $\mathcal{H}$, constrained by a VC-dimension property, that is a suitable domain for Model Selection algorithms. Our main contribution is a data driven general learning algorithm to perform regularized Model Selection on $\mathbb{L}(\mathcal{H})$. A remarkable, formally proved, consequence of this approach are conditions on $\mathbb{L}(\mathcal{H})$ and on the loss function that lead to estimated out-of-sample error surfaces which are true U-curves on $\mathbb{L}(\mathcal{H})$ chains, enabling a more efficient search on $\mathbb{L}(\mathcal{H})$. To our knowledge, this is the first rigorous result asserting that a non exhaustive search of a family of candidate models can return an optimal solution. In this new framework, an U-curve optimization algorithm becomes a natural component of Model Selection, hence of learning algorithms. The abstract general framework proposed here may have important implications on modern learning models and on areas such as Neural Architecture Search.
翻訳日:2023-01-06 19:16:13 公開日:2021-09-10
# データから仮説空間を学ぶ その2:収束と実現可能性

Learning the Hypotheses Space from data Part II: Convergence and Feasibility ( http://arxiv.org/abs/2001.11578v2 )

ライセンス: Link先を確認
Diego Marcondes, Adilson Simonis and Junior Barrera(参考訳) 部分 \textit{I} では、一般的な仮説空間 $\mathcal{H}$, Learning Space $\mathbb{L}(\mathcal{H})$ の構造を提案した。 また、u-曲線の性質も示しており、これは$\mathbb{l}(\mathcal{h})$ を徹底的に探すことなく仮説空間を選択するために利用できる。 本稿では,学習空間に基づくモデル選択フレームワークの一貫性を示すことで,学習すべき仮説空間のデータからモデル選択フレームワークの一貫性を示す。 本稿では,Vapnik-Chervonenkis理論を<textit{random} hypotheses Spaces,すなわちデータから学習した仮説空間に拡張することにより,モデル選択の最先端性を高める。 このフレームワークでは、確率 1 に収束するランダム部分空間 $\hat{\mathcal{M}} \in \mathbb{L}(\mathcal{H})$ を、所望の性質を持つ対象の仮想空間 $\mathcal{M}^{\star} \in \mathbb{L}(\mathcal{H})$ に推定する。 収束は漸近的無バイアス推定器を意味するので、モデル選択のための一貫した枠組みを持ち、データから仮説空間を学習することは可能であることを示す。 さらに、$\hat{\mathcal{M}}$での学習の一般化誤差は、$\mathcal{H}$で学習する際のコミットよりも小さいので、データから学習したサブスペースで学習することがより効率的であることを示す。

In part \textit{I} we proposed a structure for a general Hypotheses Space $\mathcal{H}$, the Learning Space $\mathbb{L}(\mathcal{H})$, which can be employed to avoid \textit{overfitting} when estimating in a complex space with relative shortage of examples. Also, we presented the U-curve property, which can be taken advantage of in order to select a Hypotheses Space without exhaustively searching $\mathbb{L}(\mathcal{H})$. In this paper, we carry further our agenda, by showing the consistency of a model selection framework based on Learning Spaces, in which one selects from data the Hypotheses Space on which to learn. The method developed in this paper adds to the state-of-the-art in model selection, by extending Vapnik-Chervonenkis Theory to \textit{random} Hypotheses Spaces, i.e., Hypotheses Spaces learned from data. In this framework, one estimates a random subspace $\hat{\mathcal{M}} \in \mathbb{L}(\mathcal{H})$ which converges with probability one to a target Hypotheses Space $\mathcal{M}^{\star} \in \mathbb{L}(\mathcal{H})$ with desired properties. As the convergence implies asymptotic unbiased estimators, we have a consistent framework for model selection, showing that it is feasible to learn the Hypotheses Space from data. Furthermore, we show that the generalization errors of learning on $\hat{\mathcal{M}}$ are lesser than those we commit when learning on $\mathcal{H}$, so it is more efficient to learn on a subspace learned from data.
翻訳日:2023-01-05 11:44:59 公開日:2021-09-10
# Laplacian Smoothingを用いた個人的フェデレーション学習

Differentially Private Federated Learning with Laplacian Smoothing ( http://arxiv.org/abs/2005.00218v2 )

ライセンス: Link先を確認
Zhicong Liang, Bao Wang, Quanquan Gu, Stanley Osher, Yuan Yao(参考訳) フェデレーション学習(federated learning)は,プライベートデータをユーザ間で共有することなく,協調的にモデルを学習することによって,データのプライバシを保護することを目的とする。 しかし、敵はリリースしたモデルに攻撃を加えることで、プライベートトレーニングデータを推測できるかもしれない。 差分プライバシーは、訓練されたモデルの精度や実用性を著しく低下させる価格でこのような攻撃に対する統計的保護を提供する。 そこで本研究では,ラプラシアン平滑化に基づく差分プライベートフェデレート学習(dp-fed-ls)の実用性向上手法について検討し,ガウス雑音を注入したパラメータ集約を,プライバシ予算を損なうことなく統計的精度で改善する手法を提案する。 我々のキーとなる観察は、連合学習における集約された勾配は、しばしば滑らかさのタイプ、すなわちグラフのスムーズさ、すなわち、ラプラシア滑らか化によって効率的に活用できるフーリエ係数の多項式崩壊を伴うフーリエ基底のスムーズさを楽しむことである。 所定の差分プライバシー予算の下では、不均質な非iidデータの均一なサブサンプリングを持つdp-fed-lsに対して、タイトレートの収束誤差境界を設け、有効次元におけるラプラシアン平滑化と分散低減の実用性向上の可能性を明らかにする。 MNIST, SVHN, シェークスピアデータセットを用いた実験により, DP-guaranteeによるモデル精度の向上と, ポアソンサブサンプリング機構とポアソンサブサンプリング機構の併用によるメンバーシッププライバシの向上が示された。

Federated learning aims to protect data privacy by collaboratively learning a model without sharing private data among users. However, an adversary may still be able to infer the private training data by attacking the released model. Differential privacy provides a statistical protection against such attacks at the price of significantly degrading the accuracy or utility of the trained models. In this paper, we investigate a utility enhancement scheme based on Laplacian smoothing for differentially private federated learning (DP-Fed-LS), where the parameter aggregation with injected Gaussian noise is improved in statistical precision without losing privacy budget. Our key observation is that the aggregated gradients in federated learning often enjoy a type of smoothness, i.e. sparsity in the graph Fourier basis with polynomial decays of Fourier coefficients as frequency grows, which can be exploited by the Laplacian smoothing efficiently. Under a prescribed differential privacy budget, convergence error bounds with tight rates are provided for DP-Fed-LS with uniform subsampling of heterogeneous Non-IID data, revealing possible utility improvement of Laplacian smoothing in effective dimensionality and variance reduction, among others. Experiments over MNIST, SVHN, and Shakespeare datasets show that the proposed method can improve model accuracy with DP-guarantee and membership privacy under both uniform and Poisson subsampling mechanisms.
翻訳日:2022-12-07 23:10:01 公開日:2021-09-10
# RICA:Commonsense Axiomsに基づくロバスト推論能力の評価

RICA: Evaluating Robust Inference Capabilities Based on Commonsense Axioms ( http://arxiv.org/abs/2005.00782v4 )

ライセンス: Link先を確認
Pei Zhou, Rahul Khanna, Seyeon Lee, Bill Yuchen Lin, Daniel Ho, Jay Pujara, Xiang Ren(参考訳) 事前学習型言語モデル(PTLM)は,コモンセンス推論ベンチマークにおいて顕著な性能を達成しているが,人間との効果的なコミュニケーションに欠かせない頑健な推論を行うためにコモンセンスを利用する能力は議論されている。 本稿では,人間-aiコミュニケーションの進展を追求するために,テキストの摂動にもかかわらずロバストなコモンセンス推論を評価する,コモンセンス公理に基づくロバスト推論能力(rica: robust inference capabilities)を提案する。 この課題のためのデータを生成するために,コモンセンス知識ベースを用いた体系的でスケーラブルな手法を開発し,PTLMを2つの異なる評価設定で探索する。 10k以上のステートメントを持つ我々の生成したプローブセットに対する大規模な実験により、PTLMはゼロショット設定でのランダムな推測に勝らず、統計的バイアスに大きく影響し、摂動攻撃に対して堅牢ではないことが示された。 また、同様の文の微調整は、PTLMがまだ見当たらない推論に一般化できないため、限られた利得を与える。 我々の新しい大規模ベンチマークは、PTLMと人間レベルの言語理解の間に大きなギャップを生じさせ、PTLMが常識を実証する新しい挑戦を提供する。

Pre-trained language models (PTLMs) have achieved impressive performance on commonsense inference benchmarks, but their ability to employ commonsense to make robust inferences, which is crucial for effective communications with humans, is debated. In the pursuit of advancing fluid human-AI communication, we propose a new challenge, RICA: Robust Inference capability based on Commonsense Axioms, that evaluates robust commonsense inference despite textual perturbations. To generate data for this challenge, we develop a systematic and scalable procedure using commonsense knowledge bases and probe PTLMs across two different evaluation settings. Extensive experiments on our generated probe sets with more than 10k statements show that PTLMs perform no better than random guessing on the zero-shot setting, are heavily impacted by statistical biases, and are not robust to perturbation attacks. We also find that fine-tuning on similar statements offer limited gains, as PTLMs still fail to generalize to unseen inferences. Our new large-scale benchmark exposes a significant gap between PTLMs and human-level language understanding and offers a new challenge for PTLMs to demonstrate commonsense.
翻訳日:2022-12-07 11:58:31 公開日:2021-09-10
# インシデント・スーパービジョンのメリットを予見する

Foreseeing the Benefits of Incidental Supervision ( http://arxiv.org/abs/2006.05500v2 )

ライセンス: Link先を確認
Hangfeng He, Mingyuan Zhang, Qiang Ning, Dan Roth(参考訳) 現実世界のアプリケーションは、様々な安価なインシデント監視信号を活用することで、モデルの改善を必要とすることが多い。 その中には、部分的なラベル、ノイズのあるラベル、知識に基づく制約、クロスドメインまたはクロスタスクアノテーションが含まれます。 しかし、現在、与えられた目標タスクに対するこれらの信号の利点を測定するための原則的な方法が欠如しており、これらの利点を評価する一般的な実践は、様々なモデルとハイパーパラメータによる徹底的な実験である。 本稿では,1つのフレームワークで,組合せ実験を行なわずに,与えられた目標タスクに対して,様々な種類の偶発信号の利点を定量化できるかどうかを検討する。 我々は,付随的監視信号による不確実性低減を特徴付ける統一的pac-bayesianmotived informativeness measure(pabi)を提案する。 PABIの有効性は、列タギングタスクに対して、様々な種類のインシデント信号が付加する値の定量化によって示される。 名前付きエンティティ認識(NER)と質問応答(QA)の実験は、PABIの予測が学習性能とよく相関していることを示し、教師信号が有益である学習よりも先に決定する有望な方法を提供する。

Real-world applications often require improved models by leveraging a range of cheap incidental supervision signals. These could include partial labels, noisy labels, knowledge-based constraints, and cross-domain or cross-task annotations -- all having statistical associations with gold annotations but not exactly the same. However, we currently lack a principled way to measure the benefits of these signals to a given target task, and the common practice of evaluating these benefits is through exhaustive experiments with various models and hyperparameters. This paper studies whether we can, in a single framework, quantify the benefits of various types of incidental signals for a given target task without going through combinatorial experiments. We propose a unified PAC-Bayesian motivated informativeness measure, PABI, that characterizes the uncertainty reduction provided by incidental supervision signals. We demonstrate PABI's effectiveness by quantifying the value added by various types of incidental signals to sequence tagging tasks. Experiments on named entity recognition (NER) and question answering (QA) show that PABI's predictions correlate well with learning performance, providing a promising way to determine, ahead of learning, which supervision signals would be beneficial.
翻訳日:2022-11-23 14:08:34 公開日:2021-09-10
# PDE近似のための物理情報ニューラルネットワーク(PINN)の一般化誤差の推定

Estimates on the generalization error of Physics Informed Neural Networks (PINNs) for approximating PDEs ( http://arxiv.org/abs/2006.16144v2 )

ライセンス: Link先を確認
Siddhartha Mishra and Roberto Molinaro(参考訳) 物理情報ニューラルネットワーク(PINN)は近年,PDEの堅牢かつ正確な近似に広く利用されている。 PDEの前方問題の解を近似するPINNの一般化誤差に関する厳密な上限を提供する。 抽象形式論を導入し、基礎となるPDEの安定性特性を利用して、トレーニング誤差とトレーニングサンプル数の観点から一般化誤差の推定を導出する。 この抽象フレームワークは、非線形pdesのいくつかの例で示される。 また,提案理論を検証した数値実験を行った。

Physics informed neural networks (PINNs) have recently been widely used for robust and accurate approximation of PDEs. We provide rigorous upper bounds on the generalization error of PINNs approximating solutions of the forward problem for PDEs. An abstract formalism is introduced and stability properties of the underlying PDE are leveraged to derive an estimate for the generalization error in terms of the training error and number of training samples. This abstract framework is illustrated with several examples of nonlinear PDEs. Numerical experiments, validating the proposed theory, are also presented.
翻訳日:2022-11-15 15:23:48 公開日:2021-09-10
# OSCaR: 単語埋め込みにおける直交部分空間の補正とバイアスの定量化

OSCaR: Orthogonal Subspace Correction and Rectification of Biases in Word Embeddings ( http://arxiv.org/abs/2007.00049v2 )

ライセンス: Link先を確認
Sunipa Dev, Tao Li, Jeff M Phillips, Vivek Srikumar(参考訳) 言語表現はステレオタイプバイアスを持ち、結果として下流タスクのバイアス付き予測につながることが知られている。 既存の手法は線形射影によるバイアスの軽減に有効であるが、そのような手法は攻撃的すぎる: バイアスを除去するだけでなく、単語の埋め込みから貴重な情報を消去する。 バイアス除去と情報保持のトレードオフを示す情報保持を評価するための新しい尺度を開発した。 この課題に対処するために,概念全体を取り除くのではなく,概念間のバイアス付き関連を解消するバイアス緩和手法であるOSCaR(Orthogonal Subspace Correction and Rectification)を提案する。 性別バイアスに関する実験により、OSCaRは、セマンティック情報が埋め込みに保持され、バイアスも効果的に緩和されるようなバランスのとれたアプローチであることが示されている。

Language representations are known to carry stereotypical biases and, as a result, lead to biased predictions in downstream tasks. While existing methods are effective at mitigating biases by linear projection, such methods are too aggressive: they not only remove bias, but also erase valuable information from word embeddings. We develop new measures for evaluating specific information retention that demonstrate the tradeoff between bias removal and information retention. To address this challenge, we propose OSCaR (Orthogonal Subspace Correction and Rectification), a bias-mitigating method that focuses on disentangling biased associations between concepts instead of removing concepts wholesale. Our experiments on gender biases show that OSCaR is a well-balanced approach that ensures that semantic information is retained in the embeddings and bias is also effectively mitigated.
翻訳日:2022-11-15 04:17:58 公開日:2021-09-10
# 弱側情報に基づく近似線形標本を用いたテンソル推定

Tensor Estimation with Nearly Linear Samples Given Weak Side Information ( http://arxiv.org/abs/2007.00736v2 )

ライセンス: Link先を確認
Christina Lee Yu(参考訳) テンソル完了はテンソル推定に必要なサンプルの数の観点から興味深い計算統計的ギャップを示す。 $t$-次テンソルには$\Theta(tn)$自由度しか存在しないが、最もよく知られている多項式時間アルゴリズムは、一貫した推定を保証するために$O(n^{t/2})$サンプルを必要とする。 本稿では,サンプルの複雑さを$O(n)$に抑えるために,弱い側情報が十分であることを示す。 サイド情報は、各モードの重みベクトルからなり、そのモードに沿った潜在因子のいずれかと直交しない。 このサイド情報を利用して、小さな定数 $\kappa > 0$ に対して、$o(n^{1+\kappa})$ の一貫した推定値を生成するアルゴリズムを提供する。

Tensor completion exhibits an interesting computational-statistical gap in terms of the number of samples needed to perform tensor estimation. While there are only $\Theta(tn)$ degrees of freedom in a $t$-order tensor with $n^t$ entries, the best known polynomial time algorithm requires $O(n^{t/2})$ samples in order to guarantee consistent estimation. In this paper, we show that weak side information is sufficient to reduce the sample complexity to $O(n)$. The side information consists of a weight vector for each of the modes which is not orthogonal to any of the latent factors along that mode; this is significantly weaker than assuming noisy knowledge of the subspaces. We provide an algorithm that utilizes this side information to produce a consistent estimator with $O(n^{1+\kappa})$ samples for any small constant $\kappa > 0$.
翻訳日:2022-11-14 22:55:35 公開日:2021-09-10
# 神経進化と勾配降下の対応

Correspondence between neuroevolution and gradient descent ( http://arxiv.org/abs/2008.06643v3 )

ライセンス: Link先を確認
Stephen Whitelam, Viktor Selin, Sang-Won Park, Isaac Tamblyn(参考訳) ニューラルネットワークを条件付き確率的突然変異またはその重みの神経進化で訓練することは、小さな突然変異の限界において、ガウスホワイトノイズの存在下での損失関数の勾配降下と等価であることを示す。 学習過程の独立性よりも平均的に、神経進化は損失関数の勾配降下と等価である。 我々は,浅部および深部ニューラルネットワークの有限突然変異に対して,この対応が観測可能であることを示すため,数値シミュレーションを用いた。 本研究は,神経ネットワークトレーニング手法の2つのファミリー間の関係を,通常,根本的に異なるものと見なす。

We show analytically that training a neural network by conditioned stochastic mutation or neuroevolution of its weights is equivalent, in the limit of small mutations, to gradient descent on the loss function in the presence of Gaussian white noise. Averaged over independent realizations of the learning process, neuroevolution is equivalent to gradient descent on the loss function. We use numerical simulation to show that this correspondence can be observed for finite mutations,for shallow and deep neural networks. Our results provide a connection between two families of neural-network training methods that are usually considered to be fundamentally different.
翻訳日:2022-10-28 21:03:02 公開日:2021-09-10
# 変圧器用ハード検索デコーダの学習

Learning Hard Retrieval Decoder Attention for Transformers ( http://arxiv.org/abs/2009.14658v2 )

ライセンス: Link先を確認
Hongfei Xu and Qiuhui Liu and Josef van Genabith and Deyi Xiong(参考訳) Transformer変換モデルは、並列化が容易なマルチヘッドアテンション機構に基づいている。 マルチヘッドアテンションネットワークは、スケールされたドット積アテンション関数を並列に実行し、異なる表現部分空間から異なる位置の情報を共用してモデルを強化する。 本稿では,すべてのトークンではなく,文中の1つのトークンのみに注目する,難解な検索注意を学習するためのアプローチを提案する。 これにより、注目確率と標準スケールドット積注目値列との行列乗算を、単純で効率的な検索操作に置き換えることができる。 我々は,デコーダの自己・横断的ネットワークで使用する機械翻訳作業において,翻訳品質を保ちながら,ハード検索の注意機構がデコーダの1.43倍高速であることを示す。

The Transformer translation model is based on the multi-head attention mechanism, which can be parallelized easily. The multi-head attention network performs the scaled dot-product attention function in parallel, empowering the model by jointly attending to information from different representation subspaces at different positions. In this paper, we present an approach to learning a hard retrieval attention where an attention head only attends to one token in the sentence rather than all tokens. The matrix multiplication between attention probabilities and the value sequence in the standard scaled dot-product attention can thus be replaced by a simple and efficient retrieval operation. We show that our hard retrieval attention mechanism is 1.43 times faster in decoding, while preserving translation quality on a wide range of machine translation tasks when used in the decoder self- and cross-attention networks.
翻訳日:2022-10-12 23:26:17 公開日:2021-09-10
# リニアニューラルネットワークのトレーニングにおけるインシシトバイアスの統一的視点

A Unifying View on Implicit Bias in Training Linear Neural Networks ( http://arxiv.org/abs/2010.02501v3 )

ライセンス: Link先を確認
Chulhee Yun, Shankar Krishnan, Hossein Mobahi(参考訳) 線形ニューラルネットワークトレーニングにおける勾配流(無限小ステップサイズの勾配勾配勾配勾配)の暗黙バイアスについて検討する。 本稿では,完全連結,対角,畳み込みネットワークを具体例に含むニューラルネットワークのテンソル定式化を提案し,線形テンソルネットワークと呼ばれる定式化の線形バージョンについて検討する。 この定式化により、ネットワークパラメータの収束方向を、ネットワークによって定義されるテンソルの特異ベクトルとして特徴づけることができる。 直交分解可能なl$層線形テンソルネットワークに対して,分離分類上の勾配流は,ネットワークが定義する「変換」入力空間において,$\ell_{2/l}$ max-margin 問題の定常点を求める。 非決定回帰の場合、勾配流は変換された入力空間で重み付き$\ell_1$ と $\ell_2$ のノルムを補間するノルムのような関数を最小化する大域的最小値を求める。 我々の定理は、標準収束仮定を取り除きながら、文献中の既存の結果を仮定する。 また、分析を裏付ける実験も行います。

We study the implicit bias of gradient flow (i.e., gradient descent with infinitesimal step size) on linear neural network training. We propose a tensor formulation of neural networks that includes fully-connected, diagonal, and convolutional networks as special cases, and investigate the linear version of the formulation called linear tensor networks. With this formulation, we can characterize the convergence direction of the network parameters as singular vectors of a tensor defined by the network. For $L$-layer linear tensor networks that are orthogonally decomposable, we show that gradient flow on separable classification finds a stationary point of the $\ell_{2/L}$ max-margin problem in a "transformed" input space defined by the network. For underdetermined regression, we prove that gradient flow finds a global minimum which minimizes a norm-like function that interpolates between weighted $\ell_1$ and $\ell_2$ norms in the transformed input space. Our theorems subsume existing results in the literature while removing standard convergence assumptions. We also provide experiments that corroborate our analysis.
翻訳日:2022-10-10 06:22:15 公開日:2021-09-10
# インクリメンタルメタ自己学習による半教師付き関係抽出

Semi-supervised Relation Extraction via Incremental Meta Self-Training ( http://arxiv.org/abs/2010.16410v2 )

ライセンス: Link先を確認
Xuming Hu, Chenwei Zhang, Fukun Ma, Chenyao Liu, Lijie Wen, Philip S. Yu(参考訳) 大規模アノテーションの取得による人的努力の軽減を目的として,限定的なサンプルからの学習に加えて,ラベルのないデータを活用することを目的とする。 既存の自己学習手法は段階的なドリフト問題に悩まされ、未ラベルデータにノイズのある擬似ラベルが組み込まれている。 擬似ラベルのノイズを軽減するために,関係ラベル生成ネットワークは,関係分類ネットワークを付加的なメタ目的として成功・失敗した試みから,擬似ラベルの品質評価を(メタ)学習によって生成するメタsreという手法を提案する。 ノイズの少ない擬似ラベルの影響を低減するため、metasreはラベルのないサンプルに対して擬似ラベルの品質を評価する擬似ラベル選択・悪用方式を採用し、自己学習で高品質の擬似ラベルのみを活用し、堅牢性と正確性の両方でラベル付きサンプルを段階的に増補する。 2つの公開データセットにおける実験結果は,提案手法の有効性を示している。

To alleviate human efforts from obtaining large-scale annotations, Semi-Supervised Relation Extraction methods aim to leverage unlabeled data in addition to learning from limited samples. Existing self-training methods suffer from the gradual drift problem, where noisy pseudo labels on unlabeled data are incorporated during training. To alleviate the noise in pseudo labels, we propose a method called MetaSRE, where a Relation Label Generation Network generates quality assessment on pseudo labels by (meta) learning from the successful and failed attempts on Relation Classification Network as an additional meta-objective. To reduce the influence of noisy pseudo labels, MetaSRE adopts a pseudo label selection and exploitation scheme which assesses pseudo label quality on unlabeled samples and only exploits high-quality pseudo labels in a self-training fashion to incrementally augment labeled samples for both robustness and accuracy. Experimental results on two public datasets demonstrate the effectiveness of the proposed approach.
翻訳日:2022-10-10 05:26:50 公開日:2021-09-10
# 言語間伝達のためのモデル選択

Model Selection for Cross-Lingual Transfer ( http://arxiv.org/abs/2010.06127v2 )

ライセンス: Link先を確認
Yang Chen and Alan Ritter(参考訳) mBERT や XLM-RoBERTa などの多言語コーパスで事前訓練された変換器は,言語間転送能力に優れていた。 ゼロショット転送設定では、英語のトレーニングデータのみを使用し、他のターゲット言語で微調整モデルを評価する。 これは驚くほどうまく機能するが、異なる微調整実行間のターゲット言語性能にはかなりのばらつきが見られ、ゼロショット設定では、複数の微調整モデルの中からターゲット言語開発データが選択できない。 以前の作業では、異なる学習率、ステップ数、その他のハイパーパラメータで微調整されたモデルの中から選択するために、英語の開発データに頼っていた。 本稿では、補助的なピボット言語で少量のアノテートデータが利用できる場合、一貫してより良いモデルを選択することができることを示す。 本稿では,言語横断能力を予測するために,微調整されたモデルの内部表現を用いたモデル選択のための機械学習手法を提案する。 広範な実験で、この手法は25ヶ国語(低リソース言語8ヶ国語を含む)の英語検証データよりも優れたモデルを一貫して選択し、ターゲット言語開発データを用いたモデル選択に匹敵する結果を得ることが多い。

Transformers that are pre-trained on multilingual corpora, such as, mBERT and XLM-RoBERTa, have achieved impressive cross-lingual transfer capabilities. In the zero-shot transfer setting, only English training data is used, and the fine-tuned model is evaluated on another target language. While this works surprisingly well, substantial variance has been observed in target language performance between different fine-tuning runs, and in the zero-shot setup, no target-language development data is available to select among multiple fine-tuned models. Prior work has relied on English dev data to select among models that are fine-tuned with different learning rates, number of steps and other hyperparameters, often resulting in suboptimal choices. In this paper, we show that it is possible to select consistently better models when small amounts of annotated data are available in auxiliary pivot languages. We propose a machine learning approach to model selection that uses the fine-tuned model's own internal representations to predict its cross-lingual capabilities. In extensive experiments we find that this method consistently selects better models than English validation data across twenty five languages (including eight low-resource languages), and often achieves results that are comparable to model selection using target language development data.
翻訳日:2022-10-07 22:45:24 公開日:2021-09-10
# 環境予測のための注意強化convlstm

Attention Augmented ConvLSTM for Environment Prediction ( http://arxiv.org/abs/2010.09662v3 )

ライセンス: Link先を確認
Bernard Lange, Masha Itkina and Mykel J. Kochenderfer(参考訳) ロボットシステムにおける安全で積極的な計画には、環境の正確な予測が必要である。 環境予測に関する先行研究は,鳥の目視環境表現に映像フレーム予測技術を適用した。 以前はConvLSTMベースのフレームワークを使用していたため、移動オブジェクトの大きなぼやけや消滅が生じ、安全クリティカルなアプリケーションでの使用が妨げられる。 本研究では,これらの問題に対処するため,ConvLSTMの2つの拡張を提案する。 本稿では,時空間占有予測のためのTAAConvLSTMと自己注意Augmented ConvLSTM(SAAConvLSTM)フレームワークを提案する。

Safe and proactive planning in robotic systems generally requires accurate predictions of the environment. Prior work on environment prediction applied video frame prediction techniques to bird's-eye view environment representations, such as occupancy grids. ConvLSTM-based frameworks used previously often result in significant blurring and vanishing of moving objects, thus hindering their applicability for use in safety-critical applications. In this work, we propose two extensions to the ConvLSTM to address these issues. We present the Temporal Attention Augmented ConvLSTM (TAAConvLSTM) and Self-Attention Augmented ConvLSTM (SAAConvLSTM) frameworks for spatiotemporal occupancy prediction, and demonstrate improved performance over baseline architectures on the real-world KITTI and Waymo datasets.
翻訳日:2022-10-05 20:09:38 公開日:2021-09-10
# DuoRAT: よりシンプルなテキストからSQLモデルを目指す

DuoRAT: Towards Simpler Text-to-SQL Models ( http://arxiv.org/abs/2010.11119v2 )

ライセンス: Link先を確認
Torsten Scholak, Raymond Li, Dzmitry Bahdanau, Harm de Vries, Chris Pal(参考訳) 最近のニューラルテキスト-SQLモデルは、自然言語の質問を、目に見えないデータベース上の対応するSQLクエリに効果的に翻訳することができる。 主にスパイダーデータセットに取り組んでいる研究者たちは、この問題に対するより高度な解決策を提案している。 この傾向とは対照的に,本稿では単純化に焦点をあてる。 これは最先端のRAT-SQLモデルを再実装したもので、RAT-SQLとは異なり、ビルディングブロックはリレーショナル・アウェアやバニラ・トランスフォーマーのみを使用する。 ベースラインモデルとしてDuoRATを用いたいくつかのアブレーション実験を行った。 我々の実験は、いくつかの技術の有用性を確認し、その問題とスキーマを結びつける構造的SQL機能や機能など、他の技術の冗長性を指摘した。

Recent neural text-to-SQL models can effectively translate natural language questions to corresponding SQL queries on unseen databases. Working mostly on the Spider dataset, researchers have proposed increasingly sophisticated solutions to the problem. Contrary to this trend, in this paper we focus on simplifications. We begin by building DuoRAT, a re-implementation of the state-of-the-art RAT-SQL model that unlike RAT-SQL is using only relation-aware or vanilla transformers as the building blocks. We perform several ablation experiments using DuoRAT as the baseline model. Our experiments confirm the usefulness of some techniques and point out the redundancy of others, including structural SQL features and features that link the question with the schema.
翻訳日:2022-10-04 23:58:56 公開日:2021-09-10
# 暗黙のユーザーフィードバックから学習し、大規模対話型AIシステムにおける自然言語理解を改善するスケーラブルなフレームワーク

A scalable framework for learning from implicit user feedback to improve natural language understanding in large-scale conversational AI systems ( http://arxiv.org/abs/2010.12251v2 )

ライセンス: Link先を確認
Sunghyun Park, Han Li, Ameen Patel, Sidharth Mudgal, Sungjin Lee, Young-Bum Kim, Spyros Matsoukas, Ruhi Sarikaya(参考訳) 自然言語理解(Natural Language Understanding, NLU)は、会話型AIやデジタルアシスタントシステムの中で確立されたコンポーネントであり、ユーザ要求のセマンティックな理解を生み出す責任がある。 我々は,ユーザインタラクションデータと対話コンテキストが,ユーザの満足度や意図を推測できるリッチな情報に埋め込まれているという知見を取り入れ,暗黙のユーザフィードバックを活用することによって,大規模対話型AIシステムにおいてNLUを改善するためのスケーラブルで自動的なアプローチを提案する。 特に,NLUを実運用トラフィックから改善するために,新たな監視データをキュレートするための一般的なドメインに依存しないフレームワークを提案する。 広範な実験により,大規模生産システムにおけるnluの適用結果とnlu改善結果を示し,その影響を10領域にまたがって示した。

Natural Language Understanding (NLU) is an established component within a conversational AI or digital assistant system, and it is responsible for producing semantic understanding of a user request. We propose a scalable and automatic approach for improving NLU in a large-scale conversational AI system by leveraging implicit user feedback, with an insight that user interaction data and dialog context have rich information embedded from which user satisfaction and intention can be inferred. In particular, we propose a general domain-agnostic framework for curating new supervision data for improving NLU from live production traffic. With an extensive set of experiments, we show the results of applying the framework and improving NLU for a large-scale production system and show its impact across 10 domains.
翻訳日:2022-10-03 22:35:27 公開日:2021-09-10
# COUGH:COVID-19 FAQ検索のための課題データセットとモデル

COUGH: A Challenge Dataset and Models for COVID-19 FAQ Retrieval ( http://arxiv.org/abs/2010.12800v2 )

ライセンス: Link先を確認
Xinliang Frederick Zhang, Heming Sun, Xiang Yue, Simon Lin, Huan Sun(参考訳) COVID-19 FAQ検索のための大規模で挑戦的なデータセットであるCOUGHを提示する。 標準的なFAQデータセットと同様に、COUGHはFAQ Bank、Query Bank、Relevance Setの3つの部分で構成される。 FAQ銀行には、55の信頼できるウェブサイト(CDCやWHOなど)から取り除かれた16KのFAQアイテムが含まれている。 評価には、クエリバンクと関連セットを導入し、前者は1,236のヒューマンパラフレーズクエリを、後者はクエリ毎に32の人間アノテーションのFAQアイテムを格納する。 BM25とBERT上に構築されたさまざまなFAQ検索モデルを用いてCOUGHを解析し、最高のモデルが48.8のP@5で達成し、COUGHが提示した大きな課題とさらなる改善に向けた今後の研究を奨励していることを示す。 私たちのcoughデータセットはhttps://github.com/sunlab-osu/covid-faqで利用可能です。

We present a large, challenging dataset, COUGH, for COVID-19 FAQ retrieval. Similar to a standard FAQ dataset, COUGH consists of three parts: FAQ Bank, Query Bank and Relevance Set. The FAQ Bank contains ~16K FAQ items scraped from 55 credible websites (e.g., CDC and WHO). For evaluation, we introduce Query Bank and Relevance Set, where the former contains 1,236 human-paraphrased queries while the latter contains ~32 human-annotated FAQ items for each query. We analyze COUGH by testing different FAQ retrieval models built on top of BM25 and BERT, among which the best model achieves 48.8 under P@5, indicating a great challenge presented by COUGH and encouraging future research for further improvement. Our COUGH dataset is available at https://github.com/sunlab-osu/covid-faq.
翻訳日:2022-10-03 13:18:50 公開日:2021-09-10
# 事前学習型言語モデルを用いた教師なしパラフレージング

Unsupervised Paraphrasing with Pretrained Language Models ( http://arxiv.org/abs/2010.12885v2 )

ライセンス: Link先を確認
Tong Niu, Semih Yavuz, Yingbo Zhou, Nitish Shirish Keskar, Huan Wang, Caiming Xiong(参考訳) パラフレーズ生成は、トレーニング目標とモデルアーキテクチャの設計における最近の進歩から広く恩恵を受けている。 しかしながら、これまでの調査は、収集にコストがかかる大量のラベル付きデータを必要とする教師付きメソッドに重点を置いてきた。 この欠点に対処するため、私たちはトランスファーラーニングアプローチを採用し、教師なし環境で事前学習した言語モデルが高品質なパラフレーズを生成できるトレーニングパイプラインを提案する。 提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(db)と呼ばれる新しい復号アルゴリズムからなる。 入力と異なる表面形状を強制するために、言語モデルがソースシーケンスに含まれるトークンを出力するたびに、DBは、次の世代のステップに後続のソーストークンを出力することを防止する。 本研究では,Quora Question Pair (QQP) とParaNMTデータセットの双方において,本手法が最先端の性能を達成し,異なる分布の2つのデータセット間のドメインシフトに頑健であることを示す。 また,このモデルが他の言語でのパラフレーズに変換されることを示す。

Paraphrase generation has benefited extensively from recent progress in the designing of training objectives and model architectures. However, previous explorations have largely focused on supervised methods, which require a large amount of labeled data that is costly to collect. To address this drawback, we adopt a transfer learning approach and propose a training pipeline that enables pre-trained language models to generate high-quality paraphrases in an unsupervised setting. Our recipe consists of task-adaptation, self-supervision, and a novel decoding algorithm named Dynamic Blocking (DB). To enforce a surface form dissimilar from the input, whenever the language model emits a token contained in the source sequence, DB prevents the model from outputting the subsequent source token for the next generation step. We show with automatic and human evaluations that our approach achieves state-of-the-art performance on both the Quora Question Pair (QQP) and the ParaNMT datasets and is robust to domain shift between the two datasets of distinct distributions. We also demonstrate that our model transfers to paraphrasing in other languages without any additional finetuning.
翻訳日:2022-10-03 13:10:21 公開日:2021-09-10
# マルチタスク学習における伝達の測定とハーネス

Measuring and Harnessing Transference in Multi-Task Learning ( http://arxiv.org/abs/2010.15413v3 )

ライセンス: Link先を確認
Christopher Fifty, Ehsan Amid, Zhe Zhao, Tianhe Yu, Rohan Anil, Chelsea Finn(参考訳) マルチタスク学習は、あるタスクが学習した情報を活用し、他のタスクのトレーニングの恩恵を受けることができる。 この能力にもかかわらず、ナイーブな定式化はしばしば性能を低下させ、特にコトレーニングの恩恵を受けるタスクを特定することは難しい設計問題である。 本稿では,情報伝達や伝達のダイナミクスを,学習中におけるタスク間で解析する。 具体的には、タスク間の転移を定量化し、この量を用いてマルチタスク学習の最適化ダイナミクスをより理解し、全体的な学習性能を向上させるための類似性尺度を開発した。 後者の場合、我々は転移計量を利用する2つの方法を提案する。 第1段階はマクロレベルで動作し、第2段階は各トレーニングステップでタスク勾配を組み合わせる方法を決定することで、第2段階はマイクロレベルでトレーニングするべきタスクを選択する。 これらの手法は、3つの教師付きマルチタスク学習ベンチマークと1つのマルチタスク強化学習パラダイムにおける先行研究よりも大幅に改善される可能性がある。

Multi-task learning can leverage information learned by one task to benefit the training of other tasks. Despite this capacity, naive formulations often degrade performance and in particular, identifying the tasks that would benefit from co-training remains a challenging design question. In this paper, we analyze the dynamics of information transfer, or transference, across tasks throughout training. Specifically, we develop a similarity measure that can quantify transference among tasks and use this quantity to both better understand the optimization dynamics of multi-task learning as well as improve overall learning performance. In the latter case, we propose two methods to leverage our transference metric. The first operates at a macro-level by selecting which tasks should train together while the second functions at a micro-level by determining how to combine task gradients at each training step. We find these methods can lead to significant improvement over prior work on three supervised multi-task learning benchmarks and one multi-task reinforcement learning paradigm.
翻訳日:2022-10-01 22:01:52 公開日:2021-09-10
# ランダム化中点サンプリング法のエルゴード性、バイアス、漸近正規性について

On the Ergodicity, Bias and Asymptotic Normality of Randomized Midpoint Sampling Method ( http://arxiv.org/abs/2011.03176v2 )

ライセンス: Link先を確認
Ye He, Krishnakumar Balasubramanian, Murat A. Erdogdu(参考訳) SL19]により提案されたランダム化中間点法は,連続時間ランゲヴィン拡散をシミュレーションするための最適離散化法として登場した。 本稿では, 強凸および滑らかな電位の場合に着目し, 過減衰および過減衰ランジュバン拡散に対するランダム中点離散化法のいくつかの確率的性質について解析する。 まず, 一定のステップサイズの離散化で得られた離散鎖の定常分布を特徴付け, 対象分布から逸脱していることを示す。 特に、ステップサイズは漸近的不偏性を得るためにゼロにする必要がある。 次に、ランダム化中点法を用いて数値積分の漸近正規性を確立し、他の離散化に対する相対的な利点と欠点を明らかにする。 その結果,数値積分に対する信頼区間の取得など,ランダム化中点離散化手法の挙動に関するいくつかの知見が得られた。

The randomized midpoint method, proposed by [SL19], has emerged as an optimal discretization procedure for simulating the continuous time Langevin diffusions. Focusing on the case of strong-convex and smooth potentials, in this paper, we analyze several probabilistic properties of the randomized midpoint discretization method for both overdamped and underdamped Langevin diffusions. We first characterize the stationary distribution of the discrete chain obtained with constant step-size discretization and show that it is biased away from the target distribution. Notably, the step-size needs to go to zero to obtain asymptotic unbiasedness. Next, we establish the asymptotic normality for numerical integration using the randomized midpoint method and highlight the relative advantages and disadvantages over other discretizations. Our results collectively provide several insights into the behavior of the randomized midpoint discretization method, including obtaining confidence intervals for numerical integrations.
翻訳日:2022-09-29 04:51:04 公開日:2021-09-10
# bi-objective travel thief 問題に対する重み付けサム法

A weighted-sum method for solving the bi-objective traveling thief problem ( http://arxiv.org/abs/2011.05081v2 )

ライセンス: Link先を確認
Jonatas B. C. Chagas, Markus Wagner(参考訳) 多くの現実世界の最適化問題には複数の相互作用コンポーネントがある。 これらのそれぞれはnp硬く、互いに相反する、すなわち1つのコンポーネントの最適解は必ずしも他のコンポーネントの最適解を表すものではない。 これは、各コンポーネントが全体のソリューション品質に与える影響が、例によって異なる、単目的の定式化の難しさである。 本稿では,旅行セールスパーソン問題とクナップサック問題を構成する,旅行泥棒問題の双方向定式化について検討する。 本稿では,既存のヒューリスティクスのランダム化バージョンを用いた重み付けサム法を提案する。この手法は,最近のコンペの9つのインスタンスのうち6つで参加者を上回り,379個の単一目的問題に対して新たな解決策を見出した。

Many real-world optimization problems have multiple interacting components. Each of these can be NP-hard and they can be in conflict with each other, i.e., the optimal solution for one component does not necessarily represent an optimal solution for the other components. This can be a challenge for single-objective formulations, where the respective influence that each component has on the overall solution quality can vary from instance to instance. In this paper, we study a bi-objective formulation of the traveling thief problem, which has as components the traveling salesperson problem and the knapsack problem. We present a weighted-sum method that makes use of randomized versions of existing heuristics, that outperforms participants on 6 of 9 instances of recent competitions, and that has found new best solutions to 379 single-objective problem instances.
翻訳日:2022-09-27 07:06:03 公開日:2021-09-10
# 自己監督型マルチタスク学習による映像中の異常検出

Anomaly Detection in Video via Self-Supervised and Multi-Task Learning ( http://arxiv.org/abs/2011.07491v3 )

ライセンス: Link先を確認
Mariana-Iuliana Georgescu, Antonio Barbalau, Radu Tudor Ionescu, Fahad Shahbaz Khan, Marius Popescu, Mubarak Shah(参考訳) ビデオにおける異常検出はコンピュータビジョンの問題である。 トレーニング時間に異常なイベントがないため、異常検出には完全な監視なしで学習方法を設計する必要がある。 本稿では,オブジェクトレベルでの自己教師付きマルチタスク学習を通じて,映像中の異常イベント検出にアプローチする。 まず,事前学習した検出器を用いて物体を検知する。 次に、3次元畳み込みニューラルネットワークを訓練し、複数のプロキシタスクを共同で学習し、識別的異常情報を生成する。 自己監督されたタスクは (i)前方・後方移動物体(矢印)の識別 (ii)連続/間欠フレームにおける物体の判別(動きの不規則性) (iii)具体的外観情報の再構成 知識蒸留タスクは, 分類情報と検出情報の両方を考慮に入れ, 異常発生時の教師と生徒のモデル間の大きな予測誤差を発生させる。 我々の知る限りでは、我々はマルチタスク学習問題としてビデオにおける異常事象検出に初めてアプローチし、複数の自己管理・知識蒸留プロキシタスクを単一のアーキテクチャに統合する。 当社の軽量アーキテクチャは,3つのベンチマーク – Avenue, ShanghaiTech, UCSD Ped2 – において,最先端の手法よりも優れています。 さらに,マルチタスク学習環境において,自己指導型学習と正規性特化蒸留を統合することの重要性を示すアブレーション研究を行った。

Anomaly detection in video is a challenging computer vision problem. Due to the lack of anomalous events at training time, anomaly detection requires the design of learning methods without full supervision. In this paper, we approach anomalous event detection in video through self-supervised and multi-task learning at the object level. We first utilize a pre-trained detector to detect objects. Then, we train a 3D convolutional neural network to produce discriminative anomaly-specific information by jointly learning multiple proxy tasks: three self-supervised and one based on knowledge distillation. The self-supervised tasks are: (i) discrimination of forward/backward moving objects (arrow of time), (ii) discrimination of objects in consecutive/intermittent frames (motion irregularity) and (iii) reconstruction of object-specific appearance information. The knowledge distillation task takes into account both classification and detection information, generating large prediction discrepancies between teacher and student models when anomalies occur. To the best of our knowledge, we are the first to approach anomalous event detection in video as a multi-task learning problem, integrating multiple self-supervised and knowledge distillation proxy tasks in a single architecture. Our lightweight architecture outperforms the state-of-the-art methods on three benchmarks: Avenue, ShanghaiTech and UCSD Ped2. Additionally, we perform an ablation study demonstrating the importance of integrating self-supervised learning and normality-specific distillation in a multi-task learning setting.
翻訳日:2022-09-25 07:13:45 公開日:2021-09-10
# NegatER:コモンセンス知識ベースにおける否定の発見

NegatER: Unsupervised Discovery of Negatives in Commonsense Knowledge Bases ( http://arxiv.org/abs/2011.07497v2 )

ライセンス: Link先を確認
Tara Safavi, Jing Zhu, Danai Koutra(参考訳) 機械における常識知識の符号化は、人工知能の長年の目標である。 近年,自動知識ベース(KB)構築技術により,この目標に向けての進歩が進んでいる。 しかしながら、このような手法は主に正(真)のKB文の取得に焦点が当てられているが、負(偽)のKB文はコモンセンスKBに対する差別的推論においても重要であることが多い。 後者への第一歩として,コンテクスト言語モデル(lm)を用いて,commonsense kbsの潜在的な負をランク付けするフレームワークnegaterを提案する。 重要なことに、ほとんどのKBは負を含まないため、NegatERはLMの正の知識にのみ依存し、根本的な負の例を必要としない。 実験により、複数の対照的なデータ拡張アプローチと比較して、NegatERはより文法的、一貫性があり、情報的である負の値を出力し、挑戦的なKB完了タスクにおいて統計的に有意な精度の改善をもたらし、LMにおける肯定的な知識が負の知識を生成するために「再目的」できることを確認した。

Codifying commonsense knowledge in machines is a longstanding goal of artificial intelligence. Recently, much progress toward this goal has been made with automatic knowledge base (KB) construction techniques. However, such techniques focus primarily on the acquisition of positive (true) KB statements, even though negative (false) statements are often also important for discriminative reasoning over commonsense KBs. As a first step toward the latter, this paper proposes NegatER, a framework that ranks potential negatives in commonsense KBs using a contextual language model (LM). Importantly, as most KBs do not contain negatives, NegatER relies only on the positive knowledge in the LM and does not require ground-truth negative examples. Experiments demonstrate that, compared to multiple contrastive data augmentation approaches, NegatER yields negatives that are more grammatical, coherent, and informative -- leading to statistically significant accuracy improvements in a challenging KB completion task and confirming that the positive knowledge in LMs can be "re-purposed" to generate negative knowledge.
翻訳日:2022-09-25 06:48:03 公開日:2021-09-10
# 部分-部分間クラウド登録のための多機能誘導ネットワーク

Multi-Features Guidance Network for partial-to-partial point cloud registration ( http://arxiv.org/abs/2011.12079v2 )

ライセンス: Link先を確認
Hongyuan Wang, Xiang Liu, Wen Kang, Zhiqiang Yan, Bingwen Wang, Qianhao Ning(参考訳) 本稿では,大次元差,大きな意味ギャップ,ハイブリッド特徴による相互干渉の問題を解消するために,部分-部分点間クラウド登録(MFG)のための多機能誘導ネットワークを提案する。 提案するネットワークは,キーポイントの特徴抽出,対応検索,対応信頼度計算,SVDの4つの部分から構成される。 先行研究と異なり, 形状特徴と空間座標を用いて対応関係を独立に探索し, マッチング結果を用いて最終マッチング行列を得る。 対応信頼度計算モジュールでは,特徴マッチング行列と座標マッチング行列との相関関係に基づいて,各対応の信頼性を評価し,不一致点や非一致点の影響を低減する。 実験の結果,我々のネットワークは計算効率を保ちながら最先端のネットワークよりも優れていた。

To eliminate the problems of large dimensional differences, big semantic gap, and mutual interference caused by hybrid features, in this paper, we propose a novel Multi-Features Guidance Network for partial-to-partial point cloud registration(MFG). The proposed network mainly includes four parts: keypoints' feature extraction, correspondences searching, correspondences credibility computation, and SVD, among which correspondences searching and correspondence credibility computation are the cores of the network. Unlike the previous work, we utilize the shape features and the spatial coordinates to guide correspondences search independently and fusing the matching results to obtain the final matching matrix. In the correspondences credibility computation module, based on the conflicted relationship between the features matching matrix and the coordinates matching matrix, we score the reliability for each correspondence, which can reduce the impact of mismatched or non-matched points. Experimental results show that our network outperforms the current state-of-the-art while maintaining computational efficiency.
翻訳日:2022-09-21 13:38:36 公開日:2021-09-10
# nerfies: 変形可能な神経放射場

Nerfies: Deformable Neural Radiance Fields ( http://arxiv.org/abs/2011.12948v5 )

ライセンス: Link先を確認
Keunhong Park, Utkarsh Sinha, Jonathan T. Barron, Sofien Bouaziz, Dan B Goldman, Steven M. Seitz, Ricardo Martin-Brualla(参考訳) 携帯電話からカジュアルに撮影した写真やビデオを用いて、変形可能なシーンをリアルに再構築する最初の方法を提案する。 提案手法は、観測された各点を正準5D NeRFに湾曲する追加の連続体積変形場を最適化することにより、ニューラルラジアンス場(NeRF)を増強する。 我々はこれらのNeRFのような変形場が局所最小化の傾向にあることを観察し、より堅牢な最適化を可能にする座標モデルに対する粗大な最適化法を提案する。 幾何学処理や物理シミュレーションの原理をnerf様モデルに適用することにより, 変形場の弾性的正則化を行い, 強靭性をさらに向上させる。 提案手法は, カジュアルに捉えた自撮り写真や動画を変形可能なNeRFモデルに変換し, 任意の視点から被写体の写実的レンダリングを可能にする。 本手法は,2台の携帯電話を用いたリグを用いて時間同期データを収集し,異なる視点で同一ポーズの列車/評価画像を得る。 提案手法は,非厳密な場面を忠実に再構築し,不明瞭な視点を高い忠実度で再現する。

We present the first method capable of photorealistically reconstructing deformable scenes using photos/videos captured casually from mobile phones. Our approach augments neural radiance fields (NeRF) by optimizing an additional continuous volumetric deformation field that warps each observed point into a canonical 5D NeRF. We observe that these NeRF-like deformation fields are prone to local minima, and propose a coarse-to-fine optimization method for coordinate-based models that allows for more robust optimization. By adapting principles from geometry processing and physical simulation to NeRF-like models, we propose an elastic regularization of the deformation field that further improves robustness. We show that our method can turn casually captured selfie photos/videos into deformable NeRF models that allow for photorealistic renderings of the subject from arbitrary viewpoints, which we dub "nerfies." We evaluate our method by collecting time-synchronized data using a rig with two mobile phones, yielding train/validation images of the same pose at different viewpoints. We show that our method faithfully reconstructs non-rigidly deforming scenes and reproduces unseen views with high fidelity.
翻訳日:2022-09-21 03:40:30 公開日:2021-09-10
# (参考訳) 深部回帰における不確実性ベンチマークのためのフレームワーク

A framework for benchmarking uncertainty in deep regression ( http://arxiv.org/abs/2109.09048v1 )

ライセンス: CC BY 4.0
Franko Schm\"ahling, J\"org Martin, Clemens Elster(参考訳) 深部回帰における不確実性定量化の評価のための枠組みを提案する。 このフレームワークは回帰関数が非線形関数の線形結合である回帰問題に基づいている。 基本的に、任意の複雑性レベルは、非線形関数の選択とそれらの領域の次元によって実現できる。 深い回帰に対する不確実性定量化の結果を統計的基準法で求めた結果と比較する。 基準法は、基礎となる非線形関数の知識を利用し、基準先行を用いたベイズ線形回帰に基づく。 不確実性定量化の信頼性は、計算された不確実性の大きさによるカバレッジ確率と精度で評価される。 深回帰における不確実性定量化の現在の手法に適用し,提案手法について述べる。 この柔軟性は、参照ソリューションの可用性とともに、不確実性定量化のためのベンチマークセットを定義するのにフレームワークを適させる。

We propose a framework for the assessment of uncertainty quantification in deep regression. The framework is based on regression problems where the regression function is a linear combination of nonlinear functions. Basically, any level of complexity can be realized through the choice of the nonlinear functions and the dimensionality of their domain. Results of an uncertainty quantification for deep regression are compared against those obtained by a statistical reference method. The reference method utilizes knowledge of the underlying nonlinear functions and is based on a Bayesian linear regression using a reference prior. Reliability of uncertainty quantification is assessed in terms of coverage probabilities, and accuracy through the size of calculated uncertainties. We illustrate the proposed framework by applying it to current approaches for uncertainty quantification in deep regression. The flexibility, together with the availability of a reference solution, makes the framework suitable for defining benchmark sets for uncertainty quantification.
翻訳日:2021-09-26 23:05:30 公開日:2021-09-10
# (参考訳) GEDIとSentinel-2を併用した高作・短作の壁面マッピング

Combining GEDI and Sentinel-2 for wall-to-wall mapping of tall and short crops ( http://arxiv.org/abs/2109.06972v1 )

ライセンス: CC BY 4.0
Stefania Di Tommaso (1), Sherrie Wang (1,2 and 3), David B. Lobell (1) ((1) Department of Earth System Science and Center on Food Security and the Environment, Stanford University, (2) Institute for Computational and Mathematical Engineering, Stanford University, (3) Goldman School of Public Policy, University of California, Berkeley)(参考訳) 高分解能作物型地図は食品の安全性を向上させるための重要なツールであり、モデルトレーニングのために基礎的真理ラベルを持つ地域でそのような地図を作成するためにリモートセンシングがますます使われている。 しかし、これらのラベルは多くの地域で欠落しており、光学センサーのような典型的な衛星の特徴で訓練された他の地域では、転送時に低い性能を示すことが多い。 ここでは、NASAのGEDI(Global Ecosystem Dynamics Investigation)宇宙搭載ライダー機器とSentinel-2光データを組み合わせて、作物型のマッピングを行う。 まず,中国,フランス,米国の3地域から得られたデータを用いて,gediのエネルギープロファイルが,米や大豆などより短い作物から高度2m以上の作物であるトウモロコシを確実に区別できることを実証した。 さらに、これらのGEDIプロファイルは、受動光学センサによって検出されるスペクトルおよび現象特性と比較して、地理的により不変な特徴を提供することを示す。 gediは84%以上のアキュラシーを持つ各地域の他の作物とメイズを区別することができ、光学的特徴の転送では64%に対して82%以上のアキュラシーを持つ地域をまたいで移動することができる。 最後に,sentinel-2からの光学画像に基づくモデルのトレーニングラベルを生成するためにgediプロファイルが使用できることを示す。 トウモロコシは世界で2番目に広く栽培されている作物であり、しばしば風景の中で栽培される唯一の背の高い作物である。

High resolution crop type maps are an important tool for improving food security, and remote sensing is increasingly used to create such maps in regions that possess ground truth labels for model training. However, these labels are absent in many regions, and models trained in other regions on typical satellite features, such as those from optical sensors, often exhibit low performance when transferred. Here we explore the use of NASA's Global Ecosystem Dynamics Investigation (GEDI) spaceborne lidar instrument, combined with Sentinel-2 optical data, for crop type mapping. Using data from three major cropped regions (in China, France, and the United States) we first demonstrate that GEDI energy profiles are capable of reliably distinguishing maize, a crop typically above 2m in height, from crops like rice and soybean that are shorter. We further show that these GEDI profiles provide much more invariant features across geographies compared to spectral and phenological features detected by passive optical sensors. GEDI is able to distinguish maize from other crops within each region with accuracies higher than 84%, and able to transfer across regions with accuracies higher than 82% compared to 64% for transfer of optical features. Finally, we show that GEDI profiles can be used to generate training labels for models based on optical imagery from Sentinel-2, thereby enabling the creation of 10m wall-to-wall maps of tall versus short crops in label-scarce regions. As maize is the second most widely grown crop in the world and often the only tall crop grown within a landscape, we conclude that GEDI offers great promise for improving global crop type maps.
翻訳日:2021-09-19 14:30:10 公開日:2021-09-10
# (参考訳) R3LIVE:ロバストでリアルタイム、RGB色、LiDAR-Inertial-Visual 密結合状態推定とマッピングパッケージ

R3LIVE: A Robust, Real-time, RGB-colored, LiDAR-Inertial-Visual tightly-coupled state Estimation and mapping package ( http://arxiv.org/abs/2109.07982v1 )

ライセンス: CC BY 4.0
Jiarong Lin and Fu Zhang(参考訳) 本稿では,lidar,慣性,視覚センサの測定を活用し,ロバストで正確な状態推定を実現する新しいlidar-inertial-visual sensor fusionフレームワークr3liveを提案する。 R3LIVEは、LIO(LiDAR-inertial odometry)とVIO(visual-inertial odometry)の2つのサブシステムから構成される。 LIOサブシステム(FAST-LIO)は、LiDARと慣性センサーからの測定を活用し、(つまり3Dポイントの位置)グローバルマップの幾何学構造を構築する。 VIOサブシステムは視覚慣性センサーのデータを使用し、地図のテクスチャ(つまり3Dポイントの色)をレンダリングする。 より具体的には、vioサブシステムは、フレーム対マップフォトメトリックエラーを最小化し、視覚的データを直接かつ効果的に融合する。 開発システムであるR3LIVEは、アーキテクチャ設計と実装を慎重に行い、これまでのR2LIVEに基づいて開発されている。 実験結果から,本システムは現状のシステムに比べて,より堅牢で高精度な状態推定が可能であることが示唆された(添付ビデオ参照)。 R3LIVEは様々な応用に向けて多用途でよく設計されたシステムであり、リアルタイムなロボットアプリケーションのためのSLAMシステムとして機能するだけでなく、測量やマッピングのようなアプリケーションのための密集した正確なRGB色の3Dマップを再構築することもできる。 さらに,r3liveの拡張性を高めるために,メッシュの再構築とテキスト化のための一連のオフラインユーティリティを開発し,r3liveとシミュレータやビデオゲームなど,さまざまな3dアプリケーションとのギャップをさらに最小化する(デモビデオ参照)。 私たちの発見を共有し、コミュニティに貢献するために、私たちはGithubでR3LIVEをオープンソース化しました。

In this letter, we propose a novel LiDAR-Inertial-Visual sensor fusion framework termed R3LIVE, which takes advantage of measurement of LiDAR, inertial, and visual sensors to achieve robust and accurate state estimation. R3LIVE is contained of two subsystems, the LiDAR-inertial odometry (LIO) and visual-inertial odometry (VIO). The LIO subsystem (FAST-LIO) takes advantage of the measurement from LiDAR and inertial sensors and builds the geometry structure of (i.e. the position of 3D points) global maps. The VIO subsystem utilizes the data of visual-inertial sensors and renders the map's texture (i.e. the color of 3D points). More specifically, the VIO subsystem fuses the visual data directly and effectively by minimizing the frame-to-map photometric error. The developed system R3LIVE is developed based on our previous work R2LIVE, with careful architecture design and implementation. Experiment results show that the resultant system achieves more robustness and higher accuracy in state estimation than current counterparts (see our attached video). R3LIVE is a versatile and well-engineered system toward various possible applications, which can not only serve as a SLAM system for real-time robotic applications, but can also reconstruct the dense, precise, RGB-colored 3D maps for applications like surveying and mapping. Moreover, to make R3LIVE more extensible, we develop a series of offline utilities for reconstructing and texturing meshes, which further minimizes the gap between R3LIVE and various of 3D applications such as simulators, video games and etc (see our demos video). To share our findings and make contributions to the community, we open source R3LIVE on our Github, including all of our codes, software utilities, and the mechanical design of our device.
翻訳日:2021-09-19 14:07:51 公開日:2021-09-10
# (参考訳) アノテーションの量の違いによる学習:ゼロから多くのラベルへ

Learning with Different Amounts of Annotation: From Zero to Many Labels ( http://arxiv.org/abs/2109.04408v2 )

ライセンス: CC BY 4.0
Shujian Zhang, Chengyue Gong, Eunsol Choi(参考訳) NLPシステムのトレーニングは通常、例ごとに単一の人間ラベルを持つ注釈付きデータへのアクセスを前提としている。 アノテータからの不完全なラベル付けと言語固有のあいまいさを考えると、単一ラベルは言語解釈のスペクトルを学ぶのに十分ではないと仮定する。 トレーニング例の小さなサブセットに対して,サンプル毎に複数のラベルを割り当てて,アノテーションの分散スキームを新たに検討する。 このような複数ラベルのサンプルを、より少ない例に注釈付けするコストで導入すると、自然言語推論タスクやエンティティタイピングタスクにおいて明らかな利益が得られます。 mixupデータ拡張フレームワークを拡張して、異なる量のアノテーション(ゼロ、ワン、複数ラベル)を使ったトレーニング例から学習可能な学習アルゴリズムを提案する。 このアルゴリズムは、不均一なトレーニングデータからの信号を効率よく組み合わせ、低アノテーション予算とクロスドメイン設定でさらなる利得をもたらす。 提案手法は2つのタスクにおいて一貫したゲインを達成し,トレーニング例に不均一にラベルを配布することは,多くのNLPタスクにとって有益であることを示す。

Training NLP systems typically assumes access to annotated data that has a single human label per example. Given imperfect labeling from annotators and inherent ambiguity of language, we hypothesize that single label is not sufficient to learn the spectrum of language interpretation. We explore new annotation distribution schemes, assigning multiple labels per example for a small subset of training examples. Introducing such multi label examples at the cost of annotating fewer examples brings clear gains on natural language inference task and entity typing task, even when we simply first train with a single label data and then fine tune with multi label examples. Extending a MixUp data augmentation framework, we propose a learning algorithm that can learn from training examples with different amount of annotation (with zero, one, or multiple labels). This algorithm efficiently combines signals from uneven training data and brings additional gains in low annotation budget and cross domain settings. Together, our method achieves consistent gains in two tasks, suggesting distributing labels unevenly among training examples can be beneficial for many NLP tasks.
翻訳日:2021-09-19 02:22:36 公開日:2021-09-10
# (参考訳) 網膜基底像を用いた深層学習に基づく赤色病変検出フレームワーク

A Deep Learning-Based Unified Framework for Red Lesions Detection on Retinal Fundus Images ( http://arxiv.org/abs/2109.05021v1 )

ライセンス: CC0 1.0
Norah Asiri, Muhammad Hussain, Fadwa Al Adel, Hatim Aboalsamh(参考訳) 微小動脈瘤(MA)と出血(HMs)は糖尿病網膜症(DR)の早期徴候である。 網膜基底画像におけるMAとHMの自動検出は難しい課題である。 既存の手法のほとんどは、テクスチャ、サイズ、形態の違いから、MAのみまたはHMのみを検出する。 いくつかの方法はMAとHMの両方を検知するが、形状と色の特徴の次元性の呪いに悩まされ、炎型HMのようなHMのすべての形状変化を検知できない。 深層学習の進歩を活かし,小病変と大病変を同時に扱う2流赤色病変検出システムを提案した。 本システムでは,血管の分節と形態的操作に基づく大規模赤色病変眼底画像のrois候補生成法を導入し,計算の複雑さを低減し,少数の候補を生成することで検出精度を向上させる。 検出には、Faster RCNNフレームワークを2つのストリームで適用しました。 骨モデルとして事前訓練されたvggnetを用い, 血管の分節化と候補発生を調整し, 最終的に適切なマッピングを学習し, 最先端の方法と比較し, 良好な赤色病変の検出を可能にした。 本手法は,ダイアレットdb1-maおよびdiaretdb1-hmデータセットの4fpi以下の感度,e-ophthaおよびrochデータセットの1fpiにおいて,種々の評価指標を用いて,各病変検出において高い精度が得られることを示す。 DRスクリーニングでは、DiaretDB1-MA、DiaretDB1-HM、e-ophthaデータセットの他の手法よりも優れている。

Red-lesions, i.e., microaneurysms (MAs) and hemorrhages (HMs), are the early signs of diabetic retinopathy (DR). The automatic detection of MAs and HMs on retinal fundus images is a challenging task. Most of the existing methods detect either only MAs or only HMs because of the difference in their texture, sizes, and morphology. Though some methods detect both MAs and HMs, they suffer from the curse of dimensionality of shape and colors features and fail to detect all shape variations of HMs such as flame-shaped HM. Leveraging the progress in deep learning, we proposed a two-stream red lesions detection system dealing simultaneously with small and large red lesions. For this system, we introduced a new ROIs candidates generation method for large red lesions fundus images; it is based on blood vessel segmentation and morphological operations, and reduces the computational complexity, and enhances the detection accuracy by generating a small number of potential candidates. For detection, we adapted the Faster RCNN framework with two streams. We used pre-trained VGGNet as a bone model and carried out several extensive experiments to tune it for vessels segmentation and candidates generation, and finally learning the appropriate mapping, which yields better detection of the red lesions comparing with the state-of-the-art methods. The experimental results validated the effectiveness of the system in the detection of both MAs and HMs; the method yields higher performance for per lesion detection according to sensitivity under 4 FPIs on DiaretDB1-MA and DiaretDB1-HM datasets, and 1 FPI on e-ophtha and ROCh datasets than the state of the art methods w.r.t. various evaluation metrics. For DR screening, the system outperforms other methods on DiaretDB1-MA, DiaretDB1-HM, and e-ophtha datasets.
翻訳日:2021-09-19 01:44:12 公開日:2021-09-10
# (参考訳) ソコバンにおけるポテンシャルベースリワード形成

Potential-based Reward Shaping in Sokoban ( http://arxiv.org/abs/2109.05022v1 )

ライセンス: CC BY 4.0
Zhao Yang, Mike Preuss, Aske Plaat(参考訳) 目標へのガイダンスが不足しているため,スパース・リワード強化学習の問題解決は困難である。 しかし、いくつかの問題では、事前知識は学習プロセスを強化するのに使うことができる。 リワード・シェーピング(Reward shaping)は、学習をスピードアップするために、事前知識を元の報酬関数に組み込む方法である。 従来の研究は,潜在的な機能を生成するための専門家知識の利用について検討してきたが,本研究では探索アルゴリズム(A*)を用いて,よく知られた計画課題であるソコバンの報酬形成機能を自動的に生成できるかどうかを検討した。 その結果,字型報酬関数による学習は,スクラッチから学習するよりも速いことがわかった。 その結果,距離関数はソコバンに適した関数であることが示唆された。 この研究は、報酬形成の助けを借りて複数のインスタンスを解決する可能性を示している。 結果は単一のポリシーに圧縮され、目に見えないインスタンスを解決できる一般的なポリシーをトレーニングするための最初のフレーズと見なすことができる。

Learning to solve sparse-reward reinforcement learning problems is difficult, due to the lack of guidance towards the goal. But in some problems, prior knowledge can be used to augment the learning process. Reward shaping is a way to incorporate prior knowledge into the original reward function in order to speed up the learning. While previous work has investigated the use of expert knowledge to generate potential functions, in this work, we study whether we can use a search algorithm(A*) to automatically generate a potential function for reward shaping in Sokoban, a well-known planning task. The results showed that learning with shaped reward function is faster than learning from scratch. Our results indicate that distance functions could be a suitable function for Sokoban. This work demonstrates the possibility of solving multiple instances with the help of reward shaping. The result can be compressed into a single policy, which can be seen as the first phrase towards training a general policy that is able to solve unseen instances.
翻訳日:2021-09-19 01:03:12 公開日:2021-09-10
# (参考訳) 部分的術中点集合データを用いたリアルタイムマルチモーダル画像登録

Real-time multimodal image registration with partial intraoperative point-set data ( http://arxiv.org/abs/2109.05023v1 )

ライセンス: CC BY 4.0
Zachary M C Baum, Yipeng Hu, Dean C Barratt(参考訳) 非厳密な点集合登録のためのディープニューラルネットワークアーキテクチャであるFree Point Transformer (FPT)を提案する。 グローバルな特徴抽出モジュールと点変換モジュールの2つのモジュールから構成されており、FPTは点近傍に基づく明示的な制約を前提とせず、従来の学習ベースの点集合登録手法の共通要件を克服する。 FPTは、可変数の点を持つ無順序および非構造化の点集合を受け入れるように設計されており、ヒューリスティックな制約を伴わずに「モデルフリー」アプローチを使用する。 トレーニングFPTは柔軟で、直感的に教師なしの損失関数を最小化するが、教師付き、半教師付き、一部または弱い教師付きトレーニングもサポートされている。 この柔軟性により、FPTは、地軸変形が困難または測定不可能なマルチモーダル画像登録問題に対処できる。 本稿では,前立腺磁気共鳴(MR)画像の非剛性登録と,スパルスサンプリング経直腸超音波(TRUS)画像へのFPTの適用を実証する。 登録誤差はそれぞれ4.71mmと4.81mmで、完全なTRUS画像と疎サンプリングTRUS画像が得られた。 実験結果から,非剛性および非剛性登録アルゴリズムの精度が向上し,計算時間が大幅に短縮された。 FPTで可能な迅速な推論は、リアルタイム登録が有用であるアプリケーションに特に適している。

We present Free Point Transformer (FPT) - a deep neural network architecture for non-rigid point-set registration. Consisting of two modules, a global feature extraction module and a point transformation module, FPT does not assume explicit constraints based on point vicinity, thereby overcoming a common requirement of previous learning-based point-set registration methods. FPT is designed to accept unordered and unstructured point-sets with a variable number of points and uses a "model-free" approach without heuristic constraints. Training FPT is flexible and involves minimizing an intuitive unsupervised loss function, but supervised, semi-supervised, and partially- or weakly-supervised training are also supported. This flexibility makes FPT amenable to multimodal image registration problems where the ground-truth deformations are difficult or impossible to measure. In this paper, we demonstrate the application of FPT to non-rigid registration of prostate magnetic resonance (MR) imaging and sparsely-sampled transrectal ultrasound (TRUS) images. The registration errors were 4.71 mm and 4.81 mm for complete TRUS imaging and sparsely-sampled TRUS imaging, respectively. The results indicate superior accuracy to the alternative rigid and non-rigid registration algorithms tested and substantially lower computation time. The rapid inference possible with FPT makes it particularly suitable for applications where real-time registration is beneficial.
翻訳日:2021-09-19 00:54:28 公開日:2021-09-10
# (参考訳) 深部強化学習による家庭用電池・太陽光発電システムの最適化

Optimizing a domestic battery and solar photovoltaic system with deep reinforcement learning ( http://arxiv.org/abs/2109.05024v1 )

ライセンス: CC BY 4.0
Alexander J. M. Kell, A. Stephen McGough, Matthew Forshaw(参考訳) バッテリーのコストと太陽光発電システムのコストの低下は、ソーラーバッテリーのホームシステムの増加につながった。 本研究では,システム内の電池の充電・放電挙動を最適化するために,深い決定論的ポリシー勾配アルゴリズムを用いる。 提案手法は, 電池の充電および放電時に連続的な動作空間を出力し, 確率的環境下でよく機能する。 このアルゴリズムは、1年以内に1世帯あたりの電力消費を1週間に1,100ドル程度に抑えることで、優れた性能を示している。

A lowering in the cost of batteries and solar PV systems has led to a high uptake of solar battery home systems. In this work, we use the deep deterministic policy gradient algorithm to optimise the charging and discharging behaviour of a battery within such a system. Our approach outputs a continuous action space when it charges and discharges the battery, and can function well in a stochastic environment. We show good performance of this algorithm by lowering the expenditure of a single household on electricity to almost \$1AUD for large batteries across selected weeks within a year.
翻訳日:2021-09-19 00:10:06 公開日:2021-09-10
# (参考訳) フロリダ州サーフサイドにおけるマンションビル崩壊調査:ビデオ特徴追跡手法

Investigation of condominium building collapse in Surfside, Florida: a video feature tracking approach ( http://arxiv.org/abs/2109.06629v1 )

ライセンス: CC BY 4.0
Xiangxiong Kong(参考訳) 2021年6月24日、フロリダ州サーフサイドにある12階建てのマンション(シャンプレーン・タワーズ・サウス)が部分的に崩壊し、98人が死亡した。 ソーシャルメディアから公開されているビデオクリップを用いて,この崩壊イベントを分析した。 コンピュータビジョンアルゴリズムを応用して,人間の目では容易に解釈できないビデオクリップから新たな情報を取り出す。 異なる映像フレームに対する差動特性を比較することで,動きの方向や大きさを直感的に示すことにより,落下する構造成分を定量化することができる。 我々は,この映像処理手法が破壊的構造破壊の調査に有用であることを実証し,この現象と他の構造崩壊のさらなる調査の基盤となることを期待する。

On June 24, 2021, a 12-story condominium building (Champlain Towers South) in Surfside, Florida partially collapsed, resulting in one of the deadliest building collapses in United States history with 98 people are confirmed dead. We analyze this collapse event using a video clip that is publicly available from social media. We apply computer vision algorithms to corroborate new information from the video clip that may not be readily interpreted by human eyes. By comparing the differential features against different video frames, our method can quantify the falling structural components by intuitively showing the directions and magnitudes of their movements. We demonstrate the potential of this video processing methodology in investigations of catastrophic structural failures and hope our results would serve as the basis for further investigations of this and other structure collapse events.
翻訳日:2021-09-18 23:59:20 公開日:2021-09-10
# (参考訳) PPR Martingale Confidence Sequences を用いたPACモード推定

PAC Mode Estimation using PPR Martingale Confidence Sequences ( http://arxiv.org/abs/2109.05047v1 )

ライセンス: CC BY 4.0
Shubham Anand Jain, Sanit Gupta, Denil Mehta, Inderjeet Jayakumar Nair, Rohan Shah, Jian Vora, Sushil Khyalia, Sourav Das, Vinay J. Ribeiro, Shivaram Kalyanakrishnan(参考訳) 離散分布 $\mathcal{p}$ のモードを十分に高い確率で正しく同定する問題は、$\mathcal{p}$ に従って描かれた i.i.d. サンプルの列を観察することによって解決される。 この問題は、$\mathcal{p}$ が $k = 2$ の大きさのサポートセットを持つとき、単一のパラメータの推定に還元される。 この特別なケースを扱うために、ppr の martingale 信頼シーケンスの効率性に注目し、$\mathcal{p}$ が $k \geq 2$ の値を取るモード推定の一般化を提案する。 我々は、"one-versus-one"原則が"one-versus-rest"代替よりもより効率的な一般化をもたらすことを観察する。 結果,PPR-MEと表される停止規則は,対数係数までのサンプル複雑性において最適である。 さらに、PPR-MEは、モード推定のための他の競合するアプローチよりも経験的に優れている。 1) 間接選挙システムにおける勝者のサンプルベース予測と, (2) 許可なしブロックチェーンにおけるスマートコントラクトの効率的な検証である。

We consider the problem of correctly identifying the mode of a discrete distribution $\mathcal{P}$ with sufficiently high probability by observing a sequence of i.i.d. samples drawn according to $\mathcal{P}$. This problem reduces to the estimation of a single parameter when $\mathcal{P}$ has a support set of size $K = 2$. Noting the efficiency of prior-posterior-ratio (PPR) martingale confidence sequences for handling this special case, we propose a generalisation to mode estimation, in which $\mathcal{P}$ may take $K \geq 2$ values. We observe that the "one-versus-one" principle yields a more efficient generalisation than the "one-versus-rest" alternative. Our resulting stopping rule, denoted PPR-ME, is optimal in its sample complexity up to a logarithmic factor. Moreover, PPR-ME empirically outperforms several other competing approaches for mode estimation. We demonstrate the gains offered by PPR-ME in two practical applications: (1) sample-based forecasting of the winner in indirect election systems, and (2) efficient verification of smart contracts in permissionless blockchains.
翻訳日:2021-09-18 23:53:13 公開日:2021-09-10
# (参考訳) 質問応答におけるエンティティベースの知識紛争

Entity-Based Knowledge Conflicts in Question Answering ( http://arxiv.org/abs/2109.05052v1 )

ライセンス: CC BY 4.0
Shayne Longpre, Kartik Perisetla, Anthony Chen, Nikhil Ramesh, Chris DuBois, Sameer Singh(参考訳) 知識依存タスクは通常、パラメトリック(parametric)、トレーニング時に学習(learning)、コンテクスト(context)の2つの知識源を使用する。 モデルがこれらの情報源をどのように利用するかを理解するために、文脈情報が学習情報と矛盾する知識矛盾の問題を定式化する。 人気モデルの振る舞いを分析し、記憶された情報(幻覚の原因)の過度信頼度を測定し、この行動を悪化させる重要な要因を明らかにする。 最後に,幻覚を最小限に抑えるパラメトリック知識への過剰依存を緩和し,分布の一般化を4%~7%改善する方法を提案する。 本研究は,実践者が読解よりも幻覚の傾向を評価することの重要性を示し,その緩和戦略が進化する情報(時間依存クエリ)の一般化を促進することを示す。 これらのプラクティスを促進するため、私たちは知識の衝突を引き起こすためのフレームワークをリリースしました。

Knowledge-dependent tasks typically use two sources of knowledge: parametric, learned at training time, and contextual, given as a passage at inference time. To understand how models use these sources together, we formalize the problem of knowledge conflicts, where the contextual information contradicts the learned information. Analyzing the behaviour of popular models, we measure their over-reliance on memorized information (the cause of hallucinations), and uncover important factors that exacerbate this behaviour. Lastly, we propose a simple method to mitigate over-reliance on parametric knowledge, which minimizes hallucination, and improves out-of-distribution generalization by 4%-7%. Our findings demonstrate the importance for practitioners to evaluate model tendency to hallucinate rather than read, and show that our mitigation strategy encourages generalization to evolving information (i.e., time-dependent queries). To encourage these practices, we have released our framework for generating knowledge conflicts.
翻訳日:2021-09-18 23:18:54 公開日:2021-09-10
# (参考訳) 対話行為分類のための話者ターンモデリング

Speaker Turn Modeling for Dialogue Act Classification ( http://arxiv.org/abs/2109.05056v1 )

ライセンス: CC BY 4.0
Zihao He, Leili Tavabi, Kristina Lerman, Mohammad Soleymani(参考訳) ダイアログ法(英: Dialogue Act, DA)は、ダイアログにおける機能に関する発話を分類するタスクである。 既存のDA分類モデル発話へのアプローチは、対話を通して話者間の旋回変化を含まないため、非対話的テキストと変わらない。 本稿では,DAをモデル化する際の話者間の会話の変化を統合することを提案する。 具体的には、会話中の話者の順番を表す会話不変話者の順番埋め込みを学習し、学習された話者の順番埋め込みを、da分類の下流タスクのための発話埋め込みとマージする。 このシンプルで効果的なメカニズムにより、対話内容から意味を捉えることができ、会話の中で異なる話者のターンを考慮に入れられる。 3つのベンチマークデータセットの検証は、我々のモデルの優れたパフォーマンスを示しています。

Dialogue Act (DA) classification is the task of classifying utterances with respect to the function they serve in a dialogue. Existing approaches to DA classification model utterances without incorporating the turn changes among speakers throughout the dialogue, therefore treating it no different than non-interactive written text. In this paper, we propose to integrate the turn changes in conversations among speakers when modeling DAs. Specifically, we learn conversation-invariant speaker turn embeddings to represent the speaker turns in a conversation; the learned speaker turn embeddings are then merged with the utterance embeddings for the downstream task of DA classification. With this simple yet effective mechanism, our model is able to capture the semantics from the dialogue content while accounting for different speaker turns in a conversation. Validation on three benchmark public datasets demonstrates superior performance of our model.
翻訳日:2021-09-18 23:00:38 公開日:2021-09-10
# (参考訳) 自動運転車のためのスタックアンサンブルによるオープンワールドアクティブラーニング

Open-World Active Learning with Stacking Ensemble for Self-Driving Cars ( http://arxiv.org/abs/2109.06628v1 )

ライセンス: CC BY 4.0
Paulo R. Vieira, Pedro D. F\'elix, Luis Macedo(参考訳) 自動運転車の動作する環境は、高度でダイナミックで不確実性に満ちており、感覚情報や知識ベースを継続的に更新する必要がある。 未知の物体に直面する頻度は高すぎるため、通常、近世界の仮定に依存する人工知能(AI)古典的な分類モデルの使用は困難である。 この領域でオブジェクトを分類するこの問題は、オープンワールドのAIアプローチに向いている。 自動車の前に現れる可能性のある既知のすべてのエンティティを識別するだけでなく、高速道路(トラックから失ったボックスなど)に立つことが稀な、未知のオブジェクトのクラスを検知し、学習するアルゴリズムを提案する。 我々のアプローチはLei ShuらのDOCアルゴリズムに依存している。 Query-by-Committeeアルゴリズムも同様です。

The environments, in which autonomous cars act, are high-risky, dynamic, and full of uncertainty, demanding a continuous update of their sensory information and knowledge bases. The frequency of facing an unknown object is too high making hard the usage of Artificial Intelligence (AI) classical classification models that usually rely on the close-world assumption. This problem of classifying objects in this domain is better faced with and open-world AI approach. We propose an algorithm to identify not only all the known entities that may appear in front of the car, but also to detect and learn the classes of those unknown objects that may be rare to stand on an highway (e.g., a lost box from a truck). Our approach relies on the DOC algorithm from Lei Shu et. al. as well as on the Query-by-Committee algorithm.
翻訳日:2021-09-18 22:49:48 公開日:2021-09-10
# (参考訳) 不変有限信念集合による同時知覚行動設計

Simultaneous Perception-Action Design via Invariant Finite Belief Sets ( http://arxiv.org/abs/2109.05073v1 )

ライセンス: CC BY 4.0
Michael Hibbard, Takashi Tanaka, Ufuk Topcu(参考訳) 認知は、自律システム全体の計算コストの中でますます支配的になっているが、認識される情報のほんの一部が現在のタスクに関係している可能性が高い。 これらの知覚コストを軽減するために,エージェントがタスク関連情報のみを検知する新しい同時認識行動設計フレームワークを開発する。 この定式化は、部分的に観測可能なマルコフ決定過程とは異なる、なぜならエージェントは行動選択のポリシーだけでなく、信念に依存した観察関数も自由に合成できるからである。 この方法により、エージェントは、その環境下での操作によって生じるものと知覚コストのバランスをとることができる。 計算的に抽出可能な解を得るために、不変有限信念集合の新しい方法を用いて値関数を近似し、エージェントは連続信念空間の有限部分集合にのみ作用する。 本稿では,各反復において,集合の各信念状態に対して線形プログラムを個別に解いた値反復による近似問題を解く。 最後に,その構造を仮定した値関数が,試料密度が増加するにつれて連続的な状態空間値に収束することを示す。

Although perception is an increasingly dominant portion of the overall computational cost for autonomous systems, only a fraction of the information perceived is likely to be relevant to the current task. To alleviate these perception costs, we develop a novel simultaneous perception-action design framework wherein an agent senses only the task-relevant information. This formulation differs from that of a partially observable Markov decision process, since the agent is free to synthesize not only its policy for action selection but also its belief-dependent observation function. The method enables the agent to balance its perception costs with those incurred by operating in its environment. To obtain a computationally tractable solution, we approximate the value function using a novel method of invariant finite belief sets, wherein the agent acts exclusively on a finite subset of the continuous belief space. We solve the approximate problem through value iteration in which a linear program is solved individually for each belief state in the set, in each iteration. Finally, we prove that the value functions, under an assumption on their structure, converge to their continuous state-space values as the sample density increases.
翻訳日:2021-09-18 22:42:22 公開日:2021-09-10
# (参考訳) fbert: 攻撃的コンテンツを識別するニューラルネットワークトランスフォーマー

FBERT: A Neural Transformer for Identifying Offensive Content ( http://arxiv.org/abs/2109.05074v1 )

ライセンス: CC BY 4.0
Diptanu Sarkar, Marcos Zampieri, Tharindu Ranasinghe, Alexander Ororbia(参考訳) BERT、XLNET、XLM-Rといったトランスフォーマーベースのモデルは、攻撃的言語やヘイトスピーチの識別など、さまざまなNLPタスクにおける最先端のパフォーマンスを実現している。 本稿では,イギリス最大の攻撃言語識別コーパスである solid 上で再トレーニングされた bert モデル fbert について述べる。 複数の英文データセット上での攻撃的内容の同定におけるfBERTの性能を評価し、SOLIDからインスタンスを選択するためのしきい値をテストする。 fBERTモデルは、コミュニティで自由に利用できるようになる。

Transformer-based models such as BERT, XLNET, and XLM-R have achieved state-of-the-art performance across various NLP tasks including the identification of offensive language and hate speech, an important problem in social media. In this paper, we present fBERT, a BERT model retrained on SOLID, the largest English offensive language identification corpus available with over $1.4$ million offensive instances. We evaluate fBERT's performance on identifying offensive content on multiple English datasets and we test several thresholds for selecting instances from SOLID. The fBERT model will be made freely available to the community.
翻訳日:2021-09-18 22:09:08 公開日:2021-09-10
# (参考訳) 検査映像からの多層橋梁要素の分断支援のための半教師付き自己学習法

A semi-supervised self-training method to develop assistive intelligence for segmenting multiclass bridge elements from inspection videos ( http://arxiv.org/abs/2109.05078v1 )

ライセンス: CC BY 4.0
Muhammad Monjurul Karim, Ruwen Qin, Zhaozheng Yin, enda Chen(参考訳) 橋梁検査は, 交通インフラの維持と整備において, サービス寿命を延ばすための重要なステップである。 移動ロボット技術の進歩により、大量の検査ビデオデータの迅速な収集が可能となった。 しかし、データは主に複雑なシーンのイメージであり、様々な構造要素の橋梁が散らばった背景と混ざり合っている。 複雑な映像データから橋梁の構造要素を抽出し、クラス別にソートするブリッジインスペクタを支援することで、橋梁の状態を決定するための要素インスペクタを作成する。 本稿では,空中検査プラットフォームで撮影した検査ビデオから,多層橋梁要素の分断を支援する支援インテリジェンスモデルを開発することを目的としている。 インスペクタによってラベル付けされた小さな初期トレーニングデータセットにより、大きなパブリックデータセットで事前トレーニングされたマスク領域ベースの畳み込みニューラルネットワーク(mask r-cnn)が、マルチクラスブリッジ要素セグメンテーションの新しいタスクに転送された。 さらに、時間的コヒーレンス分析は、偽陰性を回復し、ニューラルネットワークが改善するために学べる弱点を特定しようとする。 さらに,ネットワークを反復的に精査する経験者を対象に,半教師付き自己訓練法(S$^3$T)を開発した。 開発した深層ニューラルネットワークの評価から得られた定量的・定性的な結果は、経験豊富な検査官(66画像のラベル付けに3.58時間)による少量の時間とガイダンスを用いて、優れた性能(91.8%の精度、93.6%のリコール、92.7%のf1-score)のネットワークを構築することができることを示している。 重要なことに、本論文は、橋梁専門家のドメイン知識と経験を計算知モデルに活用し、橋梁インベントリのさまざまな橋に効率的に適用するためのアプローチを示す。

Bridge inspection is an important step in preserving and rehabilitating transportation infrastructure for extending their service lives. The advancement of mobile robotic technology allows the rapid collection of a large amount of inspection video data. However, the data are mainly images of complex scenes, wherein a bridge of various structural elements mix with a cluttered background. Assisting bridge inspectors in extracting structural elements of bridges from the big complex video data, and sorting them out by classes, will prepare inspectors for the element-wise inspection to determine the condition of bridges. This paper is motivated to develop an assistive intelligence model for segmenting multiclass bridge elements from inspection videos captured by an aerial inspection platform. With a small initial training dataset labeled by inspectors, a Mask Region-based Convolutional Neural Network (Mask R-CNN) pre-trained on a large public dataset was transferred to the new task of multiclass bridge element segmentation. Besides, the temporal coherence analysis attempts to recover false negatives and identify the weakness that the neural network can learn to improve. Furthermore, a semi-supervised self-training (S$^3$T) method was developed to engage experienced inspectors in refining the network iteratively. Quantitative and qualitative results from evaluating the developed deep neural network demonstrate that the proposed method can utilize a small amount of time and guidance from experienced inspectors (3.58 hours for labeling 66 images) to build the network of excellent performance (91.8% precision, 93.6% recall, and 92.7% f1-score). Importantly, the paper illustrates an approach to leveraging the domain knowledge and experiences of bridge professionals into computational intelligence models to efficiently adapt the models to varied bridges in the National Bridge Inventory.
翻訳日:2021-09-18 21:35:08 公開日:2021-09-10
# (参考訳) 最新のPTZ(Pan, Tilt, Zoom)カメラ技術と畳み込みニューラルネットワークを用いた予備的山火事検出

Preliminary Wildfire Detection Using State-of-the-art PTZ (Pan, Tilt, Zoom) Camera Technology and Convolutional Neural Networks ( http://arxiv.org/abs/2109.05083v1 )

ライセンス: CC BY 4.0
Samarth Shah(参考訳) 野生の火は、人間や自然によって引き起こされる可能性のある環境における制御不能な火である。 2020年だけで、カリフォルニア州の山火事は4200万エーカーの土地を燃やし、10,500の建物や建物を破壊し、31人以上の死者を出した。 これはまた、これらの裏切り的な野火を消火するコストが増加したことを意味する。 研究の目的は、初期の段階で森林火災を検出して拡散を防ぎ、様々な物に損傷を与えないようにすること、そして最も重要なことは、人が山火事で死ぬ可能性を減らすか、排除することである。 火災検知システムは、早期に野火を消火し、その影響とともにその拡散を防止するため、効率的かつ正確でなければならない。 コンピュータビジョンは、私たちが必要とするより信頼性が高く、高速で、幅広い方法です。 予備的火災検出の分野での最近の研究には、モデルのトレーニングに使用される非表現データと、それらのデータセットのクラスにおける既存の様々なラベルの不均衡に関するいくつかの問題がある。 我々は,データセット全体の設定,照明,雰囲気,クラス分布の改善を通じて,より代表的で均等に分散したデータを提案する。 この研究の結果を徹底的に調べた結果、未知のデータで実世界でテストした場合、データセットの強度が有効なリソースであることが推測できる。 モデルがデータセットをトレーニングするので、それを一般化することができるため、実用的な影響を持つマシンラーニング環境として実行可能なものであることは明らかです。

Wildfires are uncontrolled fires in the environment that can be caused by humans or nature. In 2020 alone, wildfires in California have burned 4.2 million acres, damaged 10,500 buildings or structures, and killed more than 31 people, exacerbated by climate change and a rise in average global temperatures. This also means there has been an increase in the costs of extinguishing these treacherous wildfires. The objective of the research is to detect forest fires in their earlier stages to prevent them from spreading, prevent them from causing damage to a variety of things, and most importantly, reduce or eliminate the chances of someone dying from a wildfire. A fire detection system should be efficient and accurate with respect to extinguishing wildfires in their earlier stages to prevent the spread of them along with their consequences. Computer Vision is potentially a more reliable, fast, and widespread method we need. The current research in the field of preliminary fire detection has several problems related to unrepresentative data being used to train models and their existing varied amounts of label imbalance in the classes of their dataset. We propose a more representative and evenly distributed data through better settings, lighting, atmospheres, etc., and class distribution in the entire dataset. After thoroughly examining the results of this research, it can be inferred that they supported the datasets strengths by being a viable resource when tested in the real world on unfamiliar data. This is evident since as the model trains on the dataset, it is able to generalize on it, hence confirming this is a viable Machine Learning setting that has practical impact.
翻訳日:2021-09-18 21:11:20 公開日:2021-09-10
# (参考訳) 早期COVID-19データから予後因子を決定するブラックボックス機械学習モデルのグローバル・ローカル解釈

Global and Local Interpretation of black-box Machine Learning models to determine prognostic factors from early COVID-19 data ( http://arxiv.org/abs/2109.05087v1 )

ライセンス: CC BY 4.0
Ananya Jana, Carlos D. Minacapelli, Vinod Rustgi, Dimitris Metaxas(参考訳) コロナウイルスは2021年7月24日現在、4100万人が死亡している。 関連するデータにはさまざまな機械学習モデルが適用され、疾患の重症度、感染率、重要な予後因子の発見などの重要な要因を予測する。 これらの手法を用いた結果の有用性は, 解法の欠如により低下することが多い。 機械学習モデルの解釈可能性に関する最近の進歩は、従来の機械学習モデルを使用してより多くの洞察を得る可能性がある。 本研究では、一般的な機械学習モデルを用いて、新型コロナウイルスの血液検査データを解析し、最先端の局所的解釈可能性技術(例えば、SHAP、LIME)とグローバルな解釈可能性技術(例えば、象徴的メタモデリング)をトレーニングされたブラックボックスモデルに適用し、解釈可能な結論を導き出す。 機械学習アルゴリズムでは、回帰は明確な数学的定式化を持つ最も単純で説明可能なモデルの1つである。 我々は、新型コロナウイルスの機械学習モデルの数学的表現を見つけるために、象徴的メタモデリングと呼ばれる最新の手法の1つを探求する。 急性腎不全(AKI)、初期アルブミン(ALBI)、アスパラギン酸アミノトランスフェラーゼ(ASTI)、TBILI(Ttal Bilirubin initial)、D-Dimer initial(DIMER)を重症度の主要な予後因子として同定した。 私たちの貢献は (i)covid-19重症度予測タスクにおけるブラックボックスモデルの数学的表現を明らかにする (二)この課題に記号的メタモデリングを最初に適用し、 (iii)重要な特徴や特徴の相互作用を発見します。

The COVID-19 corona virus has claimed 4.1 million lives, as of July 24, 2021. A variety of machine learning models have been applied to related data to predict important factors such as the severity of the disease, infection rate and discover important prognostic factors. Often the usefulness of the findings from the use of these techniques is reduced due to lack of method interpretability. Some recent progress made on the interpretability of machine learning models has the potential to unravel more insights while using conventional machine learning models. In this work, we analyze COVID-19 blood work data with some of the popular machine learning models; then we employ state-of-the-art post-hoc local interpretability techniques(e.g.- SHAP, LIME), and global interpretability techniques(e.g. - symbolic metamodeling) to the trained black-box models to draw interpretable conclusions. In the gamut of machine learning algorithms, regressions remain one of the simplest and most explainable models with clear mathematical formulation. We explore one of the most recent techniques called symbolic metamodeling to find the mathematical expression of the machine learning models for COVID-19. We identify Acute Kidney Injury (AKI), initial Albumin level (ALBI), Aspartate aminotransferase (ASTI), Total Bilirubin initial(TBILI) and D-Dimer initial (DIMER) as major prognostic factors of the disease severity. Our contributions are- (i) uncover the underlying mathematical expression for the black-box models on COVID-19 severity prediction task (ii) we are the first to apply symbolic metamodeling to this task, and (iii) discover important features and feature interactions.
翻訳日:2021-09-18 21:02:41 公開日:2021-09-10
# (参考訳) 候補再ランキングによるニューラルダイアログモデルの自己開示性の向上

Enhancing Self-Disclosure In Neural Dialog Models By Candidate Re-ranking ( http://arxiv.org/abs/2109.05090v1 )

ライセンス: CC BY 4.0
Mayank Soni, Benjamin Cowan, Vincent Wade(参考訳) ニューラルネットワークモデリングは、さまざまな下流自然言語処理(NLP)タスクにおいて最先端の進歩を遂げている。 このような領域の1つは、オープンドメインダイアログモデリングであり、DialoGPTのようなGPT-2に基づくニューラルダイアログモデルは、シングルターン会話において有望な性能を示している。 しかし、そのような(神経的な)ダイアログモデルは、以前の人間の反応と関係があるとしても、すぐに人間の関心を散逸させ、簡単な会話に陥る傾向があると批判されている。 このようなパフォーマンスの理由の1つは、人間と機械の会話に明示的な会話戦略が採用されていないことである。 人間は会話をしながら様々な会話戦略を採用するが、そのような社会戦略の1つは自己開示(SD)である。 他人に自分の情報を明らかにする現象。 社会的浸透理論 (spt) は、2人間のコミュニケーションが浅いレベルから深いレベルへと移動し、関係は主に自己開示を通じて進行することを提案する。 開示は、会話に参加している参加者の間でラプポートを作成するのに役立つ。 本稿では,ニューラルダイアログモデルの推論段階における自己開示トピックモデル(SDTM)を用いて,自己開示促進アーキテクチャ(SDEA)を導入し,単一ターン応答における自己開示をモデルから強化する。

Neural language modelling has progressed the state-of-the-art in different downstream Natural Language Processing (NLP) tasks. One such area is of open-domain dialog modelling, neural dialog models based on GPT-2 such as DialoGPT have shown promising performance in single-turn conversation. However, such (neural) dialog models have been criticized for generating responses which although may have relevance to the previous human response, tend to quickly dissipate human interest and descend into trivial conversation. One reason for such performance is the lack of explicit conversation strategy being employed in human-machine conversation. Humans employ a range of conversation strategies while engaging in a conversation, one such key social strategies is Self-disclosure(SD). A phenomenon of revealing information about one-self to others. Social penetration theory (SPT) proposes that communication between two people moves from shallow to deeper levels as the relationship progresses primarily through self-disclosure. Disclosure helps in creating rapport among the participants engaged in a conversation. In this paper, Self-disclosure enhancement architecture (SDEA) is introduced utilizing Self-disclosure Topic Model (SDTM) during inference stage of a neural dialog model to re-rank response candidates to enhance self-disclosure in single-turn responses from from the model.
翻訳日:2021-09-18 20:47:21 公開日:2021-09-10
# (参考訳) 力学系に対する確率的逆コープマンモデル

Stochastic Adversarial Koopman Model for Dynamical Systems ( http://arxiv.org/abs/2109.05095v1 )

ライセンス: CC0 1.0
Kaushik Balakrishnan and Devesh Upadhyay(参考訳) 力学系はユビキタスであり、しばしば制御方程式の非線形系を用いてモデル化される。 多くの力学系の数値解法は数十年前から存在するが、力学系の高次元状態空間のために遅くなることがある。 したがって、深層学習に基づく還元順序モデル(ROM)は興味を持ち、これらの線に沿ったそのようなアルゴリズムの族はクープマン理論に基づいている。 本稿では、最近開発された逆koopmanモデル(balakrishnan \&upadhyay, arxiv:2006.05547)を確率空間に拡張し、koopman演算子がエンコーダの潜在符号化の確率分布に適用する。 具体的には、システムの潜在エンコーディングはガウスとしてモデル化され、2つのクープマン行列を$K_{\mu}$と$K_{\sigma}$で出力する補助ニューラルネットワークを用いて時間的に進化する。 逆や勾配の損失が使われ、予測誤差を下げることが分かる。 また、コップマン行列が三対角構造を持つと仮定した還元コップマン定式化も行われ、コップマン行列を満たしたベースラインモデルに匹敵する予測が得られる。 カオス, 流体力学, 燃焼, 反応拡散モデルにおける様々な試験問題に対して, 確率的クープマンモデルの有効性を実証した。 提案モデルはまた,Koopman行列を他の入力パラメータに条件付けして一般化し,これをリチウムイオン電池の時間内状態のシミュレートに応用する。 この研究で論じられたクープマンモデルは、検討された幅広い問題に対して非常に有望である。

Dynamical systems are ubiquitous and are often modeled using a non-linear system of governing equations. Numerical solution procedures for many dynamical systems have existed for several decades, but can be slow due to high-dimensional state space of the dynamical system. Thus, deep learning-based reduced order models (ROMs) are of interest and one such family of algorithms along these lines are based on the Koopman theory. This paper extends a recently developed adversarial Koopman model (Balakrishnan \& Upadhyay, arXiv:2006.05547) to stochastic space, where the Koopman operator applies on the probability distribution of the latent encoding of an encoder. Specifically, the latent encoding of the system is modeled as a Gaussian, and is advanced in time by using an auxiliary neural network that outputs two Koopman matrices $K_{\mu}$ and $K_{\sigma}$. Adversarial and gradient losses are used and this is found to lower the prediction errors. A reduced Koopman formulation is also undertaken where the Koopman matrices are assumed to have a tridiagonal structure, and this yields predictions comparable to the baseline model with full Koopman matrices. The efficacy of the stochastic Koopman model is demonstrated on different test problems in chaos, fluid dynamics, combustion, and reaction-diffusion models. The proposed model is also applied in a setting where the Koopman matrices are conditioned on other input parameters for generalization and this is applied to simulate the state of a Lithium-ion battery in time. The Koopman models discussed in this study are very promising for the wide range of problems considered.
翻訳日:2021-09-18 20:39:45 公開日:2021-09-10
# (参考訳) hypoGen: 常識と対実的知識を備えたハイパボラ生成

HypoGen: Hyperbole Generation with Commonsense and Counterfactual Knowledge ( http://arxiv.org/abs/2109.05097v1 )

ライセンス: CC BY 4.0
Yufei Tian, Arvind krishna Sridhar, and Nanyun Peng(参考訳) ハイパーボイル(hyperbole)とは、意図的で創造的な誇張である。 日常生活におけるユビキタスにもかかわらず、双曲の計算的な探索は少ない。 本稿では,文レベルのハイパーボラ生成という,未探索かつ困難な課題に取り組む。 まず,各コンポーネント間の意味的関係(常識的かつ反事実的)を,そのような双曲線の中で体系的に研究するための,代表的な構文パターンから始める。 次に、COMeTモデルと逆COMeTモデルを利用して、コモンセンスと反ファクト推論を行う。 次に,このパターンから複数のハイパボラ候補を生成し,ニューラルネットワーク分類器のランク付けと高品質なハイパボラの選択を訓練する。 自動評価と人間評価は, 高い成功率と強度スコアで創造的に双曲線を生成できることを示す。

A hyperbole is an intentional and creative exaggeration not to be taken literally. Despite its ubiquity in daily life, the computational explorations of hyperboles are scarce. In this paper, we tackle the under-explored and challenging task: sentence-level hyperbole generation. We start with a representative syntactic pattern for intensification and systematically study the semantic (commonsense and counterfactual) relationships between each component in such hyperboles. Next, we leverage the COMeT and reverse COMeT models to do commonsense and counterfactual inference. We then generate multiple hyperbole candidates based on our findings from the pattern, and train neural classifiers to rank and select high-quality hyperboles. Automatic and human evaluations show that our generation method is able to generate hyperboles creatively with high success rate and intensity scores.
翻訳日:2021-09-18 20:19:12 公開日:2021-09-10
# (参考訳) 機械学習は、パーソナライズされた気候コミュニケーションが成功とバックファイアを両立させる

Machine learning reveals how personalized climate communication can both succeed and backfire ( http://arxiv.org/abs/2109.05104v1 )

ライセンス: CC BY 4.0
Totte Harinen, Alexandre Filipowicz, Shabnam Hakimi, Rumen Iliev, Matthew Klenk, Emily Sumner(参考訳) 異なる広告メッセージは、異なる人々のために機能します。 機械学習は、気候コミュニケーションをパーソナライズする効果的な方法である。 本稿では,機械学習を用いて最近の研究から得られた知見を再分析し,オンライン広告が気候変動に対する人々の信念を高めつつ,他人に対する信念を低下させることを示す。 特に,年齢や民族によって広告の効果が変化する可能性が示唆された。

Different advertising messages work for different people. Machine learning can be an effective way to personalise climate communications. In this paper we use machine learning to reanalyse findings from a recent study, showing that online advertisements increased some people's belief in climate change while resulting in decreased belief in others. In particular, we show that the effect of the advertisements could change depending on people's age and ethnicity.
翻訳日:2021-09-18 20:05:42 公開日:2021-09-10
# (参考訳) 通信効率のよい適応勾配法を目指して

Toward Communication Efficient Adaptive Gradient Method ( http://arxiv.org/abs/2109.05109v1 )

ライセンス: CC BY 4.0
Xiangyi Chen, Xiaoyun Li, Ping Li(参考訳) 近年、分散最適化は、ディープニューラルネットワークのような大規模機械学習モデルのトレーニングを加速するための効果的なアプローチであることが証明されている。 GPUの計算能力の増大に伴い、分散トレーニングにおけるトレーニング速度のボトルネックは、徐々に計算から通信へとシフトしている。 一方,モバイルデバイス上で機械学習モデルをトレーニングする上で,‘フェデレーション学習’と呼ばれる新たな分散トレーニングパラダイムが普及している。 連合学習における通信時間は,モバイルデバイスの帯域幅の低さから特に重要である。 フェデレート学習のためのコミュニケーション効率向上のための様々な手法が提案されているが、そのほとんどはSGDを原型学習アルゴリズムとして設計されている。 適応勾配法はニューラルネットワークの訓練に有効であることが証明されているが、連合学習における適応勾配法の研究は少ない。 本稿では,フェデレート学習における収束性と通信効率の両立を保証できる適応的勾配法を提案する。

In recent years, distributed optimization is proven to be an effective approach to accelerate training of large scale machine learning models such as deep neural networks. With the increasing computation power of GPUs, the bottleneck of training speed in distributed training is gradually shifting from computation to communication. Meanwhile, in the hope of training machine learning models on mobile devices, a new distributed training paradigm called ``federated learning'' has become popular. The communication time in federated learning is especially important due to the low bandwidth of mobile devices. While various approaches to improve the communication efficiency have been proposed for federated learning, most of them are designed with SGD as the prototype training algorithm. While adaptive gradient methods have been proven effective for training neural nets, the study of adaptive gradient methods in federated learning is scarce. In this paper, we propose an adaptive gradient method that can guarantee both the convergence and the communication efficiency for federated learning.
翻訳日:2021-09-18 19:59:14 公開日:2021-09-10
# (参考訳) D-REX:説明付き対話関係抽出

D-REX: Dialogue Relation Extraction with Explanations ( http://arxiv.org/abs/2109.05126v1 )

ライセンス: CC BY 4.0
Alon Albalak, Varun Embar, Yi-Lin Tuan, Lise Getoor, William Yang Wang(参考訳) 長期多人数会話における相互関係抽出に関する最近の研究は、そのような方法の説明可能性を考慮していない関係抽出を改善することを目的としている。 この研究は、部分的にラベル付けされたデータのみを使用しながら関係が存在することを示す説明を抽出することに集中することで、このギャップに対処する。 本稿では,関係を説明・ランク付けするポリシガイド付き半教師付きアルゴリズムであるd-rexを提案する。 我々は,関係抽出を再ランキングタスクとして,推論プロセスの中間ステップとして関係とエンティティ固有の説明を含める。 約90%の人は、強いBERTに基づく関節関係抽出と説明モデルよりもD-REXの説明を好んでいる。 最後に,対話関係抽出データセットの評価結果から,提案手法は単純だが有効であり,既存の手法を13.5%改善した。

Existing research studies on cross-sentence relation extraction in long-form multi-party conversations aim to improve relation extraction without considering the explainability of such methods. This work addresses that gap by focusing on extracting explanations that indicate that a relation exists while using only partially labeled data. We propose our model-agnostic framework, D-REX, a policy-guided semi-supervised algorithm that explains and ranks relations. We frame relation extraction as a re-ranking task and include relation- and entity-specific explanations as an intermediate step of the inference process. We find that about 90% of the time, human annotators prefer D-REX's explanations over a strong BERT-based joint relation extraction and explanation model. Finally, our evaluations on a dialogue relation extraction dataset show that our method is simple yet effective and achieves a state-of-the-art F1 score on relation extraction, improving upon existing methods by 13.5%.
翻訳日:2021-09-18 19:17:43 公開日:2021-09-10
# (参考訳) 関連性再考:NLGにおけるパーソナライズ

Refocusing on Relevance: Personalization in NLG ( http://arxiv.org/abs/2109.05140v1 )

ライセンス: CC BY 4.0
Shiran Dudy, Steven Bedrick, and Bonnie Webber(参考訳) 要約、対話応答、オープンドメイン質問応答などの多くのNLGタスクは、ターゲット応答を生成するために主にソーステキストに焦点を当てている。 しかし、この標準的なアプローチは、ユーザの意図や作業のコンテキストが、そのソーステキストのみに基づいて簡単に回復できない場合、短くなります。 本研究は,NLGシステム全般において,追加コンテキストの利用に重点を置くべきであり,ユーザ指向のテキスト生成タスクを設計するための重要なツールとして,関連性(Information Retrievalで使用される)が考えられることを示唆している。 我々はさらに,このようなパーソナライゼーションに関する害や危険について論じ,価値に敏感なデザインは,これらの課題を乗り越える上で重要な道筋であると主張する。

Many NLG tasks such as summarization, dialogue response, or open domain question answering focus primarily on a source text in order to generate a target response. This standard approach falls short, however, when a user's intent or context of work is not easily recoverable based solely on that source text -- a scenario that we argue is more of the rule than the exception. In this work, we argue that NLG systems in general should place a much higher level of emphasis on making use of additional context, and suggest that relevance (as used in Information Retrieval) be thought of as a crucial tool for designing user-oriented text-generating tasks. We further discuss possible harms and hazards around such personalization, and argue that value-sensitive design represents a crucial path forward through these challenges.
翻訳日:2021-09-18 19:04:37 公開日:2021-09-10
# Dual Latent Manifold を用いたスケーラブルフォント再構成

Scalable Font Reconstruction with Dual Latent Manifolds ( http://arxiv.org/abs/2109.06627v1 )

ライセンス: Link先を確認
Nikita Srivatsan, Si Wu, Jonathan T. Barron, Taylor Berg-Kirkpatrick(参考訳) フォントスタイルと文字形状の両方の非交叉多様体を学習し,タイポグラフィ解析とフォント再構成を行う深層生成モデルを提案する。 このアプローチにより,従来手法と比較して効果的にモデル化できるキャラクタタイプ数を大規模にスケールアップできる。 具体的には、文字タイプを共有するグリフの入力セットとして、または同じフォントに属する2つの推論ネットワークを介して、文字とフォントを表す別の潜在変数を推測する。 この設計により、トレーニング期間中に観察されなかった文字にモデルを一般化することが可能となり、ほとんどのフォントの相対的な疎さを考慮して重要なタスクとなる。 また、従来の作業から、投影空間における適応分布の可能性を測り、判別器を必要とせず、より自然な画像が得られるように、新たな損失を提起した。 我々は,多くの言語の文字タイプを表す各種データセットに対するフォント再構成の課題について評価し,自動および手動評価の指標に応じて,現代のスタイル転送システムと比較した。

We propose a deep generative model that performs typography analysis and font reconstruction by learning disentangled manifolds of both font style and character shape. Our approach enables us to massively scale up the number of character types we can effectively model compared to previous methods. Specifically, we infer separate latent variables representing character and font via a pair of inference networks which take as input sets of glyphs that either all share a character type, or belong to the same font. This design allows our model to generalize to characters that were not observed during training time, an important task in light of the relative sparsity of most fonts. We also put forward a new loss, adapted from prior work that measures likelihood using an adaptive distribution in a projected space, resulting in more natural images without requiring a discriminator. We evaluate on the task of font reconstruction over various datasets representing character types of many languages, and compare favorably to modern style transfer systems according to both automatic and manually-evaluated metrics.
翻訳日:2021-09-15 15:58:27 公開日:2021-09-10
# muraL: 言語横断のマルチモーダル、マルチタスク検索

MURAL: Multimodal, Multitask Retrieval Across Languages ( http://arxiv.org/abs/2109.05125v1 )

ライセンス: Link先を確認
Aashi Jain, Mandy Guo, Krishna Srinivasan, Ting Chen, Sneha Kudugunta, Chao Jia, Yinfei Yang, Jason Baldridge(参考訳) イメージキャプションペアと翻訳ペアの両方が、言語間の深い表現と接続を学ぶ手段を提供する。 我々は2つのタスクを解決するデュアルエンコーダであるプロジェクション(言語間のマルチモーダル、マルチタスク表現)において、両方のペアを使用する。 1)画像テキストマッチング 2) 翻訳ペアマッチング。 数十億の翻訳ペアを組み込むことで、壁画は18億のノイズの多い画像テキストペアから学んだ最先端のデュアルエンコーダであるアライメント(jia et al. pmlr'21)を拡張する。 同じエンコーダを使用する場合、MALLのパフォーマンスは、複数のデータセットにまたがるよくリソースされた言語上でのALIGNのクロスモーダル検索性能と一致またはオーバーする。 さらに重要なのは、アンダーリソース言語のパフォーマンスが大幅に向上し、テキストテキスト学習がこれらの言語に対する画像キャプチャの多用性を克服できることである。 例えばwikipediaのイメージテキストデータセットでは、ゼロショット平均リコールを8つの非ソース言語で平均8.1%、微調整時に平均6.8%改善している。 さらに, 村Lのテキスト表現が系譜関係だけでなく, バルカン・スプラチバンドのようなアラル言語にも基づいていることを示す。

Both image-caption pairs and translation pairs provide the means to learn deep representations of and connections between languages. We use both types of pairs in MURAL (MUltimodal, MUltitask Representations Across Languages), a dual encoder that solves two tasks: 1) image-text matching and 2) translation pair matching. By incorporating billions of translation pairs, MURAL extends ALIGN (Jia et al. PMLR'21)--a state-of-the-art dual encoder learned from 1.8 billion noisy image-text pairs. When using the same encoders, MURAL's performance matches or exceeds ALIGN's cross-modal retrieval performance on well-resourced languages across several datasets. More importantly, it considerably improves performance on under-resourced languages, showing that text-text learning can overcome a paucity of image-caption examples for these languages. On the Wikipedia Image-Text dataset, for example, MURAL-base improves zero-shot mean recall by 8.1% on average for eight under-resourced languages and by 6.8% on average when fine-tuning. We additionally show that MURAL's text representations cluster not only with respect to genealogical connections but also based on areal linguistics, such as the Balkan Sprachbund.
翻訳日:2021-09-14 16:16:18 公開日:2021-09-10
# ペアデータからの文脈を利用した部分教師付き新規オブジェクトキャプション

Partially-supervised novel object captioning leveraging context from paired data ( http://arxiv.org/abs/2109.05115v1 )

ライセンス: Link先を確認
Shashank Bujimalla, Mahesh Subedar, Omesh Tickoo(参考訳) 本稿では,学習データセットにキャプションラベルを持たない新規なオブジェクトを用いた画像のキャプションソリューションを改善する手法を提案する。 我々のアプローチはモデルアーキテクチャに非依存であり、主に、既存の完全対画像キャプチャデータと、新しいオブジェクト検出ラベル(一部対画像)のみを用いた画像のトレーニング技術に焦点を当てている。 既存の画像キャプションペアからコンテキストを活用することで,これらの新しいオブジェクトに対する合成ペアキャプションデータを作成する。 さらに,これらの部分的対の画像を新たなオブジェクトと再使用し,字幕モデルを微調整する擬似ラベルキャプションを作成する。 一般的なキャプションモデル (Up-Down) をベースラインとして, 保持状態のMS COCOアウト・オブ・ドメインテスト分割における最先端結果を実現し, 新たなオブジェクト画像に対するF1メトリックスとCIDErを, トレーニング中に一部ペア画像を使用しないベースラインモデルと比較してそれぞれ75.8ポイント, 26.6ポイント改善する。

In this paper, we propose an approach to improve image captioning solutions for images with novel objects that do not have caption labels in the training dataset. Our approach is agnostic to model architecture, and primarily focuses on training technique that uses existing fully paired image-caption data and the images with only the novel object detection labels (partially paired data). We create synthetic paired captioning data for these novel objects by leveraging context from existing image-caption pairs. We further re-use these partially paired images with novel objects to create pseudo-label captions that are used to fine-tune the captioning model. Using a popular captioning model (Up-Down) as baseline, our approach achieves state-of-the-art results on held-out MS COCO out-of-domain test split, and improves F1 metric and CIDEr for novel object images by 75.8 and 26.6 points respectively, compared to baseline model that does not use partially paired images during training.
翻訳日:2021-09-14 16:07:30 公開日:2021-09-10
# 新しいデータ拡張とカリキュラム学習による効率的なコントラスト学習

Efficient Contrastive Learning via Novel Data Augmentation and Curriculum Learning ( http://arxiv.org/abs/2109.05941v1 )

ライセンス: Link先を確認
Seonghyeon Ye, Jiseon Kim, Alice Oh(参考訳) 本稿では,新しいデータ拡張とカリキュラム学習によるコントラスト学習を適用した,メモリ効率のよい継続事前学習手法であるEfficientCLを紹介する。 データ拡張には、カットオフとPCAジッタリングという2種類の操作を順次積み重ねる。 事前学習段階が進む中,難易度ごとに増進度を増やすことでカリキュラム学習を行う。 データ拡張が完了すると、オリジナルおよび拡張例の投影埋め込みにコントラスト学習が適用される。 GLUEベンチマークを微調整すると、特に文レベルのタスクにおいて、ベースラインモデルよりも優れている。 さらに、この改善は、ベースラインモデルと比較して計算メモリの70%しか持たない。

We introduce EfficientCL, a memory-efficient continual pretraining method that applies contrastive learning with novel data augmentation and curriculum learning. For data augmentation, we stack two types of operation sequentially: cutoff and PCA jittering. While pretraining steps proceed, we apply curriculum learning by incrementing the augmentation degree for each difficulty step. After data augmentation is finished, contrastive learning is applied on projected embeddings of original and augmented examples. When finetuned on GLUE benchmark, our model outperforms baseline models, especially for sentence-level tasks. Additionally, this improvement is capable with only 70% of computational memory compared to the baseline model.
翻訳日:2021-09-14 16:04:37 公開日:2021-09-10
# 4室環境におけるオフポリシー予測学習アルゴリズムの実証的比較

An Empirical Comparison of Off-policy Prediction Learning Algorithms in the Four Rooms Environment ( http://arxiv.org/abs/2109.05110v1 )

ライセンス: Link先を確認
Sina Ghiassian and Richard S. Sutton(参考訳) 過去10年間、多くのオフポリシー予測学習アルゴリズムが提案されてきたが、どのアルゴリズムが他のアルゴリズムよりも速く学習するかは不明だ。 本研究では,11の非政治予測学習アルゴリズムと2つの小さなタスクであるRoomsタスクとHigh Variance Roomsタスクの線形関数近似を比較した。 タスクは、速く学習するように設計されています。 ルームタスクでは、重要サンプリング比率の積は2^{14}$で、2つになることもある。 重要サンプリング率の積による高いばらつきを制御するためには、ステップサイズを小さくして学習を遅くする必要がある。 高分散室の仕事は、比の積が 2^{14}\times 25$ となるという点において、より極端である。 本稿では,ghiassian and sutton (2021) によるオフポリシー予測学習アルゴリズムの実証的研究を基礎とする。 我々は,同じアルゴリズム群をそれらのものとみなし,同じ実験手法を用いる。 考慮されているアルゴリズムは、オフポリシーTD($\lambda$)、5つのグラディエントTDアルゴリズム、2つの強調TDアルゴリズム、ツリーバックアップ($\lambda$)、Vtrace($\lambda$)、ABTD($\zeta$)である。 その結果,アルゴリズムの性能は,重要サンプリング比による分散の影響が大きいことがわかった。 データは、Tree Backup($\lambda$)、Vtrace($\lambda$)、ABTD($\zeta$)が他のアルゴリズムほど高い分散の影響を受けていないことを示しているが、高い分散が存在しないタスクでは制限されない方法で効果的なブートストラップパラメータを制限する。 強調的td($\lambda$)は他のアルゴリズムよりも漸近的誤差が低い傾向があるが、場合によってはよりゆっくりと学習する可能性がある。 興味のある問題に基づいた実践者のためのアルゴリズムを提案し,アルゴリズムが大幅に改善される可能性のある特定のアルゴリズムに適用可能なアプローチを提案する。

Many off-policy prediction learning algorithms have been proposed in the past decade, but it remains unclear which algorithms learn faster than others. We empirically compare 11 off-policy prediction learning algorithms with linear function approximation on two small tasks: the Rooms task, and the High Variance Rooms task. The tasks are designed such that learning fast in them is challenging. In the Rooms task, the product of importance sampling ratios can be as large as $2^{14}$ and can sometimes be two. To control the high variance caused by the product of the importance sampling ratios, step size should be set small, which in turn slows down learning. The High Variance Rooms task is more extreme in that the product of the ratios can become as large as $2^{14}\times 25$. This paper builds upon the empirical study of off-policy prediction learning algorithms by Ghiassian and Sutton (2021). We consider the same set of algorithms as theirs and employ the same experimental methodology. The algorithms considered are: Off-policy TD($\lambda$), five Gradient-TD algorithms, two Emphatic-TD algorithms, Tree Backup($\lambda$), Vtrace($\lambda$), and ABTD($\zeta$). We found that the algorithms' performance is highly affected by the variance induced by the importance sampling ratios. The data shows that Tree Backup($\lambda$), Vtrace($\lambda$), and ABTD($\zeta$) are not affected by the high variance as much as other algorithms but they restrict the effective bootstrapping parameter in a way that is too limiting for tasks where high variance is not present. We observed that Emphatic TD($\lambda$) tends to have lower asymptotic error than other algorithms, but might learn more slowly in some cases. We suggest algorithms for practitioners based on their problem of interest, and suggest approaches that can be applied to specific algorithms that might result in substantially improved algorithms.
翻訳日:2021-09-14 16:04:18 公開日:2021-09-10
# 純探査線形バンディットのニアインスタンス最適モデル選択

Near Instance Optimal Model Selection for Pure Exploration Linear Bandits ( http://arxiv.org/abs/2109.05131v1 )

ライセンス: Link先を確認
Yinglun Zhu, Julian Katz-Samuels, Robert Nowak(参考訳) 純探査線形バンディット設定におけるモデル選択問題を導入し、固定信頼設定と固定予算設定の両方で検討する。 モデル選択問題は、増大する複雑性の仮説クラスのネスト列を考える。 我々の目標は、最大の仮説クラスに関連する複雑性測度に苦しむのではなく、真のモデルを含む最小の仮説クラスのインスタンス依存複雑性測度に自動的に適応することである。 標準的な2倍の次元上のトリックが最適なインスタンス依存サンプル複雑性を達成するのに失敗することを示す証拠を提供する。 提案アルゴリズムは,動作集合の幾何を利用して近似仮説クラスを効率的に同定する実験設計に基づく新しい最適化問題を定義する。 固定予算アルゴリズムは,バンディットにおける選択バリデーション手法の新たな適用法を用いる。 これは(モデル選択という追加の課題を伴わずとも)線形帯域における未検討の固定予算設定のための新しい方法を提供する。 さらに,モデル選択問題を不特定体制に一般化し,信頼度と予算の固定設定の両方にアルゴリズムを適用する。

The model selection problem in the pure exploration linear bandit setting is introduced and studied in both the fixed confidence and fixed budget settings. The model selection problem considers a nested sequence of hypothesis classes of increasing complexities. Our goal is to automatically adapt to the instance-dependent complexity measure of the smallest hypothesis class containing the true model, rather than suffering from the complexity measure related to the largest hypothesis class. We provide evidence showing that a standard doubling trick over dimension fails to achieve the optimal instance-dependent sample complexity. Our algorithms define a new optimization problem based on experimental design that leverages the geometry of the action set to efficiently identify a near-optimal hypothesis class. Our fixed budget algorithm uses a novel application of a selection-validation trick in bandits. This provides a new method for the understudied fixed budget setting in linear bandits (even without the added challenge of model selection). We further generalize the model selection problem to the misspecified regime, adapting our algorithms in both fixed confidence and fixed budget settings.
翻訳日:2021-09-14 16:02:47 公開日:2021-09-10
# インスタンス型GAN

Instance-Conditioned GAN ( http://arxiv.org/abs/2109.05070v1 )

ライセンス: Link先を確認
Arantxa Casanova, Marl\`ene Careil, Jakob Verbeek, Michal Drozdzal, Adriana Romero-Soriano(参考訳) GAN(Generative Adversarial Networks)は、人間の顔のような狭い領域で、ほぼリアルな画像を生成する。 しかし、ImageNetやCOCO-Stuffのようなデータセットの複雑な分散をモデル化することは、未条件設定では難しい。 本稿では,カーネル密度推定手法から着想を得て,複雑なデータセットの分布をモデル化する非パラメトリック手法を提案する。 我々はデータ多様体をデータポイントとその近傍で記述された重なり合う近傍の混合物に分割し、各データポイントの周辺分布を学習するインスタンス条件付きGANモデルを導入する。 ImageNetとCOCO-Stuffの実験結果によると、IC-GANは無条件モデルや教師なしデータ分割ベースラインよりも大幅に改善されている。 さらに、IC-GANは、条件付インスタンスを変更するだけで、トレーニング中に見えないデータセットに強制的に転送でき、リアルな画像を生成することができることを示す。 最後に、IC-GANをクラス条件に拡張し、ImageNet上で意味制御可能な生成と競合的な定量的結果を示す。 コードとトレーニングしたモデルをオープンソースにして、報告結果を再現します。

Generative Adversarial Networks (GANs) can generate near photo realistic images in narrow domains such as human faces. Yet, modeling complex distributions of datasets such as ImageNet and COCO-Stuff remains challenging in unconditional settings. In this paper, we take inspiration from kernel density estimation techniques and introduce a non-parametric approach to modeling distributions of complex datasets. We partition the data manifold into a mixture of overlapping neighborhoods described by a datapoint and its nearest neighbors, and introduce a model, called instance-conditioned GAN (IC-GAN), which learns the distribution around each datapoint. Experimental results on ImageNet and COCO-Stuff show that IC-GAN significantly improves over unconditional models and unsupervised data partitioning baselines. Moreover, we show that IC-GAN can effortlessly transfer to datasets not seen during training by simply changing the conditioning instances, and still generate realistic images. Finally, we extend IC-GAN to the class-conditional case and show semantically controllable generation and competitive quantitative results on ImageNet; while improving over BigGAN on ImageNet-LT. We will opensource our code and trained models to reproduce the reported results.
翻訳日:2021-09-14 16:00:57 公開日:2021-09-10
# $\ell_0$-norm正規化と重み打ちによるニューラルネットワークの圧縮について

On the Compression of Neural Networks Using $\ell_0$-Norm Regularization and Weight Pruning ( http://arxiv.org/abs/2109.05075v1 )

ライセンス: Link先を確認
Felipe Dennis de Resende Oliveira, Eduardo Luiz Ortiz Batista, Rui Seara(参考訳) 高容量の計算プラットフォームが利用可能になったにもかかわらず、実装の複雑さは、ニューラルネットワークの現実的な展開にとって、依然として大きな関心事となっている。 この懸念は、最先端のネットワークアーキテクチャの膨大なコストによるものではなく、エッジインテリジェンスへの最近の取り組みや、組み込みアプリケーションにおけるニューラルネットワークの利用によるものだ。 この文脈において、ネットワーク圧縮技術は、十分なレベルの推論精度を維持しながら、デプロイメントコストを削減できることから、関心を集めている。 本稿では,ニューラルネットワークのための新しい圧縮スキームの開発に焦点をあてる。 この目的のために、トレーニング中にネットワークに強いスパース性を誘導できる新しい$\ell_0$-normベースの正規化手法が最初に開発された。 そして、訓練されたネットワークのより小さな重みをプルーニング技術で狙うことにより、より小さいが高効率なネットワークが得られる。 提案手法では、オーバーフィッティングを回避するために$\ell_2$-norm正規化と、プルーンドネットワークの性能向上のための微調整も行う。 提案手法の有効性と競合する手法との比較を目的とした実験結果を示す。

Despite the growing availability of high-capacity computational platforms, implementation complexity still has been a great concern for the real-world deployment of neural networks. This concern is not exclusively due to the huge costs of state-of-the-art network architectures, but also due to the recent push towards edge intelligence and the use of neural networks in embedded applications. In this context, network compression techniques have been gaining interest due to their ability for reducing deployment costs while keeping inference accuracy at satisfactory levels. The present paper is dedicated to the development of a novel compression scheme for neural networks. To this end, a new $\ell_0$-norm-based regularization approach is firstly developed, which is capable of inducing strong sparseness in the network during training. Then, targeting the smaller weights of the trained network with pruning techniques, smaller yet highly effective networks can be obtained. The proposed compression scheme also involves the use of $\ell_2$-norm regularization to avoid overfitting as well as fine tuning to improve the performance of the pruned network. Experimental results are presented aiming to show the effectiveness of the proposed scheme as well as to make comparisons with competing approaches.
翻訳日:2021-09-14 15:58:50 公開日:2021-09-10
# 接地協調対話のための参照中心モデル

Reference-Centric Models for Grounded Collaborative Dialogue ( http://arxiv.org/abs/2109.05042v1 )

ライセンス: Link先を確認
Daniel Fried and Justin T. Chiu and Dan Klein(参考訳) 本稿では, 部分的に観察可能な参照ゲームにおいて, 人とのコラボレーションを成功させる, 接地型ニューラル対話モデルを提案する。 2人のエージェントがそれぞれ、世界のコンテキストの重なり合う部分を観察し、共有するオブジェクトを識別し、同意する必要がある設定に集中する。 したがって、エージェントはその情報をプールし、そのタスクを解決するために実践的にコミュニケーションすべきである。 対話エージェントは、構造化された参照レゾルバを用いて相手の発話から、リカレントメモリを用いた参照の条件を正確に把握し、パートナーが生成した参照を確実に解決するための実用的な生成手順を使用する。 本研究は,OneCommon空間接地対話タスク(宇田川,愛沢2019)において,連続的な位置,大きさ,色合いの異なる板上に配置された多数の点について評価する。 我々のエージェントは、タスクの以前の状態よりも大幅に優れており、セルフプレイ評価におけるタスク完了における20%の相対的な改善と、人間の評価における成功に対する50%の相対的な改善が得られる。

We present a grounded neural dialogue model that successfully collaborates with people in a partially-observable reference game. We focus on a setting where two agents each observe an overlapping part of a world context and need to identify and agree on some object they share. Therefore, the agents should pool their information and communicate pragmatically to solve the task. Our dialogue agent accurately grounds referents from the partner's utterances using a structured reference resolver, conditions on these referents using a recurrent memory, and uses a pragmatic generation procedure to ensure the partner can resolve the references the agent produces. We evaluate on the OneCommon spatial grounding dialogue task (Udagawa and Aizawa 2019), involving a number of dots arranged on a board with continuously varying positions, sizes, and shades. Our agent substantially outperforms the previous state of the art for the task, obtaining a 20% relative improvement in successful task completion in self-play evaluations and a 50% relative improvement in success in human evaluations.
翻訳日:2021-09-14 15:52:50 公開日:2021-09-10
# 言語モデルの自己教師付きリファインメントによるゼロショットコモンセンス推論

Towards Zero-shot Commonsense Reasoning with Self-supervised Refinement of Language Models ( http://arxiv.org/abs/2109.05105v1 )

ライセンス: Link先を確認
Tassilo Klein and Moin Nabi(参考訳) 既存の言語モデルを取得して、ゼロショットの常識推論のために洗練できるか? 本稿では,事前学習型言語モデルの自己教師型改良としてタスクを定式化することにより,Winograd Schema Challengeにおけるゼロショットコモンセンス推論の実現可能性について検討する。 微調整アノテートデータセットに依存する従来の研究とは対照的に,ロスランドスケープの改良による概念化の促進を目指す。 そこで本研究では,類似概念関係の言語摂動の集合を用いて言語モデルを洗練する,自己教師型学習手法を提案する。 概念的に単純なフレームワークの実証分析は、複数のベンチマークにおけるゼロショットコモンセンス推論の実行可能性を示している。

Can we get existing language models and refine them for zero-shot commonsense reasoning? This paper presents an initial study exploring the feasibility of zero-shot commonsense reasoning for the Winograd Schema Challenge by formulating the task as self-supervised refinement of a pre-trained language model. In contrast to previous studies that rely on fine-tuning annotated datasets, we seek to boost conceptualization via loss landscape refinement. To this end, we propose a novel self-supervised learning approach that refines the language model utilizing a set of linguistic perturbations of similar concept relationships. Empirical analysis of our conceptually simple framework demonstrates the viability of zero-shot commonsense reasoning on multiple benchmarks.
翻訳日:2021-09-14 15:52:31 公開日:2021-09-10
# 注意に基づくウィノグラードスキーマのコントラスト学習

Attention-based Contrastive Learning for Winograd Schemas ( http://arxiv.org/abs/2109.05108v1 )

ライセンス: Link先を確認
Tassilo Klein and Moin Nabi(参考訳) 自己教師付き学習は近年,nlpコミュニティにおいて,対照目的を用いて識別的特徴を学習する能力に注目が集まっている。 本稿では,ウィノグラード・スキーマ・チャレンジに取り組むために,コントラスト学習をトランスフォマー的注意に拡張できるかどうかについて検討する。 そこで本稿では, 自己意識のレベルにおいて, コントラスト的損失を直接活用する, 新たな自己監督フレームワークを提案する。 複数のデータセットに対する注意ベースモデルの実験的解析により,より優れたコモンセンス推論能力を示す。 提案手法は、ほぼ同等の教師なしアプローチを上回り、時には教師なしアプローチを上回ります。

Self-supervised learning has recently attracted considerable attention in the NLP community for its ability to learn discriminative features using a contrastive objective. This paper investigates whether contrastive learning can be extended to Transfomer attention to tackling the Winograd Schema Challenge. To this end, we propose a novel self-supervised framework, leveraging a contrastive loss directly at the level of self-attention. Experimental analysis of our attention-based models on multiple datasets demonstrates superior commonsense reasoning capabilities. The proposed approach outperforms all comparable unsupervised approaches while occasionally surpassing supervised ones.
翻訳日:2021-09-14 15:52:20 公開日:2021-09-10
# スパン制約による遠隔監視による潜木誘導の改善

Improved Latent Tree Induction with Distant Supervision via Span Constraints ( http://arxiv.org/abs/2109.05112v1 )

ライセンス: Link先を確認
Zhiyang Xu, Andrew Drozdov, Jay Yoon Lee, Tim O'Gorman, Subendhu Rongali, Dylan Finkbeiner, Shilpa Suresh, Mohit Iyyer, Andrew McCallum(参考訳) 30年以上にわたり、研究者は教師なし構文解析のアプローチとして潜在木誘導法を開発し分析してきた。 しかしながら、現代のシステムでは、テキストの構造的アノテーションとして実用的に利用できるような教師付きシステムに比べて、まだ十分に機能していない。 本研究では,非教師付き選挙区構文解析の性能向上のために,スパン制約(言い換え括弧法)の形で遠隔監視を用いる手法を提案する。 比較的少数のスパン制約を用いることで、すでに競合する教師なし構文解析システムであるDIORAの出力を大幅に改善することができる。 完全なパースツリーアノテーションと比較して、スパン制約はウィキペディアから派生した語彙など最小限の労力で取得でき、正確なテキストマッチングを見つけることができる。 本実験は, 英語のWSJ Penn Treebank において, 5 F1 以上による選挙区解析を改善したエンティティに基づく制約の範囲を示す。 さらに本手法は,スパン制約が容易に達成できる任意の領域にまで拡張され,本手法の事例研究として,craftデータセットから生物医学的テキストを解析することでその効果を示す。

For over thirty years, researchers have developed and analyzed methods for latent tree induction as an approach for unsupervised syntactic parsing. Nonetheless, modern systems still do not perform well enough compared to their supervised counterparts to have any practical use as structural annotation of text. In this work, we present a technique that uses distant supervision in the form of span constraints (i.e. phrase bracketing) to improve performance in unsupervised constituency parsing. Using a relatively small number of span constraints we can substantially improve the output from DIORA, an already competitive unsupervised parsing system. Compared with full parse tree annotation, span constraints can be acquired with minimal effort, such as with a lexicon derived from Wikipedia, to find exact text matches. Our experiments show span constraints based on entities improves constituency parsing on English WSJ Penn Treebank by more than 5 F1. Furthermore, our method extends to any domain where span constraints are easily attainable, and as a case study we demonstrate its effectiveness by parsing biomedical text from the CRAFT dataset.
翻訳日:2021-09-14 15:52:11 公開日:2021-09-10
# PICARD: 言語モデルからの制約付き自己回帰デコードのための構文解析

PICARD: Parsing Incrementally for Constrained Auto-Regressive Decoding from Language Models ( http://arxiv.org/abs/2109.05093v1 )

ライセンス: Link先を確認
Torsten Scholak and Nathan Schucher and Dzmitry Bahdanau(参考訳) テキストデータのための大規模な事前訓練された言語モデルは、制約のない出力空間を持ち、各デコードステップで1万のサブワードトークンを生成できる。 SQLのような制約のある形式言語をターゲットに微調整された場合、これらのモデルはしばしば無効なコードを生成します。 PICARD(https://github.com/ElementAI/picardで利用可能なコードおよびトレーニング済みモデル)は、インクリメンタル解析によって言語モデルの自動回帰デコーダを制約する手法である。 PICARDは、デコードの各ステップで許容できないトークンを拒否することで、有効な出力シーケンスを見つけるのに役立つ。 課題であるSpiderとCoSQLのテキストからSQLへの変換タスクにおいて、PICARDは、パス可能なパフォーマンスを備えた微調整されたT5モデルを最先端のソリューションに変換する。

Large pre-trained language models for textual data have an unconstrained output space; at each decoding step, they can produce any of 10,000s of sub-word tokens. When fine-tuned to target constrained formal languages like SQL, these models often generate invalid code, rendering it unusable. We propose PICARD (code and trained models available at https://github.com/ElementAI/picard), a method for constraining auto-regressive decoders of language models through incremental parsing. PICARD helps to find valid output sequences by rejecting inadmissible tokens at each decoding step. On the challenging Spider and CoSQL text-to-SQL translation tasks, we show that PICARD transforms fine-tuned T5 models with passable performance into state-of-the-art solutions.
翻訳日:2021-09-14 15:31:51 公開日:2021-09-10
# マルチスケール・エネルギネットを用いた深層移行学習による髄芽細胞腫の分類

Medulloblastoma Tumor Classification using Deep Transfer Learning with Multi-Scale EfficientNets ( http://arxiv.org/abs/2109.05025v1 )

ライセンス: Link先を確認
Marcel Bengs, Michael Bockmayr, Ulrich Sch\"uller, Alexander Schlaefer(参考訳) 小児で最も多い悪性脳腫瘍は髄芽腫(MB)である。 診断は一般に病理組織スライドの顕微鏡的評価に基づいている。 しかし、病理組織学的パターンの視覚のみの評価は退屈で時間を要する課題であり、観察者の変動にも影響される。 したがって、自動MB腫瘍分類は、一貫性と堅牢な定量化を促進することによって病理学者を支援することができる。 近年、畳み込みニューラルネットワーク(cnns)が提案されているが、転送学習は有望な結果を示している。 本稿では,エンド・ツー・エンドのmb腫瘍分類を提案し,様々な入力サイズとマッチングネットワーク次元の転送学習について検討する。 組織学的サブタイプであるclassicとdesmoplastic/nodularの区別に注目した。 そこで本研究では,CNNの全次元を均一にスケールするEfficientNetsを,最近提案した。 161ケースのデータセットを用いて、入力解像度が大きい事前学習されたEfficientNetは、一般的に使用されるCNNアーキテクチャと比較して、大幅な性能向上をもたらすことを示した。 また,このような大規模アーキテクチャを使用する場合,トランスファー学習の重要性も強調する。 その結果,F1スコアは80.1%となった。

Medulloblastoma (MB) is the most common malignant brain tumor in childhood. The diagnosis is generally based on the microscopic evaluation of histopathological tissue slides. However, visual-only assessment of histopathological patterns is a tedious and time-consuming task and is also affected by observer variability. Hence, automated MB tumor classification could assist pathologists by promoting consistency and robust quantification. Recently, convolutional neural networks (CNNs) have been proposed for this task, while transfer learning has shown promising results. In this work, we propose an end-to-end MB tumor classification and explore transfer learning with various input sizes and matching network dimensions. We focus on differentiating between the histological subtypes classic and desmoplastic/nodular. For this purpose, we systematically evaluate recently proposed EfficientNets, which uniformly scale all dimensions of a CNN. Using a data set with 161 cases, we demonstrate that pre-trained EfficientNets with larger input resolutions lead to significant performance improvements compared to commonly used pre-trained CNN architectures. Also, we highlight the importance of transfer learning, when using such large architectures. Overall, our best performing method achieves an F1-Score of 80.1%.
翻訳日:2021-09-14 15:26:07 公開日:2021-09-10
# No Size Fits All:LPWANの無線設定自動化

No Size Fits All: Automated Radio Configuration for LPWANs ( http://arxiv.org/abs/2109.05103v1 )

ライセンス: Link先を確認
Zerina Kapetanovic, Deepak Vasisht, Tusher Chakraborty, Joshua R. Smith, Ranveer Chandra(参考訳) LoRaのような低消費電力の長距離ネットワークは、IoTデプロイメントの主流になりつつある。 これらのプロトコルによって実現されるアプリケーションの汎用性を考えると、多くのデータレートと帯域幅をサポートする。 しかし、複数のマイルにわたって何百ものデバイスをサポートする特定のネットワークの場合、ネットワークオペレータは、ゲートウェイと通信するすべてのクライアントデバイスに対して、同じ構成や小さな構成のサブセットを指定する必要がある。 このワンサイズのアプローチは、大規模ネットワークでは極めて非効率である。 我々は、ネットワークデバイスが選択したデータレートで送信できるように、別のアプローチを提案する。 ゲートウェイはプリアンブルの最初の数個のシンボルを使用して、正しいデータレートを分類し、設定を切り替え、データをデコードする。 私たちの設計では、クライアントがパワー不足でリソース制約の強いアウトドアiotデプロイメントに固有の非対称性を活用していますが、ゲートウェイはそうではありません。 私たちのゲートウェイ設計であるproteusは、ニューラルネットワークアーキテクチャを実行し、既存のloraプロトコルと後方互換性があります。 実験の結果,proteusは屋内および屋外の配置において97%以上の精度で正確な構成を同定できることが判明した。 私たちのネットワークアーキテクチャは、LoRaテストベッドのスループットを3.8から11倍に向上させています。

Low power long-range networks like LoRa have become increasingly mainstream for Internet of Things deployments. Given the versatility of applications that these protocols enable, they support many data rates and bandwidths. Yet, for a given network that supports hundreds of devices over multiple miles, the network operator typically needs to specify the same configuration or among a small subset of configurations for all the client devices to communicate with the gateway. This one-size-fits-all approach is highly inefficient in large networks. We propose an alternative approach -- we allow network devices to transmit at any data rate they choose. The gateway uses the first few symbols in the preamble to classify the correct data rate, switches its configuration, and then decodes the data. Our design leverages the inherent asymmetry in outdoor IoT deployments where the clients are power-starved and resource-constrained, but the gateway is not. Our gateway design, Proteus, runs a neural network architecture and is backward compatible with existing LoRa protocols. Our experiments reveal that Proteus can identify the correct configuration with over 97% accuracy in both indoor and outdoor deployments. Our network architecture leads to a 3.8 to 11 times increase in throughput for our LoRa testbed.
翻訳日:2021-09-14 15:16:08 公開日:2021-09-10
# 確率IP3依存性カルシウムダイナミクスモデリングのための物理ベース機械学習

Physics-based machine learning for modeling stochastic IP3-dependent calcium dynamics ( http://arxiv.org/abs/2109.05053v1 )

ライセンス: Link先を確認
Oliver K. Ernst, Tom Bartol, Terrence Sejnowski, Eric Mjolsness(参考訳) 本稿では,候補関数によるドメイン固有物理を組み込んだモデル縮小のための機械学習手法を提案する。 本手法は,反応ネットワークの確率シミュレーションから有効確率分布と微分方程式モデルを推定する。 縮小記述と細スケール記述の密接な関係は、マスター方程式から導かれる近似を学習問題に導入することを可能にする。 この表現は一般化を改善できることが示されており、イノシトール三リン酸(ip3)依存性カルシウム振動の古典的なモデルではネットワークサイズが大幅に削減される。

We present a machine learning method for model reduction which incorporates domain-specific physics through candidate functions. Our method estimates an effective probability distribution and differential equation model from stochastic simulations of a reaction network. The close connection between reduced and fine scale descriptions allows approximations derived from the master equation to be introduced into the learning problem. This representation is shown to improve generalization and allows a large reduction in network size for a classic model of inositol trisphosphate (IP3) dependent calcium oscillations in non-excitable cells.
翻訳日:2021-09-14 15:11:04 公開日:2021-09-10
# 安全強化学習における低次元セーフ領域学習のためのデータ生成法

Data Generation Method for Learning a Low-dimensional Safe Region in Safe Reinforcement Learning ( http://arxiv.org/abs/2109.05077v1 )

ライセンス: Link先を確認
Zhehua Zhou, Ozgur S. Oguz, Yi Ren, Marion Leibold and Martin Buss(参考訳) 安全な強化学習は、学習プロセス中にシステムや環境が損なわれないようにしながら、制御ポリシーを学ぶことを目的としている。 高非線形・高次元力学系に安全な強化学習を実装するためには,データ駆動型特徴抽出法を用いて低次元安全な領域を探索し,学習アルゴリズムの安全性を推定する。 学習した安全推定の信頼性はデータに依存しており,本研究では,異なるトレーニングデータが安全強化学習にどのように影響するかについて検討する。 学習性能と安全でないリスクのバランスをとることで、2つのサンプリング法を組み合わせたデータ生成法を提案し、代表訓練データを生成する。 本手法の性能は,3リンク倒立振子を例に示す。

Safe reinforcement learning aims to learn a control policy while ensuring that neither the system nor the environment gets damaged during the learning process. For implementing safe reinforcement learning on highly nonlinear and high-dimensional dynamical systems, one possible approach is to find a low-dimensional safe region via data-driven feature extraction methods, which provides safety estimates to the learning algorithm. As the reliability of the learned safety estimates is data-dependent, we investigate in this work how different training data will affect the safe reinforcement learning approach. By balancing between the learning performance and the risk of being unsafe, a data generation method that combines two sampling methods is proposed to generate representative training data. The performance of the method is demonstrated with a three-link inverted pendulum example.
翻訳日:2021-09-14 15:10:56 公開日:2021-09-10
# (参考訳) 非構造化情報の知識マイニング:サイバードメインへの応用

Knowledge mining of unstructured information: application to cyber-domain ( http://arxiv.org/abs/2109.03848v2 )

ライセンス: CC BY 4.0
Tuomas Takko, Kunal Bhattacharya, Martti Lehto, Pertti Jalasvirta, Aapo Cederberg, Kimmo Kaski(参考訳) サイバーインテリジェンスは、脆弱性やインシデントに関する報告を含む多くのオープンソースソースで広く、豊富に利用可能である。 このノイズの多い情報の流れは、さまざまな組織におけるアナリストや調査員の利益のために使われるためには、新しいツールやテクニックを必要とします。 本稿では,サイバードメインにおけるインシデントに関するフリーフォームテキストから関連する情報を抽出するための知識グラフと知識マイニングフレームワークを提案する。 当社のフレームワークには、マシンラーニングベースのパイプラインと、エンティティ、攻撃者、および関連情報を非技術サイバーオントロジーで生成するクローリングメソッドが含まれています。 我々は,我々の知識マイニング手法の正確性とサイバーアナリストの利用におけるフレームワークの有用性を評価するために,公開可能なサイバーインシデントデータセット上でフレームワークをテストした。 本研究は,新たなフレームワークを用いて構築された知識グラフを解析し,様々なエンティティへのリスクや,産業と国家間のリスク伝播の観点から,現在のサイバー環境から追加情報を推測できることを示す。 技術的および運用レベルの情報に対応するフレームワークを拡張することで、ナレッジグラフにおけるトレンドとリスクの正確性と説明可能性を高めることができる。

Cyber intelligence is widely and abundantly available in numerous open online sources with reports on vulnerabilities and incidents. This constant stream of noisy information requires new tools and techniques if it is to be used for the benefit of analysts and investigators in various organizations. In this paper we present and implement a novel knowledge graph and knowledge mining framework for extracting relevant information from free-form text about incidents in the cyber domain. Our framework includes a machine learning based pipeline as well as crawling methods for generating graphs of entities, attackers and the related information with our non-technical cyber ontology. We test our framework on publicly available cyber incident datasets to evaluate the accuracy of our knowledge mining methods as well as the usefulness of the framework in the use of cyber analysts. Our results show analyzing the knowledge graph constructed using the novel framework, an analyst can infer additional information from the current cyber landscape in terms of risk to various entities and the propagation of risk between industries and countries. Expanding the framework to accommodate more technical and operational level information can increase the accuracy and explainability of trends and risk in the knowledge graph.
翻訳日:2021-09-14 05:30:21 公開日:2021-09-10
# (参考訳) C-MinHash: 2つの命令を1つに事実上削減する

C-MinHash: Practically Reducing Two Permutations to Just One ( http://arxiv.org/abs/2109.04595v1 )

ライセンス: CC BY 4.0
Xiaoyun Li and Ping Li(参考訳) 従来のミンワイズハッシュ (MinHash) では、アプリケーションによっては1024ドル以上の大容量バイナリ (0/1) のデータで Jaccard の類似性を推定するために、$K$ の独立置換を適用する必要がある。 C-MinHash (Li and Li, 2021) に関する最近の研究は、厳密な証明により、2つの置換しか必要ないことを示した。 最初の置換は、データに存在する可能性のある構造を壊すために適用され、第2の置換は、循環シフト方式で$K$ハッシュを生成するために$K$倍に再使用される。 (Li, Li, 2021)は、おそらく驚くべきことに、K$ハッシュが相関しているにもかかわらず、推定分散が従来のMinHashの分散よりも厳密に小さいことを証明している。 Li と Li, 2021) では、C-MinHash における初期置換が本当に必要であることが示されている。 理論解析の容易さのために、2つの独立した置換を用いた。 本稿では,一つの置換のみを実際に使用できることを示す。 つまり、データの構造を壊す最初の前処理ステップと、$k$ハッシュを生成する循環ハッシュステップの両方に、1つの置換が使用される。 理論的解析は非常に複雑になるが、推定子の期待値の表現を明示的に書き留めることができる。 新しい推定器はもはや偏りがないが、バイアスは極端に小さく、推定精度(正方形誤差)には本質的に影響しない。 1つの置換だけを使用するという我々の主張を検証するために、広範な実験セットが提供される。

Traditional minwise hashing (MinHash) requires applying $K$ independent permutations to estimate the Jaccard similarity in massive binary (0/1) data, where $K$ can be (e.g.,) 1024 or even larger, depending on applications. The recent work on C-MinHash (Li and Li, 2021) has shown, with rigorous proofs, that only two permutations are needed. An initial permutation is applied to break whatever structures which might exist in the data, and a second permutation is re-used $K$ times to produce $K$ hashes, via a circulant shifting fashion. (Li and Li, 2021) has proved that, perhaps surprisingly, even though the $K$ hashes are correlated, the estimation variance is strictly smaller than the variance of the traditional MinHash. It has been demonstrated in (Li and Li, 2021) that the initial permutation in C-MinHash is indeed necessary. For the ease of theoretical analysis, they have used two independent permutations. In this paper, we show that one can actually simply use one permutation. That is, one single permutation is used for both the initial pre-processing step to break the structures in the data and the circulant hashing step to generate $K$ hashes. Although the theoretical analysis becomes very complicated, we are able to explicitly write down the expression for the expectation of the estimator. The new estimator is no longer unbiased but the bias is extremely small and has essentially no impact on the estimation accuracy (mean square errors). An extensive set of experiments are provided to verify our claim for using just one permutation.
翻訳日:2021-09-14 01:10:15 公開日:2021-09-10
# (参考訳) コンテキストモーションネットワークによる画像の自動マッチング

Automatic Portrait Video Matting via Context Motion Network ( http://arxiv.org/abs/2109.04598v1 )

ライセンス: CC BY 4.0
Qiqi Hou, Charlie Wang(参考訳) 我々の自動ポートレートビデオマッチングは追加入力を必要としない。 ほとんどの最先端のマッティング手法は、自動的にトリマップを生成するセマンティックセグメンテーション法に依存している。 彼らのパフォーマンスは、時間的情報の欠如によって損なわれている。 本手法は,光フローからの時間情報だけでなく意味情報も活用し,高品質な結果が得られる。

Our automatic portrait video matting method does not require extra inputs. Most state-of-the-art matting methods rely on semantic segmentation methods to automatically generate the trimap. Their performance is compromised due to the lack of temporal information. Our method exploits semantic information as well as temporal information from optical flow and produces high-quality results.
翻訳日:2021-09-14 00:49:45 公開日:2021-09-10
# (参考訳) IndoBERTweet: 効果的なドメイン特化語彙初期化を備えたインドネシアのTwitterのための事前訓練言語モデル

IndoBERTweet: A Pretrained Language Model for Indonesian Twitter with Effective Domain-Specific Vocabulary Initialization ( http://arxiv.org/abs/2109.04607v1 )

ライセンス: CC BY 4.0
Fajri Koto and Jey Han Lau and Timothy Baldwin(参考訳) IndoBERTweetはインドネシア初の大規模事前訓練モデルであり、単言語で訓練されたインドネシアのBERTモデルを付加的なドメイン固有語彙で拡張することで訓練する。 特に、語彙ミスマッチに基づく効率的なモデル適応に着目し、新しい単語タイプに対するBERT埋め込み層を初期化する方法をベンチマークする。 平均BERTサブワード埋め込みの初期化は事前学習を5倍速くし、7つのTwitterベースのデータセットに対する外在的評価の観点から語彙適応法よりも効果的であることがわかった。

We present IndoBERTweet, the first large-scale pretrained model for Indonesian Twitter that is trained by extending a monolingually-trained Indonesian BERT model with additive domain-specific vocabulary. We focus in particular on efficient model adaptation under vocabulary mismatch, and benchmark different ways of initializing the BERT embedding layer for new word types. We find that initializing with the average BERT subword embedding makes pretraining five times faster, and is more effective than proposed methods for vocabulary adaptation in terms of extrinsic evaluation over seven Twitter-based datasets.
翻訳日:2021-09-14 00:38:35 公開日:2021-09-10
# (参考訳) 長い対話要約に関する探索的研究--何が機能し、次に何が起こるのか

An Exploratory Study on Long Dialogue Summarization: What Works and What's Next ( http://arxiv.org/abs/2109.04609v1 )

ライセンス: CC BY 4.0
Yusen Zhang, Ansong Ni, Tao Yu, Rui Zhang, Chenguang Zhu, Budhaditya Deb, Asli Celikyilmaz, Ahmed Hassan Awadallah and Dragomir Radev(参考訳) 対話要約は、会議、インタビュー、テレビシリーズにおける長い会話から、読者が有能な情報を捉えるのに役立つ。 しかし、現実の対話は現在の要約モデルにとって大きな課題であり、対話長は最近のトランスフォーマーベースの事前訓練モデルによって課される入力制限を超え、対話の対話性は関連情報をニュース記事よりも文脈に依存し、疎らに分散させる。 本研究では,(1)Longformerのような拡張型トランスフォーマーモデル,(2)複数の対話音声検索手法を用いた検索・要約パイプラインモデル,(3)HMNetのような階層型対話符号化モデル,の3つの戦略を検証して,長文対話要約に関する包括的な研究を行う。 QMSum, MediaSum, SummScreenの3つの長文対話データセットによる実験結果から, 検索・推定パイプラインモデルが最も高い性能を示した。 また,より強固な検索モデルと適切な外部要約データセットを事前学習することで,要約品質をさらに向上できることを示す。

Dialogue summarization helps readers capture salient information from long conversations in meetings, interviews, and TV series. However, real-world dialogues pose a great challenge to current summarization models, as the dialogue length typically exceeds the input limits imposed by recent transformer-based pre-trained models, and the interactive nature of dialogues makes relevant information more context-dependent and sparsely distributed than news articles. In this work, we perform a comprehensive study on long dialogue summarization by investigating three strategies to deal with the lengthy input problem and locate relevant information: (1) extended transformer models such as Longformer, (2) retrieve-then-summarize pipeline models with several dialogue utterance retrieval methods, and (3) hierarchical dialogue encoding models such as HMNet. Our experimental results on three long dialogue datasets (QMSum, MediaSum, SummScreen) show that the retrieve-then-summarize pipeline models yield the best performance. We also demonstrate that the summary quality can be further improved with a stronger retrieval model and pretraining on proper external summarization datasets.
翻訳日:2021-09-14 00:26:09 公開日:2021-09-10
# (参考訳) 長い文書のランク付けのためのクエリ駆動セグメンテーション選択

Query-driven Segment Selection for Ranking Long Documents ( http://arxiv.org/abs/2109.04611v1 )

ライセンス: CC BY 4.0
Youngwoo Kim, Razieh Rahimi, Hamed Bonab and James Allan(参考訳) トランスフォーマーベースのローダは最先端のパフォーマンスを示している。 しかし、それらの自己拘束操作はほとんどが長いシーケンスを処理できない。 これらのランク付けをトレーニングする一般的なアプローチの1つは、トレーニングデータとして、第1セグメントのような各ドキュメントのセグメントをヒューリスティックに選択することである。 しかし、これらのセグメントはドキュメントのクエリ関連部分を含まないかもしれない。 この問題に対処するために,長い文書からクエリによるセグメント選択を提案し,トレーニングデータを構築する。 セグメントセレクタは、より正確なラベルと予測が難しい非関連サンプルを関連するサンプルに提供する。 実験の結果,提案したセグメントセレクタでトレーニングしたBERTベースのランカは,ヒューリスティックに選択したセグメントでトレーニングしたセグメントよりも有意に優れており,より長い入力シーケンスを処理できる局所的な自己認識を持つ最先端モデルと同等に動作することがわかった。 提案手法は, トランスフォーマーを用いたロータを設計するための新しい方向を開く。

Transformer-based rankers have shown state-of-the-art performance. However, their self-attention operation is mostly unable to process long sequences. One of the common approaches to train these rankers is to heuristically select some segments of each document, such as the first segment, as training data. However, these segments may not contain the query-related parts of documents. To address this problem, we propose query-driven segment selection from long documents to build training data. The segment selector provides relevant samples with more accurate labels and non-relevant samples which are harder to be predicted. The experimental results show that the basic BERT-based ranker trained with the proposed segment selector significantly outperforms that trained by the heuristically selected segments, and performs equally to the state-of-the-art model with localized self-attention that can process longer input sequences. Our findings open up new direction to design efficient transformer-based rankers.
翻訳日:2021-09-14 00:15:15 公開日:2021-09-10
# (参考訳) 非パラメトリック需要モデルを用いたパーソナライズ価格の差分プライバシー

Differential Privacy in Personalized Pricing with Nonparametric Demand Models ( http://arxiv.org/abs/2109.04615v1 )

ライセンス: CC BY 4.0
Xi Chen, Sentao Miao, Yining Wang(参考訳) 近年、情報技術の進歩と豊富な個人データにより、アルゴリズムによるパーソナライズ価格の適用が容易になっている。 しかし、これは敵の攻撃によるプライバシー侵害の懸念が高まっている。 本稿では,データプライバシ保護下での非パラメトリック需要モデルを用いて,動的にパーソナライズされた価格設定問題について検討する。 データプライバシの2つの概念は、実践において広く適用されている: \textit{central differential privacy (cdp) と \textit{local differential privacy (ldp) であり、多くのケースでcdpよりも強いことが証明されている。 我々は,cdp と ldp gurantee をそれぞれ満たしながら,価格決定と未知の需要の学習を行う2つのアルゴリズムを開発した。 特に、CDP保証付きアルゴリズムの場合、後悔は最大$\tilde O(T^{(d+2)/(d+4)}+\varepsilon^{-1}T^{d/(d+4)})$であることが証明される。 パラメータ $T$ は時間軸の長さを表し、$d$ はパーソナライズされた情報ベクトルの次元を表し、キーパラメータ $\varepsilon>0$ はプライバシーの強さを測定する(より小さい$\varepsilon$ はより強力なプライバシー保護を示す)。 一方、ldp保証のあるアルゴリズムでは、その後悔は最大で$\tilde o(\varepsilon^{-2/(d+2)}t^{(d+1)/(d+2)})$であることが証明され、ldp保証のあるアルゴリズムに対して$\omega(\varepsilon^{-2/(d+2)}t^{(d+1)/(d+2)})$という下限が証明されるので、ほぼ最適である。

In the recent decades, the advance of information technology and abundant personal data facilitate the application of algorithmic personalized pricing. However, this leads to the growing concern of potential violation of privacy due to adversarial attack. To address the privacy issue, this paper studies a dynamic personalized pricing problem with \textit{unknown} nonparametric demand models under data privacy protection. Two concepts of data privacy, which have been widely applied in practices, are introduced: \textit{central differential privacy (CDP)} and \textit{local differential privacy (LDP)}, which is proved to be stronger than CDP in many cases. We develop two algorithms which make pricing decisions and learn the unknown demand on the fly, while satisfying the CDP and LDP gurantees respectively. In particular, for the algorithm with CDP guarantee, the regret is proved to be at most $\tilde O(T^{(d+2)/(d+4)}+\varepsilon^{-1}T^{d/(d+4)})$. Here, the parameter $T$ denotes the length of the time horizon, $d$ is the dimension of the personalized information vector, and the key parameter $\varepsilon>0$ measures the strength of privacy (smaller $\varepsilon$ indicates a stronger privacy protection). On the other hand, for the algorithm with LDP guarantee, its regret is proved to be at most $\tilde O(\varepsilon^{-2/(d+2)}T^{(d+1)/(d+2)})$, which is near-optimal as we prove a lower bound of $\Omega(\varepsilon^{-2/(d+2)}T^{(d+1)/(d+2)})$ for any algorithm with LDP guarantee.
翻訳日:2021-09-14 00:06:20 公開日:2021-09-10
# (参考訳) style pooling: 分類の公平性を改善するための自動テキストスタイル難読化

Style Pooling: Automatic Text Style Obfuscation for Improved Classification Fairness ( http://arxiv.org/abs/2109.04624v1 )

ライセンス: CC BY 4.0
Fatemehsadat Mireshghallah, Taylor Berg-Kirkpatrick(参考訳) テキストスタイルは、著者の繊細な属性(例えば人種や年齢)を読者に示すことができ、それによって、テキストに基づく人間とアルゴリズムによる決定において、プライバシ侵害とバイアスにつながる。 例えば、ジョブアプリケーションで書くスタイルは、雇用決定がアルゴリズムでなされるか、あるいは人間によって行われるかに関わらず、雇用決定のバイアスにつながる可能性のある、候補者の保護された属性を明らかにする可能性がある。 テキスト自体を自動書き直し, スタイル変換を通じて, 人間の生成したテキストの様式的特徴を強調するvaeベースのフレームワークを提案する。 本フレームワークは,(1)学習中に見られる様々なスタイルを効果的に交差する最小限の概念,(2)テキストにすべての繊細な属性のスタイル的特徴を付加することにより難読化しようとする極大概念という,難読化スタイルの2つの異なる概念を可能にする柔軟な方法で難読化スタイルの概念を運用する。 当社のスタイル難読化フレームワークは,複数の目的に使用できるが,下流分類器の公平性向上に有効性を示す。 また,スタイルプーリングがテキストの流束性,意味的一貫性,属性除去に与えた影響を,ドメインスタイルの難読化として包括的に研究している。

Text style can reveal sensitive attributes of the author (e.g. race or age) to the reader, which can, in turn, lead to privacy violations and bias in both human and algorithmic decisions based on text. For example, the style of writing in job applications might reveal protected attributes of the candidate which could lead to bias in hiring decisions, regardless of whether hiring decisions are made algorithmically or by humans. We propose a VAE-based framework that obfuscates stylistic features of human-generated text through style transfer by automatically re-writing the text itself. Our framework operationalizes the notion of obfuscated style in a flexible way that enables two distinct notions of obfuscated style: (1) a minimal notion that effectively intersects the various styles seen in training, and (2) a maximal notion that seeks to obfuscate by adding stylistic features of all sensitive attributes to text, in effect, computing a union of styles. Our style-obfuscation framework can be used for multiple purposes, however, we demonstrate its effectiveness in improving the fairness of downstream classifiers. We also conduct a comprehensive study on style pooling's effect on fluency, semantic consistency, and attribute removal from text, in two and three domain style obfuscation.
翻訳日:2021-09-14 00:04:54 公開日:2021-09-10
# (参考訳) 逆次プルーニングと並列化戦略を用いた高速pcアルゴリズム

A Fast PC Algorithm with Reversed-order Pruning and A Parallelization Strategy ( http://arxiv.org/abs/2109.04626v1 )

ライセンス: CC BY 4.0
Kai Zhang, Chao Tian, Kun Zhang, Todd Johnson, Xiaoqian Jiang(参考訳) pcアルゴリズムは観測データ上の因果構造発見のための最先端アルゴリズムである。 条件付き独立試験が徹底的に行われるため、最悪の場合、計算コストがかかる可能性がある。 これにより、タスクが数百から数千のノードを含む場合、特に真の因果グラフが密集している場合、アルゴリズムは計算的に難解になる。 本研究では,2つのノードを独立にレンダリングする条件セットは不自然であり,冗長ノードを含む条件セットは結果精度を犠牲にしないという批判的観測を提案する。 この発見に基づいて、私たちの仕事の革新は2つある。 まず,アルゴリズムの効率を大幅に向上させるリザーブ・オーダー・リンケージ・プルーニングPCアルゴリズムを革新する。 第2に,テンソル計算を活用し,統計独立性テストのための並列計算戦略を提案する。 また,提案アルゴリズムは,軽度グラフとデータ次元の仮定の下で,統計的損失を生じさせないことを示す。 実験結果から,提案アルゴリズムのシングルスレッドバージョンは,高密度95ノードグラフ上のPCアルゴリズムと比較して6倍の高速化を実現し,並列バージョンは825倍の高速化を実現することができた。 また,提案アルゴリズムは従来のPCアルゴリズムと同一条件下で一致していることを示す。

The PC algorithm is the state-of-the-art algorithm for causal structure discovery on observational data. It can be computationally expensive in the worst case due to the conditional independence tests are performed in an exhaustive-searching manner. This makes the algorithm computationally intractable when the task contains several hundred or thousand nodes, particularly when the true underlying causal graph is dense. We propose a critical observation that the conditional set rendering two nodes independent is non-unique, and including certain redundant nodes do not sacrifice result accuracy. Based on this finding, the innovations of our work are two-folds. First, we innovate on a reserve order linkage pruning PC algorithm which significantly increases the algorithm's efficiency. Second, we propose a parallel computing strategy for statistical independence tests by leveraging tensor computation, which brings further speedup. We also prove the proposed algorithm does not induce statistical power loss under mild graph and data dimensionality assumptions. Experimental results show that the single-threaded version of the proposed algorithm can achieve a 6-fold speedup compared to the PC algorithm on a dense 95-node graph, and the parallel version can make a 825-fold speed-up. We also provide proof that the proposed algorithm is consistent under the same set of conditions with conventional PC algorithm.
翻訳日:2021-09-13 23:46:42 公開日:2021-09-10
# (参考訳) イベント計算と目標指向解集合プログラミングを用いたモデル提示システム要件の知識支援推論

Knowledge-Assisted Reasoning of Model-Augmented System Requirements with Event Calculus and Goal-Directed Answer Set Programming ( http://arxiv.org/abs/2109.04634v1 )

ライセンス: CC BY 4.0
Brendan Hall (Honeywell Advanced Technology, Plymouth, USA), Sarat Chandra Varanasi (The University of Texas at Dallas, Richardson, USA), Jan Fiedor (Honeywell Internation s.r.o & Brno University of Technology, Brno, Czech Republic), Joaqu\'in Arias (Universidad Rey Juan Carlos, Madrid, Spain), Kinjal Basu (The University of Texas at Dallas, Richardson, USA), Fang Li (The University of Texas at Dallas, Richardson, USA), Devesh Bhatt (Honeywell Advanced Technology, Plymouth, USA), Kevin Driscoll (Honeywell Advanced Technology, Plymouth, USA), Elmer Salazar (The University of Texas at Dallas, Richardson, USA), Gopal Gupta (The University of Texas at Dallas, Richardson, USA)(参考訳) 我々は,制約付き自然言語で表現されるサイバー物理システムの要件を検討する。 我々は,これらの要件が一貫性を持ち,認識される障害に耐えられるような,新たな自動化手法を提案する。 サイバーフィジカルシステムの要求は、アクションや変化を表現するためにaiで使われるフォーマリズムであるevent calculus(ec)を使ってモデル化できる。 また、要求の事象計算モデルを直接実現するために、応答セットプログラミング(ASP)とそのクエリ駆動実装 s(CASP) をどのように利用できるかを示す。 このイベント計算モデルは、要件の自動検証に使用できる。 aspは表現力に富んだ知識表現言語であるため、サイバーフィジカルシステムに関する文脈知識を表現するのにも使うことができる。 アビオニクス領域からの高度警報システムによるアプローチについて説明する。

We consider requirements for cyber-physical systems represented in constrained natural language. We present novel automated techniques for aiding in the development of these requirements so that they are consistent and can withstand perceived failures. We show how cyber-physical systems' requirements can be modeled using the event calculus (EC), a formalism used in AI for representing actions and change. We also show how answer set programming (ASP) and its query-driven implementation s(CASP) can be used to directly realize the event calculus model of the requirements. This event calculus model can be used to automatically validate the requirements. Since ASP is an expressive knowledge representation language, it can also be used to represent contextual knowledge about cyber-physical systems, which, in turn, can be used to find gaps in their requirements specifications. We illustrate our approach through an altitude alerting system from the avionics domain.
翻訳日:2021-09-13 23:45:41 公開日:2021-09-10
# (参考訳) AIエージェントの緊急対応への応用

AI Agents in Emergency Response Applications ( http://arxiv.org/abs/2109.04646v1 )

ライセンス: CC BY 4.0
Aryan Naim, Ryan Alimo, and Jay Braun(参考訳) 救急隊員は、火災、医療、有害物質、産業事故、自然災害など様々な状況に対応している。 自然災害やテロ行為のような状況では、消防士、救急隊員、ハマトチーム、その他の機関の多面的な対応が必要である。 救急隊員を支援するエンジニアリングAIシステムは、システムエンジニアリングの難しさを証明している。 ミッションクリティカルな"エッジAI"の状況では、低レイテンシで信頼性の高い分析が必要になります。 複雑さをさらに増すには、命がかかっているときに高い精度のモデルが必要であり、リソースに制約のあるデバイスに計算集約的なモデルを配置する必要が生じる。 これらの問題に対処するため、5Gサービスベースのアーキテクチャを介してAIエージェントをデプロイするためのエージェントベースのアーキテクチャを提案する。

Emergency personnel respond to various situations ranging from fire, medical, hazardous materials, industrial accidents, to natural disasters. Situations such as natural disasters or terrorist acts require a multifaceted response of firefighters, paramedics, hazmat teams, and other agencies. Engineering AI systems that aid emergency personnel proves to be a difficult system engineering problem. Mission-critical "edge AI" situations require low-latency, reliable analytics. To further add complexity, a high degree of model accuracy is required when lives are at stake, creating a need for the deployment of highly accurate, however computationally intensive models to resource-constrained devices. To address all these issues, we propose an agent-based architecture for deployment of AI agents via 5G service-based architecture.
翻訳日:2021-09-13 23:32:06 公開日:2021-09-10
# (参考訳) 大規模言語モデルはどのような変化をもたらすのか? HyperCLOVA:数十億ドル規模の韓国生成事前学習トランスに関する研究

What Changes Can Large-scale Language Models Bring? Intensive Study on HyperCLOVA: Billions-scale Korean Generative Pretrained Transformers ( http://arxiv.org/abs/2109.04650v1 )

ライセンス: CC BY 4.0
Boseop Kim, HyoungSeok Kim, Sang-Woo Lee, Gichang Lee, Donghyun Kwak, Dong Hyeon Jeon, Sunghyun Park, Sungju Kim, Seonhoon Kim, Dongpil Seo, Heungsub Lee, Minyoung Jeong, Sungjae Lee, Minsub Kim, Suk Hyun Ko, Seokhun Kim, Taeyong Park, Jinuk Kim, Soyoung Kang, Na-Hyeon Ryu, Kang Min Yoo, Minsuk Chang, Soobin Suh, Sookyo In, Jinseong Park, Kyungduk Kim, Hiun Kim, Jisu Jeong, Yong Goo Yeo, Donghoon Ham, Dongju Park, Min Young Lee, Jaewook Kang, Inho Kang, Jung-Woo Ha, Woomyoung Park, Nako Sung(参考訳) GPT-3は、数十億の大規模データに基づいて訓練された大規模言語モデル(LM)のテキスト内学習能力を示す。 ここでは、非英語のLM、異なるサイズのモデルの性能、最近導入された即時最適化が文脈内学習に与える影響など、GPT-3論文で報告されていないいくつかの問題に対処する。 これを実現するために,韓国中心の560Bトークンコーパスでトレーニングされた82B GPT-3の韓国版HyperCLOVAを紹介する。 韓国固有のトークン化によって強化されたHyperCLOVAは、韓国のさまざまな下流タスクにおいて、最先端のコンテキスト内ゼロショットと数ショットの学習パフォーマンスを示す。 また,プロンプトベース学習のパフォーマンスの利点を示し,それをどのようにプロンプトエンジニアリングパイプラインに統合できるかを示す。 次に、インタラクティブなプロンプトエンジニアリングインターフェースであるHyperCLOVAスタジオを導入することにより、AIプロトタイピング機能をMLの非専門家に提供することで、No Code AIパラダイムを実現する可能性について議論する。 最後に,3つの社内アプリケーションによる手法の可能性を示す。

GPT-3 shows remarkable in-context learning ability of large-scale language models (LMs) trained on hundreds of billion scale data. Here we address some remaining issues less reported by the GPT-3 paper, such as a non-English LM, the performances of different sized models, and the effect of recently introduced prompt optimization on in-context learning. To achieve this, we introduce HyperCLOVA, a Korean variant of 82B GPT-3 trained on a Korean-centric corpus of 560B tokens. Enhanced by our Korean-specific tokenization, HyperCLOVA with our training configuration shows state-of-the-art in-context zero-shot and few-shot learning performances on various downstream tasks in Korean. Also, we show the performance benefits of prompt-based learning and demonstrate how it can be integrated into the prompt engineering pipeline. Then we discuss the possibility of materializing the No Code AI paradigm by providing AI prototyping capabilities to non-experts of ML by introducing HyperCLOVA studio, an interactive prompt engineering interface. Lastly, we demonstrate the potential of our methods with three successful in-house applications.
翻訳日:2021-09-13 23:24:23 公開日:2021-09-10
# (参考訳) 時間による創発的言語構成の予測--マルチモーダル連鎖による構文フレーム拡張

Predicting emergent linguistic compositions through time: Syntactic frame extension via multimodal chaining ( http://arxiv.org/abs/2109.04652v1 )

ライセンス: CC BY 4.0
Lei Yu, Yang Xu(参考訳) 自然言語は、未有界なアイデアの集合を表現するために有限語彙に依存する。 この緊張の結果の1つは、既存の言語単位と新興の項目を組み合わせて新しい表現にすることができるように、新しい構成を形成することである。 連鎖とマルチモーダル知識の認知機構を活用し,創発的構成表現を時間を通じて予測する枠組みを開発した。 構文フレーム拡張モデル(sfem, syntactic frame extension model,sfem)について述べる。これは「知覚」,「概念」,「言語」から連鎖と知識の理論を引き合いに出し、動詞がどのようにフレームを拡張して既存の名詞や新しい名詞で新しい構成を形成するかを推測するものである。 SFEMを厳格に評価する 1)知識のモダリティ、及び 2)過去150年間に構文解析された英語コーパスにおける連鎖の分類モデル。 マルチモーダルSFEMは、純粋言語的・非言語的知識を用いた競合モデルよりも、新たに出現した動詞構文と引数を予測できることを示す。 プロトタイプの視点とは対照的に,連鎖の卓越した見方を支持し,マルチモーダル連鎖の連立アプローチがメタファーやメトニミーを含むリテラルおよび図形言語の使用の創出に不可欠であることを明らかにする。

Natural language relies on a finite lexicon to express an unbounded set of emerging ideas. One result of this tension is the formation of new compositions, such that existing linguistic units can be combined with emerging items into novel expressions. We develop a framework that exploits the cognitive mechanisms of chaining and multimodal knowledge to predict emergent compositional expressions through time. We present the syntactic frame extension model (SFEM) that draws on the theory of chaining and knowledge from "percept", "concept", and "language" to infer how verbs extend their frames to form new compositions with existing and novel nouns. We evaluate SFEM rigorously on the 1) modalities of knowledge and 2) categorization models of chaining, in a syntactically parsed English corpus over the past 150 years. We show that multimodal SFEM predicts newly emerged verb syntax and arguments substantially better than competing models using purely linguistic or unimodal knowledge. We find support for an exemplar view of chaining as opposed to a prototype view and reveal how the joint approach of multimodal chaining may be fundamental to the creation of literal and figurative language uses including metaphor and metonymy.
翻訳日:2021-09-13 22:56:42 公開日:2021-09-10
# (参考訳) テキスト・テキスト・トランスファーモデルにおける数理学習能力の検討

Investigating Numeracy Learning Ability of a Text-to-Text Transfer Model ( http://arxiv.org/abs/2109.04672v1 )

ライセンス: CC BY 4.0
Kuntal Kumar Pal and Chitta Baral(参考訳) トランスフォーマーをベースとした事前学習言語モデルは、従来のNLPタスクの多くで非常に成功した。 しかし、数値理解が必要なタスクでは、しばしば苦労する。 いくつか考えられる理由は、数字の学習と保存を特別に意図していないトークン化と事前学習の目的である。 本稿では,従来のnlpタスクに先行するテキストからテキストへの転送学習モデル(t5)の学習能力について検討する。 我々は,数量化,マグニチュードオーダー予測,シリーズ内の最小値と最大値の探索,ソートという4つの数値化タスクを検討する。 T5モデルは補間環境では合理的に良好に機能するが、4つのタスクすべてにわたる補間環境ではかなり苦労している。

The transformer-based pre-trained language models have been tremendously successful in most of the conventional NLP tasks. But they often struggle in those tasks where numerical understanding is required. Some possible reasons can be the tokenizers and pre-training objectives which are not specifically designed to learn and preserve numeracy. Here we investigate the ability of text-to-text transfer learning model (T5), which has outperformed its predecessors in the conventional NLP tasks, to learn numeracy. We consider four numeracy tasks: numeration, magnitude order prediction, finding minimum and maximum in a series, and sorting. We find that, although T5 models perform reasonably well in the interpolation setting, they struggle considerably in the extrapolation setting across all four tasks.
翻訳日:2021-09-13 22:41:09 公開日:2021-09-10
# (参考訳) スコアガイドネットワークによる教師なし異常検出の強化

Enhancing Unsupervised Anomaly Detection with Score-Guided Network ( http://arxiv.org/abs/2109.04684v1 )

ライセンス: CC BY 4.0
Zongyuan Huang, Baohua Zhang, Guoqiang Hu, Longyuan Li, Yanyan Xu, Yaohui Jin(参考訳) 異常検出は、医療や金融システムを含む様々な現実世界のアプリケーションにおいて重要な役割を果たす。 複雑なシステムにおける異常ラベルの数が限られているため,近年,教師なし異常検出法が注目されている。 既存の教師なしメソッドが直面する2つの大きな課題は次のとおりである。 (i)正常データと異常データを高度に混合した遷移場における異常データとを区別すること。 二 表現学習者が構築した仮説空間における正規データと異常データのギャップを最大化するために有効な計量を定義すること。 そこで本研究では,正規データと異常データとの異常スコア差を学習・拡大するために,スコア誘導正規化による新しいスコアリングネットワークを提案する。 このようなスコア誘導戦略により、表現学習者は、モデルトレーニング段階、特に遷移分野のサンプルにおいて、より情報的な表現を徐々に学習することができる。 次に、スコア誘導型オートエンコーダ(SG-AE)を提案し、スコアリングネットワークをアノマ検出のためのオートエンコーダフレームワークと他の3つの最先端モデルに組み込むことにより、設計の有効性と転送性をさらに実証する。 合成および実世界の両方のデータセットに対する大規模な実験は、これらのスコア誘導モデル(SGM)の最先端性能を示す。

Anomaly detection plays a crucial role in various real-world applications, including healthcare and finance systems. Owing to the limited number of anomaly labels in these complex systems, unsupervised anomaly detection methods have attracted great attention in recent years. Two major challenges faced by the existing unsupervised methods are: (i) distinguishing between normal and abnormal data in the transition field, where normal and abnormal data are highly mixed together; (ii) defining an effective metric to maximize the gap between normal and abnormal data in a hypothesis space, which is built by a representation learner. To that end, this work proposes a novel scoring network with a score-guided regularization to learn and enlarge the anomaly score disparities between normal and abnormal data. With such score-guided strategy, the representation learner can gradually learn more informative representation during the model training stage, especially for the samples in the transition field. We next propose a score-guided autoencoder (SG-AE), incorporating the scoring network into an autoencoder framework for anomaly detection, as well as other three state-of-the-art models, to further demonstrate the effectiveness and transferability of the design. Extensive experiments on both synthetic and real-world datasets demonstrate the state-of-the-art performance of these score-guided models (SGMs).
翻訳日:2021-09-13 22:33:17 公開日:2021-09-10
# (参考訳) 差別化可能な報酬模倣学習による自己完結型質問応答ペアの生成

Generating Self-Contained and Summary-Centric Question Answer Pairs via Differentiable Reward Imitation Learning ( http://arxiv.org/abs/2109.04689v1 )

ライセンス: CC BY 4.0
Li Zhou, Kevin Small, Yong Zhang, Sandeep Atluri(参考訳) 対話型ニュースレコメンデーションシステムにおける質問生成を動機として,自己完結型要約型質問と記事要約型回答を用いた質問応答ペア(QAペア)の生成モデルを提案する。 まず、質問をタイトルとするニュース記事の新しいデータセットを収集し、さまざまな長さの要約と組み合わせます。 このデータセットは、回答として要約を生成するQAペア生成モデルを学ぶために使用される。 次に、自然言語生成における一般的な問題である露光バイアスを軽減するために、異なる報酬関数でQAペア生成プロセスを補強する。 自動測定と人的評価の両方が、これらのQAペアが記事の中心的なジストを捕捉し、高い回答精度を達成することを実証している。

Motivated by suggested question generation in conversational news recommendation systems, we propose a model for generating question-answer pairs (QA pairs) with self-contained, summary-centric questions and length-constrained, article-summarizing answers. We begin by collecting a new dataset of news articles with questions as titles and pairing them with summaries of varying length. This dataset is used to learn a QA pair generation model producing summaries as answers that balance brevity with sufficiency jointly with their corresponding questions. We then reinforce the QA pair generation process with a differentiable reward function to mitigate exposure bias, a common problem in natural language generation. Both automatic metrics and human evaluation demonstrate these QA pairs successfully capture the central gists of the articles and achieve high answer accuracy.
翻訳日:2021-09-13 21:54:38 公開日:2021-09-10
# (参考訳) 新型コロナウイルスおよび他の新興ドメインに対する動的ターミノロジー統合

Dynamic Terminology Integration for COVID-19 and other Emerging Domains ( http://arxiv.org/abs/2109.04708v1 )

ライセンス: CC BY-SA 4.0
Toms Bergmanis and M\=arcis Pinnis(参考訳) 言語領域の大多数は、伝達される情報の明確さと正確性を保証するために、用語の慎重な使用を必要とする。 いくつかの言語やドメインの用語の正しい使用は、大量のドメイン内並列データに汎用mtシステムを適用することで達成できるが、そのようなドメイン固有のデータは、少ないリソース言語やニッチなドメインではほとんど利用できない。 さらに、近年のcovid-19の例のように、新興ドメインではドメイン固有の並列データが容易に利用できない。 しかし、この最近の災害の重大さは、パンデミックや感染予防に関する重要な情報の信頼できる翻訳への高い需要を生み出した。 この研究は、WMT2021の共有タスク:ターミノロジーを用いた機械翻訳の一部であり、翻訳時に動的用語統合が可能なTilde MTシステムを記述する。 我々のシステムは、システムトレーニング中にドメイン内情報にアクセスすることなく、en-fr言語ペアのテストセットで最大94%のcovid-19期間使用精度を達成しています。 我々は、mtにおけるタスクの共有と用語の翻訳について、より広い議論で締めくくった。

The majority of language domains require prudent use of terminology to ensure clarity and adequacy of information conveyed. While the correct use of terminology for some languages and domains can be achieved by adapting general-purpose MT systems on large volumes of in-domain parallel data, such quantities of domain-specific data are seldom available for less-resourced languages and niche domains. Furthermore, as exemplified by COVID-19 recently, no domain-specific parallel data is readily available for emerging domains. However, the gravity of this recent calamity created a high demand for reliable translation of critical information regarding pandemic and infection prevention. This work is part of WMT2021 Shared Task: Machine Translation using Terminologies, where we describe Tilde MT systems that are capable of dynamic terminology integration at the time of translation. Our systems achieve up to 94% COVID-19 term use accuracy on the test set of the EN-FR language pair without having access to any form of in-domain information during system training. We conclude our work with a broader discussion considering the Shared Task itself and terminology translation in MT.
翻訳日:2021-09-13 21:53:40 公開日:2021-09-10
# (参考訳) AfroMT:8つのアフリカの言語翻訳のための事前学習戦略と再現可能なベンチマーク

AfroMT: Pretraining Strategies and Reproducible Benchmarks for Translation of 8 African Languages ( http://arxiv.org/abs/2109.04715v1 )

ライセンス: CC BY 4.0
Machel Reid, Junjie Hu, Graham Neubig, Yutaka Matsuo(参考訳) 再現可能なベンチマークは機械翻訳研究の推進に不可欠である。 しかし、既存の機械翻訳のベンチマークは、主に高解像度言語や表現のよい言語に限られている。 低リソース機械翻訳への関心が高まりつつあるにもかかわらず、多くのアフリカ言語に対して標準化された再現可能なベンチマークは存在しない。 これらの課題に取り組むため,我々は,アフリカで広く話されている8つの言語を対象とした,標準化された,クリーンで再現可能な機械翻訳ベンチマークであるafromtを提案する。 また,これらの言語の特徴を考慮したシステム診断のための分析ツールも開発している。 さらに,低リソースに着目した事前学習を新たに検討し,単語レベルのアライメント情報と擬似モノリンガルデータを活用する2つの新しいデータ拡張戦略を開発した。 11の言語で事前トレーニングすると、強力なベースラインよりも最大2 bleuポイントの値が向上した。 また,データ制約されたシナリオにおいて,言語間転送ベースラインよりも最大12 bleuポイントの獲得率を示す。 すべてのコードと事前訓練されたモデルは、アフリカ言語のより大きな再現可能なベンチマークに向けたさらなるステップとしてリリースされる。

Reproducible benchmarks are crucial in driving progress of machine translation research. However, existing machine translation benchmarks have been mostly limited to high-resource or well-represented languages. Despite an increasing interest in low-resource machine translation, there are no standardized reproducible benchmarks for many African languages, many of which are used by millions of speakers but have less digitized textual data. To tackle these challenges, we propose AfroMT, a standardized, clean, and reproducible machine translation benchmark for eight widely spoken African languages. We also develop a suite of analysis tools for system diagnosis taking into account the unique properties of these languages. Furthermore, we explore the newly considered case of low-resource focused pretraining and develop two novel data augmentation-based strategies, leveraging word-level alignment information and pseudo-monolingual data for pretraining multilingual sequence-to-sequence models. We demonstrate significant improvements when pretraining on 11 languages, with gains of up to 2 BLEU points over strong baselines. We also show gains of up to 12 BLEU points over cross-lingual transfer baselines in data-constrained scenarios. All code and pretrained models will be released as further steps towards larger reproducible benchmarks for African languages.
翻訳日:2021-09-13 21:39:33 公開日:2021-09-10
# (参考訳) 多言語表現における自己言語バイアスの簡易かつ効果的な除去法

A Simple and Effective Method To Eliminate the Self Language Bias in Multilingual Representations ( http://arxiv.org/abs/2109.04727v1 )

ライセンス: CC BY 4.0
Ziyi Yang, Yinfei Yang, Daniel Cer and Eric Darve(参考訳) 言語非依存かつ意味論的情報分離は、多言語表現モデルの新たな研究方向である。 我々はこの問題を幾何学代数と意味空間の新しい角度から探求する。 多言語データに事前学習された多言語表現における意味関連成分から言語識別情報を取り出す簡易かつ高効率な「言語情報除去(lir)」手法 ポストトレーニングおよびモデル非依存の手法であるLIRは、行列分解や直交射影といった単純な線形演算のみを使用する。 LIRは、弱アライメント多言語システムでは、意味空間の主成分が言語アイデンティティ情報をエンコードしていることを明らかにする。 我々はまず,多言語埋め込み空間の強いアライメントを必要とする言語間質問応答検索タスク(LAReQA)について,LIRを評価する。 実験により、LIRがこの課題に対して極めて効果的であり、弱配向モデルに対するMAPの相対的な改善がほぼ100%であることが示された。 次に、Amazon ReviewsおよびXEVALデータセット上のLIRを評価し、言語情報を削除することにより、言語間転送性能が向上することを示す。

Language agnostic and semantic-language information isolation is an emerging research direction for multilingual representations models. We explore this problem from a novel angle of geometric algebra and semantic space. A simple but highly effective method "Language Information Removal (LIR)" factors out language identity information from semantic related components in multilingual representations pre-trained on multi-monolingual data. A post-training and model-agnostic method, LIR only uses simple linear operations, e.g. matrix factorization and orthogonal projection. LIR reveals that for weak-alignment multilingual systems, the principal components of semantic spaces primarily encodes language identity information. We first evaluate the LIR on a cross-lingual question answer retrieval task (LAReQA), which requires the strong alignment for the multilingual embedding space. Experiment shows that LIR is highly effectively on this task, yielding almost 100% relative improvement in MAP for weak-alignment models. We then evaluate the LIR on Amazon Reviews and XEVAL dataset, with the observation that removing language information is able to improve the cross-lingual transfer performance.
翻訳日:2021-09-13 21:19:10 公開日:2021-09-10
# (参考訳) 汎用性問題解決のための注意ネットワークによるグラフ検索の強化

Boosting Graph Search with Attention Network for Solving the General Orienteering Problem ( http://arxiv.org/abs/2109.04730v1 )

ライセンス: CC BY 4.0
Zongtao Liu, Jing Xu, Jintao Su, Tao Xiao and Yang Yang(参考訳) 近年,ニューラルネットワークを用いて異なる経路問題を解く研究がいくつか行われている。 これらの研究は通常、ノードのエンコーダ埋め込みと問題固有のコンテキストを用いてノードシーケンス(path)を生成し、さらにビームサーチによって生成された結果を最適化するエンコーダデコーダベースのフレームワークを設計する。 しかし、既存のモデルはノード座標を入力としてのみサポートし、研究されたルーティング問題の自己参照性を無視し、ノード選択の初期段階における信頼性の低い考慮を欠いているため、実世界では適用が困難である。 本稿では,これらの制約に対処する例として,オリエンテーリング問題を挙げる。 汎用指向性問題の解法として,可変ビーム探索アルゴリズムと学習ヒューリスティックを組み合わせた新しい手法を提案する。 我々は,ノード間の距離を入力とする注意ネットワークを用いてヒューリスティックを取得し,強化学習フレームワークを用いて学習する。 実験により,本手法は広い範囲のベースラインを越え,最適あるいは高度に専門化されたアプローチに近い結果が得られることを示した。 また,提案するフレームワークは他のルーティング問題にも容易に適用できる。 私たちのコードは公開されています。

Recently, several studies have explored the use of neural network to solve different routing problems, which is an auspicious direction. These studies usually design an encoder-decoder based framework that uses encoder embeddings of nodes and the problem-specific context to produce node sequence(path), and further optimize the produced result on top by beam search. However, existing models can only support node coordinates as input, ignore the self-referential property of the studied routing problems, and lack the consideration about the low reliability in the initial stage of node selection, thus are hard to be applied in real-world. In this paper, we take the orienteering problem as an example to tackle these limitations. We propose a novel combination of a variant beam search algorithm and a learned heuristic for solving the general orienteering problem. We acquire the heuristic with an attention network that takes the distances among nodes as input, and learn it via a reinforcement learning framework. The empirical studies show that our method can surpass a wide range of baselines and achieve results close to the optimal or highly specialized approach. Also, our proposed framework can be easily applied to other routing problems. Our code is publicly available.
翻訳日:2021-09-13 21:09:43 公開日:2021-09-10
# (参考訳) ジェンダーバイアス対策における単語埋め込みの信頼性の評価

Assessing the Reliability of Word Embedding Gender Bias Measures ( http://arxiv.org/abs/2109.04732v1 )

ライセンス: CC BY 4.0
Yupei Du, Qixiang Fang, Dong Nguyen(参考訳) 単語埋め込みにおける人間のような社会的バイアスを定量化する様々な方法が提案されている。 しかし、これらの尺度に基づくバイアススコアは測定誤差に苦しむことがある。 測定品質の指標の1つは信頼性であり、測定値が一貫した結果を生み出す程度に関するものである。 本稿では,単語埋め込み性バイアス尺度の3種類の信頼性,すなわちテスト-テストの信頼性,層間一貫性,内部整合性を評価する。 具体的には,無作為種子の異なる選択,得点規則,単語間のバイアススコアの一貫性について検討する。 さらに,これらの尺度の信頼性スコアに対する各種因子の影響を分析した。 以上の結果から,単語埋め込み性バイアス尺度の設計精度が向上した。 さらに,そのような対策の適用について,研究者により批判的であるように促す。

Various measures have been proposed to quantify human-like social biases in word embeddings. However, bias scores based on these measures can suffer from measurement error. One indication of measurement quality is reliability, concerning the extent to which a measure produces consistent results. In this paper, we assess three types of reliability of word embedding gender bias measures, namely test-retest reliability, inter-rater consistency and internal consistency. Specifically, we investigate the consistency of bias scores across different choices of random seeds, scoring rules and words. Furthermore, we analyse the effects of various factors on these measures' reliability scores. Our findings inform better design of word embedding gender bias measures. Moreover, we urge researchers to be more critical about the application of such measures.
翻訳日:2021-09-13 20:57:43 公開日:2021-09-10
# (参考訳) 視覚的文としての行:視覚的ローカライゼーションのためのコンテキスト対応行記述子

Line as a Visual Sentence: Context-aware Line Descriptor for Visual Localization ( http://arxiv.org/abs/2109.04753v1 )

ライセンス: CC BY 4.0
Sungho Yoon, Ayoung Kim(参考訳) 画像マッチングのための特徴点に加えて、ライン機能はロボット工学とコンピュータビジョン(CV)における視覚幾何学的問題を解決するための追加の制約を提供する。 最近の畳み込みニューラルネットワーク(CNN)ベースの線形記述子は、視点変化や動的環境に対して有望であるが、CNNアーキテクチャは、固定次元記述子への抽象的な可変線長に固有の欠点があると主張する。 本稿では,可変線を扱う線形変換器を効果的に導入する。 自然言語処理(NLP)タスクにインスパイアされた文は、ニューラルネットワークでよく理解され、抽象化されるので、行セグメントをポイント(単語)を含む文とみなす。 動的に線上の well-decribable point に順応することで, 可変線長を良好に記述する。 また,回線の幾何学的属性を近傍に共有するラインシグネチャネットワークを提案する。 グループディスクリプタとして実行され、ネットワークはラインの相対的ジオメトリを理解することによってラインディスクリプタを強化する。 最後に、提案した行記述子とマッチングを、PL-Loc(Point and Line Localization)に提示する。 特徴点を用いた視覚的ローカライゼーションは,ライン機能を用いて改善できることを示す。 提案するホモグラフィ推定法と視覚定位法を検証した。

Along with feature points for image matching, line features provide additional constraints to solve visual geometric problems in robotics and computer vision (CV). Although recent convolutional neural network (CNN)-based line descriptors are promising for viewpoint changes or dynamic environments, we claim that the CNN architecture has innate disadvantages to abstract variable line length into the fixed-dimensional descriptor. In this paper, we effectively introduce Line-Transformers dealing with variable lines. Inspired by natural language processing (NLP) tasks where sentences can be understood and abstracted well in neural nets, we view a line segment as a sentence that contains points (words). By attending to well-describable points on aline dynamically, our descriptor performs excellently on variable line length. We also propose line signature networks sharing the line's geometric attributes to neighborhoods. Performing as group descriptors, the networks enhance line descriptors by understanding lines' relative geometries. Finally, we present the proposed line descriptor and matching in a Point and Line Localization (PL-Loc). We show that the visual localization with feature points can be improved using our line features. We validate the proposed method for homography estimation and visual localization.
翻訳日:2021-09-13 20:35:40 公開日:2021-09-10
# (参考訳) テキスト分類のためのデュアルステートカプセルネットワーク

Dual-State Capsule Networks for Text Classification ( http://arxiv.org/abs/2109.04762v1 )

ライセンス: CC BY 4.0
Piyumal Demotte, Surangika Ranathunga(参考訳) コンテキスト埋め込みに基づくテキスト分類システムは、多くの低リソース言語にとって有効な選択肢ではない。 一方,最近導入されたカプセルネットワークは,これらのテキスト分類モデルに匹敵する性能を示した。 したがって、事前訓練された文脈埋め込みモデルを持たない言語に対するテキスト分類の有効な代替として考えられる。 しかし、現在のカプセルネットワークは、テキストの逐次的特徴を考慮せずに、空間的パターンに依存する。 それらはまた、より長いシーケンスでコンテキストレベルの情報を取得するのに最適である。 本稿では,これらの問題を緩和するために最適化されたテキスト分類のための新しいDual-State Capsule (DS-Caps) ネットワーク技術を提案する。 文レベルと単語レベルという2種類の状態がカプセル層に統合され、言語モデリングのためのより深い文脈レベル情報を取得する。 カプセル間の動的ルーティングプロセスも,文レベル状態から得られる文脈レベル情報を用いて最適化された。 ds-capsネットワークは、複数のデータセット、特にテキストのシーケンスが長いタスクにおいて、既存のカプセルネットワークアーキテクチャよりも優れている。 また,低リソース言語におけるテキスト分類におけるDS-Capsの優位性を示す。

Text classification systems based on contextual embeddings are not viable options for many of the low resource languages. On the other hand, recently introduced capsule networks have shown performance in par with these text classification models. Thus, they could be considered as a viable alternative for text classification for languages that do not have pre-trained contextual embedding models. However, current capsule networks depend upon spatial patterns without considering the sequential features of the text. They are also sub-optimal in capturing the context-level information in longer sequences. This paper presents a novel Dual-State Capsule (DS-Caps) network-based technique for text classification, which is optimized to mitigate these issues. Two varieties of states, namely sentence-level and word-level, are integrated with capsule layers to capture deeper context-level information for language modeling. The dynamic routing process among capsules was also optimized using the context-level information obtained through sentence-level states. The DS-Caps networks outperform the existing capsule network architectures for multiple datasets, particularly for tasks with longer sequences of text. We also demonstrate the superiority of DS-Caps in text classification for a low resource language.
翻訳日:2021-09-13 20:18:24 公開日:2021-09-10
# (参考訳) RoR: 長いドキュメントマシンを読むための読み書き

RoR: Read-over-Read for Long Document Machine Reading Comprehension ( http://arxiv.org/abs/2109.04780v1 )

ライセンス: CC BY-SA 4.0
Jing Zhao, Junwei Bao, Yifan Wang, Yongwei Zhou, Youzheng Wu, Xiaodong He, and Bowen Zhou(参考訳) BERTのようなトランスフォーマーベースの事前学習モデルは、機械読解において顕著な成果を上げている。 しかし、エンコーディングの長さ(例えば512ワードピーストークン)の制約のため、長い文書は通常、独立に読み取られる複数のチャンクに分割される。 その結果、長い文書機械読解のための情報協調なしに、読み出し領域は個々のチャンクに限られる。 そこで本研究では,読み出しフィールドをチャンクからドキュメントに拡張する読み出し読み出し手法であるRoRを提案する。 特に、RoRはチャンクリーダーとドキュメントリーダーを含む。 前者はまず各チャンクの局所的な回答のセットを予測し、それを圧縮して元のドキュメントの高密度バージョンにし、一度エンコードすることを保証します。 後者は、この凝縮文書のグローバルな回答をさらに予測する。 最終的に、最終予測のために地域と世界的な回答を集計し、再集計するために投票戦略が使用される。 QuACとTriviaQAの2つのベンチマークによる大規模な実験は、長い文書読解におけるRoRの有効性を示した。 特にRoRは、提出された時点でQuACのリーダーボード(https://quac.ai/)で1位(2021年5月17日)。

Transformer-based pre-trained models, such as BERT, have achieved remarkable results on machine reading comprehension. However, due to the constraint of encoding length (e.g., 512 WordPiece tokens), a long document is usually split into multiple chunks that are independently read. It results in the reading field being limited to individual chunks without information collaboration for long document machine reading comprehension. To address this problem, we propose RoR, a read-over-read method, which expands the reading field from chunk to document. Specifically, RoR includes a chunk reader and a document reader. The former first predicts a set of regional answers for each chunk, which are then compacted into a highly-condensed version of the original document, guaranteeing to be encoded once. The latter further predicts the global answers from this condensed document. Eventually, a voting strategy is utilized to aggregate and rerank the regional and global answers for final prediction. Extensive experiments on two benchmarks QuAC and TriviaQA demonstrate the effectiveness of RoR for long document reading. Notably, RoR ranks 1st place on the QuAC leaderboard (https://quac.ai/) at the time of submission (May 17th, 2021).
翻訳日:2021-09-13 20:04:20 公開日:2021-09-10
# (参考訳) エンド・ツー・エンドのマルチチャンネル遠方音声認識のためのセルフアテンションチャネルコンビネータフロントエンド

Self-Attention Channel Combinator Frontend for End-to-End Multichannel Far-field Speech Recognition ( http://arxiv.org/abs/2109.04783v1 )

ライセンス: CC BY 4.0
Rong Gong, Carl Quillen, Dushyant Sharma, Andrew Goderre, Jos\'e La\'inez, Ljubomir Milanovi\'c(参考訳) 十分に大きな遠距離訓練データが提示されると、多チャンネルフロントエンドとエンドツーエンド(E2E)バックエンドを共同で最適化し、有望な結果を示す。 近年の文献では、MVDR (Minimum Variance Distortionless Response) や固定ビームフォーマといった従来のビームフォーマの設計が、学習可能なパラメータを持つE2E ASRシステムにフロントエンドとしてうまく統合できることが示されている。 本研究では,マルチチャネル音声信号を大域スペクトル領域に結合する自己アテンション機構を利用する,自己アテンションチャネルコンビネータ(sacc)asrフロントエンドを提案する。 マルチチャネル再生テストデータを用いて行った実験によると、SACCは最先端の固定ビームフォーマーベースのフロントエンドと比較して9.3%のWERRを達成した。 また、SACCと従来のビームフォーマとの接続を実証し、SACCの中間出力を解析する。

When a sufficiently large far-field training data is presented, jointly optimizing a multichannel frontend and an end-to-end (E2E) Automatic Speech Recognition (ASR) backend shows promising results. Recent literature has shown traditional beamformer designs, such as MVDR (Minimum Variance Distortionless Response) or fixed beamformers can be successfully integrated as the frontend into an E2E ASR system with learnable parameters. In this work, we propose the self-attention channel combinator (SACC) ASR frontend, which leverages the self-attention mechanism to combine multichannel audio signals in the magnitude spectral domain. Experiments conducted on a multichannel playback test data shows that the SACC achieved a 9.3% WERR compared to a state-of-the-art fixed beamformer-based frontend, both jointly optimized with a ContextNet-based ASR backend. We also demonstrate the connection between the SACC and the traditional beamformers, and analyze the intermediate outputs of the SACC.
翻訳日:2021-09-13 19:49:39 公開日:2021-09-10
# (参考訳) 3次元動脈モデルにおける壁せん断応力推定のためのメッシュ畳み込みニューラルネットワーク

Mesh convolutional neural networks for wall shear stress estimation in 3D artery models ( http://arxiv.org/abs/2109.04797v1 )

ライセンス: CC BY 4.0
Julian Suk, Pim de Haan, Phillip Lippe, Christoph Brune, Jelmer M. Wolterink(参考訳) 計算流体力学(cfd)は動脈の血行動態を個人化し、非侵襲的に評価するための貴重なツールであるが、その複雑さと時間を要する性質は、実際の大規模使用を禁止している。 近年,壁せん断応力 (WSS) などのCFDパラメータを表面メッシュ上で高速に推定するためのディープラーニングの利用が検討されている。 しかし、既存のアプローチは一般に、畳み込みニューラルネットワークアーキテクチャにマッチする表面メッシュの再パラメータに依存する。 そこで本研究では,cfdで使用されるのと同じ有限要素サーフェスメッシュ上で直接動作するメッシュ畳み込みニューラルネットワークを用いることを提案する。 CFDシミュレーションから得られた基礎的真理を用いて,2分岐および無分岐の合成冠状動脈モデルを用いて本手法の訓練と評価を行った。 当社のフレキシブルなディープラーニングモデルは、このサーフェスメッシュ上の3d wssベクトルを正確に予測できることを示します。 提案手法では,新しいメッシュを5 [s]未満で処理し,正規化平均絶対誤差$\leq$ 1.6 [%] を一貫して達成し,ホールドアウトテストセットに対して90.5[%]の中央近似精度をピークとし,先行した作業と比較した。 これは動脈モデルにおける血行動態パラメータ推定のためのメッシュ畳み込みニューラルネットワークを用いたcfdサロゲートモデルの実現可能性を示している。

Computational fluid dynamics (CFD) is a valuable tool for personalised, non-invasive evaluation of hemodynamics in arteries, but its complexity and time-consuming nature prohibit large-scale use in practice. Recently, the use of deep learning for rapid estimation of CFD parameters like wall shear stress (WSS) on surface meshes has been investigated. However, existing approaches typically depend on a hand-crafted re-parametrisation of the surface mesh to match convolutional neural network architectures. In this work, we propose to instead use mesh convolutional neural networks that directly operate on the same finite-element surface mesh as used in CFD. We train and evaluate our method on two datasets of synthetic coronary artery models with and without bifurcation, using a ground truth obtained from CFD simulation. We show that our flexible deep learning model can accurately predict 3D WSS vectors on this surface mesh. Our method processes new meshes in less than 5 [s], consistently achieves a normalised mean absolute error of $\leq$ 1.6 [%], and peaks at 90.5 [%] median approximation accuracy over the held-out test set, comparing favorably to previously published work. This shows the feasibility of CFD surrogate modelling using mesh convolutional neural networks for hemodynamic parameter estimation in artery models.
翻訳日:2021-09-13 19:40:05 公開日:2021-09-10
# (参考訳) 説明可能なAIによる二次制御活性化の解析と予測

Secondary control activation analysed and predicted with explainable AI ( http://arxiv.org/abs/2109.04802v1 )

ライセンス: CC BY 4.0
Johannes Kruse, Benjamin Sch\"afer, Dirk Witthaut(参考訳) 再生可能エネルギーシステムへの移行は電力グリッドの運用と安定性に課題をもたらす。 二次制御は、障害後の電力系統を基準に復元する鍵となる。 必要な制御能力の過小評価には、負荷層などの緊急措置が必要である。 したがって、新たなリスクとコントロールの推進要因を明確に理解する必要がある。 本研究では,ドイツにおける二次制御能力の活性化に関する説明可能な機械学習モデルを構築した。 勾配強化木を訓練し,制御活性化の正確な記述を得た。 シェープリー加法説明(shap)値を用いて,制御活性化と生成混合,予測誤差,電力市場データなどの外部特性との依存性について検討した。 これにより、ドイツの電力システムに高い予備的要件をもたらすドライバーが明らかになる。 オープンデータを利用して機械学習モデルを解釈するわれわれの透明なアプローチは、新たな科学的発見の道を開く。

The transition to a renewable energy system poses challenges for power grid operation and stability. Secondary control is key in restoring the power system to its reference following a disturbance. Underestimating the necessary control capacity may require emergency measures, such as load shedding. Hence, a solid understanding of the emerging risks and the driving factors of control is needed. In this contribution, we establish an explainable machine learning model for the activation of secondary control power in Germany. Training gradient boosted trees, we obtain an accurate description of control activation. Using SHapely Additive exPlanation (SHAP) values, we investigate the dependency between control activation and external features such as the generation mix, forecasting errors, and electricity market data. Thereby, our analysis reveals drivers that lead to high reserve requirements in the German power system. Our transparent approach, utilizing open data and making machine learning models interpretable, opens new scientific discovery avenues.
翻訳日:2021-09-13 19:29:18 公開日:2021-09-10
# (参考訳) STELは捕獲されるか? モジュール型類似性に基づく言語スタイル評価フレームワーク

Does It Capture STEL? A Modular, Similarity-based Linguistic Style Evaluation Framework ( http://arxiv.org/abs/2109.04817v1 )

ライセンス: CC BY 4.0
Anna Wegmann and Dong Nguyen(参考訳) スタイルは自然言語の不可欠な部分である。 しかしながら,スタイル尺度の評価手法は稀であり,タスク固有のものが多く,通常はコンテンツの制御は行わない。 本稿では,2つの文をスタイルで比較可能な任意のモデルの性能をテストするために,モジュール構造,微粒化,およびコンテント制御の類似性に基づくSTEL(Style EvaLuation framework)を提案する。 2種類のスタイル(形式・非形式・単純・複合)と2つの特定のスタイル特性(contracation と numb3r 置換)を持つスケルを説明する。 BERT ベースの手法は,3 グラム,句読点周波数,LIWC ベースのアプローチなど,一般的なスタイル尺度の単純なバージョンよりも優れていることがわかった。 我々はSTELにさらなるタスクとタスクインスタンスを追加し、スタイルに敏感な対策の改善を期待する。

Style is an integral part of natural language. However, evaluation methods for style measures are rare, often task-specific and usually do not control for content. We propose the modular, fine-grained and content-controlled similarity-based STyle EvaLuation framework (STEL) to test the performance of any model that can compare two sentences on style. We illustrate STEL with two general dimensions of style (formal/informal and simple/complex) as well as two specific characteristics of style (contrac'tion and numb3r substitution). We find that BERT-based methods outperform simple versions of commonly used style measures like 3-grams, punctuation frequency and LIWC-based approaches. We invite the addition of further tasks and task instances to STEL and hope to facilitate the improvement of style-sensitive measures.
翻訳日:2021-09-13 19:15:21 公開日:2021-09-10
# (参考訳) knode-mpc : 航空ロボットのための知識ベースデータ駆動予測制御フレームワーク

KNODE-MPC: A Knowledge-based Data-driven Predictive Control Framework for Aerial Robots ( http://arxiv.org/abs/2109.04821v1 )

ライセンス: CC BY 4.0
Kong Yao Chee, Tom Z. Jiahao and M. Ani Hsieh(参考訳) 本研究では,モデル予測制御 (MPC) のための正確な動的モデルを導出し,導入することの問題点について考察する。 MPCは所望のクローズドループ性能を達成するために正確なダイナミックモデルに依存している。 しかし、複雑なシステムにおける不確実性やそれらが運用する環境の存在は、システムのダイナミクスの十分な正確な表現を得る上での課題となる。 本研究では,ディープラーニングツールである知識ベースニューラル常微分方程式(knode)を用いて,第一原理から得られたモデルの拡張を行う。 得られたハイブリッドモデルは、シミュレーションまたは実世界の実験データから学習した名目第一原理モデルとニューラルネットワークの両方を包含する。 クワッドローターを用いて,最先端のガウス過程(gp)モデルに対してハイブリッドモデルをベンチマークし,ハイブリッドモデルがクワドローターダイナミクスのより正確な予測を提供し,トレーニングデータを超えて一般化できることを示す。 閉ループ性能を改善するため、ハイブリッドモデルはKNODE-MPCとして知られる新しいMPCフレームワークに統合される。 その結果, 軌道追跡性能の面では, シミュレーションでは73%, 物理実験では14%以上向上していることがわかった。

In this work, we consider the problem of deriving and incorporating accurate dynamic models for model predictive control (MPC) with an application to quadrotor control. MPC relies on precise dynamic models to achieve the desired closed-loop performance. However, the presence of uncertainties in complex systems and the environments they operate in poses a challenge in obtaining sufficiently accurate representations of the system dynamics. In this work, we make use of a deep learning tool, knowledge-based neural ordinary differential equations (KNODE), to augment a model obtained from first principles. The resulting hybrid model encompasses both a nominal first-principle model and a neural network learnt from simulated or real-world experimental data. Using a quadrotor, we benchmark our hybrid model against a state-of-the-art Gaussian Process (GP) model and show that the hybrid model provides more accurate predictions of the quadrotor dynamics and is able to generalize beyond the training data. To improve closed-loop performance, the hybrid model is integrated into a novel MPC framework, known as KNODE-MPC. Results show that the integrated framework achieves 73% improvement in simulations and more than 14% in physical experiments, in terms of trajectory tracking performance.
翻訳日:2021-09-13 18:44:39 公開日:2021-09-10
# (参考訳) 注意図のトポロジーによる人工テキスト検出

Artificial Text Detection via Examining the Topology of Attention Maps ( http://arxiv.org/abs/2109.04825v1 )

ライセンス: CC BY 4.0
Laida Kushnareva, Daniil Cherniavskii, Vladislav Mikhailov, Ekaterina Artemova, Serguei Barannikov, Alexander Bernstein, Irina Piontkovskaya, Dmitri Piontkovski, Evgeny Burnaev(参考訳) 最近の生成モデルの印象的な能力は、人間が書いたものと区別するのが難しいテキストを作成することで、偽ニュース、製品レビュー、さらには悪質なコンテンツを生成するために誤用される可能性がある。 既存の人工テキスト検出手法の顕著な性能にもかかわらず、未確認モデルに対する解釈性と堅牢性は依然として欠如している。 そこで本研究では,現在NLPの分野で検討中のトポロジカルデータ解析(TDA)に基づく3つの新しい解釈可能なトポロジ的特徴を提案する。 BERTモデルから派生した特徴は,3つの共通データセットにおいて最大10\%まで,カウントベースとニューラルベースベースラインを上回り,既存の手法とは対照的にGPTスタイルの生成モデルに対して最も堅牢であることを示す。 特徴の探索解析は表面に対する感度と構文的性質を明らかにしている。 その結果,TDAはNLPタスク,特に表面情報や構造情報を取り入れたタスクに対して,有望なラインであることがわかった。

The impressive capabilities of recent generative models to create texts that are challenging to distinguish from the human-written ones can be misused for generating fake news, product reviews, and even abusive content. Despite the prominent performance of existing methods for artificial text detection, they still lack interpretability and robustness towards unseen models. To this end, we propose three novel types of interpretable topological features for this task based on Topological Data Analysis (TDA) which is currently understudied in the field of NLP. We empirically show that the features derived from the BERT model outperform count- and neural-based baselines up to 10\% on three common datasets, and tend to be the most robust towards unseen GPT-style generation models as opposed to existing methods. The probing analysis of the features reveals their sensitivity to the surface and syntactic properties. The results demonstrate that TDA is a promising line with respect to NLP tasks, specifically the ones that incorporate surface and structural information.
翻訳日:2021-09-13 18:31:49 公開日:2021-09-10
# (参考訳) ロバストマルチターン応答選択モデル構築のための評価データセットと戦略

An Evaluation Dataset and Strategy for Building Robust Multi-turn Response Selection Model ( http://arxiv.org/abs/2109.04834v1 )

ライセンス: CC BY 4.0
Kijong Han, Seojin Lee, Wooin Lee, Joosung Lee, Dong-hun Lee(参考訳) マルチターン応答選択モデルは最近、いくつかのベンチマークデータセットで人間に匹敵するパフォーマンスを示している。 しかし、現実の環境では、これらのモデルは、文脈を包括的に理解することなく、表面的パターンに大きく依存した誤った予測を行うなど、しばしば弱点がある。 例えば、これらのモデルは、コンテキストに関連するいくつかのキーワードを含む間違った応答候補に高いスコアを与えるが、矛盾しない時制を使用する。 本研究では,open-domain korea multi-turn response selection modelの弱点を分析し,これらの弱点を評価するための逆データセットを公開する。 また,この対向環境において頑健なモデルを構築するための戦略を提案する。

Multi-turn response selection models have recently shown comparable performance to humans in several benchmark datasets. However, in the real environment, these models often have weaknesses, such as making incorrect predictions based heavily on superficial patterns without a comprehensive understanding of the context. For example, these models often give a high score to the wrong response candidate containing several keywords related to the context but using the inconsistent tense. In this study, we analyze the weaknesses of the open-domain Korean Multi-turn response selection models and publish an adversarial dataset to evaluate these weaknesses. We also suggest a strategy to build a robust model in this adversarial environment.
翻訳日:2021-09-13 18:12:11 公開日:2021-09-10
# (参考訳) FR-Detect:パブリッシャ機能を用いたソーシャルメディア上の早期フェイクニュース検出のためのマルチモーダルフレームワーク

FR-Detect: A Multi-Modal Framework for Early Fake News Detection on Social Media Using Publishers Features ( http://arxiv.org/abs/2109.04835v1 )

ライセンス: CC BY 4.0
Ali Jarrahi and Leila Safari(参考訳) 近年、インターネットの拡大と魅力的なソーシャルメディアインフラにより、人々はこれらのメディアを通じてニュースをフォローすることを好む。 ニュース分野におけるこれらのメディアの多くの利点にもかかわらず、制御と検証機構の欠如は、民主主義、経済、ジャーナリズム、表現の自由に対する最も重要な脅威の1つとして偽ニュースの拡散につながっている。 ソーシャルメディア上の偽ニュースを自動的に検出する手法の設計と利用は、大きな課題となっている。 本稿では,ソーシャルメディア上での偽ニュースの検出における出版社の役割について検討する。 また,早期検出機能を持つユーザ関連およびコンテンツ関連機能を用いて,高精度なマルチモーダルフレームワークfr-detectを提案する。 この目的のために、2つの新しいユーザー関連機能、すなわち活動の信頼性と影響がパブリッシャーに導入されている。 さらに、これらの特徴と潜在テキストコンテンツ特徴を適切に組み合わせるために、文レベルの畳み込みニューラルネットワークを提供する。 実験結果から,出版社はコンテンツベースモデルの性能を最大13%,F1スコアを最大29%向上させることができることがわかった。

In recent years, with the expansion of the Internet and attractive social media infrastructures, people prefer to follow the news through these media. Despite the many advantages of these media in the news field, the lack of any control and verification mechanism has led to the spread of fake news, as one of the most important threats to democracy, economy, journalism and freedom of expression. Designing and using automatic methods to detect fake news on social media has become a significant challenge. In this paper, we examine the publishers' role in detecting fake news on social media. We also suggest a high accurate multi-modal framework, namely FR-Detect, using user-related and content-related features with early detection capability. For this purpose, two new user-related features, namely Activity Credibility and Influence, have been introduced for publishers. Furthermore, a sentence-level convolutional neural network is provided to combine these features with latent textual content features properly. Experimental results have shown that the publishers' features can improve the performance of content-based models by up to 13% and 29% in accuracy and F1-score, respectively.
翻訳日:2021-09-13 18:03:38 公開日:2021-09-10
# (参考訳) CoPHE:大規模マルチラベルテキスト分類における数保存階層的評価基準

CoPHE: A Count-Preserving Hierarchical Evaluation Metric in Large-Scale Multi-Label Text Classification ( http://arxiv.org/abs/2109.04853v1 )

ライセンス: CC BY 4.0
Mat\'u\v{s} Falis, Hang Dong, Alexandra Birch, Beatrice Alex(参考訳) 大規模なMulti-Label Text Classification (LMTC) には階層的なラベル空間を持つタスクが含まれている。 先行技術におけるモデルの性能を,豊富な階層構造を考慮せずに,標準精度,リコール,F1測定値で評価する。 本研究では,ニューラルLMTCモデルの予測の階層的評価について論じる。 ICD-9オントロジーの例では、先行技術における構造化ラベル空間の表現における構造的問題を説明し、オントロジーの深さに基づく代替表現を提案する。 深度に基づく表現を用いた階層的評価のための指標セットを提案する。 MIMIC-III における ICD-9 符号化のための先行技術 LMTC モデルを用いた評価結果と比較した。 また,提案するオントロジ表現に関するさらなる研究方法を提案する。

Large-Scale Multi-Label Text Classification (LMTC) includes tasks with hierarchical label spaces, such as automatic assignment of ICD-9 codes to discharge summaries. Performance of models in prior art is evaluated with standard precision, recall, and F1 measures without regard for the rich hierarchical structure. In this work we argue for hierarchical evaluation of the predictions of neural LMTC models. With the example of the ICD-9 ontology we describe a structural issue in the representation of the structured label space in prior art, and propose an alternative representation based on the depth of the ontology. We propose a set of metrics for hierarchical evaluation using the depth-based representation. We compare the evaluation scores from the proposed metrics with previously used metrics on prior art LMTC models for ICD-9 coding in MIMIC-III. We also propose further avenues of research involving the proposed ontological representation.
翻訳日:2021-09-13 17:51:22 公開日:2021-09-10
# (参考訳) 反復シャッフルによる単語順の研究

Studying word order through iterative shuffling ( http://arxiv.org/abs/2109.04867v1 )

ライセンス: CC BY 4.0
Nikolay Malkin, Sameera Lanka, Pranav Goel, Nebojsa Jojic(参考訳) ニューラルネットワークモデルがNLPベンチマークタスク上での人間のパフォーマンスに近づくにつれ、その進歩は構文の複雑な理解の証拠として広く見られている。 この考え方は、まだ実証的にテストされていない仮説に基づいている: 語順はこれらのタスクを実行する上で不可欠な意味を符号化する。 グルー・スイートや英文の様々なジャンルでは、文や句の中の単語が置換されることは滅多になく、実質的に異なる情報を持つフレーズを形成することができる。 我々の驚くべき結果は、固定言語モデルの下で最も高い確率の単語の袋を注文する新しい効率的な手順である反復シャッフル(IBIS)による推論に依存する。 IBISはいかなるブラックボックスモデルも追加トレーニングなしで使用でき、既存の単語順序付けアルゴリズムよりも優れている。 IBISのようなシャッフル推論手法が言語モデリングや制約付き生成にどう役立つのかを考察する。

As neural language models approach human performance on NLP benchmark tasks, their advances are widely seen as evidence of an increasingly complex understanding of syntax. This view rests upon a hypothesis that has not yet been empirically tested: that word order encodes meaning essential to performing these tasks. We refute this hypothesis in many cases: in the GLUE suite and in various genres of English text, the words in a sentence or phrase can rarely be permuted to form a phrase carrying substantially different information. Our surprising result relies on inference by iterative shuffling (IBIS), a novel, efficient procedure that finds the ordering of a bag of words having the highest likelihood under a fixed language model. IBIS can use any black-box model without additional training and is superior to existing word ordering algorithms. Coalescing our findings, we discuss how shuffling inference procedures such as IBIS can benefit language modeling and constrained generation.
翻訳日:2021-09-13 17:43:06 公開日:2021-09-10
# (参考訳) 単語表現へのアプローチの統合

Integrating Approaches to Word Representation ( http://arxiv.org/abs/2109.04876v1 )

ライセンス: CC BY-SA 4.0
Yuval Pinter(参考訳) 現代のニューラルネットワークシステムにおける言語の原子要素を表現する問題は、自然言語処理の分野における中心的な課題の1つである。 本稿では, この課題に対処するための分布的, 構成的, 関係的アプローチについて調査し, 単語レベルと語彙外現象に着目し, それらをシステムに組み込む様々な方法について議論する。

The problem of representing the atomic elements of language in modern neural learning systems is one of the central challenges of the field of natural language processing. I present a survey of the distributional, compositional, and relational approaches to addressing this task, and discuss various means of integrating them into systems, with special emphasis on the word level and the out-of-vocabulary phenomenon.
翻訳日:2021-09-13 17:22:28 公開日:2021-09-10
# (参考訳) 低リソース言語品種のための効率的なテスト時間アダプタ

Efficient Test Time Adapter Ensembling for Low-resource Language Varieties ( http://arxiv.org/abs/2109.04877v1 )

ライセンス: CC BY 4.0
Xinyi Wang and Yulia Tsvetkov and Sebastian Ruder and Graham Neubig(参考訳) アダプタは、事前訓練されたモデルのパラメータ効率の良い微調整を可能にする軽量モジュールである。 近年,多言語事前学習モデル(Pfeiffer et al., 2020b)の言語間移動を容易にするために,特殊言語とタスクアダプタが提案されている。 しかしこのアプローチでは,サポートしたいすべての言語に対して,独立した言語アダプタをトレーニングする必要がある。 直感的な解決策は、新しい言語の種類に関連言語アダプタを使用することであるが、このソリューションが準最適性能をもたらすことを観察する。 本稿では,新たなアダプタをトレーニングすることなく,発見言語に対する言語アダプタの堅牢性を向上させることを目的とする。 複数の既存言語アダプタをアンサンブルすることで、これらのアダプタに含まれない他の言語品種に対して、微調整されたモデルが大幅に堅牢になることがわかった。 そこで本研究では,各文に対して事前学習した言語アダプタのアンサンブル重みを最適化する手法であるemea(entropy minimumd ensemble of adapters)を提案する。 言語変種を多種に分けた3つの実験により,提案手法はすべての言語において,名前付きエンティティ認識とパート・オブ・音声タギングの両方に大きな改善をもたらすことが示された。

Adapters are light-weight modules that allow parameter-efficient fine-tuning of pretrained models. Specialized language and task adapters have recently been proposed to facilitate cross-lingual transfer of multilingual pretrained models (Pfeiffer et al., 2020b). However, this approach requires training a separate language adapter for every language one wishes to support, which can be impractical for languages with limited data. An intuitive solution is to use a related language adapter for the new language variety, but we observe that this solution can lead to sub-optimal performance. In this paper, we aim to improve the robustness of language adapters to uncovered languages without training new adapters. We find that ensembling multiple existing language adapters makes the fine-tuned model significantly more robust to other language varieties not included in these adapters. Building upon this observation, we propose Entropy Minimized Ensemble of Adapters (EMEA), a method that optimizes the ensemble weights of the pretrained language adapters for each test sentence by minimizing the entropy of its predictions. Experiments on three diverse groups of language varieties show that our method leads to significant improvements on both named entity recognition and part-of-speech tagging across all languages.
翻訳日:2021-09-13 16:59:53 公開日:2021-09-10
# (参考訳) テンプレート生成としての文書レベルのエンティティベース抽出

Document-level Entity-based Extraction as Template Generation ( http://arxiv.org/abs/2109.04901v1 )

ライセンス: CC BY 4.0
Kung-Hsiang Huang, Sam Tang and Nanyun Peng(参考訳) エンティティの役割やエンティティの関係といったエンティティ中心の情報を抽出することを目的としたドキュメントレベルのエンティティベース抽出(ee)は、さまざまなドメインのテキストコーパスからの自動知識獲得の鍵となる。 ほとんどのドキュメントレベルのEEシステムは、ドキュメントレベルのエンティティ間の長期的な依存関係をモデル化するのに苦労する抽出モデルを構築します。 この問題に対処するため、我々は、役割充足者エンティティ抽出(REE)と関係抽出(RE)という2つの文書レベルのEEタスクのための生成フレームワークを提案する。 まず,モデルをテンプレート生成問題として定式化し,クロスエンティティな依存関係を効率的に捉え,ラベルセマンティクスを活用し,n-項関係を識別する指数計算の複雑さを回避する。 新たなクロスアテンション誘導コピー機構であるTopK Copyは、予め訓練されたシーケンス・ツー・シーケンスモデルに組み込まれ、入力文書内のキー情報を特定する能力を高める。 MUC-4とSciREXデータセットで行った実験では、REE(+3.26%)、バイナリRE(+4.8%)、F1スコアの4-ary RE(+2.7%)に関する新しい最先端の結果が示されている。

Document-level entity-based extraction (EE), aiming at extracting entity-centric information such as entity roles and entity relations, is key to automatic knowledge acquisition from text corpora for various domains. Most document-level EE systems build extractive models, which struggle to model long-term dependencies among entities at the document level. To address this issue, we propose a generative framework for two document-level EE tasks: role-filler entity extraction (REE) and relation extraction (RE). We first formulate them as a template generation problem, allowing models to efficiently capture cross-entity dependencies, exploit label semantics, and avoid the exponential computation complexity of identifying N-ary relations. A novel cross-attention guided copy mechanism, TopK Copy, is incorporated into a pre-trained sequence-to-sequence model to enhance the capabilities of identifying key information in the input document. Experiments done on the MUC-4 and SciREX dataset show new state-of-the-art results on REE (+3.26%), binary RE (+4.8%), and 4-ary RE (+2.7%) in F1 score.
翻訳日:2021-09-13 16:49:54 公開日:2021-09-10
# (参考訳) 模擬磁気圏領域の教師なし分類

Unsupervised classification of simulated magnetospheric regions ( http://arxiv.org/abs/2109.04916v1 )

ライセンス: CC BY 4.0
Maria Elena Innocenti, Jorge Amaya, Joachim Raeder, Romain Dupuis, Banafsheh Ferdousi, and Giovanni Lapenta(参考訳) 磁気圏のミッションでは、バーストモードのデータサンプリングは科学的または運用上の関心のあるプロセスが存在する場合にトリガーされる。 本研究では、関心の磁気圏過程の自動識別のための多段階法の第一段階を構成することができる磁圏領域の教師なし分類法を提案する。 本手法は自己組織化マップ(SOM)に基づいており,OpenGCM-CTIM-RCM符号を用いて得られた大域磁気圏シミュレーションのデータ点を予備的に検証する。 分類前に主成分分析によりデータの寸法を減少させる。 この分類は、選択されたデータポイントにおける局所プラズマ特性にのみ依存し、その近傍や時間的進化に関する情報を含まない。 我々はSOMノードを自動選択されたクラスに分類し、適切に定義された磁気圏領域にマップするクラスタを得る。 シミュレーション空間に分類データをプロットし,k-means分類との比較により,分類結果の検証を行った。 結果の解釈性のために,SOM特徴写像(磁気圏変数は分類の文脈で特徴と呼ばれる)を検証し,それらを用いてクラスタの情報をアンロックする。 異なる特徴を用いた分類実験を繰り返し、異なる分類結果を定量的に比較し、非教師なし分類において磁気圏変数がより効果的な特徴を与える洞察を得る。

In magnetospheric missions, burst mode data sampling should be triggered in the presence of processes of scientific or operational interest. We present an unsupervised classification method for magnetospheric regions, that could constitute the first-step of a multi-step method for the automatic identification of magnetospheric processes of interest. Our method is based on Self Organizing Maps (SOMs), and we test it preliminarily on data points from global magnetospheric simulations obtained with the OpenGGCM-CTIM-RCM code. The dimensionality of the data is reduced with Principal Component Analysis before classification. The classification relies exclusively on local plasma properties at the selected data points, without information on their neighborhood or on their temporal evolution. We classify the SOM nodes into an automatically selected number of classes, and we obtain clusters that map to well defined magnetospheric regions. We validate our classification results by plotting the classified data in the simulated space and by comparing with K-means classification. For the sake of result interpretability, we examine the SOM feature maps (magnetospheric variables are called features in the context of classification), and we use them to unlock information on the clusters. We repeat the classification experiments using different sets of features, we quantitatively compare different classification results, and we obtain insights on which magnetospheric variables make more effective features for unsupervised classification.
翻訳日:2021-09-13 16:33:35 公開日:2021-09-10
# (参考訳) 直交構造プローブを用いた言語間コンテキスト埋め込みの検討

Examining Cross-lingual Contextual Embeddings with Orthogonal Structural Probes ( http://arxiv.org/abs/2109.04921v1 )

ライセンス: CC BY 4.0
Tomasz Limisiewicz and David Mare\v{c}ek(参考訳) 最先端のコンテキスト埋め込みは、少数の言語でしか利用できない大きな言語モデルから得られる。 他の人にとっては、多言語モデルを使って表現を学ぶ必要がある。 多言語組込みが多くの言語で共有される空間に整列できるかどうかについては議論が続いている。 新しい直交構造プローブ(limisiewicz and mare\v{c}ek, 2021)は、特定の言語的特徴についてこの質問に答え、単言語アノテートデータセットのみに基づいて投影を学ぶことができる。 InmBERTの文脈表現を符号化した構文(UD)と語彙(WordNet)構造情報を9つの多言語で評価した。 英語と密接に関連する言語では、変換は不要である。 評価された情報を共有言語間埋め込み空間に符号化する。 他の言語では、各言語で個別に学習される直交変換を適用することが有益である。 ゼロショットと少数ショットの言語交叉解析にこの知見を応用できた。

State-of-the-art contextual embeddings are obtained from large language models available only for a few languages. For others, we need to learn representations using a multilingual model. There is an ongoing debate on whether multilingual embeddings can be aligned in a space shared across many languages. The novel Orthogonal Structural Probe (Limisiewicz and Mare\v{c}ek, 2021) allows us to answer this question for specific linguistic features and learn a projection based only on mono-lingual annotated datasets. We evaluate syntactic (UD) and lexical (WordNet) structural information encoded inmBERT's contextual representations for nine diverse languages. We observe that for languages closely related to English, no transformation is needed. The evaluated information is encoded in a shared cross-lingual embedding space. For other languages, it is beneficial to apply orthogonal transformation learned separately for each language. We successfully apply our findings to zero-shot and few-shot cross-lingual parsing.
翻訳日:2021-09-13 16:32:16 公開日:2021-09-10
# (参考訳) メタラーニングのための高速モデルアーキテクチャ適応

Rapid Model Architecture Adaption for Meta-Learning ( http://arxiv.org/abs/2109.04925v1 )

ライセンス: CC BY 4.0
Yiren Zhao, Xitong Gao, Ilia Shumailov, Nicolo Fusi, Robert Mullins(参考訳) ネットワークアーキテクチャ検索(NAS)メソッドが最近注目を集めている。 より優れたパフォーマンスでネットワークを設計し、従来の手動チューニングよりもはるかに短い検索時間を使用する。 モデル展開の効率にもかかわらず、ほとんどのNASアルゴリズムは固定ハードウェアシステム上の単一のタスクをターゲットにしている。 しかし、実際の数発の学習環境は、多くのタスク(T)とさまざまなハードウェアプラットフォーム(H)へのデプロイをカバーしていることが多い。 組合せ探索複雑性T times Hは、これらのシナリオに既存のNASメソッドを鼻で適用すれば、基本的な探索効率の課題を生み出す。 この問題を克服するために,モデルに依存しないメタラーニング(MAML)をNASフローに統合することにより,多数のタスクにモデルアーキテクチャを新しいタスクに迅速に適応させる方法について,初めて示す。 提案手法(H-Meta-NAS)はハードウェア対応であり,MAMLフレームワークで最適化を行う。 h-meta-nasは、さまざまなハードウェアプラットフォームと制約を備えた人気のあるマイナショット学習ベンチマークにおいて、さまざまなnasおよびマニュアルベースラインと比較してパレート優位を示している。 特に, 5-way 1-shot Mini-ImageNet分類タスクでは, 提案手法は, 60%少ない計算量を用いて, 最大手動ベースライン(5.21%の精度)で性能を向上する。

Network Architecture Search (NAS) methods have recently gathered much attention. They design networks with better performance and use a much shorter search time compared to traditional manual tuning. Despite their efficiency in model deployments, most NAS algorithms target a single task on a fixed hardware system. However, real-life few-shot learning environments often cover a great number of tasks (T ) and deployments on a wide variety of hardware platforms (H ). The combinatorial search complexity T times H creates a fundamental search efficiency challenge if one naively applies existing NAS methods to these scenarios. To overcome this issue, we show, for the first time, how to rapidly adapt model architectures to new tasks in a many-task many-hardware few-shot learning setup by integrating Model Agnostic Meta Learning (MAML) into the NAS flow. The proposed NAS method (H-Meta-NAS) is hardware-aware and performs optimisation in the MAML framework. H-Meta-NAS shows a Pareto dominance compared to a variety of NAS and manual baselines in popular few-shot learning benchmarks with various hardware platforms and constraints. In particular, on the 5-way 1-shot Mini-ImageNet classification task, the proposed method outperforms the best manual baseline by a large margin (5.21% in accuracy) using 60% less computation.
翻訳日:2021-09-13 16:21:11 公開日:2021-09-10
# (参考訳) ニュース記事のニューラル文レベルのリフレーミング制御

Controlled Neural Sentence-Level Reframing of News Articles ( http://arxiv.org/abs/2109.04957v1 )

ライセンス: CC BY 4.0
Wei-Fan Chen, Khalid Al-Khatib, Benno Stein, Henning Wachsmuth(参考訳) ニュース記事のフレーミングとは、例えば経済や健康の観点から、特定の観点から報告された出来事を描写することを意味する。 フレーミングは、この視点を変えることを意味する。 読者やサブメッセージによっては、読者に望ましい効果を達成するためには、リフレーミングが必要である。 リフレーミングはスタイルや感情の適応に関係しており、ニューラルテキスト生成技術に対処することができる。 しかし、フレームの変更は単一のフレーズではなく文章全体を書き換える必要があるため、より困難である。 本稿では,文脈に整合性を保ちながら,ニュース記事中の文を計算的に再構成する方法を検討する。 我々はリフレーミングを,既存のメディアフレームコーパス上でニューラルモデルを訓練するための文レベルの補充タスクとして扱う。 トレーニングの指導には,フレーム付き言語事前学習,名義保存,対人学習の3つの戦略を提案する。 トピック一貫性,コヒーレンス,リフレーミング成功のために,各モデルを自動かつ手動で評価する。 その結果、適切にフレーム化されたテキストの生成は、トレードオフとともにうまく機能することが示された。

Framing a news article means to portray the reported event from a specific perspective, e.g., from an economic or a health perspective. Reframing means to change this perspective. Depending on the audience or the submessage, reframing can become necessary to achieve the desired effect on the readers. Reframing is related to adapting style and sentiment, which can be tackled with neural text generation techniques. However, it is more challenging since changing a frame requires rewriting entire sentences rather than single phrases. In this paper, we study how to computationally reframe sentences in news articles while maintaining their coherence to the context. We treat reframing as a sentence-level fill-in-the-blank task for which we train neural models on an existing media frame corpus. To guide the training, we propose three strategies: framed-language pretraining, named-entity preservation, and adversarial learning. We evaluate respective models automatically and manually for topic consistency, coherence, and successful reframing. Our results indicate that generating properly-framed text works well but with tradeoffs.
翻訳日:2021-09-13 16:03:45 公開日:2021-09-10
# (参考訳) 深層学習法を用いた実験室における自動変位・振動計測

Automatic Displacement and Vibration Measurement in Laboratory Experiments with A Deep Learning Method ( http://arxiv.org/abs/2109.04960v1 )

ライセンス: CC BY 4.0
Yongsheng Bai, Ramzi M. Abduallah, Halil Sezen, Alper Yilmaz(参考訳) 本稿では,実験中の構造標本の変位・振動を自動的に追跡・測定するパイプラインを提案する。 最新のMask Regional Convolutional Neural Network (Mask R-CNN)は、静止カメラが撮影したビデオからターゲットを見つけ、その動きを監視する。 精度の向上とノイズ除去のために、SIFT(Scale-invariant Feature Transform)や各種信号処理用フィルタなどの技術が含まれている。 3つの小型鉄筋コンクリート梁の実験と揺動台試験を用いて提案手法の検証を行った。 その結果, 実験中の構造部材の運動を自動的, 正確に計測することを目標とする深層学習法が得られた。

This paper proposes a pipeline to automatically track and measure displacement and vibration of structural specimens during laboratory experiments. The latest Mask Regional Convolutional Neural Network (Mask R-CNN) can locate the targets and monitor their movement from videos recorded by a stationary camera. To improve precision and remove the noise, techniques such as Scale-invariant Feature Transform (SIFT) and various filters for signal processing are included. Experiments on three small-scale reinforced concrete beams and a shaking table test are utilized to verify the proposed method. Results show that the proposed deep learning method can achieve the goal to automatically and precisely measure the motion of tested structural members during laboratory experiments.
翻訳日:2021-09-13 15:49:04 公開日:2021-09-10
# (参考訳) ジョイントグラフ推論と予測に関する研究

A Study of Joint Graph Inference and Forecasting ( http://arxiv.org/abs/2109.04979v1 )

ライセンス: CC BY 4.0
Daniel Z\"ugner, Fran\c{c}ois-Xavier Aubet, Victor Garcia Satorras, Tim Januschowski, Stephan G\"unnemann, Jan Gasthaus(参考訳) 多変量時系列の予測を改善するためにグラフニューラルネットワーク(GNN)を用いた最近のモデルのクラスについて検討する。 これらのモデルの中核となる仮定は、多変量時系列の進化を支配する時系列(ノード)の間に潜在グラフが存在することである。 グラフを微分可能な方法でパラメータ化することで、モデルは予測品質を改善することを目指している。 我々はこのクラスの最近の4つのモデルと予測タスクを比較した。 さらに,グラフ学習モジュールの無効化や,その代わりに基盤・真実関係を提供する場合など,変化条件下での行動の解明も行う。 そこで本研究では,既存のアーキテクチャを組み合わせる新しい手法を提案する。

We study a recent class of models which uses graph neural networks (GNNs) to improve forecasting in multivariate time series. The core assumption behind these models is that there is a latent graph between the time series (nodes) that governs the evolution of the multivariate time series. By parameterizing a graph in a differentiable way, the models aim to improve forecasting quality. We compare four recent models of this class on the forecasting task. Further, we perform ablations to study their behavior under changing conditions, e.g., when disabling the graph-learning modules and providing the ground-truth relations instead. Based on our findings, we propose novel ways of combining the existing architectures.
翻訳日:2021-09-13 15:40:38 公開日:2021-09-10
# (参考訳) feature fusion deep convolutional autoencoderを用いたハイパースペクトル画像の教師なし変化検出

Unsupervised Change Detection in Hyperspectral Images using Feature Fusion Deep Convolutional Autoencoders ( http://arxiv.org/abs/2109.04990v1 )

ライセンス: CC BY 4.0
Debasrita Chakraborty and Ashish Ghosh(参考訳) 両時間同時登録ハイパースペクトル画像におけるバイナリ変化検出は、データに多数のスペクトル帯域が存在するため難しい課題である。 したがって、研究者は次元を減らしてそれを扱う。 両時間共登録ハイパースペクトル画像間の変化を検出するための特徴融合深部畳み込みオートエンコーダを用いた特徴抽出システムの構築を目的とする。 特徴融合は、連続したレベルと複数の受容領域にまたがる特徴を考慮し、従って既存の特徴抽出法に対する競争力を高める。 記述された変更検出技術は完全に教師なしであり、ラベル情報を必要とする他の教師付きまたは半教師付きメソッドよりもはるかにエレガントである。 抽出された特徴に異なる手法を適用して2つの画像から変化を見いだし,提案手法がすべてのデータセットに対する教師なし変化検出において,アートメソッドの状態を明らかに上回っていることがわかった。

Binary change detection in bi-temporal co-registered hyperspectral images is a challenging task due to a large number of spectral bands present in the data. Researchers, therefore, try to handle it by reducing dimensions. The proposed work aims to build a novel feature extraction system using a feature fusion deep convolutional autoencoder for detecting changes between a pair of such bi-temporal co-registered hyperspectral images. The feature fusion considers features across successive levels and multiple receptive fields and therefore adds a competitive edge over the existing feature extraction methods. The change detection technique described is completely unsupervised and is much more elegant than other supervised or semi-supervised methods which require some amount of label information. Different methods have been applied to the extracted features to find the changes in the two images and it is found that the proposed method clearly outperformed the state of the art methods in unsupervised change detection for all the datasets.
翻訳日:2021-09-13 15:25:44 公開日:2021-09-10
# (参考訳) 誤ラベル標本の同定によるデータセットの品質評価

Assessing the Quality of the Datasets by Identifying Mislabeled Samples ( http://arxiv.org/abs/2109.05000v1 )

ライセンス: CC BY 4.0
Vaibhav Pulastya, Gaurav Nuti, Yash Kumar Atri, Tanmoy Chakraborty(参考訳) データ量の過度な強調のため、データ品質はしばしば見過ごされてきた。 しかし、すべてのトレーニングデータポイントが学習に等しく貢献するわけではない。 特に、誤ったラベルを付けると、モデルがデータセットに存在するスプリアスアーティファクトを学習してしまう可能性があるため、モデルのパフォーマンスと分散を一般化する能力が積極的に損なわれる可能性がある。 この問題は、高度にパラメータ化され複雑なディープニューラルネットワークの普及によって複雑化され、その高い容量でデータセットに存在するノイズを記憶することになる。 本稿では,各データポイントの品質を指標として,潜在空間表現のばらつきに基づいて,これらの誤ラベル標本を識別する新しい統計値-ノイズスコアを提案する。 本研究では,データ品質管理型変分オートエンコーダ(AQUAVS)の推論ネットワークから導出される表現を用いる。 本手法は同一クラスに属するサンプルが類似の潜在表現を持つという事実を利用する。 したがって、潜在空間の外れ値を特定することで、誤ったラベルのサンプルを見つけることができる。 我々は,MNIST,FashionMNIST,CIFAR10/100データセットを異なるノイズ設定で不正なサンプルを識別するための実験により,提案した統計データを検証した。 さらに,各データセットの分類タスクの精度を大幅に向上させる。

Due to the over-emphasize of the quantity of data, the data quality has often been overlooked. However, not all training data points contribute equally to learning. In particular, if mislabeled, it might actively damage the performance of the model and the ability to generalize out of distribution, as the model might end up learning spurious artifacts present in the dataset. This problem gets compounded by the prevalence of heavily parameterized and complex deep neural networks, which can, with their high capacity, end up memorizing the noise present in the dataset. This paper proposes a novel statistic -- noise score, as a measure for the quality of each data point to identify such mislabeled samples based on the variations in the latent space representation. In our work, we use the representations derived by the inference network of data quality supervised variational autoencoder (AQUAVS). Our method leverages the fact that samples belonging to the same class will have similar latent representations. Therefore, by identifying the outliers in the latent space, we can find the mislabeled samples. We validate our proposed statistic through experimentation by corrupting MNIST, FashionMNIST, and CIFAR10/100 datasets in different noise settings for the task of identifying mislabelled samples. We further show significant improvements in accuracy for the classification task for each dataset.
翻訳日:2021-09-13 15:13:38 公開日:2021-09-10
# (参考訳) BiSECT: テキストで文を分割し、言い換えることを学ぶ

BiSECT: Learning to Split and Rephrase Sentences with Bitexts ( http://arxiv.org/abs/2109.05006v1 )

ライセンス: CC BY 4.0
Joongwon Kim, Mounica Maddela, Reno Kriz, Wei Xu, Chris Callison-Burch(参考訳) 文の単純化のようなNLPアプリケーションにおける重要なタスクは、長い複雑な文を短い文に分割し、必要に応じて言い換えることである。 我々は,この'split and rephrase'タスクのための新しいデータセットと新しいモデルを紹介する。 私たちのBiSECTトレーニングデータは、100万の長文と、より短く、意味等価な英語文からなる。 バイリンガルパラレルコーパスにおける1-2文のアライメントを抽出し、機械翻訳を用いてコーパスの両側を同じ言語に変換する。 BiSECT には以前の Split と Rephrase コーパスよりも高品質なトレーニング例が含まれており、文分割はより重要な修正を必要とする。 コーパスの例を分類し、これらのカテゴリを新しいモデルで使用することにより、入力文の特定の領域を分割して編集できるようにします。 さらに、BiSECTでトレーニングされたモデルにより、より広範な分割操作が可能であり、自動および人的評価における従来の最先端アプローチを改善することができることを示す。

An important task in NLP applications such as sentence simplification is the ability to take a long, complex sentence and split it into shorter sentences, rephrasing as necessary. We introduce a novel dataset and a new model for this `split and rephrase' task. Our BiSECT training data consists of 1 million long English sentences paired with shorter, meaning-equivalent English sentences. We obtain these by extracting 1-2 sentence alignments in bilingual parallel corpora and then using machine translation to convert both sides of the corpus into the same language. BiSECT contains higher quality training examples than previous Split and Rephrase corpora, with sentence splits that require more significant modifications. We categorize examples in our corpus, and use these categories in a novel model that allows us to target specific regions of the input sentence to be split and edited. Moreover, we show that models trained on BiSECT can perform a wider variety of split operations and improve upon previous state-of-the-art approaches in automatic and human evaluations.
翻訳日:2021-09-13 15:00:33 公開日:2021-09-10
# (参考訳) ニューラルマシン翻訳の品質とポスト編集性能

Neural Machine Translation Quality and Post-Editing Performance ( http://arxiv.org/abs/2109.05016v1 )

ライセンス: CC BY 4.0
Vil\'em Zouhar, Ale\v{s} Tamchyna, Martin Popel, Ond\v{r}ej Bojar(参考訳) MTをプロフェッショナル翻訳に使用すると、人間の処理時間を節約できるという自然な期待を試す。 最後の研究はサンチェス・トルロンとケーン(2016年)がフレーズベースのmtで行ったもので、人工的に翻訳品質を低下させた。 対照的に、我々は高品質なニューラルMT(NMT)に注目し、それ以来最先端のアプローチとなり、ほとんどの翻訳会社にも採用されている。 チェコ語訳の30以上の専門翻訳者を対象とした実験を通じて,NMTのパフォーマンスと編集後時間と品質の関係について検討した。 すべてのモデルにおいて、優れたMTシステムによって、この業界環境での文の変化が少ないことが分かりました。 システム品質と後編集時間の関係は単純ではなく、フレーズベースのmtの結果とは対照的に、bleuは間違いなく時間や最終的な出力品質の安定した予測者ではない。

We test the natural expectation that using MT in professional translation saves human processing time. The last such study was carried out by Sanchez-Torron and Koehn (2016) with phrase-based MT, artificially reducing the translation quality. In contrast, we focus on neural MT (NMT) of high quality, which has become the state-of-the-art approach since then and also got adopted by most translation companies. Through an experimental study involving over 30 professional translators for English -> Czech translation, we examine the relationship between NMT performance and post-editing time and quality. Across all models, we found that better MT systems indeed lead to fewer changes in the sentences in this industry setting. The relation between system quality and post-editing time is however not straightforward and, contrary to the results on phrase-based MT, BLEU is definitely not a stable predictor of the time or final output quality.
翻訳日:2021-09-13 14:18:25 公開日:2021-09-10
# 辞書に基づくヘテロジニアスグラフを用いたテキスト分類のための言語間変換

Cross-lingual Transfer for Text Classification with Dictionary-based Heterogeneous Graph ( http://arxiv.org/abs/2109.04400v2 )

ライセンス: Link先を確認
Nuttapong Chairatanakul, Noppayut Sriwatanasakdi, Nontawat Charoenphakdee, Xin Liu, Tsuyoshi Murata(参考訳) クロスリンガルテキスト分類では、高リソースのソース言語におけるタスク固有のトレーニングデータが利用可能であり、タスクは低リソースのターゲット言語と同じである。 しかし、ラベル付けコスト、タスク特性、プライバシー上の懸念から、そのようなトレーニングデータの収集は不可能である。 本稿では,高リソース言語とバイリンガル辞書のタスクに依存しない単語埋め込みのみを用いた代替ソリューションを提案する。 まず、二言語辞書から辞書に基づくヘテロジニアスグラフ(DHG)を構築する。 これにより、言語間転送にグラフニューラルネットワークを使用する可能性が開ける。 残る課題は、複数の言語が考慮されているため、DHGの不均一性である。 この課題に対処するために、単語レベルと言語レベルの集約である2段階の集約によってDHGの不均一性を効果的に処理する辞書ベースのヘテロジニアスグラフニューラルネットワーク(DHGNet)を提案する。 実験の結果,本手法は大型コーパスにアクセスできなくても,事前学習モデルよりも優れていた。 さらに、辞書には不正確な翻訳が多数含まれていてもうまく機能する。 その堅牢性によって、自動化された辞書やクラウドソースされた辞書など、より広い範囲の辞書の使用が可能になる。

In cross-lingual text classification, it is required that task-specific training data in high-resource source languages are available, where the task is identical to that of a low-resource target language. However, collecting such training data can be infeasible because of the labeling cost, task characteristics, and privacy concerns. This paper proposes an alternative solution that uses only task-independent word embeddings of high-resource languages and bilingual dictionaries. First, we construct a dictionary-based heterogeneous graph (DHG) from bilingual dictionaries. This opens the possibility to use graph neural networks for cross-lingual transfer. The remaining challenge is the heterogeneity of DHG because multiple languages are considered. To address this challenge, we propose dictionary-based heterogeneous graph neural network (DHGNet) that effectively handles the heterogeneity of DHG by two-step aggregations, which are word-level and language-level aggregations. Experimental results demonstrate that our method outperforms pretrained models even though it does not access to large corpora. Furthermore, it can perform well even though dictionaries contain many incorrect translations. Its robustness allows the usage of a wider range of dictionaries such as an automatically constructed dictionary and crowdsourced dictionary, which are convenient for real-world applications.
翻訳日:2021-09-13 13:51:09 公開日:2021-09-10
# Panoptic nuScenes: LiDARのPanoptic Segmentation and Trackingのための大規模ベンチマーク

Panoptic nuScenes: A Large-Scale Benchmark for LiDAR Panoptic Segmentation and Tracking ( http://arxiv.org/abs/2109.03805v2 )

ライセンス: Link先を確認
Whye Kit Fong, Rohit Mohan, Juana Valeria Hurtado, Lubing Zhou, Holger Caesar, Oscar Beijbom, and Abhinav Valada(参考訳) 都市環境におけるロボットや自動走行車にとって、動的エージェントのパノプティクスシーン理解と追跡が不可欠である。 LiDARはシーンの正確な照明に依存しない幾何学的描写を提供するので、LiDARポイントクラウドを使用してこれらのタスクを実行することは、信頼できる予測を提供する。 しかし、既存のデータセットは都市シーンの種類に多様性を欠いているため、これらのタスクの学習を阻害する動的オブジェクトインスタンスの数が限られている。 本稿では,セマンティックセグメンテーション,パンオプティクスセグメンテーション,パンオプティクストラッキングタスクのためのポイントワイズ・グラウンドルートアノテーションを用いて,ポピュラーなnuscenesデータセットを拡張した大規模panoptic nuscenesベンチマークデータセットを提案する。 比較を容易にするために、提案するデータセット上で、これらのタスクごとにいくつかの強力なベースラインを提供します。 さらに,パン光学追跡のための既存の指標の欠点を分析し,その問題に対処する新しいインスタンス中心のPAT指標を提案する。 既存のデータセットと比較してPanoptic nuScenesの有用性を実証し、nuScenes.orgでオンライン評価サーバを利用できるようにする。 我々は,この拡張により,動的都市環境のシーン理解のための新しい手法の研究が促進されると信じている。

Panoptic scene understanding and tracking of dynamic agents are essential for robots and automated vehicles to navigate in urban environments. As LiDARs provide accurate illumination-independent geometric depictions of the scene, performing these tasks using LiDAR point clouds provides reliable predictions. However, existing datasets lack diversity in the type of urban scenes and have a limited number of dynamic object instances which hinders both learning of these tasks as well as credible benchmarking of the developed methods. In this paper, we introduce the large-scale Panoptic nuScenes benchmark dataset that extends our popular nuScenes dataset with point-wise groundtruth annotations for semantic segmentation, panoptic segmentation, and panoptic tracking tasks. To facilitate comparison, we provide several strong baselines for each of these tasks on our proposed dataset. Moreover, we analyze the drawbacks of the existing metrics for panoptic tracking and propose the novel instance-centric PAT metric that addresses the concerns. We present exhaustive experiments that demonstrate the utility of Panoptic nuScenes compared to existing datasets and make the online evaluation server available at nuScenes.org. We believe that this extension will accelerate the research of novel methods for scene understanding of dynamic urban environments.
翻訳日:2021-09-13 13:50:49 公開日:2021-09-10
# グラフニューラルネットワークと構造因果モデルの関係

Relating Graph Neural Networks to Structural Causal Models ( http://arxiv.org/abs/2109.04173v2 )

ライセンス: Link先を確認
Matej Ze\v{c}evi\'c, Devendra Singh Dhami, Petar Veli\v{c}kovi\'c, Kristian Kersting(参考訳) 因果関係は、興味のある変数とその力学関係に関する情報を伝達する構造因果モデル(SCM)によって記述することができる。 ほとんどのプロセスにおいて、基礎となるSCMは部分的にしか観測できないため、因果推論は露見した情報を活用しようとする。 構造化入力に対する普遍的近似器としてのグラフニューラルネットワーク(GNN)は因果学習の候補となり、SCMとの緊密な統合が示唆される。 そこで本研究では,gnn と scm の新たな接続を確立させる第一原理からの理論解析を行い,一般のニューラルコーサルモデルに対する拡張ビューを提供する。 次に, 因果効果同定に必要かつ十分なgnnに基づく因果推論のための新しいモデルクラスを構築した。 シミュレーションと標準ベンチマークに関する実証図は、我々の理論的証明を検証する。

Causality can be described in terms of a structural causal model (SCM) that carries information on the variables of interest and their mechanistic relations. For most processes of interest the underlying SCM will only be partially observable, thus causal inference tries to leverage any exposed information. Graph neural networks (GNN) as universal approximators on structured input pose a viable candidate for causal learning, suggesting a tighter integration with SCM. To this effect we present a theoretical analysis from first principles that establishes a novel connection between GNN and SCM while providing an extended view on general neural-causal models. We then establish a new model class for GNN-based causal inference that is necessary and sufficient for causal effect identification. Our empirical illustration on simulations and standard benchmarks validate our theoretical proofs.
翻訳日:2021-09-13 13:50:24 公開日:2021-09-10
# コリファレンス解決と機械翻訳のための大規模ジェンダーバイアスデータセットの収集

Collecting a Large-Scale Gender Bias Dataset for Coreference Resolution and Machine Translation ( http://arxiv.org/abs/2109.03858v2 )

ライセンス: Link先を確認
Shahar Levy, Koren Lazar, Gabriel Stanovsky(参考訳) 近年の研究では、主に合成診断データセットを用いた機械翻訳と共参照分解のモデルにおけるジェンダーバイアスの証拠が見つかっている。 これらは、制御された実験でバイアスを定量化するが、小規模で、主に人工的な分散文からなることが多い。 本研究では,3つのドメインのコーパスにおけるステレオタイプおよび非ステレオタイプなジェンダーロール(例えば,女性看護師と男性ダンサー)の割り当てを示す文法的パターンを見出した。 我々は、コーパスの品質を手動で検証し、様々なコア参照解像度と機械翻訳モデルにおける性別バイアスを評価する。 テストされたモデルはすべて、自然入力が提示された場合に性ステレオタイプに過度に依存する傾向にあり、商用システムでは特に有害である可能性がある。 最後に、データセットが共参照解決モデルの微調整に役立ち、保持されたセットのバイアスを軽減できることを示します。 我々のデータセットとモデルはwww.github.com/SLAB-NLP/BUGで公開されています。 現実的な環境でのジェンダーバイアス評価の緩和技術の研究を加速させることを願っている。

Recent works have found evidence of gender bias in models of machine translation and coreference resolution using mostly synthetic diagnostic datasets. While these quantify bias in a controlled experiment, they often do so on a small scale and consist mostly of artificial, out-of-distribution sentences. In this work, we find grammatical patterns indicating stereotypical and non-stereotypical gender-role assignments (e.g., female nurses versus male dancers) in corpora from three domains, resulting in a first large-scale gender bias dataset of 108K diverse real-world English sentences. We manually verify the quality of our corpus and use it to evaluate gender bias in various coreference resolution and machine translation models. We find that all tested models tend to over-rely on gender stereotypes when presented with natural inputs, which may be especially harmful when deployed in commercial systems. Finally, we show that our dataset lends itself to finetuning a coreference resolution model, finding it mitigates bias on a held out set. Our dataset and models are publicly available at www.github.com/SLAB-NLP/BUG. We hope they will spur future research into gender bias evaluation mitigation techniques in realistic settings.
翻訳日:2021-09-13 13:50:11 公開日:2021-09-10
# 閉形速度初期化のための連続イベントライン制約

Continuous Event-Line Constraint for Closed-Form Velocity Initialization ( http://arxiv.org/abs/2109.04313v2 )

ライセンス: Link先を確認
Peng Xin, Xu Wanting, Yang Jiaqi, Kneip Laurent(参考訳) イベントカメラは、対数輝度の十分な変化に応じて、非同期かつ独立にイベントをトリガーする。 ニューロモルフィックセンサーは、低遅延、動きのぼかしの欠如、高ダイナミックレンジなどの標準カメラに対していくつかの利点がある。 イベントカメラは特にアジャイルのシナリオで動きのダイナミクスを感知するのに適しています。 本稿では,イベントクラスタが与える直線観測と一階カメラのダイナミクスの関係を表現するために,定速度運動仮定と三焦点テンソル幾何に依存する連続的なイベントライン制約を提案する。 中心となる結果は, 角速度の既知の線形カメラ速度のためのクローズドフォームソルバである。 非線形最適化はアルゴリズムの性能を向上させるために用いられる。 本手法の有効性はシミュレーションデータと実データの両方について注意深く分析することで実証された。

Event cameras trigger events asynchronously and independently upon a sufficient change of the logarithmic brightness level. The neuromorphic sensor has several advantages over standard cameras including low latency, absence of motion blur, and high dynamic range. Event cameras are particularly well suited to sense motion dynamics in agile scenarios. We propose the continuous event-line constraint, which relies on a constant-velocity motion assumption as well as trifocal tensor geometry in order to express a relationship between line observations given by event clusters as well as first-order camera dynamics. Our core result is a closed-form solver for up-to-scale linear camera velocity {with known angular velocity}. Nonlinear optimization is adopted to improve the performance of the algorithm. The feasibility of the approach is demonstrated through a careful analysis on both simulated and real data.
翻訳日:2021-09-13 13:49:51 公開日:2021-09-10
# IFBiD:推論不要バイアス検出

IFBiD: Inference-Free Bias Detection ( http://arxiv.org/abs/2109.04374v2 )

ライセンス: Link先を確認
Ignacio Serna and Aythami Morales and Julian Fierrez and Javier Ortega-Garcia(参考訳) 本論文は、重みを単純に見れば、深層畳み込みニューラルネットワークのバイアスを自動的に検出する方法を初めて探求するものである。 さらに、ニューラルネットワークとその動作方法を理解するためのステップでもある。 モデルが単に重みを見るだけで偏りがあるかどうかを、特定の入力に対するモデル推論なしで知ることは実際に可能であることを示す。 我々は、Colored MNISTデータベースを用いて、ディープネットワークの重みに偏りがどのように符号化されているかを分析し、また、最先端の手法と実験資源を用いて、顔画像からの性別検出における現実的なケーススタディを提供する。 そのために、36Kと48Kのバイアスモデルを持つ2つのデータベースを生成しました。 mnistモデルでは,99%以上の精度で強いバイアスあるいは低いバイアスを示したかの検出が可能で,70%以上の精度で4段階のバイアスを分類することができた。 顔モデルでは、アジア、黒人、コーカサス民族に偏ったモデルの区別において90%の精度を達成した。

This paper is the first to explore an automatic way to detect bias in deep convolutional neural networks by simply looking at their weights. Furthermore, it is also a step towards understanding neural networks and how they work. We show that it is indeed possible to know if a model is biased or not simply by looking at its weights, without the model inference for an specific input. We analyze how bias is encoded in the weights of deep networks through a toy example using the Colored MNIST database and we also provide a realistic case study in gender detection from face images using state-of-the-art methods and experimental resources. To do so, we generated two databases with 36K and 48K biased models each. In the MNIST models we were able to detect whether they presented a strong or low bias with more than 99% accuracy, and we were also able to classify between four levels of bias with more than 70% accuracy. For the face models, we achieved 90% accuracy in distinguishing between models biased towards Asian, Black, or Caucasian ethnicity.
翻訳日:2021-09-13 13:49:40 公開日:2021-09-10
# ナレーション映像の3次元再構成とグラウンド化

Reconstructing and grounding narrated instructional videos in 3D ( http://arxiv.org/abs/2109.04409v2 )

ライセンス: Link先を確認
Dimitri Zhukov, Ignacio Rocco, Ivan Laptev, Josef Sivic, Johannes L. Sch\"onberger, Bugra Tekin, Marc Pollefeys(参考訳) ナレーション付き指導ビデオは、車やラップトップの特定のモデルを修理するなど、類似したオブジェクトの操作をしばしば表示し記述する。 本研究では,そのようなオブジェクトを再構築し,関連するナレーションを3Dでローカライズすることを目的とする。 すべてのビューに同一のオブジェクトやシーンが存在するインスタンスレベルの3D再構成の標準的なシナリオとは対照的に、異なるインストラクショナルビデオ内のオブジェクトは、同じ製品のさまざまな条件とバージョンに応じて大きな外観変化を持つ可能性がある。 ナレーションは自然言語の表現にも大きなバリエーションがある。 我々はこれらの課題を3つの貢献で解決する。 まず,学習した局所的特徴と高密度流れを組み合わせた対応推定手法を提案する。 第2に、個々のビデオの初期3次元再構成を3次元アライメントグラフに組み合わせた2段階分割・復号化手法を設計する。 最後に,得られた3次元再構成における基盤自然言語に対する教師なしアプローチを提案する。 自動車メンテナンス分野におけるアプローチの有効性を実証する。 本手法は, 生の指導ビデオと手動による監督を伴わず, 異なる車両モデルのエンジンを再構築し, テキスト記述を3次元のオブジェクトに関連付ける。

Narrated instructional videos often show and describe manipulations of similar objects, e.g., repairing a particular model of a car or laptop. In this work we aim to reconstruct such objects and to localize associated narrations in 3D. Contrary to the standard scenario of instance-level 3D reconstruction, where identical objects or scenes are present in all views, objects in different instructional videos may have large appearance variations given varying conditions and versions of the same product. Narrations may also have large variation in natural language expressions. We address these challenges by three contributions. First, we propose an approach for correspondence estimation combining learnt local features and dense flow. Second, we design a two-step divide and conquer reconstruction approach where the initial 3D reconstructions of individual videos are combined into a 3D alignment graph. Finally, we propose an unsupervised approach to ground natural language in obtained 3D reconstructions. We demonstrate the effectiveness of our approach for the domain of car maintenance. Given raw instructional videos and no manual supervision, our method successfully reconstructs engines of different car models and associates textual descriptions with corresponding objects in 3D.
翻訳日:2021-09-13 13:49:22 公開日:2021-09-10
# 動きの定数:最適化とゲームダイナミクスにおけるカオスに対するアンチドテ

Constants of Motion: The Antidote to Chaos in Optimization and Game Dynamics ( http://arxiv.org/abs/2109.03974v2 )

ライセンス: Link先を確認
Georgios Piliouras and Xiao Wang(参考訳) オンライン最適化とゲームダイナミクスに関する最近のいくつかの研究は、不安定性とカオスの形式的な出現を含む強い負の複雑さの成果を確立している。 どの方法論ツールがそのようなダイナミクスの規則性を保証することができるのか、そしてそれらを離散時間一階最適化ダイナミクスのような関心の標準的な設定にどのように適用できるのか? 本稿では,不変関数の存在,すなわち運動定数の存在の証明が,この方向における基本的な貢献であることを示すとともに,最適化とゲーム設定の両方において,このような正の結果(例えば,勾配降下,乗法重み更新,交代勾配降下,多様体勾配降下)の多さを確立する。 技術的なレベルでは、いくつかの保存法則は明示的で簡潔な閉形式を提供するが、他の法則では動的システムからのツールを用いた非構成的証明を示す。

Several recent works in online optimization and game dynamics have established strong negative complexity results including the formal emergence of instability and chaos even in small such settings, e.g., $2\times 2$ games. These results motivate the following question: Which methodological tools can guarantee the regularity of such dynamics and how can we apply them in standard settings of interest such as discrete-time first-order optimization dynamics? We show how proving the existence of invariant functions, i.e., constant of motions, is a fundamental contribution in this direction and establish a plethora of such positive results (e.g. gradient descent, multiplicative weights update, alternating gradient descent and manifold gradient descent) both in optimization as well as in game settings. At a technical level, for some conservation laws we provide an explicit and concise closed form, whereas for other ones we present non-constructive proofs using tools from dynamical systems.
翻訳日:2021-09-13 13:49:03 公開日:2021-09-10
# Neural Latents Benchmark '21: Evaluating Latent variable model of Neural population activity

Neural Latents Benchmark '21: Evaluating latent variable models of neural population activity ( http://arxiv.org/abs/2109.04463v2 )

ライセンス: Link先を確認
Felix Pei, Joel Ye, David Zoltowski, Anqi Wu, Raeed H. Chowdhury, Hansem Sohn, Joseph E. O'Doherty, Krishna V. Shenoy, Matthew T. Kaufman, Mark Churchland, Mehrdad Jazayeri, Lee E. Miller, Jonathan Pillow, Il Memming Park, Eva L. Dyer, Chethan Pandarinath(参考訳) 神経記録の進歩は、前例のない詳細で神経活動を研究する機会を増やしている。 潜在変数モデル(LVM)は、アクティビティと外部実験変数の間の既知の関係に依存しないため、さまざまなニューラルネットワークや振る舞いにわたってこのリッチなアクティビティを分析するための有望なツールである。 しかし、潜在変数モデリングの進歩は、現在標準化の欠如によって妨げられ、結果としてメソッドはアドホックな方法で開発され比較される。 これらのモデリングの取り組みを調整するために,ニューラル集団活動の潜在変数モデリングのためのベンチマークスイートを導入する。 認知、感覚、運動領域から神経スパイキング活動の4つのデータセットを収集し、これらの領域で見られる様々な活動に適用可能なモデルを促進した。 我々は、教師なし評価をデータセット間のモデル評価の共通フレームワークとして特定し、ベンチマークの多様性を示すいくつかのベースラインを適用した。 EvalAIを通じてこのベンチマークをリリースします。 http://neurallatents.github.io

Advances in neural recording present increasing opportunities to study neural activity in unprecedented detail. Latent variable models (LVMs) are promising tools for analyzing this rich activity across diverse neural systems and behaviors, as LVMs do not depend on known relationships between the activity and external experimental variables. However, progress in latent variable modeling is currently impeded by a lack of standardization, resulting in methods being developed and compared in an ad hoc manner. To coordinate these modeling efforts, we introduce a benchmark suite for latent variable modeling of neural population activity. We curate four datasets of neural spiking activity from cognitive, sensory, and motor areas to promote models that apply to the wide variety of activity seen across these areas. We identify unsupervised evaluation as a common framework for evaluating models across datasets, and apply several baselines that demonstrate benchmark diversity. We release this benchmark through EvalAI. http://neurallatents.github.io
翻訳日:2021-09-13 13:48:46 公開日:2021-09-10
# 経験ベイズと複合決定問題に対する鋭い後悔の限界

Sharp regret bounds for empirical Bayes and compound decision problems ( http://arxiv.org/abs/2109.03943v2 )

ライセンス: Link先を確認
Yury Polyanskiy and Yihong Wu(参考訳) 我々は、二乗損失の下で(同一共分散行列を伴う)正常に n$-次元の平均やポアソン分布ベクトルを推定する古典的な問題を考える。 ベイズ設定では、最適推定器は事前の条件付き平均によって与えられる。 頻繁な設定では、前世紀に様々な収縮法が開発された。 Robbins (1956) が提唱した経験的ベイズ(英語版)の枠組みは、パラメータは独立であるが未知の事前と仮定することでベイズ的および頻繁な考え方を結合し、真の事前を知っているベイズ的オラクルと競合するために完全なデータ駆動推定器を使用することを目的としている。 利益の主な数字は後悔であり、すなわち、最悪の場合(過去の場合)のベイズリスクに対する総過大なリスクである。 このパラダイムは60年以上前に導入されたが、非パラメトリックな設定における最適後悔の漸近スケーリングについてはほとんど知られていない。 コンパクトにサポートされたポアソンモデルと半指数前値を持つポアソンモデルの場合、最適の後悔スケールは $\Theta((\frac{\log n}{\log\log n})^2)$ と $\Theta(\log^3 n)$ である。 通常の平均モデルでは、後悔は少なくとも$\Omega((\frac{\log n}{\log\log n})^2)$ と $\Omega(\log^2 n)$ のそれぞれコンパクトなサポート付きおよび部分ガウス的事前に対して示される。 経験ベイズ設定に加えて、これらの結果はパラメータが決定論的である複合設定に保持される。 副応用として, ガウス型およびポアソン型混合物の密度推定において, 改良あるいは新しい下限を導出する。

We consider the classical problems of estimating the mean of an $n$-dimensional normally (with identity covariance matrix) or Poisson distributed vector under the squared loss. In a Bayesian setting the optimal estimator is given by the prior-dependent conditional mean. In a frequentist setting various shrinkage methods were developed over the last century. The framework of empirical Bayes, put forth by Robbins (1956), combines Bayesian and frequentist mindsets by postulating that the parameters are independent but with an unknown prior and aims to use a fully data-driven estimator to compete with the Bayesian oracle that knows the true prior. The central figure of merit is the regret, namely, the total excess risk over the Bayes risk in the worst case (over the priors). Although this paradigm was introduced more than 60 years ago, little is known about the asymptotic scaling of the optimal regret in the nonparametric setting. We show that for the Poisson model with compactly supported and subexponential priors, the optimal regret scales as $\Theta((\frac{\log n}{\log\log n})^2)$ and $\Theta(\log^3 n)$, respectively, both attained by the original estimator of Robbins. For the normal mean model, the regret is shown to be at least $\Omega((\frac{\log n}{\log\log n})^2)$ and $\Omega(\log^2 n)$ for compactly supported and subgaussian priors, respectively, the former of which resolves the conjecture of Singh (1979) on the impossibility of achieving bounded regret; before this work, the best regret lower bound was $\Omega(1)$. In addition to the empirical Bayes setting, these results are shown to hold in the compound setting where the parameters are deterministic. As a side application, the construction in this paper also leads to improved or new lower bounds for density estimation of Gaussian and Poisson mixtures.
翻訳日:2021-09-13 13:48:29 公開日:2021-09-10
# evoquer: video-pivoted backquery生成による時間的接地強化

EVOQUER: Enhancing Temporal Grounding with Video-Pivoted BackQuery Generation ( http://arxiv.org/abs/2109.04600v1 )

ライセンス: Link先を確認
Yanjun Gao, Lulu Liu, Jason Wang, Xin Chen, Huayan Wang, Rui Zhang(参考訳) 時間的接地は、自然言語クエリ入力に対応するビデオクリップの時間間隔を予測することを目的としている。 本稿では,既存のテキスト対ビデオ接地モデルとビデオ支援クエリ生成ネットワークを組み合わせた時間的接地フレームワークであるevoquerを提案する。 クエリと未トリミング映像が与えられた場合、時間的グラウンドモデルは目標間隔を予測し、予測されたビデオクリップを、入力クエリの簡易バージョンを生成してビデオ翻訳タスクに投入する。 EVOQUERは、時間的グラウンドとクエリ生成の両方から損失関数を組み込んで、クローズループ学習を形成する。 広く使われている2つのデータセットであるCharades-STAとActivityNetの実験は、EVOQUERが1.05と1.31をR@0.7で達成していることを示している。 また,時間的接地モデルの振る舞いを説明することにより,クエリ生成タスクがエラー解析を容易にする方法について述べる。

Temporal grounding aims to predict a time interval of a video clip corresponding to a natural language query input. In this work, we present EVOQUER, a temporal grounding framework incorporating an existing text-to-video grounding model and a video-assisted query generation network. Given a query and an untrimmed video, the temporal grounding model predicts the target interval, and the predicted video clip is fed into a video translation task by generating a simplified version of the input query. EVOQUER forms closed-loop learning by incorporating loss functions from both temporal grounding and query generation serving as feedback. Our experiments on two widely used datasets, Charades-STA and ActivityNet, show that EVOQUER achieves promising improvements by 1.05 and 1.31 at R@0.7. We also discuss how the query generation task could facilitate error analysis by explaining temporal grounding model behavior.
翻訳日:2021-09-13 13:47:49 公開日:2021-09-10
# 抽象対話要約のためのトピック対応コントラスト学習

Topic-Aware Contrastive Learning for Abstractive Dialogue Summarization ( http://arxiv.org/abs/2109.04994v1 )

ライセンス: Link先を確認
Junpeng Liu, Yanyan Zou, Hainan Zhang, Hongshen Chen, Zhuoye Ding, Caixia Yuan and Xiaojie Wang(参考訳) ニュース記事や百科事典記事のようなよく構造化されたテキストとは異なり、対話コンテンツは2つ以上のインターロケータからなり、情報を交換する。 このようなシナリオでは、会話の話題は進行によって変化し、ある話題の重要な情報は複数の話者の発話に散らばり、対話を抽象的に要約する課題が生じる。 そこで本研究では,会話のさまざまな話題情報を捉え,対象とするトピック認識の目標であるコヒーレンス検出とサブサマリー生成の2つを提案し,トピック変化を暗黙的にモデル化し,対話要約タスクにおける情報分散課題に対処する。 提案手法は,主対話要約タスクの補助的タスクとして,代替パラメータ更新戦略を介して統合される。 ベンチマークデータセットの大規模な実験により、提案手法は強いベースラインを著しく上回り、新しい最先端性能を実現することが示された。 コードとトレーニングされたモデルは、 \href{https://github.com/Junpliu/ConDigSum}{https://github.com/Junpliu/ConDigSum} を通じて公開されている。

Unlike well-structured text, such as news reports and encyclopedia articles, dialogue content often comes from two or more interlocutors, exchanging information with each other. In such a scenario, the topic of a conversation can vary upon progression and the key information for a certain topic is often scattered across multiple utterances of different speakers, which poses challenges to abstractly summarize dialogues. To capture the various topic information of a conversation and outline salient facts for the captured topics, this work proposes two topic-aware contrastive learning objectives, namely coherence detection and sub-summary generation objectives, which are expected to implicitly model the topic change and handle information scattering challenges for the dialogue summarization task. The proposed contrastive objectives are framed as auxiliary tasks for the primary dialogue summarization task, united via an alternative parameter updating strategy. Extensive experiments on benchmark datasets demonstrate that the proposed simple method significantly outperforms strong baselines and achieves new state-of-the-art performance. The code and trained models are publicly available via \href{https://github.com/Junpliu/ConDigSum}{https://github.com/Junpliu/ConDigSum}.
翻訳日:2021-09-13 13:47:18 公開日:2021-09-10
# ReasonBERT: ReasonとDistant Supervisionで事前トレーニング

ReasonBERT: Pre-trained to Reason with Distant Supervision ( http://arxiv.org/abs/2109.04912v1 )

ライセンス: Link先を確認
Xiang Deng, Yu Su, Alyssa Lees, You Wu, Cong Yu, Huan Sun(参考訳) ReasonBertは、言語モデルを拡張し、長距離関係や複数の、おそらくはハイブリッドなコンテキストを推論する能力を持つ事前学習手法である。 自然発生テキストの局所的文脈からのみ学習信号を抽出する既存の事前学習方法とは違って,複数のテキストやテーブルを自動的に接続し,長距離推論を必要とする事前学習例を作成するための遠隔監視の概念を提案する。 様々な種類の推論がシミュレートされ、複数の証拠を交わし、ある証拠から別の証拠に橋渡しし、解決不可能な事例を検出する。 我々は,単一ホップからマルチホップ,テキストのみからテーブルのみ,ハイブリッドまで,さまざまな推論能力を必要とする様々な質問応答データセットを総合的に評価し,ReasonBertが強力なベースラインの配列に対して顕著な改善を達成していることを示す。 さらに, プレトレーニング法が試料効率を大幅に向上することを示す実験は少ない。

We present ReasonBert, a pre-training method that augments language models with the ability to reason over long-range relations and multiple, possibly hybrid contexts. Unlike existing pre-training methods that only harvest learning signals from local contexts of naturally occurring texts, we propose a generalized notion of distant supervision to automatically connect multiple pieces of text and tables to create pre-training examples that require long-range reasoning. Different types of reasoning are simulated, including intersecting multiple pieces of evidence, bridging from one piece of evidence to another, and detecting unanswerable cases. We conduct a comprehensive evaluation on a variety of extractive question answering datasets ranging from single-hop to multi-hop and from text-only to table-only to hybrid that require various reasoning capabilities and show that ReasonBert achieves remarkable improvement over an array of strong baselines. Few-shot experiments further demonstrate that our pre-training method substantially improves sample efficiency.
翻訳日:2021-09-13 13:46:56 公開日:2021-09-10
# EfficientCLIP: 信頼学習と言語モデリングを融合した効率的なクロスモーダル事前学習

EfficientCLIP: Efficient Cross-Modal Pre-training by Ensemble Confident Learning and Language Modeling ( http://arxiv.org/abs/2109.04699v1 )

ライセンス: Link先を確認
Jue Wang, Haofan Wang, Jincan Deng, Weijia Wu and Debing Zhang(参考訳) 大規模事前学習はビジョンと言語の間のギャップを埋める上で大きな成果を上げてきたが、それでもいくつかの課題に直面している。 第一に、事前訓練のコストは高価である。 第二に、モデル性能を劣化させるデータノイズを効率的に処理する方法はない。 第3に、従来の手法では、よりリッチな単一モーダルデータを無視しながら、限られた画像テキストペアデータしか利用できなかった。 本研究では,よりノイズの少ないデータサブセットを得るために,Ensemble Confident Learningを用いた効率的なCLIP手法を提案する。 テキストブランチの一般化を促進するために、余分なリッチな非ペアのシングルモーダルテキストデータを使用する。 CLIP や WenLan と比較して1/10 のトレーニングリソースしか持たない中国のクロスモーダル検索タスクの最先端性能を実現し,テキスト検索やテキスト分類などの単一モーダルタスクへの優れた一般化を示した。

While large scale pre-training has achieved great achievements in bridging the gap between vision and language, it still faces several challenges. First, the cost for pre-training is expensive. Second, there is no efficient way to handle the data noise which degrades model performance. Third, previous methods only leverage limited image-text paired data, while ignoring richer single-modal data, which may result in poor generalization to single-modal downstream tasks. In this work, we propose an EfficientCLIP method via Ensemble Confident Learning to obtain a less noisy data subset. Extra rich non-paired single-modal text data is used for boosting the generalization of text branch. We achieve the state-of-the-art performance on Chinese cross-modal retrieval tasks with only 1/10 training resources compared to CLIP and WenLan, while showing excellent generalization to single-modal tasks, including text retrieval and text classification.
翻訳日:2021-09-13 13:46:37 公開日:2021-09-10
# 因果変分オートエンコーダによる感度特性のない公正性

Fairness without the sensitive attribute via Causal Variational Autoencoder ( http://arxiv.org/abs/2109.04999v1 )

ライセンス: Link先を確認
Vincent Grari, Sylvain Lamprier, Marcin Detyniecki(参考訳) 近年、機械学習モデルにおけるフェアネス戦略のほとんどは、センシティブな情報が観測されることを前提として、望ましくないバイアスを緩和することに焦点を当てている。 しかし、実際にはこれは不可能である。 EUにおけるプライバシーの目的とRGPDのような多彩な規制のため、多くの個人機密属性は収集されない。 このような困難な環境下でバイアスを緩和するためのアプローチが欠如していることに気付き、特にデモグラフィックパリティや等化オッドのような古典的公正目標を達成するために注目する。 近年の開発を近似推論に活用し,このギャップを埋める手法を提案する。 因果グラフに基づいて、我々はSRCVAEと呼ばれる新しい変分自動エンコーディングベースのフレームワークを使用して、敵の公正性アプローチにおけるバイアス軽減に役立つセンシティブな情報プロキシを推論する。 この分野における既存の作業に対する大幅な改善を実証的に示す。 我々は,生成したプロキシの潜伏空間が機密情報を回復し,提案手法が2つの実データに対して同等の公平度を確保しつつ高い精度を達成することを観察した。

In recent years, most fairness strategies in machine learning models focus on mitigating unwanted biases by assuming that the sensitive information is observed. However this is not always possible in practice. Due to privacy purposes and var-ious regulations such as RGPD in EU, many personal sensitive attributes are frequently not collected. We notice a lack of approaches for mitigating bias in such difficult settings, in particular for achieving classical fairness objectives such as Demographic Parity and Equalized Odds. By leveraging recent developments for approximate inference, we propose an approach to fill this gap. Based on a causal graph, we rely on a new variational auto-encoding based framework named SRCVAE to infer a sensitive information proxy, that serve for bias mitigation in an adversarial fairness approach. We empirically demonstrate significant improvements over existing works in the field. We observe that the generated proxy's latent space recovers sensitive information and that our approach achieves a higher accuracy while obtaining the same level of fairness on two real datasets, as measured using com-mon fairness definitions.
翻訳日:2021-09-13 13:46:20 公開日:2021-09-10
# マルチタスク学習におけるタスク群の自動同定

Efficiently Identifying Task Groupings for Multi-Task Learning ( http://arxiv.org/abs/2109.04617v1 )

ライセンス: Link先を確認
Christopher Fifty, Ehsan Amid, Zhe Zhao, Tianhe Yu, Rohan Anil, Chelsea Finn(参考訳) マルチタスク学習は、あるタスクが学習した情報を活用し、他のタスクのトレーニングの恩恵を受けることができる。 この能力にもかかわらず、1つのモデルで全てのタスクを鼻で訓練することはパフォーマンスを低下させることが多く、タスクグループ化の組み合わせを徹底的に探すことは違法にコストがかかる。 結果として、コトレーニングの恩恵を受けるタスクを効率的に識別することは、明確な解決策なしでは難しい設計問題である。 本稿では,マルチタスク学習モデルにおいて,どのタスクを一緒に訓練すべきかを選択する手法を提案する。 提案手法は,すべてのタスクをコトレーニングし,ひとつのタスクの勾配が他のタスクの損失に与える影響を定量化することにより,単一のトレーニングでタスクのグループ化を決定する。 大規模タスクマイノミーコンピュータビジョンデータセットでは,従来のタスクグループ化手法よりも11.6倍高速に動作しながら,すべてのタスクを同時にトレーニングするのに比べ,テスト損失を10.0\%削減できることがわかった。

Multi-task learning can leverage information learned by one task to benefit the training of other tasks. Despite this capacity, naively training all tasks together in one model often degrades performance, and exhaustively searching through combinations of task groupings can be prohibitively expensive. As a result, efficiently identifying the tasks that would benefit from co-training remains a challenging design question without a clear solution. In this paper, we suggest an approach to select which tasks should train together in multi-task learning models. Our method determines task groupings in a single training run by co-training all tasks together and quantifying the effect to which one task's gradient would affect another task's loss. On the large-scale Taskonomy computer vision dataset, we find this method can decrease test loss by 10.0\% compared to simply training all tasks together while operating 11.6 times faster than a state-of-the-art task grouping method.
翻訳日:2021-09-13 13:46:02 公開日:2021-09-10
# キーフレーズ生成のためのヘテロジニアスグラフニューラルネットワーク

Heterogeneous Graph Neural Networks for Keyphrase Generation ( http://arxiv.org/abs/2109.04703v1 )

ライセンス: Link先を確認
Jiacheng Ye, Ruijian Cai, Tao Gui and Qi Zhang(参考訳) encoder-decoderフレームワークは、ソース文書に現れる現在のキーフレーズと、そうでないキーフレーズの両方を予測することで、キーフレーズ生成(KG)タスクの最先端結果を達成する。 しかし、ソースドキュメントのみに依存すると、制御不能で不正確なキーフレーズが生成される。 そこで本研究では,関連する参照から明示的な知識を抽出できるグラフベース手法を提案する。 我々のモデルはまず、あらかじめ定義されたインデックスから、ソースドキュメントに似た文書-キーワードペアを参照として検索する。 その後、異種グラフを構築し、ソース文書とその参照間の異なる粒度の関係をキャプチャする。 復号処理の導出には、その関連性と重要性に基づいて、ソース文書とその参照の両方から適切な単語を直接コピーする階層的注意・複写機構を導入する。 複数のKGベンチマークによる実験結果から,提案モデルが他のベースラインモデルに対して有意な改善を達成できることが示唆された。

The encoder-decoder framework achieves state-of-the-art results in keyphrase generation (KG) tasks by predicting both present keyphrases that appear in the source document and absent keyphrases that do not. However, relying solely on the source document can result in generating uncontrollable and inaccurate absent keyphrases. To address these problems, we propose a novel graph-based method that can capture explicit knowledge from related references. Our model first retrieves some document-keyphrases pairs similar to the source document from a pre-defined index as references. Then a heterogeneous graph is constructed to capture relationships of different granularities between the source document and its references. To guide the decoding process, a hierarchical attention and copy mechanism is introduced, which directly copies appropriate words from both the source document and its references based on their relevance and significance. The experimental results on multiple KG benchmarks show that the proposed model achieves significant improvements against other baseline models, especially with regard to the absent keyphrase prediction.
翻訳日:2021-09-13 13:45:46 公開日:2021-09-10
# 表現と勾配規則化による多言語翻訳の改善

Improving Multilingual Translation by Representation and Gradient Regularization ( http://arxiv.org/abs/2109.04778v1 )

ライセンス: Link先を確認
Yilin Yang, Akiko Eriguchi, Alexandre Muzio, Prasad Tadepalli, Stefan Lee and Hany Hassan(参考訳) NMT(Multilingual Neural Machine Translation)は、訓練中に見えないもの、すなわちゼロショット翻訳を含む全ての翻訳方向を1つのモデルで処理できるようにする。 理論的には魅力的であるにもかかわらず、現在のモデルは低品質の翻訳を生成することが多い。 本研究では,大規模多言語コーパスで訓練された強固な多言語システムにおいても,目標外翻訳が支配的であることを観察する。 本稿では,nmtモデルを表現レベルと勾配レベルの両方で正則化する手法を提案する。 表現レベルでは、補助目標言語予測タスクを利用してデコーダ出力を正規化し、対象言語に関する情報を保持する。 勾配レベルでは、少量の直接データ(数千の文ペア)を利用して、モデルの勾配を規則化する。 提案手法は,WMTデータセットとOPUSデータセットの0ショット翻訳性能を+5.59と+10.38BLEUで向上させるのに有効であることを示す。 また,本手法は少量の直接データを利用できない場合にも有効であることを示す実験を行った。

Multilingual Neural Machine Translation (NMT) enables one model to serve all translation directions, including ones that are unseen during training, i.e. zero-shot translation. Despite being theoretically attractive, current models often produce low quality translations -- commonly failing to even produce outputs in the right target language. In this work, we observe that off-target translation is dominant even in strong multilingual systems, trained on massive multilingual corpora. To address this issue, we propose a joint approach to regularize NMT models at both representation-level and gradient-level. At the representation level, we leverage an auxiliary target language prediction task to regularize decoder outputs to retain information about the target language. At the gradient level, we leverage a small amount of direct data (in thousands of sentence pairs) to regularize model gradients. Our results demonstrate that our approach is highly effective in both reducing off-target translation occurrences and improving zero-shot translation performance by +5.59 and +10.38 BLEU on WMT and OPUS datasets respectively. Moreover, experiments show that our method also works well when the small amount of direct data is not available.
翻訳日:2021-09-13 13:45:29 公開日:2021-09-10
# MultiAzterTest: 可読性評価のための多言語言語レベルの多言語アナライザ

MultiAzterTest: a Multilingual Analyzer on Multiple Levels of Language for Readability Assessment ( http://arxiv.org/abs/2109.04870v1 )

ライセンス: Link先を確認
Kepa Bengoetxea and Itziar Gonzalez-Dios(参考訳) 可読性評価(Readability Assessment)とは、テキストの難易度や難易度を決定するタスクである。 伝統的に言語依存の可読性公式が用いられてきたが、これらの公式はテキストの特徴を考慮に入れていない。 しかし、テキストの複雑さを評価する自然言語処理(NLP)ツールは、より異なる特徴を測定することができ、異なる言語に適応することができる。 本稿では,MultiAzterTestツールについて述べる。 i) 英語,スペイン語及びバスク語に対する125以上の凝集度,言語及び可読性に関するテキストを分析するオープンソースのNLPツールであって,そのアーキテクチャは,他言語を容易に適応するように設計されている。 (二 英語のCoh-Metrix、スペイン語のCoh-Metrix-Esp、バスク語ErreXailの性能を向上させる可読性評価分類器 iii) web ツール。 multiaztertestは、英語で3つの読みレベル(要素、中間、上級)、バスク語で95.50%、スペイン語で90%に分類すると、smo分類器を用いて2つの読みレベル(単純かつ複雑)に分類される。 MultiAzterTestは、言語横断機能を使用して、より複雑なものと単純なものとの競争結果も得る。

Readability assessment is the task of determining how difficult or easy a text is or which level/grade it has. Traditionally, language dependent readability formula have been used, but these formulae take few text characteristics into account. However, Natural Language Processing (NLP) tools that assess the complexity of texts are able to measure more different features and can be adapted to different languages. In this paper, we present the MultiAzterTest tool: (i) an open source NLP tool which analyzes texts on over 125 measures of cohesion,language, and readability for English, Spanish and Basque, but whose architecture is designed to easily adapt other languages; (ii) readability assessment classifiers that improve the performance of Coh-Metrix in English, Coh-Metrix-Esp in Spanish and ErreXail in Basque; iii) a web tool. MultiAzterTest obtains 90.09 % in accuracy when classifying into three reading levels (elementary, intermediate, and advanced) in English and 95.50 % in Basque and 90 % in Spanish when classifying into two reading levels (simple and complex) using a SMO classifier. Using cross-lingual features, MultiAzterTest also obtains competitive results above all in a complex vs simple distinction.
翻訳日:2021-09-13 13:45:07 公開日:2021-09-10
# PIP:スパン選択を伴う心的イメージによる身体的相互作用予測

PIP: Physical Interaction Prediction via Mental Imagery with Span Selection ( http://arxiv.org/abs/2109.04683v1 )

ライセンス: Link先を確認
Jiafei Duan, Samson Yu, Soujanya Poria, Bihan Wen, Cheston Tan(参考訳) 高度な人工知能(AI)を人間の価値観と整合させ、安全なAIを促進するためには、AIが物理的相互作用の結果を予測することが重要である。 現実世界のオブジェクト間の物理的相互作用の結果を人間がどのように予測するかという議論が続いているが、認知に触発されたAIアプローチを通じて、この課題に対処しようとする研究がある。 しかし、人間が現実世界で物理的相互作用を予測するために使用する精神的なイメージを模倣するAIアプローチがまだ存在しない。 本研究では,Span Selection を用いたメンタルイメージによる身体的相互作用予測手法を提案する。 PIPは、深層生成モデルを用いて、オブジェクト間の物理的な相互作用の将来のフレームを出力し、スパンセレクションを用いた健全なフレームに着目して物理的相互作用を予測する重要な情報を抽出する。 本研究では,3次元環境における3つの物理的相互作用イベントを含む合成ビデオフレームの大規模空間+データセットを提案する。 実験の結果,PIPは目視対象と目視対象の両方の物理的相互作用予測において,ベースラインや人体性能よりも優れていた。 さらに、PIPのスパン選択スキームは、生成されたフレーム内でオブジェクト間の物理的相互作用が発生するフレームを効果的に識別し、追加の解釈可能性を実現する。

To align advanced artificial intelligence (AI) with human values and promote safe AI, it is important for AI to predict the outcome of physical interactions. Even with the ongoing debates on how humans predict the outcomes of physical interactions among objects in the real world, there are works attempting to tackle this task via cognitive-inspired AI approaches. However, there is still a lack of AI approaches that mimic the mental imagery humans use to predict physical interactions in the real world. In this work, we propose a novel PIP scheme: Physical Interaction Prediction via Mental Imagery with Span Selection. PIP utilizes a deep generative model to output future frames of physical interactions among objects before extracting crucial information for predicting physical interactions by focusing on salient frames using span selection. To evaluate our model, we propose a large-scale SPACE+ dataset of synthetic video frames, including three physical interaction events in a 3D environment. Our experiments show that PIP outperforms baselines and human performance in physical interaction prediction for both seen and unseen objects. Furthermore, PIP's span selection scheme can effectively identify the frames where physical interactions among objects occur within the generated frames, allowing for added interpretability.
翻訳日:2021-09-13 13:44:42 公開日:2021-09-10
# GAN合成ストリートビデオの検出

Detection of GAN-synthesized street videos ( http://arxiv.org/abs/2109.04991v1 )

ライセンス: Link先を確認
Omran Alamayreh and Mauro Barni(参考訳) AI生成ビデオの検出に関する研究は、主にディープフェイクと呼ばれるフェイスビデオに焦点を当てている。 顔の交換、顔の再現、表情の操作といった操作は、人工ビデオと本物の動画を区別する効率的なツールの開発とともに、激しい研究の対象となっている。 人工非顔ビデオの検出には、はるかに注意が払われていない。 しかし、このようなビデオを生成するための新しいツールが、急速に開発され、間もなく、ディープフェイクビデオの品質レベルに達するだろう。 本研究の目的は、顔のディープフェイクに使用されるのと同じツールで分析できない、新しいタイプのAI生成ビデオがストリートシーケンスを駆動する(以下、DeepStreetsビデオと呼ぶ)ことの検出可能性を調べることである。 具体的には、Vid2vidアーキテクチャによって生成された最先端のDeepStreetsビデオにおいて、非常に優れた性能を発揮する。 特に、この検出器は、トレーニング中に使用する圧縮レベルがテストビデオと一致しない場合でも、圧縮ビデオの性能が非常に高い。

Research on the detection of AI-generated videos has focused almost exclusively on face videos, usually referred to as deepfakes. Manipulations like face swapping, face reenactment and expression manipulation have been the subject of an intense research with the development of a number of efficient tools to distinguish artificial videos from genuine ones. Much less attention has been paid to the detection of artificial non-facial videos. Yet, new tools for the generation of such kind of videos are being developed at a fast pace and will soon reach the quality level of deepfake videos. The goal of this paper is to investigate the detectability of a new kind of AI-generated videos framing driving street sequences (here referred to as DeepStreets videos), which, by their nature, can not be analysed with the same tools used for facial deepfakes. Specifically, we present a simple frame-based detector, achieving very good performance on state-of-the-art DeepStreets videos generated by the Vid2vid architecture. Noticeably, the detector retains very good performance on compressed videos, even when the compression level used during training does not match that used for the test videos.
翻訳日:2021-09-13 13:44:22 公開日:2021-09-10
# CINS:タスク指向DialogシステムにおけるFew-shot学習の総合的指導

CINS: Comprehensive Instruction for Few-shot Learning in Task-orientedDialog Systems ( http://arxiv.org/abs/2109.04645v1 )

ライセンス: Link先を確認
Fei Mi, Yitong Li, Yasheng Wang, Xin Jiang and Qun Liu(参考訳) タスク指向ダイアログ(ToD)システムにおける異なるモジュールのラベル付けコストが高いため、実際は最小限のラベル付きデータで異なるタスクを学習することが課題である。 近年, プレトレーニング言語モデル (PLM) に対するプロンプト手法は, ToD における数発の学習に有望な結果を示している。 本稿では, PLMの能力をより有効活用するために, タスク固有の命令を多用した包括的インストラクション(CINS)を提案する。 インテント分類,ダイアログ状態追跡,自然言語生成の3つの重要な下流タスクに対して,命令のスキーマ(定義,制約,プロンプト)とそのカスタマイズ実現を設計する。 これら3つのタスクを統一フレームワークで解決するためにシーケンシャル・ツー・シーケンス・モデル(t5)が採用されている。 これらのtodタスクについて,小さな検証データを用いて,リアルな少数ショット学習シナリオで広範な実験を行った。 実験の結果,提案手法は生のインプットやショートプロンプトでPLMを微調整する手法を一貫して改良することが示された。

As labeling cost for different modules in task-oriented dialog (ToD) systems is high, a major challenge in practice is to learn different tasks with the least amount of labeled data. Recently, prompting methods over pre-trained language models (PLMs) have shown promising results for few-shot learning in ToD. To better utilize the power of PLMs, this paper proposes Comprehensive Instruction (CINS) that exploits PLMs with extra task-specific instructions. We design a schema(definition, constraint, prompt) of instructions and their customized realizations for three important downstream tasks in ToD, i.e. intent classification, dialog state tracking, and natural language generation. A sequence-to-sequence model (T5)is adopted to solve these three tasks in a unified framework. Extensive experiments are conducted on these ToD tasks in realistic few-shot learning scenarios with small validation data. Empirical results demonstrate that the proposed CINS approach consistently improves techniques that finetune PLMs with raw input or short prompts.
翻訳日:2021-09-13 13:43:24 公開日:2021-09-10
# 低リソーステキスト分類のための知識認識メタラーニング

Knowledge-Aware Meta-learning for Low-Resource Text Classification ( http://arxiv.org/abs/2109.04707v1 )

ライセンス: Link先を確認
Huaxiu Yao, Yingxin Wu, Maruan Al-Shedivat, Eric P. Xing(参考訳) メタラーニングは、新しいタスクの学習プロセスを促進するために歴史的な学習知識を活用することに成功しました。 しかし、現在のメタ学習アルゴリズムが採用している歴史的タスクから知識を学習するだけでは、トレーニングタスクが十分にサポートされていない場合に、テストタスクにうまく適用できない可能性がある。 本稿では,低リソーステキスト分類問題を調査し,外部知識ベースを活用することで,メタトレーニングとメタテストのギャップを埋める。 具体的には,抽出した文固有知識グラフから学習した各文に対する追加表現を提案する。 3つのデータセットに関する広範な実験は、教師なし適応と教師なし適応設定の両方において、KGMLの有効性を示す。

Meta-learning has achieved great success in leveraging the historical learned knowledge to facilitate the learning process of the new task. However, merely learning the knowledge from the historical tasks, adopted by current meta-learning algorithms, may not generalize well to testing tasks when they are not well-supported by training tasks. This paper studies a low-resource text classification problem and bridges the gap between meta-training and meta-testing tasks by leveraging the external knowledge bases. Specifically, we propose KGML to introduce additional representation for each sentence learned from the extracted sentence-specific knowledge graph. The extensive experiments on three datasets demonstrate the effectiveness of KGML under both supervised adaptation and unsupervised adaptation settings.
翻訳日:2021-09-13 13:43:05 公開日:2021-09-10
# 高速変圧器のブロックプルーニング

Block Pruning For Faster Transformers ( http://arxiv.org/abs/2109.04838v1 )

ライセンス: Link先を確認
Fran\c{c}ois Lagunas, Ella Charlaix, Victor Sanh, Alexander M. Rush(参考訳) 事前学習は、より大きく遅いモデルを導入するコストで、分類タスクと生成タスクの両方のモデル精度を改善した。 プルーニング法はモデルサイズの削減に有効な方法であることが証明されているが, 蒸留法は推論の高速化に有効である。 小型モデルと高速モデルの両方を対象としたブロック刈り込み手法を提案する。 提案手法は,任意のサイズのブロックを考慮して構造化手法を拡張し,この構造を微調整のための移動プルーニングパラダイムに統合する。 このアプローチは、アテンションヘッドのような基盤となるモデルの完全なコンポーネントを抽出することを学ぶ。 実験では、分類と生成タスクを考慮し、その他の結果の中で、SQuAD v1上で2.4倍高速で74%小さいBERTで、F1では1%低下し、蒸留されたモデルの速度とプルーンドモデルの両方と競合するプルーンドモデルが得られる。

Pre-training has improved model accuracy for both classification and generation tasks at the cost of introducing much larger and slower models. Pruning methods have proven to be an effective way of reducing model size, whereas distillation methods are proven for speeding up inference. We introduce a block pruning approach targeting both small and fast models. Our approach extends structured methods by considering blocks of any size and integrates this structure into the movement pruning paradigm for fine-tuning. We find that this approach learns to prune out full components of the underlying model, such as attention heads. Experiments consider classification and generation tasks, yielding among other results a pruned model that is a 2.4x faster, 74% smaller BERT on SQuAD v1, with a 1% drop on F1, competitive both with distilled models in speed and pruned models in size.
翻訳日:2021-09-13 13:42:55 公開日:2021-09-10
# テキスト分類タスクにおけるラベリング労力削減のためのアクティブラーニング

Active learning for reducing labeling effort in text classification tasks ( http://arxiv.org/abs/2109.04847v1 )

ライセンス: Link先を確認
Pieter Floris Jacobs, Gideon Maillette de Buy Wenniger, Marco Wiering, Lambert Schomaker(参考訳) データのラベル付けは通常、ドメインの専門家が手作業で行うため、高価なタスクになる可能性がある。 これは、大きなラベル付きデータセットに依存するため、ディープラーニングには厄介である。 アクティブラーニング(英: Active Learning, AL)は、使用済みモデルが最も有用なデータのみを使用することでラベル付けの労力を削減することを目的としたパラダイムである。 ALのテキスト分類に関する研究はほとんど行われておらず、最近になって最先端のNLPモデルに関する研究は行われていない。 本稿では,異なる不確実性に基づくアルゴリズムを,使用する分類器としてbert$_{base}$と比較した経験的研究を行う。 我々は,2つのNLP分類データセット(Stanford Sentiment TreebankとKvK-Frontpages)でアルゴリズムを評価する。 さらに,不確実性に基づくalの既定問題を解決することを目的としたヒューリスティックスについて検討する。 さらに,クエリプールサイズがALの性能に与える影響についても検討する。 提案したALのヒューリスティックスではALの性能は向上しなかったが,BERT$_{base}$による不確実性に基づくALはデータのランダムサンプリングに優れていた。 このパフォーマンスの違いは、クエリプールのサイズが大きくなるにつれて減少する可能性がある。

Labeling data can be an expensive task as it is usually performed manually by domain experts. This is cumbersome for deep learning, as it is dependent on large labeled datasets. Active learning (AL) is a paradigm that aims to reduce labeling effort by only using the data which the used model deems most informative. Little research has been done on AL in a text classification setting and next to none has involved the more recent, state-of-the-art NLP models. Here, we present an empirical study that compares different uncertainty-based algorithms with BERT$_{base}$ as the used classifier. We evaluate the algorithms on two NLP classification datasets: Stanford Sentiment Treebank and KvK-Frontpages. Additionally, we explore heuristics that aim to solve presupposed problems of uncertainty-based AL; namely, that it is unscalable and that it is prone to selecting outliers. Furthermore, we explore the influence of the query-pool size on the performance of AL. Whereas it was found that the proposed heuristics for AL did not improve performance of AL; our results show that using uncertainty-based AL with BERT$_{base}$ outperforms random sampling of data. This difference in performance can decrease as the query-pool size gets larger.
翻訳日:2021-09-13 13:42:40 公開日:2021-09-10
# 要約のための事前学習は知識伝達を必要とするか?

Does Pretraining for Summarization Require Knowledge Transfer? ( http://arxiv.org/abs/2109.04953v1 )

ライセンス: Link先を確認
Kundan Krishna, Jeffrey Bigham and Zachary C. Lipton(参考訳) 膨大なデータセットを活用する事前学習技術は、テキスト要約の最近の進歩を駆動している。 民間の説明では、知識の伝達は事前訓練の利点を説明できるが、なぜそれが機能するのか、それとも事前訓練のタスクやデータセットを適当にするかは、ほとんど分かっていない。 本稿では,ランダムに選択された文字n-gramからなる文書を事前学習することで,実コーパスで事前学習したモデルの性能にほぼ匹敵することを示す。 この研究は上流コーパスの排除を約束しており、攻撃的言語、偏見、著作権問題に対する懸念を緩和する可能性がある。 実データを用いた残余利益が事前学習タスクの構造によって説明できるかどうかを確認するために,要約コーパスの質的研究によって動機づけられたタスクをいくつか設計する。 しかし、これらのタスクは有益な利益を与えず、知識伝達の小さな役割の可能性を秘めている。

Pretraining techniques leveraging enormous datasets have driven recent advances in text summarization. While folk explanations suggest that knowledge transfer accounts for pretraining's benefits, little is known about why it works or what makes a pretraining task or dataset suitable. In this paper, we challenge the knowledge transfer story, showing that pretraining on documents consisting of character n-grams selected at random, we can nearly match the performance of models pretrained on real corpora. This work holds the promise of eliminating upstream corpora, which may alleviate some concerns over offensive language, bias, and copyright issues. To see whether the small residual benefit of using real data could be accounted for by the structure of the pretraining task, we design several tasks motivated by a qualitative study of summarization corpora. However, these tasks confer no appreciable benefit, leaving open the possibility of a small role for knowledge transfer.
翻訳日:2021-09-13 13:42:19 公開日:2021-09-10
# box embeddeds:幾何構造を用いた表現学習のためのオープンソースライブラリ

Box Embeddings: An open-source library for representation learning using geometric structures ( http://arxiv.org/abs/2109.04997v1 )

ライセンス: Link先を確認
Tejas Chheda, Purujit Goyal, Trang Tran, Dhruvesh Patel, Michael Boratko, Shib Sankar Dasgupta, and Andrew McCallum(参考訳) 現代表現学習の成功に寄与する主要な要因は、様々なベクトル演算の実行の容易さである。 近年、幾何学的構造(分布、複素あるいは双曲ベクトル、円錐、円盤、箱などの領域)を持つ物体は、その代替帰納バイアスと追加の表現能力のために探索されている。 そこで本研究では,PythonライブラリであるBox Embeddingsを紹介した。

A major factor contributing to the success of modern representation learning is the ease of performing various vector operations. Recently, objects with geometric structures (eg. distributions, complex or hyperbolic vectors, or regions such as cones, disks, or boxes) have been explored for their alternative inductive biases and additional representational capacities. In this work, we introduce Box Embeddings, a Python library that enables researchers to easily apply and extend probabilistic box embeddings.
翻訳日:2021-09-13 13:42:03 公開日:2021-09-10
# ノイズロバスト学習と言語モデル強化による遠隔教師付きエンティティ認識

Distantly-Supervised Named Entity Recognition with Noise-Robust Learning and Language Model Augmented Self-Training ( http://arxiv.org/abs/2109.05003v1 )

ライセンス: Link先を確認
Yu Meng, Yunyi Zhang, Jiaxin Huang, Xuan Wang, Yu Zhang, Heng Ji, Jiawei Han(参考訳) 本研究では,テキスト中のエンティティの言及と知識ベースにおけるエンティティの型をマッチングすることで,遠隔ラベル付きデータのみを用いて名前付きエンティティ認識(NER)モデルを訓練する問題について検討する。 遠方監督NERの最大の課題は、遠方監督が不完全でノイズの多いラベルを誘導し、教師付き学習の直接的な適用が効果的でないことである。 本稿では,NERモデルを遠隔ラベル付きデータで学習するための,新たな損失関数とノイズラベル除去ステップからなるノイズローバスト学習手法を提案し,また,NERモデルの一般化能力を向上させるために,事前学習された言語モデルによって生成された文脈拡張を用いた自己学習手法を提案する。 3つのベンチマークデータセットにおいて,提案手法は,既存の遠隔教師付きNERモデルよりも優れた性能を示す。

We study the problem of training named entity recognition (NER) models using only distantly-labeled data, which can be automatically obtained by matching entity mentions in the raw text with entity types in a knowledge base. The biggest challenge of distantly-supervised NER is that the distant supervision may induce incomplete and noisy labels, rendering the straightforward application of supervised learning ineffective. In this paper, we propose (1) a noise-robust learning scheme comprised of a new loss function and a noisy label removal step, for training NER models on distantly-labeled data, and (2) a self-training method that uses contextualized augmentations created by pre-trained language models to improve the generalization ability of the NER model. On three benchmark datasets, our method achieves superior performance, outperforming existing distantly-supervised NER models by significant margins.
翻訳日:2021-09-13 13:41:54 公開日:2021-09-10
# 動的集団知能学習:刈り込み重みに対する精製勾配による効率的なスパースモデル探索

Dynamic Collective Intelligence Learning: Finding Efficient Sparse Model via Refined Gradients for Pruned Weights ( http://arxiv.org/abs/2109.04660v1 )

ライセンス: Link先を確認
Jangho Kim, Jayeon Yoo, Yeji Song, KiYoon Yoo, Nojun Kwak(参考訳) ディープニューラルネットワーク(DNN)の成長に伴い、DNNパラメータの数が大幅に増加した。 これにより、DNNモデルはリソース制限された組み込みシステムにデプロイするのが困難になる。 この問題を軽減するために,ストレート・スルー・エスティメータ(ste)を駆除重みの近似勾配に利用し,トレーニング中に多様なスパースパターンを求める動的プルーニング法が出現した。 STEは、ダイナミックなスパーシティパターンを見つける過程において、刈り取られた重量を回復させるのに役立つ。 しかし、これらの粗い勾配を用いることで、STE近似の信頼性の低い勾配信号によるトレーニング不安定性と性能劣化が生じる。 そこで本研究では,2組の重みから2組のフォワーディングパスを形成することにより,重みの更新に洗練された勾配を導入する。 本稿では,両重み集合の集合的知性間の学習相乗効果を利用した新しい動的集団知能学習(DCIL)を提案する。 CIFARおよびImageNetデータセット上でのトレーニング安定性とモデル性能の向上を示すことにより、改良された勾配の有用性を検証する。 DCILは、トレーニング中に安定性を向上した他の動的プルーニング手法を含む、以前に提案されたプルーニング方式よりも優れている。

With the growth of deep neural networks (DNN), the number of DNN parameters has drastically increased. This makes DNN models hard to be deployed on resource-limited embedded systems. To alleviate this problem, dynamic pruning methods have emerged, which try to find diverse sparsity patterns during training by utilizing Straight-Through-Estimator (STE) to approximate gradients of pruned weights. STE can help the pruned weights revive in the process of finding dynamic sparsity patterns. However, using these coarse gradients causes training instability and performance degradation owing to the unreliable gradient signal of the STE approximation. In this work, to tackle this issue, we introduce refined gradients to update the pruned weights by forming dual forwarding paths from two sets (pruned and unpruned) of weights. We propose a novel Dynamic Collective Intelligence Learning (DCIL) which makes use of the learning synergy between the collective intelligence of both weight sets. We verify the usefulness of the refined gradients by showing enhancements in the training stability and the model performance on the CIFAR and ImageNet datasets. DCIL outperforms various previously proposed pruning schemes including other dynamic pruning methods with enhanced stability during training.
翻訳日:2021-09-13 13:41:39 公開日:2021-09-10
# 6MapNet: トリオットネットワークによるデータ追跡からサッカー選手を表現

6MapNet: Representing soccer players from tracking data by a triplet network ( http://arxiv.org/abs/2109.04720v1 )

ライセンス: Link先を確認
Hyunsung Kim, Jihun Kim, Dongwook Chung, Jonghyun Lee, Jinsung Yoon, Sang-Ki Ko(参考訳) 個々のサッカー選手の価値観は天文学的になったが、主観的判断は依然として選手分析において大きな役割を果たしている。 近年,ビデオベースのイベントストリームデータを用いてプレイヤーのスタイルを定量的に把握する試みが試みられている。 しかし、アノテーションのコストとイベントストリームデータの分散性のためにスケーラビリティにいくつかの制限がある。 本稿では,ゲーム内gpsデータを用いてプレイヤーの動作スタイルを効果的に把握できるトリプルトネットワーク6mapnetを構築した。 サッカー特有のアクションのアノテーションがなければ、プレイヤーの位置と速度を使って2種類のヒートマップを生成する。 私たちのサブネットワークは、これらのヒートマップペアを、演奏スタイルの実際の類似性に対応する特徴ベクトルにマッピングします。 実験の結果,プレイヤーは少数のマッチのみで正確に識別できることがわかった。

Although the values of individual soccer players have become astronomical, subjective judgments still play a big part in the player analysis. Recently, there have been new attempts to quantitatively grasp players' styles using video-based event stream data. However, they have some limitations in scalability due to high annotation costs and sparsity of event stream data. In this paper, we build a triplet network named 6MapNet that can effectively capture the movement styles of players using in-game GPS data. Without any annotation of soccer-specific actions, we use players' locations and velocities to generate two types of heatmaps. Our subnetworks then map these heatmap pairs into feature vectors whose similarity corresponds to the actual similarity of playing styles. The experimental results show that players can be accurately identified with only a small number of matches by our method.
翻訳日:2021-09-13 13:41:18 公開日:2021-09-10
# 自動機械学習、有界合理性、および有理距離化

Automated Machine Learning, Bounded Rationality, and Rational Metareasoning ( http://arxiv.org/abs/2109.04744v1 )

ライセンス: Link先を確認
Eyke H\"ullermeier and Felix Mohr and Alexander Tornede and Marcel Wever(参考訳) 有界合理性の概念は、完全な合理性行動は、限られた認知的または計算的資源を持つエージェントによって実現できないという洞察から生まれた。 主にハーバート・サイモンによって始められた有界合理性の研究は、経済学と社会科学における長年の伝統を持つが、現代のAIや知的エージェントデザインでも重要な役割を果たしている。 境界づけられたリソースの下でアクションを取るには、エージェントがこれらのリソースを最適な方法でどのように使うかを振り返る必要がある。 本稿では,自動機械学習(AutoML)と関連する問題を有界合理性の観点から考察し,基本的にはAutoMLツールを,与えられたデータ集合上でモデルをトレーニングしなければならないエージェントとして捉え,メタレベルでの議論として,それを行うための適切な方法("MLパイプライン")を探索する。

The notion of bounded rationality originated from the insight that perfectly rational behavior cannot be realized by agents with limited cognitive or computational resources. Research on bounded rationality, mainly initiated by Herbert Simon, has a longstanding tradition in economics and the social sciences, but also plays a major role in modern AI and intelligent agent design. Taking actions under bounded resources requires an agent to reflect on how to use these resources in an optimal way - hence, to reason and make decisions on a meta-level. In this paper, we will look at automated machine learning (AutoML) and related problems from the perspective of bounded rationality, essentially viewing an AutoML tool as an agent that has to train a model on a given set of data, and the search for a good way of doing so (a suitable "ML pipeline") as deliberation on a meta-level.
翻訳日:2021-09-13 13:41:04 公開日:2021-09-10
# 相関多関節バンドにおけるベストアーム同定

Best-Arm Identification in Correlated Multi-Armed Bandits ( http://arxiv.org/abs/2109.04941v1 )

ライセンス: Link先を確認
Samarth Gupta, Gauri Joshi, Osman Ya\u{g}an(参考訳) 本稿では,固定信頼設定における複数腕のバンディットにおける最善のアーム識別の問題について考察する。そこでは,少なくとも$\delta>0$ に対して 1-\delta$ の確率で,最小のアームセット $\mathcal{k}$ のサンプルで最大値のアームを識別することを目的としている。 既存の最善のアーム識別アルゴリズムと分析の多くは、異なるアームに対応する報酬が互いに独立しているという仮定の下で動作する。 本稿では,腕の条件付き報酬に対する上界の形で,腕間の相関に関するドメイン知識を把握し,他の腕から報酬を得られるような新しい相関型バンディットフレームワークを提案する。 LUCBアルゴリズムを一般化したアルゴリズムC-LUCBは、この相関関係の部分的知識を利用して、ベストアーム識別のサンプルの複雑さを著しく低減する。 より興味深いことに、C-LUCB によって得られた全サンプルは、通常の $\mathcal{O}\left(\sum_{k \in \mathcal{C}} \log\left(\frac{1}{\delta}\right)\right)$ 独立報酬設定で必要とされる $\mathcal{O}\left(\sum_{k \in \mathcal{K}} \log\left(\frac{1}{\delta}\right)\right)$ の形で示される。 この改善は、$\mathcal{o}(\log(1/\delta))$項が、元のアームセット$\mathcal{k}$のサブセットである$\mathcal{c}$の競合アームの集合に対してのみ要約されるためである。 問題の設定によっては、セット$\mathcal{c}$のサイズは$$$という小さくなり、相関したバンディット設定でc-lucbを使用すると、パフォーマンスが大幅に向上する可能性がある。 理論的知見はMovielensおよびGoodreadsレコメンデーションデータセットの実験によって裏付けられている。

In this paper we consider the problem of best-arm identification in multi-armed bandits in the fixed confidence setting, where the goal is to identify, with probability $1-\delta$ for some $\delta>0$, the arm with the highest mean reward in minimum possible samples from the set of arms $\mathcal{K}$. Most existing best-arm identification algorithms and analyses operate under the assumption that the rewards corresponding to different arms are independent of each other. We propose a novel correlated bandit framework that captures domain knowledge about correlation between arms in the form of upper bounds on expected conditional reward of an arm, given a reward realization from another arm. Our proposed algorithm C-LUCB, which generalizes the LUCB algorithm utilizes this partial knowledge of correlations to sharply reduce the sample complexity of best-arm identification. More interestingly, we show that the total samples obtained by C-LUCB are of the form $\mathcal{O}\left(\sum_{k \in \mathcal{C}} \log\left(\frac{1}{\delta}\right)\right)$ as opposed to the typical $\mathcal{O}\left(\sum_{k \in \mathcal{K}} \log\left(\frac{1}{\delta}\right)\right)$ samples required in the independent reward setting. The improvement comes, as the $\mathcal{O}(\log(1/\delta))$ term is summed only for the set of competitive arms $\mathcal{C}$, which is a subset of the original set of arms $\mathcal{K}$. The size of the set $\mathcal{C}$, depending on the problem setting, can be as small as $2$, and hence using C-LUCB in the correlated bandits setting can lead to significant performance improvements. Our theoretical findings are supported by experiments on the Movielens and Goodreads recommendation datasets.
翻訳日:2021-09-13 13:40:22 公開日:2021-09-10
# 無限木集合のニューラル・タンジェント・カーネル・パースペクティブ

A Neural Tangent Kernel Perspective of Infinite Tree Ensembles ( http://arxiv.org/abs/2109.04983v1 )

ライセンス: Link先を確認
Ryuichi Kanoh, Mahito Sugiyama(参考訳) 実際の状況では、アンサンブルツリーモデルはニューラルネットワークと共に最も人気のあるモデルの1つである。 ソフトツリーは決定木の変種の一つである。 分割ルールを探索するためにグリーディ法を用いる代わりに、分割操作全体を微分可能な形式で定式化する勾配法を用いてソフトツリーを訓練する。 このような柔らかい木のアンサンブルは近年ますます使われてきたが、彼らの行動を理解するための理論的な研究はほとんど行われていない。 本稿では,ソフトツリーの無限アンサンブルを考慮し,ソフトツリーの無限アンサンブルの挙動に関する新たな知見を提供するTNTK(Tree Neural Tangent Kernel)を紹介し,研究する。 TNTKを用いて, 樹木の深部化によって引き起こされる斜め木構造の影響やTNTKの退化など, いくつかの非自明な性質を理論的に発見することに成功した。 さらに,TNTKを用いた無限軟木のアンサンブルの性能を実験的に検討した。

In practical situations, the ensemble tree model is one of the most popular models along with neural networks. A soft tree is one of the variants of a decision tree. Instead of using a greedy method for searching splitting rules, the soft tree is trained using a gradient method in which the whole splitting operation is formulated in a differentiable form. Although ensembles of such soft trees have been increasingly used in recent years, little theoretical work has been done for understanding their behavior. In this paper, by considering an ensemble of infinite soft trees, we introduce and study the Tree Neural Tangent Kernel (TNTK), which provides new insights into the behavior of the infinite ensemble of soft trees. Using the TNTK, we succeed in theoretically finding several non-trivial properties, such as the effect of the oblivious tree structure and the degeneracy of the TNTK induced by the deepening of the trees. Moreover, we empirically examine the performance of an ensemble of infinite soft trees using the TNTK.
翻訳日:2021-09-13 13:39:44 公開日:2021-09-10
# 継続的学習におけるリプレイのためのsariency guided experience packing

Saliency Guided Experience Packing for Replay in Continual Learning ( http://arxiv.org/abs/2109.04954v1 )

ライセンス: Link先を確認
Gobinda Saha and Kaushik Roy(参考訳) 人工知能システムは、過去の知識を忘れずに、タスクの流れから継続的に学習することで、人間の知性を模倣することを目指している。 このような学習を可能にする1つの方法は、過去の経験をエピソディックメモリに入力例形式で保存し、新しいタスクを学習する際にそれを再生することである。 しかし,メモリサイズが小さくなるにつれて,そのような手法の性能が低下する。 本稿では,経験再現のための新しいアプローチを提案し,モデル決定の視覚的説明を提供するサリエンシマップを用いて過去の体験を選択する。 これらのサリエンシマップでガイドされたメモリは、モデルの予測に重要な入力画像の部分やパッチのみをパッケージ化する。 新しいタスクを学習しながら、これらのメモリパッチを適切なゼロパディングで再生し、過去の決定をモデルに思い出させる。 我々は,多様な画像分類データセットを用いたアルゴリズムの評価を行い,現状のアプローチよりも優れた性能を報告した。 定性的,定量的な分析により,記憶量の増加を伴わずに過去の経験をよりリッチに要約し,より少ないエピソードメモリで良好な性能を示すことを示す。

Artificial learning systems aspire to mimic human intelligence by continually learning from a stream of tasks without forgetting past knowledge. One way to enable such learning is to store past experiences in the form of input examples in episodic memory and replay them when learning new tasks. However, performance of such method suffers as the size of the memory becomes smaller. In this paper, we propose a new approach for experience replay, where we select the past experiences by looking at the saliency maps which provide visual explanations for the model's decision. Guided by these saliency maps, we pack the memory with only the parts or patches of the input images important for the model's prediction. While learning a new task, we replay these memory patches with appropriate zero-padding to remind the model about its past decisions. We evaluate our algorithm on diverse image classification datasets and report better performance than the state-of-the-art approaches. With qualitative and quantitative analyses we show that our method captures richer summary of past experiences without any memory increase, and hence performs well with small episodic memory.
翻訳日:2021-09-13 13:39:29 公開日:2021-09-10
# 自動運転車のAIセキュリティの新たな脅威 - ケーススタディ

Emerging AI Security Threats for Autonomous Cars -- Case Studies ( http://arxiv.org/abs/2109.04865v1 )

ライセンス: Link先を確認
Shanthi Lekkala, Tanya Motwani, Manojkumar Parmar, Amit Phadke(参考訳) 人工知能は、物体検出から経路計画まで、自動運転車に多大な貢献をした。 しかし、aiモデルは大量のセンシティブなトレーニングデータを必要とし、通常は計算集約的に構築される。 このようなモデルの商業的価値は、攻撃者に様々な攻撃を仕掛ける動機を与える。 広告主は、収益化の目的でモデル抽出攻撃を起動したり、モデル回避のような他の攻撃に対して一歩踏み出すことができる。 特定のケースでは、ブランドの評判、差別化、価値提案を破壊することさえある。 さらに、IP法やAI関連の法律はまだ進化しており、各国で統一されていない。 モデル抽出攻撃を,2つのユースケースと,自律走行車に侵入可能な汎用型キルチェーンで詳細に論じる。 モデル盗難のリスクを管理し軽減するための戦略を検討することが不可欠である。

Artificial Intelligence has made a significant contribution to autonomous vehicles, from object detection to path planning. However, AI models require a large amount of sensitive training data and are usually computationally intensive to build. The commercial value of such models motivates attackers to mount various attacks. Adversaries can launch model extraction attacks for monetization purposes or step-ping-stone towards other attacks like model evasion. In specific cases, it even results in destroying brand reputation, differentiation, and value proposition. In addition, IP laws and AI-related legalities are still evolving and are not uniform across countries. We discuss model extraction attacks in detail with two use-cases and a generic kill-chain that can compromise autonomous cars. It is essential to investigate strategies to manage and mitigate the risk of model theft.
翻訳日:2021-09-13 13:39:11 公開日:2021-09-10
# PWPAE: IoTデータストリームにおけるコンセプトドリフト適応のためのアンサンブルフレームワーク

PWPAE: An Ensemble Framework for Concept Drift Adaptation in IoT Data Streams ( http://arxiv.org/abs/2109.05013v1 )

ライセンス: Link先を確認
Li Yang, Dimitrios Michael Manias, Abdallah Shami(参考訳) IoT(Internet of Things)デバイスやシステムが急増するにつれて、悪意のあるサイバー攻撃やセキュアなIoTシステムを検出するために、IoTデータ分析技術が開発されている。 これは、従来のデータ分析モデルは、データ分散変更に適応できない静的モデルであるからである。 本稿では,IoTデータストリーム分析を用いた適応型IoT異常検出のためのPWPAE(Performance Weighted Probability Averaging Ensemble)フレームワークを提案する。 2つの公開データセットにおける実験により,提案手法の有効性が実証された。

As the number of Internet of Things (IoT) devices and systems have surged, IoT data analytics techniques have been developed to detect malicious cyber-attacks and secure IoT systems; however, concept drift issues often occur in IoT data analytics, as IoT data is often dynamic data streams that change over time, causing model degradation and attack detection failure. This is because traditional data analytics models are static models that cannot adapt to data distribution changes. In this paper, we propose a Performance Weighted Probability Averaging Ensemble (PWPAE) framework for drift adaptive IoT anomaly detection through IoT data stream analytics. Experiments on two public datasets show the effectiveness of our proposed PWPAE method compared against state-of-the-art methods.
翻訳日:2021-09-13 13:38:42 公開日:2021-09-10
# マスアートノイズによるReLU回帰

ReLU Regression with Massart Noise ( http://arxiv.org/abs/2109.04623v1 )

ライセンス: Link先を確認
Ilias Diakonikolas, Jongho Park, Christos Tzamos(参考訳) 本稿では、ReLU回帰の基本的問題として、Rectified Linear Units(ReLU)をデータに適合させることを目標としている。 この教師付き学習タスクは、実現可能な設定で効率的に解くことができるが、逆ラベルノイズと計算的に難しいことが知られている。 本研究では,自然およびよく研究された半ランダムノイズモデルであるMassartノイズモデルにおけるReLU回帰に着目した。 このモデルでは、すべての点のラベルはクラスの関数に従って生成されるが、逆者は任意の確率でこの値を変更することができ、これは最大で$\eta < 1/2$である。 我々は,このモデルにおける正確なパラメータ回復を実現する効率的なアルゴリズムを開発した。 このような仮定は、正確な回復が情報理論上可能であるために必要である。 このアルゴリズムは合成データと実データの両方において,$\ell_1$および$\ell_2$レグレッションのナイーブな応用を大幅に上回っている。

We study the fundamental problem of ReLU regression, where the goal is to fit Rectified Linear Units (ReLUs) to data. This supervised learning task is efficiently solvable in the realizable setting, but is known to be computationally hard with adversarial label noise. In this work, we focus on ReLU regression in the Massart noise model, a natural and well-studied semi-random noise model. In this model, the label of every point is generated according to a function in the class, but an adversary is allowed to change this value arbitrarily with some probability, which is {\em at most} $\eta < 1/2$. We develop an efficient algorithm that achieves exact parameter recovery in this model under mild anti-concentration assumptions on the underlying distribution. Such assumptions are necessary for exact recovery to be information-theoretically possible. We demonstrate that our algorithm significantly outperforms naive applications of $\ell_1$ and $\ell_2$ regression on both synthetic and real data.
翻訳日:2021-09-13 13:38:30 公開日:2021-09-10
# 条件付き生成ニューラルネットワークを用いた3次元分子構造の逆設計

Inverse design of 3d molecular structures with conditional generative neural networks ( http://arxiv.org/abs/2109.04824v1 )

ライセンス: Link先を確認
Niklas W. A. Gebauer, Michael Gastegger, Stefaan S. P. Hessmann, Klaus-Robert M\"uller, Kristof T. Sch\"utt(参考訳) 望ましい性質を持つ分子の合理的設計は、化学における長年の課題である。 生成ニューラルネットワークは、学習された分布から新しい分子をサンプリングする強力なアプローチとして登場した。 本稿では, 特定の構造と化学的性質を有する3次元分子構造のための条件生成ニューラルネットワークを提案する。 このアプローチは化学結合とは無関係であり、参照計算が疎い領域でも条件分布から新しい分子を標的にサンプリングすることができる。 本手法は,特定の組成やモチーフを持つ分子を生成し,特に安定な分子を発見し,訓練領域を超えて複数の電子特性を共同ターゲットとした逆設計手法の有用性を示す。

The rational design of molecules with desired properties is a long-standing challenge in chemistry. Generative neural networks have emerged as a powerful approach to sample novel molecules from a learned distribution. Here, we propose a conditional generative neural network for 3d molecular structures with specified structural and chemical properties. This approach is agnostic to chemical bonding and enables targeted sampling of novel molecules from conditional distributions, even in domains where reference calculations are sparse. We demonstrate the utility of our method for inverse design by generating molecules with specified composition or motifs, discovering particularly stable molecules, and jointly targeting multiple electronic properties beyond the training regime.
翻訳日:2021-09-13 13:38:14 公開日:2021-09-10
# 構成データの潜在予算分析のためのニューラルネットワーク

Neural Networks for Latent Budget Analysis of Compositional Data ( http://arxiv.org/abs/2109.04875v1 )

ライセンス: Link先を確認
Zhenwei Yang, Ayoub Bagheri and P.G.M van der Heijden(参考訳) 構成データは、定列和の長方行列で収集された非負のデータである。 非負性のため、各行に対して1まで増加する条件比に焦点が当てられている。 条件比率の列は観測予算(observed budget)と呼ばれる。 潜在予算分析(lba)は、観察された予算を説明する潜在予算の混合を仮定する。 LBAは通常、列が1つ以上の説明変数のレベルであり、列が応答変数のレベルであるインスタンステーブルに取り付けられる。 将来的な研究では、個人の説明変数についてのみ知識があり、興味は反応変数を予測する。 したがって、予測機能を備えたLBAの形式が必要である。 これまでの研究では、lbaの制約付きニューラルネットワーク(nn)拡張が、不満足な予測能力によって妨げられた。 本稿では,lba-nnモデルを提案する。lbaモデルと同様の解釈を得られるが,lbaの予測能力は向上する。 LBA-NNの安定かつ妥当な解釈は、応答変数に対する全ての説明変数の相対的重要性を示す重要プロットと表を用いて得られる。 重要度表にK平均クラスタリングを適用するLBA-NN-Kmeansアプローチは、LBAのK潜在予算に匹敵するKクラスタを生成するために使用される。 ここでは,LBA-NNを実装し,LBAと比較する実験を行う。 LBA-NNは精度,特異性,リコール,平均二乗誤差の予測において,LBAよりも優れていた。 私たちはGitHubでオープンソースソフトウェアを提供しています。

Compositional data are non-negative data collected in a rectangular matrix with a constant row sum. Due to the non-negativity the focus is on conditional proportions that add up to 1 for each row. A row of conditional proportions is called an observed budget. Latent budget analysis (LBA) assumes a mixture of latent budgets that explains the observed budgets. LBA is usually fitted to a contingency table, where the rows are levels of one or more explanatory variables and the columns the levels of a response variable. In prospective studies, there is only knowledge about the explanatory variables of individuals and interest goes out to predicting the response variable. Thus, a form of LBA is needed that has the functionality of prediction. Previous studies proposed a constrained neural network (NN) extension of LBA that was hampered by an unsatisfying prediction ability. Here we propose LBA-NN, a feed forward NN model that yields a similar interpretation to LBA but equips LBA with a better ability of prediction. A stable and plausible interpretation of LBA-NN is obtained through the use of importance plots and table, that show the relative importance of all explanatory variables on the response variable. An LBA-NN-K- means approach that applies K-means clustering on the importance table is used to produce K clusters that are comparable to K latent budgets in LBA. Here we provide different experiments where LBA-NN is implemented and compared with LBA. In our analysis, LBA-NN outperforms LBA in prediction in terms of accuracy, specificity, recall and mean square error. We provide open-source software at GitHub.
翻訳日:2021-09-13 13:38:05 公開日:2021-09-10
# 談話レベルの表現を改善する予測符号化によるBERT型モデルの拡張

Augmenting BERT-style Models with Predictive Coding to Improve Discourse-level Representations ( http://arxiv.org/abs/2109.04602v1 )

ライセンス: Link先を確認
Vladimir Araujo, Andr\'es Villa, Marcelo Mendoza, Marie-Francine Moens, Alvaro Soto(参考訳) 現在の言語モデルは通常、単語や文のレベルで表現を学ぶことに集中する自己教師型スキームを用いて訓練される。 しかし、有用な談話レベルの表現の生成には限界がある。 本研究では, 予測符号化理論のアイデアを用いて, 適切な談話レベルの表現を学習できるメカニズムを用いて, bert型言語モデルを拡張することを提案する。 その結果,提案手法はネットワークの中間層で動作する明示的なトップダウン接続を用いて,将来の文を予測することができる。 事前学習した文表現を用いて談話関連知識を評価するためのベンチマークを実験することにより、談話関係検出に優れた11タスク中6タスクの性能向上を実証する。

Current language models are usually trained using a self-supervised scheme, where the main focus is learning representations at the word or sentence level. However, there has been limited progress in generating useful discourse-level representations. In this work, we propose to use ideas from predictive coding theory to augment BERT-style language models with a mechanism that allows them to learn suitable discourse-level representations. As a result, our proposed approach is able to predict future sentences using explicit top-down connections that operate at the intermediate layers of the network. By experimenting with benchmarks designed to evaluate discourse-related knowledge using pre-trained sentence representations, we demonstrate that our approach improves performance in 6 out of 11 tasks by excelling in discourse relationship detection.
翻訳日:2021-09-13 13:35:43 公開日:2021-09-10
# どうお手伝いしますか。 ニューラルネットワークによる下流NLPタスクの改善

How May I Help You? Using Neural Text Simplification to Improve Downstream NLP Tasks ( http://arxiv.org/abs/2109.04604v1 )

ライセンス: Link先を確認
Hoang Van, Zheng Tang, Mihai Surdeanu(参考訳) text simplification(ts)の一般的な目標は、人間の消費に対するテキストの複雑さを減らすことである。 本稿では,自然言語処理(nlp)タスクを行う機械を支援するニューラルtsについて検討する。 我々は、予測時の入力テキストの簡素化と、トレーニング中にマシンに追加情報を提供するデータ拡張の2つの方法により、ニューラルTSの使用を評価する。 後者のシナリオが2つの別々のデータセットのマシン性能にプラスの効果をもたらすことを実証する。 特に後者のTSはLSTM(1.82-1.98%)とSpanBERT(0.7-1.3%)のTACREDにおける抽出性能を改善している。 さらに、この設定は、実際の自然言語推論データセットであるMNLI上のBERTテキスト分類器に対して、最大0.65%の一致と0.62%の誤一致の精度の改善をもたらす。

The general goal of text simplification (TS) is to reduce text complexity for human consumption. This paper investigates another potential use of neural TS: assisting machines performing natural language processing (NLP) tasks. We evaluate the use of neural TS in two ways: simplifying input texts at prediction time and augmenting data to provide machines with additional information during training. We demonstrate that the latter scenario provides positive effects on machine performance on two separate datasets. In particular, the latter use of TS improves the performances of LSTM (1.82-1.98%) and SpanBERT (0.7-1.3%) extractors on TACRED, a complex, large-scale, real-world relation extraction task. Further, the same setting yields improvements of up to 0.65% matched and 0.62% mismatched accuracies for a BERT text classifier on MNLI, a practical natural language inference dataset.
翻訳日:2021-09-13 13:35:29 公開日:2021-09-10
# 規則に基づく形態変化は神経ターミノロジー翻訳を改善する

Rule-based Morphological Inflection Improves Neural Terminology Translation ( http://arxiv.org/abs/2109.04620v1 )

ライセンス: Link先を確認
Weijia Xu and Marine Carpuat(参考訳) 機械翻訳(MT)に用語制約を組み込むことへの現在のアプローチは、通常、制約項がそれらの正しい形態素形式で提供されると仮定する。 これにより、制約項が補題として提供される現実世界のシナリオに制限される。 本稿では,言語知識と多種多様なNMTモデルを柔軟に適用可能な,ニューラルMT(NMT)にレムマ制約を組み込むモジュラーフレームワークを提案する。 これは、ソースコンテキストに基づいてターゲットの補題制約を反映する、新しい言語間インフレクションモジュールに基づいている。 言語にモチベーションのあるルールベースとデータ駆動のニューラルベースのインフレクションモジュールを探索し、ドメイン適応と低リソースmt設定でそれらを評価するために、英語とドイツ語の健康と英語とリトアニアのニューステストスイートを設計する。 その結果,NMTモデルがニューラルモジュールよりも正確にレムマ制約を組み込むことで,既存のエンドツーエンドアプローチよりもトレーニングコストが低いことが示唆された。

Current approaches to incorporating terminology constraints in machine translation (MT) typically assume that the constraint terms are provided in their correct morphological forms. This limits their application to real-world scenarios where constraint terms are provided as lemmas. In this paper, we introduce a modular framework for incorporating lemma constraints in neural MT (NMT) in which linguistic knowledge and diverse types of NMT models can be flexibly applied. It is based on a novel cross-lingual inflection module that inflects the target lemma constraints based on the source context. We explore linguistically motivated rule-based and data-driven neural-based inflection modules and design English-German health and English-Lithuanian news test suites to evaluate them in domain adaptation and low-resource MT settings. Results show that our rule-based inflection module helps NMT models incorporate lemma constraints more accurately than a neural module and outperforms the existing end-to-end approach with lower training costs.
翻訳日:2021-09-13 13:35:14 公開日:2021-09-10
# 知識蒸留による多言語・コード混合視覚質問応答システムの開発

Towards Developing a Multilingual and Code-Mixed Visual Question Answering System by Knowledge Distillation ( http://arxiv.org/abs/2109.04653v1 )

ライセンス: Link先を確認
Humair Raj Khan, Deepak Gupta and Asif Ekbal(参考訳) 事前訓練された言語ビジョンモデルは視覚的質問応答(VQA)タスクにおいて顕著な性能を示した。 しかし、ほとんどの事前学習されたモデルは、単言語学習、特に英語のようなリソース豊富な言語のみを考慮して訓練される。 このようなモデルを多言語環境でトレーニングするには、高い計算リソースと多言語言語ビジョンデータセットが必要である。 これらの課題を解決するため,英語ビジョンモデル(教師)を,等しく効果的な多言語・コード混合モデル(学生)に拡張する知識蒸留手法を提案する。 教師ネットワークの最終層からの出力のみを蒸留に使用する既存の知識蒸留法と異なり,生徒モデルは,インクリメンタルな知識抽出のために適切に設計された蒸留目標を用いて,複数の中間層(言語および視覚エンコーダ)から教師を学習・模倣する。 また、インドとヨーロッパの複数の言語を考慮した11の異なる言語設定で、大規模な多言語およびコード混合VQAデータセットを作成します。 実験結果と深部分析により,11種類の言語セットアップ上での事前学習言語ビジョンモデルに対するVQAモデルの有効性が示された。

Pre-trained language-vision models have shown remarkable performance on the visual question answering (VQA) task. However, most pre-trained models are trained by only considering monolingual learning, especially the resource-rich language like English. Training such models for multilingual setups demand high computing resources and multilingual language-vision dataset which hinders their application in practice. To alleviate these challenges, we propose a knowledge distillation approach to extend an English language-vision model (teacher) into an equally effective multilingual and code-mixed model (student). Unlike the existing knowledge distillation methods, which only use the output from the last layer of the teacher network for distillation, our student model learns and imitates the teacher from multiple intermediate layers (language and vision encoders) with appropriately designed distillation objectives for incremental knowledge extraction. We also create the large-scale multilingual and code-mixed VQA dataset in eleven different language setups considering the multiple Indian and European languages. Experimental results and in-depth analysis show the effectiveness of the proposed VQA model over the pre-trained language-vision models on eleven diverse language setups.
翻訳日:2021-09-13 13:34:56 公開日:2021-09-10
# クロスタスク転送によるゼロショット対話状態追跡

Zero-Shot Dialogue State Tracking via Cross-Task Transfer ( http://arxiv.org/abs/2109.04655v1 )

ライセンス: Link先を確認
Zhaojiang Lin, Bing Liu, Andrea Madotto, Seungwhan Moon, Paul Crook, Zhenpeng Zhou, Zhiguang Wang, Zhou Yu, Eunjoon Cho, Rajen Subba, Pascale Fung(参考訳) 対話状態追跡のためのゼロショット転送学習(dst)により、ドメイン内データを収集することなく様々なタスク指向対話ドメインを処理できる。 本研究では、ゼロショットDSTタスクに対して、一般質問応答(QA)コーパスから「textit{cross-task}」知識を転送することを提案する。 具体的には、テキスト・テキスト・トランスフォーマー・フレームワークを介して抽出QAと複数選択QAをシームレスに組み合わせ、DST内のカテゴリスロットと非カテゴリスロットの両方をトラックする転送可能な生成QAモデルであるTransferQAを提案する。 さらに,ゼロショットdst設定において,モデルが"none"値スロットを処理することが可能な,否定的質問サンプリングとコンテキスト切断という2つの効果的な質問生成方法を導入する。 広範な実験により,マルチウォズにおける既存のゼロショットと少数ショットの結果を大幅に改善した。 さらに,Schema-Guided Dialogueデータセットの完全トレーニングベースラインと比較して,未確認領域の一般化能力が向上した。

Zero-shot transfer learning for dialogue state tracking (DST) enables us to handle a variety of task-oriented dialogue domains without the expense of collecting in-domain data. In this work, we propose to transfer the \textit{cross-task} knowledge from general question answering (QA) corpora for the zero-shot DST task. Specifically, we propose TransferQA, a transferable generative QA model that seamlessly combines extractive QA and multi-choice QA via a text-to-text transformer framework, and tracks both categorical slots and non-categorical slots in DST. In addition, we introduce two effective ways to construct unanswerable questions, namely, negative question sampling and context truncation, which enable our model to handle "none" value slots in the zero-shot DST setting. The extensive experiments show that our approaches substantially improve the existing zero-shot and few-shot results on MultiWoz. Moreover, compared to the fully trained baseline on the Schema-Guided Dialogue dataset, our approach shows better generalization ability in unseen domains.
翻訳日:2021-09-13 13:34:38 公開日:2021-09-10
# マスキング言語モデルによる短命句検出

Euphemistic Phrase Detection by Masked Language Model ( http://arxiv.org/abs/2109.04666v1 )

ライセンス: Link先を確認
Wanzheng Zhu, Suma Bhat(参考訳) 秘密の意味を持つ普通の響きと無邪気な言葉を使って、彼らが議論していることを隠そうとする団体や組織にとって、これはよく知られているアプローチである。 例えば、麻薬ディーラーはマリファナに「ポット」、ヘロインに「アボカド」を用いることが多い。 ソーシャルメディアのコンテンツモデレーションの観点からは、近年のNLPの進歩により、このような単一単語のエウヘミズムの自動検出が可能になったが、ブルードリーム(マリファナ)やブラックタール(ヘロイン)など、複数の単語のエウヘミズムを自動的に検出することはできない。 本稿では,人間の努力を伴わずに語句検出の問題に,私たちが知る限り,初めて取り組む。 まず、原文コーパス(例えばソーシャルメディア投稿)上でフレーズマイニングを行い、品質の高いフレーズを抽出する。 次に,単語埋め込み類似性を利用して,語句候補の集合を選択する。 最後に、これらの候補をSpanBERTというマスキング言語モデルでランク付けします。 本アルゴリズムを用いて,強塩基性に対して20~50%高い検出精度を報告した。

It is a well-known approach for fringe groups and organizations to use euphemisms -- ordinary-sounding and innocent-looking words with a secret meaning -- to conceal what they are discussing. For instance, drug dealers often use "pot" for marijuana and "avocado" for heroin. From a social media content moderation perspective, though recent advances in NLP have enabled the automatic detection of such single-word euphemisms, no existing work is capable of automatically detecting multi-word euphemisms, such as "blue dream" (marijuana) and "black tar" (heroin). Our paper tackles the problem of euphemistic phrase detection without human effort for the first time, as far as we are aware. We first perform phrase mining on a raw text corpus (e.g., social media posts) to extract quality phrases. Then, we utilize word embedding similarities to select a set of euphemistic phrase candidates. Finally, we rank those candidates by a masked language model -- SpanBERT. Compared to strong baselines, we report 20-50% higher detection accuracies using our algorithm for detecting euphemistic phrases.
翻訳日:2021-09-13 13:34:21 公開日:2021-09-10
# dialki:対話文書コンテキスト化による会話システムにおける知識識別

DIALKI: Knowledge Identification in Conversational Systems through Dialogue-Document Contextualization ( http://arxiv.org/abs/2109.04673v1 )

ライセンス: Link先を確認
Zeqiu Wu, Bo-Ru Lu, Hannaneh Hajishirzi and Mari Ostendorf(参考訳) 長い文書に根ざした会話システムで使用する関連知識の特定は、効果的な応答生成に不可欠である。 本稿では、文書構造を利用した知識識別モデルを導入し、対話内容の文節エンコーディングを提供し、会話に関連する知識をよりよく特定する。 補助損失は対話文書接続の履歴をキャプチャする。 本モデルの有効性を2つの文書ベース対話型データセット上で実証し,未発見文書と長い対話コンテキストへの一般化を示す分析結果を提供する。

Identifying relevant knowledge to be used in conversational systems that are grounded in long documents is critical to effective response generation. We introduce a knowledge identification model that leverages the document structure to provide dialogue-contextualized passage encodings and better locate knowledge relevant to the conversation. An auxiliary loss captures the history of dialogue-document connections. We demonstrate the effectiveness of our model on two document-grounded conversational datasets and provide analyses showing generalization to unseen documents and long dialogue contexts.
翻訳日:2021-09-13 13:33:59 公開日:2021-09-10
# ゼロショットニューラルマシン翻訳の再考:潜在変数の観点から

Rethinking Zero-shot Neural Machine Translation: From a Perspective of Latent Variables ( http://arxiv.org/abs/2109.04705v1 )

ライセンス: Link先を確認
Weizhi Wang, Zhirui Zhang, Yichao Du, Boxing Chen, Jun Xie, Weihua Luo(参考訳) ゼロショット翻訳(Zero-shot translation)は、トレーニングで見えない言語ペア間の直接翻訳であり、多言語ニューラルネットワーク翻訳(NMT)の有望な能力である。 しかし、出力言語と言語不変セマンティクスの間のスプリアスな相関は最大確率トレーニングの目的のために捉えられ、ゼロショット翻訳の転送性能が低下する。 本稿では,ゼロショット方向の翻訳精度を向上させるために,ピボット言語に基づく発声自動エンコーダ目標を従来の訓練目標に導入する。 潜在変数の観点からの理論的解析は,ゼロショット方向の確率分布を暗黙的に最大化することを示した。 2つのベンチマーク機械翻訳データセットにおいて,提案手法はスプリアス相関を効果的に排除でき,その性能は最先端の手法を著しく上回ることを示した。 私たちのコードはhttps://github.com/victorwz/zs-nmt-daeで入手できる。

Zero-shot translation, directly translating between language pairs unseen in training, is a promising capability of multilingual neural machine translation (NMT). However, it usually suffers from capturing spurious correlations between the output language and language invariant semantics due to the maximum likelihood training objective, leading to poor transfer performance on zero-shot translation. In this paper, we introduce a denoising autoencoder objective based on pivot language into traditional training objective to improve the translation accuracy on zero-shot directions. The theoretical analysis from the perspective of latent variables shows that our approach actually implicitly maximizes the probability distributions for zero-shot directions. On two benchmark machine translation datasets, we demonstrate that the proposed method is able to effectively eliminate the spurious correlations and significantly outperforms state-of-the-art methods with a remarkable performance. Our code is available at https://github.com/Victorwz/zs-nmt-dae.
翻訳日:2021-09-13 13:33:49 公開日:2021-09-10
# プリトレインかアノテーションか? 制約付き予算によるドメイン適応

Pre-train or Annotate? Domain Adaptation with a Constrained Budget ( http://arxiv.org/abs/2109.04711v1 )

ライセンス: Link先を確認
Fan Bai, Alan Ritter and Wei Xu(参考訳) 近年の研究では、ドメイン内言語モデルの事前トレーニングによって、新しいドメインへの適応時のパフォーマンス向上が示されている。 しかし、事前トレーニングに関連するコストは重要な疑問を提起する: 固定予算が与えられた場合、NLP実践者はパフォーマンスを最大化するためにどのようなステップをとるべきか? 本稿では,予算制約の下でのドメイン適応について検討し,データアノテーションと事前学習の間の顧客選択問題としてアプローチする。 具体的には、3つの手続きテキストデータセットのアノテーションコストと3つのドメイン内言語モデルの事前学習コストを測定した。 次に,様々な予算制約の下で,事前学習とデータアノテーションの異なる組み合わせの有用性を評価し,どの組み合わせが最善かを評価する。 予算が十分に大きくなると、データアノテーションとドメイン内事前トレーニングの組み合わせがより最適に機能します。 したがって、nlpモデルを新しいドメインに適用する場合、タスク固有のデータアノテーションは経済戦略の一部であるべきである。

Recent work has demonstrated that pre-training in-domain language models can boost performance when adapting to a new domain. However, the costs associated with pre-training raise an important question: given a fixed budget, what steps should an NLP practitioner take to maximize performance? In this paper, we study domain adaptation under budget constraints, and approach it as a customer choice problem between data annotation and pre-training. Specifically, we measure the annotation cost of three procedural text datasets and the pre-training cost of three in-domain language models. Then we evaluate the utility of different combinations of pre-training and data annotation under varying budget constraints to assess which combination strategy works best. We find that, for small budgets, spending all funds on annotation leads to the best performance; once the budget becomes large enough, a combination of data annotation and in-domain pre-training works more optimally. We therefore suggest that task-specific data annotation should be part of an economical strategy when adapting an NLP model to a new domain.
翻訳日:2021-09-13 13:33:31 公開日:2021-09-10
# 複数ラベルテキスト分類のための長編クラス分布を用いたバランシング手法

Balancing Methods for Multi-label Text Classification with Long-Tailed Class Distribution ( http://arxiv.org/abs/2109.04712v1 )

ライセンス: Link先を確認
Yi Huang, Buse Giledereli, Abdullatif K\"oksal, Arzucan \"Ozg\"ur, Elif Ozkirimli(参考訳) ラベル依存をキャプチャする必要があるため、マルチラベルテキスト分類は難しい作業である。 クラス分布が長いとさらに難しくなります。 再サンプリングと再重み付けはクラス不均衡問題に対処する一般的なアプローチであるが、クラス不均衡以外にラベル依存がある場合、共通ラベルのオーバーサンプリングが発生するため有効ではない。 本稿では,多ラベルテキスト分類における分散損失関数の適用について紹介する。 我々は,90ラベルの一般ドメインデータセット(Reuters-21578)と18211ラベルのPubMedのドメイン固有データセットを用いて実験を行った。 クラス不均衡問題とラベル連鎖問題の両方に本質的に対処する分布均衡損失関数は、一般的に使用される損失関数より優れている。 画像認識の分野では分布バランス法が有効である。 ここでは,自然言語処理におけるその効果を示す。 ソースコードはhttps://github.com/blessu/BalancedLossNLPで入手できる。

Multi-label text classification is a challenging task because it requires capturing label dependencies. It becomes even more challenging when class distribution is long-tailed. Resampling and re-weighting are common approaches used for addressing the class imbalance problem, however, they are not effective when there is label dependency besides class imbalance because they result in oversampling of common labels. Here, we introduce the application of balancing loss functions for multi-label text classification. We perform experiments on a general domain dataset with 90 labels (Reuters-21578) and a domain-specific dataset from PubMed with 18211 labels. We find that a distribution-balanced loss function, which inherently addresses both the class imbalance and label linkage problems, outperforms commonly used loss functions. Distribution balancing methods have been successfully used in the image recognition field. Here, we show their effectiveness in natural language processing. Source code is available at https://github.com/blessu/BalancedLossNLP.
翻訳日:2021-09-13 13:33:15 公開日:2021-09-10
# 言語間依存関係解析のための弱みの源

Genre as Weak Supervision for Cross-lingual Dependency Parsing ( http://arxiv.org/abs/2109.04733v1 )

ライセンス: Link先を確認
Max M\"uller-Eberstein, Rob van der Goot and Barbara Plank(参考訳) 近年の研究では、モノリンガルマスキング言語モデルが、ドメイン目標のトレーニングデータ選択に使用できる、言語の変化に関するデータ駆動概念を表現できることが示されている。 データセットのジャンルラベルはすでに頻繁に利用可能であるが、言語横断的な設定では探索されていない。 このジャンルメタデータを,ゼロショット依存解析における対象データ選択のための弱い監督信号として活用する。 具体的には,非教師付き文脈化表現に暗黙的に格納された情報を増幅することを目的として,木銀行レベルのジャンル情報を細かな文レベルに投影する。 複数言語による文脈埋め込みからジャンルが復元可能であることを実証し,言語横断・ゼロショットシナリオにおけるデータ選択のトレーニングに有効な信号を提供する。 12の低リソース言語ツリーバンク(うち6つはテスト専用)では、我々のジャンル固有の手法は、競合するベースラインや最近の埋め込みベースのデータ選択方法よりも大幅に優れています。 さらに、ジャンルベースのデータセレクションは、これら3つのターゲット言語に対して、新たな最先端の結果を提供する。

Recent work has shown that monolingual masked language models learn to represent data-driven notions of language variation which can be used for domain-targeted training data selection. Dataset genre labels are already frequently available, yet remain largely unexplored in cross-lingual setups. We harness this genre metadata as a weak supervision signal for targeted data selection in zero-shot dependency parsing. Specifically, we project treebank-level genre information to the finer-grained sentence level, with the goal to amplify information implicitly stored in unsupervised contextualized representations. We demonstrate that genre is recoverable from multilingual contextual embeddings and that it provides an effective signal for training data selection in cross-lingual, zero-shot scenarios. For 12 low-resource language treebanks, six of which are test-only, our genre-specific methods significantly outperform competitive baselines as well as recent embedding-based methods for data selection. Moreover, genre-based data selection provides new state-of-the-art results for three of these target languages.
翻訳日:2021-09-13 13:33:00 公開日:2021-09-10
# 微調整が埋め込み空間の幾何学に及ぼす影響 : 等方性に関する事例研究

How Does Fine-tuning Affect the Geometry of Embedding Space: A Case Study on Isotropy ( http://arxiv.org/abs/2109.04740v1 )

ライセンス: Link先を確認
Sara Rajaee and Mohammad Taher Pilehvar(参考訳) 微調整された事前学習言語モデルは通常、下流タスクのパフォーマンス改善をもたらすことが広く受け入れられている。 しかし、特に埋め込み空間の構造変化の観点から、この効果の背景にある理由についての研究は限られている。 本稿では, このギャップを埋めるために, 埋め込み空間の等方性が微調整後にどの程度変化するかを解析する。 我々は、等方性は望ましい幾何学的性質であるが、微調整が必ずしも等方性拡張をもたらすとは限らないことを示した。 さらに、トークンタイプや頻度を符号化するCWR(pre-trained contextual word representation)の局所構造は、微調整中に大きく変化する。 実験では,事前学習されたcwrとは対照的に,細調整された埋込み空間において言語知識が必須であり,既存の等方性強化手法が有効ではない組込み空間における長方方向数の劇的な増加を示す。

It is widely accepted that fine-tuning pre-trained language models usually brings about performance improvements in downstream tasks. However, there are limited studies on the reasons behind this effectiveness, particularly from the viewpoint of structural changes in the embedding space. Trying to fill this gap, in this paper, we analyze the extent to which the isotropy of the embedding space changes after fine-tuning. We demonstrate that, even though isotropy is a desirable geometrical property, fine-tuning does not necessarily result in isotropy enhancements. Moreover, local structures in pre-trained contextual word representations (CWRs), such as those encoding token types or frequency, undergo a massive change during fine-tuning. Our experiments show dramatic growth in the number of elongated directions in the embedding space, which, in contrast to pre-trained CWRs, carry the essential linguistic knowledge in the fine-tuned embedding space, making existing isotropy enhancement methods ineffective.
翻訳日:2021-09-13 13:32:44 公開日:2021-09-10
# ブラックボックスにおけるクエリー効率の高い攻撃のための強固なベースライン

A Strong Baseline for Query Efficient Attacks in a Black Box Setting ( http://arxiv.org/abs/2109.04775v1 )

ライセンス: Link先を確認
Rishabh Maheshwary, Saket Maheshwary and Vikram Pudi(参考訳) 既存のブラックボックス検索手法は、NLPモデルに対する敵攻撃を発生させることに成功した。 しかし,このような検索手法は,敵の攻撃を発生させるのに必要なクエリ量を考慮していないため,非効率である。 また、先行攻撃は、異なる検索方法を比較しながら一貫した検索空間を維持しない。 本稿では,テキスト分類と包含タスクにおいて,適切な逆例を生成するためのクエリ効率の高い攻撃戦略を提案する。 この攻撃はアテンション機構と局所性センシティブハッシュ(lsh)を併用してクエリ数を削減する。 3つの異なる検索空間にまたがる4つのベースラインと比較し,本手法の有効性を示す。 さらに、先行攻撃で使用されるのと同じ検索空間において、結果のベンチマークを行う。 提案された攻撃と比較して、平均して、すべてのデータセットとターゲットモデルに対して、クエリ数を75%削減することが可能です。 また,クエリ設定が限定された場合と比較して,攻撃が成功率が高いことを示す。

Existing black box search methods have achieved high success rate in generating adversarial attacks against NLP models. However, such search methods are inefficient as they do not consider the amount of queries required to generate adversarial attacks. Also, prior attacks do not maintain a consistent search space while comparing different search methods. In this paper, we propose a query efficient attack strategy to generate plausible adversarial examples on text classification and entailment tasks. Our attack jointly leverages attention mechanism and locality sensitive hashing (LSH) to reduce the query count. We demonstrate the efficacy of our approach by comparing our attack with four baselines across three different search spaces. Further, we benchmark our results across the same search space used in prior attacks. In comparison to attacks proposed, on an average, we are able to reduce the query count by 75% across all datasets and target models. We also demonstrate that our attack achieves a higher success rate when compared to prior attacks in a limited query setting.
翻訳日:2021-09-13 13:32:26 公開日:2021-09-10
# 話題正規化を伴う対話における外見的韻律分解

Exophoric Pronoun Resolution in Dialogues with Topic Regularization ( http://arxiv.org/abs/2109.04787v1 )

ライセンス: Link先を確認
Xintong Yu, Hongming Zhang, Yangqiu Song, Changshui Zhang, Kun Xu and Dong Yu(参考訳) 代名詞を参照語に分解することは、長い間、基礎的な自然言語理解問題として研究されてきた。 代名詞共参照分解(pcr)に関する以前の研究は、主にテキスト中の言及に対する代名詞の解決に重点を置いているが、外法的なシナリオは無視されている。 外見代名詞は日常的なコミュニケーションにおいて一般的であり、話し手は直接代名詞を使用して、最初にオブジェクトを導入することなく、環境に存在するいくつかのオブジェクトを参照することができる。 このような対象は対話文には言及されていないが、対話の一般的な話題によって曖昧にされることが多い。 そこで本研究では,対話の局所的文脈とグローバルトピックを共同で活用し,テキスト外のpcr問題を解決することを提案する。 広範囲な実験は、異性代名詞の解消にトピック正則化を加える効果を実証している。

Resolving pronouns to their referents has long been studied as a fundamental natural language understanding problem. Previous works on pronoun coreference resolution (PCR) mostly focus on resolving pronouns to mentions in text while ignoring the exophoric scenario. Exophoric pronouns are common in daily communications, where speakers may directly use pronouns to refer to some objects present in the environment without introducing the objects first. Although such objects are not mentioned in the dialogue text, they can often be disambiguated by the general topics of the dialogue. Motivated by this, we propose to jointly leverage the local context and global topics of dialogues to solve the out-of-text PCR problem. Extensive experiments demonstrate the effectiveness of adding topic regularization for resolving exophoric pronouns.
翻訳日:2021-09-13 13:32:10 公開日:2021-09-10
# mix-of-partitions: 大きな生体医学的知識グラフをbertに導入する

Mixture-of-Partitions: Infusing Large Biomedical Knowledge Graphs into BERT ( http://arxiv.org/abs/2109.04810v1 )

ライセンス: Link先を確認
Zaiqiao Meng, Fangyu Liu, Thomas Hikaru Clark, Ehsan Shareghi, Nigel Collier(参考訳) 事前訓練されたモデルに事実知識を注入することは、多くの知識集約的なタスクに不可欠である。 本稿では,より小さなサブグラフに分割し,その特定の知識を軽量なアダプタを用いて様々なBERTモデルに注入することで,非常に大きな知識グラフ(KG)を処理できる混合分割法(Mixture-of-Partitions,MoP)を提案する。 対象タスクに対する全体的な事実知識を活用するために、これらのサブグラフアダプタは、混合層を介して、基盤となるBERTと共にさらに微調整される。 提案手法は,6つの下流タスク(NLI,QA,分類)において,3つのバイオメディカルBERT(SciBERT,BioBERT,PubmedBERT)を用いてMoPを評価し,このMoPがタスク性能の基盤となるBERTを一貫して強化し,5つの評価データセット上で新たなSOTA性能を実現することを示す。

Infusing factual knowledge into pre-trained models is fundamental for many knowledge-intensive tasks. In this paper, we proposed Mixture-of-Partitions (MoP), an infusion approach that can handle a very large knowledge graph (KG) by partitioning it into smaller sub-graphs and infusing their specific knowledge into various BERT models using lightweight adapters. To leverage the overall factual knowledge for a target task, these sub-graph adapters are further fine-tuned along with the underlying BERT through a mixture layer. We evaluate our MoP with three biomedical BERTs (SciBERT, BioBERT, PubmedBERT) on six downstream tasks (inc. NLI, QA, Classification), and the results show that our MoP consistently enhances the underlying BERTs in task performance, and achieves new SOTA performances on five evaluated datasets.
翻訳日:2021-09-13 13:31:57 公開日:2021-09-10
# すべてを問う - 意味的な役割に対するコンテキスト化された質問の生成

Asking It All: Generating Contextualized Questions for any Semantic Role ( http://arxiv.org/abs/2109.04832v1 )

ライセンス: Link先を確認
Valentina Pyatkin, Paul Roit, Julian Michael, Reut Tsarfaty, Yoav Goldberg, Ido Dagan(参考訳) 状況に関する質問は、それを理解するための本質的なステップです。 この目的のために、述語と節が与えられた場合、述語のすべての意味的役割について質問する一連の質問を生成する必要があるロール質問生成のタスクを導入する。 本研究は,まず,各役割に対する文脈に依存しない質問プロトタイプを作成し,その解釈を文脈的に適切であるように修正する2段階モデルを開発する。 質問生成に対する既存のアプローチとは異なり、我々のアプローチはテキスト内の既存の回答の条件付けを必要としない。 代わりに、その回答がテキストに明示的に現れるか、それから推測されるか、あるいは他の場所で検索されるべきかに関わらず、問い合わせるべき情報の種類を条件とする。 我々の評価は、述語と役割の大規模かつ広範囲なオントロジーに対して、多様でよく形成された質問を生成することを示す。

Asking questions about a situation is an inherent step towards understanding it. To this end, we introduce the task of role question generation, which, given a predicate mention and a passage, requires producing a set of questions asking about all possible semantic roles of the predicate. We develop a two-stage model for this task, which first produces a context-independent question prototype for each role and then revises it to be contextually appropriate for the passage. Unlike most existing approaches to question generation, our approach does not require conditioning on existing answers in the text. Instead, we condition on the type of information to inquire about, regardless of whether the answer appears explicitly in the text, could be inferred from it, or should be sought elsewhere. Our evaluation demonstrates that we generate diverse and well-formed questions for a large, broad-coverage ontology of predicates and roles.
翻訳日:2021-09-13 13:31:35 公開日:2021-09-10
# emowoz:タスク指向対話システムにおける感情の大規模コーパスとラベル付け方式

EmoWOZ: A Large-Scale Corpus and Labelling Scheme for Emotion in Task-Oriented Dialogue Systems ( http://arxiv.org/abs/2109.04919v1 )

ライセンス: Link先を確認
Shutong Feng, Nurul Lubis, Christian Geishauser, Hsien-chin Lin, Michael Heck, Carel van Niekerk and Milica Ga\v{s}i\'c(参考訳) 感情を認識する能力は、対話型人工知能に人間の触覚を与える。 チャット対話における感情は著しく注目されているが、タスク指向対話における感情は、失敗や成功のシグナルなど、同様に重要な役割を持つにもかかわらず、ほとんど見過ごされている。 既存の感情アノテーション付きタスク指向コーパスはサイズ、ラベルのリッチさ、パブリック可用性に制限があり、ダウンストリームタスクのボトルネックとなる。 タスク指向対話における感情研究の基礎を築くために,タスク指向対話の大規模手動感情注釈コーパスであるEmoWOZを紹介する。 EmoWOZはマルチドメインタスク指向対話データセットであるMultiWOZに基づいている。 ユーザ発話の83k以上の感情アノテーションを備えた1k以上の対話を含む。 MultiWOZのWizzard-of-Ozダイアログに加えて、同一ドメイン内の人間と機械の対話を収集し、データ駆動ダイアログシステムの生存中に起こりうる様々な感情の空間を十分にカバーする。 私たちの知る限りでは、この種の大規模なオープンソースコーパスはこれが初めてです。 本稿では,タスク指向対話に適した新しい感情ラベル方式を提案する。 本稿では,タスク指向対話における感情認識と状態追跡のためのコーパスの有用性を示す実験結果について報告する。

The ability to recognise emotions lends a conversational artificial intelligence a human touch. While emotions in chit-chat dialogues have received substantial attention, emotions in task-oriented dialogues have been largely overlooked despite having an equally important role, such as to signal failure or success. Existing emotion-annotated task-oriented corpora are limited in size, label richness, and public availability, creating a bottleneck for downstream tasks. To lay a foundation for studies on emotions in task-oriented dialogues, we introduce EmoWOZ, a large-scale manually emotion-annotated corpus of task-oriented dialogues. EmoWOZ is based on MultiWOZ, a multi-domain task-oriented dialogue dataset. It contains more than 11K dialogues with more than 83K emotion annotations of user utterances. In addition to Wizzard-of-Oz dialogues from MultiWOZ, we collect human-machine dialogues within the same set of domains to sufficiently cover the space of various emotions that can happen during the lifetime of a data-driven dialogue system. To the best of our knowledge, this is the first large-scale open-source corpus of its kind. We propose a novel emotion labelling scheme, which is tailored to task-oriented dialogues. We report a set of experimental results to show the usability of this corpus for emotion recognition and state tracking in task-oriented dialogues.
翻訳日:2021-09-13 13:31:23 公開日:2021-09-10
# 氷山の一角を越えて:テキスト分類器の一貫性の評価

Beyond the Tip of the Iceberg: Assessing Coherence of Text Classifiers ( http://arxiv.org/abs/2109.04922v1 )

ライセンス: Link先を確認
Shane Storks, Joyce Chai(参考訳) 大規模で事前訓練された言語モデルは、既存の言語理解タスクにおいて人間のレベルと超人的精度を達成するため、ベンチマークデータと探索研究の統計バイアスは、最近彼らの真の能力に疑問を投げかけている。 そこで本研究では,テキスト分類タスクの精度よりも情報的な評価を行うために,新しい予測コヒーレンス尺度による評価システムを提案する。 フレームワークを異なる特性を持つ既存の2つの言語理解ベンチマークに適用し、その汎用性を実証する。 実験の結果, この評価フレームワークは, アイデアや実装は単純ではあるが, 機械の予測の一貫性に関する洞察を提供するための迅速かつ効果的で多用途な尺度であることがわかった。

As large-scale, pre-trained language models achieve human-level and superhuman accuracy on existing language understanding tasks, statistical bias in benchmark data and probing studies have recently called into question their true capabilities. For a more informative evaluation than accuracy on text classification tasks can offer, we propose evaluating systems through a novel measure of prediction coherence. We apply our framework to two existing language understanding benchmarks with different properties to demonstrate its versatility. Our experimental results show that this evaluation framework, although simple in ideas and implementation, is a quick, effective, and versatile measure to provide insight into the coherence of machines' predictions.
翻訳日:2021-09-13 13:30:59 公開日:2021-09-10
# 左クリックリカレントニューラルネットワークによる人間の文処理のモデル化

Modeling Human Sentence Processing with Left-Corner Recurrent Neural Network Grammars ( http://arxiv.org/abs/2109.04939v1 )

ライセンス: Link先を確認
Ryo Yoshida, Hiroshi Noji, Yohei Oseki(参考訳) 計算言語学では、階層構造が言語モデル(LM)をより人間らしくすることが示された。 しかし、以前の文献は階層モデルの解析戦略について無知である。 本稿では,階層構造がLMをより人間らしくするかどうかを考察し,その場合,どの解析戦略が最も認知的に妥当かを検討した。 この問題に対処するため,日本語の読解時間に対して,Long Short-Term Memory (LSTM) を逐次モデルとし,Long Short-Term Memory (LSTM) を階層モデル,Recurrent Neural Network Grammars (RNNGs) を階層モデルとして評価した。 計算モデルにより,左コーン型RNNGはトップダウン型RNNGやLSTMよりも優れており,階層型および左コーン型アーキテクチャの方がトップダウン型アーキテクチャやシーケンシャル型アーキテクチャよりも認知的な可能性が示唆された。 また,認知的妥当性と認知的妥当性の関係 (i)パープレキシティ(perplexity) (ii)パース、及び (iii)ビームサイズについても検討する。

In computational linguistics, it has been shown that hierarchical structures make language models (LMs) more human-like. However, the previous literature has been agnostic about a parsing strategy of the hierarchical models. In this paper, we investigated whether hierarchical structures make LMs more human-like, and if so, which parsing strategy is most cognitively plausible. In order to address this question, we evaluated three LMs against human reading times in Japanese with head-final left-branching structures: Long Short-Term Memory (LSTM) as a sequential model and Recurrent Neural Network Grammars (RNNGs) with top-down and left-corner parsing strategies as hierarchical models. Our computational modeling demonstrated that left-corner RNNGs outperformed top-down RNNGs and LSTM, suggesting that hierarchical and left-corner architectures are more cognitively plausible than top-down or sequential architectures. In addition, the relationships between the cognitive plausibility and (i) perplexity, (ii) parsing, and (iii) beam size will also be discussed.
翻訳日:2021-09-13 13:30:45 公開日:2021-09-10
# 直観物理学のための階層型推論:検証可能なコモンセンス言語理解に向けて

Tiered Reasoning for Intuitive Physics: Toward Verifiable Commonsense Language Understanding ( http://arxiv.org/abs/2109.04947v1 )

ライセンス: Link先を確認
Shane Storks, Qiaozi Gao, Yichi Zhang, Joyce Chai(参考訳) 大規模で事前訓練された言語モデル(LM)は、多言語理解タスクにおいて人間レベルの性能を達成した。 しかし、エンドタスクのパフォーマンスに基づく評価は、言語理解と推論における機械の真の能力にほとんど光を当てなかった。 本稿では,エンドパフォーマンスに加えて,基礎となる推論プロセスを評価することの重要性を強調した。 この目的に向けて,機械の推論プロセスの多層評価を可能にする高密度アノテーションを用いた新しいコモンセンス推論データセットであるTiered Reasoning for Intuitive Physics (TRIP)を導入する。 実験結果から,大規模なlmsは高いエンド性能を達成できるが,有効な裏付けによる予測支援に苦慮していることが示された。 TRIPデータセットとベースラインの結果は、コモンセンス推論の検証可能な評価を動機付け、よりよい言語理解と推論モデルの開発に向けた今後の研究を促進する。

Large-scale, pre-trained language models (LMs) have achieved human-level performance on a breadth of language understanding tasks. However, evaluations only based on end task performance shed little light on machines' true ability in language understanding and reasoning. In this paper, we highlight the importance of evaluating the underlying reasoning process in addition to end performance. Toward this goal, we introduce Tiered Reasoning for Intuitive Physics (TRIP), a novel commonsense reasoning dataset with dense annotations that enable multi-tiered evaluation of machines' reasoning process. Our empirical results show that while large LMs can achieve high end performance, they struggle to support their predictions with valid supporting evidence. The TRIP dataset and our baseline results will motivate verifiable evaluation of commonsense reasoning and facilitate future research toward developing better language understanding and reasoning models.
翻訳日:2021-09-13 13:30:26 公開日:2021-09-10
# 私たちは意味を探しに行き、これらのくだらない表現を手に入れた:計算意味論における意味表現の側面

We went to look for meaning and all we got were these lousy representations: aspects of meaning representation for computational semantics ( http://arxiv.org/abs/2109.04949v1 )

ライセンス: Link先を確認
Simon Dobnik, Robin Cooper, Adam Ek, Bill Noble, Staffan Larsson, Nikolai Ilinykh, Vladislav Maraev and Vidya Somashekarappa(参考訳) 本稿では、現在、異なる自然言語アプリケーションで一般的に使われている異なる意味表現について検討し、それらがモデル化されている自然言語の側面と、それらが使用されているアプリケーションの側面の両方の観点から、それらの限界について論じる。

In this paper we examine different meaning representations that are commonly used in different natural language applications today and discuss their limits, both in terms of the aspects of the natural language meaning they are modelling and in terms of the aspects of the application for which they are used.
翻訳日:2021-09-13 13:30:13 公開日:2021-09-10
# AGVによる拡張ジョブショップスケジューリング問題の解決 -- 古典的および量子的アプローチ

Solving the Extended Job Shop Scheduling Problem with AGVs -- Classical and Quantum Approaches ( http://arxiv.org/abs/2109.04830v1 )

ライセンス: Link先を確認
Marc Geitz, Cristian Grozea, Wolfgang Steigerwald, Robin St\"ohr, and Armin Wolf(参考訳) ジョブスケジューリング最適化(JSO)の対象は、組織内のジョブのスケジューリングを扱うため、仮定された目標に関して、単一の作業ステップが最適に組織される。 本稿では、JSOのサブアスペクトであるジョブショップスケジューリング問題(JSSPまたはJSP)を扱うユースケースを提供する。 多くの最適化問題がnp完全であるように、jsspはシステムの各ノードが指数関数的に増加することを意味する。 ユースケースの目標は、フレキシブルな組織された機械で、代わりに制約プログラミング(CP)と量子コンピューティング(QC)を使用して、自律地上車両(AGV)と組み合わせて、特定のワークピースに対して最適化されたデューティルースターを作成する方法を示すことである。 CPと量子アニーリングモデルに基づく古典解の結果を示し,議論した。 全ての結果が研究プロジェクトPlanQKに詳しく記載されている。

The subject of Job Scheduling Optimisation (JSO) deals with the scheduling of jobs in an organization, so that the single working steps are optimally organized regarding the postulated targets. In this paper a use case is provided which deals with a sub-aspect of JSO, the Job Shop Scheduling Problem (JSSP or JSP). As many optimization problems JSSP is NP-complete, which means the complexity increases with every node in the system exponentially. The goal of the use case is to show how to create an optimized duty rooster for certain workpieces in a flexible organized machinery, combined with an Autonomous Ground Vehicle (AGV), using Constraint Programming (CP) and Quantum Computing (QC) alternatively. The results of a classical solution based on CP and on a Quantum Annealing model are presented and discussed. All presented results have been elaborated in the research project PlanQK.
翻訳日:2021-09-13 13:30:06 公開日:2021-09-10
# ACFNet: RGB-D Salient Object Detectionのための適応協調型核融合ネットワーク

ACFNet: Adaptively-Cooperative Fusion Network for RGB-D Salient Object Detection ( http://arxiv.org/abs/2109.04627v1 )

ライセンス: Link先を確認
Jinchao Zhu(参考訳) RGBと深度データの合理的な利用は、コンピュータビジョンタスクとロボット環境相互作用の開発を促進する上で非常に重要である。 しかしながら、この2つのタイプのデータの早期および後期の融合には、異なる利点とデメリットがある。 さらに、オブジェクト情報の多様性のため、特定のシナリオで単一のタイプのデータを使用すると、セマンティックな誤解を招く傾向がある。 そこで本研究では, レジンレス構造を有する適応協調型核融合ネットワーク (acfnet) を提案する。 この構造は、初期および後期に特徴融合の利点を柔軟に活用するよう設計されている。 第2に,acg(adaptively-cooperative semantic guidance)スキームは,誘導フェーズにおける不正確な特徴を抑制するように設計されている。 さらに,タイプベースアテンションモジュール(TAM)を提案し,ネットワークを最適化し,異なるオブジェクトのマルチスケール認識を強化する。 異なるオブジェクトに対して、異なるタイプの畳み込みによって生成された特徴は、セグメンテーション最適化のためのゲート機構によって強化または抑制される。 ACGとTAMは、それぞれデータ属性と畳み込み属性に従って、機能ストリームの転送を最適化する。 RGB-D SODデータセット上で行った十分な実験は、提案するネットワークが18の最先端アルゴリズムに対して良好に動作することを示す。

The reasonable employment of RGB and depth data show great significance in promoting the development of computer vision tasks and robot-environment interaction. However, there are different advantages and disadvantages in the early and late fusion of the two types of data. Besides, due to the diversity of object information, using a single type of data in a specific scenario tends to result in semantic misleading. Based on the above considerations, we propose an adaptively-cooperative fusion network (ACFNet) with ResinRes structure for salient object detection. This structure is designed to flexibly utilize the advantages of feature fusion in early and late stages. Secondly, an adaptively-cooperative semantic guidance (ACG) scheme is designed to suppress inaccurate features in the guidance phase. Further, we proposed a type-based attention module (TAM) to optimize the network and enhance the multi-scale perception of different objects. For different objects, the features generated by different types of convolution are enhanced or suppressed by the gated mechanism for segmentation optimization. ACG and TAM optimize the transfer of feature streams according to their data attributes and convolution attributes, respectively. Sufficient experiments conducted on RGB-D SOD datasets illustrate that the proposed network performs favorably against 18 state-of-the-art algorithms.
翻訳日:2021-09-13 13:29:28 公開日:2021-09-10
# 文脈認識特徴抽出による残留3次元シーンフロー学習

Residual 3D Scene Flow Learning with Context-Aware Feature Extraction ( http://arxiv.org/abs/2109.04685v1 )

ライセンス: Link先を確認
Guangming Wang, Yunzhe Hu, Xinrui Wu, Hesheng Wang(参考訳) シーンフロー推定は,2つの連続する点雲のフレーム間の3次元変位ベクトルを予測するタスクであり,サービスロボットや自律運転などの分野において重要な応用である。 過去の多くの研究は、点雲に基づくシーンフローの推定に大きく取り組んできたが、これまで気付かれなかった2つの問題を指摘した。 1) 繰り返しパターンにおける隣接するフレームのポイントは,その近傍の類似した空間構造によって誤って関連付けられる可能性がある。 2) 遠距離移動を伴う点雲の隣接フレーム間の流れを不正確な推定を行うことができる。 最初の問題を解決するために,ユークリッド空間の文脈構造情報を利用して,局所点特徴に対するソフトアグリゲーション重みを学習する,コンテキスト対応のコンテキスト集合 conv 層を提案する。 我々のデザインは、シーン理解時の文脈構造情報の人間の知覚にインスパイアされている。 シーンフロー推定のための3次元点雲のコンテキスト認識点特徴ピラミッドモジュールにコンテキスト認識集合 Conv 層を組み込む。 第2の課題として, 遠方移動に対処するために, 残留流微細化層における明示的な残留流学習構造を提案する。 flyingthings3dとkitti scene flowデータセットの実験とアブレーションにより,提案する各コンポーネントの有効性が示され,フレーム間のあいまいな関連と長距離移動推定の課題が解決された。 FlyingThings3DとKITTIの両方のシーンフローデータセットの定量的結果は、我々の手法が最先端の性能を達成し、これまでのすべての成果を少なくとも25%上回っていることを示している。

Scene flow estimation is the task to predict the point-wise 3D displacement vector between two consecutive frames of point clouds, which has important application in fields such as service robots and autonomous driving. Although many previous works have explored greatly on scene flow estimation based on point clouds, we point out two problems that have not been noticed or well solved before: 1) Points of adjacent frames in repetitive patterns may be wrongly associated due to similar spatial structure in their neighbourhoods; 2) Scene flow between adjacent frames of point clouds with long-distance movement may be inaccurately estimated. To solve the first problem, we propose a novel context-aware set conv layer to exploit contextual structure information of Euclidean space and learn soft aggregation weights for local point features. Our design is inspired by human perception of contextual structure information during scene understanding. We incorporate the context-aware set conv layer in a context-aware point feature pyramid module of 3D point clouds for scene flow estimation. For the second problem, we propose an explicit residual flow learning structure in the residual flow refinement layer to cope with long-distance movement. The experiments and ablation study on FlyingThings3D and KITTI scene flow datasets demonstrate the effectiveness of each proposed component and that we solve problem of ambiguous inter-frame association and long-distance movement estimation. Quantitative results on both FlyingThings3D and KITTI scene flow datasets show that our method achieves state-of-the-art performance, surpassing all other previous works to the best of our knowledge by at least 25%.
翻訳日:2021-09-13 13:29:10 公開日:2021-09-10
# Face-NMS:効率的な顔認識のためのコアセット選択手法

Face-NMS: A Core-set Selection Approach for Efficient Face Recognition ( http://arxiv.org/abs/2109.04698v1 )

ライセンス: Link先を確認
Yunze Chen, Junjie Huang, Jiagang Zhu, Zheng Zhu, Tian Yang, Guan Huang, and Dalong Du(参考訳) 近年、顔認識は目覚ましい成功を収めており、トレーニングデータのサイズが大きくなることが重要なエンジンとなっている。 例えば、最大の顔データセットであるWebFace42Mには、約200万のIDと4400万の顔が含まれている。 しかし、膨大な数の顔がトレーニング時間、コンピューティングリソース、メモリコストの制約を増大させます。 この問題に対する現在の研究は主に、多数のIDに起因するGPUメモリ消費を減らすために、効率的なフルー接続層(FC)を設計することに焦点を当てている。 本研究では,厳格な収集操作(core-set selection perspective)に起因する最新の顔データセットの冗長性問題を解決することで,これらの制約を緩和する。 顔認識問題に対するこの視点の最初の試みとして,既存の手法は性能と効率の両方に制限があることを見出した。 コスト効率の向上のために,Face-NMSと呼ばれる新しいフィルタリング手法を提案する。 Face-NMSは特徴空間で動作し、コアセットを生成する際の局所的および大域的空間性を同時に検討する。 実際には、Face-NMSはオブジェクト検出コミュニティにおける非最大抑圧(NMS)と類似している。 顔は全体の空間性への潜在的貢献によってランク付けされ、局所的な空間性に対して高い類似性を持つ2つの顔の過剰な顔をフィルタリングする。 効率面では、Face-NMSはプロキシモデルをトレーニングする際に、小さいが十分なプロキシデータセットを適用することで、パイプライン全体を加速する。 その結果、Face-NMSでは、メインベンチマークのパフォーマンスを維持しながら、WebFace42Mデータセットを60%にスケールダウンし、40%のリソース節約と1.64倍の加速を実現しました。 コードはhttps://github.com/HuangJunJie2017/Face-NMSで公開されている。

Recently, face recognition in the wild has achieved remarkable success and one key engine is the increasing size of training data. For example, the largest face dataset, WebFace42M contains about 2 million identities and 42 million faces. However, a massive number of faces raise the constraints in training time, computing resources, and memory cost. The current research on this problem mainly focuses on designing an efficient Fully-connected layer (FC) to reduce GPU memory consumption caused by a large number of identities. In this work, we relax these constraints by resolving the redundancy problem of the up-to-date face datasets caused by the greedily collecting operation (i.e. the core-set selection perspective). As the first attempt in this perspective on the face recognition problem, we find that existing methods are limited in both performance and efficiency. For superior cost-efficiency, we contribute a novel filtering strategy dubbed Face-NMS. Face-NMS works on feature space and simultaneously considers the local and global sparsity in generating core sets. In practice, Face-NMS is analogous to Non-Maximum Suppression (NMS) in the object detection community. It ranks the faces by their potential contribution to the overall sparsity and filters out the superfluous face in the pairs with high similarity for local sparsity. With respect to the efficiency aspect, Face-NMS accelerates the whole pipeline by applying a smaller but sufficient proxy dataset in training the proxy model. As a result, with Face-NMS, we successfully scale down the WebFace42M dataset to 60% while retaining its performance on the main benchmarks, offering a 40% resource-saving and 1.64 times acceleration. The code is publicly available for reference at https://github.com/HuangJunJie2017/Face-NMS.
翻訳日:2021-09-13 13:28:41 公開日:2021-09-10
# ビデオ質問応答のためのマルチモーダルインタラクションを用いた時間ピラミッドトランスフォーマタ

Temporal Pyramid Transformer with Multimodal Interaction for Video Question Answering ( http://arxiv.org/abs/2109.04735v1 )

ライセンス: Link先を確認
Min Peng, Chongyang Wang, Yuan Gao, Yu Shi, Xiang-Dong Zhou(参考訳) ビデオ質問応答(VideoQA)は、視覚的理解と自然言語理解のマルチモーダルな組み合わせを考えると困難である。 既存のアプローチでは複数の時間スケールでの映像の出現・移動情報を活用することはほとんどないが、質問とテキスト意味抽出のための視覚的情報との相互作用は無視されることが多い。 そこで本研究では,ビデオQAのためのマルチモーダルインタラクションを備えた時間ピラミッド変換器(TPT)モデルを提案する。 TPTモデルは、質問特化トランスフォーマー(QT)とビジュアル推論(VI)の2つのモジュールから構成される。 ビデオから構築された時間的ピラミッドを考えると、QTは各単語と視覚内容との間の粗大なマルチモーダル共起から質問意味を構築する。 このような質問固有の意味論の指導のもと、viは質問とビデオの間の局所からグローバルまでのマルチレベルな相互作用からの視覚的な手がかりを推測する。 各モジュール内では,異なるレベルを横断する情報に対して残差接続が採用され,質問ビデオ間のインタラクションの抽出を支援するマルチモーダルアテンション機構が導入された。 3つのビデオQAデータセットの広範な実験を通じて,提案手法の性能を最先端技術と比較した。

Video question answering (VideoQA) is challenging given its multimodal combination of visual understanding and natural language understanding. While existing approaches seldom leverage the appearance-motion information in the video at multiple temporal scales, the interaction between the question and the visual information for textual semantics extraction is frequently ignored. Targeting these issues, this paper proposes a novel Temporal Pyramid Transformer (TPT) model with multimodal interaction for VideoQA. The TPT model comprises two modules, namely Question-specific Transformer (QT) and Visual Inference (VI). Given the temporal pyramid constructed from a video, QT builds the question semantics from the coarse-to-fine multimodal co-occurrence between each word and the visual content. Under the guidance of such question-specific semantics, VI infers the visual clues from the local-to-global multi-level interactions between the question and the video. Within each module, we introduce a multimodal attention mechanism to aid the extraction of question-video interactions, with residual connections adopted for the information passing across different levels. Through extensive experiments on three VideoQA datasets, we demonstrate better performances of the proposed method in comparison with the state-of-the-arts.
翻訳日:2021-09-13 13:28:15 公開日:2021-09-10
# TADA: 分類学適応型ドメイン適応

TADA: Taxonomy Adaptive Domain Adaptation ( http://arxiv.org/abs/2109.04813v1 )

ライセンス: Link先を確認
Rui Gong, Martin Danelljan, Dengxin Dai, Wenguan Wang, Danda Pani Paudel, Ajad Chhatkuli, Fisher Yu, Luc Van Gool(参考訳) 従来のドメイン適応は、限定的または追加の監督なしに、新しいターゲットドメインにモデルを適応させるタスクに対処する。 入力ドメインギャップに対処する際、標準ドメイン適応設定は出力空間におけるドメイン変更を前提としない。 意味予測タスクでは、異なるデータセットは異なる意味分類に基づいてラベル付けされることが多い。 多くの実世界の環境では、対象のドメインタスクはソースドメインが課したタスクとは異なる分類を必要とする。 したがって、より一般的な分類適応ドメイン適応(TADA)問題を導入し、2つのドメイン間の一貫性のない分類を可能とした。 さらに,画像レベルとラベルレベルのドメイン適応を共同で扱う手法を提案する。 ラベルレベルでは,ターゲット領域の強化に二国間混合サンプリング戦略とラベル空間の統一・整列化のためのリラベル法を用いる。 画像レベルの領域ギャップに対処するため、不確かさを補正したコントラスト学習法を提案し、さらにドメイン不変性やクラス識別性をもたらす。 我々は,オープン分類法,粗小分類法,部分重複分類法といった多田設定条件下での枠組みの有効性を広範囲に評価した。 私たちのフレームワークは、新しいターゲットドメインの分類に適応できる一方で、以前の最先端技術よりも大きなマージンで優れています。

Traditional domain adaptation addresses the task of adapting a model to a novel target domain under limited or no additional supervision. While tackling the input domain gap, the standard domain adaptation settings assume no domain change in the output space. In semantic prediction tasks, different datasets are often labeled according to different semantic taxonomies. In many real-world settings, the target domain task requires a different taxonomy than the one imposed by the source domain. We therefore introduce the more general taxonomy adaptive domain adaptation (TADA) problem, allowing for inconsistent taxonomies between the two domains. We further propose an approach that jointly addresses the image-level and label-level domain adaptation. On the label-level, we employ a bilateral mixed sampling strategy to augment the target domain, and a relabelling method to unify and align the label spaces. We address the image-level domain gap by proposing an uncertainty-rectified contrastive learning method, leading to more domain-invariant and class discriminative features. We extensively evaluate the effectiveness of our framework under different TADA settings: open taxonomy, coarse-to-fine taxonomy, and partially-overlapping taxonomy. Our framework outperforms previous state-of-the-art by a large margin, while capable of adapting to new target domain taxonomies.
翻訳日:2021-09-13 13:27:58 公開日:2021-09-10
# Fake-Motion データセットで学習した時間的コヒーレントな人物

Temporally Coherent Person Matting Trained on Fake-Motion Dataset ( http://arxiv.org/abs/2109.04843v1 )

ライセンス: Link先を確認
Ivan Molodetskikh, Mikhail Erofeev, Andrey Moskalenko, Dmitry Vatolin(参考訳) 本稿では,トリマップなどの付加的なユーザ入力を必要としない映像をマッティングするニューラルネットワークに基づく新しい手法を提案する。 U-Netスキップ接続上の畳み込みLSTMモジュールと組み合わせ, 画像分割アルゴリズム出力の運動推定に基づく平滑化を用いて, 得られたアルファ行列の時間的安定性を実現する。 また,アルファマットと背景ビデオを用いた画像の訓練用クリップを生成するフェイクモーションアルゴリズムを提案する。 写真とそのマットにランダムな動きを適用し、実際のビデオで見られる動きをシミュレートし、その結果を背景クリップと合成する。 大規模な注釈付きビデオデータセットがなければ、ビデオで動作するディープニューラルネットワークをトレーニングでき、損失関数に使用するために、地対地トレーニング-クリップフォアグラウンド光フローを提供します。

We propose a novel neural-network-based method to perform matting of videos depicting people that does not require additional user input such as trimaps. Our architecture achieves temporal stability of the resulting alpha mattes by using motion-estimation-based smoothing of image-segmentation algorithm outputs, combined with convolutional-LSTM modules on U-Net skip connections. We also propose a fake-motion algorithm that generates training clips for the video-matting network given photos with ground-truth alpha mattes and background videos. We apply random motion to photos and their mattes to simulate movement one would find in real videos and composite the result with the background clips. It lets us train a deep neural network operating on videos in an absence of a large annotated video dataset and provides ground-truth training-clip foreground optical flow for use in loss functions.
翻訳日:2021-09-13 13:27:38 公開日:2021-09-10
# イベントベース光フロー推定のための時空間リカレントネットワーク

Spatio-Temporal Recurrent Networks for Event-Based Optical Flow Estimation ( http://arxiv.org/abs/2109.04871v1 )

ライセンス: Link先を確認
Ziluo Ding, Rui Zhao, Jiyuan Zhang, Tianxiao Gao, Ruiqin Xiong, Zhaofei Yu, Tiejun Huang(参考訳) イベントカメラは、特に高速でダイナミックレンジのシーンにおいて、視覚的知覚に有望な代替手段を提供する。 近年,多くのディープラーニング手法が,光学的フロー推定などのイベントベース問題に対して,モデルフリーのソリューションを提供することで大きな成功を収めている。 しかし,既存のディープラーニング手法では,アーキテクチャ設計の観点から時間情報の重要さに対処できず,時空間的特徴を効果的に抽出することができない。 スパイクニューラルネットワークを利用する別の研究は、より深いアーキテクチャのためのトレーニングの問題に苦しむ。 これらの点に対処するため、信号強調のための事象時間分布をキャプチャする新しい入力表現を提案する。 さらに、コンボリューショナルGated Recurrent Unitsを用いて一連のイベント画像から特徴マップを抽出するイベントベース光フロー推定のための時空間繰り返し符号化符号化ニューラルネットワークアーキテクチャを提案する。 さらに,我々のアーキテクチャでは,相関層や反復的残留精錬スキームなど,従来のフレームベースのコアモジュールを組み込むことが可能である。 ネットワークは、マルチ車両ステレオイベントカメラデータセット上で自己教師付き学習によってエンドツーエンドでトレーニングされる。 既存の最先端のメソッドを大きなマージンで上回っていることが分かっています。

Event camera has offered promising alternative for visual perception, especially in high speed and high dynamic range scenes. Recently, many deep learning methods have shown great success in providing model-free solutions to many event-based problems, such as optical flow estimation. However, existing deep learning methods did not address the importance of temporal information well from the perspective of architecture design and cannot effectively extract spatio-temporal features. Another line of research that utilizes Spiking Neural Network suffers from training issues for deeper architecture. To address these points, a novel input representation is proposed that captures the events temporal distribution for signal enhancement. Moreover, we introduce a spatio-temporal recurrent encoding-decoding neural network architecture for event-based optical flow estimation, which utilizes Convolutional Gated Recurrent Units to extract feature maps from a series of event images. Besides, our architecture allows some traditional frame-based core modules, such as correlation layer and iterative residual refine scheme, to be incorporated. The network is end-to-end trained with self-supervised learning on the Multi-Vehicle Stereo Event Camera dataset. We have shown that it outperforms all the existing state-of-the-art methods by a large margin.
翻訳日:2021-09-13 13:27:22 公開日:2021-09-10
# LibFewShot: ファウショット学習のための総合ライブラリ

LibFewShot: A Comprehensive Library for Few-shot Learning ( http://arxiv.org/abs/2109.04898v1 )

ライセンス: Link先を確認
Wenbin Li, Chuanqi Dong, Pinzhuo Tian, Tiexin Qin, Xuesong Yang, Ziyi Wang, Jing Huo, Yinghuan Shi, Lei Wang, Yang Gao and Jiebo Luo(参考訳) マイノショット学習,特にマイノショット画像分類は,近年,注目され,著しい進歩を遂げている。 最近の研究では、データ拡張、事前学習、知識蒸留、自己スーパービジョンなど、多くのジェネリックテクニックや`tricks''が、少数の学習方法のパフォーマンスを大きく向上させる可能性があることが暗黙的に示されている。 さらに、異なる作業では、異なるソフトウェアプラットフォーム、異なるトレーニングスケジュール、異なるバックボーンアーキテクチャ、さらには異なる入力画像サイズが採用され、公平な比較が難しくなり、実践者は再現性に苦しむ。 このような状況に対処するために,PyTorchで同じ単一コードベースの統一フレームワークで17の最先端の複数ショット学習手法を再実装し,一括学習ライブラリ(LibFewShot)を提案する。 さらに、LibFewShotに基づいて、複数のベンチマークデータセットに複数のバックボーンアーキテクチャを用いて包括的な評価を行い、共通の落とし穴と異なるトレーニングトリックの効果を評価する。 また, メタ・エピソード・トレーニング機構の必要性に対する近年の疑問から, プレトレーニングと組み合わせることで, このようなメカニズムが依然として必要であることを示す。 私たちの仕事が、初心者が少数ショット学習に取り組むための障壁を低くできるだけでなく、少数ショット学習における本質的な研究を促進するための非自明なトリックの効果を取り除けることを願っています。 ソースコードはhttps://github.com/rl-vig/libfewshotから入手できる。

Few-shot learning, especially few-shot image classification, has received increasing attention and witnessed significant advances in recent years. Some recent studies implicitly show that many generic techniques or ``tricks'', such as data augmentation, pre-training, knowledge distillation, and self-supervision, may greatly boost the performance of a few-shot learning method. Moreover, different works may employ different software platforms, different training schedules, different backbone architectures and even different input image sizes, making fair comparisons difficult and practitioners struggle with reproducibility. To address these situations, we propose a comprehensive library for few-shot learning (LibFewShot) by re-implementing seventeen state-of-the-art few-shot learning methods in a unified framework with the same single codebase in PyTorch. Furthermore, based on LibFewShot, we provide comprehensive evaluations on multiple benchmark datasets with multiple backbone architectures to evaluate common pitfalls and effects of different training tricks. In addition, given the recent doubts on the necessity of meta- or episodic-training mechanism, our evaluation results show that such kind of mechanism is still necessary especially when combined with pre-training. We hope our work can not only lower the barriers for beginners to work on few-shot learning but also remove the effects of the nontrivial tricks to facilitate intrinsic research on few-shot learning. The source code is available from https://github.com/RL-VIG/LibFewShot.
翻訳日:2021-09-13 13:27:02 公開日:2021-09-10
# Panoptic Narrative Grounding

Panoptic Narrative Grounding ( http://arxiv.org/abs/2109.04988v1 )

ライセンス: Link先を確認
C. Gonz\'alez, N. Ayobi, I. Hern\'andez, J. Hern\'andez, J. Pont-Tuset, P. Arbel\'aez(参考訳) 本稿では,自然言語視覚接地問題の空間的詳細と一般的な定式化であるpanoptic narrative groundingを提案する。 我々は,新しい基礎的真理とメトリクスを含む,この新しい課題の研究のための実験的枠組みを確立し,今後の研究の足場となる強力なベースライン手法を提案する。 画像の内在的意味的豊かさを汎視的カテゴリを含めることで活用し,セグメンテーションを用いて視覚的グラウンド化にアプローチする。 そこで本研究では,MS COCOデータセットの汎視的セグメンテーションにおいて,局所的ナラティクスアノテーションを特定の領域に自動的に転送するアルゴリズムを提案する。 アノテーションの品質を保証するため、WordNetに含まれる意味構造を利用して、意味のある関連性のあるパノプティックセグメンテーション領域に基づく名詞句を排他的に組み込む。 提案するベースラインは絶対平均リコールポイント55.4である。 この結果は、パノプティカル・ナラティブ・グラウンディングの手法の開発においてエンベロープをさらに推し進めるための適切な基盤となる。

This paper proposes Panoptic Narrative Grounding, a spatially fine and general formulation of the natural language visual grounding problem. We establish an experimental framework for the study of this new task, including new ground truth and metrics, and we propose a strong baseline method to serve as stepping stone for future work. We exploit the intrinsic semantic richness in an image by including panoptic categories, and we approach visual grounding at a fine-grained level by using segmentations. In terms of ground truth, we propose an algorithm to automatically transfer Localized Narratives annotations to specific regions in the panoptic segmentations of the MS COCO dataset. To guarantee the quality of our annotations, we take advantage of the semantic structure contained in WordNet to exclusively incorporate noun phrases that are grounded to a meaningfully related panoptic segmentation region. The proposed baseline achieves a performance of 55.4 absolute Average Recall points. This result is a suitable foundation to push the envelope further in the development of methods for Panoptic Narrative Grounding.
翻訳日:2021-09-13 13:26:34 公開日:2021-09-10
# ファウショット知識に基づくVQAのためのGPT-3の実証的研究

An Empirical Study of GPT-3 for Few-Shot Knowledge-Based VQA ( http://arxiv.org/abs/2109.05014v1 )

ライセンス: Link先を確認
Zhengyuan Yang, Zhe Gan, Jianfeng Wang, Xiaowei Hu, Yumao Lu, Zicheng Liu, Lijuan Wang(参考訳) 知識に基づく視覚的質問応答(VQA)は、画像に存在しない外部知識を必要とする質問に答える。 既存の手法は、まず外部資源から知識を抽出し、選択した知識、入力画像、質問に対して回答予測を行う。 しかし、この2段階のアプローチは、VQAのパフォーマンスを制限する可能性のあるミスマッチにつながる可能性がある。 例えば、検索された知識は問題に無関係であり、推論中の再埋め込みされた知識特徴は、知識ベース(KB)の本来の意味から逸脱する可能性がある。 この課題に対処するために、知識に基づくVQAのために、画像キャプションを用いてGPT3をプロンプトするシンプルで効果的なPICaを提案する。 知識検索と質問応答におけるGPT-3の力に触発され、構造化KBの代わりに、GPT-3を暗黙的で非構造化KBとして扱い、関連する知識を共同で獲得し処理する。 具体的には、まずまず、GPT-3で理解できるキャプション(またはタグ)に変換し、次にGPT-3を適用してVQAタスクを数ショットで解決する。 慎重に調査することで パフォーマンスをさらに向上させます (i)どのテキスト形式が最も画像内容を記述するか、 (ii) 文脈内例をよりよく選択し、使用する方法。 PICaはマルチモーダルタスクに初めてGPT-3を使用する。 PICaは16の例しか使用せず、OK-VQAデータセットの絶対+8.6ポイントで芸術の監督状態を超えた。 また、vqav2ではpicaのベンチマークも行っています。

Knowledge-based visual question answering (VQA) involves answering questions that require external knowledge not present in the image. Existing methods first retrieve knowledge from external resources, then reason over the selected knowledge, the input image, and question for answer prediction. However, this two-step approach could lead to mismatches that potentially limit the VQA performance. For example, the retrieved knowledge might be noisy and irrelevant to the question, and the re-embedded knowledge features during reasoning might deviate from their original meanings in the knowledge base (KB). To address this challenge, we propose PICa, a simple yet effective method that Prompts GPT3 via the use of Image Captions, for knowledge-based VQA. Inspired by GPT-3's power in knowledge retrieval and question answering, instead of using structured KBs as in previous work, we treat GPT-3 as an implicit and unstructured KB that can jointly acquire and process relevant knowledge. Specifically, we first convert the image into captions (or tags) that GPT-3 can understand, then adapt GPT-3 to solve the VQA task in a few-shot manner by just providing a few in-context VQA examples. We further boost performance by carefully investigating: (i) what text formats best describe the image content, and (ii) how in-context examples can be better selected and used. PICa unlocks the first use of GPT-3 for multimodal tasks. By using only 16 examples, PICa surpasses the supervised state of the art by an absolute +8.6 points on the OK-VQA dataset. We also benchmark PICa on VQAv2, where PICa also shows a decent few-shot performance.
翻訳日:2021-09-13 13:26:15 公開日:2021-09-10
# AutoTriggER:補助トリガー抽出によるエンティティ認識

AutoTriggER: Named Entity Recognition with Auxiliary Trigger Extraction ( http://arxiv.org/abs/2109.04726v1 )

ライセンス: Link先を確認
Dong-Ho Lee, Ravi Kiran Selvam, Sheikh Muhammad Sarwar, Bill Yuchen Lin, Mahak Agarwal, Fred Morstatter, Jay Pujara, Elizabeth Boschee, James Allan and Xiang Ren(参考訳) 低リソースのエンティティ認識(ner)のためのディープニューラルネットワークモデルは、遠方のスーパービジョンや他のメタレベル情報(例えば説明)を活用することで印象的な結果を示している。 しかし、特に既存のリソース(例えば、遠方の監視に使用するデータベース)が存在しない領域では、このような追加情報を取得するコストは一般的には禁じられている。 本稿では,テキスト中の人読み可能な手掛かりである「エンティティトリガー」を自動的に生成・活用することにより,nerのパフォーマンスを向上させるための新しい2段階フレームワーク(autotrigger)を提案する。 したがって、フレームワークはそれ自体で補助的な監督を作成および活用することができる。 3つのよく研究されたNERデータセットの実験を通して、自動抽出されたトリガが人間のトリガに適合していることを示し、AutoTriggERはRoBERTa-CRFarchitecture上のパフォーマンスを平均0.5F1ポイント、より低いリソース設定で改善する。

Deep neural models for low-resource named entity recognition (NER) have shown impressive results by leveraging distant super-vision or other meta-level information (e.g. explanation). However, the costs of acquiring such additional information are generally prohibitive, especially in domains where existing resources (e.g. databases to be used for distant supervision) may not exist. In this paper, we present a novel two-stage framework (AutoTriggER) to improve NER performance by automatically generating and leveraging "entity triggers" which are essentially human-readable clues in the text that can help guide the model to make better decisions. Thus, the framework is able to both create and leverage auxiliary supervision by itself. Through experiments on three well-studied NER datasets, we show that our automatically extracted triggers are well-matched to human triggers, and AutoTriggER improves performance over a RoBERTa-CRFarchitecture by nearly 0.5 F1 points on average and much more in a low resource setting.
翻訳日:2021-09-13 13:25:48 公開日:2021-09-10
# 時空間グラフニューラルネットワークに対する空間集中攻撃

Spatially Focused Attack against Spatiotemporal Graph Neural Networks ( http://arxiv.org/abs/2109.04608v1 )

ライセンス: Link先を確認
Fuqiang Liu, Luis Miranda-Moreno, Lijun Sun(参考訳) 時空間予測は、ルート計画、ナビゲーション、交通制御および管理など、インテリジェント交通システム(ITS)における様々な応用において重要な役割を果たす。 空間パターンと時間パターンの両方をキャプチャする深時空間グラフニューラルネットワーク(GNN)は、トラフィック予測アプリケーションにおいて大きな成功を収めている。 gnnsベースの予測作業とこれらのモデルの脆弱性と堅牢性を理解することは、現実世界のアプリケーションにとって重要である。 例えば、時空間GNNが現実世界の交通予測アプリケーションに脆弱性がある場合、ハッカーは簡単に結果を操作でき、交通渋滞を深刻に発生させ、都市規模を縮小する。 しかし、近年の研究では、ディープニューラルネットワーク(DNN)は、客観的分類やグラフ表現といった複数の領域で慎重に設計された摂動に弱いことが示されているが、現在の敵対的作業は、予測モデルにおける因果性や時空間メカニズムによる時空間予測に直接適用することはできない。 このギャップを埋めるため,本稿では空間集中攻撃 (sfa) を設計,1つの頂点を攻撃することで時空間gnnを破る。 そこで我々はまず,この因果性問題に対処する逆推定法を提案し,その評価関数としてユニバーサルアタック法を用いた遺伝的アルゴリズムを適用し,その逆推定に基づく最適化問題を解くことによって摂動を生成する。 実世界の交通データについて実験を行い,その結果から,SAの設計した頂点の摂動がグラフの大部分に拡散可能であることを示す。

Spatiotemporal forecasting plays an essential role in various applications in intelligent transportation systems (ITS), such as route planning, navigation, and traffic control and management. Deep Spatiotemporal graph neural networks (GNNs), which capture both spatial and temporal patterns, have achieved great success in traffic forecasting applications. Understanding how GNNs-based forecasting work and the vulnerability and robustness of these models becomes critical to real-world applications. For example, if spatiotemporal GNNs are vulnerable in real-world traffic prediction applications, a hacker can easily manipulate the results and cause serious traffic congestion and even a city-scale breakdown. However, despite that recent studies have demonstrated that deep neural networks (DNNs) are vulnerable to carefully designed perturbations in multiple domains like objection classification and graph representation, current adversarial works cannot be directly applied to spatiotemporal forecasting due to the causal nature and spatiotemporal mechanisms in forecasting models. To fill this gap, in this paper we design Spatially Focused Attack (SFA) to break spatiotemporal GNNs by attacking a single vertex. To achieve this, we first propose the inverse estimation to address the causality issue; then, we apply genetic algorithms with a universal attack method as the evaluation function to locate the weakest vertex; finally, perturbations are generated by solving an inverse estimation-based optimization problem. We conduct experiments on real-world traffic data and our results show that perturbations in one vertex designed by SA can be diffused into a large part of the graph.
翻訳日:2021-09-13 13:25:01 公開日:2021-09-10
# 学生のフィードバックで教えることを学ぶ

Learning to Teach with Student Feedback ( http://arxiv.org/abs/2109.04641v1 )

ライセンス: Link先を確認
Yitao Liu, Tianxiang Sun, Xipeng Qiu, Xuanjing Huang(参考訳) 知識蒸留(KD)は、大規模事前学習モデルの圧縮の有効性から注目されている。 典型的なKD手法では、大きな教師モデルによって生成されたソフトターゲットに合わせるために、小学生モデルを訓練する。 しかし、生徒と教師の交流は一方向である。 教師は通常、訓練された後に固定され、静的なソフトターゲットを蒸留する。 この一方的な相互作用は、教師が生徒の特徴と訓練の進捗を知覚できないことにつながる。 この問題に対処するために,教師が生徒のフィードバックから教わることのできる対話的知識蒸留(Interactive Knowledge Distillation, IKD)を提案する。 特に、IKDは教師モデルを訓練し、特定の学生のトレーニングステップごとに特定のソフトターゲットを生成する。 教師と生徒の協調的最適化は,教師のソフトターゲットで生徒を最適化するコースステップと,生徒のフィードバックで教師を最適化する試験ステップという2つの反復ステップによって達成される。 IKDは、既存のほとんどの知識蒸留法と直交する一般的なフレームワークである。 実験結果から、IKDは様々なNLPタスクにおいて従来のKD法よりも優れていた。

Knowledge distillation (KD) has gained much attention due to its effectiveness in compressing large-scale pre-trained models. In typical KD methods, the small student model is trained to match the soft targets generated by the big teacher model. However, the interaction between student and teacher is one-way. The teacher is usually fixed once trained, resulting in static soft targets to be distilled. This one-way interaction leads to the teacher's inability to perceive the characteristics of the student and its training progress. To address this issue, we propose Interactive Knowledge Distillation (IKD), which also allows the teacher to learn to teach from the feedback of the student. In particular, IKD trains the teacher model to generate specific soft target at each training step for a certain student. Joint optimization for both teacher and student is achieved by two iterative steps: a course step to optimize student with the soft target of teacher, and an exam step to optimize teacher with the feedback of student. IKD is a general framework that is orthogonal to most existing knowledge distillation methods. Experimental results show that IKD outperforms traditional KD methods on various NLP tasks.
翻訳日:2021-09-13 13:24:32 公開日:2021-09-10
# GDPA線形化による2値グラフ分類器の展開プロジェクションフリーSDP緩和

Unfolding Projection-free SDP Relaxation of Binary Graph Classifier via GDPA Linearization ( http://arxiv.org/abs/2109.04697v1 )

ライセンス: Link先を確認
Cheng Yang and Gene Cheung and Wai-tian Tan and Guangtao Zhai(参考訳) アルゴリズム展開は、モデルベースのアルゴリズムの各イテレーションをニューラルネットワーク層として実装することにより、解釈可能で控えめなニューラルネットワークアーキテクチャを作成する。 しかしながら、正の半定値(psd)コーン射影演算子を反復毎に展開する近位分割アルゴリズムは、必要となる全行列固有分解のため高価である。 本稿では、Gershgorin disc perfect alignment (GDPA) と呼ばれる最近の線形代数定理を利用して、2進グラフ分類器の半定値プログラミング緩和(SDR)のための射影自由アルゴリズムをアンロールする。 その結果、各イテレーションは線形プログラム(LP)と1つの極端な固有ベクトルしか計算しない。 非ローリングネットワーク内では、グラフエッジ重みを決定する確率勾配勾配勾配(SGD)によってパラメータを最適化する。 一 特徴距離を演算する計量行列であって、 二 局所線形埋め込み(LLE)により計算されるスパース重み行列 実験結果から,我々の未学習ネットワークは純粋モデルベースグラフ分類器よりも優れ,純粋データ駆動ネットワークに匹敵する性能を示した。

Algorithm unfolding creates an interpretable and parsimonious neural network architecture by implementing each iteration of a model-based algorithm as a neural layer. However, unfolding a proximal splitting algorithm with a positive semi-definite (PSD) cone projection operator per iteration is expensive, due to the required full matrix eigen-decomposition. In this paper, leveraging a recent linear algebraic theorem called Gershgorin disc perfect alignment (GDPA), we unroll a projection-free algorithm for semi-definite programming relaxation (SDR) of a binary graph classifier, where the PSD cone constraint is replaced by a set of "tightest possible" linear constraints per iteration. As a result, each iteration only requires computing a linear program (LP) and one extreme eigenvector. Inside the unrolled network, we optimize parameters via stochastic gradient descent (SGD) that determine graph edge weights in two ways: i) a metric matrix that computes feature distances, and ii) a sparse weight matrix computed via local linear embedding (LLE). Experimental results show that our unrolled network outperformed pure model-based graph classifiers, and achieved comparable performance to pure data-driven networks but using far fewer parameters.
翻訳日:2021-09-13 13:24:14 公開日:2021-09-10
# 表現補間による対向的対向学習

Counterfactual Adversarial Learning with Representation Interpolation ( http://arxiv.org/abs/2109.04746v1 )

ライセンス: Link先を確認
Wei Wang, Boxin Wang, Ning Shi, Jinfeng Li, Bingyu Zhu, Xiangyu Liu, Rong Zhang(参考訳) 深層学習モデルは論理的推論よりも統計的適合を好んでいる。 トレーニングデータに統計的バイアスがある場合、特に小さなデータシナリオでモデル性能を著しく制限する、スプリアス相関が記憶される可能性がある。 本研究では,因果的視点から問題に取り組むために,CAT(Counterfactual Adversarial Training framework)を導入する。 特に、特定のサンプルに対して、CATは、まず、逆向きに遅延空間補間を通して反ファクト表現を生成し、次に、各元の対数対に対して反ファクトリスク最小化(CRM)を行い、標本単位の損失重みを動的に調整し、真の因果効果をモデルが探索することを奨励する。 CATは、文分類、自然言語推論、質問応答など、さまざまな下流タスクにおいて、SOTAよりも顕著なパフォーマンス向上を実現している。

Deep learning models exhibit a preference for statistical fitting over logical reasoning. Spurious correlations might be memorized when there exists statistical bias in training data, which severely limits the model performance especially in small data scenarios. In this work, we introduce Counterfactual Adversarial Training framework (CAT) to tackle the problem from a causality perspective. Particularly, for a specific sample, CAT first generates a counterfactual representation through latent space interpolation in an adversarial manner, and then performs Counterfactual Risk Minimization (CRM) on each original-counterfactual pair to adjust sample-wise loss weight dynamically, which encourages the model to explore the true causal effect. Extensive experiments demonstrate that CAT achieves substantial performance improvement over SOTA across different downstream tasks, including sentence classification, natural language inference and question answering.
翻訳日:2021-09-13 13:23:51 公開日:2021-09-10
# コンフリクト解消のためのニューラルネットワークを用いた航空機進路変化のマルチラベル分類

Multi-label Classification of Aircraft Heading Changes Using Neural Network to Resolve Conflicts ( http://arxiv.org/abs/2109.04767v1 )

ライセンス: Link先を確認
Md Siddiqur Rahman, Laurent Lapasset and Josiane Mothe(参考訳) 航空機の衝突は、2機以上の航空機が一定距離を同時に横切るときに起こる。 このような紛争を解決するために、特定の航空管制官が割り当てられる。 コントローラはコンフリクトを解決するために様々な種類の情報を考慮する必要がある。 最も一般的で予備的な情報は、関連する航空機の座標位置である。 さらに、操縦士は、飛行計画、天候、制限領域など、より多くの情報を考慮する必要がある。 コントローラが直面する最も重要な課題は、関係する問題を考え、短時間で意思決定することです。 航空機の数が増えたため、制御装置の作業量を減らし、迅速な意思決定を支援することが不可欠である。 コンフリクトは様々な方法で解決できるため、この問題をマルチラベル分類問題と考える。 そこで我々は、与えられた紛争に対して複数の指導的助言を提供するマルチラベル分類モデルを提案する。 CRMLnetという名前のこのモデルは、多層ニューラルネットワークの新たな応用に基づいており、コントローラの意思決定を支援する。 他の機械学習モデルと比較すると、CRMLnetは98.72%、ROC0.999の精度で最高の結果を得た。 私たちが実験で開発したシミュレーションデータセットは、研究コミュニティに提供されます。

An aircraft conflict occurs when two or more aircraft cross at a certain distance at the same time. Specific air traffic controllers are assigned to solve such conflicts. A controller needs to consider various types of information in order to solve a conflict. The most common and preliminary information is the coordinate position of the involved aircraft. Additionally, a controller has to take into account more information such as flight planning, weather, restricted territory, etc. The most important challenges a controller has to face are: to think about the issues involved and make a decision in a very short time. Due to the increased number of aircraft, it is crucial to reduce the workload of the controllers and help them make quick decisions. A conflict can be solved in many ways, therefore, we consider this problem as a multi-label classification problem. In doing so, we are proposing a multi-label classification model which provides multiple heading advisories for a given conflict. This model we named CRMLnet is based on a novel application of a multi-layer neural network and helps the controllers in their decisions. When compared to other machine learning models, our CRMLnet has achieved the best results with an accuracy of 98.72% and ROC of 0.999. The simulated data set that we have developed and used in our experiments will be delivered to the research community.
翻訳日:2021-09-13 13:23:35 公開日:2021-09-10
# 環境にやさしい交通選択による大気汚染低減効果のシミュレーション

Simulating the Effects of Eco-Friendly Transportation Selections for Air Pollution Reduction ( http://arxiv.org/abs/2109.04831v1 )

ライセンス: Link先を確認
Keiichi Ochiai, Tsukasa Demizu, Shin Ishiguro, Shohei Maruyama, Akihiro Kawana(参考訳) CO2やPM2.5といった大気汚染の削減は、世界中の多くの国で最も重要な問題の一つである。 環境にやさしい輸送モードを選択することは、個人の日常生活における大気汚染を減らすための効果的なアプローチである。 本研究では,地図検索ログを用いて,エコフレンドリーな輸送モード選択による大気汚染低減効果をシミュレートする手法を提案する。 交通モードの選択を,大気汚染と平均走行時間の例としてco2排出量の総量に関する制約を伴い,組合せ最適化問題として定式化する。 最適化の結果、CO2排出量の総量は9.23%削減できるのに対し、平均走行時間は9.96%削減できることがわかった。 私たちの研究提案は、KDD Cup 2019で、正規機械学習コンペティショントラックタスク2で優勝しました。

Reducing air pollution, such as CO2 and PM2.5 emissions, is one of the most important issues for many countries worldwide. Selecting an environmentally friendly transport mode can be an effective approach of individuals to reduce air pollution in daily life. In this study, we propose a method to simulate the effectiveness of an eco-friendly transport mode selection for reducing air pollution by using map search logs. We formulate the transport mode selection as a combinatorial optimization problem with the constraints regarding the total amount of CO2 emissions as an example of air pollution and the average travel time. The optimization results show that the total amount of CO2 emissions can be reduced by 9.23%, whereas the average travel time can in fact be reduced by 9.96%. Our research proposal won first prize in Regular Machine Learning Competition Track Task 2 at KDD Cup 2019.
翻訳日:2021-09-13 13:23:19 公開日:2021-09-10
# マルチモーダルフェデレーション学習

Multimodal Federated Learning ( http://arxiv.org/abs/2109.04833v1 )

ライセンス: Link先を確認
Yuchen Zhao, Payam Barnaghi, Hamed Haddadi(参考訳) フェデレーション学習は、クライアントサーバ構造が現実世界のアプリケーションにおいてより優れたプライバシー保護と拡張性を提供するため、集中型機械学習の代替として提案されている。 IoTデバイスを備えたスマートホームのような多くのアプリケーションでは、センサー、視覚、オーディオデータなど、さまざまなモダリティからクライアント上のローカルデータが生成される。 既存の連合学習システムは単一のモダリティからのローカルデータのみを扱うため、システムのスケーラビリティは制限される。 本稿では,マルチモーダル・半教師付き学習フレームワークを提案する。このフレームワークは,クライアント上で異なるローカルデータモダリティから共有あるいは相関表現を抽出するよう,オートエンコーダを訓練する。 さらに、異なるデータモーダルで訓練されたローカルオートエンコーダを集約するマルチモーダルFedAvgアルゴリズムを提案する。 学習したグローバルオートエンコーダを,サーバ上の補助ラベル付きデータの助けを借りて下流分類タスクに使用する。 センサデータや深度カメラビデオ,rgbカメラビデオなど,さまざまなモダリティに関するフレームワークを実証的に評価した。 実験結果から,複数のモダリティからのデータをフェデレート学習に導入することで,その精度が向上することが示された。 さらに、サーバ上で教師付き学習を行うための1つのモダリティのみのラベル付きデータを用いて、学習したモデルを他のモダリティからのデータテストに適用して、適切な精度(例えば、最高のパフォーマンスの約70%)を達成することができる。

Federated learning is proposed as an alternative to centralized machine learning since its client-server structure provides better privacy protection and scalability in real-world applications. In many applications, such as smart homes with IoT devices, local data on clients are generated from different modalities such as sensory, visual, and audio data. Existing federated learning systems only work on local data from a single modality, which limits the scalability of the systems. In this paper, we propose a multimodal and semi-supervised federated learning framework that trains autoencoders to extract shared or correlated representations from different local data modalities on clients. In addition, we propose a multimodal FedAvg algorithm to aggregate local autoencoders trained on different data modalities. We use the learned global autoencoder for a downstream classification task with the help of auxiliary labelled data on the server. We empirically evaluate our framework on different modalities including sensory data, depth camera videos, and RGB camera videos. Our experimental results demonstrate that introducing data from multiple modalities into federated learning can improve its accuracy. In addition, we can use labelled data from only one modality for supervised learning on the server and apply the learned model to testing data from other modalities to achieve decent accuracy (e.g., approximately 70% as the best performance), especially when combining contributions from both unimodal clients and multimodal clients.
翻訳日:2021-09-13 13:23:07 公開日:2021-09-10
# SO-SLAM:スケール比および対称テクスチャ制約付き意味オブジェクトSLAM

SO-SLAM: Semantic Object SLAM with Scale Proportional and Symmetrical Texture Constraints ( http://arxiv.org/abs/2109.04884v1 )

ライセンス: Link先を確認
Ziwei Liao, Yutong Hu, Jiadong Zhang, Xianyu Qi, Xiaoyu Zhang, Wei Wang(参考訳) Object SLAMは、オブジェクトの概念をSLAM(Sultaneous Localization and Mapping)に導入し、移動ロボットやオブジェクトレベルのインタラクティブアプリケーションのための屋内シーンの理解を支援する。 最先端のオブジェクトSLAMシステムは、部分的な観察、閉塞、観測不能な問題、マッピング精度の制限、堅牢性といった課題に直面している。 本稿では,オブジェクト空間制約の導入に対応する新しい単項意味オブジェクトslam(so-slam)システムを提案する。 本稿では,3つの空間的制約,例えばスケール比例制約,対称テクスチャ制約,平面支持制約について検討する。 これらの制約に基づき、より堅牢なオブジェクト初期化法とオブジェクト指向最適化法という2つの新しい手法を提案する。 我々は,公開データセットと著者が記録した移動ロボットデータセット上でのアルゴリズムの性能を検証し,マッピング効果を大幅に改善した。 コードは以下でリリースする。 https://github.com/xunshanman/soslam。

Object SLAM introduces the concept of objects into Simultaneous Localization and Mapping (SLAM) and helps understand indoor scenes for mobile robots and object-level interactive applications. The state-of-art object SLAM systems face challenges such as partial observations, occlusions, unobservable problems, limiting the mapping accuracy and robustness. This paper proposes a novel monocular Semantic Object SLAM (SO-SLAM) system that addresses the introduction of object spatial constraints. We explore three representative spatial constraints, including scale proportional constraint, symmetrical texture constraint and plane supporting constraint. Based on these semantic constraints, we propose two new methods - a more robust object initialization method and an orientation fine optimization method. We have verified the performance of the algorithm on the public datasets and an author-recorded mobile robot dataset and achieved a significant improvement on mapping effects. We will release the code here: https://github.com/XunshanMan/SoSLAM.
翻訳日:2021-09-13 13:22:42 公開日:2021-09-10
# サブグループディスカバリはAIOpsにどのように役立つか

How Can Subgroup Discovery Help AIOps? ( http://arxiv.org/abs/2109.04909v1 )

ライセンス: Link先を確認
Youcef Remil(参考訳) 最新のITシステムの真の監視は、ビッグデータストリームの分析と監視を行う際に、スケーラビリティ、信頼性、効率性のより高い標準を必要とするため、新たな課題をもたらします。 規則に基づく推論エンジンは、異常の検出と解決の自動化において、メンテナンスシステムの重要なコンポーネントである。 しかし、それらは依然として単純で一般的なルールに限定されており、大量のデータや、専門的なシステム時代から学んだ、ITシステムによる大量のアラートを処理できない。 AIOps(Artificial Intelligence for Operation Systems)は、ビッグデータ上の高度な分析と機械学習を活用して、監視システムのすべてのステップを改善し自動化し、障害の検出や根本原因の特定、適切な治癒行動の適用においてインシデント管理を支援することを提案する。 それでも、最高のaiops技術は不透明なモデルに依存しており、採用を厳しく制限している。 この博士論文の一環として、サブグループの発見がaiopsにどのように役立つかを研究する。 この有望なデータマイニング技術は、データから興味深い仮説を抽出し、予測モデルの背後にあるプロセスを理解する可能性を提供する。 提案の関連性を確保するため、このプロジェクトには、フランスのソフトウェアエディタであるInfologicalのデータマイニング研究者と実践者の両方が関わっている。

The genuine supervision of modern IT systems brings new challenges as it requires higher standards of scalability, reliability and efficiency when analysing and monitoring big data streams. Rule-based inference engines are a key component of maintenance systems in detecting anomalies and automating their resolution. However, they remain confined to simple and general rules and cannot handle the huge amount of data, nor the large number of alerts raised by IT systems, a lesson learned from expert systems era. Artificial Intelligence for Operation Systems (AIOps) proposes to take advantage of advanced analytics and machine learning on big data to improve and automate every step of supervision systems and aid incident management in detecting outages, identifying root causes and applying appropriate healing actions. Nevertheless, the best AIOps techniques rely on opaque models, strongly limiting their adoption. As a part of this PhD thesis, we study how Subgroup Discovery can help AIOps. This promising data mining technique offers possibilities to extract interesting hypothesis from data and understand the underlying process behind predictive models. To ensure relevancy of our propositions, this project involves both data mining researchers and practitioners from Infologic, a French software editor.
翻訳日:2021-09-13 13:22:25 公開日:2021-09-10
# 実時間仮想試行のためのパーガーメントキャプチャと合成

Per Garment Capture and Synthesis for Real-time Virtual Try-on ( http://arxiv.org/abs/2109.04654v1 )

ライセンス: Link先を確認
Toby Chong, I-Chao Shen, Nobuyuki Umetani, Takeo Igarashi(参考訳) 仮想トライオンはコンピュータグラフィックスと人間のコンピュータインタラクションの有望な応用であり、特にパンデミックの間、現実世界に大きな影響を与える可能性がある。 既存の画像ベースの作品は、対象の衣服の単一の画像からトライオン画像を合成しようとするが、本質的には、可能な相互作用に反応する能力を制限する。 ポーズや体の大きさの変化によるしわの変化を再現することは困難であり、衣服を手で引っ張ったり伸ばしたりすることは困難である。 本稿では,多くのシステマティックな画像でモデルを訓練することにより,このようなリッチなインタラクションを扱うために,衣服ごとのキャプチャと合成ワークフローを提案する。 私たちのワークフローは2つの部分で構成されています。 我々は,運動マネキンを設計し,身体サイズやポーズの異なる対象衣服の詳細な変形を収集する効率的な捕獲プロセスを構築した。 さらに,カスタムデザインの計測服の使用を提案するとともに,測定服と対象服のペア画像も取得した。 次に、深部画像から画像への翻訳を用いて、測定服と対象服のマッピングを学ぶ。 顧客はオンラインショッピング中にターゲットの衣服をインタラクティブに試すことができる。

Virtual try-on is a promising application of computer graphics and human computer interaction that can have a profound real-world impact especially during this pandemic. Existing image-based works try to synthesize a try-on image from a single image of a target garment, but it inherently limits the ability to react to possible interactions. It is difficult to reproduce the change of wrinkles caused by pose and body size change, as well as pulling and stretching of the garment by hand. In this paper, we propose an alternative per garment capture and synthesis workflow to handle such rich interactions by training the model with many systematically captured images. Our workflow is composed of two parts: garment capturing and clothed person image synthesis. We designed an actuated mannequin and an efficient capturing process that collects the detailed deformations of the target garments under diverse body sizes and poses. Furthermore, we proposed to use a custom-designed measurement garment, and we captured paired images of the measurement garment and the target garments. We then learn a mapping between the measurement garment and the target garments using deep image-to-image translation. The customer can then try on the target garments interactively during online shopping.
翻訳日:2021-09-13 13:22:04 公開日:2021-09-10
# ReconfigISP: 再構成可能なカメライメージ処理パイプライン

ReconfigISP: Reconfigurable Camera Image Processing Pipeline ( http://arxiv.org/abs/2109.04760v1 )

ライセンス: Link先を確認
Ke Yu, Zexian Li, Yue Peng, Chen Change Loy, Jinwei Gu(参考訳) Image Signal Processor(ISP)は、センサー信号を画像に変換するデジタルカメラにおいて重要なコンポーネントであり、私たちの知覚と理解に役立ちます。 既存のisp設計は常に固定アーキテクチャを採用しており、例えばいくつかのシーケンシャルモジュールが厳密な順序で接続されている。 このような固定ISPアーキテクチャは、カメラセンサー、シーン、タスクが多様である現実世界のアプリケーションに最適である。 本研究では,アーキテクチャやパラメータを特定のデータやタスクに自動的に調整できる,再構成可能な新しいisp (reconfigisp) を提案する。 特に、複数のISPモジュールを実装し、差別化可能なプロキシをトレーニングすることで各モジュールのバックプロパゲーションを可能にし、人気のある差別化可能なニューラルネットワーク検索を活用し、最適なISPアーキテクチャを効果的に検索することができる。 すべてのケースにおいてプロキシネットワークの精度を維持するためにプロキシチューニング機構が採用されている。 異なるセンサー、光条件、効率の制約を備えた画像復元と物体検出に関する広範な実験により、再構成の有効性が検証された。 タスクごとにチューニングが必要なパラメータは数百です。

Image Signal Processor (ISP) is a crucial component in digital cameras that transforms sensor signals into images for us to perceive and understand. Existing ISP designs always adopt a fixed architecture, e.g., several sequential modules connected in a rigid order. Such a fixed ISP architecture may be suboptimal for real-world applications, where camera sensors, scenes and tasks are diverse. In this study, we propose a novel Reconfigurable ISP (ReconfigISP) whose architecture and parameters can be automatically tailored to specific data and tasks. In particular, we implement several ISP modules, and enable backpropagation for each module by training a differentiable proxy, hence allowing us to leverage the popular differentiable neural architecture search and effectively search for the optimal ISP architecture. A proxy tuning mechanism is adopted to maintain the accuracy of proxy networks in all cases. Extensive experiments conducted on image restoration and object detection, with different sensors, light conditions and efficiency constraints, validate the effectiveness of ReconfigISP. Only hundreds of parameters need tuning for every task.
翻訳日:2021-09-13 13:21:45 公開日:2021-09-10
# 負のサンプル: 時間的接地のための計量学習のルネサンス

Negative Sample Matters: A Renaissance of Metric Learning for Temporal Grounding ( http://arxiv.org/abs/2109.04872v1 )

ライセンス: Link先を確認
Zhenzhi Wang, Limin Wang, Tao Wu, Tianhao Li, Gangshan Wu(参考訳) 時間的接地は、ある自然言語クエリに関連する意味を持つビデオ内のビデオモーメントを時間的にローカライズすることを目的としている。 既存の手法は通常、複雑なヘッドと融合戦略の設計に焦点をあてて、融合表現に検出または回帰パイプラインを適用する。 代わりに,計量学習問題としての時間的接地という観点から,同時埋め込み空間における言語クエリとビデオモーメントの関係を直接モデル化する2重マッチングネットワーク(dmn)を提案する。 この新しいメトリック学習フレームワークでは,2つの新たな側面から負のサンプルを完全に活用することが可能だ。2つのマッチングスキームから負のクロスモーダルペアを構築し,異なるビデオ間で負のペアをマイニングする。 これらの新たな負のサンプルは、相互情報の最大化のために、クロスモーダルペア識別による2つのモードの合同表現学習を強化することができる。 実験により、DMNは4つのビデオグラウンドベンチマークの最先端手法と比較して高い競争力を発揮することが示された。 DMNに基づいて,第3回PICワークショップのSTVGチャレンジの勝者ソリューションを提案する。 このことは, 距離学習が, 結合埋め込み空間における重要な相互関係を捉えることによって, 時間的接地のための有望な手法であることを示唆している。

Temporal grounding aims to temporally localize a video moment in the video whose semantics are related to a given natural language query. Existing methods typically apply a detection or regression pipeline on the fused representation with a focus on designing complicated heads and fusion strategies. Instead, from a perspective on temporal grounding as a metric-learning problem, we present a Dual Matching Network (DMN), to directly model the relations between language queries and video moments in a joint embedding space. This new metric-learning framework enables fully exploiting negative samples from two new aspects: constructing negative cross-modal pairs from a dual matching scheme and mining negative pairs across different videos. These new negative samples could enhance the joint representation learning of two modalities via cross-modal pair discrimination to maximize their mutual information. Experiments show that DMN achieves highly competitive performance compared with state-of-the-art methods on four video grounding benchmarks. Based on DMN, we present a winner solution for STVG challenge of the 3rd PIC workshop. This suggests that metric-learning is still a promising method for temporal grounding via capturing the essential cross-modal correlation in a joint embedding space.
翻訳日:2021-09-13 13:21:27 公開日:2021-09-10
# 絵画としての盲点: マスクをガイドした残差畳み込みによる自己監督型認知

View Blind-spot as Inpainting: Self-Supervised Denoising with Mask Guided Residual Convolution ( http://arxiv.org/abs/2109.04970v1 )

ライセンス: Link先を確認
Yuhongze Zhou, Liguang Zhou, Tin Lun Lam, Yangsheng Xu(参考訳) 近年, 自己監督型遮音法が目覚ましい性能を示し, 監視型遮音法におけるノイズクリーン画像対の集音を回避し, 実世界での遮音性を高めている。 知名度の高い自己監督の教育戦略の1つは盲点訓練法である。 しかし、ネットワークアーキテクチャの面から、盲点ベースの自己否定性を改善する試みがいくつかある。 本稿では,盲点戦略を直観的に捉え,隣接する画素を用いて処理した画素を塗装プロセスとして予測するプロセスについて考察する。 そこで我々は,新しいマスクガイド型残差畳み込み(MGRConv)を共通の畳み込みニューラルネットワーク(例えばU-Net)に導入し,盲点に基づく復調を促進する。 我々のMGRConvはソフトな部分的畳み込みと見なすことができ、部分的畳み込み、学習可能な注意マップ、ゲート的畳み込みのトレードオフを見つけることができる。 適切なマスク制約で動的マスク学習を可能にする。 部分畳み込みやゲート畳み込みとは異なり、ネットワーク学習に適度な自由を与える。 また、学習可能なアテンションマップとは異なり、マスクアクティベーションのために外部学習可能なパラメータを利用するのを避ける。 実験により,提案するプラグイン・アンド・プレイmgrconvは,既存の単一画像ベースとデータセットベースの両方の手法で有望な結果が得られるように,ブラインドスポットに基づくデノイジングネットワークを支援できることを示した。

In recent years, self-supervised denoising methods have shown impressive performance, which circumvent painstaking collection procedure of noisy-clean image pairs in supervised denoising methods and boost denoising applicability in real world. One of well-known self-supervised denoising strategies is the blind-spot training scheme. However, a few works attempt to improve blind-spot based self-denoiser in the aspect of network architecture. In this paper, we take an intuitive view of blind-spot strategy and consider its process of using neighbor pixels to predict manipulated pixels as an inpainting process. Therefore, we propose a novel Mask Guided Residual Convolution (MGRConv) into common convolutional neural networks, e.g. U-Net, to promote blind-spot based denoising. Our MGRConv can be regarded as soft partial convolution and find a trade-off among partial convolution, learnable attention maps, and gated convolution. It enables dynamic mask learning with appropriate mask constrain. Different from partial convolution and gated convolution, it provides moderate freedom for network learning. It also avoids leveraging external learnable parameters for mask activation, unlike learnable attention maps. The experiments show that our proposed plug-and-play MGRConv can assist blind-spot based denoising network to reach promising results on both existing single-image based and dataset-based methods.
翻訳日:2021-09-13 13:20:55 公開日:2021-09-10
# 合成データの相互作用モデルと一般化スコアマッチング

Interaction Models and Generalized Score Matching for Compositional Data ( http://arxiv.org/abs/2109.04671v1 )

ライセンス: Link先を確認
Shiqing Yu, Mathias Drton, Ali Shojaie(参考訳) マイクロバイオームデータの分析のような応用は、組成データ、すなわち相対比率を含む確率ベクトルの形での多変量データに対する統計手法への新たな関心をもたらした。 特に、そのような相対比の相互作用のモデル化にはかなりの関心がある。 そこで本研究では,確率的単純度をベースとして,対相互作用の一般的なパターンを満足する指数関数モデルを提案する。 特別の場合として、ディリクレ分布の族や、アッチソンの加法的ロジスティック正規分布がある。 一般に、我々が考える分布は正規化定数を計算するのが難しい密度を持つ。 この問題を回避するため,スコアマッチングの一般化版に基づく効果的な推定手法を考案する。 提案手法の高次元解析により, 従来研究されていた全次元領域と同様に, シンプル領域を効率的に扱うことを示す。

Applications such as the analysis of microbiome data have led to renewed interest in statistical methods for compositional data, i.e., multivariate data in the form of probability vectors that contain relative proportions. In particular, there is considerable interest in modeling interactions among such relative proportions. To this end we propose a class of exponential family models that accommodate general patterns of pairwise interaction while being supported on the probability simplex. Special cases include the family of Dirichlet distributions as well as Aitchison's additive logistic normal distributions. Generally, the distributions we consider have a density that features a difficult to compute normalizing constant. To circumvent this issue, we design effective estimation methods based on generalized versions of score matching. A high-dimensional analysis of our estimation methods shows that the simplex domain is handled as efficiently as previously studied full-dimensional domains.
翻訳日:2021-09-13 13:20:29 公開日:2021-09-10
# スケーラブルモデル-データ合成のための低位統計有限要素

Low-rank statistical finite elements for scalable model-data synthesis ( http://arxiv.org/abs/2109.04757v1 )

ライセンス: Link先を確認
Connor Duffin, Edward Cripps, Thomas Stemler, Mark Girolami(参考訳) 物理的に派生した数学モデルへの統計的学習の追加が文学で注目を集めている。 近年のアプローチは、データ駆動ベイズ統計手法による支配方程式の基礎物理学を強化することである。 statfemと呼ばれるこの手法は、支配方程式に確率的強制を組み込むことによって、事前のモデル誤特定を認識する。 追加データを受け取ると、離散化有限要素溶液の後方分布を古典的ベイズフィルタ技術を用いて更新する。 その結果、モデル不特定性に関するユビキタスな問題と、真の関心の過程を表すことを意図したデータに関する不確実性を共同で定量化する。 この魅力にも拘わらず、計算のスケーラビリティは、物理的および工業的文脈で通常経験される高次元問題へのstatFEMの応用の課題である。 本論文は,このハードルを,全ランク代替の上位次数モードから得られる濃度共分散行列の低ランク近似を組み込むことで克服する。 実験およびシミュレーションデータを用いて、次元を増加させる一連の反応拡散問題において、後平均と分散の両方において、情報の損失を最小限に抑えながらスパースに観測されたデータ生成プロセスを再構成し、複雑なシステムへの物理的および確率的アプローチのさらなる統合への道を開く。

Statistical learning additions to physically derived mathematical models are gaining traction in the literature. A recent approach has been to augment the underlying physics of the governing equations with data driven Bayesian statistical methodology. Coined statFEM, the method acknowledges a priori model misspecification, by embedding stochastic forcing within the governing equations. Upon receipt of additional data, the posterior distribution of the discretised finite element solution is updated using classical Bayesian filtering techniques. The resultant posterior jointly quantifies uncertainty associated with the ubiquitous problem of model misspecification and the data intended to represent the true process of interest. Despite this appeal, computational scalability is a challenge to statFEM's application to high-dimensional problems typically experienced in physical and industrial contexts. This article overcomes this hurdle by embedding a low-rank approximation of the underlying dense covariance matrix, obtained from the leading order modes of the full-rank alternative. Demonstrated on a series of reaction-diffusion problems of increasing dimension, using experimental and simulated data, the method reconstructs the sparsely observed data-generating processes with minimal loss of information, in both posterior mean and the variance, paving the way for further integration of physical and probabilistic approaches to complex systems.
翻訳日:2021-09-13 13:20:17 公開日:2021-09-10
# オフライン強化学習のための状態行動バランス重み推定

Projected State-action Balancing Weights for Offline Reinforcement Learning ( http://arxiv.org/abs/2109.04640v1 )

ライセンス: Link先を確認
Jiayi Wang, Zhengling Qi and Raymond K.W. Wong(参考訳) オフライン政策評価(OPE)は強化学習(RL)における基本的な課題である。 本稿では, 無限ホライゾンマルコフ決定過程の枠組みの下で, 潜在的に異なる方針から生成された事前収集データに基づく目標政策の価値推定について述べる。 RLにおける最近開発された限界値サンプリング法と因果推論における共変量バランスのアイデアに動機付けられ,政策値推定のためのおよそ状態-作用バランスの重み付き推定器を提案する。 これらの重みの収束率を求め,提案する値推定器が技術的条件下では半パラメトリック効率であることを示す。 漸近論の観点では,各軌道における軌道数と決定点数の両方について結果がスケールする。 したがって、決定点の数にばらつきがある場合、限定的な数の被写体で一貫性を得ることができる。 さらに, 独立興味を持つかもしれない ope 問題の難易度を特徴付ける最初の試みを行った。 数値実験により提案した推定器の性能を実証した。

Offline policy evaluation (OPE) is considered a fundamental and challenging problem in reinforcement learning (RL). This paper focuses on the value estimation of a target policy based on pre-collected data generated from a possibly different policy, under the framework of infinite-horizon Markov decision processes. Motivated by the recently developed marginal importance sampling method in RL and the covariate balancing idea in causal inference, we propose a novel estimator with approximately projected state-action balancing weights for the policy value estimation. We obtain the convergence rate of these weights, and show that the proposed value estimator is semi-parametric efficient under technical conditions. In terms of asymptotics, our results scale with both the number of trajectories and the number of decision points at each trajectory. As such, consistency can still be achieved with a limited number of subjects when the number of decision points diverges. In addition, we make a first attempt towards characterizing the difficulty of OPE problems, which may be of independent interest. Numerical experiments demonstrate the promising performance of our proposed estimator.
翻訳日:2021-09-13 13:19:44 公開日:2021-09-10
# ソフトウェア工学領域における自然言語処理における事前学習トランスの妥当性について

On the validity of pre-trained transformers for natural language processing in the software engineering domain ( http://arxiv.org/abs/2109.04738v1 )

ライセンス: Link先を確認
Julian von der Mosel, Alexander Trautsch, Steffen Herbold(参考訳) トランスフォーマーは、多くの領域における自然言語処理の最先端技術であり、ソフトウェア工学の研究でも牽引力を使用している。 このようなモデルは、通常一般的なドメインから、大量のデータで事前学習される。 しかし、ソフトウェア工学領域におけるトランスフォーマーの妥当性、すなわち、ソフトウェア工学のコンテキストにおける単語や文の理解がいかに優れているか、そしてこれが最先端の技術をどのように改善するかについて、我々は限られた理解しか持たない。 この記事では、この複雑な、しかし重要な問題を取り上げます。 ソフトウェア工学データを用いて訓練されたBERTトランスフォーマーモデルを,複数の次元の一般ドメインデータに基づくトランスフォーマーと比較する。 ソフトウェア工学の文脈を理解する必要のあるタスクに対しては、ソフトウェア工学データによる事前学習が重要であり、汎用ドメインモデルは、ソフトウェア工学領域内においても、一般的な言語理解に十分であることを示す。

Transformers are the current state-of-the-art of natural language processing in many domains and are using traction within software engineering research as well. Such models are pre-trained on large amounts of data, usually from the general domain. However, we only have a limited understanding regarding the validity of transformers within the software engineering domain, i.e., how good such models are at understanding words and sentences within a software engineering context and how this improves the state-of-the-art. Within this article, we shed light on this complex, but crucial issue. We compare BERT transformer models trained with software engineering data with transformers based on general domain data in multiple dimensions: their vocabulary, their ability to understand which words are missing, and their performance in classification tasks. Our results show that for tasks that require understanding of the software engineering context, pre-training with software engineering data is valuable, while general domain models are sufficient for general language understanding, also within the software engineering domain.
翻訳日:2021-09-13 13:19:26 公開日:2021-09-10
# 超広帯域受信信号強度とガウス過程を用いたヘッド推定

Heading Estimation Using Ultra-Wideband Received Signal Strength and Gaussian Processes ( http://arxiv.org/abs/2109.04868v1 )

ライセンス: Link先を確認
Daniil Lisus, Charles Champagne Cossette, Mohammed Shalaby, James Richard Forbes(参考訳) ロボットは、タスクを自律的に実行する位置と方向を決定する能力を持っていることが不可欠である。 磁気歪みが磁力計に基づく方向推定を困難にする屋内環境では、特にヘッド推定は困難である。 ウルトラワイドバンド(UWB)トランシーバーは、屋内のローカライゼーション問題において一般的である。 本文は,UWB範囲と受信信号強度の測定値を用いてロボットの進路を推定する方法を実験的に示す。 UWBアンテナのRSSは方向によって変化する。 ガウス過程(GP)は、UWB範囲とRSS入力から向き出力へのデータ駆動関係を学習するために用いられる。 拡張カルマンフィルタにおけるジャイロスコープと組み合わせることで、UWBとジャイロスコープ測定のみを用いる方向推定法を実現する。

It is essential that a robot has the ability to determine its position and orientation to execute tasks autonomously. Heading estimation is especially challenging in indoor environments where magnetic distortions make magnetometer-based heading estimation difficult. Ultra-wideband (UWB) transceivers are common in indoor localization problems. This letter experimentally demonstrates how to use UWB range and received signal strength (RSS) measurements to estimate robot heading. The RSS of a UWB antenna varies with its orientation. As such, a Gaussian process (GP) is used to learn a data-driven relationship from UWB range and RSS inputs to orientation outputs. Combined with a gyroscope in an invariant extended Kalman filter, this realizes a heading estimation method that uses only UWB and gyroscope measurements.
翻訳日:2021-09-13 13:19:09 公開日:2021-09-10
# NeuralFMUを用いたヒト心血管系のハイブリッドモデリング

Hybrid modeling of the human cardiovascular system using NeuralFMUs ( http://arxiv.org/abs/2109.04880v1 )

ライセンス: Link先を確認
Tobias Thummerer, Johannes Tintenherr, Lars Mikelsons(参考訳) 第一原理と機械学習のモデルを組み合わせたハイブリッドモデリングは、ますます注目を集める新たな研究分野である。 ハイブリッドモデルがアカデミックな例で見事な結果を生み出すとしても、実世界のアプリケーションでハイブリッドモデリングを使うことを妨げる技術的な課題は依然として存在する。 ニューラルフムス, fmu, 数値odeソルバ, および ann の融合を提示することにより, 様々なモデリングツールから得られた様々な第一原理モデルをハイブリッドモデルの一部として用いる方法を模索している。 この貢献は、複雑な実世界の例のハイブリッドモデリングを扱っている: ヒトの心血管系(動脈側)の簡単な1d流体モデルから始め、データから動脈弾性のような無視された物理的効果を学ぶことを目的としている。 我々は、ハイブリッドモデリングプロセスがより快適で、システム知識がより少なく、従って第一原理のみに基づいたモデリングよりもエラーやすいことを示します。 さらに, 計算性能は純第一原理ホワイトボックスモデルと比較して向上したが, 血行力学的量の正確性に関する要件を満たしたままであった。 提案手法の使用は一般に説明され、医学領域内外における他のモデリングやシミュレーションの用途の例として、考えられるユースケースが有用である。

Hybrid modeling, the combination of first principle and machine learning models, is an emerging research field that gathers more and more attention. Even if hybrid models produce formidable results for academic examples, there are still different technical challenges that hinder the use of hybrid modeling in real-world applications. By presenting NeuralFMUs, the fusion of a FMU, a numerical ODE solver and an ANN, we are paving the way for the use of a variety of first principle models from different modeling tools as parts of hybrid models. This contribution handles the hybrid modeling of a complex, real-world example: Starting with a simplified 1D-fluid model of the human cardiovascular system (arterial side), the aim is to learn neglected physical effects like arterial elasticity from data. We will show that the hybrid modeling process is more comfortable, needs less system knowledge and is therefore less error-prone compared to modeling solely based on first principle. Further, the resulting hybrid model has improved in computation performance, compared to a pure first principle white-box model, while still fulfilling the requirements regarding accuracy of the considered hemodynamic quantities. The use of the presented techniques is explained in a general manner and the considered use-case can serve as example for other modeling and simulation applications in and beyond the medical domain.
翻訳日:2021-09-13 13:18:55 公開日:2021-09-10
# 都市部における市民中心の最適な電気自動車充電ステーション:マラガの事例

Citizen centric optimal electric vehicle charging stations locations in a full city: case of Malaga ( http://arxiv.org/abs/2109.04975v1 )

ライセンス: Link先を確認
Christian Cintrano, Jamal Toutouh, and Enrique Alba(参考訳) 本稿では,EV-CSL(EV-CSL)問題を定義し,都市における電気自動車充電ステーションの配置に関する問題点について述べる。 このアイデアは、市民が自動車を充電するために旅行する距離を最小化することにある。 EV-CSLは、設置する充電ステーションの最大数と電力需要を考慮している。 遺伝的アルゴリズム (GA) と可変近傍探索 (VNS) の2つのメタヒューリスティックスを適用した。 スペインのマラガ市における現実的なシナリオに関する実験分析は、メタヒューリスティクスがマラガの駅の設置を劇的に改善する競争的解決策を見つけることができることを示した。 GAは統計学的に最良の結果を与えた。

This article presents the problem of locating electric vehicle (EV) charging stations in a city by defining the Electric Vehicle Charging Stations Locations (EV-CSL) problem. The idea is to minimize the distance the citizens have to travel to charge their vehicles. EV-CSL takes into account the maximum number of charging stations to install and the electric power requirements. Two metaheuristics are applied to address the relying optimization problem: a genetic algorithm (GA) and a variable neighborhood search (VNS). The experimental analysis over a realistic scenario of Malaga city, Spain, shows that the metaheuristics are able to find competitive solutions which dramatically improve the actual installation of the stations in Malaga. GA provided statistically the best results.
翻訳日:2021-09-13 13:18:33 公開日:2021-09-10
# スケジューリング,割り当て,公平選択のための局所最適数集合分割法

Efficient Locally Optimal Number Set Partitioning for Scheduling, Allocation and Fair Selection ( http://arxiv.org/abs/2109.04809v1 )

ライセンス: Link先を確認
Kaan Gokcesu, Hakan Gokcesu(参考訳) 分割和の差が最小となる)集合分割問題の最適化版について検討し、決定論の文献に多くの応用がある。 集合分割問題はNPハードであり、解くのに指数関数的複雑性(すなわち、難解)を必要とするが、このNPハード問題のより弱いバージョンを定式化し、そこでは局所最適解を求める。 提案アルゴリズムは, ほぼ線形時間で局所最適解を求めることができることを示す。 我々のアルゴリズムは入力集合に正の要素も整数の要素も必要とせず、より広く適用できる。

We study the optimization version of the set partition problem (where the difference between the partition sums are minimized), which has numerous applications in decision theory literature. While the set partitioning problem is NP-hard and requires exponential complexity to solve (i.e., intractable); we formulate a weaker version of this NP-hard problem, where the goal is to find a locally optimal solution. We show that our proposed algorithms can find a locally optimal solution in near linear time. Our algorithms require neither positive nor integer elements in the input set, hence, they are more widely applicable.
翻訳日:2021-09-13 13:18:19 公開日:2021-09-10
# ProcK: 知識集約型プロセスのための機械学習

ProcK: Machine Learning for Knowledge-Intensive Processes ( http://arxiv.org/abs/2109.04881v1 )

ライセンス: Link先を確認
Tobias Jacobs, Jingyi Yu, Julia Gastinger, Timo Sztyler(参考訳) プロセスマイニングは、ビジネスプロセス実行ログからの知識の抽出を扱う。 プロセスモデル生成やコンフォーマンスチェックのような従来のプロセスマイニングタスクは、各イベントがケース識別子、アクティビティタイプ、タイムスタンプのみによって特徴づけられる最小限の機能セットに依存しています。 対照的に、現代の機械学習の成功は、トレーニング中に利用可能なデータを直接入力として取り、機能層を自動構築するモデルに基づいている。 本稿では,イベントログ形式の逐次データとグラフ構造知識ベースで表現されるリッチな意味情報の両方を考慮したビジネスプロセス予測モデルを構築するための新しいパイプラインであるprock(process & knowledge)を紹介する。 ハイブリッドアプローチにより、ProcKは組織のデータベースに存在するすべての情報を柔軟に利用できるようになる。 関係データベースから相互リンクされたイベントログと知識ベースを抽出するコンポーネントは、パイプラインの一部である。 OULADのeラーニングデータセットで予測タスクをトレーニングすることで、ProcKのパワーを実証し、学生の退学を予測し、その成功を予測するタスクにおいて最先端のパフォーマンスを達成する。 また,試験結果の予測や,授業初週に記録されたデータのみを考慮に入れた早期予測など,追加の機械学習タスクにも本手法を適用した。

Process mining deals with extraction of knowledge from business process execution logs. Traditional process mining tasks, like process model generation or conformance checking, rely on a minimalistic feature set where each event is characterized only by its case identifier, activity type, and timestamp. In contrast, the success of modern machine learning is based on models that take any available data as direct input and build layers of features automatically during training. In this work, we introduce ProcK (Process & Knowledge), a novel pipeline to build business process prediction models that take into account both sequential data in the form of event logs and rich semantic information represented in a graph-structured knowledge base. The hybrid approach enables ProcK to flexibly make use of all information residing in the databases of organizations. Components to extract inter-linked event logs and knowledge bases from relational databases are part of the pipeline. We demonstrate the power of ProcK by training it for prediction tasks on the OULAD e-learning dataset, where we achieve state-of-the-art performance on the tasks of predicting student dropout from courses and predicting their success. We also apply our method on a number of additional machine learning tasks, including exam score prediction and early predictions that only take into account data recorded during the first weeks of the courses.
翻訳日:2021-09-13 13:18:07 公開日:2021-09-10
# マルチエージェント深部強化学習(MADRL)とマルチユーザMIMOシステム

Multi-agent deep reinforcement learning (MADRL) meets multi-user MIMO systems ( http://arxiv.org/abs/2109.04986v1 )

ライセンス: Link先を確認
Heunchul Lee, Jaeseong Jeong(参考訳) マルチエージェント深部強化学習(MADRL)は、高次元連続行動空間を持つ複数の意思決定者(またはアクター)を含む無線環境における課題に対する有望なアプローチである。 本稿では,MISO(Multiple-input Single-output)干渉チャネル(IFC)に対する達成可能なレート領域の外部バウンダリ(pareto-boundary)を実現するために,MADRLベースのアプローチを提案する。 miso ifc設定における部分可観測性と多次元連続アクション空間を有する複数のアクター(またはエージェント)の2つの主な課題に対処するために、部分可観測性を持つ分散アクターがグローバル情報による共有批判の助けを借りて多次元連続ポリシーを学習できるマルチエージェントのdeep deterministic policy gradient(ma-ddpg)フレームワークを採用する。 また、無線通信で広く使われている信号の複雑なベースバンド表現による位相曖昧性にも対処する。 そこで本研究では, 位相曖昧性がトレーニング性能に与える影響を緩和するために, 相曖昧性除去 (pae) と呼ばれる訓練法を提案し, 無線通信システムにおけるma-ddpgの高速化と性能向上に繋がる。 シミュレーションの結果,MA-DDPGはMISO IFC環境下で準最適プリコーディング戦略を学習できることがわかった。 我々の知る限り、MA-DDPGフレームワークは、マルチセルマルチユーザマルチアンテナシステムにおいて、達成可能なレート領域のパリトバウンダリを実現するために、プリコーダを協調的に最適化できることを示す最初の試みである。

A multi-agent deep reinforcement learning (MADRL) is a promising approach to challenging problems in wireless environments involving multiple decision-makers (or actors) with high-dimensional continuous action space. In this paper, we present a MADRL-based approach that can jointly optimize precoders to achieve the outer-boundary, called pareto-boundary, of the achievable rate region for a multiple-input single-output (MISO) interference channel (IFC). In order to address two main challenges, namely, multiple actors (or agents) with partial observability and multi-dimensional continuous action space in MISO IFC setup, we adopt a multi-agent deep deterministic policy gradient (MA-DDPG) framework in which decentralized actors with partial observability can learn a multi-dimensional continuous policy in a centralized manner with the aid of shared critic with global information. Meanwhile, we will also address a phase ambiguity issue with the conventional complex baseband representation of signals widely used in radio communications. In order to mitigate the impact of phase ambiguity on training performance, we propose a training method, called phase ambiguity elimination (PAE), that leads to faster learning and better performance of MA-DDPG in wireless communication systems. The simulation results exhibit that MA-DDPG is capable of learning a near-optimal precoding strategy in a MISO IFC environment. To the best of our knowledge, this is the first work to demonstrate that the MA-DDPG framework can jointly optimize precoders to achieve the pareto-boundary of achievable rate region in a multi-cell multi-user multi-antenna system.
翻訳日:2021-09-13 13:17:44 公開日:2021-09-10