このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220523となっている論文です。

PDF登録状況(公開日: 20220523)

TitleAuthorsAbstract論文公表日・翻訳日
# 例外光子封鎖:キラルな例外点を持つ工学的光子封鎖

Exceptional Photon Blockade: Engineering Photon Blockade with Chiral Exceptional Points ( http://arxiv.org/abs/2001.09492v2 )

ライセンス: Link先を確認
R. Huang, \c{S}. K. \"Ozdemir, J.-Q. Liao, F. Minganti, L.-M. Kuang, Franco Nori, and H. Jing(参考訳) non-hermitian spectrum degeneracies(例外点(eps))は、固有値と関連する系の固有状態の同時結合を特徴とする。 EP効果の宿主とその応用は、損失誘起洗浄、単一モードレーザー、EP増強センシングなど古典的な領域で明らかにされている。 ここでは、EP誘起光モードと非線形誘起非調和エネルギーレベル間隔の非対称結合により、Kerrマイクロリング共振器に純粋に量子効果が生じることを示す。 この光子遮断の顕著な特徴は、エルミート系では光子によるトンネルのみにつながり、光子封鎖に繋がらない2光子共鳴に現れることである。 epから遠ざかるようにシステムをチューニングすることで、量子相関を制御でき、周波数調整可能な単一光子生成とアンチバンチング・ツー・バンチング光スイッチの潜在的な利用が示唆される。 我々の研究は、EPエンジニアリングされた純粋量子効果に新たな光を当て、様々な単一光子量子EPデバイスの製造と利用にユニークな機会を提供する。

Non-Hermitian spectral degeneracies, known as exceptional points (EPs), feature simultaneous coalescence of both eigenvalues and the associated eigenstates of a system. A host of intriguing EP effects and their applications have been revealed in the classical realm, such as loss-induced lasing, single-mode laser, and EP-enhanced sensing. Here we show that a purely quantum effect, known as single-photon blockade, emerges in a Kerr microring resonator due to EP-induced asymmetric coupling between the optical modes and the nonlinearity-induced anharmonic energy-level spacing. A striking feature of this photon blockade is that it emerges at two-photon resonance which in Hermitian systems will only lead to photon-induced tunneling but not to photon blockade. By tuning the system towards to or away from an EP, one can control quantum correlations, implying the potential use of our system for frequency tunable single-photon generation and an antibunching-to-bunching light switch. Our work sheds new light on EP-engineered purely quantum effects, providing unique opportunities for making and utilizing various single-photon quantum EP devices.
翻訳日:2023-06-05 21:46:36 公開日:2022-05-23
# デュアルバンド安定化600kmリピータ型量子通信

600 km repeater-like quantum communications with dual-band stabilisation ( http://arxiv.org/abs/2012.15099v2 )

ライセンス: Link先を確認
Mirko Pittaluga, Mariella Minder, Marco Lucamarini, Mirko Sanzaro, Robert I. Woodward, Ming-Jun Li, Zhiliang Yuan and Andrew J. Shields(参考訳) ツインフィールド(TF)量子鍵分布(QKD)は、QKDの速度-距離関係を根本的に変更し、単一ノード量子リピータのスケーリングを提供する。 最近の実験では、TF-QKDが許容する長距離通信を安全にするための新たな機会が示されているが、その真の可能性を解き放つことが困難な課題である。 これまでの実証では、量子信号と同じ波長で強い安定化信号が必要であり、距離とビットレートを制限するレイリー散乱ノイズを発生させるのが避けられない。 本稿では,過去の限界を克服し,他の位相感応性単光子アプリケーションに適用可能な,新しいデュアルバンド安定化スキームを提案する。 チャネル安定化とプロトコル符号化のために2つの異なる波長を多重化することにより,記録通信距離が555km,605kmで,それぞれ有限サイズと漸近的な領域でリピータ様鍵レートを提供し,長距離のセキュア鍵レートを2桁大きくして実用上有意な値にする。

Twin-field (TF) quantum key distribution (QKD) fundamentally alters the rate-distance relationship of QKD, offering the scaling of a single-node quantum repeater. Although recent experiments have demonstrated the new opportunities for secure long-distance communications allowed by TF-QKD, formidable challenges remain to unlock its true potential. Previous demonstrations have required intense stabilisation signals at the same wavelength as the quantum signals, thereby unavoidably generating Rayleigh scattering noise that limits the distance and bit rate. Here, we introduce a novel dual-band stabilisation scheme that overcomes past limitations and can be adapted to other phase-sensitive single-photon applications. Using two different optical wavelengths multiplexed together for channel stabilisation and protocol encoding, we develop a setup that provides repeater-like key rates over record communication distances of 555 km and 605 km in the finite-size and asymptotic regimes respectively, and increases the secure key rate at long distance by two orders of magnitude to values of practical significance.
翻訳日:2023-04-18 08:08:42 公開日:2022-05-23
# マグノンの量子非破壊検出による軸索探索

Axion search with quantum nondemolition detection of magnons ( http://arxiv.org/abs/2102.08764v4 )

ライセンス: Link先を確認
Tomonori Ikeda, Asuka Ito, Kentaro Miuchi, Jiro Soda, Hisaya Kurashige, Yutaka Shikano(参考訳) axionは強いcp問題に対する解決策を提供し、ダークマターの主要な候補の一つである。 本稿では,Dine-Fischer-Srednicki-Zhitnitsky (DFSZ)モデルにより予測される軸-電子相互作用によって励起されるであろう固体中の集合スピン励起の量子化という,マグノンの非劣化検出に基づく軸イオン検出手法を提案する。 プロトタイプ検出器は、電子スピンターゲットとしての強磁性球体と超伝導量子ビットとからなる。 どちらもマイクロ波キャビティ内に埋め込まれており、フェライト結晶の均一な静磁場モードと量子ビットの間のコヒーレントな効果的な相互作用をもたらす。 g_{aee}<2.6\times10^{-6}$ 95%信頼レベルでアキオンと電子の間のカップリング定数の上限を33.117$$$$\mu$ev$<m_{a}<33.130$$\mu$evとする。

The axion provides a solution for the strong CP problem and is one of the leading candidates for dark matter. This paper proposes an axion detection scheme based on quantum nondemolition detection of magnon, i.e., quanta of collective spin excitations in solid, which is expected to be excited by the axion-electron interaction predicted by the Dine-Fischer-Srednicki-Zhitnitsky (DFSZ) model. The prototype detector is composed of a ferrimagnetic sphere as an electronic spin target and a superconducting qubit. Both of these are embedded inside a microwave cavity, which leads to a coherent effective interaction between the uniform magnetostatic mode in the ferrimagnetic crystal and the qubit. An upper limit for the coupling constant between an axion and an electron is obtained as $g_{aee}<2.6\times10^{-6}$ at the 95% confidence level for the axion mass of $33.117$$\mu$eV $<m_{a}<33.130$$\mu$eV.
翻訳日:2023-04-10 23:55:21 公開日:2022-05-23
# 相互作用する位相ポンプの予熱と絡み合いダイナミクス

Prethermalization and entanglement dynamics in interacting topological pumps ( http://arxiv.org/abs/2103.15831v2 )

ライセンス: Link先を確認
Raffael Gawatz, Ajit C. Balram, Erez Berg, Netanel H. Lindner, and Mark S. Rudner(参考訳) 非整数充填率での相互作用フェルミオンの1次元ポンプにおける準定常状態の形成について, 駆動周波数と相互作用強度が, 瞬時単粒子バンドギャップと比較して小さい状態について検討した。 このシステムは、駆動場からのエネルギーを急速に吸収し、系の単一粒子フロケバンドの各固定粒子数の制約を受ける最大エントロピー状態に局所的に類似する準定常状態に近づく。 我々は、この準定常状態の性質を、励起電流と自然軌道の占有を含む一体観測器、および(多体)絡み合いスペクトルとエントロピーを通して探求する。 電位障害はその普遍値の周りの準定常状態電流のゆらぎの振幅を著しく減少させるが、準定常状態の寿命は1粒子のバンドギャップのスケールまで障害強度にほとんど影響を受けない。 興味深いことに、自然軌道の占有と絡み合いエントロピーは、運転サイクルごとにシステムの自由度が周期的に絡み合うこと、および絡み合うことを表す。 さらに、系の時間依存性絡み合いスペクトルの顕著な特徴は、多粒子相関の平衡に伴う新しい長い時間スケールの出現を示す。

We investigate the formation of quasisteady states in one-dimensional pumps of interacting fermions at non-integer filling fraction, in the regime where the driving frequency and interaction strength are small compared to the instantaneous single-particle band gap throughout the driving cycle. The system rapidly absorbs energy from the driving field, and approaches a quasisteady state that locally resembles a maximal entropy state subject to the constraint of fixed particle number in each of the system's single-particle Floquet bands. We explore the nature of this quasisteady state through one-body observables including the pumped current and natural orbital occupations, as well as the (many-body) entanglement spectrum and entropy. Potential disorder significantly reduces the amplitude of fluctuations of the quasisteady state current around its universal value, while the lifetime of the quasisteady state remains nearly unaffected for disorder strengths up to the scale of the single-particle band gap. Interestingly, the natural orbital occupations and entanglement entropy display patterns signifying the periodic entangling and disentangling of the system's degrees of freedom over each driving cycle. Moreover, prominent features in the system's time-dependent entanglement spectrum reveal the emergence of new long timescales associated with the equilibration of many-particle correlations.
翻訳日:2023-04-06 05:49:57 公開日:2022-05-23
# 有限エネルギー Gottesman-Kitaev-Preskill-encoded qubit からなるグラフ状態のコヒーレントな操作

Coherent manipulation of graph states composed of finite-energy Gottesman-Kitaev-Preskill-encoded qubits ( http://arxiv.org/abs/2105.04300v2 )

ライセンス: Link先を確認
Kaushik P. Seshadreesan, Prajit Dhara, Ashlesha Patil, Liang Jiang, Saikat Guha(参考訳) グラフ状態は測定に基づく量子情報処理の中心的な資源である。 Gottesman-Kitaev-Preskill (GKP)エンコーディングに基づくフォトニックキュービットアーキテクチャでは、現実的な有限エネルギー近似GKP符号化キュービットからなる高忠実グラフ状態の生成が鍵となる。 gkp 量子ビット状態の有限エネルギー近似をシフト有限スキーズ真空状態のコヒーレントな重ね合わせによって与え、変位はガウス分布である。 このような近似GKP量子ビットからなるグラフ状態の正確な記述を、ランダムに置換された理想GKP-量子グラフ状態のガウスアンサンブルのコヒーレント重ね合わせとして提示する。 我々は,GKP-Steane誤差補正やGKP-qubitグラフ状態の大規模化に使用できる融合操作といったツールの下で,共分散行列の変換規則と,アンサンブルのガウス分布の平均変位ベクトルを決定する。 前者はGKP量子ビットの有限エネルギー近似によるグラフ状態のノイズを捉え、後者はこれらのツールの一部であるホモダイン測定による個々の量子ビットの絶対変位誤差に関係している。 この規則は、真の有限エネルギーgkp量子ビットから生成されるグラフ状態の正確なコヒーレントエラーモデルをピン留めするのに役立ち、そのエラー補正特性に光を当てることができる。

Graph states are a central resource in measurement-based quantum information processing. In the photonic qubit architecture based on Gottesman-Kitaev-Preskill (GKP) encoding, the generation of high-fidelity graph states composed of realistic, finite-energy approximate GKP-encoded qubits thus constitutes a key task. We consider the finite-energy approximation of GKP qubit states given by a coherent superposition of shifted finite-squeezed vacuum states, where the displacements are Gaussian distributed. We present an exact description of graph states composed of such approximate GKP qubits as a coherent superposition of a Gaussian ensemble of randomly displaced ideal GKP-qubit graph states. We determine the transformation rules for the covariance matrix and the mean displacement vector of the Gaussian distribution of the ensemble under tools such as GKP-Steane error correction and fusion operations that can be used to grow large, high-fidelity GKP-qubit graph states. The former captures the noise in the graph state due to the finite-energy approximation of GKP qubits, while the latter relates to the possible absolute displacement errors on the individual qubits due to the homodyne measurements that are a part of these tools. The rules thus help in pinning down an exact coherent error model for graph states generated from truly finite-energy GKP qubits, which can shed light on their error correction properties.
翻訳日:2023-03-31 23:30:38 公開日:2022-05-23
# 量子資源としての予測可能性

Predictability as a quantum resource ( http://arxiv.org/abs/2107.13468v2 )

ライセンス: Link先を確認
Marcos L. W. Basso and Jonas Maziero(参考訳) つい最近になって、補性関係(CR)は量子力学の基本規則から派生した。 完全CRは、量子コヒーレンス、$C$、量子絡み合い、予測可能性、$P$を含む等式である。 最初の2つは、既にリソース理論フレームワークで定量化されているが、そのような特徴は最後には欠落している。 この記事では、状態 $\rho$, $P$ of $\rho$ で作成されたシステムに対して、観測可能な$X$ は、観測可能な互いに偏りのない$MU から$X$ への参照で$C$ に等しいことを示す。 P^X(\rho)>C^{Y}(\Phi_{X}(\rho))$ は MU ではなく可観測値であることを示す。 その後、nrvnmの実装に量子回路を提供し、これらの回路を用いてibmの量子コンピュータを用いてこれらの(in)等式を実験的にテストする。 さらに、予測可能性に関するリソース理論を提案し、その自由量子状態と自由量子演算を同定し、予測可能性単調性について議論する。 また,これらの予測可能性の1つを二成分系の研究に応用した後,量子コヒーレンス,予測可能性,純度といった資源理論の関係について考察する。

Just recently, complementarity relations (CRs) have been derived from the basic rules of Quantum Mechanics. The complete CRs are equalities involving quantum coherence, $C$, quantum entanglement, and predictability, $P$. While the first two are already quantified in the resource theory framework, such a characterization lacks for the last. In this article, we start showing that, for a system prepared in a state $\rho$, $P$ of $\rho$, with reference to an observable $X$, is equal to $C$, with reference to observables mutually unbiased (MU) to $X$, of the state $\Phi_{X}(\rho)$, which is obtained from a non-revealing von Neumann measurement (NRvNM) of $X$. We also show that $P^X(\rho)>C^{Y}(\Phi_{X}(\rho))$ for observables not MU. Afterwards, we provide quantum circuits for implementing NRvNMs and use these circuits to experimentally test these (in)equalities using the IBM's quantum computers. Furthermore, we give a resource theory for predictability, identifying its free quantum states and free quantum operations and discussing some predictability monotones. Besides, after applying one of these predictability monotones to study bipartite systems, we discuss the relation among the resource theories of quantum coherence, predictability, and purity.
翻訳日:2023-03-20 17:02:57 公開日:2022-05-23
# 短距離および長距離散逸による相関の動的スケーリング

Dynamical scaling of correlations generated by short- and long-range dissipation ( http://arxiv.org/abs/2110.09547v3 )

ライセンス: Link先を確認
Kushal Seetharam, Alessio Lerose, Rosario Fazio, Jamir Marino(参考訳) 短距離と長距離の空間プロファイルを特徴とする散逸によるスピンのアンサンブルにおける相関の時空間分布について検討した。 システムは当初, 相関関係のない状態であり, 動的チャネルの散逸特性と空間的プロファイルの両方に密接に関連する新しいパターンにおいて, 相関関係が広がり, 収縮することがわかった。 さらに、非平衡スピン波理論を散逸系の場合に一般化し、ハミルトニアン相互作用と散逸リンドブラッドチャネルの組み合わせによりダイナミクスを記述できる任意の翻訳不変スピンチェーンに対する運動方程式を導出することにより、方法論的な貢献を行う。 本研究の目的は、相関力学を純粋に散逸する量子シミュレータに拡張し、ハミルトニアン系に広がる相関の確立されたパラダイムと比較することである。

We study the spatio-temporal spreading of correlations in an ensemble of spins due to dissipation characterized by short- and long-range spatial profiles. We consider systems initially in an uncorrelated state, and find that correlations widen and contract in a novel pattern intimately related to both the dissipative nature of the dynamical channel and its spatial profile. Additionally, we make a methodological contribution by generalizing non-equilibrium spin-wave theory to the case of dissipative systems and derive equations of motion for any translationally invariant spin chain whose dynamics can be described by a combination of Hamiltonian interactions and dissipative Lindblad channels. Our work aims at extending the study of correlation dynamics to purely dissipative quantum simulators and compare them with the established paradigm of correlations spreading in hamiltonian systems.
翻訳日:2023-03-11 03:58:25 公開日:2022-05-23
# 雑音量子ネットワークにおけるメトロロジー支援絡み合い分布

Metrology-assisted entanglement distribution in noisy quantum networks ( http://arxiv.org/abs/2110.15627v2 )

ライセンス: Link先を確認
Simon Morelli, David Sauerwein, Michalis Skotiniotis, Nicolai Friis(参考訳) 確率的局所的操作と古典的通信を用いて,高次元の絡み合った状態の多者間分布と,それらの状態の望ましい対象状態への確率的変換について考察する。 このような状態変換プロトコルは、分散状態のコピー数に関して追加コストなしで、組み込みチャネル推定ルーチンによって拡張可能であることを示す。 提案手法の特色は, ノイズ推定に変換が不適なコピーを使用することであり, 変換されたコピーに対して, その劣化効果を抑えることができる。 このアイデアは、より複雑な状況に一般化するが、有限個のコピーが配布され、パーティが複数のコピーを同時に処理する必要のない現実的なシナリオに焦点を当てる。 特に,シングルコピーと適応ベイズ推定戦略に対して順次適用した,いわゆるワンサクセス・ブランチプロトコルの性能について検討する。 最後に、我々の戦略を、蒸留と量子メモリを用いて同時に複数のコピーを処理するという、より一般的な方法と比較する。

We consider the distribution of high-dimensional entangled states to multiple parties via noisy channels and the subsequent probabilistic conversion of these states to desired target states using stochastic local operations and classical communication. We show that such state-conversion protocols can be enhanced by embedded channel-estimation routines at no additional cost in terms of the number of copies of the distributed states. The defining characteristic of our strategy is the use of those copies for which the conversion was unsuccessful for the estimation of the noise, thus allowing one to counteract its detrimental effect on the successfully converted copies. Although this idea generalizes to various more complex situations, we focus on the realistic scenario, where only finitely many copies are distributed and where the parties are not required to process multiple copies simultaneously. In particular, we investigate the performance of so-called one-successful-branch protocols, applied sequentially to single copies and an adaptive Bayesian estimation strategy. Finally, we compare our strategy to more general but less easily practically implementable strategies involving distillation and the use of quantum memories to process multiple copies simultaneously.
翻訳日:2023-03-09 22:58:06 公開日:2022-05-23
# SUSYおよび量子変形ポテンシャルの排他的-WKB解析:グラスマン場とウェス・ズミーノ項を持つ量子力学

Exact-WKB analysis for SUSY and quantum deformed potentials: Quantum mechanics with Grassmann fields and Wess-Zumino terms ( http://arxiv.org/abs/2111.05922v3 )

ライセンス: Link先を確認
Syo Kamata, Tatsuhiro Misumi, Naohisa Sueishi, Mithat \"Unsal(参考訳) 量子変形ポテンシャルは、1つのボゾン座標の量子力学系において自然にN_f$グラスマン値のフェルミオン座標または位相ウェス・ズミーノ項に結合する。 これらの系は古典ポテンシャルと量子変形を持つセクタに分解される。 正確な WKB を用いて、正確な量子化条件とその中央値の再仮定を導出する。 中央再帰形式の解は、量子変形二重ポテンシャルと三重井戸ポテンシャルで明確に示されるように、物理的ボレル・エカルル再帰の結果を与える。 インスタントンは有限作用であるにもかかわらず、一般の量子変形では、半古典学の先頭の順序でエネルギースペクトルに寄与しない。 摂動理論における全ての順序に対するレベルのアライメントが生じる特定の量子化量子変形に対して、インスタントンはスペクトルに寄与する。 変形パラメータが適切に量子化されていない場合、その効果は消失するが、半古典学における高次効果は残る。 この意味で、私たちはsaddleコントリビューションをフェードかつロバストに分類します。 最後に、量子変形三重井戸ポテンシャルに対して、周期積分とメルリン変換によるP-NP関係を示す。

Quantum deformed potentials arise naturally in quantum mechanical systems of one bosonic coordinate coupled to $N_f$ Grassmann valued fermionic coordinates, or to a topological Wess-Zumino term. These systems decompose into sectors with a classical potential plus a quantum deformation. Using exact WKB, we derive exact quantization condition and its median resummation. The solution of median resummed form gives physical Borel-Ecalle resummed results, as we show explicitly in quantum deformed double- and triple- well potentials. Despite the fact that instantons are finite action, for generic quantum deformation, they do not contribute to the energy spectrum at leading order in semi-classics. For certain quantized quantum deformations, where the alignment of levels to all order in perturbation theory occurs, instantons contribute to the spectrum. If deformation parameter is not properly quantized, their effect disappears, but higher order effects in semi-classics survive. In this sense, we classify saddle contributions as fading and robust. Finally, for quantum deformed triple-well potential, we demonstrate the P-NP relation, by computing period integrals and Mellin transform.
翻訳日:2023-03-08 11:59:36 公開日:2022-05-23
# Ising-based annealer 出力の統計的品質評価

Statistical quality assessment of Ising-based annealer outputs ( http://arxiv.org/abs/2112.03602v3 )

ライセンス: Link先を確認
Krzysztof Domino, M\'aty\'as Koniorczyk, Zbigniew Pucha{\l}a(参考訳) 量子アニーラーの結果を評価する能力は、そのようなデバイスが複雑な計算タスクで使われるためには不可欠である。 そこで本研究では,データのみに基づくIsing-based annealersの出力特性の統計的評価を行い,サンプル化の可能性を評価する。 高い確率値は、少なくともスペクトルの下部がサンプルの一部であることを意味する。 試料の単変量エネルギー分布の可塑性モデルとして, 3次までの累積関数として基底状態エネルギーと温度を表現した。 アニーラ試料を用いて, ブートストラップ再サンプリングを用いて複数回評価し, 基底状態エネルギーの推定ヒストグラムを作成し, 所望のパラメータを推定した。 このアプローチは、IsingベースのAnnealersの出力の一次検証のために簡単に実装可能なメソッドを提供する。 量子アニーラデバイスから得られた実サンプルを用いた実験により,その挙動を実証する。

The ability to evaluate the outcomes of quantum annealers is essential for such devices to be used in complex computational tasks. We introduce a statistical test of the quality of Ising-based annealers' output based on the data only, assessing the ground state's probability of being sampled. A higher probability value implies that at least the lower part of the spectrum is a part of the sample. Assuming a plausible model of the univariate energy distribution of the sample, we express the ground-state energy and temperature as a function of cumulants up to the third order. Using the annealer samples, we evaluate this multiple times using Bootstrap resampling, resulting in an estimated histogram of ground-state energies and deduce the desired parameter on this basis. The approach provides an easily implementable method for the primary validation of Ising-based annealers' output. We demonstrate its behavior through experiments made with actual samples originating from quantum annealer devices.
翻訳日:2023-03-05 08:00:05 公開日:2022-05-23
# 二光子状態の異なるスペクトル対称性の干渉スペクトル

Interferometric signature of different spectral symmetries of biphoton states ( http://arxiv.org/abs/2112.09610v3 )

ライセンス: Link先を確認
Nicolas Fabre(参考訳) 本稿では,2つのビーム・スプリッター間に時間・周波数シフト演算がある一般化マッハ・ツェンダー干渉計(mz)の一致測定にバイフォトン波動関数の対称性が与える影響について検討する。 一般化されたMZ干渉計は、全双光子状態が対称であれば自然パラメトリックダウンコンバージョン過程のエネルギー保存をモデル化する関数の短時間フーリエ変換の測定であり、状態が対称であれば位相整合関数の対称特性分布であることを示す。 したがって、この手法は光子対のスペクトル分布に位相に敏感である。 最後に、光子対のスペクトルを工学的に計算することで特異な統計をシミュレートできる一対のエノンのシグネチャを詳細に研究する。

In this paper, we investigate the influence of the symmetry of the biphoton wavefunction on the coincidence measurement of the generalized Mach-Zehnder (MZ) interferometer, where there are a temporal and frequency shift operations between the two beam-splitters. We show that the generalized MZ interferometer is the measurement of the short-time Fourier transform of the function modeling the energy conservation of a spontaneous parametric down-conversion process if the full biphoton state is symmetric, and of the symmetric characteristic distribution of the phase-matching function if the state is antisymmetric. Thus, this technique is phase-sensitive to the spectral distribution of the photon pairs. Finally, we investigate in detail the signature of a pair of anyons whose peculiar statistics can be simulated by engineering the spectrum of photon pairs.
翻訳日:2023-03-04 07:10:30 公開日:2022-05-23
# 一般量子状態を用いた秘密密度符号化による量子安全な直接通信

Quantum secure direct communication with private dense coding using general preshared quantum state ( http://arxiv.org/abs/2112.15113v3 )

ライセンス: Link先を確認
Jiawei Wu, Gui-Lu Long, Masahito Hayashi(参考訳) 我々は、一般化された量子状態と高密度符号化の一般化を用いて、量子セキュアな直接通信を研究する。 このシナリオでは、アリスはプリシェード状態にユニタリを適用してメッセージをエンコードすることができ、許可されたユニタリのセットはグループを形成する。 メッセージをデコードするために、bobは自身のシステムと受信したシステムに対して測定を適用できる。 最悪のシナリオでは、eveは、彼女が傍受したシステムと、プリシェアされた状態の元のシステムとの間のジョイントシステムにアクセスしても、メッセージの情報が得られないことを保証します。 本稿では,具体的なプロトコルを提案し,有限長設定における情報漏洩の上限を導出する。 また,事前共有状態が不明な場合,離散ワイル・ハイゼンベルク表現を用いた場合のシナリオの適用方法について述べる。

We study quantum secure direct communication by using a general preshared quantum state and a generalization of dense coding. In this scenario, Alice is allowed to apply a unitary on the preshared state to encode her message, and the set of allowed unitaries forms a group. To decode the message, Bob is allowed to apply a measurement across his own system and the system he receives. In the worst scenario, we guarantee that Eve obtains no information for the message even when Eve access the joint system between the system that she intercepts and her original system of the preshared state. For a practical application, we propose a concrete protocol and derive an upper bound of information leakage in the finite-length setting. We also discuss how to apply our scenario to the case with discrete Weyl-Heisenberg representation when the preshared state is unknown.
翻訳日:2023-03-02 21:10:29 公開日:2022-05-23
# 3つの原子時計遷移を持つ量子力学の提唱試験

A proposed test of quantum mechanics with three connected atomic clock transitions ( http://arxiv.org/abs/2203.10269v3 )

ライセンス: Link先を確認
Mark G. Raizen, Gerald Gilbert and Dmitry Budker(参考訳) 我々は、スティーブン・ワインバーグが提唱した量子力学の拡張を検討し、同じ原子中の3つの原子時計に基づく新しいテストの予測を再分析する。 この仮説を検証できる現実的な実験システムを提案する。 2つの系はすでに量子力学からの偏差の限界を設定しており、他の系では最良の原子時計の感度の限界で新しい物理学を探索することができる。

We consider possible extensions to quantum mechanics proposed by Steven Weinberg, and re-analyze his prediction of a new test based upon three atomic clocks in the same atom. We propose realistic experimental systems where this hypothesis can be tested. Two systems already set limits on deviations from quantum mechanics, while with another system, one would be able to search for new physics at the limit of sensitivity of the best atomic clocks.
翻訳日:2023-02-21 08:47:47 公開日:2022-05-23
# 漸近的に平坦な時空のホログラフィー再構成

Holographic reconstruction of asymptotically flat spacetimes ( http://arxiv.org/abs/2203.15830v3 )

ライセンス: Link先を確認
Erickson Tjoa and Finnian Gray(参考訳) 本稿では,時空の「未来境界」に存在する無質量場の相関関数,すなわち将来のヌル無限大$\mathscr{i}^+$を用いて,バルク時空幾何の「ホログラフィック」再構成を提案する。 4次元時空$\mathcal{M}$と3次元のヌル境界$\mathscr{I}^+$に生きる別の質量のない場の相関関数の間に1対1の対応が存在するという意味ではホログラフィックである。 そのアイデアは、まずバルク相関関数を「反転」することでバルク計量 $g_{\mu\nu}$ を再構成し、その対応を通じて境界相関関数を用いて後者を再表現することである。 これにより、時空の深い内部を$\mathscr{I}^+$に近い漸近的な観測者は、$\mathscr{I}^+$の近くで局所化された相関関数のみを用いて再構成することができる。

We present a "holographic" reconstruction of bulk spacetime geometry using correlation functions of a massless field living at the "future boundary" of the spacetime, namely future null infinity $\mathscr{I}^+$. It is holographic in the sense that there exists a one-to-one correspondence between correlation functions of a massless field in four-dimensional spacetime $\mathcal{M}$ and those of another massless field living in three-dimensional null boundary $\mathscr{I}^+$. The idea is to first reconstruct the bulk metric $g_{\mu\nu}$ by "inverting" the bulk correlation functions and re-express the latter in terms of boundary correlators via the correspondence. This effectively allows asymptotic observers close to $\mathscr{I}^+$ to reconstruct the deep interior of the spacetime using only correlation functions localized near $\mathscr{I}^+$.
翻訳日:2023-02-20 09:05:17 公開日:2022-05-23
# 相関量子状態の超指数微分可能性

Super-exponential distinguishability of correlated quantum states ( http://arxiv.org/abs/2203.16511v2 )

ライセンス: Link先を確認
Gergely Bunth, G\'abor Mar\'oti, Mil\'an Mosonyi, Zolt\'an Zimbor\'as(参考訳) 漸近的二分数、すなわち状態判別の問題では、タイプIの最適漸近とタイプIIの誤差確率は、一般にサンプル数の関数として指数関数的にゼロに減少し、達成可能な指数対の集合は量子ホーフィング境界定理によって特徴づけられる。 両種類の誤差確率の超指数的減少は、2つの状態が直交しているような自明な場合のみ可能であり、そのためシステムの1つのコピーで完全に区別できる。 本稿では,サンプル間に相関が存在する場合,定性的に異なる挙動が生じることを示す。 すなわち、標準的反可換関係の代数上でゲージ不変かつ変換不変な準自由状態を使用して、無限スピン鎖上の状態のペアとその性質を示す。 a) 状態のすべての有限サイズの制限は、可逆密度演算子を持ち、 b) タイプ I とタイプ II のエラー確率は、少なくとも、ある正の定数$c$、すなわちサンプルサイズ$n$の超指数速度を持つ速度$e^{-nc\log n}$でゼロに減少する。 そのような状態の特に例としては、異なる横磁場に対応する$XX$モデルの基底状態がある。 実際、この結果は二元合成仮説テストの設定によって証明され、従って、横磁場が一定の閾値を超えていると仮定した仮説の超指数的識別性を証明することに応用することができる。

In the problem of asymptotic binary i.i.d. state discrimination, the optimal asymptotics of the type I and the type II error probabilities is in general an exponential decrease to zero as a function of the number of samples; the set of achievable exponent pairs is characterized by the quantum Hoeffding bound theorem. A super-exponential decrease for both types of error probabilities is only possible in the trivial case when the two states are orthogonal, and hence can be perfectly distinguished using only a single copy of the system. In this paper we show that a qualitatively different behaviour can occur when there is correlation between the samples. Namely, we use gauge-invariant and translation-invariant quasi-free states on the algebra of the canonical anti-commutation relations to exhibit pairs of states on an infinite spin chain with the properties that a) all finite-size restrictions of the states have invertible density operators, and b) the type I and the type II error probabilities both decrease to zero at least with the speed $e^{-nc\log n}$ with some positive constant $c$, i.e., with a super-exponential speed in the sample size $n$. Particular examples of such states include the ground states of the $XX$ model corresponding to different transverse magnetic fields. In fact, we prove our result in the setting of binary composite hypothesis testing, and hence it can be applied to prove super-exponential distinguishability of the hypotheses that the transverse magnetic field is above a certain threshold vs. that it is below a strictly lower value.
翻訳日:2023-02-20 06:56:09 公開日:2022-05-23
# 社会と社会の融合 : アプロキシマチ・アル・エスタド・デル・アルテ

TIC como apoyo del soporte social al enfermo cr\'onico y su cuidador : Aproximaci\'on al estado del Arte ( http://arxiv.org/abs/2205.11668v1 )

ライセンス: Link先を確認
Benjamin A. Huerfano Z., Andres F Ardila, and Pedro L Cifuentes(参考訳) 現在のアプローチは、慢性疾患に苦しむ脆弱な人口支援と社会的支援におけるICTの関与のレベルを概観するものである。 この包含は書誌レビューを通じて行われ、データの収集と関連する情報の基礎となった。 本研究は,ictを用いた社会的支援の利点と欠点を,心理学的,工学的観点から明確かつ簡潔に明らかにした。 これらの地域は, 先行研究した内容と分析結果に基づいて, 社会支援文献におけるict利用の集中度が最も高かったことが特徴である。

The current approach is carried out in order to have an overview of the level of inclusion and the participation of ICTs in social support and support for vulnerable populations suffering from chronic diseases. The inclusion was made through a bibliographic review, this being the basis for the collection of data and pertinent information. The argumentative study that was carried out clearly and concisely identified the advantages and disadvantages of the use of ICT in social support from a psychoeducational and engineering point of view. The regions were characterized by the highest concentration of ICT use in the social support literature, based on previously studied content and analyzing the results of this use.
翻訳日:2023-02-19 17:10:27 公開日:2022-05-23
# スマート玩具による視覚的および非プラグ型コーディングレッスン

Visual and unplugged coding lessons with smart toys ( http://arxiv.org/abs/2205.11644v1 )

ライセンス: Link先を確認
Sara Capecchi, Cristina Gena, Ilaria Lombardi(参考訳) われわれのコンピュータサイエンスk-12教育研究グループと教育玩具会社quercettiは、いわゆる計算思考を刺激し統合する玩具の設計と製造に協力してきた。 このアプローチは、BebrasタスクやCS-Unpluggedなど、すでに文献で統合されている手法にインスパイアされている。 本稿では,2つのスマート玩具,その設計プロセス,2つの玩具を利用する教師が提案できる教育活動,一部の教師による評価結果,そして最後に購入者からのフィードバックとレビューについて述べる。 これらの玩具が提案する主な活動は、小さな色の物理アイテム(ペグやボールなど)を通して視覚的なコーディングを活用して、若年ユーザーに提供することである。

Our Computer science k-12 education research group and the educational toy company Quercetti have been collaborating together to design and manufacture toys that help stimulate and consolidate so-called computational thinking. This approach is inspired by methods already consolidated in the literature and widespread worldwide such as the Bebras tasks and CS-Unplugged. This paper describes two smart toys, their design process, educational activities that can be proposed by teachers exploiting the two toys, the evaluation's results from some teachers, and finally feedback and reviews from buyers. The main activities proposed by these toys leverage visual coding through small colored physical items (e.g., pegs and balls) to deliver the unplugged activities to young users.
翻訳日:2023-02-19 17:10:05 公開日:2022-05-23
# CircleChain: ロールベースの循環経済スキームによるプロダクトのトークン化

CircleChain: Tokenizing Products with a Role-based Scheme for a Circular Economy ( http://arxiv.org/abs/2205.11212v1 )

ライセンス: Link先を確認
Mojtaba Eshghie, Li Quan, Gustav Andersson Kasche, Filip Jacobson, Cosimo Bassi, Cyrille Artho(参考訳) 循環経済では、品質管理のための二次成分の流れを追跡することが重要である。 トークン化は、セカンドライフコンポーネントの流れの透明性を高めることができる。 しかし、単純なトークン化は実際の経済モデルに対応せず、複雑なビジネスプロセスを細かく管理する能力に欠ける。 特に、既存のシステムはサプライチェーンにおける当事者の異なる役割を考慮に入れなければなりません。 Algorandブロックチェーンに基づくロールベースのトークン管理手法を提案し,これら2番目のコンポーネントの認証,合成,循環,再利用を信頼性のない環境で実現する。 提案手法は細粒度でスケーラブルな第2世代コンポーネント管理を実現するだけでなく,オンチェーントレーディング,補助金,グリーンボンド発行を可能にする。 さらに、スマートコントラクトとAlgorand Standard Assets(ASA)を使用して、Algorandブロックチェーン上に提案されたアーキテクチャのスケーラビリティテストを実行した。 オープンソース実装、テスト、結果はGithubのページで公開されています。

In a circular economy, tracking the flow of second-life components for quality control is critical. Tokenization can enhance the transparency of the flow of second-life components. However, simple tokenization does not correspond to real economic models and lacks the ability to finely manage complex business processes. In particular, existing systems have to take into account the different roles of the parties in the supply chain. Based on the Algorand blockchain, we propose a role-based token management scheme, which can achieve authentication, synthesis, circulation, and reuse of these second-life components in a trustless environment. The proposed scheme not only achieves fine-grained and scalable second-life component management, but also enables on-chain trading, subsidies, and green-bond issuance. Furthermore, we implemented and performed scalability tests for the proposed architecture on Algorand blockchain using its smart contracts and Algorand Standard Assets (ASA). The open-source implementation, tests, along with results are available on our Github page.
翻訳日:2023-02-19 17:09:11 公開日:2022-05-23
# 人々はコインではありません。 異なる公正性制約を必要とするモーラルな異なる予測型

People are not coins. Morally distinct types of predictions necessitate different fairness constraints ( http://arxiv.org/abs/2204.10305v3 )

ライセンス: Link先を確認
Eleonora Vigano', Corinna Hertweck, Christoph Heitz, and Michele Loi(参考訳) 最近の論文(Hedden 2021)では、機械学習の文献で議論されているグループフェアネスの制約のほとんどは、予測の公平性に必要な条件ではなく、真のフェアネスの指標がないと主張している。 これは公正な予測の特別な場合について議論することで証明される。 本稿では,ヘドデンの主張が,人間に関するデータと類似する人のデータに基づいて,データサイエンスで用いられる最も一般的な予測には当てはまらないことを示す。 我々は、人間グループベースの実践と、人間個人ベースの実践と呼ぶ1人のデータに基づく実践との間に道徳的に健全な区別があることを論じる。 したがって、人間集団に基づく実践の公平性に必要な条件は、Heddenの主張に基づく人間個人による実践の公正性に必要な条件ではないかもしれない。 したがって、機械学習の文献で議論されたグループフェアネスのメトリクスは、予測に基づく意思決定のほとんどの応用にまだ関係があるかもしれない。

A recent paper (Hedden 2021) has argued that most of the group fairness constraints discussed in the machine learning literature are not necessary conditions for the fairness of predictions, and hence that there are no genuine fairness metrics. This is proven by discussing a special case of a fair prediction. In our paper, we show that Hedden 's argument does not hold for the most common kind of predictions used in data science, which are about people and based on data from similar people; we call these human-group-based practices. We argue that there is a morally salient distinction between human-group-based practices and those that are based on data of only one person, which we call human-individual-based practices. Thus, what may be a necessary condition for the fairness of human-group-based practices may not be a necessary condition for the fairness of human-individual-based practices, on which Hedden 's argument is based. Accordingly, the group fairness metrics discussed in the machine learning literature may still be relevant for most applications of prediction-based decision making.
翻訳日:2023-02-19 16:24:23 公開日:2022-05-23
# ProtoTEx: プロトタイプテンソルによるモデル決定の説明

ProtoTEx: Explaining Model Decisions with Prototype Tensors ( http://arxiv.org/abs/2204.05426v2 )

ライセンス: Link先を確認
Anubrata Das and Chitrank Gupta and Venelin Kovatchev and Matthew Lease and Junyi Jessy Li(参考訳) プロトタイプネットワークに基づく新しいホワイトボックスNLP分類アーキテクチャであるProtoTExを提案する。 ProtoTExは、トレーニング例の潜在クラスタをエンコードするプロトタイプテンソルに基づいて、モデル決定を忠実に説明する。 推論時に、分類決定は入力テキストとプロトタイプテンソル間の距離に基づいており、最も影響力のあるプロトタイプと最もよく似たトレーニング例を通して説明される。 また,指示的特徴の欠如を特徴とするクラスを効果的に扱う新しいインターリーブ学習アルゴリズムについて述べる。 プロパガンダ検出タスクでは、ProtoTExの精度はBART-largeと一致し、BERT-largeを超える。 オンラインニュースのプロパガンダをよりよく認識するために、プロトタイプベースの説明が非専門家に役立ちます。

We present ProtoTEx, a novel white-box NLP classification architecture based on prototype networks. ProtoTEx faithfully explains model decisions based on prototype tensors that encode latent clusters of training examples. At inference time, classification decisions are based on the distances between the input text and the prototype tensors, explained via the training examples most similar to the most influential prototypes. We also describe a novel interleaved training algorithm that effectively handles classes characterized by the absence of indicative features. On a propaganda detection task, ProtoTEx accuracy matches BART-large and exceeds BERT-large with the added benefit of providing faithful explanations. A user study also shows that prototype-based explanations help non-experts to better recognize propaganda in online news.
翻訳日:2023-02-19 16:14:30 公開日:2022-05-23
# 量子敵に対する透かしPRF

Watermarking PRFs against Quantum Adversaries ( http://arxiv.org/abs/2205.11034v1 )

ライセンス: Link先を確認
Fuyuki Kitagawa and Ryo Nishimaki(参考訳) 我々は量子敵に対するソフトウェア透かしの研究を開始する。 量子敵は海賊ソフトウェアとして量子状態を生成し、古典的なマーク付きソフトウェアから埋め込みメッセージを削除する可能性がある。 量子海賊ソフトウェアからの埋め込みメッセージの抽出は、測定が量子状態を不可逆的に変更できるため困難である。 本研究では,量子逆数に対するセキュアな透かしPRF(量子逆数に対する非可除性)を定義する。 また,2つの透かしPRFについて述べる。 -誤差付き学習(lwe)問題の量子ハードネスから,量子敵に対してプライベートに抽出可能な透かしprfを構築する。 マーキングアルゴリズムと抽出アルゴリズムはそれぞれ公開パラメータとプライベート抽出キーを使用する。 ウォーターマーキングprfは、たとえ敵が(公開パラメーターと)抽出オラクルにアクセスしていても取り外され、クエリされた量子回路の抽出結果を返す。 -不明瞭性難読化(io)とlwe問題の量子ハードネスから量子敵に対して,公に抽出可能な透かしprfを構築する。 マーキングアルゴリズムと抽出アルゴリズムはそれぞれ公開パラメータと公開抽出キーを使用する。 相手が抽出キー(および公開パラメータ)を持っている場合でも、透かしPRFは除去不能である。 本研究では,量子状態から情報(古典的な文字列)を抽出する量子抽出法を開発した。 また,本手法を量子抽出手法と組み合わせることにより,これらの結果を達成する上で重要な構成要素として抽出レス透かしprfの概念を導入する。

We initiate the study of software watermarking against quantum adversaries. A quantum adversary generates a quantum state as a pirate software that potentially removes an embedded message from a classical marked software. Extracting an embedded message from quantum pirate software is difficult since measurement could irreversibly alter the quantum state. In this work, we define secure watermarking PRFs for quantum adversaries (unremovability against quantum adversaries). We also present two watermarking PRFs as follows. - We construct a privately extractable watermarking PRF against quantum adversaries from the quantum hardness of the learning with errors (LWE) problem. The marking and extraction algorithms use a public parameter and a private extraction key, respectively. The watermarking PRF is unremovable even if adversaries have (the public parameter and) access to the extraction oracle, which returns a result of extraction for a queried quantum circuit. - We construct a publicly extractable watermarking PRF against quantum adversaries from indistinguishability obfuscation (IO) and the quantum hardness of the LWE problem. The marking and extraction algorithms use a public parameter and a public extraction key, respectively. The watermarking PRF is unremovable even if adversaries have the extraction key (and the public parameter). We develop a quantum extraction technique to extract information (a classical string) from a quantum state without destroying the state too much. We also introduce the notion of extraction-less watermarking PRFs as a crucial building block to achieve the results above by combining the tool with our quantum extraction technique.
翻訳日:2023-02-12 00:57:38 公開日:2022-05-23
# 非線形トウレスポンプにおける量子化の崩壊

Breakdown of quantization in nonlinear Thouless pumping ( http://arxiv.org/abs/2205.10978v1 )

ライセンス: Link先を確認
Thomas Tuloup, Raditya Weda Bomantara, and Jiangbin Gong(参考訳) 非線形thoulessポンプで駆動されるソリトンのダイナミクスとシステムのトポロジーとの関係は、最近、弱い非線形強度と強い非線形強度の両方について研究された。 この研究は、中間非線形性の状態での非線形ポンピングの運命を明らかにし、非ゼロの観測から弱い非線形性での量子ポンピングから強い非線形性におけるゼロポンピングへの興味深い交差を確立する。 我々は,ソリトンの量子ポンピングがプロトコルの時間スケールによらず破壊する臨界非線形強度の存在を同定する。 このようなポンプ量子化の障害は、非線形トポロジカルバンドのループ構造の存在に起因する。 我々の結果は非線形Thoulessポンプにおける物理の欠落だけでなく、実空間で調査された非線形システムのループ構造を検出する手段も提供する。

The dynamics of solitons driven in a nonlinear Thouless pump and its connection with the system's topology were recently explored for both weak and strong nonlinear strength. This work uncovers the fate of nonlinear Thouless pumping in the regime of intermediate nonlinearity, thus establishing a fascinating crossover from the observation of nonzero and quantized pumping at weak nonlinearity to zero pumping at strong nonlinearity. We identify the presence of critical nonlinearity strength at which quantized pumping of solitons breaks down regardless of the protocol time scale. Such an obstruction to pumping quantization is attributed to the presence of loop structures of nonlinear topological bands. Our results not only unveil a missing piece of physics in nonlinear Thouless pumping, but also provide a means to detect loop structures of nonlinear systems investigated in real space.
翻訳日:2023-02-12 00:56:08 公開日:2022-05-23
# j_1$-$j_2$-モデルに対する変分量子固有ソルバ ansatz

Variational Quantum Eigensolver Ansatz for the $J_1$-$J_2$-model ( http://arxiv.org/abs/2205.11198v1 )

ライセンス: Link先を確認
Verena Feulner, Michael J. Hartmann(参考訳) 2次元$j_1-j_2$-モデルの基底状態特性は、フラストレーションのレベルが高いため、古典的数値手法で解析することが非常に困難である。 このモデルは量子コンピュータが役に立つ可能性があり、古典的コンピュータが到達できない仕組みを探求する可能性がある。 J_1-J_2$-モデル(英: $J_1-J_2$-model)は、ハイゼンベルク相互作用からなる量子スピンモデルである。 本稿では, 反強磁性$J_1-J_2$-Hamiltonianの基底状態と, 格子サイズ, 比が$J_1$, $J_2$を近似するために, 変分量子固有解器(VQE)のアンサッツを提案する。 さらに, このアンザッツは, 隣り合う対角線のゲートを必要とせずに動作可能であることを示す。 この単純化は、矩形格子上に量子ビットを持つソリッドステートベースのハードウェアにおいて非常に重要であり、SWAPゲートを必要としない。 さらに,格子サイズが大きくなるのに必要なゲート数やパラメータの補間を行い,従来のコンピュータでは扱えない格子サイズまで,量子ビット数で2次以下に成長することが期待できることを示した。

The ground state properties of the two-dimensional $J_1-J_2$-model are very challenging to analyze via classical numerical methods due to the high level of frustration. This makes the model a promising candidate where quantum computers could be helpful and possibly explore regimes that classical computers cannot reach. The $J_1-J_2$-model is a quantum spin model composed of Heisenberg interactions along the rectangular lattice edges and along diagonal edges between next-nearest neighbor spins. We propose an ansatz for the Variational Quantum Eigensolver (VQE) to approximate the ground state of an antiferromagnetic $J_1-J_2$-Hamiltonian for different lattice sizes and different ratios of $J_1$ and $J_2$. Moreover, we demonstrate that this ansatz can work without the need for gates along the diagonal next-nearest neighbor interactions. This simplification is of great importance for solid state based hardware with qubits on a rectangular grid, where it eliminates the need for SWAP gates. In addition, we provide an extrapolation for the number of gates and parameters needed for larger lattice sizes, showing that these are expected to grow less than quadratically in the qubit number up to lattice sizes which eventually can no longer be treated with classical computers.
翻訳日:2023-02-12 00:52:22 公開日:2022-05-23
# 時間反転対称性の破れた相互作用系の量子シミュレーション

Quantum simulations of interacting systems with broken time-reversal symmetry ( http://arxiv.org/abs/2205.11178v1 )

ライセンス: Link先を確認
Yotam Shapira, Tom Manovitz, Nitzan Akerman, Ady Stern and Roee Ozeri(参考訳) 時間反転対称性が破れた量子相互作用粒子の多体系は、様々なリッチな集団行動を引き起こし、そのため現代の物理学における研究の主要なターゲットとなっている。 量子シミュレータは、古典的シミュレーションの計算限界を超えている場合が多い、そのようなシステムの探索と理解に使用できる可能性がある。 これらのうち、普遍的な量子制御を持つプラットフォームは、実験的に幅広い物理特性にアクセスできる。 しかし、強いプログラマブルな相互作用、強い時間反転対称性の破れ、高忠実性量子制御を同時にスケーラブルに達成することは困難である。 そこで我々は, 相互作用する時間反転型量子系の量子シミュレーションを, 量子プロセッサで実現した。 最近提案されたスケーラブルなスキームを用いて、捕捉されたイオン鎖に初めて示される時間反転型合成ゲージ場と、多次元系のシミュレーションに拡張可能なユニークな結合ジオメトリを実装した。 制御と測定における忠実度の高いシングルサイト分解能と高度にプログラマブルな相互作用により、定常電流を示す基底状態のフルステートトモグラフィーを行い、非自明な相互作用を持つ時間反転破壊システムのダイナミクスを観測できる。 本研究は,様々な特徴と結合ジオメトリを有する時間反転型多体系のシミュレーションへの道を開く。

Many-body systems of quantum interacting particles in which time-reversal symmetry is broken give rise to a variety of rich collective behaviors, and are therefore a major target of research in modern physics. Quantum simulators can potentially be used to explore and understand such systems, which are often beyond the computational reach of classical simulation. Of these, platforms with universal quantum control can experimentally access a wide range of physical properties. However, simultaneously achieving strong programmable interactions, strong time-reversal symmetry breaking, and high fidelity quantum control in a scalable manner is challenging. Here we realized quantum simulations of interacting, time-reversal broken quantum systems in a universal trapped-ion quantum processor. Using a scalable scheme that was recently proposed we implemented time-reversal breaking synthetic gauge fields, shown for the first time in a trapped ion chain, along with unique coupling geometries, potentially extendable to simulation of multi dimensional systems. Our high fidelity single-site resolution in control and measurement, along with highly programmable interactions, allow us to perform full state tomography of a ground state showcasing persistent current, and to observe dynamics of a time-reversal broken system with nontrivial interactions. Our results open a path towards simulation of time-reversal broken many-body systems with a wide range of features and coupling geometries.
翻訳日:2023-02-12 00:51:53 公開日:2022-05-23
# ホン・ウー・マンデル干渉による量子状態トモグラフィー

Quantum state tomography of qudits via Hong-Ou-Mandel interference ( http://arxiv.org/abs/2205.11160v1 )

ライセンス: Link先を確認
Yoshiaki Tsujimoto, Rikizo Ikuta, Kentaro Wakui, Toshiki Kobayashi and Mikio Fujiwara(参考訳) 対象状態とプローブ状態の間のHong-Ou-Mandel(HOM)干渉を用いて,単一光子に埋め込まれた$\mathit{n}$-partite qudit状態の量子状態トモグラフィ(QST)を実行する方法を提案する。 この方法は、HOM干渉のためのパッシブビームスプリッターのみを必要とし、従来のQSTに必要な測定ベースを制御するために、ターゲットモードのすべてのアクティブ光学デバイスを除去する。 したがって、測定設定を変更することなく、目標状態の様々な自由度に適用することができる。 また、レーザや熱光等の古典的プローブ光においても忠実な推定を実現する。 原理実証として偏波量子ビットを用いて実験実験を行った。 プローブ光の光子統計にかかわらず、状態再構成の結果は従来のqstで検証した値と同じくらい正確である。

We propose a method to perform the quantum state tomography (QST) of an $\mathit{n}$-partite qudit state embedded in single photons using the Hong-Ou-Mandel (HOM) interference between the target state and probe state. This method requires only passive beam splitters for the HOM interference and removes all active optical devices in the target modes to control the measurement bases needed in conventional QST. Hence, it is applicable to various degree of freedom of the target state without altering the measurement setup. Moreover, a faithful estimation is realized even with classical probe light such as laser and thermal light. As a proof-of-principle, we performed the experimental demonstration using a polarization qubit. Regardless of the photon statistics of the probe light, the estimated results of state reconstruction are as accurate as those verified by conventional QST.
翻訳日:2023-02-12 00:51:32 公開日:2022-05-23
# GRANIT分光計によるバウンシング中性子の重力量子状態の操作

Manipulation of gravitational quantum states of a bouncing neutron with the GRANIT spectrometer ( http://arxiv.org/abs/2205.11130v1 )

ライセンス: Link先を確認
Benoit Cl\'ement, Stefan Bae{\ss}ler, Valery V. Nesvizhevsky, Emily Perry, Guillaume Pignol, Jason A. Pioquinto, Konstantin V. Protasov, Dominique Rebreyend, Damien Roulier, Lingnan Shen, Alexander V. Strelkov, Francis Vezzu(参考訳) 跳ねる中性子は、重力が量子の枠組みで研究できる稀な系の1つである。 この目的のためには、特定の重力量子状態(GQS)を選択することが不可欠である。 GRANIT装置は超高温ヘリウムUCN源に接続された最初の物理実験である。 本稿では, ミラーと吸収スリットのステップを用いて, 特定のGQSがどう好まれるかを示す手法について報告する。 吸収性粗さ振幅を増大させることでgqs分離効率の向上を探究し,その実現可能性について検討した。 また、吸収スリットの透過を定量化し、中性子垂直波動関数 $z_0 = \hbar^{2/3}\left(2m^2g\right)^{-1/3} = 5.9\pm0.3\,\mu$m の空間拡張を測定する。

The bouncing neutron is one of the rare system where gravity can be studied in a quantum framework. To this end it is crucial to be able to select some specific gravitational quantum state (GQS). The GRANIT apparatus is the first physics experiment connected to a superthermal helium UCN source. We report on the methods developed for this instrument showing how specific GQS can be favored using a step between mirrors and an absorbing slit. We explore the increase of GQS separation efficiency by increasing the absorber roughness amplitude, and find it is feasible but requires a high adjustment precision. We also quantify the transmission of the absorbing slit leading to a measurement of the spatial extension of the neutron vertical wave function $z_0 = \hbar^{2/3}\left(2m^2g\right)^{-1/3} = 5.9\pm0.3\,\mu$m.
翻訳日:2023-02-12 00:51:04 公開日:2022-05-23
# 中心スピン量子電池における絡み合いと仕事抽出

Entanglement and work extraction in the central-spin quantum battery ( http://arxiv.org/abs/2205.11074v1 )

ライセンス: Link先を確認
Jia-Xuan Liu, Hai-Long Shi, Yun-Hao Shi, Xiao-Hui Wang, Wen-Li Yang(参考訳) 我々は、中央スピンが電池セル、n_c$バススピンが充電ユニットとして機能する中央スピン電池を考える。 抽出可能な電池に蓄積されるエネルギーはエルゴトロピーによって定量化され、バッテリチャージャーの絡み合いはフォン・ノイマンエントロピーを介して定量化される。 本研究は, 電池1セルと2セルの正確なアプローチを用いて, 充電過程において, 電池充電器の絡み合いが最大に達する前に, 取り出し作業が徐々に増加し, 絡み合いが減少し始めると, 急速に増加することを示唆する。 特に, 充電工程の終了時に, 抽出可能な作業と絡み合いとの間には逆関係があることを厳密に示す。 さらに,無駄なエネルギーを使わずに最適な作業抽出を実現するための異なる手法を検討する。 それらのうち、充電器が普遍充電時間$\propto 1/N_c$、大きな抽出可能な作業、および、Tavis-Cummings限界の電池と比較して$\sqrt{N_c}$改善されているため、非偏極ディック状態の中央スピン電池である。 上記の結果はマルチセル電池でも数値的に検証されている。 本研究は, 中央スピン電池における抽出可能なワークストレージの改善を図り, 抽出可能なワークと電池充電器の絡み合いとの競合関係を浮き彫りにする。

We consider a central-spin battery where $N_b$ central spins serve as battery cells and $N_c$ bath spins serve as charging units. It is shown that the energy stored in the battery that can be extractable is quantified by the ergotropy, and that battery-charger entanglement is quantified via the Von Neumann entropy. By using an exact approach to a one-cell and two-cell battery, our analytical results suggest that, during the charging process, the extractable work slowly increases before the battery-charger entanglement reaches its maximum and then it will rapidly increase when the entanglement begins to decrease. In particular, we rigorously show that there is an inverse relationship between the extractable work and the entanglement at the end of the charging process. Moreover, we investigate different approaches to realize optimal work extraction without wasted energy. Among them a central-spin battery with an unpolarized Dicke state as the charger possesses a universal charging time $\propto 1/N_c$, large extractable work, and $\sqrt{N_c}$-improvement of charging power compared with the battery in the Tavis-Cummings limit. The above-mentioned results have also been numerically verified in multi-cell batteries. Our results pave the way to improve extractable work storage in the central-spin battery and highlight a competitive relation between the extractable work and the battery-charger entanglement.
翻訳日:2023-02-12 00:50:09 公開日:2022-05-23
# 三フレーバーニュートリノ振動におけるGeuine tripartite entanglement

Geuine tripartite entanglement in three-flavor neutrino oscillations ( http://arxiv.org/abs/2205.11058v1 )

ライセンス: Link先を確認
Yu-Wen Li, Li-Juan Li, Xue-Ke Song, Dong Wang, and Liu Ye(参考訳) Leggett-Gargの不等式違反は、ニュートリノ振動(NOs)の量子性をマクロ距離で測定した。 量子性は、量子資源理論の道具を用いて定量化することができる。 最近では、全ての真の多部交絡条件を満たす収束三角形の面積の平方根として、新しい真の三部交絡測度(S. B. Xie et al., Phys. Lett. Lett. 127, 040403 (2021)]が定義される。 他の三分法に比べていくつかの利点がある。 本稿では,三成分のエンタングルメントを3相nosで定量化するために,コンカージェンスフィルの利用に着目する。 コンカレンスフィリングは実験で観測された電子反ニュートリノ振動に対して最大0.89ドルに達するが、ミューオン反ニュートリノ振動では不可能である。 いずれの場合も,ニュートリノ伝播における一般化幾何測度 (ggm) , 3-$\pi$ エンタングルメント (gmc) , 真の多成分共役 (gmc) など, 他の3つの三成分のエンタングルメント測度と比較し, 共役充填が最も多くの量子資源を含んでいることを示した。 さらに、収束フィリングと3-\pi$エンタングルメントは常に滑らかであり、GGMとGMCはいくつかの鋭いピークを持つ。 3-フレーバーNOの量子性の真の三部量子化は、量子情報処理におけるニュートリノのさらなる応用に向けた第一歩である。

The violation of Leggett-Garg inequalities tested the quantumness of neutrino oscillations (NOs) across macroscopic distances. The quantumness can be quantified by using the tools of the quantum resource theories. Recently, a new genuine tripartite entanglement measure [S. B. Xie et al., Phys. Rev. Lett. 127, 040403 (2021)], concurrence fill, is defined as the square root of the area of the concurrence triangle satisfying all genuine multipartite entanglement conditions. It has several advantages compared to other existing tripartite measures. Here, we focus on using concurrence fill to quantify the tripartite entanglement in three-flavor NOs. Concurrence fill can reach its maximum $0.89$ for the experimentally-observed electron antineutrino oscillations, but it cannot for the muon antineutrino oscillations. In both cases, we compare its performance with other three tripartite entanglement measures, including the generalized geometric measure (GGM), the three-$\pi$ entanglement, and the genuinely multipartite concurrence (GMC), in the neutrino propagation, and accordingly show that concurrence fill contains the most quantum resource. Furthermore, concurrence fill and the three-$\pi$ entanglement are always smooth, while GGM and GMC measures have several sharp peaks. The genuine tripartite quantification of the quantumness of three-flavor NOs represents the first step towards the further potential application of neutrinos on quantum information processing.
翻訳日:2023-02-12 00:49:18 公開日:2022-05-23
# 量子マイクロ波の伝播 : 通信・センシングへの応用に向けて

Propagating Quantum Microwaves: Towards Applications in Communication and Sensing ( http://arxiv.org/abs/2205.11424v1 )

ライセンス: Link先を確認
Mateo Casariego, Emmanuel Zambrini Cruzeiro, Stefano Gherardini, Tasio Gonzalez-Raya, Rui Andr\'e, Gon\c{c}alo Fraz\~ao, Giacomo Catto, Mikko M\"ott\"onen, Debopam Datta, Klaara Viisanen, Joonas Govenius, Mika Prunnila, Kimmo Tuominen, Maximilian Reichert, Michael Renger, Kirill G. Fedorov, Frank Deppe, Harriet van der Vliet, A. J. Matthews, Yolanda Fern\'andez, R. Assouly, R. Dassonneville, B. Huard, Mikel Sanz, Yasser Omar(参考訳) 量子マイクロ波を伝播する分野は、ここ数年でかなりの注目を集め始めている。 当初、リモート超伝導チップ間のセキュアな通信を解決できる効率的なマイクロ波対光プラットフォームがなかったことから、現在の取り組みは量子通信からセンシングまで、他の領域に到達し始めている。 ここでは、この2つについて最先端の視点を提供し、解決すべき技術的および理論的課題をいくつか指摘し、今後の研究のためにいくつかの新しいアイデアと方向性を提供する。 したがって、本論文の目的は、量子通信とセンシングの新しいアイデアを、オープンエアの量子量子鍵分布からダークマターの直接検出に至るまで、より大きなイメージを提供することであり、我々は、学術的なコミュニティだけでなく、産業環境においても、量子マイクロ波の最近の取り組みと成果が、すぐに広く観客を引き付けることを期待している。

The field of propagating quantum microwaves has started to receive considerable attention in the past few years. Motivated at first by the lack of an efficient microwave-to-optical platform that could solve the issue of secure communication between remote superconducting chips, current efforts are starting to reach other areas, from quantum communications to sensing. Here, we attempt at giving a state-of-the-art view of the two, pointing at some of the technical and theoretical challenges we need to address, and while providing some novel ideas and directions for future research. Hence, the goal of this paper is to provide a bigger picture, and -- we hope -- to inspire new ideas in quantum communications and sensing: from open-air microwave quantum key distribution to direct detection of dark matter, we expect that the recent efforts and results in quantum microwaves will soon attract a wider audience, not only in the academic community, but also in an industrial environment.
翻訳日:2023-02-12 00:43:38 公開日:2022-05-23
# 量子メトロロジーの熱力学原理」へのコメント

Comment on "Thermodynamic Principle for Quantum Metrology" ( http://arxiv.org/abs/2205.11411v1 )

ライセンス: Link先を確認
Shane Dooley, Michael J. Kewming, Mark T. Mitchison, John Goold(参考訳) フィスでね Rev. Lett. 128, 200501 (2022) 量子力学の熱力学的コストについて考察した。 主な結果の1つが$\mathcal{s} \geq \log(2) \| h_\lambda \|^{-2} f_q [\psi_\lambda]$であり、これはシャノンエントロピー $\mathcal{s}$ を最適な測定値(すなわち対称対数微分に基づく)と、純粋状態の$|\psi_\lambda\rangle$ の量子フィッシャー情報 $f_q$ を関連付けるものである。 しかし、著者が考える設定では、$\mathcal{s} = \log(2)$ と $\| h_\lambda \|^{2} = \max_{\psi_\lambda} f_q[\psi_\lambda]$ があり、したがってそれらの不等式は自明な不等式 $\max_{\psi_\lambda} f_q[\psi_\lambda] \geq f_q[\psi_\lambda]$ に還元され、実際にエントロピー $\mathcal{s}$ は量子フィッシャー情報とは関係しない。 さらに、純粋な状態量子メトロロジーでは、(対称対数微分(英語版)(symsymbol logarithmic derivative)に基づいてはいないが)0 \leq \mathcal{s} \leq \log(2)$ の最適測定値が存在し、いくつかの状態に対する不等式が ||\psi_\lambda\rangle$ となる。

In Phys. Rev. Lett. 128, 200501 (2022) the authors consider the thermodynamic cost of quantum metrology. One of the main results is $\mathcal{S} \geq \log(2) \| h_\lambda \|^{-2} F_Q [\psi_\lambda]$, which purports to relate the Shannon entropy $\mathcal{S}$ of an optimal measurement (i.e., in the basis of the symmetric logarithmic derivative) to the quantum Fisher information $F_Q$ of the pure state $|\psi_\lambda\rangle$. However, we show that in the setting considered by the authors we have $\mathcal{S} = \log(2)$ and $\| h_\lambda \|^{2} = \max_{\psi_\lambda} F_Q[\psi_\lambda]$, so that their inequality reduces to the trivial inequality $\max_{\psi_\lambda} F_Q[\psi_\lambda] \geq F_Q[\psi_\lambda]$, and does not in fact relate the entropy $\mathcal{S}$ to the quantum Fisher information. Moreover, for pure state quantum metrology, there exist optimal measurements (though not in the basis of the symmetric logarithmic derivative) for which $0 \leq \mathcal{S} \leq \log(2)$, leading to violations of the inequality for some states $|\psi_\lambda\rangle$.
翻訳日:2023-02-12 00:43:19 公開日:2022-05-23
# ベル対角四角形のNPハード分離性問題に対するほぼ完備解

Almost complete solution for the NP-hard separability problem of Bell diagonal qutrits ( http://arxiv.org/abs/2205.11405v1 )

ライセンス: Link先を確認
Christopher Popp and Beatrix C. Hiesmayr(参考訳) 成功した確率は 95 \%$ であり、正の部分転位 (ppt) を持つベル対角立方晶状態の分離可能性問題を解く。 分離性と絡み合った状態の区別という分離性問題は、一般に有界な絡み合った状態が存在するため、効率的な解がない。 局所操作や古典的通信による絡み合い蒸留に使用できる自由絡み合い状態とは対照的に、これらの状態はペレス・ホロデキ基準(peres-horodecki criterion)やppt基準(ppt criterion)では検出できない。 分離可能,自由絡み合い,あるいは束縛された2成分のクトリト状態の大規模な族を解析した。 ユークリッド空間におけるこれらの状態の幾何学的表現を利用して、分離可能および結合されたベル対角状態の効率的な分類を可能にする新しい方法が提示される。 さらに、この分類は分離可能状態、自由状態、および束縛状態のクラスの相対体積の正確な決定を可能にする。 詳しくは、全てのベル対角 PPT 状態のうち 81.0 \%\pm0.1\%$ は分離可能であり、13.9\pm0.1\%$ は束縛され、5.1\pm0.1\%$ は未分類のままである。 さらに, 適用基準は, 有界絡みの検出器としての有効性と関係を比較した結果, 一つの基準がすべての有界絡み状態を検出することができないことがわかった。

With a probability of success of $95 \%$ we solve the separability problem for Bell diagonal qutrit states with positive partial transposition (PPT). The separability problem, i.e. distinguishing separable and entangled states, generally lacks an efficient solution due to the existence of bound entangled states. In contrast to free entangled states that can be used for entanglement distillation via local operations and classical communication, these states cannot be detected by the Peres-Horodecki criterion or PPT criterion. We analyze a large family of bipartite qutrit states that can be separable, free entangled or bound entangled. Leveraging a geometrical representation of these states in Euclidean space, novel methods are presented that allow the classification of separable and bound entangled Bell diagonal states in an efficient way. Moreover, the classification allows the precise determination of relative volumes of the classes of separable, free and bound entangled states. In detail, out of all Bell diagonal PPT states $81.0 \%\pm0.1\%$ are determined to be separable while $13.9\pm0.1\%$ are bound entangled and only $5.1\pm0.1\%$ remain unclassified. Moreover, our applied criteria are compared for their effectiveness and relation as detectors of bound entanglement, which reveals that not a single criterion is capable to detect all bound entangled states.
翻訳日:2023-02-12 00:42:38 公開日:2022-05-23
# 非断熱量子力学のための位相空間マッピングの統一的定式化

Unified Formulation of Phase Space Mapping Approaches for Nonadiabatic Quantum Dynamics ( http://arxiv.org/abs/2205.11354v1 )

ライセンス: Link先を確認
Jian Liu, Xin He, Baihua Wu(参考訳) 非断熱力学過程は化学、物質、生物、および環境分子系において最も重要な量子力学的現象の1つであり、異なる電子状態間の結合は分子構造に内在するか(インテンシー)外部場によって誘導される。 次元の呪いは、システムサイズによる計算作業の難解な指数的スケーリングを示し、現実的な大規模システムに対する数値的正確なアプローチの実装を制限する。 量子力学の位相空間定式化は、量子力学の実用的な近似軌道に基づく方法を構築するための重要な理論的枠組みを提供する。 This Account reviews our recent progress in phase space mapping theory: a unified framework for constructing the mapping Hamiltonian on phase space for coupled F-state systems where the renowned Meyer-Miller Hamiltonian model is a special case, a general phase space formulation of quantum mechanics for nonadiabatic systems where the electronic degrees of freedom are mapped onto constraint space and the nuclear degrees of freedom are mapped onto infinite space, and an isomorphism between the mapping phase space approach for nonadiabatic systems and that for nonequilibrium electron transport processes.

Nonadiabatic dynamical processes are one of the most important quantum mechanical phenomena in chemical, materials, biological, and environmental molecular systems, where the coupling between different electronic states is either inherent in the molecular structure or induced by the (intense) external field. The curse of dimensionality indicates the intractable exponential scaling of calculation effort with system size and restricts the implementation of numerically exact approaches for realistic large systems. The phase space formulation of quantum mechanics offers an important theoretical framework for constructing practical approximate trajectory-based methods for quantum dynamics. This Account reviews our recent progress in phase space mapping theory: a unified framework for constructing the mapping Hamiltonian on phase space for coupled F-state systems where the renowned Meyer-Miller Hamiltonian model is a special case, a general phase space formulation of quantum mechanics for nonadiabatic systems where the electronic degrees of freedom are mapped onto constraint space and the nuclear degrees of freedom are mapped onto infinite space, and an isomorphism between the mapping phase space approach for nonadiabatic systems and that for nonequilibrium electron transport processes.
翻訳日:2023-02-12 00:42:12 公開日:2022-05-23
# 2つの光学浮揚ナノ粒子からの散乱ベクトル光の干渉

Interference of the scattered vector light fields from two optically levitated nanoparticles ( http://arxiv.org/abs/2205.11348v1 )

ライセンス: Link先を確認
Yuanbin Jin, Jiangwei Yan, Shah Jee Rahman, Xudong Yu, and Jing Zhang(参考訳) 真空中における2つの光学浮揚ナノ粒子からの双極子散乱光の干渉を実験的に検討した。 トラップ型レーザービームの伝搬に直交する直線偏光プローブビームを用いて、捕捉された2つのナノ粒子を照射する。 ナノ粒子からの散乱光を高数値開口(NA)対物レンズで収集して撮像する。 画像とフーリエ空間の異なる双極子配向に対する散乱ベクトル光からの干渉縞を観察する。 特に、偏光渦を持つ2つの散乱光場の干渉縞は、画像空間における2つのナノ粒子の中心領域の内側と外側の間の干渉縞の"pi"シフトを示す。 われわれが知る限り、これは自由空間における2つの双極子からの散乱ベクトル光場の干渉に関する最初の実験的観測である。 この研究は、干渉縞による光学共振ナノ粒子間の空間スケールを簡易かつ直接的に決定する手法も提供する。

We experimentally study the interference of dipole scattered light from two optically levitated nanoparticles in vacuum, which present an environment free of particle-substrate interactions. We illuminate the two trapped nanoparticles with a linearly polarized probe beam orthogonal to the propagation of the trapping laser beams. The scattered light from the nanoparticles are collected by a high numerical aperture (NA) objective lens and imaged. The interference fringes from the scattered vector light for the different dipole orientations in image and Fourier space are observed. Especially, the interference fringes of two scattered light fields with polarization vortex show the {\pi} shift of the interference fringes between inside and outside the center region of the two nanoparticles in the image space. As far as we know, this is the first experimental observation of the interference of scattered vector light fields from two dipoles in free space. This work also provides a simple and direct method to determine the spatial scales between optically levitated nanoparticles by the interference fringes.
翻訳日:2023-02-12 00:41:54 公開日:2022-05-23
# Szilardのエンジンを浄化する不可逆コスト:量子ホモジェナイザーを用いて消去を行うことは可能か?

The irreversibility cost of purifying Szilard's engine: Is it possible to perform erasure using the quantum homogenizer? ( http://arxiv.org/abs/2205.11310v1 )

ライセンス: Link先を確認
Maria Violaris, Chiara Marletto(参考訳) 消去は情報処理の基本である。 情報理論と熱力学を結合する上でも鍵であり、論理的に不可逆なタスクである。 我々は,landauer の原理のような標準的な結果には捉えられていない消去のための追加コストが存在する可能性があることを指摘し,この接続に対する新たな角度を提供する。 この点を達成するために、コンストラクタ理論に基づく可逆性モデル(最近提案された計算の量子論の一般化)を用いる。 このモデルは「量子ホモゲナイザ(quantum homogenizer)」と呼ばれる機械を使い、量子ビットの任意の状態から他の状態への変換を概ね実現し、全体的な完全なユニタリ相互作用を通じてほぼ変化しない。 我々は、量子ホモジェナイゼーションによる消去を行う際に、混合状態を生成するよりも、サイクル内で純粋な状態を確実に生成することが困難であるため、Szilardエンジンの消去ステップを実行するための追加コストがあると主張している。 また、この結果が、より一般的な用語で消去コストに与える影響についても論じる。

Erasure is fundamental for information processing. It is also key in connecting information theory and thermodynamics, as it is a logically irreversible task. We provide a new angle on this connection, noting that there may be an additional cost to erasure, that is not captured by standard results such as Landauer's principle. To make this point we use a model of irreversibility based on Constructor Theory - a recently proposed generalization of the quantum theory of computation. The model uses a machine called the "quantum homogenizer", which has the ability to approximately realise the transformation of a qubit from any state to any other state and remain approximately unchanged, through overall entirely unitary interactions. We argue that when performing erasure via quantum homogenization there is an additional cost to performing the erasure step of the Szilard's engine, because it is more difficult to reliably produce pure states in a cycle than to produce mixed states. We also discuss the implications of this result for the cost of erasure in more general terms.
翻訳日:2023-02-12 00:41:40 公開日:2022-05-23
# スペクトル領域光コヒーレンストモグラフィのための量子ウィーナー・ヒンチンの定理

Quantum Wiener-Khinchin theorem for spectral-domain optical coherence tomography ( http://arxiv.org/abs/2205.11298v1 )

ライセンス: Link先を確認
Yuanyuan Chen and Lixiang Chen(参考訳) ウィーナー・ヒンチンの定理は、時間過程の自己相関関数がそのパワースペクトル強度によって与えられるスペクトル分解を持つという事実であり、多くの分野で用いられる。 しかし、ウィナー・ヒンチンの量子的な定理に基づく応用は、双光子波動関数の時間エネルギー自由度の間の変換を提供するが、まだ比較的未定である。 ここでは量子ウィーナー・ヒンチンの定理(qwkt)を用いて、2光子結合スペクトル強度と2光子時間信号の相互相関をフーリエ変換することにより接続できることを示す。 数学的に定義されたQWKTは、スペクトル分解検出の助けを借りて、2光子のHong-Ou-Mandel(HOM)干渉で実験的に実証される。 本手法をスペクトル領域の量子コヒーレンストモグラフィに応用し, 透過試料の厚さ誘起光遅延を検知し, 従来のhom干渉法に比べて, 広いダイナミックレンジで測定精度, 撮影時間において大きな利点を得られることを示す。 これらの結果は量子情報処理や量子干渉分光におけるQWKTの利用を著しく促進する可能性がある。

Wiener-Khinchin theorem, the fact that the autocorrelation function of a time process has a spectral decomposition given by its power spectrum intensity, can be used in many disciplines. However, the applications based on a quantum counterpart of Wiener-Khinchin theorem that provides a translation between time-energy degrees of freedom of biphoton wavefunction still remains relatively unexplored. Here, we use a quantum Wiener-Khinchin theorem (QWKT) to state that two-photon joint spectral intensity and the cross-correlation of two-photon temporal signal can be connected by making a Fourier transform. The mathematically-defined QWKT is experimentally demonstrated in frequency-entangled two-photon Hong-Ou-Mandel (HOM) interference with the assistance of spectrally-resolved detection. We apply this method to spectral-domain quantum optical coherence tomography that detects thickness-induced optical delays in a transparent sample, and show that our method suffices to achieve great advantages in measurement precision within a wide dynamic range and capturing time over the conventional HOM interferometric schemes. These results may significantly facilitate the use of QWKT for quantum information processing and quantum interferometric spectroscopy.
翻訳日:2023-02-12 00:41:20 公開日:2022-05-23
# 散逸中心スピン系における準安定離散時間-結晶共鳴

Metastable discrete time-crystal resonances in a dissipative central spin system ( http://arxiv.org/abs/2205.11263v1 )

ライセンス: Link先を確認
Albert Cabot, Federico Carollo and Igor Lesanovsky(参考訳) 中心スピンが周期的に基底状態にリセットされる中心スピン系の非平衡挙動を考察する。 この効果的な散逸ダイナミクスの下での量子力学的進化は離散時間量子マップによって記述される。 単純さにもかかわらず、この問題は驚くほど複雑な動的特徴を示している。 特に,いくつかの転移性時間-結晶共鳴を同定する。 ここで、システムは定常状態に素早く緩和するのではなく、リセット周期の整数倍の周期で長寿命の発振を行う。 これらの共鳴において、進化はシステムが周期運動を行う低次元状態空間に制限される。 開量子系における準安定理論を一般化し、この長寿命準安定部分空間内での進化を効果的に記述し、長期的極限において非平衡定常状態に近づくことを示す。 本研究は、散逸量子多体進化の「前熱的」段階における創発的集団行動に関するタイムリーな疑問と関連し、量子同期現象の興味深いリンクを確立する。

We consider the non-equilibrium behavior of a central spin system where the central spin is periodically reset to its ground state. The quantum mechanical evolution under this effectively dissipative dynamics is described by a discrete-time quantum map. Despite its simplicity this problem shows surprisingly complex dynamical features. In particular, we identify several metastable time-crystal resonances. Here the system does not relax rapidly to a stationary state but undergoes long-lived oscillations with a period that is an integer multiple of the reset period. At these resonances the evolution becomes restricted to a low-dimensional state space within which the system undergoes a periodic motion. Generalizing the theory of metastability in open quantum systems, we develop an effective description for the evolution within this long-lived metastable subspace and show that in the long-time limit a non-equilibrium stationary state is approached. Our study links to timely questions concerning emergent collective behavior in the 'prethermal' stage of a dissipative quantum many-body evolution and may establish an intriguing link to the phenomenon of quantum synchronization.
翻訳日:2023-02-12 00:40:59 公開日:2022-05-23
# 高次因果論はBV-論理のモデルである

Higher-order causal theories are models of BV-logic ( http://arxiv.org/abs/2205.11219v1 )

ライセンス: Link先を確認
Will Simmons and Aleks Kissinger(参考訳) caus[-] 構成は基本過程のコンパクトな閉圏を取り、結果の圏の型系によって引き起こされるような、特定のシグナル/因果性の制約に従う高次プロセスの *-自律圏を与える。 本稿では, 基底圏 C が Caus[C] 上のアフィン-線形構造と, よりリッチな内部論理をもたらす余分な性質を満たす場合を考察する。 元の構成は乗法線形論理のみを与えるが、ここでは加法と、ググリエルミのBV論理のモデルを生成する非可換な自己双対逐次積を得る。 さらに、逐次積の自然な解釈として、「A can signal to B, but not vice-versa」が得られ、これは非シグナリングテンソルと完全シグナリング(すなわち非制約)パーの間の期待どおりに成り立つ。 C の正数の固定行列は、ブラテ、パナンガデン、スラヴノフによって特定される確率的コヒーレンス空間の BV 圏構造を回復し、正規化された写像に制限される。 一方、完全に正の写像の圏を固定すると、高次量子チャネルからなる全く新しいBVモデルが得られ、量子的および不定因果構造の研究における最近の研究を含んでいる。

The Caus[-] construction takes a compact closed category of basic processes and yields a *-autonomous category of higher-order processes obeying certain signalling/causality constraints, as dictated by the type system in the resulting category. This paper looks at instances where the base category C satisfies additional properties yielding an affine-linear structure on Caus[C] and a substantially richer internal logic. While the original construction only gave multiplicative linear logic, here we additionally obtain additives and a non-commutative, self-dual sequential product yielding a model of Guglielmi's BV logic. Furthermore, we obtain a natural interpretation for the sequential product as "A can signal to B, but not vice-versa", which sits as expected between the non-signalling tensor and the fully-signalling (i.e. unconstrained) par. Fixing matrices of positive numbers for C recovers the BV category structure of probabilistic coherence spaces identified by Blute, Panangaden, and Slavnov, restricted to normalised maps. On the other hand, fixing the category of completely positive maps gives an entirely new model of BV consisting of higher order quantum channels, encompassing recent work in the study of quantum and indefinite causal structures.
翻訳日:2023-02-12 00:40:43 公開日:2022-05-23
# rabiモデルにおける散逸駆動量子相転移のシグネチャ

Signatures of Dissipation Driven Quantum Phase Transition in Rabi Model ( http://arxiv.org/abs/2205.11555v1 )

ライセンス: Link先を確認
G. De Filippis, A. de Candia, G. Di Bello, C. A. Perroni, L. M. Cangemi, A. Nocera, M. Sassetti, R. Fazio, V. Cataudella(参考訳) ワールドラインモンテカルロ法,行列積状態,変分法を用いて,粘性流体に埋め込まれた線形調和振動子に2レベル系を結合した散逸量子ラビモデルの平衡特性と緩和特性について検討する。 オーミム系では、ベレツィンスキー-コステリッツ-チューレス量子相転移は、2レベル系と発振器の間の結合強度を変化させることで起こる。 これは非摂動的な結果であり、非常に低い放散量でも起こる。 現状の理論的手法を用いて、熱力学平衡に対する緩和の特徴を明らかにし、時間領域と周波数領域の両方で量子相転移のシグネチャを指摘する。 我々は、散逸の低い値と適度な値に対して、量子相転移が深い結合状態において起こることを証明した。 本稿では,フラックス量子ビットと減衰LC発振器を結合することで,このモデルを実現することを提案する。

By using worldline Monte Carlo technique, matrix product state and a variational approach \`a la Feynman, we investigate the equilibrium properties and relaxation features of the dissipative quantum Rabi model, where a two level system is coupled to a linear harmonic oscillator embedded in a viscous fluid. We show that, in the Ohmic regime, a Beretzinski-Kosterlitz-Thouless quantum phase transition occurs by varying the coupling strength between the two level system and the oscillator. This is a non perturbative result, occurring even for extremely low dissipation magnitude. By using state-of-the-art theoretical methods, we unveil the features of the relaxation towards the thermodynamic equilibrium, pointing out the signatures of quantum phase transition both in the time and frequency domains. We prove that, for low and moderate values of the dissipation, the quantum phase transition occurs in the deep strong coupling regime. We propose to realize this model by coupling a flux qubit and a damped LC oscillator.
翻訳日:2023-02-12 00:32:43 公開日:2022-05-23
# カオス量子多体系におけるリアルタイム相関器

Real-time correlators in chaotic quantum many-body systems ( http://arxiv.org/abs/2205.11544v1 )

ライセンス: Link先を確認
Adam Nahum, Sthitadhi Roy, Sagar Vijay, and Tianci Zhou(参考訳) カオス量子多体系における実時間局所相関器 $\langle\mathcal{O}(\mathbf{x},t)\mathcal{O}(0,0)\rangle$ について検討する。 これらのコリエーターは後期の普遍的構造を示し、進化作用素 $\mathcal{o}(\mathbf{x},t)$ に対して支配的な作用素空間ファインマン軌道によって決定される。 関連する軌道は、演算子が初期時間と最終時間の両方の点に収縮することを含み、したがって、時間外相関器を支配するものと構造的に異なる。 保存則が存在しない場合、相関関係は指数関数的に減衰する: $\langle\mathcal{o}(\mathbf{x},t)\mathcal{o}(0,0)\rangle\sim\exp(-s_\mathrm{eq} r(\mathbf{v}) t)$, ここで$\mathbf{v}= \mathbf{x}/t$は時空線を定義する。 様々な時空構造に対するコスト関数の項で$r(\mathbf{v})$を表す。 1+1Dでは、作用素ヒストリーは臨界線速度$v_c$で相転移を示すことができ、$r(\mathbf{v})$は非解析的である。 低$v$ では、支配的なファインマンの履歴は "fat" であり、演算子は再びポイントに収縮する前に$t^\alpha\gg 1$のオーダーに成長する。 高い$v$ では、軌道は "thin" である。 ハールランダムユニタリ回路では、この遷移は一対のランダムウォーク(作用素の2つの空間境界)に対する単純な結合遷移にマップされる。 高次元では、薄い軌道は常に支配的である。 我々は,オトックではなく時間順コリレータからバタフライ速度$v_b$を抽出する方法について検討する。 ランダム回路のコリレータは有効なIsing-likeモデルで計算され、Haarブリックワーク回路のIsing重みの特別な特徴は$v_c=v_B$である。 この研究は格子モデルを扱っているが、量子場理論における実時間ファインマン図形の位相遷移の可能性も示唆している。

We study real-time local correlators $\langle\mathcal{O}(\mathbf{x},t)\mathcal{O}(0,0)\rangle$ in chaotic quantum many-body systems. These correlators show universal structure at late times, determined by the dominant operator-space Feynman trajectories for the evolving operator $\mathcal{O}(\mathbf{x},t)$. The relevant trajectories involve the operator contracting to a point at both the initial and final time and so are structurally different from those dominating the out-of-time-order correlator. In the absence of conservation laws, correlations decay exponentially: $\langle\mathcal{O}(\mathbf{x},t)\mathcal{O}(0,0)\rangle\sim\exp(-s_\mathrm{eq} r(\mathbf{v}) t)$, where $\mathbf{v}= \mathbf{x}/ t$ defines a spacetime ray, and $r(\mathbf{v})$ is an associated decay rate. We express $r(\mathbf{v})$ in terms of cost functions for various spacetime structures. In 1+1D, operator histories can show a phase transition at a critical ray velocity $v_c$, where $r(\mathbf{v})$ is nonanalytic. At low $v$, the dominant Feynman histories are "fat": the operator grows to a size of order $t^\alpha\gg 1$ before contracting to a point again. At high $v$ the trajectories are "thin": the operator always remains of order-one size. In a Haar-random unitary circuit, this transition maps to a simple binding transition for a pair of random walks (the two spatial boundaries of the operator). In higher dimensions, thin trajectories always dominate. We discuss ways to extract the butterfly velocity $v_B$ from the time-ordered correlator, rather than the OTOC. Correlators in the random circuit may alternatively be computed with an effective Ising-like model: a special feature of the Ising weights for the Haar brickwork circuit gives $v_c=v_B$. This work addresses lattice models, but also suggests the possibility of morphological phase transitions for real-time Feynman diagrams in quantum field theories.
翻訳日:2023-02-12 00:32:04 公開日:2022-05-23
# カウントベース有効次元と離散正規化

Counting-Based Effective Dimension and Discrete Regularizations ( http://arxiv.org/abs/2205.11520v1 )

ライセンス: Link先を確認
Ivan Horv\'ath, Peter Marko\v{s}, Robert Mendris(参考訳) 有効数理論は、確率や他の加法重みを持つオブジェクトの集合にカウントを割り当てる全ての加法方法を決定する。 ここでは,これらの集合に対して有効な支援を選択するための計数に基づくスキームを全て構築し,それが有効次元のユニークな概念をもたらすことを示す。 この有効数え上げ次元(ECD)は、サポート対象の数がトータル数でどのようにスケールするかを規定し、その特異性はすべてのスキームが同じ値を得ることを意味する。 したがって、ECDはよく定義されており、物理学やその他の量科学における離散正規化の対象を特徴づけるのに使うことができる。 一般性を考えると、ECDは広く異なる領域の結果を接続し解釈するのに役立ちます。 我々の分析は、格子量子色力学とアンダーソン局在モデルにおいて有効空間次元の研究をうまく進めている。 本研究では, 正規化除去の信頼性について検討し, 3次元アンダーソン臨界の文脈で各数値解析を行う。 この議論は、固定集合の測度ベース次元(ミンコフスキー、ハウスドルフ)がよい確率的拡大を持つことを示唆している。

Effective number theory determines all additive ways to assign counts to collections of objects with probabilities or other additive weights. Here we construct all counting-based schemes to select effective supports on such collections, and show that it leads to a unique notion of effective dimension. This effective counting dimension (ECD) specifies how the number of objects in a support scales with their total number, and its uniqueness means that all schemes yield the same value. Hence, ECD is well defined and can be used to characterize targets of discrete regularizations in physics and other quantitative sciences. Given its generality, ECD may help to connect and interpret results from widely distinct areas. Our analysis makes recent studies of effective spatial dimensions in lattice quantum chromodynamics and Anderson localization models well founded. We address the reliability of regularization removals in practice and perform the respective numerical analysis in the context of 3d Anderson criticality. Our arguments suggest that measure-based dimensions (Minkowski, Hausdorff) of fixed sets have good probabilistic extensions.
翻訳日:2023-02-12 00:31:20 公開日:2022-05-23
# 振動場によって駆動される電位障壁を通る共鳴トンネル

Resonant tunneling through a potential barrier driven by an oscillating field ( http://arxiv.org/abs/2205.11479v1 )

ライセンス: Link先を確認
M. V. Boev, V. M. Kovalev, O. V. Kibis(参考訳) 高周波振動場によって駆動されるポテンシャル障壁を貫通する弾性電子トンネルの理論を考案した。 駆動障壁は、これらの2つの障壁の間に閉じ込められた準定常電子状態を含む静止2バリアポテンシャルとみなすことができる。 入射電子のエネルギーが準定常状態のエネルギーと一致するとき、駆動された障壁は電子に対して完全に透明になる(共鳴トンネル)。 この理論は、電磁波に照射された量子点接触による電子輸送を記述するために応用される。

We developed the theory of elastic electron tunneling through a potential barrier driven by a high-frequency oscillating field. It is demonstrated that the driven barrier can be considered as a stationary two-barrier potential which contains the quasi-stationary electron states confined between these two barriers. When the energy of an incident electron coincides with the energy of the quasi-stationary state, the driven barrier becomes fully transparent for the electron (the resonant tunneling). The developed theory is applied to describe electron transport through a quantum point contact irradiated by an electromagnetic wave.
翻訳日:2023-02-12 00:31:03 公開日:2022-05-23
# トラップイオン系における多モード運動量子状態の決定

Determination of Multi-mode Motional Quantum States in a Trapped Ion System ( http://arxiv.org/abs/2205.11444v1 )

ライセンス: Link先を確認
Zhubing Jia, Ye Wang, Bichen Zhang, Jacob Whitlow, Chao Fang, Jungsang Kim, Kenneth R. Brown(参考訳) 閉じ込められた原子イオンは、イオンの内部状態とそれらの運動を結合することによりスピンとボソンの相互作用を研究するための多用途なプラットフォームである。 複数のモードを持つ複雑な運動状態の測定は、すべての運動状態の集団はイオンのスピン状態を通して間接的にしか測定できないため、難しい。 本稿では,fock状態分布を推定し,任意の多モード動作状態の密度行列を再構成する方法を提案する。 5イオン鎖における複数のラジアルモードの異なる絡み合い状態を用いた方法の実験的検証を行った。 この方法は、Jaynes-Cummings型相互作用を持つ任意のシステムに拡張することができる。

Trapped atomic ions are a versatile platform for studying interactions between spins and bosons by coupling the internal states of the ions to their motion. Measurement of complex motional states with multiple modes is challenging, because all motional state populations can only be measured indirectly through the spin state of ions. Here we present a general method to determine the Fock state distributions and to reconstruct the density matrix of an arbitrary multi-mode motional state. We experimentally verify the method using different entangled states of multiple radial modes in a 5-ion chain. This method can be extended to any system with Jaynes-Cummings type interactions.
翻訳日:2023-02-12 00:30:55 公開日:2022-05-23
# 相関ガウス過程による弱制御多出力回帰

Weakly-supervised Multi-output Regression via Correlated Gaussian Processes ( http://arxiv.org/abs/2002.08412v2 )

ライセンス: Link先を確認
Seokhyun Chung, Raed Al Kontar, Zhenke Wu(参考訳) 多出力回帰は、学習と予測精度を高めるために、強度を借り、異なるが関連する出力の共通点を活用する。 基本的な仮定は、すべての観察のための出力/グループメンバシップラベルが知られていることである。 この仮定は実アプリケーションではしばしば破られる。 例えば、医療データセットでは、民族性のような繊細な属性はしばしば欠落または報告されない。 この目的のために、依存ガウス過程に基づく弱教師付き多出力モデルを導入する。 私たちのアプローチは、完全なグループラベルやグループメンバーシップに対する事前の信念なしにデータを活用し、すべてのアウトプットの正確性を高めることができます。 Insulin,Testosterone,Bodyfatの各データセットの集中的なシミュレーションとケーススタディにより,従来の完全ラベル付き設定と競合しながら,ラベルの欠如によるマルチアウトプット設定が優れていることを示す。 最終的には、公正な推論とシーケンシャルな意思決定において、アプローチの可能な使用を強調します。

Multi-output regression seeks to borrow strength and leverage commonalities across different but related outputs in order to enhance learning and prediction accuracy. A fundamental assumption is that the output/group membership labels for all observations are known. This assumption is often violated in real applications. For instance, in healthcare datasets, sensitive attributes such as ethnicity are often missing or unreported. To this end, we introduce a weakly-supervised multi-output model based on dependent Gaussian processes. Our approach is able to leverage data without complete group labels or possibly only prior belief on group memberships to enhance accuracy across all outputs. Through intensive simulations and case studies on an Insulin, Testosterone and Bodyfat dataset, we show that our model excels in multi-output settings with missing labels, while being competitive in traditional fully labeled settings. We end by highlighting the possible use of our approach in fair inference and sequential decision-making.
翻訳日:2022-12-30 13:16:34 公開日:2022-05-23
# RGBT Salient Object Detection: 大規模データセットとベンチマーク

RGBT Salient Object Detection: A Large-scale Dataset and Benchmark ( http://arxiv.org/abs/2007.03262v6 )

ライセンス: Link先を確認
Zhengzheng Tu, Yan Ma, Zhun Li, Chenglong Li, Jieming Xu, Yongtao Liu(参考訳) 複雑なシーンや環境における健全な物体検出は、難しい研究課題である。 ほとんどの研究は、暗黒環境や複雑な背景といった悪条件に直面した場合、現実のアプリケーションの性能を制限するRGBベースの有能なオブジェクト検出に焦点を当てている。 近年,RGBや熱赤外画像の活用は,多くのコンピュータビジョンタスクにおいて,熱赤外分光画像が相補的な情報を提供するため,複雑な場面で顕著な物体を検出する新たな研究方向となる。 しかし、RGBTの有意なオブジェクト検出に関する現在の研究は、大規模なデータセットと包括的なベンチマークが欠如しているために制限されている。 この研究はVT5000という名のRGBT画像データセットに寄与し、5000の空間的整列されたRGBT画像対と地上の真理アノテーションを含んでいる。 VT5000には、アルゴリズムの堅牢性を調べるための、さまざまなシーンや環境において収集された11の課題がある。 このデータセットを用いて,各モダリティ内の多レベル特徴を抽出し,これらの特徴をアテンション機構で集約し,rgbt有意なオブジェクト検出を行う,強力なベースラインアプローチを提案する。 広範な実験により、提案されたベースラインアプローチは、vt5000データセットと他の2つの公開データセットの最先端のメソッドよりも優れていることが示された。 さらに、VT5000データセット上でRGBT有意物体検出のアルゴリズムを網羅的に分析し、いくつかの重要な結論を出し、RGBT有意物体検出の潜在的な研究方向を提供する。

Salient object detection in complex scenes and environments is a challenging research topic. Most works focus on RGB-based salient object detection, which limits its performance of real-life applications when confronted with adverse conditions such as dark environments and complex backgrounds. Taking advantage of RGB and thermal infrared images becomes a new research direction for detecting salient object in complex scenes recently, as thermal infrared spectrum imaging provides the complementary information and has been applied to many computer vision tasks. However, current research for RGBT salient object detection is limited by the lack of a large-scale dataset and comprehensive benchmark. This work contributes such a RGBT image dataset named VT5000, including 5000 spatially aligned RGBT image pairs with ground truth annotations. VT5000 has 11 challenges collected in different scenes and environments for exploring the robustness of algorithms. With this dataset, we propose a powerful baseline approach, which extracts multi-level features within each modality and aggregates these features of all modalities with the attention mechanism, for accurate RGBT salient object detection. Extensive experiments show that the proposed baseline approach outperforms the state-of-the-art methods on VT5000 dataset and other two public datasets. In addition, we carry out a comprehensive analysis of different algorithms of RGBT salient object detection on VT5000 dataset, and then make several valuable conclusions and provide some potential research directions for RGBT salient object detection.
翻訳日:2022-11-12 20:00:53 公開日:2022-05-23
# インテリジェンスプライマー

Intelligence Primer ( http://arxiv.org/abs/2008.07324v3 )

ライセンス: Link先を確認
Karl Fezer and Andrew Sloss(参考訳) 人工知能は、すべての生物の基本的な部分であり、人工知能の基礎でもある。 このプライマーでは、知性に関連するアイデアを探求し、それによって意味と制約を理解し、将来のシステムの能力を概説します。 人工知能は、機械学習の形で、私たちの生活に大きな影響を与えています。 探索として、私たちは必要不可欠なさまざまなインテリジェンスを旅します。 人々がこれを将来を決定するのに役立つと願っている。 また、調査期間中に、新たな思考を促す質問を作成したいと思っています。 知能は単一の量ではなく、生物学、物理学、哲学、認知科学、神経科学、心理学、コンピュータ科学にまたがる主題である。 歴史家のユヴァル・ノア・ハリは、将来エンジニアと科学者は、心理学、哲学、倫理といった分野を含むために彼らの理解を広げる必要があると指摘している。 フィクション作家は長い間、これらの地域では不十分な技術者や科学者を描いてきた。 今日、現代社会では、人工知能と法的な要件の出現は、これらのより広い対象を前景に押し込む機能として機能する。 インテリジェンスの導入から始まり、より深い思考とアイデアに素早く移行します。 私たちはこれを、ダグラス・アダムズの有名なSF小説「Life, the Universe, and Everything primer」と呼ぶ。 42は正しい答えかもしれないが、その質問は何だろう?

Intelligence is a fundamental part of all living things, as well as the foundation for Artificial Intelligence. In this primer we explore the ideas associated with intelligence and, by doing so, understand the implications and constraints and potentially outline the capabilities of future systems. Artificial Intelligence, in the form of Machine Learning, has already had a significant impact on our lives. As an exploration, we journey into different parts of intelligence that appear essential. We hope that people find this helpful in determining the future. Also, during the exploration, we hope to create new thought-provoking questions. Intelligence is not a single weighable quantity but a subject that spans Biology, Physics, Philosophy, Cognitive Science, Neuroscience, Psychology, and Computer Science. The historian Yuval Noah Harari pointed out that engineers and scientists in the future will have to broaden their understandings to include disciplines such as Psychology, Philosophy, and Ethics. Fiction writers have long portrayed engineers and scientists as deficient in these areas. Today, in modern society, the emergence of Artificial Intelligence and legal requirements act as forcing functions to push these broader subjects into the foreground. We start with an introduction to intelligence and move quickly to more profound thoughts and ideas. We call this a Life, the Universe, and Everything primer, after the famous science fiction book by Douglas Adams. Forty-two may be the correct answer, but what are the questions?
翻訳日:2022-10-30 22:27:42 公開日:2022-05-23
# ゲート型教師なしエキスパートの再結合による異常検出

Anomaly Detection by Recombining Gated Unsupervised Experts ( http://arxiv.org/abs/2008.13763v5 )

ライセンス: Link先を確認
J.-P. Schulze, P. Sperl, K. B\"ottinger(参考訳) 異常検出は、いくつかの事前知識の下で検討されてきた。 教師なしメソッドはラベル付きデータを必要としないが、半教師なしメソッドは既知の異常を利用する。 ニューラルネットワークの混合実験モデルと隠れ活性化の解析に着想を得て,ARGUEと呼ばれる新しいデータ駆動型異常検出手法を提案する。 本手法は,教師なし環境および半教師なし環境に適用できるだけでなく,自己教師なし設定の事前知識から得られる利益にも適用できる。 入力データの一部に特化する専門的専門家ネットワークの組み合わせとして設計した。 最終的な決定として、ARGUEは専門家システム全体にわたる分散知識を、専門家の混成アーキテクチャを使って融合させる。 我々の評価は、正規データ分布に関する事前の知識が既知の異常と同程度に貴重である可能性を示唆している。

Anomaly detection has been considered under several extents of prior knowledge. Unsupervised methods do not require any labelled data, whereas semi-supervised methods leverage some known anomalies. Inspired by mixture-of-experts models and the analysis of the hidden activations of neural networks, we introduce a novel data-driven anomaly detection method called ARGUE. Our method is not only applicable to unsupervised and semi-supervised environments, but also profits from prior knowledge of self-supervised settings. We designed ARGUE as a combination of dedicated expert networks, which specialise on parts of the input data. For its final decision, ARGUE fuses the distributed knowledge across the expert systems using a gated mixture-of-experts architecture. Our evaluation motivates that prior knowledge about the normal data distribution may be as valuable as known anomalies.
翻訳日:2022-10-23 06:42:49 公開日:2022-05-23
# 摂動に基づくカーネル近似フレームワーク

A Perturbation-Based Kernel Approximation Framework ( http://arxiv.org/abs/2009.02955v2 )

ライセンス: Link先を確認
Roy Mitz, Yoel Shkolnisky(参考訳) カーネルメソッドは、さまざまなデータ分析タスクで強力なツールである。 しかし、多くの場合、その時間と空間の複雑さは、大きなデータセットでは実用的でない。 この問題を克服するために様々なカーネル近似法が提案され、最も顕著な方法はNystr{\"o}m法である。 本稿では,古典摂動理論の結果に基づく摂動に基づくカーネル近似フレームワークを導出する。 我々は,このフレームワークの誤差解析を行い,nystr{\"o}m法といくつかの変種を一般化することを証明する。 さらに,本フレームワークは,近似されたカーネル行列の構造を利用するように調整可能な,新しいカーネル近似スキームを創出することを示す。 理論結果を数値的に支援し,合成データと実世界データの両方に対する近似フレームワークの利点を実証する。

Kernel methods are powerful tools in various data analysis tasks. Yet, in many cases, their time and space complexity render them impractical for large datasets. Various kernel approximation methods were proposed to overcome this issue, with the most prominent method being the Nystr{\"o}m method. In this paper, we derive a perturbation-based kernel approximation framework building upon results from classical perturbation theory. We provide an error analysis for this framework, and prove that in fact, it generalizes the Nystr{\"o}m method and several of its variants. Furthermore, we show that our framework gives rise to new kernel approximation schemes, that can be tuned to take advantage of the structure of the approximated kernel matrix. We support our theoretical results numerically and demonstrate the advantages of our approximation framework on both synthetic and real-world data.
翻訳日:2022-10-21 02:20:30 公開日:2022-05-23
# マルチモーダル分布のシミュレーションのための輪郭確率勾配ランジュバンダイナミクスアルゴリズム

A Contour Stochastic Gradient Langevin Dynamics Algorithm for Simulations of Multi-modal Distributions ( http://arxiv.org/abs/2010.09800v2 )

ライセンス: Link先を確認
Wei Deng and Guang Lin and Faming Liang(参考訳) 本稿では,ビッグデータ統計学におけるベイズ学習のための適応的重み付け確率勾配ランジュバンダイナミクスアルゴリズム(sgld),いわゆるコンター確率勾配ランジュバンダイナミクス(csgld)を提案する。 提案手法は,マルチモーダル分布のシミュレーションが大幅に容易になるように,対象分布を自動的\emph{flattens} する \emph{scalable dynamic importance sampler} である。 理論的には、安定条件を証明し、元のエネルギー関数の非凸性にかかわらず、自己適応パラメータを a {\displaystyle a} に漸近収束させる。 CSGLDアルゴリズムは、CIFAR10やCIFAR100など、複数のベンチマークデータセットで実証されている。 その結果,深層ニューラルネットワークの学習における局所的トラップ問題を回避することが得られた。

We propose an adaptively weighted stochastic gradient Langevin dynamics algorithm (SGLD), so-called contour stochastic gradient Langevin dynamics (CSGLD), for Bayesian learning in big data statistics. The proposed algorithm is essentially a \emph{scalable dynamic importance sampler}, which automatically \emph{flattens} the target distribution such that the simulation for a multi-modal distribution can be greatly facilitated. Theoretically, we prove a stability condition and establish the asymptotic convergence of the self-adapting parameter to a {\it unique fixed-point}, regardless of the non-convexity of the original energy function; we also present an error analysis for the weighted averaging estimators. Empirically, the CSGLD algorithm is tested on multiple benchmark datasets including CIFAR10 and CIFAR100. The numerical results indicate its superiority to avoid the local trap problem in training deep neural networks.
翻訳日:2022-10-05 21:33:11 公開日:2022-05-23
# PAC$^m$-Bayes:不特定ベイズ法規における経験的リスクギャップを狭める

PAC$^m$-Bayes: Narrowing the Empirical Risk Gap in the Misspecified Bayesian Regime ( http://arxiv.org/abs/2010.09629v3 )

ライセンス: Link先を確認
Warren R. Morningstar, Alexander A. Alemi and Joshua V. Dillon(参考訳) ベイジアン後方は「予測的リスク」を拘束する「予測的リスク」を最小化している。 この境界は、可能性と事前が十分に特定されたときに厳密である。 しかし、誤特定はギャップを引き起こすため、ベイズ後方予測分布は一般化性能に乏しい可能性がある。 この研究はマルチサンプル損失(PAC$^m$)を発展させ、この2つのリスク間のトレードオフにまたがることでギャップを埋めることができる。 この損失は計算上有利であり、PAC一般化を保証する。 実証的研究は予測分布の改善を示す。

The Bayesian posterior minimizes the "inferential risk" which itself bounds the "predictive risk". This bound is tight when the likelihood and prior are well-specified. However since misspecification induces a gap, the Bayesian posterior predictive distribution may have poor generalization performance. This work develops a multi-sample loss (PAC$^m$) which can close the gap by spanning a trade-off between the two risks. The loss is computationally favorable and offers PAC generalization guarantees. Empirical study demonstrates improvement to the predictive distribution.
翻訳日:2022-10-05 21:05:13 公開日:2022-05-23
# スマートグリッドシステムにおけるエネルギー予測:最先端技術の概要

Energy Forecasting in Smart Grid Systems: A Review of the State-of-the-art Techniques ( http://arxiv.org/abs/2011.12598v3 )

ライセンス: Link先を確認
Devinder Kaur, Shama Naz Islam, Md. Apel Mahmud, Md. Enamul Haque and ZhaoYang Dong(参考訳) エネルギー予測は、需要側管理、負荷削減、最適ディスパッチといった様々な応用を含むスマートグリッド(SG)システムにおいて重要な役割を果たす。 SGデータの不確実性や粒度を考慮し、予測誤差の最小化を図りながら効率的な予測を管理することが、今日のグリッドにおける主要な課題の1つである。 本稿では,様々なモデルやアーキテクチャを考慮した確率的深層学習(PDL)の最近の発展とともに,SGシステムの最先端予測手法の総合的,アプリケーション指向のレビューを行う。 統計学,機械学習(ML),深層学習(DL)などの従来の点予測手法は,エネルギー予測への適用性の観点から広く研究されている。 また、予測性能を支援するハイブリッドおよびデータ前処理技術の意義についても検討した。 ビクトリア電力消費とアメリカ電力(aep)データセットを用いた比較ケーススタディを行い,ポイントと確率予測手法の性能について検討した。 この分析は,特にサンプルサイズが大きく,長いシーケンスを持つ非線形パターンを含む場合,点予測法で適切なハイパーパラメータチューニングを行う長短メモリ(LSTM)モデルの精度を示す。 さらに,確率的手法としてのベイズ的双方向LSTM (BLSTM) は,最小ピンボールスコアとルート平均二乗誤差 (RMSE) において高い精度を示す。

Energy forecasting has a vital role to play in smart grid (SG) systems involving various applications such as demand-side management, load shedding, and optimum dispatch. Managing efficient forecasting while ensuring the least possible prediction error is one of the main challenges posed in the grid today, considering the uncertainty and granularity in SG data. This paper presents a comprehensive and application-oriented review of state-of-the-art forecasting methods for SG systems along with recent developments in probabilistic deep learning (PDL) considering different models and architectures. Traditional point forecasting methods including statistical, machine learning (ML), and deep learning (DL) are extensively investigated in terms of their applicability to energy forecasting. In addition, the significance of hybrid and data pre-processing techniques to support forecasting performance is also studied. A comparative case study using the Victorian electricity consumption and American electric power (AEP) datasets is conducted to analyze the performance of point and probabilistic forecasting methods. The analysis demonstrates higher accuracy of the long-short term memory (LSTM) models with appropriate hyper-parameter tuning among point forecasting methods especially when sample sizes are larger and involve nonlinear patterns with long sequences. Furthermore, Bayesian bidirectional LSTM (BLSTM) as a probabilistic method exhibit the highest accuracy in terms of least pinball score and root mean square error (RMSE).
翻訳日:2022-09-21 03:24:19 公開日:2022-05-23
# 軌道最適化のための多項カオス展開に基づくロバスト制約多目的進化アルゴリズム

Robust Constrained Multi-objective Evolutionary Algorithm based on Polynomial Chaos Expansion for Trajectory Optimization ( http://arxiv.org/abs/2205.11387v1 )

ライセンス: Link先を確認
Yuji Takubo, Masahiro Kanazaki(参考訳) 制約付き多目的進化アルゴリズム (MOEA) と非線形多項式カオス展開 (PCE) に基づく統合最適化手法を提案し, 時系列力学における頑健な多目的最適化問題を解く。 このような問題の制約は、動的制約の数が離散化された時間ステップによって乗算されるだけでなく、それぞれが確率的であるため、処理が難しい。 提案手法では,ロバストな定式化をpceを介して決定論的問題に書き換え,生成した個体発生,軌道生成,moeaによる評価の制約を順次処理する。 本研究では,風の不確実性を考慮した超音速輸送(SST)の着陸軌道設計を最適化した。 その結果、最適化された解集合と対応する軌道に対する制約値の定量的影響を示し、堅牢な飛行制御を提案する。

An integrated optimization method based on the constrained multi-objective evolutionary algorithm (MOEA) and non-intrusive polynomial chaos expansion (PCE) is proposed, which solves robust multi-objective optimization problems under time-series dynamics. The constraints in such problems are difficult to handle, not only because the number of the dynamic constraints is multiplied by the discretized time steps but also because each of them is probabilistic. The proposed method rewrites a robust formulation into a deterministic problem via the PCE, and then sequentially processes the generated constraints in population generation, trajectory generation, and evaluation by the MOEA. As a case study, the landing trajectory design of supersonic transport (SST) with wind uncertainty is optimized. Results demonstrate the quantitative influence of the constraint values over the optimized solution sets and corresponding trajectories, proposing robust flight controls.
翻訳日:2022-06-26 15:18:08 公開日:2022-05-23
# (参考訳) neural copula - 汎用的な高次元copula関数を推定するための統一フレームワーク

Neural Copula: A unified framework for estimating generic high-dimensional Copula functions ( http://arxiv.org/abs/2205.15031v1 )

ライセンス: CC BY 4.0
Zhi Zeng and Ting Wang(参考訳) コピュラは、確率変数の辺分布と結合分布の関係を記述するために広く用いられている。 高次元コプラの推定は困難であり、既存の解の多くは単純な仮定か複雑な再帰分解に依存している。 したがって、人々は普遍性と単純性の両方で一般的なコピュラ推定法を得ることを期待している。 この目的を達成するために,ニューラルコピュラと呼ばれるニューラルネットワークを用いた新しい手法を提案する。 本手法では,階層型非教師付きニューラルネットワークを構築し,微分方程式を解いて限界分布関数とコプラ関数を推定する。 トレーニングプログラムでは、ニューラルネットワークとそのデリバティブの両方に様々な制約が課される。 提案手法により推定されるコプラは滑らかであり,解析式を有する。 提案手法の有効性を実世界のデータセットと複素数値シミュレーションの両方で評価した。 実験の結果,神経コプラの複雑な分布に対する適合性は,古典的手法よりもはるかに優れていることがわかった。 実験に関連するコードはgithubで公開されている。 (提案手法をよりよく理解するために、読者にプログラムの実行を勧める)。

The Copula is widely used to describe the relationship between the marginal distribution and joint distribution of random variables. The estimation of high-dimensional Copula is difficult, and most existing solutions rely either on simplified assumptions or on complicating recursive decompositions. Therefore, people still hope to obtain a generic Copula estimation method with both universality and simplicity. To reach this goal, a novel neural network-based method (named Neural Copula) is proposed in this paper. In this method, a hierarchical unsupervised neural network is constructed to estimate the marginal distribution function and the Copula function by solving differential equations. In the training program, various constraints are imposed on both the neural network and its derivatives. The Copula estimated by the proposed method is smooth and has an analytic expression. The effectiveness of the proposed method is evaluated on both real-world datasets and complex numerical simulations. Experimental results show that Neural Copula's fitting quality for complex distributions is much better than classical methods. The relevant code for the experiments is available on GitHub. (We encourage the reader to run the program for a better understanding of the proposed method).
翻訳日:2022-06-12 23:03:50 公開日:2022-05-23
# (参考訳) The Fellowship of the Dyson Ring: ACT&Friends' Results and Methods for GTOC 11

The Fellowship of the Dyson Ring: ACT&Friends' Results and Methods for GTOC 11 ( http://arxiv.org/abs/2205.10124v2 )

ライセンス: CC BY 4.0
Marcus M\"artens and Dario Izzo and Emmanuel Blazquez and Moritz von Looz and Pablo G\'omez and Anne Mergy and Giacomo Acciarini and Chit Hong Yam and Javier Hernando Ayuso and Yuri Shimane(参考訳) ダイソン・スフィア(dyson sphere)は、恒星を囲む仮説上の巨構造で、エネルギーのほとんどを吸収する。 第11回GTOCチャレンジでは、参加者は12のステーションからなるヘリオセンセントリングである前駆体ダイソン構造の構築に関連する複雑な軌道計画に従事した。 そこで本研究では,機械学習,組合せ最適化,計画とスケジューリング,進化的最適化といった手法を,完全に自動化されたパイプラインに統合した新しい手法を開発した。 These include a machine learned transfer time estimator, improving the established Edelbaum approximation and thus better informing a Lazy Race Tree Search to identify and collect asteroids with high arrival mass for the stations; a series of optimally-phased low-thrust transfers to all stations computed by indirect optimization techniques, exploiting the synodic periodicity of the system; and a modified Hungarian scheduling algorithm, which utilizes evolutionary techniques to arrange a mass-balanced arrival schedule out of all transfer possibilities. パイプラインのステップを詳しく説明した上で,私たちのアプローチが相互にメリットを享受する方法に特に注目する。 最後に、GTOC 11チャレンジで2番目にランクされたACT&Friendsというチームの最終ソリューションの概要と分析を行います。

Dyson spheres are hypothetical megastructures encircling stars in order to harvest most of their energy output. During the 11th edition of the GTOC challenge, participants were tasked with a complex trajectory planning related to the construction of a precursor Dyson structure, a heliocentric ring made of twelve stations. To this purpose, we developed several new approaches that synthesize techniques from machine learning, combinatorial optimization, planning and scheduling, and evolutionary optimization effectively integrated into a fully automated pipeline. These include a machine learned transfer time estimator, improving the established Edelbaum approximation and thus better informing a Lazy Race Tree Search to identify and collect asteroids with high arrival mass for the stations; a series of optimally-phased low-thrust transfers to all stations computed by indirect optimization techniques, exploiting the synodic periodicity of the system; and a modified Hungarian scheduling algorithm, which utilizes evolutionary techniques to arrange a mass-balanced arrival schedule out of all transfer possibilities. We describe the steps of our pipeline in detail with a special focus on how our approaches mutually benefit from each other. Lastly, we outline and analyze the final solution of our team, ACT&Friends, which ranked second at the GTOC 11 challenge.
翻訳日:2022-06-06 07:27:38 公開日:2022-05-23
# (参考訳) TRT-ViT:TensorRT指向ビジョントランス

TRT-ViT: TensorRT-oriented Vision Transformer ( http://arxiv.org/abs/2205.09579v2 )

ライセンス: CC BY 4.0
Xin Xia, Jiashi Li, Jie Wu, Xing Wang, Xuefeng Xiao, Min Zheng, Rui Wang(参考訳) 我々は,既存の優れたトランスフォーマーを実用化の観点から再考する。 それらのほとんどは、ベーシックなresnetsシリーズほど効率的ではなく、現実的なデプロイメントシナリオから逸脱している。 FLOPやパラメータは一方的、準最適、ハードウェア非感受性といった計算効率を測る現在の基準が原因かもしれない。 そこで本稿では,計算能力,メモリコスト,帯域幅に関するより包括的なフィードバックを提供するため,ハードウェアのテンソルトレイテンシを効率指標として直接扱う。 一連の制御された実験に基づいて、この研究はTensorRT指向でデプロイに優しいネットワーク設計のための4つの実践的ガイドライン(例えば、早期CNNと後期CNNのステージレベル、早期トランスフォーマーと後期CNNのブロックレベル)を導出した。 そのため、TRT-ViTと略して、TensortRT指向トランスフォーマーのファミリーが提示される。 TRT-ViTは、画像分類、オブジェクト検出、セマンティックセグメンテーションなど、様々な視覚的タスクにおけるレイテンシ/精度のトレードオフに関して、既存のConvNetやビジョントランスフォーマーを著しく上回っている。 例えば、82.7%のImageNet-1kトップ-1精度で、TRT-ViTはCSWinより2.7$\times$、Twinsより2.0$\times$である。 MS-COCOオブジェクト検出タスクでは、RTT-ViTはTwinsと同等のパフォーマンスを達成し、推論速度は2.8$\times$に向上する。

We revisit the existing excellent Transformers from the perspective of practical application. Most of them are not even as efficient as the basic ResNets series and deviate from the realistic deployment scenario. It may be due to the current criterion to measure computation efficiency, such as FLOPs or parameters is one-sided, sub-optimal, and hardware-insensitive. Thus, this paper directly treats the TensorRT latency on the specific hardware as an efficiency metric, which provides more comprehensive feedback involving computational capacity, memory cost, and bandwidth. Based on a series of controlled experiments, this work derives four practical guidelines for TensorRT-oriented and deployment-friendly network design, e.g., early CNN and late Transformer at stage-level, early Transformer and late CNN at block-level. Accordingly, a family of TensortRT-oriented Transformers is presented, abbreviated as TRT-ViT. Extensive experiments demonstrate that TRT-ViT significantly outperforms existing ConvNets and vision Transformers with respect to the latency/accuracy trade-off across diverse visual tasks, e.g., image classification, object detection and semantic segmentation. For example, at 82.7% ImageNet-1k top-1 accuracy, TRT-ViT is 2.7$\times$ faster than CSWin and 2.0$\times$ faster than Twins. On the MS-COCO object detection task, TRT-ViT achieves comparable performance with Twins, while the inference speed is increased by 2.8$\times$.
翻訳日:2022-06-06 05:13:58 公開日:2022-05-23
# (参考訳) wojood:ネストされたアラビア語の名前付きエンティティコーパスとbertを用いた認識

Wojood: Nested Arabic Named Entity Corpus and Recognition using BERT ( http://arxiv.org/abs/2205.09651v2 )

ライセンス: CC BY 4.0
Mustafa Jarrar, Mohammed Khalilia, Sana Ghanem(参考訳) 本稿ではアラビアネスト付き名前付きエンティティ認識(NER)のためのコーパスであるWojoodについて述べる。 ネストされたエンティティは、あるエンティティの言及が別のエンティティの言及の中に埋め込まれたときに発生する。 Wojoodは、約550Kの現代標準アラビア語(MSA)と、人、組織、場所、イベント、日付を含む21のエンティティタイプを手動で注釈付けした方言トークンで構成されている。 さらに重要なことに、コーパスは、より一般的なフラットアノテーションではなく、ネストされたエンティティでアノテートされる。 データには約75Kのエンティティが含まれ、うち22.5%がネストされている。 コーパスのアノテータ間評価はコーエンのカッパ0.979とF1スコア0.976との強い一致を示した。 データの検証には,マルチタスク学習とAraBERT(アラビアBERT)に基づくネストNERモデルをトレーニングするために,コーパスを使用した。 モデル全体のマイクロf1scoreは0.884である。 私たちのコーパス、アノテーションガイドライン、ソースコード、事前訓練されたモデルが公開されています。

This paper presents Wojood, a corpus for Arabic nested Named Entity Recognition (NER). Nested entities occur when one entity mention is embedded inside another entity mention. Wojood consists of about 550K Modern Standard Arabic (MSA) and dialect tokens that are manually annotated with 21 entity types including person, organization, location, event and date. More importantly, the corpus is annotated with nested entities instead of the more common flat annotations. The data contains about 75K entities and 22.5% of which are nested. The inter-annotator evaluation of the corpus demonstrated a strong agreement with Cohen's Kappa of 0.979 and an F1-score of 0.976. To validate our data, we used the corpus to train a nested NER model based on multi-task learning and AraBERT (Arabic BERT). The model achieved an overall micro F1-score of 0.884. Our corpus, the annotation guidelines, the source code and the pre-trained model are publicly available.
翻訳日:2022-06-06 04:37:57 公開日:2022-05-23
# (参考訳) 弱最適輸送のためのアルゴリズムと経済学への応用

Algorithms for Weak Optimal Transport with an Application to Economics ( http://arxiv.org/abs/2205.09825v2 )

ライセンス: CC BY 4.0
Fran\c{c}ois-Pierre Paty, Philippe Chon\'e, Francis Kramarz(参考訳) ゴズランらによって導入された弱最適輸送理論(WOT)は、ある点と一致する点の間の輸送コストを非線形にすることで古典的なモンゲ・カントロヴィッチの枠組みを一般化する。 WOT のいわゆる Barycentric バージョンでは、ある点を x$ で輸送するコストは、その点が一致する点の Barycenter にのみ依存する。 WOTのこのアグリゲーション特性は、機械学習、経済、金融にアピールしている。 しかし、WOTを計算するアルゴリズムは、二次バリ中心のWOTの特殊な場合のみ開発され、あるいは計算値とマッチングを保証しないニューラルネットワークに依存している。 主な困難は、投射するのにコストがかかる交通の制約である。 本稿では,wot問題の原始バージョンと双対バージョンを解くために,ミラー降下アルゴリズムを用いることを提案する。 また、このアルゴリズムを[Chon\'e et al., 2022] によって導入された WOT の変種にも適用し、そこでは質量をある空間から別の空間へ非正規化カーネル (WOTUK) を通して分散させる。 WOTとWOTUKの解を古典OTと経験的に比較する。 我々は,労働市場における労働者と企業とのマッチングという,[Chon\'e and Kramarz, 2021]の経済枠組みについて,我々の数値手法を説明する。

The theory of weak optimal transport (WOT), introduced by [Gozlan et al., 2017], generalizes the classic Monge-Kantorovich framework by allowing the transport cost between one point and the points it is matched with to be nonlinear. In the so-called barycentric version of WOT, the cost for transporting a point $x$ only depends on $x$ and on the barycenter of the points it is matched with. This aggregation property of WOT is appealing in machine learning, economics and finance. Yet algorithms to compute WOT have only been developed for the special case of quadratic barycentric WOT, or depend on neural networks with no guarantee on the computed value and matching. The main difficulty lies in the transportation constraints which are costly to project onto. In this paper, we propose to use mirror descent algorithms to solve the primal and dual versions of the WOT problem. We also apply our algorithms to the variant of WOT introduced by [Chon\'e et al., 2022] where mass is distributed from one space to another through unnormalized kernels (WOTUK). We empirically compare the solutions of WOT and WOTUK with classical OT. We illustrate our numerical methods to the economic framework of [Chon\'e and Kramarz, 2021], namely the matching between workers and firms on labor markets.
翻訳日:2022-06-06 02:17:37 公開日:2022-05-23
# (参考訳) 質問すべきこと:会話調査におけるフォローアップ質問生成のための知識駆動的アプローチ

What should I Ask: A Knowledge-driven Approach for Follow-up Questions Generation in Conversational Surveys ( http://arxiv.org/abs/2205.10977v1 )

ライセンス: CC BY 4.0
Yubin Ge, Ziang Xiao, Jana Diesner, Heng Ji, Karrie Karahalios, Hari Sundaram(参考訳) エージェントが自然言語インターフェイスを通じてオープンエンドの質問をする会話調査は、人々から情報を集める新しい方法を提供する。 会話型調査のよいフォローアップ質問は、高品質な情報を促し、魅力的な体験を提供する。 しかし、高品質なフォローアップ質問をその場で生成するのは簡単ではない。 エージェントは、多様で複雑な参加者の反応を理解し、調査目標に固執し、明確で一貫性のある質問を生成する必要がある。 本研究では,知識駆動のフォローアップ質問生成フレームワークを提案する。 このフレームワークは、参加者の反応における有能なトピックを特定するための知識選択モジュールと、選択された知識エンティティ関連ペアによってガイドされる生成モデルを組み合わせる。 提案フレームワークの有効性を検討するために,オープンドメインのフォローアップ質問生成のための新しいデータセットを構築し,gricean maximに基づく参照フリー評価指標を提案する。 実験により,本フレームワークは客観的評価と人間-専門家評価の両方において,GPTベースラインを上回っていることが示された。

Conversational surveys, where an agent asks open-ended questions through natural language interfaces, offer a new way to collect information from people. A good follow-up question in a conversational survey prompts high-quality information and delivers engaging experiences. However, generating high-quality follow-up questions on the fly is a non-trivial task. The agent needs to understand the diverse and complex participant responses, adhere to the survey goal, and generate clear and coherent questions. In this study, we propose a knowledge-driven follow-up question generation framework. The framework combines a knowledge selection module to identify salient topics in participants' responses and a generative model guided by selected knowledge entity-relation pairs. To investigate the effectiveness of the proposed framework, we build a new dataset for open-domain follow-up question generation and present a new set of reference-free evaluation metrics based on Gricean Maxim. Our experiments demonstrate that our framework outperforms a GPT-based baseline in both objective evaluation and human-expert evaluation.
翻訳日:2022-05-29 14:36:29 公開日:2022-05-23
# (参考訳) GPT-3を用いた拡張データによる短いテキスト分類の改善

Improving Short Text Classification With Augmented Data Using GPT-3 ( http://arxiv.org/abs/2205.10981v1 )

ライセンス: CC BY 4.0
Salvador Balkus and Donghui Yan(参考訳) GPT-3はOpenAIが開発した大規模自然言語モデルであり、トピック分類を含む様々なタスクを実行できる。 研究者は、タスクを学ぶのに少量の文脈内サンプルしか必要としないと主張しているが、実際には、GPT-3はこれらのトレーニング例を、手作業で簡単に作成するよりも、例外的な品質か高い量のいずれかでなければならない。 この問題に対処するために,本研究では,GPT-3自体が生成する追加の例を加味した小さなトレーニングセットを増設することにより,データサイエンスに関連する疑問を分類するようにGPT-3に教える。 本研究は,GAT-3分類終点と拡張例,GAT-3補完終点と遺伝的アルゴリズムを用いて選択した最適トレーニングセットの2つの分類器を比較した。 拡張補完エンドポイントは80%以上の検証精度を達成するが、拡張分類エンドポイントを使用することで、目に見えない例ではより一貫性のある精度が得られる。 このようにして、GPT-3のような大規模機械学習モデルに独自のトレーニング例を提案する能力を与えると、分類性能が向上する。

GPT-3 is a large-scale natural language model developed by OpenAI that can perform many different tasks, including topic classification. Although researchers claim that it requires only a small number of in-context examples to learn a task, in practice GPT-3 requires these training examples to be either of exceptional quality or a higher quantity than easily created by hand. To address this issue, this study teaches GPT-3 to classify whether a question is related to data science by augmenting a small training set with additional examples generated by GPT-3 itself. This study compares two classifiers: the GPT-3 Classification Endpoint with augmented examples, and the GPT-3 Completion Endpoint with an optimal training set chosen using a genetic algorithm. We find that while the augmented Completion Endpoint achieves upwards of 80 percent validation accuracy, using the augmented Classification Endpoint yields more consistent accuracy on unseen examples. In this way, giving large-scale machine learning models like GPT-3 the ability to propose their own additional training examples can result in improved classification performance.
翻訳日:2022-05-29 14:28:37 公開日:2022-05-23
# (参考訳) 大規模言語モデルの微調整におけるパラメータ効率のスパーシティ

Parameter-Efficient Sparsity for Large Language Models Fine-Tuning ( http://arxiv.org/abs/2205.11005v1 )

ライセンス: CC BY 4.0
Yuchao Li, Fuli Luo, Chuanqi Tan, Mengdi Wang, Songfang Huang, Shen Li, Junjie Bai(参考訳) 言語モデルにおけるパラメータの大幅な増加に伴い、スパーシティ法はモデルを圧縮し、加速する研究の焦点が増している。 ほとんどの研究は、圧縮モデルのパフォーマンスを維持しながら適切な重みを正しく保持する方法に焦点を当てているが、大規模な言語モデル圧縮時のスパーストレーニングの計算オーバーヘッドとメモリフットプリントの課題がある。 そこで本研究では,下流タスクにおけるスパースアウェアトレーニング時の学習可能なパラメータ数を削減するためのパラメータ効率の高いスパーストレーニング(pst)手法を提案する。 具体的には、まずデータフリーとデータ駆動の基準を組み合わせて、重みの重要性を効率的に正確に測定する。 次に,データ駆動重みの重要性に関する本質的冗長性を調査し,二つの明らかな特徴,すなわち低ランク性と構造性について考察する。 これに基づいて,2つの小さな行列群を導入して,データ駆動による重みの重みの重要さを計算し,従来の大きめのスコア行列を使わずに,スパーストレーニングの資源効率とパラメータ効率を両立させる。 数十のデータセット上の多様なネットワーク(BERT、RoBERTa、GPT-2)による実験では、少数のパラメータをトレーニングするだけで、PSTが従来の疎性メソッドよりも同等以上のパフォーマンスを示す。 例えば、従来のスパーシリティメソッドと比較すると、BERTで同等のパフォーマンスを達成するためにトレーニング可能なパラメータは1.5%しか必要ありません。

With the dramatically increased number of parameters in language models, sparsity methods have received ever-increasing research focus to compress and accelerate the models. While most research focuses on how to accurately retain appropriate weights while maintaining the performance of the compressed model, there are challenges in the computational overhead and memory footprint of sparse training when compressing large-scale language models. To address this problem, we propose a Parameter-efficient Sparse Training (PST) method to reduce the number of trainable parameters during sparse-aware training in downstream tasks. Specifically, we first combine the data-free and data-driven criteria to efficiently and accurately measure the importance of weights. Then we investigate the intrinsic redundancy of data-driven weight importance and derive two obvious characteristics i.e., low-rankness and structuredness. Based on that, two groups of small matrices are introduced to compute the data-driven importance of weights, instead of using the original large importance score matrix, which therefore makes the sparse training resource-efficient and parameter-efficient. Experiments with diverse networks (i.e., BERT, RoBERTa and GPT-2) on dozens of datasets demonstrate PST performs on par or better than previous sparsity methods, despite only training a small number of parameters. For instance, compared with previous sparsity methods, our PST only requires 1.5% trainable parameters to achieve comparable performance on BERT.
翻訳日:2022-05-29 14:07:02 公開日:2022-05-23
# (参考訳) 非局所作用素における核の非パラメトリック学習

Nonparametric learning of kernels in nonlocal operators ( http://arxiv.org/abs/2205.11006v1 )

ライセンス: CC BY 4.0
Fei Lu, Qingci An, Yue Yu(参考訳) 積分核を持つ非局所作用素は、長距離依存の表現効率と分解不変性の魅力的な特徴から、関数空間間の解写像を設計するための一般的なツールとなっている。 本研究では,非局所作用素におけるカーネル学習のための厳密な識別可能性解析と収束研究を提供する。 その結果,カーネル学習は不適切あるいは不明確な逆問題であり,モデル誤差や測定ノイズの存在下では分散推定子となることがわかった。 この問題を解決するために,識別可能性の関数空間に基づく新しいデータ適応型RKHS Tikhonov正規化手法を用いた非パラメトリック回帰アルゴリズムを提案する。 この方法は、合成データと実世界のデータセットの両方において、データ解像度が洗練されるにつれて、カーネルのノイズにロバストな収束推定子を生成する。 特に,不均質固体中での応力波伝搬の均質化モデルを学習し,実世界のデータから未知の統治法則をマイクロスケールで明らかにした。 正規化法は、ロバスト性、一般化性、正確性においてベースライン法を上回る。

Nonlocal operators with integral kernels have become a popular tool for designing solution maps between function spaces, due to their efficiency in representing long-range dependence and the attractive feature of being resolution-invariant. In this work, we provide a rigorous identifiability analysis and convergence study for the learning of kernels in nonlocal operators. It is found that the kernel learning is an ill-posed or even ill-defined inverse problem, leading to divergent estimators in the presence of modeling errors or measurement noises. To resolve this issue, we propose a nonparametric regression algorithm with a novel data adaptive RKHS Tikhonov regularization method based on the function space of identifiability. The method yields a noisy-robust convergent estimator of the kernel as the data resolution refines, on both synthetic and real-world datasets. In particular, the method successfully learns a homogenized model for the stress wave propagation in a heterogeneous solid, revealing the unknown governing laws from real-world data at microscale. Our regularization method outperforms baseline methods in robustness, generalizability and accuracy.
翻訳日:2022-05-29 13:53:07 公開日:2022-05-23
# (参考訳) Calibrate and Refine! ASR-error Robust Intent Detectionのための新しいアジャイルフレームワーク

Calibrate and Refine! A Novel and Agile Framework for ASR-error Robust Intent Detection ( http://arxiv.org/abs/2205.11008v1 )

ライセンス: CC0 1.0
Peilin Zhou, Dading Chong, Helin Wang, Qingcheng Zeng(参考訳) 過去10年間、テキストベースのインテント検出が急速に発展し、そのベンチマークパフォーマンスはディープラーニング技術によってすでに目覚ましいレベルに達している。 しかし、環境ノイズや独特の音声パターンなどにより、現実のアプリケーションでは自動音声認識(asr)の誤りは避けられないため、最先端のテキストに基づく意図検出モデルの性能低下に繋がる。 基本的に、この現象は、ASRのエラーによって引き起こされた意味的ドリフトによって引き起こされるものであり、既存のほとんどの研究は、その影響を減らすために新しいモデル構造を設計することに集中する傾向がある。 従来の一要素モデルとは違って,本研究では,意味的ドリフトキャリブレーションモジュール(SDCM)と音素改善モジュール(PRM)という2つのプラグアンドプレイモジュールを用いた,ASRエラーの堅牢な意図検出のためのCR-IDという新しいアジャイルフレームワークを提案する。 snipsデータセットにおける実験結果から,提案するcr-idフレームワークが競合性能を達成し,asr出力のベースラインメソッドを上回り,asrエラーによる意味的ドリフトを効果的に軽減できることを確認した。

The past ten years have witnessed the rapid development of text-based intent detection, whose benchmark performances have already been taken to a remarkable level by deep learning techniques. However, automatic speech recognition (ASR) errors are inevitable in real-world applications due to the environment noise, unique speech patterns and etc, leading to sharp performance drop in state-of-the-art text-based intent detection models. Essentially, this phenomenon is caused by the semantic drift brought by ASR errors and most existing works tend to focus on designing new model structures to reduce its impact, which is at the expense of versatility and flexibility. Different from previous one-piece model, in this paper, we propose a novel and agile framework called CR-ID for ASR error robust intent detection with two plug-and-play modules, namely semantic drift calibration module (SDCM) and phonemic refinement module (PRM), which are both model-agnostic and thus could be easily integrated to any existing intent detection models without modifying their structures. Experimental results on SNIPS dataset show that, our proposed CR-ID framework achieves competitive performance and outperform all the baseline methods on ASR outputs, which verifies that CR-ID can effectively alleviate the semantic drift caused by ASR errors.
翻訳日:2022-05-29 13:26:48 公開日:2022-05-23
# (参考訳) MolMiner: 化学構造認識は一度だけ

MolMiner: You only look once for chemical structure recognition ( http://arxiv.org/abs/2205.11016v1 )

ライセンス: CC BY-SA 4.0
Youjun Xu, Jinchuan Xiao, Chia-Han Chou, Jianhang Zhang, Jintao Zhu, Qiwan Hu, Hemin Li, Ningsheng Han, Bingyu Liu, Shuaipeng Zhang, Jinyu Han, Zhen Zhang, Shuhao Zhang, Weilin Zhang, Luhua Lai, Jianfeng Pei(参考訳) 分子構造は、常に論文や特許などの科学文書に2Dプリント形式として描かれる。 しかし、これらの2D描写は機械で読めない。 数十年のバックログと、これらの印刷された文献の量の増加により、印刷された描写を機械可読形式に翻訳する需要が高く、OCSR(Opto Chemical Structure Recognition)と呼ばれる。 過去30年間に開発されたほとんどのOCSRシステムは、ベクトル化の鍵となるステップが結合と原子としてのベクトルとノードの解釈に基づいている規則に基づくアプローチに従っている。 本稿では,セマンティックセグメンテーションとオブジェクト検出のために開発された深層ニューラルネットワークを用いて,文書からアトムとボンド要素を認識する実用的なソフトウェアモルミナーを提案する。 これらの認識された要素は、距離ベース構築アルゴリズムで容易に分子グラフとして接続できる。 4つのベンチマークデータセットでソフトウェアを注意深く評価し、最新性能を確認しました。 さまざまな実際のアプリケーションシナリオもテストされ、十分な結果が得られる。 Mac: https://molminer-cdn.iipharma.cn/pharma-mind/artifact/latest/mac/PharmaMind-mac-latest-setup.dmg and Windows: https://molminer-cdn.iipharma.cn/pharma-mind/artifact/latest/win/PharmaMind-win-latest-setup.dmg and Windows

Molecular structures are always depicted as 2D printed form in scientific documents like journal papers and patents. However, these 2D depictions are not machine-readable. Due to a backlog of decades and an increasing amount of these printed literature, there is a high demand for the translation of printed depictions into machine-readable formats, which is known as Optical Chemical Structure Recognition (OCSR). Most OCSR systems developed over the last three decades follow a rule-based approach where the key step of vectorization of the depiction is based on the interpretation of vectors and nodes as bonds and atoms. Here, we present a practical software MolMiner, which is primarily built up using deep neural networks originally developed for semantic segmentation and object detection to recognize atom and bond elements from documents. These recognized elements can be easily connected as a molecular graph with distance-based construction algorithm. We carefully evaluate our software on four benchmark datasets with the state-of-the-art performance. Various real application scenarios are also tested, yielding satisfactory outcomes. The free download links of Mac and Windows versions are available: Mac: https://molminer-cdn.iipharma.cn/pharma-mind/artifact/latest/mac/PharmaMind-mac-latest-setup.dmg and Windows: https://molminer-cdn.iipharma.cn/pharma-mind/artifact/latest/win/PharmaMind-win-latest-setup.exe
翻訳日:2022-05-29 13:16:05 公開日:2022-05-23
# (参考訳) ヒンドゥー哲学におけるトピックモデリングのための人工知能--upanishadとbhagavad gitaのテーマのマッピング

Artificial intelligence for topic modelling in Hindu philosophy: mapping themes between the Upanishads and the Bhagavad Gita ( http://arxiv.org/abs/2205.11020v1 )

ライセンス: CC BY 4.0
Rohitash Chandra, Mukul Ranjan(参考訳) ヒンドゥー教の宗教的・哲学的テクストの特徴は、それらが単一のソースではなくテキストのライブラリから来ていることである。 ウパニシャドは、ヒンドゥー教哲学の基礎を形成する世界最古の哲学文献の1つとして知られている。 Bhagavad Gitaはヒンドゥー哲学の中核的なテキストであり、カルマの哲学に焦点をあてたウパニシャドの重要な哲学をまとめたテキストとして知られている。 これらのテキストは、多くの言語に翻訳され、目立ったテーマやトピックに関する研究があるが、深層学習による言語モデルを用いたトピックモデリングについては、あまり研究されていない。 本稿では, BERT などの先進言語を用いて, Upanishad や Bhagavad Gita のキーテキストのトピックモデリングを行う。 我々は、テキスト間の違いと重複するトピックを分析し、Upanishads と Bhagavad Gita とのリンクを可視化する。 その結果,2つのテキストのトピック間の類似度は非常に高く,平均コサイン類似度は73%であった。 Bhagavad Gitaから抽出された14のトピックのうち、9つのトピックは、Upanishadsのトピックと70%以上のコサイン類似性を持っている。 また,BERTモデルで生成したトピックは,従来のモデルと比較して非常にコヒーレンスが高いことがわかった。 私たちの最高のパフォーマンスモデルは、bhagavad gitaで73%、upanishadsで69%のコヒーレンススコアを与えます。 これらのテキストの低次元埋め込みの可視化は、これらのトピック間で非常に明確な重なり合いを示し、その結果に別のレベルの検証を加えた。

A distinct feature of Hindu religious and philosophical text is that they come from a library of texts rather than single source. The Upanishads is known as one of the oldest philosophical texts in the world that forms the foundation of Hindu philosophy. The Bhagavad Gita is core text of Hindu philosophy and is known as a text that summarises the key philosophies of the Upanishads with major focus on the philosophy of karma. These texts have been translated into many languages and there exists studies about themes and topics that are prominent; however, there is not much study of topic modelling using language models which are powered by deep learning. In this paper, we use advanced language produces such as BERT to provide topic modelling of the key texts of the Upanishads and the Bhagavad Gita. We analyse the distinct and overlapping topics amongst the texts and visualise the link of selected texts of the Upanishads with Bhagavad Gita. Our results show a very high similarity between the topics of these two texts with the mean cosine similarity of 73%. We find that out of the fourteen topics extracted from the Bhagavad Gita, nine of them have a cosine similarity of more than 70% with the topics of the Upanishads. We also found that topics generated by the BERT-based models show very high coherence as compared to that of conventional models. Our best performing model gives a coherence score of 73% on the Bhagavad Gita and 69% on The Upanishads. The visualization of the low dimensional embeddings of these texts shows very clear overlapping among their topics adding another level of validation to our results.
翻訳日:2022-05-29 13:10:30 公開日:2022-05-23
# (参考訳) 自然言語理解のためのベクトル量子入力型ソフトプロンプト

Vector-Quantized Input-Contextualized Soft Prompts for Natural Language Understanding ( http://arxiv.org/abs/2205.11024v1 )

ライセンス: CC BY 4.0
Rishabh Bhardwaj, Amrita Saha, Steven C.H. Hoi(参考訳) プロンプトチューニング(pt)は、大規模な事前学習された言語モデルを下流タスクにコンディショニングするパラメータ効率のよい方法として、大きな成功を収めています。 最近では、ソフトプロンプトチューニングはタスク固有の連続ベクトルの固定セット、すなわちタスクサンプル全体にわたって静的なトークンの学習を目的としている。 しかし、固定プロンプトは、タスクが構成する様々な入力に対してうまく一般化できない。 そこで本研究では,ベクトル量子化入力コンテキスト化プロンプトチューニング(vip)を提案する。 本質的にVIPは2つの側面に焦点を当てている i) 入力適応:ソフトトークンの入力固有のコンテキスト化 i) ベクトル量子化: コンパクトな潜在空間からプロンプトをサンプリングすることで、表現の分散を効果的に低減する量子化器を通してトークンを渡す。 自然言語理解タスク(SuperGLUE, QA, Relation Classification, NER, NLI)の幅広い範囲において,提案するVIPフレームワークは,PTモデルを1.19倍のマージンで上回っている。 さらに、12ドメインにまたがる4つの異なるタスクにまたがるドメイン外QAとマルチタスクのセットアップでは、VIPがPTより0.75\%向上することがわかった。

Prompt Tuning (PT) has been largely successful as a parameter-efficient way of conditioning large-scale pre-trained language models towards a downstream task. More recently, soft prompt tuning has aimed to learn a fixed set of task-specific continuous vectors, i.e., soft tokens that remain static across the task samples. However, a fixed prompt may not generalize well to the diverse kinds of inputs the task comprises. With this motivation, we propose a novel way of prompting, Vector-quantized Input-contextualized Prompt Tuning or VIP. Essentially, VIP focuses on two aspects i) input-adaptation: input-specific contextualization of the soft tokens; and ii) vector quantization: we pass the tokens through a quantizer which effectively reduces representation variance by sampling prompts from a compact latent space. Over a wide range of natural language understanding tasks (SuperGLUE, QA, Relation Classification, NER, NLI), our proposed VIP framework beats the PT model by a margin of 1.19\%. Additionally, on Out-of-domain QA and Multi-Task setups over 4 different tasks spanning over 12 domains, we find that VIP outperforms PT by 0.75\%.
翻訳日:2022-05-29 13:09:10 公開日:2022-05-23
# (参考訳) ベイズ非負行列分解の柔軟性と階層性

Flexible and Hierarchical Prior for Bayesian Nonnegative Matrix Factorization ( http://arxiv.org/abs/2205.11025v1 )

ライセンス: CC BY 4.0
Jun Lu, Xuanyu Ye(参考訳) 本稿では,非負行列因子化(非負行列因子化,非負行列因子化,非負行列因子化,非負行列因子化,非負行列因子化)を学習するための確率モデルを提案する。 潜在因子に対する非負性制約は、非負部分空間のサポートを持つ事前を選択することで処理される。 ギブスサンプリングに基づくベイズ推定手法を用いる。 movielens 100k や movielens 1m といった実世界のデータセットでモデルを評価し,提案するベイズ型 nmf grrn モデルにより予測精度が向上し,既存のベイズ型 nmf アプローチと比較して過剰フィッティングを回避できることを示した。

In this paper, we introduce a probabilistic model for learning nonnegative matrix factorization (NMF) that is commonly used for predicting missing values and finding hidden patterns in the data, in which the matrix factors are latent variables associated with each data dimension. The nonnegativity constraint for the latent factors is handled by choosing priors with support on the nonnegative subspace. Bayesian inference procedure based on Gibbs sampling is employed. We evaluate the model on several real-world datasets including MovieLens 100K and MovieLens 1M with different sizes and dimensions and show that the proposed Bayesian NMF GRRN model leads to better predictions and avoids overfitting compared to existing Bayesian NMF approaches.
翻訳日:2022-05-29 12:53:15 公開日:2022-05-23
# (参考訳) RCP:3次元点雲上のシーンフロー推定のための逐次閉点

RCP: Recurrent Closest Point for Scene Flow Estimation on 3D Point Clouds ( http://arxiv.org/abs/2205.11028v1 )

ライセンス: CC BY 4.0
Xiaodong Gu, Chengzhou Tang, Weihao Yuan, Zuozhuo Dai, Siyu Zhu, Ping Tan(参考訳) シーンフローや点雲の登録を含む3次元運動推定が注目されている。 2次元フロー推定にインスパイアされた最近の手法では、深層ニューラルネットワークを用いて正確な3次元フローを推定するためのコストボリュームを構築している。 しかし,これらの手法は不規則なデータ構造のため,点雲上の探索窓の定義が困難であることから制限されている。 本稿では,この不規則さを,単純かつ効果的な手法で回避し,第1段階では3dフローを点的に最適化し,第2段階では再帰ネットワークでグローバルに正規化する2つのインターレースステージに分解する。 そこで,本実験では3次元シーンフロー推定と点雲登録タスクの両方において提案手法の評価を行った。 3次元シーンフロー推定のために,flyingthings3dとkittidatasetの比較を行った。 ポイントクラウドの登録には、前回の作業に従い、modelnet40から大きなポーズと部分的に重複したデータペアを評価します。 その結果,提案手法は従来の手法よりも優れており,不規則点クラウドデータ上でのゼロオーダー手法の優位性を示す3次元シーンフロー推定とポイントクラウド登録の両方において,新たな最先端性能を実現する。

3D motion estimation including scene flow and point cloud registration has drawn increasing interest. Inspired by 2D flow estimation, recent methods employ deep neural networks to construct the cost volume for estimating accurate 3D flow. However, these methods are limited by the fact that it is difficult to define a search window on point clouds because of the irregular data structure. In this paper, we avoid this irregularity by a simple yet effective method.We decompose the problem into two interlaced stages, where the 3D flows are optimized point-wisely at the first stage and then globally regularized in a recurrent network at the second stage. Therefore, the recurrent network only receives the regular point-wise information as the input.In the experiments, we evaluate the proposed method on both the 3D scene flow estimation and the point cloud registration task. For 3D scene flow estimation, we make comparisons on the widely used FlyingThings3D and KITTIdatasets. For point cloud registration, we follow previous works and evaluate the data pairs with large pose and partially overlapping from ModelNet40. The results show that our method outperforms the previous method and achieves a new state-of-the-art performance on both 3D scene flow estimation and point cloud registration, which demonstrates the superiority of the proposed zero-order method on irregular point cloud data.
翻訳日:2022-05-29 12:31:26 公開日:2022-05-23
# (参考訳) META-GUI:モバイルGUIにおけるマルチモーダル対話エージェントを目指して

META-GUI: Towards Multi-modal Conversational Agents on Mobile GUI ( http://arxiv.org/abs/2205.11029v1 )

ライセンス: CC BY 4.0
Liangtai Sun, Xingyu Chen, Lu Chen, Tianle Dai, Zichen Zhu and Kai Yu(参考訳) タスク指向対話(tod)システムは、携帯電話のインテリジェントアシスタントがカレンダーのスケジューリングやホテル予約などのタスクを達成するために広く使われている。 現在のTODシステムは、通常マルチターンテキスト/音声インタラクションに焦点を当て、データベース情報を検索したり、携帯電話でタスクを実行するためにバックエンドAPIを呼び出すことに応答する。 しかし、このアーキテクチャはインテリジェントアシスタントの情報検索能力を大幅に制限し、APIが利用できない場合や、提供されるAPIによって実行されるタスクが複雑すぎる場合には、タスクの失敗につながる可能性がある。 本稿では,GUIベースのタスク指向対話システム(GUI-TOD)を提案する。 GUI-TODシステムは、バックエンドAPIを呼び出すことなく、実際のAPP上でGUI操作を直接実行し、タスクを実行することができる。 さらに,モバイルGUI上でマルチモーダル対話エージェントをトレーニングするためのデータセットであるMETA-GUIをリリースする。 また,多モデル行動予測と応答モデルを提案する。 META-GUIで有望な結果を示したが、改善の余地はまだ残っている。 データセットとモデルは公開される予定だ。

Task-oriented dialogue (TOD) systems have been widely used by mobile phone intelligent assistants to accomplish tasks such as calendar scheduling or hotel booking. Current TOD systems usually focus on multi-turn text/speech interaction and reply on calling back-end APIs to search database information or execute the task on mobile phone. However, this architecture greatly limits the information searching capability of intelligent assistants and may even lead to task failure if APIs are not available or the task is too complicated to be executed by the provided APIs. In this paper, we propose a new TOD architecture: GUI-based task-oriented dialogue system (GUI-TOD). A GUI-TOD system can directly perform GUI operations on real APPs and execute tasks without invoking backend APIs. Furthermore, we release META-GUI, a dataset for training a Multi-modal conversational agent on mobile GUI. We also propose a multi-model action prediction and response model. It showed promising results on META-GUI, but there is still room for further improvement. The dataset and models will be publicly available.
翻訳日:2022-05-29 12:30:15 公開日:2022-05-23
# (参考訳) マルチモーダル・マルチタスク深層ニューラルネットワークによる体組成推定

Body Composition Estimation Based on Multimodal Multi-task Deep Neural Network ( http://arxiv.org/abs/2205.11031v1 )

ライセンス: CC BY 4.0
Subas Chhatkuli, Iris Jiang, and Kyohei Kamiyama(参考訳) 体重と体重指数(BMI)に加えて、身体構成は健康と身体の適合性を理解するための重要なデータポイントである。 しかし、体組成は主に筋肉、脂肪、骨、水で構成されており、体重を測定するほど簡単で簡単な推定はできない。 本稿では,人物の身長,性別,年齢,体重情報に加えて,顔画像を分析し,体脂肪率と骨格筋質量を推定するマルチモーダルマルチタスクディープニューラルネットワークを提案する。 わが国の人口統計学のデータセットを用いて,提案手法が既存手法よりも優れていることを確認した。 さらに,本研究で実施したマルチタスクアプローチでは,体脂肪率と骨格筋質量の利得/損失との負の相関も把握できる。

In addition to body weight and Body Mass Index (BMI), body composition is an essential data point that allows people to understand their overall health and body fitness. However, body composition is largely made up of muscle, fat, bones, and water, which makes estimation not as easy and straightforward as measuring body weight. In this paper, we introduce a multimodal multi-task deep neural network to estimate body fat percentage and skeletal muscle mass by analyzing facial images in addition to a person's height, gender, age, and weight information. Using a dataset representative of demographics in Japan, we confirmed that the proposed approach performed better compared to the existing methods. Moreover, the multi-task approach implemented in this study is also able to grasp the negative correlation between body fat percentage and skeletal muscle mass gain/loss.
翻訳日:2022-05-29 12:16:21 公開日:2022-05-23
# (参考訳) 最適化のための拡張ニュートン法:大域線形速度と運動量解釈

Augmented Newton Method for Optimization: Global Linear Rate and Momentum Interpretation ( http://arxiv.org/abs/2205.11033v1 )

ライセンス: CC0 1.0
Md Sarowar Morshed(参考訳) 制約のない最小化問題の解法としてNewton法を2種類提案する。 本手法は,ペナルティ法や拡張ラグランジアン法などの最適化手法を応用し,ペナルティニュートン法と拡張ニュートン法という,ニュートン法の新たな変種を生成する。 その際, ダンプ・ニュートン法, レベンベルク法, レベンベルグ法, レベンバーグ=マルカルト法などの既知のニュートン法を特殊ケースとして回収した。 さらに,提案する拡張ニュートン法は,適応重球運動量を持つニュートン法と解釈できる。 我々は,様々な問題に対処できる軽度の仮定の下で,提案手法のグローバル収束結果を提供する。 提案手法はKarimireddyらによって得られた結果のペナルティと拡張として求めることができる。 アル[24]

We propose two variants of Newton method for solving unconstrained minimization problem. Our method leverages optimization techniques such as penalty and augmented Lagrangian method to generate novel variants of the Newton method namely the Penalty Newton method and the Augmented Newton method. In doing so, we recover several well-known existing Newton method variants such as Damped Newton, Levenberg, and Levenberg-Marquardt methods as special cases. Moreover, the proposed Augmented Newton method can be interpreted as Newton method with adaptive heavy ball momentum. We provide global convergence results for the proposed methods under mild assumptions that hold for a wide variety of problems. The proposed methods can be sought as the penalty and augmented extensions of the results obtained by Karimireddy et. al [24].
翻訳日:2022-05-29 12:10:31 公開日:2022-05-23
# (参考訳) KQGC:リコメンデーションのためのグラフ畳み込みの効果を用いた知識グラフ埋め込み

KQGC: Knowledge Graph Embedding with Smoothing Effects of Graph Convolutions for Recommendation ( http://arxiv.org/abs/2205.12102v1 )

ライセンス: CC BY 4.0
Daisuke Kikuta, Toyotaro Suzumura, Md Mostafizur Rahman, Yu Hirate, Satyen Abrol, Manoj Kondapaka, Takuma Ebisu, Pablo Loyola(参考訳) グラフ表現学習(GRL)の発展により,レコメンダシステムにおけるグラフの活用が注目されている。 特に、知識グラフ埋め込み(KGE)とグラフニューラルネットワーク(GNN)はGRLの代表的なアプローチであり、いくつかの推奨タスクで最先端のパフォーマンスを達成した。 さらに、KGEとGNNの組み合わせ(KG-GNN)が研究され、多くの学術文献で有効であることが確認されている。 GNNの主な特徴の1つは、結果として生じる密接な表現において、隣人の間で構造的特性を維持する能力である。 滑らか化は、例えばレコメンダシステムで見つかるようなホモフィルグラフの存在において特に望まれる。 本稿では,知識クエリに基づくグラフ畳み込み(KQGC)と呼ばれるレコメンデータシステムのための新しいモデルを提案する。 KG-GNNの排除とは対照的に、KQGCは平滑化に焦点を当て、KGEの平滑化に単純な線形グラフ畳み込みを利用する。 事前学習されたkgeをkqgcに供給し、隣接する知識クエリを集約することで、kgeを効果的に平滑化するための適切なベクトル点上にエンティティ埋め込みをアライン化できるようにする。 提案したKQGCを,特定の製品のユーザを対象としたレコメンデーションタスクに適用する。 実際のEコマースデータセットに関する大規模な実験は、KQGCの有効性を示している。

Leveraging graphs on recommender systems has gained popularity with the development of graph representation learning (GRL). In particular, knowledge graph embedding (KGE) and graph neural networks (GNNs) are representative GRL approaches, which have achieved the state-of-the-art performance on several recommendation tasks. Furthermore, combination of KGE and GNNs (KG-GNNs) has been explored and found effective in many academic literatures. One of the main characteristics of GNNs is their ability to retain structural properties among neighbors in the resulting dense representation, which is usually coined as smoothing. The smoothing is specially desired in the presence of homophilic graphs, such as the ones we find on recommender systems. In this paper, we propose a new model for recommender systems named Knowledge Query-based Graph Convolution (KQGC). In contrast to exisiting KG-GNNs, KQGC focuses on the smoothing, and leverages a simple linear graph convolution for smoothing KGE. A pre-trained KGE is fed into KQGC, and it is smoothed by aggregating neighbor knowledge queries, which allow entity-embeddings to be aligned on appropriate vector points for smoothing KGE effectively. We apply the proposed KQGC to a recommendation task that aims prospective users for specific products. Extensive experiments on a real E-commerce dataset demonstrate the effectiveness of KQGC.
翻訳日:2022-05-29 10:58:50 公開日:2022-05-23
# (参考訳) 自然言語とプログラム抽象化を用いて機械に人間の帰納バイアスを注入する

Using Natural Language and Program Abstractions to Instill Human Inductive Biases in Machines ( http://arxiv.org/abs/2205.11558v1 )

ライセンス: CC BY 4.0
Sreejan Kumar, Carlos G. Correa, Ishita Dasgupta, Raja Marjieh, Michael Y. Hu, Robert D. Hawkins, Nathaniel D. Daw, Jonathan D. Cohen, Karthik Narasimhan, Thomas L. Griffiths(参考訳) 強い帰納バイアスは人間の知性の重要な要素であり、様々なタスクを素早く学習することができる。 メタラーニングは、ニューラルネットワークに有用な誘導バイアスを与えるアプローチとして登場したが、メタラーニングによって訓練されたエージェントは、人間とは全く異なる戦略を取得する可能性がある。 これらのエージェントを自然言語のタスク記述から表現を予測し、そのようなタスクを生成するプログラムから学習することで、人間のような帰納的バイアスへと導くことを示す。 人為的な言語記述とライブラリ学習を伴うプログラム誘導は、抽象的な制御(合成言語記述、ライブラリ学習のないプログラムインダクション)よりも下流のメタ強化学習エージェントにおいて、より人間的な振る舞いをもたらす。

Strong inductive biases are a key component of human intelligence, allowing people to quickly learn a variety of tasks. Although meta-learning has emerged as an approach for endowing neural networks with useful inductive biases, agents trained by meta-learning may acquire very different strategies from humans. We show that co-training these agents on predicting representations from natural language task descriptions and from programs induced to generate such tasks guides them toward human-like inductive biases. Human-generated language descriptions and program induction with library learning both result in more human-like behavior in downstream meta-reinforcement learning agents than less abstract controls (synthetic language descriptions, program induction without library learning), suggesting that the abstraction supported by these representations is key.
翻訳日:2022-05-29 10:01:23 公開日:2022-05-23
# (参考訳) ベイズ学習のための自然勾配を用いた準ブラックボックス変分推論

Quasi Black-Box Variational Inference with Natural Gradients for Bayesian Learning ( http://arxiv.org/abs/2205.11568v1 )

ライセンス: CC BY 4.0
Martin Magris, Mostafa Shabani, Alexandros Iosifidis(参考訳) 複素モデルにおけるベイズ学習に適した最適化アルゴリズムを開発した。 我々のアプローチは、モデル固有導出に制限のある効率的なトレーニングのための一般的なブラックボックスフレームワーク内の自然な勾配更新に依存している。 これは指数関数的族の変分後分布のクラスに当てはまり、我々は更新が比較的単純な形式を持つガウスのケースを詳細に議論する。 準ブラックボックス変分推論(qbvi)フレームワークはベイズ推定問題の幅広いクラスに容易に適用でき、モデルパラメータやフィッシャー情報行列の処方料に関して、変分後段の更新が勾配を含まないため、簡単な実装である。 我々は、後続共分散行列の異なる仮説の下でQBVIを開発し、その堅牢で実現可能な実装の詳細を議論し、その効果を示すために多くの実世界のアプリケーションを提供する。

We develop an optimization algorithm suitable for Bayesian learning in complex models. Our approach relies on natural gradient updates within a general black-box framework for efficient training with limited model-specific derivations. It applies within the class of exponential-family variational posterior distributions, for which we extensively discuss the Gaussian case for which the updates have a rather simple form. Our Quasi Black-box Variational Inference (QBVI) framework is readily applicable to a wide class of Bayesian inference problems and is of simple implementation as the updates of the variational posterior do not involve gradients with respect to the model parameters, nor the prescription of the Fisher information matrix. We develop QBVI under different hypotheses for the posterior covariance matrix, discuss details about its robust and feasible implementation, and provide a number of real-world applications to demonstrate its effectiveness.
翻訳日:2022-05-29 09:44:20 公開日:2022-05-23
# (参考訳) マスク言語モデルを改善したシンプルなリピート

Simple Recurrence Improves Masked Language Models ( http://arxiv.org/abs/2205.11588v1 )

ライセンス: CC BY 4.0
Tao Lei, Ran Tian, Jasmijn Bastings, Ankur P. Parikh(参考訳) 本研究では,超単純な再帰モジュールをトランスフォーマーに組み込むことにより,トランスフォーマーアーキテクチャへのモデリング再帰が有益かつ効率的かどうかを検討する。 BERTのトレーニングと評価のレシピに従って,本モデルとベースラインを比較した。 その結果,パラメータ数を一定に保ちつつ,低レベルの性能最適化を必要とせずにトランスフォーマーモデルを一貫したマージンで再現できることが確認された。 例えば、我々のベースモデルは10タスクで平均2.1ポイントの絶対的な改善を実現し、また、様々な学習速度における微調整の安定性の向上を示す。

In this work, we explore whether modeling recurrence into the Transformer architecture can both be beneficial and efficient, by building an extremely simple recurrent module into the Transformer. We compare our model to baselines following the training and evaluation recipe of BERT. Our results confirm that recurrence can indeed improve Transformer models by a consistent margin, without requiring low-level performance optimizations, and while keeping the number of parameters constant. For example, our base model achieves an absolute improvement of 2.1 points averaged across 10 tasks and also demonstrates increased stability in fine-tuning over a range of learning rates.
翻訳日:2022-05-29 08:57:23 公開日:2022-05-23
# (参考訳) 専門家分類学における階層的クラスタリング

Seeded Hierarchical Clustering for Expert-Crafted Taxonomies ( http://arxiv.org/abs/2205.11602v1 )

ライセンス: CC BY 4.0
Anish Saha, Amith Ananthram, Emily Allaway, Heng Ji, Kathleen McKeown(参考訳) 多くの分野(例えば政治学)の実践者は、大きくラベル付けされていないコーパスを理解するために専門家による分類を用いる。 本研究では,ラベル付き階層クラスタリング (shc: seeded hierarchical clustering) について検討を行った。 本稿では, ラベル付き種子の少数の例のみを用いた, 弱教師付きアルゴリズムであるHierSeedを提案する。 それはデータと計算効率の両方です。 HierSeedはドキュメントの密度をトピック階層構造と比較することで、ドキュメントをトピックに割り当てる。 SHCタスクの教師なしベースラインと教師なしベースラインの両方を3つの実世界のデータセットで上回る。

Practitioners from many disciplines (e.g., political science) use expert-crafted taxonomies to make sense of large, unlabeled corpora. In this work, we study Seeded Hierarchical Clustering (SHC): the task of automatically fitting unlabeled data to such taxonomies using only a small set of labeled examples. We propose HierSeed, a novel weakly supervised algorithm for this task that uses only a small set of labeled seed examples. It is both data and computationally efficient. HierSeed assigns documents to topics by weighing document density against topic hierarchical structure. It outperforms both unsupervised and supervised baselines for the SHC task on three real-world datasets.
翻訳日:2022-05-29 08:49:39 公開日:2022-05-23
# (参考訳) 表現整合性目標を用いた微調整言語モデルの改良

Improving language models fine-tuning with representation consistency targets ( http://arxiv.org/abs/2205.11603v1 )

ライセンス: CC BY 4.0
Anastasia Razdaibiedina, Vivek Madan, Zohar Karnin, Ashish Khetan, Vishaal Kapoor(参考訳) 事前訓練された言語モデルによって学習された微調整された文脈表現は、NLP分野における標準的実践となっている。 しかし、事前訓練された表現は微調整中に劣化しやすく(表現崩壊とも呼ばれる)、不安定性、準最適性能、弱一般化をもたらす。 本稿では,表現の望ましくない変化を回避し,微調整中の表現崩壊を回避する新しい微調整手法を提案する。 提案手法は,13の言語理解タスク(glueベンチマークと6つの追加データセット)にまたがって,既存の正規化ベースの微調整手法の性能に匹敵する,あるいは超えていることを示す。 ラベル摂動に対する低データ設定とロバスト性にも有効であることを示す。 さらに, 表現崩壊の先行研究を拡張し, 定量化のためのいくつかの指標を提案する。 これらの指標と先行する実験を用いて,表現の表現力の保持に重要な改善が得られた。

Fine-tuning contextualized representations learned by pre-trained language models has become a standard practice in the NLP field. However, pre-trained representations are prone to degradation (also known as representation collapse) during fine-tuning, which leads to instability, suboptimal performance, and weak generalization. In this paper, we propose a novel fine-tuning method that avoids representation collapse during fine-tuning by discouraging undesirable changes in the representations. We show that our approach matches or exceeds the performance of the existing regularization-based fine-tuning methods across 13 language understanding tasks (GLUE benchmark and six additional datasets). We also demonstrate its effectiveness in low-data settings and robustness to label perturbation. Furthermore, we extend previous studies of representation collapse and propose several metrics to quantify it. Using these metrics and previously proposed experiments, we show that our approach obtains significant improvements in retaining the expressive power of representations.
翻訳日:2022-05-29 08:30:36 公開日:2022-05-23
# (参考訳) 効率的で頑健な二言語単語アライメントのための言語画像事前学習

Utilizing Language-Image Pretraining for Efficient and Robust Bilingual Word Alignment ( http://arxiv.org/abs/2205.11616v1 )

ライセンス: CC BY 4.0
Tuan Dinh, Jy-yong Sohn, Shashank Rajput, Timothy Ossowski, Yifei Ming, Junjie Hu, Dimitris Papailiopoulos, Kangwook Lee(参考訳) 並列コーパスのない単語翻訳は,教師付き手法の性能に対抗して実現可能になった。 近年,教師なし語訳(UWT)の精度とロバスト性は,言語間の普遍的な表現である視覚的観察を用いて向上できることが示された。 本研究では,視覚的観察だけでなく,より効率的で堅牢なUWTを実現するための事前訓練された言語画像モデルの利用の可能性を検討する。 具体的には,Language-Image Pretraining (WALIP) を用いた新しいUWT手法を開発し,CLIPモデルによって提供される画像とテキストの共有埋め込み空間を介して視覚的観察を行う(Radford et al., 2021)。 WALIPには2段階の手順がある。 まず,提案した画像ベース指紋を用いて,類似度の高い単語ペアを抽出し,単語アライメントの初期ピボットを定義する。 第二に、ロバストなProcrustesアルゴリズムを用いて、2つの埋め込み空間間の線形写像を推定し、それを反復的に補正し、推定アライメントを洗練する。 広汎な実験により、WALIPは、異なる単語埋め込みにまたがるいくつかの言語ペアに対するバイリンガル単語アライメントの最先端性能を改善し、言語ペアの相似性や2単語埋め込みのための訓練コーパスに大きな堅牢性を示す。

Word translation without parallel corpora has become feasible, rivaling the performance of supervised methods. Recent findings have shown that the accuracy and robustness of unsupervised word translation (UWT) can be improved by making use of visual observations, which are universal representations across languages. In this work, we investigate the potential of using not only visual observations but also pretrained language-image models for enabling a more efficient and robust UWT. Specifically, we develop a novel UWT method dubbed Word Alignment using Language-Image Pretraining (WALIP), which leverages visual observations via the shared embedding space of images and texts provided by CLIP models (Radford et al., 2021). WALIP has a two-step procedure. First, we retrieve word pairs with high confidences of similarity, computed using our proposed image-based fingerprints, which define the initial pivot for the word alignment. Second, we apply our robust Procrustes algorithm to estimate the linear mapping between two embedding spaces, which iteratively corrects and refines the estimated alignment. Our extensive experiments show that WALIP improves upon the state-of-the-art performance of bilingual word alignment for a few language pairs across different word embeddings and displays great robustness to the dissimilarity of language pairs or training corpora for two word embeddings.
翻訳日:2022-05-29 08:29:33 公開日:2022-05-23
# (参考訳) CBSにおける重み付きコスト・ツー・ゴーヒューリスティックの効果的導入

Effectively Incorporating Weighted Cost-to-go Heuristic in Suboptimal CBS ( http://arxiv.org/abs/2205.11624v1 )

ライセンス: CC BY 4.0
Rishi Veerapaneni, Tushar Kusnar, Maxim Likhachev(参考訳) conflict-based search (cbs) は、低レベル単一エージェントプランナーと高レベル制約木を用いて競合を解決する、一般的なマルチエージェントパス探索 (mapf) ソルバである。 現代のmapfソルバの大部分は、低レベルプランナーを変更する方法が少なく、様々な戦略によってこの木のサイズを小さくすることでcbsを改善することに焦点を当てている。 既存のcbsメソッドの低レベルプランナーは、非重み付きコスト対ゴーヒューリスティックを使用しており、cbsサブオプティカルな方法も高レベル検索にコンフリクトヒューリスティックを用いている。 一般的な信念とは対照的に、コスト・ツー・ゴ・ゴ・ヒューリスティックは紛争ヒューリスティックと共に特定の方法で重み付けすることで、より効果的に利用できることが示される。 2つのバリエーションを導入し、この変更が特定のシナリオで2-100倍のスピードアップにつながることを示す。 さらに,我々の知識を最大限に活用するために,優先計画と有界準最適CBSの第一理論関係を示し,本手法が自然な一般化であることを示す。

Conflict-Based Search (CBS) is a popular multi-agent path finding (MAPF) solver that employs a low-level single agent planner and a high-level constraint tree to resolve conflicts. The vast majority of modern MAPF solvers focus on improving CBS by reducing the size of this tree through various strategies with few methods modifying the low level planner. All low level planners in existing CBS methods use an unweighted cost-to-go heuristic, with suboptimal CBS methods also using a conflict heuristic to help the high level search. Contrary to prevailing beliefs, we show that the cost-to-go heuristic can be used significantly more effectively by weighting it in a specific manner alongside the conflict heuristic. We introduce two variants of doing so and demonstrate that this change can lead to 2-100x speedups in certain scenarios. Additionally, to the best of our knowledge, we show the first theoretical relation of prioritized planning and bounded suboptimal CBS and demonstrate that our methods are their natural generalization.
翻訳日:2022-05-29 07:45:25 公開日:2022-05-23
# (参考訳) 患者固有の疾患の原因を特定する

Identifying Patient-Specific Root Causes of Disease ( http://arxiv.org/abs/2205.11627v1 )

ライセンス: CC BY 4.0
Eric V. Strobl, Thomas A. Lasko(参考訳) 複雑な疾患は、患者によって異なるさまざまな要因によって引き起こされる。 その結果、すべての患者を健康なすべてのコントロールと比較する仮説テストは、不連続な効果サイズで多くの重要な変数を検出することができる。 非常に予測可能な根本原因は、いずれにせよ各患者に疾患を引き起こす可能性がある。 本稿では, 患者固有の根本原因を, 健康なシステムを混乱させ, 疾患を誘発する外因性「ショック」の変数として定義する。 言い換えれば、変数は構造方程式モデル(SEM)の外因性エラーと関連付けられ、これらのエラーは下流の診断ラベルを予測する。 サンプル固有のShapley値を用いて予測係数を定量化する。 この導出により、線形SEMの誤差項を抽出し、各エラーに関連するShapley値を計算することにより、患者固有の根本原因を特定するためのルート因数推論と呼ばれる高速アルゴリズムを開発することができる。 実験では、個人レベルでは効果が大きいが、グループレベルでは臨床的に効果の大きい根本原因を明らかにするため、精度が大幅に向上した。 R実装はgithub.com/ericstrobl/RCIで入手できる。

Complex diseases are caused by a multitude of factors that may differ between patients. As a result, hypothesis tests comparing all patients to all healthy controls can detect many significant variables with inconsequential effect sizes. A few highly predictive root causes may nevertheless generate disease within each patient. In this paper, we define patient-specific root causes as variables subject to exogenous "shocks" which go on to perturb an otherwise healthy system and induce disease. In other words, the variables are associated with the exogenous errors of a structural equation model (SEM), and these errors predict a downstream diagnostic label. We quantify predictivity using sample-specific Shapley values. This derivation allows us to develop a fast algorithm called Root Causal Inference for identifying patient-specific root causes by extracting the error terms of a linear SEM and then computing the Shapley value associated with each error. Experiments highlight considerable improvements in accuracy because the method uncovers root causes that may have large effect sizes at the individual level but clinically insignificant effect sizes at the group level. An R implementation is available at github.com/ericstrobl/RCI.
翻訳日:2022-05-29 07:28:27 公開日:2022-05-23
# (参考訳) ディープラーニングを用いた非定常販売時系列予測

Forecasting of Non-Stationary Sales Time Series Using Deep Learning ( http://arxiv.org/abs/2205.11636v1 )

ライセンス: CC BY 4.0
Bohdan M. Pavlyshenko(参考訳) 本稿では,ニューラルネットワークモデルにおける時間トレンド補正を用いた非定常時系列予測のためのディープラーニング手法について述べる。 販売値を予測するための層とともに、ニューラルネットワークモデルは、予測された販売値に追加される時系列トレンド項の予測重み付けのためのサブネットワークブロックを含む。 時間トレンド項は、予測された重量値と正規化された時間値の積と見なされる。 その結果, ディープラーニングモデルにおけるトレンド補正ブロックを用いて, 非定常販売における予測精度を, 時間トレンドを用いて実質的に改善できることがわかった。

The paper describes the deep learning approach for forecasting non-stationary time series with using time trend correction in a neural network model. Along with the layers for predicting sales values, the neural network model includes a subnetwork block for the prediction weight for a time trend term which is added to a predicted sales value. The time trend term is considered as a product of the predicted weight value and normalized time value. The results show that the forecasting accuracy can be essentially improved for non-stationary sales with time trends using the trend correction block in the deep learning model.
翻訳日:2022-05-29 06:50:47 公開日:2022-05-23
# (参考訳) 電力市場クリアリングのための機械学習

Machine Learning for Electricity Market Clearing ( http://arxiv.org/abs/2205.11641v1 )

ライセンス: CC BY 4.0
Laurent Pagnier, Robert Ferrando, Yury Dvorkin and Michael Chertkov(参考訳) 本稿では,電力市場における市場浄化に使用される最適電力フロー(OPF)最適化の機械学習双対を設計することを目的とする。 提案手法のモチベーションは,オリジナルよりもはるかに高速なディジタルツインの獲得の必要性と,OPF最適化の原始解と双対解である一貫した生成ディスパッチと位置限界価格(LMPs)の生成に起因している。 このアプローチに基づく市場浄化ツールの可用性は、所定のユニットコミットメントの下で複数のディスパッチシナリオを計算的に抽出可能な評価を可能にする。 OPF の直接解ではなく、問題の OPF 問題に対する Kaush-Kuhn-Tucker (KKT) 条件を記述することができ、並列に生成元と負荷の LMP を OPF ラグランジアン乗数で表すことができる。 また、ラインに関連付けられたラグランジアン乗算器の多くがゼロ(熱極限は結合しない)となるという現実的な事実を生かして、柔軟な資源(負荷と再生可能量)を結合ラインにマッピングし、最適ディスパッチとLMPへの効率的なパワーグリッド対応線形写像で補足するMLスキームを構築し、訓練する。 このスキームはIEEEモデルで検証され、説明されている。 また,再現の質とモデルの訓練に必要なサンプル数との間にある分析のトレードオフを報告した。

This paper seeks to design a machine learning twin of the optimal power flow (OPF) optimization, which is used in market-clearing procedures by wholesale electricity markets. The motivation for the proposed approach stems from the need to obtain the digital twin, which is much faster than the original, while also being sufficiently accurate and producing consistent generation dispatches and locational marginal prices (LMPs), which are primal and dual solutions of the OPF optimization, respectively. Availability of market-clearing tools based on this approach will enable computationally tractable evaluation of multiple dispatch scenarios under a given unit commitment. Rather than direct solution of OPF, the Karush-Kuhn-Tucker (KKT) conditions for the OPF problem in question may be written, and in parallel the LMPs of generators and loads may be expressed in terms of the OPF Lagrangian multipliers. Also, taking advantage of the practical fact that many of the Lagrangian multipliers associated with lines will be zero (thermal limits are not binding), we build and train an ML scheme which maps flexible resources (loads and renewables) to the binding lines, and supplement it with an efficient power-grid aware linear map to optimal dispatch and LMPs. The scheme is validated and illustrated on IEEE models. We also report a trade of analysis between quality of the reconstruction and number of samples needed to train the model.
翻訳日:2022-05-29 06:43:48 公開日:2022-05-23
# (参考訳) 学術文献におけるインフォーマルデータ参照検出のための自然言語処理パイプライン

A Natural Language Processing Pipeline for Detecting Informal Data References in Academic Literature ( http://arxiv.org/abs/2205.11651v1 )

ライセンス: CC BY 4.0
Sara Lafia, Lizhou Fan, Libby Hemphill(参考訳) 出版物と彼らが使用するデータセットの間の信頼できるリンクを見つけることは、労働集約的なプロセスである。 研究データセットへの非公式参照のために出版物を検索し、レビューする自然言語処理パイプラインを導入し、データライブラリーの作業を補完する。 まず、パイプラインの構成要素を説明し、それを用いて、何千もの社会科学研究と、それらが使われているデータ関連の出版物を結びつける権威書誌を拡大する。 このパイプラインは、出版物のデータ関連コレクションに含まれる文献をレビューするためのリコールを増加させ、大規模で非公式のデータ参照を検出できるようにする。 1) 非公式なデータ参照を確実に検出する新しい名前付きエンティティ認識(ner)モデルと,(2) 社会科学文献の項目と参照するデータセットを関連付けたデータセットを提案する。 これらの貢献により、データ参照、データ引用ネットワーク、データ再利用に関する将来の作業が可能になる。

Discovering authoritative links between publications and the datasets that they use can be a labor-intensive process. We introduce a natural language processing pipeline that retrieves and reviews publications for informal references to research datasets, which complements the work of data librarians. We first describe the components of the pipeline and then apply it to expand an authoritative bibliography linking thousands of social science studies to the data-related publications in which they are used. The pipeline increases recall for literature to review for inclusion in data-related collections of publications and makes it possible to detect informal data references at scale. We contribute (1) a novel Named Entity Recognition (NER) model that reliably detects informal data references and (2) a dataset connecting items from social science literature with datasets they reference. Together, these contributions enable future work on data reference, data citation networks, and data reuse.
翻訳日:2022-05-29 06:31:43 公開日:2022-05-23
# (参考訳) flexibert: 現在のトランスフォーマーアーキテクチャは均質で硬いのでしょうか?

FlexiBERT: Are Current Transformer Architectures too Homogeneous and Rigid? ( http://arxiv.org/abs/2205.11656v1 )

ライセンス: CC BY 4.0
Shikhar Tuli, Bhishma Dedhia, Shreshth Tuli, and Niraj K. Jha(参考訳) 多くの言語モデルが存在するため、カスタムタスクに最も適した言語モデルを選択することが困難になる。 ほとんどの最先端の手法はトランスフォーマーベースのモデル(例えばBERT)またはその変種を利用する。 しかし、そのようなモデルのトレーニングとハイパーパラメータ空間の探索は計算コストがかかる。 先行研究では、性能予測器(サロゲートモデルなど)を用いてこの問題に対処するいくつかのニューラルアーキテクチャサーチ(NAS)手法が提案されているが、解析はネットワーク全体にわたって固定次元を使用する同質モデルに限られている。 これは準最適アーキテクチャに繋がる。 この制限に対処するため,多種多様な演算可能なエンコーダ層と異なる隠蔽次元を持つ不均一かつ柔軟なモデル,すなわちFlexiBERTを提案する。 この拡張設計空間におけるより優れたサロゲートモデリングのために,グラフ類似性に基づく新しい埋め込み方式を提案する。 我々はまた、この新たなスキーム、ベイズモデル、二階最適化を活用して、ニューラルサロゲートモデルを迅速に訓練し、最適なアーキテクチャに収束させる、BOSHNASと呼ばれる新しいNASポリシーを提案する。 包括的な実験の結果、FlexiBERTの設計領域に適用された提案されたポリシーは、従来のモデルと比較してパフォーマンスのフロンティアを上方に押し上げる。 提案したモデルの1つであるFlexiBERT-Miniは、BERT-Miniよりも3%少ないパラメータを持ち、GLUEスコアが8.9%高い。 最良等質モデルとして同等の性能を持つフレキシベルトモデルは2.6倍小さいサイズを達成する。 もう1つの提案モデルであるflexibert-largeは最先端の結果を達成し、glueベンチマークで最低5.7%のベースラインモデルを上回っている。

The existence of a plethora of language models makes the problem of selecting the best one for a custom task challenging. Most state-of-the-art methods leverage transformer-based models (e.g., BERT) or their variants. Training such models and exploring their hyperparameter space, however, is computationally expensive. Prior work proposes several neural architecture search (NAS) methods that employ performance predictors (e.g., surrogate models) to address this issue; however, analysis has been limited to homogeneous models that use fixed dimensionality throughout the network. This leads to sub-optimal architectures. To address this limitation, we propose a suite of heterogeneous and flexible models, namely FlexiBERT, that have varied encoder layers with a diverse set of possible operations and different hidden dimensions. For better-posed surrogate modeling in this expanded design space, we propose a new graph-similarity-based embedding scheme. We also propose a novel NAS policy, called BOSHNAS, that leverages this new scheme, Bayesian modeling, and second-order optimization, to quickly train and use a neural surrogate model to converge to the optimal architecture. A comprehensive set of experiments shows that the proposed policy, when applied to the FlexiBERT design space, pushes the performance frontier upwards compared to traditional models. FlexiBERT-Mini, one of our proposed models, has 3% fewer parameters than BERT-Mini and achieves 8.9% higher GLUE score. A FlexiBERT model with equivalent performance as the best homogeneous model achieves 2.6x smaller size. FlexiBERT-Large, another proposed model, achieves state-of-the-art results, outperforming the baseline models by at least 5.7% on the GLUE benchmark.
翻訳日:2022-05-29 06:18:27 公開日:2022-05-23
# (参考訳) Penguins Don't Fly: Instantiationsと例外によるジェネリックの推論

Penguins Don't Fly: Reasoning about Generics through Instantiations and Exceptions ( http://arxiv.org/abs/2205.11658v1 )

ライセンス: CC BY 4.0
Emily Allaway, Jena D. Hwang, Chandra Bhagavatula, Kathleen McKeown, Doug Downey, Yejin Choi(参考訳) ジェネリックは世界に関する一般化を表現する(例えば「鳥は飛ぶことができる」)。 しかし、スズメとペンギンはどちらも鳥類だが、飛べるのはスズメだけであり、ペンギンは飛べない。 ワールド知識の源泉として多くのNLPタスクで広く使われているコモンセンス知識ベースは、しばしば一般的な知識をエンコードするが、設計によってはそのような例外をエンコードすることはできない。 したがって、ジェネリックステートメントがtrueかfalseである場合に、特定のインスタンスを実現することが重要です。 本研究では,ジェネリックの実用的関連性のある真と偽のインスタンスを生成する新しいフレームワークを提案する。 我々は事前訓練された言語モデルを使用し、言語理論からの洞察に基づいて生成を制約し、${\sim}650$ジェネリックに対して${\sim}20k$の例を生成する。 本システムでは,GPT-3(精度12.5点)からの少数ショット生成よりも優れており,このタスクにおける制約付きデコードの重要性と,言語推論タスクにおけるジェネリクスの意義が強調されている。

Generics express generalizations about the world (e.g., "birds can fly"). However, they are not universally true -- while sparrows and penguins are both birds, only sparrows can fly and penguins cannot. Commonsense knowledge bases, which are used extensively in many NLP tasks as a source of world-knowledge, can often encode generic knowledge but, by-design, cannot encode such exceptions. Therefore, it is crucial to realize the specific instances when a generic statement is true or false. In this work, we present a novel framework to generate pragmatically relevant true and false instances of a generic. We use pre-trained language models, constraining the generation based on insights from linguistic theory, and produce ${\sim}20k$ exemplars for ${\sim}650$ generics. Our system outperforms few-shot generation from GPT-3 (by 12.5 precision points) and our analysis highlights the importance of constrained decoding for this task and the implications of generics exemplars for language inference tasks.
翻訳日:2022-05-29 06:17:17 公開日:2022-05-23
# (参考訳) 単眼3次元物体検出のためのモデル一般化に向けて

Towards Model Generalization for Monocular 3D Object Detection ( http://arxiv.org/abs/2205.11664v1 )

ライセンス: CC BY 4.0
Zhenyu Li, Zehui Chen, Ang Li, Liangji Fang, Qinhong Jiang, Xianming Liu, Junjun Jiang(参考訳) モノクロ3dオブジェクト検出(mono3d)は、新たな大規模自動運転データセットとディープラーニング技術の急速な開発によって、大幅に改善されている。 しかし、重い領域ギャップ(例えば、視野(FOV)、ピクセルサイズ、データセット内のオブジェクトサイズ)によってMono3D検出器は一般化が困難になり、目に見えない領域で劇的な性能低下をもたらす。 これらの問題を解決するために、位置不変変換とマルチスケールトレーニングと画素サイズ深度戦略を組み合わせて、効果的な統合カメラ一般化パラダイム(CGP)を構築する。 さまざまなカメラで撮影された画像のFOVとピクセルサイズの差を十分に考慮している。 さらに,データ横断推論における定量的指標の障害を,徹底的な体系的研究を通じてさらに検討する。 予測のサイズバイアスが余剰な失敗につながると認識する。 そこで本研究では,2D-3D幾何整合性オブジェクトスケーリング戦略(GCOS)を提案し,そのギャップをインスタンスレベルの拡張によって埋める。 dgmono3d と呼ばれる手法は,すべての評価データセットにおいて顕著な性能を達成し,対象領域のデータを用いなくても sota の教師なしドメイン適応方式を上回っている。

Monocular 3D object detection (Mono3D) has achieved tremendous improvements with emerging large-scale autonomous driving datasets and the rapid development of deep learning techniques. However, caused by severe domain gaps (e.g., the field of view (FOV), pixel size, and object size among datasets), Mono3D detectors have difficulty in generalization, leading to drastic performance degradation on unseen domains. To solve these issues, we combine the position-invariant transform and multi-scale training with the pixel-size depth strategy to construct an effective unified camera-generalized paradigm (CGP). It fully considers discrepancies in the FOV and pixel size of images captured by different cameras. Moreover, we further investigate the obstacle in quantitative metrics when cross-dataset inference through an exhaustive systematic study. We discern that the size bias of prediction leads to a colossal failure. Hence, we propose the 2D-3D geometry-consistent object scaling strategy (GCOS) to bridge the gap via an instance-level augment. Our method called DGMono3D achieves remarkable performance on all evaluated datasets and surpasses the SoTA unsupervised domain adaptation scheme even without utilizing data on the target domain.
翻訳日:2022-05-29 05:55:07 公開日:2022-05-23
# (参考訳) ディジタル画像処理によるロボットプラットフォームの移動制御のためのアルゴリズム開発

Algorithm Development for Controlling Movement of a Robotic Platform by Digital Image Processing ( http://arxiv.org/abs/2205.11666v1 )

ライセンス: CC BY 4.0
Benjamin Andres Huerfano Zapata, Humberto Numpaque Lopez and Cindy Lorena Diaz Murillo(参考訳) 以下の研究は、ある環境における移動ロボットプラットフォームの移動を制御することを目的として、画像をデジタル的に処理できるアルゴリズムを示している。 プラットフォームは特定の色で識別され、プラットフォームシフトの変位環境は異なる色の障害物を識別しており、どちらもrgbカラースケールで動作している。 ロボットプラットフォームの制御の移動を得るために、このアルゴリズムはc言語で開発され、開発プラットフォームのc + +でビデオカメラが撮影した画像を処理するためにオープンcvライブラリを使用した。 ビデオカメラはzhang法でキャリブレーションされ、パラメーターは焦点距離と焦点画素の傾きが得られた。 アルゴリズムのヒストグラム解析と画像のセグメンテーションが開発され, 障害物や移動戦略に対するプラットフォームの相対的な位置を正確に決定できるようになった。

The following work shows an algorithm that can process images digitally with the goal of control the movement of a mobile robotic platform in a certain environment. The platform is identified with a specific color, and displacement environment of the platform shift has identified obstacles with different colors, for both cases it worked with the RGB color scale. To obtain the control's movement of the robotic platform, the algorithm was developed in C programming language, and used the Open CV libraries for processing images captured by a video camera on the Dev-platform C + +. The video camera was previously calibrated using ZHANG technique where parameters were obtained focal length and tilt focal pixel. In the algorithm histogram analysis and segmentation of the image were developed, allowing to determine exactly the relative position of the platform with respect to the obstacles and movement strategy to follow.
翻訳日:2022-05-29 05:36:30 公開日:2022-05-23
# 注意ネットワークを用いた時系列予測器の解釈可能な特徴工学

Interpretable Feature Engineering for Time Series Predictors using Attention Networks ( http://arxiv.org/abs/2205.12723v1 )

ライセンス: Link先を確認
Tianjie Wang, Jie Chen, Joel Vaughan, and Vijayan N. Nair(参考訳) 時系列予測器による回帰問題は、銀行や他の多くの応用分野でよく見られる。 本稿では,マルチヘッドアテンションネットワークを用いて解釈可能な特徴を開発し,予測性能を向上させる。 カスタマイズされた注目層は、乗法的相互作用を明示的に使用し、時間的ダイナミクスを擬似的に捉える特徴エンジニアリングヘッドを構築する。 畳み込み層は多変量時系列の組み合わせに用いられる。 また、モデリングプロセスにおける静的共変量を扱う方法についても論じる。 可視化と説明ツールは、結果を解釈し、入力と抽出された特徴の関係を説明するために使用される。 シミュレーションと実際のデータセットは、方法論の有用性を説明するために使われる。 キーワード:注意頭、ディープニューラルネットワーク、解釈可能な機能エンジニアリング

Regression problems with time-series predictors are common in banking and many other areas of application. In this paper, we use multi-head attention networks to develop interpretable features and use them to achieve good predictive performance. The customized attention layer explicitly uses multiplicative interactions and builds feature-engineering heads that capture temporal dynamics in a parsimonious manner. Convolutional layers are used to combine multivariate time series. We also discuss methods for handling static covariates in the modeling process. Visualization and explanation tools are used to interpret the results and explain the relationship between the inputs and the extracted features. Both simulation and real dataset are used to illustrate the usefulness of the methodology. Keyword: Attention heads, Deep neural networks, Interpretable feature engineering
翻訳日:2022-05-26 15:09:03 公開日:2022-05-23
# 時間から秒:微分顕微鏡による100倍高速な定量位相イメージング

From Hours to Seconds: Towards 100x Faster Quantitative Phase Imaging via Differentiable Microscopy ( http://arxiv.org/abs/2205.11521v1 )

ライセンス: Link先を確認
Udith Haputhanthri, Kithmini Herath, Ramith Hettiarachchi, Hasindu Kariyawasam, Azeem Ahmad, Balpreet S. Ahluwalia, Chamira U. S. Edussooriya, Dushan N. Wadduwage(参考訳) メタボロミクスから病理組織学まで、定量的位相顕微鏡(qpm)は強力なラベルフリーイメージングモードである。 高速多重撮像センサとディープラーニングに基づく逆解法が大幅に進歩したにもかかわらず、qpmのスループットは電子ハードウェアの速度によって制限されている。 本稿では、スループットをさらに向上するために、既存の電子ハードウェアボトルネックを超えてより多くの情報を転送できるように圧縮された画像を取得することを提案する。 そこで本研究では,コンテンツ固有の特徴を学習可能な光学圧縮圧縮フレームワークを提案する。 提案した微分可能な光電子量相顕微鏡(\partial \mu$)は、まず学習可能な光学特徴抽出器を画像圧縮機として使用する。 これらのネットワークによって生成される強度表現は、撮像センサによってキャプチャされる。 最後に、電子ハードウェア上で動作する再構成ネットワークは、qpm画像をデ圧縮する。 提案システムは,$\sim 0.90$のSSIMと$\sim 30$ dBのPSNRを維持しながら,$\times$ 64の圧縮を実現する。 我々の実験で実証された有望な結果は、前例のないスループット改善を提供する、エンドツーエンド最適化(光学および電子)コンパクトQPMシステムを実現するための新しい経路を開く。

With applications ranging from metabolomics to histopathology, quantitative phase microscopy (QPM) is a powerful label-free imaging modality. Despite significant advances in fast multiplexed imaging sensors and deep-learning-based inverse solvers, the throughput of QPM is currently limited by the speed of electronic hardware. Complementarily, to improve throughput further, here we propose to acquire images in a compressed form such that more information can be transferred beyond the existing electronic hardware bottleneck. To this end, we present a learnable optical compression-decompression framework that learns content-specific features. The proposed differentiable optical-electronic quantitative phase microscopy ($\partial \mu$) first uses learnable optical feature extractors as image compressors. The intensity representation produced by these networks is then captured by the imaging sensor. Finally, a reconstruction network running on electronic hardware decompresses the QPM images. The proposed system achieves compression of $\times$ 64 while maintaining the SSIM of $\sim 0.90$ and PSNR of $\sim 30$ dB. The promising results demonstrated by our experiments open up a new pathway for achieving end-to-end optimized (i.e., optics and electronic) compact QPM systems that provide unprecedented throughput improvements.
翻訳日:2022-05-25 15:52:02 公開日:2022-05-23
# 形成中に(反)スキャミオンを識別する

Identifying (anti-)skyrmions while they form ( http://arxiv.org/abs/2205.11535v1 )

ライセンス: Link先を確認
Jack Y. Araz, Juan Carlos Criado, Michael Spannowsky(参考訳) 我々は畳み込みニューラルネットワーク (CNN) を用いて, 強磁性およびジアロシンスキー-モリヤ相互作用を持つ3次元スピン格子系の熱力学的相の関連性を同定する。 このような特徴には(反)スキルミオン、メロン、ヘリカルおよび強磁性状態が含まれる。 異なる特徴とフェーズを混在する状態に対応するのに十分な柔軟性を持つマルチラベル分類フレームワークを使用します。 次に、シミュレーションの中間状態のスナップショットから最終状態の特徴を予測するためにCNNを訓練する。 訓練されたモデルは、形成過程の早い段階で、確実に異なる位相を識別できる。 これにより、スピン格子モンテカルロサンプリングが収束する前に最終位相を予測することにより、cnnは位相図計算を大幅に高速化することができる。 シミュレーション時間を大幅に短縮した位相図を作成することにより,この手法の長所を示す。

We use a Convolutional Neural Network (CNN) to identify the relevant features in the thermodynamical phases of a simulated three-dimensional spin-lattice system with ferromagnetic and Dzyaloshinskii-Moriya (DM) interactions. Such features include (anti-)skyrmions, merons, and helical and ferromagnetic states. We use a multi-label classification framework, which is flexible enough to accommodate states that mix different features and phases. We then train the CNN to predict the features of the final state from snapshots of intermediate states of the simulation. The trained model allows identifying the different phases reliably and early in the formation process. Thus, the CNN can significantly speed up the phase diagram calculations by predicting the final phase before the spin-lattice Monte Carlo sampling has converged. We show the prowess of this approach by generating phase diagrams with significantly shorter simulation times.
翻訳日:2022-05-25 15:51:23 公開日:2022-05-23
# FedSA:Federated Simulated Annealingを用いた協調環境における侵入検出の高速化

FedSA: Accelerating Intrusion Detection in Collaborative Environments with Federated Simulated Annealing ( http://arxiv.org/abs/2205.11519v1 )

ライセンス: Link先を確認
Helio N. Cunha Neto, Ivana Dusparic, Diogo M. F. Mattos, and Natalia C. Fernandes(参考訳) 新しいネットワーク攻撃パターンの迅速な識別は、ネットワークセキュリティの改善に不可欠である。 それでも、ヘテロジニアスネットワークで進行中のアタックの特定は、非自明なタスクです。 統合学習は、侵入検知システム(IDS)の協調訓練の解決策として現れる。 フェデレーション学習に基づくidは、ローカルデータを共有せずに、フェデレーション参加者が提供したローカル機械学習モデルを使用してグローバルモデルをトレーニングする。 しかし、最適化の課題は連合学習に固有のものである。 本稿では,federated simulated annealing (fedsa) メタヒューリスティックを用いて,連合学習における各アグリゲーションラウンドのハイパーパラメータと参加者のサブセットを選択する。 FedSAは、グローバルモデル収束に関連するハイパーパラメータを最適化する。 この提案は集約ラウンドを減らし、収束を早める。 したがって、FedSAはローカルモデルからの学習抽出を加速し、IDS更新を少なくする。 提案手法は,FedSAグローバルモデルが10回未満の通信ラウンドに収束していることを示す。 従来のアグリゲーションアプローチよりも,攻撃検出精度が約97%向上するためには,最大50%のアグリゲーションラウンドが必要となる。

Fast identification of new network attack patterns is crucial for improving network security. Nevertheless, identifying an ongoing attack in a heterogeneous network is a non-trivial task. Federated learning emerges as a solution to collaborative training for an Intrusion Detection System (IDS). The federated learning-based IDS trains a global model using local machine learning models provided by federated participants without sharing local data. However, optimization challenges are intrinsic to federated learning. This paper proposes the Federated Simulated Annealing (FedSA) metaheuristic to select the hyperparameters and a subset of participants for each aggregation round in federated learning. FedSA optimizes hyperparameters linked to the global model convergence. The proposal reduces aggregation rounds and speeds up convergence. Thus, FedSA accelerates learning extraction from local models, requiring fewer IDS updates. The proposal assessment shows that the FedSA global model converges in less than ten communication rounds. The proposal requires up to 50% fewer aggregation rounds to achieve approximately 97% accuracy in attack detection than the conventional aggregation approach.
翻訳日:2022-05-25 15:24:07 公開日:2022-05-23
# BolT:fMRI時系列解析のためのウィンドウ変換器

BolT: Fused Window Transformers for fMRI Time Series Analysis ( http://arxiv.org/abs/2205.11578v1 )

ライセンス: Link先を確認
Hasan Atakan Bedel, Irmak \c{S}{\i}vg{\i}n, Onat Dalmaz, Salman Ul Hassan Dar, Tolga \c{C}ukur(参考訳) 機能的磁気共鳴イメージング(fMRI)は、別々の領域の時間的アクティベーション間の同期を測定する機能的接続(FC)分析を通じて、脳内の領域間相互作用の検査を可能にする。 優れた感度を持つ深層学習法は,高次元fMRIデータのFC解析への関心が高まっている。 この領域では、事前計算されたFC特徴とは対照的に、生の時系列で直接動作するモデルは、fMRIデータに存在する情報の完全なスケールを利用する利点がある。 しかし、以前のモデルは複数の時間スケールにわたる表現の時間的統合に最適化されたアーキテクチャに基づいている。 本稿では多変量fmri時系列解析のためのbolt-oxygen-level-dependent transformerを提案する。 BolTは、新しい融合ウィンドウアテンション機構を備えたトランスフォーマーエンコーダのカスケードを利用する。 fmri時系列内の時間オーバーラップされた時間窓上でトランスフォーマーエンコーディングを行い、短時間の時間スケール表現をキャプチャする。 ウィンドウをまたいだ情報を統合するために、隣接する時間ウィンドウのベーストークンとフランジトークンの間で、クロスウィンドウアテンションが計算される。 局所的な表現からグローバルな表現への移行には、ウィンドウの重複度とフランセントトークンの数がカスケード全体で徐々に増加する。 最後に、グローバル$cls$の高レベルな表現をタイムウィンドウに合わせるために、新しいクロスウィンドウ正規化が施行される。 公開fMRIデータセットに関する総合的な実験は、最先端の手法に対するBolTの優れた性能を明らかに示している。 モデル決定に最も寄与するランドマーク点と領域を特定するためのポストホック説明分析は、最近のfMRI研究から顕著な神経科学的な発見を裏付けるものである。

Functional magnetic resonance imaging (fMRI) enables examination of inter-regional interactions in the brain via functional connectivity (FC) analyses that measure the synchrony between the temporal activations of separate regions. Given their exceptional sensitivity, deep-learning methods have received growing interest for FC analyses of high-dimensional fMRI data. In this domain, models that operate directly on raw time series as opposed to pre-computed FC features have the potential benefit of leveraging the full scale of information present in fMRI data. However, previous models are based on architectures suboptimal for temporal integration of representations across multiple time scales. Here, we present BolT, blood-oxygen-level-dependent transformer, for analyzing multi-variate fMRI time series. BolT leverages a cascade of transformer encoders equipped with a novel fused window attention mechanism. Transformer encoding is performed on temporally-overlapped time windows within the fMRI time series to capture short time-scale representations. To integrate information across windows, cross-window attention is computed between base tokens in each time window and fringe tokens from neighboring time windows. To transition from local to global representations, the extent of window overlap and thereby number of fringe tokens is progressively increased across the cascade. Finally, a novel cross-window regularization is enforced to align the high-level representations of global $CLS$ features across time windows. Comprehensive experiments on public fMRI datasets clearly illustrate the superior performance of BolT against state-of-the-art methods. Posthoc explanatory analyses to identify landmark time points and regions that contribute most significantly to model decisions corroborate prominent neuroscientific findings from recent fMRI studies.
翻訳日:2022-05-25 15:23:50 公開日:2022-05-23
# PrivFairFL: フェデレーション学習におけるプライバシ保護グループフェアネス

PrivFairFL: Privacy-Preserving Group Fairness in Federated Learning ( http://arxiv.org/abs/2205.11584v1 )

ライセンス: Link先を確認
Sikha Pentyala, Nicola Neophytou, Anderson Nascimento, Martine De Cock, Golnoosh Farnadi(参考訳) グループフェアネスは、機械学習(ML)に基づく意思決定システムの結果が、性別や民族などのセンシティブな属性によって定義される特定のグループに偏らないことを保証します。 連合学習(fl)におけるグループ公平性の実現は、バイアスの軽減が本質的にすべてのクライアントの繊細な属性値の使用を必要とするため困難である。 本稿では,FLにおける公平性とプライバシの対立を,セキュアマルチパーティ計算(MPC)と微分プライバシ(DP)を組み合わせることで解決できることを示す。 そこで本研究では,デバイス横断FLにおけるグループフェアMLモデルを,クライアントが機密属性値を公開することなく,完全かつ正式なプライバシ保証の下でトレーニングする方法を提案する。

Group fairness ensures that the outcome of machine learning (ML) based decision making systems are not biased towards a certain group of people defined by a sensitive attribute such as gender or ethnicity. Achieving group fairness in Federated Learning (FL) is challenging because mitigating bias inherently requires using the sensitive attribute values of all clients, while FL is aimed precisely at protecting privacy by not giving access to the clients' data. As we show in this paper, this conflict between fairness and privacy in FL can be resolved by combining FL with Secure Multiparty Computation (MPC) and Differential Privacy (DP). In doing so, we propose a method for training group-fair ML models in cross-device FL under complete and formal privacy guarantees, without requiring the clients to disclose their sensitive attribute values.
翻訳日:2022-05-25 15:23:24 公開日:2022-05-23
# DOGE-Train: エンドツーエンドトレーニングによるGPUの離散最適化

DOGE-Train: Discrete Optimization on GPU with End-to-end Training ( http://arxiv.org/abs/2205.11638v1 )

ライセンス: Link先を確認
Ahmed Abbas, Paul Swoboda(参考訳) グラフニューラルネットワークを用いて,0-1整数線形プログラムの線形緩和を高速かつスケーラブルに解く手法を提案する。 我々の解法はラグランジュ分解に基づくアルゴリズムFastDOG(Abbas et al. (2022))に基づいている。 アルゴリズムを微分可能とし、アルゴリズムパラメータのエンドツーエンドトレーニングのためのデュアルアップデートスキームを通じてバックプロパゲーションを行う。 これにより、実現可能性や下限での非決定性を含むアルゴリズムの理論的性質を保存できる。 FastDOGは最適以下の固定点で立ち往生できるため、グラフニューラルネットワークにさらなる自由を与え、そのような点を回避し、二重実現可能性を維持しながら、非パラメトリックな更新ステップを予測する。 グラフニューラルネットワークのトレーニングには、教師なしの損失を使用し、大規模な実世界データセットで実験を行います。 約10kのパラメータからなるグラフニューラルネットワークを用いて,より小さな問題を学習し,強力な一般化性能を示す。 我々の解法は、非学習版よりも性能が大幅に向上し、二重目的が向上する。 商用解法と比較すると,lp緩和の最適目的値に近い値が得られ,構造的予測や選択された組合せ最適化問題など,非常に大きな問題に対して最大1桁の速度で解法が実現される。

We present a fast, scalable, data-driven approach for solving linear relaxations of 0-1 integer linear programs using a graph neural network. Our solver is based on the Lagrange decomposition based algorithm FastDOG (Abbas et al. (2022)). We make the algorithm differentiable and perform backpropagation through the dual update scheme for end-to-end training of its algorithmic parameters. This allows to preserve the algorithm's theoretical properties including feasibility and guaranteed non-decrease in the lower bound. Since FastDOG can get stuck in suboptimal fixed points, we provide additional freedom to our graph neural network to predict non-parametric update steps for escaping such points while maintaining dual feasibility. For training of the graph neural network we use an unsupervised loss and perform experiments on large-scale real world datasets. We train on smaller problems and test on larger ones showing strong generalization performance with a graph neural network comprising only around 10k parameters. Our solver achieves significantly faster performance and better dual objectives than its non-learned version. In comparison to commercial solvers our learned solver achieves close to optimal objective values of LP relaxations and is faster by up to an order of magnitude on very large problems from structured prediction and on selected combinatorial optimization problems.
翻訳日:2022-05-25 15:23:09 公開日:2022-05-23
# 時間変化脳データセットの深部表現

Deep Representations for Time-varying Brain Datasets ( http://arxiv.org/abs/2205.11648v1 )

ライセンス: Link先を確認
Sikun Lin, Shuyun Tang, Scott Grafton, Ambuj Singh(参考訳) 脳内の動的活動の適切な表現を見つけることは、多くの下流アプリケーションにとって不可欠である。 非常にダイナミックな性質のため、時間平均のfMRI(機能的磁気共鳴イメージング)は脳活動の視野を狭くすることができる。 以前の作品には、脳アーキテクチャにおける潜伏するダイナミクスを学習し、解釈する能力がない。 本稿では,DWI(拡散強調画像)から得られた領域マップfMRIシーケンスと構造接続性の両方を入力として組み込んだ,効率的なグラフニューラルネットワークモデルを構築する。 サンプルレベルの適応随伴行列を学習し、新しいマルチレゾリューション型内部クラスター平滑化を行うことにより、潜在脳の動態の優れた表現を見いだす。 これらのモジュールは容易に適用でき、神経科学領域以外のアプリケーションにも有用である。 また,(1)高度に絡み合った脳接続とサブネットワーク,(2)タスクを特徴付ける画像シーケンスの時間的キーフレーム,(3)被験者間で識別するサブネットワークを推定できる,統合勾配を用いた入力を分類した。 様々なタスクや個人間のシグナル状態を特徴付ける重要なサブネットワークを識別する能力は、神経科学やその他の科学領域にとって非常に重要である。 脳のダイナミクスを洞察的に解釈した時空間グラフ信号モデリングにおける提案手法の優位性と効率性を示す。

Finding an appropriate representation of dynamic activities in the brain is crucial for many downstream applications. Due to its highly dynamic nature, temporally averaged fMRI (functional magnetic resonance imaging) can only provide a narrow view of underlying brain activities. Previous works lack the ability to learn and interpret the latent dynamics in brain architectures. This paper builds an efficient graph neural network model that incorporates both region-mapped fMRI sequences and structural connectivities obtained from DWI (diffusion-weighted imaging) as inputs. We find good representations of the latent brain dynamics through learning sample-level adaptive adjacency matrices and performing a novel multi-resolution inner cluster smoothing. These modules can be easily adapted to and are potentially useful for other applications outside the neuroscience domain. We also attribute inputs with integrated gradients, which enables us to infer (1) highly involved brain connections and subnetworks for each task, (2) temporal keyframes of imaging sequences that characterize tasks, and (3) subnetworks that discriminate between individual subjects. This ability to identify critical subnetworks that characterize signal states across heterogeneous tasks and individuals is of great importance to neuroscience and other scientific domains. Extensive experiments and ablation studies demonstrate our proposed method's superiority and efficiency in spatial-temporal graph signal modeling with insightful interpretations of brain dynamics.
翻訳日:2022-05-25 15:22:49 公開日:2022-05-23
# 非凸確率分散最適化のための原始双対アルゴリズムの理論解析

Theoretical Analysis of Primal-Dual Algorithm for Non-Convex Stochastic Decentralized Optimization ( http://arxiv.org/abs/2205.11979v1 )

ライセンス: Link先を確認
Yuki Takezawa, Kenta Niwa, Makoto Yamada(参考訳) 近年,大規模機械学習のみならず,プライバシ保護のための強力なツールとして,分散学習が登場している。 分散学習における重要な課題の1つは、各ノードが保持するデータ分布が統計的に異質であることである。 この課題に対処するため、Edge-Consensus Learning (ECL)と呼ばれる原始双対アルゴリズムが提案され、データ分布の不均一性に対して堅牢であることが実験的に示された。 しかし、ESLの収束速度は、目的関数が凸である場合にのみ与えられ、目的関数が凸でない標準的な機械学習環境では示されていない。 さらに、ECLがデータ分布の不均一性に対して頑健であるという直感的な理由も検討されていない。 本研究では,まず,ECL と Gossip アルゴリズムの関係について検討し,その更新公式を Gossip アルゴリズムの局所確率勾配の補正とみなすことができることを示す。 そこで我々は,データ分布の不均一性に依存しない(強い)凸と非凸の両方において,ECLを特別なケースとして含む一般化ECL(G-ECL)を提案し,G-ECLの収束率を示す。 合成実験により, G-ECL と ECL の数値計算結果と G-ECL の収束速度が一致することを示した。

In recent years, decentralized learning has emerged as a powerful tool not only for large-scale machine learning, but also for preserving privacy. One of the key challenges in decentralized learning is that the data distribution held by each node is statistically heterogeneous. To address this challenge, the primal-dual algorithm called the Edge-Consensus Learning (ECL) was proposed and was experimentally shown to be robust to the heterogeneity of data distributions. However, the convergence rate of the ECL is provided only when the objective function is convex, and has not been shown in a standard machine learning setting where the objective function is non-convex. Furthermore, the intuitive reason why the ECL is robust to the heterogeneity of data distributions has not been investigated. In this work, we first investigate the relationship between the ECL and Gossip algorithm and show that the update formulas of the ECL can be regarded as correcting the local stochastic gradient in the Gossip algorithm. Then, we propose the Generalized ECL (G-ECL), which contains the ECL as a special case, and provide the convergence rates of the G-ECL in both (strongly) convex and non-convex settings, which do not depend on the heterogeneity of data distributions. Through synthetic experiments, we demonstrate that the numerical results of both the G-ECL and ECL coincide with the convergence rate of the G-ECL.
翻訳日:2022-05-25 15:19:33 公開日:2022-05-23
# オープンエンド言語生成によるバイアス測定の課題

Challenges in Measuring Bias via Open-Ended Language Generation ( http://arxiv.org/abs/2205.11601v1 )

ライセンス: Link先を確認
Afra Feyza Aky\"urek, Muhammed Yusuf Kocyigit, Sejin Paik, Derry Wijaya(参考訳) 研究者は、事前訓練された言語モデルに適合する社会的バイアスを定量化する多くの方法を考案した。 いくつかの言語モデルは、一連のテキストプロンプトによって一貫性のある補完を生成することができるため、社会的グループ間のバイアスを測定するためにいくつかのプロンプトデータセットが提案されている。 本稿では,プロンプトセット,メトリクス,自動ツール,サンプリング戦略の特定の選択がバイアス結果に与える影響を分析する。 テキスト補完によるバイアス測定の実践は,異なる実験条件下では矛盾する結果をもたらす傾向にあることがわかった。 さらに、ある言語モデルで示されるバイアスのより完全な展望のために、オープンエンド言語生成におけるバイアスの報告を推奨する。 結果を再現するためのコードはhttps://github.com/feyzaakyurek/bias-textgenでリリースされている。

Researchers have devised numerous ways to quantify social biases vested in pretrained language models. As some language models are capable of generating coherent completions given a set of textual prompts, several prompting datasets have been proposed to measure biases between social groups -- posing language generation as a way of identifying biases. In this opinion paper, we analyze how specific choices of prompt sets, metrics, automatic tools and sampling strategies affect bias results. We find out that the practice of measuring biases through text completion is prone to yielding contradicting results under different experiment settings. We additionally provide recommendations for reporting biases in open-ended language generation for a more complete outlook of biases exhibited by a given language model. Code to reproduce the results is released under https://github.com/feyzaakyurek/bias-textgen.
翻訳日:2022-05-25 15:15:46 公開日:2022-05-23
# プロンプト型マルチタスク学習における社会的バイアスの測定について

On Measuring Social Biases in Prompt-Based Multi-Task Learning ( http://arxiv.org/abs/2205.11605v1 )

ライセンス: Link先を確認
Afra Feyza Aky\"urek, Sejin Paik, Muhammed Yusuf Kocyigit, Seda Akbiyik, \c{S}erife Leman Runyun, Derry Wijaya(参考訳) nlpタスクの混合でトレーニングされた大きな言語モデルは、プロンプトを使用してテキストからテキストへのフォーマットに変換され、新しい形式の言語に一般化され、新しいタスクを処理することができる。 プロンプトエンジニアリング内の大きな作業は、入力フォームとプロンプトが優れたパフォーマンスを達成するための効果を理解しようとする。 代替尺度を検討し, 入力の符号化方法がアウトプットで促進される社会的バイアスに影響を及ぼすかどうかを問う。 本稿では,プロンプトベース学習を用いた大規模マルチタスクテキスト・テキスト言語モデルであるT0について検討する。 意味論的に等価な入力の2つの異なる形式を考える。 我々は,従来のBBQのバイアスベンチマークを用いて,手書き仮説を用いた自然言語推論BBNLIの最初のバイアスベンチマークを作成し,各ベンチマークを他の形式に変換する。 2つのベンチマークの結果は、本質的に同じ入力の2つの異なる定式化が与えられた場合、T0は、トレーニング中に見られる質問応答形式において、トレーニングの例と異なる前提-仮説形式よりも、より顕著にバイアスに振舞うことを示唆している。 コードとデータはhttps://github.com/feyzaakyurek/bbnliでリリースされる。

Large language models trained on a mixture of NLP tasks that are converted into a text-to-text format using prompts, can generalize into novel forms of language and handle novel tasks. A large body of work within prompt engineering attempts to understand the effects of input forms and prompts in achieving superior performance. We consider an alternative measure and inquire whether the way in which an input is encoded affects social biases promoted in outputs. In this paper, we study T0, a large-scale multi-task text-to-text language model trained using prompt-based learning. We consider two different forms of semantically equivalent inputs: question-answer format and premise-hypothesis format. We use an existing bias benchmark for the former BBQ and create the first bias benchmark in natural language inference BBNLI with hand-written hypotheses while also converting each benchmark into the other form. The results on two benchmarks suggest that given two different formulations of essentially the same input, T0 conspicuously acts more biased in question answering form, which is seen during training, compared to premise-hypothesis form which is unlike its training examples. Code and data are released under https://github.com/feyzaakyurek/bbnli.
翻訳日:2022-05-25 15:15:33 公開日:2022-05-23
# 議論による因果モデルの説明--双変量強化の場合

Explaining Causal Models with Argumentation: the Case of Bi-variate Reinforcement ( http://arxiv.org/abs/2205.11589v1 )

ライセンス: Link先を確認
Antonio Rago, Pietro Baroni and Francesca Toni(参考訳) 因果モデルは、機械学習、特に説明可能なAIの領域において、ますます重要な役割を担っている。 本稿では、モデル出力の説明をフォージする目的で、因果モデルから議論フレームワーク(AF)を生成するための概念化を導入する。 概念化は、説明型としてafsの意味論の望ましい性質を再解釈することに基づいており、これは因果モデルにおける関係を議論的に特徴づける手段である。 本手法は,両極性AFを因果モデルの出力を説明するための説明型として,二変量強化の特性を再解釈することによって実証する。 我々はこれらの論証的説明の理論的評価を行い、それらが望ましい説明的および論証的特性の範囲を満たすかどうかを検討する。

Causal models are playing an increasingly important role in machine learning, particularly in the realm of explainable AI. We introduce a conceptualisation for generating argumentation frameworks (AFs) from causal models for the purpose of forging explanations for the models' outputs. The conceptualisation is based on reinterpreting desirable properties of semantics of AFs as explanation moulds, which are means for characterising the relations in the causal model argumentatively. We demonstrate our methodology by reinterpreting the property of bi-variate reinforcement as an explanation mould to forge bipolar AFs as explanations for the outputs of causal models. We perform a theoretical evaluation of these argumentative explanations, examining whether they satisfy a range of desirable explanatory and argumentative properties.
翻訳日:2022-05-25 14:33:08 公開日:2022-05-23
# 議論フレームワークの予測

Forecasting Argumentation Frameworks ( http://arxiv.org/abs/2205.11590v1 )

ライセンス: Link先を確認
Benjamin Irwin, Antonio Rago and Francesca Toni(参考訳) 本稿では,近年の判断予測研究による予測手法であるFAF(Forecasting Argumentation Frameworks)を紹介する。 FAFは、政治的選挙の勝者やインフレ率の変動など、結果の確率について時間をかけて議論する(人間または人工的な)エージェントに権限を与える更新フレームワークで構成され、一方で、エージェントの行動における不合理性を予測精度の向上の観点からフラグ付けする。 fafには5つの引数タイプがあり、バイポーラ引数と同様に標準pro/con引数に相当し、新しい提案引数と増減修正引数が含まれる。 双極的議論のための既存の段階的意味論を適応させ,提案する議論の弁別的強みを判定し,不合理な行動を定義する。 次に、合理的エージェントの個人予測から最終的なグループ予測を生成する単純な集約関数を与える。 本研究では,FAFの特性を同定し,参加者の予測精度を高めるためのFAFのポテンシャルを示す実験的な評価を行う。

We introduce Forecasting Argumentation Frameworks (FAFs), a novel argumentation-based methodology for forecasting informed by recent judgmental forecasting research. FAFs comprise update frameworks which empower (human or artificial) agents to argue over time about the probability of outcomes, e.g. the winner of a political election or a fluctuation in inflation rates, whilst flagging perceived irrationality in the agents' behaviour with a view to improving their forecasting accuracy. FAFs include five argument types, amounting to standard pro/con arguments, as in bipolar argumentation, as well as novel proposal arguments and increase/decrease amendment arguments. We adapt an existing gradual semantics for bipolar argumentation to determine the aggregated dialectical strength of proposal arguments and define irrational behaviour. We then give a simple aggregation function which produces a final group forecast from rational agents' individual forecasts. We identify and study properties of FAFs and conduct an empirical evaluation which signals FAFs' potential to increase the forecasting accuracy of participants.
翻訳日:2022-05-25 14:32:55 公開日:2022-05-23
# 境界ボックスアノテーションによるインスタンスセグメンテーショントレーニングセット作成の高速化

Accelerating the creation of instance segmentation training sets through bounding box annotation ( http://arxiv.org/abs/2205.11563v1 )

ライセンス: Link先を確認
Niels Sayez and Christophe De Vleeschouwer(参考訳) 特定のアプリケーションコンテキストでCNNをデプロイする場合、イメージアノテーションの収集は依然として大きな負担となる。 特に、アノテーションがオブジェクトインスタンスをカバーするバイナリマスクで構成されている場合です。 本研究は,(1)物体の極端点(最左端,最上端,最下端,最下端)を手動で定義し,オブジェクト境界ボックスを提供すること,(2)Deep Extreme Cutのような普遍的な自動セグメンテーションツールを用いて,限界点と一致するセグメンテーションマスクに変換すること,(3)予測マスクを手動で修正することを提案する。 次に、他のインスタンス境界ボックスとの重なり合いに基づいて、インスタンスマスクの修正が優先される場合や、部分的に注釈付きデータセットでトレーニングされたインスタンスセグメンテーションモデルの結果など、人手によるアノテーションリソースをバウンディングボックス定義とマスク修正のバランスをとるための様々な戦略が検討される。 本研究では,teamsport playerのセグメンテーションタスクを考察し,panoptic-deeplabインスタンスセグメンテーションモデルの精度がヒューマンアノテーションリソース割り当て戦略に依存するかを測定する。 極点の唯一の定義は、マスクが完全に手動で記述されたインスタンスによって定義された場合、最大10倍のリソースを必要とするモデル精度をもたらす。 より高い精度を目標とする場合、トレーニングセットインスタンス間でマスク補正を優先順位付けすると、同じトレーニングインスタンス分割モデルの精度で、インスタンスのフレーム補正による体系的なフレームに比べて最大80%の修正アノテーションリソースが節約される。

Collecting image annotations remains a significant burden when deploying CNN in a specific applicative context. This is especially the case when the annotation consists in binary masks covering object instances. Our work proposes to delineate instances in three steps, based on a semi-automatic approach: (1) the extreme points of an object (left-most, right-most, top, bottom pixels) are manually defined, thereby providing the object bounding-box, (2) a universal automatic segmentation tool like Deep Extreme Cut is used to turn the bounded object into a segmentation mask that matches the extreme points; and (3) the predicted mask is manually corrected. Various strategies are then investigated to balance the human manual annotation resources between bounding-box definition and mask correction, including when the correction of instance masks is prioritized based on their overlap with other instance bounding-boxes, or the outcome of an instance segmentation model trained on a partially annotated dataset. Our experimental study considers a teamsport player segmentation task, and measures how the accuracy of the Panoptic-Deeplab instance segmentation model depends on the human annotation resources allocation strategy. It reveals that the sole definition of extreme points results in a model accuracy that would require up to 10 times more resources if the masks were defined through fully manual delineation of instances. When targeting higher accuracies, prioritizing the mask correction among the training set instances is also shown to save up to 80\% of correction annotation resources compared to a systematic frame by frame correction of instances, for a same trained instance segmentation model accuracy.
翻訳日:2022-05-25 14:30:11 公開日:2022-05-23
# VPAIR - 大規模屋外環境における航空視覚的位置認識と位置認識

VPAIR -- Aerial Visual Place Recognition and Localization in Large-scale Outdoor Environments ( http://arxiv.org/abs/2205.11567v1 )

ライセンス: Link先を確認
Michael Schleiss, Fahmi Rouatbi, Daniel Cremers(参考訳) 視覚位置認識と視覚定位は、自動運転車のナビゲーションとマッピングにおいて必須の要素である。 最近の研究は、自動運転車や屋内スセナリオ、低高度ドローン飛行など、地上または地上の応用に重点を置いている。 しかし、Urban Air Mobilityのようなアプリケーションは、中から高高度の大規模屋外環境での運用を必要とする。 VPAIRという新しいデータセットを提示します。 このデータセットは、地上300メートル以上上空を飛行する軽航空機が、下向きのカメラで画像を撮影する様子が記録されている。 各画像は、密度深度情報と6-DoF参照ポーズを含む高解像度参照レンダリングとペアリングされる。 このデータセットは、都市、農地、森林など、様々なタイプの挑戦的な景観にまたがる、100km以上の長い軌跡をカバーしている。 このデータセットの実験は、平面内回転のような鳥の視界の変化によって引き起こされる課題を説明している。

Visual Place Recognition and Visual Localization are essential components in navigation and mapping for autonomous vehicles especially in GNSS-denied navigation scenarios. Recent work has focused on ground or close to ground applications such as self-driving cars or indoor-scenarios and low-altitude drone flights. However, applications such as Urban Air Mobility require operations in large-scale outdoor environments at medium to high altitudes. We present a new dataset named VPAIR. The dataset was recorded on board a light aircraft flying at an altitude of more than 300 meters above ground capturing images with a downwardfacing camera. Each image is paired with a high resolution reference render including dense depth information and 6-DoF reference poses. The dataset covers a more than one hundred kilometers long trajectory over various types of challenging landscapes, e.g. urban, farmland and forests. Experiments on this dataset illustrate the challenges introduced by the change in perspective to a bird's eye view such as in-plane rotations.
翻訳日:2022-05-25 14:29:35 公開日:2022-05-23
# 特徴距離損失による識別的特徴学習

Discriminative Feature Learning through Feature Distance Loss ( http://arxiv.org/abs/2205.11606v1 )

ライセンス: Link先を確認
Tobias Schlagenhauf, Yiwen Lin, Benjamin Noack(参考訳) 畳み込みニューラルネットワークは、画像認識タスクにおける識別的意味的特徴を学習する顕著な能力を示している。 しかし、分類では画像の特定の領域に集中することが多い。 本研究は,異種リッチベースモデルを組み合わせて,異なる画像領域に分類を集中させる新しい手法を提案する。 基本モデルのアンサンブルを訓練しながら特徴距離損失を実施し、識別的特徴概念を学習させる。 ベンチマーク畳み込みニューラルネットワーク(VGG16, ResNet, AlexNet)、一般的なデータセット(Cifar10, Cifar100, miniImageNet, NEU, BSD, TEX)、および異なるトレーニングサンプル(3, 5, 10, 20, 50, 100)による実験は、我々の手法の有効性と一般化能力を示している。 本手法は,基本モデルのアンサンブルバージョンを特徴的距離損失なく上回り,クラスアクティベーションマップは異なる識別的特徴概念を明示的に学習できることを証明している。

Convolutional neural networks have shown remarkable ability to learn discriminative semantic features in image recognition tasks. Though, for classification they often concentrate on specific regions in images. This work proposes a novel method that combines variant rich base models to concentrate on different important image regions for classification. A feature distance loss is implemented while training an ensemble of base models to force them to learn discriminative feature concepts. The experiments on benchmark convolutional neural networks (VGG16, ResNet, AlexNet), popular datasets (Cifar10, Cifar100, miniImageNet, NEU, BSD, TEX), and different training samples (3, 5, 10, 20, 50, 100 per class) show our methods effectiveness and generalization ability. Our method outperforms ensemble versions of the base models without feature distance loss, and the Class Activation Maps explicitly proves the ability to learn different discriminative feature concepts.
翻訳日:2022-05-25 14:29:21 公開日:2022-05-23
# TransforMatcher:意味的対応のためのMatch-to-Matchアテンション

TransforMatcher: Match-to-Match Attention for Semantic Correspondence ( http://arxiv.org/abs/2205.11634v1 )

ライセンス: Link先を確認
Seungwook Kim, Juhong Min, Minsu Cho(参考訳) 画像間の対応を確立することは、特に異なる視点やクラス内変異による大きな外観変化において、難しい課題である。 本研究では,視覚領域におけるトランスフォーマーネットワークの成功を基盤とした,強力なセマンティック画像マッチング学習システムであるTransforMatcherを紹介する。 既存の畳み込みや注意に基づく対応スキームとは異なり、TransforMatcherは、正確なマッチングローカライゼーションとダイナミックリファインメントのために、グローバルなマッチングアテンションを実行する。 密接な相関マップで大量のマッチングを扱うため、グローバルなマッチングとマッチングの相互作用を考えるために軽量な注意アーキテクチャを開発した。 また,多段階スコアを単一スコアではなく特徴として扱うことで,よりリッチな層間セマンティクスをフル活用するマルチチャネル相関マップを提案する。 実験では、TransforMatcherはSPair-71k上の新しい状態を設定し、PF-PASCALデータセット上の既存のSOTAメソッドと同等に実行する。

Establishing correspondences between images remains a challenging task, especially under large appearance changes due to different viewpoints or intra-class variations. In this work, we introduce a strong semantic image matching learner, dubbed TransforMatcher, which builds on the success of transformer networks in vision domains. Unlike existing convolution- or attention-based schemes for correspondence, TransforMatcher performs global match-to-match attention for precise match localization and dynamic refinement. To handle a large number of matches in a dense correlation map, we develop a light-weight attention architecture to consider the global match-to-match interactions. We also propose to utilize a multi-channel correlation map for refinement, treating the multi-level scores as features instead of a single score to fully exploit the richer layer-wise semantics. In experiments, TransforMatcher sets a new state of the art on SPair-71k while performing on par with existing SOTA methods on the PF-PASCAL dataset.
翻訳日:2022-05-25 14:29:02 公開日:2022-05-23
# u-netを用いた深層畳み込みニューラルネットワークによる心電図検出

Cardiomegaly Detection using Deep Convolutional Neural Network with U-Net ( http://arxiv.org/abs/2205.11515v1 )

ライセンス: Link先を確認
Soham S.Sarpotdar(参考訳) 心臓腫は、心臓が拡大する医療疾患である。 cardiomegalyは早期に捕まった場合の処理が良いため、早期検出が不可欠である。 胸部x線は、最もよく用いられるx線検査の1つで、何十年も人間の臓器の異常を検出し、可視化するために使われてきた。 x線はcardiomegalyの重要な医療診断ツールでもある。 ドメインの専門家でさえ、多くの種類の病気をx線と区別することは困難で時間がかかります。 ディープラーニングモデルは、巨大なデータセットで使用する場合でも最も効果的ですが、プライバシ上の懸念から、医療業界内で大きなデータセットが利用できることはめったにありません。 本研究では, 深層学習に基づく心内膜疾患検出のためのU-Netモデルを提案する。 トレーニング段階では、「ChestX-ray8」オープンソースリアルデータセットからの胸部X線画像を使用する。 計算時間を短縮するため、トレーニング段階に移行する前に、データ前処理、画像改善、画像圧縮、分類を行う。 この研究は胸部x線画像データセットを使用して、診断精度94%、感度96.2パーセント、特異性92.5パーセントをシミュレートし、診断精度を生み出した。

Cardiomegaly is indeed a medical disease in which the heart is enlarged. Cardiomegaly is better to handle if caught early, so early detection is critical. The chest X-ray, being one of the most often used radiography examinations, has been used to detect and visualize abnormalities of human organs for decades. X-ray is also a significant medical diagnosis tool for cardiomegaly. Even for domain experts, distinguishing the many types of diseases from the X-ray is a difficult and time-consuming task. Deep learning models are also most effective when used on huge data sets, yet due to privacy concerns, large datasets are rarely available inside the medical industry. A Deep learning-based customized retrained U-Net model for detecting Cardiomegaly disease is presented in this research. In the training phase, chest X-ray images from the "ChestX-ray8" open source real dataset are used. To reduce computing time, this model performs data preprocessing, picture improvement, image compression, and classification before moving on to the training step. The work used a chest x-ray image dataset to simulate and produced a diagnostic accuracy of 94%, a sensitivity of 96.2 percent, and a specificity of 92.5 percent, which beats prior pre-trained model findings for identifying Cardiomegaly disease.
翻訳日:2022-05-25 13:52:27 公開日:2022-05-23
# ニューラルマシン翻訳のブラックボックスオープンに向けて : トランスフォーマーのソースとターゲット解釈

Towards Opening the Black Box of Neural Machine Translation: Source and Target Interpretations of the Transformer ( http://arxiv.org/abs/2205.11631v1 )

ライセンス: Link先を確認
Javier Ferrando, Gerard I. G\'allego, Belen Alastruey, Carlos Escolano, Marta R. Costa-juss\`a(参考訳) ニューラルマシン翻訳(nmt)では、各トークン予測は、ソース文とターゲットプレフィックス(以前に復号化ステップで翻訳されたもの)で条件付けされる。 しかし、NMTにおける解釈可能性に関するこれまでの研究は、ソース文トークンの属性のみに焦点を当ててきた。 したがって、モデル予測における全ての入力トークン(ソース文とターゲットプレフィックス)の影響について完全には理解できない。 本研究では,完全な入力トークン帰属を追跡する解釈可能性手法を提案する。 提案手法は,任意のエンコーダデコーダトランスフォーマーモデルに拡張可能であり,現在のNTTモデルの内部動作をよりよく理解することができる。 提案手法をバイリンガルトランスフォーマーと多言語トランスフォーマーの両方に適用し,その動作について考察する。

In Neural Machine Translation (NMT), each token prediction is conditioned on the source sentence and the target prefix (what has been previously translated at a decoding step). However, previous work on interpretability in NMT has focused solely on source sentence tokens attributions. Therefore, we lack a full understanding of the influences of every input token (source sentence and target prefix) in the model predictions. In this work, we propose an interpretability method that tracks complete input token attributions. Our method, which can be extended to any encoder-decoder Transformer-based model, allows us to better comprehend the inner workings of current NMT models. We apply the proposed method to both bilingual and multilingual Transformers and present insights into their behaviour.
翻訳日:2022-05-25 13:51:25 公開日:2022-05-23
# 影響近似を用いたフェデレーション学習におけるプライバシー保護データフィルタリング

Privacy-preserving Data Filtering in Federated Learning Using Influence Approximation ( http://arxiv.org/abs/2205.11518v1 )

ライセンス: Link先を確認
Ljubomir Rokvic, Panayiotis Danassis, Boi Faltings(参考訳) 自然による連合学習は、学習モデルの質を著しく低下させる低品質、腐敗、さらには悪意のあるデータに影響を受けやすい。 データ評価の従来のテクニックは、データが明らかにされないため適用できない。 本稿では,プライバシ保存方式で実現可能な実用的影響近似に基づいて,データのフィルタリング,スコアリングを行う新しい手法を提案する。 各エージェントは自身のデータを使用して、他のエージェントのバッチの影響を評価し、差分プライバシーを使用して難解なスコアを中央に報告する。 本手法は, 実データを用いた各種アプリケーションにおいて, 破損したデータのフィルタリングをほぼ完璧に (>92\%$ recall) 行うことができる。 重要なことに、精度は著しく低下せず、特に誤ラベルされたデータの現実的なパーセンテージでは、非常に強力なプライバシー保証(\varepsilon \leq 1$)の下ではなおさらだ。

Federated Learning by nature is susceptible to low-quality, corrupted, or even malicious data that can severely degrade the quality of the learned model. Traditional techniques for data valuation cannot be applied as the data is never revealed. We present a novel technique for filtering, and scoring data based on a practical influence approximation that can be implemented in a privacy-preserving manner. Each agent uses his own data to evaluate the influence of another agent's batch, and reports to the center an obfuscated score using differential privacy. Our technique allows for almost perfect ($>92\%$ recall) filtering of corrupted data in a variety of applications using real-data. Importantly, the accuracy does not degrade significantly, even under really strong privacy guarantees ($\varepsilon \leq 1$), especially under realistic percentages of mislabeled data (for $15\%$ mislabeled data we only lose $10\%$ in accuracy).
翻訳日:2022-05-25 13:15:47 公開日:2022-05-23
# 低データレジームにおける非線形次元化のためのPCAブーストオートエンコーダ

PCA-Boosted Autoencoders for Nonlinear Dimensionality Reduction in Low Data Regimes ( http://arxiv.org/abs/2205.11673v1 )

ライセンス: Link先を確認
Muhammad Al-Digeil, Yuri Grinberg, Daniele Melati3, Mohsen Kamandar Dezfouli, Jens H. Schmid, Pavel Cheben, Siegfried Janz, and Dan-Xia Xu(参考訳) オートエンコーダ (AE) は非線形次元減少のための有用な方法であるが、低データ状態には不適である。 逆に、主成分分析(PCA)はデータ効率であるが、線形次元の減少に制限されており、データが固有の非線形性を示す場合に問題を引き起こす。 これはナノフォトニック・コンポーネントの設計のような様々な科学・工学分野における課題であり、データはコストがかかる実測値や偏微分方程式の資源消費の解から得られる非線形特徴を示す。 この課題に対処するために,PCAを活用して少ない非線形データで良好に動作させるオートエンコーダという,両世界の長所を利用する手法を提案する。 具体的には,パラメータ化されたreluアクティベーション関数と合わせて,正確なpcaソリューションからトレーニングプロセスを起動して改善できる,数値的にロバストなaeの初期化手法について概説する。 まず, データの非線形性とサイズが提案手法の性能に及ぼす影響について検討した。 次に,有用なデータを得るのに費用がかかるいくつかのナノフォトニクス設計問題について評価する。 普遍性を示すために、他の科学領域のタスクにも適用する: 乳がんのベンチマークデータセットと遺伝子発現データセット。 提案手法は,我々が検討している低データレジームケースの大部分において,pcaとランダム初期化aeのどちらよりもかなり優れていること,あるいは少なくとも他の2つの手法のベストに匹敵することを示す。

Autoencoders (AE) provide a useful method for nonlinear dimensionality reduction but are ill-suited for low data regimes. Conversely, Principal Component Analysis (PCA) is data-efficient but is limited to linear dimensionality reduction, posing a problem when data exhibits inherent nonlinearity. This presents a challenge in various scientific and engineering domains such as the nanophotonic component design, where data exhibits nonlinear features while being expensive to obtain due to costly real measurements or resource-consuming solutions of partial differential equations. To address this difficulty, we propose a technique that harnesses the best of both worlds: an autoencoder that leverages PCA to perform well on scarce nonlinear data. Specifically, we outline a numerically robust PCA-based initialization of AE, which, together with the parameterized ReLU activation function, allows the training process to start from an exact PCA solution and improve upon it. A synthetic example is presented first to study the effects of data nonlinearity and size on the performance of the proposed method. We then evaluate our method on several nanophotonic component design problems where obtaining useful data is expensive. To demonstrate universality, we also apply it to tasks in other scientific domains: a benchmark breast cancer dataset and a gene expression dataset. We show that our proposed approach is substantially better than both PCA and randomly initialized AE in the majority of low-data regime cases we consider, or at least is comparable to the best of either of the other two methods.
翻訳日:2022-05-25 12:55:42 公開日:2022-05-23
# uGLAD:ディープアンロールネットワークの最適化によるスパースグラフのリカバリ

uGLAD: Sparse graph recovery by optimizing deep unrolled networks ( http://arxiv.org/abs/2205.11610v1 )

ライセンス: Link先を確認
Harsh Shrivastava, Urszula Chajewska, Robin Abraham, Xinshi Chen(参考訳) 確率的グラフィカルモデル(Probabilistic Graphical Models、PGM)は、複雑なシステムの生成モデルである。 これらは変数間の条件付き独立性仮定に依存し、グラフの形式で視覚化できるスパース表現を学ぶ。 このようなモデルは、よく理解されていない領域におけるドメイン探索と構造発見に使用される。 本研究は,深層ネットワークを最適化してスパースグラフ復元を行う新しい手法を提案する。 入力データ $X\in\mathbb{R}^{M\times D}$ が基礎となる多変量ガウス分布から来ると仮定すると、X$ に深いモデルを適用して精度行列 $\Theta$ を出力する。 我々のモデルであるuGLADは、最先端モデルGLADを教師なし設定に構築し、拡張します。 モデルの主な利点は、(1)uGLADは、既存のアルゴリズムよりも優れた性能をもたらすスパーシティ関連正規化パラメータを自動的に最適化する。 2)マルチタスク学習に基づく「合意」戦略を導入し,教師なし環境での欠落データのロバスト処理について検討した。 我々は, 遺伝子調節ネットワークから生成した合成ガウスデータ, 非ガウスデータを用いて, モデル解析を行い, 嫌気性消化の事例研究を行った。

Probabilistic Graphical Models (PGMs) are generative models of complex systems. They rely on conditional independence assumptions between variables to learn sparse representations which can be visualized in a form of a graph. Such models are used for domain exploration and structure discovery in poorly understood domains. This work introduces a novel technique to perform sparse graph recovery by optimizing deep unrolled networks. Assuming that the input data $X\in\mathbb{R}^{M\times D}$ comes from an underlying multivariate Gaussian distribution, we apply a deep model on $X$ that outputs the precision matrix $\Theta$, which can also be interpreted as the adjacency matrix. Our model, uGLAD, builds upon and extends the state-of-the-art model GLAD to the unsupervised setting. The key benefits of our model are (1) uGLAD automatically optimizes sparsity-related regularization parameters leading to better performance than existing algorithms. (2) We introduce multi-task learning based `consensus' strategy for robust handling of missing data in an unsupervised setting. We evaluate model results on synthetic Gaussian data, non-Gaussian data generated from Gene Regulatory Networks, and present a case study in anaerobic digestion.
翻訳日:2022-05-25 12:51:23 公開日:2022-05-23
# Amortized Inferenceにおける一般化ギャップ

Generalization Gap in Amortized Inference ( http://arxiv.org/abs/2205.11640v1 )

ライセンス: Link先を確認
Mingtian Zhang and Peter Hayes and David Barber(参考訳) 確率に基づく確率モデルが非知覚データに一般化する能力は、ロスレス圧縮のような多くの機械学習アプリケーションの中心である。 本研究では,確率モデルの一般的なクラスである変分オートエンコーダ(VAE)の一般化について検討する。 VAEの一般化能力に影響を与える2つの一般化ギャップを指摘し、過度に適合する現象は通常、償却推論ネットワークに支配されていることを示す。 この観察に基づいて,古典的なwake-sleepアルゴリズムにインスパイアされた新しい学習目標を提案し,償却推論の一般化特性を改善する。 また,画像モデリングやロスレス圧縮の文脈において,一般化性能を向上できることを示す。

The ability of likelihood-based probabilistic models to generalize to unseen data is central to many machine learning applications such as lossless compression. In this work, we study the generalizations of a popular class of probabilistic models - the Variational Auto-Encoder (VAE). We point out the two generalization gaps that can affect the generalization ability of VAEs and show that the over-fitting phenomenon is usually dominated by the amortized inference network. Based on this observation we propose a new training objective, inspired by the classic wake-sleep algorithm, to improve the generalizations properties of amortized inference. We also demonstrate how it can improve generalization performance in the context of image modeling and lossless compression.
翻訳日:2022-05-25 12:51:01 公開日:2022-05-23
# 不均衡分類における最悪のクラスエラーを改善するスローウェイデータ

Throwing Away Data Improves Worst-Class Error in Imbalanced Classification ( http://arxiv.org/abs/2205.11672v1 )

ライセンス: Link先を確認
Martin Arjovsky, Kamalika Chaudhuri, David Lopez-Paz(参考訳) クラス不均衡は分類問題に浸透するが、その扱いは理論と実践で異なる。 一方, 学習理論では, サンプルサイズがデータ分布全体の平均テスト誤差と逆関係であることから, より優れたデータであることが示唆された。 その一方で,不均衡データよりも学習機の性能を向上させるためのトリックが長年開発されてきた。 その中には、データリウェイトとサブサンプリング、マイノリティクラスからのサンプルの合成構築、高価な1対逆アーキテクチャの組み立て、分類損失としきい値の調整が含まれる。 これらすべては、トレーニングデータの少数派グループと結びついている最悪のクラスエラーを最小限に抑え、ロバスト性、公正性、アウト・オブ・ディストリビューション文学にさらなる動機を見出す努力である。 ここでは,線形分離可能なデータに対する分類器の最悪クラス誤差を記述可能な学習理論の開発に挑戦する。 (i)フルトレーニングセット、又は (ii) 多数派クラスが少数派クラスのサイズに一致するようにサブサンプリングされたサブセット。 極限値理論のツールを借りて、特定の末尾特性を持つ分布の下では、ほとんどのデータを多数派クラスから引き離すと、より悪いクラスエラーになることを示す。

Class imbalances pervade classification problems, yet their treatment differs in theory and practice. On the one hand, learning theory instructs us that \emph{more data is better}, as sample size relates inversely to the average test error over the entire data distribution. On the other hand, practitioners have long developed a plethora of tricks to improve the performance of learning machines over imbalanced data. These include data reweighting and subsampling, synthetic construction of additional samples from minority classes, ensembling expensive one-versus all architectures, and tweaking classification losses and thresholds. All of these are efforts to minimize the worst-class error, which is often associated to the minority group in the training data, and finds additional motivation in the robustness, fairness, and out-of-distribution literatures. Here we take on the challenge of developing learning theory able to describe the worst-class error of classifiers over linearly-separable data when fitted either on (i) the full training set, or (ii) a subset where the majority class is subsampled to match in size the minority class. We borrow tools from extreme value theory to show that, under distributions with certain tail properties, \emph{throwing away most data from the majority class leads to better worst-class error}.
翻訳日:2022-05-25 12:50:50 公開日:2022-05-23
# 学習効率の良いCNNS:より軽量で高速でロバストなモデルのためのニューラルネットワークのNutとBolt

Training Efficient CNNS: Tweaking the Nuts and Bolts of Neural Networks for Lighter, Faster and Robust Models ( http://arxiv.org/abs/2205.12050v1 )

ライセンス: Link先を確認
Sabeesh Ethiraj, Bharath Kumar Bolla(参考訳) ディープラーニングは、コンピュータビジョン、自然言語理解、音声認識、情報検索などの分野に革命をもたらした。 過去10年間、モデルをより軽く、速く、より堅牢にし、より一般化した多くの技術が進化してきた。 しかし、多くのディープラーニング実践者は、Imagenet、MS-COCO、IMDB-Wiki Dataset、Kinetics-700といった標準データセットに基づいてトレーニングされた事前トレーニング済みのモデルやアーキテクチャを継続し、パフォーマンス向上につながるアーキテクチャをゼロから再設計することをためらうか知らない。 このシナリオは、モバイル、エッジ、フォグといったさまざまなデバイスで不適切な非効率なモデルにつながる。 さらに、これらの従来のトレーニング手法は、多くのコンピューティングパワーを消費するので懸念される。 本稿では,アーキテクチャの効率性(グローバル平均プーリング,奥行き方向の畳み込みとスクイーズと興奮,ぼやけプール),学習率(循環学習率),データ拡張(混合,カットアウト),ラベル操作(ラベル平滑化),重み空間操作(確率的重み平均化),オプティマイザ(シャープネス認識最小化)など)を扱う様々なsoma手法について検討する。 学習パラメータの数を順次削減し,上で述べた手法を用いて,効率的な深層畳み込みネットワークを段階的に構築できることを実証する。 cifar-10データセット上では,約1500パラメータのmnistデータに対してsoma精度99.2%,約140kパラメータの86.01%のsoma精度を達成した。

Deep Learning has revolutionized the fields of computer vision, natural language understanding, speech recognition, information retrieval and more. Many techniques have evolved over the past decade that made models lighter, faster, and robust with better generalization. However, many deep learning practitioners persist with pre-trained models and architectures trained mostly on standard datasets such as Imagenet, MS-COCO, IMDB-Wiki Dataset, and Kinetics-700 and are either hesitant or unaware of redesigning the architecture from scratch that will lead to better performance. This scenario leads to inefficient models that are not suitable on various devices such as mobile, edge, and fog. In addition, these conventional training methods are of concern as they consume a lot of computing power. In this paper, we revisit various SOTA techniques that deal with architecture efficiency (Global Average Pooling, depth-wise convolutions & squeeze and excitation, Blurpool), learning rate (Cyclical Learning Rate), data augmentation (Mixup, Cutout), label manipulation (label smoothing), weight space manipulation (stochastic weight averaging), and optimizer (sharpness aware minimization). We demonstrate how an efficient deep convolution network can be built in a phased manner by sequentially reducing the number of training parameters and using the techniques mentioned above. We achieved a SOTA accuracy of 99.2% on MNIST data with just 1500 parameters and an accuracy of 86.01% with just over 140K parameters on the CIFAR-10 dataset.
翻訳日:2022-05-25 12:34:03 公開日:2022-05-23
# 敵の攻撃を無視する学習

Learning to Ignore Adversarial Attacks ( http://arxiv.org/abs/2205.11551v1 )

ライセンス: Link先を確認
Yiming Zhang, Yangqiaoyu Zhou, Samuel Carton, Chenhao Tan(参考訳) 現在のNLPモデルの強力な性能にもかかわらず、敵攻撃に対して脆弱である。 敵の入力に対して効果的な学習を可能にするために,攻撃トークンを明示的に学習し無視できる合理的モデルを導入する。 合理的なモデルは攻撃トークンの90\%以上を無視することに成功した。 このアプローチは、BERTとRoBERTaの2つのデータセットに対して、ベースラインモデルの堅牢性において、一貫した大規模な改善($10\%)をもたらし、また、敵対的な例だけでデータ拡張を確実に上回る。 多くの場合,本手法では,クリーンなテストセットにおけるモデル性能と攻撃されたテストセットとのギャップを狭めることができ,敵の攻撃の影響を低減できることがわかった。

Despite the strong performance of current NLP models, they can be brittle against adversarial attacks. To enable effective learning against adversarial inputs, we introduce the use of rationale models that can explicitly learn to ignore attack tokens. We find that the rationale models can successfully ignore over 90\% of attack tokens. This approach leads to consistent sizable improvements ($\sim$10\%) over baseline models in robustness on three datasets for both BERT and RoBERTa, and also reliably outperforms data augmentation with adversarial examples alone. In many cases, we find that our method is able to close the gap between model performance on a clean test set and an attacked test set and hence reduce the effect of adversarial attacks.
翻訳日:2022-05-25 12:33:17 公開日:2022-05-23
# (参考訳) サーバ側情報を用いた個人化フェデレーション学習

Personalized Federated Learning with Server-Side Information ( http://arxiv.org/abs/2205.11044v1 )

ライセンス: CC BY 4.0
Jaehun Song, Min-hwan Oh, Hyung-Sin Kim(参考訳) パーソナライズ・フェデレーション・ラーニング(英: personalized federated learning, fl)は、flにおける新たな研究分野であり、クライアント間のデータの不均一性の存在下で、容易に適応可能なグローバルモデルを学ぶ。 しかし、パーソナライズされたFLの大きな課題の1つは、クライアントデータがサーバから分離されてプライバシが保証されるため、クライアントのコンピューティングリソースに依存して高階勾配を計算することである。 これを解決するため、我々は、サーバがクライアントのデータとは独立に独自のデータを持っているかもしれない問題設定にフォーカスします。 具体的には、このようなサーバデータを積極的に活用し、パーソナライズ性能を向上させるためにサーバのメタ勾配計算を改善する新しいパーソナライズfl手法であるfeedsimを提案する。 実験では,様々なベンチマークやアブレーションを通じて,fedsimが既存の手法よりも精度が優れており,サーバ全体のメタ勾配を計算することで計算効率が向上し,最大34.2%高速に収束することを示す。

Personalized Federated Learning (FL) is an emerging research field in FL that learns an easily adaptable global model in the presence of data heterogeneity among clients. However, one of the main challenges for personalized FL is the heavy reliance on clients' computing resources to calculate higher-order gradients since client data is segregated from the server to ensure privacy. To resolve this, we focus on a problem setting where the server may possess its own data independent of clients' data -- a prevalent problem setting in various applications, yet relatively unexplored in existing literature. Specifically, we propose FedSIM, a new method for personalized FL that actively utilizes such server data to improve meta-gradient calculation in the server for increased personalization performance. Experimentally, we demonstrate through various benchmarks and ablations that FedSIM is superior to existing methods in terms of accuracy, more computationally efficient by calculating the full meta-gradients in the server, and converges up to 34.2% faster.
翻訳日:2022-05-25 12:28:10 公開日:2022-05-23
# (参考訳) TempLM: テンプレートベースのジェネレータに言語モデルを蒸留する

TempLM: Distilling Language Models into Template-Based Generators ( http://arxiv.org/abs/2205.11055v1 )

ライセンス: CC BY 4.0
Tianyi Zhang, Mina Lee, Lisa Li, Ende Shen, Tatsunori B. Hashimoto(参考訳) 事前学習された言語モデル(plm)はテキスト生成を大幅に改善しているが、不適切なコンテンツを生成することも知られている。 対照的に、古典的なテンプレートベースのシステムは、流布コストによる忠実性の強い保証を提供する。 本研究では,PLMをテンプレートベースジェネレータに蒸留することにより,両方の世界を最大限に活用するTempLMを提案する。 E2E と SynthBio のデータテキストデータセットでは、TempLM はオリジナルの PLM よりも忠実であり、以前のテンプレートシステムよりも流動的であることを示す。 特に、ドメイン外評価において、TempLMは微調整されたBARTモデルの不信度率を83%から0%に下げる。 人間による研究では、BERTScoreにおけるTempLMのテンプレートは、人書きのテンプレートよりも大幅に改善されている。

While pretrained language models (PLMs) have greatly improved text generation, they have also been known to produce unfaithful or inappropriate content. In contrast, classic template-based systems provide strong guarantees of faithfulness at the cost of fluency. We propose TempLM, which achieves the best of both worlds by distilling a PLM into a template-based generator. On the E2E and SynthBio data-to-text datasets, we show that TempLM is more faithful than the original PLM and is more fluent than prior template systems. Notably, on an out-of-domain evaluation, TempLM reduces a finetuned BART model's unfaithfulness rate from 83% to 0%. In a human study, we find that TempLM's templates substantially improve upon human-written ones in BERTScore.
翻訳日:2022-05-25 12:02:07 公開日:2022-05-23
# (参考訳) ディープラーニングと機械学習を用いたYouTube Ad View Sentiment Analysis

YouTube Ad View Sentiment Analysis using Deep Learning and Machine Learning ( http://arxiv.org/abs/2205.11082v1 )

ライセンス: CC BY 4.0
Tanvi Mehta, Ganesh Deshmukh(参考訳) 感情分析は現在、重要な研究分野である。 インターネットの利用の進歩に伴い、ソーシャルメディア、ウェブサイト、ブログ、意見、格付けなどの開発が急速に進んでいる。 人々は、likes、likes、likes、コメントなどの形で、ソーシャルメディア投稿にフィードバックや感情を表現します。 youtube上の視聴者生成データやユーザー生成データやコンテンツの急速な増加は、youtubeの感情分析の増加につながった。 このため、技術領域における情報抽出とデータの可視化には、公開反応の分析が不可欠である。 本研究では,Linear Regression (LR), Support Vector Machine (SVM), Decision Tree (DT), Random Forest (RF), Artificial Neural Network (ANN)などのディープラーニングと機械学習アルゴリズムを用いて,YouTube Ad Viewの感情を予測する。 最後に、異なるモデルから得られた実験結果に基づいて比較分析を行う。

Sentiment Analysis is currently a vital area of research. With the advancement in the use of the internet, the creation of social media, websites, blogs, opinions, ratings, etc. has increased rapidly. People express their feedback and emotions on social media posts in the form of likes, dislikes, comments, etc. The rapid growth in the volume of viewer-generated or user-generated data or content on YouTube has led to an increase in YouTube sentiment analysis. Due to this, analyzing the public reactions has become an essential need for information extraction and data visualization in the technical domain. This research predicts YouTube Ad view sentiments using Deep Learning and Machine Learning algorithms like Linear Regression (LR), Support Vector Machine (SVM), Decision Tree (DT), Random Forest (RF), and Artificial Neural Network (ANN). Finally, a comparative analysis is done based on experimental results acquired from different models.
翻訳日:2022-05-25 11:39:42 公開日:2022-05-23
# (参考訳) 第17回acl2定理証明国際ワークショップとその応用

Proceedings Seventeenth International Workshop on the ACL2 Theorem Prover and its Applications ( http://arxiv.org/abs/2205.11103v1 )

ライセンス: CC BY 4.0
Rob Sumners (Intel Corporation), Cuong Chau (ARM, Inc.)(参考訳) この巻は17th International Workshop on the ACL2 Theorem Prover and its Applications (ACL2 2022)で発表された論文を含む。 ワークショップはACL2に関する研究と経験を発表するための主要な技術フォーラムである。

This volume contains a selection of papers presented at the 17th International Workshop on the ACL2 Theorem Prover and its Applications (ACL2 2022). The workshops are the premier technical forum for presenting research and experiences related to ACL2.
翻訳日:2022-05-25 11:34:37 公開日:2022-05-23
# (参考訳) 再帰的近位政策最適化の一般化と限界

Generalization, Mayhems and Limits in Recurrent Proximal Policy Optimization ( http://arxiv.org/abs/2205.11104v1 )

ライセンス: CC BY 4.0
Marco Pleines, Matthias Pallasch, Frank Zimmer, Mike Preuss(参考訳) 一見すると、エージェントが部分的に観察可能な環境の設定でメモリを利用することができるように、深層強化学習アルゴリズムでリカレントなレイヤを使用するのは簡単であるように思える。 ppo(proximal policy optimization)から始め、ニューラルネットワークのフォワードパスを適切に整形し、トレーニングデータをアレンジし、シーケンス開始のための隠れた状態を選択し、損失計算のためにマスキングパディングを行う。 我々は, エージェントの記憶に挑戦する新たな環境であるモルタル・メイヘムとシーリング・スポットライトのベンチマークにより, 反復的ppoの限界をさらに探究する。 注目すべきは、トレーニング種子の数をスケールする際、Mortar Mayhemの強い一般化への移行を示すことができる一方で、エージェントはシーリングスポットライトで成功しないことだ。

At first sight it may seem straightforward to use recurrent layers in Deep Reinforcement Learning algorithms to enable agents to make use of memory in the setting of partially observable environments. Starting from widely used Proximal Policy Optimization (PPO), we highlight vital details that one must get right when adding recurrence to achieve a correct and efficient implementation, namely: properly shaping the neural net's forward pass, arranging the training data, correspondingly selecting hidden states for sequence beginnings and masking paddings for loss computation. We further explore the limitations of recurrent PPO by benchmarking the contributed novel environments Mortar Mayhem and Searing Spotlights that challenge the agent's memory beyond solely capacity and distraction tasks. Remarkably, we can demonstrate a transition to strong generalization in Mortar Mayhem when scaling the number of training seeds, while the agent does not succeed on Searing Spotlights, which seems to be a tough challenge for memory-based agents.
翻訳日:2022-05-25 11:33:52 公開日:2022-05-23
# (参考訳) 治療効果推定のための改良型ニューラルネットワークモデル

An improved neural network model for treatment effect estimation ( http://arxiv.org/abs/2205.11106v1 )

ライセンス: CC BY 4.0
Niki Kiriakidou and Christos Diou(参考訳) 現在、多くの科学・産業分野において、治療効果を推定し、因果的疑問に答える必要性が高まっている。 これらの問題に対処する鍵は、豊富な観測データと、このデータを活用するプロセスである。 本研究では,ニューラルネットワークアーキテクチャに基づく潜在的結果と妥当性スコアを予測するための新しいモデルを提案する。 提案モデルでは,学習データにおける共変量および隣接インスタンスの結果を利用する。 数値実験により,提案モデルが最先端モデルと比較して処理効果推定性能が良好であることが判明した。

Nowadays, in many scientific and industrial fields there is an increasing need for estimating treatment effects and answering causal questions. The key for addressing these problems is the wealth of observational data and the processes for leveraging this data. In this work, we propose a new model for predicting the potential outcomes and the propensity score, which is based on a neural network architecture. The proposed model exploits the covariates as well as the outcomes of neighboring instances in training data. Numerical experiments illustrate that the proposed model reports better treatment effect estimation performance compared to state-of-the-art models.
翻訳日:2022-05-25 11:11:49 公開日:2022-05-23
# (参考訳) 水田医師:水田病の分類のための画像データセット

Paddy Doctor: A Visual Image Dataset for Paddy Disease Classification ( http://arxiv.org/abs/2205.11108v1 )

ライセンス: CC BY-SA 4.0
Petchiammal A, Briskline Kiruba S, D. Murugan, Pandarasamy A(参考訳) 水稲農家が直面する重要な生物学的ストレス要因の1つは、細菌、菌類、その他の生物による病気である。 これらの病気は植物の健康に悪影響を及ぼし、作物を著しく損なう。 これらの疾患のほとんどは、専門家の監督の下で定期的に葉や茎を観察することで識別することができる。 広大な農業地帯と限られた作物保護の専門家を持つ国では、水田病の手動識別が困難である。 したがって、この問題に解決策を加えるためには、病気の特定プロセスの自動化と、効果的な作物保護対策を実現するための容易な意思決定支援ツールの提供が必要である。 しかし, 詳細な疾患情報を含む公開データセットの不足は, 正確な疾患検出システムの実践的実装を制限している。 本稿では,水田病を識別するための画像データセットであるpaddy doctorを提案する。 本データセットは10クラス(9つの疾患と正常な葉)に13,876点の注釈付き水田葉画像を含む。 我々は、畳み込みニューラルネットワーク(CNN)とVGG16とMobileNetの2つの移行学習アプローチを用いて、パディドクターをベンチマークした。 実験の結果,MobileNetの分類精度は93.83\%であった。 コミュニティ向けのデータセットと再現可能なコードをオープンソースでリリースしています。

One of the critical biotic stress factors paddy farmers face is diseases caused by bacteria, fungi, and other organisms. These diseases affect plants' health severely and lead to significant crop loss. Most of these diseases can be identified by regularly observing the leaves and stems under expert supervision. In a country with vast agricultural regions and limited crop protection experts, manual identification of paddy diseases is challenging. Thus, to add a solution to this problem, it is necessary to automate the disease identification process and provide easily accessible decision support tools to enable effective crop protection measures. However, the lack of availability of public datasets with detailed disease information limits the practical implementation of accurate disease detection systems. This paper presents Paddy Doctor, a visual image dataset for identifying paddy diseases. Our dataset contains 13,876 annotated paddy leaf images across ten classes (nine diseases and normal leaf). We benchmarked the Paddy Doctor using a Convolutional Neural Network (CNN) and two transfer learning approaches, VGG16 and MobileNet. The experimental results show that MobileNet achieves the highest classification accuracy of 93.83\%. We release our dataset and reproducible code in the open source for community use.
翻訳日:2022-05-25 11:02:40 公開日:2022-05-23
# (参考訳) dtu-net: 線形構造分割のための学習トポロジカル類似性

DTU-Net: Learning Topological Similarity for Curvilinear Structure Segmentation ( http://arxiv.org/abs/2205.11115v1 )

ライセンス: CC BY 4.0
Manxi Lin, Zahra Bashir, Martin Gr{\o}nneb{\ae}k Tolsgaard, Anders Nymark Christensen, Aasa Feragen(参考訳) 曲線構造セグメンテーションは多くの応用において重要な役割を果たす。 ピクセル単位の分類としてのセグメンテーションの標準的な定式化は、小さいサイズと低いコントラストのため、しばしばこれらの構造を捉えることに失敗する。 いくつかの作品では、高価な計算コストと余分なラベルの必要性でこの問題に対処するために、事前トポロジカル情報を導入する。 さらに、以前の作業は、小さなギャップの接続を奨励することで、誤った分割を避けることに重点を置いている。 ミススプリットを避けるためにあまり注意が払われていない、すなわち画像に見えない構造の誤った推論である。 本稿では,2つの重み付きU-Net(テクスチャネット)とトポロジーネット(トポロジーネット)からなる,デュアルデコーダとトポロジー対応のディープニューラルネットワークDTU-Netを提案する。 テクスチャネットは、画像テクスチャ情報を用いて粗い予測を行う。 トポロジネットは、誤りや失敗を認識させるために訓練された三重項損失を用いて粗い予測からトポロジ情報を学習し、フォアグラウンドとバックグラウンドをトポロジ対応で分離する。 さらに分離を利用して粗い予測を補正する。 道路抽出のための複数クラス超音波スキャンセグメンテーションデータセットとオープンデータセットについて実験を行った。 その結果,本モデルはセグメンテーション精度と連続性を両立できることがわかった。 既存の手法と比較して,偽陽性例と偽陰性例の両方を,事前知識を必要とせず効果的に修正する。

Curvilinear structure segmentation plays an important role in many applications. The standard formulation of segmentation as pixel-wise classification often fails to capture these structures due to the small size and low contrast. Some works introduce prior topological information to address this problem with the cost of expensive computations and the need for extra labels. Moreover, prior work primarily focuses on avoiding false splits by encouraging the connection of small gaps. Less attention has been given to avoiding missed splits, namely the incorrect inference of structures that are not visible in the image. In this paper, we present DTU-Net, a dual-decoder and topology-aware deep neural network consisting of two sequential light-weight U-Nets, namely a texture net, and a topology net. The texture net makes a coarse prediction using image texture information. The topology net learns topological information from the coarse prediction by employing a triplet loss trained to recognize false and missed splits, and provides a topology-aware separation of the foreground and background. The separation is further utilized to correct the coarse prediction. We conducted experiments on a challenging multi-class ultrasound scan segmentation dataset and an open dataset for road extraction. Results show that our model achieves state-of-the-art results in both segmentation accuracy and continuity. Compared to existing methods, our model corrects both false positive and false negative examples more effectively with no need for prior knowledge.
翻訳日:2022-05-25 10:57:22 公開日:2022-05-23
# (参考訳) ConvPoseCNN2:Dense 6D Object Posesの予測と再定義

ConvPoseCNN2: Prediction and Refinement of Dense 6D Object Poses ( http://arxiv.org/abs/2205.11124v1 )

ライセンス: CC BY 4.0
Arul Selvam Periyasamy, Catherine Capellen, Max Schwarz, and Sven Behnke(参考訳) オブジェクトのポーズ推定はロボット工学における重要な知覚能力である。 本稿では,オブジェクトの翻訳と向きを密に予測するPoseCNN法の完全畳み込み拡張を提案する。 これには、高度に散らばった配置に有用な方向予測の空間解像度の改善、完全な接続を避けることでパラメータの大幅な削減、高速推論など、いくつかの利点がある。 平均化やクラスタリングなど,処理後のステップとして適用可能な高密度配向予測のためのいくつかのアグリゲーション手法を提案し,議論する。 提案手法は,YCB-Videoデータセット上でPoseCNNと同じ精度を達成し,提案手法のいくつかの変種について詳細なアブレーション研究を行う。 最後に,ネットワークの中央に反復改良モジュールを挿入することで,予測の一貫性を強制することで,モデルをさらに改善できることを実証する。

Object pose estimation is a key perceptual capability in robotics. We propose a fully-convolutional extension of the PoseCNN method, which densely predicts object translations and orientations. This has several advantages such as improving the spatial resolution of the orientation predictions -- useful in highly-cluttered arrangements, significant reduction in parameters by avoiding full connectivity, and fast inference. We propose and discuss several aggregation methods for dense orientation predictions that can be applied as a post-processing step, such as averaging and clustering techniques. We demonstrate that our method achieves the same accuracy as PoseCNN on the challenging YCB-Video dataset and provide a detailed ablation study of several variants of our method. Finally, we demonstrate that the model can be further improved by inserting an iterative refinement module into the middle of the network, which enforces consistency of the prediction.
翻訳日:2022-05-25 10:42:57 公開日:2022-05-23
# (参考訳) 公正なレコメンダシステムに関する研究

A Survey of Research on Fair Recommender Systems ( http://arxiv.org/abs/2205.11127v1 )

ライセンス: CC BY 4.0
Yashar Deldjoo, Dietmar Jannach, Alejandro Bellogin, Alessandro Diffonzo, Dario Zanzonelli(参考訳) リコメンダーシステムは、オンラインで見る情報、例えばソーシャルメディアに強く影響を与え、それによって私たちの信念、決定、行動に影響を与える。 同時に、これらのシステムは異なる利害関係者にとって実質的なビジネス価値を生み出すことができる。 このようなAIベースのシステムが個人、組織、社会に与える影響が増加する中、公平性に関する疑問が近年注目を集めている。 しかし、レコメンデーションシステムにおける公正性の研究はまだ発展途上である。 本研究は,近年,この地域で展開された公平性の基本概念と概念を初めて概観する。 その後, 一般研究方法論, 公平度指標, アルゴリズム的アプローチといった観点から, この分野の研究が現在どのように運用されているかの調査を行う。 全体として、最近の研究の分析は、ある研究のギャップを示している。 特に、計算機科学における多くの研究において、非常に抽象的な問題操作が一般的であり、与えられたアプリケーションのコンテキストにおける公正な勧告を表すものの基本的かつ重要な問題を回避することができる。

Recommender systems can strongly influence which information we see online, e.g, on social media, and thus impact our beliefs, decisions, and actions. At the same time, these systems can create substantial business value for different stakeholders. Given the growing potential impact of such AI-based systems on individuals, organizations, and society, questions of fairness have gained increased attention in recent years. However, research on fairness in recommender systems is still a developing area. In this survey, we first review the fundamental concepts and notions of fairness that were put forward in the area in the recent past. Afterward, we provide a survey of how research in this area is currently operationalized, for example, in terms of the general research methodology, fairness metrics, and algorithmic approaches. Overall, our analysis of recent works points to certain research gaps. In particular, we find that in many research works in computer science very abstract problem operationalizations are prevalent, which circumvent the fundamental and important question of what represents a fair recommendation in the context of a given application.
翻訳日:2022-05-25 10:29:09 公開日:2022-05-23
# (参考訳) OPQ: ワンショットプルーニング量子化によるディープニューラルネットワーク圧縮

OPQ: Compressing Deep Neural Networks with One-shot Pruning-Quantization ( http://arxiv.org/abs/2205.11141v1 )

ライセンス: CC BY 4.0
Peng Hu, Xi Peng, Hongyuan Zhu, Mohamed M. Sabry Aly, Jie Lin(参考訳) ディープニューラルネットワーク(DNN)は通常、過パラメータ化され、数百万の重みパラメータを持つため、これらの大きなDNNモデルを、例えばスマートフォンのようなリソース制約のあるハードウェアプラットフォームにデプロイすることは困難である。 各層の適切な圧縮割り当て(例えば、pruning sparsity と quantization codebook)を見つけることが鍵となるモデルサイズを大幅に削減するために、pruning や quantization のような多くのネットワーク圧縮手法が提案されている。 既存の解は圧縮モデルを微調整しながら反復的/連続的に圧縮割り当てを得るため、効率の問題に苦しむ。 従来の手法と異なり,本論文では,事前学習した重みパラメータによる圧縮割り当てを解析的に解決するワンショットプルーニング量子化法(OPQ)を提案する。 微調整中、圧縮モジュールは固定され、重みパラメータのみが更新される。 我々の知る限り、OPQは、微調整段階において複雑な反復/手動の最適化を伴わずに、プルーニングと量子化を同時に解くのに十分な事前学習モデルを明らかにする最初の研究である。 さらに,従来のチャネルワイド量子化によるオーバーヘッドを伴わずに,各レイヤのすべてのチャネルに共通コードブックを共有するように強制する統一チャネルワイド量子化手法を提案する。 AlexNet/MobileNet-V1/ResNet-50 を用いた ImageNet の総合的な実験により,提案手法は精度と訓練効率を向上するとともに,最先端技術と比較して大幅に高い圧縮速度が得られることを示した。

As Deep Neural Networks (DNNs) usually are overparameterized and have millions of weight parameters, it is challenging to deploy these large DNN models on resource-constrained hardware platforms, e.g., smartphones. Numerous network compression methods such as pruning and quantization are proposed to reduce the model size significantly, of which the key is to find suitable compression allocation (e.g., pruning sparsity and quantization codebook) of each layer. Existing solutions obtain the compression allocation in an iterative/manual fashion while finetuning the compressed model, thus suffering from the efficiency issue. Different from the prior art, we propose a novel One-shot Pruning-Quantization (OPQ) in this paper, which analytically solves the compression allocation with pre-trained weight parameters only. During finetuning, the compression module is fixed and only weight parameters are updated. To our knowledge, OPQ is the first work that reveals pre-trained model is sufficient for solving pruning and quantization simultaneously, without any complex iterative/manual optimization at the finetuning stage. Furthermore, we propose a unified channel-wise quantization method that enforces all channels of each layer to share a common codebook, which leads to low bit-rate allocation without introducing extra overhead brought by traditional channel-wise quantization. Comprehensive experiments on ImageNet with AlexNet/MobileNet-V1/ResNet-50 show that our method improves accuracy and training efficiency while obtains significantly higher compression rates compared to the state-of-the-art.
翻訳日:2022-05-25 10:28:09 公開日:2022-05-23
# (参考訳) ベイズ型ニューラルネットワークにおける分割個性:完全辺縁化の場合

Split personalities in Bayesian Neural Networks: the case for full marginalisation ( http://arxiv.org/abs/2205.11151v1 )

ライセンス: CC BY 4.0
David Yallup, Will Handley, Mike Hobson, Anthony Lasenby, Pablo Lemos(参考訳) ベイズ型ニューラルネットワークの真の後方分布は、非常に多様である。 これらのモードのほとんどは機能的に等価であるが、最も単純なニューラルネットワークのセットアップでさえも、実際のマルチモーダリティのレベルが残っていることを実証する。 ネットワークの分割されたパーソナリティをキャプチャできる適切なベイズサンプリングツールを使用して、すべての後部モードを完全に切り離すだけでよい。 この方法でトレーニングされた複数の候補解間の推論能力は、モデルの一般化性を劇的に改善するが、ベイズニューラルネットワークのトレーニングに対する代替アプローチによって、我々が主張する特徴は一貫して捉えられていない。 ベイズニューラルネットワークの説明可能性と解釈性を正しく活用するための教訓と今後の道筋を提供するための、簡潔な最小限の例を提供する。

The true posterior distribution of a Bayesian neural network is massively multimodal. Whilst most of these modes are functionally equivalent, we demonstrate that there remains a level of real multimodality that manifests in even the simplest neural network setups. It is only by fully marginalising over all posterior modes, using appropriate Bayesian sampling tools, that we can capture the split personalities of the network. The ability of a network trained in this manner to reason between multiple candidate solutions dramatically improves the generalisability of the model, a feature we contend is not consistently captured by alternative approaches to the training of Bayesian neural networks. We provide a concise minimal example of this, which can provide lessons and a future path forward for correctly utilising the explainability and interpretability of Bayesian neural networks.
翻訳日:2022-05-25 10:11:56 公開日:2022-05-23
# (参考訳) 言語間の生涯学習

Cross-lingual Lifelong Learning ( http://arxiv.org/abs/2205.11152v1 )

ライセンス: CC BY 4.0
Meryem M'hamdi, Xiang Ren, and Jonathan May(参考訳) 多言語学習の長年の目標は、多言語データ分布の変化に耐えられる普遍的な言語横断モデルを開発することである。 しかし、ほとんどの既存モデルは、事前にターゲット言語への完全なアクセスを前提としているが、現実のシナリオでは、後から新しい言語を組み込むことができるため、これは必ずしもそうではない。 本稿では,言語間生涯学習(cross-lingual lifelong learning, cll)の課題について述べる。 マルチリンガルなシーケンシャルな学習を特に難しいものにするための洞察を提供する。 このような課題を克服するために,言語間連続学習アルゴリズムの代表的なセットをベンチマークし,注意深く収集されたデータストリームのベースラインと比較して,その知識の保存,蓄積,一般化能力を分析する。 この分析の意味は、従来の転帰学習を超越した、異なる言語間連続学習デシダラタ間の測定とバランスの方法のレシピを含む。

The longstanding goal of multi-lingual learning has been to develop a universal cross-lingual model that can withstand the changes in multi-lingual data distributions. However, most existing models assume full access to the target languages in advance, whereas in realistic scenarios this is not often the case, as new languages can be incorporated later on. In this paper, we present the Cross-lingual Lifelong Learning (CLL) challenge, where a model is continually fine-tuned to adapt to emerging data from different languages. We provide insights into what makes multilingual sequential learning particularly challenging. To surmount such challenges, we benchmark a representative set of cross-lingual continual learning algorithms and analyze their knowledge preservation, accumulation, and generalization capabilities compared to baselines on carefully curated datastreams. The implications of this analysis include a recipe for how to measure and balance between different cross-lingual continual learning desiderata, which goes beyond conventional transfer learning.
翻訳日:2022-05-25 10:01:37 公開日:2022-05-23
# (参考訳) RuNNE-2022 共有タスク: ネストされた名前付きエンティティを認識する

RuNNE-2022 Shared Task: Recognizing Nested Named Entities ( http://arxiv.org/abs/2205.11159v1 )

ライセンス: CC BY 4.0
Ekaterina Artemova, Maxim Zmeev, Natalia Loukachevitch, Igor Rozhkov, Tatiana Batura, Vladimir Ivanov, Elena Tutubalina(参考訳) RuNNE Shared Taskはネストされた名前付きエンティティ認識の問題にアプローチする。 アノテーションスキーマは、エンティティが部分的に重複したり、別のエンティティにネストされるような方法で設計されます。 このようにして、タイプ「組織」の「イヤーモロヴァ劇場」はタイプ「人」の別の実体「イヤーモロヴァ」を収容する。 ロシアのNERELデータセットをRuNNE共有タスクに適用する。 NERELはロシア語で書かれたニューステキストをWikinewsポータルから収集する。 アノテーションスキーマは29のエンティティタイプを含む。 NERELの命名されたエンティティのネストネスは最大6レベルに達する。 RuNNE Shared Taskは2つの設定を探索する。 (i)一般的な設定では、すべてのエンティティは同じ頻度で多かれ少なかれ発生する。 (ii) 少数の設定では、エンティティ型の大部分はトレーニングセットで頻繁に発生する。 しかしながら、いくつかのエンティティタイプは周波数が低く、認識するのが困難である。 テストセットでは、すべてのエンティティタイプの頻度は偶数である。 本稿では,RuNNE共有タスクの結果について報告する。 全体として、共有タスクは9チームから156の応募を受けた。 投稿の半数は、BERTベースのベースラインを両方の設定で上回っている。 本稿では,共有タスク設定の概要と提案システムについて論じ,ネストされたNER問題に対する意味的洞察を明らかにする。 評価プラットフォームへのリンクと共有タスクからのデータは、githubリポジトリで利用可能です。

The RuNNE Shared Task approaches the problem of nested named entity recognition. The annotation schema is designed in such a way, that an entity may partially overlap or even be nested into another entity. This way, the named entity "The Yermolova Theatre" of type "organization" houses another entity "Yermolova" of type "person". We adopt the Russian NEREL dataset for the RuNNE Shared Task. NEREL comprises news texts written in the Russian language and collected from the Wikinews portal. The annotation schema includes 29 entity types. The nestedness of named entities in NEREL reaches up to six levels. The RuNNE Shared Task explores two setups. (i) In the general setup all entities occur more or less with the same frequency. (ii) In the few-shot setup the majority of entity types occur often in the training set. However, some of the entity types are have lower frequency, being thus challenging to recognize. In the test set the frequency of all entity types is even. This paper reports on the results of the RuNNE Shared Task. Overall the shared task has received 156 submissions from nine teams. Half of the submissions outperform a straightforward BERT-based baseline in both setups. This paper overviews the shared task setup and discusses the submitted systems, discovering meaning insights for the problem of nested NER. The links to the evaluation platform and the data from the shared task are available in our github repository: https://github.com/dialogue-evaluation/RuNNE.
翻訳日:2022-05-25 09:35:29 公開日:2022-05-23
# (参考訳) スペクトルグラフニューラルネットワークはいかに強力か

How Powerful are Spectral Graph Neural Networks ( http://arxiv.org/abs/2205.11172v1 )

ライセンス: CC BY 4.0
Xiyuan Wang, Muhan Zhang(参考訳) スペクトルグラフニューラルネットワーク(Spectral Graph Neural Network)は、グラフ信号フィルタに基づくグラフニューラルネットワーク(GNN)の一種で、任意のスペクトルフィルタを学習できるモデルが最近出現している。 しかし、スペクトルGNNの表現力を分析する研究はほとんどない。 本稿では,GNNの表現力を理論的に研究する。 まず、非線形性のないスペクトルGNNでさえ任意のグラフ信号を生成し、普遍性に到達するための2つの条件を与えることを証明した。 その通りです 1)グラフラプラシアンの多重固有値がなく、 2)ノードの特徴に欠落する周波数成分はない。 また、スペクトルgnnの表現力と、空間gnnの表現力を表すためによく用いられるグラフ同型(gi)テストとの関係も確立する。 さらに、最適化の観点から、同じ表現力を持つ異なるスペクトルGNN間の経験的性能の差について検討し、重み関数がスペクトルのグラフ信号密度に対応する直交基底の使用を動機づける。 解析に着想を得たjacobiconvは,多岐にわたる重み関数に適応するための直交性と柔軟性のためにヤコビ多項式基底を用いる。 JacobiConvは、合成データセットと実世界のデータセットの両方で全てのベースラインを上回りながら、非線形性を放棄する。

Spectral Graph Neural Network is a kind of Graph Neural Network (GNN) based on graph signal filters, and some models able to learn arbitrary spectral filters have emerged recently. However, few works analyze the expressive power of spectral GNNs. This paper studies spectral GNNs' expressive power theoretically. We first prove that even spectral GNNs without nonlinearity can produce arbitrary graph signals and give two conditions for reaching universality. They are: 1) no multiple eigenvalues of graph Laplacian, and 2) no missing frequency components in node features. We also establish a connection between the expressive power of spectral GNNs and Graph Isomorphism (GI) testing which is often used to characterize spatial GNNs' expressive power. Moreover, we study the difference in empirical performance among different spectral GNNs with the same expressive power from an optimization perspective, and motivate the use of an orthogonal basis whose weight function corresponds to the graph signal density in the spectrum. Inspired by the analysis, we propose JacobiConv, which uses Jacobi polynomial basis due to their orthogonality and flexibility to adapt to a wide range of weight functions. JacobiConv deserts nonlinearity while outperforming all baselines on both synthetic and real-world datasets.
翻訳日:2022-05-25 09:24:58 公開日:2022-05-23
# (参考訳) オントロジー推論を用いたUMLクラス、オブジェクトおよびステートチャート図の一貫性

Consistency of UML class, object and statechart diagrams using ontology reasoners ( http://arxiv.org/abs/2205.11177v1 )

ライセンス: CC0 1.0
Ali Hanzala Khan, Ivan Porres(参考訳) Web Ontology Language OWL 2の論理推論器を用いて、複数のクラス、オブジェクト、ステートチャート図を含む統一モデリング言語UMLモデルの一貫性と満足度を自動解析する手法を提案する。 OWL 2でUMLモデルを変換する方法を説明し、標準準拠のUMLモデリングツールで使用可能な、この翻訳を実装するツールチェーンを提案する。 提案手法はスコープに制限があるが、完全に自動であり、OWL 2とその設計者からの推論に関する専門知識を必要としない。

We propose an automatic approach to analyze the consistency and satisfiability of Unified Modeling Language UML models containing multiple class, object and statechart diagrams using logic reasoners for the Web Ontology Language OWL 2. We describe how to translate UML models in OWL 2 and we present a tool chain implementing this translation that can be used with any standard compliant UML modeling tool. The proposed approach is limited in scope, but is fully automatic and does not require any expertise about OWL 2 and its reasoners from the designer.
翻訳日:2022-05-25 08:59:31 公開日:2022-05-23
# (参考訳) UnifieR: 大規模検索のための統一検索ツール

UnifieR: A Unified Retriever for Large-Scale Retrieval ( http://arxiv.org/abs/2205.11194v1 )

ライセンス: CC BY 4.0
Tao Shen, Xiubo Geng, Chongyang Tao, Can Xu, Kai Zhang, Daxin Jiang(参考訳) 大規模な検索は、クエリを与えられた巨大なコレクションから関連するドキュメントをリコールする。 ドキュメントやクエリを共通のセマンティックエンコーディング空間に埋め込むための表現学習に依存している。 符号化空間によれば, 事前学習言語モデル(PLM)に基づく最近の検索手法は, 密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。 これらの2つのパラダイムは、PLMの表現能力を異なる粒度、すなわちグローバルシーケンスレベルの圧縮とローカルワードレベルのコンテキストで表す。 そこで我々は,2つの表現能力を持つ1つのモデルにおいて,高密度ベクトルとレキシコンに基づく検索を統一する学習フレームワークUnifieRを提案する。 パッセージ検索ベンチマーク実験は両パラダイムにおいてその効果を検証している。 uni-retrievalスキームは、さらに優れた検索品質で示される。 最後に、このモデルをBEIRベンチマークで評価し、転送性を検証する。

Large-scale retrieval is to recall relevant documents from a huge collection given a query. It relies on representation learning to embed documents and queries into a common semantic encoding space. According to the encoding space, recent retrieval methods based on pre-trained language models (PLM) can be coarsely categorized into either dense-vector or lexicon-based paradigms. These two paradigms unveil the PLMs' representation capability in different granularities, i.e., global sequence-level compression and local word-level contexts, respectively. Inspired by their complementary global-local contextualization and distinct representing views, we propose a new learning framework, UnifieR, which unifies dense-vector and lexicon-based retrieval in one model with a dual-representing capability. Experiments on passage retrieval benchmarks verify its effectiveness in both paradigms. A uni-retrieval scheme is further presented with even better retrieval quality. We lastly evaluate the model on BEIR benchmark to verify its transferability.
翻訳日:2022-05-25 08:23:29 公開日:2022-05-23
# (参考訳) ディープイメージ検索はラベルノイズにロバストではない

Deep Image Retrieval is not Robust to Label Noise ( http://arxiv.org/abs/2205.11195v1 )

ライセンス: CC BY 4.0
Stanislav Dereka, Ivan Karpukhin, Sergey Kolesnikov(参考訳) 画像検索におけるディープラーニングの成功には,大規模データセットが不可欠である。 しかし、手動評価エラーや半教師付きアノテーション技術は、一般的なデータセットでもラベルノイズを引き起こす可能性がある。 従来の研究は主に画像分類タスクのアノテーション品質を研究していたため、画像検索におけるラベルノイズがディープラーニングのアプローチにどのように影響するかはまだ不明である。 本研究は,画像分類手法よりも,画像検索手法がノイズのラベル付けに頑健でないことを示す。 さらに,画像検索タスクに特有なラベルノイズの種類を初めて検討し,その効果をモデル性能に与える影響について検討した。

Large-scale datasets are essential for the success of deep learning in image retrieval. However, manual assessment errors and semi-supervised annotation techniques can lead to label noise even in popular datasets. As previous works primarily studied annotation quality in image classification tasks, it is still unclear how label noise affects deep learning approaches to image retrieval. In this work, we show that image retrieval methods are less robust to label noise than image classification ones. Furthermore, we, for the first time, investigate different types of label noise specific to image retrieval tasks and study their effect on model performance.
翻訳日:2022-05-25 07:43:09 公開日:2022-05-23
# (参考訳) 非整数位置における画素からのノイズに基づく画像再構成

Denoising-based image reconstruction from pixels located at non-integer positions ( http://arxiv.org/abs/2205.11202v1 )

ライセンス: CC BY 4.0
J\'an Koloda, J\"urgen Seiler and Andr\'e Kaup(参考訳) デジタル画像は通常の2d配列として表されるので、ピクセルは整数で表される行列として構成される。 しかし、回転や動き補償のような多くの画像処理操作があり、非整数位置でピクセルを生成する。 通常、画像再構成技術は非整数位置でのサンプルを処理できない。 本稿では,新しい適応分別フレームワークにより後から洗練される初期推定として三角測量に基づく再構成法を提案する。 シミュレーションにより、初期推定値に対して1.8dB(PSNR)以上の改善が達成されていることが明らかとなった。

Digital images are commonly represented as regular 2D arrays, so pixels are organized in form of a matrix addressed by integers. However, there are many image processing operations, such as rotation or motion compensation, that produce pixels at non-integer positions. Typically, image reconstruction techniques cannot handle samples at non-integer positions. In this paper, we propose to use triangulation-based reconstruction as initial estimate that is later refined by a novel adaptive denoising framework. Simulations reveal that improvements of up to more than 1.8 dB (in terms of PSNR) are achieved with respect to the initial estimate.
翻訳日:2022-05-25 07:34:53 公開日:2022-05-23
# (参考訳) 高速画像誤り認識のためのスケーラブルカーネルベース最小平均二乗誤差推定器

Scalable Kernel-Based Minimum Mean Square Error Estimator for Accelerated Image Error Concealment ( http://arxiv.org/abs/2205.11226v1 )

ライセンス: CC BY 4.0
J\'an Koloda, J\"urgen Seiler, Antonio M. Peinado, and Andr\'e Kaup(参考訳) エラー隠蔽は、dvbやビデオストリーミングサービスのようなブロックベースのビデオシステムにとって非常に重要である。 本稿では,計算負荷を低減した高品質な再構成を実現することを目的とした,スケーラブルな空間誤差隠蔽アルゴリズムを提案する。 提案手法はカーネルベースの最小二乗誤差K-MMSE推定器の優れた再構成能力を利用する。 このアプローチを階層的に積み重ねられたレイヤのセットに分解する。 第1層は、後続層が最終的に精製できる基本再構築を行う。 さらに,プロファイルに基づくレイヤ管理機構を設計し,高層層の使用を動的に適用し,再建される領域の視覚的複雑度に適応させる。 提案手法は他の最先端アルゴリズムよりも優れており、K-MMSEと同等の高品質な再構成を行う。

Error concealment is of great importance for block-based video systems, such as DVB or video streaming services. In this paper, we propose a novel scalable spatial error concealment algorithm that aims at obtaining high quality reconstructions with reduced computational burden. The proposed technique exploits the excellent reconstructing abilities of the kernel-based minimum mean square error K-MMSE estimator. We propose to decompose this approach into a set of hierarchically stacked layers. The first layer performs the basic reconstruction that the subsequent layers can eventually refine. In addition, we design a layer management mechanism, based on profiles, that dynamically adapts the use of higher layers to the visual complexity of the area being reconstructed. The proposed technique outperforms other state-of-the-art algorithms and produces high quality reconstructions, equivalent to K-MMSE, while requiring around one tenth of its computational time.
翻訳日:2022-05-25 07:28:30 公開日:2022-05-23
# (参考訳) 制約付きニューラルマシン翻訳のためのテンプレートベース手法

A Template-based Method for Constrained Neural Machine Translation ( http://arxiv.org/abs/2205.11255v1 )

ライセンス: CC BY 4.0
Shuo Wang, Peng Li, Zhixing Tan, Zhaopeng Tu, Maosong Sun, Yang Liu(参考訳) 機械翻訳システムは,様々な制約に対処することが期待される。 ニューラルマシン翻訳(NMT)は、制約のないケースでは高い性能を達成しているが、NMTモデルの翻訳プロセスに予め規定された制約を課すことは自明ではない。 この問題に対して多くのアプローチが提案されているが,既存の手法では,(1)高い翻訳品質,(2)高い一致精度,(3)低レイテンシの3つのデシラタを同時に満たすことはできない。 本研究では,復号速度を維持しつつ,高い翻訳品質と一致する精度で結果が得られるテンプレートベース手法を提案する。 私たちの基本的な考え方は、テンプレートを通じて制約付きトークンと制約なしトークンの生成を並べ替えることです。 テンプレートの生成と導出は、1つのシーケンスからシーケンスへのトレーニングフレームワークを通じて学べる。 したがって,本手法ではモデルアーキテクチャや復号化アルゴリズムの変更を一切必要とせず,適用が容易である。 実験結果から,提案手法は語彙的,構造的に制約された翻訳タスクにおいて,いくつかの代表的ベースラインを上回り得ることが示された。

Machine translation systems are expected to cope with various types of constraints in many practical scenarios. While neural machine translation (NMT) has achieved strong performance in unconstrained cases, it is non-trivial to impose pre-specified constraints into the translation process of NMT models. Although many approaches have been proposed to address this issue, most existing methods can not satisfy the following three desiderata at the same time: (1) high translation quality, (2) high match accuracy, and (3) low latency. In this work, we propose a template-based method that can yield results with high translation quality and match accuracy while keeping the decoding speed. Our basic idea is to rearrange the generation of constrained and unconstrained tokens through a template. The generation and derivation of the template can be learned through one sequence-to-sequence training framework. Thus our method does not require any changes in the model architecture and the decoding algorithm, making it easy to apply. Experimental results show that the proposed template-based methods can outperform several representative baselines in lexically and structurally constrained translation tasks.
翻訳日:2022-05-25 07:10:36 公開日:2022-05-23
# (参考訳) ブラックボックスの属性(動画)

What You See is What You Classify: Black Box Attributions ( http://arxiv.org/abs/2205.11266v1 )

ライセンス: CC BY 4.0
Steven Stalder, Nathana\"el Perraudin, Radhakrishna Achanta, Fernando Perez-Cruz, Michele Volpi(参考訳) 深部画像分類器を説明する上で重要なステップは、モデルの出力における個々のクラススコアに寄与する画像領域の識別である。 しかし、こうしたネットワークのブラックボックスの性質から、正確に行うことは難しい課題である。 既存のほとんどのアプローチは、アクティベーションと勾配を使うか、繰り返し入力を摂動させることによってそのような属性を見つける。 代わりに、トレーニング済みのブラックボックス分類器であるExpplanandumの属性を予測するために、第2のディープネットワークであるExplainerをトレーニングすることで、この問題に対処する。 これらの属性は、画像の分類子関係部分のみを表示するマスクの形で、残りをマスクアウトする。 提案手法は,他の手法が生成する塩分マップと比較して,よりシャープでより境界精度の高いマスクを生成する。 さらに、既存のほとんどのアプローチとは異なり、我々の手法はクラス固有のマスクを直接生成することができる。 最後に,提案手法は,説明器を1回のフォワードパスで通り,すべてのクラス固有のマスクを生成するため,推論に非常に効率的である。 PASCAL VOC-2007 と Microsoft COCO-2014 のデータセットで評価することで,従来の手法よりも視覚的にも定量的にも優れていることを示す。

An important step towards explaining deep image classifiers lies in the identification of image regions that contribute to individual class scores in the model's output. However, doing this accurately is a difficult task due to the black-box nature of such networks. Most existing approaches find such attributions either using activations and gradients or by repeatedly perturbing the input. We instead address this challenge by training a second deep network, the Explainer, to predict attributions for a pre-trained black-box classifier, the Explanandum. These attributions are in the form of masks that only show the classifier-relevant parts of an image, masking out the rest. Our approach produces sharper and more boundary-precise masks when compared to the saliency maps generated by other methods. Moreover, unlike most existing approaches, ours is capable of directly generating very distinct class-specific masks. Finally, the proposed method is very efficient for inference since it only takes a single forward pass through the Explainer to generate all class-specific masks. We show that our attributions are superior to established methods both visually and quantitatively, by evaluating them on the PASCAL VOC-2007 and Microsoft COCO-2014 datasets.
翻訳日:2022-05-25 06:51:02 公開日:2022-05-23
# (参考訳) KLの罰則を持つRLはベイズ推論としてより優れている

RL with KL penalties is better viewed as Bayesian inference ( http://arxiv.org/abs/2205.11275v1 )

ライセンス: CC BY 4.0
Tomasz Korbak and Ethan Perez and Christopher L Buckley(参考訳) 強化学習(Reinforcement Learning, RL)は、GPT-3のような微調整された大規模言語モデル(LM)において、攻撃性、社会的偏見、有害性、偽りなどの生成配列の望ましくない特徴を罰するためにしばしば用いられる。 rlの定式化は、lmをポリシーとして扱い、非攻撃性などの人間の好みを捉えた報酬関数の期待値を最大化するために更新することを含む。 本稿では、言語モデルをRLポリシーとして扱う際の課題を分析し、これらの課題を避けるためには、RLパラダイムを超えてどう動くかを示す。 まず、標準RLアプローチは、分布の崩壊につながるため、微調整されたLMの目的として欠陥があることを観察することから始める。 そこで我々は,KL-regularized RL(微調整LMのレシピ)を解析し,KL(Kulback-Leibler)のばらつきの観点から,微調整LMが元の分布に近づき続けることを制限した。 kl正規化rlは変分推論と同値である: 報酬関数によって提供される証拠に適合するために、事前のlmを更新する方法を規定するベイズ後段を近似する。 我々は、KL-正則化 RL のベイズ的推論は、通常用いられる RL の観点よりもより洞察に富むと論じる。 ベイズ予想は、KL-正則化RLが分布崩壊問題を避ける方法を説明し、その目的のために第一原理の導出を提供する。 この目的は(パラメトリック報酬の特定の選択を伴う)RLと等価であるが、もはやRLと等価ではない微調整LMの目的は他にもある。 RLは、微調整言語モデルのような問題に対する適切な形式的なフレームワークではありません。 これらの問題は、事前定義された目標分布を近似するベイズ推論として最もよく見なされる。

Reinforcement learning (RL) is frequently employed in fine-tuning large language models (LMs), such as GPT-3, to penalize them for undesirable features of generated sequences, such as offensiveness, social bias, harmfulness or falsehood. The RL formulation involves treating the LM as a policy and updating it to maximise the expected value of a reward function which captures human preferences, such as non-offensiveness. In this paper, we analyze challenges associated with treating a language model as an RL policy and show how avoiding those challenges requires moving beyond the RL paradigm. We start by observing that the standard RL approach is flawed as an objective for fine-tuning LMs because it leads to distribution collapse: turning the LM into a degenerate distribution. Then, we analyze KL-regularised RL, a widely used recipe for fine-tuning LMs, which additionally constrains the fine-tuned LM to stay close to its original distribution in terms of Kullback-Leibler (KL) divergence. We show that KL-regularised RL is equivalent to variational inference: approximating a Bayesian posterior which specifies how to update a prior LM to conform with evidence provided by the reward function. We argue that this Bayesian inference view of KL-regularised RL is more insightful than the typically employed RL perspective. The Bayesian inference view explains how KL-regularised RL avoids the distribution collapse problem and offers a first-principles derivation for its objective. While this objective happens to be equivalent to RL (with a particular choice of parametric reward), there exist other objectives for fine-tuning LMs which are no longer equivalent to RL. That observation leads to a more general point: RL is not an adequate formal framework for problems such as fine-tuning language models. These problems are best viewed as Bayesian inference: approximating a pre-defined target distribution.
翻訳日:2022-05-25 06:32:03 公開日:2022-05-23
# (参考訳) ヘビアン可塑性によるスパイキングニューラルネットワークのメモリ強化計算と学習

Memory-enriched computation and learning in spiking neural networks through Hebbian plasticity ( http://arxiv.org/abs/2205.11276v1 )

ライセンス: CC BY 4.0
Thomas Limbacher, Ozan \"Ozdenizci, Robert Legenstein(参考訳) メモリは、数百ミリ秒から数年に及ぶ膨大な時間スケールにわたる情報の保持を可能にする、生物学的ニューラルネットワークの重要なコンポーネントである。 ヘビアン可塑性は生体記憶において重要な役割を担っていると考えられているが、これまでは主にパターンの完成と教師なし学習の文脈で分析されてきた。 本稿では,生体神経系における計算の基盤としてヘビアン可塑性を提案する。 本稿では,ヘビーンのシナプス可塑性に富む新しいスパイクニューラルネットワークアーキテクチャを提案する。 ヘビーエンリッチメントは,その計算能力と学習能力の面で,ニューラルネットワークを驚くほど多用することを示した。 分散一般化、ワンショット学習、クロスモーダル生成結合、言語処理、報酬ベースの学習の能力を向上させる。 スパイクニューラルネットワークがエネルギー効率の良いニューロモルフィックハードウェアの基礎となるため、この原理に基づいて強力な認知ニューロモルフィックシステムを構築することもできる。

Memory is a key component of biological neural systems that enables the retention of information over a huge range of temporal scales, ranging from hundreds of milliseconds up to years. While Hebbian plasticity is believed to play a pivotal role in biological memory, it has so far been analyzed mostly in the context of pattern completion and unsupervised learning. Here, we propose that Hebbian plasticity is fundamental for computations in biological neural systems. We introduce a novel spiking neural network architecture that is enriched by Hebbian synaptic plasticity. We show that Hebbian enrichment renders spiking neural networks surprisingly versatile in terms of their computational as well as learning capabilities. It improves their abilities for out-of-distribution generalization, one-shot learning, cross-modal generative association, language processing, and reward-based learning. As spiking neural networks are the basis for energy-efficient neuromorphic hardware, this also suggests that powerful cognitive neuromorphic systems can be build based on this principle.
翻訳日:2022-05-25 06:18:39 公開日:2022-05-23
# (参考訳) パラメータ効率のよい機械翻訳学習はいつ行われるか?

When does Parameter-Efficient Transfer Learning Work for Machine Translation? ( http://arxiv.org/abs/2205.11277v1 )

ライセンス: CC BY 4.0
Ahmet \"Ust\"un, Asa Cooper Stickland(参考訳) パラメータ効率のよい微調整法(PEFT)は、少数のパラメータのみをチューニングしながら、大きな事前訓練モデルを適用することを約束する。 多くのダウンストリームタスクでフルモデルの微調整と競合することが示されている。 しかし,先行研究は機械翻訳(mt)ではペフトが機能しないことを示すものであり,ペフトがmtでいつ働くかについては包括的研究は行われず,(1)様々なパラメータ予算,(2)多様な言語ペア,(3)異なる事前学習モデルについて総合的な実証研究を行っている。 各レイヤの後に小さなフィードフォワードネットワークを追加する'アダプタ'は、パラメータ予算が全体のモデルパラメータの10%に相当する場合、フルモデルの微調整と同等であることが分かりました。 それでも、調整されたパラメータの数が減少するにつれて、PEFTの性能は低下する。 この減少の大きさは言語ペアに依存し、PEFTは特に遠縁な言語ペアに苦しむ。 事前学習モデルが大きいPEFTを用いて、より小さなモデルで完全な微調整を行うことができ、訓練データサイズが小さい場合には、同じ事前学習モデルで完全な微調整を行う。

Parameter-efficient fine-tuning methods (PEFTs) offer the promise of adapting large pre-trained models while only tuning a small number of parameters. They have been shown to be competitive with full model fine-tuning for many downstream tasks. However, prior work indicates that PEFTs may not work as well for machine translation (MT), and there is no comprehensive study showing when PEFTs work for MT. We conduct a comprehensive empirical study of PEFTs for MT, considering (1) various parameter budgets, (2) a diverse set of language-pairs, and (3) different pre-trained models. We find that 'adapters', in which small feed-forward networks are added after every layer, are indeed on par with full model fine-tuning when the parameter budget corresponds to 10% of total model parameters. Nevertheless, as the number of tuned parameters decreases, the performance of PEFTs decreases. The magnitude of this decrease depends on the language pair, with PEFTs particularly struggling for distantly related language-pairs. We find that using PEFTs with a larger pre-trained model outperforms full fine-tuning with a smaller model, and for smaller training data sizes, PEFTs outperform full fine-tuning for the same pre-trained model.
翻訳日:2022-05-25 05:50:34 公開日:2022-05-23
# (参考訳) 慣用性検出のためのサンプル効率的な手法

Sample Efficient Approaches for Idiomaticity Detection ( http://arxiv.org/abs/2205.11306v1 )

ライセンス: CC BY 4.0
Dylan Phelps, Xuan-Rui Fan, Edward Gow-Smith, Harish Tayyar Madabushi, Carolina Scarton, Aline Villavicencio(参考訳) ディープニューラルモデル、特にトランスフォーマーベースの事前訓練言語モデルでは、トレーニングに大量のデータが必要である。 このデータの必要性は、自然テキストにおいて本質的に頻度の低い慣用的多語表現(mwes)を扱う際に問題を引き起こす傾向がある。 そこで本研究では, 慣用性検出の効率的な手法を探索する。 特に,いくつかの分類法であるPET(Pattern Exploit Training)と,文脈埋め込みの効率的な方法であるBERTRAMが,慣用性検出の課題に与える影響について検討した。 さらに, 一般化可能性をさらに探究するため, 訓練データに存在しないmweの同定に注目する。 実験の結果,これらの手法は英語のパフォーマンスを向上するが,ポルトガル語やガリシア語では効果が低く,バニラmBERTと同等の総合的な性能が得られた。 いずれにせよ,潜在的慣用的MWEの同定と表現には,サンプル効率のよい手法が不可欠であり,今後の探査に有意な可能性を秘めている。

Deep neural models, in particular Transformer-based pre-trained language models, require a significant amount of data to train. This need for data tends to lead to problems when dealing with idiomatic multiword expressions (MWEs), which are inherently less frequent in natural text. As such, this work explores sample efficient methods of idiomaticity detection. In particular we study the impact of Pattern Exploit Training (PET), a few-shot method of classification, and BERTRAM, an efficient method of creating contextual embeddings, on the task of idiomaticity detection. In addition, to further explore generalisability, we focus on the identification of MWEs not present in the training data. Our experiments show that while these methods improve performance on English, they are much less effective on Portuguese and Galician, leading to an overall performance about on par with vanilla mBERT. Regardless, we believe sample efficient methods for both identifying and representing potentially idiomatic MWEs are very encouraging and hold significant potential for future exploration.
翻訳日:2022-05-25 05:29:28 公開日:2022-05-23
# (参考訳) 重度精神障害の解釈診断のための症状同定

Symptom Identification for Interpretable Detection of Multiple Mental Disorders ( http://arxiv.org/abs/2205.11308v1 )

ライセンス: CC BY 4.0
Zhiling Zhang, Siyuan Chen, Mengyue Wu, Kenny Q. Zhu(参考訳) ソーシャルメディアからの精神疾患検出(MDD)は、症状モデリングの欠如により、一般化性や解釈性が低下している。 本稿では,多発性精神疾患の最初の症状同定コーパスであるPsySymを紹介し,さらなる研究の進展を促す。 PsySymは、確立された臨床マニュアルと尺度から準拠した7つの精神疾患に関連する38の症状の知識グラフと、多様性と品質のための新しいアノテーションフレームワークに基づいて注釈付けされている。 PsySymによって実現された症状支援MDDは、強い純粋テキストベースラインよりも優れた性能を示す。 また,症状予測によるMDDの説得力のある説明をケーススタディで示し,今後の可能性を示す。

Mental disease detection (MDD) from social media has suffered from poor generalizability and interpretability, due to lack of symptom modeling. This paper introduces PsySym, the first annotated symptom identification corpus of multiple psychiatric disorders, to facilitate further research progress. PsySym is annotated according to a knowledge graph of the 38 symptom classes related to 7 mental diseases complied from established clinical manuals and scales, and a novel annotation framework for diversity and quality. Experiments show that symptom-assisted MDD enabled by PsySym can outperform strong pure-text baselines. We also exhibit the convincing MDD explanations provided by symptom predictions with case studies, and point to their further potential applications.
翻訳日:2022-05-25 05:19:23 公開日:2022-05-23
# (参考訳) 連続的Barlow Twins:リモートセマンティックセグメンテーションのための連続的自己教師型学習

Continual Barlow Twins: continual self-supervised learning for remote sensing semantic segmentation ( http://arxiv.org/abs/2205.11319v1 )

ライセンス: CC BY 4.0
Valerio Marsocci, Simone Scardapane(参考訳) 地球観測(EO)の分野では、連続学習(CL)アルゴリズムがいくつかのサブセットに分解して段階的に処理することで、大規模なデータセットを扱うように提案されている。 これらのアルゴリズムの大多数はデータが (a)1つのソースから来ていること、 (b)完全ラベル付き。 現実のEOデータセットは、代わりに大きな異種性(例えば、空中、衛星、ドローンのシナリオから来る)によって特徴づけられ、ほとんどはラベルが付けられていない。 そこで本稿では,リモートセンシングアプリケーションにSSLとCLを併用するアルゴリズムを提案し,これを連続バーローツイン (Continuous Barlow Twins, CBT) と呼ぶ。 これは、バラ・ツインズ(Barlow Twins)という最も単純な自己超越技法の1つと、破滅的な忘れ物を避けるための弾性重み統合法(Elastic Weight Consolidation)の利点を組み合わせたものである。 さらに,非常に異種なeoデータセット上のssl手法を初めて評価し,これら戦略がeoにおける重要な下流課題,すなわち意味セグメンテーションにおいて,ほぼ重複しない3つのドメインデータセット(エアボーンポツダムデータセット,サテライトus3dデータセット,ドローンuavidデータセット)の新たな組み合わせ,すなわちセマンティックセグメンテーションにおいて有効であることを示した。 この環境でのSSLの優位性と、ResNet50をベースにしたインクリメンタルに効果的に事前訓練された機能抽出器を作成する効果は、すべてのデータの完全な可用性に頼らずに、貴重な時間とリソースを節約できることを示している。

In the field of Earth Observation (EO), Continual Learning (CL) algorithms have been proposed to deal with large datasets by decomposing them into several subsets and processing them incrementally. The majority of these algorithms assume that data is (a) coming from a single source, and (b) fully labeled. Real-world EO datasets are instead characterized by a large heterogeneity (e.g., coming from aerial, satellite, or drone scenarios), and for the most part they are unlabeled, meaning they can be fully exploited only through the emerging Self-Supervised Learning (SSL) paradigm. For these reasons, in this paper we propose a new algorithm for merging SSL and CL for remote sensing applications, that we call Continual Barlow Twins (CBT). It combines the advantages of one of the simplest self-supervision techniques, i.e., Barlow Twins, with the Elastic Weight Consolidation method to avoid catastrophic forgetting. In addition, for the first time we evaluate SSL methods on a highly heterogeneous EO dataset, showing the effectiveness of these strategies on a novel combination of three almost non-overlapping domains datasets (airborne Potsdam dataset, satellite US3D dataset, and drone UAVid dataset), on a crucial downstream task in EO, i.e., semantic segmentation. Encouraging results show the superiority of SSL in this setting, and the effectiveness of creating an incremental effective pretrained feature extractor, based on ResNet50, without the need of relying on the complete availability of all the data, with a valuable saving of time and resources.
翻訳日:2022-05-25 05:02:21 公開日:2022-05-23
# (参考訳) カバーレンズによる能動学習

Active Learning Through a Covering Lens ( http://arxiv.org/abs/2205.11320v1 )

ライセンス: CC BY 4.0
Ofer Yehuda, Avihu Dekel, Guy Hacohen, Daphna Weinshall(参考訳) deep active learningは、データ不足の悪名高いディープニューラルネットワークのアノテーションコストを削減することを目的としている。 近年まで、少量のサンプルが注釈付けされる低予算体制下で、深いアクティブな学習方法が苦労していた。 自己教師付き表現学習手法の最近の進歩により,データ表現の幾何学的構造に点に関する豊富な情報を与える状況が緩和されている。 この進歩を生かして,「被覆」レンズを通してアノテーションのサブセット選択の問題について検討し,確率範囲を最大化しようとする低予算体制のための新しいアクティブ学習アルゴリズムであるprobcoverを提案する。 当社の定式化を両立させる方法として,Coresetのような既存の手法に関連する,アクティブラーニングの高予算体制に適した戦略を導出する方法について述べる。 我々は,低予算体制におけるプロブカバーの評価と広範囲な実験で締めくくった。 いくつかの画像認識ベンチマークにおいて,我々の原理的アクティブラーニング戦略は,低予算体制の最先端性を向上することを示す。 この手法は特に半教師付き設定において有益であり、最先端の半教師付き手法は少数のラベルで高い精度を達成できる。

Deep active learning aims to reduce the annotation cost for deep neural networks, which are notoriously data-hungry. Until recently, deep active learning methods struggled in the low-budget regime, where only a small amount of samples are annotated. The situation has been alleviated by recent advances in self-supervised representation learning methods, which impart the geometry of the data representation with rich information about the points. Taking advantage of this progress, we study the problem of subset selection for annotation through a "covering" lens, proposing ProbCover -- a new active learning algorithm for the low budget regime, which seeks to maximize Probability Coverage. We describe a dual way to view our formulation, from which one can derive strategies suitable for the high budget regime of active learning, related to existing methods like Coreset. We conclude with extensive experiments, evaluating ProbCover in the low budget regime. We show that our principled active learning strategy improves the state-of-the-art in the low-budget regime in several image recognition benchmarks. This method is especially beneficial in semi-supervised settings, allowing state-of-the-art semi-supervised methods to achieve high accuracy with only a few labels.
翻訳日:2022-05-25 04:46:09 公開日:2022-05-23
# (参考訳) ScholarBERT:Biggerは必ずしも良いものではない

ScholarBERT: Bigger is Not Always Better ( http://arxiv.org/abs/2205.11342v1 )

ライセンス: CC BY 4.0
Zhi Hong, Aswathy Ajith, Gregory Pauloski, Eamon Duede, Carl Malamud, Roger Magoulas, Kyle Chard, Ian Foster(参考訳) BERTやRoBERTaといった一般的なコーパスでトレーニングされたトランスフォーマーベースのマスク付き言語モデルは、さまざまな下流タスクで素晴らしいパフォーマンスを示している。 研究者たちは、これらのモデルを"微調整"して、ドメイン固有のタスクのパフォーマンスを改善している。 そこで本研究では,11の科学タスクに14のトランスフォーマーモデルを適用し,様々な次元の変化(トレーニングデータ,モデルサイズ,事前トレーニング時間,微調整長さなど)が下流性能に与える影響を評価する。 この過程で我々は,これまでで最大かつ最も多様な科学的言語モデルであるScholarBERTを作成し,多くの分野にまたがる221Bトークン科学文献データセットを用いて770MパラメータBERTモデルをトレーニングした。 ScholarBERTの7バージョン、文学、BERT-Base、BERT-Largeの5つの科学特化言語モデルによる14のBERTモデルの評価は、モデルサイズとトレーニングデータに大きな違いがあるにもかかわらず、11の科学特化タスク間で性能の差がほとんどないことを示している。 我々は,この結果が,理科領域のタスクにおいてBERTベースのアーキテクチャで達成可能な性能の上限を確立することを主張する。

Transformer-based masked language models trained on general corpora, such as BERT and RoBERTa, have shown impressive performance on various downstream tasks. Increasingly, researchers are "finetuning" these models to improve performance on domain-specific tasks. Here, we report a broad study in which we applied 14 transformer-based models to 11 scientific tasks in order to evaluate how downstream performance is affected by changes along various dimensions (e.g., training data, model size, pretraining time, finetuning length). In this process, we created the largest and most diverse scientific language model to date, ScholarBERT, by training a 770M-parameter BERT model on an 221B token scientific literature dataset spanning many disciplines. Counterintuitively, our evaluation of the 14 BERT-based models (seven versions of ScholarBERT, five science-specific large language models from the literature, BERT-Base, and BERT-Large) reveals little difference in performance across the 11 science-focused tasks, despite major differences in model size and training data. We argue that our results establish an upper bound for the performance achievable with BERT-based architectures on tasks from the scientific domain.
翻訳日:2022-05-25 04:25:45 公開日:2022-05-23
# (参考訳) 微分方程式を解くDeepONet法における容量境界

Capacity Bounds for the DeepONet Method of Solving Differential Equations ( http://arxiv.org/abs/2205.11359v1 )

ライセンス: CC BY 4.0
Pulkit Gopalani, Sayar Karmakar and Anirbit Mukherjee(参考訳) 近年、機械学習手法は、物理システム分析に有用なツールとなるために大きな進歩を遂げている。 このテーマの特に活発な領域は、微分方程式を数値的に解くためにニューラルネットワークを使うことに焦点を当てた"physics informed machine learning"[1]である。 本稿では,深層学習を用いた微分方程式の解法に関する提案の中で,2つのニューラルネットの内積を持つという興味をそそる構造から,deeponets の一般化誤差の理論を前進させることを目的としている。 我々の重要な貢献は、大量のdeeponetsのrademacherの複雑さに限界を与えることです。 我々の境界は、関係するネットのパラメータ数と明示的にスケールしないので、過パラメータ化されたDeepONetsの有効性を説明するためのステップである。 さらに、我々のような容量境界は、微分方程式が解かれているにもかかわらず、ディープネッツの訓練に役立つニューラルネット重みの新たな正規化子を提案する。 [1] G. E. Karniadakis, I. G. Kevrekidis, L. Lu, P. Perdikaris, S. Wang, L. Yang。 物理インフォームド・機械学習。 自然誌『物理学』2021年。

In recent times machine learning methods have made significant advances in becoming a useful tool for analyzing physical systems. A particularly active area in this theme has been "physics informed machine learning" [1] which focuses on using neural nets for numerically solving differential equations. Among all the proposals for solving differential equations using deep-learning, in this paper we aim to advance the theory of generalization error for DeepONets - which is unique among all the available ideas because of its particularly intriguing structure of having an inner-product of two neural nets. Our key contribution is to give a bound on the Rademacher complexity for a large class of DeepONets. Our bound does not explicitly scale with the number of parameters of the nets involved and is thus a step towards explaining the efficacy of overparameterized DeepONets. Additionally, a capacity bound such as ours suggests a novel regularizer on the neural net weights that can help in training DeepONets - irrespective of the differential equation being solved. [1] G. E. Karniadakis, I. G. Kevrekidis, L. Lu, P. Perdikaris, S. Wang, and L. Yang. Physics-informed machine learning. Nature Reviews Physics, 2021.
翻訳日:2022-05-25 04:08:27 公開日:2022-05-23
# (参考訳) 定性グラディエントDescenceに対するカオス正則化と重り付き限界

Chaotic Regularization and Heavy-Tailed Limits for Deterministic Gradient Descent ( http://arxiv.org/abs/2205.11361v1 )

ライセンス: CC BY 4.0
Soon Hoe Lim, Yijun Wan, Umut \c{S}im\c{s}ekli(参考訳) 近年の研究では、勾配降下(GD)がカオス的な振る舞いを示すと一般化を改善することが示されている。 しかし、望ましい効果を得るためには、ステップサイズを十分に大きくし、問題に依存し、実際に難しいタスクを選択する必要がある。 本研究では,GDにカオス成分を制御的に組み込むとともに,GD再帰を独立力学系を介して進化するカオス摂動で拡張する新しい最適化フレームワークであるマルチスケール摂動GD(MPGD)を導入する。 3つの角度からMPGDを分析する。 i) 粗経路理論の最近の進歩を積み重ねることで, ステップサイズが減少するにつれてMPGD再帰は, 重み付きL\'evy-stableプロセスによって駆動される確率微分方程式(SDE)に弱収束することを示す。 (ii)最近開発された重み付き過程の一般化境界と接続することで,制限sde に対する一般化を導出し,mpgd のパラメータに対するプロセスの軌道上の最悪の一般化誤差を関連付ける。 3) 動的正則化による暗黙的な正則化効果を解析し, 弱い摂動状態においては, MPGDは損失関数のヘシアンをペナルティ化する用語を導入している。 MPGDの利点を示す実証的な結果が提供される。

Recent studies have shown that gradient descent (GD) can achieve improved generalization when its dynamics exhibits a chaotic behavior. However, to obtain the desired effect, the step-size should be chosen sufficiently large, a task which is problem dependent and can be difficult in practice. In this study, we incorporate a chaotic component to GD in a controlled manner, and introduce multiscale perturbed GD (MPGD), a novel optimization framework where the GD recursion is augmented with chaotic perturbations that evolve via an independent dynamical system. We analyze MPGD from three different angles: (i) By building up on recent advances in rough paths theory, we show that, under appropriate assumptions, as the step-size decreases, the MPGD recursion converges weakly to a stochastic differential equation (SDE) driven by a heavy-tailed L\'evy-stable process. (ii) By making connections to recently developed generalization bounds for heavy-tailed processes, we derive a generalization bound for the limiting SDE and relate the worst-case generalization error over the trajectories of the process to the parameters of MPGD. (iii) We analyze the implicit regularization effect brought by the dynamical regularization and show that, in the weak perturbation regime, MPGD introduces terms that penalize the Hessian of the loss function. Empirical results are provided to demonstrate the advantages of MPGD.
翻訳日:2022-05-25 02:47:27 公開日:2022-05-23
# (参考訳) グリーン関数としての統計的推測

Statistical inference as Green's functions ( http://arxiv.org/abs/2205.11366v1 )

ライセンス: CC BY 4.0
Hyun Keun Lee, Chulan Kwon, and Yong Woon Kim(参考訳) データからの統計的推測は科学の基本課題である。 近年,データサイエンスや人工知能,機械学習などに関心を持つ推論システムにおいて,その中心的な役割が注目されている。 しかし、統計的推論自体の理解は、主観的な選択やあいまいな方法で実施される問題と見なされる一方で、それほど堅実ではない。 ここで,統計推論は,交換可能な二項確率変数の長い列,理論と応用における原型的確率性に対して,厳密な科学的記述を持つことを示す。 線形微分方程式は交換可能性から導かれ、統計的推論はグリーン関数によって与えられることが判明した。 我々の発見は科学における規範的で基礎的な問題に対する答えであり、その重要性はあらゆる純粋で応用された分野において遠く及ばない。

Statistical inference from data is foundational task in science. Recently, it receives growing attention for its central role in inference systems of primary interest in data science, artificial intelligence, or machine learning. However, the understanding of statistical inference itself is not that solid while regarded as a matter of subjective choice or implemented in obscure ways. We here show that statistical inference has rigorous scientific description for long sequence of exchangeable binary random variables, the prototypal stochasticity in theories and applications. A linear differential equation is derived from the exchangeability, and it turns out that statistical inference is given by the Green's functions. Our finding is the answer to the normative and foundational issue in science, and its significance will be far-reaching in all pure and applied fields.
翻訳日:2022-05-25 02:08:17 公開日:2022-05-23
# (参考訳) リズモア学部長書の単語レベルの音訳におけるトランスフォーマーモデルの利用

Use of Transformer-Based Models for Word-Level Transliteration of the Book of the Dean of Lismore ( http://arxiv.org/abs/2205.11370v1 )

ライセンス: CC BY 4.0
Edward Gow-Smith, Mark McConville, William Gillies, Jade Scott, Roibeard \'O Maolalaigh(参考訳) BDL(The Book of the Dean of Lismore)は16世紀のスコットランド・ゲールの写本。 本研究では,BDLのテキストを標準化された正書法に翻訳する問題を概説し,トランスフォーマーモデルを用いて探索実験を行う。 特に、単語レベルの翻訳の課題に焦点をあて、最高のモデルで文字レベルのBLEUスコア54.15を達成し、スコットランド・ゲール語ウィキペディアのテキストで事前訓練されたBARTアーキテクチャを、約2000の単語レベルの並列例で微調整した。 最初の実験は有望な結果をもたらすが、モデルの欠点を強調し、今後の作業の方向性について議論する。

The Book of the Dean of Lismore (BDL) is a 16th-century Scottish Gaelic manuscript written in a non-standard orthography. In this work, we outline the problem of transliterating the text of the BDL into a standardised orthography, and perform exploratory experiments using Transformer-based models for this task. In particular, we focus on the task of word-level transliteration, and achieve a character-level BLEU score of 54.15 with our best model, a BART architecture pre-trained on the text of Scottish Gaelic Wikipedia and then fine-tuned on around 2,000 word-level parallel examples. Our initial experiments give promising results, but we highlight the shortcomings of our model, and discuss directions for future work.
翻訳日:2022-05-25 01:57:19 公開日:2022-05-23
# (参考訳) ハンサムな大工を探してる! gpt-3ジョブ広告のデバイアス化

Looking for a Handsome Carpenter! Debiasing GPT-3 Job Advertisements ( http://arxiv.org/abs/2205.11374v1 )

ライセンス: CC BY 4.0
Conrad Borchers, Dalia Sara Gala, Benjamin Gilburt, Eduard Oravkin, Wilfried Bounsi, Yuki M. Asano, Hannah Rose Kirk(参考訳) ジェネレーティブ言語モデルの能力と可用性の増大により、新しいダウンストリームタスクが幅広く可能になった。 学術研究は言語モデルに存在するバイアスを特定し、定量化し、軽減してきたが、個人や社会に大きな影響を与える下流のタスクに合わせることは滅多にない。 本研究では,不偏で現実的な求人広告を書くことを目的として,人気のある生成言語モデルGPT-3を活用する。 まずゼロショット生成広告のバイアスとリアリズムを評価し,実際の広告と比較する。 次に,ディバイアス手法としてプロンプトエンジニアリングと微調整を評価する。 多様性を高めるプロンプトによるプロンプトエンジニアリングは、バイアスやリアリズムに大きな改善をもたらすものではない。 逆に、微調整、特にバイアスのない実際の広告では、現実主義を改善し、バイアスを減らすことができる。

The growing capability and availability of generative language models has enabled a wide range of new downstream tasks. Academic research has identified, quantified and mitigated biases present in language models but is rarely tailored to downstream tasks where wider impact on individuals and society can be felt. In this work, we leverage one popular generative language model, GPT-3, with the goal of writing unbiased and realistic job advertisements. We first assess the bias and realism of zero-shot generated advertisements and compare them to real-world advertisements. We then evaluate prompt-engineering and fine-tuning as debiasing methods. We find that prompt-engineering with diversity-encouraging prompts gives no significant improvement to bias, nor realism. Conversely, fine-tuning, especially on unbiased real advertisements, can improve realism and reduce bias.
翻訳日:2022-05-25 01:47:59 公開日:2022-05-23
# (参考訳) 異なるリザーバコンピュータにおける多機能性限界の探索

Exploring the limits of multifunctionality across different reservoir computers ( http://arxiv.org/abs/2205.11375v1 )

ライセンス: CC BY 4.0
Andrew Flynn, Oliver Heilmann, Daniel K\"oglmayr, Vassilios A. Tsachouridis, Christoph R\"ath, and Andreas Amann(参考訳) 多機能ニューラルネットワークは、ネットワーク接続を変更することなく複数のタスクを実行することができる。 本稿では,多機能性の限界をテストするタスクにおいて,連続時間,リークインテグレータ,次世代'Reservoir Computer'(RC)の性能について検討する。 最初のタスクでは、各RCをトレーニングし、異なる力学系からのカオス的引き付け子の共存を再構築する。 これらのアトラクタを記述するデータを互いに近づけることで、各RCが両方のアトラクタを再構築できる範囲は、状態空間内で重なり始めるにつれて減少する。 この抑制効果をより深く理解するために、第2のタスクでは、各rcを訓練して、回転方向のみが異なる2つの円形軌道の共存を再構築する。 この極端に重なり合うトレーニングデータにおいて、各RCにおいて特定のパラメータが持つ重要な影響を多機能化するために検討する。

Multifunctional neural networks are capable of performing more than one task without changing any network connections. In this paper we explore the performance of a continuous-time, leaky-integrator, and next-generation `reservoir computer' (RC), when trained on tasks which test the limits of multifunctionality. In the first task we train each RC to reconstruct a coexistence of chaotic attractors from different dynamical systems. By moving the data describing these attractors closer together, we find that the extent to which each RC can reconstruct both attractors diminishes as they begin to overlap in state space. In order to provide a greater understanding of this inhibiting effect, in the second task we train each RC to reconstruct a coexistence of two circular orbits which differ only in the direction of rotation. We examine the critical effects that certain parameters can have in each RC to achieve multifunctionality in this extreme case of completely overlapping training data.
翻訳日:2022-05-25 01:28:00 公開日:2022-05-23
# (参考訳) Dual-Polarization Dispersion Managed Systemのためのディジタルバックプロパゲーションの学習

Learned Digital Back-Propagation for Dual-Polarization Dispersion Managed Systems ( http://arxiv.org/abs/2205.11376v1 )

ライセンス: CC BY 4.0
Mohannad Abu-romoh (1), Nelson Costa (2), Antonio Napoli (3), Bernhard Spinnler (3), Yves Jaou\"en (1), Mansoor Yousefi (1) ((1) T\'el\'ecom Paris, (2) Infinera, Portugal, (3) Infinera, Germany)(参考訳) ディジタルバックプロパゲーション(DBP)と学習DBP(LDBP)は、WDM双極分極分散管理システムにおける非線形性軽減のために提案される。 LDBP は 1.8 dB と 1.2 dB のQ-factor の改善をそれぞれ線形等化と DM システムに適合した DBP の変種で達成する。

Digital back-propagation (DBP) and learned DBP (LDBP) are proposed for nonlinearity mitigation in WDM dual-polarization dispersion-managed systems. LDBP achieves Q-factor improvement of 1.8 dB and 1.2 dB, respectively, over linear equalization and a variant of DBP adapted to DM systems.
翻訳日:2022-05-25 01:11:32 公開日:2022-05-23
# (参考訳) streamingqa: 質問応答モデルにおける新しい知識への適応のためのベンチマーク

StreamingQA: A Benchmark for Adaptation to New Knowledge over Time in Question Answering Models ( http://arxiv.org/abs/2205.11388v1 )

ライセンス: CC BY 4.0
Adam Li\v{s}ka, Tom\'a\v{s} Ko\v{c}isk\'y, Elena Gribovskaya, Tayfun Terzi, Eren Sezener, Devang Agrawal, Cyprien de Masson d'Autume, Tim Scholtes, Manzil Zaheer, Susannah Young, Ellen Gilsenan-McMahon, Sophia Austin, Phil Blunsom, Angeliki Lazaridou(参考訳) 質問応答(QA)によって評価されたモデルの知識と言語理解は、通常ウィキペディアのような知識の静的スナップショットで研究されている。 しかし、私たちの世界は動的であり、時間とともに進化し、モデルの知識は時代遅れになります。 半パラメトリックQAモデルとその基盤となるパラメトリック言語モデル(LM)が、進化する知識にどのように適応するかを研究するために、14年間のタイムスタンプニュース記事から答えられるように、人間の記述と生成された質問を伴う、新しい大規模データセットStreamingQAを構築した。 事前トレーニングでは見られない新しい記事を読みながら、四半期毎にモデルを評価します。 我々は,大惨な忘れを回避しつつ,パラメトリックモデルをフルリトレーニングなしで更新可能であることを示す。 しかし、半パラメトリックモデルでは、検索空間に新しい記事を追加することで、古いlmを持つモデルは、再訓練されたlmを持つモデルに過小評価される。 高周波名前のエンティティに関する質問に対して、パラメトリック更新は特に有益である。 ダイナミックな世界では、StreamingQAデータセットにより、QAモデルのより現実的な評価が可能になります。

Knowledge and language understanding of models evaluated through question answering (QA) has been usually studied on static snapshots of knowledge, like Wikipedia. However, our world is dynamic, evolves over time, and our models' knowledge becomes outdated. To study how semi-parametric QA models and their underlying parametric language models (LMs) adapt to evolving knowledge, we construct a new large-scale dataset, StreamingQA, with human written and generated questions asked on a given date, to be answered from 14 years of time-stamped news articles. We evaluate our models quarterly as they read new articles not seen in pre-training. We show that parametric models can be updated without full retraining, while avoiding catastrophic forgetting. For semi-parametric models, adding new articles into the search space allows for rapid adaptation, however, models with an outdated underlying LM under-perform those with a retrained LM. For questions about higher-frequency named entities, parametric updates are particularly beneficial. In our dynamic world, the StreamingQA dataset enables a more realistic evaluation of QA models, and our experiments highlight several promising directions for future research.
翻訳日:2022-05-25 01:04:23 公開日:2022-05-23
# (参考訳) ビデオにおける戦闘の検出:異常検出と行動認識の比較研究

Detection of Fights in Videos: A Comparison Study of Anomaly Detection and Action Recognition ( http://arxiv.org/abs/2205.11394v1 )

ライセンス: CC BY 4.0
Weijun Tan, Jingfeng Liu(参考訳) 戦闘の検出はビデオにおける重要な監視アプリケーションである。 既存の手法のほとんどは、教師付きバイナリアクション認識を使用する。 フレームレベルのアノテーションは異常検出には非常に難しいため、複数のインスタンス学習を用いた弱い教師付き学習が広く使用されている。 本稿では,ビデオ中のケンカの検出を,異常検出の特殊なタイプとして,またバイナリアクション認識として検討する。 UBI-Fight と NTU-CCTV-Fight のデータセットはフレームレベルのアノテーションがあるため、ほとんどの研究で使用しています。 異常検出は,動作認識と同等あるいはそれ以上の性能を有することがわかった。 さらに, 異常検出をツールボックスとして使用して, 異常検出の性能に配慮した反復的な方法で, 行動認識のためのトレーニングデータセットを生成する。 実験結果から,3つの戦闘検出データセットの最先端性能が得られた。

Detection of fights is an important surveillance application in videos. Most existing methods use supervised binary action recognition. Since frame-level annotations are very hard to get for anomaly detection, weakly supervised learning using multiple instance learning is widely used. This paper explores the detection of fights in videos as one special type of anomaly detection and as binary action recognition. We use the UBI-Fight and NTU-CCTV-Fight datasets for most of the study since they have frame-level annotations. We find that the anomaly detection has similar or even better performance than the action recognition. Furthermore, we study to use anomaly detection as a toolbox to generate training datasets for action recognition in an iterative way conditioned on the performance of the anomaly detection. Experiment results should show that we achieve state-of-the-art performance on three fight detection datasets.
翻訳日:2022-05-25 00:31:22 公開日:2022-05-23
# (参考訳) ハイパースペクトル異常検出のためのマルチテンポラル空間スペクトル比較ネットワーク

Multi-Temporal Spatial-Spectral Comparison Network for Hyperspectral Anomalous Change Detection ( http://arxiv.org/abs/2205.11395v1 )

ライセンス: CC BY 4.0
Meiqi Hu, Chen Wu, Bo Du(参考訳) ハイパースペクトル異常変化検出は、小さくて希少な物体の動力学的変化に重点を置いているため、難しい課題であった。 本稿では,超スペクトル異常検出のためのマルチテンポラル空間スペクトル比較ネットワーク(MTC-NET)を提案する。 モデル全体がディープシャムネットワークであり、コントラスト学習によって高スペクトル画像から複雑な撮像条件から生じるスペクトル差を学習することを目的としている。 3次元空間スペクトルアテンションモジュールは、空間意味情報と鍵スペクトル差を効果的に抽出するように設計されている。 そして、複数の時間的特徴間のギャップを最小化し、意味的特徴とスペクトル的特徴のアライメントと、多時間的背景スペクトル差の抑制を促進する。 Viareggio 2013データセットの実験では、提案されたMCC-NETの有効性が示されている。

Hyperspectral anomalous change detection has been a challenging task for its emphasis on the dynamics of small and rare objects against the prevalent changes. In this paper, we have proposed a Multi-Temporal spatial-spectral Comparison Network for hyperspectral anomalous change detection (MTC-NET). The whole model is a deep siamese network, aiming at learning the prevalent spectral difference resulting from the complex imaging conditions from the hyperspectral images by contrastive learning. A three-dimensional spatial spectral attention module is designed to effectively extract the spatial semantic information and the key spectral differences. Then the gaps between the multi-temporal features are minimized, boosting the alignment of the semantic and spectral features and the suppression of the multi-temporal background spectral difference. The experiments on the "Viareggio 2013" datasets demonstrate the effectiveness of proposed MTC-NET.
翻訳日:2022-05-25 00:21:45 公開日:2022-05-23
# (参考訳) 医療と精密医療のための因果機械学習

Causal Machine Learning for Healthcare and Precision Medicine ( http://arxiv.org/abs/2205.11402v1 )

ライセンス: CC BY 4.0
Pedro Sanchez and Jeremy P. Voisey and Tian Xia and Hannah I. Watson and Alison Q. ONeil and Sotirios A. Tsaftaris(参考訳) 因果機械学習(CML)は医療で人気が高まっている。 学習システムにドメイン知識を追加するという本質的な能力の他に、CMLはシステムがどのように介入に反応するか(例えば治療を受けた結果)を調べるための完全なツールセットを提供する。 介入の効果を定量化することで、共同創設者の存在下での堅牢性を維持しながら、行動可能な意思決定が可能になる。 本稿では,最近の機械学習の進歩を用いて,因果推論を臨床意思決定支援システム(cds)のさまざまな側面に組み込む方法について検討する。 本稿では,アルツハイマー病(ad)を用いて,臨床シナリオにおいてcmlがいかに有利かを示す例を示す。 さらに,高次元および非構造化データの処理,分散サンプルへの一般化,時間的関係など,研究コミュニティからの多大な努力にもかかわらず解決すべき課題についても論じる。 最後に, 因果表現学習, 因果発見, 因果推論における研究の行をレビューし, 上記の課題に対処できる可能性について考察する。

Causal machine learning (CML) has experienced increasing popularity in healthcare. Beyond the inherent capabilities of adding domain knowledge into learning systems, CML provides a complete toolset for investigating how a system would react to an intervention (e.g.\ outcome given a treatment). Quantifying effects of interventions allows actionable decisions to be made whilst maintaining robustness in the presence of confounders. Here, we explore how causal inference can be incorporated into different aspects of clinical decision support (CDS) systems by using recent advances in machine learning. Throughout this paper, we use Alzheimer's disease (AD) to create examples for illustrating how CML can be advantageous in clinical scenarios. Furthermore, we discuss important challenges present in healthcare applications such as processing high-dimensional and unstructured data, generalisation to out-of-distribution samples, and temporal relationships, that despite the great effort from the research community remain to be solved. Finally, we review lines of research within causal representation learning, causal discovery and causal reasoning which offer the potential towards addressing the aforementioned challenges.
翻訳日:2022-05-25 00:15:47 公開日:2022-05-23
# (参考訳) マッチングを用いた多クラステキスト分類

Many-Class Text Classification with Matching ( http://arxiv.org/abs/2205.11409v1 )

ライセンス: CC BY 4.0
Yi Song, Yuxian Gu, Minlie Huang(参考訳) 本研究では,テキストとラベルの結合問題として,textbf{t}ext \textbf{c}lassificationを定式化し,tcmという単純かつ効果的なフレームワークを提案する。 従来のテキスト分類手法と比較して、TCMは分類ラベルのきめ細かいセマンティック情報を利用しており、特に低リソースシナリオにおいて、クラス数が大きくなると各クラスをよりよく識別するのに役立つ。 tcmは実装も容易で、様々な大きな事前学習された言語モデルと互換性がある。 我々は,4つのテキスト分類データセット(それぞれ20以上のラベルを持つ)について,数ショットと全データ設定の両方でTCMを評価し,本モデルは他のテキスト分類パラダイムよりも大幅に改善されていることを示す。 また,TCMの異なる変種を用いた広範な実験を行い,その成功要因について考察する。 本手法と分析は,テキスト分類の新しい視点を提供する。

In this work, we formulate \textbf{T}ext \textbf{C}lassification as a \textbf{M}atching problem between the text and the labels, and propose a simple yet effective framework named TCM. Compared with previous text classification approaches, TCM takes advantage of the fine-grained semantic information of the classification labels, which helps distinguish each class better when the class number is large, especially in low-resource scenarios. TCM is also easy to implement and is compatible with various large pretrained language models. We evaluate TCM on 4 text classification datasets (each with 20+ labels) in both few-shot and full-data settings, and this model demonstrates significant improvements over other text classification paradigms. We also conduct extensive experiments with different variants of TCM and discuss the underlying factors of its success. Our method and analyses offer a new perspective on text classification.
翻訳日:2022-05-24 23:47:50 公開日:2022-05-23
# (参考訳) 勾配ブースト回帰木のインスタンスベース不確かさ推定

Instance-Based Uncertainty Estimation for Gradient-Boosted Regression Trees ( http://arxiv.org/abs/2205.11412v1 )

ライセンス: CC BY-SA 4.0
Jonathan Brophy and Daniel Lowd(参考訳) 本稿では,GBRT 点予測器を拡張して確率的予測を行う簡易な手法である Gradient-boosted regression Tree (IBUG) のインスタンスベース不確実性推定法を提案する。 IBUGは、木組みカーネルで距離を計測するk-nearestトレーニングインスタンスを使用して、予測に関する非パラメトリック分布を計算する。 IBUGのランタイムは、アンサンブルの各葉におけるトレーニング例の数に依存し、ツリーのサンプリングやトレーニングインスタンスによって改善できる。 経験的に、IBUGは、以前の22のベンチマークの予測データセットと比べて、類似またはより良いパフォーマンスを達成する。 また,ibugは,異なるベースgbrtモデルを用いて,確率的性能を向上でき,予測の後方分布を競合手法よりも柔軟にモデル化できることがわかった。 また,検証データに基づいて調整されたスカラー係数を用いることで,従来の手法では一部のデータセットの確率的キャリブレーションに支障が生じた。

We propose Instance-Based Uncertainty estimation for Gradient-boosted regression trees~(IBUG), a simple method for extending any GBRT point predictor to produce probabilistic predictions. IBUG computes a non-parametric distribution around a prediction using the k-nearest training instances, where distance is measured with a tree-ensemble kernel. The runtime of IBUG depends on the number of training examples at each leaf in the ensemble, and can be improved by sampling trees or training instances. Empirically, we find that IBUG achieves similar or better performance than the previous state-of-the-art across 22 benchmark regression datasets. We also find that IBUG can achieve improved probabilistic performance by using different base GBRT models, and can more flexibly model the posterior distribution of a prediction than competing methods. We also find that previous methods suffer from poor probabilistic calibration on some datasets, which can be mitigated using a scalar factor tuned on the validation data.
翻訳日:2022-05-24 23:33:33 公開日:2022-05-23
# (参考訳) QASemパーシング:QAに基づく意味論のテキスト間モデリング

QASem Parsing: Text-to-text Modeling of QA-based Semantics ( http://arxiv.org/abs/2205.11413v1 )

ライセンス: CC BY 4.0
Ayal Klein, Eran Hirsch, Ron Eliav, Valentina Pyatkin, Avi Caciularu and Ido Dagan(参考訳) いくつかの最近の研究は、質問や回答とのセマンティックな関係を表現し、テキスト情報を別の疑問的自然言語文に分解することを示唆している。 本稿では, qa-srl, qanom, qadiscourseの3つの意味的タスクについて考察し, テキスト情報の包括的表現を共同で提供することを提案する。 本研究の目的は,半構造化アウトプットのユニークな設定において,事前学習されたseq2seq(sequence-to-sequence)言語モデルのパワーを最大限活用する方法を検討することである。 異なる入力・出力線形化戦略を検討し、不均衡なトレーニングデータの設定におけるマルチタスク学習と単純なデータ拡張手法の効果を評価した。 そこで我々は,テキスト中の情報単位の明示的なQAベースの説明から恩恵を受けることができる下流アプリケーションのための,最初の統合QASem解析ツールをリリースする。

Several recent works have suggested to represent semantic relations with questions and answers, decomposing textual information into separate interrogative natural language statements. In this paper, we consider three QA-based semantic tasks - namely, QA-SRL, QANom and QADiscourse, each targeting a certain type of predication - and propose to regard them as jointly providing a comprehensive representation of textual information. To promote this goal, we investigate how to best utilize the power of sequence-to-sequence (seq2seq) pre-trained language models, within the unique setup of semi-structured outputs, consisting of an unordered set of question-answer pairs. We examine different input and output linearization strategies, and assess the effect of multitask learning and of simple data augmentation techniques in the setting of imbalanced training data. Consequently, we release the first unified QASem parsing tool, practical for downstream applications who can benefit from an explicit, QA-based account of information units in a text.
翻訳日:2022-05-24 23:05:42 公開日:2022-05-23
# (参考訳) LoRaネットワークにおけるローカライゼーションのための拡散因子とRSSI : 深層強化学習アプローチ

Spreading Factor and RSSI for Localization in LoRa Networks: A Deep Reinforcement Learning Approach ( http://arxiv.org/abs/2205.11428v1 )

ライセンス: CC BY 4.0
Yaya Etiabi, Mohammed JOUHARI, El Mehdi Amhoud(参考訳) モノのインターネット(IoT)技術の最近の進歩は、LoRaネットワークのローカライゼーションを含むさまざまなアプリケーションからの要求の締め付けにつながっている。 LoRaWANを使用したIoTロケーションベースのサービスの需要拡大に対応するため、正確なローカライゼーションソリューションはこれまで以上に重要になっている。 そこで本研究では,ロラデバイスが送信時に使用するRSSI記録と拡散係数(SF)を組み合わせて,ネットワーク無線マップを構築する新しいアプローチを提案することにより,ロラネットワーク上の正確なディープニューラルネットワークベースのローカライゼーションフレームワークを開発する。 次に,都市loraネットワークに記録された公開実験データセットを用いて検証を行う。 本手法により,RSSI指紋を用いた最先端手法と比較して,局所化精度を最大6.67%向上させることができるため,この拡散係数を付加指紋として有益であることを示す。 さらに,位置推定におけるSFの影響を解析した結果,位置推定の精度が位置推定に使用するSFに依存することが明らかになった。 最後に,LoRaネットワーク環境の継続的な複雑化を把握し,LoRaによって実現された大規模IoTのスケーラビリティ問題に対処する,深層強化学習に基づくローカライゼーションシステムを提案する。

Recent advancements in Internet of Things (IoT) technologies have resulted in a tightening of requirements from various applications including localization in LoRa networks. To address the growing demand for LoRaWAN-powered IoT location-based services, accurate localization solutions are more crucial than ever. As such, in this work, we develop an accurate deep neural network based localization framework over a LoRa network by proposing a novel approach that builds the network radio map with the combination of RSSI recordings and the spreading factors (SF) used by LoRa devices during the transmissions. Then, we validate our framework using a publicly available experimental dataset recorded in an urban LoRa network. The performance evaluation shows the prominence of adding the spreading factor as an additional fingerprint, since we can achieve, by our approach, an improvement in localization accuracy by up to 6.67% compared to the state-of-the-art methods which employ uniquely the RSSI fingerprints. Additionally, we provide an analysis of the impact of the SF on the localization performance which reveals that the localization accuracy relies on the SF used for position request. Finally, we propose a deep reinforcement learning based localization system to capture the ever-growing complexity of LoRa networks environment and cope with the scalability issue in LoRa enabled massive IoT, and the results show an improvement of 63.3% in terms of accuracy.
翻訳日:2022-05-24 22:51:35 公開日:2022-05-23
# (参考訳) 事前知識のインフォームド事前学習

Informed Pre-Training on Prior Knowledge ( http://arxiv.org/abs/2205.11433v1 )

ライセンス: CC BY 4.0
Laura von Rueden, Sebastian Houben, Kostadin Cvejoski, Christian Bauckhage, Nico Piatkowski(参考訳) トレーニングデータが不足している場合には、事前知識の追加が学習プロセスを支援する。 他の大規模データセットで事前トレーニングされた重み付きニューラルネットワークの初期化は一般的だが、より簡潔な知識の事前トレーニングは見過ごされている。 本稿では,新しいインフォームド機械学習手法を提案し,事前知識を事前学習することを提案する。 形式的知識表現、例えばグラフや方程式は、まず知識プロトタイプの小さな凝縮されたデータセットに変換される。 このような知識プロトタイプのインフォームド事前学習が (i)学習プロセスを高速化する。 (二)十分な訓練データが得られない体制における一般化能力の向上、及び 3) モデルロバスト性を高める。 モデルのどの部分がプロトタイプによって最も影響を受けるかを分析すると、改善は一般的にハイレベルな機能を表現するより深い層からもたらされる。 これは、インフォームドプレトレーニングがセマンティック知識を伝達できることを確認する。 これは、知識に基づく事前学習が既存のアプローチに追加かつ補完的な強みを持つことを示す新しい効果である。

When training data is scarce, the incorporation of additional prior knowledge can assist the learning process. While it is common to initialize neural networks with weights that have been pre-trained on other large data sets, pre-training on more concise forms of knowledge has rather been overlooked. In this paper, we propose a novel informed machine learning approach and suggest to pre-train on prior knowledge. Formal knowledge representations, e.g. graphs or equations, are first transformed into a small and condensed data set of knowledge prototypes. We show that informed pre-training on such knowledge prototypes (i) speeds up the learning processes, (ii) improves generalization capabilities in the regime where not enough training data is available, and (iii) increases model robustness. Analyzing which parts of the model are affected most by the prototypes reveals that improvements come from deeper layers that typically represent high-level features. This confirms that informed pre-training can indeed transfer semantic knowledge. This is a novel effect, which shows that knowledge-based pre-training has additional and complementary strengths to existing approaches.
翻訳日:2022-05-24 22:38:02 公開日:2022-05-23
# (参考訳) SiPRNet: 単一ショット位相検索のためのエンドツーエンド学習

SiPRNet: End-to-End Learning for Single-Shot Phase Retrieval ( http://arxiv.org/abs/2205.11434v1 )

ライセンス: CC BY 4.0
Qiuliang Ye, Li-Wen Wang, Daniel P.K. Lun(参考訳) 位相探索問題に対処する従来の最適化アルゴリズムが開発されている。 しかしながら、性能を満足させるには、ランダムまたは非ランダムのマスクが異なる複数の測定が必要となる。 これにより、実用的なシステムにおけるアルゴリズムの実装に負担がかかる。 さらに悪いことに、光学マスクを実装するには高価な光学装置が必要である。 近年、深層学習、特に畳み込みニューラルネットワーク(CNN)は、様々な画像再構成タスクにおいて重要な役割を果たしている。 しかし,従来のCNN構造では,ドメインの不一致が大きかったため,元の画像をフーリエの測定値から再構成することができなかった。 本稿では,1つのフーリエ強度測定から信号を取得するために,SiPRNetという新しいCNN構造を設計する。 測定のスペクトル情報を有効に活用するために,ドロップアウト層に埋め込まれた新しい多層知覚ブロックを提案し,大域表現を抽出する。 自己注意型2つのアップサンプリングと再構成ブロックを用いて抽出した特徴から信号を復元する。 提案モデルの広範な評価はシミュレーションと光実験の両方のプラットフォーム上で異なるテストデータセットを用いて行われる。 その結果,提案手法はシングルショットマスクレス位相探索において,他のCNNおよび従来の最適化手法よりも一貫して優れていた。 提案手法のソースコードはgithubで公開されている。 https://github.com/qiustander/siprnet。

Traditional optimization algorithms have been developed to deal with the phase retrieval problem. However, multiple measurements with different random or non-random masks are needed for giving a satisfactory performance. This brings a burden to the implementation of the algorithms in practical systems. Even worse, expensive optical devices are required to implement the optical masks. Recently, deep learning, especially convolutional neural networks (CNN), has played important roles in various image reconstruction tasks. However, traditional CNN structure fails to reconstruct the original images from their Fourier measurements because of tremendous domain discrepancy. In this paper, we design a novel CNN structure, named SiPRNet, to recover a signal from a single Fourier intensity measurement. To effectively utilize the spectral information of the measurements, we propose a new Multi-Layer Perception block embedded with the dropout layer to extract the global representations. Two Up-sampling and Reconstruction blocks with self-attention are utilized to recover the signals from the extracted features. Extensive evaluations of the proposed model are performed using different testing datasets on both simulation and optical experimentation platforms. The results demonstrate that the proposed approach consistently outperforms other CNN-based and traditional optimization-based methods in single-shot maskless phase retrieval. The source codes of the proposed method have been released on Github: https://github.com/Qiustander/SiPRNet.
翻訳日:2022-05-24 22:24:17 公開日:2022-05-23
# (参考訳) フェデレート蒸留によるIoTネットワークの室内局在化

Federated Distillation based Indoor Localization for IoT Networks ( http://arxiv.org/abs/2205.11440v1 )

ライセンス: CC BY 4.0
Yaya Etiabi, Marwa Chafii, El Mehdi Amhoud(参考訳) フェデレート蒸留(FD)パラダイムは,特に限られた通信資源を持つ無線センサネットワークにおいて,フェデレーション学習(FL)の代替として提案されている。 しかしながら、最先端のFDアルゴリズムはすべて、分類タスクのみを対象として設計されており、回帰タスクにはあまり注目されていない。 本研究では,回帰学習問題を適切に扱うFDフレームワークを提案する。 そこで,本稿では,屋内ローカライズをベースとするフェデレーション学習(fl)と比較して,良好なトレードオフ通信負荷と精度を示す屋内ローカライズシステムを提案する。 提案手法により,送信ビット数を最大98%削減する。 さらに,提案手法はflよりも拡張性が高いため,無線ネットワークの拡張に対処できる可能性が示唆された。

Federated distillation (FD) paradigm has been recently proposed as a promising alternative to federated learning (FL) especially in wireless sensor networks with limited communication resources. However, all state-of-the art FD algorithms are designed for only classification tasks and less attention has been given to regression tasks. In this work, we propose an FD framework that properly operates on regression learning problems. Afterwards, we present a use-case implementation by proposing an indoor localization system that shows a good trade-off communication load vs. accuracy compared to federated learning (FL) based indoor localization. With our proposed framework, we reduce the number of transmitted bits by up to 98%. Moreover, we show that the proposed framework is much more scalable than FL, thus more likely to cope with the expansion of wireless networks.
翻訳日:2022-05-24 22:07:10 公開日:2022-05-23
# (参考訳) パラメトリックエキスパートによる効率的な学習のためのデータ拡張

Data augmentation for efficient learning from parametric experts ( http://arxiv.org/abs/2205.11448v1 )

ライセンス: CC BY 4.0
Alexandre Galashov, Josh Merel, Nicolas Heess(参考訳) パラメトリックな専門家からデータ効率を向上し、強化と模倣学習を実現するための、シンプルで強力なデータ拡張手法を提案する。 我々は、学生政策の行動を伝えるために、専門家または専門家政策のオンラインまたはオフラインクエリを使用する政策クローニング設定と呼ばれるものに焦点を当てる。 この設定は、例えば行動クローニングの変種や、ダガー、ポリシー蒸留、kl正規化rlなどの他のアルゴリズムの構成要素として、多くの問題において自然に発生する。 提案手法は,APC(Adgressment Policy cloning)を用いて,サンプル軌道周辺領域のフィードバック感度を誘導し,専門家のクローン成功に必要な環境相互作用を劇的に低減する。 高度な自由度制御問題に対する専門家から学生への行動伝達を高度にデータ効率良く達成する。 本稿では,本手法の利点を,ポリシクローニングを構成要素として含む既存かつ広く利用されているアルゴリズムの文脈で示す。 さらに、我々はアプローチの利点を2つの現実的に関連する設定で強調する。 (a)専門家圧縮、すなわち、少ないパラメータを持つ学生に転送すること、及び (b)特権者、すなわち、専門家が生徒と異なる観察空間を有し、通常は特権情報へのアクセスを含む。

We present a simple, yet powerful data-augmentation technique to enable data-efficient learning from parametric experts for reinforcement and imitation learning. We focus on what we call the policy cloning setting, in which we use online or offline queries of an expert or expert policy to inform the behavior of a student policy. This setting arises naturally in a number of problems, for instance as variants of behavior cloning, or as a component of other algorithms such as DAGGER, policy distillation or KL-regularized RL. Our approach, augmented policy cloning (APC), uses synthetic states to induce feedback-sensitivity in a region around sampled trajectories, thus dramatically reducing the environment interactions required for successful cloning of the expert. We achieve highly data-efficient transfer of behavior from an expert to a student policy for high-degrees-of-freedom control problems. We demonstrate the benefit of our method in the context of several existing and widely used algorithms that include policy cloning as a constituent part. Moreover, we highlight the benefits of our approach in two practically relevant settings (a) expert compression, i.e. transfer to a student with fewer parameters; and (b) transfer from privileged experts, i.e. where the expert has a different observation space than the student, usually including access to privileged information.
翻訳日:2022-05-24 21:46:24 公開日:2022-05-23
# (参考訳) グラフ理論によるLiDARデータのロバスト3次元正規抽出

Graph-theoretical approach to robust 3D normal extraction of LiDAR data ( http://arxiv.org/abs/2205.11460v1 )

ライセンス: CC BY 4.0
Arpan Kusari and Wenbo Sun(参考訳) 平面のような)LiDAR点雲からの低次元原始的特徴抽出は、LiDARデータ処理タスクの大多数の基礎を形成する。 LiDARデータ分析における大きな課題は、LiDARデータの不規則な性質から発生し、ある形態のグリッドでデータを正規化するか、三角不規則ネットワーク(TIN)のような三角形メッシュを使用するように強制する。 連結グラフとしてLiDARデータを用いるアプリケーションもいくつか存在するが、LiDARデータモデリングにグラフ理論的アプローチを利用するという基本的な処理はいまだに不足している。 本稿では,LiDAR点雲からの正規推定にグラフィカルアプローチを用いて,このギャップを埋めようとしている。 そこで,各lidar点に対して最寄りの近傍を利用して対応する正規ベクトルを探索し,点サンプルに基づくグラフ平滑性仮定を同時に実施する最適化フレームワークにおいて,正規推定問題を定式化する。 これは非線形制約付き凸最適化問題であり、射影共役勾配降下を用いて解いて一意解が得られる。 最適化問題の強化として、正規点の点積と点間のユークリッド距離に基づいて異なる重み付き解を提供する。 提案する正規抽出法と重み付け戦略の性能を評価するために,まず4つの異なるノイズレベルと4つの異なるチューニングパラメータを持つランダムに生成されたデータセットについて詳細な分析を行う。 最後に,提案手法を大規模合成平面抽出データセットの既存手法に対してベンチマークする。 提案手法とシミュレーションとベンチマークのコードはhttps://github.com/arpan-kusari/graph-plane- Extraction-simulationで公開されている。

Low dimensional primitive feature extraction from LiDAR point clouds (such as planes) forms the basis of majority of LiDAR data processing tasks. A major challenge in LiDAR data analysis arises from the irregular nature of LiDAR data that forces practitioners to either regularize the data using some form of gridding or utilize a triangular mesh such as triangulated irregular network (TIN). While there have been a handful applications using LiDAR data as a connected graph, a principled treatment of utilizing graph-theoretical approach for LiDAR data modelling is still lacking. In this paper, we try to bridge this gap by utilizing graphical approach for normal estimation from LiDAR point clouds. We formulate the normal estimation problem in an optimization framework, where we find the corresponding normal vector for each LiDAR point by utilizing its nearest neighbors and simultaneously enforcing a graph smoothness assumption based on point samples. This is a non-linear constrained convex optimization problem which can then be solved using projected conjugate gradient descent to yield an unique solution. As an enhancement to our optimization problem, we also provide different weighted solutions based on the dot product of the normals and Euclidean distance between the points. In order to assess the performance of our proposed normal extraction method and weighting strategies, we first provide a detailed analysis on repeated randomly generated datasets with four different noise levels and four different tuning parameters. Finally, we benchmark our proposed method against existing state-of-the-art approaches on a large scale synthetic plane extraction dataset. The code for the proposed approach along with the simulations and benchmarking is available at https://github.com/arpan-kusari/graph-plane-extraction-simulation.
翻訳日:2022-05-24 21:19:47 公開日:2022-05-23
# (参考訳) コンテキスト制限は、ニューラルネットワークモデルをより人間らしくする

Context Limitations Make Neural Language Models More Human-Like ( http://arxiv.org/abs/2205.11463v1 )

ライセンス: CC BY 4.0
Tatsuki Kuribayashi, Yohei Oseki, Ana Brassard, Kentaro Inui(参考訳) 現代自然言語処理(NLP)モデルは、人間のような言語処理を示すか? どうやってより人間らしくできるのか? これらの質問は、人間の言語処理と工学的取り組みを理解するための精神言語学の研究に動機づけられている。 本研究では,現代ニューラル言語モデル (LM) と人間による段階的な文処理における文脈アクセスの相違を実証する。 LMが人間の読書行動をより良くシミュレートするために、追加のコンテキスト制限が必要だった。 また,メモリアクセスにおけるヒトとLMのギャップは,特定の構文的構造と関連し,LMのコンテキストアクセスに追加の構文的要素を組み込むことで,認知的妥当性が向上する可能性が示唆された。

Do modern natural language processing (NLP) models exhibit human-like language processing? How can they be made more human-like? These questions are motivated by psycholinguistic studies for understanding human language processing as well as engineering efforts. In this study, we demonstrate the discrepancies in context access between modern neural language models (LMs) and humans in incremental sentence processing. Additional context limitation was needed to make LMs better simulate human reading behavior. Our analyses also showed that human-LM gaps in memory access are associated with specific syntactic constructions; incorporating additional syntactic factors into LMs' context access could enhance their cognitive plausibility.
翻訳日:2022-05-24 21:06:31 公開日:2022-05-23
# (参考訳) SQuality: 長いドキュメントの要約データセットの構築は難しい

SQuALITY: Building a Long-Document Summarization Dataset the Hard Way ( http://arxiv.org/abs/2205.11465v1 )

ライセンス: CC BY 4.0
Alex Wang, Richard Yuanzhe Pang, Angelica Chen, Jason Phang, Samuel R. Bowman(参考訳) 要約データセットは、しばしば、自然に発生するパブリックドメインのサマリー -- ほとんど常に技術的ドメインとの作業が難しい -- をスクレイピングするか、日々のテキストからそれらを抽出するために近似ヒューリスティックを使用して -- によって組み立てられる。 この作業では、要約ベンチマークデータを開発するための、より遅いがより単純なアプローチに目を向けます。 読解時間を記憶するために,文書毎に5つの要約を収集し,まず概要とその後の4つの質問に対処する。 我々は、このプロトコルを使用して、複数の選択データセットQuALITY(Pang et al., 2021)と同じパブリックドメインの短編ストーリー上に構築された疑問に焦点を当てた要約のデータセットであるSQuALITYを収集する。 最先端の要約システムによる実験は、我々のデータセットが困難であり、既存の自動評価指標が品質の弱い指標であることを示している。

Summarization datasets are often assembled either by scraping naturally occurring public-domain summaries -- which are nearly always in difficult-to-work-with technical domains -- or by using approximate heuristics to extract them from everyday text -- which frequently yields unfaithful summaries. In this work, we turn to a slower but more straightforward approach to developing summarization benchmark data: We hire highly-qualified contractors to read stories and write original summaries from scratch. To amortize reading time, we collect five summaries per document, with the first giving an overview and the subsequent four addressing specific questions. We use this protocol to collect SQuALITY, a dataset of question-focused summaries built on the same public-domain short stories as the multiple-choice dataset QuALITY (Pang et al., 2021). Experiments with state-of-the-art summarization systems show that our dataset is challenging and that existing automatic evaluation metrics are weak indicators of quality.
翻訳日:2022-05-24 20:50:19 公開日:2022-05-23
# (参考訳) データから微分方程式を学ぶ

Learning differential equations from data ( http://arxiv.org/abs/2205.11483v1 )

ライセンス: CC BY 4.0
K. D. Olumoyin(参考訳) 微分方程式は物理学、生物学、化学、工学などの分野に起源を持つ問題をモデル化するために用いられる。 近年,データ量の多さから,データから微分方程式モデルを学習するためのデータ駆動手法の探索が活発に行われている。 しかし、多くの数値的手法はしばしば不足する。 ニューラルネットワークとディープラーニングの進歩は、データから微分方程式を学習するデータ駆動ディープラーニングへのシフトを動機付けた。 本研究では,fitzhugh-nagumo方程式などのodeを,隠れ層数やニューラルネットワーク幅の異なるデータから学習することにより,フォワードオイラー型ニューラルネットワークモデルを提案し,その性能をテストする。

Differential equations are used to model problems that originate in disciplines such as physics, biology, chemistry, and engineering. In recent times, due to the abundance of data, there is an active search for data-driven methods to learn Differential equation models from data. However, many numerical methods often fall short. Advancements in neural networks and deep learning, have motivated a shift towards data-driven deep learning methods of learning differential equations from data. In this work, we propose a forward-Euler based neural network model and test its performance by learning ODEs such as the FitzHugh-Nagumo equations from data using different number of hidden layers and different neural network width.
翻訳日:2022-05-24 20:29:02 公開日:2022-05-23
# 協調型マルチエージェント強化学習におけるアドバイスとアドバイスの学習

Learning to Advise and Learning from Advice in Cooperative Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2205.11163v1 )

ライセンス: Link先を確認
Yue Jin, Shuangqing Wei, Jian Yuan, Xudong Zhang(参考訳) 協調学習はマルチエージェント強化学習(MARL)において困難な問題である。 これまでの研究では、エージェント間の認識、クレジットの割り当て、コミュニケーション、エキスパートのデモンストレーションなど、多くの面から調査してきた。 しかし、エージェントの決定構造や調整の階層にはあまり注目されなかった。 本稿では,エージェントの意思決定の時空間構造を考察し,MARLを改善するための新たなアプローチであるLALA(Learning to Advise and Learning from Advice)を提案する。 具体的には,コーディネーションの階層を区別することで,mesoレベルでの意思決定コーディネーションをアドバイザリで強化し,政策判別器を活用し,エージェントのマイクロレベルでの学習を助言することを提案する。 アドバイザは、時間領域と時間領域の両方で意思決定情報を集約し、タスク指向の目的関数を持つ時空間双対グラフ畳み込みニューラルネットワークを用いて協調決定を生成する。 各エージェントは、識別者がエージェントとアドバイザーのポリシーを区別し、その判断に基づいて両者を増強するポリシージェネレーティブ・アドバーサリー・ラーニング(policy generative adversarial learning)手法を介してアドバイスから学習する。 実験の結果,学習効率と調整能力の両面で,LALAがベースラインアプローチよりも優れていることが示された。 コーディネーション機構は,MARLアルゴリズムを解析・改善するための新しい視点と手法を提供する多段階の出現力学と相互情報の観点から検討される。

Learning to coordinate is a daunting problem in multi-agent reinforcement learning (MARL). Previous works have explored it from many facets, including cognition between agents, credit assignment, communication, expert demonstration, etc. However, less attention were paid to agents' decision structure and the hierarchy of coordination. In this paper, we explore the spatiotemporal structure of agents' decisions and consider the hierarchy of coordination from the perspective of multilevel emergence dynamics, based on which a novel approach, Learning to Advise and Learning from Advice (LALA), is proposed to improve MARL. Specifically, by distinguishing the hierarchy of coordination, we propose to enhance decision coordination at meso level with an advisor and leverage a policy discriminator to advise agents' learning at micro level. The advisor learns to aggregate decision information in both spatial and temporal domains and generates coordinated decisions by employing a spatiotemporal dual graph convolutional neural network with a task-oriented objective function. Each agent learns from the advice via a policy generative adversarial learning method where a discriminator distinguishes between the policies of the agent and the advisor and boosts both of them based on its judgement. Experimental results indicate the advantage of LALA over baseline approaches in terms of both learning efficiency and coordination capability. Coordination mechanism is investigated from the perspective of multilevel emergence dynamics and mutual information point of view, which provides a novel perspective and method to analyze and improve MARL algorithms.
翻訳日:2022-05-24 20:22:34 公開日:2022-05-23
# Tyger: 分子特性予測のためのタスクタイプジェネリックアクティブラーニング

Tyger: Task-Type-Generic Active Learning for Molecular Property Prediction ( http://arxiv.org/abs/2205.11279v1 )

ライセンス: Link先を確認
Kuangqi Zhou, Kaixin Wang, Jiashi Feng, Jian Tang, Tingyang Xu, Xinchao Wang(参考訳) 分子の性質を正確に予測する方法は、AIによる薬物発見において重要な問題であり、一般的にはディープラーニングモデルのトレーニングに大量のアノテーションを必要とする。 しかし、アノテーティング分子は専門家による実験を必要とするため、かなりコストがかかる。 アノテーションのコストを削減するため,最も代表的で情報性の高いデータのみをアノテートするためのDeep Active Learning (AL)法を開発した。 しかし、既存の最良深層al法は主に単一の学習タスク(例えば単一ラベル分類)のために開発されており、様々なタスクタイプを含む分子特性予測ではうまく機能しない可能性がある。 本稿では,異なる種類の学習タスクを統一的に処理可能なタスク型ジェネリックアクティブラーニングフレームワーク(tyger)を提案する。 鍵となるのは、化学的に有意な埋め込み空間を学習し、既存の作業のようにタスクタイプ固有のヒューリスティック(例えばクラスワイド予測確率)に頼るのではなく、埋め込みに基づいて能動的選択を行うことである。 具体的には、埋め込み空間を学習するために、分子グラフを対応するSMILES文字列に変換することを学ぶクエリモジュールをインスタンス化する。 さらに,空間から選択したサンプルが代表的かつ情報的であることを保証するため,ドメイン知識に基づく2つの学習目標と,タスク学習者からのフィードバック(例えば,手作業で学習を行うモデル)による埋め込み空間の形成を提案する。 異なるタスクタイプのベンチマークデータセットについて広範な実験を行う。 実験の結果、tygerは分子特性予測において一貫して高いal性能を達成し、ベースラインを高いマージンで上回った。 また,tygerの各コンポーネントの有効性を検証するためのアブレーション実験を行った。

How to accurately predict the properties of molecules is an essential problem in AI-driven drug discovery, which generally requires a large amount of annotation for training deep learning models. Annotating molecules, however, is quite costly because it requires lab experiments conducted by experts. To reduce annotation cost, deep Active Learning (AL) methods are developed to select only the most representative and informative data for annotating. However, existing best deep AL methods are mostly developed for a single type of learning task (e.g., single-label classification), and hence may not perform well in molecular property prediction that involves various task types. In this paper, we propose a Task-type-generic active learning framework (termed Tyger) that is able to handle different types of learning tasks in a unified manner. The key is to learn a chemically-meaningful embedding space and perform active selection fully based on the embeddings, instead of relying on task-type-specific heuristics (e.g., class-wise prediction probability) as done in existing works. Specifically, for learning the embedding space, we instantiate a querying module that learns to translate molecule graphs into corresponding SMILES strings. Furthermore, to ensure that samples selected from the space are both representative and informative, we propose to shape the embedding space by two learning objectives, one based on domain knowledge and the other leveraging feedback from the task learner (i.e., model that performs the learning task at hand). We conduct extensive experiments on benchmark datasets of different task types. Experimental results show that Tyger consistently achieves high AL performance on molecular property prediction, outperforming baselines by a large margin. We also perform ablative experiments to verify the effectiveness of each component in Tyger.
翻訳日:2022-05-24 20:22:11 公開日:2022-05-23
# POLTER:教師なし強化学習のためのポリシー軌道の正規化

POLTER: Policy Trajectory Ensemble Regularization for Unsupervised Reinforcement Learning ( http://arxiv.org/abs/2205.11357v1 )

ライセンス: Link先を確認
Frederik Schubert, Carolin Benjamins, Sebastian D\"ohler, Bodo Rosenhahn, Marius Lindauer(参考訳) 教師なし強化学習(unsupervised reinforcement learning:url)の目的は、教師なし下流タスクのサンプル効率が向上するように、タスクドメイン上の報酬非依存の事前ポリシーを見つけることである。 このような事前ポリシーで初期化されたエージェントは、下流タスクで微調整された場合、より少ないサンプルではるかに高い報酬を得ることができるが、実際どのように最適な事前訓練された事前ポリシーを達成できるかは、未解決の問題である。 本稿では,任意のurlアルゴリズムに適用可能で,特にデータおよび知識に基づくurlアルゴリズムにおいて有用な事前学習を定式化する一般的な手法であるpolter(policy orbital ensemble regularization)を提案する。 事前トレーニング中に発見されたポリシーのアンサンブルを利用し、URLアルゴリズムのポリシーを最適な優先順位に近づける。 本手法は理論的に正当化されており,その実用的効果をホワイトボックスベンチマークで解析し,polterをフルコントロールで研究できる。 本実験では,12のタスクを3つのドメインに分割したUnsupervised Reinforcement Learning Benchmark (URLB)上でPOLTERを評価した。 本稿では,データと知識に基づく多種多様なURLアルゴリズムの性能を,平均19%,ベストケースで最大40%向上させることで,このアプローチの汎用性を実証する。 調律ベースラインと調律POLTERとを公正に比較することにより,URLBの最先端性を確立した。

The goal of Unsupervised Reinforcement Learning (URL) is to find a reward-agnostic prior policy on a task domain, such that the sample-efficiency on supervised downstream tasks is improved. Although agents initialized with such a prior policy can achieve a significantly higher reward with fewer samples when finetuned on the downstream task, it is still an open question how an optimal pretrained prior policy can be achieved in practice. In this work, we present POLTER (Policy Trajectory Ensemble Regularization) - a general method to regularize the pretraining that can be applied to any URL algorithm and is especially useful on data- and knowledge-based URL algorithms. It utilizes an ensemble of policies that are discovered during pretraining and moves the policy of the URL algorithm closer to its optimal prior. Our method is theoretically justified, and we analyze its practical effects on a white-box benchmark, allowing us to study POLTER with full control. In our main experiments, we evaluate POLTER on the Unsupervised Reinforcement Learning Benchmark (URLB), which consists of 12 tasks in 3 domains. We demonstrate the generality of our approach by improving the performance of a diverse set of data- and knowledge-based URL algorithms by 19% on average and up to 40% in the best case. Under a fair comparison with tuned baselines and tuned POLTER, we establish a new the state-of-the-art on the URLB.
翻訳日:2022-05-24 20:21:41 公開日:2022-05-23
# 機械学習を用いたレート分割のためのユーザクラスタリング

User Clustering for Rate Splitting using Machine Learning ( http://arxiv.org/abs/2205.11373v1 )

ライセンス: Link先を確認
Roberto Pereira, Anay Ajit Deshpande, Cristian J. Vaca-Rubio, Xavier Mestre, Andrea Zanella, David Gregoratti, Elisabeth de Carvalho, Petar Popovski(参考訳) 近年提案されているHRS(Hierarchical Rate Splitting)スキームは,無線ネットワークにおける空間的多様性の活用における大幅な改善と,ユーザ間の干渉を最小限に抑えながら高いスループットを実現する。 したがって、このようなHRS方式の大きな課題の1つは、チャネル状態情報(CSI)のみに基づいて、これらのユーザの最適なクラスタリングを知る必要があることである。 このクラスタリング問題はNP困難であることが知られており、最適解を見つけるという管理不能な複雑さに対処するために、ニューラルネットワーク(NN)に基づくスケーラブルでより軽量なクラスタリング機構を提案する。 精度と性能の指標は、NNがノイズの多いチャネル応答に基づいてユーザを学習し、クラスタ化することができ、文献から得られる他のより複雑なクラスタリング方式に匹敵するレートを達成することができることを示している。

Hierarchical Rate Splitting (HRS) schemes proposed in recent years have shown to provide significant improvements in exploiting spatial diversity in wireless networks and provide high throughput for all users while minimising interference among them. Hence, one of the major challenges for such HRS schemes is the necessity to know the optimal clustering of these users based only on their Channel State Information (CSI). This clustering problem is known to be NP hard and, to deal with the unmanageable complexity of finding an optimal solution, in this work a scalable and much lighter clustering mechanism based on Neural Network (NN) is proposed. The accuracy and performance metrics show that the NN is able to learn and cluster the users based on the noisy channel response and is able to achieve a rate comparable to other more complex clustering schemes from the literature.
翻訳日:2022-05-24 20:21:15 公開日:2022-05-23
# 深層学習に基づく電子顕微鏡観察によるナノ粒子相転移の予測

Deep-learning-based prediction of nanoparticle phase transitions during in situ transmission electron microscopy ( http://arxiv.org/abs/2205.11407v1 )

ライセンス: Link先を確認
Wenkai Fu, Steven R. Spurgeon, Chongmin Wang, Yuyan Shao, Wei Wang, Amra Peles(参考訳) 本研究では,長期記憶(LSTM)アルゴリズムと特徴非絡合法を併用して,その場透過電子顕微鏡(TEM)ビデオフレームの時系列を予測できる機械学習機能を開発した。 我々は、過去のフレームのシーケンスの入力に基づいて、将来のビデオフレームのシーケンスを予測するためにディープラーニングモデルを訓練する。 この特徴は、環境TEMデータを用いた動的反応条件下でのAuナノ粒子のサイズ依存構造変化の洞察を与え、形態的進化と触媒特性のモデルを示す。 モデルの性能と予測の精度は,訓練データセットの限られたサイズに基づいて,科学的データ特性に基づいて望ましい。 損失関数のモデル収束と値の平均二乗誤差はトレーニング戦略に依存しており、予測された構造像と基底真理の構造的類似度はおよそ0.7に達する。 この計算された構造類似性は、より大きなベンチマークデータセットを用いてディープラーニングアーキテクチャをトレーニングした場合の値よりも小さく、auナノ粒子の構造遷移を示すのに十分である。 科学データに適用したモデルの性能パラメータは,非科学的なビッグデータで達成されたモデルに及ばないが,反応条件下でのco酸化触媒としてのauナノ微粒子の粒子構造相変換を含む,進化を予測できるモデル能力を示す。 このアプローチを用いることで、新しい自動実験プラットフォームのための化学反応の次のステップを予測できるかもしれない。

We develop the machine learning capability to predict a time sequence of in-situ transmission electron microscopy (TEM) video frames based on the combined long-short-term-memory (LSTM) algorithm and the features de-entanglement method. We train deep learning models to predict a sequence of future video frames based on the input of a sequence of previous frames. This unique capability provides insight into size dependent structural changes in Au nanoparticles under dynamic reaction condition using in-situ environmental TEM data, informing models of morphological evolution and catalytic properties. The model performance and achieved accuracy of predictions are desirable based on, for scientific data characteristic, based on limited size of training data sets. The model convergence and values for the loss function mean square error show dependence on the training strategy, and structural similarity measure between predicted structure images and ground truth reaches the value of about 0.7. This computed structural similarity is smaller than values obtained when the deep learning architecture is trained using much larger benchmark data sets, it is sufficient to show the structural transition of Au nanoparticles. While performance parameters of our model applied to scientific data fall short of those achieved for the non-scientific big data sets, we demonstrate model ability to predict the evolution, even including the particle structural phase transformation, of Au nano particles as catalyst for CO oxidation under the chemical reaction conditions. Using this approach, it may be possible to anticipate the next steps of a chemical reaction for emerging automated experimentation platforms.
翻訳日:2022-05-24 20:21:00 公開日:2022-05-23
# 量子機械学習と絡み合うドロップアウトにおけるオーバーフィッティング

Overfitting in quantum machine learning and entangling dropout ( http://arxiv.org/abs/2205.11446v1 )

ライセンス: Link先を確認
Masahiro Kobayashi, Kohei Nakaji, Naoki Yamamoto(参考訳) 機械学習の最終的な目標は、与えられたトレーニングデータセットに基づいて、未知覚データセットの一般化機能を持つモデル関数を構築することである。 モデル関数に過剰な表現能力がある場合、トレーニングデータに過度に適合し、結果として一般化能力を失う可能性がある。 このような過度に適合する問題を避けるため、古典的な機械学習システムにおいていくつかの技術が開発され、ドロップアウトはそのような効果的な方法の1つである。 本稿では,この手法を量子機械学習理論のエンタングリング・ドロップアウト(enangling dropout)で直接例示する。つまり,与えられたパラメトリド量子回路内の一部のエンタングリングゲートをランダムに除去して,回路の表現可能性を低減する。 いくつかの簡単なケーススタディは、この手法が実際に過剰適合を抑制することを示す。

The ultimate goal in machine learning is to construct a model function that has a generalization capability for unseen dataset, based on given training dataset. If the model function has too much expressibility power, then it may overfit to the training data and as a result lose the generalization capability. To avoid such overfitting issue, several techniques have been developed in the classical machine learning regime, and the dropout is one such effective method. This paper proposes a straightforward analogue of this technique in the quantum machine learning regime, the entangling dropout, meaning that some entangling gates in a given parametrized quantum circuit are randomly removed during the training process to reduce the expressibility of the circuit. Some simple case studies are given to show that this technique actually suppresses the overfitting.
翻訳日:2022-05-24 20:20:35 公開日:2022-05-23
# CELEST:グローバルに協調した脅威検出のためのフェデレートラーニング

CELEST: Federated Learning for Globally Coordinated Threat Detection ( http://arxiv.org/abs/2205.11459v1 )

ライセンス: Link先を確認
Talha Ongun, Simona Boboila, Alina Oprea, Tina Eliassi-Rad, Jason Hiser, Jack Davidson(参考訳) サイバー脅威の状況は近年大きく進化し、新たな脅威の変種が日々出現し、大規模に協調したキャンペーンが普及している。 本研究では,マルウェアの拡散と通信によく使われるプロトコルの一つである,http上のグローバル脅威検出のための連合機械学習フレームワークcelest(collaborative learning for scalable threat detection)を提案する。 celestはフェデレーション学習を活用して、データをローカルに保持する複数のクライアント間でグローバルなモデルを協調的にトレーニングすることで、プライバシと機密性を保証する。 フェデレーション学習技術と統合した新たなアクティブラーニングコンポーネントを通じて,新たな,進化的,グローバルに調整されたサイバー脅威の振る舞いを継続的に発見し,学習する。 我々は、CELESTが個々の組織にほとんど見えない攻撃を公開することができることを示した。 例えば、データ消去マルウェアによる1つの挑戦的な攻撃シナリオでは、グローバルモデルは、ローカルモデルと比較して3倍の精度-リコールAUCを達成する。 我々は2つの大学ネットワークにCELESTをデプロイし、高い精度と低い偽陽性率で悪意のあるHTTP通信を検出することができることを示す。 さらに、CELESTはデプロイ中に、これまで知られていなかった42の悪意のあるURLと20の悪意のあるドメインを1日で検出した。

The cyber-threat landscape has evolved tremendously in recent years, with new threat variants emerging daily, and large-scale coordinated campaigns becoming more prevalent. In this study, we propose CELEST (CollaborativE LEarning for Scalable Threat detection), a federated machine learning framework for global threat detection over HTTP, which is one of the most commonly used protocols for malware dissemination and communication. CELEST leverages federated learning in order to collaboratively train a global model across multiple clients who keep their data locally, thus providing increased privacy and confidentiality assurances. Through a novel active learning component integrated with the federated learning technique, our system continuously discovers and learns the behavior of new, evolving, and globally-coordinated cyber threats. We show that CELEST is able to expose attacks that are largely invisible to individual organizations. For instance, in one challenging attack scenario with data exfiltration malware, the global model achieves a three-fold increase in Precision-Recall AUC compared to the local model. We deploy CELEST on two university networks and show that it is able to detect the malicious HTTP communication with high precision and low false positive rates. Furthermore, during its deployment, CELEST detected a set of previously unknown 42 malicious URLs and 20 malicious domains in one day, which were confirmed to be malicious by VirusTotal.
翻訳日:2022-05-24 20:20:18 公開日:2022-05-23
# プロジェクションフリーオンライン学習における実現可能集合の曲率の活用

Exploiting the Curvature of Feasible Sets for Faster Projection-Free Online Learning ( http://arxiv.org/abs/2205.11470v1 )

ライセンス: Link先を確認
Zakaria Mhammedi(参考訳) 本稿では,オンライン凸最適化(OCO)のための効率的なプロジェクションフリーアルゴリズムを提案する。 Online Gradient Descent (OGD) は、最適$O(\sqrt{T})$ regret boundを保証する古典的なOCOアルゴリズムの例である。 しかし、ogd や他の投影ベースの oco アルゴリズムは、イテレートが $\mathcal{c}$ を外へ踏み出すたびに、実行可能集合 $\mathcal{c}\subset \mathbb{r}^d$ に対してユークリッド射影を実行する必要がある。 様々な利害関係に対して、この射影ステップは特に周囲次元が大きい場合、計算的にコストがかかる。 これはユークリッド射影をリニア最適化(LO)のようなより安価な演算に置き換えるプロジェクションフリーなOCOアルゴリズムの開発を動機付けている。 しかし、最先端のloベースのアルゴリズムは、ocoを後悔するサブオプション$o(t^{3/4})しか達成しない。 本稿では,パラメータフリーオンライン学習の最近の成果を活用し,OCOアルゴリズムを開発した。このアルゴリズムは1ラウンドあたり2回のLOOracle呼び出しを行い,実現可能な集合が強い凸であれば,ほぼ最適の$\widetilde{O}(\sqrt{T})を後悔する。 また、一般的な凸集合に対するアルゴリズムとして、$\widetilde O(d)$ 1ラウンド当たりのLO Oracleへのコール数を期待し、$\widetilde O(T^{2/3})$の後悔を保証し、以前の$O(T^{3/4})$を改良する。 我々は、強い凸集合によって任意の凸集合 $\mathcal{C}$ を近似することで、後者を達成する。そこで、LOは$\widetilde {O}(d)$ LO Oracleへの期待される呼び出し数$\mathcal{C}$ を使って実行することができる。

In this paper, we develop new efficient projection-free algorithms for Online Convex Optimization (OCO). Online Gradient Descent (OGD) is an example of a classical OCO algorithm that guarantees the optimal $O(\sqrt{T})$ regret bound. However, OGD and other projection-based OCO algorithms need to perform a Euclidean projection onto the feasible set $\mathcal{C}\subset \mathbb{R}^d$ whenever their iterates step outside $\mathcal{C}$. For various sets of interests, this projection step can be computationally costly, especially when the ambient dimension is large. This has motivated the development of projection-free OCO algorithms that swap Euclidean projections for often much cheaper operations such as Linear Optimization (LO). However, state-of-the-art LO-based algorithms only achieve a suboptimal $O(T^{3/4})$ regret for general OCO. In this paper, we leverage recent results in parameter-free Online Learning, and develop an OCO algorithm that makes two calls to an LO Oracle per round and achieves the near-optimal $\widetilde{O}(\sqrt{T})$ regret whenever the feasible set is strongly convex. We also present an algorithm for general convex sets that makes $\widetilde O(d)$ expected number of calls to an LO Oracle per round and guarantees a $\widetilde O(T^{2/3})$ regret, improving on the previous best $O(T^{3/4})$. We achieve the latter by approximating any convex set $\mathcal{C}$ by a strongly convex one, where LO can be performed using $\widetilde {O}(d)$ expected number of calls to an LO Oracle for $\mathcal{C}$.
翻訳日:2022-05-24 20:19:52 公開日:2022-05-23
# 寒冷原子雲用集光型新しい光電界イメージング装置

Novel Light Field Imaging Device with Enhanced Light Collection for Cold Atom Clouds ( http://arxiv.org/abs/2205.11480v1 )

ライセンス: Link先を確認
Sanha Cheong (1 and 2), Josef C. Frisch (2), Sean Gasiorowski (2), Jason M. Hogan (1), Michael Kagan (2), Murtaza Safdari (1 and 2), Ariel Schwartzman (2), Maxime Vandegar (2) ((1) Stanford University, Stanford, CA, USA, (2) SLAC National Accelerator Laboratory, Menlo Park, CA, USA)(参考訳) 本稿では,物体の複数ビューを1ショットで撮影する光電界イメージングシステムを提案する。 このシステムは、被写界深度が等しい従来のレンズよりも大きな光の固体角度を受け入れることで、全光収集を最大化するように設計されている。 これは、鏡を使って仮想オブジェクトの平面をポピュレーションし、利用可能な視野と視野の深さを完全に活用することで達成される。 シミュレーションの結果、この設計は、サイズ$\mathcal{o}$(1mm$^3$)の物体の単発トモグラフィーが可能であり、3次元の(3d)分布を再構築し、孤立して1つの角度からアクセスできない特徴を持つことがわかった。 特に原子干渉測定実験で用いられる原子雲の場合、システムはサイズ$\mathcal{O}$(100 $\mu$m)で3Dの縞模様を再構成することができる。 また,このシステムを試作3Dプリントで実演する。 このプロトタイプは、$\mathcal{O}$(1 mm$^{3}$)サイズのオブジェクトの画像を撮影するために使用され、シングルショットイメージ上で動作する3D再構成アルゴリズムは、$\mathcal{O}$(100 $\mu$m)内部の機能の再構築に成功した。 プロトタイプはまた、このシステムを3Dプリンティング技術で構築できることを示しており、光の収集や3D再構成の必要性のある実験において、迅速かつ低コストで展開することができる。 原子干渉計における冷間原子雲のイメージングは、光の集光、高深度フィールド、3次元トモグラフィー再構成により、原子雲を特徴付ける新しいハンドルを提供する新しいタイプのイメージング装置の鍵となる応用である。

We present a light field imaging system that captures multiple views of an object with a single shot. The system is designed to maximize the total light collection by accepting a larger solid angle of light than a conventional lens with equivalent depth of field. This is achieved by populating a plane of virtual objects using mirrors and fully utilizing the available field of view and depth of field. Simulation results demonstrate that this design is capable of single-shot tomography of objects of size $\mathcal{O}$(1 mm$^3$), reconstructing the 3-dimensional (3D) distribution and features not accessible from any single view angle in isolation. In particular, for atom clouds used in atom interferometry experiments, the system can reconstruct 3D fringe patterns with size $\mathcal{O}$(100 $\mu$m). We also demonstrate this system with a 3D-printed prototype. The prototype is used to take images of $\mathcal{O}$(1 mm$^{3}$) sized objects, and 3D reconstruction algorithms running on a single-shot image successfully reconstruct $\mathcal{O}$(100 $\mu$m) internal features. The prototype also shows that the system can be built with 3D printing technology and hence can be deployed quickly and cost-effectively in experiments with needs for enhanced light collection or 3D reconstruction. Imaging of cold atom clouds in atom interferometry is a key application of this new type of imaging device where enhanced light collection, high depth of field, and 3D tomographic reconstruction can provide new handles to characterize the atom clouds.
翻訳日:2022-05-24 20:17:14 公開日:2022-05-23
# 協調中継による半分散連合学習

Semi-Decentralized Federated Learning with Collaborative Relaying ( http://arxiv.org/abs/2205.10998v1 )

ライセンス: Link先を確認
Michal Yemini, Rajarshi Saha, Emre Ozfatura, Deniz G\"und\"uz, Andrea J. Goldsmith(参考訳) 本稿では、クライアントが隣人のローカル更新を中央パラメータサーバ(PS)に中継することで協調する半分散型フェデレーション学習アルゴリズムを提案する。 PSへの通信ラウンド毎に、各クライアントは近隣のクライアントからの更新の局所的なコンセンサスを計算し、最終的に自身のアップデートと近隣のクライアントの重み付け平均をPSに送信する。 これらの平均化重みを適切に最適化し、psにおけるグローバル更新の偏りをなくし、psにおけるグローバル更新のばらつきを低減し、収束率を向上させる。 数値シミュレーションにより,クライアントとps間の間欠接続を前提とした理論上の主張を検証し,提案手法により平均化アルゴリズムと比較して収束率と精度が向上したことを示す。

We present a semi-decentralized federated learning algorithm wherein clients collaborate by relaying their neighbors' local updates to a central parameter server (PS). At every communication round to the PS, each client computes a local consensus of the updates from its neighboring clients and eventually transmits a weighted average of its own update and those of its neighbors to the PS. We appropriately optimize these averaging weights to ensure that the global update at the PS is unbiased and to reduce the variance of the global update at the PS, consequently improving the rate of convergence. Numerical simulations substantiate our theoretical claims and demonstrate settings with intermittent connectivity between the clients and the PS, where our proposed algorithm shows an improved convergence rate and accuracy in comparison with the federated averaging algorithm.
翻訳日:2022-05-24 20:14:32 公開日:2022-05-23
# HessianFR:ミニマックス最適化のための効率の良いHessian-based Follow-the-Ridgeアルゴリズム

HessianFR: An Efficient Hessian-based Follow-the-Ridge Algorithm for Minimax Optimization ( http://arxiv.org/abs/2205.11030v1 )

ライセンス: Link先を確認
Yihang Gao, Huafeng Liu, Michael K. Ng and Mingjie Zhou(参考訳) 微分可能な2プレイヤーシーケンシャルゲーム(例えば、GANによる画像生成)の幅広い応用は、効率的で高速なアルゴリズムを研究する研究者の関心と関心を高めている。 既存のアルゴリズムのほとんどは同時ゲーム、すなわち凸凸ペイオフ関数の優れた特性に基づいて開発されているが、異なる設定のシーケンシャルゲームでは適用できない。 従来の勾配降下上昇アルゴリズムのいくつかは、理論的および数値的に同時ゲームの局所ナッシュ平衡や、シーケンシャルゲームの局所ミニマックス(すなわち局所スタッケルバーグ平衡)を見つけることができない。 本稿では,理論的保証のあるヘッセン式Follow-the-RidgeアルゴリズムであるHessianFRを提案する。 さらに、確率アルゴリズムの収束とヘッセン逆の近似を利用してアルゴリズム効率を向上させる。 合成画像と実世界の大規模画像データセット(mnist、cifar-10、celebaなど)で、gan(generative adversarial network)を訓練する一連の実験が行われている。 実験結果から,提案したHessianFRは収束および画像生成品質の点でベースラインを上回っていることが示された。

Wide applications of differentiable two-player sequential games (e.g., image generation by GANs) have raised much interest and attention of researchers to study efficient and fast algorithms. Most of the existing algorithms are developed based on nice properties of simultaneous games, i.e., convex-concave payoff functions, but are not applicable in solving sequential games with different settings. Some conventional gradient descent ascent algorithms theoretically and numerically fail to find the local Nash equilibrium of the simultaneous game or the local minimax (i.e., local Stackelberg equilibrium) of the sequential game. In this paper, we propose the HessianFR, an efficient Hessian-based Follow-the-Ridge algorithm with theoretical guarantees. Furthermore, the convergence of the stochastic algorithm and the approximation of Hessian inverse are exploited to improve algorithm efficiency. A series of experiments of training generative adversarial networks (GANs) have been conducted on both synthetic and real-world large-scale image datasets (e.g. MNIST, CIFAR-10 and CelebA). The experimental results demonstrate that the proposed HessianFR outperforms baselines in terms of convergence and image generation quality.
翻訳日:2022-05-24 20:14:17 公開日:2022-05-23
# gba:レコメンデーションモデルのための同期と非同期のトレーニングを切り替えるチューニングフリーアプローチ

GBA: A Tuning-free Approach to Switch between Synchronous and Asynchronous Training for Recommendation Model ( http://arxiv.org/abs/2205.11048v1 )

ライセンス: Link先を確認
Wenbo Su, Yuanxing Zhang, Yufeng Cai, Kaixu Ren, Pengjie Wang, Huimin Yi, Yue Song, Jing Chen, Hongbo Deng, Jian Xu, Lin Qu, Bo zheng(参考訳) パラメータサーバ(PS)アーキテクチャ上での高速非同期トレーニングとオールリデュース(AR)アーキテクチャ上での高性能同期トレーニングは、リコメンダシステムにおいて最も一般的な分散トレーニングモードである。 同期ARトレーニングは、より高いトレーニング効率を持つように設計されているが、特に限られたコンピューティングリソースの下で、共有クラスタにストラグラー(スローワーカー)が存在する場合、非同期PSトレーニングは、トレーニング速度においてより良い選択となるだろう。 これら2つのトレーニングモードの利点を最大限に活用するには、クラスタの状態に応じてそれらを切り替えるのが理想的な方法だ。 チューニング不要なアプローチには,勾配値の異なる分布と,ストラグラーからの安定勾配の2つの障害がある。 本稿では,ps上でのグローバルバッチ勾配集約(gba)を提案し,同期トレーニングと同じグローバルバッチサイズの勾配を集約して適用する。 トークン制御プロセスは、勾配を組み立て、厳密な安定度で勾配を減衰させる。 本稿では,GBAの勾配安定度に対する推奨モデルに対するロバスト性を示す収束解析を提案する。 3つの産業規模のレコメンデーション・タスクの実験から、GBAはスイッチングのための効果的なチューニング不要なアプローチであることが示された。 最先端の非同期トレーニングと比較すると、GBAはAUCメトリックの最大0.2%の改善を実現している。 一方、歪んだハードウェアリソースの下では、同期トレーニングと比較して、GBAは少なくとも2.4倍スピードアップする。

High-concurrency asynchronous training upon parameter server (PS) architecture and high-performance synchronous training upon all-reduce (AR) architecture are the most commonly deployed distributed training modes for recommender systems. Although the synchronous AR training is designed to have higher training efficiency, the asynchronous PS training would be a better choice on training speed when there are stragglers (slow workers) in the shared cluster, especially under limited computing resources. To take full advantages of these two training modes, an ideal way is to switch between them upon the cluster status. We find two obstacles to a tuning-free approach: the different distribution of the gradient values and the stale gradients from the stragglers. In this paper, we propose Global Batch gradients Aggregation (GBA) over PS, which aggregates and applies gradients with the same global batch size as the synchronous training. A token-control process is implemented to assemble the gradients and decay the gradients with severe staleness. We provide the convergence analysis to demonstrate the robustness of GBA over the recommendation models against the gradient staleness. Experiments on three industrial-scale recommendation tasks show that GBA is an effective tuning-free approach for switching. Compared to the state-of-the-art derived asynchronous training, GBA achieves up to 0.2% improvement on the AUC metric, which is significant for the recommendation models. Meanwhile, under the strained hardware resource, GBA speeds up at least 2.4x compared to the synchronous training.
翻訳日:2022-05-24 20:13:56 公開日:2022-05-23
# WOGAN - SBST 2022 CPSツールコンペティション

WOGAN at the SBST 2022 CPS Tool Competition ( http://arxiv.org/abs/2205.11064v1 )

ライセンス: Link先を確認
Jarkko Peltom\"aki, Frankie Spencer, Ivan Porres(参考訳) WOGANは、Wasserstein生成逆数ネットワークに基づくオンラインテスト生成アルゴリズムである。 本稿では、自動運転車のAIに関するSBST 2022 CPSツールコンテストでWOGANがどのように機能し、その性能を要約する。

WOGAN is an online test generation algorithm based on Wasserstein generative adversarial networks. In this note, we present how WOGAN works and summarize its performance in the SBST 2022 CPS tool competition concerning the AI of a self-driving car.
翻訳日:2022-05-24 20:13:30 公開日:2022-05-23
# 離散選択のためのグラフベース手法

Graph-Based Methods for Discrete Choice ( http://arxiv.org/abs/2205.11365v1 )

ライセンス: Link先を確認
Kiran Tomlinson and Austin R. Benson(参考訳) 個人による選択は、例えば、投票する政治候補者を選ぶか、共有するソーシャルメディア投稿を選ぶか、購入するブランドを選ぶか、など、幅広い影響を与える。 離散選択モデルは、そのようなデータから個人の好みを学ぶための重要なツールである。 さらに、適合性や伝染などの社会的要因は個人の選択に影響を及ぼす。 これらの要素を選択モデルに組み込む既存の方法は、ソーシャルネットワーク全体を考慮せず、手作りの機能を必要とする。 これらの制限を克服するために、ネットワーク化されたコンテキストにおける選択を研究するためにグラフ学習を使う。 グラフ学習手法を離散的選択に使用できる3つの方法を明らかにする: 学習選択者表現、選択モデルパラメータの規則化、ネットワークから直接予測を構築する。 それぞれのカテゴリでメソッドを設計し、実際の選択データセットでそれらをテストします。 ソーシャルネットワーク構造を組み込むことで、標準的な計量的選択モデルであるマルチノミアルロジットの予測を改善することができることを示す。 アプリのインストールはソーシャルなコンテキストに影響されているという証拠を提供するが、同じ参加者の間でアプリの利用にそのような影響はない。 選挙データでは、典型的なアプローチである分類や回帰よりも、個別選択フレームワークが提供する追加の洞察を強調する。 合成データでは,選択モデルでソーシャル情報を利用する場合の複雑さの利点を示す。

Choices made by individuals have widespread impacts--for instance, people choose between political candidates to vote for, between social media posts to share, and between brands to purchase--moreover, data on these choices are increasingly abundant. Discrete choice models are a key tool for learning individual preferences from such data. Additionally, social factors like conformity and contagion influence individual choice. Existing methods for incorporating these factors into choice models do not account for the entire social network and require hand-crafted features. To overcome these limitations, we use graph learning to study choice in networked contexts. We identify three ways in which graph learning techniques can be used for discrete choice: learning chooser representations, regularizing choice model parameters, and directly constructing predictions from a network. We design methods in each category and test them on real-world choice datasets, including county-level 2016 US election results and Android app installation and usage data. We show that incorporating social network structure can improve the predictions of the standard econometric choice model, the multinomial logit. We provide evidence that app installations are influenced by social context, but we find no such effect on app usage among the same participants, which instead is habit-driven. In the election data, we highlight the additional insights a discrete choice framework provides over classification or regression, the typical approaches. On synthetic data, we demonstrate the sample complexity benefit of using social information in choice models.
翻訳日:2022-05-24 20:12:22 公開日:2022-05-23
# 物理インフォームド(および)演算子学習における近似誤差のジェネリック境界

Generic bounds on the approximation error for physics-informed (and) operator learning ( http://arxiv.org/abs/2205.11393v1 )

ライセンス: Link先を確認
Tim De Ryck, Siddhartha Mishra(参考訳) 本稿では,物理インフォームドニューラルネットワーク(PINN)やDeepONetsやFNOといった演算子学習アーキテクチャ,および物理インフォームド演算子学習のための厳密な境界を導出するフレームワークを提案する。 これらの境界は、PINNと(物理インフォームド)ディープノネットあるいはFNOが、一般的な偏微分方程式(PDE)の解や解作用素を効率的に近似することを保証している。 本フレームワークは,既存のニューラルネットワーク近似結果を用いて,pdesのより関連する学習アーキテクチャの境界を求める。 本稿では、物理インフォームド演算子の近似誤差の最初の厳密な境界を導出し、PINN(および物理インフォームドDeepONetsおよびFNOs)が非線形パラボリックPDEの近似における次元性の呪いを軽減することを示す。

We propose a very general framework for deriving rigorous bounds on the approximation error for physics-informed neural networks (PINNs) and operator learning architectures such as DeepONets and FNOs as well as for physics-informed operator learning. These bounds guarantee that PINNs and (physics-informed) DeepONets or FNOs will efficiently approximate the underlying solution or solution operator of generic partial differential equations (PDEs). Our framework utilizes existing neural network approximation results to obtain bounds on more involved learning architectures for PDEs. We illustrate the general framework by deriving the first rigorous bounds on the approximation error of physics-informed operator learning and by showing that PINNs (and physics-informed DeepONets and FNOs) mitigate the curse of dimensionality in approximating nonlinear parabolic PDEs.
翻訳日:2022-05-24 20:12:02 公開日:2022-05-23
# Ensemble Digital Twin Modelingによる一過性診断

Advanced Transient Diagnostic with Ensemble Digital Twin Modeling ( http://arxiv.org/abs/2205.11469v1 )

ライセンス: Link先を確認
Edward Chen, Linyu Lin, Nam T. Dinh(参考訳) システムコードの代わりに低次モデリング(rom)のためのデジタルトウィンとして機械学習(ml)モデルを使用することは、ここ数年で勢いを増している。 しかし、原子炉過渡現象の複雑で非線形的な性質と必要なタスクが多岐にわたるため、単一のMLモデルが全てのタスクにわたって一般化することは不可能である。 本稿では,予測結果を高めるために,特定のデジタル双対MLモデルにアンサンブルを組み込む。 このアンサンブルはまた、状態変数の間接的確率的追跡法を使用して、観測不能な安全目標の正確な予測を生成する。 Ensemble Diagnostic Digital-twin Modeling (EDDM)と呼ばれるユニークな手法は、組み込まれた診断デジタルツインモデルから最も適切な予測を選択できるだけでなく、単一のモデルではなくトレーニングに関連する一般化誤差を低減できる。

The use of machine learning (ML) model as digital-twins for reduced-order-modeling (ROM) in lieu of system codes has grown traction over the past few years. However, due to the complex and non-linear nature of nuclear reactor transients as well as the large range of tasks required, it is infeasible for a single ML model to generalize across all tasks. In this paper, we incorporate issue specific digital-twin ML models with ensembles to enhance the prediction outcome. The ensemble also utilizes an indirect probabilistic tracking method of surrogate state variables to produce accurate predictions of unobservable safety goals. The unique method named Ensemble Diagnostic Digital-twin Modeling (EDDM) can select not only the most appropriate predictions from the incorporated diagnostic digital-twin models but can also reduce generalization error associated with training as opposed to single models.
翻訳日:2022-05-24 20:11:43 公開日:2022-05-23
# (参考訳) 言語否定からの肯定的解釈を明らかにする質問応答駆動アプローチ

A Question-Answer Driven Approach to Reveal Affirmative Interpretations from Verbal Negations ( http://arxiv.org/abs/2205.11467v1 )

ライセンス: CC BY 4.0
Md Mosharaf Hossain, Luke Holman, Anusha Kakileti, Tiffany Iris Kao, Nathan Raul Brito, Aaron Abraham Mathews, and Eduardo Blanco(参考訳) 本稿では,動詞否定からの肯定的解釈(例えば,否定手がかりが動詞を文法的に修飾する場合)を明らかにするための質問応答駆動アプローチについて検討する。 4,472個の動詞の否定からなる新しいコーパスを作成し,その67.1%が事象が実際に発生していることを示す。 アノテーションは、肯定的な解釈を伝える3001の否定に対して7,277の質問を生成し、答える。 まず,自然言語推論(nli)分類タスクとして否定から肯定的な解釈を明らかにする問題を取り上げる。 実験の結果,既存のNLIコーパスで訓練した最先端トランスフォーマーでは,肯定的な解釈が得られていないことがわかった。 しかし、微調整が小さな改善をもたらすことも観察しています。 nli分類に加えて,t5変圧器による否定から直接肯定解釈を生成するというより現実的なタスクについても検討する。 T5は人間を著しく過小評価するので、生成タスクは依然として課題である。

This paper explores a question-answer driven approach to reveal affirmative interpretations from verbal negations (i.e., when a negation cue grammatically modifies a verb). We create a new corpus consisting of 4,472 verbal negations and discover that 67.1% of them convey that an event actually occurred. Annotators generate and answer 7,277 questions for the 3,001 negations that convey an affirmative interpretation. We first cast the problem of revealing affirmative interpretations from negations as a natural language inference (NLI) classification task. Experimental results show that state-of-the-art transformers trained with existing NLI corpora are insufficient to reveal affirmative interpretations. We also observe, however, that fine-tuning brings small improvements. In addition to NLI classification, we also explore the more realistic task of generating affirmative interpretations directly from negations with the T5 transformer. We conclude that the generation task remains a challenge as T5 substantially underperforms humans.
翻訳日:2022-05-24 20:09:42 公開日:2022-05-23
# 非パラメトリックフィルタテンソル分解を用いた多変数関数の分離

Decoupling multivariate functions using a nonparametric filtered tensor decomposition ( http://arxiv.org/abs/2205.11153v1 )

ライセンス: Link先を確認
Jan Decuyper, Koen Tiels, Siep Weiland, Mark C. Runacres and Johan Schoukens(参考訳) 多変量関数は、様々なデータ駆動モデルで自然に現れる。 一般的な選択は、ベース拡張またはニューラルネットワークの形式での表現である。 非常に効果的だが、結果として得られる関数は、要求されるパラメータが多ければ多いため、解釈が難しい傾向がある。 デカップリング技術は、非線形性の代替表現を提供することを目的としている。 いわゆる疎結合形式はしばしば、高度に構造化され、解釈可能性を好む一方で、関係のより効率的なパラメータ化である。 本研究では, 1次微分情報のフィルタテンソル分解に基づく2つの新しいアルゴリズムを提案する。 この方法は滑らかな疎結合関数の非パラメトリック推定を返す。 直接応用は非線形システム識別と機械学習の分野において見られる。

Multivariate functions emerge naturally in a wide variety of data-driven models. Popular choices are expressions in the form of basis expansions or neural networks. While highly effective, the resulting functions tend to be hard to interpret, in part because of the large number of required parameters. Decoupling techniques aim at providing an alternative representation of the nonlinearity. The so-called decoupled form is often a more efficient parameterisation of the relationship while being highly structured, favouring interpretability. In this work two new algorithms, based on filtered tensor decompositions of first order derivative information are introduced. The method returns nonparametric estimates of smooth decoupled functions. Direct applications are found in, i.a. the fields of nonlinear system identification and machine learning.
翻訳日:2022-05-24 19:52:46 公開日:2022-05-23
# ドイツ電力不均衡価格の確率予測

Probabilistic forecasting of German electricity imbalance prices ( http://arxiv.org/abs/2205.11439v1 )

ライセンス: Link先を確認
Micha{\l} Narajewski(参考訳) 再生可能エネルギー容量の指数的な成長は、電力価格と発電に大きな不確実性をもたらした。 この課題に対処するため、エネルギー取引所は、特にイントラデイとバランスの取れた市場において、さらなる取引の可能性を模索している。 両市場に参加しているエネルギートレーダーにとって、不均衡価格の予測は特に利子である。 したがって,本書では,不均衡価格の短期的確率予測を行い,本科目における文献の不足に寄与する。 予測は納入の30分前に行われ、トレーダは依然として取引先を選択することができる。 不均衡価格の分布は、電力価格予測文献でよく知られた手法、すなわちブートストラップ、gamlss、確率的ニューラルネットワークを用いてモデル化され、予測される。 これらの手法は、有意義な転がりウィンドウの研究において、ナイーブなベンチマークと比較される。 その結果、日内連続物価指数を実質的に上回っていないため、日内市場とバランス市場の間の効率性が示される。 一方で、彼らは経験的なカバレッジを大幅に改善します。 分析はドイツ市場で行われたが、同様の構造を持つ他のどの市場にも容易に適用できた。

The exponential growth of renewable energy capacity has brought much uncertainty to electricity prices and to electricity generation. To address this challenge, the energy exchanges have been developing further trading possibilities, especially the intraday and balancing markets. For an energy trader participating in both markets, the forecasting of imbalance prices is of particular interest. Therefore, in this manuscript we conduct a very short-term probabilistic forecasting of imbalance prices, contributing to the scarce literature in this novel subject. The forecasting is performed 30 minutes before the delivery, so that the trader might still choose the trading place. The distribution of the imbalance prices is modelled and forecasted using methods well-known in the electricity price forecasting literature: lasso with bootstrap, gamlss, and probabilistic neural networks. The methods are compared with a naive benchmark in a meaningful rolling window study. The results provide evidence of the efficiency between the intraday and balancing markets as the sophisticated methods do not substantially overperform the intraday continuous price index. On the other hand, they significantly improve the empirical coverage. The analysis was conducted on the German market, however it could be easily applied to any other market of similar structure.
翻訳日:2022-05-24 19:52:37 公開日:2022-05-23
# 幅ベースモデル検査から幅ベース自動定理証明へ

From Width-Based Model Checking to Width-Based Automated Theorem Proving ( http://arxiv.org/abs/2205.10995v1 )

ライセンス: Link先を確認
Mateus de Oliveira Oliveira and Farhad Vadiee(参考訳) パラメータ化複雑性理論の分野では、グラフ上の組合せ特性に対する幅に基づくモデル検査アルゴリズムの開発とグラフ幅測度の研究が密接に関連している。 本研究では,境界幅のグラフのクラス上でのグラフ理論的予想の有効性を検証するアルゴリズムに,広い範囲のモデルチェックアルゴリズムを変換する一般的なフレームワークを提案する。 我々のフレームワークはモジュラーであり、treewidth や cliquewidth など、グラフのよく研究された幅測度に関して適用できる。 フレームワークの定量的応用として、長年続くグラフ理論の予想に対して、入力として$k$の数値を取るアルゴリズムが存在し、$k^{O(1)} において、この予想が木幅の全グラフ上で最大$k$で有効であるか否かを正確に決定する。 これにより,従来技術で得られた上限値を大幅に改善する。

In the field of parameterized complexity theory, the study of graph width measures has been intimately connected with the development of width-based model checking algorithms for combinatorial properties on graphs. In this work, we introduce a general framework to convert a large class of width-based model-checking algorithms into algorithms that can be used to test the validity of graph-theoretic conjectures on classes of graphs of bounded width. Our framework is modular and can be applied with respect to several well-studied width measures for graphs, including treewidth and cliquewidth. As a quantitative application of our framework, we show that for several long-standing graph-theoretic conjectures, there exists an algorithm that takes a number $k$ as input and correctly determines in time double-exponential in $k^{O(1)}$ whether the conjecture is valid on all graphs of treewidth at most $k$. This improves significantly on upper bounds obtained using previously available techniques.
翻訳日:2022-05-24 19:52:03 公開日:2022-05-23
# ニューラルウェザーモデルを用いたグローバル極熱予測

Global Extreme Heat Forecasting Using Neural Weather Models ( http://arxiv.org/abs/2205.10972v1 )

ライセンス: Link先を確認
Ignacio Lopez-Gomez, Amy McGovern, Shreya Agrawal, Jason Hickey(参考訳) 熱波は温暖化に伴う頻度と深刻度の増加を想定している。 警告システムの改善は、生命の喪失、山火事、停電、収穫量の減少に寄与する。 本研究では,過去データに基づいて学習した深層学習システムが,短・中・下季節の時間スケールで極端な熱を予測できる可能性を探る。 この目的のために、畳み込みアーキテクチャを備えた一連のニューラルウェザーモデル(nwms)を訓練し、1日から28日前、解像度$\sim200~\mathrm{km}$および立方体球面上の表面温度異常を予測する。 NWMは、ERA5再分析製品と、平均二乗誤差や極端を対象とする指数的損失を含む一連の候補損失関数を用いて訓練される。 極度に強調するために調整されたカスタム損失を最小限に抑えるトレーニングモデルは,平均二乗誤差損失をトレーニングしたNWMと比較して,熱波予測タスクの大幅な技術向上につながることがわかった。 この改善は、一般的な温度予測タスクのスキルをほとんど減らさずに達成でき、数エポックのカスタムロスでnwmsをリトレーニングすることで、転送学習により効率的に実現することができる。 さらに,対称指数損失を用いることで,鉛時間によるNWM予測の平滑化が抑制されることがわかった。 最良なNWMは,すべてのリード時間および温度異常閾値を考慮した回帰感覚の持続性に優れ,最初の2日間および2週間後のECMWFサブシーズン・シーズン制御予測と比較して,正の回帰能力を示す。

Heat waves are projected to increase in frequency and severity with global warming. Improved warning systems would help reduce the associated loss of lives, wildfires, power disruptions, and reduction in crop yields. In this work, we explore the potential for deep learning systems trained on historical data to forecast extreme heat on short, medium and subseasonal timescales. To this purpose, we train a set of neural weather models (NWMs) with convolutional architectures to forecast surface temperature anomalies globally, 1 to 28 days ahead, at $\sim200~\mathrm{km}$ resolution and on the cubed sphere. The NWMs are trained using the ERA5 reanalysis product and a set of candidate loss functions, including the mean squared error and exponential losses targeting extremes. We find that training models to minimize custom losses tailored to emphasize extremes leads to significant skill improvements in the heat wave prediction task, compared to NWMs trained on the mean squared error loss. This improvement is accomplished with almost no skill reduction in the general temperature prediction task, and it can be efficiently realized through transfer learning, by re-training NWMs with the custom losses for a few epochs. In addition, we find that the use of a symmetric exponential loss reduces the smoothing of NWM forecasts with lead time. Our best NWM is able to outperform persistence in a regressive sense for all lead times and temperature anomaly thresholds considered, and shows positive regressive skill compared to the ECMWF subseasonal-to-seasonal control forecast within the first two forecast days and after two weeks.
翻訳日:2022-05-24 19:45:06 公開日:2022-05-23
# online generative adversarial network と multi-armed bandits を用いたサイバー物理システムの複数要件の改ざん

Falsification of Multiple Requirements for Cyber-Physical Systems Using Online Generative Adversarial Networks and Multi-Armed Bandits ( http://arxiv.org/abs/2205.11057v1 )

ライセンス: Link先を確認
Jarkko Peltom\"aki, Ivan Porres(参考訳) 本稿では,信号時相論理 (STL) で表されるサイバー物理システムの安全性要件について検討する。 この問題は、stlロバストネス関数を介して最適化問題にすることができる。 本稿では,複数の要件を持つファルシフィケーションシステムに焦点をあてる。 本稿では,オンライン生成逆ネットワーク(GAN)をテストジェネレータとして利用して,そのような接続要件を解決することを提案する。 我々の主な貢献は、各要求に対して GAN を用いてそれぞれ$\varphi_i$ を用いて、共役要求 $\varphi_1 \land \cdots \land \varphi_n$ を偽るアルゴリズムである。 マルチアームバンディットアルゴリズムのアイデアを駆使して,各ステップ毎に1つのganのみをトレーニングし,リソースを節約する。 実験の結果,このマルチアームバンディットアルゴリズムは,資源の節約に加えて,テスト対象のシステムに対する実行回数が少なく,要求を満たすことができることがわかった。 (i)完全連結要件に対して1つのganを訓練するアルゴリズムと (ii)アルゴリズムは常に各ステップで$n$GANを訓練する。

We consider the problem of falsifying safety requirements of Cyber-Physical Systems expressed in signal temporal logic (STL). This problem can be turned into an optimization problem via STL robustness functions. In this paper, our focus is in falsifying systems with multiple requirements. We propose to solve such conjunctive requirements using online generative adversarial networks (GANs) as test generators. Our main contribution is an algorithm which falsifies a conjunctive requirement $\varphi_1 \land \cdots \land \varphi_n$ by using a GAN for each requirement $\varphi_i$ separately. Using ideas from multi-armed bandit algorithms, our algorithm only trains a single GAN at every step, which saves resources. Our experiments indicate that, in addition to saving resources, this multi-armed bandit algorithm can falsify requirements with fewer number of executions on the system under test when compared to (i) an algorithm training a single GAN for the complete conjunctive requirement and (ii) an algorithm always training $n$ GANs at each step.
翻訳日:2022-05-24 19:44:36 公開日:2022-05-23
# サイバー物理システムのためのオンラインテスト生成のためのwasserstein生成広告ネットワーク

Wasserstein Generative Adversarial Networks for Online Test Generation for Cyber Physical Systems ( http://arxiv.org/abs/2205.11060v1 )

ライセンス: Link先を確認
Jarkko Peltom\"aki, Frankie Spencer, Ivan Porres(参考訳) 本稿では,Wasserstein Generative Adversarial Networksに基づく新しいオンラインテスト生成アルゴリズムWOGANを提案する。 WOGANは、フェールテストを決定するフィットネス機能を持つテスト対象のシステムに適用可能な汎用ブラックボックステストジェネレータである。 概念実証として、車両の車線支援システムが指定された車線に留まらないような道路を生成することにより、WOGANを評価する。 我々のアルゴリズムは以前に発表されたアルゴリズムと競合する性能を持つ。

We propose a novel online test generation algorithm WOGAN based on Wasserstein Generative Adversarial Networks. WOGAN is a general-purpose black-box test generator applicable to any system under test having a fitness function for determining failing tests. As a proof of concept, we evaluate WOGAN by generating roads such that a lane assistance system of a car fails to stay on the designated lane. We find that our algorithm has a competitive performance respect to previously published algorithms.
翻訳日:2022-05-24 19:44:18 公開日:2022-05-23
# B\'ezier Flow:多目的最適化のための表面のグラディエントDescent法

B\'ezier Flow: a Surface-wise Gradient Descent Method for Multi-objective Optimization ( http://arxiv.org/abs/2205.11099v1 )

ライセンス: Link先を確認
Akiyoshi Sannai, Yasunari Hikima, Ken Kobayashi, Akinori Tanaka, Naoki Hamada(参考訳) 本稿では,B'ezier Simplexモデルを用いて,単目的最適化アルゴリズムから多目的最適化アルゴリズムを構築する方法を提案する。 また、確率近似学習(PAC)における最適化アルゴリズムの安定性を拡張し、PAC安定性を定義する。 これは高い確率で一般化の上界につながることを証明している。 さらに,勾配勾配に基づく単一目的最適化アルゴリズムから導出した多目的最適化アルゴリズムがpac安定であることを示す。 数値実験を行い,本手法が既存の多目的最適化アルゴリズムよりも低い一般化誤差を実現できることを示した。

In this paper, we propose a strategy to construct a multi-objective optimization algorithm from a single-objective optimization algorithm by using the B\'ezier simplex model. Also, we extend the stability of optimization algorithms in the sense of Probability Approximately Correct (PAC) learning and define the PAC stability. We prove that it leads to an upper bound on the generalization with high probability. Furthermore, we show that multi-objective optimization algorithms derived from a gradient descent-based single-objective optimization algorithm are PAC stable. We conducted numerical experiments and demonstrated that our method achieved lower generalization errors than the existing multi-objective optimization algorithm.
翻訳日:2022-05-24 19:44:10 公開日:2022-05-23
# 木MDPによる分岐学習

Learning to branch with Tree MDPs ( http://arxiv.org/abs/2205.11107v1 )

ライセンス: Link先を確認
Lara Scavuzzo and Feng Yang Chen and Didier Ch\'etelat and Maxime Gasse and Andrea Lodi and Neil Yorke-Smith and Karen Aardal(参考訳) State-of-the-the-art Mixed Integer Linear Program (MILP) は、系統木探索と分岐規則のようなハードコードなヒューリスティックスを組み合わせている。 近年,データから分岐規則を学習するアイデアが注目され,強い分岐エキスパートの高速近似を学習することで有望な結果が得られた。 そこで本研究では,Reinforcement Learning (RL) を通じて,スクラッチから分岐ルールを学習することを提案する。 我々は、Etheve et al. (2020) の研究を再考し、分岐学習に適したフレームワークを提供する時間的MDPの一般化であるツリーマルコフ決定過程(tree Markov Decision Processes)を提案する。 木ポリシー勾配定理を導出し、その時相のものと比べ、より優れた信用割当を示す。 我々は,MDPが学習収束を改善するための計算実験を通じて,MILPにおける学習とブランチの問題に対処するための有望な枠組みを提供する。

State-of-the-art Mixed Integer Linear Program (MILP) solvers combine systematic tree search with a plethora of hard-coded heuristics, such as the branching rule. The idea of learning branching rules from data has received increasing attention recently, and promising results have been obtained by learning fast approximations of the strong branching expert. In this work, we instead propose to learn branching rules from scratch via Reinforcement Learning (RL). We revisit the work of Etheve et al. (2020) and propose tree Markov Decision Processes, or tree MDPs, a generalization of temporal MDPs that provides a more suitable framework for learning to branch. We derive a tree policy gradient theorem, which exhibits a better credit assignment compared to its temporal counterpart. We demonstrate through computational experiments that tree MDPs improve the learning convergence, and offer a promising framework for tackling the learning-to-branch problem in MILPs.
翻訳日:2022-05-24 19:44:01 公開日:2022-05-23
# GraphAD: エンティティワイズ多変量時系列異常検出のためのグラフニューラルネットワーク

GraphAD: A Graph Neural Network for Entity-Wise Multivariate Time-Series Anomaly Detection ( http://arxiv.org/abs/2205.11139v1 )

ライセンス: Link先を確認
Xu Chen, Qiu Qiu, Changshan Li, Kunqing Xie(参考訳) 近年、サードパーティープラットフォームの出現と発展は、オンラインからオフライン(o2o)ビジネスの成長に大きく寄与している。 しかし、大量のトランザクションデータが小売業者、特に運用条件における異常検出に新たな課題をもたらす。 これにより、プラットフォームは、小売業者の管理負担を軽減するために、組込み異常検出手法によるインテリジェントなビジネスアシスタントの開発を開始する。 伝統的な時系列異常検出手法は、時間と属性の観点から下位のパターンを捉え、このシナリオにおける小売業者の違いを無視している。 さらに、プラットフォームによって抽出された同様のトランザクションパターンは、個々の小売業者にガイダンスを提供し、プライバシーの問題なく利用可能な情報を充実させることもできる。 本稿では,各エンティティの時系列を考慮に入れた,エンティティワイズ多変量時系列異常検出問題を示す。 この課題に対処するために,グラフニューラルネットワークに基づく新しい多変量時系列異常検出モデルであるGraphADを提案する。 GraphADはキーパフォーマンス指標(KPI)を安定かつボラティリティーなコンポーネントに分解し、グラフニューラルネットワークを通じて属性、エンティティ、時間的視点の観点からパターンを抽出する。 また,Ele.meのビジネスデータから実世界のエンティティワイド多変量時系列データセットを構築した。 このデータセットの実験結果は、GraphADが既存の異常検出方法よりも大幅に優れていることを示している。

In recent years, the emergence and development of third-party platforms have greatly facilitated the growth of the Online to Offline (O2O) business. However, the large amount of transaction data raises new challenges for retailers, especially anomaly detection in operating conditions. Thus, platforms begin to develop intelligent business assistants with embedded anomaly detection methods to reduce the management burden on retailers. Traditional time-series anomaly detection methods capture underlying patterns from the perspectives of time and attributes, ignoring the difference between retailers in this scenario. Besides, similar transaction patterns extracted by the platforms can also provide guidance to individual retailers and enrich their available information without privacy issues. In this paper, we pose an entity-wise multivariate time-series anomaly detection problem that considers the time-series of each unique entity. To address this challenge, we propose GraphAD, a novel multivariate time-series anomaly detection model based on the graph neural network. GraphAD decomposes the Key Performance Indicator (KPI) into stable and volatility components and extracts their patterns in terms of attributes, entities and temporal perspectives via graph neural networks. We also construct a real-world entity-wise multivariate time-series dataset from the business data of Ele.me. The experimental results on this dataset show that GraphAD significantly outperforms existing anomaly detection methods.
翻訳日:2022-05-24 19:43:43 公開日:2022-05-23
# (参考訳) ストリーミング機械学習の評価再考

Rethinking Streaming Machine Learning Evaluation ( http://arxiv.org/abs/2205.11473v1 )

ライセンス: CC BY 4.0
Shreya Shankar, Bernease Herman, Aditya G. Parameswaran(参考訳) 機械学習(ML)モデルを評価する作業の多くは、バッチデータの計算精度に重点を置いているが、ストリーミング設定(すなわち、タイムスタンプで順序付けされたデータセット)でのみのトラッキング精度は、モデルが予期しない動作を適切に識別できない。 本稿では,ストリーミングML問題の性質が新たな現実的課題(ラベルの到着遅延など)をいかに導入するかを論じ,ストリーミングMLのパフォーマンスを評価するための追加指標を推奨する。

While most work on evaluating machine learning (ML) models focuses on computing accuracy on batches of data, tracking accuracy alone in a streaming setting (i.e., unbounded, timestamp-ordered datasets) fails to appropriately identify when models are performing unexpectedly. In this position paper, we discuss how the nature of streaming ML problems introduces new real-world challenges (e.g., delayed arrival of labels) and recommend additional metrics to assess streaming ML performance.
翻訳日:2022-05-24 19:41:57 公開日:2022-05-23
# スーパービジョントランス

Super Vision Transformer ( http://arxiv.org/abs/2205.11397v1 )

ライセンス: Link先を確認
Mingbao Lin, Mengzhao Chen, Yuxin Zhang, Ke Li, Yunhang Shen, Chunhua Shen, Rongrong Ji(参考訳) トークン数において2次的に増加する視覚変換器(ViT)の計算コストを削減しようとする。 本稿では,一度に1つのViTモデルのみを訓練する新しい訓練パラダイムを提案するが,様々な計算コストで画像認識性能を向上させることができる。 ここで、訓練されたvitモデルはsuper vision transformer(supervit)と呼ばれ、複数のサイズの入ってくるパッチを解決し、複数の保持率(トークンの保持率)を持つ情報トークンを保存し、利用可能なハードウェアリソースが時折変化することを考慮し、推論のための優れたハードウェア効率を達成する能力を備えている。 ImageNetの実験結果から, 我々のSuperViTは, 性能の向上とともに, ViTモデルの計算コストを大幅に削減できることが示された。 例えば、DeiT-Sの2倍FLOPを減少させ、Top-1の精度を0.2%、1.5倍の精度で0.7%向上させる。 また、我々のSuperViTは、効率的な視覚変換器に関する既存の研究を著しく上回っている。 例えば、同じ量のFLOPを消費する場合、SuperViTはDeiT-Sをバックボーンとして使用する場合、最新の最先端(SoTA)EViTを1.1%上回る。 この作業のプロジェクトはhttps://github.com/lmbxmu/supervit.comで公開されている。

We attempt to reduce the computational costs in vision transformers (ViTs), which increase quadratically in the token number. We present a novel training paradigm that trains only one ViT model at a time, but is capable of providing improved image recognition performance with various computational costs. Here, the trained ViT model, termed super vision transformer (SuperViT), is empowered with the versatile ability to solve incoming patches of multiple sizes as well as preserve informative tokens with multiple keeping rates (the ratio of keeping tokens) to achieve good hardware efficiency for inference, given that the available hardware resources often change from time to time. Experimental results on ImageNet demonstrate that our SuperViT can considerably reduce the computational costs of ViT models with even performance increase. For example, we reduce 2x FLOPs of DeiT-S while increasing the Top-1 accuracy by 0.2% and 0.7% for 1.5x reduction. Also, our SuperViT significantly outperforms existing studies on efficient vision transformers. For example, when consuming the same amount of FLOPs, our SuperViT surpasses the recent state-of-the-art (SoTA) EViT by 1.1% when using DeiT-S as their backbones. The project of this work is made publicly available at https://github.com/lmbxmu/SuperViT.
翻訳日:2022-05-24 19:33:48 公開日:2022-05-23
# lidarセマンティクスセグメンテーションにおける教師なし領域適応のための改良型学習

Enhanced Prototypical Learning for Unsupervised Domain Adaptation in LiDAR Semantic Segmentation ( http://arxiv.org/abs/2205.11419v1 )

ライセンス: Link先を確認
Eojindl Yi, Juyoung Yang, Junmo Kim(参考訳) その重要性にもかかわらず、LiDARセマンティックセグメンテーションに対する教師なしドメイン適応(UDA)は、研究コミュニティからはあまり注目を集めていないタスクである。 つい最近になって,この問題に対処し,適応シナリオを正式に設定するための完成型3D法が提案されている。 しかし、提案するパイプラインは複雑でボクセルベースであり、マルチステージ推論を必要とするため、リアルタイム推論では阻害される。 そこで本稿では,LiDARセグメント化におけるUDAの解法を提案する。 この手法は、ソースドメインから疑似ラベル対象領域ピクセルへのクラスプロトタイプを活用し、udaにおける自然画像セマンティクスセグメンテーションの性能を示す研究方向である。 このようなアプローチをLiDARスキャンに適用することは、LiDARセグメンテーション設定では利用できない、厳しいドメインシフトと事前訓練された特徴抽出器の欠如のために検討されていない。 しかし,本研究では,復元型プリトレーニング,改良型プロトタイプ,プロトタイプ間距離に基づく選択的擬似ラベル付けなどの適切な戦略が,原型的アプローチを有効活用するには十分であることを示す。 最近提案されたLiDARセグメンテーション UDA シナリオにおいて,本手法の性能を評価する。 本手法は現代の手法において顕著な性能を発揮する。

Despite its importance, unsupervised domain adaptation (UDA) on LiDAR semantic segmentation is a task that has not received much attention from the research community. Only recently, a completion-based 3D method has been proposed to tackle the problem and formally set up the adaptive scenarios. However, the proposed pipeline is complex, voxel-based and requires multi-stage inference, which inhibits it for real-time inference. We propose a range image-based, effective and efficient method for solving UDA on LiDAR segmentation. The method exploits class prototypes from the source domain to pseudo label target domain pixels, which is a research direction showing good performance in UDA for natural image semantic segmentation. Applying such approaches to LiDAR scans has not been considered because of the severe domain shift and lack of pre-trained feature extractor that is unavailable in the LiDAR segmentation setup. However, we show that proper strategies, including reconstruction-based pre-training, enhanced prototypes, and selective pseudo labeling based on distance to prototypes, is sufficient enough to enable the use of prototypical approaches. We evaluate the performance of our method on the recently proposed LiDAR segmentation UDA scenarios. Our method achieves remarkable performance among contemporary methods.
翻訳日:2022-05-24 19:33:24 公開日:2022-05-23
# セマンティクスセグメンテーションのためのプリトレーニングのためのデコーダ

Decoder Denoising Pretraining for Semantic Segmentation ( http://arxiv.org/abs/2205.11423v1 )

ライセンス: Link先を確認
Emmanuel Brempong Asiedu, Simon Kornblith, Ting Chen, Niki Parmar, Matthias Minderer and Mohammad Norouzi(参考訳) セマンティックセグメンテーションラベルは高価で、取得するのに時間がかかる。 したがって、プリトレーニングはセグメンテーションモデルのラベル効率を改善するために一般的に用いられる。 通常、セグメンテーションモデルのエンコーダは分類器として事前訓練され、デコーダはランダムに初期化される。 ここで、特にラベル付き例がほとんどない場合、デコーダのランダム初期化は最適でないと主張する。 本稿では,符号化器の教師付きプリトレインと組み合わせることができるデノイジングに基づくデコーダプリトレイン手法を提案する。 我々は、imagenetデータセット上でプリトレーニングを行うデコーダが、エンコーダのみを教師付きプリトレーニングに強く上回っていることを発見した。 その単純さにもかかわらず、プレトレーニングのデコーダはラベル効率の良いセマンティックセグメンテーションの最先端の結果を達成し、Cityscapes、Pascal Context、ADE20Kデータセットに大きな利益をもたらす。

Semantic segmentation labels are expensive and time consuming to acquire. Hence, pretraining is commonly used to improve the label-efficiency of segmentation models. Typically, the encoder of a segmentation model is pretrained as a classifier and the decoder is randomly initialized. Here, we argue that random initialization of the decoder can be suboptimal, especially when few labeled examples are available. We propose a decoder pretraining approach based on denoising, which can be combined with supervised pretraining of the encoder. We find that decoder denoising pretraining on the ImageNet dataset strongly outperforms encoder-only supervised pretraining. Despite its simplicity, decoder denoising pretraining achieves state-of-the-art results on label-efficient semantic segmentation and offers considerable gains on the Cityscapes, Pascal Context, and ADE20K datasets.
翻訳日:2022-05-24 19:33:02 公開日:2022-05-23
# AdaptivePaste: 意味論的学習によるコード適応

AdaptivePaste: Code Adaptation through Learning Semantics-aware Variable Usage Representations ( http://arxiv.org/abs/2205.11023v1 )

ライセンス: Link先を確認
Xiaoyu Liu, Jinu Jang, Neel Sundaresan, Miltiadis Allamanis, Alexey Svyatkovskiy(参考訳) ソフトウェア開発では、プログラマがコードスニペットをコピー&ペーストして、ユースケースに適応することが一般的である。 このシナリオは \textit{code adaptation} タスクを動機付けます -- 既存のソースコードにペーストされたコードのスニペット内のすべての変数識別子を適応させることを目的としたプログラム修正の亜種です。 しかしながら、この課題に効果的に取り組むための既存のアプローチは示されていない。 本稿では,変圧器モデルに基づく学習に基づくソースコード適応手法であるAdaptivePasteと,変数使用パターンの有意義な表現を学習するための専用データフロー対応難読化事前学習タスクを紹介する。 我々はPythonのコードスニペットのデータセット上でAdaptivePasteを評価する。 評価結果から,本モデルでは79.8倍の精度でコピーペースト符号を適用できることが示唆された。

In software development, it is common for programmers to copy-paste code snippets and then adapt them to their use case. This scenario motivates \textit{code adaptation} task -- a variant of program repair which aims to adapt all variable identifiers in a pasted snippet of code to the surrounding, preexisting source code. Nevertheless, no existing approach have been shown to effectively address this task. In this paper, we introduce AdaptivePaste, a learning-based approach to source code adaptation, based on the transformer model and a dedicated dataflow-aware deobfuscation pre-training task to learn meaningful representations of variable usage patterns. We evaluate AdaptivePaste on a dataset of code snippets in Python. Evaluation results suggest that our model can learn to adapt copy-pasted code with 79.8\% accuracy.
翻訳日:2022-05-24 19:32:44 公開日:2022-05-23
# 逆変換のための要約と生成:プログラミング言語の教師なし翻訳

Summarize and Generate to Back-translate: Unsupervised Translation of Programming Languages ( http://arxiv.org/abs/2205.11116v1 )

ライセンス: Link先を確認
Wasi Uddin Ahmad, Saikat Chakraborty, Baishakhi Ray, Kai-Wei Chang(参考訳) バックトランスレーションは、並列データがほとんど、あるいは全く利用できない場合のニューラルマシン翻訳の有効性で広く知られている。 このアプローチでは、ソースからターゲットへのモデルは、並列にトレーニングされたターゲットからソースへのモデルと結合される。 ソース・ツー・ソース・モデルはノイズの多いソースを生成し、ソース・ツー・ターゲット・モデルはターゲットの再構築とその逆を訓練する。 近年の多言語事前学習シーケンス・ツー・シーケンス・モデルの開発は、下流ソフトウェア工学の幅広い分野において非常に効果的である。 したがって、バックトランスレーションによるプログラミング言語翻訳システムの構築を訓練することは魅力的である。 しかし、これらのモデルは、事前学習中の入力と同じ言語でシーケンスを出力することを学ぶため、バックトランスレーションによってさらに訓練することはできない。 代替として、コード要約と生成による逆翻訳を提案する。 コード要約では、モデルが与えられたコードスニペットに自然言語(nl)サマリーを生成することを学ぶ。 コード生成では、モデルが反対の方法を学ぶ。 したがって、バックトランスレーションにおけるターゲットからソースへの生成は、ターゲットからnlへの生成と見なすことができる。 提案手法は最先端の手法と競合することを示す。

Back-translation is widely known for its effectiveness for neural machine translation when little to no parallel data is available. In this approach, a source-to-target model is coupled with a target-to-source model trained in parallel. The target-to-source model generates noisy sources, while the source-to-target model is trained to reconstruct the targets and vice versa. Recent developments of multilingual pre-trained sequence-to-sequence models for programming languages have been very effective for a broad spectrum of downstream software engineering tasks. Hence, it is compelling to train them to build programming language translation systems via back-translation. However, these models cannot be further trained via back-translation since they learn to output sequences in the same language as the inputs during pre-training. As an alternative, we propose performing back-translation via code summarization and generation. In code summarization, a model learns to generate natural language (NL) summaries given code snippets. In code generation, the model learns to do the opposite. Therefore, target-to-source generation in back-translation can be viewed as target-to-NL-to-source generation. We show that our proposed approach performs competitively with state-of-the-art methods.
翻訳日:2022-05-24 19:32:29 公開日:2022-05-23
# 学習データに遡る言語モデルにおける知識の追跡

Tracing Knowledge in Language Models Back to the Training Data ( http://arxiv.org/abs/2205.11482v1 )

ライセンス: Link先を確認
Ekin Aky\"urek, Tolga Bolukbasi, Frederick Liu, Binbin Xiong, Ian Tenney, Jacob Andreas, Kelvin Guu(参考訳) ニューラルネットワークモデル(LM)は、多くの事実知識を記憶するために示されている。 しかし、lmがアサーションを生成すると、どこでこの情報を学び、それが真かどうかを判断するのは難しい。 本稿では,これらの予測の証拠を提供するトレーニング例に言語モデルのアサーションを遡る,ファクトトレースのための新しいベンチマークを提案する。 以前の研究によると、データセットレベルの \emph{influence methods} は、予測をトレーニングデータに遡る効果的なフレームワークを提供するかもしれない。 しかし、これらの手法は事実追跡では評価されておらず、主に定性的分析や分類・回帰作業のためのデータクリーニング手法として研究されている。 本稿では,情報検索(IR)指標を用いて,事実追跡における影響評価手法を初めて提案する。 グラデーションベースと埋め込みベースという2つの一般的な影響メソッドのファミリを比較すると、どちらも事実追跡が確実にできないことを示します。 この現象(例えば勾配飽和)を探索し、既存の影響法がLMの事実予測を確実に帰属させる前に著しく改善されなければならないことを示す。

Neural language models (LMs) have been shown to memorize a great deal of factual knowledge. But when an LM generates an assertion, it is often difficult to determine where it learned this information and whether it is true. In this paper, we introduce a new benchmark for fact tracing: tracing language models' assertions back to the training examples that provided evidence for those predictions. Prior work has suggested that dataset-level \emph{influence methods} might offer an effective framework for tracing predictions back to training data. However, such methods have not been evaluated for fact tracing, and researchers primarily have studied them through qualitative analysis or as a data cleaning technique for classification/regression tasks. We present the first experiments that evaluate influence methods for fact tracing, using well-understood information retrieval (IR) metrics. We compare two popular families of influence methods -- gradient-based and embedding-based -- and show that neither can fact-trace reliably; indeed, both methods fail to outperform an IR baseline (BM25) that does not even access the LM. We explore \emph{why} this occurs (e.g., gradient saturation) and demonstrate that existing influence methods must be improved significantly before they can reliably attribute factual predictions in LMs.
翻訳日:2022-05-24 19:32:12 公開日:2022-05-23
# Human-in-the-loop: 一般関数近似を用いた効率的推論に基づく強化学習

Human-in-the-loop: Provably Efficient Preference-based Reinforcement Learning with General Function Approximation ( http://arxiv.org/abs/2205.11140v1 )

ライセンス: Link先を確認
Xiaoyu Chen, Han Zhong, Zhuoran Yang, Zhaoran Wang, Liwei Wang(参考訳) そこで,各ステップで数値的な報酬を受けるのではなく,人間の監督者から軌道ペアに対してのみ選好を受ける。 エージェントの目標は、人間の監督者に最も好まれる最適なポリシーを学ぶことである。 経験的成功にもかかわらず、嗜好に基づくRL(PbRL)の理論的理解は表の場合に限られる。 本稿では,一般関数近似を用いたpbrlのための最初の楽観的モデルベースアルゴリズムを提案する。 我々のアルゴリズムは、$\tilde{O} (\operatorname{poly}(d H) \sqrt{K} )$, $d$は、エルダー次元とログ被覆数に依存する遷移と選好モデルの複雑さ尺度であり、$H$は計画的地平線であり、$K$はエピソード数であり、$\tilde O(\cdot)$は対数項を省略する。 我々の下界は、線形設定に特化する場合、アルゴリズムがほぼ最適であることを示している。 さらに、RLと呼ばれる新しい問題を$n$-wise比較で定式化し、PbRL問題を拡張し、この新しい設定のための最初のサンプル効率アルゴリズムを提供する。 我々の知る限りでは、これは(一般)関数近似を用いたPbRLの最初の理論的結果である。

We study human-in-the-loop reinforcement learning (RL) with trajectory preferences, where instead of receiving a numeric reward at each step, the agent only receives preferences over trajectory pairs from a human overseer. The goal of the agent is to learn the optimal policy which is most preferred by the human overseer. Despite the empirical successes, the theoretical understanding of preference-based RL (PbRL) is only limited to the tabular case. In this paper, we propose the first optimistic model-based algorithm for PbRL with general function approximation, which estimates the model using value-targeted regression and calculates the exploratory policies by solving an optimistic planning problem. Our algorithm achieves the regret of $\tilde{O} (\operatorname{poly}(d H) \sqrt{K} )$, where $d$ is the complexity measure of the transition and preference model depending on the Eluder dimension and log-covering numbers, $H$ is the planning horizon, $K$ is the number of episodes, and $\tilde O(\cdot)$ omits logarithmic terms. Our lower bound indicates that our algorithm is near-optimal when specialized to the linear setting. Furthermore, we extend the PbRL problem by formulating a novel problem called RL with $n$-wise comparisons, and provide the first sample-efficient algorithm for this new setting. To the best of our knowledge, this is the first theoretical result for PbRL with (general) function approximation.
翻訳日:2022-05-24 19:24:42 公開日:2022-05-23
# 時系列変換器生成対応ネットワーク

Time-series Transformer Generative Adversarial Networks ( http://arxiv.org/abs/2205.11164v1 )

ライセンス: Link先を確認
Padmanaba Srinivasan, William J. Knottenbelt(参考訳) 現実のタスクの多くは、データ上の制限によって悩まされている: 非常に少ないデータしか利用できない場合や、プライバシーによって保護されている場合(GDPRなど)。 時系列データに特化して生じる制約を考察し,実データの代わりに使用できる合成時系列を生成するモデルを提案する。 時系列データを生成するモデルには,2つの目的がある。 1)実数列の段階的な条件分布を捉えること、及び 2) 実列全体の結合分布を忠実にモデル化する。 最大確率推定によってトレーニングされた自己回帰モデルは、以前の予測が入力され、将来の予測に使用されるシステムで使用できます。 さらに、MLEベースのモデルが実際には生成的でないように、妥当な初期値が必要である。 多くの下流タスクは時系列の条件分布をモデル化することを学ぶため、生成モデルから得られた合成データが満足しなければならない。 1) 実施の他,2) 実施する。 本稿では,トランスフォーマーアーキテクチャを活かしてデシデラータを満たし,その性能を5つのデータセット上の5つの最先端モデルと比較するフレームワークであるtst-ganについて述べる。

Many real-world tasks are plagued by limitations on data: in some instances very little data is available and in others, data is protected by privacy enforcing regulations (e.g. GDPR). We consider limitations posed specifically on time-series data and present a model that can generate synthetic time-series which can be used in place of real data. A model that generates synthetic time-series data has two objectives: 1) to capture the stepwise conditional distribution of real sequences, and 2) to faithfully model the joint distribution of entire real sequences. Autoregressive models trained via maximum likelihood estimation can be used in a system where previous predictions are fed back in and used to predict future ones; in such models, errors can accrue over time. Furthermore, a plausible initial value is required making MLE based models not really generative. Many downstream tasks learn to model conditional distributions of the time-series, hence, synthetic data drawn from a generative model must satisfy 1) in addition to performing 2). We present TsT-GAN, a framework that capitalises on the Transformer architecture to satisfy the desiderata and compare its performance against five state-of-the-art models on five datasets and show that TsT-GAN achieves higher predictive performance on all datasets.
翻訳日:2022-05-24 19:24:12 公開日:2022-05-23
# Fed-DARTとFACT: 生産環境におけるフェデレーションラーニングのソリューション

Fed-DART and FACT: A solution for Federated Learning in a production environment ( http://arxiv.org/abs/2205.11267v1 )

ライセンス: Link先を確認
Nico Weber, Patrick Holzer, Tania Jacob, Enislay Ramentol(参考訳) 分散人工知能(AI)ソリューションとしてのFederated Learningは、産業アプリケーションにおけるさまざまな問題を解決する。 これにより、エッジのどこにでもデプロイ可能な、継続的自己改善AIが実現される。 しかし、実際のビジネスインパクトを生み出すためにAIを本番環境に持ち込むことは難しい課題である。 特にフェデレートラーニングの場合、その潜在能力を実現するためには、複数のドメインの専門知識とリソースが必要である。 これを念頭に置いて、feed-dartをベースにした革新的なフェデレーション学習フレームワークfactを開発し、簡単でスケーラブルなデプロイメントを可能にし、ユーザがプライベートで分散化されたデータの可能性を完全に活用できるようにしました。

Federated Learning as a decentralized artificial intelligence (AI) solution solves a variety of problems in industrial applications. It enables a continuously self-improving AI, which can be deployed everywhere at the edge. However, bringing AI to production for generating a real business impact is a challenging task. Especially in the case of Federated Learning, expertise and resources from multiple domains are required to realize its full potential. Having this in mind we have developed an innovative Federated Learning framework FACT based on Fed-DART, enabling an easy and scalable deployment, helping the user to fully leverage the potential of their private and decentralized data.
翻訳日:2022-05-24 19:23:51 公開日:2022-05-23
# ヘテロフィリアスなエッジからドロップへの学習 - グラフニューラルネットワークの強化のための汎用フレームワーク

Learning heterophilious edge to drop: A general framework for boosting graph neural networks ( http://arxiv.org/abs/2205.11322v1 )

ライセンス: Link先を確認
Jincheng Huang, Ping Li, Rui Huang, Chen Na(参考訳) グラフニューラルネットワーク(gnns)は、ノードの内容をグラフ構造に統合し、ノード/グラフ表現を学習することを目的としている。 それにもかかわらず、既存のGNNのほとんどは、異なるクラスラベル間の大きなエッジを占める高いヘテロフィリーレベルのデータではうまく機能しない。 近年,この問題に取り組む多くの取り組みが,機能学習の最適化に重点を置いている。 別の角度から、この研究は、初めてグラフ構造を最適化することで、ヘテロフィリの負の影響を緩和することを目的としている。 具体的には,不均一エッジに沿ったグラフ平滑化が予測性能を損なうと仮定したlheと呼ばれる構造学習手法を提案する。 このソリューションの大きな利点は、機能学習戦略を慎重に修正することなく、GNNを強化できることです。 大規模な実験は、ホモフィリーレベルの全スペクトルにわたる複数のデータセット上で \emph{LHE} を用いた GNN の顕著な性能向上を示す。

Graph Neural Networks (GNNs) aim at integrating node contents with graph structure to learn nodes/graph representations. Nevertheless, it is found that most of existing GNNs do not work well on data with high heterophily level that accounts for a large proportion of edges between different class labels. Recently, many efforts to tackle this problem focus on optimizing the way of feature learning. From another angle, this work aims at mitigating the negative impacts of heterophily by optimizing graph structure for the first time. Specifically, on assumption that graph smoothing along heterophilious edges can hurt prediction performance, we propose a structure learning method called LHE to identify heterophilious edges to drop. A big advantage of this solution is that it can boost GNNs without careful modification of feature learning strategy. Extensive experiments demonstrate the remarkable performance improvement of GNNs with \emph{LHE} on multiple datasets across full spectrum of homophily level.
翻訳日:2022-05-24 19:23:42 公開日:2022-05-23
# メトリクスは何とおっしゃいますか? 信頼性の文脈的定義に基づく分類器の校正評価

What is Your Metric Telling You? Evaluating Classifier Calibration under Context-Specific Definitions of Reliability ( http://arxiv.org/abs/2205.11454v1 )

ライセンス: Link先を確認
John Kirchenbauer and Jacob Oaks and Eric Heim(参考訳) 分類器のキャリブレーションは、意思決定の促進に実用性があることと、現代のニューラルネットワークの分類器のキャリブレーションが不十分であることの両方から、機械学習コミュニティから注目されている。 このような焦点の多くは、最大の出力(予測クラス)が校正されるような分類器の学習の目標に向けられている。 しかし、この狭義の分類器出力の解釈は、分類器が意思決定に役立てることができる様々な実用的なユースケースを適切に捉えていない。 本研究では,分類器がデプロイされる特定のコンテキストのキャリブレーションエラーを正確に測定するために,より表現力のあるメトリクスを開発する必要がある。 この目的のために、信頼性の異なる定義の下で校正誤差を計測する期待校正誤差(ECE)の一般化を用いて、様々なメトリクスを導出する。 次に、これらの指標に関して、よく使われるニューラルネットワークアーキテクチャと校正手法の広範な実証評価を行う。 私たちはそれを見つけました 1)予測クラスのみに焦点を当てたECEの定義は、信頼性と信頼性の実用的な定義の選定において、校正誤差を正確に測定できない。 2) 多くのキャリブレーション手法は,これらの多様な信頼性定義から得られたCE指標のキャリブレーション性能を均一に向上させることができない。

Classifier calibration has received recent attention from the machine learning community due both to its practical utility in facilitating decision making, as well as the observation that modern neural network classifiers are poorly calibrated. Much of this focus has been towards the goal of learning classifiers such that their output with largest magnitude (the "predicted class") is calibrated. However, this narrow interpretation of classifier outputs does not adequately capture the variety of practical use cases in which classifiers can aid in decision making. In this work, we argue that more expressive metrics must be developed that accurately measure calibration error for the specific context in which a classifier will be deployed. To this end, we derive a number of different metrics using a generalization of Expected Calibration Error (ECE) that measure calibration error under different definitions of reliability. We then provide an extensive empirical evaluation of commonly used neural network architectures and calibration techniques with respect to these metrics. We find that: 1) definitions of ECE that focus solely on the predicted class fail to accurately measure calibration error under a selection of practically useful definitions of reliability and 2) many common calibration techniques fail to improve calibration performance uniformly across ECE metrics derived from these diverse definitions of reliability.
翻訳日:2022-05-24 19:21:38 公開日:2022-05-23
# ユーザセッション制約を考慮したセッションベースレコメンデーションのためのヘテロジニアスグラフニューラルネットワーク

Heterogeneous Graph Neural Network for Session-Based Recommendation with User-Session Constraint ( http://arxiv.org/abs/2205.11343v1 )

ライセンス: Link先を確認
Minjae Park(参考訳) このレコメンデーションシステムは、最近のオンライン大量の情報の適切な制限を提供する。 セッションベースレコメンデーション(セッションベースレコメンデーション、セッションベースレコメンデーション)は、アイテムのシーケンスからなるセッションを解釈することで、アイテムを推奨しようとする。 近年,これらのセッションにユーザ情報を含める研究が進んでいる。 しかし,ユーザによるセッション情報を含む高品質なユーザ情報を生成することは困難である。 本稿では,HANによるセッションによって生成されるグラフの様々な関係について考察する。 制約はまた、セッションからの情報を考慮するようにユーザー情報を強制する。 トレーニングプロセスのさらなる最適化を通じて、パフォーマンスの向上を目指す。 提案手法は実世界の様々なデータセットにおける他の手法よりも優れていた。

The recommendation system provides users with an appropriate limit of recent online large amounts of information. Session-based recommendation, a sub-area of recommender systems, attempts to recommend items by interpreting sessions that consist of sequences of items. Recently, research to include user information in these sessions is progress. However, it is difficult to generate high-quality user information that includes session information generated by user. In this paper, we consider various relationships in graph created by sessions through HAN. Constraints also force user information to take into account information from the session. It seeks to increase performance through additional optimization in the training process. The proposed model outperformed other methods on various real-world data sets.
翻訳日:2022-05-24 19:20:56 公開日:2022-05-23
# 不確実性推定付きRGB系列からのキーポイントベースカテゴリーレベルオブジェクトの追跡

Keypoint-Based Category-Level Object Pose Tracking from an RGB Sequence with Uncertainty Estimation ( http://arxiv.org/abs/2205.11047v1 )

ライセンス: Link先を確認
Yunzhi Lin, Jonathan Tremblay, Stephen Tyree, Patricio A. Vela, Stan Birchfield(参考訳) 既知のカテゴリ内のオブジェクトのインスタンスを同時に検出し追跡する,単段のカテゴリレベルの6自由度ポーズ推定アルゴリズムを提案する。 提案手法では,単眼のrgbビデオから前と現在のフレームを入力し,前フレームからの予測を行い,バウンディングキューブイドと6dofのポーズ(最大スケール)を予測する。 奥行きネットワークは、画像座標におけるオブジェクトキーポイント(バウンディングキューブイドの頂点)上の分布を予測し、その後、pnpを用いて最終ポーズを計算する前に、新しい確率的フィルタリングプロセスが推定にまたがって統合される。 本フレームワークでは, 従来の不確実性を考慮し, その結果, 単一フレーム法よりも精度が高く, 安定な予測が可能となった。 本手法は,アノテーション付きオブジェクトビデオのObjectronベンチマークにおいて,既存の手法よりも優れていることを示す。 拡張現実の環境では、仕事のユーザビリティも示しています。

We propose a single-stage, category-level 6-DoF pose estimation algorithm that simultaneously detects and tracks instances of objects within a known category. Our method takes as input the previous and current frame from a monocular RGB video, as well as predictions from the previous frame, to predict the bounding cuboid and 6-DoF pose (up to scale). Internally, a deep network predicts distributions over object keypoints (vertices of the bounding cuboid) in image coordinates, after which a novel probabilistic filtering process integrates across estimates before computing the final pose using PnP. Our framework allows the system to take previous uncertainties into consideration when predicting the current frame, resulting in predictions that are more accurate and stable than single frame methods. Extensive experiments show that our method outperforms existing approaches on the challenging Objectron benchmark of annotated object videos. We also demonstrate the usability of our work in an augmented reality setting.
翻訳日:2022-05-24 19:15:36 公開日:2022-05-23
# 最小規則性を有する変形に対する散乱変換の安定性

Stability of the scattering transform for deformations with minimal regularity ( http://arxiv.org/abs/2205.11142v1 )

ライセンス: Link先を確認
Fabio Nicola and S. Ivan Trapasso(参考訳) Within the mathematical analysis of deep convolutional neural networks, the wavelet scattering transform introduced by St\'ephane Mallat is a unique example of how the ideas of multiscale analysis can be combined with a cascade of modulus nonlinearities to build a nonexpansive, translation invariant signal representation with provable geometric stability properties, namely Lipschitz continuity to the action of small $C^2$ diffeomorphisms - a remarkable result for both theoretical and practical purposes, inherently depending on the choice of the filters and their arrangement into a hierarchical architecture. 本稿では, 散乱構造とH\'older regularity scale $C^\alpha$, $\alpha > 0$における変形の規則性との関係について検討する。 C^{\alpha}=, $\alpha>1$の変形に対して、安定性が依然として達成可能であることを証明し、安定性の閾値を正確に同定することができるが、不安定な現象は、$C^\alpha$, $0\le \alpha <1$によってモデル化された低い正則度レベルで発生する。 lipschitz氏(あるいは$c^1$)の正規性によって与えられるしきい値での動作は限界を超えているが、その場合の安定性を証明でき、最大$\varepsilon$の損失を証明できる。

Within the mathematical analysis of deep convolutional neural networks, the wavelet scattering transform introduced by St\'ephane Mallat is a unique example of how the ideas of multiscale analysis can be combined with a cascade of modulus nonlinearities to build a nonexpansive, translation invariant signal representation with provable geometric stability properties, namely Lipschitz continuity to the action of small $C^2$ diffeomorphisms - a remarkable result for both theoretical and practical purposes, inherently depending on the choice of the filters and their arrangement into a hierarchical architecture. In this note, we further investigate the intimate relationship between the scattering structure and the regularity of the deformation in the H\"older regularity scale $C^\alpha$, $\alpha >0$. We are able to precisely identify the stability threshold, proving that stability is still achievable for deformations of class $C^{\alpha}$, $\alpha>1$, whereas instability phenomena can occur at lower regularity levels modelled by $C^\alpha$, $0\le \alpha <1$. While the behaviour at the threshold given by Lipschitz (or even $C^1$) regularity remains beyond reach, we are able to prove a stability bound in that case, up to $\varepsilon$ losses.
翻訳日:2022-05-24 19:15:17 公開日:2022-05-23
# マンガテキスト分解モデルとマルチスケールフィルタリング法によるzro2セラミックス軸受ボール表面欠陥検出のための結合強化アルゴリズム

A Coupling Enhancement Algorithm for ZrO2 Ceramic Bearing Ball Surface Defect Detection Based on Cartoon-texture Decomposition Model and Multi-Scale Filtering Method ( http://arxiv.org/abs/2205.11145v1 )

ライセンス: Link先を確認
Wei Wang, Xin Zhang, Jiaqi Yi, Xianqi Liao, Wenjie Li, Zhenhong Li(参考訳) 本研究では,zro2セラミックス軸受ボールの表面欠陥検出精度の向上を目的とした。 画像試料のノイズ損傷と組み合わせて, マンガ・テクスチャ分解モデルに基づくZrO2セラミック軸受球の表面欠陥検出法を提案した。 球面欠陥検出システムを用いたZrO2セラミックスの製作 ガウス曲率モデルを用いてzro2セラミック軸受ボール表面欠陥像を分解し、ウィナーフィルタとウェーブレット値領域フィルタを用いて分解像層を濾過した。 その後、透明で損傷のないzro2セラミックベアリングボール表面欠陥画像に融合して検出した。 実験結果から,zro2セラミックス軸受ボール表面欠陥の画像デノイジング法において,画像詳細を保ちながらデノイジングできることがわかった。 画像のPSNRは34.1dB、SSIMは0.9476、検出精度は95.8%、単一欠陥画像の検出速度は191ms/imgである。 この方法は、ZrO2セラミックのボール表面欠陥検出の効率と精度を効果的に向上させることができる。

This study aimed to improve the surface defect detection accuracy of ZrO2 ceramic bearing balls. Combined with the noise damage of the image samples, a surface defect detection method for ZrO2 ceramic bearing balls based on cartoon-texture decomposition model was proposed. Building a ZrO2 ceramic bearing ball surface defect detection system. The ZrO2 ceramic bearing ball surface defect image was decomposed by using the Gaussian curvature model and the decomposed image layer was filtered by using Winner filter and wavelet value domain filter. Then they were fused into a clear and undamaged ZrO2 ceramic bearing ball surface defect image and detected. The experimental results show that the image denoising method of ZrO2 ceramic bearing ball surface defect based on cartoon-texture decomposition model can denoise while retaining the image details. The PSNR of image is 34.1 dB, the SSIM is 0.9476, the detection accuracy is 95.8%, and the detection speed of a single defect image is 191ms / img. This method can effectively improve the efficiency and accuracy of ZrO2 ceramic bearing ball surface defect detection.
翻訳日:2022-05-24 19:14:55 公開日:2022-05-23
# 局所認識インプティシット表現に基づくMRIスライス間隔の任意化

Arbitrary Reduction of MRI Slice Spacing Based on Local-Aware Implicit Representation ( http://arxiv.org/abs/2205.11346v1 )

ライセンス: Link先を確認
Xin Wang, Kai Xuan, Sheng Wang, Honglin Xiong, Lichi Zhang, Qian Wang(参考訳) MRI画像は実際の臨床応用のために2次元設定で取得されることが多い。 複数の2次元スライスを積み重ねて再構築した3次元ボリュームは、スライス間間隔が大きく、スライス内解像度よりもスライス間解像度が低い。 超解像度は、3D画像のスライス間隔を減らす強力なツールであり、その後の可視化と計算作業を容易にする。 しかし、既存の作品の多くは、mrスキャンの異種パラメータのために臨床場面で不都合な、固定された割合で超解像ネットワークを訓練している。 本稿では,MR画像のスライス間隔を任意に調整可能な比で低減する,単一超解像ネットワークを提案する。 具体的には、入力イメージを座標の連続的な暗黙関数とみなす。 異なる間隔比の中間スライスを、連続領域でアップサンプリングされた暗黙の表現に従って構築することができる。 特に,出力画像の品質を高めるために,局所認識型空間注意機構と長距離残差学習を提案する。 実験の結果, 定比で訓練したモデルと比較しても, 提案手法の優位性を示した。

Magnetic resonance (MR) images are often acquired in 2D settings for real clinical applications. The 3D volumes reconstructed by stacking multiple 2D slices have large inter-slice spacing, resulting in lower inter-slice resolution than intra-slice resolution. Super-resolution is a powerful tool to reduce the inter-slice spacing of 3D images to facilitate subsequent visualization and computation tasks. However, most existing works train the super-resolution network at a fixed ratio, which is inconvenient in clinical scenes due to the heterogeneous parameters in MR scanning. In this paper, we propose a single super-resolution network to reduce the inter-slice spacing of MR images at an arbitrarily adjustable ratio. Specifically, we view the input image as a continuous implicit function of coordinates. The intermediate slices of different spacing ratios could be constructed according to the implicit representation up-sampled in the continuous domain. We particularly propose a novel local-aware spatial attention mechanism and long-range residual learning to boost the quality of the output image. The experimental results demonstrate the superiority of our proposed method, even compared to the models trained at a fixed ratio.
翻訳日:2022-05-24 19:14:36 公開日:2022-05-23
# (参考訳) Prompt-and-Rerank:小言語モデルを用いたゼロショットとFew-Shot任意テキストスタイル転送の一手法

Prompt-and-Rerank: A Method for Zero-Shot and Few-Shot Arbitrary Textual Style Transfer with Small Language Models ( http://arxiv.org/abs/2205.11503v1 )

ライセンス: CC BY 4.0
Mirac Suzgun, Luke Melas-Kyriazi, Dan Jurafsky(参考訳) テキストを任意のスタイルに変換するタスクである任意のテキストスタイル転送(tst)の手法を提案する。 提案手法であるPrompt-and-Rerankは,TSTタスクの数学的定式化に基づいて,テキスト類似性,ターゲットスタイル強度,流速の3つの構成要素に分解する。 具体的には、まずゼロショットまたは少数ショットプロンプトを用いて、ターゲットスタイルの候補生成のセットを取得し、上で述べた3つのコンポーネントの組み合わせに従ってこれらの候補を再ランク付けする。 実験的に,本手法は,2桁の計算とメモリを消費しながら,最先端の大規模モデルと同等に動作可能な,訓練済みの小さな言語モデルを実現する。 最後に、モデルサイズとプロンプト設計(例えば、パラフレージングとデリミタペア選択)が、7種類のテキストスタイル転送データセットにおけるスタイル転送品質に与える影響を体系的に調査する。

We propose a method for arbitrary textual style transfer (TST)--the task of transforming a text into any given style--utilizing general-purpose pre-trained language models. Our method, Prompt-and-Rerank, is based on a mathematical formulation of the TST task, decomposing it into three constituent components: textual similarity, target style strength, and fluency. Specifically, our method first uses zero-shot or few-shot prompting to obtain a set of candidate generations in the target style, and then re-ranks these candidates according to a combination of the three components above. Empirically, our method enables small pre-trained language models to perform on par with state-of-the-art large-scale models while consuming two orders of magnitude less compute and memory. Finally, we conduct a systematic investigation of the effect of model size and prompt design (e.g., prompt paraphrasing and delimiter-pair choice) on style transfer quality across seven diverse textual style transfer datasets.
翻訳日:2022-05-24 19:11:56 公開日:2022-05-23
# 逆ランダム化強化学習に基づくマルチドメインサイバースペース攻撃と防衛ゲーム

Multiple Domain Cyberspace Attack and Defense Game Based on Reward Randomization Reinforcement Learning ( http://arxiv.org/abs/2205.10990v1 )

ライセンス: Link先を確認
Lei Zhang, Yu Pan, Yi Liu, Qibin Zheng and Zhisong Pan(参考訳) 既存のネットワーク攻撃と防御方法はゲームと見なすことができるが、ゲームの大半は複数のドメインのサイバースペースではなくネットワークドメインに限られる。 そこで本稿では,強化学習に基づく複数ドメインのサイバースペース攻撃と防御ゲームモデルを提案する。 物理ドメイン、ネットワークドメイン、デジタルドメインを含む複数のドメインサイバースペースを定義します。 攻撃者を代表する2つのエージェントを確立することで、ディフェンダーは複数のドメインサイバー空間における複数のドメインアクションを選択し、強化学習によってディフェンダーの最適な報酬を得る。 ディフェンダーの防御能力を向上させるために,報酬ランダム化強化学習に基づくゲームモデルを提案する。 ディフェンダーが複数のドメイン防衛行動を行う場合、報酬はランダムに与えられ、線形分配されるので、より優れた防御方針を見つけ、防御成功率を向上させる。 実験の結果,ゲームモデルは複数のドメインサイバースペースの攻撃・防御状態を効果的にシミュレートでき,提案手法はDDPGやDQNよりも高い防御成功率を有することがわかった。

The existing network attack and defense method can be regarded as game, but most of the game only involves network domain, not multiple domain cyberspace. To address this challenge, this paper proposed a multiple domain cyberspace attack and defense game model based on reinforcement learning. We define the multiple domain cyberspace include physical domain, network domain and digital domain. By establishing two agents, representing the attacker and the defender respectively, defender will select the multiple domain actions in the multiple domain cyberspace to obtain defender's optimal reward by reinforcement learning. In order to improve the defense ability of defender, a game model based on reward randomization reinforcement learning is proposed. When the defender takes the multiple domain defense action, the reward is randomly given and subject to linear distribution, so as to find the better defense policy and improve defense success rate. The experimental results show that the game model can effectively simulate the attack and defense state of multiple domain cyberspace, and the proposed method has a higher defense success rate than DDPG and DQN.
翻訳日:2022-05-24 18:24:44 公開日:2022-05-23
# QEKD:ブラックボックスモデルによるクエリ効率とデータフリー知識蒸留

QEKD: Query-Efficient and Data-Free Knowledge Distillation from Black-box Models ( http://arxiv.org/abs/2205.11158v1 )

ライセンス: Link先を確認
Jie Zhang, Chen Chen, Jiahua Dong, Ruoxi Jia, Lingjuan Lyu(参考訳) 知識蒸留(KD)は、訓練された教師モデルの助けを借りて、軽量の学生モデルを訓練する典型的な方法である。 しかしながら、ほとんどのKDメソッドは教師のトレーニングデータセットまたはモデルパラメータへのアクセスを必要とする。 この問題に対処するため、最近の研究はデータフリーおよびブラックボックス設定下でKDを研究する。 それでもこれらの研究には、かなりの金銭と計算コストを伴う教師モデルに対する大量の問い合わせが必要である。 そこで本研究では,ブラックボックスモデルAPIからクエリ効率よく学習し,実データなしでよい生徒を訓練することを目的とした,QEKD(Query Efficient Knowledge Distillation)という新しい手法を提案する。 詳しくは、QEKDは学生モデルをデータ生成とモデルの蒸留の2段階で訓練する。 qekdはデータ生成段階において問合せを一切必要とせず、蒸留段階の各サンプルに対して一度だけ教師に問合せを行う。 様々な実世界のデータセットに対する大規模な実験は、提案したQEKDの有効性を示している。 例えば、QEKDは、DFMEのクエリ予算の0.02倍しか持たないCIFAR10データセット上で、ベストベースライン法(DFME)の性能を5.83倍に向上させることができる。

Knowledge distillation (KD) is a typical method for training a lightweight student model with the help of a well-trained teacher model. However, most KD methods require access to either the teacher's training dataset or model parameter, which is unrealistic. To tackle this problem, recent works study KD under data-free and black-box settings. Nevertheless, these works require a large number of queries to the teacher model, which involves significant monetary and computational costs. To this end, we propose a novel method called Query Efficient Knowledge Distillation (QEKD), which aims to query-efficiently learn from black-box model APIs to train a good student without any real data. In detail, QEKD trains the student model in two stages: data generation and model distillation. Note that QEKD does not require any query in the data generation stage and queries the teacher only once for each sample in the distillation stage. Extensive experiments on various real-world datasets show the effectiveness of the proposed QEKD. For instance, QEKD can improve the performance of the best baseline method (DFME) by 5.83 on CIFAR10 dataset with only 0.02x the query budget of DFME.
翻訳日:2022-05-24 18:23:09 公開日:2022-05-23
# フェアネスを考慮したマルチワークフロークラウドにおけるクラスタリングに基づくスケジューリングの多目的最適化

Multi-objective Optimization of Clustering-based Scheduling for Multi-workflow On Clouds Considering Fairness ( http://arxiv.org/abs/2205.11173v1 )

ライセンス: Link先を確認
Feng Li, Wen Jun, Tan and Wentong, Cai(参考訳) クラウドコンピューティングのような分散コンピューティングは、複数のワークフローを実行する有望なプラットフォームを提供する。 ワークフロースケジューリングは、マルチ目的要求によるマルチワークフロー実行において重要な役割を果たす。 多目的スケジューリングアルゴリズムは数多く存在するが、それらは主に1つのワークフローの最適化とコストに焦点を当てている。 マルチワークフロースケジューリングのマルチ目的最適化に関する限定的な研究がある。 マルチワークフロースケジューリングを考えると、リソースを使用するワークフローの公平性を維持するための追加の目的があります。 このような問題に対処するために、まず、コスト、公平性に基づく新しい多目的最適化モデルを定義し、続いてリソース割り当てのためのグローバルクラスタリングに基づくマルチワークフロースケジューリング戦略を提案する。 実験結果から,提案手法は,クラウド上でのシミュレーションワークフロースケジューリングを導くことができる個別公平性だけでなく,全体のメースパンやコストを損なうことなく,比較アルゴリズムよりも優れた性能を示すことがわかった。

Distributed computing, such as cloud computing, provides promising platforms to execute multiple workflows. Workflow scheduling plays an important role in multi-workflow execution with multi-objective requirements. Although there exist many multi-objective scheduling algorithms, they focus mainly on optimizing makespan and cost for a single workflow. There is a limited research on multi-objective optimization for multi-workflow scheduling. Considering multi-workflow scheduling, there is an additional key objective to maintain the fairness of workflows using the resources. To address such issues, this paper first defines a new multi-objective optimization model based on makespan, cost, and fairness, and then proposes a global clustering-based multi-workflow scheduling strategy for resource allocation. Experimental results show that the proposed approach performs better than the compared algorithms without significant compromise of the overall makespan and cost as well as individual fairness, which can guide the simulation workflow scheduling on clouds.
翻訳日:2022-05-24 18:22:50 公開日:2022-05-23
# 視覚的にリッチな文書評価のためのドキュメントインテリジェンスメトリクス

Document Intelligence Metrics for Visually Rich Document Evaluation ( http://arxiv.org/abs/2205.11215v1 )

ライセンス: Link先を確認
Jonathan DeGange, Swapnil Gupta, Zhuoyu Han, Krzysztof Wilkosz, Adam Karwan(参考訳) 視覚的にリッチな文書(vrd)の処理は、文書知性に関連する情報抽出タスクにおいて非常に重要である。 本稿では,情報抽出タスクのためのテキストベース,幾何学的,階層的メトリクスからなるVRDモデル評価専用のPythonライブラリであるDI-Metricsを紹介する。 公開コードデータセットを用いた情報抽出性能の評価にdi-metricsを応用し、3つのsomaモデルと1つの産業モデルのパフォーマンスを比較した。 オープンソースライブラリはgithubから入手できる。

The processing of Visually-Rich Documents (VRDs) is highly important in information extraction tasks associated with Document Intelligence. We introduce DI-Metrics, a Python library devoted to VRD model evaluation comprising text-based, geometric-based and hierarchical metrics for information extraction tasks. We apply DI-Metrics to evaluate information extraction performance using publicly available CORD dataset, comparing performance of three SOTA models and one industry model. The open-source library is available on GitHub.
翻訳日:2022-05-24 18:22:34 公開日:2022-05-23
# 交通信号制御における協調強化学習

Cooperative Reinforcement Learning on Traffic Signal Control ( http://arxiv.org/abs/2205.11291v1 )

ライセンス: Link先を確認
Chi-Chun Chao, Jun-Wei Hsieh, Bor-Shiun Wang(参考訳) 交通信号制御は、道路交差点での車両移動を調整し、全体の走行時間を最小化することを目的とした、現実的な課題である。 既存の交通信号制御システムは、過度に単純化された情報と規則に基づく方法に大きく依存している。 特に、緑/赤光交替の周期性は、政策最適化における各エージェントのより優れた計画のための事前であると考えることができる。 このような適応的で予測的な事前の学習をより良くするために、従来のRLベースの手法は、ローカルエージェントのみで定義されたアクションプールからのみ固定長を返すことができる。 これらのエージェント間の協力がなければ、他のエージェントと競合し、スループットを低下させるエージェントもある。 本稿では,交通信号制御最適化のための複数の報酬項をより正確に推定する,年齢遅延重み付き協調型多目的アーキテクチャを提案し,その手法をCOMMA-DDPG(Comoperative Multi-Objective Multi-Agent Deep Deterministic Policy Gradient)と呼ぶ。 各交差点でのローカルトラフィック最適化と、グローバルトラフィック待ち時間最適化の2つのタイプのエージェントが、異なる目標の報酬を最大化するために実行されている。 グローバルエージェントは、推論フェーズでは使用せず、より高速な学習を支援する手段として、ローカルエージェントを導くために使用される。 また,提案するrl最適化のための収束証明とともに,解の存在の解析も行う。 アジア諸国の交通カメラを用いて収集した実世界の交通データを用いて評価を行う。 本手法は遅延時間全体の60\%を効果的に削減できる。 その結果,SoTA法と比較すると,その優位性を示した。

Traffic signal control is a challenging real-world problem aiming to minimize overall travel time by coordinating vehicle movements at road intersections. Existing traffic signal control systems in use still rely heavily on oversimplified information and rule-based methods. Specifically, the periodicity of green/red light alternations can be considered as a prior for better planning of each agent in policy optimization. To better learn such adaptive and predictive priors, traditional RL-based methods can only return a fixed length from predefined action pool with only local agents. If there is no cooperation between these agents, some agents often make conflicts to other agents and thus decrease the whole throughput. This paper proposes a cooperative, multi-objective architecture with age-decaying weights to better estimate multiple reward terms for traffic signal control optimization, which termed COoperative Multi-Objective Multi-Agent Deep Deterministic Policy Gradient (COMMA-DDPG). Two types of agents running to maximize rewards of different goals - one for local traffic optimization at each intersection and the other for global traffic waiting time optimization. The global agent is used to guide the local agents as a means for aiding faster learning but not used in the inference phase. We also provide an analysis of solution existence together with convergence proof for the proposed RL optimization. Evaluation is performed using real-world traffic data collected using traffic cameras from an Asian country. Our method can effectively reduce the total delayed time by 60\%. Results demonstrate its superiority when compared to SoTA methods.
翻訳日:2022-05-24 18:22:27 公開日:2022-05-23
# タスクインクリメンタル学習ベースラインの再考

Rethinking Task-Incremental Learning Baselines ( http://arxiv.org/abs/2205.11367v1 )

ライセンス: Link先を確認
Md Sazzad Hossain, Pritom Saha, Townim Faisal Chowdhury, Shafin Rahman, Fuad Rahman, Nabeel Mohammed(参考訳) 現実世界のアプリケーションでシステムに導入する必要がある新しいデータの連続的なストリームを持つことが一般的です。 モデルは、古い知識(pastタスク)を保持しながら、新しく追加された機能(将来のタスク)を学習する必要があります。 インクリメンタルラーニングは近年,この問題に対してますますアピールしている。 タスクインクリメンタル学習(task-incremental learning)は、新しく含まれたタスク(クラスの集合)のタスクidが推論の間も知られているインクリメンタル学習の一種である。 task-incremental methodの共通の目標は、最小限のサイズで動作し、良好なパフォーマンスを維持するネットワークを設計することである。 安定性・塑性ジレンマを管理するために、過去のタスクのリプレイメモリ、専用ハードウェア、正規化監視等を利用する方法が異なる。 しかし、これらの手法はアーキテクチャの成長や入力データコストの観点からもメモリ効率が低い。 本研究では,メモリインスタンスを使わずに最小のアーキテクチャサイズを用いながら,最先端に近いパフォーマンスを実現するタスクインクリメンタル学習のための,単純かつ効果的な調整ネットワーク(san)を提案する。 本研究では, 3D 点クラウドオブジェクト (ModelNet40) と 2D 画像 (CIFAR10, CIFAR100, MiniImageNet, MNIST, PermutedMNIST, notMNIST, SVHN, FashionMNIST) の認識タスクについて検討し, 既存の手法と公正に比較した強力なベースライン結果を確立する。 2Dドメインと3Dドメインの両方において、SANはタスクインクリメンタルな設定において、主に異なるタスクオーダの影響を受けない。

It is common to have continuous streams of new data that need to be introduced in the system in real-world applications. The model needs to learn newly added capabilities (future tasks) while retaining the old knowledge (past tasks). Incremental learning has recently become increasingly appealing for this problem. Task-incremental learning is a kind of incremental learning where task identity of newly included task (a set of classes) remains known during inference. A common goal of task-incremental methods is to design a network that can operate on minimal size, maintaining decent performance. To manage the stability-plasticity dilemma, different methods utilize replay memory of past tasks, specialized hardware, regularization monitoring etc. However, these methods are still less memory efficient in terms of architecture growth or input data costs. In this study, we present a simple yet effective adjustment network (SAN) for task incremental learning that achieves near state-of-the-art performance while using minimal architectural size without using memory instances compared to previous state-of-the-art approaches. We investigate this approach on both 3D point cloud object (ModelNet40) and 2D image (CIFAR10, CIFAR100, MiniImageNet, MNIST, PermutedMNIST, notMNIST, SVHN, and FashionMNIST) recognition tasks and establish a strong baseline result for a fair comparison with existing methods. On both 2D and 3D domains, we also observe that SAN is primarily unaffected by different task orders in a task-incremental setting.
翻訳日:2022-05-24 18:22:04 公開日:2022-05-23
# LexiconNet: エンドツーエンドの手書きパラグラフテキスト認識システム

LexiconNet: An End-to-End Handwritten Paragraph Text Recognition System ( http://arxiv.org/abs/2205.11018v1 )

ライセンス: Link先を確認
Lalita Kumari, Sukhdeep Singh, Vaibhav Varish Singh Rathore and Anuj Sharma(参考訳) 図書館形態の歴史的文書はデジタル化する必要がある。 これらの制約のない手書き文書の認識は難しい課題である。 本研究では,ニューラルネットワークに基づく分類器を用いる。 ニューラルネットワークベースのシステムで簡単にトレーニングできるスキャン済みのドキュメントイメージの認識は通常、セグメンテーションと認識という2段階のアプローチによって行われる。 このアプローチにはいくつかの欠点があり、テキスト領域の識別、ページ内に存在するレイアウトの多様性分析、根拠のセグメンテーションが含まれる。 これらのプロセスは、認識精度のボトルネックを引き起こすエラーを起こしやすい。 そこで本研究では, エンド・ツー・エンドの段落認識システムにおいて, 内部線分節化とレキシコンデコーダをポスト処理ステップとして提示する。 私たちはモデルをLexiconNetと名付けました。 LexiconNetでは、ある段落画像に対して、畳み込みと深度的に分離可能な畳み込み加群の組み合わせが画像の2次元特徴写像を生成する。 アテンションモジュールは内部の行セグメンテーションに責任を持ち、結果としてページを行単位で処理する。 復号化ステップでは,ポスト処理ステップとしてコネクショニスト時間分類に基づくワードビーム探索デコーダを追加した。 我々のアプローチは、標準データセットで最新結果を報告します。 報告された文字エラー率は27.19%改善のIAMデータセットで3.24%、RIMESで1.13%、既存の文献で40.83%改善のREAD-16データセットで2.43%、単語エラー率は43.02%改善のIAMデータセットで8.29%、改善の56.25%改善のRIMESデータセットで2.94%、改善の47.27%改善のREAD-2016データセットで7.35%である。 本研究で報告された文字誤り率と単語誤り率は文献で報告された結果を超える。

Historical documents present in the form of libraries needs to be digitised. The recognition of these unconstrained cursive handwritten documents is a challenging task. In the present work, neural network based classifier is used. The recognition of scanned document images which are easy to train on neural network based systems is usually done by a two step approach: segmentation followed by recognition. This approach has several shortcomings, which includes identification of text regions, layout diversity analysis present within pages and ground truth segmentation. These processes are prone to errors that create bottleneck in the recognition accuracies. Thus in this study, an end-to-end paragraph recognition system is presented with internal line segmentation and lexicon decoder as post processing step, which is free from those errors. We named our model as LexiconNet. In LexiconNet, given a paragraph image a combination of convolution and depth-wise separable convolutional modules generates the two dimension feature map of the image. The attention module is responsible for internal line segmentation that consequently processing a page in a line by line manner. At decoding step, we have added connectionist temporal classification based word beam search decoder as a post processing step. Our approach reports state-of-the-art results on standard datasets. The reported character error rate is 3.24% on IAM dataset with 27.19% improvement, 1.13% on RIMES with 40.83% improvement and 2.43% on READ-16 dataset with 32.31% improvement from existing literature and the word error rate is 8.29% on IAM dataset with 43.02% improvement, 2.94% on RIMES dataset with 56.25% improvement and 7.35% on READ-2016 dataset with 47.27% improvement from the existing results. The character error rate and word error rate reported in this work surpasses the results reported in literature.
翻訳日:2022-05-24 18:12:56 公開日:2022-05-23
# 画像セグメンテーションのための塩分駆動型アクティブ輪郭モデル

Saliency-Driven Active Contour Model for Image Segmentation ( http://arxiv.org/abs/2205.11063v1 )

ライセンス: Link先を確認
Ehtesham Iqbal, Asim Niaz, Asif Aziz Memon, Usman Asim and Kwang Nam Choi(参考訳) アクティブな輪郭モデルは画像セグメンテーションの領域で顕著に成功し、複雑なオブジェクトを背景からセグメント化してさらなる分析を可能にした。 既存のモデルは、領域ベースのアクティブ輪郭モデルとエッジベースのアクティブ輪郭モデルに分けられる。 しかし,両モデルとも,画像強度の不均一性による初期輪郭位置,雑音感度,局所最小値,非効率性など,多くの問題に直面している。 画像のサリエンシーマップは画像表現を変え、より視覚的で意味のあるものにします。 そこで本研究では,局所画像情報(LIF)を用いたサリエンシマップの利点を生かし,従来のモデルの欠点を克服する新しいモデルを提案する。 提案モデルでは,画像の鮮度マップと局所画像情報を用いて,アクティブな輪郭モデルの進行性を向上させる。 このモデルでは、画像の塩分濃度マップをまず計算し、塩分濃度駆動局所適合エネルギーを求める。 そして、塩分を駆動する局所適合エネルギーとLIFモデルを組み合わせることで、最終的なエネルギー汎関数が得られる。 この最後のエネルギー汎関数はレベルセットの定式化によって定式化され、制御項が加わり、より正確に対象の境界を越えて輪郭を進化させる。 提案手法の品質は,様々な合成画像,実画像,医療画像を含む公開データセットにおいて検証された。 画像分割結果と定量的比較により,提案モデルの輪郭初期化独立性,ノイズ非感度,良好なセグメンテーション精度が他のセグメンテーションモデルと比較された。

Active contour models have achieved prominent success in the area of image segmentation, allowing complex objects to be segmented from the background for further analysis. Existing models can be divided into region-based active contour models and edge-based active contour models. However, both models use direct image data to achieve segmentation and face many challenging problems in terms of the initial contour position, noise sensitivity, local minima and inefficiency owing to the in-homogeneity of image intensities. The saliency map of an image changes the image representation, making it more visual and meaningful. In this study, we propose a novel model that uses the advantages of a saliency map with local image information (LIF) and overcomes the drawbacks of previous models. The proposed model is driven by a saliency map of an image and the local image information to enhance the progress of the active contour models. In this model, the saliency map of an image is first computed to find the saliency driven local fitting energy. Then, the saliency-driven local fitting energy is combined with the LIF model, resulting in a final novel energy functional. This final energy functional is formulated through a level set formulation, and regulation terms are added to evolve the contour more precisely across the object boundaries. The quality of the proposed method was verified on different synthetic images, real images and publicly available datasets, including medical images. The image segmentation results, and quantitative comparisons confirmed the contour initialization independence, noise insensitivity, and superior segmentation accuracy of the proposed model in comparison to the other segmentation models.
翻訳日:2022-05-24 18:12:09 公開日:2022-05-23
# 初等中等学習のための自己蒸留型知識記述器

Self-distilled Knowledge Delegator for Exemplar-free Class Incremental Learning ( http://arxiv.org/abs/2205.11071v1 )

ライセンス: Link先を確認
Fanfan Ye, Liang Ma, Qiaoyong Zhong, Di Xie, Shiliang Pu(参考訳) exemplar-freeインクリメンタル学習は、古いタスクからのデータにアクセスできないため、非常に難しい。 本稿では,事前訓練された分類モデルにエンコードされた知識を活用し,継続学習における破滅的な忘れ方問題に対処することを試みる。 具体的には,学習モデルから知識をランダムに再起動する新しいモデルに伝達し,情報的サンプルを生成する,いわゆるナレッジデリゲータを導入する。 従来のモデルのみを考えると、デグレゲータはデータフリーで自己蒸留機構を用いて効果的に学習される。 デリゲータによって抽出された知識は、インクリメンタル学習において、古いタスクにおけるモデルの性能を維持するために利用される。 この単純なインクリメンタル学習フレームワークは、cifar-100、imagenet-subset、caltech-101、flowers-102という4つの広く使われているクラスインクリメンタルベンチマークにおいて、既存のexemplar-freeメソッドを大きく上回っている。 特筆すべきは、一部の例に匹敵する性能を、例に照らさずに達成することである。

Exemplar-free incremental learning is extremely challenging due to inaccessibility of data from old tasks. In this paper, we attempt to exploit the knowledge encoded in a previously trained classification model to handle the catastrophic forgetting problem in continual learning. Specifically, we introduce a so-called knowledge delegator, which is capable of transferring knowledge from the trained model to a randomly re-initialized new model by generating informative samples. Given the previous model only, the delegator is effectively learned using a self-distillation mechanism in a data-free manner. The knowledge extracted by the delegator is then utilized to maintain the performance of the model on old tasks in incremental learning. This simple incremental learning framework surpasses existing exemplar-free methods by a large margin on four widely used class incremental benchmarks, namely CIFAR-100, ImageNet-Subset, Caltech-101 and Flowers-102. Notably, we achieve comparable performance to some exemplar-based methods without accessing any exemplars.
翻訳日:2022-05-24 18:11:39 公開日:2022-05-23
# FaceMAE: マスク付きオートエンコーダによるプライバシー保護型顔認識

FaceMAE: Privacy-Preserving Face Recognition via Masked Autoencoders ( http://arxiv.org/abs/2205.11090v1 )

ライセンス: Link先を確認
Kai Wang, Bo Zhao, Xiangyu Peng, Zheng Zhu, Jiankang Deng, Xinchao Wang, Hakan Bilen, Yang You(参考訳) 顔認識は、人工知能で最も成功したアプリケーションの一つであり、セキュリティ、管理、広告、医療に広く使われている。 しかし、公共の顔データセットのプライバシー問題は近年注目を集めている。 以前の研究は、プライバシー保護とデータユーティリティのトレードオフを見逃すプライバシを保存できる顔データセットを構築するために、顔のほとんどの領域をマスクしたり、生成モデルを使ってサンプルを合成したりするだけでした。 本稿では,顔のプライバシーと認識性能を同時に考慮した新しい枠組みであるfacemaeを提案する。 まず、ランダムにマスクされた顔画像を用いて、FaceMAEの再構築モジュールをトレーニングする。 我々は、実顔とFaceMAE再構成顔との分散ギャップを最小限に抑えるために、IRMモジュールを調整する。 展開段階では、トレーニング済みのFaceMAEを使用して、余分なトレーニングをすることなく、見えない人物の顔から画像を再構成する。 プライバシリークのリスクは、再構築されたデータセットとオリジナルのデータセットの間の顔検索に基づいて測定される。 再構成画像の同一性は検索が困難であることが実験により証明された。 また、いくつかの公開顔データセット(CASIA-WebFaceとWebFace260M)上で、十分なプライバシ保護顔認識を実行します。 従来の芸術と比較すると、FaceMAEはLFW、CFP-FP、 AgeDB上で一貫して少なくとも50%エラー率を誘導する。

Face recognition, as one of the most successful applications in artificial intelligence, has been widely used in security, administration, advertising, and healthcare. However, the privacy issues of public face datasets have attracted increasing attention in recent years. Previous works simply mask most areas of faces or synthesize samples using generative models to construct privacy-preserving face datasets, which overlooks the trade-off between privacy protection and data utility. In this paper, we propose a novel framework FaceMAE, where the face privacy and recognition performance are considered simultaneously. Firstly, randomly masked face images are used to train the reconstruction module in FaceMAE. We tailor the instance relation matching (IRM) module to minimize the distribution gap between real faces and FaceMAE reconstructed ones. During the deployment phase, we use trained FaceMAE to reconstruct images from masked faces of unseen identities without extra training. The risk of privacy leakage is measured based on face retrieval between reconstructed and original datasets. Experiments prove that the identities of reconstructed images are difficult to be retrieved. We also perform sufficient privacy-preserving face recognition on several public face datasets (i.e. CASIA-WebFace and WebFace260M). Compared to previous state of the arts, FaceMAE consistently \textbf{reduces at least 50\% error rate} on LFW, CFP-FP and AgeDB.
翻訳日:2022-05-24 18:11:20 公開日:2022-05-23
# 因果解析による視覚言語モデル推論支援

Supporting Vision-Language Model Inference with Causality-pruning Knowledge Prompt ( http://arxiv.org/abs/2205.11100v1 )

ライセンス: Link先を確認
Jiangmeng Li, Wenyi Mo, Wenwen Qiang, Bing Su, Changwen Zheng(参考訳) ビジョン言語モデルは、画像とテキストのペアを共通の空間に整列させて、テキストラベルから意味情報を学習することで、オープンセットの視覚概念を扱えるように事前訓練される。 下流タスクにおけるこれらのモデルの転送可能性を高めるため、近年の研究では、タスク関連カテゴリを記述した自然言語から分類重みを合成し、トレーニングとテストフェーズにおけるタスク間のギャップを減らし、固定または学習可能なプロンプトを生成する方法が検討されている。 しかし、どのようにして、どのプロンプトが推論性能を改善するのかは不明だ。 本稿では,既存のプロンプト手法がテキストラベルのセマンティック情報を探さずにプロンプトを生成するのに対して,意味情報をプロンプトに含めることの重要性を明らかにする。 難しいのは、複雑なセマンティック情報を持つプロンプトを手作業で構築する場合、ドメインの専門知識が必要で、非常に時間がかかります。 そこで我々は,事前学習された視覚言語モデルを下流画像認識に適用するためのCausality-pruning Knowledge Prompt (CapKP)を提案する。 CapKPは、テキストラベルをクエリとして扱い、タスク関連セマンティック情報を探索することで、存在論的知識グラフを検索する。 派生した意味情報をさらに洗練するために、CapKPはGranger因果性の第一原理に従うことによって因果決定を導入する。 実験では,手動プロンプト法を12.51%,学習可能なプロンプト法を1.39%,手動プロンプト法を12.51%,手動プロンプト法を1.39%,それぞれ向上させた。 実験解析により、ベンチマーク手法と比較して、領域一般化におけるCapKPの優位性が証明された。

Vision-language models are pre-trained by aligning image-text pairs in a common space so that the models can deal with open-set visual concepts by learning semantic information from textual labels. To boost the transferability of these models on downstream tasks in a zero-shot manner, recent works explore generating fixed or learnable prompts, i.e., classification weights are synthesized from natural language describing task-relevant categories, to reduce the gap between tasks in the training and test phases. However, how and what prompts can improve inference performance remains unclear. In this paper, we explicitly provide exploration and clarify the importance of including semantic information in prompts, while existing prompt methods generate prompts without exploring the semantic information of textual labels. A challenging issue is that manually constructing prompts, with rich semantic information, requires domain expertise and is extremely time-consuming. To this end, we propose Causality-pruning Knowledge Prompt (CapKP) for adapting pre-trained vision-language models to downstream image recognition. CapKP retrieves an ontological knowledge graph by treating the textual label as a query to explore task-relevant semantic information. To further refine the derived semantic information, CapKP introduces causality-pruning by following the first principle of Granger causality. Empirically, we conduct extensive evaluations to demonstrate the effectiveness of CapKP, e.g., with 8 shots, CapKP outperforms the manual-prompt method by 12.51% and the learnable-prompt method by 1.39% on average, respectively. Experimental analyses prove the superiority of CapKP in domain generalization compared to benchmark approaches.
翻訳日:2022-05-24 18:10:59 公開日:2022-05-23
# 部分ラベルを用いた複数ラベル認識のための異種意味伝達

Heterogeneous Semantic Transfer for Multi-label Recognition with Partial Labels ( http://arxiv.org/abs/2205.11131v1 )

ライセンス: Link先を確認
Tianshui Chen, Tao Pu, Lingbo Liu, Yukai Shi, Zhijing Yang, Liang Lin(参考訳) 部分ラベル付きマルチラベル画像認識(MLR-PL)では,各画像に未知なラベルがある場合,アノテーションのコストを大幅に削減し,大規模なMLRを実現する。 これらの相関関係は、既知のラベルが持つ知識を伝達して未知のラベルを検索し、MLR-PLタスクの性能を向上させるのに役立つ(図1参照)。 本研究では,画像内および画像間の意味相関を探索し,未知ラベルに対する擬似ラベルを生成するために,未知ラベルの知識を転送する2つの相補的トランスファーモジュールからなる,新しいヘテロジニアス・セマンティクス・トランスファー(hst)フレームワークを提案する。 具体的には、画像内意味伝達(ist)モジュールが画像毎に画像固有のラベル共起行列を学習し、既知のラベルをマップしてこれらの行列に基づいて未知のラベルを補完する。 さらに、クロスイメージトランスファー(CST)モジュールは、カテゴリ固有の特徴-プロトタイプの類似性を学習し、対応するプロトタイプと高い類似度を持つ未知のラベルを補完する。 最後に、既知のおよび生成された擬似ラベルは、MLRモデルのトレーニングに使用される。 Microsoft COCO、Visual Genome、Pascal VOC 2007データセットで実施された大規模な実験は、提案されたHSTフレームワークが現在の最先端アルゴリズムよりも優れたパフォーマンスを達成することを示している。 具体的には、これまで開発されてきたアルゴリズムの結果より、平均精度(map)が1.4%、3.3%、0.4%向上した。

Multi-label image recognition with partial labels (MLR-PL), in which some labels are known while others are unknown for each image, may greatly reduce the cost of annotation and thus facilitate large-scale MLR. We find that strong semantic correlations exist within each image and across different images, and these correlations can help transfer the knowledge possessed by the known labels to retrieve the unknown labels and thus improve the performance of the MLR-PL task (see Figure 1). In this work, we propose a novel heterogeneous semantic transfer (HST) framework that consists of two complementary transfer modules that explore both within-image and cross-image semantic correlations to transfer the knowledge possessed by known labels to generate pseudo labels for the unknown labels. Specifically, an intra-image semantic transfer (IST) module learns an image-specific label co-occurrence matrix for each image and maps the known labels to complement the unknown labels based on these matrices. Additionally, a cross-image transfer (CST) module learns category-specific feature-prototype similarities and then helps complement the unknown labels that have high degrees of similarity with the corresponding prototypes. Finally, both the known and generated pseudo labels are used to train MLR models. Extensive experiments conducted on the Microsoft COCO, Visual Genome, and Pascal VOC 2007 datasets show that the proposed HST framework achieves superior performance to that of current state-of-the-art algorithms. Specifically, it obtains mean average precision (mAP) improvements of 1.4%, 3.3%, and 0.4% on the three datasets over the results of the best-performing previously developed algorithm.
翻訳日:2022-05-24 18:09:18 公開日:2022-05-23
# オンラインハイブリッド軽量表現学習:その視覚追跡への応用

Online Hybrid Lightweight Representations Learning: Its Application to Visual Tracking ( http://arxiv.org/abs/2205.11179v1 )

ライセンス: Link先を確認
Ilchae Jung, Minji Kim, Eunhyeok Park, Bohyung Han(参考訳) 本稿では,ビデオ内の画像フレームを2つの異なるディープニューラルネットワークのアンサンブルでモデル化し,一方は低ビット量子化ネットワークであり,他方は軽量な完全精度ネットワークである,ストリーミングデータのための新しいハイブリッド表現学習フレームワークを提案する。 前者は粗い一次情報を低コストで学習し、後者は元の表現に忠実な残差情報を伝達する。 提案する並列アーキテクチャは,定点演算を量子化ネットワークで活用でき,軽量モデルはコンパクトなチャネルプラニングネットワークで与えられる正確な表現を提供するため,補完的情報を維持するのに有効である。 我々はこのハイブリッド表現手法を、ディープニューラルネットワークがリアルタイムにターゲットの外観の時間的変動を処理する必要があるオンライン視覚追跡タスクに組み込む。 従来のディープニューラルネットワークに基づく最先端のリアルタイムトラッカーと比較して,我々の追跡アルゴリズムは,計算コストとメモリフットプリントの少ない標準ベンチマークにおける競合精度を示す。

This paper presents a novel hybrid representation learning framework for streaming data, where an image frame in a video is modeled by an ensemble of two distinct deep neural networks; one is a low-bit quantized network and the other is a lightweight full-precision network. The former learns coarse primary information with low cost while the latter conveys residual information for high fidelity to original representations. The proposed parallel architecture is effective to maintain complementary information since fixed-point arithmetic can be utilized in the quantized network and the lightweight model provides precise representations given by a compact channel-pruned network. We incorporate the hybrid representation technique into an online visual tracking task, where deep neural networks need to handle temporal variations of target appearances in real-time. Compared to the state-of-the-art real-time trackers based on conventional deep neural networks, our tracking algorithm demonstrates competitive accuracy on the standard benchmarks with a small fraction of computational cost and memory footprint.
翻訳日:2022-05-24 18:08:47 公開日:2022-05-23
# 意味セグメンテーションのための多レベルコントラスト単位を用いたアクティブドメイン適応

Active Domain Adaptation with Multi-level Contrastive Units for Semantic Segmentation ( http://arxiv.org/abs/2205.11192v1 )

ライセンス: Link先を確認
Hao Zhang, Ruimao Zhang, Zhanglin Peng, Junle Wang, Yanqing Jing(参考訳) 半教師ドメイン適応(ssda)ラベリングのコストをさらに削減するため、より効果的な方法は、選択したサブセットに特定の特性を付与するためにアクティブラーニング(al)を使用することである。 しかしながら、ドメイン適応タスクは常に2つのインタラクティブな側面で対処される。ドメイン転送と識別の強化である。 分類タスクにおけるアクティブな学習とは対照的に、上記の2つの特性を含む画素を分割タスクで選択することは、ピクセル選択戦略の複雑な設計につながる。 そこで本研究では,マルチレベルコントラスト単位(ada-mcu)を用いた画像セグメンテーションのためのアクティブドメイン適応方式を提案する。 ドメイン適応とアクティブ教師付き学習の両方に最適化するために,マルチレベルコントラストユニットの構築に伴う単純な画素選択戦略を導入する。 実際には、MCUはラベル付きピクセルとラベルなしピクセルの両方を使用して、画像内、クロスイメージ、クロスドメインレベルから構築される。 各レベルにおいて、カテゴリ中心を協調的に整列させ、決定境界付近のアウトリーチを減らすことを目的として、中心から中心へおよび画素へ向けての対照的な損失を定義する。 さらに,mcusの損失の重み付けに使用されるカテゴリ間の関係を暗黙的に記述するためのカテゴリ相関行列も導入する。 提案手法は,ラベル付き画素を50%減らした最先端のSSDA法に対して高い性能を達成し,同じレベルのアノテーションコストを用いることで,最先端のSSDA法を著しく上回ることを示す。

To further reduce the cost of semi-supervised domain adaptation (SSDA) labeling, a more effective way is to use active learning (AL) to annotate a selected subset with specific properties. However, domain adaptation tasks are always addressed in two interactive aspects: domain transfer and the enhancement of discrimination, which requires the selected data to be both uncertain under the model and diverse in feature space. Contrary to active learning in classification tasks, it is usually challenging to select pixels that contain both the above properties in segmentation tasks, leading to the complex design of pixel selection strategy. To address such an issue, we propose a novel Active Domain Adaptation scheme with Multi-level Contrastive Units (ADA-MCU) for semantic image segmentation. A simple pixel selection strategy followed with the construction of multi-level contrastive units is introduced to optimize the model for both domain adaptation and active supervised learning. In practice, MCUs are constructed from intra-image, cross-image, and cross-domain levels by using both labeled and unlabeled pixels. At each level, we define contrastive losses from center-to-center and pixel-to-pixel manners, with the aim of jointly aligning the category centers and reducing outliers near the decision boundaries. In addition, we also introduce a categories correlation matrix to implicitly describe the relationship between categories, which are used to adjust the weights of the losses for MCUs. Extensive experimental results on standard benchmarks show that the proposed method achieves competitive performance against state-of-the-art SSDA methods with 50% fewer labeled pixels and significantly outperforms state-of-the-art with a large margin by using the same level of annotation cost.
翻訳日:2022-05-24 18:08:31 公開日:2022-05-23
# 一般人物ReIDのための特徴分布摂動と校正

Feature-Distribution Perturbation and Calibration for Generalized Person ReID ( http://arxiv.org/abs/2205.11197v1 )

ライセンス: Link先を確認
Qilei Li, Jiabo Huang, Jian Hu and Shaogang Gong(参考訳) 人物再識別(ReID)は、視覚認識のためのディープラーニングの急速な発展とともに、過去10年間で著しく進歩してきた。 しかし、ほとんどのディープラーニングモデルで一般的なi.d.d.(独立で同一に分布する)仮定は、ビューバイアスデータ分布の対象となる可変領域特性と独立領域特性の異なる場所で同じ歩行者の画像を特定することを目的としているため、ReIDにはやや適用不可能である。 本研究では、カメラ間で識別できるだけでなく、任意の未確認対象ドメインに対して非依存かつデプロイ可能な、人物ReIDの汎用的特徴表現を導出する機能分散摂動校正手法を提案する。 具体的には、ドメインごとの特徴分布摂動を行い、摂動に起因する分布変化に特徴不変を強制することにより、モデルが各ソースのドメインバイアス分布に過度に収まらないようにする。 さらに、すべてのソースドメインにまたがる特徴分布を調整し、ドメインバイアスを取り除いてモデル一般化能力を向上させるグローバルキャリブレーション機構を設計する。 これらの局所摂動と大域キャリブレーションは同時に行われ、摂動と元の分布にそれぞれ正規化による過度なモデルを避けるために同じ原理を共有する。 8人のreidデータセットで広範な実験が行われ、提案されたpecaモデルは最先端の競合相手をかなり上回っていた。

Person Re-identification (ReID) has been advanced remarkably over the last 10 years along with the rapid development of deep learning for visual recognition. However, the i.i.d. (independent and identically distributed) assumption commonly held in most deep learning models is somewhat non-applicable to ReID considering its objective to identify images of the same pedestrian across cameras at different locations often of variable and independent domain characteristics that are also subject to view-biased data distribution. In this work, we propose a Feature-Distribution Perturbation and Calibration (PECA) method to derive generic feature representations for person ReID, which is not only discriminative across cameras but also agnostic and deployable to arbitrary unseen target domains. Specifically, we perform per-domain feature-distribution perturbation to refrain the model from overfitting to the domain-biased distribution of each source (seen) domain by enforcing feature invariance to distribution shifts caused by perturbation. Furthermore, we design a global calibration mechanism to align feature distributions across all the source domains to improve the model generalization capacity by eliminating domain bias. These local perturbation and global calibration are conducted simultaneously, which share the same principle to avoid models overfitting by regularization respectively on the perturbed and the original distributions. Extensive experiments were conducted on eight person ReID datasets and the proposed PECA model outperformed the state-of-the-art competitors by significant margins.
翻訳日:2022-05-24 18:07:58 公開日:2022-05-23
# 効率的なエッジインテリジェンスのための動的スプリットコンピューティング

Dynamic Split Computing for Efficient Deep Edge Intelligence ( http://arxiv.org/abs/2205.11269v1 )

ライセンス: Link先を確認
Arian Bakhtiarnia, Nemanja Milo\v{s}evi\'c, Qi Zhang, Dragana Bajovi\'c, Alexandros Iosifidis(参考訳) IoTとモバイルデバイスにディープニューラルネットワーク(DNN)をデプロイすることは、計算リソースが限られているため、難しい作業である。 したがって、要求されるタスクはエッジサーバに完全にオフロードされるため、推論を加速するが、通信コストを発生させ、プライバシの懸念を引き起こす。 さらに、このアプローチは、未使用のエンドデバイスの計算能力を残している。 分割コンピューティングはDNNを2つのセクションに分割するパラダイムであり、第1のセクションはエンドデバイス上で実行され、出力は最終セクションが実行されるエッジサーバに送信される。 本稿では,通信チャネルの状態に基づいて最適な分割位置を動的に選択する動的分割計算を提案する。 現代のDNNアーキテクチャにすでに存在する自然なボトルネックを利用することで、動的スプリットコンピューティングはリトレーニングやハイパーパラメータ最適化を回避し、DNNの最終精度に悪影響を及ぼさない。 本研究では,データレートとサーバ負荷が時間とともに変化するエッジコンピューティング環境において,動的分割計算が高速な推論を実現することを示す。

Deploying deep neural networks (DNNs) on IoT and mobile devices is a challenging task due to their limited computational resources. Thus, demanding tasks are often entirely offloaded to edge servers which can accelerate inference, however, it also causes communication cost and evokes privacy concerns. In addition, this approach leaves the computational capacity of end devices unused. Split computing is a paradigm where a DNN is split into two sections; the first section is executed on the end device, and the output is transmitted to the edge server where the final section is executed. Here, we introduce dynamic split computing, where the optimal split location is dynamically selected based on the state of the communication channel. By using natural bottlenecks that already exist in modern DNN architectures, dynamic split computing avoids retraining and hyperparameter optimization, and does not have any negative impact on the final accuracy of DNNs. Through extensive experiments, we show that dynamic split computing achieves faster inference in edge computing environments where the data rate and server load vary over time.
翻訳日:2022-05-24 18:07:30 公開日:2022-05-23
# カモフラージュ物体検出のより深い理解に向けて

Towards Deeper Understanding of Camouflaged Object Detection ( http://arxiv.org/abs/2205.11333v1 )

ライセンス: Link先を確認
Yunqiu Lv, Jing Zhang, Yuchao Dai, Aixuan Li, Nick Barnes, Deng-Ping Fan(参考訳) 野生の獲物は捕食者によって認識されるのを避けるためにカモフラージュされるように進化する。 このように、カモフラージュは生存に必須な種間の重要な防御機構として機能する。 カモフラージュされた物体の全範囲を検出するために、カモフラージュされた物体の正確な領域を示す二元的真実カモフラージュマップを用いて、カモフラージュされた物体検出(COD)を二元的セグメンテーションタスクとして導入する。 本稿では,この課題を再検討し,二項セグメンテーション設定はカモフラージュの概念を完全に理解できないと主張する。 カモフラージュされた物体の特定の背景に対する目立たしさを明示的にモデル化することは、カモフラージュの理解を深めるだけでなく、より洗練されたカモフラージュ技術を設計するためのガイダンスを提供する。 さらに, 捕食者によって検出可能なカモフラージュ対象の特定の部分であることも観察した。 カモフラージュオブジェクトに関する上記の理解から,カモフラージュオブジェクトのローカライズ,セグメンテーション,ランク付けを同時に行う,最初のトリプルタスク学習フレームワークを提案する。 ローカライゼーションモデルとランキングモデルの両方に対応するデータセットが存在しないため、アイトラッカを用いたローカライゼーションマップを生成し、インスタンスレベルラベルに従って処理し、ランキングベースのトレーニングおよびテストデータセットを生成する。 また,カモフラーグオブジェクト検出モデルの性能を包括的に解析するために,最大規模のCODテストセットも提案する。 実験の結果,トリプルタスク学習フレームワークが新たな最先端技術を実現し,より説明可能なcamouflaged object detection networkを実現していることがわかった。 私たちのコード、データ、結果は、https://github.com/JingZhang617/COD-Rank-Localize-and-Segment.comで利用可能です。

Preys in the wild evolve to be camouflaged to avoid being recognized by predators. In this way, camouflage acts as a key defence mechanism across species that is critical to survival. To detect and segment the whole scope of a camouflaged object, camouflaged object detection (COD) is introduced as a binary segmentation task, with the binary ground truth camouflage map indicating the exact regions of the camouflaged objects. In this paper, we revisit this task and argue that the binary segmentation setting fails to fully understand the concept of camouflage. We find that explicitly modeling the conspicuousness of camouflaged objects against their particular backgrounds can not only lead to a better understanding about camouflage, but also provide guidance to designing more sophisticated camouflage techniques. Furthermore, we observe that it is some specific parts of camouflaged objects that make them detectable by predators. With the above understanding about camouflaged objects, we present the first triple-task learning framework to simultaneously localize, segment and rank camouflaged objects, indicating the conspicuousness level of camouflage. As no corresponding datasets exist for either the localization model or the ranking model, we generate localization maps with an eye tracker, which are then processed according to the instance level labels to generate our ranking-based training and testing dataset. We also contribute the largest COD testing set to comprehensively analyse performance of the camouflaged object detection models. Experimental results show that our triple-task learning framework achieves new state-of-the-art, leading to a more explainable camouflaged object detection network. Our code, data and results are available at: https://github.com/JingZhang617/COD-Rank-Localize-and-Segment.
翻訳日:2022-05-24 18:07:11 公開日:2022-05-23
# (参考訳) ニューラル定理証明のためのハイパートレー証明

HyperTree Proof Search for Neural Theorem Proving ( http://arxiv.org/abs/2205.11491v1 )

ライセンス: CC BY 4.0
Guillaume Lample, Marie-Anne Lachaux, Thibaut Lavril, Xavier Martinet, Amaury Hayat, Gabriel Ebner, Aur\'elien Rodriguez, Timoth\'ee Lacroix(参考訳) 本稿では,変圧器を用いた自動定理証明器のオンライン学習手順を提案する。 我々の手法は、最近AlphaZeroの成功に触発された新しい検索アルゴリズムHyperTree Proof Search (HTPS)を活用する。 我々のモデルは、オンライントレーニングを通じて以前の証明検索から学習し、トレーニング分布から遠く離れた領域に一般化することができる。 本稿では,複雑性が増大する3つの環境において,パイプラインの主なコンポーネントの詳細な改善について報告する。 特に、HTPSだけでは、注釈付き証明に基づいて訓練されたモデルがメタマス定理の保留集合の65.4%を証明し、GPT-fにより56.5%の先行状態よりも著しく優れていることを示す。 これらの証明されていない定理のオンライントレーニングは精度を82.6%に向上させる。 同様の計算予算で、リーンベースの miniF2F-curriculum データセットの精度を 31% から 42% に改善します。

We propose an online training procedure for a transformer-based automated theorem prover. Our approach leverages a new search algorithm, HyperTree Proof Search (HTPS), inspired by the recent success of AlphaZero. Our model learns from previous proof searches through online training, allowing it to generalize to domains far from the training distribution. We report detailed ablations of our pipeline's main components by studying performance on three environments of increasing complexity. In particular, we show that with HTPS alone, a model trained on annotated proofs manages to prove 65.4% of a held-out set of Metamath theorems, significantly outperforming the previous state of the art of 56.5% by GPT-f. Online training on these unproved theorems increases accuracy to 82.6%. With a similar computational budget, we improve the state of the art on the Lean-based miniF2F-curriculum dataset from 31% to 42% proving accuracy.
翻訳日:2022-05-24 18:04:54 公開日:2022-05-23
# 計算的ストーリーテリングと感情:調査

Computational Storytelling and Emotions: A Survey ( http://arxiv.org/abs/2205.10967v1 )

ライセンス: Link先を確認
Yusuke Mori, Hiroaki Yamane, Yusuke Mukuta, Tatsuya Harada(参考訳) ストーリーテリングは常に人間の本性にとって不可欠だった。 古代から、人間はエンターテイメント、広告、教育など、いくつかの目的のために物語を使ってきた。 研究者やクリエーターによって、良い物語を生み出す方法を決定するために様々な分析が行われてきた。 ストーリーと感情の深い関係は、その典型例である。 ディープラーニング技術の進歩により、コンピュータはストーリーを理解し、生成することが期待される。 本研究は,物語と感情の関係に関する研究を要約し,さらに貢献することを目的としている。 創造性の研究は、人間をコンピュータに置き換えることではなく、創造性を高めるために人間とコンピュータの協力方法を見つけることだと考えています。 計算的ストーリーテリング研究と人間の創造的執筆の新たな交差点を作ることを目的として,プロのストーリーテラーが使用する創造的手法を紹介した。

Storytelling has always been vital for human nature. From ancient times, humans have used stories for several objectives including entertainment, advertisement, and education. Various analyses have been conducted by researchers and creators to determine the way of producing good stories. The deep relationship between stories and emotions is a prime example. With the advancement in deep learning technology, computers are expected to understand and generate stories. This survey paper is intended to summarize and further contribute to the development of research being conducted on the relationship between stories and emotions. We believe creativity research is not to replace humans with computers, but to find a way of collaboration between humans and computers to enhance the creativity. With the intention of creating a new intersection between computational storytelling research and human creative writing, we introduced creative techniques used by professional storytellers.
翻訳日:2022-05-24 17:08:36 公開日:2022-05-23
# banglanlg: バングラの低リソース自然言語生成評価のためのベンチマークとリソース

BanglaNLG: Benchmarks and Resources for Evaluating Low-Resource Natural Language Generation in Bangla ( http://arxiv.org/abs/2205.11081v1 )

ライセンス: Link先を確認
Abhik Bhattacharjee, Tahmid Hasan, Wasi Uddin Ahmad, Rifat Shahriyar(参考訳) この研究は、Webドメインで広く話されているが低リソース言語であるBanglaで自然言語生成(NLG)モデルを評価するための包括的なベンチマークであるBanglaNLGを提示する。 BanglaNLGベンチマークでは,3つの条件付きテキスト生成タスクを集約する。 次に、Banglaデータ27.5GBのクリーンコーパスを用いて、Banglaのシーケンス間変換モデルであるBanglaT5を事前訓練する。 BanglaT5はすべてのタスクで最先端のパフォーマンスを実現し、mT5(ベース)を最大5.4%上回っている。 Bangla NLGの今後の研究と評価を進めるために、BanglaT5言語モデルとリーダボードを公開しています。 リソースはhttps://github.com/csebuetnlp/BanglaNLGで見ることができる。

This work presents BanglaNLG, a comprehensive benchmark for evaluating natural language generation (NLG) models in Bangla, a widely spoken yet low-resource language in the web domain. We aggregate three challenging conditional text generation tasks under the BanglaNLG benchmark. Then, using a clean corpus of 27.5 GB of Bangla data, we pretrain BanglaT5, a sequence-to-sequence Transformer model for Bangla. BanglaT5 achieves state-of-the-art performance in all of these tasks, outperforming mT5 (base) by up to 5.4%. We are making the BanglaT5 language model and a leaderboard publicly available in the hope of advancing future research and evaluation on Bangla NLG. The resources can be found at https://github.com/csebuetnlp/BanglaNLG.
翻訳日:2022-05-24 17:08:23 公開日:2022-05-23
# 神経nlpの細粒度解釈性評価ベンチマーク

A Fine-grained Interpretability Evaluation Benchmark for Neural NLP ( http://arxiv.org/abs/2205.11097v1 )

ライセンス: Link先を確認
Lijie Wang, Yaozong Shen, Shuyuan Peng, Shuai Zhang, Xinyan Xiao, Hao Liu, Hongxuan Tang, Ying Chen, Hua Wu, Haifeng Wang(参考訳) ニューラルモデルの解釈可能性に関する懸念が高まっているが、適切な評価データセットやメトリクスが欠如しているため、解釈可能性の評価は未解決の問題である。 本稿では,ニューラルモデルとサリエンシー法の両方の解釈性を評価するための新しいベンチマークを提案する。 このベンチマークでは、感情分析、テキスト類似性、読解の3つの代表的NLPタスクを取り上げ、それぞれに英語と中国語の注釈付きデータを提供する。 解釈可能性を正確に評価するために,注意深い注釈付きで,コンパクトで包括的なトークンレベルの合理性を提供する。 また,摂動前後の理性間の一貫性という新しい指標をデザインし,異なるタスクにおけるモデルの解釈可能性と塩分法を一様に評価した。 このベンチマークに基づいて, 3つのサリーエンシー法を用いた3つの典型的なモデル実験を行い, その強みと弱さを解釈可能性の観点から明らかにする。 私たちはこのベンチマークを \url{https://xyz} でリリースし、信頼できるシステム構築における研究を促進することを期待しています。

While there is increasing concern about the interpretability of neural models, the evaluation of interpretability remains an open problem, due to the lack of proper evaluation datasets and metrics. In this paper, we present a novel benchmark to evaluate the interpretability of both neural models and saliency methods. This benchmark covers three representative NLP tasks: sentiment analysis, textual similarity and reading comprehension, each provided with both English and Chinese annotated data. In order to precisely evaluate the interpretability, we provide token-level rationales that are carefully annotated to be sufficient, compact and comprehensive. We also design a new metric, i.e., the consistency between the rationales before and after perturbations, to uniformly evaluate the interpretability of models and saliency methods on different tasks. Based on this benchmark, we conduct experiments on three typical models with three saliency methods, and unveil their strengths and weakness in terms of interpretability. We will release this benchmark at \url{https://xyz} and hope it can facilitate the research in building trustworthy systems.
翻訳日:2022-05-24 17:06:07 公開日:2022-05-23
# メタフォリカル言語の使用を促すものは何か? 抽象性, 影響, 談話のコヒーレンス, 文脈化語表現からの否定的洞察

What Drives the Use of Metaphorical Language? Negative Insights from Abstractness, Affect, Discourse Coherence and Contextualized Word Representations ( http://arxiv.org/abs/2205.11113v1 )

ライセンス: Link先を確認
Prisca Piccirilli and Sabine Schulte im Walde(参考訳) 特定の談話が与えられたら、どの談話特性がリテラルの代わりにメタファー言語を使うのか? 例えば、特定のコンテキスト内で”意味を理解する”というよりも、“意味を磨く”と言うのがなぜでしょう? 比喩的言語に対する多くのNLPアプローチは、認知的および(心理学的)言語学的洞察に依存し、談話の一貫性、抽象性、影響のモデルを定義した。 本研究では,認知的・言語的特性(頻度,抽象性,影響,談話コヒーレンス,文脈的表現)に基づいた5つの単純なモデルを構築し,文脈におけるメタファと同義語リテラル表現の使用を予測した。 モデルの出力を人間の判断と比較することにより、我々の選択した特性はメタファーとリテラル言語の選択を体系的に説明するのに十分ではないことを示す。

Given a specific discourse, which discourse properties trigger the use of metaphorical language, rather than using literal alternatives? For example, what drives people to say "grasp the meaning" rather than "understand the meaning" within a specific context? Many NLP approaches to metaphorical language rely on cognitive and (psycho-)linguistic insights and have successfully defined models of discourse coherence, abstractness and affect. In this work, we build five simple models relying on established cognitive and linguistic properties -- frequency, abstractness, affect, discourse coherence and contextualized word representations -- to predict the use of a metaphorical vs. synonymous literal expression in context. By comparing the models' outputs to human judgments, our study indicates that our selected properties are not sufficient to systematically explain metaphorical vs. literal language choices.
翻訳日:2022-05-24 17:05:50 公開日:2022-05-23
# 最先端のステータスを求めるときの違いと信頼区間を忘れないでください。

Please, Don't Forget the Difference and the Confidence Interval when Seeking for the State-of-the-Art Status ( http://arxiv.org/abs/2205.11134v1 )

ライセンス: Link先を確認
Yves Bestgen(参考訳) 本稿では,最新状態 (sota) と統計的有意性テストに代えてnlpシステムの性能を比較するために,ブートストラップ信頼区間を最大限に活用することを提案する。 彼らの主な利点は、2つのシステム間のパフォーマンスの違いに注意を向けることと、あるシステムの他のシステムに対する優位性を評価することである。 2つのケーススタディ、1つは複数のシステムを比較し、もう1つはK-foldクロスバリデーション法に基づく。 これらの信頼区間を得るためのピソンモジュールと、ペアサンプルに対するフィッシャー・ピットマンテストを実装する第2の関数は、PyPiで自由に利用できる。

This paper argues for the widest possible use of bootstrap confidence intervals for comparing NLP system performances instead of the state-of-the-art status (SOTA) and statistical significance testing. Their main benefits are to draw attention to the difference in performance between two systems and to help assessing the degree of superiority of one system over another. Two cases studies, one comparing several systems and the other based on a K-fold cross-validation procedure, illustrate these benefits. A python module for obtaining these confidence intervals as well as a second function implementing the Fisher-Pitman test for paired samples are freely available on PyPi.
翻訳日:2022-05-24 17:05:31 公開日:2022-05-23
# 非自己回帰生成のための自己ペースト混合蒸留法

A Self-Paced Mixed Distillation Method for Non-Autoregressive Generation ( http://arxiv.org/abs/2205.11162v1 )

ライセンス: Link先を確認
Weizhen Qi, Yeyun Gong, Yelong Shen, Jian Jiao, Yu Yan, Houqiang Li, Ruofei Zhang, Weizhu Chen, Nan Duan(参考訳) 非自己回帰生成は、ターゲットトークン間の依存関係を取り除くシーケンス生成パラダイムである。 トークンバイトークンシーケンシャル復号の代わりに並列復号化することで、テキスト生成のレイテンシを効率的に削減できる。 しかし、既知の多モード性の問題により、非自己回帰モデル(NAR)は、様々な言語生成タスクにおけるオート回帰モデル(AR)モデルの性能が著しく低い。 NARモデルの中で、BANGは英語未ラベルの原文コーパス上で最初の大規模事前学習モデルである。 自動回帰(AR)、非自己回帰(NAR)、半非自己回帰(Semi-NAR)情報フローなど、さまざまな世代パラダイムを、マルチストリーム戦略による事前学習タスクとみなしている。 蒸留技術なしで最先端の性能を発揮する。 しかし,AR蒸留はNARの性能向上に極めて有効であることが示されている。 本稿では,BANGの生成品質をさらに向上させる,新しい自己加熱混合蒸留法を提案する。 まず,ARストリームの知識に基づく混合蒸留戦略を提案する。 第2に、自己評価学習により、同じモダリティのサンプルに焦点を合わせることを奨励する。 提案する自己ペース混合蒸留アルゴリズムは, 生成品質を改善し, 推定遅延に影響を与えない。 提案手法の有効性を検証するため,要約および質問生成タスクについて広範な実験を行った。 提案手法の商業的価値をさらに説明するために,実世界の広告アプリケーションにおける3世代タスクの実験を行った。 商用データを用いた実験の結果,提案モデルの有効性が示された。 BANGと比較すると、BLEUスコアの大幅な改善を実現している。 一方,自己回帰生成法と比較して7倍以上の高速化を達成している。

Non-Autoregressive generation is a sequence generation paradigm, which removes the dependency between target tokens. It could efficiently reduce the text generation latency with parallel decoding in place of token-by-token sequential decoding. However, due to the known multi-modality problem, Non-Autoregressive (NAR) models significantly under-perform Auto-regressive (AR) models on various language generation tasks. Among the NAR models, BANG is the first large-scale pre-training model on English un-labeled raw text corpus. It considers different generation paradigms as its pre-training tasks including Auto-regressive (AR), Non-Autoregressive (NAR), and semi-Non-Autoregressive (semi-NAR) information flow with multi-stream strategy. It achieves state-of-the-art performance without any distillation techniques. However, AR distillation has been shown to be a very effective solution for improving NAR performance. In this paper, we propose a novel self-paced mixed distillation method to further improve the generation quality of BANG. Firstly, we propose the mixed distillation strategy based on the AR stream knowledge. Secondly, we encourage the model to focus on the samples with the same modality by self-paced learning. The proposed self-paced mixed distillation algorithm improves the generation quality and has no influence on the inference latency. We carry out extensive experiments on summarization and question generation tasks to validate the effectiveness. To further illustrate the commercial value of our approach, we conduct experiments on three generation tasks in real-world advertisements applications. Experimental results on commercial data show the effectiveness of the proposed model. Compared with BANG, it achieves significant BLEU score improvement. On the other hand, compared with auto-regressive generation method, it achieves more than 7x speedup.
翻訳日:2022-05-24 17:05:15 公開日:2022-05-23
# パラメータの重要性:深刻な利得のための蒸留内法

The Importance of Being Parameters: An Intra-Distillation Method for Serious Gains ( http://arxiv.org/abs/2205.11416v1 )

ライセンス: Link先を確認
Haoran Xu, Philipp Koehn, Kenton Murray(参考訳) 最近のモデルプルーニング手法では、モデル性能を犠牲にすることなく冗長なパラメータを削除することができる。 パラメータの寄与を反映した勾配に基づく尺度であるパラメータ感度に応じて冗長パラメータを除去する。 しかし、本稿では、冗長パラメータをトレーニングして有益な貢献をすることができると論じる。 まず,高感度パラメータと低感度パラメータ間の大きな感度(帰属)ギャップに着目し,すべてのパラメータの寄与のバランスをとれば,モデル一般化性能が著しく向上することを示す。 私たちの目標は、すべてのパラメータの感度のバランスを保ち、それらすべてが平等に貢献することを奨励することにあります。 本稿では, パラメータ感度のバランスをとるために, 通常のトレーニング損失に付加する一般的なタスク非依存手法を提案する。 さらに,より高速な収束のために,蒸留液中損失の強度を制御する適応学習法も設計した。 IWSLT'14翻訳データセットから平均8言語対の平均3.54BLEUを得るなど、最大48言語にわたる機械翻訳、自然言語理解、ゼロショット言語間移動における我々の手法の有効性を示す。

Recent model pruning methods have demonstrated the ability to remove redundant parameters without sacrificing model performance. Common methods remove redundant parameters according to the parameter sensitivity, a gradient-based measure reflecting the contribution of the parameters. In this paper, however, we argue that redundant parameters can be trained to make beneficial contributions. We first highlight the large sensitivity (contribution) gap among high-sensitivity and low-sensitivity parameters and show that the model generalization performance can be significantly improved after balancing the contribution of all parameters. Our goal is to balance the sensitivity of all parameters and encourage all of them to contribute equally. We propose a general task-agnostic method, namely intra-distillation, appended to the regular training loss to balance parameter sensitivity. Moreover, we also design a novel adaptive learning method to control the strength of intra-distillation loss for faster convergence. Our experiments show the strong effectiveness of our methods on machine translation, natural language understanding, and zero-shot cross-lingual transfer across up to 48 languages, e.g., a gain of 3.54 BLEU on average across 8 language pairs from the IWSLT'14 translation dataset.
翻訳日:2022-05-24 17:03:04 公開日:2022-05-23
# イベントとエンティティのクロスドキュメント参照解決のためのコントラスト表現学習

Contrastive Representation Learning for Cross-Document Coreference Resolution of Events and Entities ( http://arxiv.org/abs/2205.11438v1 )

ライセンス: Link先を確認
Benjamin Hsu, Graham Horwood(参考訳) 文書内の関連エンティティやイベントを識別することは、自然言語の理解に不可欠である。 本稿では,コントラスト表現学習を用いたエンティティおよびイベントコリファレンス解決手法を提案する。 従来の最先端手法では、この問題をバイナリ分類問題として定式化し、クロスエンコーダアーキテクチャで大きなトランスフォーマーを活用して結果を得た。 大量の文書と対応する$n$の言及に対して、これらの初期のアプローチで$n^{2}$のトランスフォーマー計算を実行する必要性は計算量的に強い。 推定時に$n$のトランスフォーマー計算しか必要としないコントラスト学習手法を適用することで,この負担を軽減できることを示す。 本手法は,ECB+コーパスにおける多くの重要な指標に関する最先端の成果を達成し,他と競合する。

Identifying related entities and events within and across documents is fundamental to natural language understanding. We present an approach to entity and event coreference resolution utilizing contrastive representation learning. Earlier state-of-the-art methods have formulated this problem as a binary classification problem and leveraged large transformers in a cross-encoder architecture to achieve their results. For large collections of documents and corresponding set of $n$ mentions, the necessity of performing $n^{2}$ transformer computations in these earlier approaches can be computationally intensive. We show that it is possible to reduce this burden by applying contrastive learning techniques that only require $n$ transformer computations at inference time. Our method achieves state-of-the-art results on a number of key metrics on the ECB+ corpus and is competitive on others.
翻訳日:2022-05-24 17:02:44 公開日:2022-05-23
# グラフ認識トランスフォーマーを用いた語彙コロケーションの多言語抽出と分類

Multilingual Extraction and Categorization of Lexical Collocations with Graph-aware Transformers ( http://arxiv.org/abs/2205.11456v1 )

ライセンス: Link先を確認
Luis Espinosa-Anke and Alexander Shvets and Alireza Mohammadshahi and James Henderson and Leo Wanner(参考訳) 文脈における語彙的コロケーションの認識と分類は,言語学習,辞書編集,下流NLPに有用である。 しかし,凍った語彙のコロケーションが多種多様であることから,困難な課題である。 本稿では,グラフ対応トランスフォーマアーキテクチャにより拡張されたBERTに基づくシーケンスタグ付けモデルを提案し,コンテキストにおけるコロケーション認識の課題について評価する。 その結果,モデルアーキテクチャにおける構文依存を明示的にエンコードすることは有用であり,英語,スペイン語,フランス語のコロケーション型化の違いについての知見が得られる。

Recognizing and categorizing lexical collocations in context is useful for language learning, dictionary compilation and downstream NLP. However, it is a challenging task due to the varying degrees of frozenness lexical collocations exhibit. In this paper, we put forward a sequence tagging BERT-based model enhanced with a graph-aware transformer architecture, which we evaluate on the task of collocation recognition in context. Our results suggest that explicitly encoding syntactic dependencies in the model architecture is helpful, and provide insights on differences in collocation typification in English, Spanish and French.
翻訳日:2022-05-24 17:02:25 公開日:2022-05-23
# Argument Mining Datasetにおけるサンプルサイズとトピックサイズの影響について

On the Effect of Sample and Topic Sizes for Argument Mining Datasets ( http://arxiv.org/abs/2205.11472v1 )

ライセンス: Link先を確認
Benjamin Schiller, Johannes Daxenberger, Iryna Gurevych(参考訳) 大きなドキュメントソースから特定のトピックの議論文を抽出する議論マイニングのタスクは、機械学習モデルや人間にとって本質的に難しいタスクであり、大きなデータセットは稀であり、議論文の認識には専門家の知識が必要である。 検索された引数のスタンス検出も伴うと、タスクはさらに難しくなります。 タスクの最近のデータセットは、ますます大きくなり、従ってコストがかかる傾向がある。 本研究では,パラメータマイニングの許容性能が,データセットのサイズが大きくなるか,あるいはそうでなければ,最適なパフォーマンスのためにデータセットを構成する必要があるかを問う。 また、将来のベンチマークのために新しく作成されたデータセットを公開します。

The task of Argument Mining, that is extracting argumentative sentences for a specific topic from large document sources, is an inherently difficult task for machine learning models and humans alike, as large datasets are rare and recognition of argumentative sentences requires expert knowledge. The task becomes even more difficult when it also involves stance detection of retrieved arguments. Recent datasets for the task tend to grow evermore large and hence more costly. In this work, we inquire whether it is necessary for acceptable performance of argument mining to have datasets growing in size or, if not, how smaller datasets have to be composed for optimal performance. We also publish a newly created dataset for future benchmarking.
翻訳日:2022-05-24 17:02:14 公開日:2022-05-23
# 自動文書修正に向けて : 文法的誤り訂正,フラレンシー編集など

Towards Automated Document Revision: Grammatical Error Correction, Fluency Edits, and Beyond ( http://arxiv.org/abs/2205.11484v1 )

ライセンス: Link先を確認
Masato Mita, Keisuke Sakaguchi, Masato Hagiwara, Tomoya Mizumoto, Jun Suzuki, Kentaro Inui(参考訳) 自然言語処理技術は文法的誤り訂正タスクを急速に改善し、コミュニティは次の課題の一つとして文書レベルの修正を探求し始めた。 文章レベルの自動文法的誤り訂正をNLPベースの文書レベルのリビジョンアシスタントに適用するには、(1)文書レベルのリビジョンがプロの編集者によって注釈付けされている公開コーパスがほとんどなく、(2)すべての参照を抽出し、リビジョンの無限の可能性があるため、リビジョンの質を評価することは不可能である。 本稿ではこれらの課題に取り組む。 まず,aclアンソロジーからサンプル化された学術論文を編集し,コヒーレンスや一貫性などの文書や段落レベルの編集に重点を置くことを可能にする,新たな文書リビジョンコーパスであるtetraを紹介する。 第2に,文書修正による品質改善の検出が可能なメタ評価のための参照レスかつ解釈可能な手法について検討する。 既存の文書修正コーパスと比較して,tetraの独自性を示すとともに,微妙な差異があっても,微調整された事前学習言語モデルによって文書の質を判別できることを実証する。 この有望な結果により、コミュニティは将来、自動ドキュメントのリビジョンモデルとメトリクスをさらに探究することができるだろう。

Natural language processing technology has rapidly improved automated grammatical error correction tasks, and the community begins to explore document-level revision as one of the next challenges. To go beyond sentence-level automated grammatical error correction to NLP-based document-level revision assistant, there are two major obstacles: (1) there are few public corpora with document-level revisions being annotated by professional editors, and (2) it is not feasible to elicit all possible references and evaluate the quality of revision with such references because there are infinite possibilities of revision. This paper tackles these challenges. First, we introduce a new document-revision corpus, TETRA, where professional editors revised academic papers sampled from the ACL anthology which contain few trivial grammatical errors that enable us to focus more on document- and paragraph-level edits such as coherence and consistency. Second, we explore reference-less and interpretable methods for meta-evaluation that can detect quality improvements by document revision. We show the uniqueness of TETRA compared with existing document revision corpora and demonstrate that a fine-tuned pre-trained language model can discriminate the quality of documents after revision even when the difference is subtle. This promising result will encourage the community to further explore automated document revision models and metrics in future.
翻訳日:2022-05-24 17:02:02 公開日:2022-05-23
# (参考訳) メモリ効率の良いDense Retrievalのためのドメイン適応

Domain Adaptation for Memory-Efficient Dense Retrieval ( http://arxiv.org/abs/2205.11498v1 )

ライセンス: CC BY-SA 4.0
Nandan Thakur, Nils Reimers, Jimmy Lin(参考訳) デンスレトリバーは文書を固定次元埋め込みにエンコードする。 しかし、すべてのドキュメントの埋め込みをインデックスに格納すると、高額なインデックスが生成される。 近年,BPR ( Yamada et al., 2021) とJPQ (Zhan et al., 2021a) が提案されている。 著者らは、これらのバイナリ埋め込みモデルは、製品量子化(pq)のような従来のインデックス圧縮技術を大きく上回っていることを示した。 前回の研究では、これらのアプローチをドメイン内のみ、すなわちトレーニングデータを利用できるタスクで評価した。 実際には、検索モデルはドメイン外設定でよく使用され、MS MARCOのような公開データセットでトレーニングされた後、トレーニングデータが使用できないカスタムデータセットで使用される。 本稿では,bpr や jpq のようなバイナリ組込みモデルが,ドメインシフトが関与すれば,ベースラインよりも著しくパフォーマンスが低下することを示す。 本稿では,BPR と JPQ のトレーニング手順の修正を提案し,BPR と JPQ の任意のコーパスへの適応を可能にするコーパス固有の生成手順と組み合わせる。 GPLとして知られるドメイン適応型戦略はモデル非依存であり、32倍のメモリ効率を維持しながら、BPRやJPQと比較して、BEIRベンチマーク全体において、nDCG@10の19.3および11.6ポイントの改善を実現している。 jpq+gplは、平均2.0ポイントの非圧縮tas-bモデルよりも優れています。

Dense retrievers encode documents into fixed dimensional embeddings. However, storing all the document embeddings within an index produces bulky indexes which are expensive to serve. Recently, BPR (Yamada et al., 2021) and JPQ (Zhan et al., 2021a) have been proposed which train the model to produce binary document vectors, which reduce the index 32x and more. The authors showed these binary embedding models significantly outperform more traditional index compression techniques like Product Quantization (PQ). Previous work evaluated these approaches just in-domain, i.e. the methods were evaluated on tasks for which training data is available. In practice, retrieval models are often used in an out-of-domain setting, where they have been trained on a publicly available dataset, like MS MARCO, but are then used for some custom dataset for which no training data is available. In this work, we show that binary embedding models like BPR and JPQ can perform significantly worse than baselines once there is a domain-shift involved. We propose a modification to the training procedure of BPR and JPQ and combine it with a corpus specific generative procedure which allow the adaptation of BPR and JPQ to any corpus without requiring labeled training data. Our domain-adapted strategy known as GPL is model agnostic, achieves an improvement by up-to 19.3 and 11.6 points in nDCG@10 across the BEIR benchmark in comparison to BPR and JPQ while maintaining its 32x memory efficiency. JPQ+GPL even outperforms our upper baseline: uncompressed TAS-B model on average by 2.0 points.
翻訳日:2022-05-24 17:00:53 公開日:2022-05-23
# 過剰な2成分位置-スケールガウス混合に対するEMアルゴリズムの超越

Beyond EM Algorithm on Over-specified Two-Component Location-Scale Gaussian Mixtures ( http://arxiv.org/abs/2205.11078v1 )

ライセンス: Link先を確認
Tongzheng Ren and Fuheng Cui and Sujay Sanghavi and Nhat Ho(参考訳) expectation-Maximization (EM) アルゴリズムは、位置スケールのガウス混合の最大推定を近似するために主に用いられている。 しかし、モデルが過剰に指定されている場合、すなわち、データに適合する選択されたコンポーネントの数が未知の真のコンポーネントの数よりも大きい場合、EMは最終的な統計的半径に達するためにサンプルサイズの観点から多項式数の繰り返しを必要とする。 em の緩やかな収束は、負の集団対数様度関数上の位置パラメータ、すなわち標本サイズが無限大となるときの負のサンプル対数様度関数の極限に対する局所的な強い凸性の欠如に起因する。 負の対数様関数の曲率を効率よく探索するために、特に2成分の位置-スケールのガウス混合を考慮し、指数位置更新(ELU)アルゴリズムを開発した。 ELUアルゴリズムの考え方は、まず最初にスケールパラメータの正確な最適解を求め、次に位置パラメータの指数的なステップサイズ勾配を求めることである。 ELUの反復は対数的な反復数の後、モデルの最終的な統計的半径に収束することを示す。 我々の知識を最大限に活用するため、過剰に特定されたガウス混合モデルの特定の設定下においてもパラメータ推定を最適に解くための統計的・計算的複雑度を持つ最適化アルゴリズムの開発に関する文献において、長年の疑問を解決している。

The Expectation-Maximization (EM) algorithm has been predominantly used to approximate the maximum likelihood estimation of the location-scale Gaussian mixtures. However, when the models are over-specified, namely, the chosen number of components to fit the data is larger than the unknown true number of components, EM needs a polynomial number of iterations in terms of the sample size to reach the final statistical radius; this is computationally expensive in practice. The slow convergence of EM is due to the missing of the locally strong convexity with respect to the location parameter on the negative population log-likelihood function, i.e., the limit of the negative sample log-likelihood function when the sample size goes to infinity. To efficiently explore the curvature of the negative log-likelihood functions, by specifically considering two-component location-scale Gaussian mixtures, we develop the Exponential Location Update (ELU) algorithm. The idea of the ELU algorithm is that we first obtain the exact optimal solution for the scale parameter and then perform an exponential step-size gradient descent for the location parameter. We demonstrate theoretically and empirically that the ELU iterates converge to the final statistical radius of the models after a logarithmic number of iterations. To the best of our knowledge, it resolves the long-standing open question in the literature about developing an optimization algorithm that has optimal statistical and computational complexities for solving parameter estimation even under some specific settings of the over-specified Gaussian mixture models.
翻訳日:2022-05-24 16:32:47 公開日:2022-05-23
# 連続時間平均回帰マルコフ決定過程に対する対数的後悔境界

Logarithmic regret bounds for continuous-time average-reward Markov decision processes ( http://arxiv.org/abs/2205.11168v1 )

ライセンス: Link先を確認
Xuefeng Gao, Xun Yu Zhou(参考訳) 無限ホリゾン平均回帰設定における連続時間マルコフ決定過程(mdps)に対する強化学習を考える。 離散時間MDPとは対照的に、連続時間プロセスは状態に移動し、アクションが実行された後にランダムに保持される。 未知の遷移確率と指数的保持時間率により、時間地平線において対数的となるインスタンス依存の後悔の下限を導出する。 さらに,学習アルゴリズムを設計し,対数成長率を達成する有限時間後悔境界を確立する。 本分析は,高信頼度強化学習,平均保持時間の微妙な推定,点過程の確率的比較に基づく。

We consider reinforcement learning for continuous-time Markov decision processes (MDPs) in the infinite-horizon, average-reward setting. In contrast to discrete-time MDPs, a continuous-time process moves to a state and stays there for a random holding time after an action is taken. With unknown transition probabilities and rates of exponential holding times, we derive instance-dependent regret lower bounds that are logarithmic in the time horizon. Moreover, we design a learning algorithm and establish a finite-time regret bound that achieves the logarithmic growth rate. Our analysis builds upon upper confidence reinforcement learning, a delicate estimation of the mean holding times, and stochastic comparison of point processes.
翻訳日:2022-05-24 16:32:22 公開日:2022-05-23
# 可変入力ディープオペレータネットワーク

Variable-Input Deep Operator Networks ( http://arxiv.org/abs/2205.11404v1 )

ライセンス: Link先を確認
Michael Prasthofer, Tim De Ryck, Siddhartha Mishra(参考訳) オペレーター学習の既存のアーキテクチャでは、(入力関数が評価される場所)センサーの数と場所は、すべてのトレーニングとテストサンプルで同じであり、適用範囲を著しく制限している。 本稿では,変数入力型ディープオペレータネットワーク (vidon) と呼ばれる新しい演算子学習フレームワークを提案することで,この問題を解決する。 VIDONはセンサー位置の置換に不変であり、連続作用素のクラスを近似する際に普遍であることが証明されている。 また、VIDONはPDEで発生する演算子を効率的に近似できることを示す。 各種PDEを用いた数値実験により,学習者におけるVIDONのロバストな性能を示す。

Existing architectures for operator learning require that the number and locations of sensors (where the input functions are evaluated) remain the same across all training and test samples, significantly restricting the range of their applicability. We address this issue by proposing a novel operator learning framework, termed Variable-Input Deep Operator Network (VIDON), which allows for random sensors whose number and locations can vary across samples. VIDON is invariant to permutations of sensor locations and is proved to be universal in approximating a class of continuous operators. We also prove that VIDON can efficiently approximate operators arising in PDEs. Numerical experiments with a diverse set of PDEs are presented to illustrate the robust performance of VIDON in learning operators.
翻訳日:2022-05-24 16:32:12 公開日:2022-05-23
# 条件分布処理効果のロバスト・アグノスティック学習

Robust and Agnostic Learning of Conditional Distributional Treatment Effects ( http://arxiv.org/abs/2205.11486v1 )

ライセンス: Link先を確認
Nathan Kallus and Miruna Oprescu(参考訳) 条件付き平均治療効果 (conditional average treatment effect, cate) は、個別のベースライン共変量に対する個々の因果効果の最良の予測であり、治療のパーソナライズに役立つ。 しかし、cateは(条件付き)平均だけを反映しているため、治療選択に不可欠である潜在的なリスクやテールイベントを洗い出すことができる。 集約分析では、通常は、定量値の差や治療群間の尾の期待値などの分布処理効果(DTE)を測定することで対処される。 仮説上は、同じ条件付き量子化回帰を各治療群に当てはめ、それらの差を取ることができるが、これは誤特定やクラス内での最良の予測に頑健ではない。 本稿では,条件付き量子的処理効果,条件付き超量子的処理効果,および$f$-divergencesによるコヒーレントリスク対策に対する条件付き処理効果を含む,幅広い問題に対する条件付きDTE(Conditional DTE)を学習するための,新しい堅牢でモデルに依存しない手法を提案する。 本手法は,任意の回帰学習者を用いて,特殊擬似アウトカムの構築とベースライン共変量への回帰に基づく。 本手法は回帰モデルクラスにCDTEの最良のプロジェクションを提供するという意味ではモデルに依存しない。 この手法は, 非常に遅い速度で非パラメトリックに学習しても, クラス複雑性に依存する速度でCDTEを学習し, 線形射影の推論を行うという意味でも堅牢である。 本提案の性能をシミュレーション研究で検証し,401(k)の富に対する適性効果を事例として,その利用を実証する。

The conditional average treatment effect (CATE) is the best point prediction of individual causal effects given individual baseline covariates and can help personalize treatments. However, as CATE only reflects the (conditional) average, it can wash out potential risks and tail events, which are crucially relevant to treatment choice. In aggregate analyses, this is usually addressed by measuring distributional treatment effect (DTE), such as differences in quantiles or tail expectations between treatment groups. Hypothetically, one can similarly fit covariate-conditional quantile regressions in each treatment group and take their difference, but this would not be robust to misspecification or provide agnostic best-in-class predictions. We provide a new robust and model-agnostic methodology for learning the conditional DTE (CDTE) for a wide class of problems that includes conditional quantile treatment effects, conditional super-quantile treatment effects, and conditional treatment effects on coherent risk measures given by $f$-divergences. Our method is based on constructing a special pseudo-outcome and regressing it on baseline covariates using any given regression learner. Our method is model-agnostic in the sense that it can provide the best projection of CDTE onto the regression model class. Our method is robust in the sense that even if we learn these nuisances nonparametrically at very slow rates, we can still learn CDTEs at rates that depend on the class complexity and even conduct inferences on linear projections of CDTEs. We investigate the performance of our proposal in simulation studies, and we demonstrate its use in a case study of 401(k) eligibility effects on wealth.
翻訳日:2022-05-24 16:32:00 公開日:2022-05-23
# 線形混合型MDPの高速水平強化学習

Computationally Efficient Horizon-Free Reinforcement Learning for Linear Mixture MDPs ( http://arxiv.org/abs/2205.11507v1 )

ライセンス: Link先を確認
Dongruo Zhou and Quanquan Gu(参考訳) 近年の研究では、長期計画の地平線と未知の状態遷移であっても、エピソード強化学習(RL)は文脈的帯域幅よりも困難ではないことが示されている。 しかし、これらの結果は表型マルコフ決定過程(MDP)または線形混合MDPの計算非効率アルゴリズムに限られる。 本稿では,線形混合mdpに対する最初の計算効率のよいホライズンフリーアルゴリズムを提案し,対数係数に対して最適な$\tilde o(d\sqrt{k} +d^2)$ を達成する。 我々のアルゴリズムは、未知の遷移力学に対する重み付き最小二乗推定器を採用し、重みは \emph{variance-aware} と \emph{uncertainty-aware} の両方である。 重み付き最小二乗推定器を不均質な線形バンドイットに適用すると、最初の$k$ラウンドにおいて$\tilde o(d\sqrt{\sum_{k=1}^k \sigma_k^2} +d)$の後悔を得ることができ、ここで$d$はコンテキストの次元であり$\sigma_k^2$は$k$-thラウンドにおける報酬の分散である。 これはまた、$\sigma_k^2$'sが知られているこの設定における最もよく知られたアルゴリズムも改善する。

Recent studies have shown that episodic reinforcement learning (RL) is not more difficult than contextual bandits, even with a long planning horizon and unknown state transitions. However, these results are limited to either tabular Markov decision processes (MDPs) or computationally inefficient algorithms for linear mixture MDPs. In this paper, we propose the first computationally efficient horizon-free algorithm for linear mixture MDPs, which achieves the optimal $\tilde O(d\sqrt{K} +d^2)$ regret up to logarithmic factors. Our algorithm adapts a weighted least square estimator for the unknown transitional dynamic, where the weight is both \emph{variance-aware} and \emph{uncertainty-aware}. When applying our weighted least square estimator to heterogeneous linear bandits, we can obtain an $\tilde O(d\sqrt{\sum_{k=1}^K \sigma_k^2} +d)$ regret in the first $K$ rounds, where $d$ is the dimension of the context and $\sigma_k^2$ is the variance of the reward in the $k$-th round. This also improves upon the best-known algorithms in this setting when $\sigma_k^2$'s are known.
翻訳日:2022-05-24 16:31:25 公開日:2022-05-23
# fednorm:マルチモーダル肝分画のフェデレーション学習におけるモダリティに基づく正規化

FedNorm: Modality-Based Normalization in Federated Learning for Multi-Modal Liver Segmentation ( http://arxiv.org/abs/2205.11096v1 )

ライセンス: Link先を確認
Tobias Bernecker, Annette Peters, Christopher L. Schlett, Fabian Bamberg, Fabian Theis, Daniel Rueckert, Jakob Wei{\ss}, Shadi Albarqouni(参考訳) 肝疾患に対する高い頻度と効果的な治療オプションを考えると、それらは社会経済的に非常に重要である。 診断および経過観察のためのCTおよびMRI画像解析の最も一般的な方法の1つは、肝セグメンテーションである。 近年のディープラーニングの進歩は, 自動肝セグメンテーションの促進効果を示している。 それにもかかわらず、彼らの成功は主に注釈付きデータベースの可用性に依存しており、プライバシの懸念のために利用できないことが多い。 Federated Learningは最近、ローカルデータベースにアクセスせずに分散クライアント上で共有グローバルモデルをトレーニングすることで、これらの課題を軽減するソリューションとして提案されている。 それにもかかわらず、フェデレーション学習は、ctやmriのようなマルチモーダルイメージングや複数のスキャナタイプによる画像データの高次不均一性に基づいて訓練された場合、うまく機能しない。 そこで本研究では,モーダリティに基づく正規化手法を用いた2つのフェデレート学習アルゴリズムであるFednormとその拡張 \fednormpを提案する。 具体的には、feednormはクライアントレベルの機能を正規化し、feednorm+は機能正規化において単一のスライスのモダリティ情報を使用する。 提案手法は6つのデータベースから428名の患者を用いて検証し,不均質な設定(多施設マルチモーダルデータ)において,最先端のフェデレーション学習アルゴリズムとベースラインモデルと比較した。 実験の結果,本手法は総合的に許容できる性能を示し,患者毎のDiceスコアが0.961まで向上し,一貫した局所訓練モデルを上回る性能を示し,集中型モデルよりもわずかに優れていることがわかった。

Given the high incidence and effective treatment options for liver diseases, they are of great socioeconomic importance. One of the most common methods for analyzing CT and MRI images for diagnosis and follow-up treatment is liver segmentation. Recent advances in deep learning have demonstrated encouraging results for automatic liver segmentation. Despite this, their success depends primarily on the availability of an annotated database, which is often not available because of privacy concerns. Federated Learning has been recently proposed as a solution to alleviate these challenges by training a shared global model on distributed clients without access to their local databases. Nevertheless, Federated Learning does not perform well when it is trained on a high degree of heterogeneity of image data due to multi-modal imaging, such as CT and MRI, and multiple scanner types. To this end, we propose Fednorm and its extension \fednormp, two Federated Learning algorithms that use a modality-based normalization technique. Specifically, Fednorm normalizes the features on a client-level, while Fednorm+ employs the modality information of single slices in the feature normalization. Our methods were validated using 428 patients from six publicly available databases and compared to state-of-the-art Federated Learning algorithms and baseline models in heterogeneous settings (multi-institutional, multi-modal data). The experimental results demonstrate that our methods show an overall acceptable performance, achieve Dice per patient scores up to 0.961, consistently outperform locally trained models, and are on par or slightly better than centralized models.
翻訳日:2022-05-24 16:28:50 公開日:2022-05-23
# コラボレーティブ・アドバーサリー・トレーニング

Collaborative Adversarial Training ( http://arxiv.org/abs/2205.11156v1 )

ライセンス: Link先を確認
Qizhang Li, Yiwen Guo, Wangmeng Zuo, and Hao Chen(参考訳) 敵対的な例に対するディープニューラルネットワーク(DNN)の脆弱性は、機械学習コミュニティで大きな注目を集めている。 この問題は、通常得られる損失景観の局所的非平滑性と急激性に関連している。 対人的例による強化訓練(すなわち対人的訓練)は効果的な治療法と考えられる。 本稿では, 対角的, 良性的両例とほぼ区別できない, 予測損失が極めて低い協調例を, 対角的訓練の強化に活用できることを強調した。 そこで, 新たな最先端技術を実現するために, コラボレーティブ・adversarial training (coat) と呼ばれる新しい手法を提案する。

The vulnerability of deep neural networks (DNNs) to adversarial examples has attracted great attention in the machine learning community. The problem is related to local non-smoothness and steepness of normally obtained loss landscapes. Training augmented with adversarial examples (a.k.a., adversarial training) is considered as an effective remedy. In this paper, we highlight that some collaborative examples, nearly perceptually indistinguishable from both adversarial and benign examples yet show extremely lower prediction loss, can be utilized to enhance adversarial training. A novel method called collaborative adversarial training (CoAT) is thus proposed to achieve new state-of-the-arts.
翻訳日:2022-05-24 16:28:21 公開日:2022-05-23
# (参考訳) VQA-GNN:ビジュアル質問応答のためのマルチモーダル意味グラフによる推論

VQA-GNN: Reasoning with Multimodal Semantic Graph for Visual Question Answering ( http://arxiv.org/abs/2205.11501v1 )

ライセンス: CC BY 4.0
Yanan Wang, Michihiro Yasunaga, Hongyu Ren, Shinya Wada, Jure Leskovec(参考訳) 視覚的理解は認識と推論のシームレスな統合を必要とする:画像レベルの認識(オブジェクトの検出など)を超えて、システムは概念レベルの推論(オブジェクトのコンテキストと人の意図を推測するなど)を行う必要がある。 しかし,既存の手法は画像レベルの特徴のみをモデル化し,知識グラフ(KGs)のような背景概念を基礎としない。 本研究では,映像レベルの情報と概念知識を統一し,シーンの連立推論を行う新しい視覚的質問応答手法であるVQA-GNNを提案する。 具体的には,画像からシーングラフを構築し,概念ネットから関連する言語サブグラフとVisualGenomeから視覚サブグラフを取得し,これらの3つのグラフと質問を1つのジョイントグラフ,マルチモーダルセマンティックグラフに統合する。 我々のVQA-GNNは、マルチモーダルセマンティックグラフによってキャプチャされた様々なモダリティにまたがるメッセージと推論を学習する。 VCRタスクの評価では、従来のシーングラフベースのTrans-VLモデルを4%以上上回り、VQA-GNN-Largeでは、Trans-VLを融合したモデルが2%向上し、VCRリーダーボードの上位に到達した。 この結果は,視覚理解のための画像レベルの認識を超えた概念的推論を行う上でのモデルの有効性を示唆する。 最後に、VQAタスクのための視覚的およびテキスト的知識ドメイン間の解釈可能性を提供する最初の試みであることを示す。

Visual understanding requires seamless integration between recognition and reasoning: beyond image-level recognition (e.g., detecting objects), systems must perform concept-level reasoning (e.g., inferring the context of objects and intents of people). However, existing methods only model the image-level features, and do not ground them and reason with background concepts such as knowledge graphs (KGs). In this work, we propose a novel visual question answering method, VQA-GNN, which unifies the image-level information and conceptual knowledge to perform joint reasoning of the scene. Specifically, given a question-image pair, we build a scene graph from the image, retrieve a relevant linguistic subgraph from ConceptNet and visual subgraph from VisualGenome, and unify these three graphs and the question into one joint graph, multimodal semantic graph. Our VQA-GNN then learns to aggregate messages and reason across different modalities captured by the multimodal semantic graph. In the evaluation on the VCR task, our method outperforms the previous scene graph-based Trans-VL models by over 4%, and VQA-GNN-Large, our model that fuses a Trans-VL further improves the state of the art by 2%, attaining the top of the VCR leaderboard at the time of submission. This result suggests the efficacy of our model in performing conceptual reasoning beyond image-level recognition for visual understanding. Finally, we demonstrate that our model is the first work to provide interpretability across visual and textual knowledge domains for the VQA task.
翻訳日:2022-05-24 16:23:24 公開日:2022-05-23
# PyRelationAL: アクティブラーニング研究・開発のためのライブラリ

PyRelationAL: A Library for Active Learning Research and Development ( http://arxiv.org/abs/2205.11117v1 )

ライセンス: Link先を確認
Paul Scherer and Thomas Gaudelet and Alison Pouplin and Suraj M S and Jyothish Soman and Lindsay Edwards and Jake P. Taylor-King(参考訳) データ生成が困難あるいはコストがかかる制約付き実世界のシナリオでは、情報的な新しいデータポイントを取得するための規律付き手法が、機械学習(ML)モデルの効率的なトレーニングに不可欠である。 アクティブラーニング(英: Active Learning, AL)は、特定のタスクに最も有用な新しいデータポイントを戦略的にクエリすることで、反復的かつ経済的にデータを取得する手法の開発に焦点を当てたMLのサブフィールドである。 ここでは,al研究のためのオープンソースライブラリであるpyrelationalを紹介する。 さまざまなMLフレームワーク(PyTorch、Scikit-Learn、TensorFlow、JAXなど)と互換性のあるモジュラーツールキットについて説明する。 さらに、この分野の研究と開発を加速するために、ライブラリは多数の公開メソッドを実装し、既存の文献に基づいた幅広いベンチマークデータセットとalタスク構成へのapiアクセスを提供する。 ライブラリにはチュートリアルやデモ,ドキュメントなど,ユーザが始めるための拡張的なセットが付属している。 ベンチマークデータセットのピリレーショナルコレクションに関する実験を行い、alが提供できるかなりの経済性を示す。 PyRelationALは、長期のライブラリの品質と利用を促進するために、最新のソフトウェアエンジニアリングプラクティス(包括的コントリビュータによる行動規範)を使用してメンテナンスされている。

In constrained real-world scenarios where it is challenging or costly to generate data, disciplined methods for acquiring informative new data points are of fundamental importance for the efficient training of machine learning (ML) models. Active learning (AL) is a subfield of ML focused on the development of methods to iteratively and economically acquire data through strategically querying new data points that are the most useful for a particular task. Here, we introduce PyRelationAL, an open source library for AL research. We describe a modular toolkit that is compatible with diverse ML frameworks (e.g. PyTorch, Scikit-Learn, TensorFlow, JAX). Furthermore, to help accelerate research and development in the field, the library implements a number of published methods and provides API access to wide-ranging benchmark datasets and AL task configurations based on existing literature. The library is supplemented by an expansive set of tutorials, demos, and documentation to help users get started. We perform experiments on the PyRelationAL collection of benchmark datasets and showcase the considerable economies that AL can provide. PyRelationAL is maintained using modern software engineering practices - with an inclusive contributor code of conduct - to promote long term library quality and utilisation.
翻訳日:2022-05-24 16:05:50 公開日:2022-05-23
# 硬い探索環境下での強化学習に応用した固有の動機づけ手法の評価

An Evaluation Study of Intrinsic Motivation Techniques applied to Reinforcement Learning over Hard Exploration Environments ( http://arxiv.org/abs/2205.11184v1 )

ライセンス: Link先を確認
Alain Andres, Esther Villar-Rodriguez, Javier Del Ser(参考訳) ここ数年、強化学習タスクに関する研究活動は、あまり報酬が得られていない環境でも特に注目されている。 これらの難しい探索問題に対処するために提案された多くのアプローチの中で、本質的な動機付けのメカニズムは、これまでで最も研究されてきた代替手段の1つである。 この領域で長年に渡り報告された進歩は、新奇性を測定するための代替メカニズムを生成するために新しいアルゴリズム的アイデアを提案することによって、探索問題に対処してきた。 しかし、この方向のほとんどの取り組みは、生成した内在的ボーナスの効果を改善するために導入された異なるデザイン選択とパラメータ設定の影響を見落としており、それらの選択の他の内在的モチベーション技術への適用を忘れている。 さらに、これらの本質的な手法のいくつかは、異なるベース強化アルゴリズム(例えば、PPO、IMPALA)とニューラルネットワークアーキテクチャで適用されており、与えられた結果と各ソリューションによって提供される実際の進捗を正確に比較することは困難である。 本研究の目的は, ハード探索環境における強化学習におけるこの重要な課題を強調し, 多様な設計要因に対する前衛固有の動機づけ技術の多様性と感受性を明らかにすることである。 最終的に、本稿の実験では、環境の探索要件と課題を同一設定で組み合わせた設計上の側面を慎重に選択することの重要性を強調し、公正な比較が保証されるようにした。

In the last few years, the research activity around reinforcement learning tasks formulated over environments with sparse rewards has been especially notable. Among the numerous approaches proposed to deal with these hard exploration problems, intrinsic motivation mechanisms are arguably among the most studied alternatives to date. Advances reported in this area over time have tackled the exploration issue by proposing new algorithmic ideas to generate alternative mechanisms to measure the novelty. However, most efforts in this direction have overlooked the influence of different design choices and parameter settings that have also been introduced to improve the effect of the generated intrinsic bonus, forgetting the application of those choices to other intrinsic motivation techniques that may also benefit of them. Furthermore, some of those intrinsic methods are applied with different base reinforcement algorithms (e.g. PPO, IMPALA) and neural network architectures, being hard to fairly compare the provided results and the actual progress provided by each solution. The goal of this work is to stress on this crucial matter in reinforcement learning over hard exploration environments, exposing the variability and susceptibility of avant-garde intrinsic motivation techniques to diverse design factors. Ultimately, our experiments herein reported underscore the importance of a careful selection of these design aspects coupled with the exploration requirements of the environment and the task in question under the same setup, so that fair comparisons can be guaranteed.
翻訳日:2022-05-24 16:05:29 公開日:2022-05-23
# ImGCL:不均衡ノード分類におけるグラフコントラスト学習の再検討

ImGCL: Revisiting Graph Contrastive Learning on Imbalanced Node Classification ( http://arxiv.org/abs/2205.11332v1 )

ライセンス: Link先を確認
Liang Zeng, Lanqing Li, Ziqi Gao, Peilin Zhao, Jian Li(参考訳) グラフコントラスト学習(gcl)はラベル無しでノード/グラフ表現を学習する優れた性能のために注目を集めている。 しかし、実際には、与えられたグラフのラベルなしノードは通常暗黙の不均衡なクラス分布に従い、ノードの大多数は少数のクラス(例えば、ヘッドクラス)に属し、残りのクラスは少数のサンプル(例えば、テールクラス)しか占有しない。 この高度に不均衡なクラス分布は、GCLにおける学習ノード表現の品質を必然的に劣化させる。 実際、現状のGCL手法のほとんどは、不均衡ノード分類において性能が劣っていることを実証的に見出した。 そこで本研究では,GCLから学習した表現をラベルを知らずに自動的かつ適応的にバランスをとる,Im Balanced node classification (ImGCL) の原理的GCLフレームワークを提案する。 私たちの主な着想は,コンピュータビジョン領域における近年のpbs(progressively balanced sampling)メソッドから得られたものです。 まず,学習表現から得られた擬似ラベルに基づくトレーニングセットのバランスをとる,オンラインクラスタリングベースのpbsを導入する。 次に,ノード中心性に基づくpbs法を開発し,グラフの固有構造をよりよく保存し,与えられたグラフの重要なノードを強調する。 また,不均衡データセット上のラベルのない平衡サンプリングにより学習した分類器を,線形率の最適平衡分類器に収束させることで,理論的に統合する。 複数の不均衡グラフデータセットと不均衡設定に関する大規模な実験により,提案手法の有効性が検証され,最新のGCL法の性能が大幅に向上した。 さらなる実験と分析により、ImGCLフレームワークはテールクラスのノードの表現を著しく改善することが示された。

Graph contrastive learning (GCL) has attracted a surge of attention due to its superior performance for learning node/graph representations without labels. However, in practice, unlabeled nodes for the given graph usually follow an implicit imbalanced class distribution, where the majority of nodes belong to a small fraction of classes (a.k.a., head class) and the rest classes occupy only a few samples (a.k.a., tail classes). This highly imbalanced class distribution inevitably deteriorates the quality of learned node representations in GCL. Indeed, we empirically find that most state-of-the-art GCL methods exhibit poor performance on imbalanced node classification. Motivated by this observation, we propose a principled GCL framework on Imbalanced node classification (ImGCL), which automatically and adaptively balances the representation learned from GCL without knowing the labels. Our main inspiration is drawn from the recent progressively balanced sampling (PBS) method in the computer vision domain. We first introduce online clustering based PBS, which balances the training sets based on pseudo-labels obtained from learned representations. We then develop the node centrality based PBS method to better preserve the intrinsic structure of graphs, which highlight the important nodes of the given graph. Besides, we theoretically consolidate our method by proving that the classifier learned by balanced sampling without labels on an imbalanced dataset can converge to the optimal balanced classifier with a linear rate. Extensive experiments on multiple imbalanced graph datasets and imbalance settings verify the effectiveness of our proposed framework, which significantly improves the performance of the recent state-of-the-art GCL methods. Further experimental ablations and analysis show that the ImGCL framework remarkably improves the representations of nodes in tail classes.
翻訳日:2022-05-24 16:04:37 公開日:2022-05-23
# スプリットとマージによる局所アンサンブルと再パラメータ化を用いた実演からの効率的な強化学習

Efficient Reinforcement Learning from Demonstration Using Local Ensemble and Reparameterization with Split and Merge of Expert Policies ( http://arxiv.org/abs/2205.11019v1 )

ライセンス: Link先を確認
Yu Wang, Fang Liu(参考訳) 実演による強化学習(rl)に関する現在の研究は、実演が最適な政策、実際には非現実的な仮定からのサンプルであるとしばしば仮定している。 デモが準最適政策によって生成される場合や、スパースな状態-作用ペアを持つ場合、準最適実証から学んだポリシーは、不正または非局所的な行動決定を伴うエージェントを誤解させる可能性がある。 本稿では,専門家政策(learn-sam)の分割とマージによる局所的アンサンブルと再パラメータ化という新しい手法を提案する。 まず、LEARN-SAMは、学習中の専門家ポリシーの重みを「局所化」する状態を示すために、現在の状態間の不一致尺度に基づいて、新しい概念であるラムダ関数を採用する。 第2に、LEARN-SAMは、各専門家のデモで有用な部分を分離し、それらを新しい専門家のポリシーにまとめて、デモを選択的に使用することで、SAM( split-and-merge)メカニズムを採用している。 ラムダ関数とSAMメカニズムの両方が学習速度の向上に役立つ。 理論的には、SAM機構の前後のパラメータ化ポリシの不変性を証明し、採用したポリシー勾配法の収束に関する理論的保証を提供する。 低次元から高次元の複雑な連続制御問題に対する6つの実験において, 実演からのrl法と比較して, 学習-sam法の優劣と, 実演の質, 頑健性を実証した。

The current work on reinforcement learning (RL) from demonstrations often assumes the demonstrations are samples from an optimal policy, an unrealistic assumption in practice. When demonstrations are generated by sub-optimal policies or have sparse state-action pairs, policy learned from sub-optimal demonstrations may mislead an agent with incorrect or non-local action decisions. We propose a new method called Local Ensemble and Reparameterization with Split and Merge of expert policies (LEARN-SAM) to improve efficiency and make better use of the sub-optimal demonstrations. First, LEARN-SAM employs a new concept, the lambda-function, based on a discrepancy measure between the current state to demonstrated states to "localize" the weights of the expert policies during learning. Second, LEARN-SAM employs a split-and-merge (SAM) mechanism by separating the helpful parts in each expert demonstration and regrouping them into new expert policies to use the demonstrations selectively. Both the lambda-function and SAM mechanism help boost the learning speed. Theoretically, we prove the invariant property of reparameterized policy before and after the SAM mechanism, providing theoretical guarantees for the convergence of the employed policy gradient method. We demonstrate the superiority of the LEARN-SAM method and its robustness with varying demonstration quality and sparsity in six experiments on complex continuous control problems of low to high dimensions, compared to existing methods on RL from demonstration.
翻訳日:2022-05-24 16:01:58 公開日:2022-05-23
# 流れに基づくPOMDPの繰り返し状態学習

Flow-based Recurrent Belief State Learning for POMDPs ( http://arxiv.org/abs/2205.11051v1 )

ライセンス: Link先を確認
Xiaoyu Chen, Yao Mu, Ping Luo, Shengbo Li, Jianyu Chen(参考訳) 部分的に観測可能なマルコフ決定プロセス(POMDP)は、実世界の逐次決定過程をモデル化する原則的で汎用的なフレームワークを提供するが、特に高次元連続空間や未知のモデルでは未解決のままである。 主な課題は、歴史的情報が与えられた観測不可能な環境状態の確率分布である信念状態の正確な取得方法である。 この信念状態を正確に計算することは、POMDPの最適ポリシーを得るための前提条件である。 近年のディープラーニング技術の進歩は、良き信念状態を学ぶ大きな可能性を示している。 しかし、既存の手法では、柔軟性に制限のある近似分布しか学習できない。 本稿では, 正規化フローを変分推論に組み込んでPOMDPの一般的な連続的信念状態を学ぶ, \textbf{F}l\textbf{O}w-based \textbf{R}ecurrent \textbf{BE}lief \textbf{S}tate model (FORBES)を紹介する。 さらに,学習した信念状態を下流RLアルゴリズムにプラグインすることで,性能を向上させることができることを示す。 実験では,マルチモーダルな予測と高品質な再現が可能な複雑な信念状態の抽出に成功し,視覚運動制御タスクの課題に対して,本手法が優れた性能とサンプル効率を実現することを示す。

Partially Observable Markov Decision Process (POMDP) provides a principled and generic framework to model real world sequential decision making processes but yet remains unsolved, especially for high dimensional continuous space and unknown models. The main challenge lies in how to accurately obtain the belief state, which is the probability distribution over the unobservable environment states given historical information. Accurately calculating this belief state is a precondition for obtaining an optimal policy of POMDPs. Recent advances in deep learning techniques show great potential to learn good belief states. However, existing methods can only learn approximated distribution with limited flexibility. In this paper, we introduce the \textbf{F}l\textbf{O}w-based \textbf{R}ecurrent \textbf{BE}lief \textbf{S}tate model (FORBES), which incorporates normalizing flows into the variational inference to learn general continuous belief states for POMDPs. Furthermore, we show that the learned belief states can be plugged into downstream RL algorithms to improve performance. In experiments, we show that our methods successfully capture the complex belief states that enable multi-modal predictions as well as high quality reconstructions, and results on challenging visual-motor control tasks show that our method achieves superior performance and sample efficiency.
翻訳日:2022-05-24 16:01:28 公開日:2022-05-23
# PointDistiller: 効率的かつコンパクトな3D検出に向けた構造化知識蒸留

PointDistiller: Structured Knowledge Distillation Towards Efficient and Compact 3D Detection ( http://arxiv.org/abs/2205.11098v1 )

ライセンス: Link先を確認
Linfeng Zhang, Runpei Dong, Hung-Shuo Tai, Kaisheng Ma(参考訳) クラウド表現学習における目覚ましいブレークスルーは、自動運転車や仮想現実のような現実世界のアプリケーションでの利用を加速させた。 しかし、これらのアプリケーションは通常、正確なだけでなく、効率的な3Dオブジェクト検出のための緊急要件を持っている。 近年, モデル圧縮手法として知識蒸留が提案されており, 教師の知識を教師から軽量な学生に伝達し, 2次元視覚において一貫した有効性を実現する。 しかし、点雲の空間性と不規則性のため、従来の画像に基づく知識蒸留法を点雲検出器に直接適用することは、通常不満足な性能をもたらす。 このギャップを埋めるために,ポイントクラウドに基づく3d検出のための構造化知識蒸留フレームワークであるpointdistillerを提案する。 具体的には、ポイントディストラーは局所蒸留を含み、動的グラフ畳み込みと再重み付き学習戦略によって点雲の局所的な幾何学的構造を抽出し、蒸留する。 voxels法とraw point法の両方を用いた広範な実験により,7種類以上の知識蒸留法の有効性が実証された。 例えば、4X圧縮されたPointPillarsの学生は、BEVと3Dオブジェクト検出の2.8mAPと3.4mAPの改善を達成し、それぞれ0.9mAPと1.8mAPの差を上回りました。 コードはhttps://github.com/runpeidong/pointdistillerでリリースされている。

The remarkable breakthroughs in point cloud representation learning have boosted their usage in real-world applications such as self-driving cars and virtual reality. However, these applications usually have an urgent requirement for not only accurate but also efficient 3D object detection. Recently, knowledge distillation has been proposed as an effective model compression technique, which transfers the knowledge from an over-parameterized teacher to a lightweight student and achieves consistent effectiveness in 2D vision. However, due to point clouds' sparsity and irregularity, directly applying previous image-based knowledge distillation methods to point cloud detectors usually leads to unsatisfactory performance. To fill the gap, this paper proposes PointDistiller, a structured knowledge distillation framework for point clouds-based 3D detection. Concretely, PointDistiller includes local distillation which extracts and distills the local geometric structure of point clouds with dynamic graph convolution and reweighted learning strategy, which highlights student learning on the crucial points or voxels to improve knowledge distillation efficiency. Extensive experiments on both voxels-based and raw points-based detectors have demonstrated the effectiveness of our method over seven previous knowledge distillation methods. For instance, our 4X compressed PointPillars student achieves 2.8 and 3.4 mAP improvements on BEV and 3D object detection, outperforming its teacher by 0.9 and 1.8 mAP, respectively. Codes have been released at https://github.com/RunpeiDong/PointDistiller.
翻訳日:2022-05-24 15:55:21 公開日:2022-05-23
# KRNet: 効率的な知識再生を目指して

KRNet: Towards Efficient Knowledge Replay ( http://arxiv.org/abs/2205.11126v1 )

ライセンス: Link先を確認
Yingying Zhang, Qiaoyong Zhong, Di Xie, Shiliang Pu(参考訳) 知識再生技術は連続学習や連続領域適応といった多くのタスクで広く使われている。 鍵となるのは、過去のデータから抽出された知識を効果的にエンコードし、現在のトレーニングプロセス中にそれを再生する方法だ。 知識再生を実現するためのシンプルで効果的なモデルはオートエンコーダである。 しかし、オートエンコーダに格納された潜在コードの数はデータ規模に応じて直線的に増加し、訓練されたエンコーダは再生ステージに冗長である。 本稿では,任意のサンプル識別番号を対応するダタムに直接マッピングする,新規で効率的な知識記録ネットワーク(KRNet)を提案する。 autoencoderと比較して、当社のkrnetは潜在コードに対するストレージコストを大幅に削減でき、エンコーダサブネットワークなしでトレーニングすることができます。 大規模な実験により,KRNetの有効性が検証され,連続学習の課題にうまく適用された。

The knowledge replay technique has been widely used in many tasks such as continual learning and continuous domain adaptation. The key lies in how to effectively encode the knowledge extracted from previous data and replay them during current training procedure. A simple yet effective model to achieve knowledge replay is autoencoder. However, the number of stored latent codes in autoencoder increases linearly with the scale of data and the trained encoder is redundant for the replaying stage. In this paper, we propose a novel and efficient knowledge recording network (KRNet) which directly maps an arbitrary sample identity number to the corresponding datum. Compared with autoencoder, our KRNet requires significantly ($400\times$) less storage cost for the latent codes and can be trained without the encoder sub-network. Extensive experiments validate the efficiency of KRNet, and as a showcase, it is successfully applied in the task of continual learning.
翻訳日:2022-05-24 15:54:55 公開日:2022-05-23
# selfreformer: サルエント物体検出のためのトランスフォーマによる自己精製ネットワーク

SelfReformer: Self-Refined Network with Transformer for Salient Object Detection ( http://arxiv.org/abs/2205.11283v1 )

ライセンス: Link先を確認
Yi Ke Yun, Weisi Lin(参考訳) グローバルおよびローカルコンテキストは、SOD(Salient Object Detection)における予測の整合性に大きく寄与する。 残念ながら、既存の手法は詳細で完全な予測を生成するのに依然として苦労している。 まず、グローバルコンテキストでは、ハイレベルなcnnベースのエンコーダ機能は、長距離依存性を効果的にキャッチできないため、不完全な予測となる。 第二に、基底真理をサンプリングして予測のサイズに合わせると、補間やプール中に基底真理の詳細が失われるため、不正確性が生じる。 そこで本研究では,Transformerベースのネットワークを開発し,グローバルコンテキスト情報を明示的に学習するための教師付きタスクについて検討した。 さらに、超解法(SR)のPixel Shuffleを採用して、逆ではなく、地上の真実の大きさに戻す。 したがって、真相の詳細は触れられていない。 さらに,グローバルコンテキストを融合し,予測の局所的詳細を自動的に発見・洗練する2段階コンテキストリファインメントモジュール(crm)を開発した。 提案されたネットワークは、生成されたグローバルおよびローカルコンテキストに基づいて自身をガイドし、修正することができるので、自己精製トランスフォーマー(selfreformer)と呼ばれる。 5つのベンチマークデータセットの大規模な実験と評価結果から,ネットワークの優れた性能が示され,その成果が得られた。

The global and local contexts significantly contribute to the integrity of predictions in Salient Object Detection (SOD). Unfortunately, existing methods still struggle to generate complete predictions with fine details. There are two major problems in conventional approaches: first, for global context, high-level CNN-based encoder features cannot effectively catch long-range dependencies, resulting in incomplete predictions. Second, downsampling the ground truth to fit the size of predictions will introduce inaccuracy as the ground truth details are lost during interpolation or pooling. Thus, in this work, we developed a Transformer-based network and framed a supervised task for a branch to learn the global context information explicitly. Besides, we adopt Pixel Shuffle from Super-Resolution (SR) to reshape the predictions back to the size of ground truth instead of the reverse. Thus details in the ground truth are untouched. In addition, we developed a two-stage Context Refinement Module (CRM) to fuse global context and automatically locate and refine the local details in the predictions. The proposed network can guide and correct itself based on the global and local context generated, thus is named, Self-Refined Transformer (SelfReformer). Extensive experiments and evaluation results on five benchmark datasets demonstrate the outstanding performance of the network, and we achieved the state-of-the-art.
翻訳日:2022-05-24 15:54:40 公開日:2022-05-23
# マシンビジョンモデルによる野生生物取引の自動検出に向けて

Towards automatic detection of wildlife trade using machine vision models ( http://arxiv.org/abs/2205.11324v1 )

ライセンス: Link先を確認
Ritwik Kulkarni, Enrico Di Minin(参考訳) 野生生物における持続不可能な貿易は、世界の生物多様性危機に影響を及ぼす主要な脅威の1つである。 現在、取引の重要な部分はインターネット、特にデジタルマーケットプレースやソーシャルメディアで行われている。 保護のための資源が限られているため、貿易基地の自動識別方法が必要である。 そこで我々はDeep Neural Networksをベースとして,エキゾチックなペットのイメージを自動的に識別するマシンビジョンモデルを開発した。 ウェブ上で販売されるエキゾチックなペットを表現した新しいトレーニングデータセットを作成した。 5つの異なるアーキテクチャ、3つのトレーニング方法、2種類のデータセットを組み合わせた24のニューラルネットモデルをトレーニングした。 具体的には、負の特徴を表すためにトレーニング画像の一部を設定した後、モデル一般化が改善された。 より広いモデル適用性をテストするため,分布データ内と外の両方でモデルを評価した。 トップパフォーマンスモデルは分布評価で0.95点、分布データセットで0.75点から0.87点を達成している。 特に、特徴視覚化は、動物が位置する周囲の状況(例えばケージ)を検出する上でモデルがうまく機能し、非自然環境における動物の画像を自動的に検出するのに役立つことを示した。 提案手法は,オンライン野生動物取引を調査できるだけでなく,デジタルプラットフォームから他のタイプの人間と自然の相互作用を研究するためにも適用できる。 今後の研究は、これらの発見を利用して、より分類学的グループのための堅牢な機械学習モデルと新しいデータ収集パイプラインを構築することができる。

Unsustainable trade in wildlife is one of the major threats affecting the global biodiversity crisis. An important part of the trade now occurs on the internet, especially on digital marketplaces and social media. Automated methods to identify trade posts are needed as resources for conservation are limited. Here, we developed machine vision models based on Deep Neural Networks with the aim to automatically identify images of exotic pet animals for sale. A new training dataset representing exotic pet animals advertised for sale on the web was generated for this purpose. We trained 24 neural-net models spanning a combination of five different architectures, three methods of training and two types of datasets. Specifically, model generalisation improved after setting a portion of the training images to represent negative features. Models were evaluated on both within and out of distribution data to test wider model applicability. The top performing models achieved an f-score of over 0.95 on within distribution evaluation and between 0.75 to 0.87 on the two out of distribution datasets. Notably, feature visualisation indicated that models performed well in detecting the surrounding context (e.g. a cage) in which an animal was located, therefore helping to automatically detect images of animals in non-natural environments. The proposed methods can help investigate the online wildlife trade, but can also be adapted to study other types of people-nature interactions from digital platforms. Future studies can use these findings to build robust machine learning models and new data collection pipelines for more taxonomic groups.
翻訳日:2022-05-24 15:54:17 公開日:2022-05-23
# クラウドソースによる微粒化計数

Fine-Grained Counting with Crowd-Sourced Supervision ( http://arxiv.org/abs/2205.11398v1 )

ライセンス: Link先を確認
Justin Kay, Catherine M. Foley, and Tom Hart(参考訳) クラウドソーシングは、動物生態学における画像分析のための人気が高まっているツールである。 クラウドソースアノテーションを利用するコンピュータビジョンメソッドは、分析をさらにスケールアップするのに役立つ。 本研究では,細粒度カウントの課題に対して,その可能性を検討する。 通常の群衆カウントのタスクとは対照的に、きめ細かいカウントには、密集した群衆における個人の属性の分類も含まれる。 そこで本稿では,動物生態学の新しいデータセットを導入し,細粒度8クラス17mのクラウドソースアノテーションを含む実験を行った。 細粒度カウントのための最大のデータセットであり、クラウドソースアノテーションによるタスクの研究を可能にする最初のものである。 本稿では,収集したアノテーションから集計された「根拠真理」を生成する手法と,集計情報を活用できる集計方法を紹介する。 提案手法は,アルゴリズムがクラウドソースによる詳細なカウントを学習する可能性を示唆し,比較ベースラインよりも8%向上する。

Crowd-sourcing is an increasingly popular tool for image analysis in animal ecology. Computer vision methods that can utilize crowd-sourced annotations can help scale up analysis further. In this work we study the potential to do so on the challenging task of fine-grained counting. As opposed to the standard crowd counting task, fine-grained counting also involves classifying attributes of individuals in dense crowds. We introduce a new dataset from animal ecology to enable this study that contains 1.7M crowd-sourced annotations of 8 fine-grained classes. It is the largest available dataset for fine-grained counting and the first to enable the study of the task with crowd-sourced annotations. We introduce methods for generating aggregate "ground truths" from the collected annotations, as well as a counting method that can utilize the aggregate information. Our method improves results by 8% over a comparable baseline, indicating the potential for algorithms to learn fine-grained counting using crowd-sourced supervision.
翻訳日:2022-05-24 15:53:53 公開日:2022-05-23
# 深い言語理解を伴うフォトリアリスティックテキスト-画像拡散モデル

Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding ( http://arxiv.org/abs/2205.11487v1 )

ライセンス: Link先を確認
Chitwan Saharia, William Chan, Saurabh Saxena, Lala Li, Jay Whang, Emily Denton, Seyed Kamyar Seyed Ghasemipour, Burcu Karagol Ayan, S. Sara Mahdavi, Rapha Gontijo Lopes, Tim Salimans, Jonathan Ho, David J Fleet, Mohammad Norouzi(参考訳) 我々は、前例のないフォトリアリズムと深い言語理解を備えたテキスト・画像拡散モデルであるImagenを提案する。 Imagenは、テキストとヒンジを理解するための大きなトランスフォーマー言語モデルの力に基づいて構築され、高忠実度画像生成における拡散モデルの強みに基づいている。 私たちの重要な発見は、テキストのみのコーパスで事前訓練された汎用的な大規模言語モデル(T5など)が、画像合成のためのテキストの符号化に驚くほど効果的であることです。 ImagenはCOCOデータセットの7.27という最先端のFIDスコアをCOCOでトレーニングすることなく達成し、画像テキストアライメントでCOCOデータと同等のイメージnサンプルを見つける。 テキスト・ツー・イメージモデルをより深く評価するために,テキスト・ツー・イメージモデルの包括的かつ挑戦的なベンチマークであるdrawbenchを紹介する。 drawbenchでは、vq-gan+clip、潜伏拡散モデル、dall-e 2などの最近の手法と比較し、サンプル品質と画像テキストアライメントの両面で、人手が他のモデルよりもimagenを好むことを発見した。 結果の概要はhttps://imagen.research.google/を参照。

We present Imagen, a text-to-image diffusion model with an unprecedented degree of photorealism and a deep level of language understanding. Imagen builds on the power of large transformer language models in understanding text and hinges on the strength of diffusion models in high-fidelity image generation. Our key discovery is that generic large language models (e.g. T5), pretrained on text-only corpora, are surprisingly effective at encoding text for image synthesis: increasing the size of the language model in Imagen boosts both sample fidelity and image-text alignment much more than increasing the size of the image diffusion model. Imagen achieves a new state-of-the-art FID score of 7.27 on the COCO dataset, without ever training on COCO, and human raters find Imagen samples to be on par with the COCO data itself in image-text alignment. To assess text-to-image models in greater depth, we introduce DrawBench, a comprehensive and challenging benchmark for text-to-image models. With DrawBench, we compare Imagen with recent methods including VQ-GAN+CLIP, Latent Diffusion Models, and DALL-E 2, and find that human raters prefer Imagen over other models in side-by-side comparisons, both in terms of sample quality and image-text alignment. See https://imagen.research.google/ for an overview of the results.
翻訳日:2022-05-24 15:53:38 公開日:2022-05-23
# 長ビデオのフレキシブル拡散モデリング

Flexible Diffusion Modeling of Long Videos ( http://arxiv.org/abs/2205.11495v1 )

ライセンス: Link先を確認
William Harvey, Saeid Naderiparizi, Vaden Masrani, Christian Weilbach, Frank Wood(参考訳) 本稿では,様々な現実的な環境下で長時間の映像補完を実現する拡散確率モデルに基づく映像モデリングフレームワークを提案する。 本稿では,任意のビデオフレームの任意のサブセットをテスト時にサンプリングできる生成モデルを紹介し,その目的に適合したアーキテクチャを提案する。 これにより、長いビデオのフレームをサンプリングする順序について、様々なスケジュールを効率よく比較し、最適化し、以前にサンプリングしたフレームに対して選択的なスパース条件と長距離条件を用いることができる。 本稿では,25分以上の時間的コヒーレントなビデオとデータセットの事前処理によるビデオモデリングの改善を実演する。 さらに、CARLAの自動運転車シミュレータで生成されたビデオに基づいて、新しいビデオモデリングデータセットと意味論的意味のあるメトリクスをリリースする。

We present a framework for video modeling based on denoising diffusion probabilistic models that produces long-duration video completions in a variety of realistic environments. We introduce a generative model that can at test-time sample any arbitrary subset of video frames conditioned on any other subset and present an architecture adapted for this purpose. Doing so allows us to efficiently compare and optimize a variety of schedules for the order in which frames in a long video are sampled and use selective sparse and long-range conditioning on previously sampled frames. We demonstrate improved video modeling over prior work on a number of datasets and sample temporally coherent videos over 25 minutes in length. We additionally release a new video modeling dataset and semantically meaningful metrics based on videos generated in the CARLA self-driving car simulator.
翻訳日:2022-05-24 15:53:07 公開日:2022-05-23
# orchestra: グローバルに一貫したクラスタリングによる教師なしフェデレーション学習

Orchestra: Unsupervised Federated Learning via Globally Consistent Clustering ( http://arxiv.org/abs/2205.11506v1 )

ライセンス: Link先を確認
Ekdeep Singh Lubana, Chi Ian Tang, Fahim Kawsar, Robert P. Dick, Akhil Mathur(参考訳) フェデレーション学習は一般的にラベルが容易に利用できるタスク(例えば次の単語予測)で使用される。 この制約を緩和するには、フェデレーショントレーニングの望ましい特性、すなわち、統計/システムの不均質性への堅牢性、参加者数によるスケーラビリティ、コミュニケーション効率をサポートする教師なしの学習テクニックの設計が必要である。 このトピックに関する以前の研究は、上述した特性を持つように設計されない集中型自己教師型学習技術を直接拡張することに焦点を当てていた。 そこで本稿では,分散クラスタリングタスクのオーケストレーションと,クライアントのデータを識別可能なクラスタにグローバルに一貫性のある分割を強制する,連合階層を利用した教師なしフェデレーション学習手法であるorchestを提案する。 本稿では,線形プローブ下では,アルゴリズムパイプラインが良好な一般化性能を保証し,異質性の変化,クライアント数,参加率,局所的エポックなど,幅広い条件下での代替手法よりも優れることを示す。

Federated learning is generally used in tasks where labels are readily available (e.g., next word prediction). Relaxing this constraint requires design of unsupervised learning techniques that can support desirable properties for federated training: robustness to statistical/systems heterogeneity, scalability with number of participants, and communication efficiency. Prior work on this topic has focused on directly extending centralized self-supervised learning techniques, which are not designed to have the properties listed above. To address this situation, we propose Orchestra, a novel unsupervised federated learning technique that exploits the federation's hierarchy to orchestrate a distributed clustering task and enforce a globally consistent partitioning of clients' data into discriminable clusters. We show the algorithmic pipeline in Orchestra guarantees good generalization performance under a linear probe, allowing it to outperform alternative techniques in a broad range of conditions, including variation in heterogeneity, number of clients, participation ratio, and local epochs.
翻訳日:2022-05-24 15:52:54 公開日:2022-05-23
# (参考訳) 事前訓練された言語モデルでデータ-テキスト生成が困難になる理由

What Makes Data-to-Text Generation Hard for Pretrained Language Models? ( http://arxiv.org/abs/2205.11505v1 )

ライセンス: CC BY 4.0
Moniba Keymanesh, Adrian Benton, Mark Dredze(参考訳) 構造化された事実や関係(データからテキストへの生成(D2T))を自然言語で記述することで、構造化された知識リポジトリのアクセシビリティが向上する。 従来の研究は、タスク固有のトレーニングデータを大幅に微調整した後、事前学習された言語モデル(PLM)が、このタスクに対して驚くほどうまく機能していることを示している。 一方、自己回帰型PLMはいくつかのタスク例から一般化できるが、D2Tでの有効性はほとんど探索されていない。 さらに、D2T 上の PLM の極限を不完全に理解する。 本研究では、DARTマルチドメインD2Tデータセット上で、微調整と自動回帰PLMの両方について実証的研究を行う。 タスク固有のデータの量と、それらのデータがモデルにどのように組み込まれているかの関数として、それらのパフォーマンスを考察する。 さらに,評価データのサブセット上での性能を計測することで,PLMの限界を探索する:新しい述語と抽象的なテスト例。 これらの部分集合の性能を向上させるために、文脈における述語記述の提供と、ソースに反映された情報による生成候補の再ランク付けという2つの手法について検討する。 最後に,モデルエラーのヒューマン評価を行い,d2t生成タスクが,より注意深い手動キュレーションによるデータセットの恩恵を受けることを示す。

Expressing natural language descriptions of structured facts or relations -- data-to-text generation (D2T) -- increases the accessibility of structured knowledge repositories. Previous work shows that pre-trained language models(PLMs) perform remarkably well on this task after fine-tuning on a significant amount of task-specific training data. On the other hand, while auto-regressive PLMs can generalize from a few task examples, their efficacy at D2T is largely unexplored. Furthermore, we have an incomplete understanding of the limits of PLMs on D2T. In this work, we conduct an empirical study of both fine-tuned and auto-regressive PLMs on the DART multi-domain D2T dataset. We consider their performance as a function of the amount of task-specific data and how these data are incorporated into the models: zero and few-shot learning, and fine-tuning of model weights. In addition, we probe the limits of PLMs by measuring performance on subsets of the evaluation data: novel predicates and abstractive test examples. To improve the performance on these subsets, we investigate two techniques: providing predicate descriptions in the context and re-ranking generated candidates by information reflected in the source. Finally, we conduct a human evaluation of model errors and show that D2T generation tasks would benefit from datasets with more careful manual curation.
翻訳日:2022-05-24 15:48:08 公開日:2022-05-23
# neural subgraph explorer: ターゲット指向構文グラフプルーニングによるノイズ情報低減

Neural Subgraph Explorer: Reducing Noisy Information via Target-Oriented Syntax Graph Pruning ( http://arxiv.org/abs/2205.10970v1 )

ライセンス: Link先を確認
Bowen Xing and Ivor W. Tsang(参考訳) 近年では、ターゲット感情分類タスクに構文グラフを活用することに成功している。 しかし,既存の構文モデルではノイズの多い情報集約と遠い相関の喪失という2つの問題に悩まされていることがわかった。 本稿では,(1)構文グラフ上でターゲット非関連ノードをプルーニングすることでノイズを低減し,(2)目的語とその関連語間の有益な1次接続を得られるグラフに導入するニューラルサブグラフエクスプローラーという新しいモデルを提案する。 具体的には,各単語の目標に対する値を評価するマルチホップ行動スコア推定器を設計する。 離散的なアクションシーケンスは、Gumble-Softmaxを通してサンプリングされ、構文グラフと自己注意グラフの両方に使用される。 対象語とその関連語間の一階接続を導入するために、2つの刈り込みグラフをマージする。 最後に、得られた統一グラフ上でグラフ畳み込みを行い、隠れ状態を更新する。 このプロセスは複数の層で積み重ねられています 我々の知る限り、これはこのタスクでターゲット指向構文グラフを解析する最初の試みである。 実験結果から,新しい最先端性能を実現するモデルの有効性が示された。

Recent years have witnessed the emerging success of leveraging syntax graphs for the target sentiment classification task. However, we discover that existing syntax-based models suffer from two issues: noisy information aggregation and loss of distant correlations. In this paper, we propose a novel model termed Neural Subgraph Explorer, which (1) reduces the noisy information via pruning target-irrelevant nodes on the syntax graph; (2) introduces beneficial first-order connections between the target and its related words into the obtained graph. Specifically, we design a multi-hop actions score estimator to evaluate the value of each word regarding the specific target. The discrete action sequence is sampled through Gumble-Softmax and then used for both of the syntax graph and the self-attention graph. To introduce the first-order connections between the target and its relevant words, the two pruned graphs are merged. Finally, graph convolution is conducted on the obtained unified graph to update the hidden states. And this process is stacked with multiple layers. To our knowledge, this is the first attempt of target-oriented syntax graph pruning in this task. Experimental results demonstrate the superiority of our model, which achieves new state-of-the-art performance.
翻訳日:2022-05-24 15:20:10 公開日:2022-05-23
# 識別事前学習言語モデルのためのプロンプトチューニング

Prompt Tuning for Discriminative Pre-trained Language Models ( http://arxiv.org/abs/2205.11166v1 )

ライセンス: Link先を確認
Yuan Yao, Bowen Dong, Ao Zhang, Zhengyan Zhang, Ruobing Xie, Zhiyuan Liu, Leyu Lin, Maosong Sun, Jianyong Wang(参考訳) 最近の研究は、自然言語処理(NLP)タスクのための事前学習言語モデル(PLM)を刺激する迅速なチューニングの有望な結果を示している。 しかし、我々の知る限りでは、既存の研究は、BERTのようなターゲットトークンを生成するために事前訓練された、プロンプトチューニングされた生成PLMに焦点を当てている。 ELECTRAのような差別的なPLMが、効果的に迅速なチューニングが可能かどうかはまだ不明である。 そこで本研究では,NLPタスクを識別言語モデリング問題に書き換える,識別型PLMの最初のプロンプトチューニングフレームワークであるDPTを提案する。 テキスト分類と質問応答に関する包括的な実験により、バニラの微調整と比較すると、dptは著しく高いパフォーマンスを達成でき、またフルセットと低リソースの両方で大きなplmをチューニングする際の不安定な問題も防いでいる。 本論文のソースコードと実験の詳細はhttps://github.com/thunlp/DPTから入手できる。

Recent works have shown promising results of prompt tuning in stimulating pre-trained language models (PLMs) for natural language processing (NLP) tasks. However, to the best of our knowledge, existing works focus on prompt-tuning generative PLMs that are pre-trained to generate target tokens, such as BERT. It is still unknown whether and how discriminative PLMs, e.g., ELECTRA, can be effectively prompt-tuned. In this work, we present DPT, the first prompt tuning framework for discriminative PLMs, which reformulates NLP tasks into a discriminative language modeling problem. Comprehensive experiments on text classification and question answering show that, compared with vanilla fine-tuning, DPT achieves significantly higher performance, and also prevents the unstable problem in tuning large PLMs in both full-set and low-resource settings. The source code and experiment details of this paper can be obtained from https://github.com/thunlp/DPT.
翻訳日:2022-05-24 15:19:49 公開日:2022-05-23
# BBTv2: 純粋なブラックボックス最適化は、Few-Shot LearningのためのグラディエントDescentと比較できる

BBTv2: Pure Black-Box Optimization Can Be Comparable to Gradient Descent for Few-Shot Learning ( http://arxiv.org/abs/2205.11200v1 )

ライセンス: Link先を確認
Tianxiang Sun, Zhengfu He, Hong Qian, Xuanjing Huang, Xipeng Qiu(参考訳) black-box tuning (bbt) は、言語モデルの入力に先立つ継続的プロンプトトークンを最適化するためのデリバティブフリーなアプローチである。 bbtは単純な分類タスクのフルモデルチューニングと同等の性能を達成しているが、ハードタスク(例えば、関連するタスク)のモデルチューニングとマッチングするために、事前訓練されたプロンプト埋め込みが必要であるため、勾配への依存を完全に取り除くことはできない。 本稿では,グラデーションに基づく最適化に匹敵する結果を達成するために,言語モデルを駆動する純粋なブラックボックス最適化手法であるbbtv2を提案する。 特に,言語モデルのすべての層に連続的なプロンプトトークンをプリペイドし,異なる層におけるプロンプトトークンを交互に最適化する分割・コンカーアルゴリズムを提案する。 各層での最適化のために、低次元部分空間において微分自由最適化を行い、元のプロンプトパラメータ空間にランダムに投影する。 実験結果から、BBTv2はBBTを大きなマージンで上回るだけでなく、フルモデルチューニングや最先端のパラメータ効率メソッド(Adapter、LoRA、BitFitなど)よりもはるかに少ないチューニング可能なパラメータを保ちながら、BBTよりも優れたパフォーマンスを実現していることがわかった。

Black-Box Tuning (BBT) is a derivative-free approach to optimize continuous prompt tokens prepended to the input of language models. Although BBT has achieved comparable performance to full model tuning on simple classification tasks under few-shot settings, it requires pre-trained prompt embedding to match model tuning on hard tasks (e.g., entailment tasks), and therefore does not completely get rid of the dependence on gradients. In this paper we present BBTv2, a pure black-box optimization approach that can drive language models to achieve comparable results to gradient-based optimization. In particular, we prepend continuous prompt tokens to every layer of the language model and propose a divide-and-conquer algorithm to alternately optimize the prompt tokens at different layers. For the optimization at each layer, we perform derivative-free optimization in a low-dimensional subspace, which is then randomly projected to the original prompt parameter space. Experimental results show that BBTv2 not only outperforms BBT by a large margin, but also achieves comparable or even better performance than full model tuning and state-of-the-art parameter-efficient methods (e.g., Adapter, LoRA, BitFit, etc.) under few-shot learning settings, while maintaining much fewer tunable parameters.
翻訳日:2022-05-24 15:19:30 公開日:2022-05-23
# Stop Filtering: 多視点属性強化対話学習

Stop Filtering: Multi-View Attribute-Enhanced Dialogue Learning ( http://arxiv.org/abs/2205.11206v1 )

ライセンス: Link先を確認
Yiwei Li, Bin Sun, Shaoxiong Feng, Kan Li(参考訳) 生の対話コーパスをフィルタリングすることで,モデルの対話能力向上への関心が高まっている。 従来のフィルタリング戦略は通常、ある視点からサンプルを評価して破棄するスコア付け方法に依存しており、モデルが対応する対話属性(例えば一貫性)をより簡単に拡張できる。 しかし、廃棄されたサンプルは他の観点で高いスコアを得ることができ、モデル学習に正規化効果を与えることができ、その結果、性能改善がフィルタリング率に敏感になる。 本研究では,属性関連機能をより強固かつ包括的に強化する多視点属性強化対話学習フレームワークを提案する。 我々のフレームワークは、モデルをトレーニングするために生データセットをフィルタリングする代わりに、まず、生データセット上でモデルを事前トレーニングし、選択したサブセットのアダプタを通じて微調整します。 対話属性の多様性を考慮し,マルチビュー選択とインタービュー融合を含むマルチビュー拡張機構を更に設計する。 複数の視点から高品質なサンプルをグループ化し、対応するサンプルセットとアダプタによる応答の異なる属性を強化し、知識を独立に保ち、柔軟な統合を可能にする。 実験結果と分析の結果から,対話属性の強化やビュー固有の知識の活用という観点で,フレームワークの性能向上が期待できることがわかった。

There is a growing interest in improving the conversational ability of models by filtering the raw dialogue corpora. Previous filtering strategies usually rely on a scoring method to assess and discard samples from one perspective, enabling the model to enhance the corresponding dialogue attributes (e.g., consistency) more easily. However, the discarded samples may obtain high scores in other perspectives and can provide regularization effects on the model learning, which causes the performance improvement to be sensitive to the filtering ratio. In this work, we propose a multi-view attribute-enhanced dialogue learning framework that strengthens the attribute-related features more robustly and comprehensively. Instead of filtering the raw dataset to train the model, our framework first pre-trains the model on the raw dataset and then fine-tunes it through adapters on the selected sub-sets, which also enhances certain attributes of responses but without suffering from the problems mentioned above. Considering the variety of the dialogue attribute, we further design a multi-view enhancement mechanism, including multi-view selection and inter-view fusion. It groups the high-quality samples from multiple perspectives, respectively, and enhances different attributes of responses with the corresponding sample sets and adapters, keeping knowledge independent and allowing flexible integration. Empirical results and analysis show that our framework can improve the performance significantly in terms of enhancing dialogue attributes and fusing view-specific knowledge.
翻訳日:2022-05-24 15:19:03 公開日:2022-05-23
# エンドツーエンド音声翻訳のための非パラメトリック領域適応

Non-Parametric Domain Adaptation for End-to-End Speech Translation ( http://arxiv.org/abs/2205.11211v1 )

ライセンス: Link先を確認
Yichao Du, Weizhi Wang, Zhirui Zhang, Boxing Chen, Tong Xu, Jun Xie, Enhong Chen(参考訳) E2E-ST(End-to-End Speech Translation)は、エラー伝播の低減、レイテンシの低減、パラメータの削減などにより注目されている。 しかしながら、この課題に対するニューラルベースアプローチの有効性は、利用可能なトレーニングコーパス、特にドメイン内トリプルトトレーニングデータが不足または存在していない領域適応によって大きく制限されている。 本稿では,E2E-STシステムのドメイン適応を実現するために,ドメイン固有のテキスト翻訳コーパスを活用する新しい非パラメトリック手法を提案する。 この目的のために、まず、事前訓練されたE2E-STモデルに追加のエンコーダを組み込んでテキスト翻訳モデルを実現し、次に、対応表現ミスマッチを減らして、テキストおよび音声翻訳タスクに対するデコーダの出力表現を統一する。 ドメイン適応中にk-nearest-neighbor(kNN)分類器を導入し、ドメイン固有のテキスト翻訳コーパスによって構築された外部データストアを用いて最終翻訳分布を生成し、共通出力表現を採用して類似検索を行う。 Europarl-STベンチマークでの実験では、ドメイン内テキスト翻訳データのみに関わる場合、強いドメイン内微調整法よりも高い精度で、全ての翻訳方向において平均12.82BLEUでベースラインを大幅に改善することを示した。

End-to-End Speech Translation (E2E-ST) has received increasing attention due to the potential of its less error propagation, lower latency, and fewer parameters. However, the effectiveness of neural-based approaches to this task is severely limited by the available training corpus, especially for domain adaptation where in-domain triplet training data is scarce or nonexistent. In this paper, we propose a novel non-parametric method that leverages domain-specific text translation corpus to achieve domain adaptation for the E2E-ST system. To this end, we first incorporate an additional encoder into the pre-trained E2E-ST model to realize text translation modelling, and then unify the decoder's output representation for text and speech translation tasks by reducing the correspondent representation mismatch in available triplet training data. During domain adaptation, a k-nearest-neighbor (kNN) classifier is introduced to produce the final translation distribution using the external datastore built by the domain-specific text translation corpus, while the universal output representation is adopted to perform a similarity search. Experiments on the Europarl-ST benchmark demonstrate that when in-domain text translation data is involved only, our proposed approach significantly improves baseline by 12.82 BLEU on average in all translation directions, even outperforming the strong in-domain fine-tuning method.
翻訳日:2022-05-24 15:18:42 公開日:2022-05-23
# KOLD: 韓国の攻撃的言語データセット

KOLD: Korean Offensive Language Dataset ( http://arxiv.org/abs/2205.11315v1 )

ライセンス: Link先を確認
Younghoon Jeong, Juhyun Oh, Jaimeen Ahn, Jongwon Lee, Jihyung Mon, Sungjoon Park, Alice Oh(参考訳) ヘイトスピーチの検出には多くの注意が払われているが、ほとんどの仕事は英語で行われており、他の言語に適用できない。 このギャップを埋めるために,韓国攻撃言語データセット(kold)と,攻撃性,ターゲット,対象グループ情報をラベル付けした40万コメントを提案する。 また、テキスト内の分類の決定を正当化する2種類の攻撃的スパンと目標スパンも収集する。 対象とするグループと既存の英語データセットの分布を比較し,文化を最も反映した言語に適合したヘイトスピーチデータセットの必要性を指摘する。 データセットを用いて学習し、大規模な事前訓練言語モデルの上に構築されたモデルのベースライン性能を報告する。 また、タイトル情報は文脈として機能し、特にコメントに省略された場合、憎しみのターゲットを識別するのに役立ちます。

Although large attention has been paid to the detection of hate speech, most work has been done in English, failing to make it applicable to other languages. To fill this gap, we present a Korean offensive language dataset (KOLD), 40k comments labeled with offensiveness, target, and targeted group information. We also collect two types of span, offensive and target span that justifies the decision of the categorization within the text. Comparing the distribution of targeted groups with the existing English dataset, we point out the necessity of a hate speech dataset fitted to the language that best reflects the culture. Trained with our dataset, we report the baseline performance of the models built on top of large pretrained language models. We also show that title information serves as context and is helpful to discern the target of hatred, especially when they are omitted in the comment.
翻訳日:2022-05-24 15:18:15 公開日:2022-05-23
# ディスラプト変圧器が周波数で駆動する外周寸法

Outliers Dimensions that Disrupt Transformers Are Driven by Frequency ( http://arxiv.org/abs/2205.11380v1 )

ライセンス: Link先を確認
Giovanni Puccetti, Anna Rogers, Aleksandr Drozd and Felice Dell'Orletta(参考訳) トランスフォーマーベースの言語モデルは異方性を示すことが知られている:トークンの埋め込みは空間に均質に広がるのではなく、特定の方向に沿って蓄積される。 トランスフォーマー層の最終要素のパラメータは、モデル全体の同じ次元において常に異常な大きさを持ち、無効になれば性能が著しく低下する。 我々は、アウトリアー現象の証拠を再現し、それを埋め込み空間の幾何学と結びつける。 我々の主な発見は、BERTとRoBERTaの両方において、異方性に寄与することが知られているトークン周波数が、外れ値現象に寄与することである。 逆に、アウトリアー現象はモデルが特別なトークンに焦点を合わせることを可能にする「垂直」なセルフアテンションパターンに寄与する。 また, モデル性能に対する外れ値の影響は層によって異なり, また, 乱れの大きさと符号化されたトークン周波数との相関関係も明らかとなった。

Transformer-based language models are known to display anisotropic behavior: the token embeddings are not homogeneously spread in space, but rather accumulate along certain directions. A related recent finding is the outlier phenomenon: the parameters in the final element of Transformer layers that consistently have unusual magnitude in the same dimension across the model, and significantly degrade its performance if disabled. We replicate the evidence for the outlier phenomenon and we link it to the geometry of the embedding space. Our main finding is that in both BERT and RoBERTa the token frequency, known to contribute to anisotropicity, also contributes to the outlier phenomenon. In its turn, the outlier phenomenon contributes to the "vertical" self-attention pattern that enables the model to focus on the special tokens. We also find that, surprisingly, the outlier effect on the model performance varies by layer, and that variance is also related to the correlation between outlier magnitude and encoded token frequency.
翻訳日:2022-05-24 15:18:00 公開日:2022-05-23
# ニューラルマシン翻訳のための局所バイト融合

Local Byte Fusion for Neural Machine Translation ( http://arxiv.org/abs/2205.11490v1 )

ライセンス: Link先を確認
Makesh Narsimhan Sreedhar, Xiangpeng Wan, Yu Cheng, Junjie Hu(参考訳) サブワードトークン化スキームは、現在のNLPモデルで使用される主要なテクニックである。 しかし、そのようなスキームは剛性があり、一方のコーパス上に構築されたトークン化器は他の並列コーパスにうまく適応しない。 多言語コーパスでは、サブワードのトークン化スキームが低リソース言語を多言語化することで翻訳性能が低下することが観察されている。 サブワードトークンライザの単純な代替手段は、UTF-8のような符号化方式を用いてバイト列へのトークン化を行うバイトベースの方法である。 バイトトークンは、しばしばサブキャラクタの粒度で入力を表す。 これにより、文字列よりもかなり長いバイトシーケンスが生成される。 下層層における局所情報の集約は、モデルに高レベルのセマンティック情報を構築するためのガイドとなる。 本稿では,局所意味情報を集約するために,バイトベースの機械翻訳のためのローカルByte Fusion(LOBEF)手法を提案する。 多言語翻訳、ゼロショット交叉変換、ドメイン適応に関する大規模な実験は、従来のバイトベースモデルやサブワード技術よりも一貫して改善されている。 さらに分析した結果、バイトベースモデルはパラメータ効率が高く、サブワードモデルよりも高速にトレーニングできることがわかった。

Subword tokenization schemes are the dominant technique used in current NLP models. However, such schemes can be rigid and tokenizers built on one corpus do not adapt well to other parallel corpora. It has also been observed that in multilingual corpora, subword tokenization schemes over-segment low-resource languages leading to a drop in translation performance. A simple alternative to subword tokenizers is byte-based methods i.e. tokenization into byte sequences using encoding schemes such as UTF-8. Byte tokens often represent inputs at a sub-character granularity i.e. one character can be represented by a sequence of multiple byte tokens. This results in byte sequences that are significantly longer than character sequences. Enforcing aggregation of local information in the lower layers can guide the model to build higher-level semantic information. We propose a Local Byte Fusion (LOBEF) method for byte-based machine translation -- utilizing byte $n$-gram and word boundaries -- to aggregate local semantic information. Extensive experiments on multilingual translation, zero-shot cross-lingual transfer, and domain adaptation reveal a consistent improvement over traditional byte-based models and even over subword techniques. Further analysis also indicates that our byte-based models are parameter-efficient and can be trained faster than subword models.
翻訳日:2022-05-24 15:17:01 公開日:2022-05-23
# データから推論する学習のパラドックスについて

On the Paradox of Learning to Reason from Data ( http://arxiv.org/abs/2205.11502v1 )

ライセンス: Link先を確認
Honghua Zhang, Liunian Harold Li, Tao Meng, Kai-Wei Chang, Guy Van den Broeck(参考訳) 論理的推論は幅広いNLPタスクで必要とされる。 自然言語で提示される論理的推論問題を解くためにBERTモデルをエンドツーエンドで訓練することは可能か? 論理的推論を完全にシミュレートするパラメータの集合が存在するような狭い問題空間において、この問題に答えようとする。 BERTは、全く同じ問題空間上の他のデータ分布に一般化するのに失敗しながら、流通中の試験例でほぼ完全な精度を達成します。 このパラドックスは、正しい推論関数をエミュレートする学習ではなく、論理的推論問題に本質的に存在する統計的特徴を実際に学習している。 また,データから統計的特徴を共同で取り除くことは不可能であり,理性一般への学習の難しさを示す。 その結果、自然に他のニューラルモデルに拡張され、統計的特徴を用いたnlpベンチマークで高いパフォーマンスを達成するための推論と学習の基本的な違いが明らかにされる。

Logical reasoning is needed in a wide range of NLP tasks. Can a BERT model be trained end-to-end to solve logical reasoning problems presented in natural language? We attempt to answer this question in a confined problem space where there exists a set of parameters that perfectly simulates logical reasoning. We make observations that seem to contradict each other: BERT attains near-perfect accuracy on in-distribution test examples while failing to generalize to other data distributions over the exact same problem space. Our study provides an explanation for this paradox: instead of learning to emulate the correct reasoning function, BERT has in fact learned statistical features that inherently exist in logical reasoning problems. We also show that it is infeasible to jointly remove statistical features from data, illustrating the difficulty of learning to reason in general. Our result naturally extends to other neural models and unveils the fundamental difference between learning to reason and learning to achieve high performance on NLP benchmarks using statistical features.
翻訳日:2022-05-24 15:16:42 公開日:2022-05-23
# 並列自己蒸留による複数ラベル画像分類の高速化

Boosting Multi-Label Image Classification with Complementary Parallel Self-Distillation ( http://arxiv.org/abs/2205.10986v1 )

ライセンス: Link先を確認
Jiazhi Xu and Sheng Huang and Fengtao Zhou and Luwen Huangfu and Daniel Zeng and Bo Liu(参考訳) マルチラベル画像分類(mlic)アプローチは、通常、ラベル相関を利用して良好な性能を達成する。 しかし、共起のような相関性を強調することは、ターゲット自体の識別的特徴を見落とし、モデルオーバーフィットを招き、性能を損なう可能性がある。 本研究では,MLICモデルの強化を目的としたParallel Self-Distillation (PSD) という汎用フレームワークを提案する。 PSDは、元のMLICタスクを、Co-occurrence Graph Partition (CGP) とDis-occurrence Graph Partition (DGP) という2つの精巧な補完的なタスク分解戦略を介して、より単純なMLICサブタスクに分解する。 次に、これらのサブタスクを用いて、より少ないカテゴリのMLICモデルを並列に訓練し、それぞれがラベルのジョイントパターンとカテゴリ固有のパターンを学習する。 最後に、知識蒸留を利用して、ラベル相関利用とモデル過適合を再現するこれらの学習パターンを用いて、全カテゴリのコンパクトなグローバルアンサンブルを学習する。 MS-COCO と NUS-WIDE データセットの広範な結果は、我々のフレームワークを多くの MLIC アプローチに簡単にプラグインでき、最近の最先端アプローチのパフォーマンスを向上させることができることを示している。 また,本手法がカテゴリー別・共起的特徴の双方を学習可能であることの検証も行った。 ソースコードはhttps://github.com/Robbie-Xu/CPSDで公開されている。

Multi-Label Image Classification (MLIC) approaches usually exploit label correlations to achieve good performance. However, emphasizing correlation like co-occurrence may overlook discriminative features of the target itself and lead to model overfitting, thus undermining the performance. In this study, we propose a generic framework named Parallel Self-Distillation (PSD) for boosting MLIC models. PSD decomposes the original MLIC task into several simpler MLIC sub-tasks via two elaborated complementary task decomposition strategies named Co-occurrence Graph Partition (CGP) and Dis-occurrence Graph Partition (DGP). Then, the MLIC models of fewer categories are trained with these sub-tasks in parallel for respectively learning the joint patterns and the category-specific patterns of labels. Finally, knowledge distillation is leveraged to learn a compact global ensemble of full categories with these learned patterns for reconciling the label correlation exploitation and model overfitting. Extensive results on MS-COCO and NUS-WIDE datasets demonstrate that our framework can be easily plugged into many MLIC approaches and improve performances of recent state-of-the-art approaches. The explainable visual study also further validates that our method is able to learn both the category-specific and co-occurring features. The source code is released at https://github.com/Robbie-Xu/CPSD.
翻訳日:2022-05-24 15:13:05 公開日:2022-05-23
# monoformer:変圧器を用いた自己教師付き単眼深度推定の一般化に向けて

MonoFormer: Towards Generalization of self-supervised monocular depth estimation with Transformers ( http://arxiv.org/abs/2205.11083v1 )

ライセンス: Link先を確認
Jinwoo Bae, Sungho Moon, Sunghoon Im(参考訳) 近年,自己教師付き単眼深度推定法が広く研究されている。 研究の大部分は、KITTIなどのベンチマークデータセットのパフォーマンス向上に重点を置いているが、一般化性能に関するいくつかの実験を提供している。 本稿では, 単分子深度推定の一般化に向けたバックボーンネットワーク(CNN, Transformer, CNN-Transformerハイブリッドモデルなど)について検討する。 我々はまず、ネットワークトレーニング中に見たことのない様々な公開データセットの最先端モデルを評価する。 次に,我々が生成した各種テクスチャシフトデータセットを用いて,テクスチャ偏差表現と形状偏差表現の効果について検討する。 我々はトランスフォーマーが強い形状バイアスを示し、cnnが強いテクスチャバイアスを示すことを観察する。 また, 形状バイアスモデルでは, テクスチャバイアスモデルと比較して, 単眼深度推定の一般化性能がよいことがわかった。 これらの観測に基づいて,多レベル適応機能融合モジュールによるcnn-transformerハイブリッドネットワークを新たに設計した。 MonoFormerの背景にある設計直感は、多レベル表現を適応的に融合することでトランスフォーマーの弱い局所性バイアスを補償しながら、トランスフォーマーを採用することで形状バイアスを増加させることである。 大規模な実験により,提案手法は様々な公開データセットを用いて最先端の性能を実現する。 また,本手法は競合手法の中で最適の一般化能力を示す。

Self-supervised monocular depth estimation has been widely studied recently. Most of the work has focused on improving performance on benchmark datasets, such as KITTI, but has offered a few experiments on generalization performance. In this paper, we investigate the backbone networks (e.g. CNNs, Transformers, and CNN-Transformer hybrid models) toward the generalization of monocular depth estimation. We first evaluate state-of-the-art models on diverse public datasets, which have never been seen during the network training. Next, we investigate the effects of texture-biased and shape-biased representations using the various texture-shifted datasets that we generated. We observe that Transformers exhibit a strong shape bias and CNNs do a strong texture-bias. We also find that shape-biased models show better generalization performance for monocular depth estimation compared to texture-biased models. Based on these observations, we newly design a CNN-Transformer hybrid network with a multi-level adaptive feature fusion module, called MonoFormer. The design intuition behind MonoFormer is to increase shape bias by employing Transformers while compensating for the weak locality bias of Transformers by adaptively fusing multi-level representations. Extensive experiments show that the proposed method achieves state-of-the-art performance with various public datasets. Our method also shows the best generalization ability among the competitive methods.
翻訳日:2022-05-24 15:12:42 公開日:2022-05-23
# 中枢神経活動を超えた局所的解釈のためのグラディエントヘッジ

Gradient Hedging for Intensively Exploring Salient Interpretation beyond Neuron Activation ( http://arxiv.org/abs/2205.11109v1 )

ライセンス: Link先を確認
Woo-Jeoung Nam, Seong-Whan Lee(参考訳) ヘッジ(英: hedging)とは、様々な種類の投資における潜在的なリスクを減らすための戦略である。 エクイティ手法に動機付け, 決定の証拠を隠蔽することにより, 出力予測を集中的な帰属属性に分解する手法を提案する。 決定の証拠に適用される従来のアプローチを分析し,保存則のパラドックスについて議論する。 その後,グラデーションから派生した初期貢献マップにおける肯定的および否定的影響のギャップとしてエビデンスの観点から定義し,ユーザ嗜好によって定義された肯定的帰属度の基準に従って,証拠に対する敵対的要素を抑制者として伝達する。 また,不活化ニューロンの重症度や疎度は決定に大きく関係しないため,解釈可能性に対する堅牢性が向上する。 本研究は, PASCAL VOC 2007, MS COCO 2014, ImageNetデータセットを用いて, ポインティングゲーム, 最も関連性の高い第1領域挿入, 外部関連率, 平均精度の評価を行った。 以上の結果から,本手法は,汎用モデルにおける頑健さと適用性により,特徴的,集中的,直感的な可視化において,既存属性法よりも優れることが示された。

Hedging is a strategy for reducing the potential risks in various types of investments by adopting an opposite position in a related asset. Motivated by the equity technique, we introduce a method for decomposing output predictions into intensive salient attributions by hedging the evidence for a decision. We analyze the conventional approach applied to the evidence for a decision and discuss the paradox of the conservation rule. Subsequently, we define the viewpoint of evidence as a gap of positive and negative influence among the gradient-derived initial contribution maps and propagate the antagonistic elements to the evidence as suppressors, following the criterion of the degree of positive attribution defined by user preference. In addition, we reflect the severance or sparseness contribution of inactivated neurons, which are mostly irrelevant to a decision, resulting in increased robustness to interpretability. We conduct the following assessments in a verified experimental environment: pointing game, most relevant first region insertion, outside-inside relevance ratio, and mean average precision on the PASCAL VOC 2007, MS COCO 2014, and ImageNet datasets. The results demonstrate that our method outperforms existing attribution methods in distinctive, intensive, and intuitive visualization with robustness and applicability in general models.
翻訳日:2022-05-24 15:12:21 公開日:2022-05-23
# NPU-BOLT:自然シーン画像におけるボルト物体検出用データセット

NPU-BOLT: A Dataset for Bolt Object Detection in Natural Scene Images ( http://arxiv.org/abs/2205.11191v1 )

ライセンス: Link先を確認
Yadian Zhao and Zhenglin Yang and Chao Xu(参考訳) ボルトジョイントは非常に一般的で、エンジニアリング構造において重要である。 極端なサービス環境と負荷要因のため、ボルトはしばしば緩くなり、あるいは切り離される。 構造物の安全性と耐用年数を維持するのに不可欠である実用工学における緊急の必要である緩いボルト又は剥離ボルトをリアルタイム又はタイムリーに検出する。 近年,ディープラーニングと機械学習技術を用いたボルト緩み検出法が数多く提案され,注目されている。 しかし、これらの研究のほとんどは、深部傾きモデルトレーニングのために実験室で撮影されたボルト画像を使用している。 画像は、よく制御された光、距離、視野角条件で得られる。 また、ボルト付き構造は、真新しいボルトを備えたよく設計された実験的な構造であり、ボルトは近くの避難所なしで露出する。 実用工学では、上記のよく制御された実験室の条件は容易には実現されず、実際のボルト画像は、しばしばぼやけたエッジ、斜めの視点、部分閉塞、識別不能色等を持ち、実験室で得られた訓練されたモデルが精度を損なうか失敗する。 そこで本研究では,NPU-BOLT(NPU-BOLT)というデータセットを用いて,自然シーン画像のボルト物体検出を行い,研究者に公開し,さらなる開発を行う。 データセットの最初のバージョンでは、主に自然環境におけるボルトジョイント画像の337のサンプルが含まれており、画像データのサイズは400*400から6000*4000で、合計で1275のボルトターゲットがある。 ボルトターゲットは、ぼかしボルト、ボルトヘッド、ボルトナット、ボルトサイドの4つのカテゴリにアノテートされる。 データセットは、Yolov5、Faster-RCNN、CenterNetなどの高度なオブジェクト検出モデルでテストされる。 データセットの有効性を検証する。

Bolt joints are very common and important in engineering structures. Due to extreme service environment and load factors, bolts often get loose or even disengaged. To real-time or timely detect the loosed or disengaged bolts is an urgent need in practical engineering, which is critical to keep structural safety and service life. In recent years, many bolt loosening detection methods using deep learning and machine learning techniques have been proposed and are attracting more and more attention. However, most of these studies use bolt images captured in laboratory for deep leaning model training. The images are obtained in a well-controlled light, distance, and view angle conditions. Also, the bolted structures are well designed experimental structures with brand new bolts and the bolts are exposed without any shelter nearby. It is noted that in practical engineering, the above well controlled lab conditions are not easy realized and the real bolt images often have blur edges, oblique perspective, partial occlusion and indistinguishable colors etc., which make the trained models obtained in laboratory conditions loss their accuracy or fails. Therefore, the aim of this study is to develop a dataset named NPU-BOLT for bolt object detection in natural scene images and open it to researchers for public use and further development. In the first version of the dataset, it contains 337 samples of bolt joints images mainly in the natural environment, with image data sizes ranging from 400*400 to 6000*4000, totaling approximately 1275 bolt targets. The bolt targets are annotated into four categories named blur bolt, bolt head, bolt nut and bolt side. The dataset is tested with advanced object detection models including yolov5, Faster-RCNN and CenterNet. The effectiveness of the dataset is validated.
翻訳日:2022-05-24 15:11:57 公開日:2022-05-23
# GR-GAN: グラフィカル・リファインメント・テキスト・ツー・イメージ・ジェネレーション

GR-GAN: Gradual Refinement Text-to-image Generation ( http://arxiv.org/abs/2205.11273v1 )

ライセンス: Link先を確認
Bo Yang, Fangxiang Feng, Xiaojie Wang(参考訳) 優れたテキスト対画像モデルでは、高品質な画像を生成するだけでなく、テキストと生成された画像の一貫性を確保する必要がある。 以前のモデルは両サイドを良好に固定できなかった。 本稿では, この問題を効率よく緩和するグラデーショナル・リファインメント・ジェネレータ・ネットワーク(GR-GAN)を提案する。 GRGモジュールは、粗粒度(文)から細粒度(語)までの対応するテキスト制約で低解像度から高解像度の画像を生成するように設計され、IMMモジュールは、対応する段階の文画像レベルと単語領域レベルの画像テキスト一致損失を提供するように設計されている。 また,画像品質と画像テキストの一貫性を同時に評価する新しいメトリッククロスモデル距離(cmd)を提案する。 実験の結果,GR-GANは従来のモデルよりも優れており,FIDとCMDの両方で新たな最先端を実現することができた。 GR-GANの異なる生成段階の効率を詳細に分析した。

A good Text-to-Image model should not only generate high quality images, but also ensure the consistency between the text and the generated image. Previous models failed to simultaneously fix both sides well. This paper proposes a Gradual Refinement Generative Adversarial Network (GR-GAN) to alleviates the problem efficiently. A GRG module is designed to generate images from low resolution to high resolution with the corresponding text constraints from coarse granularity (sentence) to fine granularity (word) stage by stage, a ITM module is designed to provide image-text matching losses at both sentence-image level and word-region level for corresponding stages. We also introduce a new metric Cross-Model Distance (CMD) for simultaneously evaluating image quality and image-text consistency. Experimental results show GR-GAN significant outperform previous models, and achieve new state-of-the-art on both FID and CMD. A detailed analysis demonstrates the efficiency of different generation stages in GR-GAN.
翻訳日:2022-05-24 15:11:28 公開日:2022-05-23
# LILA-BOTI : バングラ文字認識のための教師指導による孤立した文字蓄積の活用

LILA-BOTI : Leveraging Isolated Letter Accumulations By Ordering Teacher Insights for Bangla Handwriting Recognition ( http://arxiv.org/abs/2205.11420v1 )

ライセンス: Link先を確認
Md. Ismail Hossain, Mohammed Rakib, Sabbir Mollah, Fuad Rahman, Nabeel Mohammed(参考訳) 単語レベルの手書き文字認識(OCR)は、バングラのような形態的にリッチな言語では依然として課題である。 この複雑さは、多数のアルファベットの存在、いくつかのダイアクリティカルな形式の存在、複雑な結節の出現から生じる。 難易度は、いくつかのグラフエムが頻繁に発生するが必須であり続けるという事実によって悪化するため、満足な結果を得るためにクラス不均衡に対処する必要がある。 本稿では,教師洞察(lila-boti)とスーパー教師lila-boti(lila-boti)の2つの知識蒸留法を紹介する。 いずれの場合も、印刷された孤立文字認識教師モデルから得られた暗黒知識を用いて畳み込みリカレントニューラルネットワーク(crnn)学生モデルを訓練する。 評価プロトコルとして, \emph{BN-HTRd} と \emph{BanglaWriting} のデータセット間テストを実施し, 結果が未確認データの性能をよりよく反映できるという課題を提起した。 基本モデル(No KD)と従来のKDと比較すると,F1-Macroスコアは3.5%増加し,単語認識率も4.5%向上した。

Word-level handwritten optical character recognition (OCR) remains a challenge for morphologically rich languages like Bangla. The complexity arises from the existence of a large number of alphabets, the presence of several diacritic forms, and the appearance of complex conjuncts. The difficulty is exacerbated by the fact that some graphemes occur infrequently but remain indispensable, so addressing the class imbalance is required for satisfactory results. This paper addresses this issue by introducing two knowledge distillation methods: Leveraging Isolated Letter Accumulations By Ordering Teacher Insights (LILA-BOTI) and Super Teacher LILA-BOTI. In both cases, a Convolutional Recurrent Neural Network (CRNN) student model is trained with the dark knowledge gained from a printed isolated character recognition teacher model. We conducted inter-dataset testing on \emph{BN-HTRd} and \emph{BanglaWriting} as our evaluation protocol, thus setting up a challenging problem where the results would better reflect the performance on unseen data. Our evaluations achieved up to a 3.5% increase in the F1-Macro score for the minor classes and up to 4.5% increase in our overall word recognition rate when compared with the base model (No KD) and conventional KD.
翻訳日:2022-05-24 15:11:08 公開日:2022-05-23
# DistilCamemBERT:フランスのモデルであるCamemBERTの蒸留

DistilCamemBERT: a distillation of the French model CamemBERT ( http://arxiv.org/abs/2205.11111v1 )

ライセンス: Link先を確認
Cyrile Delestre, Abibatou Amar(参考訳) トランスフォーマー構造に基づく現代自然言語処理(NLP)モデルは、非常に多様なタスクのパフォーマンスの観点から、技術の現状を表している。 しかし、これらのモデルは複雑であり、最小のモデルでは数億のパラメータを表す。 これは産業レベルでの彼らの採用を妨げる可能性があるため、合理的なインフラへのスケールアップや、社会的および環境的責任の遵守が難しくなる。 本稿では,優れた性能を維持しつつ,よく知られたフランス語モデル(CamemBERT)の計算コストを大幅に削減するモデルを提案する。

Modern Natural Language Processing (NLP) models based on Transformer structures represent the state of the art in terms of performance on very diverse tasks. However, these models are complex and represent several hundred million parameters for the smallest of them. This may hinder their adoption at the industrial level, making it difficult to scale up to a reasonable infrastructure and/or to comply with societal and environmental responsibilities. To this end, we present in this paper a model that drastically reduces the computational cost of a well-known French model (CamemBERT), while preserving good performance.
翻訳日:2022-05-24 15:09:44 公開日:2022-05-23
# スパン予測を用いた論理推論:解釈可能かつロバストなnliモデルのためのスパンレベル論理原子

Logical Reasoning with Span Predictions: Span-level Logical Atoms for Interpretable and Robust NLI Models ( http://arxiv.org/abs/2205.11432v1 )

ライセンス: Link先を確認
Joe Stacey, Pasquale Minervini, Haim Dubossarsky and Marek Rei(参考訳) 現在の自然言語推論(NLI)モデルは、分散テストセットの評価において、人間よりも優れた結果が得られる。 しかしながら、これらのモデルはアノテーションのアーチファクトやデータセットのバイアスから学ぶことが知られているため、トレーニングデータの浅いヒューリスティックから学ぶのではなく、NLIのタスクをどの程度学習しているかは明らかではない。 我々は、NLIの論理的推論フレームワークを導入し、論理的ルールに基づいた極めて透明なモデル決定を作成することでこの問題に対処する。 先行研究と異なり, 予測精度を低下させることなく, 解釈性の向上が達成できることを示す。 SNLIの性能をほぼ完全に維持しつつ、各モデル予測に責任を持つ正確な仮説を特定できます。 e-SNLIの人間による説明を用いて、トレーニング中にスパンレベルのラベルを使用しないにもかかわらず、我々のモデルがスパンレベルで合理的な決定を下すことを検証する。 トレーニング中のe-SNLI説明を用いて、モデル性能とスパンレベル決定をさらに改善することができる。 最終的に、我々のモデルは、そのベースラインを減らしたデータ設定で上回る。 100例のトレーニングでは18%向上し,snli-hard,mnli-mismatched,mnli-matched,snli-matchedでは11%,26%,22%,21%向上した。

Current Natural Language Inference (NLI) models achieve impressive results, sometimes outperforming humans when evaluating on in-distribution test sets. However, as these models are known to learn from annotation artefacts and dataset biases, it is unclear to what extent the models are learning the task of NLI instead of learning from shallow heuristics in their training data. We address this issue by introducing a logical reasoning framework for NLI, creating highly transparent model decisions that are based on logical rules. Unlike prior work, we show that the improved interpretability can be achieved without decreasing the predictive accuracy. We almost fully retain performance on SNLI while identifying the exact hypothesis spans that are responsible for each model prediction. Using the e-SNLI human explanations, we also verify that our model makes sensible decisions at a span level, despite not using any span-level labels during training. We can further improve model performance and the span-level decisions by using the e-SNLI explanations during training. Finally, our model outperforms its baseline in a reduced data setting. When training with only 100 examples, in-distribution performance improves by 18%, while out-of-distribution performance improves on SNLI-hard, MNLI-mismatched, MNLI-matched and SICK by 11%, 26%, 22%, and 21% respectively.
翻訳日:2022-05-24 15:07:59 公開日:2022-05-23
# UAV可視画像による植生マッピングと機械学習

Vegetation Mapping by UAV Visible Imagery and Machine Learning ( http://arxiv.org/abs/2205.11061v1 )

ライセンス: Link先を確認
Giuliano Vitali(参考訳) 雑草が広く分布するサトウキビを栽培する実験場が、ドローンで見える画像から植生を識別する実験に利用されている。 専門家のマスクと色付きフィルタ画像は、高解像度で種を識別およびマッピングするための半自動方法論を開発するために、機械学習アルゴリズムのトレーニングに使用されている。 以上の結果から,高度5m以上の地図を90%以上の精度で取得できることがわかった。 このような手法は、植生の詳細な地図を得るためのツールと同様に、現在のVRHAにも容易に統合できる。

An experimental field cropped with sugar-beet with a wide spreading of weeds has been used to test vegetation identification from drone visible imagery. Expert masked and hue-filtered pictures have been used to train several Machine Learning algorithms to develop a semi-automatic methodology for identification and mapping species at high resolution. Results show that 5m altitude allows for obtaining maps with an identification efficiency of more than 90%. Such a method can be easily integrated to present VRHA, as much as tools to obtain detailed maps of vegetation.
翻訳日:2022-05-24 15:07:32 公開日:2022-05-23
# 教師なしトークン化学習

Unsupervised Tokenization Learning ( http://arxiv.org/abs/2205.11443v1 )

ライセンス: Link先を確認
Anton Kolonin(参考訳) 本研究では、相互情報や条件付き確率などの統計指標と比較して、いわゆる「遷移自由度」は、探索されたコーパス全体で0.71から1.0の範囲でF測定スコアを提供するのに対し、教師なしトークン化の目的において優れていることを示す。 異なる言語はトークン化を成功させるためにその計量の異なる微分(分散や「ピーク値」など)を必要とする。 より大規模なトレーニングコーパスはより良いトークン化品質に必ずしも影響を及ぼさないが、統計的に弱い証拠を排除したモデルをコンパクト化することで性能が向上する傾向がある。 提案された教師なしトークン化技術は、言語によって、品質が向上または同等になる。

In the presented study, we discover that so called "transition freedom" metric appears superior for unsupervised tokenization purposes, compared to statistical metrics such as mutual information and conditional probability, providing F-measure scores in range from 0.71 to 1.0 across explored corpora. We find that different languages require different derivatives of that metric (such as variance and "peak values") for successful tokenization. Larger training corpora does not necessarily effect in better tokenization quality, while compacting the models eliminating statistically weak evidence tends to improve performance. Proposed unsupervised tokenization technique provides quality better or comparable to lexicon-based one, depending on the language.
翻訳日:2022-05-24 15:07:23 公開日:2022-05-23
# アンサンブル学習を用いたクアドロレータ動作の高精度消費電力推定のためのデータ効率のモデリング

Data-Efficient Modeling for Precise Power Consumption Estimation of Quadrotor Operations Using Ensemble Learning ( http://arxiv.org/abs/2205.10997v1 )

ライセンス: Link先を確認
Wei Dai, Mingcheng Zhang, Kin Huat Low(参考訳) 電動離着陸機(evtol)は、新興都市空域における主要な航空機タイプと考えられている。 正確な消費電力推定はeVTOLにとって不可欠であり、高度な電力管理戦略をサポートし、飛行作業の効率性と安全性を向上させる。 本研究では,evtol航空機の消費電力モデリングの枠組みを構築した。 3種類のクワッドロータの飛行記録を用いたデータ駆動モデルを構築するために,アンサンブル学習法,すなわちスタック学習を用いた。 予測の優位性を示すランダム森林と極端な勾配上昇をベースモデルとして選択し,メタモデルとして線形回帰モデルを用いた。 確立された積み重ねモデルは、クワッドローターのパワーを正確に推定することができる。 エラー解析により、予測誤差の約80%が1つの標準偏差間隔内にあり、全飛行の予測誤差の0.5%未満は80%以上の信頼性で予測できることが示された。 第一に、我々のモデルはより良い予測性能を持ち、第二に、我々のモデルはよりデータ効率が高く、はるかに小さなデータセットを必要とする。 我々のモデルは、ミッション管理におけるeVTOL航空機のオペレーターに強力なツールを提供し、安全でエネルギー効率のよい都市空気交通の促進に寄与する。

Electric Take-Off and Landing (eVTOL) aircraft is considered as the major aircraft type in the emerging urban air mobility. Accurate power consumption estimation is crucial to eVTOL, supporting advanced power management strategies and improving the efficiency and safety performance of flight operations. In this study, a framework for power consumption modeling of eVTOL aircraft was established. We employed an ensemble learning method, namely stacking, to develop a data-driven model using flight records of three different types of quadrotors. Random forest and extreme gradient boosting, showing advantages in prediction, were chosen as base-models, and a linear regression model was used as the meta-model. The established stacking model can accurately estimate the power of a quadrotor. Error analysis shows that about 80% prediction errors fall within one standard deviation interval and less than 0.5% error in the prediction for an entire flight can be expected with a confidence of more than 80%. Our model outperforms the existing models in two aspects: firstly, our model has a better prediction performance, and secondly, our model is more data-efficient, requiring a much smaller dataset. Our model provides a powerful tool for operators of eVTOL aircraft in mission management and contributes to promoting safe and energy-efficient urban air traffic.
翻訳日:2022-05-24 15:00:28 公開日:2022-05-23
# 距離感性オフライン強化学習

Distance-Sensitive Offline Reinforcement Learning ( http://arxiv.org/abs/2205.11027v1 )

ライセンス: Link先を確認
Jianxiong Li, Xianyuan Zhan, Haoran Xu, Xiangyu Zhu, Jingjing Liu, Ya-Qin Zhang(参考訳) オフライン強化学習 (rl) では、政策学習における1つの有害な問題は、out-of-distribution (ood)領域における深いq関数のエラー蓄積である。 残念ながら、既存のオフラインRLメソッドはしばしば過保守であり、データ分散の外での一般化性能を損なう。 本研究では,深部Q関数が訓練データの凸内をよく近似していることが興味深い。 そこで本研究では,新しい手法であるdoge ( distance-sensitive offline rl with better generalization)を提案する。 DOGEは、データセットの幾何学をオフラインのRLで深度関数近似器と結合し、データ分散内のポリシーを厳格に制約するのではなく、一般化可能なOOD領域で利用できるようにする。 具体的には、DOGEは、ポリシー制約として標準アクタークリティカルメソッドに簡単にプラグインできる状態条件付き距離関数を訓練する。 単純だがエレガントなアルゴリズムでは,D4RLベンチマークの最先端手法と比較して,より一般化されている。 理論的解析は,データ分散やサポート制約のみに基づく既存手法へのアプローチの優位性を実証する。

In offline reinforcement learning (RL), one detrimental issue to policy learning is the error accumulation of deep Q function in out-of-distribution (OOD) areas. Unfortunately, existing offline RL methods are often over-conservative, inevitably hurting generalization performance outside data distribution. In our study, one interesting observation is that deep Q functions approximate well inside the convex hull of training data. Inspired by this, we propose a new method, DOGE (Distance-sensitive Offline RL with better GEneralization). DOGE marries dataset geometry with deep function approximators in offline RL, and enables exploitation in generalizable OOD areas rather than strictly constraining policy within data distribution. Specifically, DOGE trains a state-conditioned distance function that can be readily plugged into standard actor-critic methods as a policy constraint. Simple yet elegant, our algorithm enjoys better generalization compared to state-of-the-art methods on D4RL benchmarks. Theoretical analysis demonstrates the superiority of our approach to existing methods that are solely based on data distribution or support constraints.
翻訳日:2022-05-24 15:00:08 公開日:2022-05-23
# FLEX: CompleXナレッジグラフ推論のための機能論理埋め込みフレームワーク

FLEX: Feature-Logic Embedding Framework for CompleX Knowledge Graph Reasoning ( http://arxiv.org/abs/2205.11039v1 )

ライセンス: Link先を確認
Xueyuan Lin, Haihong E, Gengxian Zhou, Tianyi Hu, Li Ningyuan, Mingzhi Sun, Haoran Luo(参考訳) 現在の知識グラフ推論(KGR)の最良の性能モデルは、エンティティを埋め込む複雑な分布や幾何学オブジェクト、低次元空間に一階論理(FOL)クエリに基づいている。 それらは、関連する数学的概念の表現力によって、論理的推論能力に制限される中心サイズのフレームワーク(ポイント/ボックス/コーン、ベータ/ガウス分布など)として要約できる。 中心と大きさがあまりにも深いため、論理的推論能力を他のモデルと統合することは困難である。 これらの課題に対処するため、我々は、新しいKGRフレームワークであるFeature-Logic Embedding FrameworkであるFLEXを提案し、これは、TRULYが接続、解離、否定などを含む全てのFOL操作を処理できるだけでなく、様々な機能空間もサポートする最初のKGRフレームワークである。 具体的には、機能論理フレームワークのロジック部分は、すべてのFOL操作を自然にモデル化するベクトル論理に基づいている。 FLEXは、ベンチマークデータセット上で既存の最先端メソッドを著しく上回ることを示す実験である。

Current best performing models for knowledge graph reasoning (KGR) are based on complex distribution or geometry objects to embed entities and first-order logical (FOL) queries in low-dimensional spaces. They can be summarized as a center-size framework (point/box/cone, Beta/Gaussian distribution, etc.) whose logical reasoning ability is limited by the expressiveness of the relevant mathematical concepts. Because too deeply the center and the size depend on each other, it is difficult to integrate the logical reasoning ability with other models. To address these challenges, we instead propose a novel KGR framework named Feature-Logic Embedding framework, FLEX, which is the first KGR framework that can not only TRULY handle all FOL operations including conjunction, disjunction, negation and so on, but also support various feature spaces. Specifically, the logic part of feature-logic framework is based on vector logic, which naturally models all FOL operations. Experiments demonstrate that FLEX significantly outperforms existing state-of-the-art methods on benchmark datasets.
翻訳日:2022-05-24 14:59:48 公開日:2022-05-23
# FL Games:分散シフトのための連合学習フレームワーク

FL Games: A federated learning framework for distribution shifts ( http://arxiv.org/abs/2205.11101v1 )

ライセンス: Link先を確認
Sharut Gupta and Kartik Ahuja and Mohammad Havaei and Niladri Chatterjee and Yoshua Bengio(参考訳) Federated Learningは、サーバのオーケストレーションの下で、クライアント間で分散されたデータの予測モデルをトレーニングすることを目的としている。 しかし、参加するクライアントは、通常、異なる分布からのデータを保持するため、強い分布内一般化を持つ予測モデルは、目に見えない領域で破滅的に失敗する可能性がある。 この研究において、非i.d.クライアント間でより良く一般化するためには、ドメイン間で安定で不変な相関を学習することが必須である。 本稿では,クライアント間で不変な因果的特徴を学習するためのゲーム理論フレームワークであるFL Gamesを提案する。 ナッシュ均衡を達成するための訓練中、伝統的なベストレスポンス戦略は高周波振動に悩まされる。 flゲームはこの課題を効果的に解決し、スムーズなパフォーマンス曲線を示す。 さらに、FL Gamesはクライアント数でよくスケールし、通信ラウンドを著しく少なくし、デバイスの不均一性に非依存である。 実験的な評価を通じて,flゲームは様々なベンチマークにおいて高い分散性能を達成できることを実証する。

Federated learning aims to train predictive models for data that is distributed across clients, under the orchestration of a server. However, participating clients typically each hold data from a different distribution, whereby predictive models with strong in-distribution generalization can fail catastrophically on unseen domains. In this work, we argue that in order to generalize better across non-i.i.d. clients, it is imperative to only learn correlations that are stable and invariant across domains. We propose FL Games, a game-theoretic framework for federated learning for learning causal features that are invariant across clients. While training to achieve the Nash equilibrium, the traditional best response strategy suffers from high-frequency oscillations. We demonstrate that FL Games effectively resolves this challenge and exhibits smooth performance curves. Further, FL Games scales well in the number of clients, requires significantly fewer communication rounds, and is agnostic to device heterogeneity. Through empirical evaluation, we demonstrate that FL Games achieves high out-of-distribution performance on various benchmarks.
翻訳日:2022-05-24 14:59:29 公開日:2022-05-23
# (参考訳) コントラスト的・非コントラスト的自己監督型学習はグローバルおよび局所スペクトル埋め込み法を復元する

Contrastive and Non-Contrastive Self-Supervised Learning Recover Global and Local Spectral Embedding Methods ( http://arxiv.org/abs/2205.11508v1 )

ライセンス: CC BY 4.0
Randall Balestriero, Yann LeCun(参考訳) 自己監督学習(SSL)は、入力とペアの正の関係は意味のある表現を学ぶのに十分である。 sslは、多くのモダリティにおいて教師付きメソッドを上回っており、理論的基礎は限定的で、メソッド固有であり、実践者に原則化された設計ガイドラインを提供していない。 本稿では,これらの制約に対処するために,スペクトル多様体学習の推進力に基づく統一フレームワークを提案する。 この研究の過程で、VICReg, SimCLR, BarlowTwins et al. がラプラシア固有写像や多次元スケーリングなどの固有スペクトル法に対応することを厳密に証明する。 この統合によって私たちは (i)各方法の閉形式最適表現 (ii) 各手法の線形状態における閉形式最適ネットワークパラメータ。 三 訓練中に用いた対関係がこれらの量及び下流タスクのパフォーマンスに与える影響、及び、最も重要なこと。 (iv)大域的スペクトル埋め込み法と局所的スペクトル埋め込み法への対比的手法と非矛盾的手法の間の最初の理論的橋渡しは、それぞれの利点と限界をほのめかしている。 例えば (a) 対関係が下流タスクと整合している場合、SSLメソッドは正常に使用でき、教師付きメソッドを回復するが、低データ構造では、高分散ハイパーパラメータを持つSimCLRまたはVICRegが好ましい。 b) 対関係が下流課題とミスアライメントされている場合、小さな不分散ハイパーパラメータを持つbarlowtwinsまたはvicregが好ましい。

Self-Supervised Learning (SSL) surmises that inputs and pairwise positive relationships are enough to learn meaningful representations. Although SSL has recently reached a milestone: outperforming supervised methods in many modalities... the theoretical foundations are limited, method-specific, and fail to provide principled design guidelines to practitioners. In this paper, we propose a unifying framework under the helm of spectral manifold learning to address those limitations. Through the course of this study, we will rigorously demonstrate that VICReg, SimCLR, BarlowTwins et al. correspond to eponymous spectral methods such as Laplacian Eigenmaps, Multidimensional Scaling et al. This unification will then allow us to obtain (i) the closed-form optimal representation for each method, (ii) the closed-form optimal network parameters in the linear regime for each method, (iii) the impact of the pairwise relations used during training on each of those quantities and on downstream task performances, and most importantly, (iv) the first theoretical bridge between contrastive and non-contrastive methods towards global and local spectral embedding methods respectively, hinting at the benefits and limitations of each. For example, (a) if the pairwise relation is aligned with the downstream task, any SSL method can be employed successfully and will recover the supervised method, but in the low data regime, SimCLR or VICReg with high invariance hyper-parameter should be preferred; (b) if the pairwise relation is misaligned with the downstream task, BarlowTwins or VICReg with small invariance hyper-parameter should be preferred.
翻訳日:2022-05-24 14:58:45 公開日:2022-05-23
# ビジュアルセマンティックAIにおけるマークネス

Markedness in Visual Semantic AI ( http://arxiv.org/abs/2205.11378v1 )

ライセンス: Link先を確認
Robert Wolfe, Aylin Caliskan(参考訳) CLIP(Contrastive Language Image Pretraining)は、年齢、性別、人種または民族のマーキングに関連するバイアスについて、最先端のマルチモーダルな「視覚意味」モデルの評価を行う。 画像に「人の写真」とラベル付けするか、人種または民族を示すラベルを選択するかの選択肢が与えられると、クリップは白人の「人物」ラベルを47.9%選択し、黒人、東アジア、東南アジア、インド、ラテン系、ヒスパニック系では5.5%以下である。 このモデルは、男性(26.7%)と女性(15.2%)の性別を示すラベルよりも、マークされていない「個人」ラベルを上位にランク付けする可能性が高い。 20歳未満の女性は男性よりも性別ラベルでマークされる可能性が高いが、年齢ラベルでマークされる可能性が低い一方、40歳以上の女性は男性よりも年齢に基づいてマークされる傾向にある。 また, 社会的集団における自己相似性(ペアワイズコサイン相似性)について検討し, より高い自己相似性は, 社会集団の共有特性(年齢, 人種, 性別)に対して, クリップによりより注目されることを示す。 年齢が増加するにつれて、女性の表現の自己相似性が男性よりも高くなり、「70歳以上」という年齢差が最も顕著になる。 最も独特な社会集団のうち10人は10歳以上、70歳以上の個人であり、10人のうち6人は女性である。 男女の性別グループ間の自己相似性や特徴性に関する既存のバイアスは、比較群が白人、男性、黒人、女性である場合にさらに悪化する。 結果から,CLIPは学習データを生成する言語や社会のバイアスを反映していることがわかった。

We evaluate the state-of-the-art multimodal "visual semantic" model CLIP ("Contrastive Language Image Pretraining") for biases related to the marking of age, gender, and race or ethnicity. Given the option to label an image as "a photo of a person" or to select a label denoting race or ethnicity, CLIP chooses the "person" label 47.9% of the time for White individuals, compared with 5.0% or less for individuals who are Black, East Asian, Southeast Asian, Indian, or Latino or Hispanic. The model is more likely to rank the unmarked "person" label higher than labels denoting gender for Male individuals (26.7% of the time) vs. Female individuals (15.2% of the time). Age affects whether an individual is marked by the model: Female individuals under the age of 20 are more likely than Male individuals to be marked with a gender label, but less likely to be marked with an age label, while Female individuals over the age of 40 are more likely to be marked based on age than Male individuals. We also examine the self-similarity (mean pairwise cosine similarity) for each social group, where higher self-similarity denotes greater attention directed by CLIP to the shared characteristics (age, race, or gender) of the social group. As age increases, the self-similarity of representations of Female individuals increases at a higher rate than for Male individuals, with the disparity most pronounced at the "more than 70" age range. All ten of the most self-similar social groups are individuals under the age of 10 or over the age of 70, and six of the ten are Female individuals. Existing biases of self-similarity and markedness between Male and Female gender groups are further exacerbated when the groups compared are individuals who are White and Male and individuals who are Black and Female. Results indicate that CLIP reflects the biases of the language and society which produced its training data.
翻訳日:2022-05-24 14:18:02 公開日:2022-05-23
# PEVL:視覚言語モデルのための位置強化事前学習とプロンプトチューニング

PEVL: Position-enhanced Pre-training and Prompt Tuning for Vision-language Models ( http://arxiv.org/abs/2205.11169v1 )

ライセンス: Link先を確認
Yuan Yao, Qianyu Chen, Ao Zhang, Wei Ji, Zhiyuan Liu, Tat-Seng Chua, Maosong Sun(参考訳) VLP(Vision- Language Pre-Training)は、オブジェクト検出器に依存しないVLPモデルにおいて、計算効率と競合性能が優れているため、広範囲なクロスモーダルタスクにおいて顕著な性能を示している。 しかしながら、オブジェクト検出器の除去は、表現理解や視覚コモンセンス推論など、様々な位置感性視覚言語(VL)タスクに不可欠な、明示的なオブジェクトモデリングにおけるVLPモデルの能力を損なう。 この課題に対処するために、明示的なオブジェクト位置モデリングによるVLPモデルの事前学習と迅速なチューニングを強化するPEVLを導入する。 具体的には、PEVLは、事前トレーニング中の明示的なVLアライメントを容易にする統一言語モデリングフレームワークにおいて、離散化されたオブジェクトの位置と言語を再構成し、様々な下流タスクの柔軟なプロンプトチューニングを可能にする。 PEVLは,表現理解やフレーズ接地といった位置感性タスクに対して,検出不要なVLPモデルの最先端性能を実現するとともに,接地入力による位置感性タスクの性能を向上させる。 この論文のデータとコードはhttps://github.com/thunlp/PEVL.comで公開しています。

Vision-language pre-training (VLP) has shown impressive performance on a wide range of cross-modal tasks, where VLP models without reliance on object detectors are becoming the mainstream due to their superior computation efficiency and competitive performance. However, the removal of object detectors also deprives the capability of VLP models in explicit object modeling, which is essential to various position-sensitive vision-language (VL) tasks, such as referring expression comprehension and visual commonsense reasoning. To address the challenge, we introduce PEVL that enhances the pre-training and prompt tuning of VLP models with explicit object position modeling. Specifically, PEVL reformulates discretized object positions and language in a unified language modeling framework, which facilitates explicit VL alignment during pre-training, and also enables flexible prompt tuning for various downstream tasks. We show that PEVL enables state-of-the-art performance of detector-free VLP models on position-sensitive tasks such as referring expression comprehension and phrase grounding, and also improves the performance on position-insensitive tasks with grounded inputs. We make the data and code for this paper publicly available at https://github.com/thunlp/PEVL.
翻訳日:2022-05-24 14:17:31 公開日:2022-05-23
# 公正テキスト分類のための条件付き教師付きコントラスト学習

Conditional Supervised Contrastive Learning for Fair Text Classification ( http://arxiv.org/abs/2205.11485v1 )

ライセンス: Link先を確認
Jianfeng Chi, William Shand, Yaodong Yu, Kai-Wei Chang, Han Zhao, Yuan Tian(参考訳) コントラスト表現学習は画像データとシーケンシャルデータの両方から表現を学習する際の優れた性能から注目されている。 しかし、学習された表現は、有害なコメント分類における過度の表現されたグループのサイレンシングの増加など、下流のタスクにおけるパフォーマンスの格差につながる可能性がある。 この課題を踏まえ、本研究では、対照的な学習を通してテキスト分類のための等化奇数として知られる公平性の概念を満たす学習公正表現について研究する。 具体的には,まず,公平性制約を伴う学習表現と条件付き教師付き対照目的との関係を理論的に解析した。 そこで本研究では,条件付き教師付きコントラスト目標を用いてテキスト分類の公平な表現を学習することを提案する。 テキスト分類のための既存のベースライン間のタスク性能とバイアス軽減のトレードオフのバランスをとるために,2つのテキストデータセットの実験を行った。 さらに,提案手法は異なるハイパーパラメータ設定で安定であることを示す。

Contrastive representation learning has gained much attention due to its superior performance in learning representations from both image and sequential data. However, the learned representations could potentially lead to performance disparities in downstream tasks, such as increased silencing of underrepresented groups in toxicity comment classification. In light of this challenge, in this work, we study learning fair representations that satisfy a notion of fairness known as equalized odds for text classification via contrastive learning. Specifically, we first theoretically analyze the connections between learning representations with fairness constraint and conditional supervised contrastive objectives. Inspired by our theoretical findings, we propose to use conditional supervised contrastive objectives to learn fair representations for text classification. We conduct experiments on two text datasets to demonstrate the effectiveness of our approaches in balancing the trade-offs between task performance and bias mitigation among existing baselines for text classification. Furthermore, we also show that the proposed methods are stable in different hyperparameter settings.
翻訳日:2022-05-24 14:13:30 公開日:2022-05-23
# 自然言語処理における複合ラベルによる情報伝達

Information Propagation by Composited Labels in Natural Language Processing ( http://arxiv.org/abs/2205.11509v1 )

ライセンス: Link先を確認
Takeshi Inagaki(参考訳) 自然言語処理(nlp)では、単語、文、段落などのテキストの領域にラベルをつけることが基本課題である。 本稿では、テキスト上の領域におけるエンティティの言及と、その参照を含むテキスト上のより広い領域におけるエンティティのコンテキストの間のマップとしてラベルを定義する。 この定義は自然に領域の包含関係から誘導されるエンティティのリンクを導入し、連結エンティティはマップで定義された情報フローを表すグラフを形成する。 また、エントロピーを用いた地図による情報損失の計算を可能にし、エントロピー損失をグラフ上の経路上の2つの実体間の距離と見なす。

In natural language processing (NLP), labeling on regions of text, such as words, sentences and paragraphs, is a basic task. In this paper, label is defined as map between mention of entity in a region on text and context of entity in a broader region on text containing the mention. This definition naturally introduces linkage of entities induced from inclusion relation of regions, and connected entities form a graph representing information flow defined by map. It also enables calculation of information loss through map using entropy, and entropy lost is regarded as distance between two entities over a path on graph.
翻訳日:2022-05-24 14:13:09 公開日:2022-05-23
# 物理非依存物体のメタラーニング規則

Meta-Learning Regrasping Strategies for Physical-Agnostic Objects ( http://arxiv.org/abs/2205.11110v1 )

ライセンス: Link先を確認
Ruijie Chen, Ning Gao, Ngo Anh Vien, Hanna Ziesche, Gerhard Neumann(参考訳) 現実の応用で実用化されている非均質な物体をグラッピングすることは、質量分布や摩擦係数のような未知の物理的性質のために難しい課題である。 本研究では,視覚に基づくメタ学習アルゴリズムを提案する。 特に、DexNet-2.0上に条件付きニューラルネットワーク(CNP)を採用。 CNPは、各観測が構成されているいくつかの観測から、物理埋め込みを迅速に学習する 一 収穫深度画像 二 グリッパーと推定把持点との間の把持高さ 三 二の把握結果 我々の修正条件であるDexNet-2.0 (DexNet-CNP) は、新しい観測結果から予測された把握品質を反復的に更新する。 本手法は,物理パラメータの異なる形状原始オブジェクトを用いてpybulletシミュレータで評価する。 結果は,本モデルがオリジナルのDexNet-2.0より優れており,異なる形状のオブジェクトに対して一般化可能であることを示す。

Grasping inhomogeneous objects, practical use in real-world applications, remains a challenging task due to the unknown physical properties such as mass distribution and coefficient of friction. In this study, we propose a vision-based meta-learning algorithm to learn physical properties in an agnostic way. In particular, we employ Conditional Neural Processes (CNPs) on top of DexNet-2.0. CNPs learn physical embeddings rapidly from a few observations where each observation is composed of i) the cropped depth image, ii) the grasping height between the gripper and estimated grasping point, and iii) the binary grasping result. Our modified conditional DexNet-2.0 (DexNet-CNP) updates the predicted grasping quality iteratively from new observations, which can be executed in an online fashion. We evaluate our method in the Pybullet simulator using various shape primitive objects with different physical parameters. The results show that our model outperforms the original DexNet-2.0 and is able to generalize on unseen objects with different shapes.
翻訳日:2022-05-24 14:10:53 公開日:2022-05-23
# 異常な露出を露呈する: 少数、1、ゼロの異常なイメージから何が学べるか

Exposing Outlier Exposure: What Can Be Learned From Few, One, and Zero Outlier Images ( http://arxiv.org/abs/2205.11474v1 )

ライセンス: Link先を確認
Philipp Liznerski, Lukas Ruff, Robert A. Vandermeulen, Billy Joe Franks, Klaus-Robert M\"uller, and Marius Kloft(参考訳) 従来の異常検出(AD)は、通常のデータとは異なるものをすべて特徴付けるという難しさのため、通常のサンプルのみを利用する教師なしの問題として扱われる。 しかし,近年,異常性を表すためにランダム画像の膨大なコーパスを用いることにより,教師なし画像の異常検出を劇的に改善できることが判明した。 本稿では,AD学習の専門的手法が実際は多量かつ膨大なデータのコーパスであることを示す。 ImageNetの一般的なADベンチマークでは、標準分類器と、通常のサンプルを識別する半教師付き1クラスメソッドと、ごく少数のランダムな自然画像が、ADの最先端技術よりも優れており、1つの有用な外れ値サンプルだけが競合的に実行可能である。 我々は,この現象を調査し,一級法がトレーニングアウトリージの特定の選択に対してより堅牢であることを明らかにする。 さらに,最近の基盤モデルであるCLIPの表現に基づく単純な分類器が,CIFAR-10の最先端結果を実現し,トレーニングサンプル(ゼロショット設定など)を使わずにImageNet上の従来のADメソッドを全て上回る結果を得た。

Traditionally anomaly detection (AD) is treated as an unsupervised problem utilizing only normal samples due to the intractability of characterizing everything that looks unlike the normal data. However, it has recently been found that unsupervised image anomaly detection can be drastically improved through the utilization of huge corpora of random images to represent anomalousness; a technique which is known as Outlier Exposure. In this paper we show that specialized AD learning methods seem actually superfluous and huge corpora of data expendable. For a common AD benchmark on ImageNet, standard classifiers and semi-supervised one-class methods trained to discern between normal samples and just a few random natural images are able to outperform the current state of the art in deep AD, and only one useful outlier sample is sufficient to perform competitively. We investigate this phenomenon and reveal that one-class methods are more robust towards the particular choice of training outliers. Furthermore, we find that a simple classifier based on representations from CLIP, a recent foundation model, achieves state-of-the-art results on CIFAR-10 and also outperforms all previous AD methods on ImageNet without any training samples (i.e., in a zero-shot setting).
翻訳日:2022-05-24 14:08:46 公開日:2022-05-23
# (参考訳) 時間的定位調整によるコンフォメーション予測

Conformal Prediction with Temporal Quantile Adjustments ( http://arxiv.org/abs/2205.09940v2 )

ライセンス: CC BY 4.0
Zhen Lin, Shubhendu Trivedi, Jimeng Sun(参考訳) 時系列データに対する回帰のための効率良く有効な予測間隔(pis)を構築するための一般的な手法であるtqa(temporal quantile adjustment)を開発した。 このようなデータは、econometricsやhealthcareなど、多くのドメインで一般的です。 医療における標準的な例は、生理的時系列データを用いて患者の予後を予測することである。 この設定の信頼性の高いPI推定器は、断面スライスを横断する断面カバレッジと、時系列ごとに時間次元に沿った縦カバレッジという、2つの異なるカバレッジの概念に対処する必要がある。 近年,連続予測(CP)を用いて時系列の文脈でPIを得る手法が研究されている。 しかしながら、両方のカバレッジの概念を同時に扱うものはない。 cp法は通常、キャリブレーションセット上の非共形性スコアの分布から予め規定された分位数をクエリする。 TQAはCPのクエリを$t$ごとに調整し、理論的に地平線で断面と縦の両方をカバーしている。 TQAのポストホック性は、任意の時系列回帰モデルに関する一般的なラッパーとしての使用を促進する。 我々はTQAの性能を広範囲にわたる実験により検証する:TQAは一般的に効率的なPIを取得し、断面被覆を保ちながら縦断被覆を改善する。

We develop Temporal Quantile Adjustment (TQA), a general method to construct efficient and valid prediction intervals (PIs) for regression on cross-sectional time series data. Such data is common in many domains, including econometrics and healthcare. A canonical example in healthcare is predicting patient outcomes using physiological time-series data, where a population of patients composes a cross-section. Reliable PI estimators in this setting must address two distinct notions of coverage: cross-sectional coverage across a cross-sectional slice, and longitudinal coverage along the temporal dimension for each time series. Recent works have explored adapting Conformal Prediction (CP) to obtain PIs in the time series context. However, none handles both notions of coverage simultaneously. CP methods typically query a pre-specified quantile from the distribution of nonconformity scores on a calibration set. TQA adjusts the quantile to query in CP at each time $t$, accounting for both cross-sectional and longitudinal coverage in a theoretically-grounded manner. The post-hoc nature of TQA facilitates its use as a general wrapper around any time series regression model. We validate TQA's performance through extensive experimentation: TQA generally obtains efficient PIs and improves longitudinal coverage while preserving cross-sectional coverage.
翻訳日:2022-05-24 12:48:46 公開日:2022-05-23
# (参考訳) 微粒な局所スタイル学習によるファウショットフォント生成

Few-Shot Font Generation by Learning Fine-Grained Local Styles ( http://arxiv.org/abs/2205.09965v2 )

ライセンス: CC BY 4.0
Licheng Tang, Yiyang Cai, Jiaming Liu, Zhibin Hong, Mingming Gong, Minhu Fan, Junyu Han, Jingtuo Liu, Errui Ding, Jingdong Wang(参考訳) いくつかの例で新しいフォントを生成することを目的としたFew-shotフォント生成(FFG)は、労働コストの大幅な削減により注目されている。 典型的なFFGパイプラインは、標準フォントライブラリ内の文字をコンテンツグリフとみなし、参照グリフからスタイル情報を抽出して新しいターゲットフォントに転送する。 既存のソリューションの多くは、コンテンツと参照グリフのスタイルをグローバルまたはコンポーネントワイズで明示的に切り離している。 しかし、グリフのスタイルは、主に地域の詳細、すなわち急進派、構成要素、ストロークのスタイルが共にグリフのスタイルを描いている。 そのため、一つの文字でも空間上に分散した異なるスタイルを含むことができる。 本稿では,学習による新しいフォント生成手法を提案する。 1) 参照からのきめ細かいローカルスタイル,及び 2) 内容と基準グリフの空間的対応 したがって、コンテンツグリフ内の各空間位置を、適切なきめ細かいスタイルで割り当てることができる。 この目的のために、クエリーとしてのコンテンツグリフの表現と、キーと値としての参照グリフの表現に対して、クロスアテンションを採用する。 グローバルやコンポーネントのモデリングを明示的に切り離す代わりに、クロスアテンションメカニズムは参照グリフの適切なローカルスタイルに対応し、参照スタイルを与えられたコンテンツグリフのきめ細かいスタイル表現に集約することができる。 実験の結果,提案手法はFFGの最先端手法よりも優れていた。 特にユーザスタディでは,アプローチのスタイル整合性が従来の手法よりも大幅に優れていたことも示している。

Few-shot font generation (FFG), which aims to generate a new font with a few examples, is gaining increasing attention due to the significant reduction in labor cost. A typical FFG pipeline considers characters in a standard font library as content glyphs and transfers them to a new target font by extracting style information from the reference glyphs. Most existing solutions explicitly disentangle content and style of reference glyphs globally or component-wisely. However, the style of glyphs mainly lies in the local details, i.e. the styles of radicals, components, and strokes together depict the style of a glyph. Therefore, even a single character can contain different styles distributed over spatial locations. In this paper, we propose a new font generation approach by learning 1) the fine-grained local styles from references, and 2) the spatial correspondence between the content and reference glyphs. Therefore, each spatial location in the content glyph can be assigned with the right fine-grained style. To this end, we adopt cross-attention over the representation of the content glyphs as the queries and the representations of the reference glyphs as the keys and values. Instead of explicitly disentangling global or component-wise modeling, the cross-attention mechanism can attend to the right local styles in the reference glyphs and aggregate the reference styles into a fine-grained style representation for the given content glyphs. The experiments show that the proposed method outperforms the state-of-the-art methods in FFG. In particular, the user studies also demonstrate the style consistency of our approach significantly outperforms previous methods.
翻訳日:2022-05-24 12:19:30 公開日:2022-05-23
# フィードフォワードニューラルネットワークのための因果的発見と注入

Causal Discovery and Injection for Feed-Forward Neural Networks ( http://arxiv.org/abs/2205.09787v2 )

ライセンス: Link先を確認
Fabrizio Russo and Francesca Toni(参考訳) ニューラルネットワークは、幅広い問題を解決するのに効果的であることが証明されているが、有意義な因果関係を学んでいるかどうかは不明であることが多い。 本稿では,フィードフォワードニューラルネットワークに(おそらく部分的な)因果グラフの形で知識を注入することにより,学習モデルがグラフに準拠することを保証し,専門家の知識に固執することで,この問題を克服する新しい手法を提案する。 この知識は、人間とAIのコラボレーションを通じてモデルを改善するために、事前または学習プロセス中に与えられる。 本手法を合成および実データ(表式)に適用し,ノイズに対するロバスト性を示し,低データ環境における因果発見と予測性能を向上させる。

Neural networks have proven to be effective at solving a wide range of problems but it is often unclear whether they learn any meaningful causal relationship: this poses a problem for the robustness of neural network models and their use for high-stakes decisions. We propose a novel method overcoming this issue by injecting knowledge in the form of (possibly partial) causal graphs into feed-forward neural networks, so that the learnt model is guaranteed to conform to the graph, hence adhering to expert knowledge. This knowledge may be given up-front or during the learning process, to improve the model through human-AI collaboration. We apply our method to synthetic and real (tabular) data showing that it is robust against noise and can improve causal discovery and prediction performance in low data regimes.
翻訳日:2022-05-24 12:01:33 公開日:2022-05-23
# BERTを用いたタスク指向自然言語理解のためのインテント特徴付きスロットタギングの強化

Enhancing Slot Tagging with Intent Features for Task Oriented Natural Language Understanding using BERT ( http://arxiv.org/abs/2205.09732v2 )

ライセンス: Link先を確認
Shruthi Hariharan, Vignesh Kumar Krishnamurthy, Utkarsh, Jayantha Gowda Sarapanahalli(参考訳) 最近のジョイントインテント検出とスロットタギングモデルでは,個々のモデルと比較して性能が向上している。 多くの現実世界のデータセットでは、スロットラベルと値はインテントラベルと強い相関がある。 このような場合、インテントラベル情報はスロットタグ付けモデルに有用な機能として機能する。 本稿では,3つの手法による意図ラベル特徴の活用が,関節インテントとスロット検出モデルのスロットタギングタスクに与える影響について検討する。 我々は,音声言語データセットSNIPSとATISのベンチマークおよび大規模プライベートBixbyデータセットの評価を行い,最先端モデルに対するスロットタグ付け性能の改善について検討した。

Recent joint intent detection and slot tagging models have seen improved performance when compared to individual models. In many real-world datasets, the slot labels and values have a strong correlation with their intent labels. In such cases, the intent label information may act as a useful feature to the slot tagging model. In this paper, we examine the effect of leveraging intent label features through 3 techniques in the slot tagging task of joint intent and slot detection models. We evaluate our techniques on benchmark spoken language datasets SNIPS and ATIS, as well as over a large private Bixby dataset and observe an improved slot-tagging performance over state-of-the-art models.
翻訳日:2022-05-24 12:01:18 公開日:2022-05-23
# 信頼できるグラフ学習に関する調査:信頼性、説明可能性、プライバシー保護

A Survey of Trustworthy Graph Learning: Reliability, Explainability, and Privacy Protection ( http://arxiv.org/abs/2205.10014v2 )

ライセンス: Link先を確認
Bingzhe Wu, Jintang Li, Junchi Yu, Yatao Bian, Hengtong Zhang, CHaochao Chen, Chengbin Hou, Guoji Fu, Liang Chen, Tingyang Xu, Yu Rong, Xiaolin Zheng, Junzhou Huang, Ran He, Baoyuan Wu, GUangyu Sun, Peng Cui, Zibin Zheng, Zhe Liu, Peilin Zhao(参考訳) ディープグラフ学習は、金融や電子商取引から薬物や高度な物質発見まで、ビジネス分野と科学分野の両方で著しい進歩を遂げてきた。 これらの進歩にもかかわらず、様々なディープグラフ学習アルゴリズムを社会的に責任ある方法で動作させ、規制コンプライアンス要件を満たすことが、特にリスクに敏感な領域において、新たな問題となる。 信頼できるグラフ学習(TwGL)は、技術的観点から上記の問題を解決することを目的としている。 モデルパフォーマンスを主に重視する従来のグラフ学習研究とは対照的に,twglでは,堅牢性や説明可能性,プライバシなどを含む,グラフ学習フレームワークのさまざまな信頼性と安全性について検討している。 本稿では,twgl分野における最近の先行的アプローチについて,信頼性,説明可能性,プライバシー保護という3次元から総合的に検討する。 既存の作業の一般的な分類と,各カテゴリの典型的な作業のレビューを行う。 TwGL研究にさらなる洞察を与えるため、以前の研究を検査し、それらの関係を構築する統一的な視点を提供する。 また,TwGLの今後の発展において解決すべき重要な未解決問題についても指摘した。

Deep graph learning has achieved remarkable progresses in both business and scientific areas ranging from finance and e-commerce, to drug and advanced material discovery. Despite these progresses, how to ensure various deep graph learning algorithms behave in a socially responsible manner and meet regulatory compliance requirements becomes an emerging problem, especially in risk-sensitive domains. Trustworthy graph learning (TwGL) aims to solve the above problems from a technical viewpoint. In contrast to conventional graph learning research which mainly cares about model performance, TwGL considers various reliability and safety aspects of the graph learning framework including but not limited to robustness, explainability, and privacy. In this survey, we provide a comprehensive review of recent leading approaches in the TwGL field from three dimensions, namely, reliability, explainability, and privacy protection. We give a general categorization for existing work and review typical work for each category. To give further insights for TwGL research, we provide a unified view to inspect previous works and build the connection between them. We also point out some important open problems remaining to be solved in the future developments of TwGL.
翻訳日:2022-05-24 12:01:07 公開日:2022-05-23
# 安全強化学習の展望 : 方法・理論・応用

A Review of Safe Reinforcement Learning: Methods, Theory and Applications ( http://arxiv.org/abs/2205.10330v2 )

ライセンス: Link先を確認
Shangding Gu, Long Yang, Yali Du, Guang Chen, Florian Walter, Jun Wang, Yaodong Yang, Alois Knoll(参考訳) 強化学習は多くの複雑な意思決定タスクで大きな成功を収めました。 現実の世界におけるRLの展開に関しては、安全上の懸念が高まっており、自動運転やロボティクスのシナリオなど、安全な強化学習アルゴリズムの需要が高まっている。 安全性制御には長い歴史があるが、安全なrlアルゴリズムの研究はまだ初期段階にある。 本稿では,本スレッドの今後の研究基盤を確立するために,手法,理論,応用の観点から,安全なRLのレビューを行う。 まず,安全RLの5次元からの進歩を概観し,安全RLを「2H3W」と命名した現実世界のアプリケーションに展開する上で重要な5つの問題を提起する。 次に,「2h3w」問題への回答の観点から,理論とアルゴリズムの進歩を分析する。 次に、安全なRL手法のサンプル複雑性を概説し、続いて安全なRLアルゴリズムのアプリケーションとベンチマークを導入する。 最後に、安全なRLにおける課題に関する議論を開き、このスレッドに関するさらなる研究を刺激したいと考えている。 安全なRLアルゴリズムの研究を進めるために、主要な安全なRLアルゴリズムの実装を含むオープンソースリポジトリであるベンチマークスイートをリリースした。

Reinforcement learning has achieved tremendous success in many complex decision making tasks. When it comes to deploying RL in the real world, safety concerns are usually raised, leading to a growing demand for safe reinforcement learning algorithms, such as in autonomous driving and robotics scenarios. While safety control has a long history, the study of safe RL algorithms is still in the early stages. To establish a good foundation for future research in this thread, in this paper, we provide a review for safe RL from the perspectives of methods, theory and applications. Firstly, we review the progress of safe RL from five dimensions and come up with five problems that are crucial for safe RL being deployed in real-world applications, coined as "2H3W". Secondly, we analyze the theory and algorithm progress from the perspectives of answering the "2H3W" problems. Then, the sample complexity of safe RL methods is reviewed and discussed, followed by an introduction of the applications and benchmarks of safe RL algorithms. Finally, we open the discussion of the challenging problems in safe RL, hoping to inspire more future research on this thread. To advance the study of safe RL algorithms, we release a benchmark suite, an open-sourced repository containing the implementations of major safe RL algorithms, along with tutorials at the link: https://github.com/chauncygu/Safe-Reinforcement-Learning-Baselines.git.
翻訳日:2022-05-24 12:00:47 公開日:2022-05-23
# AIGenC:創造性によるAIの一般化

AIGenC: AI generalisation via creativity ( http://arxiv.org/abs/2205.09738v2 )

ライセンス: Link先を確認
Corina Catarau-Cotutiu, Esther Mondragon, Eduardo Alonso(参考訳) 本稿では,創造性の認知理論に触発された深層強化学習エージェントにおける創造的問題解決の計算モデルを提案する。 AIGenCモデルは、人工エージェントが変換可能な表現を学習、使用、生成できるようにすることを目的としている。 AIGenCは、概念処理、反射的推論、概念のブレンドという3つの主要なコンポーネントを含むディープラーニングアーキテクチャに組み込まれている。 第1のコンポーネントは、知覚入力からオブジェクトとアフォーアンスを抽出し、それらを階層グラフ構造として表される概念空間にエンコードする。 概念表現は二重メモリシステムに格納される。 エージェントが深層強化学習中に取得したゴール指向および時間情報により、概念空間におけるより高度な抽象化を生み出す表現が強化される。 並行して、リフレクション推論に類似したプロセスは、現在の状態とメモリグラフ構造との類似度値を計算するマッチングプロセスに従って、タスクに関連するメモリ概念を検出して回復する。 インタラクションが終了すると、報酬と時間情報がグラフ構造に追加され、より高い抽象化レベルが生成される。 反射的推論が適切なソリューションを提供できない場合、過去の情報を組み合わせることで新しい概念を創出するブレンディングプロセスが発生する。 本稿では, 人工エージェントのアウト・オブ・ディストリビューション・ジェネレーションを向上するモデルの能力について論じる。 私たちの知る限りでは、これは単なる形式理論を超えた初めての計算モデルであり、深層学習アーキテクチャにおける創造的な問題解決の解決策となる。

This paper introduces a computational model of creative problem solving in deep reinforcement learning agents, inspired by cognitive theories of creativity. The AIGenC model aims at enabling artificial agents to learn, use and generate transferable representations. AIGenC is embedded in a deep learning architecture that includes three main components: concept processing, reflective reasoning, and blending of concepts. The first component extracts objects and affordances from sensory input and encodes them in a concept space, represented as a hierarchical graph structure. Concept representations are stored in a dual memory system. Goal-directed and temporal information acquired by the agent during deep reinforcement learning enriches the representations creating a higher-level of abstraction in the concept space. In parallel, a process akin to reflective reasoning detects and recovers from memory concepts relevant to the task according to a matching process that calculates a similarity value between the current state and memory graph structures. Once an interaction is finalised, rewards and temporal information are added to the graph structure, creating a higher abstraction level. If reflective reasoning fails to offer a suitable solution, a blending process comes into place to create new concepts by combining past information. We discuss the model's capability to yield better out-of-distribution generalisation in artificial agents, thus advancing toward artificial general intelligence. To the best of our knowledge, this is the first computational model, beyond mere formal theories, that posits a solution to creative problem solving within a deep learning architecture.
翻訳日:2022-05-24 12:00:25 公開日:2022-05-23
# MSTRIQ:マルチステージ融合によるスウィントランスによる画像品質評価

MSTRIQ: No Reference Image Quality Assessment Based on Swin Transformer with Multi-Stage Fusion ( http://arxiv.org/abs/2205.10101v2 )

ライセンス: Link先を確認
Jing Wang, Haotian Fan, Xiaoxia Hou, Yitian Xu, Tao Li, Xuechao Lu and Lean Fu(参考訳) 画像の知覚品質を自動測定することは、画像の取得、送信、拡張に至るまで、多くのプロセスに画質の劣化が存在するため、コンピュータビジョン領域において必須の課題である。 多くの画像品質評価(IQA)アルゴリズムがこの問題に対処するために設計されている。 しかし、様々な種類の画像歪みと大規模な人格データセットの欠如により、未だに解決されていない。 本稿では,複数の段階から融合した特徴を持つSwin Transformer [31]に基づく新しいアルゴリズムを提案する。 小規模なデータセットの問題に対処するため、画像の相対的ランク付けと回帰損失を考慮し、モデルを同時に最適化した。 さらに、パフォーマンスを向上させるために効果的なデータ拡張戦略も使用されている。 従来の研究と比較すると、2つの標準IQAデータセットとチャレンジデータセットで実験が行われる。 結果は我々の仕事の有効性を示しています。 提案手法は,NTIRE 2022 Perceptual Image Quality Assessment Challenge[53]の非参照トラックにおいて,標準データセットの他の手法よりも優れ,第2位である。 この手法は, 多様な iqa 問題を解決する上で有望であり, リアルワードアプリケーションに適用可能であることを検証している。

Measuring the perceptual quality of images automatically is an essential task in the area of computer vision, as degradations on image quality can exist in many processes from image acquisition, transmission to enhancing. Many Image Quality Assessment(IQA) algorithms have been designed to tackle this problem. However, it still remains un settled due to the various types of image distortions and the lack of large-scale human-rated datasets. In this paper, we propose a novel algorithm based on the Swin Transformer [31] with fused features from multiple stages, which aggregates information from both local and global features to better predict the quality. To address the issues of small-scale datasets, relative rankings of images have been taken into account together with regression loss to simultaneously optimize the model. Furthermore, effective data augmentation strategies are also used to improve the performance. In comparisons with previous works, experiments are carried out on two standard IQA datasets and a challenge dataset. The results demonstrate the effectiveness of our work. The proposed method outperforms other methods on standard datasets and ranks 2nd in the no-reference track of NTIRE 2022 Perceptual Image Quality Assessment Challenge [53]. It verifies that our method is promising in solving diverse IQA problems and thus can be used to real-word applications.
翻訳日:2022-05-24 12:00:00 公開日:2022-05-23
# 強化学習に基づくモデル選択による時系列異常検出

Time Series Anomaly Detection via Reinforcement Learning-Based Model Selection ( http://arxiv.org/abs/2205.09884v2 )

ライセンス: Link先を確認
Jiuqi Elise Zhang, Di Wu, Benoit Boulet(参考訳) 実世界のシステムの信頼性と効率的な運用には,時系列異常検出が重要である。 多くの異常検出モデルが、異常特性に関する様々な仮定に基づいて長年にわたって開発されてきた。 しかし、実世界のデータの複雑な性質から、時系列内の異なる異常は通常、異なる異常仮定をサポートする多様なプロファイルを持ち、他の全てのモデルに一貫して打ち勝つ単一の異常検出器を見つけることは困難である。 本研究では,異なるベースモデルの利点を利用するために,異常検出モデルのプールがアクセス可能であると仮定し,強化学習を利用してこれらのベースモデルから候補モデルを動的に選択することを提案する。 実世界データに関する実験が実施されている。 提案手法は,全体の性能において,すべてのベースラインモデルより優れていることを示す。

Time series anomaly detection is of critical importance for the reliable and efficient operation of real-world systems. Many anomaly detection models have been developed throughout the years based on various assumptions regarding anomaly characteristics. However, due to the complex nature of real-world data, different anomalies within a time series usually have diverse profiles supporting different anomaly assumptions, making it difficult to find a single anomaly detector that can consistently beat all other models. In this work, to harness the benefits of different base models, we assume that a pool of anomaly detection models is accessible and propose to utilize reinforcement learning to dynamically select a candidate model from these base models. Experiments on real-world data have been implemented. It is demonstrated that the proposed strategy can outperforms all baseline models in terms of overall performance.
翻訳日:2022-05-24 11:58:06 公開日:2022-05-23
# グリーディベストファーストとA*検索のための学習ヒューリスティック関数のサンプル複雑性

Sample Complexity of Learning Heuristic Functions for Greedy-Best-First and A* Search ( http://arxiv.org/abs/2205.09963v2 )

ライセンス: Link先を確認
Shinsaku Sakaue, Taihei Oki(参考訳) greedy best-first search (gbfs) と a* search (a*) は大きなグラフ上の経路探索のための一般的なアルゴリズムである。 どちらもいわゆるヒューリスティック関数を使い、頂点が目標にどれだけ近いかを推定する。 ヒューリスティック関数はドメイン知識を用いて手作りされているが、近年の研究では、データからのヒューリスティック関数の学習が多くのアプリケーションで有効であることが示されている。 そこで本研究では,GBFS と A* の学習ヒューリスティック関数のサンプル複雑性について検討した。 我々は最近のフレームワークである \textit{data-driven algorithm design} をベースに構築し,パラメータ化アルゴリズムの性能を測定するユーティリティ関数のクラスである \textit{pseudo-dimension} を評価する。 n$ の大きさの頂点集合が固定されていると仮定すると、gbfs と a* の擬次元に対して $\mathrm{o}(n\lg n)$ と $\mathrm{o}(n^2\lg n)$ 上界をそれぞれヒューリスティック関数の値でパラメータ化したものである。 A* の上界が $\mathrm{O}(n^2\lg d)$ に改善できるのは、すべての頂点が少なくとも $d$ の次数を持ち、さらに $\mathrm{O}(n \lg n)$ が $\mathrm{poly}(n)$ で有界な整数であればである。 また、GBFS と A* に対する$\Omega(n)$下界を与え、これは整数重み条件下での GBFS と A* の有界が $\lg n$ factor に固であることを意味する。 最後に,パラメータ依存の最悪のケースとサンプルの複雑性のバウンドとを組み合わせることで,A*の性能を最適以下で測定し,より良い保証が得られることを示す。

Greedy best-first search (GBFS) and A* search (A*) are popular algorithms for path-finding on large graphs. Both use so-called heuristic functions, which estimate how close a vertex is to the goal. While heuristic functions have been handcrafted using domain knowledge, recent studies demonstrate that learning heuristic functions from data is effective in many applications. Motivated by this emerging approach, we study the sample complexity of learning heuristic functions for GBFS and A*. We build on a recent framework called \textit{data-driven algorithm design} and evaluate the \textit{pseudo-dimension} of a class of utility functions that measure the performance of parameterized algorithms. Assuming that a vertex set of size $n$ is fixed, we present $\mathrm{O}(n\lg n)$ and $\mathrm{O}(n^2\lg n)$ upper bounds on the pseudo-dimensions for GBFS and A*, respectively, parameterized by heuristic function values. The upper bound for A* can be improved to $\mathrm{O}(n^2\lg d)$ if every vertex has a degree of at most $d$ and to $\mathrm{O}(n \lg n)$ if edge weights are integers bounded by $\mathrm{poly}(n)$. We also give $\Omega(n)$ lower bounds for GBFS and A*, which imply that our bounds for GBFS and A* under the integer-weight condition are tight up to a $\lg n$ factor. Finally, we discuss a case where the performance of A* is measured by the suboptimality and show that we can sometimes obtain a better guarantee by combining a parameter-dependent worst-case bound with a sample complexity bound.
翻訳日:2022-05-24 11:57:53 公開日:2022-05-23
# HeadText: スマートイヤーピースのモーションセンシングによるヘッドジェスチャを用いたハンズフリーテキスト入力

HeadText: Exploring Hands-free Text Entry using Head Gestures by Motion Sensing on a Smart Earpiece ( http://arxiv.org/abs/2205.09978v2 )

ライセンス: Link先を確認
Songlin Xu, Guanjie Wang, Ziyuan Fang, Guangwei Zhang, Guangzhu Shang, Rongde Lu, Liqun He(参考訳) HeadTextは、モーションセンシングによるテキスト入力のためのスマートイヤホンのハンズフリー技術である。 ユーザは、キー選択、単語選択、単語コミットメント、単語キャンセルタスクのために7つのヘッドジェスチャのみを使用してテキストを入力する。 頭部のジェスチャー認識は、スマートイヤホンのモーションセンシングによってサポートされ、頭の動き信号と機械学習アルゴリズム(k-nearest-neighbor (knn)、ダイナミックタイムワーピング(dtw)距離測定)を捉える。 10人の参加者による調査では、7つのヘッドジェスチャを94.29%の精度で認識できた。 その後、第2のユーザ調査では、HeadTextは最大精度10.65WPM、平均精度9.84WPMを達成することができた。 最後に,HeadTextのハンズフリーシナリオへの応用の可能性を示す。 (a) 運動障害のある人のテキスト入力 (b) プライベートテキストのエントリと (c)。 社会的に受け入れられるテキスト入力。

We present HeadText, a hands-free technique on a smart earpiece for text entry by motion sensing. Users input text utilizing only 7 head gestures for key selection, word selection, word commitment and word cancelling tasks. Head gesture recognition is supported by motion sensing on a smart earpiece to capture head moving signals and machine learning algorithms (K-Nearest-Neighbor (KNN) with a Dynamic Time Warping (DTW) distance measurement). A 10-participant user study proved that HeadText could recognize 7 head gestures at an accuracy of 94.29%. After that, the second user study presented that HeadText could achieve a maximum accuracy of 10.65 WPM and an average accuracy of 9.84 WPM for text entry. Finally, we demonstrate potential applications of HeadText in hands-free scenarios for (a). text entry of people with motor impairments, (b). private text entry, and (c). socially acceptable text entry.
翻訳日:2022-05-24 11:57:12 公開日:2022-05-23