このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220524となっている論文です。

PDF登録状況(公開日: 20220524)

TitleAuthorsAbstract論文公表日・翻訳日
# 質量を持たないディラック方程式とワイル方程式の退化解とワイル粒子の量子状態制御法の提案

Degenerate solutions to the massless Dirac and Weyl equations and a proposed method for controlling the quantum state of Weyl particles ( http://arxiv.org/abs/2010.09846v6 )

ライセンス: Link先を確認
Georgios N. Tsigaridas, Aristides I. Kechriniotis, Christos A. Tsonos and Konstantinos K. Delibasis(参考訳) 最近の研究では、ワイル方程式の全ての解とディラック方程式の特別な解は、様々な電磁界の影響下で不変のままであるという意味で退化していることが示されている。 本研究では,これまでの研究が大幅に拡張され,無質量粒子に対するディラック方程式に対する幅広い縮退解が得られた。 これらの解に対応する電磁場を計算し、空間定数の電磁場と電磁波の両方に関する例も提供する。 さらに、ワイル方程式に対するいくつかの一般解を示し、対応する電磁場を計算する。 これらの結果に基づき, 適切な電磁界を用いたワイル粒子の量子状態の完全制御法を提案する。 最後に, 粒子の質量獲得に伴う縮退液から非縮退液への遷移について論じる。

In a recent work, we have shown that all solutions to the Weyl equation and a special class of solutions to the Dirac equation are degenerate in the sense that they remain unaltered under the influence of a wide variety of different electromagnetic fields. In this study, our previous work is significantly extended, providing a wide class of degenerate solutions to the Dirac equation for massless particles. The electromagnetic fields corresponding to these solutions are calculated and examples regarding both spatially constant electromagnetic fields and electromagnetic waves are also provided. Furthermore, some general solutions to the Weyl equation are presented, and the corresponding electromagnetic fields are calculated. Based on these results, a method for fully controlling the quantum state of Weyl particles using appropriate electromagnetic fields is proposed. Finally, the transition from degenerate to non-degenerate solutions as the particles acquire mass is discussed.
翻訳日:2023-04-28 07:42:00 公開日:2022-05-24
# 巨大粒子に対するディラック方程式の退化解とその量子トンネルへの応用

Degenerate solutions to the Dirac equation for massive particles and their applications in quantum tunneling ( http://arxiv.org/abs/2010.09844v7 )

ライセンス: Link先を確認
Georgios N. Tsigaridas, Aristides I. Kechriniotis, Christos A. Tsonos and Konstantinos K. Delibasis(参考訳) 最近の研究では、無限個の異なる電磁場に対応するディラック方程式の退化解の存在を証明し、質量のない粒子についてもいくつかの例を挙げている。 本論文では, 任意の質量を持つ粒子に対するディラック方程式の縮退解として, 特定の条件下では, エネルギーがバリアの高さに等しいポテンシャル障壁内を移動する粒子対(反粒子)として解釈することができる。 これらの解に対応する電磁場を計算し、空間定数の電磁場と電磁波の両方に関するいくつかの例を提供する。 さらに,本研究の潜在的な応用について論じる。主に障壁の外側の粒子の制御について,バリア内の粒子の状態に影響を与えることなく検討する。 最後に, 縮退解に対する小さな摂動の影響について検討し, 正確な縮退解に対応する電磁場の振幅が十分に小さいことを仮定して, 近似的に, 結果がまだ有効であることを示す。

In a recent work we have proven the existence of degenerate solutions to the Dirac equation, corresponding to an infinite number of different electromagnetic fields, providing also some examples regarding massless particles. In the present article our results are extended significantly, providing degenerate solutions to the Dirac equation for particles with arbitrary mass, which, under certain conditions, could be interpreted as pairs of particles (or antiparticles) moving in a potential barrier with energy equal to the height of the barrier and spin opposite to each other. We calculate the electromagnetic fields corresponding to these solutions, providing also some examples regarding both spatially constant electromagnetic fields and electromagnetic waves. Further, we discuss some potential applications of our work, mainly regarding the control of the particles outside the potential barrier, without affecting their state inside the barrier. Finally, we study the effect of small perturbations to the degenerate solutions, showing that our results are still valid, in an approximate sense, provided that the amplitude of the electromagnetic fields corresponding to the exact degenerate solutions is sufficiently small.
翻訳日:2023-04-28 07:41:47 公開日:2022-05-24
# 量子はきめ細かい複雑さを満たす - 弦問題に対する部分線形時間量子アルゴリズム

Quantum Meets Fine-grained Complexity: Sublinear Time Quantum Algorithms for String Problems ( http://arxiv.org/abs/2010.12122v2 )

ライセンス: Link先を確認
Fran\c{c}ois Le Gall and Saeed Seddighin(参考訳) 最も長いコモン・サブストリング(LCS)、長いパリンドローム・サブストリング(LPS)、ウルム距離(UL)は古典的に線形に近い時間で解くことができる3つの基本弦問題である。 本研究では,これらの問題に対する線形時間量子アルゴリズムと量子下界について述べる。 LCSとLPSの古典的な解はほぼ同じ(接尾辞木による)が、それらの量子計算の複雑さは異なる。 LPS に対して正確な $\tilde O(\sqrt{n})$ time アルゴリズムを与えるが、LCS が 0/1 の弦に対してさえ少なくとも $\tilde \Omega(n^{2/3})$ を必要とすることを証明している。

Longest common substring (LCS), longest palindrome substring (LPS), and Ulam distance (UL) are three fundamental string problems that can be classically solved in near linear time. In this work, we present sublinear time quantum algorithms for these problems along with quantum lower bounds. Our results shed light on a very surprising fact: Although the classic solutions for LCS and LPS are almost identical (via suffix trees), their quantum computational complexities are different. While we give an exact $\tilde O(\sqrt{n})$ time algorithm for LPS, we prove that LCS needs at least time $\tilde \Omega(n^{2/3})$ even for 0/1 strings.
翻訳日:2023-04-27 22:58:16 公開日:2022-05-24
# Fenna-Matthews-Olson錯体を用いた開量子力学の一般量子アルゴリズム

A general quantum algorithm for open quantum dynamics demonstrated with the Fenna-Matthews-Olson complex ( http://arxiv.org/abs/2101.05287v3 )

ライセンス: Link先を確認
Zixuan Hu, Kade Head-Marsden, David A. Mazziotti, Prineha Narang, and Sabre Kais(参考訳) 量子マターにおける複雑な物理過程と相関をシミュレートする量子アルゴリズムは、量子コンピューティング研究の主要な方向性であり、古典的アプローチに対する量子優位の約束に向かっている。 本研究では、演算子和表現またはリンドブラッドマスター方程式で表される任意の動的過程をシミュレートする一般化量子アルゴリズムを開発した。 次に、IBM QASM量子シミュレータ上のFMO(Fenna-Matthews-Olson)複合体の力学をシミュレーションすることで量子アルゴリズムを実証する。 この研究は、現実的な生物学的構造を含む適度に洗練された動的過程を持つオープン量子力学のための量子アルゴリズムの最初のデモンストレーションである。 本稿では,古典的手法に対する量子アルゴリズムの複雑性について考察し,量子測定のユニークな性質に基づく量子アプローチの持つ決定的なクエリ複雑性について述べる。

Using quantum algorithms to simulate complex physical processes and correlations in quantum matter has been a major direction of quantum computing research, towards the promise of a quantum advantage over classical approaches. In this work we develop a generalized quantum algorithm to simulate any dynamical process represented by either the operator sum representation or the Lindblad master equation. We then demonstrate the quantum algorithm by simulating the dynamics of the Fenna-Matthews-Olson (FMO) complex on the IBM QASM quantum simulator. This work represents a first demonstration of a quantum algorithm for open quantum dynamics with a moderately sophisticated dynamical process involving a realistic biological structure. We discuss the complexity of the quantum algorithm relative to the classical method for the same purpose, presenting a decisive query complexity advantage of the quantum approach based on the unique property of quantum measurement.
翻訳日:2023-04-15 17:20:33 公開日:2022-05-24
# 浅いパラメータ化量子回路における近似振幅符号化と金融市場指標への応用

Approximate amplitude encoding in shallow parameterized quantum circuits and its application to financial market indicator ( http://arxiv.org/abs/2103.13211v3 )

ライセンス: Link先を確認
Kouhei Nakaji, Shumpei Uno, Yohichi Suzuki, Rudy Raymond, Tamiya Onodera, Tomoki Tanaka, Hiroyuki Tezuka, Naoki Mitsuda, Naoki Yamamoto(参考訳) 古典的なデータを量子回路にロードする効率的な方法は、様々な量子アルゴリズムに不可欠である。 本稿では,与えられた実数値データベクトルのすべての成分を量子状態の振幅に効果的にロードできる近似振幅符号化と呼ばれるアルゴリズムを提案する。 提案アルゴリズムの鍵となるのは,データコンポーネントの符号を扱うために導入された,標準的な計算基底測定とアダマール変換に基づく測定という,2種類の測定結果を用いて,浅いパラメータ化量子回路を変動的に訓練することである。 変動アルゴリズムは、これらの2つの測定基準に対応する2つのコストの和を最小化するために回路パラメータを変更し、どちらも効率よく計算可能な最大平均誤差によって与えられる。 また、株式市場データセットを介して特異値分解エントロピーを構築して金融市場指標を与える問題を考える。量子アルゴリズム(変分特異値分解アルゴリズム)は古典型よりも高速に解を生成できることが知られているが、符号依存の振幅エントロピーは必要である。 そこで,本アルゴリズムは,量子状態における実株価の時系列ロードを近似誤差で実現し,株価に基づく金融市場の指標を構築することができることを示す。

Efficient methods for loading given classical data into quantum circuits are essential for various quantum algorithms. In this paper, we propose an algorithm called Approximate Amplitude Encoding that can effectively load all the components of a given real-valued data vector into the amplitude of quantum state, while the previous proposal can only load the absolute values of those components. The key of our algorithm is to variationally train a shallow parameterized quantum circuit, using the results of two types of measurement; the standard computational-basis measurement plus the measurement in the Hadamard-transformed basis, introduced in order to handle the sign of the data components. The variational algorithm changes the circuit parameters so as to minimize the sum of two costs corresponding to those two measurement basis, both of which are given by the efficiently-computable maximum mean discrepancy. We also consider the problem of constructing the singular value decomposition entropy via the stock market dataset to give a financial market indicator; a quantum algorithm (the variational singular value decomposition algorithm) is known to produce a solution faster than classical, which yet requires the sign-dependent amplitude encoding. We demonstrate, with an in-depth numerical analysis, that our algorithm realizes loading of time-series of real stock prices on quantum state with small approximation error, and thereby it enables constructing an indicator of the financial market based on the stock prices.
翻訳日:2023-04-06 23:54:53 公開日:2022-05-24
# 量子ドット中の質量と質量の無い2次元ディラック粒子

Massive and massless two-dimensional Dirac particles in electric quantum dots ( http://arxiv.org/abs/2104.06676v3 )

ライセンス: Link先を確認
S. Kuru, J. Negro, L. M. Nieto and L. Sourrouille(参考訳) 本研究では、静電ポテンシャル場、すなわち静電量子ドットの平面におけるディラック材料の荷電粒子の閉じ込め特性について検討する。 本研究は,このような拘束性に及ぼす質量と角モーメントの影響に注目した。 閉じ込めの全体像を持つためには、境界状態と共鳴状態の両方を考慮する。 共鳴は、散乱状態のウィグナー時間遅延と、それらが物理的に有意であることを示すために、放出状態の複素固有値によって検証される。 井戸の電位強度を調整することで、臨界値に対して電子捕獲と原子崩壊が観測される。 これらの過程において、離散スペクトルの有界状態は連続スペクトルの共鳴またはその逆となる。 質量電荷の場合、原子崩壊現象は量子ドット内の境界レベルの数を最大値以下に保つ。 質量を持たない場合、境界状態はゼロエネルギーを持ち、既知のようなポテンシャル深さの離散値に対してのみ発生する。 また, 大粒子共鳴の強度は, 無質量粒子の角モータに大きく影響されないが, グラフェンの場合と同様に, 無質量粒子は角モータに非常に敏感であることを示した。

In this work we investigate the confining properties of charged particles of a Dirac material in the plane subject to an electrostatic potential well, that is, in an electric quantum dot. Our study focuses on the effect of mass and angular momenta on such confining properties. To have a global picture of confinement, both bound and resonance states are considered. The resonances will be examined by means of the Wigner time delay of the scattering states, as well as through the complex eigenvalues of outgoing states in order to show that they are physically meaningful. By tuning the potential intensity of the well, electron captures and atomic collapses are observed for critical values. In these processes, the bound states of the discrete spectrum become resonances of the continuous spectrum or vice versa. For massive charges, the atomic collapse phenomenon keeps the number of bound levels in the quantum dot below a maximum value. In the massless case, the bound states have zero energy and occur only for some discrete values of the potential depth, as is known. We also show that although the intensity of the resonances for massive particles is not significantly influenced by angular momenta, on the contrary, for massless particles they are quite sensitive to angular momenta, as it is the case of graphene.
翻訳日:2023-04-03 21:22:48 公開日:2022-05-24
# レーザー光と粒子ビームの重力効果測定の展望

Perspectives of measuring gravitational effects of laser light and particle beams ( http://arxiv.org/abs/2104.09209v5 )

ライセンス: Link先を確認
Felix Spengler, Dennis R\"atzel and Daniel Braun(参考訳) 実験室規模の高エネルギー相対論的源から振動する重力場の生成と検出の可能性について検討した。 ソースは光学キャビティ内の高エネルギーレーザービームであり、CERNの大型ハドロン衝突型加速器(LHC)のビームに循環する超相対論的陽子束である。 これらの源は、多くの天の源が生み出すものよりも、信号の周波数をはるかに高く、幅を狭くすることができる。 さらに、ビームを変調することで、ソース周波数をhzからghzまで、非常に広い範囲にわたって調整することができる。 これらの源の重力場と様々な検出器の応答を解析する。 我々は、振り子やねじりバランスなどの機械振動子を検出器として最適化し、LHCを光源として高輝度アップグレードする計画と組み合わせることで、少なくとも原理的には1よりかなり大きい信号対雑音比を達成でき、技術的ノイズのすべての源を無視しなければならない。 これは、一般相対論的効果と、超相対論的でよく制御された地球源による量子重力効果を研究する新しい視点を開く。

We study possibilities of creation and detection of oscillating gravitational fields from lab-scale high energy, relativistic sources. The sources considered are high energy laser beams in an optical cavity and the ultra-relativistic proton bunches circulating in the beam of the Large Hadron Collider (LHC) at CERN. These sources allow for signal frequencies much higher and far narrower in bandwidth than what most celestial sources produce. In addition, by modulating the beams, one can adjust the source frequency over a very broad range, from Hz to GHz. The gravitational field of these sources and responses of a variety of detectors are analyzed. We optimize a mechanical oscillator such as a pendulum or torsion balance as detector and find parameter regimes such that -- combined with the planned high-luminosity upgrade of the LHC as a source -- a signal-to-noise ratio substantially larger than 1 should be achievable at least in principle, neglecting all sources of technical noise. This opens new perspectives of studying general relativistic effects and possibly quantum-gravitational effects with ultra-relativistic, well-controlled terrestrial sources.
翻訳日:2023-04-03 04:50:04 公開日:2022-05-24
# キャッピングカラーコードにおけるアンシラの少ない耐障害性の実現

Achieving fault tolerance on capped color codes with few ancillas ( http://arxiv.org/abs/2106.02649v4 )

ライセンス: Link先を確認
Theerapat Tansuwannont, Debbie Leung(参考訳) 低オーバーヘッドを維持しながら耐障害性を確保することは、量子回路の実装において大きな課題の1つである。 この問題を克服できる主要なテクニックはフラッグテクニックであり、いくつかの障害から生じる重大なエラーをいくつかのアンシラで検出し、その後のシンドローム測定を用いて区別することができる。 前述の[Phys. Rev. A 104, 042410 (2021)]に示すように、いくつかの符号の族では、任意の重みの誤差が同じシンドロームと重みのパリティを持つ場合、論理的に等価であるという事実により、このテクニックをさらに改善することができる。 本研究では,フラグとウェイトパリティの両概念を識別可能なフォールトセットの概念を開発し,[Phys. A 104, 042410 (2021)]からキャップ付きおよび再帰的なキャップ付きカラーコード群への誤り訂正における重みパリティの利用を拡張した。 また,誤り訂正,測定,状態準備,論理tゲート実装のためのフォールトトレラントプロトコルをコードスイッチで開発し,カラーコードにフォールトトレラントクリフォード計算を施し,再帰的なカラーコード上でフォールトトレラントユニバーサル量子計算を行う。 任意の距離のカッピングまたは再帰的なカッピングカラーコードのためのプロトコルは、2つのアンシラしか必要とせず、アンシラを再利用できると仮定します。 区別可能なフォールトセットの概念は、aliferis、gottesman、preskillによって提案されたフォールトトレラントガジェットの定義の一般化にも繋がる。

Attaining fault tolerance while maintaining low overhead is one of the main challenges in a practical implementation of quantum circuits. One major technique that can overcome this problem is the flag technique, in which high-weight errors arising from a few faults can be detected by a few ancillas and distinguished using subsequent syndrome measurements. The technique can be further improved using the fact that for some families of codes, errors of any weight are logically equivalent if they have the same syndrome and weight parity, as previously shown in [Phys. Rev. A 104, 042410 (2021)]. In this work, we develop a notion of distinguishable fault set which captures both concepts of flags and weight parities, and extend the use of weight parities in error correction from [Phys. Rev. A 104, 042410 (2021)] to families of capped and recursive capped color codes. We also develop fault-tolerant protocols for error correction, measurement, state preparation, and logical T gate implementation via code switching, which are sufficient for performing fault-tolerant Clifford computation on a capped color code, and performing fault-tolerant universal quantum computation on a recursive capped color code. Our protocols for a capped or a recursive capped color code of any distance require only 2 ancillas, assuming that the ancillas can be reused. The concept of distinguishable fault set also leads to a generalization of the definitions of fault-tolerant gadgets proposed by Aliferis, Gottesman, and Preskill.
翻訳日:2023-03-27 21:02:02 公開日:2022-05-24
# 非マルコフ量子過程トモグラフィー

Non-Markovian Quantum Process Tomography ( http://arxiv.org/abs/2106.11722v2 )

ライセンス: Link先を確認
Gregory A. L. White, Felix A. Pollock, Lloyd C. L. Hollenberg, Kavan Modi, Charles D. Hill(参考訳) キャラクタライゼーションプロトコルは、これまで、ノイズの多い中間スケール量子コンピュータ(NISQ)の開発において重要な役割を担ってきた。 この軌道は、次世代のデバイスの構築を継続すると予想されている: 特定のタスクのために古典的なコンピュータを超越できるが、キャラクタリゼーションの進歩は複雑なデバイスノイズの複雑さに追随しなければならない。 特徴化手順の動物園に欠けている断片は、与えられた時間枠上の非マルコフ力学を完全に記述できるトモグラフィーである。 ここでは,プロセステンソルトモグラフィと呼ばれる量子プロセストモグラフィの一般化を正式に紹介する。 実験要件を詳述し,最大類似度推定に必要な後処理アルゴリズムを構築し,正確な結果を得るために最善のプラクティスを概説し,低メモリプロセスに対して効率的に処理を行う。 特徴化は、相関ノイズの診断と情報制御のための経路である。 ハードウェア非依存手法の例として,超伝導量子デバイス上でのマルチタイム回路特性を著しく改善するために,その予測制御が有効であることを示す。 当社の手法は、ハードウェアがフォールトトレラントなノイズしきい値を一貫して通過するのに役立つよう、慎重に開発されたソフトウェアのコアを形成することができます。

Characterisation protocols have so far played a central role in the development of noisy intermediate-scale quantum (NISQ) computers capable of impressive quantum feats. This trajectory is expected to continue in building the next generation of devices: ones that can surpass classical computers for particular tasks -- but progress in characterisation must keep up with the complexities of intricate device noise. A missing piece in the zoo of characterisation procedures is tomography which can completely describe non-Markovian dynamics over a given time frame. Here, we formally introduce a generalisation of quantum process tomography, which we call process tensor tomography. We detail the experimental requirements, construct the necessary post-processing algorithms for maximum-likelihood estimation, outline the best-practice aspects for accurate results, and make the procedure efficient for low-memory processes. The characterisation is a pathway to diagnostics and informed control of correlated noise. As an example application of the hardware-agnostic technique, we show how its predictive control can be used to substantially improve multi-time circuit fidelities on superconducting quantum devices. Our methods could form the core for carefully developed software that may help hardware consistently pass the fault-tolerant noise threshold.
翻訳日:2023-03-25 21:04:08 公開日:2022-05-24
# キャビティに完全に溶解可能な密結合鎖を持つ量子フロケット工学

Quantum Floquet engineering with an exactly solvable tight-binding chain in a cavity ( http://arxiv.org/abs/2107.12236v2 )

ライセンス: Link先を確認
Christian J. Eckhardt, Giacomo Passetti, Moustafa Othman, Christoph Karrasch, Fabio Cavaliere, Michael A. Sentef, Dante M. Kennes(参考訳) 最近の実験的進歩は、光の量子性を利用して量子物質の操作を可能にする。 しかし、Dicke、Rabi、Jaynes-Cummingsのような量子光学系に対するパラダイム的正確に解けるモデルは、対応する固体、量子材料コンテキストにおいて不足している。 ここでは、光の長波長限界に着目して、ピエルス置換の量子化バージョンによって単一の空洞モードに結合されたタイト結合鎖によって与えられる、正確に解けるモデルを提供する。 我々は,光物質結合の摂動膨張が注意を要し,容易に偽の超放射能相につながることを示した。 さらに, キャビティ光子を光物質結合によって圧縮する熱力学限界における基底状態の解析式を提供する。 さらに,電子単一粒子スペクトル関数と光伝導率の解析式を導出する。 我々は,これらの動的応答関数に量子フロケット工学的シグネチャ(例えば,動的局所化のアナログやレプリカサイドバンド)を呈示し,古典的なフロケット工学的な結果を補完する。 厳密には、電子の光伝導率におけるドルーデ重みは、誘導電子-電子相互作用によって単一のキャビティモードの存在によって部分的に抑制される。

Recent experimental advances enable the manipulation of quantum matter by exploiting the quantum nature of light. However, paradigmatic exactly solvable models, such as the Dicke, Rabi or Jaynes-Cummings models for quantum-optical systems, are scarce in the corresponding solid-state, quantum materials context. Focusing on the long-wavelength limit for the light, here, we provide such an exactly solvable model given by a tight-binding chain coupled to a single cavity mode via a quantized version of the Peierls substitution. We show that perturbative expansions in the light-matter coupling have to be taken with care and can easily lead to a false superradiant phase. Furthermore, we provide an analytical expression for the groundstate in the thermodynamic limit, in which the cavity photons are squeezed by the light-matter coupling. In addition, we derive analytical expressions for the electronic single-particle spectral function and optical conductivity. We unveil quantum Floquet engineering signatures in these dynamical response functions, such as analogs to dynamical localization and replica side bands, complementing paradigmatic classical Floquet engineering results. Strikingly, the Drude weight in the optical conductivity of the electrons is partially suppressed by the presence of a single cavity mode through an induced electron-electron interaction.
翻訳日:2023-03-20 21:31:15 公開日:2022-05-24
# 多体から多時間物理学へ

From many-body to many-time physics ( http://arxiv.org/abs/2107.13934v4 )

ライセンス: Link先を確認
Gregory A. L. White, Felix A. Pollock, Lloyd C. L. Hollenberg, Charles D. Hill, Kavan Modi(参考訳) マルチタイム量子プロセスは、時間的絡み合いやよく定義された因果構造を含む多体物理学と同等の豊かさを持つ。 我々はこの長年にわたる物理学をダビングし、これらの現象が生来の量子プロセッサでいかに驚くほどアクセスしやすくなるかを示す。 ここでは,量子情報プロセッサ上での多時間物理学へのアクセスを可能にするツール群を開発し,それを実証する。 まず,マルチタイムエンタングルメントや非マルコフ記憶のための推定子といった短距離の微視的性質にアクセスする。 そして,従来のシャドウトモグラフィーを長時間のシナリオに適用し,長距離相関や大規模プロセスのコンパクト表現といったマクロ的特徴にアクセスする。 これを20ステップのプロセス(42量子ビット状態)で示し、マルチタイム相関を含むダイナミクスの多数のファセットを正確に捉えて、例えば、中循環計測分布の予測を行う。 我々の技術は、凝縮物質物理学、量子生物学、NISQ時代の量子デバイスの深部診断など、一般的な量子確率的力学プロセスに関係している。

Multi-time quantum processes are endowed with the same richness as many-body physics, including temporal entanglement and well-defined causal structures. We dub this many-time physics, and show how surprisingly accessible, yet under-explored, these phenomena are in nascent quantum processors. Here, we develop a family of tools that allow us access to many-time physics on quantum information processors, which are then demonstrated. First, we access short-range microscopic properties, such as genuine multi-time entanglement and estimators for non-Markovian memory. Then, adapting classical shadow tomography to many-time scenarios, we access macroscopic features like long-range correlations and compact representations of large processes. We showcase this for a 20-step process (42-qubit state) by accurately capturing numerous facets of the dynamics, including multi-time correlations -- for example, in the prediction of mid-circuit measurement distributions. Our techniques are pertinent to generic quantum stochastic dynamical processes, with a scope ranging across condensed matter physics, quantum biology, and in-depth diagnostics of NISQ era quantum devices.
翻訳日:2023-03-20 11:41:07 公開日:2022-05-24
# ハイブリッド量子古典力学におけるクープマン波動関数と古典状態

Koopman wavefunctions and classical states in hybrid quantum-classical dynamics ( http://arxiv.org/abs/2108.01482v2 )

ライセンス: Link先を確認
Fran\c{c}ois Gay-Balmaz, Cesare Tronci(参考訳) 我々は、結合量子系と古典系の可逆ダイナミクスを扱う。 著者らによる最近の提案に基づき、量子密度行列と古典的リウヴィル分布の両方が初期正の符号を保持する結合力学の閉包モデルを考案するために、ハイブリッド量子古典波動関数の理論を利用する。 このようにして、進化によって相互作用における古典的状態と量子状態が常に特定され、一連の厳密な整合性要件に対処することができる。 古典力学におけるクープマンのヒルベルト空間法と前量子理論におけるファン・ホーヴのユニタリ表現を組み合わせると、閉包モデルは適切な波動関数分解の基盤となる変分構造によって利用できる。 また、対称性によるポアソン還元を用いて、ハイブリッドモデルが以前に現れなかったように見える非正準ポアソン構造を持つことを示す。 例として、この構造は量子二層系の場合に特化している。

We deal with the reversible dynamics of coupled quantum and classical systems. Based on a recent proposal by the authors, we exploit the theory of hybrid quantum-classical wavefunctions to devise a closure model for the coupled dynamics in which both the quantum density matrix and the classical Liouville distribution retain their initial positive sign. In this way, the evolution allows identifying a classical and a quantum state in interaction at all times, thereby addressing a series of stringent consistency requirements. After combining Koopman's Hilbert-space method in classical mechanics with van Hove's unitary representations in prequantum theory, the closure model is made available by the variational structure underlying a suitable wavefunction factorization. Also, we use Poisson reduction by symmetry to show that the hybrid model possesses a noncanonical Poisson structure that does not seem to have appeared before. As an example, this structure is specialized to the case of quantum two-level systems.
翻訳日:2023-03-20 00:56:17 公開日:2022-05-24
# 固有ベクトル継続からの励起状態:アンハーモニック振動子

Excited states from eigenvector continuation: the anharmonic oscillator ( http://arxiv.org/abs/2108.02824v2 )

ライセンス: Link先を確認
Margarida Companys Franzke, Alexander Tichai, Kai Hebeler, and Achim Schwenk(参考訳) 固有ベクトル継続(ec)は最近、多体拡大のための変分的再開ツールとして核構造と反応に多くの注目を集めている。 以前のアプリケーションは基底状態のエネルギーに重点を置いていたが、励起状態は等速でアクセスできる。 この研究は、固有ベクトル継続アプローチから励起状態の出現を詳細に理解することに専念している。 数値計算では, 標準摂動技術が破壊される強い非摂動量子系を表す, 1次元準調和振動子について検討した。 我々は,EC多様体を構成するための異なる選択がEC再仮定の品質にどのように影響するかを議論し,基礎空間サイズの関数としての完全な対角化の結果と比較して,励起状態のECの結果を詳細に検討する。

Eigenvector continuation (EC) has recently attracted a lot attention in nuclear structure and reactions as a variational resummation tool for many-body expansions. While previous applications focused on ground-state energies, excited states can be accessed on equal footing. This work is dedicated to a detailed understanding of the emergence of excited states from the eigenvector continuation approach. For numerical applications the one-dimensional quartic anharmonic oscillator is investigated, which represents a strongly non-perturbative quantum system where the use of standard perturbation techniques break down. We discuss how different choices for the construction of the EC manifold affect the quality of the EC resummation and investigate in detail the results from EC for excited states compared to results from a full diagonalization as a function of the basis-space size.
翻訳日:2023-03-19 06:55:29 公開日:2022-05-24
# 量子コンピューティングの概念を理解するためのステップバイステップHHLアルゴリズムのウォークスルー

Step-by-Step HHL Algorithm Walkthrough to Enhance the Understanding of Critical Quantum Computing Concepts ( http://arxiv.org/abs/2108.09004v3 )

ライセンス: Link先を確認
Hector Jose Morrell Jr, Anika Zaman, and Hiu Yung Wong(参考訳) 基本的な量子コンピューティングの概念を学習した後、学生が量子ビットがどのように進化し相互に相互作用するかを観察し評価できる、重要で比較的複雑なアルゴリズムを用いて学習を強化することが望ましい。 harrow-hassidim-lloyd(hhl)量子アルゴリズムは、古典的な方法よりも指数関数的なスピードアップで線形系問題を解くことができ、多くの重要な量子計算アルゴリズムの基本である。 HHLアルゴリズムは、ブラケット表記法で4キュービットの数値例で解析的に説明される。 数値的な例に対応するMatlabコードは、純粋な行列の観点からHHLアルゴリズムをより深く理解するために学生に利用可能である。 Qiskitを用いてプログラムされた量子回路も提供され、IBM量子コンピュータにおける実際のハードウェア実行に使用できる。 基礎変換、ブラケットおよび行列表現、重ね合わせ、絡み合い、制御操作、測定、量子フーリエ変換、量子位相推定、量子プログラミングといった概念をより良く理解することが期待されている。 これらの基本的な概念をレビューするために、本文のHHL数値例で拡張した簡単な説明がAppendixで提供されている。

After learning basic quantum computing concepts, it is desirable to reinforce the learning using an important and relatively complex algorithm through which the students can observe and appreciate how the qubits evolve and interact with each other. Harrow-Hassidim-Lloyd (HHL) quantum algorithm, which can solve Linear System Problems with exponential speed-up over the classical method and is the basic of many important quantum computing algorithms, is used to serve this purpose. The HHL algorithm is explained analytically followed by a 4-qubit numerical example in bra-ket notation. Matlab code corresponding to the numerical example is available for students to gain a deeper understanding of the HHL algorithm from a pure matrix point of view. A quantum circuit programmed using qiskit is also provided which can be used for real hardware execution in IBM quantum computers. After going through the material, students are expected to have a better appreciation of the concepts such as basis transformation, bra-ket and matrix representations, superposition, entanglement, controlled operations, measurement, Quantum Fourier Transformation, Quantum Phase Estimation, and quantum programming. To help readers review these basic concepts, brief explanations augmented by the HHL numerical examples in the main text are provided in the Appendix.
翻訳日:2023-03-17 23:11:10 公開日:2022-05-24
# 分割測定対称性検証による周期系の量子ハードウェア計算:水素鎖と鉄結晶の簡易モデル

Quantum hardware calculations of periodic systems with partition-measurement symmetry verification: simplified models of hydrogen chain and iron crystals ( http://arxiv.org/abs/2109.08401v4 )

ライセンス: Link先を確認
Kentaro Yamamoto, David Zsolt Manrique, Irfan Khan, Hideaki Sawada, David Mu\~noz Ramo(参考訳) 実際のハードウェア上で量子アルゴリズムを実行することは、特にノイズの多い中間スケール量子(NISQ)時代に、その強度と限界を理解するために不可欠である。 本稿では,本グループで開発された理論に基づく固体結晶材料の量子計算の実用的側面に着目し,z_{2}$ および u_{1}$ 対称性検証に基づくショット数の選択を行う分割測定対称性検証と呼ばれる新しいノイズ緩和手法を用いて,実量子ハードウェアを用いた。 これらの計算の複雑さの異なる2つの周期系を選択する。 そのうちの1つは非常に単純な系の例として歪んだ水素鎖であり、もう1つはBCCとFCCの相における鉄結晶であり、古典的な計算波動関数法を用いては到達できないと考えられている。 水素鎖の遷移量子部分空間展開 (transqse) 法と, 鉄モデルに対して周期境界条件を適応したvqe法を用いて基底状態エネルギーを評価する。 最も単純な2量子鉄モデル系にこれらの手法を適用することで、ハードウェア計算によって得られた相関エネルギーは、$\sim$5 kJ/molの状態ベクトルシミュレーションと一致する。 これらの実験に使用される量子計算資源はまだ限られているが、単純化されたモデルを得るために適用される技術は、量子ハードウェアが成熟するより複雑な場合に適用できる。

Running quantum algorithms on real hardware is essential for understanding their strengths and limitations, especially in the noisy intermediate scale quantum (NISQ) era. Herein we focus on the practical aspect of quantum computational calculations of solid-state crystalline materials based on theory developed in our group by using real quantum hardware with a novel noise mitigation technique referred to as partition-measurement symmetry verification, which performs post-selection of shot counts based on $Z_{2}$ and $U_{1}$ symmetry verification. We select two periodic systems with different level of complexity for these calculations. One of them is the distorted hydrogen chain as an example of very simple systems, and the other one is iron crystal in the BCC and FCC phases as it is considered to be inaccessible by using classical computational wavefunction methods. The ground state energies are evaluated based on the translational quantum subspace expansion (TransQSE) method for the hydrogen chain, and periodic boundary condition adapted VQE for our iron models. By applying these techniques for the simplest 2 qubit iron model systems, the correlation energies obtained by the hardware calculations agree with those of the state-vector simulations within $\sim$5 kJ/mol. Although the quantum computational resources used for those experiments are still limited, the techniques applied to obtain our simplified models will be applicable in essentially the same manner to more complicated cases as quantum hardware matures.
翻訳日:2023-03-14 11:45:55 公開日:2022-05-24
# 相互作用するボース-フェルミ混合物の1次元における量子コヒーレント状態

Quantum Coherent States of Interacting Bose-Fermi Mixtures in One Dimension ( http://arxiv.org/abs/2110.13899v2 )

ライセンス: Link先を確認
J. Clayton Peacock, Aleksandar Ljepoja, C. J. Bolech(参考訳) ボソンとフェルミオンの両方を含む2成分の原子ガス混合物を1次元で研究した。 種間相互作用が魅力的である場合には、相互作用の本質的および相対的強度と異なる多種多様なコヒーレント基底状態相を報告する。 我々は,混合に対する連続行列積状態 ansatz の新たな実装を開発することにより,格子離散化の成果物を回避し,このアプローチが,質量と相互作用が等しい混合物(lai-yangモデル)に対して存在する可積分点に対して有効であることを示す。

We study two-component atomic gas mixtures in one dimension involving both bosons and fermions. When the inter-species interaction is attractive, we report a rich variety of coherent ground-state phases that vary with the intrinsic and relative strength of the interactions. We avoid any artifacts of lattice discretization by developing a novel implementation of a continuous matrix product state ansatz for mixtures and priorly demonstrate the validity of our approach on the integrable point that exists for mixtures with equal masses and interactions (Lai-Yang model) where we find that the ansatz correctly and systematically converges towards the exact results.
翻訳日:2023-03-10 05:23:15 公開日:2022-05-24
# 効率向上した半量子鍵分布制御

Mediated Semi-Quantum Key Distribution with Improved Efficiency ( http://arxiv.org/abs/2111.01627v2 )

ライセンス: Link先を確認
Julia Guskind and Walter O. Krawec(参考訳) 半量子鍵の配布は、非常に制限され、ほとんど古典的な能力を持つ2人のエンドユーザーを使用し、敵であるかもしれない完全量子サーバーの助けを借りて共有秘密鍵を確立したいと願う。 本稿では,半量子鍵分配プロトコルを新たに導入し,前処理を延長し,漸近的に完全な効率を実現する。 これはノイズ耐性の低下によるものであるが、我々のプロトコルは以前の作業と後方互換性があり、ノイズレベルが正当化できるほど高い場合、ユーザーは容易に古い(通常より少ない)プロトコルに切り替えることができる。 セキュリティを証明するために,マルチユーザqkdプロトコルのセキュリティを実証する上で有用な,媒介半量子シナリオから完全量子エンタングルメントベースのプロトコルへの興味深い還元を示す。

Mediated semi-quantum key distribution involves the use of two end-users who have very restricted, almost classical, capabilities, who wish to establish a shared secret key using the help of a fully-quantum server who may be adversarial. In this paper, we introduce a new mediated semi-quantum key distribution protocol, extending prior work, which has asymptotically perfect efficiency. Though this comes at the cost of decreased noise tolerance, our protocol is backwards compatible with prior work, so users may easily switch to the old (normally less efficient) protocol if the noise level is high enough to justify it. To prove security, we show an interesting reduction from the mediated semi-quantum scenario to a fully-quantum entanglement based protocol which may be useful when proving the security of other multi-user QKD protocols.
翻訳日:2023-03-09 08:48:54 公開日:2022-05-24
# 積分スピンモデルにおける有限温度における量子相境界の検出

Detection of quantum phase boundary at finite temperatures in integrable spin models ( http://arxiv.org/abs/2111.11126v3 )

ライセンス: Link先を確認
Protyush Nandi, Sirshendu Bhattacharyya, Subinay Dasgupta(参考訳) 量子位相遷移は、量子揺らぎがゼロ温度で秩序を破壊するときに起こる。 温度が上昇すると、通常、熱ゆらぎはこの遷移の兆候を消してしまう。 ここでは、相互作用パラメータが量子相転移の線を越えて焼成されるとき、有限温度における非解析的挙動を示す物理量を特定する。 検討中のこの量は、量子忠実性の形の長い時間的限界である。 本処理はxy鎖および2次元キタエフモデルを用いて解析し,ワイル半金属に適用可能な3次元ハミルトニアンの数値計算を行う。

Quantum phase transitions occur when quantum fluctuation destroys order at zero temperature. With an increase in temperature, normally the thermal fluctuation wipes out any signs of this transition. Here we identify a physical quantity that shows non-analytic behaviour at finite temperatures, when an interaction parameter is quenched across the line of quantum phase transition. This quantity under consideration is the long time limit of a form of quantum fidelity. Our treatment is analytic for XY chain and 2D Kitaev model and is numerical for a 3D Hamiltonian applicable to Weyl semimetals.
翻訳日:2023-03-07 04:31:02 公開日:2022-05-24
# 量子論の認識論的および存在論的側面

Epistemological and ontological aspects of quantum theory ( http://arxiv.org/abs/2112.10484v4 )

ライセンス: Link先を確認
Inge S. Helland(参考訳) 本稿では,量子状態の認識論とオントロジーについて,全く新しい量子論の確立法に基づいて論じる。 基本的な概念は、オブザーバの心やオブザーバのグループの合同心における概念変数である。 これらの概念変数は、しばしばアクセス可能であり、すなわち、実験や測定によって変数の値を見つけることができる。 重要な概念は、最大限のアクセシビリティである。 ここでは、この新しい機械は、特定の量子状態がオントロジ的解釈をいつ与えるか、また全ての状態がそのような解釈を与えることができるかどうかというより投機的な議論を促進する可能性がある。 ここでの議論は一般論であり、実験や測定からの情報をどのように見るべきかという基本的な問題、特にこの情報が現実世界の性質を反映しているのかという問題に影響を及ぼす。

In this paper, epistemology and ontology of quantum states are discussed based on a completely new way of founding quantum theory. The fundamental notions are conceptual variables in the mind of an observer or in the joint minds of a group of observers. These conceptual variables are very often accessible, that is, it is possible to find values of the variables by doing experiments or by making measurements. An important notion is that of maximal accessibility. It is shown here that this new machinery may facilitate the discussion of when a specific quantum state can be given an ontological interpretation, and also the more speculative question whether all states can be given such an interpretation. The discussion here is general, and has implications for the basic problem of how one should look upon information from experiments and measurement, in particularly the question concerning when this information may reflect properties of the real world.
翻訳日:2023-03-04 01:05:53 公開日:2022-05-24
# ハイブリッドディジタルアナログ量子コンピューティングを用いたフェルミオン系の量子シミュレーション

Quantum simulation of fermionic systems using hybrid digital-analog quantum computing approach ( http://arxiv.org/abs/2112.15158v5 )

ライセンス: Link先を確認
Nikita Guseynov and Walter Pogosov(参考訳) 標準的な2ビットゲートを使わずに任意の量子アルゴリズムを実装できるハイブリッドデジタルアナログ量子コンピューティング手法を検討する。 このアプローチは、そのようなゲートの代替となるクビット間の常時オン相互作用に基づいている。 ファーミオンスワップネットワークとリフォーカス技術を用いて,フェルミオン系,特にフェルミ・ハバード模型のダイナミクスをシミュレートするために,デジタル・アナログ・アプローチをどのように適用できるかを示す。 我々は、接続トポロジ、相互作用定数の拡散、および絡み合う操作の誤りの影響に集中する。 任意の次元のフェルミオン系のディジタル・アナログシミュレーションのための量子ビットの最適接続トポロジーは、スピンレスフェルミオンのチェーンとスピン1/2粒子のラダーである。 このような単純な接続トポロジーは、フェルミオン量子シミュレーションにデジタルアナログアプローチを惹きつける。

We consider a hybrid digital-analog quantum computing approach, which allows implementing any quantum algorithm without standard two-qubit gates. This approach is based on the always-on interaction between qubits, which can provide an alternative to such gates. We show how digital-analog approach can be applied to simulate the dynamics of fermionic systems, in particular the Fermi-Hubbard model, using fermionic SWAP network and refocusing technique. We concentrate on the effects of connectivity topology, spread of interaction constants as well as on errors of entangling operations. We find that an optimal connectivity topology of qubits for the digital-analog simulation of fermionic systems of arbitrary dimensionality is a chain for spinless fermions and a ladder for spin-1/2 particles. Such a simple connectivity topology makes digital-analog approach attracting for the fermionic quantum simulation.
翻訳日:2023-03-02 21:10:44 公開日:2022-05-24
# カイラルディラックエッジモード間の散乱による非アベリア演算

Non-Abelian operation through scattering between chiral Dirac edge modes ( http://arxiv.org/abs/2201.03338v2 )

ライセンス: Link先を確認
Zhi-Xing Lin, Yijia Wu, and X. C. Xie(参考訳) 量子異常ホール絶縁体におけるキラルディラックエッジモード(CDEM)間の散乱を解析的に導出することにより,非アベリアブレイディング動作が実現可能であることを理論的に示す。 解析モデルに基づき,非可換ブレイディング操作を実験的に実現し,検出するための実行可能なデバイスを提案する。 離散格子モデルのトンネルコンダクタンスを解析することにより,CDEMの非アベリア特性を数値的に検証することができる。 CDEMを用いたブレイディングの提案は、トポロジカルに保護された量子ゲートを実現するための新しい道を提供する。

We theoretically demonstrate that non-Abelian braiding operation can be realized through the scattering between chiral Dirac edge modes (CDEMs) in quantum anomalous Hall insulators by analytically deriving its S-matrix. Based on the analytical model, we propose a viable device for the experimental realization and detection of the non-Abelian braiding operations. Through investigating the tunneling conductance in a discretized lattice model, the non-Abelian properties of CDEMs could also be verified in a numerical way. Our proposal for the CDEM-based braiding provides a new avenue for realizing topologically protected quantum gates.
翻訳日:2023-03-01 19:55:44 公開日:2022-05-24
# 自己進化を伴う雑音環境への情報の非完全伝播

Non-perfect propagation of information to noisy environment with self-evolution ( http://arxiv.org/abs/2201.11606v2 )

ライセンス: Link先を確認
Piotr Mironowicz, Pawe{\l} Horodecki, Ryszard Horodecki(参考訳) 本研究では,自己進化と雑音初期状態を含む低次元環境への情報の非完全伝播について検討し,対象化の程度と環境パラメータの関係を分析する。 特に、3つの相互作用する量子ビットの解析モデルを検討し、その客観性パラメータを導出する。 数値解析により、相互作用中に形成されるスペクトル放送構造の品質は、環境の自己力学の速度と混合性の両方において非単調性を示すことが示された。 前者の効果は特に強く、環境の一部を測定装置として考慮すれば、環境に作用する外部磁場の増加は、非常に曖昧な測定を理想に近いものにすることができる。 上記の効果は、ポインター基底に関してではなく、我々が一般化ポインターあるいはインジケータ基底と呼ぶ他のものに対して、環境のダイナミクスを増大させた後に量子客観性が現れることを示唆する。 さらに、客観性が低い場合には、少なくともある程度は熱雑音の増加によって改善される可能性がある。 我々は、より多くの量子ビットの場合、完全な客観性を表す状態の集合との距離の上限を分析することにより、そのさらなる証拠を提供する。

We study the non-perfect propagation of information to evolving low-dimensional environment that includes self-evolution as well as noisy initial states and analyze interrelations between the degree of objectivization and environment parameters. In particular, we consider an analytical model of three interacting qubits and derive its objectivity parameters. The numerical analysis shows that the quality of the spectrum broadcast structure formed during the interaction may exhibit non-monotonicity both in the speed of self-dynamics of the environment as well as its mixedness. The former effect is particularly strong, showing that -- considering part of the environment as a measurement apparatus -- an increase of the external magnetic field acting on the environment may turn the very vague measurement into close to ideal. The above effects suggest that quantum objectivity may appear after increasing the dynamics of the environment, although not with respect to the pointer basis, but some other one which we call generalized pointer or indicator basis. Furthermore, it seems also that when the objectivity is poor it may be improved, at least by some amount, by increasing thermal noise. We provide further evidence of that by analyzing the upper bounds on distance to the set of states representing perfect objectivity in the case of a higher number of qubits.
翻訳日:2023-02-27 18:09:42 公開日:2022-05-24
# 変位を伴うガウス粒子サンプリングの実験的研究

Experimental demonstration of Gaussian boson sampling with displacement ( http://arxiv.org/abs/2202.00634v2 )

ライセンス: Link先を確認
G.S. Thekkadath and S. Sempere-Llagostera and B.A. Bell and R.B. Patel and M.S. Kim and I.A. Walmsley(参考訳) ガウスボソンサンプリング(英: Gaussian boson sample、GBS)とは、大きな次元の非古典的な光の励起状態の光子数分布からサンプルを抽出しなければならない量子サンプリングタスクである。 古典的コンピュータにとってこのタスクを難解なものにするために、gbsマシンを構築する実験は主に非古典的光の寸法と絞り込み強度の向上に焦点が当てられている。 しかし、GBSの実用化に一般的に必要とされる位相空間における圧縮状態の変位を実証する実験はまだ行われていない。 本研究では,2モード圧縮真空状態と共にレーザ光を15モード干渉計に注入することで変位を実現するgbsマシンを構築する。 2つの新機能に重点を置いています。 まず、この変位を用いて干渉計の出力における多モードガウス状態の再構成を行う。 再構築手法は, 状態次元によらず3つの測定条件しか必要としない。 第二に、gbsマシンに古典的レーザー光が加わり、その出力光子統計をサンプリングする複雑さにどのように影響するかを考察する。 検出された光のかなりの割合が古典的であれば計算コストを削減できる近似半古典モデルを導入し検証する。

Gaussian boson sampling (GBS) is quantum sampling task in which one has to draw samples from the photon-number distribution of a large-dimensional nonclassical squeezed state of light. In an effort to make this task intractable for a classical computer, experiments building GBS machines have mainly focused on increasing the dimensionality and squeezing strength of the nonclassical light. However, no experiment has yet demonstrated the ability to displace the squeezed state in phase-space, which is generally required for practical applications of GBS. In this work, we build a GBS machine which achieves the displacement by injecting a laser beam alongside a two-mode squeezed vacuum state into a 15-mode interferometer. We focus on two new capabilities. Firstly, we use the displacement to reconstruct the multimode Gaussian state at the output of the interferometer. Our reconstruction technique is in situ and requires only three measurements settings regardless of the state dimension. Secondly, we study how the addition of classical laser light in our GBS machine affects the complexity of sampling its output photon statistics. We introduce and validate approximate semi-classical models which reduce the computational cost when a significant fraction of the detected light is classical.
翻訳日:2023-02-27 03:08:29 公開日:2022-05-24
# 一次元不規則系のモット・アンダーソン物理に及ぼす温度と磁化の影響

Effects of Temperature and Magnetization on the Mott-Anderson Physics in one-dimensional Disordered Systems ( http://arxiv.org/abs/2202.01557v2 )

ライセンス: Link先を確認
G. A. Canella, K. Zawadzki, V. V. Fran\c{c}a(参考訳) 密度汎関数理論計算により得られた線形エントロピーによって定量化された平均単点絡み合いを通じて、相互作用不規則な一次元鎖におけるモット・アンドラーソン物理を調べる。 いわゆるフルアンダーソン局在化に要する最小障害強度は、ペアの実空間局在化によって特徴づけられる$-$であり、$-$は相互作用規則に強く依存していることを示す。 局在の程度は, 相関関係と障害電位の相互作用と本質的に関連していることがわかった。 磁化系では、全アンダーソン局在の最小絡み合い特性はスピン種ごとに2つに分けられる。 いずれにせよ,すべての局所化は温度上昇とともに消失するが,完全なアンダーソン局在はモット型局所化よりも高温で持続する。

We investigate the Mott-Anderson physics in interacting disordered one-dimensional chains through the average single-site entanglement quantified by the linear entropy, which is obtained via density-functional theory calculations. We show that the minimum disorder strength required to the so-called full Anderson localization $-$ characterized by the real-space localization of pairs $-$ is strongly dependent on the interaction regime. The degree of localization is found to be intrinsically related to the interplay between the correlations and the disorder potential. In magnetized systems, the minimum entanglement characteristic of the full Anderson localization is split into two, one for each of the spin species. We show that although all types of localization eventually disappear with increasing temperature, the full Anderson localization persists for higher temperatures than the Mott-like localization.
翻訳日:2023-02-26 23:06:56 公開日:2022-05-24
# Psitrum: ユニバーサル量子コンピュータのためのオープンソースシミュレータ

Psitrum: An Open Source Simulator for Universal Quantum Computers ( http://arxiv.org/abs/2203.07301v2 )

ライセンス: Link先を確認
Mohammed Alghadeer and Eid Aldawsari and Raja Selvarajan and Khaled Alutaibi and Sabre Kais and Fahhad H Alharbi(参考訳) 量子コンピューティングは、情報処理に革命をもたらす技術にとって、急進的な新しいパラダイムである。 普遍量子コンピュータのシミュレータは、現在のノイズの多い中間スケール量子(NISQ)プロセッサの基本原理と動作を理解し、将来のフォールトトレラント量子コンピュータを構築するために重要である。 本研究では,古典ハードウェア上に実装されたユニバーサルゲートモデル量子コンピュータシミュレータであるPsitrumを導入することで,量子コンピュータのシミュレーションを行う。 このシミュレータは、量子回路のデコヒーレンスをシミュレートする様々なノイズモジュールを追加して、多くのアプリケーションで量子アルゴリズムを量子回路の形でエミュレートし、デバッグすることができる。 Psitrumはすべての基本的な量子演算をシミュレートし、様々な可視化ツールを提供する。 このシミュレータは、N量子ビット実装量子回路の各ステージMで可能な全ての量子状態を追跡できる。 Psitrumソフトウェアとソースコードは、https://github.com/MoGhadeer/Psitrumで無料で入手できる。

Quantum computing is a radical new paradigm for a technology that is capable to revolutionize information processing. Simulators of universal quantum computer are important for understanding the basic principles and operations of the current noisy intermediate-scale quantum (NISQ) processors, and for building in future fault-tolerant quantum computers. In this work, we present simulation of universal quantum computers by introducing Psitrum -- a universal gate-model quantum computer simulator implemented on classical hardware. The simulator allows to emulate and debug quantum algorithms in form of quantum circuits for many applications with the choice of adding variety of noise modules to simulate decoherence in quantum circuits. Psitrum allows to simulate all basic quantum operations and provides variety of visualization tools. The simulator allows to trace out all possible quantum states at each stage M of an N-qubit implemented quantum circuit. Psitrum software and source codes are freely available at: https://github.com/MoGhadeer/Psitrum
翻訳日:2023-02-22 03:19:01 公開日:2022-05-24
# デジッター宇宙の膨張パラメータのブラックボックス推定

Black-box estimation of expanding parameter for de Sitter universe ( http://arxiv.org/abs/2203.15417v2 )

ライセンス: Link先を確認
Lulu Xiao, Cuihong Wen, Jiliang Jing, Jieci Wang(参考訳) 拡張パラメータのブラックボックスパラメータ推定とド・ジッター空間におけるガウス干渉パワーのダイナミクスについて検討した。 分離された開チャート間の状態は、ブラックボックス量子メトロロジーのプローブ状態として利用することができる。 開チャートは因果的に不連結であり、古典的な情報は一般相対性理論に従ってそれらの間で交換できないため、これは自明ではない。 その結果,スカラー場の質量はド・ジッター空間におけるブラックボックスパラメータ推定の精度に大きく影響し,質量パラメータが推定精度に影響を与えない平坦な空間の場合とは大きく異なることがわかった。 量子不協和は、初期の非相関なオープンチャート間の絡み合いがない場合の膨張パラメータ推定の鍵となる資源であることが判明し、デシッター空間の曲率効果が初期相関なプローブ状態の量子リソースを損傷し、初期の非相関なプローブ状態の量子リソースを生成することから、異なるオープンチャート間のプローブ状態の役割は全く異なることが示されている。

We study the black-box parameter estimation of expanding parameters and the dynamics of Gaussian interferometric power for the de Sitter space. We find that the state between separated open charts can be employed as probe state for the black-box quantum metrology. This is nontrivial because the open charts are causally disconnected and classical information can not be exchanged between them according to the general relativity. It is shown that the mass of the scalar field remarkably affects the accuracy of the black-box parameter estimation in the de Sitter space, which is quite different from the flat space case where the mass parameter does not influence the precision of estimation. Quantum discord is found to be a key resource for the estimation of the expanding parameter when there is no entanglement between the initially uncorrelated open charts.It is demonstrated that the role of the probe state between different open charts is quite distinct because curvature effect of the de sitter space damages quantum resources for the initially correlated probe states, while it generates quantum resources for the initially uncorrelated probe states.
翻訳日:2023-02-20 09:23:00 公開日:2022-05-24
# Telechain: 通信ポリシーのブリッジとブロックチェーンの実践

Telechain: Bridging Telecom Policy and Blockchain Practice ( http://arxiv.org/abs/2205.12350v1 )

ライセンス: Link先を確認
Sudheesh Singanamalla (1 and 2), Apurv Mehra (1), Nishanth Chandran (1), Himanshi Lohchab (3), Seshanuradha Chava (3), Asit Kadayan (4), Sunil Bajpai (4), Kurtis Heimerl (2), Richard Anderson (2), Satya Lokam (1) ((1) Microsoft Research India, (2) University of Washington, (3) Tanla Platforms Limited, (4) Telecom Regulatory Authority of India, Government of India)(参考訳) 規制エコシステムにおけるブロックチェーンの利用は、相互に信頼できないエンティティ間のコンプライアンスの課題に対処するための有望なアプローチである。 本稿では,通信規制におけるブロックチェーン技術の応用について考察する。 特に、インドでテキストメッセージ(SMS)や通話を通じて送信される、Unsolicited Commercial Communication(UCC、スパム)に関する懸念の高まりに対処する。 スパムの脅威を抑えるためにいくつかの規制措置が講じられているが、通信事業者や規制当局にも課題を提起しながらも、加入者にとって迷惑である。 本稿では,インドにおけるUCCの問題に対処するためのコンソーシアムブロックチェーンベースのアーキテクチャを提案する。 我々のソリューションは、加入者体験を改善し、規制プロセスの効率を改善しつつ、通信エコシステムのすべての利害関係者に積極的に影響を与えます。 すべて元ポストであるUCCの問題に対する従来のアプローチとは異なり、規制の遵守に対する我々のアプローチは前だ。 本稿では,インド通信規制庁(TRAI)によるUCC及びスパムに関する規制の改正に主要な貢献者となる。 2018年7月に公開された新しい規則は、UCC問題に対処するブロックチェーン/分散台帳の使用を義務付けることで、世界で初めて、2010年のTelecom Commercial Communication Customer Preference Regulation (TCCCPR)を修正したものだ。 本稿では,(1)その設計と戦略,(2)規制と政策の行動,(3)国全体の実施と展開,(4)作業の評価と影響の総合的な説明を行う。

The use of blockchain in regulatory ecosystems is a promising approach to address challenges of compliance among mutually untrusted entities. In this work, we consider applications of blockchain technologies in telecom regulations. In particular, we address growing concerns around Unsolicited Commercial Communication (UCC aka. spam) sent through text messages (SMS) and phone calls in India. Despite several regulatory measures taken to curb the menace of spam it continues to be a nuisance to subscribers while posing challenges to telecom operators and regulators alike. In this paper, we present a consortium blockchain based architecture to address the problem of UCC in India. Our solution improves subscriber experiences, improves the efficiency of regulatory processes while also positively impacting all stakeholders in the telecom ecosystem. Unlike previous approaches to the problem of UCC, which are all ex-post, our approach to adherence to the regulations is ex-ante. The proposal described in this paper is a primary contributor to the revision of regulations concerning UCC and spam by the Telecom Regulatory Authority of India (TRAI). The new regulations published in July 2018 were first of a kind in the world and amended the 2010 Telecom Commercial Communication Customer Preference Regulation (TCCCPR), through mandating the use of a blockchain/distributed ledgers in addressing the UCC problem. In this paper, we provide a holistic account of of the projects' evolution from (1) its design and strategy, to (2) regulatory and policy action, (3) country wide implementation and deployment, and (4) evaluation and impact of the work.
翻訳日:2023-02-19 17:13:23 公開日:2022-05-24
# 高齢者介護における在宅モニタリングシステムの経済性

The Economic Viability of an In-Home Monitoring System in the context of an Aged Care Setting ( http://arxiv.org/abs/2205.12265v1 )

ライセンス: Link先を確認
Frank Perri, Shah J Miah, Steve Zanon and Keis Ohtsuka(参考訳) オーストラリアの高齢者ケア部門は大きな課題に直面している。 これらの問題の多くは明確に特定されているが、新型コロナウイルス(covid-19)パンデミックの間、その緊急性はさらに強調されている。 家庭内モニタリングのような技術は、これらの課題に対処する方法の1つである。 しかし、技術の有効性は、投資のリターンがあることを保証するため、その実施と実行コストとともに考慮され、ソリューションとして経済的に有効である。 このシステムの有効性をテストするために、パイロットプログラムが家庭内監視システムで実行された。 本稿では,このようなシステムの経済性をよりよく理解するための経済分析に着目する。 二次分析アプローチによって、顧客とのより深い関係を育み、介護者、サービス提供者、政府への医療費の節約につながる顧客をリアルタイムに監視するといった追加サービスを提供することで、収益を生み出すことができることが判明した。 貯蓄は、システムによって特定される重要な出来事の早期介入に関連しており、いくつかの重要な出来事に対する治療の遅れは、より深刻でコストのかかる健康的な結果を生み出す可能性がある。 さらなる医療費の削減は、しばしば見逃される健康の悪化を示す傾向分析を通じて行うことができる。 この識別による予防措置の実施は、より高いコストを伴う臨界事象が発生する可能性を減らすことができる。 全体として、監視システムは、リアクティブから予防サービスへと移行し、よりターゲットとパーソナライズされたケアを提供する。

The aged care sector in Australia faces significant challenges. While many of these issues have been clearly identified, their urgency has been further highlighted during the COVID-19 pandemic. Technology such as in-home monitoring is one way to address some of these challenges. However, the efficacy of technology must be considered together with its implementation and running costs to ensure that there is a return on investment, and it is economically viable as a solution. A pilot program was run in-home monitoring system to test the efficacy of this system. This paper focuses on an economic analysis to better understand the financial viability of such systems. Using a secondary analysis approach, the findings identified that revenue could be generated by providing carers with additional services such as real-time monitoring of the client, which can foster deeper relationships with the customer, along with savings of healthcare costs to carers, service providers and Government. Savings are related to the earlier intervention of critical events that are identified by the system, as delays in treatment of some critical events can create much more severe and costly health outcomes. Further health costs savings can be made via trend analysis which can show more nuanced health deterioration that is often missed. The implementation of preventative measures via this identification can reduce the chances of critical events occurring which have much higher costs. Overall, monitoring systems lead to a transition from a reactive to a preventative services offering, delivering more targeted and personalised care.
翻訳日:2023-02-19 17:12:58 公開日:2022-05-24
# 正確なクラスタ位置と追加プライバシ保護を備えた調査用マイクロデータのリリース

Releasing survey microdata with exact cluster locations and additional privacy safeguards ( http://arxiv.org/abs/2205.12260v1 )

ライセンス: Link先を確認
Till Koebe and Alejandra Arias-Salazar(参考訳) 世界の家庭調査プログラムは、人の生活と周囲環境の相互依存に関する研究を支援するために、微粒なジオレファレンスマイクロデータを公開している。 回答者のプライバシを保護するため、マイクロレベル調査データは通常、削除やデータ収集の真の位置を隠蔽するなどの摂動手順を通じて匿名化される。 しかし、これは調査データを地域レベルで補助的な情報で強化する新たなアプローチへの挑戦である。 本稿では,生成モデルを用いた合成データによるプライバシ保護を付加した,オリジナルのマイクロデータの有用性を活用した代替的マイクロデータ普及戦略を提案する。 2011年コスタリカ国勢調査のデータと衛星からの補助情報を用いて,提案を裏付ける。 当社の戦略は, 再識別の試みにおいても, 開示属性数に対する再識別リスクを60~80%削減する。

Household survey programs around the world publish fine-granular georeferenced microdata to support research on the interdependence of human livelihoods and their surrounding environment. To safeguard the respondents' privacy, micro-level survey data is usually (pseudo)-anonymized through deletion or perturbation procedures such as obfuscating the true location of data collection. This, however, poses a challenge to emerging approaches that augment survey data with auxiliary information on a local level. Here, we propose an alternative microdata dissemination strategy that leverages the utility of the original microdata with additional privacy safeguards through synthetically generated data using generative models. We back our proposal with experiments using data from the 2011 Costa Rican census and satellite-derived auxiliary information. Our strategy reduces the respondents' re-identification risk for any number of disclosed attributes by 60-80\% even under re-identification attempts.
翻訳日:2023-02-19 17:12:18 公開日:2022-05-24
# 戦略的候補選択問題における公平性

Fairness in Selection Problems with Strategic Candidates ( http://arxiv.org/abs/2205.12204v1 )

ライセンス: Link先を確認
Vitalii Emelianov, Nicolas Gast, Patrick Loiseau(参考訳) 選択問題(例えば、大学入学や採用)における差別や肯定的行動の効果をよりよく理解するために、最近の研究は微分分散に基づくモデルを提案した。 このモデルは、意思決定者が各候補者の質について騒がしい推定値を持ち、異なる集団間のノイズのばらつきの違いが差別を説明する鍵となると仮定する。 しかし、微分分散に関する文献では、選択手続きに反応して結果を改善することができる候補者の戦略的行動は考慮されていない。 本稿では,選択問題における戦略的側面が公平性に与える影響について考察する。 競争ゲームとして戦略候補の選択問題をモデル化することを提案する: 合理的候補の集団は、その質を高めるために努力レベルを選択することで競争する。 コストはかかるが、期待値が選択した努力と等しい(ランダムな)品質を得る。 ベイズの決定者は、各候補の品質(差分差分)のノイズの多い見積りを観察し、その後続の期待品質に基づいてベスト候補の分数$\alpha$を選択し、それぞれの候補が報酬$S$を受け取る。 我々は、このゲームの(不自然な)均衡を、意思決定者が拘束されていない場合と、人口格差の公平性の概念を尊重するために制約された場合の両方において、異なるパラメータのレジームで特徴づける。 以上の結果から, 戦略的行動が均衡度で観測された差別に与える影響を明らかにするとともに, この文脈における人口格差の影響を理解することができる。 特に、多くの場合、結果は非ストラテジックな設定とは対照的である。

To better understand discriminations and the effect of affirmative actions in selection problems (e.g., college admission or hiring), a recent line of research proposed a model based on differential variance. This model assumes that the decision-maker has a noisy estimate of each candidate's quality and puts forward the difference in the noise variances between different demographic groups as a key factor to explain discrimination. The literature on differential variance, however, does not consider the strategic behavior of candidates who can react to the selection procedure to improve their outcome, which is well-known to happen in many domains. In this paper, we study how the strategic aspect affects fairness in selection problems. We propose to model selection problems with strategic candidates as a contest game: A population of rational candidates compete by choosing an effort level to increase their quality. They incur a cost-of-effort but get a (random) quality whose expectation equals the chosen effort. A Bayesian decision-maker observes a noisy estimate of the quality of each candidate (with differential variance) and selects the fraction $\alpha$ of best candidates based on their posterior expected quality; each selected candidate receives a reward $S$. We characterize the (unique) equilibrium of this game in the different parameters' regimes, both when the decision-maker is unconstrained and when they are constrained to respect the fairness notion of demographic parity. Our results reveal important impacts of the strategic behavior on the discrimination observed at equilibrium and allow us to understand the effect of imposing demographic parity in this context. In particular, we find that, in many cases, the results contrast with the non-strategic setting.
翻訳日:2023-02-19 17:11:51 公開日:2022-05-24
# 実量子振幅推定

Real Quantum Amplitude Estimation ( http://arxiv.org/abs/2204.13641v2 )

ライセンス: Link先を確認
Alberto Manzano, Daniele Musso, \'Alvaro Leitao(参考訳) 本稿では、振幅の符号に敏感な量子振幅推定(QAE)の拡張であるリアル量子振幅推定(RQAE)アルゴリズムを導入する。 RQAEは、調整可能なパラメータを通して増幅ポリシーを明示的に制御する反復アルゴリズムである。 rqaeの性能を厳密に分析し,非増幅サンプリングに関して2次速度アップ法であるmodulo logarithmic correctionsを実現することを証明した。 さらに, 理論的解析を数値実験のセットと相関させる。

We introduce the Real Quantum Amplitude Estimation (RQAE) algorithm, an extension of Quantum Amplitude Estimation (QAE) which is sensitive to the sign of the amplitude. RQAE is an iterative algorithm which offers explicit control over the amplification policy through an adjustable parameter. We provide a rigorous analysis of the RQAE performance and prove that it achieves a quadratic speedup, modulo logarithmic corrections, with respect to unamplified sampling. Besides, we corroborate the theoretical analysis with a set of numerical experiments.
翻訳日:2023-02-15 06:31:45 公開日:2022-05-24
# テンソルネットワークアルゴリズム:ルートマップ

Tensor Network Algorithms: a Route Map ( http://arxiv.org/abs/2205.10345v2 )

ライセンス: Link先を確認
Mari Carmen Ba\~nuls(参考訳) テンソルネットワークは、複雑な古典的および量子多体問題の研究に非常に強力なツールを提供する。 過去20年間、技術やアプリケーションの増加は相変わらず続いており、特に過去10年間、新しいアイデアや結果が爆発的に増え、新参者にとって圧倒的なものになるかもしれない。 この短いレビューでは、基本的なアイデア、最良の確立された方法、テンソルネットワークポテンシャルの境界を広げる最も重要なアルゴリズム開発を紹介している。 目標は、テンソルネットワークが提供する多くの可能性だけでなく、最先端のコード、適用性、進行中の進歩のいくつかの方法を通じて、読者の理解を深めることである。

Tensor networks provide extremely powerful tools for the study of complex classical and quantum many-body problems. Over the last two decades, the increment in the number of techniques and applications has been relentless, and especially the last ten years have seen an explosion of new ideas and results that may be overwhelming for the newcomer. This short review introduces the basic ideas, the best established methods and some of the most significant algorithmic developments that are expanding the boundaries of the tensor network potential. The goal is to help the reader not only appreciate the many possibilities offered by tensor networks, but also find their way through state-of-the-art codes, their applicability and some avenues of ongoing progress.
翻訳日:2023-02-12 07:56:58 公開日:2022-05-24
# 強磁性結晶におけるクロスカー効果による定常絡み状態生成

Steady entangled-state generation via cross-Kerr effect in a ferrimagnetic crystal ( http://arxiv.org/abs/2205.11865v1 )

ライセンス: Link先を確認
Zhi-Bo Yang, Wei-Jiang Wu, Jie Li, Yi-Pu Wang, J. Q. You(参考訳) 固体スピン系では、単結晶の集団スピン運動は複数の静磁場モードを具現化する。 近年,高次静磁場モードとキッテルモードの交差ケラー相互作用により,新たな操作自由度がもたらされることが判明した。 本研究では, バイアス場が不均一で, システムが駆動されるとき, クロスカー非線形性を介して2つのマグノンモードを絡めるスキームを提案する。 量子エンタングルメントは定常状態で持続し、実験的に実現可能なパラメータを用いて数値計算によって示される。 さらに、自己KerrとクロスKerrの非線形性が共存するシステムにおいて、絡み合った状態がより良く生き残ることを示す。 我々の研究は、強磁性結晶内の異なる自由度間の絡み合いを観察するための実験を設計するための洞察とガイダンスを提供する。 さらに、スピントロニクスデバイスを用いた量子情報処理の潜在的な応用を刺激する可能性がある。

For solid-state spin systems, the collective spin motion in a single crystal embodies multiple magnetostatic modes. Recently, it was found that the cross-Kerr interaction between the higher-order magnetostatic mode and the Kittel mode introduces a new operable degree of freedom. In this work, we propose a scheme to entangle two magnon modes via the cross-Kerr nonlinearity when the bias field is inhomogeneous and the system is driven. Quantum entanglement persists at the steady state, as demonstrated by numerical results using experimentally feasible parameters. Furthermore, we also demonstrate that entangled states can survive better in the system where self-Kerr and cross-Kerr nonlinearities coexist. Our work provides insights and guidance for designing experiments to observe entanglement between different degrees of freedom within a single ferrimagnetic crystal. Additionally, it may stimulate potential applications in quantum information processing using spintronic devices.
翻訳日:2023-02-11 22:19:00 公開日:2022-05-24
# 星間距離での量子通信の実現可能性

Viability of quantum communication across interstellar distances ( http://arxiv.org/abs/2205.11816v1 )

ライセンス: Link先を確認
Arjun Berera, Jaime Calder\'on-Figueroa(参考訳) 星間距離にまたがる光子を用いた量子通信の実現可能性について検討した。 このために、天体の重力場、星間媒質中の粒子含量、太陽系のより局所的な環境など、光子の非一貫性を引き起こす様々な要因が考えられる。 スペクトルのx線領域は量子通信チャネルを確立するための最有力候補として同定されるが、光とマイクロ波のバンドは長距離の通信を可能にすることもできる。 最後に、地球外文明によって放出される量子信号から何が期待できるか、また、チャネルの受信側端がそれらの信号を識別し、解釈することの課題について論じる。

The possibility of achieving quantum communication using photons across interstellar distances is examined. For this, different factors are considered that could induce decoherence of photons, including the gravitational field of astrophysical bodies, the particle content in the interstellar medium, and the more local environment of the Solar System. The X-ray region of the spectrum is identified as the prime candidate to establish a quantum communication channel, although the optical and microwave bands could also enable communication across large distances. Finally, we discuss what could be expected from a quantum signal emitted by an extraterrestrial civilization, as well as the challenges for the receiver end of the channel to identify and interpret such signals.
翻訳日:2023-02-11 22:18:40 公開日:2022-05-24
# QAOA-in-QAOA:小型量子マシンにおける大規模MaxCut問題の解法

QAOA-in-QAOA: solving large-scale MaxCut problems on small quantum machines ( http://arxiv.org/abs/2205.11762v1 )

ライセンス: Link先を確認
Zeqiao Zhou, Yuxuan Du, Xinmei Tian, Dacheng Tao(参考訳) 組合せ最適化のための高速アルゴリズムの設計は、ロジスティクス、ファイナンス、化学といった多くの領域に大きく貢献する。 量子機械のパワーを活用し、断熱進化の精神を継承する量子近似最適化アルゴリズム(qaoas)は、潜在的なランタイムスピードアップで組合せ問題に取り組むための新しいアプローチである。 しかし、今日では量子資源が限られているため、QAOAは大規模な問題を操作できない。 この問題に対処するために、ここでは分断と探索のヒューリスティックを通じてmaxcut問題を再検討する: 部分グラフの解を並列に求め、それらの解をマージして大域解を得る。 MaxCut の $\mathbb{Z}_2$ 対称性により、マージ過程が新たな MaxCut 問題にさらにキャストされ、QAOAs や他の MaxCut ソルバによって対処できることが証明される。 そこで我々は、小さな量子マシンを用いて任意の大規模MaxCut問題を解くために、QAOA-in-QAOA ($\text{QAOA}^2$)を提案する。 また、$\text{QAOA}^2$ の近似比が 1/2 以下であることが証明される。 実験の結果、異なるグラフ設定下では、$\text{QAOA}^2$は、ノード数が2000前後のとき、最もよく知られた古典的アルゴリズムよりも、競争力や性能が向上することを示した。 本手法は,大規模な組合せ最適化問題において,QAOAsの能力を高めるために,他の高度な戦略にシームレスに組み込むことができる。

The design of fast algorithms for combinatorial optimization greatly contributes to a plethora of domains such as logistics, finance, and chemistry. Quantum approximate optimization algorithms (QAOAs), which utilize the power of quantum machines and inherit the spirit of adiabatic evolution, are novel approaches to tackle combinatorial problems with potential runtime speedups. However, hurdled by the limited quantum resources nowadays, QAOAs are infeasible to manipulate large-scale problems. To address this issue, here we revisit the MaxCut problem via the divide-and-conquer heuristic: seek the solutions of subgraphs in parallel and then merge these solutions to obtain the global solution. Due to the $\mathbb{Z}_2$ symmetry in MaxCut, we prove that the merging process can be further cast into a new MaxCut problem and thus be addressed by QAOAs or other MaxCut solvers. With this regard, we propose QAOA-in-QAOA ($\text{QAOA}^2$) to solve arbitrary large-scale MaxCut problems using small quantum machines. We also prove that the approximation ratio of $\text{QAOA}^2$ is lower bounded by 1/2. Experiment results illustrate that under different graph settings, $\text{QAOA}^2$ attains a competitive or even better performance over the best known classical algorithms when the node count is around 2000. Our method can be seamlessly embedded into other advanced strategies to enhance the capability of QAOAs in large-scale combinatorial optimization problems.
翻訳日:2023-02-11 22:18:29 公開日:2022-05-24
# コンビナトリアルマッピングと変分状態形成による量子コンピュータ上のコンパクト分子シミュレーション

Compact Molecular Simulation on Quantum Computers via Combinatorial Mapping and Variational State Preparation ( http://arxiv.org/abs/2205.11742v1 )

ライセンス: Link先を確認
Diana Chamaki, Mekena Metcalf, Wibe A. de Jong(参考訳) フェルミオンハミルトニアンのコンパクト表現は、誤り補正を欠いた量子コンピュータ上で計算を行うために必要である。 フェルミオン系は一般に固定粒子数とスピンの部分空間内で定義されるが、不要な状態はヒルベルト空間から射出される。 組合せランキングを用いて、フェルミオン基底状態から量子ビット基底状態へ単射的に写像し、標準スピン表現における演算子を表現する単射写像を提供する。 次に、変分量子固有解法(VQE)とユニタリ結合クラスタシングルを用いてコンパクトマッピングを評価し、コンパクト表現における二重励起(UCCSD)アンサッツを評価する。 軌道充填が半分からかなり離れている場合、コンパクト性は有益であり、8キュービットしか持たない30スピン軌道 $h_{2}$ 計算を示す。 コンパクトな波動関数を作るのに必要なゲート深さは、実際には完全な構成空間よりもそれほど大きくない。 注目すべきは、完全なシミュレーションと比較して、コンパクトシミュレーションに必要なオプティマイザの呼び出し数である。 すべての場合において、コンパクト表現はADAMオプティマイザを用いて全表現よりも高速に収束する。 本分析は,実例におけるコンパクトマッピングの効果を示す。

Compact representations of fermionic Hamiltonians are necessary to perform calculations on quantum computers that lack error-correction. A fermionic system is typically defined within a subspace of fixed particle number and spin while unnecessary states are projected out of the Hilbert space. We provide a bijective mapping using combinatoric ranking to bijectively map fermion basis states to qubit basis states and express operators in the standard spin representation. We then evaluate compact mapping using the Variational Quantum Eigensolver (VQE) with the unitary coupled cluster singles and doubles excitations (UCCSD) ansatz in the compact representation. Compactness is beneficial when the orbital filling is well away from half, and we show at 30 spin orbital $H_{2}$ calculation with only 8 qubits. We find that the gate depth needed to prepare the compact wavefunction is not much greater than the full configuration space in practice. A notable observation regards the number of calls to the optimizer needed for the compact simulation compared to the full simulation. We find that the compact representation converges faster than the full representation using the ADAM optimizer in all cases. Our analysis demonstrates the effect of compact mapping in practice.
翻訳日:2023-02-11 22:18:02 公開日:2022-05-24
# マルチパーティ量子システムにおけるタイターモノガミーの関係

Tighter monogamy relations in multiparty quantum systems ( http://arxiv.org/abs/2205.11972v1 )

ライセンス: Link先を確認
Hui Li, Ting Gao, Fengli Yan(参考訳) 本稿では,任意の量子状態に対する多元量子絡み合いの密接な単元関係について検討する。 まず,前結果を改善するマルチパーティ量子システムのための下限のクラスを得る。 次に、新しい不等式を用いて三成分量子系におけるより強固な単元関係のクラスを確立する。 さらに、この関係を多元量子系に一般化する。 そして、得られた下限が既存の境界よりも大きいことを証明します。 詳細は最後に紹介する。

We investigate tight monogamy relations of multiparty quantum entanglement for any quantum state in this paper. First, we obtain a class of lower bounds for multiparty quantum systems which improve the previous results. Next, we establish a class of tighter monogamy relations in tripartite quantum systems by means of the new inequality. Furthermore, we generalize this relations to multiparty quantum systems. And then we prove the lower bounds we obtained are larger than the existing ones. Detailed examples are provided at last.
翻訳日:2023-02-11 22:13:28 公開日:2022-05-24
# 非断熱力学に対するメーヤミラーマッピングモデルにおける負零点エネルギーパラメータ

Negative Zero-Point-Energy Parameter in the Meyer-Miller Mapping Model for Nonadiabatic Dynamics ( http://arxiv.org/abs/2205.11928v1 )

ライセンス: Link先を確認
Xin He, Zhihao Gong, Baihua Wu, Jian Liu(参考訳) 有名なメイヤー・ミラーマッピングモデルは、実用的な軌道に基づく非断熱力学法を生成するのに有用な手法である。 一般にゼロ点エネルギー(ZPE)パラメータは正であると仮定される。 F-電子状態系に対する従来のメイヤー・ミラー写像のハミルトニアンの制約は、実際に電子自由度ごとにZPEパラメータのパラメータが-1/Fより大きいことを要求している。 そのようなパラメータに対して負値と正値の両方が可能である。 まず厳密な定式化を行い、制約が適用されるとき、カルト位相空間の正確な写像モデルを構築する。 核力学が線形化半古典的初期値表現によって近似されるとき、負のZPEパラメータは、凝縮相二状態系の典型的なスピン-ボソンモデルにおいて、ゼロ温度に挑戦しても、動的挙動を記述するのに合理的に優れた性能をもたらす。

The celebrated Meyer-Miller mapping model has been a useful approach for generating practical trajectory-based nonadiabatic dynamics methods. It is generally assumed that the zero-point-energy (ZPE) parameter is positive. The constraint implied in the conventional Meyer-Miller mapping Hamiltonian for an F-electronic-state system actually requires that parameter \gamma is larger than -1/F for the ZPE parameter for each electronic degree of freedom. Both negative and positive values are possible for such a parameter. We first establish a rigorous formulation to construct exact mapping models in the Cartesian phase space when the constraint is applied. When nuclear dynamics is approximated by the linearized semiclassical initial value representation, a negative ZPE parameter could lead to reasonably good performance in describing dynamic behaviors in typical spin-boson models for condensed-phase two-state systems, even at challenging zero temperature.
翻訳日:2023-02-11 22:13:07 公開日:2022-05-24
# 時間多重縮退光パラメトリック発振器を用いたショアファクタリングのスケーラブル半古典的実装

Scalable semi-classical implementation of Shor factoring using time-multiplexed degenerate optical parametric oscillators ( http://arxiv.org/abs/2205.11926v1 )

ライセンス: Link先を確認
Minghui Li, Wei Wang, Zikang Tang, Hou Ian(参考訳) 時間に多重化された退化光パラメトリック振動に対して任意の長さの整数対を符号化する手法を提案する。 偏光方向と振動パルスの位相の間の古典的な絡み合いは、2つの計算レジスタと見なされ、各ペア内の整数相関を提供する。 本稿では,shorの量子分解アルゴリズムの主要なアルゴリズムステップであるモジュラー展開と離散フーリエ変換を,外部論理の助けを借りてパルス干渉としてレジスタ内で実行可能であることを示す。 したがって、ファクタリングアルゴリズムは、スケーラブルでデコヒーレンスのない半古典的な光パス実装と等価である。 経路の終端で測定された4ホール干渉によって生成された2次元の縁画像から、素因子を導出する探索的乗法順序を同定する。

A scheme to encode arbitrarily long integer pairs on degenerate optical parametric oscillations multiplexed in time is proposed. The classical entanglement between the polarization directions and the phases of the oscillating pulses, regarded as two computational registers, furnishes the integer correlations within each pair. We show the major algorithmic steps, modular exponentiation and discrete Fourier transform, of Shor's quantum factoring algorithm can be executed in the registers as pulse interferences under the assistance of external logics. The factoring algorithm is thus rendered equivalent to a semi-classical optical-path implementation that is scalable and decoherence-free. The sought-after multiplicative order, from which the prime factors are deduced, is identified from a two-dimensional fringe image generated by four-hole interference measured at the end of the path.
翻訳日:2023-02-11 22:12:49 公開日:2022-05-24
# 量子インターネット:媒体アクセス制御から絡み合いアクセス制御へ

Quantum Internet: from Medium Access Control to Entanglement Access Control ( http://arxiv.org/abs/2205.11923v1 )

ライセンス: Link先を確認
Jessica Illiano, Michele Viscardi, Seid Koudia, Marcello Caleffi, Angela Sara Cacciapuoti(参考訳) ネットワーク性能が著しく向上する可能性があるため、量子インターネットの設計においてマルチパーティタイトな絡み合いが重要な役割を担っている。 本稿では,多成分状態に対する絡み合いアクセス制御プロトコルの設計を行い,いくつかの魅力的な特徴を示す。 具体的には、設計されたプロトコルは、ネットワークノードの集合が共有する元のマルチパーティント絡み状態からEPRペアを分散的に抽出し、抽出したEPRペアを使用するための送信ノードと受信ノードの同一性を一元的に決定することができる。 さらに、このプロトコルは、EPR抽出とqubitテレポーテーションに必要な、避けられない古典的通信を除いて、エンタングルメントアクセス制御によって引き起こされる信号伝達を古典的ネットワークに委譲することを避ける。 最後に、このプロトコルは、絡み合いアクセスノードの匿名性をサポートする。

Multipartite entanglement plays a crucial role for the design of the Quantum Internet, due to its potentiality of significantly increasing the network performance. In this paper, we design an entanglement access control protocol for multipartite state, which exhibits several attractive features. Specifically, the designed protocol is able to jointly extract in a distributed way an EPR pair from the original multipartite entangled state shared by the set of network nodes, and to univocally determines the identities of the transmitter node and the receiver node in charge of using the extracted EPR pair. Furthermore, the protocol avoids to delegate the signaling arising with entanglement access control to the classical network, with the exception of the unavoidable classical communications needed for EPR extraction and qubit teleportation. Finally, the protocol supports the anonymity of the entanglement accessing nodes.
翻訳日:2023-02-11 22:12:34 公開日:2022-05-24
# 量子相関の生成と崩壊のための量子速度限界

Quantum speed limit for the creation and decay of quantum correlations ( http://arxiv.org/abs/2205.11882v1 )

ライセンス: Link先を確認
K.G Paulson and Subhashish Banerjee(参考訳) 我々は、周囲環境の影響下で進化する量子系において、量子相関の生成と減衰のための量子速度制限時間に縛られたマルゴルス・レビチンとマンデルシュタム・タム型を導出する。 古典的状態の適切な集合からの非古典的状態の最小距離は、状態の量子性の正当測度である。 我々は、バーズ距離に基づく測度を用いて定量化された量子相関の絡み合いと量子不協和測度を考える。 量子相関の速度制限時間に対する量子ノイズの影響を明らかにするために,OUNデプレッションおよび集合2キュービットデコヒーレンスチャネルの下での2キュービット系における量子相関の生成と崩壊の量子速度制限時間を推定した。

We derive Margolus-Levitin and Mandelstamm-Tamm type bound on the quantum speed limit time for the creation and decay of quantum correlations by an amount in a quantum system evolving under the influence of its ambient environment. The minimum distance of a non-classical state from an appropriate set of classical states is a legitimate measure of the quantumness of the state. We consider entanglement and quantum discord measures of quantum correlations, quantified using the Bures distance-based measure. To demonstrate the impact of quantum noise on this speed limit time for quantum correlations, we estimate the quantum speed limit time for the creation and decay of quantum correlations for a two-qubit system under modified OUN dephasing and collective two-qubit decoherence channels.
翻訳日:2023-02-11 22:12:00 公開日:2022-05-24
# 複雑なボヘミア系におけるカオス軌道

Chaotic trajectories in complex Bohmian systems ( http://arxiv.org/abs/2205.11872v1 )

ライセンス: Link先を確認
Athanasios C. Tzemos and George Contopoulos(参考訳) 波動関数が $\Psi=a\Psi_{m_1,n_1}(x,y)+b\Psi_{m_2,n_2}(x,y)+c\Psi_{m_3,n_3}(x,y)$ の形の非可換周波数を持つ2次元量子調和振動子のボヘミア軌道を考える。 まず、量子数 $m,n$ の異なる組み合わせに対して、結節点の軌跡を見つける。 次に、比較的大きな量子数と2つの等しい$m's$の場合を詳細に研究する。 %は、まず、$\Psi=0$ のノルダル点を見つける。 ノードは$m$と$n$が小さい場合にのみ解析的に見つけることができる。 2$m's$(または2$n's$)が等しければ、(1)固定ノードが時間に依存せず、(2)移動ノードが時間から時間まで固定ノードと衝突し、特に無限大になる2つのタイプのノルダル点を明示的に見つけることができる。 最後に, 量子粒子の節点近傍の軌道を研究し, 構成空間上に複数のノードが散在する複雑な系において, 初めてカオスが発生することを観測する。

We consider the Bohmian trajectories in a 2-d quantum harmonic oscillator with non commensurable frequencies whose wavefunction is of the form $\Psi=a\Psi_{m_1,n_1}(x,y)+b\Psi_{m_2,n_2}(x,y)+c\Psi_{m_3,n_3}(x,y)$. We first find the trajectories of the nodal points for different combinations of the quantum numbers $m,n$. Then we study, in detail, a case with relatively large quantum numbers and two equal $m's$. We find %We find first the nodal points where $\Psi=0$. The nodes can be found analytically only if $m$ and $n$ are small. If two $m's$ (or two $n's$ are equal we can find explicitly the nodal points , which are of two types (1) fixed nodes independent of time and (2) moving nodes which from time to time collide with the fixed nodes and at particular times they go to infinity. Finally, we study the trajectories of quantum particles close to the nodal points and observe, for the first time, how chaos is generated in a complex system with multiple nodes scattered on the configuration space.
翻訳日:2023-02-11 22:11:48 公開日:2022-05-24
# 光学浮揚ナノダイヤモンドの熱測定

Thermometry of an optically levitated nanodiamond ( http://arxiv.org/abs/2205.11871v1 )

ライセンス: Link先を確認
Fran\c{c}ois Rivi\`ere, Timoth\'ee de Guillebon, L\'eo Maumet, Gabriel H\'etet, Martin Schmidt, Jean-S\'ebastien Lauret, and Lo\"ic Rondin(参考訳) 浮遊ダイヤモンド中の窒素空孔(NV)中心のスピン特性を用いて, 単一ナノダイヤモンドの吸収を特徴付ける。 まず、ナノダイヤモンドに埋め込まれたNV中心の熱測定反応をキャリブレーションする。 次に, このキャリブレーションを用いて, 単浮遊ナノダイヤモンドの吸収断面積を推定する。 この吸収は外因性であり, ボリューム効果が支配的であることを示す。 我々の研究は、昇華量子実験のためのダイヤモンド材料最適化への道を開く。 また、ナノ粒子レベルでの材料熱特性を特徴付けるためのユニークなプラットフォームとして光学浮揚を示す。

Using the spin properties of nitrogen-vacancy (NV) centers in levitated diamond, we characterize the absorption of single nanodiamonds. We first calibrate the thermometry response of the NV centers embedded in our nanodiamonds. Then, using this calibration, we estimate the absorption cross-section of single levitated nanodiamonds. We show that this absorption is extrinsic and dominated by volumic effects. Our work opens the way to diamond materials optimization for levitation quantum experiments. It also demonstrates optical levitation as a unique platform to characterize material thermal properties at the nanoparticle level.
翻訳日:2023-02-11 22:11:21 公開日:2022-05-24
# 情報理論的に安全な量子同型暗号のためのプライバシーと正当性トレードオフ

Privacy and correctness trade-offs for information-theoretically secure quantum homomorphic encryption ( http://arxiv.org/abs/2205.12127v1 )

ライセンス: Link先を確認
Yanglin Hu, Yingkai Ouyang, Marco Tomamichel(参考訳) 暗号化されたデータを直接サーバーが計算できる量子同型暗号は、より複雑な量子暗号プロトコルを構築することができる基本的なプリミティブである。 このような構成を可能にするためには、量子ホモモルフィック暗号化は、入力データがサーバからプライベートであることを保証するデータプライバシーと、計算後の暗号文が計算自体の出力を超えて実行する回路に関する追加情報を明らかにしないことを保証する回路プライバシーの2つのプライバシー特性を満たす必要がある。 回路プライバシは古典暗号や多くの準同型暗号スキームでよく研究されているが、量子アナログはそれほど注目されていない。 ここでは、情報理論セキュリティを用いた量子同型暗号化のための回路プライバシーの定義を確立する。 さらに、量子ホモモルフィック暗号への量子オブリバスト転送を低減する。 この削減によって、Clifford回路の計算のみが可能なスキームを含む、幅広い量子同型暗号化プロトコルの族に対する、回路のプライバシ、データプライバシ、正当性の基本的なトレードオフが明らかになった。

Quantum homomorphic encryption, which allows computation by a server directly on encrypted data, is a fundamental primitive out of which more complex quantum cryptography protocols can be built. For such constructions to be possible, quantum homomorphic encryption must satisfy two privacy properties: data privacy which ensures that the input data is private from the server, and circuit privacy which ensures that the ciphertext after the computation does not reveal any additional information about the circuit used to perform it, beyond the output of the computation itself. While circuit privacy is well-studied in classical cryptography and many homomorphic encryption schemes can be equipped with it, its quantum analogue has received little attention. Here we establish a definition of circuit privacy for quantum homomorphic encryption with information-theoretic security. Furthermore, we reduce quantum oblivious transfer to quantum homomorphic encryption. Using this reduction, our work unravels fundamental trade-offs between circuit privacy, data privacy and correctness for a broad family of quantum homomorphic encryption protocols, including schemes that allow only computation of Clifford circuits.
翻訳日:2023-02-11 22:04:57 公開日:2022-05-24
# 量子技術における量子最適制御 ヨーロッパにおける研究の現状, 展望, 目標に関する戦略報告

Quantum optimal control in quantum technologies. Strategic report on current status, visions and goals for research in Europe ( http://arxiv.org/abs/2205.12110v1 )

ライセンス: Link先を確認
Christiane P. Koch, Ugo Boscain, Tommaso Calarco, Gunther Dirr, Stefan Filipp, Steffen J. Glaser, Ronnie Kosloff, Simone Montangero, Thomas Schulte-Herbr\"uggen, Dominique Sugny, and Frank K. Wilhelm(参考訳) 量子デバイス操作において与えられたタスクを最大限に達成するための外部フィールドの形状を設計、実装するためのツールボックスである量子最適制御は、量子技術を実現するための基盤の1つに進化した。 ここ数年、フィールドの急速な進化と拡大が見られた。 本稿では、オープン量子システムの制御可能性の理解の最近の進歩と量子制御技術の量子技術への応用について概説する。 また、重要な課題に対処し、将来の開発のためのロードマップをスケッチします。

Quantum optimal control, a toolbox for devising and implementing the shapes of external fields that accomplish given tasks in the operation of a quantum device in the best way possible, has evolved into one of the cornerstones for enabling quantum technologies. The last few years have seen a rapid evolution and expansion of the field. We review here recent progress in our understanding of the controllability of open quantum systems and in the development and application of quantum control techniques to quantum technologies. We also address key challenges and sketch a roadmap for future developments.
翻訳日:2023-02-11 22:04:35 公開日:2022-05-24
# QCSH:完全な量子コンピュータシェルモデルパッケージ

QCSH: a Full Quantum Computer Nuclear Shell-Model Package ( http://arxiv.org/abs/2205.12087v1 )

ライセンス: Link先を確認
Peng Lv, Shi-Jie Wei, Hao-Nan Xie, Gui-Lu Long(参考訳) 核は典型的な多体量子系である。 古典的コンピュータにおける核システムの完全な計算は、現在の古典的コンピュータの能力を超えている。 ハードウェアの急速な発展により、量子コンピュータを核物理学で使う見通しは終わりつつある。 本稿では,量子コンピュータにおける原子殻モデル解くための完全な量子パッケージQCSHについて報告する。 QCSHは、量子コンピューティングのユニタリ形式を線形に組み合わせ、量子コンピュータで全ての計算を実行する。 量子ビット資源の複素数、qcshの基本ゲートの数はどちらも核の大きさの多項式である。 QCSHはすでに、短期的に有意義な結果を提供できる。 例えば、12光核の結合エネルギー$^{2}$H, $^{3}$H, $^{3}$He, $^{4}$He, $^{6}$Li, $^{7}$Li, $^{12}$C, $^{14}$N, $^{16}$O, $^{17}$O, $^{23}$Na, $^{40}$Caは古典的量子エミュレータにおいてQCSHを用いて計算される。 Deuteronの結合エネルギーは超伝導量子コンピューティングデバイス上でQCSHを用いて実験的に研究されている。 QCSHは、短期量子デバイスだけでなく、将来の大規模量子コンピュータでも動作する。 量子デバイスの開発により、核系は実用的な量子優位性を示すための別の有望な領域を構成する。

Nucleus is a typical many-body quantum system. Full calculation of a nuclear system in a classical computer is far beyond the capacity of current classical computers. With fast development of hardware, the prospect of using quantum computers in nuclear physics is closing. Here, we report a full quantum package, QCSH, for solving nuclear shell-model in a quantum computer. QCSH uses the linear combination of unitaries formalism of quantum computing, and performs all calculations in a quantum computer. The complexities of qubit resource, number of basic gates of QCSH, are both polynomial to the nuclear size. QCSH can already provide meaningful results in the near term. As examples, the binding energies of twelve light nuclei, $^{2}$H, $^{3}$H, $^{3}$He, $^{4}$He, $^{6}$Li, $^{7}$Li, $^{12}$C, $^{14}$N, $^{16}$O, $^{17}$O, $^{23}$Na and $^{40}$Ca are calculated using QCSH in a classical quantum emulator. The binding energy of Deuteron has already been experimentally studied using QCSH on a superconducting quantum computing device. QCSH not only works in near-term quantum devices, but also in future large-scale quantum computers. With the development of quantum devices, nuclear system constitutes another promising area for demonstrating practical quantum advantage.
翻訳日:2023-02-11 22:03:35 公開日:2022-05-24
# ベル実験と俳優の限界

The Bell experiment and the Limitations of Actors ( http://arxiv.org/abs/2205.12071v1 )

ライセンス: Link先を確認
Inge S. Helland(参考訳) 2人の俳優アリスとボブによるベルの実験は有名である。 まず、局所現実主義の下でCHSHの不等式につながる単純な推論を概観し、文献からの議論を再カプセル化する。 それから、アリスの状況分析の議論に入る前に、ある背景テーマを取り上げます。 重要な点は、彼女の心がこの文脈におけるヒルベルト空間が二次元であるという事実によって制限されていることである。 決定過程における心の限界に関する一般的な言明は、量子論を概念変数から再構築する最近の結果から導かれる。 これらの結果はどの意思決定にも当てはまる。 Bell実験のデータはすべて、データ分析を行う新しい俳優Charlieに渡される。 しかし、彼の心は限定的であり、彼は実験によって決定される文脈に4次元ヒルベルト空間を持っている。 これは、AliceもCharlieも、実験に関する意思決定の背景としてCHSHの不平等につながる議論を持てないことを意味しています。 Charlieはデータアナリストであり、誰とでもコミュニケーションをとることができる。 ベルの状況について経験的な判断を下す際に、理性的な人物はCHSHの議論に納得できないと論じられている。

The well known Bell experiment with two actors Alice and Bob is considered. First the simple deduction leading to the CHSH inequality under local realism is reviewed, and some arguments from the literature are recapitulated. Then I take up certain background themes before I enter a discussion of Alice's analysis of the situation. An important point is that her mind is limited by the fact that her Hilbert space in this context is two-dimensional. General statements about a mind's limitation during a decision process are derived from recent results on the reconstruction of quantum theory from conceptual variables. These results apply to any decision situation. Let all the data from the Bell experiment be handed over to a new actor Charlie, who performs a data analysis. But his mind is also limited: He has a four-dimensional Hilbert space in the context determined by the experiment. I show that this implies that neither Alice nor Charlie can have the argument leading to the CHSH inequality as a background for making decisions related to the experiment. Charlie may be any data analyst, and he may communicate with any person. It is argued that no rational person can be convinced by the CHSH argument when making empirical decisions on the Bell situation.
翻訳日:2023-02-11 22:03:07 公開日:2022-05-24
# クリフォード代数における指数関数および基本関数の計算における特性多項式

The characteristic polynomial in calculation of exponential and elementary functions in Clifford algebras ( http://arxiv.org/abs/2205.11984v1 )

ライセンス: Link先を確認
Arturas Acus and Adolfas Dargys(参考訳) 任意のクリフォード幾何代数 cl(p,q) に対して、ベースフリーな表現と正規直交基底でマルチベクトル指数を計算する公式を提示する。 これらの公式は、マルチベクトルの固有多項式の根の解析に基づいている。 式を実際に使用するための実験例を示す。 この結果は量子回路や絡み合った量子状態の進化の解析の問題において有用である。

Formulas to calculate multivector exponentials in a base-free representation and in a orthonormal basis are presented for an arbitrary Clifford geometric algebra Cl(p,q). The formulas are based on the analysis of roots of characteristic polynomial of a multivector. Elaborate examples how to use the formulas in practice are presented. The results may be useful in the quantum circuits or in the problems of analysis of evolution of the entangled quantum states.
翻訳日:2023-02-11 22:02:30 公開日:2022-05-24
# 連続観測量子システムのパラメータ推定とシステム同定

Parameter estimation and system identification for continuously-observed quantum systems ( http://arxiv.org/abs/2205.11977v1 )

ライセンス: Link先を確認
Hendra I. Nurdin and Madalin Gu\c{t}\v{a}(参考訳) 本稿では,出力場の連続観測による量子入力出力系のパラメータ推定とシステム同定について概説する。 本稿では、未知の動的パラメータに対する出力の量子フィッシャー情報に関する最近の結果を示す。 量子ザカイ方程式の解としての連続時間測定の構造とパラメータ推定法との関係について論じる。 パラメータ推定以外にも,エルゴード量子入出力系や線形量子系において,進行波プローブの連続観測による量子システムのブラックボックスモデリングのための量子システム同定の新たな話題について概説する。 このようなブラックボックスモデリングの実証的手法についても論じる。

This paper gives an overview of parameter estimation and system identification for quantum input-output systems by continuous observation of the output field. We present recent results on the quantum Fisher information of the output with respect to unknown dynamical parameters. We discuss the structure of continuous-time measurements as solutions of the quantum Zakai equation, and their relationship to parameter estimation methods. Proceeding beyond parameter estimation, the paper also gives an overview of the emerging topic of quantum system identification for black-box modeling of quantum systems by continuous observation of a traveling wave probe, for the case of ergodic quantum input-output systems and linear quantum systems. Empirical methods for such black-box modeling are also discussed.
翻訳日:2023-02-11 22:02:23 公開日:2022-05-24
# メカニカル共振器による超伝導量子ビットの光学場への同期化

Synchronization of a superconducting qubit to an optical field mediated by a mechanical resonator ( http://arxiv.org/abs/2205.12214v1 )

ライセンス: Link先を確認
Roson Nongthombam, Sampreet Kalita, and Amarendra K. Sarma(参考訳) ハイブリッド光電気機械システムにおける機械共振器による超伝導量子ビットの外部光場への同期について検討した。 同期の研究には量子軌道法が用いられる。 偏光ベクトルが偏光ベクトルについて回転する量子ビット偏光ベクトルの1つにおける不安定性は、単一の量子軌道ランに対して観測される。 安定状態の1つの回転は外部光ドライブと同期される。 軌道の数が大幅に増加すると、キュービットは不安定になる。 しかし、量子揺らぎの少ない同期は依然として観測されている。 このスキームはマイクロ波量子ビットの回転の位相を同期を通して長寿命の光子に転送するために使用することができ、長距離量子通信に応用できる。 また、このハイブリッドシステムは量子同期の研究にも利用できる。

We study the synchronization of a superconducting qubit to an external optical field via a mechanical resonator in a hybrid optoelectromechanical system. The quantum trajectory method is employed to investigate synchronization. The bistability in one of the qubit polarization vectors, where the qubit rotates about the polarization vector, is observed for a single quantum trajectory run. The rotation in one of the stable states is synced with the external optical drive. When the number of trajectories is significantly increased, the qubit no longer displays bistability. However, synchronization with less quantum fluctuations is still observed. The scheme could be used to transfer the phase of the microwave qubit's rotation to a long-lived optical photon through synchronization, which may find applications in long-distance quantum communication. Also, this hybrid system can be used to study quantum synchronization.
翻訳日:2023-02-11 21:55:12 公開日:2022-05-24
# 量子カオスを用いた量子シミュレータのベンチマーク

Benchmarking Quantum Simulators using Quantum Chaos ( http://arxiv.org/abs/2205.12211v1 )

ライセンス: Link先を確認
Daniel K. Mark, Joonhee Choi, Adam L. Shaw, Manuel Endres and Soonwon Choi(参考訳) 高度な時空間制御を必要とせず, 幅広い種類のアナログ量子シミュレータに適用可能な, 試作した状態と理想目標状態との忠実度を推定するサンプル効率の高いプロトコルを提案し, 解析した。 本手法は,ジェネリックハミルトニアンダイナミクスから新たに発見された普遍的揺らぎを利用して,状態生成や量子進化,読み出し能力に対する微調整制御は必要としない。 理想的な場合では、システムサイズに依存しない$\sim 10^3$の測定でパーセントレベルの精度が得られる。 さらに, システムサイズの増加に伴い, 忠実度推定の精度が向上する。 我々は,光学格子上のイテナント粒子,トラップイオン,ライドバーグ原子など,様々な量子シミュレータプラットフォームに対するプロトコルを数値的に実証する。 本稿では,量子状態やプロセスのマルチパラメータ推定など,高度なタスクに対するさらなる応用について述べる。

We propose and analyze a sample-efficient protocol to estimate the fidelity between an experimentally prepared state and an ideal target state, applicable to a wide class of analog quantum simulators without advanced sophisticated spatiotemporal control. Our approach utilizes newly discovered universal fluctuations emerging from generic Hamiltonian dynamics, and it does not require any fine-tuned control over state preparation, quantum evolution, or readout capability. It only needs a small number of experimental measurements, achieving near optimal sample complexity: in ideal cases, a percent-level precision is obtained with $\sim 10^3$ measurements independent of system size. Furthermore, the accuracy of our fidelity estimation improves with increasing system size. We numerically demonstrate our protocol for a variety of quantum simulator platforms such as itinerant particles on optical lattices, trapped ions, and Rydberg atoms. We discuss further applications of our method for advanced tasks such as multi-parameter estimation of quantum states and processes.
翻訳日:2023-02-11 21:55:01 公開日:2022-05-24
# 教師付き量子機械学習モデルにおける特徴空間の自動発見のためのブースティング法

Boosting Method for Automated Feature Space Discovery in Supervised Quantum Machine Learning Models ( http://arxiv.org/abs/2205.12199v1 )

ライセンス: Link先を確認
Vladimir Rastunkov, Jae-Eun Park, Abhijit Mitra, Brian Quanz, Steve Wood, Christopher Codella, Heather Higgins, Joseph Broz(参考訳) 量子サポートベクトルマシン(QSVM)は、量子カーネル法の研究と応用において重要なツールとなっている。 本研究では,QSVMモデルのアンサンブルの構築と,複数のデータセット間での性能向上を評価するための強化手法を提案する。 このアプローチは、従来の機械学習でうまく機能する最高のアンサンブル構築プラクティスに由来するため、量子モデルのパフォーマンスの限界をさらに推し進めるべきである。 あるケースでは、調整されたハイパーパラメータを持つ単一のQSVMモデルがデータをシミュレートするのに十分であるのに対し、別のケースでは、提案手法を介して機能空間の探索を強制されるQSVMのアンサンブルが有用である。

Quantum Support Vector Machines (QSVM) have become an important tool in research and applications of quantum kernel methods. In this work we propose a boosting approach for building ensembles of QSVM models and assess performance improvement across multiple datasets. This approach is derived from the best ensemble building practices that worked well in traditional machine learning and thus should push the limits of quantum model performance even further. We find that in some cases, a single QSVM model with tuned hyperparameters is sufficient to simulate the data, while in others - an ensemble of QSVMs that are forced to do exploration of the feature space via proposed method is beneficial.
翻訳日:2023-02-11 21:54:45 公開日:2022-05-24
# 並列量子アニーリングによる大規模最適化問題の解法

Solving Larger Optimization Problems Using Parallel Quantum Annealing ( http://arxiv.org/abs/2205.12165v1 )

ライセンス: Link先を確認
Elijah Pelofske, Georg Hahn, Hristo N. Djidjev(参考訳) 量子アニールは2次非制約二元最適化問題として表されるNPハード問題の低エネルギー解を見つけることができる。 しかし、我々が本研究で検討しているd-waveシステムによって製造される量子アニーラーのハードウェアは、(数千キュービットのオーダーで)疎結合であり、適度にサイズが小さいため、論理的な問題を物理キュービットハードウェアに小さな組み込む必要がある。 比較的小さなハードウェアサイズとマイナーエンベディングの必要性の組み合わせは、現在の量子アニールでは大きな最適化問題を解くことができないことを意味する。 本研究では,並列量子アニーリングとグラフ分解を組み合わせることによって,より大きな最適化問題を正確に解くことができることを示す。 このアプローチを最大120ノードと6395エッジのグラフ上の最大クライク問題に適用する。

Quantum annealing has the potential to find low energy solutions of NP-hard problems that can be expressed as quadratic unconstrained binary optimization problems. However, the hardware of the quantum annealer manufactured by D-Wave Systems, which we consider in this work, is sparsely connected and moderately sized (on the order of thousands of qubits), thus necessitating a minor-embedding of a logical problem onto the physical qubit hardware. The combination of relatively small hardware sizes and the necessity of a minor-embedding can mean that solving large optimization problems is not possible on current quantum annealers. In this research, we show that a hybrid approach combining parallel quantum annealing with graph decomposition allows one to solve larger optimization problem accurately. We apply the approach on the Maximum Clique problem on graphs with up to 120 nodes and 6395 edges.
翻訳日:2023-02-11 21:53:48 公開日:2022-05-24
# QPack Scores: アプリケーション指向量子コンピュータベンチマークにおける定量的パフォーマンス指標

QPack Scores: Quantitative performance metrics for application-oriented quantum computer benchmarking ( http://arxiv.org/abs/2205.12142v1 )

ライセンス: Link先を確認
Huub Donkers, Koen Mesman, Zaid Al-Ars, Matthias M\"oller(参考訳) 本稿では,スケーラブルな量子近似最適化アルゴリズムと変分量子固有解法を応用した,量子コンピュータとシミュレータのためのアプリケーション指向クロスプラットフォームベンチマークスイートqpackのベンチマークスコア定義について述べる。 様々なベンチマークアプリケーションを用いて、一般的なNISQ-eraアプリケーション上で量子コンピュータまたはシミュレータがいかにうまく機能するかの洞察を定量化することができる。 本稿では,量子実行データを収集し,アプリケーション指向の量子ベンチマークのためのベンチマークスコアに変換する手法を提案する。 全体的なベンチマークスコアと、ランタイム、正確性、スケーラビリティ、キャパシティパフォーマンスに基づいたサブスコアが定義されている。 これらのスコアを使って、様々な量子コンピュータシミュレータを比較し、ローカルとベンダーのリモートクラウドサービスの両方で実行します。 ibmq nairobi量子プロセッサの小さな量子実行データの収集には、qpackベンチマークも使用しています。 QPackベンチマークスコアの目標は、量子性能と、異なる量子コンピュータ間の簡単かつ迅速な比較を行う能力に関する総合的な洞察を提供することである。

This paper presents the benchmark score definitions of QPack, an application-oriented cross-platform benchmarking suite for quantum computers and simulators, which makes use of scalable Quantum Approximate Optimization Algorithm and Variational Quantum Eigensolver applications. Using a varied set of benchmark applications, an insight of how well a quantum computer or its simulator performs on a general NISQ-era application can be quantitatively made. This paper presents what quantum execution data can be collected and transformed into benchmark scores for application-oriented quantum benchmarking. Definitions are given for an overall benchmark score, as well as sub-scores based on runtime, accuracy, scalability and capacity performance. Using these scores, a comparison is made between various quantum computer simulators, running both locally and on vendors' remote cloud services. We also use the QPack benchmark to collect a small set of quantum execution data of the IBMQ Nairobi quantum processor. The goal of the QPack benchmark scores is to give a holistic insight into quantum performance and the ability to make easy and quick comparisons between different quantum computers
翻訳日:2023-02-11 21:53:33 公開日:2022-05-24
# 質問難易度予測のための補助タスクガイド型対話型注意モデル

Auxiliary Task Guided Interactive Attention Model for Question Difficulty Prediction ( http://arxiv.org/abs/2207.01494v1 )

ライセンス: Link先を確認
Venktesh V, Md. Shad Akhtar, Mukesh Mohania and Vikram Goyal(参考訳) オンライン学習プラットフォームは、学習者を単調に評価するために試験を実施し、データベース内の質問は、基本的な知識から高度な評価まで複雑さのレベルの違いとしてブルームの分類に分類できる。 この試験で質問されたすべての学習者に対する質問は、非常に静的です。 学習者ごとに異なる難易度を持つ新しい質問をすることで、パーソナライズされた学習体験を提供することが重要になる。 本稿では,学際質問の分類と難易度を共同で予測するための対話型注意機構qdiffを用いたマルチタスク手法を提案する。 予測したブルーム分類表現と入力表現との相互作用を注意機構を用いてモデル化し,難易度予測を支援する。 提案手法は,ブルームの分類学と難易度ラベルの関係を捉えた表現の学習を支援する。 提案手法は,タスク間の関係を利用して適切な入力表現を学習し,タスクが関連しているような設定で使用することができる。 その結果,提案手法は,難易度予測のみに基づく学習よりも優れていた。 しかしながら、bloomのラベルは、あるデータセットに対して常に与えられるとは限らない。 したがって、ブルームのラベルを予測するために微調整されたモデルで別のデータセットをソフトラベルし、難解なラベルのみのデータセットに適用性を示す。

Online learning platforms conduct exams to evaluate the learners in a monotonous way, where the questions in the database may be classified into Bloom's Taxonomy as varying levels in complexity from basic knowledge to advanced evaluation. The questions asked in these exams to all learners are very much static. It becomes important to ask new questions with different difficulty levels to each learner to provide a personalized learning experience. In this paper, we propose a multi-task method with an interactive attention mechanism, Qdiff, for jointly predicting Bloom's Taxonomy and difficulty levels of academic questions. We model the interaction between the predicted bloom taxonomy representations and the input representations using an attention mechanism to aid in difficulty prediction. The proposed learning method would help learn representations that capture the relationship between Bloom's taxonomy and difficulty labels. The proposed multi-task method learns a good input representation by leveraging the relationship between the related tasks and can be used in similar settings where the tasks are related. The results demonstrate that the proposed method performs better than training only on difficulty prediction. However, Bloom's labels may not always be given for some datasets. Hence we soft label another dataset with a model fine-tuned to predict Bloom's labels to demonstrate the applicability of our method to datasets with only difficulty labels.
翻訳日:2023-02-11 21:46:58 公開日:2022-05-24
# 明らかな共変形式における相対論的動的インバージョン

Relativistic dynamical inversion in manifestly covariant form ( http://arxiv.org/abs/2205.14004v1 )

ライセンス: Link先を確認
A. G. Campos, Luca Fabbri(参考訳) relativistic dynamical inversion techniqueはディラック方程式の解析解を見つけるための新しいツールであり、明示的に共変形式で書かれている。 この手法は、与えられたディラックスピノルのデカルト座標から球面座標への変換にどのように用いられるかを示す。 さらに,参照フレームの非自明な変更が容易に行える新しい手法の最も顕著な特徴を示す。 そのような特徴は、ディラック方程式の新しい解を見つけるための潜在的に強力なツールを構成する。 さらに、ディラック方程式に対する正規化可能な解析解の族全体が構成される。 より具体的には、磁場の存在下でのディラック電子の場合の正確な解と、球対称電界と磁場の組み合わせからなる新しい解を見つける。 これらの解は、局所化されたディラックスピノールの正のエネルギー部分と負のエネルギー部分とを磁場の有無とともに分離する可能性に光を当てた。 提案した解は、正規化可能なスピノリアル波動関数に対するスピノルの幾何学的性質とスピン軌道結合との接続の図式を提供する。

The Relativistic Dynamical Inversion technique, a novel tool for finding analytical solutions to the Dirac equation, is written in explicitly covariant form. It is then shown how the technique can be used to make a change from Cartesian to spherical coordinates of a given Dirac spinor. Moreover the most remarkable feature of the new method, which is the ease of performing non-trivial change of reference frames, is demonstrated. Such a feature constitutes a potentially powerful tool for finding novel solutions to the Dirac equation. Furthermore, a whole family of normalizable analytic solutions to the Dirac equation is constructed. More specifically, we find exact solutions for the case of a Dirac electron in the presence of a magnetic field as well as a novel solution comprising of a combination of a spherically symmetric electric field and magnetic fields. These solutions shed light on the possibility of separating the positive and negative energy parts of localized Dirac spinors in the presence as well as in the absence of magnetic fields. The presented solutions provide an illustration of the connection between the geometrical properties of the spinor and spin-orbit coupling for normalizable spinorial wave functions.
翻訳日:2023-02-11 21:46:37 公開日:2022-05-24
# 量子ビットにおけるエネルギー変動の理論

Theory of the Energy Variance in a Quantum Bit ( http://arxiv.org/abs/2205.12763v1 )

ライセンス: Link先を確認
Gilbert Reinisch(参考訳) 我々は、古典物理学におけるエネルギー分散の統計的定義から単に重複する新しい量子エルミート作用素(すなわちエネルギー分散作用素)を定義する。 その期待値は、後者の平均値に関するエネルギーの標準偏差をもたらす。 我々は、この標準偏差は、通常回転波近似で破棄される高周波数エネルギー振動によるものであるという正確なハミルトン的記述を用いて示す。 最近の実験で説明されている急な量子ジャンプの期間を回復することで、現在の理論を確認する。

We define a new quantum Hermitian operator (namely, the energy variance operator) which is simply duplicated from the statistical definition of energy variance in classical physics. Its expectation value yields the standard deviation of the energy about the mean value of this latter. We show by use of an exact Hamiltonian description that this standard deviation is due to the high-frequeny energy oscillations which are usually discarded in the rotating wave aproximation. We check the present theory by recovering the duration of an abrupt quantum jump that has been described in a recent experiment.
翻訳日:2023-02-11 21:46:22 公開日:2022-05-24
# 量子最適化アルゴリズムはどの程度必要か?

How Much Entanglement Do Quantum Optimization Algorithms Require? ( http://arxiv.org/abs/2205.12283v1 )

ライセンス: Link先を確認
Yanzhu Chen, Linghua Zhu, Chenxu Liu, Nicholas J. Mayhall, Edwin Barnes, and Sophia E. Economou(参考訳) 多くの古典的最適化問題は、量子近似最適化アルゴリズム(qaoa)のような変分量子アルゴリズムがヒューリスティックな手法を提供する対角イジングハミルトンの基底状態を見つけるためにマッピングすることができる。 このような古典的最適化問題の解は必ずしも積状態であるため、絡み合いが性能に与える影響は明らかでない。 QAOAのAdaptive Derivative-Assembled Problem-Tailored (ADAPT) 変動は、回路全体のCNOTゲートが少なくなるのに対して、ミキサー層におけるエンタングリング操作を許容することで収束率を向上させる。 本研究では,ADAPT-QAOAの実行時に発生する絡みについて検討する。 重み付きMax-Cut問題のシミュレーションにより、ADAPT-QAOAは量子ビットのエンタングおよびアンタングリングにおいてかなりの柔軟性を示すことを示す。 この柔軟性を漸進的に制限することにより、初期におけるより多くの絡み合いエントロピーが、後段におけるより速い収束と一致することが分かる。 対照的に、標準QAOAはいくつかの層内での絡み合いを迅速に生成するが、過剰な絡み合いを効率的に除去することはできない。 この結果から,量子最適化アルゴリズムの利点が示唆された。

Many classical optimization problems can be mapped to finding the ground states of diagonal Ising Hamiltonians, for which variational quantum algorithms such as the Quantum Approximate Optimization Algorithm (QAOA) provide heuristic methods. Because the solutions of such classical optimization problems are necessarily product states, it is unclear how entanglement affects their performance. An Adaptive Derivative-Assembled Problem-Tailored (ADAPT) variation of QAOA improves the convergence rate by allowing entangling operations in the mixer layers whereas it requires fewer CNOT gates in the entire circuit. In this work, we study the entanglement generated during the execution of ADAPT-QAOA. Through simulations of the weighted Max-Cut problem, we show that ADAPT-QAOA exhibits substantial flexibility in entangling and disentangling qubits. By incrementally restricting this flexibility, we find that a larger amount of entanglement entropy at earlier stages coincides with faster convergence at later stages. In contrast, while the standard QAOA quickly generates entanglement within a few layers, it cannot remove excess entanglement efficiently. Our results offer implications for favorable features of quantum optimization algorithms.
翻訳日:2023-02-11 21:44:19 公開日:2022-05-24
# 逆線形文脈バンディットの効率的かつロバストなアルゴリズム

Efficient and Robust Algorithms for Adversarial Linear Contextual Bandits ( http://arxiv.org/abs/2002.00287v3 )

ライセンス: Link先を確認
Gergely Neu, Julia Olkhovskaya(参考訳) 従来の$k$-armed linear context bandit問題では,各アームに関連する損失関数のシーケンスを時間とともに制限することなく変更することができる。 既知の分布からランダムに,$d$次元の文脈が生成されるという仮定のもと,古典的な exp3 アルゴリズムに基づく計算効率の高いアルゴリズムを開発した。 我々の最初のアルゴリズムであるRealLinExp3は、$\widetilde{O}(\sqrt{KdT})$ over $T$という、この問題の最も有効な境界値に一致した後悔の保証を実現する。 第2のアルゴリズムである robustlinexp3 は、$\widetilde{o}((kd)^{1/3}t^{2/3}) + \varepsilon \sqrt{d} t$ という、真の報酬関数が絶対値が$\varepsilon$ で一様に有界な加法的非線形誤差まで線形であるときに、不特定化に対して頑健であることが示されている。 我々の知る限り、我々の性能保証はこの問題設定に関する最初の結果を構成する。

We consider an adversarial variant of the classic $K$-armed linear contextual bandit problem where the sequence of loss functions associated with each arm are allowed to change without restriction over time. Under the assumption that the $d$-dimensional contexts are generated i.i.d.~at random from a known distributions, we develop computationally efficient algorithms based on the classic Exp3 algorithm. Our first algorithm, RealLinExp3, is shown to achieve a regret guarantee of $\widetilde{O}(\sqrt{KdT})$ over $T$ rounds, which matches the best available bound for this problem. Our second algorithm, RobustLinExp3, is shown to be robust to misspecification, in that it achieves a regret bound of $\widetilde{O}((Kd)^{1/3}T^{2/3}) + \varepsilon \sqrt{d} T$ if the true reward function is linear up to an additive nonlinear error uniformly bounded in absolute value by $\varepsilon$. To our knowledge, our performance guarantees constitute the very first results on this problem setting.
翻訳日:2023-01-05 00:35:52 公開日:2022-05-24
# ニューラルネットワークの幅と深さの準等価性

Quasi-Equivalence of Width and Depth of Neural Networks ( http://arxiv.org/abs/2002.02515v7 )

ライセンス: Link先を確認
Feng-Lei Fan, Rongjie Lai, Ge Wang(参考訳) 古典的な研究は、広帯域ネットワークは普遍的な近似を可能にすることを示したが、近年のディープラーニングの研究と成功はディープネットワークの力を示している。 対称的考察に基づき,ニューラルネットワークの設計は方向選好を持つべきかどうか,ネットワークの幅と深さとの間の相互作用のメカニズムについて検討する。 De Morgan法に触発されて、ReLUネットワークの幅と深さの準等価性を2つの側面で確立することで、この根本的な問題に対処する。 まず、任意のReLUネットワークを広帯域ネットワークと深帯域ネットワークにそれぞれマッピングするための2つの変換を定式化し、元のネットワークの本質的に同じ機能を実装できるようにした。 そこで,本研究では,主要な人工ニューロンを二次的に置き換え,同じ多項式関数の因子化と連続分数表現を用いて,広帯域ネットワークと深層ネットワークを構築する。 以上の結果から,深層ネットワークは広範に等価であり,その逆も任意に小さい誤差を受ける。

While classic studies proved that wide networks allow universal approximation, recent research and successes of deep learning demonstrate the power of deep networks. Based on a symmetric consideration, we investigate if the design of artificial neural networks should have a directional preference, and what the mechanism of interaction is between the width and depth of a network. Inspired by the De Morgan law, we address this fundamental question by establishing a quasi-equivalence between the width and depth of ReLU networks in two aspects. First, we formulate two transforms for mapping an arbitrary ReLU network to a wide network and a deep network respectively for either regression or classification so that the essentially same capability of the original network can be implemented. Then, we replace the mainstream artificial neuron type with a quadratic counterpart, and utilize the factorization and continued fraction representations of the same polynomial function to construct a wide network and a deep network, respectively. Based on our findings, a deep network has a wide equivalent, and vice versa, subject to an arbitrarily small error.
翻訳日:2023-01-03 09:51:39 公開日:2022-05-24
# ビデオ会議のためのマルチモーダル能動話者検出と仮想撮影

Multimodal active speaker detection and virtual cinematography for video conferencing ( http://arxiv.org/abs/2002.03977v3 )

ライセンス: Link先を確認
Ross Cutler, Ramin Mehran, Sam Johnson, Cha Zhang, Adam Kirk, Oliver Whyte, Adarsh Kowdle(参考訳) アクティブ・スピーカー検出(asd)とバーチャル・シネマトグラフィー(vc)は、ビデオ会議カメラを自動的にパンしたり傾けたりズームしたりすることで、ビデオ会議の遠隔ユーザ体験を大幅に改善することができる。 本稿では,1-5スケールの主観的評価に基づいて,専門撮影技師の0.3MOS以内の自動化ASDとVCについて述べる。 このシステムは、4K広視野カメラ、ディープカメラ、マイクアレイを使用し、各モードから特徴を抽出し、非常に効率的でリアルタイムに実行されるAdaBoost機械学習システムを用いてASDを訓練する。 vcも同様に機械学習を使って、エクスペリエンス全体の主観的品質を最適化する訓練を行っている。 部屋の参加者の気を散らさないようにし、切り替えのレイテンシを低減するため、システムは可動部品を持たない。VCは4Kの広視野ビデオストリームをトリミングしてズームすることで機能する。 このシステムをクラウドソーシング技術を用いて調整,評価し,N=100のミーティングを2~5分間隔でデータセット上で評価した。

Active speaker detection (ASD) and virtual cinematography (VC) can significantly improve the remote user experience of a video conference by automatically panning, tilting and zooming of a video conferencing camera: users subjectively rate an expert video cinematographer's video significantly higher than unedited video. We describe a new automated ASD and VC that performs within 0.3 MOS of an expert cinematographer based on subjective ratings with a 1-5 scale. This system uses a 4K wide-FOV camera, a depth camera, and a microphone array; it extracts features from each modality and trains an ASD using an AdaBoost machine learning system that is very efficient and runs in real-time. A VC is similarly trained using machine learning to optimize the subjective quality of the overall experience. To avoid distracting the room participants and reduce switching latency the system has no moving parts -- the VC works by cropping and zooming the 4K wide-FOV video stream. The system was tuned and evaluated using extensive crowdsourcing techniques and evaluated on a dataset with N=100 meetings, each 2-5 minutes in length.
翻訳日:2023-01-02 08:27:38 公開日:2022-05-24
# MAGMA:マルチタスクガウスプロセスによる推論と予測

MAGMA: Inference and Prediction with Multi-Task Gaussian Processes ( http://arxiv.org/abs/2007.10731v2 )

ライセンス: Link先を確認
Arthur Leroy and Pierre Latouche and Benjamin Guedj and Servane Gey(参考訳) タスク間で情報を共有するための共通平均プロセスを用いて,新しいマルチタスクガウスプロセス(GP)フレームワークを提案する。 特に,複数ステップ予測の改善を目的とした時系列予測の問題について検討する。 共通平均過程は、超後続分布がトラクタブルなGPとして定義される。 したがって、超パラメータ最適化と超後方計算の両方を扱うためにEMアルゴリズムが導出される。 文献における従来のアプローチとは異なり、モデルは不確実性を完全に考慮し、統一GPフレームワークで平均過程をモデル化することにより、明示的な定式化を維持しながら不規則な観測格子を処理できる。 予測分析方程式が提供され、関連する事前平均を通じてタスク間で共有される情報を統合する。 このアプローチは観測から遠ざかっても予測性能を大幅に改善し、従来のマルチタスクGPモデルと比較して計算量を大幅に削減する可能性がある。 我々の全体的なアルゴリズムは \textsc{Magma} (Multi tAsk Gaussian process with common MeAn) と呼ばれる。 平均プロセス推定、予測性能、代替品との比較の質は、様々なシミュレーションシナリオと実際のデータセットで評価される。

A novel multi-task Gaussian process (GP) framework is proposed, by using a common mean process for sharing information across tasks. In particular, we investigate the problem of time series forecasting, with the objective to improve multiple-step-ahead predictions. The common mean process is defined as a GP for which the hyper-posterior distribution is tractable. Therefore an EM algorithm is derived for handling both hyper-parameters optimisation and hyper-posterior computation. Unlike previous approaches in the literature, the model fully accounts for uncertainty and can handle irregular grids of observations while maintaining explicit formulations, by modelling the mean process in a unified GP framework. Predictive analytical equations are provided, integrating information shared across tasks through a relevant prior mean. This approach greatly improves the predictive performances, even far from observations, and may reduce significantly the computational complexity compared to traditional multi-task GP models. Our overall algorithm is called \textsc{Magma} (standing for Multi tAsk Gaussian processes with common MeAn). The quality of the mean process estimation, predictive performances, and comparisons to alternatives are assessed in various simulated scenarios and on real datasets.
翻訳日:2022-11-08 04:29:40 公開日:2022-05-24
# Deep Kriging:空間依存型ディープニューラルネットワークによる空間予測

DeepKriging: Spatially Dependent Deep Neural Networks for Spatial Prediction ( http://arxiv.org/abs/2007.11972v4 )

ライセンス: Link先を確認
Wanfang Chen, Yuxiao Li, Brian J Reich and Ying Sun(参考訳) 空間統計学において、共通の目的は、空間依存を利用して観測されていない場所での空間過程の値を予測することである。 クリギングは共分散関数を用いた最良の線形非バイアス予測器を提供し、しばしばガウス過程と関連付けられる。 しかし、非ガウス的およびカテゴリー的データの非線形予測を考えると、クリギング予想はもはや最適ではなく、関連する分散はしばしば過度に楽観的である。 深層ニューラルネットワーク(dnn)は一般分類や予測に広く用いられているが、空間依存のデータについては十分に研究されていない。 そこで本研究では,空間座標の埋め込み層と基底関数を付加することにより空間依存を捉える空間予測のための新しいDNN構造を提案する。 提案手法はガウスのケースではKrigingと直接リンクしており、非ガウスおよび非定常データに対してKrigingよりも多くの利点がある、すなわち、非線形予測を提供し、近似誤差が小さく、共分散行列の演算を必要とせず、大きなデータセットに対してスケーラブルであり、十分に多くの隠れニューロンがモデルキャパシティの観点から最適な予測を提供する、という理論とシミュレーション研究で示している。 さらに,データ分布を仮定することなく,密度予測に基づく予測の不確かさの定量化の可能性についても検討する。 最後に,アメリカ大陸におけるPM2.5濃度の予測に本手法を適用した。

In spatial statistics, a common objective is to predict values of a spatial process at unobserved locations by exploiting spatial dependence. Kriging provides the best linear unbiased predictor using covariance functions and is often associated with Gaussian processes. However, when considering non-linear prediction for non-Gaussian and categorical data, the Kriging prediction is no longer optimal, and the associated variance is often overly optimistic. Although deep neural networks (DNNs) are widely used for general classification and prediction, they have not been studied thoroughly for data with spatial dependence. In this work, we propose a novel DNN structure for spatial prediction, where the spatial dependence is captured by adding an embedding layer of spatial coordinates with basis functions. We show in theory and simulation studies that the proposed DeepKriging method has a direct link to Kriging in the Gaussian case, and it has multiple advantages over Kriging for non-Gaussian and non-stationary data, i.e., it provides non-linear predictions and thus has smaller approximation errors, it does not require operations on covariance matrices and thus is scalable for large datasets, and with sufficiently many hidden neurons, it provides the optimal prediction in terms of model capacity. We further explore the possibility of quantifying prediction uncertainties based on density prediction without assuming any data distribution. Finally, we apply the method to predicting PM2.5 concentrations across the continental United States.
翻訳日:2022-11-07 12:12:56 公開日:2022-05-24
# 線形時間公開発表論理 : 複数分類器の知識を推論するための新しい視点

Linear Temporal Public Announcement Logic: a new perspective for reasoning about the knowledge of multi-classifiers ( http://arxiv.org/abs/2009.03793v3 )

ライセンス: Link先を確認
Amirhoshang Hoseinpour Dehkordi, Majid Alizadeh, Ali Movaghar(参考訳) 本稿では,分類過程における知識を抽出するLTPALという形式的遷移システムモデルを提案する。 このモデルは、PAL(Public Announcement Logic)とLTL(Linear Temporal Logic)を組み合わせたものである。 モデルでは,まず,単一フレームデータを取り込む分類器について検討する。 次に、データストリームデータ入力の分類器を考慮に入れた。 最後に,ビデオストリームオブジェクト検出サンプルを用いてLTPALの自然言語特性を定式化する。

In this note, a formal transition system model called LTPAL to extract knowledge in a classification process is suggested. The model combines the Public Announcement Logic (PAL) and the Linear Temporal Logic (LTL). In the model, first, we consider classifiers, which capture single-framed data. Next, we took classifiers for data-stream data input into consideration. Finally, we formalize natural language properties in LTPAL with a video-stream object detection sample.
翻訳日:2022-10-20 21:11:30 公開日:2022-05-24
# 無人航空機による空中追跡のための相関フィルタ:レビューと実験的評価

Correlation Filters for Unmanned Aerial Vehicle-Based Aerial Tracking: A Review and Experimental Evaluation ( http://arxiv.org/abs/2010.06255v6 )

ライセンス: Link先を確認
Changhong Fu, Bowen Li, Fangqiang Ding, Fuling Lin and Geng Lu(参考訳) 空中追跡は全方位の献身と素晴らしい性能を示しており、リモートセンシング分野における最もアクティブな応用の1つである。 特に、視覚追跡アプローチを備えた無人航空機(uav)ベースのリモートセンシングシステムは、航空、航行、農業、輸送、治安などにおいて広く使われている。 上述したように、UAVベースの空中追跡プラットフォームは研究から実用化段階へと徐々に発展し、将来的には主要な空中リモートセンシング技術の一つとなる。 しかし, 厳しい外的課題, uavの機械構造(特に強風下での振動, 複雑な環境下での操縦飛行, 限られた計算資源, 正確性, 頑健性, 高効率など, 実世界の有意な状況のため, すべてオンボード追跡法において不可欠である。 近年,識別相関フィルタ(DCF)ベースのトラッカーは,高い計算効率と,単一CPU上でのロバスト性に優れ,UAV視覚追跡コミュニティで栄えている。 本研究では,dcfトラッカの基本フレームワークをまず一般化し,23種類の最先端のdcfトラッカを,様々な問題を解決するためのイノベーションに従って秩序的に要約する。 さらに、UAV123、UAV123@10fps、UAV20L、UAVDT、DTB70、VisDrone2019-SOTの371,903フレームを含む様々なUAV追跡ベンチマークにおいて、徹底的で定量的な実験が拡張されている。 実験では、UAVトラッキングにおけるDCFベースのトラッカーの現在の課題として、パフォーマンスを示し、実現可能性を検証する。

Aerial tracking, which has exhibited its omnipresent dedication and splendid performance, is one of the most active applications in the remote sensing field. Especially, unmanned aerial vehicle (UAV)-based remote sensing system, equipped with a visual tracking approach, has been widely used in aviation, navigation, agriculture,transportation, and public security, etc. As is mentioned above, the UAV-based aerial tracking platform has been gradually developed from research to practical application stage, reaching one of the main aerial remote sensing technologies in the future. However, due to the real-world onerous situations, e.g., harsh external challenges, the vibration of the UAV mechanical structure (especially under strong wind conditions), the maneuvering flight in complex environment, and the limited computation resources onboard, accuracy, robustness, and high efficiency are all crucial for the onboard tracking methods. Recently, the discriminative correlation filter (DCF)-based trackers have stood out for their high computational efficiency and appealing robustness on a single CPU, and have flourished in the UAV visual tracking community. In this work, the basic framework of the DCF-based trackers is firstly generalized, based on which, 23 state-of-the-art DCF-based trackers are orderly summarized according to their innovations for solving various issues. Besides, exhaustive and quantitative experiments have been extended on various prevailing UAV tracking benchmarks, i.e., UAV123, UAV123@10fps, UAV20L, UAVDT, DTB70, and VisDrone2019-SOT, which contain 371,903 frames in total. The experiments show the performance, verify the feasibility, and demonstrate the current challenges of DCF-based trackers onboard UAV tracking.
翻訳日:2022-10-08 00:59:46 公開日:2022-05-24
# 複数物体追跡における検出とReIDの競合再考

Rethinking the competition between detection and ReID in Multi-Object Tracking ( http://arxiv.org/abs/2010.12138v3 )

ライセンス: Link先を確認
Chao Liang, Zhipeng Zhang, Xue Zhou, Bing Li, Shuyuan Zhu, Weiming Hu(参考訳) 精度と速度のバランスがとれたため、検出と識別の埋め込みを共同で学習するワンショットモデルは、マルチオブジェクトトラッキング(MOT)において大きな注目を集めている。 しかし、検出と再識別(ReID)の固有の違いと関係性は、一発追跡パラダイムにおいて2つの独立したタスクとして扱われるため、意識的に見過ごされる。 これは既存の2段階の手法に比べて性能が劣る。 本稿では,これらの2つのタスクの推論過程をまず解明し,それらの競合が必然的にタスク依存表現学習を破壊することを示した。 そこで本研究では, タスク依存表現の学習を各分岐に促すために, 自己相関と相互相関設計を備えた新しい相互ネットワーク (ren) を提案する。 提案手法は, 有害なタスク競合を軽減し, 検出とReIDの協調性を向上することを目的としている。 さらに,ID埋め込みの関連性を改善するために,意味レベルのミスアライメントを防止するスケールアウェア・アテンション・ネットワーク(SAAN)を導入する。 2つの繊細に設計されたネットワークをワンショットオンラインMOTシステムに統合することにより、強力なMOTトラッカー、すなわちCSTrackを構築する。 トラッカーは,MOT16,MOT17,MOT20データセット上で,他のベルやホイッスルを使わずに,最先端のパフォーマンスを実現する。 さらに、CSTrackは効率的で、単一のモダンGPU上で16.4 FPSで動作し、軽量バージョンは34.6 FPSでも動作する。 完全なコードはhttps://github.com/JudasDie/SOTSで公開されている。

Due to balanced accuracy and speed, one-shot models which jointly learn detection and identification embeddings, have drawn great attention in multi-object tracking (MOT). However, the inherent differences and relations between detection and re-identification (ReID) are unconsciously overlooked because of treating them as two isolated tasks in the one-shot tracking paradigm. This leads to inferior performance compared with existing two-stage methods. In this paper, we first dissect the reasoning process for these two tasks, which reveals that the competition between them inevitably would destroy task-dependent representations learning. To tackle this problem, we propose a novel reciprocal network (REN) with a self-relation and cross-relation design so that to impel each branch to better learn task-dependent representations. The proposed model aims to alleviate the deleterious tasks competition, meanwhile improve the cooperation between detection and ReID. Furthermore, we introduce a scale-aware attention network (SAAN) that prevents semantic level misalignment to improve the association capability of ID embeddings. By integrating the two delicately designed networks into a one-shot online MOT system, we construct a strong MOT tracker, namely CSTrack. Our tracker achieves the state-of-the-art performance on MOT16, MOT17 and MOT20 datasets, without other bells and whistles. Moreover, CSTrack is efficient and runs at 16.4 FPS on a single modern GPU, and its lightweight version even runs at 34.6 FPS. The complete code has been released at https://github.com/JudasDie/SOTS.
翻訳日:2022-10-03 23:00:09 公開日:2022-05-24
# クロスU統計を用いた次元非依存推論

Dimension-agnostic inference using cross U-statistics ( http://arxiv.org/abs/2011.05068v4 )

ライセンス: Link先を確認
Ilmun Kim, Aaditya Ramdas(参考訳) 統計的推論に対する古典的な漸近理論は、通常、次元$d$を固定し、サンプルサイズ$n$を無限大に増やすことで統計学を校正する。 最近、これらのメソッドが高次元設定でどのように振る舞うかを理解するために多くの努力が払われており、$d$と$n$は共に無限大へと増加する。 これはしばしば、次元に関する仮定によって異なる推論手順をもたらし、実践者はバインドに残される: 20次元に100のサンプルを持つデータセットが与えられたら、$n \gg d$、または$d/n \approx 0.2$を仮定してキャリブレーションすべきだろうか? 本論文は次元非依存推論の目的を考察し,$d$ と $n$ の仮定に依存しない手法の開発について述べる。 本稿では,既存のテスト統計量の変分表現とサンプル分割と自己正規化を用いてガウス極限分布を持つ新しいテスト統計を生成する手法を提案する。 結果の統計学は、縮退したU統計を慎重に修正し、対角ブロックを落とし、対角ブロックを外したままにすると見なすことができる。 我々は,一サンプル平均値と共分散テストを含む古典的な問題に対して,我々の手法を例示する。 我々のテストでは、適切な局所的な代替品に対する最小の速度最適パワーが示され、それらのパワーは最大$\sqrt 2$ factorまで最適である。 最後に、次元非依存推論を他の問題に拡張するための次のステップを提案する。

Classical asymptotic theory for statistical inference usually involves calibrating a statistic by fixing the dimension $d$ while letting the sample size $n$ increase to infinity. Recently, much effort has been dedicated towards understanding how these methods behave in high-dimensional settings, where $d$ and $n$ both increase to infinity together. This often leads to different inference procedures, depending on the assumptions about the dimensionality, leaving the practitioner in a bind: given a dataset with 100 samples in 20 dimensions, should they calibrate by assuming $n \gg d$, or $d/n \approx 0.2$? This paper considers the goal of dimension-agnostic inference; developing methods whose validity does not depend on any assumption on $d$ versus $n$. We introduce an approach that uses variational representations of existing test statistics along with sample splitting and self-normalization to produce a new test statistic with a Gaussian limiting distribution. The resulting statistic can be viewed as a careful modification of degenerate U-statistics, dropping diagonal blocks and retaining off-diagonal blocks. We exemplify our technique for a handful of classical problems including one-sample mean and covariance testing. Our tests are shown to have minimax rate-optimal power against appropriate local alternatives, and their power is optimal up to a $\sqrt 2$ factor. We end by suggesting some next steps for extending dimension-agnostic inference to other problems.
翻訳日:2022-09-27 08:17:16 公開日:2022-05-24
# (参考訳) FabKG: 構造的・非構造的知識源を利用した製造科学領域の知識グラフ

FabKG: A Knowledge graph of Manufacturing Science domain utilizing structured and unconventional unstructured knowledge source ( http://arxiv.org/abs/2206.10318v1 )

ライセンス: CC BY 4.0
Aman Kumar, Akshay G Bharadwaj, Binil Starly, Collin Lynch(参考訳) 大規模情報処理の需要が高まるにつれ、知識グラフベースのアプローチは一般およびドメインの知識を表現する上で有益になった。 このような一般的な表現の発達は、特に知的プロセスや適応教育が強化できる生産のような分野において不可欠である。 これらの領域におけるテキストの連続的な蓄積にもかかわらず、構造化データの欠如は情報抽出と知識伝達の障壁を生み出した。 本稿では,商業用と教育用の両方において,エンティティと関係データに基づくロバストな知識グラフの開発に向けた取り組みについて報告する。 FabKG (Manufacturing Knowledge graph) を作成するために,教科書インデックス語,研究論文キーワード,FabNER (Manufacturing NER) を用いてWikidataに含まれるサブ知識ベースを抽出した。 また,学習や筆記試験のための個人的準備における使用を除いた,貴重な情報を含むが有意義な情報として捉えられていない学生ノートを活用することで,kg作成のための新たなクラウドソーシング手法を提案する。 すべてのデータソースを使用して、65000以上のトリプルを含むナレッジグラフを作成しました。 また, ドメイン固有の質問応答と表現/形式に基づく質問応答の活用例を示した。

As the demands for large-scale information processing have grown, knowledge graph-based approaches have gained prominence for representing general and domain knowledge. The development of such general representations is essential, particularly in domains such as manufacturing which intelligent processes and adaptive education can enhance. Despite the continuous accumulation of text in these domains, the lack of structured data has created information extraction and knowledge transfer barriers. In this paper, we report on work towards developing robust knowledge graphs based upon entity and relation data for both commercial and educational uses. To create the FabKG (Manufacturing knowledge graph), we have utilized textbook index words, research paper keywords, FabNER (manufacturing NER), to extract a sub knowledge base contained within Wikidata. Moreover, we propose a novel crowdsourcing method for KG creation by leveraging student notes, which contain invaluable information but are not captured as meaningful information, excluding their use in personal preparation for learning and written exams. We have created a knowledge graph containing 65000+ triples using all data sources. We have also shown the use case of domain-specific question answering and expression/formula-based question answering for educational purposes.
翻訳日:2022-06-27 07:56:38 公開日:2022-05-24
# (参考訳) gpuにおけるニューラルネットワークの信頼性評価:永久的障害注入のための枠組み

Reliability Assessment of Neural Networks in GPUs: A Framework For Permanent Faults Injections ( http://arxiv.org/abs/2205.12177v1 )

ライセンス: CC BY-SA 4.0
Juan-David Guerrero-Balaguera, Luigi Galasso, Robert Limas Sierra, Matteo Sonza Reorda(参考訳) 現在、ディープラーニングと特に畳み込みニューラルネットワーク(cnns)は、安全クリティカルなアプリケーション(自動車、ロボティクス、医療機器など)を含む、幅広い領域に適用される基本的な計算アプローチとなっている。 したがって,これらの計算システムの信頼性評価は必須である。 CNNの信頼性評価は,アプリケーションのレベルからハードウェアレベルまで,さまざまな抽象化レベルでフォールトインジェクションキャンペーンによって行われる。 多くの研究は、過渡的障害の存在下でのニューラルネットワークの信頼性の評価に焦点を当てている。 しかし、永続的な障害の影響は、例えばネットワークのパラメータをターゲットとするアプリケーションレベルでのみ調査されている。 本稿では,レジスタファイルや機能ユニットなど,GPU内のさまざまなコンポーネントを対象として,障害注入キャンペーンを行うためのバイナリインスツルメンテーションツールを用いたフレームワークを提案する。 この環境は、永久障害の存在を考慮してgpuにデプロイされたcnnの信頼性を初めて評価することができる。

Currently, Deep learning and especially Convolutional Neural Networks (CNNs) have become a fundamental computational approach applied in a wide range of domains, including some safety-critical applications (e.g., automotive, robotics, and healthcare equipment). Therefore, the reliability evaluation of those computational systems is mandatory. The reliability evaluation of CNNs is performed by fault injection campaigns at different levels of abstraction, from the application level down to the hardware level. Many works have focused on evaluating the reliability of neural networks in the presence of transient faults. However, the effects of permanent faults have been investigated at the application level, only, e.g., targeting the parameters of the network. This paper intends to propose a framework, resorting to a binary instrumentation tool to perform fault injection campaigns, targeting different components inside the GPU, such as the register files and the functional units. This environment allows for the first time assessing the reliability of CNNs deployed on a GPU considering the presence of permanent faults.
翻訳日:2022-06-27 07:46:38 公開日:2022-05-24
# 量子化と非量子化ReLUニューラルネットワークの近似速度

Approximation speed of quantized vs. unquantized ReLU neural networks and beyond ( http://arxiv.org/abs/2205.11874v1 )

ライセンス: Link先を確認
Antoine Gonon (DANTE, ARIC), Nicolas Brisebarre (ARIC), R\'emi Gribonval (DANTE), Elisa Riccietti (DANTE)(参考訳) ReLUニューラルネットワークを含む一般近似系を考える。 一方、我々は$\infty$-encodabilityと呼ばれる新しいプロパティを導入しています。 i) ReLU ネットワークが均一に量子化され、なおも非定量化に匹敵する近似速度を持つことを保証し、 (ii) reluネットワークが他の多くの近似族と共通の制限を共有していることを証明するために、集合 c の近似速度は上から c の符号化複雑性によって制限される(多くの c でよく知られている複雑性)。 $\infty$-encodabilityの特性により、暗黙的に使われた既知の結果を統一し、一般化することができる。 一方、ネットワークの重みを l^p で表現する関数に関連付ける写像のリプシッツ定数の下限と上限を与える。 これは、幅、ネットワークの深さ、およびウェイトノルム上の有界という観点から与えられ、ReLUネットワークで表される関数のリプシッツ定数上のよく知られた上限に基づいている。 これにより、既知の結果を復元し、カバー数に新たな境界を定め、ReLUネットワークのネーブ均一量子化の精度を特徴付けることができる。

We consider general approximation families encompassing ReLU neural networks. On the one hand, we introduce a new property, that we call $\infty$-encodability, which lays a framework that we use (i) to guarantee that ReLU networks can be uniformly quantized and still have approximation speeds comparable to unquantized ones, and (ii) to prove that ReLU networks share a common limitation with many other approximation families: the approximation speed of a set C is bounded from above by an encoding complexity of C (a complexity well-known for many C's). The property of $\infty$-encodability allows us to unify and generalize known results in which it was implicitly used. On the other hand, we give lower and upper bounds on the Lipschitz constant of the mapping that associates the weights of a network to the function they represent in L^p. It is given in terms of the width, the depth of the network and a bound on the weight's norm, and it is based on well-known upper bounds on the Lipschitz constants of the functions represented by ReLU networks. This allows us to recover known results, to establish new bounds on covering numbers, and to characterize the accuracy of naive uniform quantization of ReLU networks.
翻訳日:2022-06-26 15:20:06 公開日:2022-05-24
# eventmix: イベントベースのデータの効率的な拡張戦略

EventMix: An Efficient Augmentation Strategy for Event-Based Data ( http://arxiv.org/abs/2205.12054v1 )

ライセンス: Link先を確認
Guobin Shen, Dongcheng Zhao, Yi Zeng(参考訳) 高品質で挑戦的なイベントストリームデータセットは、脳を模倣する効率的なイベント駆動メカニズムの設計において重要な役割を果たす。 イベントカメラは、高ダイナミックレンジと低エネルギーのイベントストリームデータを提供できるが、このスケールは、ニューロモルフィックコンピューティングの発達を制限する従来のフレームベースデータよりも小さく、入手が難しい。 データ拡張は、元のデータからより多くの表現を処理することにより、元のデータ量と品質を改善することができる。 本稿では,イベントストリームデータのための効率的なデータ拡張戦略であるeventmixを提案する。 種々のイベントストリームの混合をガウス混合モデルを用いて慎重に設計し,ランダムな3次元マスクを生成し,時空間次元におけるイベントストリームの任意の形状混合を実現する。 イベントストリームの相対的な距離を計算することで、混合サンプルにラベルを割り当てるより合理的な方法を提案する。 複数のニューロモルフィックデータセットを用いた実験の結果, annとsnsの両方のニューロモルフィックデータセットの性能向上が期待でき, dvs-cifar10, n-caltech101, n-cars, dvs-gestureデータセットでは最先端のパフォーマンスが得られた。

High-quality and challenging event stream datasets play an important role in the design of an efficient event-driven mechanism that mimics the brain. Although event cameras can provide high dynamic range and low-energy event stream data, the scale is smaller and more difficult to obtain than traditional frame-based data, which restricts the development of neuromorphic computing. Data augmentation can improve the quantity and quality of the original data by processing more representations from the original data. This paper proposes an efficient data augmentation strategy for event stream data: EventMix. We carefully design the mixing of different event streams by Gaussian Mixture Model to generate random 3D masks and achieve arbitrary shape mixing of event streams in the spatio-temporal dimension. By computing the relative distances of event streams, we propose a more reasonable way to assign labels to the mixed samples. The experimental results on multiple neuromorphic datasets have shown that our strategy can improve its performance on neuromorphic datasets both for ANNs and SNNs, and we have achieved state-of-the-art performance on DVS-CIFAR10, N-Caltech101, N-CARS, and DVS-Gesture datasets.
翻訳日:2022-06-26 14:42:59 公開日:2022-05-24
# (参考訳) グラフニューラルネットワークが確率的グラフィカルモデルと交差する:調査

Graph Neural Networks Intersect Probabilistic Graphical Models: A Survey ( http://arxiv.org/abs/2206.06089v1 )

ライセンス: CC0 1.0
Chenqing Hua(参考訳) グラフはリレーショナルデータを表現する強力なデータ構造であり、複雑な現実世界のデータ構造を記述するために広く使われている。 確率的グラフィカルモデル(PGM)は、変数の分布のコンパクトなグラフィカル表現において、現実のシナリオを数学的にモデル化するために、過去数年間によく開発されてきた。 グラフニューラルネットワーク(GNN)は近年開発された新しい推論手法であり、グラフ構造化データに対する推論と学習問題の解法の有効性と柔軟性から注目されている。 これら2つの強力なアプローチは、観察とメッセージパッシングの方法との関係を捉える上で異なるアドバンテージを持ち、さまざまなタスクで互いにメリットを享受することができる。 本稿では,GNN と PGM の交点を幅広く調査する。 具体的には、まず、GNNがPGMの構造化表現を学習し、PGMによる説明可能な予測を生成し、PGMがオブジェクト関係を推測する方法について論じる。 次に、より効率的な推論と構造学習のために、GNNがPGMにどのように実装されているかについて議論する。 最後に,最近の研究で使用されているベンチマークデータセットを要約し,今後の方向性について考察する。

Graphs are a powerful data structure to represent relational data and are widely used to describe complex real-world data structures. Probabilistic Graphical Models (PGMs) have been well-developed in the past years to mathematically model real-world scenarios in compact graphical representations of distributions of variables. Graph Neural Networks (GNNs) are new inference methods developed in recent years and are attracting growing attention due to their effectiveness and flexibility in solving inference and learning problems over graph-structured data. These two powerful approaches have different advantages in capturing relations from observations and how they conduct message passing, and they can benefit each other in various tasks. In this survey, we broadly study the intersection of GNNs and PGMs. Specifically, we first discuss how GNNs can benefit from learning structured representations in PGMs, generate explainable predictions by PGMs, and how PGMs can infer object relationships. Then we discuss how GNNs are implemented in PGMs for more efficient inference and structure learning. In the end, we summarize the benchmark datasets used in recent studies and discuss promising future directions.
翻訳日:2022-06-20 01:38:02 公開日:2022-05-24
# 自然勾配, 信頼度, エントロピー制御を用いたレグレト対応ブラックボックス最適化

Regret-Aware Black-Box Optimization with Natural Gradients, Trust-Regions and Entropy Control ( http://arxiv.org/abs/2206.06090v1 )

ライセンス: Link先を確認
Maximilian H\"uttenrauch, Gerhard Neumann(参考訳) 最も成功したCMA-ESのような確率的ブラックボックスオプティマイザは、個々のサンプルのランキングを使って新しい検索分布を得る。 しかし、ランキングの使用は、基盤となる最適化の目的はしばしば不明確であり、例えば、期待される適合度を最適化しないなど、いくつかの問題も引き起こす。 さらに、これらのアルゴリズムは、通常、検索分布の高品質な平均推定値を生成するが、これらのアルゴリズムは後悔を知らないため、生成したサンプルは品質が劣る可能性がある。 最後に、ノイズの多いフィットネス関数の評価は、期待に準ずる解をもたらす可能性がある。 対照的に、モデルベースの相対エントロピー確率探索(MORE)アルゴリズムのようなポリシー勾配に動機づけられた確率最適化器は、ランキングを使わずに、期待される適合関数を直接最適化する。 さらには、自然政策勾配と互換性のある関数近似を適用することで導出することができ、ポリシー更新の安定性を確保するために情報理論的な制約を用いる。 MOREは指定された制限に悩まされることはないが、ランキングベースの手法と比較して、技術パフォーマンスの状態を達成できないことが多い。 探索分布の平均と共分散の更新を分離することでMOREを改良し、共分散の保守性を維持しつつ平均のより積極的な更新を可能にするとともに、進化経路に基づくエントロピースケジューリング技術を改良し、元の論文と比較してより高速に収束し、より効率的なモデル学習アプローチを実現する。 提案アルゴリズムは,ロボット工学において,標準的な最適化タスクや韻律的RLタスクにおけるブラックボックス最適化アルゴリズムの状況と比較する。 ベンチマーク関数の競合結果を得るとともに、RLタスクに対する後悔の観点からランク付けに基づく手法よりも明らかに優れている。

Most successful stochastic black-box optimizers, such as CMA-ES, use rankings of the individual samples to obtain a new search distribution. Yet, the use of rankings also introduces several issues such as the underlying optimization objective is often unclear, i.e., we do not optimize the expected fitness. Further, while these algorithms typically produce a high-quality mean estimate of the search distribution, the produced samples can have poor quality as these algorithms are ignorant of the regret. Lastly, noisy fitness function evaluations may result in solutions that are highly sub-optimal on expectation. In contrast, stochastic optimizers that are motivated by policy gradients, such as the Model-based Relative Entropy Stochastic Search (MORE) algorithm, directly optimize the expected fitness function without the use of rankings. MORE can be derived by applying natural policy gradients and compatible function approximation, and is using information theoretic constraints to ensure the stability of the policy update. While MORE does not suffer from the listed limitations, it often cannot achieve state of the art performance in comparison to ranking based methods. We improve MORE by decoupling the update of the mean and covariance of the search distribution allowing for more aggressive updates on the mean while keeping the update on the covariance conservative, an improved entropy scheduling technique based on an evolution path which results in faster convergence and a simplified and more effective model learning approach in comparison to the original paper. We compare our algorithm to state of the art black-box optimization algorithms on standard optimization tasks as well as on episodic RL tasks in robotics where it is also crucial to have small regret. We obtain competitive results on benchmark functions and clearly outperform ranking-based methods in terms of regret on the RL tasks.
翻訳日:2022-06-19 23:32:19 公開日:2022-05-24
# 頭から頭までの単語による個人間分類としてのシンボル創発

Symbol Emergence as Inter-personal Categorization with Head-to-head Latent Word ( http://arxiv.org/abs/2205.15027v1 )

ライセンス: Link先を確認
Kazuma Furukawa, Akira Taniguchi, Yoshinobu Hagiwara, Tadahiro Taniguchi(参考訳) 本研究では,2つのエージェント間のシンボルの出現を表す確率的生成モデルであるInter-MDMをマルチエージェントマルチモーダル分類として修正し,ヘッドツーヘッド型(H2H型)の個人間マルチモーダルディリクレ混合(Inter-MDM)を提案する。 mdmに基づくメトロポリス・ハスティングス方式に基づく命名ゲームにより、2つのエージェントが協調してマルチモーダル分類を行い、統一された数学的収束の基盤と符号を共有することができる。 しかし、従来のInter-MDMは、潜在単語変数をまたいだテール・ツー・テール接続を前提としており、より複雑なシンボルの出現をモデル化するためのInter-MDMのさらなる拡張の柔軟性を損なう。 そこで本研究では,マルチモーダル分類の多くの先行研究と同様に,潜在単語変数を各エージェントの内部変数の子ノードとして扱うヘッド・ツー・ヘッド型(h2h型)間mdmを提案する。 H2H型インターMDMに基づいて,従来のインターMDMと同じように命名ゲームを提案する。 実験の結果,H2H型インターMDMはマルチモーダル分類と符号共有の観点から従来のインターMDMとほぼ同等の性能を示した。

In this study, we propose a head-to-head type (H2H-type) inter-personal multimodal Dirichlet mixture (Inter-MDM) by modifying the original Inter-MDM, which is a probabilistic generative model that represents the symbol emergence between two agents as multiagent multimodal categorization. A Metropolis--Hastings method-based naming game based on the Inter-MDM enables two agents to collaboratively perform multimodal categorization and share signs with a solid mathematical foundation of convergence. However, the conventional Inter-MDM presumes a tail-to-tail connection across a latent word variable, causing inflexibility of the further extension of Inter-MDM for modeling a more complex symbol emergence. Therefore, we propose herein a head-to-head type (H2H-type) Inter-MDM that treats a latent word variable as a child node of an internal variable of each agent in the same way as many prior studies of multimodal categorization. On the basis of the H2H-type Inter-MDM, we propose a naming game in the same way as the conventional Inter-MDM. The experimental results show that the H2H-type Inter-MDM yields almost the same performance as the conventional Inter-MDM from the viewpoint of multimodal categorization and sign sharing.
翻訳日:2022-06-12 09:34:39 公開日:2022-05-24
# 自動運転車のリスク倫理:定期道路交通における連続的トロリー問題

The risk ethics of autonomous vehicles: a continuous trolley problem in regular road traffic ( http://arxiv.org/abs/2206.03258v1 )

ライセンス: Link先を確認
Sebastian Kr\"ugel and Matthias Uhl(参考訳) 自走車(AV)の倫理は、避けられない事故の寿命に制限されているか? AVは、通常の交通状況において、明示的または暗黙的に、道路利用者間でリスクを分散する。 このリスクの分散は「ブレーキを踏む」といった単純なヒューリスティックスでは回避できない倫理的な問題を引き起こす。 異なる交通状況のインタラクティブなグラフィカルな表現を用いて、ドイツにおける代表的調査において、参加者のAVの運転操作に対する嗜好を測定した。 参加者の嗜好は衝突回避から大きく逸脱した。 興味深いことに、AVの社会的ジレンマがリスクの文脈で減少する可能性を示唆する他の道路利用者の利益のために、参加者は自らリスクを負う意思があった。

Is the ethics of autonomous vehicles (AVs) restricted to weighing lives in unavoidable accidents? We argue that AVs distribute risks between road users in regular traffic situations, either explicitly or implicitly. This distribution of risks raises ethically relevant questions that cannot be evaded by simple heuristics such as "hitting the brakes." Using an interactive, graphical representation of different traffic situations, we measured participants' preferences on driving maneuvers of AVs in a representative survey in Germany. Our participants' preferences deviated significantly from mere collision avoidance. Interestingly, our participants were willing to take risks themselves for the benefit of other road users suggesting that the social dilemma of AVs may lessen in a context of risk.
翻訳日:2022-06-12 09:33:36 公開日:2022-05-24
# 参加満足度向上のための社会的選択メカニズムの正当性

Justifying Social-Choice Mechanism Outcome for Improving Participant Satisfaction ( http://arxiv.org/abs/2205.15863v1 )

ライセンス: Link先を確認
Sharadhi Alape Suryanarayana, David Sarne and Sarit Kraus(参考訳) 多くの社会的選択メカニズムにおいて、結果として得られる選択は、一部の参加者にとって最も望ましいものではないので、その参加者の受け入れと満足度を改善する方法で選択を正当化するための方法が必要である。 このような説明を提供する自然な方法の1つは、クラウドソーシングを通じて人々に提供するように求め、最も説得力のある議論を選択することである。 本稿では,理論機構設計文献に見られる望ましいメカニズムの特徴に基づいて,説明を自動的に生成する代替手法を提案する。 従来の社会的選択機構である600名以上の投票者を対象に, 広範囲にわたる実験を行い, 両手法の有効性を検証した。 結果分析の結果, 説明は, 平均満足度と受理度の両方に有意な影響を与えていることが明らかとなった。 特に、結果(我々の場合の勝者候補)が参加者にとって最も望ましい選択である場合、説明は満足度と受容に肯定的な影響を与えることが示される。 比較分析により、自動生成された説明は、クラウドソースによる説明のよりコストのかかる代替品と同様の満足度と結果の受け入れをもたらすことが明らかとなり、それによって人間をループに留める必要がなくなる。 さらに、自動生成された説明は、クラウドソースによる説明に比べて、異なる勝者が選ばれるべきだという参加者の信念を著しく減少させる。

In many social-choice mechanisms the resulting choice is not the most preferred one for some of the participants, thus the need for methods to justify the choice made in a way that improves the acceptance and satisfaction of said participants. One natural method for providing such explanations is to ask people to provide them, e.g., through crowdsourcing, and choosing the most convincing arguments among those received. In this paper we propose the use of an alternative approach, one that automatically generates explanations based on desirable mechanism features found in theoretical mechanism design literature. We test the effectiveness of both of the methods through a series of extensive experiments conducted with over 600 participants in ranked voting, a classic social choice mechanism. The analysis of the results reveals that explanations indeed affect both average satisfaction from and acceptance of the outcome in such settings. In particular, explanations are shown to have a positive effect on satisfaction and acceptance when the outcome (the winning candidate in our case) is the least desirable choice for the participant. A comparative analysis reveals that the automatically generated explanations result in similar levels of satisfaction from and acceptance of an outcome as with the more costly alternative of crowdsourced explanations, hence eliminating the need to keep humans in the loop. Furthermore, the automatically generated explanations significantly reduce participants' belief that a different winner should have been elected compared to crowdsourced explanations.
翻訳日:2022-06-12 09:33:24 公開日:2022-05-24
# RecipeRec: Recipe Recommendationのための不均一グラフ学習モデル

RecipeRec: A Heterogeneous Graph Learning Model for Recipe Recommendation ( http://arxiv.org/abs/2205.14005v1 )

ライセンス: Link先を確認
Yijun Tian, Chuxu Zhang, Zhichun Guo, Chao Huang, Ronald Metoyer, Nitesh V. Chawla(参考訳) レシピレコメンデーションシステムは、人々が何を食べるかを決めるのに重要な役割を果たす。 既存のレシピレコメンデーションシステムは、通常、コンテンツベースのもしくは協調的なフィルタリングアプローチに焦点を合わせ、ユーザ間の関係構造情報やレシピ、食品アイテムなどの高次の協調シグナルを無視している。 本稿では,グラフを用いたレシピレコメンデーションの問題を形式化し,協調的なシグナルをグラフモデリングによりレシピレコメンデーションに組み込む。 特に、我々はまず、新しい大規模ユーザ・レシピ・イングリジェントグラフであるURI-Graphを提示する。 次にレシピ推薦のための新しい異種グラフ学習モデルRecipeRecを提案する。 提案モデルは,階層的注意を伴う不均質なグラフニューラルネットワークと成分セットトランスフォーマを用いて,レシピの内容と協調信号をキャプチャする。 また,情報的グラフ知識を自己指導的に抽出するグラフコントラスト拡張戦略も導入する。 最後に,モデル最適化のための推薦とコントラスト学習の共同目的関数を設計する。 大規模な実験により、RecipeRecはレシピレコメンデーションのための最先端のメソッドよりも優れています。 データセットとコードはhttps://github.com/meettyj/reciperecで入手できる。

Recipe recommendation systems play an essential role in helping people decide what to eat. Existing recipe recommendation systems typically focused on content-based or collaborative filtering approaches, ignoring the higher-order collaborative signal such as relational structure information among users, recipes and food items. In this paper, we formalize the problem of recipe recommendation with graphs to incorporate the collaborative signal into recipe recommendation through graph modeling. In particular, we first present URI-Graph, a new and large-scale user-recipe-ingredient graph. We then propose RecipeRec, a novel heterogeneous graph learning model for recipe recommendation. The proposed model can capture recipe content and collaborative signal through a heterogeneous graph neural network with hierarchical attention and an ingredient set transformer. We also introduce a graph contrastive augmentation strategy to extract informative graph knowledge in a self-supervised manner. Finally, we design a joint objective function of recommendation and contrastive learning to optimize the model. Extensive experiments demonstrate that RecipeRec outperforms state-of-the-art methods for recipe recommendation. Dataset and codes are available at https://github.com/meettyj/RecipeRec.
翻訳日:2022-06-12 09:33:01 公開日:2022-05-24
# 物理誘導機械学習による都市排水系の流体力学シミュレーション

Accelerating hydrodynamic simulations of urban drainage systems with physics-guided machine learning ( http://arxiv.org/abs/2206.01538v1 )

ライセンス: Link先を確認
Rocco Palmitessa, Morten Grum, Allan Peter Engsig-Karup, Roland L\"owe(参考訳) 本研究では,物理誘導機械学習に基づく都市排水系油圧の高速かつ高精度な代理モデル構築手法を提案する。 サーロゲートは、流体力学(hifi)モデルによる限られたシミュレーション結果に対して訓練される。 提案手法は,HiFiモデルと比較してシミュレーション時間を1~2桁に短縮する。 したがって、概念的な水理モデルよりも遅いが、全てのノードにおける水位、流れ、電荷のシミュレーションと排水網のリンクを可能にし、hifiモデルによって提供される詳細レベルをほとんど保持する。 代理とHiFiモデルでシミュレートされた時系列を比較すると、0.9の順のR2値が得られる。 サロゲートのトレーニング時間は、現在1時間である。 しかし、転送学習とグラフニューラルネットワークの応用によって、それらを減らすことができる。 我々のサロゲートアプローチは、都市排水システムの初期設計段階におけるインタラクティブなワークショップや、リアルタイムアプリケーションに有用である。 また, モデル定式化は汎用的であり, その他の水系シミュレーションへの応用について検討する。

We propose and demonstrate a new approach for fast and accurate surrogate modelling of urban drainage system hydraulics based on physics-guided machine learning. The surrogates are trained against a limited set of simulation results from a hydrodynamic (HiFi) model. Our approach reduces simulation times by one to two orders of magnitude compared to a HiFi model. It is thus slower than e.g. conceptual hydrological models, but it enables simulations of water levels, flows and surcharges in all nodes and links of a drainage network and thus largely preserves the level of detail provided by HiFi models. Comparing time series simulated by the surrogate and the HiFi model, R2 values in the order of 0.9 are achieved. Surrogate training times are currently in the order of one hour. However, they can likely be reduced through the application of transfer learning and graph neural networks. Our surrogate approach will be useful for interactive workshops in initial design phases of urban drainage systems, as well as for real time applications. In addition, our model formulation is generic and future research should investigate its application for simulating other water systems.
翻訳日:2022-06-12 09:32:19 公開日:2022-05-24
# (参考訳) TREC 2021ディープラーニングトラックにおけるPASH:多段階ランキング生成モデル

PASH at TREC 2021 Deep Learning Track: Generative Enhanced Model for Multi-stage Ranking ( http://arxiv.org/abs/2205.11245v2 )

ライセンス: CC BY 4.0
Yixuan Qiao, Hao Chen, Yongquan Lai, Jun Wang, Tuozhen Liu, Xianbin Ye, Rui Fang, Peng Gao, Wenfeng Xie, Guotong Xie(参考訳) 本稿では,TREC 2021 Deep Learning TrackにおけるPASHの参加について述べる。 リコール段階ではスパース法と高密度検索法を組み合わせたスキームを採用する。 多段階ランキングフェーズでは、一般知識と文書レベルのデータに基づいて事前訓練されたモデル継続に基づいて、ポイントワイドおよびペアワイドランキング戦略が次々と使用される。 TREC 2020 Deep Learning Trackと比較して、我々はさらに性能を高めるために生成モデルT5を導入した。

This paper describes the PASH participation in TREC 2021 Deep Learning Track. In the recall stage, we adopt a scheme combining sparse and dense retrieval method. In the multi-stage ranking phase, point-wise and pair-wise ranking strategies are used one after another based on model continual pre-trained on general knowledge and document-level data. Compared to TREC 2020 Deep Learning Track, we have additionally introduced the generative model T5 to further enhance the performance.
翻訳日:2022-06-06 06:24:32 公開日:2022-05-24
# (参考訳) 直視のための深層学習 : 調査と新たな展望

Deep Learning for Omnidirectional Vision: A Survey and New Perspectives ( http://arxiv.org/abs/2205.10468v2 )

ライセンス: CC BY 4.0
Hao Ai, Zidong Cao, Jinjing Zhu, Haotian Bai, Yucheng Chen and Lin Wang(参考訳) 全方位画像(odi)データは、ピンホールカメラよりもはるかに広く、従来の平面画像よりもリッチな空間情報を含む360x180の視野でキャプチャされる。 そのため、自動運転や仮想現実など、多くのアプリケーションでより有利な性能を持つため、全方向ビジョンが注目を集めている。 近年、顧客レベルの360度カメラが利用可能になり、全方向視界がより普及し、深層学習(DL)の進歩が研究や応用に大きな影響を与えている。 本稿では,全方位視覚のためのdl法の最近の進歩を体系的かつ包括的にレビューし,分析する。 私たちの作品は4つの主な内容をカバーしています 一 全方位画像の原理、ODI上の畳み込み方法及びデータセットの導入により、2次元平面画像データと比較した場合の差と難易度を明らかにすること。 二 全方向視覚のためのdl法の構造的及び階層的分類法 三 最新の新規学習戦略及び応用の概要 (4)コミュニティのさらなる研究を促すための潜在的研究の方向性を強調することで、課題とオープンな問題についての洞察に富んだ議論。

Omnidirectional image (ODI) data is captured with a 360x180 field-of-view, which is much wider than the pinhole cameras and contains richer spatial information than the conventional planar images. Accordingly, omnidirectional vision has attracted booming attention due to its more advantageous performance in numerous applications, such as autonomous driving and virtual reality. In recent years, the availability of customer-level 360 cameras has made omnidirectional vision more popular, and the advance of deep learning (DL) has significantly sparked its research and applications. This paper presents a systematic and comprehensive review and analysis of the recent progress in DL methods for omnidirectional vision. Our work covers four main contents: (i) An introduction to the principle of omnidirectional imaging, the convolution methods on the ODI, and datasets to highlight the differences and difficulties compared with the 2D planar image data; (ii) A structural and hierarchical taxonomy of the DL methods for omnidirectional vision; (iii) A summarization of the latest novel learning strategies and applications; (iv) An insightful discussion of the challenges and open problems by highlighting the potential research directions to trigger more research in the community.
翻訳日:2022-06-05 19:46:32 公開日:2022-05-24
# (参考訳) ラフアクティベーション関数による明示的反対称性ニューラルネットワークの符号問題の改ざん

Taming the sign problem of explicitly antisymmetrized neural networks via rough activation functions ( http://arxiv.org/abs/2205.12250v1 )

ライセンス: CC BY 4.0
Nilin Abrahamsen, Lin Lin(参考訳) 2層ニューラルネットワークの明示的反対称性化は、量子物理学においてユビキタスな一般的な反対称関数に対する普遍関数近似の候補である。 しかし、この戦略は符号問題、すなわち正および負の寄与がほぼ正確にキャンセルされたために、反対称性化関数の大きさは反対称性化前のそれよりも著しく小さくなる可能性がある。 符号問題の重大度は活性化関数の滑らかさに直接関係していることを証明する。 円滑な活性化関数(例えば$\tanh$)では、明示的に反対称性化された2層ニューラルネットワークの符号問題はシステムサイズに関して超ポリノミカルに劣化する。 一方、ラフアクティベーション関数(例えばrelu)では、符号問題の劣化率はシステムサイズに対して最大多項式となるように変更することができる。 最後に、反対称性2層ニューラルネットワークの直接実装のコストは、システムサイズに対して2倍にスケールする。 本稿では,システムサイズと逆精度に対して,コストが多項式的にスケールするネットワークの近似評価のための効率的なアルゴリズムについて述べる。

Explicit antisymmetrization of a two-layer neural network is a potential candidate for a universal function approximator for generic antisymmetric functions, which are ubiquitous in quantum physics. However, this strategy suffers from a sign problem, namely, due to near exact cancellation of positive and negative contributions, the magnitude of the antisymmetrized function may be significantly smaller than that before antisymmetrization. We prove that the severity of the sign problem is directly related to the smoothness of the activation function. For smooth activation functions (e.g., $\tanh$), the sign problem of the explicitly antisymmetrized two-layer neural network deteriorates super-polynomially with respect to the system size. On the other hand, for rough activation functions (e.g., ReLU), the deterioration rate of the sign problem can be tamed to be at most polynomial with respect to the system size. Finally, the cost of a direct implementation of antisymmetrized two-layer neural network scales factorially with respect to the system size. We describe an efficient algorithm for approximate evaluation of such a network, of which the cost scales polynomially with respect to the system size and inverse precision.
翻訳日:2022-06-05 09:40:30 公開日:2022-05-24
# (参考訳) 眼球運動軌跡の個々のトポロジー構造

Individual Topology Structure of Eye Movement Trajectories ( http://arxiv.org/abs/2205.10667v2 )

ライセンス: CC BY 4.0
Arsenii Onuchin, Oleg Kachan(参考訳) 伝統的に、眼球運動データからパターンを抽出することは、固定やササードのような異なるマクロイベントの統計に依存する。 これは、眼球運動のサブタイプを分離するために追加の事前処理ステップを必要とし、しばしば分類結果が依存する多くのパラメータを持つ。 さらに、そのようなマクロイベントの定義は、異なる研究者によって異なる方法で定式化される。 本稿では,眼球運動軌跡構造の定量的解析に新たな特徴のクラスを応用することを提案する。 代数トポロジーに基づくこの新しい特徴のクラスは、座標や振幅の時系列、熱マップ、点雲といった様々な視線から、マイクロからマクロまであらゆるスケールで統一された方法でパターンを抽出することができる。 本稿では,最近発表された眼球運動軌跡データセットにおける人物認証タスクに併用しながら,従来の特徴と相乗効果を両立させた新しい特徴の競争力を実験的に実証する。

Traditionally, extracting patterns from eye movement data relies on statistics of different macro-events such as fixations and saccades. This requires an additional preprocessing step to separate the eye movement subtypes, often with a number of parameters on which the classification results depend. Besides that, definitions of such macro events are formulated in different ways by different researchers. We propose an application of a new class of features to the quantitative analysis of personal eye movement trajectories structure. This new class of features based on algebraic topology allows extracting patterns from different modalities of gaze such as time series of coordinates and amplitudes, heatmaps, and point clouds in a unified way at all scales from micro to macro. We experimentally demonstrate the competitiveness of the new class of features with the traditional ones and their significant synergy while being used together for the person authentication task on the recently published eye movement trajectories dataset.
翻訳日:2022-05-30 10:29:01 公開日:2022-05-24
# (参考訳) ラベル保存によるフレーズレベルのテキスト・アタック

Phrase-level Textual Adversarial Attack with Label Preservation ( http://arxiv.org/abs/2205.10710v2 )

ライセンス: CC BY 4.0
Yibin Lei, Yu Cao, Dianqi Li, Tianyi Zhou, Meng Fang, Mykola Pechenizkiy(参考訳) 高品質なテキスト対逆例を生成することは、自然言語処理(NLP)モデルの落とし穴の調査と、その堅牢性の向上に不可欠である。 既存の攻撃は通常、単語レベルの摂動または文レベルの摂動によって実現され、摂動空間を制限するか、フラレンシーとテキストの質を犠牲にするかのどちらかであり、どちらも攻撃効果に影響を与える。 本稿では,語句レベルの摂動を通じて,対数サンプルを生成するPhrase-Level Textual Adversarial aTtack(PLAT)を提案する。 PLATはまず、構文解析器によって攻撃対象として脆弱なフレーズを抽出し、訓練済みの空白埋め込みモデルで摂動する。 このような柔軟な摂動設計は、多くの修正を加えることなく、より効果的な攻撃のための探索空間を実質的に拡大させ、一方で、周囲のテキストを用いた文脈化生成を通じて、テキストの流束性と文法性を維持する。 さらに、テキストの類似性ではなく、各クラスで微調整された言語モデルの可能性を利用したラベル保存フィルタを開発し、人間の元のクラスラベルを変更する可能性のある摂動を排除した。 広範囲な実験と人的評価により、PLATは強力なベースラインよりも優れた攻撃効果とラベル一貫性を有することが示された。

Generating high-quality textual adversarial examples is critical for investigating the pitfalls of natural language processing (NLP) models and further promoting their robustness. Existing attacks are usually realized through word-level or sentence-level perturbations, which either limit the perturbation space or sacrifice fluency and textual quality, both affecting the attack effectiveness. In this paper, we propose Phrase-Level Textual Adversarial aTtack (PLAT) that generates adversarial samples through phrase-level perturbations. PLAT first extracts the vulnerable phrases as attack targets by a syntactic parser, and then perturbs them by a pre-trained blank-infilling model. Such flexible perturbation design substantially expands the search space for more effective attacks without introducing too many modifications, and meanwhile maintaining the textual fluency and grammaticality via contextualized generation using surrounding texts. Moreover, we develop a label-preservation filter leveraging the likelihoods of language models fine-tuned on each class, rather than textual similarity, to rule out those perturbations that potentially alter the original class label for humans. Extensive experiments and human evaluation demonstrate that PLAT has a superior attack effectiveness as well as a better label consistency than strong baselines.
翻訳日:2022-05-30 07:38:31 公開日:2022-05-24
# (参考訳) 反復逆推論による解釈可能な証明生成

Interpretable Proof Generation via Iterative Backward Reasoning ( http://arxiv.org/abs/2205.10714v2 )

ライセンス: CC BY 4.0
Hanhao Qu, Yu Cao, Jun Gao, Liang Ding, Ruifeng Xu(参考訳) 本稿では,規則に基づく質問応答 (qa) における証明生成課題を解決するための反復的逆推論モデル ibr を提案する。 既存の作品の限界を2つの折りたたみで処理します。 1) 証明経路のノード及びエッジを問題から反復的に予測することにより,詳細な追跡による推論手順の解釈性を高めること。 2) 証明生成時に外部ノイズを発生させる可能性のある中間テキストなしで, ノードや履歴経路の精巧な表現を推論することで, 効率と精度を向上する。 ibr、qa、および証明戦略予測の3つの主要なモジュールがあり、回答を得て、以下の手順のためのガイダンスを提供する。 親ノード予測 新しい子ノードがリンクする既存の証明内のノードを決定するための親ノード予測、証明にどの新しいノードを追加するかを見つける子ノード予測。 合成データセットとパラフレッシュデータセットの両方の実験により、ibrは複数の強力なベースラインよりもドメイン内性能とクロスドメイン転送性が優れていることが示されている。 私たちのコードとモデルはhttps://github.com/find-knowledge/ibrで利用可能です。

We present IBR, an Iterative Backward Reasoning model to solve the proof generation tasks on rule-based Question Answering (QA), where models are required to reason over a series of textual rules and facts to find out the related proof path and derive the final answer. We handle the limitations of existed works in two folds: 1) enhance the interpretability of reasoning procedures with detailed tracking, by predicting nodes and edges in the proof path iteratively backward from the question; 2) promote the efficiency and accuracy via reasoning on the elaborate representations of nodes and history paths, without any intermediate texts that may introduce external noise during proof generation. There are three main modules in IBR, QA and proof strategy prediction to obtain the answer and offer guidance for the following procedure; parent node prediction to determine a node in the existing proof that a new child node will link to; child node prediction to find out which new node will be added to the proof. Experiments on both synthetic and paraphrased datasets demonstrate that IBR has better in-domain performance as well as cross-domain transferability than several strong baselines. Our code and models are available at https://github.com/find-knowledge/IBR .
翻訳日:2022-05-30 06:30:16 公開日:2022-05-24
# (参考訳) 平衡オプティマイザによる複数物体のリアルタイム検出フリートラッキング

Real Time Detection Free Tracking of Multiple Objects Via Equilibrium Optimizer ( http://arxiv.org/abs/2205.10756v2 )

ライセンス: CC BY 4.0
Djemai Charef-Khodja and Toumi Abida(参考訳) 複数オブジェクト追跡(MOT)は通常、特別なハードウェアと高い計算複雑性を必要とするため、難しい作業である。 本研究では、平衡オプティマイザ(EO)アルゴリズムを用いてMOTの新しいフレームワークを提案し、オブジェクトの境界ボックスの解像度を低減し、検出自由フレームワークにおけるそのような問題を解決する。 まず、最初のフレームで対象オブジェクトを初期化し、そのサイズを計算し、しきい値以上であればその解像度を減少させ、次にカーネルカラーヒストグラムでモデル化して特徴モデルを確立する。 対象モデルのヒストグラムと他の候補とのバッタチャリヤ距離を適合度関数として用いて最適化する。 複数のエージェントは、追跡対象のオブジェクトの数に応じてEOによって生成される。 EOアルゴリズムは、グローバル最適化における他のアルゴリズムと比較して効率と計算コストの低さから用いられる。 実験結果から,EO多対象トラッカーが他のトラッカーの追従結果を満たすことが確認された。

Multiple objects tracking (MOT) is a difficult task, as it usually requires special hardware and higher computation complexity. In this work, we present a new framework of MOT by using of equilibrium optimizer (EO) algorithm and reducing the resolution of the bounding boxes of the objects to solve such problems in the detection free framework. First, in the first frame the target objects are initialized and its size is computed, then its resolution is reduced if it is higher than a threshold, and then modeled by their kernel color histogram to establish a feature model. The Bhattacharya distances between the histogram of object models and other candidates are used as the fitness function to be optimized. Multiple agents are generated by EO, according to the number of the target objects to be tracked. EO algorithm is used because of its efficiency and lower computation cost compared to other algorithms in global optimization. Experimental results confirm that EO multi-object tracker achieves satisfying tracking results then other trackers.
翻訳日:2022-05-30 05:03:33 公開日:2022-05-24
# 音楽演奏のビデオ解析のためのディープニューラルネットワークアプローチ

Deep Neural Network approaches for Analysing Videos of Music Performances ( http://arxiv.org/abs/2205.11232v2 )

ライセンス: Link先を確認
Foteini Simistira Liwicki, Richa Upadhyay, Prakash Chandra Chhipa, Killian Murphy, Federico Visi, Stefan \"Ostersj\"o and Marcus Liwicki(参考訳) 本稿では,3次元畳み込みニューラルネットワーク(CNN)を用いた演奏ビデオにおけるジェスチャーのラベル付けプロセスを自動化するフレームワークを提案する。 この考え方は前回の研究で提案されたが,本研究ではいくつかの新奇性を紹介した。 (i)バッチバランスアプローチとジェスチャの空間・時間表現により,クラス不均衡を克服し,共存ジェスチャの学習を可能にする新しい手法を提案する。 (II)ビデオ録画された楽曲の演奏(ギター演奏)中に生じる7と18のジェスチャーについて、詳細な研究を行う。 (iii)音声機能の使用の可能性を探る。 (iv)解析を複数のビデオに拡張する。 提案手法は,従来の作業と比較してジェスチャー識別性能を12%向上させた(本研究の51 %は前作業の39 %以上)。 7つのスーパークラス(72%)、18のジェスチャ/クラスのアンサンブル、追加の動画(75%)で提案手法を検証できた。

This paper presents a framework to automate the labelling process for gestures in musical performance videos with a 3D Convolutional Neural Network (CNN). While this idea was proposed in a previous study, this paper introduces several novelties: (i) Presents a novel method to overcome the class imbalance challenge and make learning possible for co-existent gestures by batch balancing approach and spatial-temporal representations of gestures. (ii) Performs a detailed study on 7 and 18 categories of gestures generated during the performance (guitar play) of musical pieces that have been video-recorded. (iii) Investigates the possibility to use audio features. (iv) Extends the analysis to multiple videos. The novel methods significantly improve the performance of gesture identification by 12 %, when compared to the previous work (51 % in this study over 39 % in previous work). We successfully validate the proposed methods on 7 super classes (72 %), an ensemble of the 18 gestures/classes, and additional videos (75 %).
翻訳日:2022-05-29 21:23:11 公開日:2022-05-24
# Vision Transformer: Vitとその誘導体

Vision Transformer: Vit and its Derivatives ( http://arxiv.org/abs/2205.11239v2 )

ライセンス: Link先を確認
Zujun Fu(参考訳) Transformerは注目に基づくエンコーダデコーダアーキテクチャであり、自然言語処理(NLP)の分野に革命をもたらしただけでなく、コンピュータビジョン(CV)の分野でも先駆的な業績を残している。 畳み込みニューラルネットワーク(CNN)と比較して、ViT(Vision Transformer)は、ImageNet、COCO、ADE20kといったいくつかのベンチマークで非常に優れたパフォーマンスを達成するために優れたモデリング能力に依存している。 ViTは自然言語処理における自己認識機構にインスパイアされ、単語の埋め込みをパッチ埋め込みに置き換える。 本稿では,ViTの誘導体と他の分野との相互利用について述べる。

Transformer, an attention-based encoder-decoder architecture, has not only revolutionized the field of natural language processing (NLP), but has also done some pioneering work in the field of computer vision (CV). Compared to convolutional neural networks (CNNs), the Vision Transformer (ViT) relies on excellent modeling capabilities to achieve very good performance on several benchmarks such as ImageNet, COCO, and ADE20k. ViT is inspired by the self-attention mechanism in natural language processing, where word embeddings are replaced with patch embeddings. This paper reviews the derivatives of ViT and the cross-applications of ViT with other fields.
翻訳日:2022-05-29 20:37:52 公開日:2022-05-24
# (参考訳) RCP:3次元点雲上のシーンフロー推定のための逐次閉点

RCP: Recurrent Closest Point for Scene Flow Estimation on 3D Point Clouds ( http://arxiv.org/abs/2205.11028v2 )

ライセンス: CC BY 4.0
Xiaodong Gu, Chengzhou Tang, Weihao Yuan, Zuozhuo Dai, Siyu Zhu, Ping Tan(参考訳) シーンフローや点雲の登録を含む3次元運動推定が注目されている。 2次元フロー推定にインスパイアされた最近の手法では、深層ニューラルネットワークを用いて正確な3次元フローを推定するためのコストボリュームを構築している。 しかし,これらの手法は不規則なデータ構造のため,点雲上の探索窓の定義が困難であることから制限されている。 本稿では,この不規則さを,単純かつ効果的な手法で回避し,第1段階では3dフローを点的に最適化し,第2段階では再帰ネットワークでグローバルに正規化する2つのインターレースステージに分解する。 したがって、リカレントネットワークは、通常のポイントワイズ情報を入力としてのみ受信する。 実験では,3次元シーンフロー推定と点雲登録作業の両方について提案手法の評価を行った。 3次元シーンフロー推定のために,flyingthings3dとkittidatasetの比較を行った。 ポイントクラウドの登録には、前回の作業に従い、modelnet40から大きなポーズと部分的に重複したデータペアを評価します。 その結果,提案手法は従来の手法よりも優れており,不規則点クラウドデータ上でのゼロオーダー手法の優位性を示す3次元シーンフロー推定とポイントクラウド登録の両方において,新たな最先端性能を実現する。

3D motion estimation including scene flow and point cloud registration has drawn increasing interest. Inspired by 2D flow estimation, recent methods employ deep neural networks to construct the cost volume for estimating accurate 3D flow. However, these methods are limited by the fact that it is difficult to define a search window on point clouds because of the irregular data structure. In this paper, we avoid this irregularity by a simple yet effective method.We decompose the problem into two interlaced stages, where the 3D flows are optimized point-wisely at the first stage and then globally regularized in a recurrent network at the second stage. Therefore, the recurrent network only receives the regular point-wise information as the input. In the experiments, we evaluate the proposed method on both the 3D scene flow estimation and the point cloud registration task. For 3D scene flow estimation, we make comparisons on the widely used FlyingThings3D and KITTIdatasets. For point cloud registration, we follow previous works and evaluate the data pairs with large pose and partially overlapping from ModelNet40. The results show that our method outperforms the previous method and achieves a new state-of-the-art performance on both 3D scene flow estimation and point cloud registration, which demonstrates the superiority of the proposed zero-order method on irregular point cloud data.
翻訳日:2022-05-29 12:33:27 公開日:2022-05-24
# (参考訳) 形式的構文のパラダイム変化:英語文法における計算アルゴリズム

A Paradigm Change for Formal Syntax: Computational Algorithms in the Grammar of English ( http://arxiv.org/abs/2205.12825v1 )

ライセンス: CC BY 4.0
Anat Ninio(参考訳) 言語科学は、その基礎として形式的構文に頼りがちである。 その理由は、意識的に避けられた心理的現実の欠如である。 科学の哲学者は、生物学のように、説明はメカニズムによって行われるパラダイムシフトを求める。 私たちは、英語のプロセスベースの構文のヒューリスティックモデルとしてプログラミング言語に目を向けました。 モデリングのトピックとして機能語とコンテンツ語の組み合わせが選ばれた。 このような組み合わせは非常に頻繁に行われ、その出力は文の重要な即時成分である。 オブジェクト指向プログラミングでは、全メソッド要素がインターフェースとして機能し、コンテンツフル要素がその実装として機能し、計算オブジェクトを定義します。 モデルの適合性は、アルゴリズムに不可欠な3つの機能特性を導出し、英語文法におけるそれらの存在を確認することによって検証された。 我々は,構文の処理,発達,喪失に関する心理言語学的および神経言語学的証拠に対するインタフェース実装機構の実態を検証した。 このメカニズムの密接な適合性と心理的現実は、構文のアルゴリズム理論へのパラダイムシフトの可能性を示している。

Language sciences rely less and less on formal syntax as their base. The reason is probably its lack of psychological reality, knowingly avoided. Philosophers of science call for a paradigm shift in which explanations are by mechanisms, as in biology. We turned to programming languages as heuristic models for a process-based syntax of English. The combination of a functional word and a content word was chosen as the topic of modeling. Such combinations are very frequent, and their output is the important immediate constituents of sentences. We found their parallel in Object Oriented Programming where an all-methods element serves as an interface, and the content-full element serves as its implementation, defining computational objects. The fit of the model was tested by deriving three functional characteristics crucial for the algorithm and checking their presence in English grammar. We tested the reality of the interface-implementation mechanism on psycholinguistic and neurolinguistic evidence concerning processing, development and loss of syntax. The close fit and psychological reality of the mechanism suggests that a paradigm shift to an algorithmic theory of syntax is a possibility.
翻訳日:2022-05-29 04:56:55 公開日:2022-05-24
# (参考訳) 人工リスクフィールドを用いた人間ドライバーの数学的モデル

Mathematical Models of Human Drivers Using Artificial Risk Fields ( http://arxiv.org/abs/2205.12722v1 )

ライセンス: CC BY 4.0
Emily Jensen, Maya Luster, Hansol Yoon, Brandon Pitts and Sriram Sankaranarayanan(参考訳) 本稿では, 人為的リスクフィールドの概念を用いて, 今後の道路状況に応じて, オペレータが車両をどのように制御するかを予測する。 リスクフィールドは、障害を打つ、または道路を出るといった安全性に違反する状態がどれほど近いかをモデル化するために、システムの状態に非負のリスク尺度を割り当てる。 リスクフィールドを用いることで、状態から起こりうる行動にマップする演算子の確率モデルを構築する。 本研究では,道路上の障害物を避けつつ,現実的な運転シミュレータ内での運転を依頼する運転課題に対するアプローチを実証する。 駆動データから得られる最も可能性の高いリスクフィールドは凸最適化問題の解法によって得られることを示す。 次に、予測軌道と地中真理の測定値を比較しながら、推定リスク場を適用して、異なる運転行動を生成する。 予測精度の高い将来の軌道分布を最大20秒の予測地平線で予測するのにはリスクフィールドが優れている。 同時に、ドライバーが道路条件に基づいて加速/減速するかを判断できないことなど、いくつかの課題を観察する。

In this paper, we use the concept of artificial risk fields to predict how human operators control a vehicle in response to upcoming road situations. A risk field assigns a non-negative risk measure to the state of the system in order to model how close that state is to violating a safety property, such as hitting an obstacle or exiting the road. Using risk fields, we construct a stochastic model of the operator that maps from states to likely actions. We demonstrate our approach on a driving task wherein human subjects are asked to drive a car inside a realistic driving simulator while avoiding obstacles placed on the road. We show that the most likely risk field given the driving data is obtained by solving a convex optimization problem. Next, we apply the inferred risk fields to generate distinct driving behaviors while comparing predicted trajectories against ground truth measurements. We observe that the risk fields are excellent at predicting future trajectory distributions with high prediction accuracy for up to twenty seconds prediction horizons. At the same time, we observe some challenges such as the inability to account for how drivers choose to accelerate/decelerate based on the road conditions.
翻訳日:2022-05-29 04:55:55 公開日:2022-05-24
# (参考訳) FreDo: 周波数領域に基づく長期時系列予測

FreDo: Frequency Domain-based Long-Term Time Series Forecasting ( http://arxiv.org/abs/2205.12301v1 )

ライセンス: CC BY 4.0
Fan-Keng Sun and Duane S. Boning(参考訳) 将来にわたって予測できる能力は、気候学、エネルギー消費、物流に限らず、多くのアプリケーションにとって非常に有益である。 しかし、ノイズや測定誤差のため、将来どの程度の精度で予測できるかは疑問視される。 本稿では,まず,誤差の蓄積により,高度なモデルが長期予測のベースラインモデルを上回ることはないことを数学的に示す。 本研究では、周期性に基づく非パラメトリックベースラインモデルが、様々なデータセット上の最先端トランスフォーマーモデルに匹敵する性能が得られることを示す。 さらに、ベースラインモデルの上に構築された周波数領域ベースのニューラルネットワークモデルであるFreDoを提案し、その性能を向上し、最先端モデルを大きく上回っている。 最後に、周波数領域v.s.時間領域で訓練された単変量モデルを比較することにより、周波数領域が本当に良いことを検証する。

The ability to forecast far into the future is highly beneficial to many applications, including but not limited to climatology, energy consumption, and logistics. However, due to noise or measurement error, it is questionable how far into the future one can reasonably predict. In this paper, we first mathematically show that due to error accumulation, sophisticated models might not outperform baseline models for long-term forecasting. To demonstrate, we show that a non-parametric baseline model based on periodicity can actually achieve comparable performance to a state-of-the-art Transformer-based model on various datasets. We further propose FreDo, a frequency domain-based neural network model that is built on top of the baseline model to enhance its performance and which greatly outperforms the state-of-the-art model. Finally, we validate that the frequency domain is indeed better by comparing univariate models trained in the frequency v.s. time domain.
翻訳日:2022-05-29 04:42:23 公開日:2022-05-24
# (参考訳) gpt-2におけるガーデンパストラバーサル

Garden-Path Traversal within GPT-2 ( http://arxiv.org/abs/2205.12302v1 )

ライセンス: CC BY 4.0
William Jurayj, William Rudman, Carsten Eickhoff(参考訳) 近年、GPT-xファミリーが率いるトランスフォーマーデコーダのみで構成される大規模な言語モデルが人気を博している。 研究はこれらのモデルの振舞いを調べたが、それらは言語モデルの出力にのみ焦点をあてる傾向にあり、その分析はBERTologyで使われているトランスフォーマーエンコーダの研究ツールであるにもかかわらず、内部状態の分析を避ける傾向にある。 本稿では, GPT-2 の隠れ状態を分析する手法の集合について述べるとともに, 園芸パス文のナビゲーションをケーススタディとして用いて, 出力のみを超えて, このモデルの振舞いを研究することの有用性を実証する。 この分析を支援するために,3種類の庭道文とそれを操作するスクリプトからなる新しいデータセットを提案する。 隠れ状態間のマンハッタン距離と余弦的類似度を測定することで、GPT-2はモデル出力のみから予測する従来の方法よりも直感的にこれらの文をナビゲートすることを示す。

In recent years, massive language models consisting exclusively of transformer decoders, led by the GPT-x family, have become increasingly popular. While studies have examined the behavior of these models, they tend to only focus on the output of the language model, avoiding analyzing their internal states despite such analyses being popular tools used within BERTology to study transformer encoders. We present a collection of methods for analyzing GPT-2's hidden states, and use the model's navigation of garden path sentences as a case study to demonstrate the utility of studying this model's behavior beyond its output alone. To support this analysis, we introduce a novel dataset consisting of 3 different types of garden path sentences, along with scripts to manipulate them. We find that measuring Manhattan distances and cosine similarities between hidden states shows that GPT-2 navigates these sentences more intuitively than conventional methods that predict from the model's output alone.
翻訳日:2022-05-29 04:28:00 公開日:2022-05-24
# (参考訳) 事前学習モデルを用いた適応多言語音声認識

Adaptive multilingual speech recognition with pretrained models ( http://arxiv.org/abs/2205.12304v1 )

ライセンス: CC BY 4.0
Ngoc-Quan Pham, Alex Waibel, Jan Niehues(参考訳) 教師付き学習を用いた多言語音声認識は,近年の研究では大きな成果を上げている。 音声およびテキストデータに対する事前学習手法の開発により、特に限られたデータを持つ多くの言語において、教師なし多言語モデルから知識を伝達することが不可欠である。 本研究では,音声用wav2vec 2.0とテキスト用mbart50の2つのモードに対する事前学習モデルの有効性と,commonvoiceとeuroparlを含む公開データセットの認識品質を大幅に向上させる適応重み技術について検討した。 全体としては、純粋に教師付き学習よりも44%改善していることに気づきました。 また、アーキテクチャに奥行きや相対的な注意を少し加えることで、最良のモデルを得る可能性についても検討します。

Multilingual speech recognition with supervised learning has achieved great results as reflected in recent research. With the development of pretraining methods on audio and text data, it is imperative to transfer the knowledge from unsupervised multilingual models to facilitate recognition, especially in many languages with limited data. Our work investigated the effectiveness of using two pretrained models for two modalities: wav2vec 2.0 for audio and MBART50 for text, together with the adaptive weight techniques to massively improve the recognition quality on the public datasets containing CommonVoice and Europarl. Overall, we noticed an 44% improvement over purely supervised learning, and more importantly, each technique provides a different reinforcement in different languages. We also explore other possibilities to potentially obtain the best model by slightly adding either depth or relative attention to the architecture.
翻訳日:2022-05-29 04:18:56 公開日:2022-05-24
# (参考訳) 構造化プロンプトチューニング

Structured Prompt Tuning ( http://arxiv.org/abs/2205.12309v1 )

ライセンス: CC BY 4.0
Chi-Liang Liu, Hung-yi Lee, Wen-tau Yih(参考訳) 本稿では,プロンプトチューニングを改善するための簡易かつ効果的な手法である構造化プロンプトチューニングを提案する。 入力にチューニング可能な埋め込みのシーケンスを事前に設定するのではなく、ハイパーネットワークを通じてソフトなプロンプト埋め込みを生成します。 我々のアプローチは標準のプロンプトチューニングを仮定し、モデル設計の柔軟性を高め、シングルタスクとマルチタスクの両方のトレーニング設定に適用できる。 経験的に、構造化されたプロンプトチューニングはGLUEベンチマークで+1.2$~1.5ポイントのゲインを示し、標準のプロンプトチューニングに比べて学習率の変化に敏感ではない。

We propose structured prompt tuning, a simple and effective method to improve prompt tuning. Instead of prepending a sequence of tunable embeddings to the input, we generate the soft prompt embeddings through a hypernetwork. Our approach subsumes the standard prompt tuning, allows more flexibility in model design and can be applied to both single-task and multi-task training settings. Empirically, structured prompt tuning shows a gain of +1.2$~1.5 points on the GLUE benchmark and is less sensitive to the change of learning rate, compared to standard prompt tuning.
翻訳日:2022-05-29 04:05:33 公開日:2022-05-24
# (参考訳) Fast & Furious: データストリームの進化としてマルウェア検出をモデル化する

Fast & Furious: Modelling Malware Detection as Evolving Data Streams ( http://arxiv.org/abs/2205.12311v1 )

ライセンス: CC BY 4.0
Fabr\'icio Ceschin, Marcus Botacin, Heitor Murilo Gomes, Felipe Pinag\'e, Luiz S. Oliveira, Andr\'e Gr\'egio(参考訳) マルウェアはコンピュータシステムにとって大きな脅威であり、サイバーセキュリティに多くの課題を課している。 ランサムウェアなどの標的となる脅威は、毎年何百万ドルもの損失を引き起こす。 マルウェア感染の絶え間ない増加は、注意深い機械学習(ml)パイプラインを含む専用の検出戦略を開発するために人気のあるアンチウイルス(avs)を動機付けている。 しかし、マルウェア開発者はすぐにサンプル機能をバイパス検出に変更する。 このマルウェアサンプルの定常的な進化は、mlモデル検出率に直接影響を及ぼすデータ分布(すなわち概念ドリフト)の変化を引き起こす。 本研究では,DREBIN (~130Kアプリ) とAndroZoo (~350Kアプリ) の2つのAndroidデータセットに対するマルウェア分類器に対するコンセプトドリフトの影響を評価する。 AndroidはスマートフォンのユビキタスOSであり、攻撃者が定期的にマルウェアを作成し、アップデートするよう促す。 我々は縦断評価を行った i)9年間に収集されたマルウェアサンプルの分類(2009~2018) (ii)その普及性を検証するための概念ドリフト検出アルゴリズムの見直し (iii)問題を緩和するための異なるmlアプローチの比較、及び (iv) 文学的アプローチよりも優れたMLデータストリームパイプラインを提案する。 その結果、データ表現(抽出特徴)が更新されると、概念ドリフトに応答してパイプラインのすべてのコンポーネントを更新することで、分類モデルが検出率の向上を実現できることがわかった。 さらに,抽出した特徴のバリエーションを比較することで,分類モデルに変化が与える影響について考察する。

Malware is a major threat to computer systems and imposes many challenges to cyber security. Targeted threats, such as ransomware, cause millions of dollars in losses every year. The constant increase of malware infections has been motivating popular antiviruses (AVs) to develop dedicated detection strategies, which include meticulously crafted machine learning (ML) pipelines. However, malware developers unceasingly change their samples features to bypass detection. This constant evolution of malware samples causes changes to the data distribution (i.e., concept drifts) that directly affect ML model detection rates. In this work, we evaluate the impact of concept drift on malware classifiers for two Android datasets: DREBIN (~130K apps) and AndroZoo (~350K apps). Android is a ubiquitous operating system for smartphones, which stimulates attackers to regularly create and update malware to the platform. We conducted a longitudinal evaluation by (i) classifying malware samples collected over nine years (2009-2018), (ii) reviewing concept drift detection algorithms to attest its pervasiveness, (iii) comparing distinct ML approaches to mitigate the issue, and (iv) proposing an ML data stream pipeline that outperformed literature approaches. As a result, we observed that updating every component of the pipeline in response to concept drifts allows the classification model to achieve increasing detection rates as the data representation (extracted features) is updated. Furthermore, we discuss the impact of the changes on the classification models by comparing the variations in the extracted features.
翻訳日:2022-05-29 03:54:48 公開日:2022-05-24
# (参考訳) 不可能を超えて: 十分性、分離、正確さのバランスをとる

Beyond Impossibility: Balancing Sufficiency, Separation and Accuracy ( http://arxiv.org/abs/2205.12327v1 )

ライセンス: CC0 1.0
Limor Gultchin, Vincent Cohen-Addad, Sophie Giffard-Roisin, Varun Kanade, Frederik Mallmann-Trenn(参考訳) 近年研究されているアルゴリズム的公平性の様々な側面のうち、正の予測値と負の予測値の比率と、集団間の偽の正または偽の負の比率の両方を満たすことの緊張が注目されている。 刑事司法予測システムであるcompasによって引き起こされた議論に続いて、学術界は重要な理論的理解を整理し、グループ間でラベルが均等に分布しない場合、不完全な予測器で両方を達成できないことを示した。 この論文では、不確実性を超えてまだ何が可能なのかについて、さらに光を当てています。 既存の理論結果を精錬した後、同様の精度レベルを維持しつつ、 \textit{sufficiency} と \textit{separation} の尺度をバランスさせることを目的とする。 本稿では,多目的フレームワークを含む2つの経験的ケーススタディと,精度のために事前学習したモデルの微調整について述べる。 既存の代替手段よりも優れたトレードオフが達成できる、有望な結果を示します。

Among the various aspects of algorithmic fairness studied in recent years, the tension between satisfying both \textit{sufficiency} and \textit{separation} -- e.g. the ratios of positive or negative predictive values, and false positive or false negative rates across groups -- has received much attention. Following a debate sparked by COMPAS, a criminal justice predictive system, the academic community has responded by laying out important theoretical understanding, showing that one cannot achieve both with an imperfect predictor when there is no equal distribution of labels across the groups. In this paper, we shed more light on what might be still possible beyond the impossibility -- the existence of a trade-off means we should aim to find a good balance within it. After refining the existing theoretical result, we propose an objective that aims to balance \textit{sufficiency} and \textit{separation} measures, while maintaining similar accuracy levels. We show the use of such an objective in two empirical case studies, one involving a multi-objective framework, and the other fine-tuning of a model pre-trained for accuracy. We show promising results, where better trade-offs are achieved compared to existing alternatives.
翻訳日:2022-05-29 03:53:34 公開日:2022-05-24
# (参考訳) アラビア語におけるマルチレベル感情分析

Multilevel sentiment analysis in arabic ( http://arxiv.org/abs/2205.12328v1 )

ライセンス: CC BY 4.0
Ahmed Nassar, Ebru Sezer(参考訳) 本研究では,アラビア語感情分析の性能向上を目的とした。 これは、最も成功した機械学習手法と、用語と文書レベルの感情を2つの(正または負の)カテゴリに分類する最も有用な特徴ベクトルを調べることで達成できる。 さらに、1つ以上の項に対する1つの極性次数の仕様について検討する。 また、否定と強化を扱うために、いくつかのルールが開発されている。 得られた結果により、アラビア語の用語・文書レベルの感情分析(sa)において、人工ニューラルネットワーク分類器が最適な分類器にノミネートされる。 さらに、正と負の両方のテストクラスで項SAで達成される平均Fスコアは0.92である。 文書レベルSAでは、正のテストクラスの平均Fスコアは0.94、負クラスは0.93である。

In this study, we aimed to improve the performance results of Arabic sentiment analysis. This can be achieved by investigating the most successful machine learning method and the most useful feature vector to classify sentiments in both term and document levels into two (positive or negative) categories. Moreover, specification of one polarity degree for the term that has more than one is investigated. Also to handle the negations and intensifications, some rules are developed. According to the obtained results, Artificial Neural Network classifier is nominated as the best classifier in both term and document level sentiment analysis (SA) for Arabic Language. Furthermore, the average F-score achieved in the term level SA for both positive and negative testing classes is 0.92. In the document level SA, the average F-score for positive testing classes is 0.94, while for negative classes is 0.93.
翻訳日:2022-05-29 03:22:41 公開日:2022-05-24
# (参考訳) 低位最適輸送:近似、統計、デバイアス

Low-rank Optimal Transport: Approximation, Statistics and Debiasing ( http://arxiv.org/abs/2205.12365v1 )

ライセンス: CC BY 4.0
Meyer Scetbon, Marco Cuturi(参考訳) 最適なトランスポート(ot)の背後にあるマッチング原則は、機械学習においてますます重要な役割を担っており、otがアプリケーション内のデータセット(例えば、シングルセルゲノミクス)の曖昧さを解消したり、より複雑な方法(例えば、トランスフォーマーや自己教師付き学習におけるバランスのとれた注意)を改善するために使用される場合に見られるトレンドである。 より困難な問題にスケールするためには、OTが数千ポイントではなく数百万のポイントで動作可能な解決器を必要とするという意見が増えている。 低ランク最適輸送 (LOT) アプローチは、それに関していくつかの約束を持ち、より確立されたエントロピー正則化アプローチを補完し、二次OTのようなより複雑なパイプラインに自己を挿入できることが示されている。 LOTは低コスト結合の探索を低負ランクのものに制限し、興味のある場合には線形時間アルゴリズムを生成する。 しかし、これらの約束は、LOTアプローチが興味のある性質(統計的境界、他の方法との関係)や実践的側面(偏り、ハイパーパラメータチューニング、初期化)を含む場合、興味のある性質と比較してエントロピー正則化の正当な競合と見なされる場合にのみ達成できる。 本稿では,これらの領域のそれぞれを対象とし,計算OTにおける低ランクアプローチの影響を補強する。

The matching principles behind optimal transport (OT) play an increasingly important role in machine learning, a trend which can be observed when OT is used to disambiguate datasets in applications (e.g. single-cell genomics) or used to improve more complex methods (e.g. balanced attention in transformers or self-supervised learning). To scale to more challenging problems, there is a growing consensus that OT requires solvers that can operate on millions, not thousands, of points. The low-rank optimal transport (LOT) approach advocated in \cite{scetbon2021lowrank} holds several promises in that regard, and was shown to complement more established entropic regularization approaches, being able to insert itself in more complex pipelines, such as quadratic OT. LOT restricts the search for low-cost couplings to those that have a low-nonnegative rank, yielding linear time algorithms in cases of interest. However, these promises can only be fulfilled if the LOT approach is seen as a legitimate contender to entropic regularization when compared on properties of interest, where the scorecard typically includes theoretical properties (statistical bounds, relation to other methods) or practical aspects (debiasing, hyperparameter tuning, initialization). We target each of these areas in this paper in order to cement the impact of low-rank approaches in computational OT.
翻訳日:2022-05-29 03:08:35 公開日:2022-05-24
# (参考訳) データ空間制約下でのヒューマン・イン・ザ・ループによる医用テーブル・トゥ・テキスト生成

Medical Scientific Table-to-Text Generation with Human-in-the-Loop under the Data Sparsity Constraint ( http://arxiv.org/abs/2205.12368v1 )

ライセンス: CC BY 4.0
Heng-Yi Wu, Jingqing Zhang, Julia Ive, Tong Li, Narges Tabari, Bingyuan Chen, Vibhor Gupta, Yike Guo(参考訳) 前臨床領域と臨床領域の構造的(語彙的)データには、個人に関する貴重な情報が含まれており、効率的な表とテキストの要約システムは、このデータをレポートにまとめるための手作業を大幅に削減することができる。 しかし実際には、この問題は最先端の自然言語生成モデル(T5, PEGASUS, GPT-Neoを含む)が正確で信頼性の高い出力を生成するために、データポーカリティ、データスポーサリティ、および機能不全によって大きく妨げられている。 本稿では, 自動補正, コピー機構, 合成データ拡張によって拡張された新しい2段階アーキテクチャを用いて, テーブル・トゥ・テキスト方式を提案する。 本研究により, 本手法は, 評価評価報告や毒性報告のコヒーレントかつ正確なテキストを生成するために, 表紙値のコピー精度を向上した(最大0。13絶対増加)構造データから, 健全な生物医学的実体と値を選択する。 さらに,提案手法をトレーニング例を40%以下で微調整することで,新たなデータセットに軽量に適応することを示す。 我々のモデルのアウトプットはHuman-in-the-Loopシナリオで人間の専門家によって検証される。

Structured (tabular) data in the preclinical and clinical domains contains valuable information about individuals and an efficient table-to-text summarization system can drastically reduce manual efforts to condense this data into reports. However, in practice, the problem is heavily impeded by the data paucity, data sparsity and inability of the state-of-the-art natural language generation models (including T5, PEGASUS and GPT-Neo) to produce accurate and reliable outputs. In this paper, we propose a novel table-to-text approach and tackle these problems with a novel two-step architecture which is enhanced by auto-correction, copy mechanism and synthetic data augmentation. The study shows that the proposed approach selects salient biomedical entities and values from structured data with improved precision (up to 0.13 absolute increase) of copying the tabular values to generate coherent and accurate text for assay validation reports and toxicology reports. Moreover, we also demonstrate a light-weight adaptation of the proposed system to new datasets by fine-tuning with as little as 40\% training examples. The outputs of our model are validated by human experts in the Human-in-the-Loop scenario.
翻訳日:2022-05-29 02:27:56 公開日:2022-05-24
# (参考訳) torchntk:pytorchモデルの神経接核の計算のためのライブラリ

TorchNTK: A Library for Calculation of Neural Tangent Kernels of PyTorch Models ( http://arxiv.org/abs/2205.12372v1 )

ライセンス: CC BY 4.0
Andrew Engel, Zhichao Wang, Anand D. Sarwate, Sutanay Choudhury, Tony Chiang(参考訳) 我々は、PyTorchフレームワークでニューラルネットワークモデルの実験的ニューラルネットワークカーネル(NTK)を計算するためのピソンライブラリであるTorchNTKを紹介する。 マルチ層パーセプトロンのNTKを効率的に計算する方法を提供する。 我々は,PyTorchがサポートする任意のアーキテクチャ(畳み込みネットワークなど)にライブラリの有用性を拡張できる,自動微分実装に対する明示的な差別化実装を比較した。 このライブラリの特徴は、ユーザをレイヤワイドNTKコンポーネントに公開し、階層ワイドの計算がよりメモリ効率が高いことを示すことである。 我々は,ソフトウェアの利用事例を実証し,NTKを探索するための予備実験を行う。

We introduce torchNTK, a python library to calculate the empirical neural tangent kernel (NTK) of neural network models in the PyTorch framework. We provide an efficient method to calculate the NTK of multilayer perceptrons. We compare the explicit differentiation implementation against autodifferentiation implementations, which have the benefit of extending the utility of the library to any architecture supported by PyTorch, such as convolutional networks. A feature of the library is that we expose the user to layerwise NTK components, and show that in some regimes a layerwise calculation is more memory efficient. We conduct preliminary experiments to demonstrate use cases for the software and probe the NTK.
翻訳日:2022-05-29 02:13:17 公開日:2022-05-24
# (参考訳) DPPの最大習熟度学習の硬さ

Hardness of Maximum Likelihood Learning of DPPs ( http://arxiv.org/abs/2205.12377v1 )

ライセンス: CC BY 4.0
Elena Grigorescu, Brendan Juba, Karl Wimmer, Ning Xie(参考訳) 決定点過程 (Determinantal Point Processs, DPPs) は負相関集合に対する確率論的モデルである。 DPPは、多様だが代表的なデータサブセットを選択するために、機械学習アプリケーションに成功している。 機械学習におけるDPPの研究において、クレスザはPh.D. Thesis (2011)でNP完全であると推測した。 公式な証明の欠如により、Brunel, Moitra, Rigollet and Urschel (COLT 2017) は Klesza の予想に反して、最大形 DPP を計算する多項式時間アルゴリズムが存在すると推測した。 彼らはまた、彼らの予想を支持するいくつかの予備的な証拠を示した。 この研究で、我々はクレスザの予想を証明する。 実際、近似結果のより強い硬さを証明している:$\left(1-O(\frac{1}{\log^9{N}})\right)$-approximation to the maximum log-likelihood of a $N$ elements is NP-complete。 近似係数は$\frac{1}{(1+o(1))\log{m}}$ 条件付き($m$ のサブセットからなるデータセットに対して)であり、すべての$n$要素が$o(1/n)$ のサブセットに現れる場合、1-\frac{1+o(1)}{\log n}$ に改善できる。 手法の面では、データセット上のdppの最大ログ類似度を近似し、ハイパーグラフ上の「ベクトル彩色」問題のギャップインスタンスを解決する。 このようなハイパーグラフはBogdanov, Obata and Trevisan (FOCS 2002) の有界グラフ構造の上に構築され、Alon and Capalbo (FOCS 2007) の強い拡張によってさらに拡張され、我々の目的に役立てられる。

Determinantal Point Processes (DPPs) are a widely used probabilistic model for negatively correlated sets. DPPs have been successfully employed in Machine Learning applications to select a diverse, yet representative subset of data. In seminal work on DPPs in Machine Learning, Kulesza conjectured in his PhD Thesis (2011) that the problem is NP-complete. The lack of a formal proof prompted Brunel, Moitra, Rigollet and Urschel (COLT 2017) to conjecture that, in opposition to Kulesza's conjecture, there exists a polynomial-time algorithm for computing a maximum-likelihood DPP. They also presented some preliminary evidence supporting their conjecture. In this work we prove Kulesza's conjecture. In fact, we prove the following stronger hardness of approximation result: even computing a $\left(1-O(\frac{1}{\log^9{N}})\right)$-approximation to the maximum log-likelihood of a DPP on a ground set of $N$ elements is NP-complete. At the same time, we also obtain the first polynomial-time algorithm that achieves a nontrivial worst-case approximation to the optimal log-likelihood: the approximation factor is $\frac{1}{(1+o(1))\log{m}}$ unconditionally (for data sets that consist of $m$ subsets), and can be improved to $1-\frac{1+o(1)}{\log N}$ if all $N$ elements appear in a $O(1/N)$-fraction of the subsets. In terms of techniques, we reduce approximating the maximum log-likelihood of DPPs on a data set to solving a gap instance of a "vector coloring" problem on a hypergraph. Such a hypergraph is built on a bounded-degree graph construction of Bogdanov, Obata and Trevisan (FOCS 2002), and is further enhanced by the strong expanders of Alon and Capalbo (FOCS 2007) to serve our purposes.
翻訳日:2022-05-29 01:59:46 公開日:2022-05-24
# (参考訳) ニューラルネットワークにおけるガウス前活性化

Imposing Gaussian Pre-Activations in a Neural Network ( http://arxiv.org/abs/2205.12379v1 )

ライセンス: CC BY 4.0
Pierre Wolinski, Julyan Arbel(参考訳) 本研究の目的は、ニューラルネットワークの重みの初期化分布と活性化関数の両方を、すべての事前活性化がガウス的であるように修正する方法を提案することである。 本稿では,活性化関数が有界関数(Heaviside や tanh など)から恒等関数まで連続関数にまたがるペアの初期化/活性化の族を提案する。 この研究は、gaussian pre-activateds(英語版)を扱う既存の著作物との矛盾に動機づけられている:一方、神経接核の行とカオスの辺の作業はそれを仮定し、他方では理論と実験の結果がこの仮説に挑戦する。 私たちが提案しているペアの初期化/活性化のファミリーは、このホットな質問に答えるのに役立つでしょう。

The goal of the present work is to propose a way to modify both the initialization distribution of the weights of a neural network and its activation function, such that all pre-activations are Gaussian. We propose a family of pairs initialization/activation, where the activation functions span a continuum from bounded functions (such as Heaviside or tanh) to the identity function. This work is motivated by the contradiction between existing works dealing with Gaussian pre-activations: on one side, the works in the line of the Neural Tangent Kernels and the Edge of Chaos are assuming it, while on the other side, theoretical and experimental results challenge this hypothesis. The family of pairs initialization/activation we are proposing will help us to answer this hot question: is it desirable to have Gaussian pre-activations in a neural network?
翻訳日:2022-05-29 01:57:10 公開日:2022-05-24
# (参考訳) first contact: 相互情報最大化による教師なしヒューマンマシン協調

First Contact: Unsupervised Human-Machine Co-Adaptation via Mutual Information Maximization ( http://arxiv.org/abs/2205.12381v1 )

ライセンス: CC BY 4.0
Siddharth Reddy, Sergey Levine, Anca D. Dragan(参考訳) ユーザの生のコマンド信号をロボットやコンピュータの動作に変換するための補助的ヒューマンマシンインタフェース(例えば、筋電図に基づく手足義肢義肢義肢)を、事前のマッピングがない場合、ユーザに対して、アクションラベルや報酬フィードバックの形で監督を依頼することはできず、ユーザが達成しようとしているタスクについて事前の知識を持っていないか。 この論文の重要な考え方は、タスクに関係なく、インタフェースがより直感的である場合、ユーザのコマンドはノイズが少ないことである。 我々は、このアイデアをインタフェースを最適化するための完全に教師なしの目的として定式化した: ユーザのコマンド信号と環境における誘導状態遷移の間の相互情報である。 この相互情報スコアが効果的なインターフェースと非効果的なインターフェースを区別できるかどうかを評価するため,本研究では,キーボードとアイアイのインターフェースを多用した540K例の観察実験を行った。 その結果,我々の相互情報スコアは様々な領域におけるタスク完了度指標の予測値であり,平均スピアマンのランク相関は0.13であった。 インターフェイスをランダムに初期化し、ユーザに対して、インターフェースを使って必要なタスクを実行させようとし、相互情報スコアを測定し、インターフェイスを更新して、強化学習を通じて相互情報を最大化します。 本手法は,摂動マウスを用いた2次元カーソル制御タスクを行う12名の被験者によるユーザスタディと,ハンドジェスチャーを用いたLunar Landerゲームプレイ実験により評価した。 その結果,30分以内でユーザ管理やタスクの事前知識を必要とせずに,インターフェースをゼロから学習できることが判明した。

How can we train an assistive human-machine interface (e.g., an electromyography-based limb prosthesis) to translate a user's raw command signals into the actions of a robot or computer when there is no prior mapping, we cannot ask the user for supervision in the form of action labels or reward feedback, and we do not have prior knowledge of the tasks the user is trying to accomplish? The key idea in this paper is that, regardless of the task, when an interface is more intuitive, the user's commands are less noisy. We formalize this idea as a completely unsupervised objective for optimizing interfaces: the mutual information between the user's command signals and the induced state transitions in the environment. To evaluate whether this mutual information score can distinguish between effective and ineffective interfaces, we conduct an observational study on 540K examples of users operating various keyboard and eye gaze interfaces for typing, controlling simulated robots, and playing video games. The results show that our mutual information scores are predictive of the ground-truth task completion metrics in a variety of domains, with an average Spearman's rank correlation of 0.43. In addition to offline evaluation of existing interfaces, we use our unsupervised objective to learn an interface from scratch: we randomly initialize the interface, have the user attempt to perform their desired tasks using the interface, measure the mutual information score, and update the interface to maximize mutual information through reinforcement learning. We evaluate our method through a user study with 12 participants who perform a 2D cursor control task using a perturbed mouse, and an experiment with one user playing the Lunar Lander game using hand gestures. The results show that we can learn an interface from scratch, without any user supervision or prior knowledge of tasks, in under 30 minutes.
翻訳日:2022-05-29 01:48:11 公開日:2022-05-24
# (参考訳) 生成プロンプトに基づく推論による毒性検出

Toxicity Detection with Generative Prompt-based Inference ( http://arxiv.org/abs/2205.12390v1 )

ライセンス: CC BY 4.0
Yau-Shian Wang and Yingshan Chang(参考訳) 人によって知覚される微妙さ、暗黙性、そして異なる可能な解釈のため、テキストから望ましくない内容を検出することは困難である。 かつて好ましくない内容を含むコーパスで訓練された言語モデル(lms)が、バイアスや毒性を顕示する能力を持つのは、長年のリスクである。 しかし、最近の研究は、治療薬として、LMは追加の微調整なしで有毒な物質を識別できることを示している。 プロンプトメソッドは、この驚くべき自己診断能力を効果的に得ることが示されている。 しかし、既存のプロンプトベースのメソッドは通常、言語モデルへの命令を判別的に指定する。 本研究では,ゼロショットプロンプトによる毒性検出のジェネレーティブな変種を,プロンプトエンジニアリングを包括的に試行して検討する。 ソーシャルメディアの投稿にアノテートされた毒性ラベル付きデータセットを3つ評価した。 本分析では, 定量的かつ定性的に生成的分類手法の強みを強調した。 自己診断の興味深い側面とその倫理的意味について論じる。

Due to the subtleness, implicity, and different possible interpretations perceived by different people, detecting undesirable content from text is a nuanced difficulty. It is a long-known risk that language models (LMs), once trained on corpus containing undesirable content, have the power to manifest biases and toxicity. However, recent studies imply that, as a remedy, LMs are also capable of identifying toxic content without additional fine-tuning. Prompt-methods have been shown to effectively harvest this surprising self-diagnosing capability. However, existing prompt-based methods usually specify an instruction to a language model in a discriminative way. In this work, we explore the generative variant of zero-shot prompt-based toxicity detection with comprehensive trials on prompt engineering. We evaluate on three datasets with toxicity labels annotated on social media posts. Our analysis highlights the strengths of our generative classification approach both quantitatively and qualitatively. Interesting aspects of self-diagnosis and its ethical implications are discussed.
翻訳日:2022-05-29 01:28:50 公開日:2022-05-24
# (参考訳) nlpにおけるバイアス相関の解明に向けて

Toward Understanding Bias Correlations for Mitigation in NLP ( http://arxiv.org/abs/2205.12391v1 )

ライセンス: CC BY 4.0
Lu Cheng, Suyu Ge, Huan Liu(参考訳) 自然言語処理(NLP)モデルは、性別や人種など、異なる社会的アイデンティティを持つグループに対して差別的である。 これらの望ましくないバイアスの負の結果、研究者は前例のない努力で反応し、バイアス軽減のための有望なアプローチを提案した。 かなりの実用的重要性にもかかわらず、現在のアルゴリズム的公平性文学は、異なる形式のバイアスの関係について深い理解を欠いている。 社会的偏見は自然によって複雑である。 社会心理学における多くの研究は、「一般化された偏見」、すなわち、異なるグループ間での一般的な非評価感情を識別する。 例えば、少数民族を軽蔑する人々は、女性や同性愛者を軽蔑する傾向がある。 そこで本研究は,軽減におけるバイアス相関を理解するための最初の体系的研究である。 特に,3つの社会的アイデンティティ,すなわち人種,性別,宗教における2つの共通NLPタスク(毒性検出と単語埋め込み)におけるバイアス緩和について検討した。 本研究は, 偏見の相関が示唆され, 現状の文献において, 独立脱バイアスアプローチが支配的になるシナリオが不十分である可能性が示唆された。 さらに、相関バイアスの軽減が、独立性や個人的偏見よりも望ましいかどうかについても検討する。 最後に、バイアス緩和におけるデバイアスの正確さのトレードオフという本質的な問題に光を当てた。 本研究は,相関バイアスを考慮した統合バイアス緩和に関する今後の研究の動機となる。

Natural Language Processing (NLP) models have been found discriminative against groups of different social identities such as gender and race. With the negative consequences of these undesired biases, researchers have responded with unprecedented effort and proposed promising approaches for bias mitigation. In spite of considerable practical importance, current algorithmic fairness literature lacks an in-depth understanding of the relations between different forms of biases. Social bias is complex by nature. Numerous studies in social psychology identify the "generalized prejudice", i.e., generalized devaluing sentiments across different groups. For example, people who devalue ethnic minorities are also likely to devalue women and gays. Therefore, this work aims to provide a first systematic study toward understanding bias correlations in mitigation. In particular, we examine bias mitigation in two common NLP tasks -- toxicity detection and word embeddings -- on three social identities, i.e., race, gender, and religion. Our findings suggest that biases are correlated and present scenarios in which independent debiasing approaches dominant in current literature may be insufficient. We further investigate whether jointly mitigating correlated biases is more desired than independent and individual debiasing. Lastly, we shed light on the inherent issue of debiasing-accuracy trade-off in bias mitigation. This study serves to motivate future research on joint bias mitigation that accounts for correlated biases.
翻訳日:2022-05-29 01:16:18 公開日:2022-05-24
# (参考訳) rgb仮想生産段階におけるカラーレンディションとカメラ内背景の協調最適化

Jointly Optimizing Color Rendition and In-Camera Backgrounds in an RGB Virtual Production Stage ( http://arxiv.org/abs/2205.12403v1 )

ライセンス: CC BY 4.0
Chloe LeGendre, Lukas Lepicovsky, Paul Debevec(参考訳) 仮想プロダクションシステムで使用されるLEDパネルは、鮮やかなイメージを広い色域で表示することができるが、狭帯域赤、緑、青のLEDからのピークスペクトル出力のために照明として使用すると、色の変化が問題となる。 そこで本研究では,このカラーリフレクション問題を改善しつつ,正確なカメラ内背景色を透過する仮想生産段階のカラーキャリブレーションプロセスを提案する。 線形色補正変換を最適化してこれを行う。 1)カメラの視野で見えるLEDパネル画素。 2)被写体を照明するカメラの視野外の画素、及び、後処理として、 3)カメラが記録した画素値。 その結果、rgb ledパネルで撮影された映像は、カメラ内背景の所望の色を再現しながら、より正確な肌色や衣装の色を示すことができる。

While the LED panels used in virtual production systems can display vibrant imagery with a wide color gamut, they produce problematic color shifts when used as lighting due to their peaky spectral output from narrow-band red, green, and blue LEDs. In this work, we present an improved color calibration process for virtual production stages which ameliorates this color rendition problem while also passing through accurate in-camera background colors. We do this by optimizing linear color correction transformations for 1) the LED panel pixels visible in the field of view of the camera, 2) the pixels outside the field of view of the camera illuminating the subjects, and, as a post-process, 3) the pixel values recorded by the camera. The result is that footage shot in an RGB LED panel virtual production stage can exhibit more accurate skin tones and costume colors while still reproducing the desired colors of the in-camera background.
翻訳日:2022-05-29 00:59:05 公開日:2022-05-24
# (参考訳) FLUTE: 図形言語理解とテキスト説明

FLUTE: Figurative Language Understanding and Textual Explanations ( http://arxiv.org/abs/2205.12404v1 )

ライセンス: CC BY 4.0
Tuhin Chakrabarty, Arkadiy Saakyan, Debanjan Ghosh and Smaranda Muresan(参考訳) 図形言語の普及にもかかわらず、トランスフォーマーベースのモデルは、その理解を実証するのに苦労している。 一方、古典的な自然言語推論(NLI)タスクでさえ、素早い相関やアノテーションのアーティファクトに悩まされている。 eSNLIのようなデータセットがリリースされ、適切な理由で言語モデルが正しいかどうかを調査できるようになった。 しかし、そのようなデータはフィギュラティブ言語には存在せず、そのような表現を真に理解することは困難である。 上記の点を踏まえて、Sarcasm、Simile、Metaphorの3つのカテゴリにまたがる、8,000の図式NLIインスタンスのデータセットであるFLUTEをリリースする。 我々は,GPT-3,クラウドワーカー,エキスパートアノテーションに基づくHuman-AIコラボレーションフレームワークを通じてデータを収集する。 GPT-3を人間の専門家と組み合わせることで、図形言語のような複雑な言語現象であってもデータセットの作成を拡大できることを示す。 T5モデルのベースライン性能は、我々のデータセットが図形言語を理解する上で困難なテストベッドであることを示している。

In spite of the prevalence of figurative language, transformer-based models struggle to demonstrate an understanding of it. Meanwhile, even classical natural language inference (NLI) tasks have been plagued by spurious correlations and annotation artifacts. Datasets like eSNLI have been released, allowing to probe whether language models are right for the right reasons. Yet no such data exists for figurative language, making it harder to asses genuine understanding of such expressions. In light of the above, we release FLUTE, a dataset of 8,000 figurative NLI instances with explanations, spanning three categories: Sarcasm, Simile, and Metaphor. We collect the data through the Human-AI collaboration framework based on GPT-3, crowdworkers, and expert annotation. We show how utilizing GPT-3 in conjunction with human experts can aid in scaling up the creation of datasets even for such complex linguistic phenomena as figurative language. Baseline performance of the T5 model shows our dataset is a challenging testbed for figurative language understanding.
翻訳日:2022-05-29 00:40:49 公開日:2022-05-24
# (参考訳) 遅延フィードバックモデリングのためのマルチヘッドオンライン学習

Multi-Head Online Learning for Delayed Feedback Modeling ( http://arxiv.org/abs/2205.12406v1 )

ライセンス: CC BY 4.0
Hui Gao and Yihan Yang(参考訳) オンライン広告では、変換の確率と価値(例えば購入)を予測することが非常に重要である。 関連する広告を表示することでユーザー体験に影響を与えるだけでなく、広告主のroiやマーケットプレースの収益にも影響する。 インプレッションの数分後に発生するクリックとは異なり、コンバージョンは長時間(例えばオンラインショッピングの30日)に行われることが期待されている。 本当のラベルは長い遅延の後だけ利用できるので、それは挑戦を生み出します。 不正確なラベル(部分変換)が使用されるか、古いデータ(例:30日前)でモデルが訓練される。 問題は、最新のデータのライブパフォーマンスに焦点を当てたオンライン学習において、より顕著である。 本稿では,マルチヘッドモデリングを用いて,この課題に対処するための新しい解を提案する。 従来の方法とは異なり、day 1, day 2, day 3-7, day 8-30のような複数のウィンドウへの変換を直接量子化する。 サブモデルは、各ウィンドウ内の変換に特化して訓練される。 ラベルの鮮度は初期のモデル(例:1日と2日)で最大に保たれ、遅延変換はより長いモデル(例:8-30日)で正確に利用される。 変換率(CVR)とクリック毎値(VPC)を予測するオンライン学習実験において,既知の手法の性能を大幅に上回ることを示す。 最後に、遅延フィードバックモデリングの一般的な方法として、より高度なML技術と組み合わせることで、さらなる性能向上を図ることができる。

In online advertising, it is highly important to predict the probability and the value of a conversion (e.g., a purchase). It not only impacts user experience by showing relevant ads, but also affects ROI of advertisers and revenue of marketplaces. Unlike clicks, which often occur within minutes after impressions, conversions are expected to happen over a long period of time (e.g., 30 days for online shopping). It creates a challenge, as the true labels are only available after the long delays. Either inaccurate labels (partial conversions) are used, or models are trained on stale data (e.g., from 30 days ago). The problem is more eminent in online learning, which focuses on the live performance on the latest data. In this paper, a novel solution is presented to address this challenge using multi-head modeling. Unlike traditional methods, it directly quantizes conversions into multiple windows, such as day 1, day 2, day 3-7, and day 8-30. A sub-model is trained specifically on conversions within each window. Label freshness is maximally preserved in early models (e.g., day 1 and day 2), while late conversions are accurately utilized in models with longer delays (e.g., day 8-30). It is shown to greatly exceed the performance of known methods in online learning experiments for both conversion rate (CVR) and value per click (VPC) predictions. Lastly, as a general method for delayed feedback modeling, it can be combined with any advanced ML techniques to further improve the performance.
翻訳日:2022-05-29 00:28:25 公開日:2022-05-24
# (参考訳) 衛星画像における畳み込みニューラルプロセス

Convolutional Neural Processes for Inpainting Satellite Images ( http://arxiv.org/abs/2205.12407v1 )

ライセンス: CC BY 4.0
Alexander Pondaven, M\"art Bakler, Donghu Guo, Hamzah Hashim, Martin Ignatov, Harrison Zhu(参考訳) 衛星画像の普及により、研究者は病気のダイナミクスのような複雑なシステムをモデル化できるようになった。 しかし、多くの衛星画像は測定欠陥のために値が欠けており、データインプットなしでは使用できない。 例えば、LANDSAT 7衛星の走査線補正装置は2003年に故障し、データの約20%が失われた。 Inpaintingは、既知のピクセルに基づいて何が欠落しているかを予測することを含み、PDEや補間法に基づく画像処理では古い問題である。 しかし、これらの手法の多くは衛星画像の時空間構造を明示的に考慮していない。 本研究では,衛星画像のインペインティングを自然なメタラーニング問題として位置づけ,各衛星画像を独自のタスクあるいは2次元回帰問題として構成する畳み込みニューラルプロセス(convnps)を提案する。 本研究では,ランドサット7号の衛星画像のスキャンライン塗装問題において,convnpが古典的手法や最先端のディープラーニングペイントモデルに勝ることを示す。

The widespread availability of satellite images has allowed researchers to model complex systems such as disease dynamics. However, many satellite images have missing values due to measurement defects, which render them unusable without data imputation. For example, the scanline corrector for the LANDSAT 7 satellite broke down in 2003, resulting in a loss of around 20\% of its data. Inpainting involves predicting what is missing based on the known pixels and is an old problem in image processing, classically based on PDEs or interpolation methods, but recent deep learning approaches have shown promise. However, many of these methods do not explicitly take into account the inherent spatiotemporal structure of satellite images. In this work, we cast satellite image inpainting as a natural meta-learning problem, and propose using convolutional neural processes (ConvNPs) where we frame each satellite image as its own task or 2D regression problem. We show ConvNPs can outperform classical methods and state-of-the-art deep learning inpainting models on a scanline inpainting problem for LANDSAT 7 satellite images, assessed on a variety of in and out-of-distribution images.
翻訳日:2022-05-29 00:18:14 公開日:2022-05-24
# (参考訳) AdaMix:大規模言語モデルのパラメータ効率チューニングのためのMix-of-Adapter

AdaMix: Mixture-of-Adapter for Parameter-efficient Tuning of Large Language Models ( http://arxiv.org/abs/2205.12410v1 )

ライセンス: CC BY 4.0
Yaqing Wang, Subhabrata Mukherjee, Xiaodong Liu, Jing Gao, Ahmed Hassan Awadallah, Jianfeng Gao(参考訳) 大規模なトレーニング済み言語モデルをダウンストリームタスクに微調整するには、数億のパラメータを更新する必要がある。 これにより、各タスクに対するモデルウェイトの大規模なコピーを格納するサービスコストが増大するだけでなく、少数のタスク適応時に不安定になる。 モデル重量の大半を凍結させながら、大きなモデルに小さなトレーニング可能な部品(例えばアダプタ)を注入するパラメータ効率の手法が開発されている。 アダプタ容量を増やすための一般的なメカニズムは、アダプタパラメータを増やすボトルネック次元を増やすことである。 本研究では,パラメータや計算コストを2つの重要な手法で増大させることなく,アダプタ容量を改善する機構を提案する。 (i)Transformerアーキテクチャの各レイヤに複数の共有アダプタコンポーネントを導入します。 我々は、ランダムなルーティングによるスパース学習を利用して、アダプタパラメータ(エンコーダは凍結されている)を更新し、単一のアダプタをトレーニングするのと同じ計算コスト(FLOP)を発生させる。 二) 各変圧器層において、複数のアダプタコンポーネントの重みを平均して単一のアダプタに崩壊させる簡易なマージ機構を提案する。 これらのテクニックは、完全に教師付きおよび数発の自然言語理解タスクを含む、複数のタスク設定でうまく機能することを示す。 事前訓練された言語モデルのパラメータの0.23%だけをチューニングすることで、我々のモデルはフルモデルの微調整性能といくつかの競合する手法よりも優れる。

Fine-tuning large-scale pre-trained language models to downstream tasks require updating hundreds of millions of parameters. This not only increases the serving cost to store a large copy of the model weights for every task, but also exhibits instability during few-shot task adaptation. Parameter-efficient techniques have been developed that tune small trainable components (e.g., adapters) injected in the large model while keeping most of the model weights frozen. The prevalent mechanism to increase adapter capacity is to increase the bottleneck dimension which increases the adapter parameters. In this work, we introduce a new mechanism to improve adapter capacity without increasing parameters or computational cost by two key techniques. (i) We introduce multiple shared adapter components in each layer of the Transformer architecture. We leverage sparse learning via random routing to update the adapter parameters (encoder is kept frozen) resulting in the same amount of computational cost (FLOPs) as that of training a single adapter. (ii) We propose a simple merging mechanism to average the weights of multiple adapter components to collapse to a single adapter in each Transformer layer, thereby, keeping the overall parameters also the same but with significant performance improvement. We demonstrate these techniques to work well across multiple task settings including fully supervised and few-shot Natural Language Understanding tasks. By only tuning 0.23% of a pre-trained language model's parameters, our model outperforms the full model fine-tuning performance and several competing methods.
翻訳日:2022-05-29 00:02:12 公開日:2022-05-24
# (参考訳) 線形接続が一般化戦略を明らかにする

Linear Connectivity Reveals Generalization Strategies ( http://arxiv.org/abs/2205.12411v1 )

ライセンス: CC BY-SA 4.0
Jeevesh Juneja and Rachit Bansal and Kyunghyun Cho and Jo\~ao Sedoc and Naomi Saphra(参考訳) モード接続の文献では、2つのニューラルネットワークが同じデータで同じように訓練されると、テストセットの精度が維持されるパラメータ空間を通る経路で接続されることが広く受け入れられている。 事前訓練されたモデルからの伝達学習を含むいくつかの状況では、これらの経路は線形であると推定される。 既存の結果とは対照的に、テキスト分類器(MNLI、QQP、CoLAで訓練されている)のうち、いくつかの微調整されたモデルは、それらの間の線形パスの損失を増大させる大きな障壁を持つ。 各タスクでは、テスト損失面上で線形に接続されているが、クラスタの外のモデルから切り離されている、異なるモデルのクラスタを見つけます。 1つのクラスタはドメインシフトの下で単語モデルの袋のように振る舞う一方、別のクラスタは構文的ヒューリスティックスを使っている。 本研究では,損失面の形状がモデルを異なるヒューリスティック関数へと導く方法を示す。

It is widely accepted in the mode connectivity literature that when two neural networks are trained similarly on the same data, they are connected by a path through parameter space over which test set accuracy is maintained. Under some circumstances, including transfer learning from pretrained models, these paths are presumed to be linear. In contrast to existing results, we find that among text classifiers (trained on MNLI, QQP, and CoLA), some pairs of finetuned models have large barriers of increasing loss on the linear paths between them. On each task, we find distinct clusters of models which are linearly connected on the test loss surface, but are disconnected from models outside the cluster -- models that occupy separate basins on the surface. By measuring performance on specially-crafted diagnostic datasets, we find that these clusters correspond to different generalization strategies: one cluster behaves like a bag of words model under domain shift, while another cluster uses syntactic heuristics. Our work demonstrates how the geometry of the loss surface can guide models towards different heuristic functions.
翻訳日:2022-05-28 23:39:47 公開日:2022-05-24
# リアルタイムカスタムキーワードスポッティングのためのタイルニューラルネットワークの強化

Boosting Tail Neural Network for Realtime Custom Keyword Spotting ( http://arxiv.org/abs/2205.12933v1 )

ライセンス: Link先を確認
Sihao Xue, Qianyao Shen, Guoqing Li(参考訳) 本稿では,実時間カスタムキーワードスポッティング(rcks)の性能を向上させるために,btnn(boosttail neural network)を提案する。 脳科学に触発されて、脳は神経シミュレーションのために部分的に活性化され、多くの機械学習アルゴリズムが開発され、困難な問題を解決するために弱い分類器のバッチを使用する。 本手法はRCKS問題に有効であることを示す。 提案手法は、覚醒率と誤報の点でより良い性能を実現する。 私たちの実験では、強力な分類器を1つだけ使う従来のアルゴリズムと比較すると、相対的に18%改善しています。 我々はまた、このアプローチが将来のASR探査において有望である可能性を指摘している。

In this paper, we propose a Boosting Tail Neural Network (BTNN) for improving the performance of Realtime Custom Keyword Spotting (RCKS) that is still an industrial challenge for demanding powerful classification ability with limited computation resources. Inspired by Brain Science that a brain is only partly activated for a nerve simulation and numerous machine learning algorithms are developed to use a batch of weak classifiers to resolve arduous problems, which are often proved to be effective. We show that this method is helpful to the RCKS problem. The proposed approach achieve better performances in terms of wakeup rate and false alarm. In our experiments compared with those traditional algorithms that use only one strong classifier, it gets 18\% relative improvement. We also point out that this approach may be promising in future ASR exploration.
翻訳日:2022-05-26 15:56:32 公開日:2022-05-24
# face2textの再訪: データセットとベースライン結果の改善

Face2Text revisited: Improved data set and baseline results ( http://arxiv.org/abs/2205.12342v1 )

ライセンス: Link先を確認
Marc Tanti, Shaun Abdilla, Adrian Muscat, Claudia Borg, Reuben A. Farrugia, Albert Gatt(参考訳) 現在の画像記述生成モデルは、人間の顔を記述するタスクにうまく移行しません。 より人間に焦点を絞った説明の展開を促進するために,celeba画像データセットに基づく新たな表情記述データセットを開発した。 本稿では,このデータセットの特性について述べるとともに,vggface/resnet cnnからの転送学習の実現可能性について検討した。 比較は、76人の英語話者による自動測定と人的評価によって引き起こされる。 VGGFace-LSTM + Attentionモデルが生成した記述は、人間による評価に最も近いが、ResNet-LSTM + Attentionモデルは最高CIDErとCIDEr-D(それぞれ52と0.686)を得た。 新しいデータセットとこれらの実験結果は、この分野における将来の作業のためのデータとベースラインを提供する。

Current image description generation models do not transfer well to the task of describing human faces. To encourage the development of more human-focused descriptions, we developed a new data set of facial descriptions based on the CelebA image data set. We describe the properties of this data set, and present results from a face description generator trained on it, which explores the feasibility of using transfer learning from VGGFace/ResNet CNNs. Comparisons are drawn through both automated metrics and human evaluation by 76 English-speaking participants. The descriptions generated by the VGGFace-LSTM + Attention model are closest to the ground truth according to human evaluation whilst the ResNet-LSTM + Attention model obtained the highest CIDEr and CIDEr-D results (1.252 and 0.686 respectively). Together, the new data set and these experimental results provide data and baselines for future work in this area.
翻訳日:2022-05-26 15:30:50 公開日:2022-05-24
# 垂直フェデレート学習における微分プライベートauc計算

Differentially Private AUC Computation in Vertical Federated Learning ( http://arxiv.org/abs/2205.12412v1 )

ライセンス: Link先を確認
Jiankai Sun and Xin Yang and Yuanshun Yao and Junyuan Xie and Di Wu and Chong Wang(参考訳) フェデレーション学習は、最近、複数のパーティが機械学習モデルを共同でトレーニングするプライバシー強化ツールとして注目されている。 サブカテゴリとして、垂直連合学習(vFL)は、機能とラベルが別々のパーティに分割されるシナリオに焦点を当てている。 vflの以前の研究は、主にモデルトレーニング中にラベルプライバシを保護する方法について研究してきた。 しかし、vFLにおけるモデル評価は、プライベートラベル情報の漏洩につながる可能性がある。 緩和戦略の一つは、ラベル微分プライバシー(dp)を適用することだが、真の(非プライベートな)メトリクスの推定は悪い。 本研究では,ラベルDPをvFLで使用する場合のAUC(Area under curve)メトリックをより正確に計算できる2つの評価アルゴリズムを提案する。 大規模な実験により,我々のアルゴリズムはベースラインよりも正確なAUCを実現できることを示す。

Federated learning has gained great attention recently as a privacy-enhancing tool to jointly train a machine learning model by multiple parties. As a sub-category, vertical federated learning (vFL) focuses on the scenario where features and labels are split into different parties. The prior work on vFL has mostly studied how to protect label privacy during model training. However, model evaluation in vFL might also lead to potential leakage of private label information. One mitigation strategy is to apply label differential privacy (DP) but it gives bad estimations of the true (non-private) metrics. In this work, we propose two evaluation algorithms that can more accurately compute the widely used AUC (area under curve) metric when using label DP in vFL. Through extensive experiments, we show our algorithms can achieve more accurate AUCs compared to the baselines.
翻訳日:2022-05-26 15:27:11 公開日:2022-05-24
# DistillAdapt: ソースフリーのアクティブなビジュアルドメイン適応

DistillAdapt: Source-Free Active Visual Domain Adaptation ( http://arxiv.org/abs/2205.12840v1 )

ライセンス: Link先を確認
Divya Kothandaraman, Sumit Shekhar, Abhilasha Sancheti, Manoj Ghuhan, Tripti Shukla, Dinesh Manocha(参考訳) 本稿では、SF-ADA(Source-Free Active Domain Adaptation)の課題に対する新しい手法であるDistillAdaptを提案する。 この問題は、プライバシの懸念などによりソースデータが適応できないと仮定しながら、ターゲットドメインのラベルを取得するための予算内で、事前訓練されたソースドメインネットワークをターゲットドメインに適応させる必要がある。 DistillAdaptは、SF-ADAの最初のアプローチの1つであり、新しいガイド付き注意伝達ネットワーク(GATN)とアクティブラーニングヒューリスティックなH_ALを通じて、SF-ADAの課題に全力を挙げている。 GATNは、H_ALによって採掘された注釈されたターゲットサンプルの小さなサブセットを用いて、事前訓練されたネットワークからターゲットネットワークへの特徴の選択的蒸留を可能にする。 h_alはバッチレベルでサンプルを取得し、事前訓練されたネットワークから転送可能性とターゲットネットワークの不確実性とをバランスさせる。 distilladaptはタスク非依存で、分類、セグメンテーション、検出といった視覚的なタスクにも適用できる。 さらに、DistillAdaptは出力ラベル空間のシフトを処理できる。 我々は,3つの視覚的タスク,ビジ.桁分類(MNIST,SVHN),合成(GTA5)から実(CityScapes)への画像分割,文書レイアウト検出(PubLayNetからDSSE)に関する実験および広範囲なアブレーション研究を行った。 当社のソースフリーアプローチであるdistilladaptは,大量のアノテートされたソースデータへのアクセスを前提とした事前適応手法に対して,0.5~31.3%(データセットとタスク横断)の改善を実現した。

We present a novel method, DistillAdapt, for the challenging problem of Source-Free Active Domain Adaptation (SF-ADA). The problem requires adapting a pretrained source domain network to a target domain, within a provided budget for acquiring labels in the target domain, while assuming that the source data is not available for adaptation due to privacy concerns or otherwise. DistillAdapt is one of the first approaches for SF-ADA, and holistically addresses the challenges of SF-ADA via a novel Guided Attention Transfer Network (GATN) and an active learning heuristic, H_AL. The GATN enables selective distillation of features from the pre-trained network to the target network using a small subset of annotated target samples mined by H_AL. H_AL acquires samples at batch-level and balances transfer-ability from the pre-trained network and uncertainty of the target network. DistillAdapt is task-agnostic, and can be applied across visual tasks such as classification, segmentation and detection. Moreover, DistillAdapt can handle shifts in output label space. We conduct experiments and extensive ablation studies across 3 visual tasks, viz. digits classification (MNIST, SVHN), synthetic (GTA5) to real (CityScapes) image segmentation, and document layout detection (PubLayNet to DSSE). We show that our source-free approach, DistillAdapt, results in an improvement of 0.5% - 31.3% (across datasets and tasks) over prior adaptation methods that assume access to large amounts of annotated source data for adaptation.
翻訳日:2022-05-26 15:12:39 公開日:2022-05-24
# 物理に基づく単眼映像からの3次元ポーズ再構成のための軌道最適化

Trajectory Optimization for Physics-Based Reconstruction of 3d Human Pose from Monocular Video ( http://arxiv.org/abs/2205.12292v1 )

ライセンス: Link先を確認
Erik G\"artner, Mykhaylo Andriluka, Hongyi Xu, Cristian Sminchisescu(参考訳) 本研究は,単眼映像から身体的に可視な人間の動きを推定する作業に焦点をあてる。 物理を考慮しない既存のアプローチは、しばしば運動人工物と時間的に矛盾した出力を生み出すが、最先端の物理学に基づくアプローチは、制御された実験条件でのみ機能するか、または足に限られる簡易な地上接触を考えることが示されている。 本稿では,全機能物理エンジンをポーズ推定プロセスに組み込むことにより,これらの欠点を解決する方法について検討する。 入力として制御されていない実世界のシーンを仮定し,地上面の位置と身体モデルの寸法を推定する。 その後、軌道最適化により物理運動を回復する。 我々の定式化の利点は、様々な地上特性を持つ様々なシーンに容易に一般化し、任意の形態の自己接触と関節体とシーン幾何学の間の接触をサポートすることである。 提案手法は,AISTベンチマークや制御不能なインターネットビデオから,より複雑な動的動作に再トレーニングすることなく,Human3.6Mベンチマーク上の既存の物理法に対して,直接適用可能であることを示す。

We focus on the task of estimating a physically plausible articulated human motion from monocular video. Existing approaches that do not consider physics often produce temporally inconsistent output with motion artifacts, while state-of-the-art physics-based approaches have either been shown to work only in controlled laboratory conditions or consider simplified body-ground contact limited to feet. This paper explores how these shortcomings can be addressed by directly incorporating a fully-featured physics engine into the pose estimation process. Given an uncontrolled, real-world scene as input, our approach estimates the ground-plane location and the dimensions of the physical body model. It then recovers the physical motion by performing trajectory optimization. The advantage of our formulation is that it readily generalizes to a variety of scenes that might have diverse ground properties and supports any form of self-contact and contact between the articulated body and scene geometry. We show that our approach achieves competitive results with respect to existing physics-based methods on the Human3.6M benchmark, while being directly applicable without re-training to more complex dynamic motions from the AIST benchmark and to uncontrolled internet videos.
翻訳日:2022-05-26 14:34:35 公開日:2022-05-24
# 実用的画像コピー検出のためのベンチマークと非対称相似性学習

A Benchmark and Asymmetrical-Similarity Learning for Practical Image Copy Detection ( http://arxiv.org/abs/2205.12358v1 )

ライセンス: Link先を確認
Wenhao Wang, Yifan Sun, Yi Yang(参考訳) 画像コピー検出(ICD)は、クエリイメージが参照セットからの任意の画像の編集コピーであるかどうかを判定することを目的とする。 現在、ICDには非常に限定的な公開ベンチマークがあるが、現実のアプリケーションにおいて重要な課題、すなわちハードネガティブなクエリからの逸脱を見落としている。 具体的には、一部のクエリは編集されたコピーではなく、本質的には参照画像と似ている。 これらのハードネガティブなクエリは、編集されたコピーとして容易に誤認識され、icdの精度を著しく損なう。 この観察は、この特徴を特徴とする最初のICDベンチマークを構築する動機となります。 既存のICDデータセットに基づいて,トレーニングセットとテストセットにそれぞれ100,000,24,252の負のペアを追加することで,新たなデータセットを構築する。 さらに,本論文では,icdにおける難解な問題,すなわち,現在のメトリック学習とicdの間には根本的な矛盾があることを示す。 この矛盾は、メートル法学習が対称距離を採用する一方、編集されたコピーは非対称(一方向)のプロセスであり、例えば、部分的作物はその全体的基準画像に近く、編集されたコピーであり、後者は(距離が等しく小さいにもかかわらず)前者の編集されたコピーであることはできない。 この知見は,2方向の類似性(クエリ<->参照画像)を互いに異なるものにする,非対称相似学習(ASL)手法をもたらす。 実験の結果, ASLは最先端手法よりも明確なマージンで優れており, 対称非対称競合の解決がICDにとって重要であることが示された。

Image copy detection (ICD) aims to determine whether a query image is an edited copy of any image from a reference set. Currently, there are very limited public benchmarks for ICD, while all overlook a critical challenge in real-world applications, i.e., the distraction from hard negative queries. Specifically, some queries are not edited copies but are inherently similar to some reference images. These hard negative queries are easily false recognized as edited copies, significantly compromising the ICD accuracy. This observation motivates us to build the first ICD benchmark featuring this characteristic. Based on existing ICD datasets, this paper constructs a new dataset by additionally adding 100, 000 and 24, 252 hard negative pairs into the training and test set, respectively. Moreover, this paper further reveals a unique difficulty for solving the hard negative problem in ICD, i.e., there is a fundamental conflict between current metric learning and ICD. This conflict is: the metric learning adopts symmetric distance while the edited copy is an asymmetric (unidirectional) process, e.g., a partial crop is close to its holistic reference image and is an edited copy, while the latter cannot be the edited copy of the former (in spite the distance is equally small). This insight results in an Asymmetrical-Similarity Learning (ASL) method, which allows the similarity in two directions (the query <-> the reference image) to be different from each other. Experimental results show that ASL outperforms state-of-the-art methods by a clear margin, confirming that solving the symmetric-asymmetric conflict is critical for ICD.
翻訳日:2022-05-26 14:34:12 公開日:2022-05-24
# 画像間CNNのためのウェーブレット特徴マップ圧縮

Wavelet Feature Maps Compression for Image-to-Image CNNs ( http://arxiv.org/abs/2205.12268v1 )

ライセンス: Link先を確認
Shahaf E. Finder, Yair Zohav, Maor Ashkenazi, Eran Treister(参考訳) 畳み込みニューラルネットワーク(cnns)は、膨大な計算資源を必要とすることで知られており、量子化はそれらを圧縮する最良かつ最も一般的な方法である。 攻撃的な量子化(すなわち4ビット未満)は分類に有効であるが、セマンティックセグメンテーションや深度推定のような画像から画像へのタスクでは深刻な性能低下を引き起こす可能性がある。 本稿では,現代建築の主要な計算コストであるポイントワイド畳み込みと統合された高分解能アクティベーションマップ圧縮のための新しい手法であるWavelet Compressed Convolution (WCC)を提案する。 この目的のために、画像圧縮の有効性で知られる効率的でハードウェアフレンドリーなhaar-wavelet変換を用い、圧縮活性化マップの畳み込みを定義する。 高分解能入力の恩恵を受ける様々なタスクを実験し、wccと光量子化を組み合わせることで、比較的小さく、より優雅な性能劣化を伴う1-4bitアクティベーション量子化に相当する圧縮速度を達成する。

Convolutional Neural Networks (CNNs) are known for requiring extensive computational resources, and quantization is among the best and most common methods for compressing them. While aggressive quantization (i.e., less than 4-bits) performs well for classification, it may cause severe performance degradation in image-to-image tasks such as semantic segmentation and depth estimation. In this paper, we propose Wavelet Compressed Convolution (WCC) -- a novel approach for high-resolution activation maps compression integrated with point-wise convolutions, which are the main computational cost of modern architectures. To this end, we use an efficient and hardware-friendly Haar-wavelet transform, known for its effectiveness in image compression, and define the convolution on the compressed activation map. We experiment on various tasks, that benefit from high-resolution input, and by combining WCC with light quantization, we achieve compression rates equivalent to 1-4bit activation quantization with relatively small and much more graceful degradation in performance.
翻訳日:2022-05-26 14:02:45 公開日:2022-05-24
# Scoring Coreference Chains with Split-Antecedent Anaphors

Scoring Coreference Chains with Split-Antecedent Anaphors ( http://arxiv.org/abs/2205.12323v1 )

ライセンス: Link先を確認
Silviu Paun and Juntao Yu and Nafise Sadat Moosavi and Massimo Poesio(参考訳) 照応的参照(英: anaphoric reference)は、言語解釈の側面の一つで、従来の共参照タスクによってカバーされる名目表現によって導入されたエンティティに対する単純な同一性参照のケースを超えて、様々な種類の解釈をカバーしている。 単純なコリファレンスを超えたこれらのケースの1つは、調整を通じて談話モデルに追加されなければならないエンティティに対する照応的参照であり、特に、スプリット・アンティージェントな複数形や、いくつかの談話のディクシスの場合のように、他のエンティティから構築されたエンティティに対するスプリット・アンテージェントな参照である。 この種の照応的参照は、多くのデータセットで注釈付けされているが、そのような参照を解釈するシステムは、参照コリファレンススコアラーであるpradhan et al. (2014) では評価できない。 ユニバーサル・アナフォラ・イニシアチブ(universal anaphora initiative)のカバー範囲において、アナフォラ解釈のすべての側面を評価するアナフォラ基準の新しいスコアラに向けた研究の一環として、本稿では、既存のアイデンティティ・アナフォラのメトリクスを一般化する技術的問題に対する解決策を提案する。 これはアナフォラ(英語版)やコア参照(英語版)に関する文献における最初の提案であり、対話共有タスクにおける最近のCODI/CRACアナフォラ解決において、分割された複数の参照と談話の両方をスコアリングするのに成功している。

Anaphoric reference is an aspect of language interpretation covering a variety of types of interpretation beyond the simple case of identity reference to entities introduced via nominal expressions covered by the traditional coreference task in its most recent incarnation in ONTONOTES and similar datasets. One of these cases that go beyond simple coreference is anaphoric reference to entities that must be added to the discourse model via accommodation, and in particular split-antecedent references to entities constructed out of other entities, as in split-antecedent plurals and in some cases of discourse deixis. Although this type of anaphoric reference is now annotated in many datasets, systems interpreting such references cannot be evaluated using the Reference coreference scorer Pradhan et al. (2014). As part of the work towards a new scorer for anaphoric reference able to evaluate all aspects of anaphoric interpretation in the coverage of the Universal Anaphora initiative, we propose in this paper a solution to the technical problem of generalizing existing metrics for identity anaphora so that they can also be used to score cases of split-antecedents. This is the first such proposal in the literature on anaphora or coreference, and has been successfully used to score both split-antecedent plural references and discourse deixis in the recent CODI/CRAC anaphora resolution in dialogue shared tasks.
翻訳日:2022-05-26 14:00:32 公開日:2022-05-24
# VoynaSlov:2022年ウクライナ・ロシア戦争におけるロシアのソーシャルメディア活動のデータセット

VoynaSlov: A Data Set of Russian Social Media Activity during the 2022 Ukraine-Russia War ( http://arxiv.org/abs/2205.12382v1 )

ライセンス: Link先を確認
Chan Young Park, Julia Mendelsohn, Anjalie Field, Yulia Tsvetkov(参考訳) 本報告では,ロシアメディアやウクライナ・ロシア戦争時の一般市民による21万以上のロシア語ソーシャルメディア活動(ツイート,投稿,コメント)を含む,voynaslovという新たなデータセットについて述べる。 TwitterとVKontakte(VK)は、サンクトペテルブルクに本拠を置くロシアのソーシャルメディアプラットフォームで、一般に「ロシアのFacebook」と呼ばれている。 データ収集のプロセスとデータ統計について記述し、国家系および独立系ロシアメディアとVKとTwitterの2つのプラットフォームを比較します。 当社のデータと、現在進行中の戦争に関連するデータとを区別する主な違いは、ロシアメディアへの注力と、ロシアにおける幅広い利用を考慮したロシアの世論理解にtwitterよりも適しているvkのデータの導入である。 われわれのデータセットが今後の情報戦の研究を促進し、最終的には偽情報や意見操作の削減と防止を可能にすることを願っている。 データセットはhttps://github.com/chan0park/VoynaSlovで公開されています。

In this report, we describe a new data set called VoynaSlov which contains 21M+ Russian-language social media activities (i.e. tweets, posts, comments) made by Russian media outlets and by the general public during the time of war between Ukraine and Russia. We scraped the data from two major platforms that are widely used in Russia: Twitter and VKontakte (VK), a Russian social media platform based in Saint Petersburg commonly referred to as "Russian Facebook". We provide descriptions of our data collection process and data statistics that compare state-affiliated and independent Russian media, and also the two platforms, VK and Twitter. The main differences that distinguish our data from previously released data related to the ongoing war are its focus on Russian media and consideration of state-affiliation as well as the inclusion of data from VK, which is more suitable than Twitter for understanding Russian public sentiment considering its wide use within Russia. We hope our data set can facilitate future research on information warfare and ultimately enable the reduction and prevention of disinformation and opinion manipulation campaigns. The data set is available at https://github.com/chan0park/VoynaSlov and will be regularly updated as we continuously collect more data.
翻訳日:2022-05-26 13:59:41 公開日:2022-05-24
# Continual-T0: 忘れずに50以上のタスクを言語モデルにプログレッシブに指示する

Continual-T0: Progressively Instructing 50+ Tasks to Language Models Without Forgetting ( http://arxiv.org/abs/2205.12393v1 )

ライセンス: Link先を確認
Thomas Scialom and Tuhin Chakrabarty and Smaranda Muresan(参考訳) 最近の大規模言語モデルの研究は、ほとんどの自然言語処理タスクが自然言語命令で記述できるという直感に依存している。 これらの命令でトレーニングされた言語モデルは、いくつかの標準データセットで強いゼロショット性能を示す。 しかしながら、これらのモデルは印象的ではあるが、それぞれのトレーニングや評価セット以外では、幅広いタスクで性能が劣る。 この制限に対処するために、モデルが以前のスキルを忘れずに、その知識と能力を拡張し続けることができるべきだと論じる。 連続学習の限られた成功にもかかわらず、言語モデルが連続学習者になり得ることを示す。 我々は,この成功の理由を実証的に調査し,自己スーパービジョン事前学習から連続学習が生まれると結論づける。 得られたモデルであるContinual-T0(CT0)は、さまざまな新しいタスクを学習すると同時に、以前のタスクでも優れたパフォーマンスを維持しながら、合計70のデータセットに著しく分散しています。 最後に、CT0はトレーニングされていない方法で命令を組み合わせることができ、いくつかの構成性を示す。

Recent work on large language models relies on the intuition that most natural language processing tasks can be described via natural language instructions. Language models trained on these instructions show strong zero-shot performance on several standard datasets. However, these models even though impressive still perform poorly on a wide range of tasks outside of their respective training and evaluation sets. To address this limitation, we argue that a model should be able to keep extending its knowledge and abilities, without forgetting previous skills. In spite of the limited success of Continual Learning we show that Language Models can be continual learners. We empirically investigate the reason for this success and conclude that Continual Learning emerges from self-supervision pre-training. Our resulting model Continual-T0 (CT0) is able to learn diverse new tasks, while still maintaining good performance on previous tasks, spanning remarkably through 70 datasets in total. Finally, we show that CT0 is able to combine instructions in ways it was never trained for, demonstrating some compositionality.
翻訳日:2022-05-26 13:59:18 公開日:2022-05-24
# MaskEval:テキスト要約と簡易化のための軽量MLMによる評価

MaskEval: Weighted MLM-Based Evaluation for Text Summarization and Simplification ( http://arxiv.org/abs/2205.12394v1 )

ライセンス: Link先を確認
Yu Lu Liu, Rachel Bawden, Thomas Scaliom, Beno\^it Sagot, Jackie Chi Kit Cheung(参考訳) テキストの要約と単純化では、システムの出力は関連性、事実の一貫性、流束性、文法性といった多次元に沿って評価されなければならず、より広い範囲の出力は高品質でなければならない。 これらの特性により、適応可能で参照レスな評価指標の開発は必要かつ困難になる。 本稿では,テキスト要約と単純化のための参照レスメトリックであるMaskEvalを紹介し,候補テキストとソーステキストの連結に対してマスキング言語モデリング(MLM)を実行する。 それぞれのMLMステップの相対的重要性を調節するアテンションのような重み付け機構を備えており、MaskEvalを異なる品質次元に適応させることができる。 人間の判断との相関から,英語の要約と多言語テキストの単純化にその効果を示す。

In text summarization and simplification, system outputs must be evaluated along multiple dimensions such as relevance, factual consistency, fluency, and grammaticality, and a wide range of possible outputs could be of high quality. These properties make the development of an adaptable, reference-less evaluation metric both necessary and challenging. We introduce MaskEval, a reference-less metric for text summarization and simplification that operates by performing masked language modeling (MLM) on the concatenation of the candidate and the source texts. It features an attention-like weighting mechanism to modulate the relative importance of each MLM step, which crucially allows MaskEval to be adapted to evaluate different quality dimensions. We demonstrate its effectiveness on English summarization and on multilingual text simplification in terms of correlations with human judgments.
翻訳日:2022-05-26 13:59:01 公開日:2022-05-24
# K-12BERT:K-12教育用BERT

K-12BERT: BERT for K-12 education ( http://arxiv.org/abs/2205.12335v1 )

ライセンス: Link先を確認
Vasu Goel, Dhruv Sahnan, Venktesh V, Gaurav Sharma, Deep Dwivedi, Mukesh Mohania(参考訳) オンライン教育プラットフォームにはさまざまなNLPパイプラインがあり、BERTのようなモデルを使ってコンテンツキュレーションを行っている。 BERTのような事前訓練された言語モデルが登場して以来、これらの事前訓練されたモデルを特定のドメインに適応するための多くの努力が続けられてきた。 しかし、教育領域(特にK-12)に特化しているモデルが、我々の知識を最大限に活用するものではない。 そこで本研究では,k-12 教育のために,様々な教材から複数の対象にまたがって収集したデータのコーパス上で言語モデルを学習することを提案する。 また,階層的分類タギングなどの下流タスクにおけるk12-bertの評価を行った。

Online education platforms are powered by various NLP pipelines, which utilize models like BERT to aid in content curation. Since the inception of the pre-trained language models like BERT, there have also been many efforts toward adapting these pre-trained models to specific domains. However, there has not been a model specifically adapted for the education domain (particularly K-12) across subjects to the best of our knowledge. In this work, we propose to train a language model on a corpus of data curated by us across multiple subjects from various sources for K-12 education. We also evaluate our model, K12-BERT, on downstream tasks like hierarchical taxonomy tagging.
翻訳日:2022-05-26 13:47:03 公開日:2022-05-24
# 編集過程をモデル化する学習

Learning to Model Editing Processes ( http://arxiv.org/abs/2205.12374v1 )

ライセンス: Link先を確認
Machel Reid and Graham Neubig(参考訳) 既存のほとんどのシーケンス生成モデルは、1パスで出力を生成し、通常は左から右へ出力する。 しかしこれは、人間がコンテンツを生成する際に使うより自然なアプローチ、反復的な洗練と編集とは対照的である。 最近の研究は、さまざまなタスク(ニューラルマシン翻訳やテキストスタイル転送など)の編集ベースモデルを導入しているが、一般的には単一の編集ステップをモデル化している。 本研究では,反復的なシーケンス生成のプロセス全体をモデル化し,編集プロセスのモデリングを提案する。 我々は,多段階編集の可能性を記述するための概念的枠組みを構築し,これらの多段階編集に基づいてシーケンス生成モデルを学ぶことができるニューラルモデルを記述する。 このタスクのベースライン結果とメトリクスを導入し、編集プロセスのモデル化により、従来の編集のシングルステップモデルと比較して、提案タスクと関連する下流タスクの両方における様々な軸の性能が向上することを確認した。

Most existing sequence generation models produce outputs in one pass, usually left-to-right. However, this is in contrast with a more natural approach that humans use in generating content; iterative refinement and editing. Recent work has introduced edit-based models for various tasks (such as neural machine translation and text style transfer), but these generally model a single edit step. In this work, we propose modeling editing processes, modeling the whole process of iteratively generating sequences. We form a conceptual framework to describe the likelihood of multi-step edits, and describe neural models that can learn a generative model of sequences based on these multistep edits. We introduce baseline results and metrics on this task, finding that modeling editing processes improves performance on a variety of axes on both our proposed task and related downstream tasks compared to previous single-step models of edits.
翻訳日:2022-05-26 13:46:54 公開日:2022-05-24
# Recipe2Vec: グラフニューラルネットワークを用いたマルチモーダルレシピ表現学習

Recipe2Vec: Multi-modal Recipe Representation Learning with Graph Neural Networks ( http://arxiv.org/abs/2205.12396v1 )

ライセンス: Link先を確認
Yijun Tian, Chuxu Zhang, Zhichun Guo, Yihong Ma, Ronald Metoyer, Nitesh V. Chawla(参考訳) 効果的なレシピ表現の学習は食品研究において不可欠である。 画像に基づくレシピ検索や構造テキストの埋め込み学習のために開発されたものとは異なり、マルチモーダル情報(レシピ画像、テキスト、関係データなど)の複合効果は、あまり注目されない。 本稿では,マルチモーダルなレシピ表現学習の問題を形式化し,視覚的,テキスト的,リレーショナルな情報をレシピ埋め込みに統合する。 特に、50万以上のノードを持つ新しいレシピグラフデータであるLarge-RGを初めて紹介し、これまでで最大のレシピグラフとなった。 次に,マルチモーダル情報を取り込むための新しいグラフニューラルネットワークによるレシピ埋め込みモデルであるs method2vecを提案する。 さらに,安定した学習と性能向上を図るために,敵攻撃戦略を導入する。 最後に,ノード分類と逆学習の連立目的関数を設計し,モデルを最適化する。 広範囲にわたる実験により、Recipe2Vecは2つの古典的な食品研究課題、すなわち料理カテゴリー分類と地域予測において、最先端のベースラインを上回ります。 データセットとコードはhttps://github.com/meettyj/recipe2vecで入手できる。

Learning effective recipe representations is essential in food studies. Unlike what has been developed for image-based recipe retrieval or learning structural text embeddings, the combined effect of multi-modal information (i.e., recipe images, text, and relation data) receives less attention. In this paper, we formalize the problem of multi-modal recipe representation learning to integrate the visual, textual, and relational information into recipe embeddings. In particular, we first present Large-RG, a new recipe graph data with over half a million nodes, making it the largest recipe graph to date. We then propose Recipe2Vec, a novel graph neural network based recipe embedding model to capture multi-modal information. Additionally, we introduce an adversarial attack strategy to ensure stable learning and improve performance. Finally, we design a joint objective function of node classification and adversarial learning to optimize the model. Extensive experiments demonstrate that Recipe2Vec outperforms state-of-the-art baselines on two classic food study tasks, i.e., cuisine category classification and region prediction. Dataset and codes are available at https://github.com/meettyj/Recipe2Vec.
翻訳日:2022-05-26 13:46:41 公開日:2022-05-24
# スパースミキサー:より効率的なBERTを構築するためにMoEとミキシングを組み合わせる

Sparse Mixers: Combining MoE and Mixing to build a more efficient BERT ( http://arxiv.org/abs/2205.12399v1 )

ライセンス: Link先を確認
James Lee-Thorp and Joshua Ainslie(参考訳) sparsely gated mixture-of-experts (moe) の容量と線形混合変換の速度と安定性を組み合わせることで,sparse mixer エンコーダモデルを設計する。 スパースミキサーは、グルーとスーパーグルーで (<1%) bert をわずかに上回っているが、より重要なことは 65% 高速にトレーニングし、推論を 61% 速く実行することである。 高速スパースミキサー(Fast Sparse Mixer)という,SuperGLUEでは(0.2%)BERTをわずかに過小評価するが,ほぼ2倍の速度で動作し,トレーニングが89%,推論が98%高速である。 これら2つのモデルの設計を、様々な混合機構、moe構成、およびモデルハイパーパラメータを慎重にアブレーションすることによって正当化する。 Sparse Mixerは、MoEモデルのレイテンシと安定性の多くを克服し、より密度の高い変種に蒸留することなく、スパース学生モデルを提供する見込みを提供する。

We combine the capacity of sparsely gated Mixture-of-Experts (MoE) with the speed and stability of linear, mixing transformations to design the Sparse Mixer encoder model. The Sparse Mixer slightly outperforms (<1%) BERT on GLUE and SuperGLUE, but more importantly trains 65% faster and runs inference 61% faster. We also present a faster variant, prosaically named Fast Sparse Mixer, that marginally underperforms (<0.2%) BERT on SuperGLUE, but trains and runs nearly twice as fast: 89% faster training and 98% faster inference. We justify the design of these two models by carefully ablating through various mixing mechanisms, MoE configurations and model hyperparameters. The Sparse Mixer overcomes many of the latency and stability concerns of MoE models and offers the prospect of serving sparse student models, without resorting to distilling them to dense variants.
翻訳日:2022-05-26 13:46:20 公開日:2022-05-24
# coldguess: コールドスタートケースに取り組むための汎用的かつ効果的な関係グラフ畳み込みネットワーク

ColdGuess: A General and Effective Relational Graph Convolutional Network to Tackle Cold Start Cases ( http://arxiv.org/abs/2205.12318v1 )

ライセンス: Link先を確認
Bo He, Xiang Song, Vincent Gao, Christos Faloutsos(参考訳) オンライン小売サイトにおける低品質なリスティングと悪質なアクタの行動は、eコマースビジネスを脅かしている。 新しいリスティングが作成されると、どのようにして高品質であると判断するか? メソッドは効率的で、高速で、スケーラブルか? 従来のアプローチでは,(1)新規セラーやリストが販売履歴に不足するコールドスタート問題に対処することができない,という3つの制限/課題がある。 2) 大規模に数億のリスティングを評価できないこと、あるいはスケーラビリティのためにパフォーマンスを損なうこと。 (3)巨大なeコマースビジネス規模を持つ大規模グラフから空間的な課題がある。 このような制限や混乱を克服するため,我々は,不均一な販売者製品グラフ上に構築されたインダクティブグラフベースのリスク予測器であるColdGuessを提案した。 coldguessは統合ノードによる大規模グラフに取り組み、均質なインフルエンス1を使ってコールドスタート問題に対処する。 実データの評価は、coldguessが未知の機能の数が増えるにつれて安定したパフォーマンスを持つことを示している。 新規販売者が新製品を販売する際に、冷間始動ケースにおいて、ライトgbm2を最大34pcpのROC−AUCで上回る。 結果のシステムであるColdGuessは、リスクの高い売り手行動に効果的で適応可能で、すでに生産中である

Low-quality listings and bad actor behavior in online retail websites threatens e-commerce business as these result in sub-optimal buying experience and erode customer trust. When a new listing is created, how to tell it has good-quality? Is the method effective, fast, and scalable? Previous approaches often have three limitations/challenges: (1) unable to handle cold start problems where new sellers/listings lack sufficient selling histories. (2) inability of scoring hundreds of millions of listings at scale, or compromise performance for scalability. (3) has space challenges from large-scale graph with giant e-commerce business size. To overcome these limitations/challenges, we proposed ColdGuess, an inductive graph-based risk predictor built upon a heterogeneous seller product graph, which effectively identifies risky seller/product/listings at scale. ColdGuess tackles the large-scale graph by consolidated nodes, and addresses the cold start problems using homogeneous influence1. The evaluation on real data demonstrates that ColdGuess has stable performance as the number of unknown features increases. It outperforms the lightgbm2 by up to 34 pcp ROC-AUC in a cold start case when a new seller sells a new product . The resulting system, ColdGuess, is effective, adaptable to changing risky seller behavior, and is already in production
翻訳日:2022-05-26 13:43:24 公開日:2022-05-24
# 選好に基づく強化学習における報酬不確実性

Reward Uncertainty for Exploration in Preference-based Reinforcement Learning ( http://arxiv.org/abs/2205.12401v1 )

ライセンス: Link先を確認
Xinran Liang, Katherine Shu, Kimin Lee, Pieter Abbeel(参考訳) 複雑な目的を強化学習(RL)エージェントに展開するには、しばしば巧妙な報酬工学が必要である。 嗜好に基づくRL手法は、人間のフィードバックを積極的に取り入れることで、人間の嗜好に基づくより柔軟な報奨モデル、すなわち2つの行動クリップ間の教師の嗜好を学習することができる。 しかしながら、人間のフィードバックの調整は非常に高価であるため、現在の好みに基づくRLアルゴリズムでは、フィードバック効率の低さが依然として問題となっている。 この問題に対処するため、従来の方法はクエリの選択とポリシー初期化の改善に重点を置いてきた。 同時に、最近の探査手法は、RLの試料効率を改善するためのレシピであることが証明されている。 好みに基づくRLアルゴリズムを対象とした探索手法を提案する。 私たちの主なアイデアは、学習した報酬に基づいてノベルティを測定することで、本質的な報酬を設計することです。 具体的には,学習報酬モデル間の不一致を利用した。 私たちの直感は、学習報酬モデルにおける不一致は、調整された人間のフィードバックの不確実性を反映し、探索に有用であるということです。 実験の結果,学習報酬における不確実性からの探索ボーナスは,メタワールドベンチマークによる複雑なロボット操作タスクに対する選好ベースのrlアルゴリズムのフィードバックとサンプル効率の両方を改善できることがわかった。

Conveying complex objectives to reinforcement learning (RL) agents often requires meticulous reward engineering. Preference-based RL methods are able to learn a more flexible reward model based on human preferences by actively incorporating human feedback, i.e. teacher's preferences between two clips of behaviors. However, poor feedback-efficiency still remains a problem in current preference-based RL algorithms, as tailored human feedback is very expensive. To handle this issue, previous methods have mainly focused on improving query selection and policy initialization. At the same time, recent exploration methods have proven to be a recipe for improving sample-efficiency in RL. We present an exploration method specifically for preference-based RL algorithms. Our main idea is to design an intrinsic reward by measuring the novelty based on learned reward. Specifically, we utilize disagreement across ensemble of learned reward models. Our intuition is that disagreement in learned reward model reflects uncertainty in tailored human feedback and could be useful for exploration. Our experiments show that exploration bonus from uncertainty in learned reward improves both feedback- and sample-efficiency of preference-based RL algorithms on complex robot manipulation tasks from MetaWorld benchmarks, compared with other existing exploration methods that measure the novelty of state visitation.
翻訳日:2022-05-26 13:41:54 公開日:2022-05-24
# 因果介入による自然言語攻撃に対する認証ロバスト性

Certified Robustness Against Natural Language Attacks by Causal Intervention ( http://arxiv.org/abs/2205.12331v1 )

ライセンス: Link先を確認
Haiteng Zhao, Chang Ma, Xinshuai Dong, Anh Tuan Luu, Zhi-Hong Deng, Hanwang Zhang(参考訳) ディープラーニングモデルは多くの分野で大きな成功を収めてきたが、敵の例には弱い。 本稿では,敵対的脆弱性を検討するための因果的視点に従い,自然言語攻撃に対する堅牢性に向けた新たな枠組みであるセマンティック・スムーシング(CISS)による因果的介入を提案する。 単に観測データを調整するのではなく、CISSは潜伏意味空間を滑らかにすることで因果効果p(y|do(x))を学び、より深いアーキテクチャにスケールし、特定の攻撃用にカスタマイズされたノイズの退屈な構築を避ける。 CISSは単語置換攻撃に対して確実に堅牢であり、未知の攻撃アルゴリズムによって摂動が強化されたとしても経験的に堅牢である。 例えば、YELPでは、CISSは単語置換に対する認証された堅牢性の観点から6.7%超え、構文攻撃が統合されると79.4%の実証的堅牢性を達成する。

Deep learning models have achieved great success in many fields, yet they are vulnerable to adversarial examples. This paper follows a causal perspective to look into the adversarial vulnerability and proposes Causal Intervention by Semantic Smoothing (CISS), a novel framework towards robustness against natural language attacks. Instead of merely fitting observational data, CISS learns causal effects p(y|do(x)) by smoothing in the latent semantic space to make robust predictions, which scales to deep architectures and avoids tedious construction of noise customized for specific attacks. CISS is provably robust against word substitution attacks, as well as empirically robust even when perturbations are strengthened by unknown attack algorithms. For example, on YELP, CISS surpasses the runner-up by 6.7% in terms of certified robustness against word substitutions, and achieves 79.4% empirical robustness when syntactic attacks are integrated.
翻訳日:2022-05-26 13:34:33 公開日:2022-05-24
# plate: リストページweb抽出のための大規模データセット

PLAtE: A Large-scale Dataset for List Page Web Extraction ( http://arxiv.org/abs/2205.12386v1 )

ライセンス: Link先を確認
Aidan San, Jan Bakus, Colin Lockard, David Ciemiewicz, Yangfeng Ji, Sandeep Atluri, Kevin Small, Heba Elfardy(参考訳) 近年,半構造化Webサイトからの情報抽出性能を大幅に向上するために,ニューラルモデルが活用されている。 しかし、継続的な進歩の障壁は、これらのモデルを訓練するのに十分な数のデータセットである。 本稿では,新しい Web 抽出タスクとして PLAtE (Pages of Lists Attribute extract) データセットを紹介する。 PLAtEは、買い物データ、特に複数のアイテムを持つ製品レビューページからの抽出に焦点を当てている。 PLAtEは、(1)製品リストのセグメンテーション境界を見つけ、(2)製品ごとに属性を抽出する。 PLAtEは6,810ページから53,905項目で構成されており,最初の大規模リストページWeb抽出データセットとなっている。 我々は、Common Crawlからリストページを収集し、それをMechanical TurkにアノテートすることでPLAtEを構築する。 量的・質的分析を行い,高品質の注記を有することを示す。 本稿では,属性分類のf1-score 0.750,セグメンテーションの0.915,web抽出における今後の研究革新の機会を示すsotaモデルを用いて,プレート上での強力なベースライン性能を確立する。

Recently, neural models have been leveraged to significantly improve the performance of information extraction from semi-structured websites. However, a barrier for continued progress is the small number of datasets large enough to train these models. In this work, we introduce the PLAtE (Pages of Lists Attribute Extraction) dataset as a challenging new web extraction task. PLAtE focuses on shopping data, specifically extractions from product review pages with multiple items. PLAtE encompasses both the tasks of: (1) finding product-list segmentation boundaries and (2) extracting attributes for each product. PLAtE is composed of 53, 905 items from 6, 810 pages, making it the first large-scale list page web extraction dataset. We construct PLAtE by collecting list pages from Common Crawl, then annotating them on Mechanical Turk. Quantitative and qualitative analyses are performed to demonstrate PLAtE has high-quality annotations. We establish strong baseline performance on PLAtE with a SOTA model achieving an F1-score of 0.750 for attribute classification and 0.915 for segmentation, indicating opportunities for future research innovations in web extraction.
翻訳日:2022-05-26 13:34:14 公開日:2022-05-24
# lpSpikeCon: 自律エージェントによる効率的な教師なし連続学習のための低精度スパイクニューラルネットワーク処理の実現

lpSpikeCon: Enabling Low-Precision Spiking Neural Network Processing for Efficient Unsupervised Continual Learning on Autonomous Agents ( http://arxiv.org/abs/2205.12295v1 )

ライセンス: Link先を確認
Rachmad Vidya Wicaksana Putra, Muhammad Shafique(参考訳) 近年の進歩により,SNNベースのシステムでは,Spike-Timing-Dependent Plasticity (STDP) などの生物工学的学習規則により,教師なし連続学習を効率的に行うことが示されている。 このような学習能力は、動的に変化するシナリオや環境に継続的に適応する必要がある自律エージェント(例えばロボットやUAV)のようなユースケースにおいて特に有用である。 現在の最先端の作品は、トレーニングと推論フェーズの両方に高精度の重み(すなわち32ビット)を使用しており、これは高いメモリとエネルギーコストをもたらし、バッテリ駆動のモバイル自律システムのためのそのようなシステムの効率的な組み込み実装を妨げる。 一方で、精度の低下は、情報損失による教師なし連続学習の品質を損なう可能性がある。 そこで本研究では,資源制約された自律エージェント/システム上での効率的な教師なし連続学習のために,低精度SNN処理を可能にする新しい手法であるlpSpikeConを提案する。 pSpikeCon法では,(1)教師なし連続学習環境下でのSNNモデルの学習が推論精度に与える影響を分析すること,(2)推論精度に重要な影響を及ぼすSNNパラメータを特定すること,(3)教師なし連続学習の質を向上させるために,それぞれのSNNパラメータ値を探索するアルゴリズムを開発すること,の3つのステップが採用されている。 実験結果から,LpSpikeConは,教師なし連続学習によるオンライントレーニングを行う場合,SNNモデルの重み記憶を8倍(すなわち4ビット重み付け)削減でき,ネットワークサイズが異なるベースラインモデルと比較して,推論フェーズにおける精度損失を生じないことがわかった。

Recent advances have shown that SNN-based systems can efficiently perform unsupervised continual learning due to their bio-plausible learning rule, e.g., Spike-Timing-Dependent Plasticity (STDP). Such learning capabilities are especially beneficial for use cases like autonomous agents (e.g., robots and UAVs) that need to continuously adapt to dynamically changing scenarios/environments, where new data gathered directly from the environment may have novel features that should be learned online. Current state-of-the-art works employ high-precision weights (i.e., 32 bit) for both training and inference phases, which pose high memory and energy costs thereby hindering efficient embedded implementations of such systems for battery-driven mobile autonomous systems. On the other hand, precision reduction may jeopardize the quality of unsupervised continual learning due to information loss. Towards this, we propose lpSpikeCon, a novel methodology to enable low-precision SNN processing for efficient unsupervised continual learning on resource-constrained autonomous agents/systems. Our lpSpikeCon methodology employs the following key steps: (1) analyzing the impacts of training the SNN model under unsupervised continual learning settings with reduced weight precision on the inference accuracy; (2) leveraging this study to identify SNN parameters that have a significant impact on the inference accuracy; and (3) developing an algorithm for searching the respective SNN parameter values that improve the quality of unsupervised continual learning. The experimental results show that our lpSpikeCon can reduce weight memory of the SNN model by 8x (i.e., by judiciously employing 4-bit weights) for performing online training with unsupervised continual learning and achieve no accuracy loss in the inference phase, as compared to the baseline model with 32-bit weights across different network sizes.
翻訳日:2022-05-26 13:33:36 公開日:2022-05-24
# dpsnn: 差動的にプライベートなスパイクニューラルネットワーク

DPSNN: A Differentially Private Spiking Neural Network ( http://arxiv.org/abs/2205.12718v1 )

ライセンス: Link先を確認
Jihang Wang, Dongcheng Zhao, Guobin Shen, Qian Zhang, Yi Zeng(参考訳) プライバシ保護は、機械学習アルゴリズムの重要な問題である。 スパイキングニューラルネットワーク(SNN)は、画像分類、オブジェクト検出、音声認識など多くの領域において重要な役割を果たすが、SNNのプライバシー保護に関する研究は緊急に必要である。 本研究では、差分プライバシー(DP)アルゴリズムとSNNを組み合わせて、差分プライベートスパイキングニューラルネットワーク(DPSNN)を提案する。 DPは勾配にノイズを注入し、SNNは離散スパイク列車で情報を送信し、我々の微分プライベートSNNは高い精度を確保しながら強力なプライバシー保護を維持することができる。 我々はMNIST、Fashion-MNIST、顔認識データセットExtended YaleBの実験を行った。 プライバシー保護が向上すると、人工知能ニューラルネットワーク(ANN)の精度は大幅に低下するが、我々のアルゴリズムは性能にほとんど変化がない。 一方、SNNのプライバシー保護に影響を与えるさまざまな要因を分析した。 第一に、サロゲートの勾配がより正確でなければなるほど、snのプライバシー保護は改善される。 第二に、統合・火(if)ニューロンはリークした統合・火(lif)ニューロンよりも優れた働きをする。 第3に、大きなタイムウィンドウは、プライバシ保護とパフォーマンスにさらに貢献する。

Privacy-preserving is a key problem for the machine learning algorithm. Spiking neural network (SNN) plays an important role in many domains, such as image classification, object detection, and speech recognition, but the study on the privacy protection of SNN is urgently needed. This study combines the differential privacy (DP) algorithm and SNN and proposes differentially private spiking neural network (DPSNN). DP injects noise into the gradient, and SNN transmits information in discrete spike trains so that our differentially private SNN can maintain strong privacy protection while still ensuring high accuracy. We conducted experiments on MNIST, Fashion-MNIST, and the face recognition dataset Extended YaleB. When the privacy protection is improved, the accuracy of the artificial neural network(ANN) drops significantly, but our algorithm shows little change in performance. Meanwhile, we analyzed different factors that affect the privacy protection of SNN. Firstly, the less precise the surrogate gradient is, the better the privacy protection of the SNN. Secondly, the Integrate-And-Fire (IF) neurons perform better than leaky Integrate-And-Fire (LIF) neurons. Thirdly, a large time window contributes more to privacy protection and performance.
翻訳日:2022-05-26 13:31:25 公開日:2022-05-24
# 深部生成モデルを用いたメトロポリス・ハスティング・ナーミングゲームによる創発的コミュニケーション

Emergent Communication through Metropolis-Hastings Naming Game with Deep Generative Models ( http://arxiv.org/abs/2205.12392v1 )

ライセンス: Link先を確認
Tadahiro Taniguchi, Yuto Yoshida, Akira Taniguchi, Yoshinobu Hagiwara(参考訳) 創発的コミュニケーション(英: Emergent Communication)は、人間の言語進化とシンボルシステムの作成をよりよく説明できる計算モデルの研究である。 本研究の目的は,確率的生成モデルに基づく創発的コミュニケーションの新しいモデルを提供することである。 羽原らによって提案されたモデルを一般化し,metropolis-hastings (mh) ネーミングゲームを定義する。 通称「ハギワラ2019シンボル」。 MH命名ゲームは、この命名ゲームをプレイする2つのエージェントを組み合わせた統合確率的生成モデルのための一種のMHアルゴリズムである。 この観点からは、シンボル出現は分散ベイズ推論と見なされ、記号的コミュニケーションは個人間クロスモーダル推論と見なされる。 創発的コミュニケーションをシミュレートする深層生成モデルであるInter-GMM+VAE(Inter-GMM+VAE)も提供する。 このモデルはmnistと fruits 360データセットで検証されている。 実験の結果,エージェントが観察した実際の画像からカテゴリが生成され,MH命名ゲームを通じてエージェントのビューをうまく活用することで,エージェント間でサインが正しく共有されることがわかった。 さらに,エージェントが発声した標識から視覚画像が回想されたことを確認した。 特に、監督や報酬のフィードバックのない緊急コミュニケーションは、教師なし表現学習の性能を改善した。

Emergent communication, also known as symbol emergence, seeks to investigate computational models that can better explain human language evolution and the creation of symbol systems. This study aims to provide a new model for emergent communication, which is based on a probabilistic generative model. We define the Metropolis-Hastings (MH) naming game by generalizing a model proposed by Hagiwara et al. \cite{hagiwara2019symbol}. The MH naming game is a sort of MH algorithm for an integrative probabilistic generative model that combines two agents playing the naming game. From this viewpoint, symbol emergence is regarded as decentralized Bayesian inference, and semiotic communication is regarded as inter-personal cross-modal inference. We also offer Inter-GMM+VAE, a deep generative model for simulating emergent communication, in which two agents create internal representations and categories and share signs (i.e., names of objects) from raw visual images observed from different viewpoints. The model has been validated on MNIST and Fruits 360 datasets. Experiment findings show that categories are formed from real images observed by agents, and signs are correctly shared across agents by successfully utilizing both of the agents' views via the MH naming game. Furthermore, it has been verified that the visual images were recalled from the signs uttered by the agents. Notably, emergent communication without supervision and reward feedback improved the performance of unsupervised representation learning.
翻訳日:2022-05-26 12:27:58 公開日:2022-05-24
# データから推論する学習のパラドックスについて

On the Paradox of Learning to Reason from Data ( http://arxiv.org/abs/2205.11502v2 )

ライセンス: Link先を確認
Honghua Zhang, Liunian Harold Li, Tao Meng, Kai-Wei Chang, Guy Van den Broeck(参考訳) 論理的推論は幅広いNLPタスクで必要とされる。 自然言語で提示される論理的推論問題を解くためにBERTモデルをエンドツーエンドで訓練することは可能か? 論理的推論を完全にシミュレートするパラメータの集合が存在するような狭い問題空間において、この問題に答えようとする。 BERTは、全く同じ問題空間上の他のデータ分布に一般化するのに失敗しながら、流通中の試験例でほぼ完全な精度を達成します。 このパラドックスは、正しい推論関数をエミュレートする学習ではなく、論理的推論問題に本質的に存在する統計的特徴を実際に学習している。 また,データから統計的特徴を共同で取り除くことは不可能であり,理性一般への学習の難しさを示す。 その結果、自然に他のニューラルモデルに拡張され、統計的特徴を用いたnlpベンチマークで高いパフォーマンスを達成するための推論と学習の基本的な違いが明らかにされる。

Logical reasoning is needed in a wide range of NLP tasks. Can a BERT model be trained end-to-end to solve logical reasoning problems presented in natural language? We attempt to answer this question in a confined problem space where there exists a set of parameters that perfectly simulates logical reasoning. We make observations that seem to contradict each other: BERT attains near-perfect accuracy on in-distribution test examples while failing to generalize to other data distributions over the exact same problem space. Our study provides an explanation for this paradox: instead of learning to emulate the correct reasoning function, BERT has in fact learned statistical features that inherently exist in logical reasoning problems. We also show that it is infeasible to jointly remove statistical features from data, illustrating the difficulty of learning to reason in general. Our result naturally extends to other neural models and unveils the fundamental difference between learning to reason and learning to achieve high performance on NLP benchmarks using statistical features.
翻訳日:2022-05-26 12:03:05 公開日:2022-05-24
# (参考訳) 字幕以外の画像からのテキスト生成の進歩について:自己分類の事例研究

On Advances in Text Generation from Images Beyond Captioning: A Case Study in Self-Rationalization ( http://arxiv.org/abs/2205.11686v1 )

ライセンス: CC BY 4.0
Shruti Palaskar, Akshita Bhagia, Yonatan Bisk, Florian Metze, Alan W Black and Ana Marasovic(参考訳) 事前訓練された言語モデルの成功により、視覚と言語の統合が注目されている。 それにもかかわらず、新興のマルチモーダルモデルのごく一部は、画像の条件付きテキスト生成に適している。 この少数派は典型的には画像キャプションのために開発され評価され、画像にはっきりと見えるものを記述することを目的として画像のみに条件付けされたテキスト生成タスクである。 これらのモデルは、テキストと画像の両方で条件付けされた、より複雑な生成タスクに対してどのように機能するのか? 統合マルチモーダル事前学習に基づくモデルや,視覚的に適応した事前学習言語モデル,あるいはこれら2つのアプローチを組み合わせたモデルが,このようなタスクに有望なものなのだろうか? これらの質問は,3つのタスクの自己合理化(タスクラベル/回答と自由テキスト説明の同時生成)の文脈で対処する。 (i)VQA-Xにおける視覚的質問応答 (ii)vcrにおける視覚的コモンセンス推論、及び 3)E-SNLI-VEの視覚的テキスト化 近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。 また、タスク/データセットやデータサイズを微調整するモデルタイプが、普遍的に最善を尽くさないことも観察しています。 画像のキャプションを超えて画像やテキストからテキストを生成することを可能にする,バックボーンモデリングアプローチを提案している。

Integrating vision and language has gained notable attention following the success of pretrained language models. Despite that, a fraction of emerging multimodal models is suitable for text generation conditioned on images. This minority is typically developed and evaluated for image captioning, a text generation task conditioned solely on images with the goal to describe what is explicitly visible in an image. In this paper, we take a step back and ask: How do these models work for more complex generative tasks, conditioned on both text and images? Are models based on joint multimodal pretraining, visually adapted pretrained language models, or models that combine these two approaches, more promising for such tasks? We address these questions in the context of self-rationalization (jointly generating task labels/answers and free-text explanations) of three tasks: (i) visual question answering in VQA-X, (ii) visual commonsense reasoning in VCR, and (iii) visual-textual entailment in E-SNLI-VE. We show that recent advances in each modality, CLIP image representations and scaling of language models, do not consistently improve multimodal self-rationalization of tasks with multimodal inputs. We also observe that no model type works universally the best across tasks/datasets and finetuning data sizes. Our findings call for a backbone modelling approach that can be built on to advance text generation from images and text beyond image captioning.
翻訳日:2022-05-26 11:59:41 公開日:2022-05-24
# (参考訳) TAILOR: オブジェクト登録のためのアクティブおよびインクリメンタル学習の指導

TAILOR: Teaching with Active and Incremental Learning for Object Registration ( http://arxiv.org/abs/2205.11692v1 )

ライセンス: CC BY 4.0
Qianli Xu, Nicolas Gauthier, Wenyu Liang, Fen Fang, Hui Li Tan, Ying Sun, Yan Wu, Liyuan Li, Joo-Hwee Lim(参考訳) ロボットを新しいタスクにデプロイする際には、時間と労力を要する新しい物体を検出するために、それを訓練する必要があることが多い。 本稿では,アクティブかつインクリメンタルな学習を伴うオブジェクト登録システムTAILORを提案する。 人間教師がオブジェクトを登録するように指示すると、TAILORは積極的に視点を探索することで情報的画像をキャプチャする視点を自動的に選択でき、学習済みのオブジェクトを忘れることなく新しいオブジェクトを学習するために高速な漸進学習アルゴリズムを使用する。 KUKAロボットを用いた実世界のギアボックス組立作業で使用される新しい物体の自然な相互作用による学習の有効性を実証する。

When deploying a robot to a new task, one often has to train it to detect novel objects, which is time-consuming and labor-intensive. We present TAILOR -- a method and system for object registration with active and incremental learning. When instructed by a human teacher to register an object, TAILOR is able to automatically select viewpoints to capture informative images by actively exploring viewpoints, and employs a fast incremental learning algorithm to learn new objects without potential forgetting of previously learned objects. We demonstrate the effectiveness of our method with a KUKA robot to learn novel objects used in a real-world gearbox assembly task through natural interactions.
翻訳日:2022-05-26 11:42:17 公開日:2022-05-24
# (参考訳) RCC-GAN:大規模タブラルデータ合成のための規則化化合物条件付きGAN

RCC-GAN: Regularized Compound Conditional GAN for Large-Scale Tabular Data Synthesis ( http://arxiv.org/abs/2205.11693v1 )

ライセンス: CC BY 4.0
Mohammad Esmaeilpour, Nourhene Chaalia, Adel Abusitta, Francois-Xavier Devailly, Wissem Maazoun, Patrick Cardinal(参考訳) 本稿では,連続性,離散性,バイナリといった様々な特徴を持つ大規模表層データベースを合成するための,新しい生成逆ネットワーク(GAN)を提案する。 技術的には、GANは事前に定義された条件ベクトルを持つクラス条件生成モデルのカテゴリに属している。 しかし,2値特徴と離散特徴を同時に組み込んだベクトルを導出する新たな定式化を提案する。 我々は、この高貴な定義を複合条件ベクトルと呼び、ジェネレータネットワークのトレーニングに使用する。 このネットワークのコアアーキテクチャは、スキップ接続を備えた3層深い残留ニューラルネットワークである。 このような複雑なアーキテクチャの安定性を向上させるため、トレーニング中の重みベクトルに対する前例のない変動を制限するための正規化スキームを提案する。 この正規化アプローチは、敵対的トレーニングの性質と非常に相性が良く、実行時に計算的に禁止されるものではない。 さらに,重みベクトルの変動を常に監視し,潜在的な不安定性や不規則性を同定し,正則化器の強度を測定する。 この目的に向けて, 特異値分解理論を用いて, 重みベクトルの突然の摂動を追跡する新しい指標を開発した。 最後に,アダルト,Census,HCDR,Cabs,News,Kingの6つのベンチマーク表データベース上での合成手法の性能評価を行った。 その結果, RccGANは精度, 安定性, 信頼性の点で, 従来のモデル, 近代モデルよりも優れていたことが判明した。

This paper introduces a novel generative adversarial network (GAN) for synthesizing large-scale tabular databases which contain various features such as continuous, discrete, and binary. Technically, our GAN belongs to the category of class-conditioned generative models with a predefined conditional vector. However, we propose a new formulation for deriving such a vector incorporating both binary and discrete features simultaneously. We refer to this noble definition as compound conditional vector and employ it for training the generator network. The core architecture of this network is a three-layered deep residual neural network with skip connections. For improving the stability of such complex architecture, we present a regularization scheme towards limiting unprecedented variations on its weight vectors during training. This regularization approach is quite compatible with the nature of adversarial training and it is not computationally prohibitive in runtime. Furthermore, we constantly monitor the variation of the weight vectors for identifying any potential instabilities or irregularities to measure the strength of our proposed regularizer. Toward this end, we also develop a new metric for tracking sudden perturbation on the weight vectors using the singular value decomposition theory. Finally, we evaluate the performance of our proposed synthesis approach on six benchmarking tabular databases, namely Adult, Census, HCDR, Cabs, News, and King. The achieved results corroborate that for the majority of the cases, our proposed RccGAN outperforms other conventional and modern generative models in terms of accuracy, stability, and reliability.
翻訳日:2022-05-26 11:37:13 公開日:2022-05-24
# (参考訳) M6ファッション:高忠実なマルチモーダル画像生成と編集

M6-Fashion: High-Fidelity Multi-modal Image Generation and Editing ( http://arxiv.org/abs/2205.11705v1 )

ライセンス: CC BY 4.0
Zhikang Li, Huiling Zhou, Shuai Bai, Peike Li, Chang Zhou, Hongxia Yang(参考訳) ファッション産業はマルチモーダル画像の生成と編集に様々な応用がある。 マルチモーダル条件信号を誘導として、所望の高忠実度画像を作成することを目的としている。 既存のほとんどの手法は、余分なモデルの導入や、複数の信号の組み合わせを扱うのが難しいスタイルの事前知識の無視により、異なる条件ガイダンス制御を学習する。 本稿では,マルチモーダル制御のスタイル事前知識と柔軟性の両方を,実用的なai支援ファッションデザインに着目した統合型2段階フレームワークm6-fashionに適用する。 空間次元と意味次元の両方でスタイルコードを分離し、第1段階で高忠実度画像生成を保証する。 M6-Fashionは非自己回帰生成の自己補正を利用して推論速度を改善し、全体的な一貫性を高め、様々な信号制御をサポートする。 大規模な衣服データセットM2C-Fashionの大規模な実験は、様々な画像生成および編集タスクにおいて優れたパフォーマンスを示す。 m6-fashionモデルはファッション業界で非常に潜在的なaiデザイナーとして機能する。

The fashion industry has diverse applications in multi-modal image generation and editing. It aims to create a desired high-fidelity image with the multi-modal conditional signal as guidance. Most existing methods learn different condition guidance controls by introducing extra models or ignoring the style prior knowledge, which is difficult to handle multiple signal combinations and faces a low-fidelity problem. In this paper, we adapt both style prior knowledge and flexibility of multi-modal control into one unified two-stage framework, M6-Fashion, focusing on the practical AI-aided Fashion design. It decouples style codes in both spatial and semantic dimensions to guarantee high-fidelity image generation in the first stage. M6-Fashion utilizes self-correction for the non-autoregressive generation to improve inference speed, enhance holistic consistency, and support various signal controls. Extensive experiments on a large-scale clothing dataset M2C-Fashion demonstrate superior performances on various image generation and editing tasks. M6-Fashion model serves as a highly potential AI designer for the fashion industry.
翻訳日:2022-05-26 11:09:08 公開日:2022-05-24
# (参考訳) ランダムに初期化した1層ニューラルネットワークによるデータ分離

Randomly Initialized One-Layer Neural Networks Make Data Linearly Separable ( http://arxiv.org/abs/2205.11716v1 )

ライセンス: CC BY 4.0
Promit Ghosal, Srinath Mahankali, Yihang Sun(参考訳) 近年、ニューラルネットワークは2つの任意の集合を2つの線形分離可能な集合に変換する際に非常によく機能することが示されている。 これをランダムに初期化ニューラルネットワークで行うことは、完全にトレーニングされたネットワークを使用するよりも、関連する計算が安価であるため、非常に興味深い。 本稿では,十分な幅で,ランダムに初期化した一層ニューラルネットワークが2つの集合を高い確率で2つの線形分離可能な集合に変換することを示す。 さらに,これを実現するために,ニューラルネットワークの所要幅の明示的な境界を提供する。 私たちの第一境界は入力次元と他の全てのパラメータの多項式において指数関数であり、第二境界は入力次元とは独立であり、従って次元の呪いを克服する。 また,ランダムに初期化した一層ニューラルネットワークと二層ニューラルネットワークの分離能力の比較実験を行った。 バイアスを正しく選択することで、低次元データに対して、2層ニューラルネットワークが1層ネットワークを上回ることを示した。 しかし、高次元データでは逆が観察される。

Recently, neural networks have been shown to perform exceptionally well in transforming two arbitrary sets into two linearly separable sets. Doing this with a randomly initialized neural network is of immense interest because the associated computation is cheaper than using fully trained networks. In this paper, we show that, with sufficient width, a randomly initialized one-layer neural network transforms two sets into two linearly separable sets with high probability. Furthermore, we provide explicit bounds on the required width of the neural network for this to occur. Our first bound is exponential in the input dimension and polynomial in all other parameters, while our second bound is independent of the input dimension, thereby overcoming the curse of dimensionality. We also perform an experimental study comparing the separation capacity of randomly initialized one-layer and two-layer neural networks. With correctly chosen biases, our study shows for low-dimensional data, the two-layer neural network outperforms the one-layer network. However, the opposite is observed for higher-dimensional data.
翻訳日:2022-05-26 10:51:27 公開日:2022-05-24
# (参考訳) 深い幾何学的瞬間

Deep Geometric Moment ( http://arxiv.org/abs/2205.11722v1 )

ライセンス: CC BY 4.0
Rajhans Singh (1), Ankita Shukla (1), Pavan Turaga (1) ((1) Arizona State University)(参考訳) 画像分類のためのディープネットワークは、しばしばオブジェクト形状よりもテクスチャ情報に依存する。 深層モデルを作る努力は行われているが、そのようなモデルを単純な、解釈可能な、あるいは既知の形状の定義に根ざすことはしばしば困難である。 本稿では,幾何学的モーメントにインスパイアされた深層学習モデルを提案する。 提案手法は,座標ベースを生成するためのトレーニング可能なネットワークと,特徴量を幾何学的に不変にするためのアフィンパラメータから構成される。 提案したモデルは最終特徴の解釈を改善する。 標準画像分類データセットにおける本手法の有効性を示す。 提案モデルは,ベースラインモデルや標準resnetモデルと比較して分類性能が向上し,解釈性が大幅に向上した。

Deep networks for image classification often rely more on texture information than object shape. While efforts have been made to make deep-models shape-aware, it is often difficult to make such models simple, interpretable, or rooted in known mathematical definitions of shape. This paper presents a deep-learning model inspired by geometric moments, a classically well understood approach to measure shape-related properties. The proposed method consists of a trainable network for generating coordinate bases and affine parameters for making the features geometrically invariant, yet in a task-specific manner. The proposed model improves the final feature's interpretation. We demonstrate the effectiveness of our method on standard image classification datasets. The proposed model achieves higher classification performance as compared to the baseline and standard ResNet models while substantially improving interpretability.
翻訳日:2022-05-26 10:12:32 公開日:2022-05-24
# (参考訳) itemsage:pinterestのショッピングレコメンデーションのためのプロダクト埋め込み学習

ItemSage: Learning Product Embeddings for Shopping Recommendations at Pinterest ( http://arxiv.org/abs/2205.11728v1 )

ライセンス: CC BY 4.0
Paul Baltescu, Haoyu Chen, Nikil Pancha, Andrew Zhai, Jure Leskovec, Charles Rosenberg(参考訳) 製品への学習的な埋め込みは、Webスケールのeコマースレコメンデーションシステムにとって重要なビルディングブロックである。 pinterestでは,ユーザやイメージ,検索ベースのレコメンデーションなど,すべてのショッピングユースケースに適切なレコメンデーションを提供するために,itemageと呼ばれるプロダクト埋め込みを1セット構築しています。 このアプローチは、インフラストラクチャとメンテナンスのコストを削減しつつ、エンゲージメントと変換のメトリクスを大幅に改善した。 多くの先行研究は単一モダリティから得られる特徴から製品埋め込みを構築することに焦点を当てているが、テキストと画像の両方から情報を集約できるトランスフォーマーベースのアーキテクチャを導入し、単一のモダリティベースラインを著しく上回ることを示す。 また,マルチタスク学習を利用してアイテムセージを複数のエンゲージメントタイプに最適化し,エンド・ツー・エンドレコメンデーションシステムのすべてのエンゲージメント目標に対して効率的な候補生成システムを実現する。 オンラインa/b実験の結果から、重要なビジネス指標(総商品価値/ユーザ/ユーザ数+7%、クリック数+11%)が大幅に向上していることが明らかとなった。

Learned embeddings for products are an important building block for web-scale e-commerce recommendation systems. At Pinterest, we build a single set of product embeddings called ItemSage to provide relevant recommendations in all shopping use cases including user, image and search based recommendations. This approach has led to significant improvements in engagement and conversion metrics, while reducing both infrastructure and maintenance cost. While most prior work focuses on building product embeddings from features coming from a single modality, we introduce a transformer-based architecture capable of aggregating information from both text and image modalities and show that it significantly outperforms single modality baselines. We also utilize multi-task learning to make ItemSage optimized for several engagement types, leading to a candidate generation system that is efficient for all of the engagement objectives of the end-to-end recommendation system. Extensive offline experiments are conducted to illustrate the effectiveness of our approach and results from online A/B experiments show substantial gains in key business metrics (up to +7% gross merchandise value/user and +11% click volume).
翻訳日:2022-05-26 09:55:06 公開日:2022-05-24
# (参考訳) 簡単からハードへ:二段階セレクタとマルチホップ質問応答用リーダー

From Easy to Hard: Two-stage Selector and Reader for Multi-hop Question Answering ( http://arxiv.org/abs/2205.11729v1 )

ライセンス: CC BY 4.0
Xin-Yi Li, Wei-Jun Lei, Yu-Bin Yang(参考訳) マルチホップ質問応答(Multi-hop Question answering, QA)は、複数の文書に対して複雑な推論を行い、正確な回答とともに支援事実を提供する必要がある課題である。 既存の研究は、グラフベースの推論と質問分解を利用して推論チェーンを得る傾向があり、必然的にシステムにさらなる複雑さと累積誤差をもたらす。 上記の課題に対処するため,マルチホップQAタスクにおいて,注意をそらす情報を取り除き,より優れたコンテキスト表現を実現するための,シンプルで効果的な新しいフレームワークであるFrom Easy to Hard(FE2H)を提案する。 FE2Hは、反復的な文書選択プロセスと人間の進歩的な学習習慣にインスパイアされ、文書セレクタと読者の両方を、簡単かつハードな方法で2段階に分割する。 具体的には,まず質問に最も関連性の高い文書を選択し,その文書と組み合わせて他の関連する文書を選択する。 QAフェーズについては、まずシングルホップのQAデータセットでトレーニングを行い、次にマルチホップのQAタスクに転送します。 一般的なマルチホップQAベンチマークHotpotQAで、我々のモデルを総合的に評価する。 実験の結果,本手法はhotpotqa(distractor set)のリーダボードに他のすべてのメソッドを変換する。

Multi-hop question answering (QA) is a challenging task requiring QA systems to perform complex reasoning over multiple documents and provide supporting facts together with the exact answer. Existing works tend to utilize graph-based reasoning and question decomposition to obtain the reasoning chain, which inevitably introduces additional complexity and cumulative error to the system. To address the above issue, we propose a simple yet effective novel framework, From Easy to Hard (FE2H), to remove distracting information and obtain better contextual representations for the multi-hop QA task. Inspired by the iterative document selection process and the progressive learning custom of humans, FE2H divides both the document selector and reader into two stages following an easy-to-hard manner. Specifically, we first select the document most relevant to the question and then utilize the question together with this document to select other pertinent documents. As for the QA phase, our reader is first trained on a single-hop QA dataset and then transferred into the multi-hop QA task. We comprehensively evaluate our model on the popular multi-hop QA benchmark HotpotQA. Experimental results demonstrate that our method ourperforms all other methods in the leaderboard of HotpotQA (distractor setting).
翻訳日:2022-05-26 09:39:01 公開日:2022-05-24
# (参考訳) 二元分類のためのソフトsvm回帰

Soft-SVM Regression For Binary Classification ( http://arxiv.org/abs/2205.11735v1 )

ライセンス: CC BY 4.0
Man Huang, Luis Carvalho(参考訳) 二項逸脱関数とsvmヒンジ損失関数は、機械学習で最も広く使われている損失関数の2つである。 両者には多くの類似点があるが、異なる種類のデータを扱う際に独自の強みを持っている。 本研究では,柔らかさとクラス分離パラメータを用いたヒンジ損失関数の凸緩和に基づく新しい指数関数系を提案する。 この新しいファミリーはSoft-SVMと呼ばれ、ロジスティック回帰とSVM分類を効果的に橋渡しする一般化線形モデルを規定することができる。 この新モデルは解釈可能であり、ソフトネスパラメータを介してデータラベル分離性を自動的に調整することにより、良好な適合性と予測性能を実現する。 これらの結果は、正規化ロジスティック、SVM、ソフトSVMの回帰を比較してシミュレーションやケーススタディにより実証的に確認され、そのモデルが分類と予測誤差の両方で良好に動作すると結論付けている。

The binomial deviance and the SVM hinge loss functions are two of the most widely used loss functions in machine learning. While there are many similarities between them, they also have their own strengths when dealing with different types of data. In this work, we introduce a new exponential family based on a convex relaxation of the hinge loss function using softness and class-separation parameters. This new family, denoted Soft-SVM, allows us to prescribe a generalized linear model that effectively bridges between logistic regression and SVM classification. This new model is interpretable and avoids data separability issues, attaining good fitting and predictive performance by automatically adjusting for data label separability via the softness parameter. These results are confirmed empirically through simulations and case studies as we compare regularized logistic, SVM, and Soft-SVM regressions and conclude that the proposed model performs well in terms of both classification and prediction errors.
翻訳日:2022-05-26 09:25:52 公開日:2022-05-24
# (参考訳) 希少音イベント検出のための適応的少数ショット学習アルゴリズム

Adaptive Few-Shot Learning Algorithm for Rare Sound Event Detection ( http://arxiv.org/abs/2205.11738v1 )

ライセンス: CC BY 4.0
Chendong Zhao, Jianzong Wang, Leilai Li, Xiaoyang Qu, Jing Xiao(参考訳) 音の事象検出は、周囲の環境音を理解することによって事象を推測することである。 希少な音響事象が少なかったため、事前知識を過度に習得したよく訓練された検出器には困難が伴う。 一方、少数ショット学習法は、新しい限定データタスクに直面する際に、優れた一般化能力を約束する。 近年のアプローチはこの分野で有望な成果を上げている。 しかし、これらのアプローチは各サポートの例を独立に扱い、タスク全体から他の例の情報を無視している。 このため、従来の手法のほとんどは、入力された各データに適応しない全てのテスト時間タスクに同じ機能を埋め込むように制約されている。 そこで本研究では,メトリックベースの数ショット学習フレームワークに容易に組み込むことができる新しいタスク適応モジュールを提案する。 モジュールはタスク関連の特徴次元を識別できる。 モジュールを組み込むことで,ベースライン法,特にトランスダクティブ伝搬ネットワークにおける2つのデータセットのパフォーマンスが大幅に向上する。 例えば、ESC-50では5ウェイ1ショット精度+6.8%、ノイズESC-50では+5.9%である。 ドメインミスマッチ設定におけるアプローチを調査し,従来の手法よりも優れた結果を得る。

Sound event detection is to infer the event by understanding the surrounding environmental sounds. Due to the scarcity of rare sound events, it becomes challenging for the well-trained detectors which have learned too much prior knowledge. Meanwhile, few-shot learning methods promise a good generalization ability when facing a new limited-data task. Recent approaches have achieved promising results in this field. However, these approaches treat each support example independently, ignoring the information of other examples from the whole task. Because of this, most of previous methods are constrained to generate a same feature embedding for all test-time tasks, which is not adaptive to each inputted data. In this work, we propose a novel task-adaptive module which is easy to plant into any metric-based few-shot learning frameworks. The module could identify the task-relevant feature dimension. Incorporating our module improves the performance considerably on two datasets over baseline methods, especially for the transductive propagation network. Such as +6.8% for 5-way 1-shot accuracy on ESC-50, and +5.9% on noiseESC-50. We investigate our approach in the domain-mismatch setting and also achieve better results than previous methods.
翻訳日:2022-05-26 08:54:35 公開日:2022-05-24
# (参考訳) deep learning meets software engineering: ソースコードの事前学習モデルに関する調査

Deep Learning Meets Software Engineering: A Survey on Pre-Trained Models of Source Code ( http://arxiv.org/abs/2205.11739v1 )

ライセンス: CC BY 4.0
Changan Niu and Chuanyi Li and Bin Luo and Vincent Ng(参考訳) 近年、ディープラーニングのソフトウェア工学(SE)への応用が成功している。 特に、事前訓練されたソースコードのモデルの開発と使用により、様々なSEタスクで最先端の結果が得られている。 本稿では,この急速な研究分野の概要と今後の研究方向性を考察する。

Recent years have seen the successful application of deep learning to software engineering (SE). In particular, the development and use of pre-trained models of source code has enabled state-of-the-art results to be achieved on a wide variety of SE tasks. This paper provides an overview of this rapidly advancing field of research and reflects on future research directions.
翻訳日:2022-05-26 08:39:42 公開日:2022-05-24
# (参考訳) BabyBear:高価な言語モデルのためのヒープ推論トリアージ

BabyBear: Cheap inference triage for expensive language models ( http://arxiv.org/abs/2205.11747v1 )

ライセンス: CC BY 4.0
Leila Khalili, Yao You, John Bohannon(参考訳) トランスフォーマー言語モデルは、従来のモデルよりも精度が高いが、計算的かつ環境的に高価である。 コンピュータビジョンからモデルカスケードの概念を基礎として,自然言語処理(NLP)タスクのカスケードモデルのためのフレームワークであるBabyBearを導入する。 コア戦略は推論トリアージであり、カスケード内の最も高価なモデルが十分高い信頼性の予測を達成すると早期に退避する。 文書分類とエンティティ認識に関連するいくつかのオープンソースデータセット上でBabyBearをテストする。 一般的なNLPタスクでは、ディープラーニングモデルを観察して学習した、安価で高速なモデルによって、推論負荷の高い割合を達成することができる。 これにより、大規模分類ジョブの計算コストを、全体的な精度を維持しながら50%以上削減できる。 名前付きエンティティ認識では、CoNLLベンチマークでF1スコアを95%以上維持しながら、ディープラーニング計算の33%を節約する。

Transformer language models provide superior accuracy over previous models but they are computationally and environmentally expensive. Borrowing the concept of model cascading from computer vision, we introduce BabyBear, a framework for cascading models for natural language processing (NLP) tasks to minimize cost. The core strategy is inference triage, exiting early when the least expensive model in the cascade achieves a sufficiently high-confidence prediction. We test BabyBear on several open source data sets related to document classification and entity recognition. We find that for common NLP tasks a high proportion of the inference load can be accomplished with cheap, fast models that have learned by observing a deep learning model. This allows us to reduce the compute cost of large-scale classification jobs by more than 50% while retaining overall accuracy. For named entity recognition, we save 33% of the deep learning compute while maintaining an F1 score higher than 95% on the CoNLL benchmark.
翻訳日:2022-05-26 08:15:51 公開日:2022-05-24
# (参考訳) 多言語言語モデルの単言語・言語間事前学習ダイナミクスの解析

Analyzing the Mono- and Cross-Lingual Pretraining Dynamics of Multilingual Language Models ( http://arxiv.org/abs/2205.11758v1 )

ライセンス: CC BY 4.0
Terra Blevins, Hila Gonen, Luke Zettlemoyer(参考訳) 多言語事前学習モデルに見られる創発的な言語間移動は、その振る舞いの研究に大きな関心を呼んだ。 しかし、これらの分析は、完全に訓練された多言語モデルに焦点を当てているため、多言語事前学習プロセスのダイナミクスについてはほとんど分かっていない。 xlm-rの事前学習から得られたチェックポイントを言語的タスクスイートを用いて探索し,これらのモデルが言語内および言語間能力を取得する際に検討する。 分析の結果,より複雑なものよりも低レベルな言語スキルが得られ,早期に高い言語性能が得られることが示された。 対照的に、モデルが言語間の伝達を学ぶとき、言語ペアに依存する。 興味深いことに、多くの言語やタスクにおいて、最終的な収束したモデルチェックポイントはパフォーマンスが著しく低下しており、どのチェックポイントも全ての言語で最善を尽くさない。 これらの知見は他の知見と合わせて,多言語事前学習の複雑さと相互接続性を強調した。

The emergent cross-lingual transfer seen in multilingual pretrained models has sparked significant interest in studying their behavior. However, because these analyses have focused on fully trained multilingual models, little is known about the dynamics of the multilingual pretraining process. We investigate when these models acquire their in-language and cross-lingual abilities by probing checkpoints taken from throughout XLM-R pretraining, using a suite of linguistic tasks. Our analysis shows that the model achieves high in-language performance early on, with lower-level linguistic skills acquired before more complex ones. In contrast, when the model learns to transfer cross-lingually depends on the language pair. Interestingly, we also observe that, across many languages and tasks, the final, converged model checkpoint exhibits significant performance degradation and that no one checkpoint performs best on all languages. Taken together with our other findings, these insights highlight the complexity and interconnectedness of multilingual pretraining.
翻訳日:2022-05-26 08:08:29 公開日:2022-05-24
# (参考訳) 自己教師付き事前学習のための効率的な視覚表現学習のためのマルチオーグメンテーション

Multi-Augmentation for Efficient Visual Representation Learning for Self-supervised Pre-training ( http://arxiv.org/abs/2205.11772v1 )

ライセンス: CC BY-SA 4.0
Van-Nhiem Tran, Chi-En Huang, Shen-Hsuan Liu, Kai-Lin Yang, Timothy Ko, Yung-Hui Li(参考訳) 近年,ラベル付きデータセットの制限に対処するために,自己教師付き学習が研究されている。 自己教師型学習の主要なコンポーネントの1つは、データ拡張パイプラインが結果のパフォーマンス向上の鍵となる要素である。 しかし、ほとんどの研究者は手動で拡張パイプラインを設計し、限られた変換コレクションは学習された特徴表現の堅牢性の欠如を引き起こす可能性がある。 本研究では,学習した特徴表現のロバスト性を改善するために,パイプライン全体を構築するための様々な拡張ポリシーを網羅的に探索する,自己改善表現学習のためのマルチ拡張(MA-SSRL)を提案する。 MA-SSRLは不変の特徴表現をうまく学習し、異なる分布とドメインデータセットの自己教師付き事前トレーニングのための効率的で効果的で適応可能なデータ拡張パイプラインを提供する。 MA-SSRLは、トレーニングのエポックを少なくしながら、トランスファーと半教師付きベンチマークに関する従来の最先端の手法よりも優れている。

In recent years, self-supervised learning has been studied to deal with the limitation of available labeled-dataset. Among the major components of self-supervised learning, the data augmentation pipeline is one key factor in enhancing the resulting performance. However, most researchers manually designed the augmentation pipeline, and the limited collections of transformation may cause the lack of robustness of the learned feature representation. In this work, we proposed Multi-Augmentations for Self-Supervised Representation Learning (MA-SSRL), which fully searched for various augmentation policies to build the entire pipeline to improve the robustness of the learned feature representation. MA-SSRL successfully learns the invariant feature representation and presents an efficient, effective, and adaptable data augmentation pipeline for self-supervised pre-training on different distribution and domain datasets. MA-SSRL outperforms the previous state-of-the-art methods on transfer and semi-supervised benchmarks while requiring fewer training epochs.
翻訳日:2022-05-26 07:55:23 公開日:2022-05-24
# (参考訳) ワイヤレスアドホック連合学習:完全分散協調機械学習

Wireless Ad Hoc Federated Learning: A Fully Distributed Cooperative Machine Learning ( http://arxiv.org/abs/2205.11779v1 )

ライセンス: CC BY 4.0
Hideya Ochiai, Yuwei Sun, Qingzhe Jin, Nattanon Wongwiwatchai, Hiroshi Esaki(参考訳) フェデレーション学習は、ローカルノードでトレーニングされたローカルモデルを集約することで、グローバルモデルのトレーニングを可能にした。 しかし、さらに分散したり、完全に分散化したり、部分的に接続したり、完全に日和見的になったりするクライアントサーバモデルも必要です。 本稿では,無線アドホックフェデレーション学習(wafl, wireless ad hoc federated learning)を提案する。 ここでは、各ノードは無線インターフェースを持ち、無線範囲内にあるときに互いに通信することができる。 ノードは人、乗り物、ロボットと移動し、日和見的な接触を生み出すことが期待されている。 WAFLでは、各ノードは各ノードが持つローカルデータで個別にモデルを訓練する。 ノードが他のノードと遭遇すると、訓練されたモデルを交換し、非IIDデータ上の局所的な訓練されたモデルと比較してより一般的な新しい集約されたモデルを生成する。 本研究では,ランダム・ウェイポイント・モビリティとコミュニティ構造環境に基づく4つの静的通信ネットワークと2種類の動的・日和見的通信ネットワークを作成し,90%の非iidmnistデータセットを用いた完全接続ニューラルネットワークの学習過程について検討した。 評価の結果、waflは、日和見主義的なノード接触シナリオであっても、一般化に向けたノード間のモデルパラメータの収束を可能にした。 このWAFLのモデル一般化により、テストIDデータセットの精度は94.7-96.2%向上した。

Federated learning has allowed training of a global model by aggregating local models trained on local nodes. However, it still takes client-server model, which can be further distributed, fully decentralized, or even partially connected, or totally opportunistic. In this paper, we propose a wireless ad hoc federated learning (WAFL) -- a fully distributed cooperative machine learning organized by the nodes physically nearby. Here, each node has a wireless interface and can communicate with each other when they are within the radio range. The nodes are expected to move with people, vehicles, or robots, producing opportunistic contacts with each other. In WAFL, each node trains a model individually with the local data it has. When a node encounter with others, they exchange their trained models, and generate new aggregated models, which are expected to be more general compared to the locally trained models on Non-IID data. For evaluation, we have prepared four static communication networks and two types of dynamic and opportunistic communication networks based on random waypoint mobility and community-structured environment, and then studied the training process of a fully connected neural network with 90% Non-IID MNIST dataset. The evaluation results indicate that WAFL allowed the convergence of model parameters among the nodes toward generalization, even with opportunistic node contact scenarios -- whereas in self-training (or lonely training) case, they have diverged. This WAFL's model generalization contributed to achieving higher accuracy 94.7-96.2% to the testing IID dataset compared to the self-training case 84.7%.
翻訳日:2022-05-26 07:47:36 公開日:2022-05-24
# (参考訳) AUC-ROCによるバイナリ分類器の性能解析

Attributing AUC-ROC to Analyze Binary Classifier Performance ( http://arxiv.org/abs/2205.11781v1 )

ライセンス: CC BY 4.0
Arya Tafvizi, Besim Avci, Mukund Sundararajan(参考訳) Area Under the Receiver Operating Characteristics Curve (AUC-ROC) はバイナリ分類器の一般的な評価基準である。 本稿では,人間の解釈可能な次元に沿ってAUC-ROCを分割する手法について議論する。 AUC-ROCはデータサンプル上の加算/線形関数ではないので、AUC-ROC全体のセグメント化はデータセグメントのAUC-ROCの集計とは異なる。 AUC-ROC 全体を分割するためには、まず個々の例のクレジットを特定するために \emph{attribution} 問題を解く必要がある。 AUC-ROC は実例上では非線形であるが、実例の 'emph{pairs} 上で線型である。 この観察は、例(例:attribution)と例のペア(例:pair attribution)に対して、単純で効率的な帰属技術をもたらす。 木が帰属を予測することによって、これらの帰属を決定木を使って自動的にスライスする。 本手法を用いた実験により,劣等モデルが劣等モデル自身の学習目標であるグッドハートの法則の顕在化に対して優れたモデル(異なる訓練目標を最適化するために訓練された)を上回ることができることを示した。 対照的に、AUC属性は合理的な比較を可能にする。 例を挙げると、この比較をスライスすることができる。 ペア属性(Pair Attributions)は、モデルの分離が困難である、アイテムのペア — 肯定的なラベル付きと否定的なラベル付き – を分類するために使用される。 これらのカテゴリは、AUCを改善するために分類器とヘッドルームの決定境界を特定する。

Area Under the Receiver Operating Characteristic Curve (AUC-ROC) is a popular evaluation metric for binary classifiers. In this paper, we discuss techniques to segment the AUC-ROC along human-interpretable dimensions. AUC-ROC is not an additive/linear function over the data samples, therefore such segmenting the overall AUC-ROC is different from tabulating the AUC-ROC of data segments. To segment the overall AUC-ROC, we must first solve an \emph{attribution} problem to identify credit for individual examples. We observe that AUC-ROC, though non-linear over examples, is linear over \emph{pairs} of examples. This observation leads to a simple, efficient attribution technique for examples (example attributions), and for pairs of examples (pair attributions). We automatically slice these attributions using decision trees by making the tree predict the attributions; we use the notion of honest estimates along with a t-test to mitigate false discovery. Our experiments with the method show that an inferior model can outperform a superior model (trained to optimize a different training objective) on the inferior model's own training objective, a manifestation of Goodhart's Law. In contrast, AUC attributions enable a reasonable comparison. Example attributions can be used to slice this comparison. Pair attributions are used to categorize pairs of items -- one positively labeled and one negatively -- that the model has trouble separating. These categories identify the decision boundary of the classifier and the headroom to improve AUC.
翻訳日:2022-05-26 07:31:16 公開日:2022-05-24
# (参考訳) 言語モデルの事前学習に向けたマイナショット微調整の定式化:名前付きエンティティ認識に関するパイロット研究

Formulating Few-shot Fine-tuning Towards Language Model Pre-training: A Pilot Study on Named Entity Recognition ( http://arxiv.org/abs/2205.11799v1 )

ライセンス: CC BY 4.0
Zihan Wang, Kewen Zhao, Zilong Wang, Jingbo Shang(参考訳) 微調整済みの言語モデルは最近、様々なタスク、特に少数ショットタスクのためのNLPモデルを構築するための一般的なプラクティスとなっている。 数ショットの環境では、事前訓練対象に近い微調整を定式化することで、事前訓練された言語モデルからより多くのメリットを解放できる、と我々は主張する。 本研究では、既存の微調整戦略が事前学習とは大きく異なるパイロットスタディのために、数発のエンティティ認識(NER)を用いる。 NER, FFF-NER のための新しいファインチューニングフレームワークを提案する。 具体的には「is-entity」と「which-type」と「bracket」という3種類の新しいトークンを導入し、事前訓練された言語モデルの選択に応じて、NERの微調整を(仮に)トークンの予測や生成として定式化することができる。 実験では、いくつかのベンチマークデータセット上で、BERTとBARTの両方の微調整にFFF-NERを適用し、シーケンスラベリング、プロトタイプメタラーニング、プロンプトベースのアプローチを含む既存の微調整戦略を大幅に改善した。 さらに,数発のNER性能が微調整と事前学習の類似性と強く相関していることを示す一連のアブレーション研究を行った。

Fine-tuning pre-trained language models has recently become a common practice in building NLP models for various tasks, especially few-shot tasks. We argue that under the few-shot setting, formulating fine-tuning closer to the pre-training objectives shall be able to unleash more benefits from the pre-trained language models. In this work, we take few-shot named entity recognition (NER) for a pilot study, where existing fine-tuning strategies are much different from pre-training. We propose a novel few-shot fine-tuning framework for NER, FFF-NER. Specifically, we introduce three new types of tokens, "is-entity", "which-type" and bracket, so we can formulate the NER fine-tuning as (masked) token prediction or generation, depending on the choice of pre-trained language models. In our experiments, we apply FFF-NER to fine-tune both BERT and BART for few-shot NER on several benchmark datasets and observe significant improvements over existing fine-tuning strategies, including sequence labeling, prototype meta-learning, and prompt-based approaches. We further perform a series of ablation studies, showing few-shot NER performance is strongly correlated with the similarity between fine-tuning and pre-training.
翻訳日:2022-05-26 07:15:28 公開日:2022-05-24
# (参考訳) 単一チャンネル音声分離境界へのSepItアプローチ

SepIt Approaching a Single Channel Speech Separation Bound ( http://arxiv.org/abs/2205.11801v1 )

ライセンス: CC BY 4.0
Shahar Lutati, Eliya Nachmani, Lior Wolf(参考訳) 本稿では,音声の短いセグメントの性質に関する仮定に基づく,単一チャネル音声分離タスクの上限を提案する。 このバウンドを用いることで,最近の手法が少数の話者に対して大きな進歩を遂げた一方で,5人と10人の話者には改善の余地があることが分かる。 次に,異なる話者の推定を反復的に改善する深層ニューラルネットワークsepitを導入する。 テスト時に、SpeItは、我々の分析から生じる相互情報基準に基づいて、テストサンプル毎のイテレーション数が異なる。 広範な実験において、sepitは2, 3, 5, 10人の話者に対して最先端のニューラルネットワークを上回る。

We present an upper bound for the Single Channel Speech Separation task, which is based on an assumption regarding the nature of short segments of speech. Using the bound, we are able to show that while the recent methods have made significant progress for a few speakers, there is room for improvement for five and ten speakers. We then introduce a Deep neural network, SepIt, that iteratively improves the different speakers' estimation. At test time, SpeIt has a varying number of iterations per test sample, based on a mutual information criterion that arises from our analysis. In an extensive set of experiments, SepIt outperforms the state-of-the-art neural networks for 2, 3, 5, and 10 speakers.
翻訳日:2022-05-26 06:58:17 公開日:2022-05-24
# (参考訳) WeDef: テキスト分類のためのバックドアディフェンス

WeDef: Weakly Supervised Backdoor Defense for Text Classification ( http://arxiv.org/abs/2205.11803v1 )

ライセンス: CC BY 4.0
Lesheng Jin, Zihan Wang, Jingbo Shang(参考訳) 既存のバックドア防御法は、限定的なトリガータイプにのみ有効である。 異なるトリガータイプを一度に防御するために, 汚染プロセスのクラス非関連性から始め, 弱制御型バックドア防御フレームワークWeDefを提案する。 近年の弱監視の進歩により、少数のユーザ提供型、クラス指示型シードワードのみを用いて、合理的に正確なテキスト分類器を訓練することが可能になった。 このようなシードワードは、トリガーとは独立しているとみなされる。 したがって、ラベルのない有毒な文書のみによって訓練された弱い教師付きテキスト分類器にはバックドアがない可能性が高い。 この観察から着想を得たWeDefでは、弱い分類器の予測が有毒トレーニングセットのラベルと一致するかどうかに基づいて、サンプルの信頼性を定義する。 1) 信頼性の高い試料に基づいて弱分類器を反復的に精製し, (2) 最も信頼できない試料を最も信頼性の高い試料と区別して二成分毒分類器を訓練する。 最後に, 毒素分類器が良性であると予測する試料から, 殺菌モデルを訓練する。 大規模な実験により、WeDefisは一般的なトリガーベースの攻撃(例えば、単語、文、パラフレーズ)に対して有効であり、既存の防御方法よりも優れていることが示された。

Existing backdoor defense methods are only effective for limited trigger types. To defend different trigger types at once, we start from the class-irrelevant nature of the poisoning process and propose a novel weakly supervised backdoor defense framework WeDef. Recent advances in weak supervision make it possible to train a reasonably accurate text classifier using only a small number of user-provided, class-indicative seed words. Such seed words shall be considered independent of the triggers. Therefore, a weakly supervised text classifier trained by only the poisoned documents without their labels will likely have no backdoor. Inspired by this observation, in WeDef, we define the reliability of samples based on whether the predictions of the weak classifier agree with their labels in the poisoned training set. We further improve the results through a two-phase sanitization: (1) iteratively refine the weak classifier based on the reliable samples and (2) train a binary poison classifier by distinguishing the most unreliable samples from the most reliable samples. Finally, we train the sanitized model on the samples that the poison classifier predicts as benign. Extensive experiments show that WeDefis effective against popular trigger-based attacks (e.g., words, sentences, and paraphrases), outperforming existing defense methods.
翻訳日:2022-05-26 06:48:33 公開日:2022-05-24
# (参考訳) 任意部品と工具形状のハイブリッド製造プロセス計画

Hybrid Manufacturing Process Planning for Arbitrary Part and Tool Shapes ( http://arxiv.org/abs/2205.11805v1 )

ライセンス: CC BY 4.0
George P. Harabin, Morad Behandish(参考訳) ハイブリッド製造(HM)技術は、添加性と減算製造(AM/SM)機能を多モードプロセス計画で組み合わせ、それぞれの強度を利用する。 HM技術への関心が高まっているにもかかわらず、プロセス計画のためのソフトウェアツールはハードウェアの進歩に追いつかず、設計と製造エンジニアが体系的に設計とプロセス計画空間を探索する能力を制限する制限を課している。 本稿では,アクセシビリティとサポート要件に基づいてHMプロセス計画を構成するAM/SMアクションを任意の部分やツールのジオメトリを考慮可能な形態的操作を用いて識別するための一般的なフレームワークを提案する。 多モード性を活用するために、単調な単調な(AMのみまたはSMのみ)プロセスプランとは異なり、一時的な過剰な物質沈着や除去を可能にするアクションを定義し、その後のアクションが修正可能であることを理解した。 この枠組みを用いて任意の形状の任意の部分、任意の形状のam/smツールの集合、およびそれらの間の相対回転(各アクションに固定)の組合せ空間を生成し、3-$axisマシンのビルド/固定方向を表す。 最後に, 材料・運転時間のコストを, 堆積・除去量の観点から定量化し, 探索アルゴリズムを用いて, 有効プロセス計画の指数的に大きな空間を探索し, 「コスト最適」な解を求める。 提案手法の有効性を3次元実例で示す。

Hybrid manufacturing (HM) technologies combine additive and subtractive manufacturing (AM/SM) capabilities in multi-modal process plans that leverage the strengths of each. Despite the growing interest in HM technologies, software tools for process planning have not caught up with advances in hardware and typically impose restrictions that limit the design and manufacturing engineers' ability to systematically explore the full design and process planning spaces. We present a general framework for identifying AM/SM actions that make up an HM process plan based on accessibility and support requirements, using morphological operations that allow for arbitrary part and tool geometries to be considered. To take advantage of multi-modality, we define the actions to allow for temporary excessive material deposition or removal, with an understanding that subsequent actions can correct for them, unlike the case in unimodal (AM-only or SM-only) process plans that are monotonic. We use this framework to generate a combinatorial space of valid, potentially non-monotonic, process plans for a given part of arbitrary shape, a collection of AM/SM tools of arbitrary shapes, and a set of relative rotations (fixed for each action) between them, representing build/fixturing directions on $3-$axis machines. Finally, we use define a simple objective function quantifying the cost of materials and operating time in terms of deposition/removal volumes and use a search algorithm to explore the exponentially large space of valid process plans to find "cost-optimal" solutions. We demonstrate the effectiveness of our method on 3D examples.
翻訳日:2022-05-26 06:33:38 公開日:2022-05-24
# (参考訳) 安全強化学習のための罰則的近ポリシー最適化

Penalized Proximal Policy Optimization for Safe Reinforcement Learning ( http://arxiv.org/abs/2205.11814v1 )

ライセンス: CC BY 4.0
Linrui zhang, Li Shen, Long Yang, Shixiang Chen, Bo Yuan, Xueqian Wang, Dacheng Tao(参考訳) 安全な強化学習は、現実世界のアプリケーションに不可欠な安全制約を満たしながら、最適なポリシーを学ぶことを目的としている。 しかし、現在のアルゴリズムは、厳しい制約を満たす効率的なポリシー更新に苦慮している。 本稿では、等価な制約のない問題の単一最小化により、煩雑な制約付きポリシー反復を解消するP3O(Penalized Proximal Policy Optimization)を提案する。 具体的には、P3Oは、コスト制約を排除し、クリップされたサロゲート目的による信頼領域制約を除去するために、単純なyet効果のペナルティ関数を利用する。 提案手法の精度を有限のペナルティ係数で理論的に証明し,サンプル軌道上で評価した場合に近似誤差の最悪のケース解析を行う。 さらに,P3Oを従来の研究であまり研究されていない,より困難なマルチ制約およびマルチエージェントシナリオに拡張する。 P3Oは、一連の制約された機関車作業における報酬改善と制約満足度の両方に関して、最先端のアルゴリズムより優れていることを示す。

Safe reinforcement learning aims to learn the optimal policy while satisfying safety constraints, which is essential in real-world applications. However, current algorithms still struggle for efficient policy updates with hard constraint satisfaction. In this paper, we propose Penalized Proximal Policy Optimization (P3O), which solves the cumbersome constrained policy iteration via a single minimization of an equivalent unconstrained problem. Specifically, P3O utilizes a simple-yet-effective penalty function to eliminate cost constraints and removes the trust-region constraint by the clipped surrogate objective. We theoretically prove the exactness of the proposed method with a finite penalty factor and provide a worst-case analysis for approximate error when evaluated on sample trajectories. Moreover, we extend P3O to more challenging multi-constraint and multi-agent scenarios which are less studied in previous work. Extensive experiments show that P3O outperforms state-of-the-art algorithms with respect to both reward improvement and constraint satisfaction on a set of constrained locomotive tasks.
翻訳日:2022-05-26 05:47:52 公開日:2022-05-24
# (参考訳) Maieutic Prompting: 論理的に一貫性のある推論と再帰的説明

Maieutic Prompting: Logically Consistent Reasoning with Recursive Explanations ( http://arxiv.org/abs/2205.11822v1 )

ライセンス: CC BY 4.0
Jaehun Jung, Lianhui Qin, Sean Welleck, Faeze Brahman, Chandra Bhagavatula, Ronan Le Bras, Yejin Choi(参考訳) その印象的な能力にもかかわらず、大規模な事前学習言語モデル(LM)は一貫性のある推論に苦慮している。 しかし、これらのアプローチは基本的に説明の正確性によって境界付けられており、それ自身はしばしば騒がしく一貫性がない。 本研究では,Mieutic Promptingを開発した。これはLMのノイズや一貫性のない世代であっても,質問に対する正しい答えを推測する。 マイユーティック・プロンプティング(英: Maieutic Prompting)は、帰納的に説明のツリーを誘導し(例えば X は真である...)、再帰的に推論をこれらの説明とそれらの論理関係に対して満足できる問題とみなす。 複雑なコモンセンス推論を必要とする3つの挑戦的なベンチマークにおいて、真偽QAに対するMaieutic Promptingをテストする。 Maieutic Promptingは最先端のプロンプト手法よりも最大20%精度が向上し、完全に教師なしのアプローチとして教師付きモデルと競合する。 また、Maieutic Promptingは、解釈可能な理性を提供しながら、推論の堅牢性を向上させることを示す。

Despite their impressive capabilities, large pre-trained language models (LMs) struggle with consistent reasoning; recently, prompting LMs to generate explanations that self-guide the inference has emerged as a promising direction to amend this. However, these approaches are fundamentally bounded by the correctness of explanations, which themselves are often noisy and inconsistent. In this work, we develop Maieutic Prompting, which infers a correct answer to a question even from the noisy and inconsistent generations of LM. Maieutic Prompting induces a tree of explanations abductively (e.g. X is true, because ...) and recursively, then frames the inference as a satisfiability problem over these explanations and their logical relations. We test Maieutic Prompting for true/false QA on three challenging benchmarks that require complex commonsense reasoning. Maieutic Prompting achieves up to 20% better accuracy than state-of-the-art prompting methods, and as a fully unsupervised approach, performs competitively with supervised models. We also show that Maieutic Prompting improves robustness in inference while providing interpretable rationales.
翻訳日:2022-05-26 05:26:57 公開日:2022-05-24
# (参考訳) 流血の欠如が翻訳モデルを傷つける

Lack of Fluency is Hurting Your Translation Model ( http://arxiv.org/abs/2205.11826v1 )

ライセンス: CC BY 4.0
Jaehyo Yoo and Jaewoo Kang(参考訳) 多くの機械翻訳モデルは、同じ意味を持つ2つの異なる言語の文対からなるバイリンガルコーパスで訓練されている。 しかし、二言語コーパスでは、列車とテストセットの質的不一致がある。 最も多くの列車文はクロール法や文調整法などの自動手法で作成されるが、試験文は人による流布を考慮したアノテートされる。 学習コーパスにおけるこの相違は、翻訳モデルの性能低下をもたらすだろう。 本研究では, 学習文のどの部分が不自然に見えるかを決定するために, \textit{fluency noise} を定義する。 本稿では,事前学習した分類器を用いた単純な勾配法により,‘textit{fluency noise} が検出可能であることを示す。 WMT-14 DE$\rightarrow$EN と RU$\rightarrow$EN のベースラインよりも優れています。 また,翻訳モデルの流動性向上に広く用いられているバックトランスレーション拡張との互換性を示す。 最後に、 \textit{fluency noise} の質的分析は、どの点にフォーカスすべきかの洞察を与えてくれる。

Many machine translation models are trained on bilingual corpus, which consist of aligned sentence pairs from two different languages with same semantic. However, there is a qualitative discrepancy between train and test set in bilingual corpus. While the most train sentences are created via automatic techniques such as crawling and sentence-alignment methods, the test sentences are annotated with the consideration of fluency by human. We suppose this discrepancy in training corpus will yield performance drop of translation model. In this work, we define \textit{fluency noise} to determine which parts of train sentences cause them to seem unnatural. We show that \textit{fluency noise} can be detected by simple gradient-based method with pre-trained classifier. By removing \textit{fluency noise} in train sentences, our final model outperforms the baseline on WMT-14 DE$\rightarrow$EN and RU$\rightarrow$EN. We also show the compatibility with back-translation augmentation, which has been commonly used to improve the fluency of the translation model. At last, the qualitative analysis of \textit{fluency noise} provides the insight of what points we should focus on.
翻訳日:2022-05-26 05:05:09 公開日:2022-05-24
# (参考訳) TraCon:ディープラーニングを用いたリアルタイムトラフィックコーン検出のための新しいデータセット

TraCon: A novel dataset for real-time traffic cones detection using deep learning ( http://arxiv.org/abs/2205.11830v1 )

ライセンス: CC BY 4.0
Iason Katsamenis, Eleni Eirini Karolou, Agapi Davradou, Eftychios Protopapadakis, Anastasios Doulamis, Nikolaos Doulamis, Dimitris Kalogeras(参考訳) 道路シーンにおける物体検出の分野ではかなり進歩した。 しかし、主に自動車や歩行者に焦点を当てている。 そこで本研究では,道路効果と維持に不可欠な対象カテゴリーであるトラヒックコーン検出について検討する。 本研究では,交通円錐の効率的かつ迅速な検出のための解を見つけるために,YOLOv5アルゴリズムを用いる。 YOLOv5はIoUのスコアを91.31%まで高感度で検出できる。 提案手法は,様々なソースから収集したRGB道路画像データセットに適用される。

Substantial progress has been made in the field of object detection in road scenes. However, it is mainly focused on vehicles and pedestrians. To this end, we investigate traffic cone detection, an object category crucial for road effects and maintenance. In this work, the YOLOv5 algorithm is employed, in order to find a solution for the efficient and fast detection of traffic cones. The YOLOv5 can achieve a high detection accuracy with the score of IoU up to 91.31%. The proposed method is been applied to an RGB roadwork image dataset, collected from various sources.
翻訳日:2022-05-26 04:53:15 公開日:2022-05-24
# (参考訳) 深部グラフモデルの忠実な説明

Faithful Explanations for Deep Graph Models ( http://arxiv.org/abs/2205.11850v1 )

ライセンス: CC0 1.0
Zifan Wang, Yuhang Yao, Chaoran Zhang, Han Zhang, Youjie Kang, Carlee Joe-Wong, Matt Fredrikson, Anupam Datta(参考訳) 本稿では,グラフニューラルネットワーク(GNN)の忠実な説明について述べる。 まず、GNNに対する説明の忠実さを正式に特徴付けるための新しい一般的な方法を提案する。 これは、特徴属性やサブグラフ説明を含む既存の説明方法に適用される。 第2に,既存サブグラフ説明法は忠実ではないものの,特徴属性法はエッジ特徴の非線形効果を捉えることができないことを示す。 第3に,その隣接行列におけるグラフ構造とそのemph{k-th}パワーの情報を活用することにより,元のGNNへの忠実度を確実に最大化する新しい説明法である,KEC(Emph{k-hop Explanation with a Convolutional Core})を導入する。 最後に、GNNを用いた分類および異常検出タスクのための合成と実世界の両方のデータセットに対する実験結果から、我々のアプローチの有効性が示された。

This paper studies faithful explanations for Graph Neural Networks (GNNs). First, we provide a new and general method for formally characterizing the faithfulness of explanations for GNNs. It applies to existing explanation methods, including feature attributions and subgraph explanations. Second, our analytical and empirical results demonstrate that feature attribution methods cannot capture the nonlinear effect of edge features, while existing subgraph explanation methods are not faithful. Third, we introduce \emph{k-hop Explanation with a Convolutional Core} (KEC), a new explanation method that provably maximizes faithfulness to the original GNN by leveraging information about the graph structure in its adjacency matrix and its \emph{k-th} power. Lastly, our empirical results over both synthetic and real-world datasets for classification and anomaly detection tasks with GNNs demonstrate the effectiveness of our approach.
翻訳日:2022-05-26 04:46:43 公開日:2022-05-24
# (参考訳) プロセス, 方法, 材料, データ・ネーム・エンティティとしてのstem科学の概観

Overview of STEM Science as Process, Method, Material, and Data Named Entities ( http://arxiv.org/abs/2205.11863v1 )

ライセンス: CC BY-SA 4.0
Jennifer D'Souza(参考訳) 私たちは世界中の学術出版物で前例のない生産に直面している。 デジタル図書館の株主は、文書ベースの出版パラダイムが適切さの限界に達したと仮定している。 代わりに、知識グラフ(kg)としての構造化、機械解釈可能、きめ細かな学術知識出版が強く主張されている。 本研究では,10分野にわたるSTEM論文の大規模構造化データセットであるvizを開発した。 農業、天文学、生物学、化学、計算機科学、地球科学、工学、物質科学、数学、医学。 分析は,4つの科学的実体プロセス,方法,材料,データとして構造化された60Kの抽象概念からなる大規模コーパス上で定義される。 そこで本研究では,本研究で初めて,ドメイン固有ではなくドメイン非依存に特別に定義・選択された4つの名前付きエンティティラベルを構成する大規模多分野コーパスの分析を行う。 この研究は、ドメインに依存しない概念で多分野理科を特徴づける実現可能性テストである。 さらに、分野ごとの概念ごとに異なる科学知識の側面を要約するために、一連の単語クラウド可視化を提供する。 本研究で作成されたSTEM-NER-60kコーパスは、主要な出版プラットフォームから取得した60kのSTEM記事から100万以上のエンティティを抽出し、https://github.com/jd-coderepos/stem-ner-60kを公開している。

We are faced with an unprecedented production in scholarly publications worldwide. Stakeholders in the digital libraries posit that the document-based publishing paradigm has reached the limits of adequacy. Instead, structured, machine-interpretable, fine-grained scholarly knowledge publishing as Knowledge Graphs (KG) is strongly advocated. In this work, we develop and analyze a large-scale structured dataset of STEM articles across 10 different disciplines, viz. Agriculture, Astronomy, Biology, Chemistry, Computer Science, Earth Science, Engineering, Material Science, Mathematics, and Medicine. Our analysis is defined over a large-scale corpus comprising 60K abstracts structured as four scientific entities process, method, material, and data. Thus our study presents, for the first-time, an analysis of a large-scale multidisciplinary corpus under the construct of four named entity labels that are specifically defined and selected to be domain-independent as opposed to domain-specific. The work is then inadvertently a feasibility test of characterizing multidisciplinary science with domain-independent concepts. Further, to summarize the distinct facets of scientific knowledge per concept per discipline, a set of word cloud visualizations are offered. The STEM-NER-60k corpus, created in this work, comprises over 1M extracted entities from 60k STEM articles obtained from a major publishing platform and is publicly released https://github.com/jd-coderepos/stem-ner-60k.
翻訳日:2022-05-26 04:21:03 公開日:2022-05-24
# (参考訳) 表現的感情と経験的感情を付加した対話コーパスの構築

Building a Dialogue Corpus Annotated with Expressed and Experienced Emotions ( http://arxiv.org/abs/2205.11867v1 )

ライセンス: CC BY 4.0
Tatsuya Ide and Daisuke Kawahara(参考訳) コミュニケーションにおいて、人間はインターロケータの感情を認識し、共感や快適さといった適切な感情に反応する。 このような人間的な能力を持つ対話システムの開発に向けて,2種類の感情を付加した対話コーパスを構築する方法を提案する。 我々はTwitterからの対話を収集し、話者が発声した感情(表現された感情)と聞き手が発声を聴いた後に感じた感情(経験的な感情)をアノテートする。 本手法を用いて日本語の対話コーパスを構築し,その統計的解析により,表現的感情と経験的感情の差異が明らかになった。 2種類の感情の認識実験を行った。 実験の結果,経験的感情認識の難しさと2種類の感情のマルチタスク学習の有効性が示された。 構築されたコーパスは、対話における感情認識と感情認識型対話生成の促進を期待する。

In communication, a human would recognize the emotion of an interlocutor and respond with an appropriate emotion, such as empathy and comfort. Toward developing a dialogue system with such a human-like ability, we propose a method to build a dialogue corpus annotated with two kinds of emotions. We collect dialogues from Twitter and annotate each utterance with the emotion that a speaker put into the utterance (expressed emotion) and the emotion that a listener felt after listening to the utterance (experienced emotion). We built a dialogue corpus in Japanese using this method, and its statistical analysis revealed the differences between expressed and experienced emotions. We conducted experiments on recognition of the two kinds of emotions. The experimental results indicated the difficulty in recognizing experienced emotions and the effectiveness of multi-task learning of the two kinds of emotions. We hope that the constructed corpus will facilitate the study on emotion recognition in a dialogue and emotion-aware dialogue response generation.
翻訳日:2022-05-26 04:02:24 公開日:2022-05-24
# (参考訳) ドメイン外検出器構築におけるドメイン内サンプルの精度:Marekらへの回答(2021年)

Accuracy on In-Domain Samples Matters When Building Out-of-Domain detectors: A Reply to Marek et al. (2021) ( http://arxiv.org/abs/2205.11887v1 )

ライセンス: CC0 1.0
Yinhe Zheng, Guanyi Chen(参考訳) Marek et al. (2021) が論文 "OodGAN: Generative Adversarial Network for Out-of-Domain Data Generation" で Zheng et al. (2020a) を再実装しようとしていることに気付いた。 In-Domain(IND)入力音声に似た擬似OODサンプルを生成するモデルを提案する。 これらの擬似OODサンプルは、IND分類器を構築する際にエントロピー正規化項を最適化することにより、OOD検出性能を向上させることができる。 Marek et al. (2021)は、再実装された結果と私たちのCLINC150データセット(Larson et al., 2019)の間に大きなギャップを報告している。 本稿は、このような大きなギャップに繋がったかもしれないいくつかの重要な観測について論じる。 これらの観測のほとんどは、Marek et al. (2021) がコード1を公開していないため、我々の実験に由来する。 最も重要な観測の1つは、強いIND分類器がOODサンプルを検出するより堅牢な能力を示すことである。 これらの観測によって、Marekら他の研究者(2021年)がより優れたOOD検出器を開発できることを期待しています。

We have noticed that Marek et al. (2021) try to re-implement our paper Zheng et al. (2020a) in their work "OodGAN: Generative Adversarial Network for Out-of-Domain Data Generation". Our paper proposes a model to generate pseudo OOD samples that are akin to IN-Domain (IND) input utterances. These pseudo OOD samples can be used to improve the OOD detection performance by optimizing an entropy regularization term when building the IND classifier. Marek et al. (2021) report a large gap between their re-implemented results and ours on the CLINC150 dataset (Larson et al., 2019). This paper discusses some key observations that may have led to such a large gap. Most of these observations originate from our experiments because Marek et al. (2021) have not released their codes1. One of the most important observations is that stronger IND classifiers usually exhibit a more robust ability to detect OOD samples. We hope these observations help other researchers, including Marek et al. (2021), to develop better OOD detectors in their applications.
翻訳日:2022-05-26 03:49:52 公開日:2022-05-24
# (参考訳) 潜在ガウス過程ODEを用いた相互作用力学系の学習

Learning Interacting Dynamical Systems with Latent Gaussian Process ODEs ( http://arxiv.org/abs/2205.11894v1 )

ライセンス: CC BY 4.0
\c{C}a\u{g}atay Y{\i}ld{\i}z, Melih Kandemir, Barbara Rakitsch(参考訳) 相互作用する物体の連続時間ダイナミクスに関する不確実性・認識モデリングを初めて行った。 単一オブジェクトの独立なダイナミクスを相互作用から正確に分解する新しいモデルを導入する。 潜在ガウス過程の常微分方程式を用いることで, 独立ダイナミクスと信頼できる不確実性推定との相互作用を推定する。 我々の定式化では、各オブジェクトはグラフノードとして表現され、隣り合うオブジェクトからのメッセージの蓄積によって相互作用がモデル化される。 このような複雑な変数ネットワークの効率的な推論は、現代の変分スパースガウス過程推論手法で可能であることを示す。 実験により,本モデルがニューラルネットワークに基づく代替手法よりも長期予測の信頼性を向上し,動的あるいは静的な情報の欠如をうまく処理できることを実証した。 さらに、我々のモデルだけが独立力学と相互作用情報を異なる関数にカプセル化することができ、外挿シナリオにおけるこの非絡み合いの利点を示す。

We study for the first time uncertainty-aware modeling of continuous-time dynamics of interacting objects. We introduce a new model that decomposes independent dynamics of single objects accurately from their interactions. By employing latent Gaussian process ordinary differential equations, our model infers both independent dynamics and their interactions with reliable uncertainty estimates. In our formulation, each object is represented as a graph node and interactions are modeled by accumulating the messages coming from neighboring objects. We show that efficient inference of such a complex network of variables is possible with modern variational sparse Gaussian process inference techniques. We empirically demonstrate that our model improves the reliability of long-term predictions over neural network based alternatives and it successfully handles missing dynamic or static information. Furthermore, we observe that only our model can successfully encapsulate independent dynamics and interaction information in distinct functions and show the benefit from this disentanglement in extrapolation scenarios.
翻訳日:2022-05-26 03:43:01 公開日:2022-05-24
# (参考訳) スパイク分類のための適応型コントラスト学習モデル

An Adaptive Contrastive Learning Model for Spike Sorting ( http://arxiv.org/abs/2205.11914v1 )

ライセンス: CC BY 4.0
Lang Qian, Shengjie Zheng, Chunshan Deng, Cheng Yang, Xiaojian Li(参考訳) brain-computer interface (bcis) は、電子機器が脳と直接通信する方法である。 多くの医療型脳-コンピュータインタフェースタスクでは、ニューロンの複数のユニットや局所野電位の活動はデコードに十分である。 しかし、神経科学研究で使われるbcisでは、個々のニューロンの活動を分離することが重要である。 大規模シリコン技術の発展とプローブチャネルの増加に伴い、人工的な解釈とラベリングスパイクはますます非現実的になりつつある。 本稿では, 相互情報損失関数の最大化を理論的基盤として, 比較学習を通じてスパイクから表現を学習する適応コントラスト学習モデルを提案する。 類似した特徴を持つデータは同じラベルを共有しているという事実に基づく。 この理論的支援により、多重分類問題を複数のバイナリ分類に単純化し、精度と実行効率の両方を改善する。 さらに,スパイクの重複によって分類効果が影響を受けるという問題を解きながら,スパイクの一連の拡張も紹介する。

Brain-computer interfaces (BCIs), is ways for electronic devices to communicate directly with the brain. For most medical-type brain-computer interface tasks, the activity of multiple units of neurons or local field potentials is sufficient for decoding. But for BCIs used in neuroscience research, it is important to separate out the activity of individual neurons. With the development of large-scale silicon technology and the increasing number of probe channels, artificially interpreting and labeling spikes is becoming increasingly impractical. In this paper, we propose a novel modeling framework: Adaptive Contrastive Learning Model that learns representations from spikes through contrastive learning based on the maximizing mutual information loss function as a theoretical basis. Based on the fact that data with similar features share the same labels whether they are multi-classified or binary-classified. With this theoretical support, we simplify the multi-classification problem into multiple binary-classification, improving both the accuracy and the runtime efficiency. Moreover, we also introduce a series of enhancements for the spikes, while solving the problem that the classification effect is affected because of the overlapping spikes.
翻訳日:2022-05-26 03:24:48 公開日:2022-05-24
# (参考訳) 部分微分方程式を用いた画像トリナライゼーション:自動精子画像解析への新しいアプローチ

Image Trinarization Using a Partial Differential Equations: A Novel Approach to Automatic Sperm Image Analysis ( http://arxiv.org/abs/2205.11927v1 )

ライセンス: CC BY 4.0
B. A. Jacobs(参考訳) 偏微分方程式は、その拡張性、制御力学を厳密に設計し分析する能力、数値的手法による実装の容易さなどにより、画像処理フレームワークとしてかなりの注目を集めている。 本稿では,精子形態の自動解析に使用される精子画像の領域分類を具体的実世界に適用し,画像のトリナライゼーションに対する新しいアプローチについて検討する。 提案手法は,3つの定常状態を示す非線形ソース項を持つ拡散方程式を考案する。 このモデルは,標準有限差分法を用いて画像処理として実装され,提案手法の有効性を示す。 提案手法の性能は,標準画像クラスタリング/セグメンテーション法と比較し,高い有効性を示した。

Partial differential equations have recently garnered substantial attention as an image processing framework due to their extensibility, the ability to rigorously engineer and analyse the governing dynamics as well as the ease of implementation using numerical methods. This paper explores a novel approach to image trinarization with a concrete real-world application of classifying regions of sperm images used in the automatic analysis of sperm morphology. The proposed methodology engineers a diffusion equation with non-linear source term, exhibiting three steady-states. The model is implemented as an image processor using a standard finite difference method to illustrate the efficacy of the proposed approach. The performance of the proposed approach is benchmarked against standard image clustering/segmentation methods and shown to be highly effective.
翻訳日:2022-05-26 03:17:28 公開日:2022-05-24
# (参考訳) 人間の評価はいかに人間か? 実用性理論によるNLGのゴールドスタンダードの改善

How Human is Human Evaluation? Improving the Gold Standard for NLG with Utility Theory ( http://arxiv.org/abs/2205.11930v1 )

ライセンス: CC BY 4.0
Kawin Ethayarajh, Dan Jurafsky(参考訳) 人間の評価はNLG評価におけるゴールドスタンダードとして扱われる。 標準のプロトコルは生成したテキストのレーティングを収集し、アノテータ間で平均を行い、平均スコアでNLGシステムにランク付けする。 しかし、このアプローチが人間の好みを忠実に捉えているかどうかについてはほとんど考慮されていない。 本稿では,経済学におけるユーティリティ理論のレンズを通して,この標準プロトコルを分析する。 まず、アノテータに関する暗黙の仮定を特定し、これらの仮定が実際にはしばしば違反されていることを見出し、アノテータの格付けが彼らの好みに対する不適切な反映となる。 最も厳格な違反は、特定のケースにおいて真の好みの方向を確実に逆転するLikertスケールを使うことである。 理論的により健全にするための標準プロトコルの改善を提案するが、改良された形式であっても、ストーリー生成のようなオープンなタスクを評価するには利用できない。 後者では、$\textit{system-level probabilistic Assessment}$ (SPA)と呼ばれる新しい評価プロトコルを提案する。 我々の実験では、SPAによれば、アノテーターは予想したより小さいものよりも大きな GPT-3 の変種を好んでおり、全ての比較は統計的に有意である。 対照的に、標準プロトコルは、半分の時間で重要な結果しか得られない。

Human ratings are treated as the gold standard in NLG evaluation. The standard protocol is to collect ratings of generated text, average across annotators, and then rank NLG systems by their average scores. However, little consideration has been given as to whether this approach faithfully captures human preferences. In this work, we analyze this standard protocol through the lens of utility theory in economics. We first identify the implicit assumptions it makes about annotators and find that these assumptions are often violated in practice, in which case annotator ratings become an unfaithful reflection of their preferences. The most egregious violations come from using Likert scales, which provably reverse the direction of the true preference in certain cases. We suggest improvements to the standard protocol to make it more theoretically sound, but even in its improved form, it cannot be used to evaluate open-ended tasks like story generation. For the latter, we propose a new evaluation protocol called $\textit{system-level probabilistic assessment}$ (SPA). In our experiments, we find that according to SPA, annotators prefer larger GPT-3 variants to smaller ones -- as expected -- with all comparisons being statistically significant. In contrast, the standard protocol only yields significant results half the time.
翻訳日:2022-05-26 03:00:26 公開日:2022-05-24
# (参考訳) SHARP: 衣服を着る人々の形状認識の再構築

SHARP: Shape-Aware Reconstruction of People in Loose Clothing ( http://arxiv.org/abs/2205.11948v1 )

ライセンス: CC BY 4.0
Sai Sagar Jinka, Astitva Srivastava, Chandradeep Pokhariya, Avinash Sharma and P.J. Narayanan(参考訳) 近年のディープラーニングの進歩により、複数の領域に広く応用されている単眼画像からの3次元人体再構築が可能になった。 本稿では,ゆるい衣服の3次元形状と外観をモノクロ画像から正確に再現する,新しいエンドツーエンドのトレーニング可能なネットワークであるSHARPを提案する。 SHARPは、パラメトリックボディと非パラメトリックな人間の2D表現を結合するために、スパースで効率的な融合戦略を使用する。 パラメトリック体は事前に体形とポーズの幾何学的一貫性を強制するが、非パラメトリック表現はゆるい衣服をモデル化し、自己排他性も扱う。 また,非パラメトリック表現のスパース性を利用して,2次元地図の損失を利用してネットワークの高速なトレーニングを行う。 もうひとつの重要な貢献は、3DHumansだ。この3Dの人体スキャンで、幾何学的およびテクスチャ的詳細が豊富になる。 3DHumansなどの公開データセット上でSHARPを評価し,既存の最先端手法よりも質的,定量的な性能を示した。

Recent advancements in deep learning have enabled 3D human body reconstruction from a monocular image, which has broad applications in multiple domains. In this paper, we propose SHARP (SHape Aware Reconstruction of People in loose clothing), a novel end-to-end trainable network that accurately recovers the 3D geometry and appearance of humans in loose clothing from a monocular image. SHARP uses a sparse and efficient fusion strategy to combine parametric body prior with a non-parametric 2D representation of clothed humans. The parametric body prior enforces geometrical consistency on the body shape and pose, while the non-parametric representation models loose clothing and handle self-occlusions as well. We also leverage the sparseness of the non-parametric representation for faster training of our network while using losses on 2D maps. Another key contribution is 3DHumans, our new life-like dataset of 3D human body scans with rich geometrical and textural details. We evaluate SHARP on 3DHumans and other publicly available datasets and show superior qualitative and quantitative performance than existing state-of-the-art methods.
翻訳日:2022-05-26 02:39:25 公開日:2022-05-24
# (参考訳) パラメータ効率の高いマルチタスク知識共有のためのソフトプロンプトチューニングの注意点混合

Attentional Mixtures of Soft Prompt Tuning for Parameter-efficient Multi-task Knowledge Sharing ( http://arxiv.org/abs/2205.11961v1 )

ライセンス: CC BY 4.0
Akari Asai, Mohammadreza Salehi, Matthew E. Peters, Hannaneh Hajishirzi(参考訳) Attentional Mixture of Prompt Tuning (ATTEMPT, Attentional Mixture of Prompt Tuning)は、新しいモジュラー、マルチタスク、パラメータ効率のよい言語モデル(LM)のチューニング手法である。 ATTEMPTは、大規模ソースタスクで訓練された一連のプロンプトと、複数のターゲットタスクで訓練された軽量サブネットワークによって計算されたインスタンスワイドアテンションを用いて、新しく初期化されたターゲットタスクプロンプトを補間する。 ATTEMPTはパラメータ効率が高く(例えば、微調整よりも1,600倍少ないパラメータを更新)、マルチタスク学習と柔軟な拡張を可能にする。 17の多様なデータセットにまたがる実験結果から、ATTEMPTは最大22%の絶対的なパフォーマンス向上によってプロンプトチューニングを改善し、完全な微調整や他の10倍以上のパラメータを使用するパラメータ効率の高いチューニングアプローチに適合することが示された。

This work introduces ATTEMPT (Attentional Mixture of Prompt Tuning), a new modular, multi-task, and parameter-efficient language model (LM) tuning approach that combines knowledge transferred across different tasks via a mixture of soft prompts while keeping original LM unchanged. ATTEMPT interpolates a set of prompts trained on large-scale source tasks and a newly initialized target task prompt using instance-wise attention computed by a lightweight sub-network trained on multiple target tasks. ATTEMPT is parameter-efficient (e.g., updates 1,600 times fewer parameters than fine-tuning) and enables multi-task learning and flexible extensions; importantly, it is also more interpretable because it demonstrates which source tasks affect the final model decision on target tasks. Experimental results across 17 diverse datasets show that ATTEMPT improves prompt tuning by up to a 22% absolute performance gain and outperforms or matches fully fine-tuned or other parameter-efficient tuning approaches that use over ten times more parameters.
翻訳日:2022-05-26 02:12:01 公開日:2022-05-24
# (参考訳) Data-Production Dispositif

The Data-Production Dispositif ( http://arxiv.org/abs/2205.11963v1 )

ライセンス: CC BY 4.0
Milagros Miceli and Julian Posada(参考訳) 機械学習(ML)はモデルをトレーニングし検証するためのデータに依存する。 組織はしばしば、ビジネスプロセスアウトソーシング(BPO)企業やクラウドソーシングプラットフォームを通じて、データ作業に関連するプロセス(すなわち、データの生成とアノテート、アウトプットの評価)をアウトソーシングする。 本稿では,ベネズエラの3プラットフォームとアルゼンチンのBPOを用いて,ラテンアメリカにおけるMLデータワークのアウトソースについて検討する。 我々は、データ生産の処分を、データと労働の力と知識の関係を(再)生み出すために戦略的に配置された言論、行動、対象の集合として定義するために、フーカウルディアンの処分の概念に頼っている。 分析は,データワーク指導文書210点,データワーカー,管理者,依頼者との55点の面接,参加者の観察からなる。 その結果,指示書にエンコードされた談話は,依頼者の世界観を再現し,正規化することがわかった。 労働条件や経済的依存は労働者を疎外させ、命令に従順にする。 さらに、会話や社会的文脈は、インターフェースやパフォーマンスメトリクス、労働者の代理店の制限、データ解釈の特定の方法の標準化といったアーティファクトで実現されている。 我々は、疎外化や先制化と戦ってデータ生産不備に対処することの重要性を強調し、データ労働者が高品質なデータを求めて資産になるよう促すことで結論付ける。

Machine learning (ML) depends on data to train and verify models. Very often, organizations outsource processes related to data work (i.e., generating and annotating data and evaluating outputs) through business process outsourcing (BPO) companies and crowdsourcing platforms. This paper investigates outsourced ML data work in Latin America by studying three platforms in Venezuela and a BPO in Argentina. We lean on the Foucauldian notion of dispositif to define the data-production dispositif as an ensemble of discourses, actions, and objects strategically disposed to (re)produce power/knowledge relations in data and labor. Our dispositif analysis comprises the examination of 210 data work instruction documents, 55 interviews with data workers, managers, and requesters, and participant observation. Our findings show that discourses encoded in instructions reproduce and normalize the worldviews of requesters. Precarious working conditions and economic dependency alienate workers, making them obedient to instructions. Furthermore, discourses and social contexts materialize in artifacts, such as interfaces and performance metrics, limiting workers' agency and normalizing specific ways of interpreting data. We conclude by stressing the importance of counteracting the data-production dispositif by fighting alienation and precarization, and empowering data workers to become assets in the quest for high-quality data.
翻訳日:2022-05-26 01:45:56 公開日:2022-05-24
# (参考訳) 再現性冠カルシウムスコアの生成モデル

Generative Models for Reproducible Coronary Calcium Scoring ( http://arxiv.org/abs/2205.11967v1 )

ライセンス: CC BY 4.0
Sanne G.M. van Velzen, Bob D. de Vos, Julia M.H. Noothout, Helena M. Verkooijen, Max A. Viergever, Ivana I\v{s}gum(参考訳) 目的:冠動脈カルシウム(CAC)スコア(CTで定量化されるCACの量)は、冠動脈疾患(CHD)の強力な、独立した予測因子である。 しかし、CACスコアリングは、石灰化のセグメンテーションに一定の強度レベル閾値を適用する必要があるという臨床的定義が主な原因で、限られた相互再現性に悩まされている。 この制限は非ECG同期CTでは特に顕著であり、病変は心臓運動や部分体積効果によってより影響を受けやすい。 そこで本研究では,CACのセグメンテーションのしきい値を必要としないCAC定量化手法を提案する。 アプローチ: 本手法では, CACのないCTを画像に分解し, CACのみを示す画像を生成する生成対向ネットワークを用いる。 この方法はCycleGANを用いて626個の低用量胸部CTと514個の放射線治療計画CTを用いて訓練した。 放射線治療を計画した1,662例のCT検査では,2例の検診を施行した。 結果】cac質量の相対的インタースカン差は47%で,手作業によるcacスコアは89%であった。 agatston スコアのクラス内相関係数は, 提案法で 0.96 であり, 臨床用カルシウム自動スコアでは 0.91 であった。 結論:本手法により,CHDリスク分類の信頼性が向上し,CHDイベント予測の精度が向上する可能性が示唆された。

Purpose: Coronary artery calcium (CAC) score, i.e. the amount of CAC quantified in CT, is a strong and independent predictor of coronary heart disease (CHD) events. However, CAC scoring suffers from limited interscan reproducibility, which is mainly due to the clinical definition requiring application of a fixed intensity level threshold for segmentation of calcifications. This limitation is especially pronounced in non-ECG-synchronized CT where lesions are more impacted by cardiac motion and partial volume effects. Therefore, we propose a CAC quantification method that does not require a threshold for segmentation of CAC. Approach: Our method utilizes a generative adversarial network where a CT with CAC is decomposed into an image without CAC and an image showing only CAC. The method, using a CycleGAN, was trained using 626 low-dose chest CTs and 514 radiotherapy treatment planning CTs. Interscan reproducibility was compared to clinical calcium scoring in radiotherapy treatment planning CTs of 1,662 patients, each having two scans. Results: A lower relative interscan difference in CAC mass was achieved by the proposed method: 47% compared to 89% manual clinical calcium scoring. The intraclass correlation coefficient of Agatston scores was 0.96 for the proposed method compared to 0.91 for automatic clinical calcium scoring. Conclusions: The increased interscan reproducibility achieved by our method may lead to increased reliability of CHD risk categorization and improved accuracy of CHD event prediction.
翻訳日:2022-05-26 01:44:44 公開日:2022-05-24
# (参考訳) オディア言語のためのユニバーサル依存ツリーバンク

Universal Dependency Treebank for Odia Language ( http://arxiv.org/abs/2205.11976v1 )

ライセンス: CC BY-SA 4.0
Shantipriya Parida, Kalyanamalini Sahoo, Atul Kr. Ojha, Saraswati Sahoo, Satya Ranjan Dash, Bijayalaxmi Dash(参考訳) 本稿では,形態的に豊かな低資源のインド語であるOdiaのツリーバンクを初めて公開する。 ツリーバンクにはアポックスが含まれています。 1082のトークン(100文)は、インド語で最大の並列コーパスコレクションである「サマンタル」から選ばれた。 すべての選択された文は ``Universal Dependency (UD)' ガイドラインに従って手動で注釈付けされる。 オディア・ツリーバンクの形態解析は機械学習を用いて行った。 odia annotated treebankは、odia言語リソースを充実させ、言語横断学習とタイポロジー研究のための言語技術ツールの開発を支援する。 機械学習アプローチを用いた予備的なOdiaパーサも構築する。 パーサーの精度は86.6%のトークン化、64.1%のPOS、63.78%のXPOS、42.04%のUAS、21.34%のLASである。 最後に,オディアUDツリーバンクの言語分析について概説した。

This paper presents the first publicly available treebank of Odia, a morphologically rich low resource Indian language. The treebank contains approx. 1082 tokens (100 sentences) in Odia selected from "Samantar", the largest available parallel corpora collection for Indic languages. All the selected sentences are manually annotated following the ``Universal Dependency (UD)" guidelines. The morphological analysis of the Odia treebank was performed using machine learning techniques. The Odia annotated treebank will enrich the Odia language resource and will help in building language technology tools for cross-lingual learning and typological research. We also build a preliminary Odia parser using a machine learning approach. The accuracy of the parser is 86.6% Tokenization, 64.1% UPOS, 63.78% XPOS, 42.04% UAS and 21.34% LAS. Finally, the paper briefly discusses the linguistic analysis of the Odia UD treebank.
翻訳日:2022-05-26 01:13:48 公開日:2022-05-24
# (参考訳) ポリノミアル系埋め込みを用いたリカレントニューラルモードの実現理論

Realization Theory Of Recurrent Neural ODEs Using Polynomial System Embeddings ( http://arxiv.org/abs/2205.11989v1 )

ライセンス: CC BY 4.0
Martin Gonzalez, Thibault Defourneau, Hatem Hajri, Mihaly Petreczky(参考訳) 本稿では,リカレント(ODE-RNN)およびLong Short-Term Memory(ODE-LSTM)ネットワークのニューラルODEアナログを,多項式系のクラスにアルゴリズム的に組み込むことができることを示す。 この埋め込みは入力出力の挙動を保ち、他のニューラルDアーキテクチャにも好適に拡張できる。 次に、多項式系の実現理論を用いて、ODE-LSTMによって実現可能な入力出力マップと、そのようなシステムの最小化のための十分な条件を提供する。 これらの結果は、リカレントニューラルODEアーキテクチャの実現理論への第一歩であり、リカレントニューラルODEのモデル還元と学習アルゴリズム解析に有用であることが期待される。

In this paper we show that neural ODE analogs of recurrent (ODE-RNN) and Long Short-Term Memory (ODE-LSTM) networks can be algorithmically embeddeded into the class of polynomial systems. This embedding preserves input-output behavior and can suitably be extended to other neural DE architectures. We then use realization theory of polynomial systems to provide necessary conditions for an input-output map to be realizable by an ODE-LSTM and sufficient conditions for minimality of such systems. These results represent the first steps towards realization theory of recurrent neural ODE architectures, which is is expected be useful for model reduction and learning algorithm analysis of recurrent neural ODEs.
翻訳日:2022-05-26 01:04:45 公開日:2022-05-24
# (参考訳) mPLUG:クロスモーダルスキップ接続による効果的かつ効率的な視覚言語学習

mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal Skip-connections ( http://arxiv.org/abs/2205.12005v1 )

ライセンス: CC BY 4.0
Chenliang Li, Haiyang Xu, Junfeng Tian, Wei Wang, Ming Yan, Bin Bi, Jiabo Ye, Hehong Chen, Guohai Xu, Zheng Cao, Ji Zhang, Songfang Huang, Fei Huang, Jingren Zhou(参考訳) 大規模な事前訓練された基礎モデルは、人工知能(AI)システムを構築するための新しいパラダイムであり、幅広い下流タスクに迅速に適応できる。 本稿では,モーダルな理解と生成のための新しい視覚言語基盤モデルであるmPLUGを提案する。 既存の事前学習モデルの多くは、クロスモーダルアライメントの長い視覚系列によってもたらされる計算効率の低さと情報非対称性の問題に苦しむ。 これらの問題に対処するため、mPLUGは、新しいクロスモーダルなスキップ接続を備えた効果的で効率的な視覚言語アーキテクチャを導入し、視覚面における完全な自己注意のために、一定数のレイヤをスキップする層間ショートカットを生成する。 mPLUGは、識別目的と生成目的の両方を持つ大規模画像テキストペア上で、事前訓練されたエンドツーエンドである。 画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。 mPLUGはまた、複数のビデオ言語タスクに直接転送する際に、強いゼロショット転送可能性を示す。

Large-scale pretrained foundation models have been an emerging paradigm for building artificial intelligence (AI) systems, which can be quickly adapted to a wide range of downstream tasks. This paper presents mPLUG, a new vision-language foundation model for both cross-modal understanding and generation. Most existing pre-trained models suffer from the problems of low computational efficiency and information asymmetry brought by the long visual sequence in cross-modal alignment. To address these problems, mPLUG introduces an effective and efficient vision-language architecture with novel cross-modal skip-connections, which creates inter-layer shortcuts that skip a certain number of layers for time-consuming full self-attention on the vision side. mPLUG is pre-trained end-to-end on large-scale image-text pairs with both discriminative and generative objectives. It achieves state-of-the-art results on a wide range of vision-language downstream tasks, such as image captioning, image-text retrieval, visual grounding and visual question answering. mPLUG also demonstrates strong zero-shot transferability when directly transferred to multiple video-language tasks.
翻訳日:2022-05-26 00:37:38 公開日:2022-05-24
# (参考訳) 協調処理エージェントのためのグラフ畳み込み強化学習

Graph Convolutional Reinforcement Learning for Collaborative Queuing Agents ( http://arxiv.org/abs/2205.12009v1 )

ライセンス: CC BY-SA 4.0
Hassan Fawaz, Julien Lesca, Pham Tran Anh Quang, J\'er\'emie Leguay, Djamal Zeghlache, and Paolo Medagliani(参考訳) 本稿では,ネットワークフローの分類において,スループットとエンドツーエンド遅延の観点から,マルチエージェント深層学習の利用と,厳密なサービスレベルの合意を満たすための原則の連携について検討する。 我々は,金,銀,青銅の3つのフローグループに対して,連続的に重み付けを行う重み付きフェアキューイングアルゴリズムの上にエージェントを配置する。 我々はDGNとして知られる新しいグラフ畳み込みに基づくマルチエージェント強化学習アプローチに依存している。 ベンチマークとして,集中型・分散型qネットワークアプローチを提案し,異なるネットワーク,トラフィック,ルーティングシナリオにおける性能評価を行い,提案の有効性とエージェント協調の重要性を強調した。 DGNベースのアプローチは,すべてのシナリオにおいて厳格なスループットと遅延要件を満たすことを示す。

In this paper, we explore the use of multi-agent deep learning as well as learning to cooperate principles to meet stringent service level agreements, in terms of throughput and end-to-end delay, for a set of classified network flows. We consider agents built on top of a weighted fair queuing algorithm that continuously set weights for three flow groups: gold, silver, and bronze. We rely on a novel graph-convolution based, multi-agent reinforcement learning approach known as DGN. As benchmarks, we propose centralized and distributed deep Q-network approaches and evaluate their performances in different network, traffic, and routing scenarios, highlighting the effectiveness of our proposals and the importance of agent cooperation. We show that our DGN-based approach meets stringent throughput and delay requirements across all scenarios.
翻訳日:2022-05-26 00:16:02 公開日:2022-05-24
# (参考訳) naive few-shot learning: シーケンス一貫性の評価

Naive Few-Shot Learning: Sequence Consistency Evaluation ( http://arxiv.org/abs/2205.12013v1 )

ライセンス: CC BY 4.0
Tomer Barak and Yonatan Loewenstein(参考訳) 認知心理学者はしばしば「\textit{fluid intelligence}$」という用語を使って、事前の訓練なしで新しいタスクを解決できる能力を記述する。 人間とは対照的に、ディープニューラルネットワークは、多数の関連する例で広範な(事前)トレーニングを行った後のみ、認知タスクを実行することができる。 認知科学における流体インテリジェンスの研究によって動機づけられた私たちは、このギャップに対処できるシーケンス整合性評価(SCE)と呼ばれるベンチマークタスクを構築しました。 SCEタスクの解決には、人間の様々な知能テストの解決に必要な基本的な計算であるシーケンスから単純なルールを抽出する能力が必要である。 SCEタスクで、$\textit{untrained}$ (naive)ディープラーニングモデルをテストしました。 具体的には、シーケンスから単純なルールを抽出できる2つのモデルである関係ネットワーク(RN)とコントラスト予測符号化(CPC)を比較し、予測可能なルールに構造を課す後者の方がよいことを示した。 さらに,単純なネットワークが複雑なネットワークよりも優れていることも分かりました。 最後に,このアプローチを事前のトレーニングなしに,セキュリティカメラ異常検出に使用できることを示す。

Cognitive psychologists often use the term $\textit{fluid intelligence}$ to describe the ability of humans to solve novel tasks without any prior training. In contrast to humans, deep neural networks can perform cognitive tasks only after extensive (pre-)training with a large number of relevant examples. Motivated by fluid intelligence research in the cognitive sciences, we built a benchmark task which we call sequence consistency evaluation (SCE) that can be used to address this gap. Solving the SCE task requires the ability to extract simple rules from sequences, a basic computation that is required for solving various intelligence tests in humans. We tested $\textit{untrained}$ (naive) deep learning models in the SCE task. Specifically, we compared Relation Networks (RN) and Contrastive Predictive Coding (CPC), two models that can extract simple rules from sequences, and found that the latter, which imposes a structure on the predictable rule does better. We further found that simple networks fare better in this task than complex ones. Finally, we show that this approach can be used for security camera anomaly detection without any prior training.
翻訳日:2022-05-25 23:57:02 公開日:2022-05-24
# (参考訳) データ効率強化学習のための同時クレジットアサインメント

Concurrent Credit Assignment for Data-efficient Reinforcement Learning ( http://arxiv.org/abs/2205.12020v1 )

ライセンス: CC BY 4.0
Emmanuel Dauc\'e(参考訳) 状態と動作空間を広くサンプルする能力は、効果的な強化学習アルゴリズムを構築するための重要な要素である。 本稿では,エージェントが行動可能な環境状態の一般分布を合成するための占有モデルの重要性を強調した(仮想「領域」の定義)。 居住モデルは、探索が進むにつれて頻繁な更新の対象となり、訓練中に新しい状態が開示されることはない。 結果の目的は、均一な事前仮定を行うことで、2つの同時傾向、すなわち占有空間の拡大と報酬の最大化のバランスを表現し、古典的な探検・探検のトレードオフを思い出させる。 従来の連続アクションベンチマークでアクタが批判するオフポリシーに基づいて実装され、集中度とスパース報酬の双方において、トレーニング時間とリターン率の低下に反映されるサンプリングの有効性が大幅に向上することが示されている。

The capability to widely sample the state and action spaces is a key ingredient toward building effective reinforcement learning algorithms. The variational optimization principles exposed in this paper emphasize the importance of an occupancy model to synthesizes the general distribution of the agent's environmental states over which it can act (defining a virtual ``territory''). The occupancy model is the subject of frequent updates as the exploration progresses and that new states are undisclosed during the course of the training. By making a uniform prior assumption, the resulting objective expresses a balance between two concurrent tendencies, namely the widening of the occupancy space and the maximization of the rewards, reminding of the classical exploration/exploitation trade-off. Implemented on an actor-critic off-policy on classic continuous action benchmarks, it is shown to provide significant increase in the sampling efficacy, that is reflected in a reduced training time and higher returns, in both the dense and the sparse rewards cases.
翻訳日:2022-05-25 23:15:45 公開日:2022-05-24
# (参考訳) ハブネスに基づく敵の攻撃から音楽レコメンデーションを守る

Defending a Music Recommender Against Hubness-Based Adversarial Attacks ( http://arxiv.org/abs/2205.12032v1 )

ライセンス: CC BY 4.0
Katharina Hoedt, Arthur Flexer, Gerhard Widmer(参考訳) 敵の攻撃はレコメンダやその他の機械学習システムのパフォーマンスを劇的に低下させ、防御機構の需要が増大する。 本稿では,高次元データ空間で動作するリコメンデータの脆弱性(いわゆるハブネス問題)を利用した攻撃に対する新たな防御方法を提案する。 我々は,これまで特定の楽曲が推奨された回数を膨らませた攻撃を受けやすい実世界の音楽推薦者を守るために,グローバルデータスケーリング手法である相互近接(mp)を用いた。 防衛手段としてのMPの使用は、様々な攻撃に対するレコメンデーターの堅牢性を大幅に向上させ、攻撃の成功率は約44%(防衛前)が6%未満(防衛後)に低下した。 さらに、防御されたシステムを騙すことができる敵の例は、平均的なSNRが示すように、明らかに低音質である。

Adversarial attacks can drastically degrade performance of recommenders and other machine learning systems, resulting in an increased demand for defence mechanisms. We present a new line of defence against attacks which exploit a vulnerability of recommenders that operate in high dimensional data spaces (the so-called hubness problem). We use a global data scaling method, namely Mutual Proximity (MP), to defend a real-world music recommender which previously was susceptible to attacks that inflated the number of times a particular song was recommended. We find that using MP as a defence greatly increases robustness of the recommender against a range of attacks, with success rates of attacks around 44% (before defence) dropping to less than 6% (after defence). Additionally, adversarial examples still able to fool the defended system do so at the price of noticeably lower audio quality as shown by a decreased average SNR.
翻訳日:2022-05-25 22:58:24 公開日:2022-05-24
# (参考訳) RetroMAE: Masked Auto-Encoderによる検索指向トランスの事前トレーニング

RetroMAE: Pre-training Retrieval-oriented Transformers via Masked Auto-Encoder ( http://arxiv.org/abs/2205.12035v1 )

ライセンス: CC BY 4.0
Zheng Liu, Yingxia Shao(参考訳) 事前訓練されたモデルは、多くの重要なタスクにおいて優れた能力を示している。 しかし, 集中検索におけるモデルのユーザビリティ向上のために, 効果的な事前学習戦略を設計するという課題はいまだに未解決である。 本稿では,RetroMAE として知られる Masked Auto-Encoder に基づく高密度検索のための新しい事前学習フレームワークを提案する。 提案するフレームワークは以下の重要な設計で強調される。 1) 入力文をエンコーダ側とデコーダ側の両方に異なるマスクで汚染し、原文を埋め込み及びマスク文の両方に基づいて再構成するMAEに基づく事前学習ワークフロー 2) 文符号化用大規模表現変換器及び文再構成用極端に簡略化された非対称モデルアーキテクチャ 3)非対称マスキング比は、エンコーダ側には適度なマスキング(15%)、デコーダ側には攻撃的なマスキング比(50〜90%)を有する。 そこでは、ms marco、open-domain question answering、beirといった多種多様な検索ベンチマークで、既存の事前学習モデルよりも優れています。

Pre-trained models have demonstrated superior power on many important tasks. However, it is still an open problem of designing effective pre-training strategies so as to promote the models' usability on dense retrieval. In this paper, we propose a novel pre-training framework for dense retrieval based on the Masked Auto-Encoder, known as RetroMAE. Our proposed framework is highlighted for the following critical designs: 1) a MAE based pre-training workflow, where the input sentence is polluted on both encoder and decoder side with different masks, and original sentence is reconstructed based on both sentence embedding and masked sentence; 2) asymmetric model architectures, with a large-scale expressive transformer for sentence encoding and a extremely simplified transformer for sentence reconstruction; 3) asymmetric masking ratios, with a moderate masking on the encoder side (15%) and an aggressive masking ratio on the decoder side (50~90%). We pre-train a BERT like encoder on English Wikipedia and BookCorpus, where it notably outperforms the existing pre-trained models on a wide range of dense retrieval benchmarks, like MS MARCO, Open-domain Question Answering, and BEIR.
翻訳日:2022-05-25 22:46:35 公開日:2022-05-24
# (参考訳) HCFRec: 効率的なレコメンデーションのための構造合意付き正規化流れによるハッシュ協調フィルタリング

HCFRec: Hash Collaborative Filtering via Normalized Flow with Structural Consensus for Efficient Recommendation ( http://arxiv.org/abs/2205.12042v1 )

ライセンス: CC BY 4.0
Fan Wang, Weiming Liu, Chaochao Chen, Mengying Zhu, Xiaolin Zheng(参考訳) ユーザストーリーインタラクションのデータスケールの増大は、効果的で効率的なレコメンデーションシステムにとって困難である。 近年,ハッシュベースの協調フィルタリング (Hash-CF) 手法では,学習したユーザやアイテムの2進表現のハミング距離を効率よく利用し,レコメンデーションを加速している。 しかし、Hash-CFは離散表現の最適化と学習表現における意味情報の保存という2つの困難な問題に直面している。 上記の2つの課題に対処するために、効果的かつ効率的なレコメンデーションのための新しいHash-CFアプローチであるHCFRecを提案する。 特に、hcfrecは、提案する近似混合多変量正規分布(連続的だがほぼ離散的分布)を効率的に適合させることで最適なハッシュコードを学習するために、革新的に正規化フローを導入するだけでなく、より正確な推奨のために、意味構造を保存するためにクラスタ一貫性保存機構を展開する。 6つの実世界のデータセットで実施された大規模な実験は、HCFRecの有効性と効率の点で最先端の手法よりも優れていることを示した。

The ever-increasing data scale of user-item interactions makes it challenging for an effective and efficient recommender system. Recently, hash-based collaborative filtering (Hash-CF) approaches employ efficient Hamming distance of learned binary representations of users and items to accelerate recommendations. However, Hash-CF often faces two challenging problems, i.e., optimization on discrete representations and preserving semantic information in learned representations. To address the above two challenges, we propose HCFRec, a novel Hash-CF approach for effective and efficient recommendations. Specifically, HCFRec not only innovatively introduces normalized flow to learn the optimal hash code by efficiently fit a proposed approximate mixture multivariate normal distribution, a continuous but approximately discrete distribution, but also deploys a cluster consistency preserving mechanism to preserve the semantic structure in representations for more accurate recommendations. Extensive experiments conducted on six real-world datasets demonstrate the superiority of our HCFRec compared to the state-of-art methods in terms of effectiveness and efficiency.
翻訳日:2022-05-25 22:32:48 公開日:2022-05-24
# (参考訳) 多クラス不均衡トレーニングのための深層強化学習

Deep Reinforcement Learning for Multi-class Imbalanced Training ( http://arxiv.org/abs/2205.12070v1 )

ライセンス: CC BY 4.0
Jenny Yang, Rasheed El-Bouri, Odhran O'Donoghue, Alexander S. Lachapelle, Andrew A. S. Soltan, David A. Clifton(参考訳) メモリとコンピューティングパワーの急速な成長に伴い、データセットはますます複雑で不均衡になりつつある。 これは臨床データの文脈において特に深刻であり、大多数の患者に1つの稀な出来事がある可能性がある。 強化学習に基づく不均衡分類フレームワークを導入し,高度に不均衡なデータセットをトレーニングし,マルチクラス設定に利用するために拡張する。 デュエルとダブルディープのq-learningアーキテクチャを組み合わせることで,個別の報酬関数とエピソード学習手順,特にマルチクラス不均衡トレーニングの処理能力が向上した。 実世界の臨床ケーススタディを用いて,提案手法が現在の不均衡学習法を上回り,より公平かつバランスの取れた分類を実現するとともに,マイノリティクラスの予測を著しく改善することを示す。

With the rapid growth of memory and computing power, datasets are becoming increasingly complex and imbalanced. This is especially severe in the context of clinical data, where there may be one rare event for many cases in the majority class. We introduce an imbalanced classification framework, based on reinforcement learning, for training extremely imbalanced data sets, and extend it for use in multi-class settings. We combine dueling and double deep Q-learning architectures, and formulate a custom reward function and episode-training procedure, specifically with the added capability of handling multi-class imbalanced training. Using real-world clinical case studies, we demonstrate that our proposed framework outperforms current state-of-the-art imbalanced learning methods, achieving more fair and balanced classification, while also significantly improving the prediction of minority classes.
翻訳日:2022-05-25 22:20:03 公開日:2022-05-24
# (参考訳) 手話における音韻パラメータの分類

Classification of Phonological Parameters in Sign Languages ( http://arxiv.org/abs/2205.12072v1 )

ライセンス: CC BY 4.0
Boris Mocialov, Graham Turner and Helen Hastie(参考訳) 署名者は手形、方位、位置、移動、非操作的特徴といった音韻的パラメータを組み合わせることでコミュニケーションを可能にする手話音素を構成する。 言語学的研究はしばしば手話を研究するために記号を構成要素に分解し、しばしばビデオの注釈に多くの労力が注がれる。 本研究は,手話における個々の音韻パラメータの認識に,言語的アノテーションを支援するか,あるいは手話認識モデルの記号を記述するために,単一モデルをどのように利用するかを示す。 デンマーク手話データセット ‘ordbog over dansk tegnsprog' を用いてポーズ推定モデルを用いて複数のデータセットを生成し,マルチラベル高速r-cnnモデルをトレーニングしてマルチラベルモデリングをサポートする。 さらに,生成したデータには方向と位置音韻パラメータの間に有意な共依存性があることを示し,この共依存をモデルに組み込むことにより,よりよい性能を実現する。

Signers compose sign language phonemes that enable communication by combining phonological parameters such as handshape, orientation, location, movement, and non-manual features. Linguistic research often breaks down signs into their constituent parts to study sign languages and often a lot of effort is invested into the annotation of the videos. In this work we show how a single model can be used to recognise the individual phonological parameters within sign languages with the aim of either to assist linguistic annotations or to describe the signs for the sign recognition models. We use Danish Sign Language data set `Ordbog over Dansk Tegnsprog' to generate multiple data sets using pose estimation model, which are then used for training the multi-label Fast R-CNN model to support multi-label modelling. Moreover, we show that there is a significant co-dependence between the orientation and location phonological parameters in the generated data and we incorporate this co-dependence in the model to achieve better performance.
翻訳日:2022-05-25 21:57:51 公開日:2022-05-24
# (参考訳) エンサンブルマルチリレーショナルグラフニューラルネットワーク

Ensemble Multi-Relational Graph Neural Networks ( http://arxiv.org/abs/2205.12076v1 )

ライセンス: CC BY 4.0
Yuling Wang, Hao Xu, Yanhua Yu, Mengdi Zhang, Zhenhao Li, Yuji Yang and Wei Wu(参考訳) グラフニューラルネットワーク(GNN)は、最適化目標の観点から解釈および設計できることがよく確立されている。 この明確な最適化目標により、推定されたGNNのアーキテクチャは理論的な基礎を持ち、GNNの弱点を柔軟に修復することができる。 しかし、この最適化の目的はシングルリレーショナルグラフを持つGNNに対してのみ証明される。 この最適化目標を拡張して,従来のマルチリレーショナルGNN,例えばオーバーパラメータ化の問題を同時に解決するために,新たなタイプのGNNを推定できるだろうか? 本稿では,アンサンブルマルチリレーショナル(EMR)最適化の目的を設計し,新しいアンサンブルマルチリレーショナルGNNを提案する。 このEMR最適化の目的は反復的な更新ルールを導出し、マルチリレーションを持つアンサンブルメッセージパッシング(EnMP)層として形式化することができる。 マルチリレーショナルパーソナライズされたPageRankとの関係など,EnMP層の優れた特性をさらに分析する。 最後に,オーバースムーシング問題やオーバーパラメータ問題を十分に緩和する,新しいマルチリレーショナルgnnを提案する。 4つのベンチマークデータセットで行った広範囲な実験は、提案モデルの有効性をよく示している。

It is well established that graph neural networks (GNNs) can be interpreted and designed from the perspective of optimization objective. With this clear optimization objective, the deduced GNNs architecture has sound theoretical foundation, which is able to flexibly remedy the weakness of GNNs. However, this optimization objective is only proved for GNNs with single-relational graph. Can we infer a new type of GNNs for multi-relational graphs by extending this optimization objective, so as to simultaneously solve the issues in previous multi-relational GNNs, e.g., over-parameterization? In this paper, we propose a novel ensemble multi-relational GNNs by designing an ensemble multi-relational (EMR) optimization objective. This EMR optimization objective is able to derive an iterative updating rule, which can be formalized as an ensemble message passing (EnMP) layer with multi-relations. We further analyze the nice properties of EnMP layer, e.g., the relationship with multi-relational personalized PageRank. Finally, a new multi-relational GNNs which well alleviate the over-smoothing and over-parameterization issues are proposed. Extensive experiments conducted on four benchmark datasets well demonstrate the effectiveness of the proposed model.
翻訳日:2022-05-25 21:33:08 公開日:2022-05-24
# (参考訳) GraphQ IR: 中間表現によるグラフクエリ言語のセマンティックパーシングの統合

GraphQ IR: Unifying Semantic Parsing of Graph Query Language with Intermediate Representation ( http://arxiv.org/abs/2205.12078v1 )

ライセンス: CC BY-SA 4.0
Lunyiu Nie, Shulin Cao, Jiaxin Shi, Qi Tian, Lei Hou, Juanzi Li, Jidong Zhai(参考訳) 自然言語と形式言語のセマンティック・ギャップにより、ニューラル・セマンティック・パーシングは、典型的にはデータのあいまいさと不均衡によってボトルネックとなる。 本稿では,グラフクエリ言語,すなわちGraphQ IRのための統合中間表現(IR)を提案する。 セマンティックギャップをブリッジするIRの自然言語のような表現と、グラフ構造を維持するための正式に定義された構文によって、ニューラルセマンティックパーザは、ユーザクエリをより効果的にGraphQ IRに変換し、その後、異なるダウンストリームグラフクエリ言語に自動的にコンパイルすることができる。 大規模な実験により,ベンチマークKQA Pro,Overnight,MetaQAの最先端性能を継続的に達成できることがわかった。 合成一般化と少数ショット学習設定による評価は、GraphQ IRの有望な一般化能力を11%の精度で検証する。

Subject to the semantic gap lying between natural and formal language, neural semantic parsing is typically bottlenecked by the paucity and imbalance of data. In this paper, we propose a unified intermediate representation (IR) for graph query languages, namely GraphQ IR. With the IR's natural-language-like representation that bridges the semantic gap and its formally defined syntax that maintains the graph structure, neural semantic parser can more effectively convert user queries into our GraphQ IR, which can be later automatically compiled into different downstream graph query languages. Extensive experiments show that our approach can consistently achieve state-of-the-art performance on benchmarks KQA Pro, Overnight and MetaQA. Evaluations under compositional generalization and few-shot learning settings also validate the promising generalization ability of GraphQ IR with at most 11% accuracy improvement.
翻訳日:2022-05-25 21:19:13 公開日:2022-05-24
# (参考訳) 視覚的グラウンドの同時移動による人手によるあいまいさ解消

Sim-To-Real Transfer of Visual Grounding for Human-Aided Ambiguity Resolution ( http://arxiv.org/abs/2205.12089v1 )

ライセンス: CC BY 4.0
Georgios Tziafas, Hamidreza Kasaei(参考訳) サービスロボットは、様々なタスクで彼らを助けるだけでなく、指示に現れる曖昧さを解決するためのガイダンスを受けるために、非熟練の人間ユーザーと自然に対話できるべきである。 エージェントが自然言語記述を与えられた混み合ったシーンからオブジェクトをセグメンテーションするビジュアルグラウンドングのタスクについて検討する。 視覚的接地に対する現代の全体論的アプローチは、言語構造を無視し、ジェネリックドメインをカバーするのに苦労する。 さらに、RGB-Dデータセットでの転送性能は、ベンチマークとターゲットドメインの視覚的差が大きいために低下する。 モジュール的アプローチは、学習とドメインモデリングを結合し、言語の構成的性質を利用して、言語解析から視覚表現を分離するが、強い監督の欠如により、外部のパーサーに依存するか、エンドツーエンドで訓練される。 本研究では, 実体, 属性, 空間的関係の合成的基盤化のための, 完全に分離されたモジュラー・フレームワークを導入することにより, これらの制約に対処する。 我々は、合成ドメインで生成されたリッチなシーングラフアノテーションを活用し、各モジュールを個別にトレーニングする。 本手法はシミュレーションと2つの実RGB-Dシーンデータセットで評価される。 実験結果から,本フレームワークの疎結合性は,データ効率,ロバスト,解釈可能なロボットアプリケーションの視覚的グラウンド化ソリューションを提供することにより,シム・トゥ・リアル視覚認識のためのドメイン適応アプローチと容易に統合できることが示唆された。

Service robots should be able to interact naturally with non-expert human users, not only to help them in various tasks but also to receive guidance in order to resolve ambiguities that might be present in the instruction. We consider the task of visual grounding, where the agent segments an object from a crowded scene given a natural language description. Modern holistic approaches to visual grounding usually ignore language structure and struggle to cover generic domains, therefore relying heavily on large datasets. Additionally, their transfer performance in RGB-D datasets suffers due to high visual discrepancy between the benchmark and the target domains. Modular approaches marry learning with domain modeling and exploit the compositional nature of language to decouple visual representation from language parsing, but either rely on external parsers or are trained in an end-to-end fashion due to the lack of strong supervision. In this work, we seek to tackle these limitations by introducing a fully decoupled modular framework for compositional visual grounding of entities, attributes, and spatial relations. We exploit rich scene graph annotations generated in a synthetic domain and train each module independently. Our approach is evaluated both in simulation and in two real RGB-D scene datasets. Experimental results show that the decoupled nature of our framework allows for easy integration with domain adaptation approaches for Sim-To-Real visual recognition, offering a data-efficient, robust, and interpretable solution to visual grounding in robotic applications.
翻訳日:2022-05-25 20:58:39 公開日:2022-05-24
# (参考訳) メンタルヘルスのための機械学習モデルにおけるバイアス発見

Bias Discovery in Machine Learning Models for Mental Health ( http://arxiv.org/abs/2205.12093v1 )

ライセンス: CC BY 4.0
Pablo Mosteiro and Jesse Kuiper and Judith Masthoff and Floortje Scheepers and Marco Spruit(参考訳) 公平性とバイアスは人工知能において重要な概念であるが、臨床精神医学における機械学習の応用においては比較的無視されている。 臨床精神保健データに基づくモデルを用いて公平度指標を算出し,バイアス緩和戦略を提案する。 ユトレヒト大学医学部精神科における入院,診断,治療に関する構造化データを収集した。 我々は過去のデータに基づいてベンゾジアゼピンの将来の投与を予測するために機械学習モデルを訓練した。 性別が予測に予期せぬ役割を担っていることがわかりました。 AI Fairness 360パッケージを用いて、バイアス軽減戦略として、リウィーディングと差別意識の正則化を実装し、モデル性能への影響について検討した。 これは、実際の臨床精神医学データに基づいてトレーニングされた機械学習モデルにおけるバイアス探索と緩和の最初の応用である。

Fairness and bias are crucial concepts in artificial intelligence, yet they are relatively ignored in machine learning applications in clinical psychiatry. We computed fairness metrics and present bias mitigation strategies using a model trained on clinical mental health data. We collected structured data related to the admission, diagnosis, and treatment of patients in the psychiatry department of the University Medical Center Utrecht. We trained a machine learning model to predict future administrations of benzodiazepines on the basis of past data. We found that gender plays an unexpected role in the predictions-this constitutes bias. Using the AI Fairness 360 package, we implemented reweighing and discrimination-aware regularization as bias mitigation strategies, and we explored their implications for model performance. This is the first application of bias exploration and mitigation in a machine learning model trained on real clinical psychiatry data.
翻訳日:2022-05-25 20:33:45 公開日:2022-05-24
# (参考訳) HiVLP: 高速画像テキスト検索のための階層型ビジョンランゲージ事前トレーニング

HiVLP: Hierarchical Vision-Language Pre-Training for Fast Image-Text Retrieval ( http://arxiv.org/abs/2205.12105v1 )

ライセンス: CC BY 4.0
Feilong Chen and Xiuyi Chen and Jiaxin Shi and Duzhen Zhang and Jianlong Chang and Qi Tian(参考訳) 近年,視覚言語事前学習(VLP)が出現し,新たな時代を迎えている。 しかし、レイテンシと計算要求のため、リアルタイムオンライン検索システムにVLPを適用することは一般的に困難である。 この欠陥を緩和するため,本稿では高速画像テキスト検索のための \textbf{hi}erarchical \textbf{v}ision-\textbf{}language \textbf{p}re-training (\textbf{hivlp})を提案する。 具体的には, 粗大から細かなitrに対して異なる次元の表現, 粗大検索に低次元表現, 小型検索に高次元表現を用いる新しい階層的検索対象をデザインする。 提案したHiVLPを,Flickr30kとCOCOの2つの画像テキスト検索ベンチマークで評価した。 大規模な実験により、我々のHiVLPは高速な推論速度を持つだけでなく、大規模ITRシナリオにも容易に拡張可能であることが示された。 詳細な結果は、HiVLPが融合ベースのモデルであるUNITERよりも1,427$\sim$120,649\times$が速く、異なる候補シナリオにおける最も高速な埋め込みベースのモデルであるLightingDotよりも2$\sim$5速いことを示している。 また、COCO上の+4.9 ARと、Flickr30K上の+3.8 ARをLightingDotよりも達成し、最先端(SOTA)融合モデルMETERと同等のパフォーマンスを達成する。

In the past few years, the emergence of vision-language pre-training (VLP) has brought cross-modal retrieval to a new era. However, due to the latency and computation demand, it is commonly challenging to apply VLP in a real-time online retrieval system. To alleviate the defect, this paper proposes a \textbf{Hi}erarchical \textbf{V}ision-\textbf{}Language \textbf{P}re-Training (\textbf{HiVLP}) for fast Image-Text Retrieval (ITR). Specifically, we design a novel hierarchical retrieval objective, which uses the representation of different dimensions for coarse-to-fine ITR, i.e., using low-dimensional representation for large-scale coarse retrieval and high-dimensional representation for small-scale fine retrieval. We evaluate our proposed HiVLP on two popular image-text retrieval benchmarks, i.e., Flickr30k and COCO. Extensive experiments demonstrate that our HiVLP not only has fast inference speed but also can be easily scaled to large-scale ITR scenarios. The detailed results show that HiVLP is $1,427$$\sim$$120,649\times$ faster than the fusion-based model UNITER and 2$\sim$5 faster than the fastest embedding-based model LightingDot in different candidate scenarios. It also achieves about +4.9 AR on COCO and +3.8 AR on Flickr30K than LightingDot and achieves comparable performance with the state-of-the-art (SOTA) fusion-based model METER.
翻訳日:2022-05-25 20:19:23 公開日:2022-05-24
# (参考訳) 高次元データに対するフェデレーション特異値分解

Federated singular value decomposition for high dimensional data ( http://arxiv.org/abs/2205.12109v1 )

ライセンス: CC BY 4.0
Anne Hartebrodt, Richard R\"ottger and David B. Blumenthal(参考訳) Federated Learning(FL)は、古典的なクラウドベースの機械学習に代わるプライバシ意識を持つものとして登場しつつある。 flでは、センシティブなデータはデータサイロに残され、集約されたパラメータのみが交換される。 データを共有しない病院や研究機関は、機密性に違反することなく連合研究に参加することができる。 生物医学データの過度な感度に加えて、高次元性は、連合ゲノムワイド・アソシエーション研究(GWAS)の文脈において課題となる。 本稿では,gwasのプライバシ関連および計算要件に適したフェデレーション特異値分解(svd)アルゴリズムを提案する。 特に、このアルゴリズムは、サンプル数に依存しない伝送コストを有しており、サンプルに関連する特異ベクトルは交換されず、特徴に付随するベクトルは一定数の反復でのみ交換されるため、特徴数に弱くのみ依存する。 gwasに動機づけられているが、アルゴリズムは水平分割データと垂直分割データの両方に適用できる。

Federated learning (FL) is emerging as a privacy-aware alternative to classical cloud-based machine learning. In FL, the sensitive data remains in data silos and only aggregated parameters are exchanged. Hospitals and research institutions which are not willing to share their data can join a federated study without breaching confidentiality. In addition to the extreme sensitivity of biomedical data, the high dimensionality poses a challenge in the context of federated genome-wide association studies (GWAS). In this article, we present a federated singular value decomposition (SVD) algorithm, suitable for the privacy-related and computational requirements of GWAS. Notably, the algorithm has a transmission cost independent of the number of samples and is only weakly dependent on the number of features, because the singular vectors associated with the samples are never exchanged and the vectors associated with the features only for a fixed number of iterations. Although motivated by GWAS, the algorithm is generically applicable for both horizontally and vertically partitioned data.
翻訳日:2022-05-25 20:18:18 公開日:2022-05-24
# (参考訳) 奇妙な制御のケースは

The Curious Case of Control ( http://arxiv.org/abs/2205.12113v1 )

ライセンス: CC BY 4.0
Elias Stengel-Eskin and Benjamin Van Durme(参考訳) 英語を習得した子どもたちは、近親相姦能力(C. Chomsky, 1969)に到達した後でも、主題制御文の体系的な誤りを犯す(Maratsos, 1974)。 大規模生成型言語モデルの高度な流束を考えると、モデル出力はこれらのヒューリスティックと一貫性があるのか、そしてどの程度異なるモデルが相互に一貫性があるのかを問う。 モデルは行動によって3つの別々のグループに分類できるが、グループ間では幅広い差異がある。 最大群におけるモデルの出力は、対象制御では成功するが対象制御では失敗する位置ヒューリスティックと一致している。 このようなモデルのトレーニングに使用されるテキストデータでは、オブジェクトの制御が桁違いに頻繁に行われることを考えると、この結果は驚きです。 エージェントと患者の関係性を高めることが,ほとんどのモデルのアウトプットに大きな変化をもたらすことを見出し,モデルがエージェントと患者の情報を促すのにどの程度敏感であるかを調査した。 この観察に基づいて,既存のセマンティクス・プロトロール・アノテーション(white, et al. 2020)のデータセットを利用して,エージェントや患者に典型的に関連づけられる特性を持ったコントロールとイベント参加者のラベル付けの関連を探索する。

Children acquiring English make systematic errors on subject control sentences even after they have reached near-adult competence (C. Chomsky, 1969), possibly due to heuristics based on semantic roles (Maratsos, 1974). Given the advanced fluency of large generative language models, we ask whether model outputs are consistent with these heuristics, and to what degree different models are consistent with each other. We find that models can be categorized by behavior into three separate groups, with broad differences between the groups. The outputs of models in the largest group are consistent with positional heuristics that succeed on subject control but fail on object control. This result is surprising, given that object control is orders of magnitude more frequent in the text data used to train such models. We examine to what degree the models are sensitive to prompting with agent-patient information, finding that raising the salience of agent and patient relations results in significant changes in the outputs of most models. Based on this observation, we leverage an existing dataset of semantic proto-role annotations (White, et al. 2020) to explore the connections between control and labeling event participants with properties typically associated with agents and patients.
翻訳日:2022-05-25 20:17:20 公開日:2022-05-24
# (参考訳) スパース模倣強化学習を用いたドライブ学習

Learning to Drive Using Sparse Imitation Reinforcement Learning ( http://arxiv.org/abs/2205.12128v1 )

ライセンス: CC0 1.0
Yuci Han, Alper Yilmaz(参考訳) 本稿では,SIRL(Sparse Imitation Reinforcement Learning)を提案する。これは,Sparse Expert driving knowledgeと,CARLAシミュレーション環境における自律運転(AD)タスクのための強化学習(RL)ポリシを組み合わせた,ハイブリッドエンドツーエンド制御ポリシである。 スパース専門家は,歩行者や車両の回避,交通信号の検出といった重要なシナリオに対して,経験を積むことでリスク回避戦略を提供する。 実証されたように、RLエージェントをスクラッチから訓練することはデータ非効率であり、特に都市部での運転作業には時間を要する。 我々のSIRL戦略は、スパースエキスパートポリシーとRLポリシーの出力分布を融合させて複合運転ポリシーを生成することで、これらの問題を解決するソリューションを提供する。 初期の訓練段階におけるスパース専門家の指導により、SIRL戦略はトレーニングプロセスを加速し、RL探索が破滅的な結果を引き起こすのを防ぎ、安全な探査を確実にする。 ある程度は、SIRLエージェントは運転専門家の行動を模倣している。 同時に、トレーニング中の知識を継続的に獲得し、スパースの専門家を超えて改善を続け、スパース専門家と従来のRLエージェントの両方を上回ることができる。 CARLAシミュレータ内の複雑な都市シナリオにおけるSIRL手法の有効性を実験的に検証した。 さらに,リスク逆探索と学習効率向上のためのSIRLエージェントの性能を従来のRL手法と比較した。 さらに、SIRLエージェントが運転スキルを目に見えない環境に伝達する一般化能力を実証する。

In this paper, we propose Sparse Imitation Reinforcement Learning (SIRL), a hybrid end-to-end control policy that combines the sparse expert driving knowledge with reinforcement learning (RL) policy for autonomous driving (AD) task in CARLA simulation environment. The sparse expert is designed based on hand-crafted rules which is suboptimal but provides a risk-averse strategy by enforcing experience for critical scenarios such as pedestrian and vehicle avoidance, and traffic light detection. As it has been demonstrated, training a RL agent from scratch is data-inefficient and time consuming particularly for the urban driving task, due to the complexity of situations stemming from the vast size of state space. Our SIRL strategy provides a solution to solve these problems by fusing the output distribution of the sparse expert policy and the RL policy to generate a composite driving policy. With the guidance of the sparse expert during the early training stage, SIRL strategy accelerates the training process and keeps the RL exploration from causing a catastrophe outcome, and ensures safe exploration. To some extent, the SIRL agent is imitating the driving expert's behavior. At the same time, it continuously gains knowledge during training therefore it keeps making improvement beyond the sparse expert, and can surpass both the sparse expert and a traditional RL agent. We experimentally validate the efficacy of proposed SIRL approach in a complex urban scenario within the CARLA simulator. Besides, we compare the SIRL agent's performance for risk-averse exploration and high learning efficiency with the traditional RL approach. We additionally demonstrate the SIRL agent's generalization ability to transfer the driving skill to unseen environment.
翻訳日:2022-05-25 19:59:05 公開日:2022-05-24
# (参考訳) 信頼できる基準データがない場合のセンチネル1データからの森林破壊の検出

Detecting Deforestation from Sentinel-1 Data in the Absence of Reliable Reference Data ( http://arxiv.org/abs/2205.12131v1 )

ライセンス: CC BY 4.0
Johannes N. Hansen, Edward T.A. Mitchard, Stuart King(参考訳) 森林は我々の惑星の幸福に不可欠である。 世界中の大規模で小規模の森林伐採は、気候の安定性、森林の生物多様性を脅かしている。 気候変動問題や森林保全に対する大衆の関心が高まり、炭素のオフセット、炭素フットプリントの評価、環境影響評価に対する大きな需要が高まっている。 ほとんどの場合、森林破壊マップはランドサットやMODISのような光学データから作成される。 これらの地図は、世界の多くの地域、特に世界の森林バイオマスのほとんどが集中している熱帯地域において、雲に覆われているため、年間間隔以下では入手できない。 SAR(Synthetic Aperture Radar)はこのギャップを埋め、雲を貫通する。 本稿では,信頼度の高い基準データがない場合の森林破壊検出のための新しい手法を提案し,評価する。 この方法は、調査領域で96.5%の変化検出感度(生産者の精度)を達成するが、偽陽性はユーザーの精度を約75.7%低下させ、総バランス精度は90.4%となる。 基準ラベルに最大20%のノイズを付加すると、変更検出精度が維持される。 さらに, 偽陽性率の低減, 検出遅延の改善, さらなる状況下での検証が求められる一方で, センチネル-1のデータは, 地球規模の森林破壊モニタリングのタイムラインを前進させる可能性が示唆された。

Forests are vital for the wellbeing of our planet. Large and small scale deforestation across the globe is threatening the stability of our climate, forest biodiversity, and therefore the preservation of fragile ecosystems and our natural habitat as a whole. With increasing public interest in climate change issues and forest preservation, a large demand for carbon offsetting, carbon footprint ratings, and environmental impact assessments is emerging. Most often, deforestation maps are created from optical data such as Landsat and MODIS. These maps are not typically available at less than annual intervals due to persistent cloud cover in many parts of the world, especially the tropics where most of the world's forest biomass is concentrated. Synthetic Aperture Radar (SAR) can fill this gap as it penetrates clouds. We propose and evaluate a novel method for deforestation detection in the absence of reliable reference data which often constitutes the largest practical hurdle. This method achieves a change detection sensitivity (producer's accuracy) of 96.5% in the study area, although false positives lead to a lower user's accuracy of about 75.7%, with a total balanced accuracy of 90.4%. The change detection accuracy is maintained when adding up to 20% noise to the reference labels. While further work is required to reduce the false positive rate, improve detection delay, and validate this method in additional circumstances, the results show that Sentinel-1 data have the potential to advance the timeliness of global deforestation monitoring.
翻訳日:2022-05-25 19:46:47 公開日:2022-05-24
# (参考訳) Hyper-X:マルチタスク多言語転送のための統一ハイパーネットワーク

Hyper-X: A Unified Hypernetwork for Multi-Task Multilingual Transfer ( http://arxiv.org/abs/2205.12148v1 )

ライセンス: CC BY 4.0
Ahmet \"Ust\"un, Arianna Bisazza, Gosse Bouma, Gertjan van Noord, Sebastian Ruder(参考訳) 大規模多言語モデルでは,タスクや言語間での学習の転送が期待できる。 しかし、既存の手法では、異なるタスク言語の組み合わせで利用できる場合、トレーニングデータを完全に活用できない。 このような不均一な監視を活用するために,タスクと言語埋め込みの両方で条件付きパラメータ効率の高いアダプタモジュールの重みを生成するハイパーネットワークHyper-Xを提案する。 タスクと言語固有の知識を組み合わせることで、我々のモデルは目に見えない言語とタスク言語の組み合わせのゼロショット転送を可能にします。 多様な言語に対する我々の実験は、Hyper-Xが標準シナリオの強いベースラインと同等の性能を保ちながら、複数のリソースが混在している場合、最高のゲインを達成することを示した。 最後に、hyper-xはゼロショット転送以上のアプローチの有効性を示す新しい言語やタスクの数少ないシナリオにおいて一貫して強力な結果をもたらします。

Massively multilingual models are promising for transfer learning across tasks and languages. However, existing methods are unable to fully leverage training data when it is available in different task-language combinations. To exploit such heterogeneous supervision we propose Hyper-X, a unified hypernetwork that generates weights for parameter-efficient adapter modules conditioned on both tasks and language embeddings. By learning to combine task and language-specific knowledge our model enables zero-shot transfer for unseen languages and task-language combinations. Our experiments on a diverse set of languages demonstrate that Hyper-X achieves the best gain when a mixture of multiple resources is available while performing on par with strong baselines in the standard scenario. Finally, Hyper-X consistently produces strong results in few-shot scenarios for new languages and tasks showing the effectiveness of our approach beyond zero-shot transfer.
翻訳日:2022-05-25 19:30:35 公開日:2022-05-24
# (参考訳) 気胸の診断にドメイン知識を使用するモデルをどのように設計するか

Do it Like the Doctor: How We Can Design a Model That Uses Domain Knowledge to Diagnose Pneumothorax ( http://arxiv.org/abs/2205.12159v1 )

ライセンス: CC BY 4.0
Glen Smith, Qiao Zhang, Christopher MacLellan(参考訳) 医用画像診断のためのコンピュータ支援診断は、医師にリアルタイム意思決定支援システムを提供することを目的とした、よく研究された分野である。 これらのシステムは、超音波、X線、MRI、CTなど、さまざまな画像診断技術を用いて、多くの医療状況を検出し、診断しようとする。 これらのシステムのためにaiモデルを設計する場合、トレーニングデータが少なく、まれな医療状況では、ポジティブな例を得るのは難しい。 これらの問題はしばしばモデルの性能を悪くするので、これらの制限を考慮してAIモデルを設計する方法が必要でした。 このように、私たちのアプローチは、専門家のドメイン知識をAIモデルの設計に組み込むことでした。 肺超音波診断の解釈を訓練した医師らによる2つの質的研究を行い, 肺気胸の関連領域の知識を抽出した。 診断に使用される重要な特徴と手順の知識を抽出した。 この知識を用いて, 気胸の診断にaiモデル設計を推奨するために, 知識工学的概念を用いた。

Computer-aided diagnosis for medical imaging is a well-studied field that aims to provide real-time decision support systems for physicians. These systems attempt to detect and diagnose a plethora of medical conditions across a variety of image diagnostic technologies including ultrasound, x-ray, MRI, and CT. When designing AI models for these systems, we are often limited by little training data, and for rare medical conditions, positive examples are difficult to obtain. These issues often cause models to perform poorly, so we needed a way to design an AI model in light of these limitations. Thus, our approach was to incorporate expert domain knowledge into the design of an AI model. We conducted two qualitative think-aloud studies with doctors trained in the interpretation of lung ultrasound diagnosis to extract relevant domain knowledge for the condition Pneumothorax. We extracted knowledge of key features and procedures used to make a diagnosis. With this knowledge, we employed knowledge engineering concepts to make recommendations for an AI model design to automatically diagnose Pneumothorax.
翻訳日:2022-05-25 19:08:54 公開日:2022-05-24
# (参考訳) 意味的類似度評価レンズによる意味指向的nlg計量評価のための動的・解釈的チェックリスト

A Dynamic, Interpreted CheckList for Meaning-oriented NLG Metric Evaluation -- through the Lens of Semantic Similarity Rating ( http://arxiv.org/abs/2205.12176v1 )

ライセンス: CC BY 4.0
Laura Zeidler, Juri Opitz and Anette Frank(参考訳) 従来のnlg評価指標は、意味よりも表面形態に焦点を当てており、しばしば適切なスコアを割り当てることができないため、生成テキストの品質評価は困難である。 AMRの抽象的な性質を考えると、これはAMRからテキストへの評価において特に問題となる。 本研究は,意味に焦点をあてたNLG評価指標の開発と改善を支援することを目的として,意味関連言語現象を中心に整理されたNLG評価指標の動的チェックリストを開発した。 各テストインスタンスは、AMRグラフを持つ一対の文と、人間が生成したテキストの意味的類似性または関連性スコアからなる。 私たちのCheckListはメトリクスの比較評価を促進し、新しいメトリクスと伝統的なメトリクスの長所と短所を明らかにします。 amr概念上の語彙結合グラフを計算する新しいメトリックグラコを設計することで、チェックリストの有用性を実証する。 分析の結果,GraCoは今後の調査に値する興味深いNLG指標を示し,意味指向のNLG指標はAMRを用いてグラフベースのメトリックコンポーネントから利益を得ることができることが示唆された。

Evaluating the quality of generated text is difficult, since traditional NLG evaluation metrics, focusing more on surface form than meaning, often fail to assign appropriate scores. This is especially problematic for AMR-to-text evaluation, given the abstract nature of AMR. Our work aims to support the development and improvement of NLG evaluation metrics that focus on meaning, by developing a dynamic CheckList for NLG metrics that is interpreted by being organized around meaning-relevant linguistic phenomena. Each test instance consists of a pair of sentences with their AMR graphs and a human-produced textual semantic similarity or relatedness score. Our CheckList facilitates comparative evaluation of metrics and reveals strengths and weaknesses of novel and traditional metrics. We demonstrate the usefulness of CheckList by designing a new metric GraCo that computes lexical cohesion graphs over AMR concepts. Our analysis suggests that GraCo presents an interesting NLG metric worth future investigation and that meaning-oriented NLG metrics can profit from graph-based metric components using AMR.
翻訳日:2022-05-25 18:55:25 公開日:2022-05-24
# (参考訳) メルケル・ポッドキャスト「Merkel Podcast Corpus」 - アンジェラ・メルケル監督の週刊ビデオポッドキャスト16年分のマルチモーダル・データセット

Merkel Podcast Corpus: A Multimodal Dataset Compiled from 16 Years of Angela Merkel's Weekly Video Podcasts ( http://arxiv.org/abs/2205.12194v1 )

ライセンス: CC BY 4.0
Debjoy Saha, Shravan Nayak, Timo Baumann(参考訳) ドイツのアンゲラ・メルケル元首相の週16年間(ほぼ)のインターネットポッドキャストから収集されたドイツ語の音声・視覚テキストコーパスであるmerkel podcast corpusを紹介する。 私たちの知る限りでは、これはドイツ語における最初の単一の話者コーパスであり、大きさと時間的範囲のオーディオ、ビジュアル、テキストのモダリティからなる。 本稿では,ビデオ,文字起こし,メタデータのダウンロード,強制アライメント,アクティブな話者認識,顔検出などを含むデータを収集・編集し,アンジェラ・メルケルの発声による単一話者データセットを最終的にキュレートする方法について述べる。 提案したパイプラインは汎用的であり、トークショーの内容など、同様の性質のデータセットをキュレートするために使用できる。 発話顔生成とTSにおけるデータセットの様々な統計的分析と応用を通して、データセットの有用性を示す。 特に,準備音声と自発音声の境界線における現実的で挑戦的な資料であるため,研究コミュニティにとって有意義な貢献である。

We introduce the Merkel Podcast Corpus, an audio-visual-text corpus in German collected from 16 years of (almost) weekly Internet podcasts of former German chancellor Angela Merkel. To the best of our knowledge, this is the first single speaker corpus in the German language consisting of audio, visual and text modalities of comparable size and temporal extent. We describe the methods used with which we have collected and edited the data which involves downloading the videos, transcripts and other metadata, forced alignment, performing active speaker recognition and face detection to finally curate the single speaker dataset consisting of utterances spoken by Angela Merkel. The proposed pipeline is general and can be used to curate other datasets of similar nature, such as talk show contents. Through various statistical analyses and applications of the dataset in talking face generation and TTS, we show the utility of the dataset. We argue that it is a valuable contribution to the research community, in particular, due to its realistic and challenging material at the boundary between prepared and spontaneous speech.
翻訳日:2022-05-25 18:34:18 公開日:2022-05-24
# (参考訳) 宇宙探査のための絶対三角法アルゴリズム

Absolute Triangulation Algorithms for Space Exploration ( http://arxiv.org/abs/2205.12197v1 )

ライセンス: CC BY 4.0
Sebastien Henry and John A. Christian(参考訳) 画像は、宇宙船の航行と観測された宇宙物体の3次元再構成のための重要な情報源である。 これら2つの応用は、カメラが既知の姿勢を持ち、画像から抽出された測定値が視線方向(ロス方向)である場合、三角測量問題(triangulation problem)の形式を取る。 この研究は三角測量の歴史と理論的基礎の包括的なレビューを提供する。 様々な古典的三角法アルゴリズムを概説し、いくつかの準最適線形法(多くのLOS測定)とハートレーとストゥルムの最適法(2つのLOS測定のみ)を含む。 ハートレーやストゥルムと同じ解を提供する2つの新しい最適非定性三角法アルゴリズムが導入された。 最適二測度ケースは、多くの一般的な状況において二次方程式として解ける。 新しい線形正弦三角法 (LOST) 法を用いて, 線形システムの繰り返しを伴わずに最適多値化を解くことができる。 様々な三角測量アルゴリズムは、惑星の相対航法、天王星での角度のみの光学航法、ノートルダム・ド・パリの3次元再構成、角度のみの相対航法などいくつかの数値例で評価されている。

Images are an important source of information for spacecraft navigation and for three-dimensional reconstruction of observed space objects. Both of these applications take the form of a triangulation problem when the camera has a known attitude and the measurements extracted from the image are line of sight (LOS) directions. This work provides a comprehensive review of the history and theoretical foundations of triangulation. A variety of classical triangulation algorithms are reviewed, including a number of suboptimal linear methods (many LOS measurements) and the optimal method of Hartley and Sturm (only two LOS measurements). Two new optimal non-iterative triangulation algorithms are introduced that provide the same solution as Hartley and Sturm. The optimal two-measurement case can be solved as a quadratic equation in many common situations. The optimal many-measurement case may be solved without iteration as a linear system using the new Linear Optimal Sine Triangulation (LOST) method. The various triangulation algorithms are assessed with a few numerical examples, including planetary terrain relative navigation, angles-only optical navigation at Uranus, 3-D reconstruction of Notre-Dame de Paris, and angles-only relative navigation.
翻訳日:2022-05-25 18:25:57 公開日:2022-05-24
# (参考訳) 変換に基づくテンソル自己回帰による多重線形データ予測

Forecasting Multilinear Data via Transform-Based Tensor Autoregression ( http://arxiv.org/abs/2205.12201v1 )

ライセンス: CC BY 4.0
Jackson Cates, Randy C. Hoover, Kyle Caudle, Cagri Ozdemir, Karen Braman, David Machette(参考訳) ビッグデータの時代には,2次元データの解析と予測のための新たな方法の需要が高まっている。 本研究は,時系列モデリングと多線形代数システムを組み合わせて,これらの目標を達成することを目的としている。 従来の自己回帰手法を拡張し,L-Transform Tensor Autoregressive (L-TAR,略してL-Transform Tensor Autoregressive) と命名した。 テンソル分解と多線形テンソル積は、このアプローチを予測可能な方法として許容している。 我々は、可逆離散線型変換により観測列間の統計的独立性を達成し、分割と征服のアプローチを可能にする。 本稿では,画像収集,映像シーケンス,海面温度測定,株価,ネットワークを含むデータセットにおける提案手法の実験的検証を行う。

In the era of big data, there is an increasing demand for new methods for analyzing and forecasting 2-dimensional data. The current research aims to accomplish these goals through the combination of time-series modeling and multilinear algebraic systems. We expand previous autoregressive techniques to forecast multilinear data, aptly named the L-Transform Tensor autoregressive (L-TAR for short). Tensor decompositions and multilinear tensor products have allowed for this approach to be a feasible method of forecasting. We achieve statistical independence between the columns of the observations through invertible discrete linear transforms, enabling a divide and conquer approach. We present an experimental validation of the proposed methods on datasets containing image collections, video sequences, sea surface temperature measurements, stock prices, and networks.
翻訳日:2022-05-25 18:24:29 公開日:2022-05-24
# (参考訳) PoeLM: 教師なし詩生成のための韻律・韻律制御可能な言語モデル

PoeLM: A Meter- and Rhyme-Controllable Language Model for Unsupervised Poetry Generation ( http://arxiv.org/abs/2205.12206v1 )

ライセンス: CC BY 4.0
Aitor Ormazabal, Mikel Artetxe, Manex Agirrezabal, Aitor Soroa and Eneko Agirre(参考訳) 形式詩は詩の韻律や韻律に厳格な制約を課している。 この種の詩を制作するほとんどの先行研究は、既存の詩を監督に用いているが、ほとんどの言語や詩体では入手が困難である。 本研究では,任意の韻律や韻律に従えば,訓練に詩文を必要とせず,教師なしの詩を生成できる手法を提案する。 提案手法は,正規の非詩語コーパスをフレーズに分割し,各フレーズの長さと韻律を記述する事前制御コードを作成し,拡張コーパス内でトランスフォーマー言語モデルを訓練する。 推論の間、私たちは所望のメーターとライムスキームの制御コードを構築し、言語モデルに形式的な詩を生成するように条件付けします。 スペイン語とバスク語による実験では、我々のアプローチが有効な詩を生成できることが示され、これはしばしば人間が書いた詩に匹敵する品質である。

Formal verse poetry imposes strict constraints on the meter and rhyme scheme of poems. Most prior work on generating this type of poetry uses existing poems for supervision, which are difficult to obtain for most languages and poetic forms. In this work, we propose an unsupervised approach to generate poems following any given meter and rhyme scheme, without requiring any poetic text for training. Our method works by splitting a regular, non-poetic corpus into phrases, prepending control codes that describe the length and end rhyme of each phrase, and training a transformer language model in the augmented corpus. During inference, we build control codes for the desired meter and rhyme scheme, and condition our language model on them to generate formal verse poetry. Experiments in Spanish and Basque show that our approach is able to generate valid poems, which are often comparable in quality to those written by humans.
翻訳日:2022-05-25 18:05:17 公開日:2022-05-24
# (参考訳) 並列コーパスを用いた原理的パラフレーズ生成

Principled Paraphrase Generation with Parallel Corpora ( http://arxiv.org/abs/2205.12213v1 )

ライセンス: CC BY 4.0
Aitor Ormazabal, Mikel Artetxe, Gorka Labaka, Aitor Soroa and Eneko Agirre(参考訳) ラウンドトリップ機械翻訳(MT)は、容易に利用可能な並列コーパスを利用したパラフレーズ生成の一般的な選択である。 本稿では,このアプローチによって引き起こされる暗黙的類似性関数を定式化し,非パラフローゼ対が1つの曖昧な翻訳を共有できることを示す。 これらの知見に基づいて, 翻訳分布全体を一致させ, 情報ボトルネック法による緩和を実現することにより, この問題を緩和する代替類似度指標を考案する。 提案手法では,入力に関する情報を極力少ないまま,参照翻訳に関する情報をできるだけ多くエンコードする表現を学習するために,MT訓練に敵対語を組み込む。 パラフレーズは、ピボット変換を生成することなく、この表現からソースにデコードすることで生成することができる。 ラウンドトリップmtよりも原理的かつ効率的であることに加えて,忠実度-多様性トレードオフを制御するための調整可能なパラメータを提供し,実験でより良い結果を得る。

Round-trip Machine Translation (MT) is a popular choice for paraphrase generation, which leverages readily available parallel corpora for supervision. In this paper, we formalize the implicit similarity function induced by this approach, and show that it is susceptible to non-paraphrase pairs sharing a single ambiguous translation. Based on these insights, we design an alternative similarity metric that mitigates this issue by requiring the entire translation distribution to match, and implement a relaxation of it through the Information Bottleneck method. Our approach incorporates an adversarial term into MT training in order to learn representations that encode as much information about the reference translation as possible, while keeping as little information about the input as possible. Paraphrases can be generated by decoding back to the source from this representation, without having to generate pivot translations. In addition to being more principled and efficient than round-trip MT, our approach offers an adjustable parameter to control the fidelity-diversity trade-off, and obtains better results in our experiments.
翻訳日:2022-05-25 17:44:10 公開日:2022-05-24
# (参考訳) DivEMT: ティポロジ的多言語間のニューラルネットワーク翻訳作業

DivEMT: Neural Machine Translation Post-Editing Effort Across Typologically Diverse Languages ( http://arxiv.org/abs/2205.12215v1 )

ライセンス: CC BY-SA 4.0
Gabriele Sarti, Arianna Bisazza, Ana Guerberof Arenas, Antonio Toral(参考訳) DivEMTはニューラルネットワーク翻訳(NMT)の最初の公開後研究で、タイプ的・多種多様なターゲット言語に対して導入される。 厳格に制御された設定を用いて、18人の専門翻訳者が同じ英語文書をアラビア語、オランダ語、イタリア語、トルコ語、ウクライナ語、ベトナム語に翻訳または編集するよう指示された。 プロセス中、それらの編集、キーストローク、編集時間、一時停止、認識された労力を記録し、NMTの品質とその後処理の詳細な言語間評価を可能にした。 この新しいデータセットを用いて、Google Translateとオープンソースの多言語モデルmBART50の2つの最先端NTTシステムの翻訳生産性への影響を評価する。 ポスト編集は、スクラッチからの翻訳よりも一貫して速いが、その貢献の大きさは、オランダ語とイタリア語の2倍の生産性から、アラビア語、トルコ語、ウクライナ語の限界的な向上まで、システムや言語によって大きく異なる。 さらに、観測された言語間の変動は、部分的にはソース・ターゲット関連性とターゲット形態のタイプを反映しているが、最先端の自動MT品質指標に基づいても予測は困難である。 我々は、すべての行動データを含む完全なデータセットを公開し、タイポロジーに多様性のある言語でテキストを生成する最先端のNTTシステムの能力に関する新たな研究を促進する。

We introduce DivEMT, the first publicly available post-editing study of Neural Machine Translation (NMT) over a typologically diverse set of target languages. Using a strictly controlled setup, 18 professional translators were instructed to translate or post-edit the same set of English documents into Arabic, Dutch, Italian, Turkish, Ukrainian, and Vietnamese. During the process, their edits, keystrokes, editing times, pauses, and perceived effort were recorded, enabling an in-depth, cross-lingual evaluation of NMT quality and its post-editing process. Using this new dataset, we assess the impact on translation productivity of two state-of-the-art NMT systems, namely: Google Translate and the open-source multilingual model mBART50. We find that, while post-editing is consistently faster than translation from scratch, the magnitude of its contribution varies largely across systems and languages, ranging from doubled productivity in Dutch and Italian to marginal gains in Arabic, Turkish and Ukrainian, for some of the evaluated modalities. Moreover, the observed cross-language variability appears to partly reflect source-target relatedness and type of target morphology, while remaining hard to predict even based on state-of-the-art automatic MT quality metrics. We publicly release the complete dataset, including all collected behavioural data, to foster new research on the ability of state-of-the-art NMT systems to generate text in typologically diverse languages.
翻訳日:2022-05-25 17:18:15 公開日:2022-05-24
# (参考訳) 事実検証を超えて - 論争的なトピックに関する主張の比較と対比

Beyond Fact Verification: Comparing and Contrasting Claims on Contentious Topics ( http://arxiv.org/abs/2205.12221v1 )

ライセンス: CC BY 4.0
Miyoung Ko, Ingyu Seong, Hwaran Lee, Joonsuk Park, Minsuk Chang, Minjoon Seo(参考訳) 誤情報を識別することの重要性が高まるにつれて、多くの研究者がウェブ上のテキストクレームの検証に注力している。 これを達成するための最も一般的なタスクの1つは事実検証であり、ウィキペディアのような大きな知識ソースから証拠文を取得し、各事実の主張を検証または否定する。 しかし、このような問題の定式化は、虚偽の主張や偽のニュースを検出するのに役立つが、特に政治的、性別、人種問題などの論争的な話題において、読者に暗黙的に偏見を抱くような、事実的に一貫性のある主張の微妙な相違を捉えるには適用できない。 本研究では,識別と生成の両方法におけるクレームペア間のニュアンスを,一方が他方よりも必ずしも真ではないという前提の下で比較する新しいデータセットであるCrimDiffを提案する。 これは、絶対真理に関して対象文を検証する既存の事実検証データセットとは異なる。 このタスクが、さまざまなメディアソースのより深い意思決定を支援することを願っています。

As the importance of identifying misinformation is increasing, many researchers focus on verifying textual claims on the web. One of the most popular tasks to achieve this is fact verification, which retrieves an evidence sentence from a large knowledge source such as Wikipedia to either verify or refute each factual claim. However, while such problem formulation is helpful for detecting false claims and fake news, it is not applicable to catching subtle differences in factually consistent claims which still might implicitly bias the readers, especially in contentious topics such as political, gender, or racial issues. In this study, we propose ClaimDiff, a novel dataset to compare the nuance between claim pairs in both a discriminative and a generative manner, with the underlying assumption that one is not necessarily more true than the other. This differs from existing fact verification datasets that verify the target sentence with respect to an absolute truth. We hope this task assists people in making more informed decisions among various sources of media.
翻訳日:2022-05-25 16:55:23 公開日:2022-05-24
# (参考訳) globus: 都市研究のためのグローバル・ビルディング・ハイツ

GLOBUS: GLObal Building heights for Urban Studies ( http://arxiv.org/abs/2205.12224v1 )

ライセンス: CC BY 4.0
Harsh G. Kamath, Manmeet Singh, Lori A. Magruder, Zong-Liang Yang, Dev Niyogi(参考訳) 極端な出来事が経済的損失を招き、公衆衛生に影響を及ぼすため、都市気候と気候の研究は引き続き重要である。 気象モデルは都市部を表現しようとするが、データの可用性、特に建築情報により単純化されている。 本稿では,GLObal Building heights for Urban Studies (GLOBUS) と呼ばれるディープニューラルネットワーク(DNN)から得られた,新たなDetail-1(LoD-1)構築データセットを紹介する。 globusはオープンソースのデータセットを予測器として使っている: advanced land observation satellite (alos) digital surface model (dsm) shuttle radar topography mission (srtm) digital elevation model (dem) landscan population density, and building footprints。 GLOBUSからの建築情報は,都市ヒートアイランド(UHI)効果などの局所的な現象を研究するために,数値気象予報(NWP)や都市エネルギー収支モデルに取り入れることができる。 GLOBUSは米国地質調査所(USGS)の3DEP光検出およびラングリング(LiDAR)データを用いて訓練され、検証されている。 私たちは5つの米国都市のデータをトレーニングに使用し、モデルを6都市で検証しました。 性能指標は空間分解能300mで計算される。 Root Mean Squared Error (RMSE)とMean Absolute Percentage Error (MAPE)はそれぞれ5.15mと28.8%であった。 建物の高さの標準偏差とヒストグラムはGLOBUSを用いてよく表現されている。

Urban weather and climate studies continue to be important as extreme events cause economic loss and impact public health. Weather models seek to represent urban areas but are oversimplified due to data availability, especially building information. This paper introduces a novel Level of Detail-1 (LoD-1) building dataset derived from a Deep Neural Network (DNN) called GLObal Building heights for Urban Studies (GLOBUS). GLOBUS uses open-source datasets as predictors: Advanced Land Observation Satellite (ALOS) Digital Surface Model (DSM) normalized using Shuttle Radar Topography Mission (SRTM) Digital Elevation Model (DEM), Landscan population density, and building footprints. The building information from GLOBUS can be ingested in Numerical Weather Prediction (NWP) and urban energy-water balance models to study localized phenomena such as the Urban Heat Island (UHI) effect. GLOBUS has been trained and validated using the United States Geological Survey (USGS) 3DEP Light Detection and Ranging (LiDAR) data. We used data from 5 US cities for training and the model was validated over 6 cities. Performance metrics are computed at a spatial resolution of 300-meter. The Root Mean Squared Error (RMSE) and Mean Absolute Percentage Error (MAPE) were 5.15 meters and 28.8 %, respectively. The standard deviation and histogram of building heights over a 300-meter grid are well represented using GLOBUS.
翻訳日:2022-05-25 16:40:54 公開日:2022-05-24
# (参考訳) より多くのデータ: 広帯域自然言語理解システムの開発におけるトラブル

When More Data Hurts: A Troubling Quirk in Developing Broad-Coverage Natural Language Understanding Systems ( http://arxiv.org/abs/2205.12228v1 )

ライセンス: CC BY 4.0
Elias Stengel-Eskin, Emmanouil Antonios Platanios, Adam Pauls, Sam Thomson, Hao Fang, Benjamin Van Durme, Jason Eisner, Yu Su(参考訳) 自然言語理解(NLU)生産システムでは、ユーザのニーズは時間とともに新しい機能の追加を必要とし、意味表現空間に追加される新しいシンボルによってインデックス付けされる。 これには追加のトレーニングデータと、成長を続けるデータセットの結果が必要です。 本稿では,このインクリメンタルシンボル学習シナリオについて,最初の体系的考察を行う。 トレーニングデータセットが成長するにつれて、新しいシンボルを学ぶためにより多くのデータが必要となり、悪循環を形成します。 この傾向は、2つの一般的なnluタスクにおける複数のメインストリームモデル、すなわちインテント認識と意味解析に当てはまる。 この傾向は,学習データセットが大きくなるにつれて,新しいシンボルに対する強い語彙的手がかりが希薄になる,ソース信号希釈(source signal dilution)と呼ばれる効果と密接に関連していることが明らかとなった。 希釈を防ぐためのトレーニング例を選択的にドロップすると、しばしば傾向が逆転し、単純な語彙的手がかりに対する主流のニューラルネットワークNLUモデルの過度な信頼性と文脈的理解の欠如が示される。

In natural language understanding (NLU) production systems, users' evolving needs necessitate the addition of new features over time, indexed by new symbols added to the meaning representation space. This requires additional training data and results in ever-growing datasets. We present the first systematic investigation into this incremental symbol learning scenario. Our analyses reveal a troubling quirk in building (broad-coverage) NLU systems: as the training dataset grows, more data is needed to learn new symbols, forming a vicious cycle. We show that this trend holds for multiple mainstream models on two common NLU tasks: intent recognition and semantic parsing. Rejecting class imbalance as the sole culprit, we reveal that the trend is closely associated with an effect we call source signal dilution, where strong lexical cues for the new symbol become diluted as the training dataset grows. Selectively dropping training examples to prevent dilution often reverses the trend, showing the over-reliance of mainstream neural NLU models on simple lexical cues and their lack of contextual understanding.
翻訳日:2022-05-25 16:31:37 公開日:2022-05-24
# (参考訳) チャンクに基づく最近近傍機械翻訳

Chunk-based Nearest Neighbor Machine Translation ( http://arxiv.org/abs/2205.12230v1 )

ライセンス: CC BY 4.0
Pedro Henrique Martins and Zita Marinho and Andr\'e F. T. Martins(参考訳) 半パラメトリックモデルは、検索によって生成を増強し、サンプルデータストアから取得した情報を活用する能力により、言語モデリングと機械翻訳において印象的な結果をもたらしている。 最も顕著なアプローチの1つである$k$NN-MTは、ドメイン固有のデータストア \citep{khandelwal2020nearest} からトークンを取得することで、ドメイン適応に優れたパフォーマンスを持つ。 しかし、$k$nn-mtは生成されたトークン毎の検索を必要とし、非常に低い復号速度(パラメトリックモデルより約8倍遅い)となる。 本稿では,単一トークンではなく,データストアからトークンの塊を抽出する,textit{chunk-based} $k$NN-MTモデルを提案する。 抽出されたチャンクを生成プロセスに組み込むためのいくつかの戦略を提案し、モデルがデータストア内の隣人を探すために必要なステップを選択する。 静的なドメイン適応と‘オン・ザ・フライ’適応の2つの環境での機械翻訳実験では、チャンクベースの$k$nn-mtモデルが翻訳品質の小さな低下で大幅な高速化(最大4倍)をもたらすことが示されている。

Semi-parametric models, which augment generation with retrieval, have led to impressive results in language modeling and machine translation, due to their ability to leverage information retrieved from a datastore of examples. One of the most prominent approaches, $k$NN-MT, has an outstanding performance on domain adaptation by retrieving tokens from a domain-specific datastore \citep{khandelwal2020nearest}. However, $k$NN-MT requires retrieval for every single generated token, leading to a very low decoding speed (around 8 times slower than a parametric model). In this paper, we introduce a \textit{chunk-based} $k$NN-MT model which retrieves chunks of tokens from the datastore, instead of a single token. We propose several strategies for incorporating the retrieved chunks into the generation process, and for selecting the steps at which the model needs to search for neighbors in the datastore. Experiments on machine translation in two settings, static domain adaptation and ``on-the-fly'' adaptation, show that the chunk-based $k$NN-MT model leads to a significant speed-up (up to 4 times) with only a small drop in translation quality.
翻訳日:2022-05-25 16:09:01 公開日:2022-05-24
# DNNAbacus:ディープニューラルネットワークの正確な計算コスト予測を目指して

DNNAbacus: Toward Accurate Computational Cost Prediction for Deep Neural Networks ( http://arxiv.org/abs/2205.12095v1 )

ライセンス: Link先を確認
Lu Bai, Weixing Ji, Qinyuan Li, Xilai Yao, Wei Xin, Wanyi Zhu(参考訳) ディープラーニングは、自然言語処理、音声認識、コンピュータビジョンなど、さまざまな領域で関心を集めている。 しかし、モデルトレーニングは時間がかかり、膨大な計算資源を必要とする。 既存の研究は、いくつかのモデルのトレーニング時間予測に主に焦点を合わせ、分析モデルに依存し、高い相対誤差をもたらすディープニューラルネットワークのパフォーマンス予測に取り組んでいる。 %の最適化とデータセンターのジョブ障害の削減は、資源利用の改善と二酸化炭素排出量削減に不可欠である。 本稿では,29の古典的ディープニューラルネットワークの計算資源要求を調査し,計算コストを予測するための正確なモデルを構築した。 まず、典型的なネットワークのプロファイリング結果を分析し、異なる入力とハイパーパラメータを持つモデルの計算資源要求が明確で直感的でないことを示す。 次に,ネットワーク表現のための新しいネットワーク構造行列を用いたdnnabacusの軽量予測手法を提案する。 DNNAbacusはPyTorchとTensorFlowモデルのメモリと時間の両方のコストを正確に予測できる。 実験の結果、平均相対誤差 (mre) は時間に対して0.9%、古典モデル29モデルに対して2.8%であり、これは最先端作品よりもはるかに低い。

Deep learning is attracting interest across a variety of domains, including natural language processing, speech recognition, and computer vision. However, model training is time-consuming and requires huge computational resources. Existing works on the performance prediction of deep neural networks, which mostly focus on the training time prediction of a few models, rely on analytical models and result in high relative errors. %Optimizing task scheduling and reducing job failures in data centers are essential to improve resource utilization and reduce carbon emissions. This paper investigates the computational resource demands of 29 classical deep neural networks and builds accurate models for predicting computational costs. We first analyze the profiling results of typical networks and demonstrate that the computational resource demands of models with different inputs and hyperparameters are not obvious and intuitive. We then propose a lightweight prediction approach DNNAbacus with a novel network structural matrix for network representation. DNNAbacus can accurately predict both memory and time cost for PyTorch and TensorFlow models, which is also generalized to different hardware architectures and can have zero-shot capability for unseen networks. Our experimental results show that the mean relative error (MRE) is 0.9% with respect to time and 2.8% with respect to memory for 29 classic models, which is much lower than the state-of-the-art works.
翻訳日:2022-05-25 15:53:42 公開日:2022-05-24
# 攻撃者に対する敵対的攻撃:ブラックボックススコアに基づくクエリ攻撃を軽減するためのポストプロセス

Adversarial Attack on Attackers: Post-Process to Mitigate Black-Box Score-Based Query Attacks ( http://arxiv.org/abs/2205.12134v1 )

ライセンス: Link先を確認
Sizhe Chen, Zhehao Huang, Qinghua Tao, Yingwen Wu, Cihang Xie, Xiaolin Huang(参考訳) スコアベースクエリアタック(sqas)は、モデルの出力スコアのみを使用して、数十のクエリ内に敵の摂動を作り上げることで、ディープニューラルネットワークに実用的な脅威をもたらす。 それでも、出力の損失傾向がわずかに乱れた場合、SQAは容易に誤解され、その結果、はるかに効果が低下する可能性があることに留意する。 そこで本研究では,攻撃者に対する攻撃的攻撃(adversarial attack on attacks, aaa)という新たな防御手法を提案する。 このように、(1)最悪のケースの堅牢性にかかわらずSQAを防止し、(2)元のモデル予測をほとんど変更せず、すなわち、クリーンな精度の劣化がなく、(3)信頼度スコアの校正を同時に行うことができる。 上記の利点を検証するために広範な実験が行われている。 例えば、CIFAR-10に$\ell_\infty=8/255$を設定することで、提案されたAAAは、ワイドレスNet-28がSquare攻撃(2500$クエリ)下で80.59\%の精度を確保するのに役立ちます。 AAAがSQAの一般的な欲求戦略を攻撃しているため、AAAの8つの防御に対する優位性は、6つのSQAの下での8つのCIFAR-10/ImageNetモデルにおいて、異なる攻撃目標と境界を用いて一貫して観察することができる。 さらに、AAAは精度を損なわずに校正する。 私たちのコードはリリースされます。

The score-based query attacks (SQAs) pose practical threats to deep neural networks by crafting adversarial perturbations within dozens of queries, only using the model's output scores. Nonetheless, we note that if the loss trend of the outputs is slightly perturbed, SQAs could be easily misled and thereby become much less effective. Following this idea, we propose a novel defense, namely Adversarial Attack on Attackers (AAA), to confound SQAs towards incorrect attack directions by slightly modifying the output logits. In this way, (1) SQAs are prevented regardless of the model's worst-case robustness; (2) the original model predictions are hardly changed, i.e., no degradation on clean accuracy; (3) the calibration of confidence scores can be improved simultaneously. Extensive experiments are provided to verify the above advantages. For example, by setting $\ell_\infty=8/255$ on CIFAR-10, our proposed AAA helps WideResNet-28 secure $80.59\%$ accuracy under Square attack ($2500$ queries), while the best prior defense (i.e., adversarial training) only attains $67.44\%$. Since AAA attacks SQA's general greedy strategy, such advantages of AAA over 8 defenses can be consistently observed on 8 CIFAR-10/ImageNet models under 6 SQAs, using different attack targets and bounds. Moreover, AAA calibrates better without hurting the accuracy. Our code would be released.
翻訳日:2022-05-25 15:53:22 公開日:2022-05-24
# モーメントのレジリエント平均化によるビザンチン機械学習

Byzantine Machine Learning Made Easy by Resilient Averaging of Momentums ( http://arxiv.org/abs/2205.12173v1 )

ライセンス: Link先を確認
Sadegh Farhadkhani, Rachid Guerraoui, Nirupam Gupta, Rafael Pinot, John Stephan(参考訳) 分散機械学習コミュニティでは、ビザンチンレジリエンスが重要なトピックとして浮上した。 基本的には、分散SGDのような分散最適化アルゴリズムを、不正行為(すなわちビザンティン)の労働者が存在するにもかかわらず収束を保証する方法で強化することを目的としている。 この問題に対処する数多くの技術が提案されているが、この分野は明らかに脆弱な基盤に依存している。 これらのテクニックは、正しいことを証明しにくく、仮定に依存する a)非常に非現実的、すなわち、しばしば実践において違反された、そして (b)異種、すなわち、アプローチの比較が困難である。 我々は、標準的な機械学習の仮定にのみ依存して、最適なビザンチンレジリエンスを確立するのを簡単にするための統一されたフレームワークである \emph{RESAM (RESilient Averaging of Momentums)} を提案する。 私たちのフレームワークは、主に2つのオペレータで構成されています:サーバの \emph{resilient averaging} とワーカーの \emph{distributed momentum} です。 分散SGDの収束を記述する一般定理をRESAMで証明する。 興味深いことに、多くの既存のテクニックの収束の証明と比較は、厳密な仮定を使わずに、定理の直接の仲間になる。 また,RESAMの実用的妥当性を実証的に評価した。

Byzantine resilience emerged as a prominent topic within the distributed machine learning community. Essentially, the goal is to enhance distributed optimization algorithms, such as distributed SGD, in a way that guarantees convergence despite the presence of some misbehaving (a.k.a., {\em Byzantine}) workers. Although a myriad of techniques addressing the problem have been proposed, the field arguably rests on fragile foundations. These techniques are hard to prove correct and rely on assumptions that are (a) quite unrealistic, i.e., often violated in practice, and (b) heterogeneous, i.e., making it difficult to compare approaches. We present \emph{RESAM (RESilient Averaging of Momentums)}, a unified framework that makes it simple to establish optimal Byzantine resilience, relying only on standard machine learning assumptions. Our framework is mainly composed of two operators: \emph{resilient averaging} at the server and \emph{distributed momentum} at the workers. We prove a general theorem stating the convergence of distributed SGD under RESAM. Interestingly, demonstrating and comparing the convergence of many existing techniques become direct corollaries of our theorem, without resorting to stringent assumptions. We also present an empirical evaluation of the practical relevance of RESAM.
翻訳日:2022-05-25 15:52:48 公開日:2022-05-24
# モバイルセンシングを用いた深層学習モデルを用いた統合失調症患者の心理的再発予測

Psychotic Relapse Prediction in Schizophrenia Patients using A Mobile Sensing-based Supervised Deep Learning Model ( http://arxiv.org/abs/2205.12225v1 )

ライセンス: Link先を確認
Bishal Lamichhane, Joanne Zhou, Akane Sano(参考訳) 行動変化のモバイルセンシングに基づくモデリングは、統合失調症患者の時効性精神病再発を予測できる。 ディープラーニングモデルは、予測に関連する潜在行動特徴をモデル化することにより、既存の非深層学習モデルを補完し、再発予測を補完する。 しかし、個人間の行動の違いを考えると、モデルパーソナライゼーションは予測モデルに必要かもしれない。 本研究では,リラプス予測のためのLong Short-Term Memory(LSTM)ニューラルネットワークモデルであるRelapsePredNetを提案する。 モデルは、患者に最もよく似た患者からのデータをトレーニングすることで、特定の患者にパーソナライズされる。 いくつかの人口統計と基礎的メンタルヘルススコアは、患者の類似性を定義するためのパーソナライズ指標とみなされた。 パーソナライゼーションがデータセット特性,学習埋め込み,再帰予測性能に及ぼす影響について検討した。 我々はRelapsePredNetとディープラーニングに基づく異常検出モデルを比較した。 さらに,relapseprednetが,再帰予測に関連する潜在行動特徴を同定することにより,融合モデルにおいてclusterrfmodel(クラスタリングとテンプレート特徴を利用したランダムフォレストモデル)を補完できるかどうかを検証した。 63名の統合失調症患者から得られた連続的モバイルセンシングデータから得られたクロスチェックデータセットを用いて評価を行った。 提案するrelapseprednetは,deep learningに基づく異常検出モデルより優れている。 予測のためのf2スコアは,全テストセットにおける0.21と0.52であり,再発テストセット(再発例のみのデータ)は0.2であった。 これらは、既存のディープラーニングベースの再学習予測モデルと比較して29.4%、38.8%改善された。

Mobile sensing-based modeling of behavioral changes could predict an oncoming psychotic relapse in schizophrenia patients for timely interventions. Deep learning models could complement existing non-deep learning models for relapse prediction by modeling latent behavioral features relevant to the prediction. However, given the inter-individual behavioral differences, model personalization might be required for a predictive model. In this work, we propose RelapsePredNet, a Long Short-Term Memory (LSTM) neural network-based model for relapse prediction. The model is personalized for a particular patient by training using data from patients most similar to the given patient. Several demographics and baseline mental health scores were considered as personalization metrics to define patient similarity. We investigated the effect of personalization on training dataset characteristics, learned embeddings, and relapse prediction performance. We compared RelapsePredNet with a deep learning-based anomaly detection model for relapse prediction. Further, we investigated if RelapsePredNet could complement ClusterRFModel (a random forest model leveraging clustering and template features proposed in prior work) in a fusion model, by identifying latent behavioral features relevant for relapse prediction. The CrossCheck dataset consisting of continuous mobile sensing data obtained from 63 schizophrenia patients, each monitored for up to a year, was used for our evaluations. The proposed RelapsePredNet outperformed the deep learning-based anomaly detection model for relapse prediction. The F2 score for prediction were 0.21 and 0.52 in the full test set and the Relapse Test Set (consisting of data from patients who have had relapse only), respectively. These corresponded to a 29.4% and 38.8% improvement compared to the existing deep learning-based model for relapse prediction.
翻訳日:2022-05-25 15:52:27 公開日:2022-05-24
# 人間活動認識のためのプライバシー保護のための無線ビジョンデータセット

A Wireless-Vision Dataset for Privacy Preserving Human Activity Recognition ( http://arxiv.org/abs/2205.11962v1 )

ライセンス: Link先を確認
Yanling Hao, Zhiyuan Shi, Yuanwei Liu(参考訳) HAR(Human Activity Recognition)は、最近、生活支援や遠隔監視などの多くのアプリケーションで注目されている。 センサとビジョン技術に基づく既存のソリューションは、成果を得たが、環境要件のかなりの制限に悩まされている。 WiFiベースのセンシングのような無線信号は、環境に制限されない便利なため、新しいパラダイムとして登場した。 本稿では,無線データの補足として同期映像が機能するアクティビティ認識のロバスト性を改善するために,新しいwi-fiベース・ビデオベースニューラルネットワーク(winn)を提案する。 さらに、無線ビジョンベンチマーク(WiVi)は、閉塞のないシーン、部分閉塞を伴うシーン、完全閉塞を含む3つの異なる視覚条件下での9つのクラスアクション認識のために収集される。 両方の機械学習メソッド - サポートベクターマシン(svm)とディープラーニングメソッドは、データセットの正確性検証に使用される。 以上の結果から,WiViデータセットが一次需要を満たすこと,提案パイプラインの3つのブランチが1秒から3秒までの複数のアクションセグメンテーションに対して80\%以上のアクティビティ認識精度を保っていることがわかった。 特に、WiNNは3つのアクションセグメンテーションに対する全てのアクションに関して、他のものと比較して最も堅牢な方法である。

Human Activity Recognition (HAR) has recently received remarkable attention in numerous applications such as assisted living and remote monitoring. Existing solutions based on sensors and vision technologies have obtained achievements but still suffering from considerable limitations in the environmental requirement. Wireless signals like WiFi-based sensing have emerged as a new paradigm since it is convenient and not restricted in the environment. In this paper, a new WiFi-based and video-based neural network (WiNN) is proposed to improve the robustness of activity recognition where the synchronized video serves as the supplement for the wireless data. Moreover, a wireless-vision benchmark (WiVi) is collected for 9 class actions recognition in three different visual conditions, including the scenes without occlusion, with partial occlusion, and with full occlusion. Both machine learning methods - support vector machine (SVM) as well as deep learning methods are used for the accuracy verification of the data set. Our results show that WiVi data set satisfies the primary demand and all three branches in the proposed pipeline keep more than $80\%$ of activity recognition accuracy over multiple action segmentation from 1s to 3s. In particular, WiNN is the most robust method in terms of all the actions on three action segmentation compared to the others.
翻訳日:2022-05-25 15:51:44 公開日:2022-05-24
# 隣人に同時にt-SNE(ENS-t-SNE)を埋め込む

Embedding Neighborhoods Simultaneously t-SNE (ENS-t-SNE) ( http://arxiv.org/abs/2205.11720v1 )

ライセンス: Link先を確認
Vahan Huroyan, Raymundo Navarrete, Md Iqbal Hossain, Stephen Kobourov(参考訳) 本研究では,同じデータポイント間の任意の距離に基づいて3次元ユークリッド空間に埋め込み,データセットを可視化するアルゴリズムを提案する。 その目的は、t-Stochastic Neighborhood Embedding approach (ENS-t-SNE) を一般化することにより、任意の所要距離で隣人を同時に保存する埋め込みを見つけることである。 本稿では,ENS-t-SNEの有用性を3つの応用例で示す。 まず、同一の高次元データセット内のクラスタとグループの異なる概念を1次元の埋め込みで視覚化し、同じデータの異なる埋め込みを提供し、対応する点に一致させようとするのとは対照的である。 次に、古典 t-sne の異なるハイパーパラメータの効果を説明する。 第三に、データのクラスタリングに関する複数の異なる概念を考慮することで、ENS-t-SNEは古典的なt-SNEよりも別の埋め込みを生成することができる。 本研究では,実世界および合成データを用いて,様々な大きさの投影データを用いて,広範囲な定量的評価を行う。

We propose an algorithm for visualizing a dataset by embedding it in 3-dimensional Euclidean space based on various given distances between the same pairs of datapoints. Its aim is to find an Embedding which preserves Neighborhoods Simultaneously for all given distances by generalizing the t-Stochastic Neighborhood Embedding approach (ENS-t-SNE). We illustrate the utility of ENS-t-SNE by demonstrating its use in three applications. First, to visualize different notions of clusters and groups within the same high-dimensional dataset with one 3-dimensional embedding, as opposed to providing different embeddings of the same data and trying to match the corresponding points. Second, to illustrate the effects of different hyper-parameters of the classical t-SNE. Third, by considering multiple different notions of clustering in data, ENS-t-SNE can generate an alternative embedding than the classic t-SNE. We provide an extensive quantitative evaluation with real-world and synthetic datasets of different sizes and using different numbers of projections.
翻訳日:2022-05-25 15:50:12 公開日:2022-05-24
# 工業団地における複数種類のフレキシブル負荷を考慮した需要応答法

Demand Response Method Considering Multiple Types of Flexible Loads in Industrial Parks ( http://arxiv.org/abs/2205.11743v1 )

ライセンス: Link先を確認
Jia Cui, Mingze Gao, Xiaoming Zhou, Yang Li, Wei Liu, Jiazheng Tian, Ximing Zhang(参考訳) エネルギーインターネットの急速な発展に伴い、スマートグリッドにおけるフレキシブルな負荷の割合は、これまでよりもはるかに高まっている。 需要応答に基づいて柔軟な負荷をモデル化することが非常に重要である。 そこで本稿では,複数のフレキシブル負荷を考慮した新しい需要応答法を提案し,統合需要応答(idr)リソースを特徴付ける。 まず, 工業団地におけるフレキシブル荷重の分類を改善するため, 物理プロセス解析推論(ppad)モデルを提案する。 様々な操作条件下でのシナリオ生成,データポイント増大,滑らかな曲線は,モデルの適用性を高めると考えられる。 第二に,wasserstein-generative adversarial networks(wgan)の強いボラティリティとモデリング効果の悪さから,wgan-gradient penalty(iwgan-gp)モデルを開発し,従来のwganよりも高速に収束し,高品質なサンプルを生成する。 最後に, PPADモデルとIWGAN-GPモデルを組み合わせて, フレキシブル負荷の相関関係を明らかにする。 一方、異なる応答シナリオにおける非線形要因の影響に対処するために、インテリジェントなオフラインデータベースが構築されている。 提案手法は, 負荷モデリングの偏差を低減し, 公園負荷の応答性を向上させるために, 既存の技術よりもはるかに優れていることを示した。

With the rapid development of the energy internet, the proportion of flexible loads in smart grid is getting much higher than before. It is highly important to model flexible loads based on demand response. Therefore, a new demand response method considering multiple flexible loads is proposed in this paper to character the integrated demand response (IDR) resources. Firstly, a physical process analytical deduction (PPAD) model is proposed to improve the classification of flexible loads in industrial parks. Scenario generation, data point augmentation, and smooth curves under various operating conditions are considered to enhance the applicability of the model. Secondly, in view of the strong volatility and poor modeling effect of Wasserstein-generative adversarial networks (WGAN), an improved WGAN-gradient penalty (IWGAN-GP) model is developed to get a faster convergence speed than traditional WGAN and generate a higher quality samples. Finally, the PPAD and IWGAN-GP models are jointly implemented to reveal the degree of correlation between flexible loads. Meanwhile, an intelligent offline database is built to deal with the impact of nonlinear factors in different response scenarios. Numerical examples have been performed with the results proving that the proposed method is significantly better than the existing technologies in reducing load modeling deviation and improving the responsiveness of park loads.
翻訳日:2022-05-25 15:49:54 公開日:2022-05-24
# Echo状態ネットワークにおける下位ネットワーク構造からの因果的影響

Causal Influences Decouple From Their Underlying Network Structure In Echo State Networks ( http://arxiv.org/abs/2205.11947v1 )

ライセンス: Link先を確認
Kayson Fakhar, Fatemeh Hadaeghi, Claus C. Hilgetag(参考訳) Echo State Networks(ESN)は、トレーニング中に隠れた層が変更されない、汎用的なリカレントニューラルネットワークモデルである。 この静的バックボーンのノード間の相互作用は、与えられたタスクを解決するのに必要な計算を実行するために読み出し機構を利用する所定の刺激の多様な表現を生み出す。 ESNは、訓練が比較的安価であるため、ニューロン回路のアクセス可能なモデルである。 したがって、ESNは神経科学者にとって、神経構造、機能、行動の関係を研究している。 例えば、脳ネットワークの特徴的な接続パターンがノード間の効果的なインタラクションをどのようにサポートするか、そしてこれらの相互作用パターンがどのように計算をもたらすかは、まだ明らかではない。 この問題に対処するため,我々はesnを生物学的にインスパイアされた構造とし,ネットワークの出力に対する各ノードの因果寄与を定量化するために,系統的多地点損傷フレームワークを用いてネットワーク構造と行動の因果関係を明らかにした。 次に構造と機能の関係に焦点をあて,他のすべてのノードに対する各ノードの因果的影響を,同じ障害フレームワークを用いて分解した。 適切に設計されたESNのノードは、ネットワークの基盤構造に関係なく、ほとんど相互作用することがわかった。 しかし、同じトポロジーと非最適パラメータセットを持つネットワークでは、基盤となる接続パターンがノード間の相互作用を決定する。 その結果, ESNの因果構造-機能関係は, 直接的・間接的相互作用の2つの構成要素に分解できることがわかった。 前者は構造的接続に依存する影響に基づいている。 後者は、他の中間ノードを通しての任意の2つのノード間の効果的な通信を記述する。 これらの広範囲に分散した間接的相互作用は、ESNの効率的な性能に決定的に寄与する。

Echo State Networks (ESN) are versatile recurrent neural network models in which the hidden layer remains unaltered during training. Interactions among nodes of this static backbone produce diverse representations of the given stimuli that are harnessed by a read-out mechanism to perform computations needed for solving a given task. ESNs are accessible models of neuronal circuits, since they are relatively inexpensive to train. Therefore, ESNs have become attractive for neuroscientists studying the relationship between neural structure, function, and behavior. For instance, it is not yet clear how distinctive connectivity patterns of brain networks support effective interactions among their nodes and how these patterns of interactions give rise to computation. To address this question, we employed an ESN with a biologically inspired structure and used a systematic multi-site lesioning framework to quantify the causal contribution of each node to the network's output, thus providing a causal link between network structure and behavior. We then focused on the structure-function relationship and decomposed the causal influence of each node on all other nodes, using the same lesioning framework. We found that nodes in a properly engineered ESN interact largely irrespective of the network's underlying structure. However, in a network with the same topology and a non-optimal parameter set, the underlying connectivity patterns determine the node interactions. Our results suggest that causal structure-function relations in ESNs can be decomposed into two components, direct and indirect interactions. The former are based on influences relying on structural connections. The latter describe the effective communication between any two nodes through other intermediate nodes. These widely distributed indirect interactions may crucially contribute to the efficient performance of ESNs.
翻訳日:2022-05-25 15:49:30 公開日:2022-05-24
# PatchNR: フロー正規化による小さなデータからの学習

PatchNR: Learning from Small Data by Patch Normalizing Flow Regularization ( http://arxiv.org/abs/2205.12021v1 )

ライセンス: Link先を確認
Fabian Altekr\"uger, Alexander Denker, Paul Hagemann, Johannes Hertrich, Peter Maass, Gabriele Steidl(参考訳) 少量のデータだけでニューラルネットワークを学習することは、アプリケーションにとって大きな可能性を持つ重要な研究トピックである。 本稿では,正規化フローに基づく画像の逆問題に対する変動モデリングのための正規化器を提案する。 patchNRと呼ばれる我々の正規化器は、ごく少数の画像のパッチで学習したフローを正規化します。 その後の再構成法は完全に教師なしであり、同じ画像に作用する異なるフォワード演算子に対して同じ正規化器を使用できる。 画像クラス全体に対するパッチの分布を調べることで、我々の変動モデルがMAPアプローチであることを証明する。 我々のモデルは、追加の教師付き情報がある場合、条件付きパッチンに一般化することができる。 低線量CT,リミテッドアングルCT,超解像画像の数値的な例は,本手法が教師なし手法で高品質な結果をもたらすことを示しているが,データが少ない。

Learning neural networks using only a small amount of data is an important ongoing research topic with tremendous potential for applications. In this paper, we introduce a regularizer for the variational modeling of inverse problems in imaging based on normalizing flows. Our regularizer, called patchNR, involves a normalizing flow learned on patches of very few images. The subsequent reconstruction method is completely unsupervised and the same regularizer can be used for different forward operators acting on the same class of images. By investigating the distribution of patches versus those of the whole image class, we prove that our variational model is indeed a MAP approach. Our model can be generalized to conditional patchNRs, if additional supervised information is available. Numerical examples for low-dose CT, limited-angle CT and superresolution of material images demonstrate that our method provides high quality results among unsupervised methods, but requires only few data.
翻訳日:2022-05-25 15:49:05 公開日:2022-05-24
# 独立カスケードモデルにおけるうわさの発生源の推定

Inference of a Rumor's Source in the Independent Cascade Model ( http://arxiv.org/abs/2205.12125v1 )

ライセンス: Link先を確認
Petra Berenbrink and Max Hahn-Klimroth and Dominik Kaaser and Lena Krieg and Malin Rau(参考訳) 我々は、kempeらによって広められたうわさの拡散や流行の過程の、いわゆる独立カスケードモデルを考える。 \ [2003]. このモデルでは、ネットワークからのノードの小さなサブセットが、噂の源である。 離散時間ステップでは、各情報ノードは、確率$p$で、各非情報隣人に「影響」を与える。 このプロセスの多くの側面が文献で研究されているが、推論の問題についてはあまり知られていない。 疫学の文脈では、この問題は患者ゼロ問題と呼ばれることが多い。 これは、基盤となる拡散モデルのパラメータ、例えばlokhov [neurips'16] やmastakouri et alを推測することを目的とした、より広い種類の問題に属する。 〔neurips'20〕 本研究では,一組のアクティブノードが$X$の後に$t$のステップで処理のスナップショットを与えられた場合,噂の情報源に対する最大可能性推定器を示す。 その結果, サイクルフリーグラフの場合, 確率推定器は関数 $t$ として非自明な位相遷移を行うことがわかった。 d$-regular tree と galton-watson tree という2つの有名な非環状ネットワークの厳密な解析を行い、我々のヒューリスティックスが様々な一般ネットワークでうまく機能することを実証的に検証した。

We consider the so-called Independent Cascade Model for rumor spreading or epidemic processes popularized by Kempe et al.\ [2003]. In this model, a small subset of nodes from a network are the source of a rumor. In discrete time steps, each informed node "infects" each of its uninformed neighbors with probability $p$. While many facets of this process are studied in the literature, less is known about the inference problem: given a number of infected nodes in a network, can we learn the source of the rumor? In the context of epidemiology this problem is often referred to as patient zero problem. It belongs to a broader class of problems where the goal is to infer parameters of the underlying spreading model, see, e.g., Lokhov [NeurIPS'16] or Mastakouri et al. [NeurIPS'20]. In this work we present a maximum likelihood estimator for the rumor's source, given a snapshot of the process in terms of a set of active nodes $X$ after $t$ steps. Our results show that, for cycle-free graphs, the likelihood estimator undergoes a non-trivial phase transition as a function $t$. We provide a rigorous analysis for two prominent classes of acyclic network, namely $d$-regular trees and Galton-Watson trees, and verify empirically that our heuristics work well in various general networks.
翻訳日:2022-05-25 15:48:50 公開日:2022-05-24
# d$^\text{2}$uf:圧縮スペクトル画像融合のための深い符号化開口設計と展開アルゴリズム

D$^\text{2}$UF: Deep Coded Aperture Design and Unrolling Algorithm for Compressive Spectral Image Fusion ( http://arxiv.org/abs/2205.12158v1 )

ライセンス: Link先を確認
Roman Jacome, Jorge Bacca and Henry Arguello(参考訳) 圧縮スペクトルイメージング(csi)は、3次元スペクトル画像の2次元投影のみを検知し、空間的およびスペクトル情報を体系化するために合成開口を用いるため、注目を集めている。 しかし、これらの光学アーキテクチャは、技術的制限により再構成された画像の空間分解能とスペクトル分解能のトレードオフに悩まされる。 この問題を解決するために、圧縮スペクトル画像融合(CSIF)は2つのCSIアーキテクチャを異なる解像度で予測し、高空間高スペクトル分解能を推定する。 本研究では,cassi(low-spatial high-spectral resolution coded aperture snapshot spectral imager)アーキテクチャと高spatial low-spectral resolution multispectral color filter array(mcfa)システムの圧縮測定の融合について述べる。 本稿では,従来のCSIFと異なり,エンド・ツー・エンド(E2E)方式でセンサアーキテクチャと再構成ネットワークの協調最適化を提案する。 トレーニング可能な光学パラメータは、CASSIの符号化開口(CA)とMCFAシステムのカラー符号化開口であり、シグモノイド活性化関数と正規化関数を用いて、実装目的のためにトレーニング可能な変数のバイナリ値を促進する。 さらに、乗算器最適化の交互方向法(ADMM)にインスパイアされたアンローリング型ネットワークを定式化し、再構成ステップと取得システムの設計を共同で行う。 最後に、各アンローリング層の端部に空間スペクトル誘発損失関数を用い、アンローリングネットワークの収束性を高める。 提案手法は従来のCSIF法よりも優れており,実測値を用いて実験結果が検証された。

Compressive spectral imaging (CSI) has attracted significant attention since it employs synthetic apertures to codify spatial and spectral information, sensing only 2D projections of the 3D spectral image. However, these optical architectures suffer from a trade-off between the spatial and spectral resolution of the reconstructed image due to technology limitations. To overcome this issue, compressive spectral image fusion (CSIF) employs the projected measurements of two CSI architectures with different resolutions to estimate a high-spatial high-spectral resolution. This work presents the fusion of the compressive measurements of a low-spatial high-spectral resolution coded aperture snapshot spectral imager (CASSI) architecture and a high-spatial low-spectral resolution multispectral color filter array (MCFA) system. Unlike previous CSIF works, this paper proposes joint optimization of the sensing architectures and a reconstruction network in an end-to-end (E2E) manner. The trainable optical parameters are the coded aperture (CA) in the CASSI and the colored coded aperture in the MCFA system, employing a sigmoid activation function and regularization function to encourage binary values on the trainable variables for an implementation purpose. Additionally, an unrolling-based network inspired by the alternating direction method of multipliers (ADMM) optimization is formulated to address the reconstruction step and the acquisition systems design jointly. Finally, a spatial-spectral inspired loss function is employed at the end of each unrolling layer to increase the convergence of the unrolling network. The proposed method outperforms previous CSIF methods, and experimental results validate the method with real measurements.
翻訳日:2022-05-25 15:48:23 公開日:2022-05-24
# (参考訳) 階層的会話構造の教師なし学習

Unsupervised Learning of Hierarchical Conversation Structure ( http://arxiv.org/abs/2205.12244v1 )

ライセンス: CC BY 4.0
Bo-Ru Lu, Yushi Hu, Hao Cheng, Noah A. Smith, Mari Ostendorf(参考訳) 人間の会話は様々な方法で進化し、自動理解と要約の課題を生み出す。 ゴール指向の会話は、しばしば意味のあるサブ対話構造を持つが、ドメインに依存しやすい。 本研究は,対話行為とサブタスクに大まかに対応するターンラベルとサブダイアログセグメントラベルを含む階層的対話構造を学ぶための教師なしアプローチを導入する。 復号化構造は3つの会話レベル理解タスクのための言語ニューラルネットワークの強化に有用であることが示されている。 さらに、学習した有限状態サブ対話ネットワークを自動要約により解釈する。 私たちのコードとトレーニングされたモデルは、 \url{https://github.com/boru-roylu/THETA}で利用可能です。

Human conversations can evolve in many different ways, creating challenges for automatic understanding and summarization. Goal-oriented conversations often have meaningful sub-dialogue structure, but it can be highly domain-dependent. This work introduces an unsupervised approach to learning hierarchical conversation structure, including turn and sub-dialogue segment labels, corresponding roughly to dialogue acts and sub-tasks, respectively. The decoded structure is shown to be useful in enhancing neural models of language for three conversation-level understanding tasks. Further, the learned finite-state sub-dialogue network is made interpretable through automatic summarization. Our code and trained models are available at \url{https://github.com/boru-roylu/THETA}.
翻訳日:2022-05-25 15:46:30 公開日:2022-05-24
# ワークフロー構成におけるサービスレコメンデーションのためのコンテキスト対応サービス表現の学習

Learning Context-Aware Service Representation for Service Recommendation in Workflow Composition ( http://arxiv.org/abs/2205.11771v1 )

ライセンス: Link先を確認
Xihao Xie, Jia Zhang, Rahul Ramachandran, Tsengdar J. Lee, Seungwon Lee(参考訳) ますます多くのソフトウェアサービスがインターネットに公開されてきているが、科学的なワークフロー構成を促進するために適切なサービスを推奨することは依然として重要な課題である。 本稿では,ワークフロー前駆者から段階的に学習する潜在サービス表現に基づいて,ワークフロー開発プロセス全体を通してサービスを推奨する,新たなNLP型アプローチを提案する。 ワークフロー合成プロセスは、ステップワイズでコンテキスト対応のサービス生成手順として形式化され、自然言語文中の次の単語予測にマッピングされる。 履歴サービス依存は、知識グラフの構築と強化のためにワークフローの成果から抽出される。 知識グラフの各経路は、会話中の文に類似したデータ分析実験のシナリオを反映している。 したがって、全ての経路は構成可能なサービスシーケンスとして形式化され、確立された知識グラフから様々なパターンを用いてコーパスを構築する。 サービス埋め込みは、NLPフィールドからディープラーニングモデルを適用することで学習される。 実世界のデータセットに関する広範な実験は、このアプローチの有効性と効率を示している。

As increasingly more software services have been published onto the Internet, it remains a significant challenge to recommend suitable services to facilitate scientific workflow composition. This paper proposes a novel NLP-inspired approach to recommending services throughout a workflow development process, based on incrementally learning latent service representation from workflow provenance. A workflow composition process is formalized as a step-wise, context-aware service generation procedure, which is mapped to next-word prediction in a natural language sentence. Historical service dependencies are extracted from workflow provenance to build and enrich a knowledge graph. Each path in the knowledge graph reflects a scenario in a data analytics experiment, which is analogous to a sentence in a conversation. All paths are thus formalized as composable service sequences and are mined, using various patterns, from the established knowledge graph to construct a corpus. Service embeddings are then learned by applying deep learning model from the NLP field. Extensive experiments on the real-world dataset demonstrate the effectiveness and efficiency of the approach.
翻訳日:2022-05-25 15:22:29 公開日:2022-05-24
# 歩数平均化によるフランクウルフの加速

Accelerating Frank-Wolfe via Averaging Step Directions ( http://arxiv.org/abs/2205.11794v1 )

ライセンス: Link先を確認
Zhaoyue Chen, Yifan Sun(参考訳) Frank-Wolfe法は、その高速な解法によるスパース制約最適化において一般的な方法である。 しかし、このトレードオフは、世界収束が相対的に遅く、そして最も重要なことは、その流量よりも根本的に遅く、つまり、収束速度が離散化誤差によって損なわれることである。 本研究では、ステップ方向が過去のオラクル呼び出しの単純な重み付き平均であるフランク=ウルフの修正を考える。 この方法は非常に少ないメモリと計算オーバーヘッドを必要とし、この離散化誤差項を確実に減衰させる。 数値解析により, この手法は, スパース多様体が検出された後に, いくつかの問題に対する収束率を向上させることを示す。 理論的には、全球収束率は$o(1/k^p)$であり、ここでは$0<p < 1$; 多様体の識別後に、この速度は$o(1/k^{3p/2})$となる。 また,本手法がごく初期の段階からこの加速速度を達成することを観察し,この手法群に対して有望な加速モードを提案する。

The Frank-Wolfe method is a popular method in sparse constrained optimization, due to its fast per-iteration complexity. However, the tradeoff is that its worst case global convergence is comparatively slow, and importantly, is fundamentally slower than its flow rate--that is to say, the convergence rate is throttled by discretization error. In this work, we consider a modified Frank-Wolfe where the step direction is a simple weighted average of past oracle calls. This method requires very little memory and computational overhead, and provably decays this discretization error term. Numerically, we show that this method improves the convergence rate over several problems, especially after the sparse manifold has been detected. Theoretically, we show the method has an overall global convergence rate of $O(1/k^p)$, where $0< p < 1$; after manifold identification, this rate speeds to $O(1/k^{3p/2})$. We also observe that the method achieves this accelerated rate from a very early stage, suggesting a promising mode of acceleration for this family of methods.
翻訳日:2022-05-25 15:22:13 公開日:2022-05-24
# NFL: 分散トランスフォーメーションによるロバスト学習インデックス

NFL: Robust Learned Index via Distribution Transformation ( http://arxiv.org/abs/2205.11807v1 )

ライセンス: Link先を確認
Shangyu Wu, Yufei Cui, Jinghuan Yu, Xuan Sun, Tei-Wei Kuo, Chun Jason Xue(参考訳) 学習指標に関する最近の研究は、インデックスフィールドの新しい方向を開く。 学習指標の鍵となる洞察は、分割線形関数を持つキーと位置のマッピングを近似することである。 このような方法は、より良い近似のためにキー空間を分割する必要がある。 近似品質を改善するために多くのヒューリスティックが提案されているが、ボトルネックはセグメント化のオーバーヘッドが全体的な性能を妨げることである。 本稿では,学習インデックスを構成する前に,キーに \textit{distribution transformation} を適用することで近似問題に取り組む。 2段階の正規化フローベース学習インデックスフレームワーク (NFL) が提案され、最初に元の複雑な鍵分布をほぼ一様に変換し、次に変換された鍵を利用する学習インデックスを構築する。 効率的な分布変換のために,数値正規化フロー(数値NF)を提案する。 変換されたキーの特徴に基づいて、ロバストなアフターフロー学習指標(AFLI)を提案する。 パフォーマンスを検証するために、総合的および実世界のワークロードの両方で総合的な評価が行われ、nflは最先端の学習指標と比較して、最も高いスループットと最も低いテールレイテンシを生産していることを示している。

Recent works on learned index open a new direction for the indexing field. The key insight of the learned index is to approximate the mapping between keys and positions with piece-wise linear functions. Such methods require partitioning key space for a better approximation. Although lots of heuristics are proposed to improve the approximation quality, the bottleneck is that the segmentation overheads could hinder the overall performance. This paper tackles the approximation problem by applying a \textit{distribution transformation} to the keys before constructing the learned index. A two-stage Normalizing-Flow-based Learned index framework (NFL) is proposed, which first transforms the original complex key distribution into a near-uniform distribution, then builds a learned index leveraging the transformed keys. For effective distribution transformation, we propose a Numerical Normalizing Flow (Numerical NF). Based on the characteristics of the transformed keys, we propose a robust After-Flow Learned Index (AFLI). To validate the performance, comprehensive evaluations are conducted on both synthetic and real-world workloads, which shows that the proposed NFL produces the highest throughput and the lowest tail latency compared to the state-of-the-art learned indexes.
翻訳日:2022-05-25 15:21:52 公開日:2022-05-24
# 隔離:スパルシティはトロイの木馬攻撃のトリガーをフリーで発見できる

Quarantine: Sparsity Can Uncover the Trojan Attack Trigger for Free ( http://arxiv.org/abs/2205.11819v1 )

ライセンス: Link先を確認
Tianlong Chen, Zhenyu Zhang, Yihua Zhang, Shiyu Chang, Sijia Liu, Zhangyang Wang(参考訳) トロイの木馬の攻撃は、ディープニューラルネットワーク(DNN)を脅かし、ほとんどのサンプルで正常に動作させるが、特定のトリガが付いた入力に対して操作された結果を生成する。 トレーニング中に所定のdnnが特定のトリガーで注入されたかどうかを検出するためのいくつかの作業。 並列的な研究で、抽選券仮説は、独立訓練後の高密度ネットワークとして競争力を得ることのできるスパースサブネットの存在を明らかにする。 これら2つの点を接続し,クリーンなトレーニングデータがない場合でも,新しいスパルシティーレンズからトロイの木馬dnn検出の問題点について検討する。 我々の重要な観察は、トロイの木馬の特徴は良質な特徴よりもネットワークプルーニングにかなり安定しているということです。 そこで我々は,まず,ほぼ完全なトロイの木馬情報を保持するとともに,クリーンな入力におけるチャンスレベルの性能のみを保持する「勝利したトロイの木馬抽選券」を探索し,すでに孤立しているサブネットワークに埋め込まれたトリガを復元する,新しいトロイの木馬網検出方式を提案する。 CIFAR-10、CIFAR-100、ImageNetなど、さまざまなネットワークアーキテクチャ、すなわちVGG-16、ResNet-18、ResNet-20s、DenseNet-100に関する大規模な実験は、我々の提案の有効性を示している。 コードはhttps://github.com/VITA-Group/Backdoor-LTHで公開されている。

Trojan attacks threaten deep neural networks (DNNs) by poisoning them to behave normally on most samples, yet to produce manipulated results for inputs attached with a particular trigger. Several works attempt to detect whether a given DNN has been injected with a specific trigger during the training. In a parallel line of research, the lottery ticket hypothesis reveals the existence of sparse subnetworks which are capable of reaching competitive performance as the dense network after independent training. Connecting these two dots, we investigate the problem of Trojan DNN detection from the brand new lens of sparsity, even when no clean training data is available. Our crucial observation is that the Trojan features are significantly more stable to network pruning than benign features. Leveraging that, we propose a novel Trojan network detection regime: first locating a "winning Trojan lottery ticket" which preserves nearly full Trojan information yet only chance-level performance on clean inputs; then recovering the trigger embedded in this already isolated subnetwork. Extensive experiments on various datasets, i.e., CIFAR-10, CIFAR-100, and ImageNet, with different network architectures, i.e., VGG-16, ResNet-18, ResNet-20s, and DenseNet-100 demonstrate the effectiveness of our proposal. Codes are available at https://github.com/VITA-Group/Backdoor-LTH.
翻訳日:2022-05-25 15:21:35 公開日:2022-05-24
# 物理埋め込みニューラルネットワーク:$\boldsymbol{\mathrm{E}(n)}$-equivariant Graph Neural PDE Solvers

Physics-Embedded Neural Networks: $\boldsymbol{\mathrm{E}(n)}$-Equivariant Graph Neural PDE Solvers ( http://arxiv.org/abs/2205.11912v1 )

ライセンス: Link先を確認
Masanobu Horie and Naoto Mitsume(参考訳) グラフニューラルネットワーク(gnn)は、境界条件を持つ偏微分方程式(pdes)のような境界値問題で記述される物理現象の学習と予測に有望なアプローチである。 しかし、既存のモデルは、そのような問題の信頼性予測に不可欠な境界条件を不十分に扱う。 また,GNNは局所的に連結しているため,バーチカン間の相互作用がグローバルになる傾向にあるため,長い時間後に状態を正確に予測することは困難である。 本稿では,境界条件を考慮し,暗黙的手法を用いて長い時間経過後に状態を予測する物理埋め込みニューラルネットワークを提案する。 これは$\mathrm{E}(n)$-equivariant GNNに基づいて構築され、様々な形状で高い一般化性能をもたらす。 我々のモデルは複雑な形状のフロー現象を学習し、最適化された古典的解法および高速精度トレードオフにおける最先端の機械学習モデルより優れていることを示す。 したがって,我々のモデルは信頼性,高速,高精度なGNNベースのPDEソルバを実現する上で有用な標準となる。

Graph neural network (GNN) is a promising approach to learning and predicting physical phenomena described in boundary value problems, such as partial differential equations (PDEs) with boundary conditions. However, existing models inadequately treat boundary conditions essential for the reliable prediction of such problems. In addition, because of the locally connected nature of GNNs, it is difficult to accurately predict the state after a long time, where interaction between vertices tends to be global. We present our approach termed physics-embedded neural networks that considers boundary conditions and predicts the state after a long time using an implicit method. It is built based on an $\mathrm{E}(n)$-equivariant GNN, resulting in high generalization performance on various shapes. We demonstrate that our model learns flow phenomena in complex shapes and outperforms a well-optimized classical solver and a state-of-the-art machine learning model in speed-accuracy trade-off. Therefore, our model can be a useful standard for realizing reliable, fast, and accurate GNN-based PDE solvers.
翻訳日:2022-05-25 15:20:43 公開日:2022-05-24
# Frank-Wolfe を用いたニューラルネットワークの圧縮学習

Compression-aware Training of Neural Networks using Frank-Wolfe ( http://arxiv.org/abs/2205.11921v1 )

ライセンス: Link先を確認
Max Zimmer and Christoph Spiegel and Sebastian Pokutta(参考訳) 既存のニューラルネットワークプルーニングアプローチの多くは、プルーニングによるパフォーマンス劣化を補うために再トレーニングに依存するか、トレーニングを通じて特定のスパースソリューションに収束する強いバイアスを誘発する。 第3のパラダイムは、再トレーニングを避けながら、単一の密集したトレーニング実行から幅広い圧縮比を得る。 Pokutta et al. (2020) と Miao et al. (2022) の最近の研究は、Stochastic Frank-Wolfe (SFW) アルゴリズムが圧縮に頑健な最先端モデルのトレーニングに特に適していることを示している。 我々は,$k$をサポートするノームボールの制約を活用し,非構造的刈り取りの場合のmiao et al. (2022) の結果に対して有意な改善を示す。 また,これらの概念を構造的プルーニング領域にまで拡張し,畳み込みフィルタのプルーニングに対するロバスト性と畳み込み層の低ランクテンソル分解性を保証するための新しいアプローチを提案する。 後者の場合,本手法は計算資源の半分しか必要とせず,核ノルム正規化ベースラインと同等に動作する。 また,SFW学習モデルのロバスト性は学習率の勾配再スケーリングに大きく依存していることが示唆された。

Many existing Neural Network pruning approaches either rely on retraining to compensate for pruning-caused performance degradation or they induce strong biases to converge to a specific sparse solution throughout training. A third paradigm obtains a wide range of compression ratios from a single dense training run while also avoiding retraining. Recent work of Pokutta et al. (2020) and Miao et al. (2022) suggests that the Stochastic Frank-Wolfe (SFW) algorithm is particularly suited for training state-of-the-art models that are robust to compression. We propose leveraging $k$-support norm ball constraints and demonstrate significant improvements over the results of Miao et al. (2022) in the case of unstructured pruning. We also extend these ideas to the structured pruning domain and propose novel approaches to both ensure robustness to the pruning of convolutional filters as well as to low-rank tensor decompositions of convolutional layers. In the latter case, our approach performs on-par with nuclear-norm regularization baselines while requiring only half of the computational resources. Our findings also indicate that the robustness of SFW-trained models largely depends on the gradient rescaling of the learning rate and we establish a theoretical foundation for that practice.
翻訳日:2022-05-25 15:20:17 公開日:2022-05-24
# pynblint: python jupyterノートブック用の静的アナライザ

Pynblint: a Static Analyzer for Python Jupyter Notebooks ( http://arxiv.org/abs/2205.11934v1 )

ライセンス: Link先を確認
Luigi Quaranta, Fabio Calefato, Filippo Lanubile(参考訳) Jupyter Notebookは、MLワークフローの初期段階における多くのデータサイエンティストの選択ツールである。 しかし、ノートブックのフォーマットは悪いプログラミングプラクティスを誘発していると批判されている。 MLワークフローの原型段階からの低品質な出力は、MLモデルの製品化に向けた明らかなボトルネックとなる。 より良いノートブックの作成を促進するため、Pythonで書かれたJupyterノートブックの静的アナライザであるPynblintを開発した。 このツールは、経験的に検証されたベストプラクティスのセットでノートブック(および周辺のリポジトリ)のコンプライアンスをチェックし、違反が検出されたときにターゲットとした推奨を提供する。

Jupyter Notebook is the tool of choice of many data scientists in the early stages of ML workflows. The notebook format, however, has been criticized for inducing bad programming practices; indeed, researchers have already shown that open-source repositories are inundated by poor-quality notebooks. Low-quality output from the prototypical stages of ML workflows constitutes a clear bottleneck towards the productization of ML models. To foster the creation of better notebooks, we developed Pynblint, a static analyzer for Jupyter notebooks written in Python. The tool checks the compliance of notebooks (and surrounding repositories) with a set of empirically validated best practices and provides targeted recommendations when violations are detected.
翻訳日:2022-05-25 15:19:57 公開日:2022-05-24
# 探鉱から生産への摩擦のない遷移のための計算ノートの品質評価

Assessing the Quality of Computational Notebooks for a Frictionless Transition from Exploration to Production ( http://arxiv.org/abs/2205.11941v1 )

ライセンス: Link先を確認
Luigi Quaranta(参考訳) データ駆動型AI機能を従来のソフトウェアシステムに統合する巨大なトレンドが、新たな興味深い課題を提起している。 このような課題の1つは、機械学習プロジェクトの爆発的なフェーズ — データサイエンティストが研究室でプロトタイプモデルを構築する — から、ソフトウェアエンジニアがプロトタイプをプロダクション対応のAIコンポーネントに変換する運用フェーズへのスムーズな移行の実現である。 これら2つのフェーズ間のギャップを狭めるためには、統合ソフトウェアエンジニアリングソリューションの導入によって、データサイエンティストが採用するツールとプラクティスが改善される可能性がある。 特に、計算ノートはデータサイエンスのプロトタイプの品質を決定する上で重要な役割を担っている。 私の研究プロジェクトでは、計算ノートとのコラボレーションのベストプラクティスを研究し、ガイドライン遵守を促進するための概念実証ツールを提案することで、この問題に対処します。

The massive trend of integrating data-driven AI capabilities into traditional software systems is rising new intriguing challenges. One of such challenges is achieving a smooth transition from the explorative phase of Machine Learning projects - in which data scientists build prototypical models in the lab - to their production phase - in which software engineers translate prototypes into production-ready AI components. To narrow down the gap between these two phases, tools and practices adopted by data scientists might be improved by incorporating consolidated software engineering solutions. In particular, computational notebooks have a prominent role in determining the quality of data science prototypes. In my research project, I address this challenge by studying the best practices for collaboration with computational notebooks and proposing proof-of-concept tools to foster guidelines compliance.
翻訳日:2022-05-25 15:19:46 公開日:2022-05-24
# 確率制御系における学習安定化政策

Learning Stabilizing Policies in Stochastic Control Systems ( http://arxiv.org/abs/2205.11991v1 )

ライセンス: Link先を確認
{\DJ}or{\dj}e \v{Z}ikeli\'c, Mathias Lechner, Krishnendu Chatterjee, Thomas A. Henzinger(参考訳) 本研究では,確率的制御系に対する確率的に安定なニューラルネットワークポリシーを学習する問題に対処する。 近年の研究では、マルティンゲール理論を用いて与えられた政策を検証できることが実証されているが、その政策をどのように学ぶかという問題はほとんど解明されていない。 本稿では,単一学習アルゴリズムを用いて,その安定性を証明するマルティンゲール証明書と共同でポリシを学習することの有効性について検討する。 我々は,ランダム初期化ポリシーから始めると,局所的最小化問題に局所的最小化が容易になることを示す。 以上の結果から,政策の修正と検証を成功させるためには,政策の事前学習の何らかの形態が必要であることが示唆された。

In this work, we address the problem of learning provably stable neural network policies for stochastic control systems. While recent work has demonstrated the feasibility of certifying given policies using martingale theory, the problem of how to learn such policies is little explored. Here, we study the effectiveness of jointly learning a policy together with a martingale certificate that proves its stability using a single learning algorithm. We observe that the joint optimization problem becomes easily stuck in local minima when starting from a randomly initialized policy. Our results suggest that some form of pre-training of the policy is required for the joint optimization to repair and verify the policy successfully.
翻訳日:2022-05-25 15:19:09 公開日:2022-05-24
# time distributed multi modal 3d cnnsを用いた高精度fmri adhd分類

Highly Accurate FMRI ADHD Classification using time distributed multi modal 3D CNNs ( http://arxiv.org/abs/2205.11993v1 )

ライセンス: Link先を確認
Christopher Sims(参考訳) 本研究では,ADHD障害分類のためのfMRIデータ解析アルゴリズムを提案する。 3次元畳み込みニューラルネットワーク(CNN)によるfMRIの解析にはいくつかのブレークスルーがあった。 これらの新しい手法により、fMRIデータの3次元空間データを保存できる。 また, 通常のMRIデータ生成にGAN(generative adversarial Neural Network)を用いた手法も近年進歩している。 本研究は, マルチモーダル3D CNNと3D GANのデータ拡張を利用してfMRIのADHD予測を行う。 3D-GANを利用することで、ディープフェイクデータを使用して脳障害の3D CNN分類の精度を高めることができる。 分類のための時間分散シングルモーダル3D CNNモデルとMRIデータによる修正マルチモーダルモデルとの比較を行う。

This work proposes an algorithm for fMRI data analysis for the classification of ADHD disorders. There have been several breakthroughs in the analysis of fMRI via 3D convolutional neural networks (CNNs). With these new techniques it is possible to preserve the 3D spatial data of fMRI data. Additionally there have been recent advances in the use of 3D generative adversarial neural networks (GANs) for the generation of normal MRI data. This work utilizes multi modal 3D CNNs with data augmentation from 3D GAN for ADHD prediction from fMRI. By leveraging a 3D-GAN it would be possible to use deepfake data to enhance the accuracy of 3D CNN classification of brain disorders. A comparison will be made between a time distributed single modal 3D CNN model for classification and the modified multi modal model with MRI data as well.
翻訳日:2022-05-25 15:18:58 公開日:2022-05-24
# FedEntropy: 最大エントロピー判断を用いたフェデレーション学習のための効率的なデバイスグループ化

FedEntropy: Efficient Device Grouping for Federated Learning Using Maximum Entropy Judgment ( http://arxiv.org/abs/2205.12038v1 )

ライセンス: Link先を確認
Zhiwei Ling, Zhihao Yue, Jun Xia, Ming Hu, Ting Wang, Mingsong Chen(参考訳) 人工知能(ai)やiot(internet-of-things)の普及とともに、フェデレーション学習(fl)は、プライバシを露呈することなく、多数の分散デバイスを対象とした中央モデルのトレーニングを可能にする、有望な分散機械学習パラダイムとして、着実に注目を集めている。 しかし、関連するデバイス上の偏りのあるデータ分布のため、FLは本質的に非IIDシナリオでは分類精度が低い。 この問題に対処するために様々なデバイスグループ化手法が提案されているが、そのほとんどは両方を無視している。 一 異種機器の異なるデータ分布特性、及び 二 グローバルモデル集約の質を決定する上で極めて重要である局所モデルの寄与及び危険 In this paper, we present an effective FL method named FedEntropy with a novel dynamic device grouping scheme, which makes full use of the above two factors based on our proposed maximum entropy judgement heuristic.Unlike existing FL methods that directly aggregate local models returned from all the selected devices, in one FL round FedEntropy firstly makes a judgement based on the pre-collected soft labels of selected devices and then only aggregates the local models that can maximize the overall entropy of these soft labels. 集約に有害なローカルモデルを集めることなしに、FedEntropyは全体の通信オーバーヘッドを減らしながら、グローバルモデル精度を効果的に向上させることができる。 その結果,FedEntropyはモデル精度と通信オーバーヘッドの点で最先端のFL法よりも優れるだけでなく,それらの分類性能を高めるために統合できることがわかった。

Along with the popularity of Artificial Intelligence (AI) and Internet-of-Things (IoT), Federated Learning (FL) has attracted steadily increasing attentions as a promising distributed machine learning paradigm, which enables the training of a central model on for numerous decentralized devices without exposing their privacy. However, due to the biased data distributions on involved devices, FL inherently suffers from low classification accuracy in non-IID scenarios. Although various device grouping method have been proposed to address this problem, most of them neglect both i) distinct data distribution characteristics of heterogeneous devices, and ii) contributions and hazards of local models, which are extremely important in determining the quality of global model aggregation. In this paper, we present an effective FL method named FedEntropy with a novel dynamic device grouping scheme, which makes full use of the above two factors based on our proposed maximum entropy judgement heuristic.Unlike existing FL methods that directly aggregate local models returned from all the selected devices, in one FL round FedEntropy firstly makes a judgement based on the pre-collected soft labels of selected devices and then only aggregates the local models that can maximize the overall entropy of these soft labels. Without collecting local models that are harmful for aggregation, FedEntropy can effectively improve global model accuracy while reducing the overall communication overhead. Comprehensive experimental results on well-known benchmarks show that, FedEntropy not only outperforms state-of-the-art FL methods in terms of model accuracy and communication overhead, but also can be integrated into them to enhance their classification performance.
翻訳日:2022-05-25 15:18:46 公開日:2022-05-24
# (参考訳) onepose:cadモデルなしのワンショットオブジェクトポーズ推定

OnePose: One-Shot Object Pose Estimation without CAD Models ( http://arxiv.org/abs/2205.12257v1 )

ライセンス: CC BY-SA 4.0
Jiaming Sun, Zihao Wang, Siyu Zhang, Xingyi He, Hongcheng Zhao, Guofeng Zhang, Xiaowei Zhou(参考訳) オブジェクトポーズ推定のための新しい手法OnePoseを提案する。 既存のインスタンスレベルやカテゴリレベルのメソッドとは異なり、oneposeはcadモデルに依存しず、インスタンスやカテゴリ固有のネットワークトレーニングなしで任意のカテゴリのオブジェクトを処理できる。 OnePoseは視覚的なローカライゼーションからアイデアを導き、オブジェクトのスパースSfMモデルを構築するために、オブジェクトの単純なRGBビデオスキャンが必要である。 そして、このモデルを汎用的な特徴マッチングネットワークを備えた新しいクエリ画像に登録する。 既存の視覚的ローカライゼーション手法の低速な実行を緩和するため,クエリ画像中の2D関心点とSfMモデル内の3Dポイントとを直接マッチングするグラフアテンションネットワークを提案し,効率よくロバストなポーズ推定を行う。 機能ベースのポーズトラッカーと組み合わせて、OnePoseは6Dのポーズをリアルタイムで検出し、追跡することができる。 150個のオブジェクトからなる450のシーケンスからなる大規模データセットも収集した。

We propose a new method named OnePose for object pose estimation. Unlike existing instance-level or category-level methods, OnePose does not rely on CAD models and can handle objects in arbitrary categories without instance- or category-specific network training. OnePose draws the idea from visual localization and only requires a simple RGB video scan of the object to build a sparse SfM model of the object. Then, this model is registered to new query images with a generic feature matching network. To mitigate the slow runtime of existing visual localization methods, we propose a new graph attention network that directly matches 2D interest points in the query image with the 3D points in the SfM model, resulting in efficient and robust pose estimation. Combined with a feature-based pose tracker, OnePose is able to stably detect and track 6D poses of everyday household objects in real-time. We also collected a large-scale dataset that consists of 450 sequences of 150 objects.
翻訳日:2022-05-25 15:18:20 公開日:2022-05-24
# vision transformerを用いたプライバシー保全画像分類

Privacy-Preserving Image Classification Using Vision Transformer ( http://arxiv.org/abs/2205.12041v1 )

ライセンス: Link先を確認
Zheng Qi, AprilPyone MaungMaung, Yuma Kinoshita and Hitoshi Kiya(参考訳) 本稿では,暗号化画像と視覚変換器(ViT)を組み合わせたプライバシー保護画像分類手法を提案する。 提案手法は,視覚的情報のない画像をトレーニングとテストの両方のためにViTモデルに適用するだけでなく,高い分類精度を維持することができる。 ViTは画像パッチにパッチ埋め込みと位置埋め込みを利用するため、このアーキテクチャはブロックワイド画像変換の影響を低減することができる。 実験では,様々な攻撃に対する分類精度と堅牢性の観点から,プライバシー保護画像分類法が最先端の手法より優れていることを示す。

In this paper, we propose a privacy-preserving image classification method that is based on the combined use of encrypted images and the vision transformer (ViT). The proposed method allows us not only to apply images without visual information to ViT models for both training and testing but to also maintain a high classification accuracy. ViT utilizes patch embedding and position embedding for image patches, so this architecture is shown to reduce the influence of block-wise image transformation. In an experiment, the proposed method for privacy-preserving image classification is demonstrated to outperform state-of-the-art methods in terms of classification accuracy and robustness against various attacks.
翻訳日:2022-05-25 15:16:52 公開日:2022-05-24
# 骨格抽出のための文脈注意ネットワーク

Context Attention Network for Skeleton Extraction ( http://arxiv.org/abs/2205.12066v1 )

ライセンス: Link先を確認
Zixuan Huang, Yunfeng Wang, Zhiwen Chen, Xin Gao, Ruili Feng, Xiaobo Li(参考訳) スケルトン抽出は、与えられたバイナリまたはRGB画像からスケルトンを抽出することで、オブジェクトの単純な表現を提供することに焦点を当てたタスクである。 近年、骨格抽出における魅力的な作品が数多く作成されている。 しかし、私たちが知る限り、オブジェクトのバイナリ形式におけるコンテキスト情報の使い方に関する研究はほとんどありません。 本稿では,コンテキスト・アテンション・ネットワーク(canet)と呼ばれる,unetアーキテクチャにおけるコンテキスト抽出モジュールを統合し,スケルトン画素を抽出するネットワークの性能を効果的に向上するアテンション・ベース・モデルを提案する。 また, 距離変換, 重み焦点損失などの新しい手法を用いて, 与えられたデータセットの良好な結果を得る。 最後に,Pixel SkelNetOnコンペティションの最終段階では,モデルアンサンブルがなく,トレーニング画像の80%しかなく,開発段階で0.822 F1スコア,0.8507 F1スコアを達成した。

Skeleton extraction is a task focused on providing a simple representation of an object by extracting the skeleton from the given binary or RGB image. In recent years many attractive works in skeleton extraction have been made. But as far as we know, there is little research on how to utilize the context information in the binary shape of objects. In this paper, we propose an attention-based model called Context Attention Network (CANet), which integrates the context extraction module in a UNet architecture and can effectively improve the ability of network to extract the skeleton pixels. Meanwhile, we also use some novel techniques including distance transform, weight focal loss to achieve good results on the given dataset. Finally, without model ensemble and with only 80% of the training images, our method achieves 0.822 F1 score during the development phase and 0.8507 F1 score during the final phase of the Pixel SkelNetOn Competition, ranking 1st place on the leaderboard.
翻訳日:2022-05-25 15:16:41 公開日:2022-05-24
# 画像スタイル転送の潜時空間改善

Improving the Latent Space of Image Style Transfer ( http://arxiv.org/abs/2205.12135v1 )

ライセンス: Link先を確認
Yunpeng Bai, Cairong Wang, Chun Yuan, Yanbo Fan, Jue Wang(参考訳) 既存のニューラルスタイル転送研究は、VGGによって抽出された内容の深い特徴とスタイルイメージの統計情報を一致させ、芸術的画像の合成において顕著な改善を実現している。 しかし、事前訓練されたエンコーダの特徴統計は、私たちが認識した視覚的スタイルと一致しない場合もある。 例えば、異なるスタイルの画像間のスタイル距離は、同じスタイルのものよりも少ない。 このような不適切な潜在空間では、既存のメソッドの目的関数は間違った方向に最適化されるため、スタイリゼーション結果が悪くなる。 さらに、事前学習されたエンコーダによって抽出された機能におけるコンテンツ詳細の欠如も、コンテンツリーク問題につながる。 スタイル転送で使用される潜在空間におけるこれらの問題を解決するために,本課題に適したエンコーダを得るための2つのコントラストトレーニングスキームを提案する。 スタイルの対照的な損失は、スタイル化された結果が同じ視覚的なスタイルの画像に近づき、コンテンツイメージから切り離される。 コントラスト損失により、エンコーダはより利用可能な詳細を保持することができる。 既存のスタイル転送メソッドに直接トレーニングスキームを追加でき、その結果を大幅に改善できます。 広範な実験結果から,本手法の有効性と優越性が示された。

Existing neural style transfer researches have studied to match statistical information between the deep features of content and style images, which were extracted by a pre-trained VGG, and achieved significant improvement in synthesizing artistic images. However, in some cases, the feature statistics from the pre-trained encoder may not be consistent with the visual style we perceived. For example, the style distance between images of different styles is less than that of the same style. In such an inappropriate latent space, the objective function of the existing methods will be optimized in the wrong direction, resulting in bad stylization results. In addition, the lack of content details in the features extracted by the pre-trained encoder also leads to the content leak problem. In order to solve these issues in the latent space used by style transfer, we propose two contrastive training schemes to get a refined encoder that is more suitable for this task. The style contrastive loss pulls the stylized result closer to the same visual style image and pushes it away from the content image. The content contrastive loss enables the encoder to retain more available details. We can directly add our training scheme to some existing style transfer methods and significantly improve their results. Extensive experimental results demonstrate the effectiveness and superiority of our methods.
翻訳日:2022-05-25 15:16:23 公開日:2022-05-24
# 人工3次元運動再建のための微分力学

Differentiable Dynamics for Articulated 3d Human Motion Reconstruction ( http://arxiv.org/abs/2205.12256v1 )

ライセンス: Link先を確認
Erik G\"artner, Mykhaylo Andriluka, Erwin Coumans, Cristian Sminchisescu(参考訳) DiffPhyは、映像から3次元の人間の動きを再現する物理モデルである。 人間の運動分析における物理学に基づく推論の応用は、人間の運動の適切な物理モデルを構築する複雑さや、ループ内の物理学による安定かつ効率的な推論を行うという恐ろしい課題によって制限されてきた。 我々は, 物理的に妥当な身体表現と解剖学的関節限界, 微分可能な物理シミュレータ, 局所視能に対して良好な性能とロバスト性を保証する最適化技術を組み合わせたアプローチを提案することで, モデリングと推論の課題を共同で解決する。 近年の手法とは対照的に,本手法はシーン内の物体との相互作用を含む全身接触を容易にサポートしている。 最も重要な点は,エンド・ツー・エンドとイメージを接続し,画像に基づく損失関数による直接勾配に基づく物理最適化をサポートすることである。 そこで本研究では,3dグランドルースを持つ公開ベンチマークとインターネットのビデオの両方において,モノクロビデオから物理的に妥当な3d人間の動きを正確に再現できることを実証し,そのモデルを検証する。

We introduce DiffPhy, a differentiable physics-based model for articulated 3d human motion reconstruction from video. Applications of physics-based reasoning in human motion analysis have so far been limited, both by the complexity of constructing adequate physical models of articulated human motion, and by the formidable challenges of performing stable and efficient inference with physics in the loop. We jointly address such modeling and inference challenges by proposing an approach that combines a physically plausible body representation with anatomical joint limits, a differentiable physics simulator, and optimization techniques that ensure good performance and robustness to suboptimal local optima. In contrast to several recent methods, our approach readily supports full-body contact including interactions with objects in the scene. Most importantly, our model connects end-to-end with images, thus supporting direct gradient-based physics optimization by means of image-based loss functions. We validate the model by demonstrating that it can accurately reconstruct physically plausible 3d human motion from monocular video, both on public benchmarks with available 3d ground-truth, and on videos from the internet.
翻訳日:2022-05-25 15:16:05 公開日:2022-05-24
# HiPAL:電子健康記録のアクティビティログを用いた物理バーンアウト予測のためのディープフレームワーク

HiPAL: A Deep Framework for Physician Burnout Prediction Using Activity Logs in Electronic Health Records ( http://arxiv.org/abs/2205.11680v1 )

ライセンス: Link先を確認
Hanyang Liu, Sunny S. Lou, Benjamin C. Warner, Derek R. Harford, Thomas Kannampallil, Chenyang Lu(参考訳) バーンアウトは医療従事者のほぼ半数に影響する公衆衛生上の重大な懸念である。 本稿では,電子健康記録(EHR)システムで利用可能な臨床活動記録,その活動のデジタルトレースに基づいて,医師のバーンアウトを予測するための最初のエンドツーエンドディープラーニングフレームワークを提案する。 バーンアウト測定に専ら頼っていた従来のアプローチとは対照的に,我々のフレームワークは大規模診療活動ログから深層作業負荷表現を直接学習してバーンアウトを予測する。 活動ログに基づく階層的バーンアウト予測(HiPAL)を提案し,活動ログに適した時間依存型アクティビティ埋め込み機構と,臨床活動ログの自然な階層構造を反映した階層的予測モデルと,短期・長期の双方で医師の進化するワークロードパターンを捉えた。 ラベルなし活動ログを多用するために,ラベルなし臨床活動から抽出した知識をhipalベースの予測モデルに転送する半教師付きフレームワークを提案する。 大規模学術医療センターのehrから収集した1500万以上の臨床活動ログに関する実験は,医師の燃え尽き症候群の予測性能と最先端のアプローチに対するトレーニング効率の利点を実証するものである。

Burnout is a significant public health concern affecting nearly half of the healthcare workforce. This paper presents the first end-to-end deep learning framework for predicting physician burnout based on clinician activity logs, digital traces of their work activities, available in any electronic health record (EHR) system. In contrast to prior approaches that exclusively relied on surveys for burnout measurement, our framework directly learns deep workload representations from large-scale clinician activity logs to predict burnout. We propose the Hierarchical burnout Prediction based on Activity Logs (HiPAL), featuring a pre-trained time-dependent activity embedding mechanism tailored for activity logs and a hierarchical predictive model, which mirrors the natural hierarchical structure of clinician activity logs and captures physician's evolving workload patterns at both short-term and long-term levels. To utilize the large amount of unlabeled activity logs, we propose a semi-supervised framework that learns to transfer knowledge extracted from unlabeled clinician activities to the HiPAL-based prediction model. The experiment on over 15 million clinician activity logs collected from the EHR at a large academic medical center demonstrates the advantages of our proposed framework in predictive performance of physician burnout and training efficiency over state of the art approaches.
翻訳日:2022-05-25 15:13:57 公開日:2022-05-24
# 機能的ネットワーク:深層ニューラルネットワークの解釈可能性のための新しい枠組み

Functional Network: A Novel Framework for Interpretability of Deep Neural Networks ( http://arxiv.org/abs/2205.11702v1 )

ライセンス: Link先を確認
Ben Zhang, Zhetong Dong, Junsong Zhang, Hongwei Lin(参考訳) ディープニューラルネットワークの階層構造は、多数の分析ツールの使用を妨げるため、その解釈可能性の開発を妨げる。 機能的脳ネットワークの成功に触発されて,深層ニューラルネットワーク,すなわち機能的ネットワークの解釈可能性に関する新しい枠組みを提案する。 我々は,完全接続ネットワークの機能的ネットワークを構築し,その小世界性を探る。 本研究では,グラフ理論解析とトポロジカルデータ解析を用いて,正規化手法,すなわちバッチ正規化とドロップアウトのメカニズムを明らかにする。 1) バッチ正規化は, グローバルeシークエンシーとループ数を増加させ, モデル性能を向上させるが, フォールトトレランスを低下させることで, 敵対的ロバスト性が低下する。 2)機能特殊化とフォールトトレランスの改善により,モデルの一般化と堅牢性が向上する。 3) 機能的トポロジカルディアランスに基づいて, ディレント正規化モデルを正しくクラスタリングし, 機能的ネットワークの潜在能力を再検討し, 解釈可能性におけるトポロジカルデータ解析を行った。

The layered structure of deep neural networks hinders the use of numerous analysis tools and thus the development of its interpretability. Inspired by the success of functional brain networks, we propose a novel framework for interpretability of deep neural networks, that is, the functional network. We construct the functional network of fully connected networks and explore its small-worldness. In our experiments, the mechanisms of regularization methods, namely, batch normalization and dropout, are revealed using graph theoretical analysis and topological data analysis. Our empirical analysis shows the following: (1) Batch normalization enhances model performance by increasing the global e ciency and the number of loops but reduces adversarial robustness by lowering the fault tolerance. (2) Dropout improves generalization and robustness of models by improving the functional specialization and fault tolerance. (3) The models with dierent regularizations can be clustered correctly according to their functional topological dierences, re ecting the great potential of the functional network and topological data analysis in interpretability.
翻訳日:2022-05-25 15:13:35 公開日:2022-05-24
# 線形時間とメモリにおける半パラメトリックディープニューラルネットワーク

Semi-Parametric Deep Neural Networks in Linear Time and Memory ( http://arxiv.org/abs/2205.11718v1 )

ライセンス: Link先を確認
Richa Rastogi, Yuntian Deng, Ian Lee, Mert R. Sabuncu, Volodymyr Kuleshov(参考訳) ディープラーニングの最近の進歩は大規模パラメトリックモデルによって推進されており、計算コストが高く、解釈性に欠ける。 半パラメトリックメソッドは推論時にトレーニングセットをクエリし、よりコンパクトになるが、通常は二次計算複雑性を持つ。 本稿では,データのサイズと次元において計算コストが線形である汎用半パラメトリックニューラルネットワークSPINを紹介する。 私たちのアーキテクチャはポイントメソッドの誘導にインスパイアされ、データポイント間のクロスアテンションの新たな応用に依存しています。 推論時には、データが一定数の誘導点に蒸留されるので、その計算コストはトレーニングセットサイズで一定である。 提案手法は,既存の半パラメトリックモデルの計算要求を,データセットの範囲内で最大1桁削減し,重要な実用的問題であるジェノタイプインプテーションにおいて最先端の性能を向上させる。

Recent advances in deep learning have been driven by large-scale parametric models, which can be computationally expensive and lack interpretability. Semi-parametric methods query the training set at inference time and can be more compact, although they typically have quadratic computational complexity. Here, we introduce SPIN, a general-purpose semi-parametric neural architecture whose computational cost is linear in the size and dimensionality of the data. Our architecture is inspired by inducing point methods and relies on a novel application of cross-attention between datapoints. At inference time, its computational cost is constant in the training set size as the data gets distilled into a fixed number of inducing points. We find that our method reduces the computational requirements of existing semi-parametric models by up to an order of magnitude across a range of datasets and improves state-of-the-art performance on an important practical problem, genotype imputation.
翻訳日:2022-05-25 15:13:17 公開日:2022-05-24
# MOSPAT: 時系列異常検出のためのオートMLに基づくモデル選択とパラメータ調整

MOSPAT: AutoML based Model Selection and Parameter Tuning for Time Series Anomaly Detection ( http://arxiv.org/abs/2205.11755v1 )

ライセンス: Link先を確認
Sourav Chatterjee, Rohan Bopardikar, Marius Guerard, Uttam Thakore, Xiaodong Jiang(参考訳) 組織は異常や変更点検出アルゴリズムを利用して、ユーザの振る舞いやサービスの可用性、パフォーマンスの変化を検出する。 多くのオフザシェルフ検出アルゴリズムは、有効ではあるが、何千というユーザが数百万のユースケースやメトリクスを監視し、時系列の特徴や異常パターンが変化する大規模組織では、容易に利用できない。 手動チューニングはスケールせず、自動チューニングは基盤となる真理を必要とするが、これはほとんど利用できない。 本稿では,モデル選択とパラメータ選択のためのエンドツーエンド自動機械学習アプローチであるmospatと,ラベル付きデータを生成する生成モデルについて検討する。 当社のスケーラブルなエンドツーエンドシステムでは,大規模組織の個々のユーザが,異常検出アルゴリズムや手作業によるラベル付けの専門知識を必要とせずに,時系列監視を自身のユースケースやデータ特性に合わせて調整することが可能です。 実データおよび合成データに関する広範な実験により,この手法が1つのアルゴリズムで常に優れていることが証明された。

Organizations leverage anomaly and changepoint detection algorithms to detect changes in user behavior or service availability and performance. Many off-the-shelf detection algorithms, though effective, cannot readily be used in large organizations where thousands of users monitor millions of use cases and metrics with varied time series characteristics and anomaly patterns. The selection of algorithm and parameters needs to be precise for each use case: manual tuning does not scale, and automated tuning requires ground truth, which is rarely available. In this paper, we explore MOSPAT, an end-to-end automated machine learning based approach for model and parameter selection, combined with a generative model to produce labeled data. Our scalable end-to-end system allows individual users in large organizations to tailor time-series monitoring to their specific use case and data characteristics, without expert knowledge of anomaly detection algorithms or laborious manual labeling. Our extensive experiments on real and synthetic data demonstrate that this method consistently outperforms using any single algorithm.
翻訳日:2022-05-25 15:13:02 公開日:2022-05-24
# 有向非巡回グラフ構造を持つ一般ニューラルネットワークの線形性への遷移

Transition to Linearity of General Neural Networks with Directed Acyclic Graph Architecture ( http://arxiv.org/abs/2205.11786v1 )

ライセンス: Link先を確認
Libin Zhu, Chaoyue Liu, Mikhail Belkin(参考訳) 本稿では,任意の有向非巡回グラフに対応するフィードフォワードニューラルネットワークが,その「幅」が無限大に近づくにつれて線形性へ遷移することを示す。 これらの一般的なネットワークの幅は、入力層と第1層を除いて、ニューロンの最小緯度で特徴づけられる。 本研究は,線形性への遷移を基礎とする数学的構造を明らかにし,ニューラルネットワークカーネルの線形性や一貫性への遷移を特徴付けることを目的とした最近の研究を一般化するものである。

In this paper we show that feedforward neural networks corresponding to arbitrary directed acyclic graphs undergo transition to linearity as their "width" approaches infinity. The width of these general networks is characterized by the minimum in-degree of their neurons, except for the input and first layers. Our results identify the mathematical structure underlying transition to linearity and generalize a number of recent works aimed at characterizing transition to linearity or constancy of the Neural Tangent Kernel for standard architectures.
翻訳日:2022-05-25 15:12:45 公開日:2022-05-24
# ニューラルネットワークのダイナミクス理解のための二次モデル

Quadratic models for understanding neural network dynamics ( http://arxiv.org/abs/2205.11787v1 )

ライセンス: Link先を確認
Libin Zhu, Chaoyue Liu, Adityanarayanan Radhakrishnan, Mikhail Belkin(参考訳) 本研究では、最適化と一般化の両方において、広範ニューラルネットワークの特性を理解するためのツールとして二次モデルを提案する。 線形モデルでは捉えられない[lewkowycz et al. 2020]の「カタパルト相」のようなある種の深層学習現象が浅層reluネットワークの二次モデルに現れることを解析的に示した。 さらに,2次モデルの挙動は,特に大規模学習率体系において,一般化においてニューラルネットワークの挙動と平行であることを示す。 我々は、二次モデルがニューラルネットワークの分析に有用なツールになることを期待している。

In this work, we propose using a quadratic model as a tool for understanding properties of wide neural networks in both optimization and generalization. We show analytically that certain deep learning phenomena such as the "catapult phase" from [Lewkowycz et al. 2020], which cannot be captured by linear models, are manifested in the quadratic model for shallow ReLU networks. Furthermore, our empirical results indicate that the behaviour of quadratic models parallels that of neural networks in generalization, especially in the large learning rate regime. We expect that quadratic models will serve as a useful tool for analysis of neural networks.
翻訳日:2022-05-25 15:12:36 公開日:2022-05-24
# DNNデカップリングによるマルチエージェント協調推論:中間特徴圧縮とエッジ学習

Multi-Agent Collaborative Inference via DNN Decoupling: Intermediate Feature Compression and Edge Learning ( http://arxiv.org/abs/2205.11854v1 )

ライセンス: Link先を確認
Zhiwei Hao, Guanyu Xu, Yong Luo, Han Hu, Jianping An, Shiwen Mao(参考訳) 近年,事前学習したモデルを2つの部分に分け,それぞれユーザ機器(ue)とエッジサーバ上で実行する協調推論によるディープニューラルネットワーク(dnn)モデルの展開が注目されている。 しかし、DNNの大きな中間機能はフレキシブルなデカップリングを妨げ、既存のアプローチは単一のUEシナリオにフォーカスするか、必要なCPUサイクルを考慮してタスクを定義するだけであるが、単一のDNN層の区別は無視する。 本稿では,単一エッジサーバが複数のUEの推論を調整するマルチエージェント協調推論シナリオについて検討する。 我々の目標は、全てのUEに対して高速でエネルギー効率の高い推論を行うことです。 この目的を達成するために、我々はまず、大きな中間特徴を圧縮する軽量オートエンコーダベースの手法を設計する。 次に、DNNの推測オーバーヘッドに応じてタスクを定義し、その問題をマルコフ決定プロセス(MDP)として定式化する。 最後に,ハイブリッドアクション空間を用いた最適化問題を解くために,マルチエージェントハイブリッド近似ポリシー最適化(MAHPPO)アルゴリズムを提案する。 提案手法は,様々な種類のネットワークを用いて広範な実験を行い,推定遅延を最大56\%削減し,最大72\%のエネルギー消費を節約できることを示した。

Recently, deploying deep neural network (DNN) models via collaborative inference, which splits a pre-trained model into two parts and executes them on user equipment (UE) and edge server respectively, becomes attractive. However, the large intermediate feature of DNN impedes flexible decoupling, and existing approaches either focus on the single UE scenario or simply define tasks considering the required CPU cycles, but ignore the indivisibility of a single DNN layer. In this paper, we study the multi-agent collaborative inference scenario, where a single edge server coordinates the inference of multiple UEs. Our goal is to achieve fast and energy-efficient inference for all UEs. To achieve this goal, we first design a lightweight autoencoder-based method to compress the large intermediate feature. Then we define tasks according to the inference overhead of DNNs and formulate the problem as a Markov decision process (MDP). Finally, we propose a multi-agent hybrid proximal policy optimization (MAHPPO) algorithm to solve the optimization problem with a hybrid action space. We conduct extensive experiments with different types of networks, and the results show that our method can reduce up to 56\% of inference latency and save up to 72\% of energy consumption.
翻訳日:2022-05-25 15:12:25 公開日:2022-05-24
# 構造的健康モニタリングにおける領域適応の統計的アライメントについて

On statistic alignment for domain adaptation in structural health monitoring ( http://arxiv.org/abs/2205.12052v1 )

ライセンス: Link先を確認
Jack Poole, Paul Gardner, Nikolaos Dervilis, Lawrence Bull, Keith Worden(参考訳) 構造健康モニタリング(SHM)の実践的応用は、ラベル付きデータの可用性によって制限されることが多い。 転送学習(特にドメイン適応(DA)の形で)は、特徴空間を整列するマッピングを推論することによって、物理的あるいは数値的な構造の集団からの情報を活用する可能性をもたらす。 典型的なda法は非パラメトリック距離メトリクスに依存しており、密度推定を行うのに十分なデータを必要とする。 さらに、これらのメソッドはクラス不均衡下でのパフォーマンス低下を引き起こす可能性がある。 これらの問題に対処するために,統計アライメント (statistic alignment, sa) が議論され,それらの手法がクラス不均衡に対して頑健になることを示す。 数値ケーススタディにおいて,SAは標的ラベルのない損傷局所化を促進することを実証し,他の最先端DA法よりも優れた性能を示した。 その後、実際の異種集団であるZ24橋とKW51橋の特徴空間を整列できることが示され、KW51橋から使用されるサンプルはわずか220である。 最後に、知識転送にもっと複雑なマッピングが必要となるシナリオでは、saは重要な前処理ツールであることが示され、確立されたdaメソッドのパフォーマンスが向上する。

The practical application of structural health monitoring (SHM) is often limited by the availability of labelled data. Transfer learning - specifically in the form of domain adaptation (DA) - gives rise to the possibility of leveraging information from a population of physical or numerical structures, by inferring a mapping that aligns the feature spaces. Typical DA methods rely on nonparametric distance metrics, which require sufficient data to perform density estimation. In addition, these methods can be prone to performance degradation under class imbalance. To address these issues, statistic alignment (SA) is discussed, with a demonstration of how these methods can be made robust to class imbalance, including a special case of class imbalance called a partial DA scenario. SA is demonstrated to facilitate damage localisation with no target labels in a numerical case study, outperforming other state-of-the-art DA methods. It is then shown to be capable of aligning the feature spaces of a real heterogeneous population, the Z24 and KW51 bridges, with only 220 samples used from the KW51 bridge. Finally, in scenarios where more complex mappings are required for knowledge transfer, SA is shown to be a vital pre-processing tool, increasing the performance of established DA methods.
翻訳日:2022-05-25 15:11:44 公開日:2022-05-24
# 不均衡分類におけるカップリング-レギュレーション-不均衡損失を伴う段階的プログレッシブ学習

Phased Progressive Learning with Coupling-Regulation-Imbalance Loss for Imbalanced Classification ( http://arxiv.org/abs/2205.12117v1 )

ライセンス: Link先を確認
Liang Xu, Yi Cheng, Fan Zhang, Bingxuan Wu, Pengfei Shao, Peng Liu, Shuwei Shen, Peng Yao, Ronald X.Xu(参考訳) ディープニューラルネットワークは一般に、異なるクラス間の量の不均衡と分類の困難さに苦しむデータセットでは、うまく機能しない。 既存の2段階アプローチにおけるデータセットバイアスやドメインシフトの問題を緩和するために,表現学習から上位クラス化学習への学習強調を円滑に伝達する段階進行学習スケジュールを提案した。 これは、より厳しい不均衡またはより小さなスケールを持つデータセットにより大きな効果をもたらす。 補正項, 焦点損失, LDAM損失を結合した結合制御不均衡損失関数を設計した。 結合制御不均衡損失は、様々な分類困難を伴うサンプルの集中度を調節しながら、量不均衡と外乱に対処する。 これらの手法を用いて、複数のベンチマークデータセット上で優れた結果が得られ、他の不均衡な分類モデルに対して容易に一般化できる。 私たちのコードはもうすぐオープンソースになるでしょう。

Deep neural networks generally perform poorly with datasets that suffer from quantity imbalance and classification difficulty imbalance between different classes. In order to alleviate the problem of dataset bias or domain shift in the existing two-stage approaches, a phased progressive learning schedule was proposed for smoothly transferring the training emphasis from representation learning to upper classifier training. This has greater effectivity on datasets that have more severe imbalances or smaller scales. A coupling-regulation-imbalance loss function was designed, coupling a correction term, Focal loss and LDAM loss. Coupling-regulation-imbalance loss can better deal with quantity imbalance and outliers, while regulating focus-of-attention of samples with a variety of classification difficulties. Excellent results were achieved on multiple benchmark datasets using these approaches and they can be easily generalized for other imbalanced classification models. Our code will be open source soon.
翻訳日:2022-05-25 15:10:56 公開日:2022-05-24
# グラフ学習のための非同期ニューラルネットワーク

Asynchronous Neural Networks for Learning in Graphs ( http://arxiv.org/abs/2205.12245v1 )

ライセンス: Link先を確認
Lukas Faber, Roger Wattenhofer(参考訳) 本稿では、ニューラルネットワークに基づく学習をグラフに適用するための新しいパラダイムである非同期メッセージパッシング(AMP)について研究する。 既存のグラフニューラルネットワークは、同期分散コンピューティングモデルを使用して、各ラウンドの近傍を集約する。 一方AMPは、ノードが隣人のメッセージに個別に反応する非同期モデルに基づいている。 私たちはそれを証明します (i)AMPは同期GNNをシミュレートできる (ii) AMP は理論上任意のグラフを区別することができる。 AMPの表現性を実験的に検証した。 さらに、AMPは、グラフの広い距離でメッセージを伝播するのに適しており、いくつかのグラフ分類ベンチマークでよく機能することを示した。

This paper studies asynchronous message passing (AMP), a new paradigm for applying neural network based learning to graphs. Existing graph neural networks use the synchronous distributed computing model and aggregate their neighbors in each round, which causes problems such as oversmoothing and limits their expressiveness. On the other hand, AMP is based on the asynchronous model, where nodes react to messages of their neighbors individually. We prove that (i) AMP can simulate synchronous GNNs and that (ii) AMP can theoretically distinguish any pair of graphs. We experimentally validate AMP's expressiveness. Further, we show that AMP might be better suited to propagate messages over large distances in graphs and performs well on several graph classification benchmarks.
翻訳日:2022-05-25 15:10:40 公開日:2022-05-24
# Thalamus: 生物学的に証明可能な連続学習と非絡み合い表現のための脳誘発アルゴリズム

Thalamus: a brain-inspired algorithm for biologically-plausible continual learning and disentangled representations ( http://arxiv.org/abs/2205.11713v1 )

ライセンス: Link先を確認
Ali Hummos(参考訳) 動物は絶えず変化する環境の中で成長し、時間的構造を利用してよくリファクタリングされた因果表現を学ぶ。 対照的に、従来のニューラルネットワークは環境の変化を忘れることに苦しめられ、異なるトレードオフで忘れることを制限するために多くの方法が提案されている。 脳視床皮質回路に触発されて,時間的文脈の内部表現を推定し,現在の文脈を動的に推測し,エージェントが時間的経験の流れを離散的な事象に解析し,それらの学習を組織化する,単純なアルゴリズムを導入する。 従来の重み付け更新を用いて一連のタスクをトレーニングしたネットワークは、潜時タスク埋め込み空間における勾配降下ステップを用いて動的にタスクを推論できる(レイトアップデート)。 次に、重み更新と潜伏更新を交互に交互に行い、単純な勾配勾配勾配を用いてラベル付けされていないタスクのストリーム内で不整合表現を発見できるタスク非依存アルゴリズムであるTalamusに到達します。 連続学習ベンチマークでは、競合平均精度を達成し、知識伝達を実証する。 タスクのサブセットを学んだ後、一発の潜伏更新を通じて、十分にリファクタリングされた潜伏空間内で到達可能なタスクに一般化することができる。 このアルゴリズムは、オープンエンド環境での理想的な学習エージェントのデシラタの多くに適合し、その単純さは脳の視床皮質回路のような豊富なフィードバック制御ループを持つ回路の基本的な計算を示唆している。

Animals thrive in a constantly changing environment and leverage the temporal structure to learn well-factorized causal representations. In contrast, traditional neural networks suffer from forgetting in changing environments and many methods have been proposed to limit forgetting with different trade-offs. Inspired by the brain thalamocortical circuit, we introduce a simple algorithm that uses optimization at inference time to generate internal representations of temporal context and to infer current context dynamically, allowing the agent to parse the stream of temporal experience into discrete events and organize learning about them. We show that a network trained on a series of tasks using traditional weight updates can infer tasks dynamically using gradient descent steps in the latent task embedding space (latent updates). We then alternate between the weight updates and the latent updates to arrive at Thalamus, a task-agnostic algorithm capable of discovering disentangled representations in a stream of unlabeled tasks using simple gradient descent. On a continual learning benchmark, it achieves competitive end average accuracy and demonstrates knowledge transfer. After learning a subset of tasks it can generalize to unseen tasks as they become reachable within the well-factorized latent space, through one-shot latent updates. The algorithm meets many of the desiderata of an ideal continually learning agent in open-ended environments, and its simplicity suggests fundamental computations in circuits with abundant feedback control loops such as the thalamocortical circuits in the brain.
翻訳日:2022-05-25 15:10:30 公開日:2022-05-24
# コールドスタート会話推薦のためのメタポリシー学習

Meta Policy Learning for Cold-Start Conversational Recommendation ( http://arxiv.org/abs/2205.11788v1 )

ライセンス: Link先を確認
Zhendong Chu, Hongning Wang, Yun Xiao, Bo Long, Lingfei Wu(参考訳) 会話レコメンデーションシステム(CRS)は、ユーザの好みを明示的に求め、即時に改善する。 既存のCRSソリューションの多くは、人口の1つのポリシーを訓練するために強化学習手法を採用している。 しかし、システムに慣れたユーザーにとって、このようなグローバルポリシーは、会話による推薦、すなわちコールドスタートの課題を生み出すのに効果がない。 本稿では,メタ強化学習によるコールドスタートユーザに対するCRSポリシー学習について検討する。 我々はメタポリシーを学習し、会話レコメンデーションのほんの少しの試行で新しいユーザーに適応することを提案する。 政策適応を容易にするために,3つの相乗成分を設計する。 第一に、探索的な会話を通じてユーザーの好みを特定するためのメタエクスプロレーションポリシーである。 2つ目はTransformerベースのステートエンコーダで、会話中にユーザの肯定的なフィードバックと否定的なフィードバックの両方をモデル化する。 そして3つ目は,組込み状態に基づいた適応アイテムレコメンダです。 3つのデータセットに関する広範な実験は、最先端のcrsソリューションの豊富なセットと比較して、新しいユーザに提供するソリューションの利点を示しています。

Conversational recommender systems (CRS) explicitly solicit users' preferences for improved recommendations on the fly. Most existing CRS solutions employ reinforcement learning methods to train a single policy for a population of users. However, for users new to the system, such a global policy becomes ineffective to produce conversational recommendations, i.e., the cold-start challenge. In this paper, we study CRS policy learning for cold-start users via meta reinforcement learning. We propose to learn a meta policy and adapt it to new users with only a few trials of conversational recommendations. To facilitate policy adaptation, we design three synergetic components. First is a meta-exploration policy dedicated to identify user preferences via exploratory conversations. Second is a Transformer-based state encoder to model a user's both positive and negative feedback during the conversation. And third is an adaptive item recommender based on the embedded states. Extensive experiments on three datasets demonstrate the advantage of our solution in serving new users, compared with a rich set of state-of-the-art CRS solutions.
翻訳日:2022-05-25 15:10:04 公開日:2022-05-24
# 総合型ゲームにおける効率的な逸脱タイプと後視性学習:補正

Efficient Deviation Types and Learning for Hindsight Rationality in Extensive-Form Games: Corrections ( http://arxiv.org/abs/2205.12031v1 )

ライセンス: Link先を確認
Dustin Morrill, Ryan D'Orazio, Marc Lanctot, James R. Wright, Michael Bowling, Amy R. Greenwald(参考訳) 隠れた合理性(Hindsight rationality)は、一組の偏差に関して個々のエージェントに対して非相対的な学習力学を規定する一般サムゲームに対するアプローチであり、また、仲介均衡を持つ複数のエージェント間での合理な振る舞いを記述している。 逐次的意思決定設定における後見的合理的学習を開発するために,広義ゲームの構造を尊重する偏差の一般的なクラスとして行動偏差を定式化する。 時間選択のアイデアを反実的後悔最小化 (CFR) に統合し, 集合の複雑さと密にスケールする計算を用いて, 任意の行動偏差に対して後向きな合理性を実現する広義の後悔最小化 (EFR) アルゴリズムを導入する。 動作偏差部分集合(部分配列偏差型)は,以前に研究した型をサブセットし,適度な長さのゲームにおいて効率的なERFインスタンスを生成する。 さらに、ベンチマークゲームにおいて、異なる偏差型でインスタンス化されたERFの徹底的な実証分析を行い、より強い型が典型的にはより良いパフォーマンスをもたらすことを示した。

Hindsight rationality is an approach to playing general-sum games that prescribes no-regret learning dynamics for individual agents with respect to a set of deviations, and further describes jointly rational behavior among multiple agents with mediated equilibria. To develop hindsight rational learning in sequential decision-making settings, we formalize behavioral deviations as a general class of deviations that respect the structure of extensive-form games. Integrating the idea of time selection into counterfactual regret minimization (CFR), we introduce the extensive-form regret minimization (EFR) algorithm that achieves hindsight rationality for any given set of behavioral deviations with computation that scales closely with the complexity of the set. We identify behavioral deviation subsets, the partial sequence deviation types, that subsume previously studied types and lead to efficient EFR instances in games with moderate lengths. In addition, we present a thorough empirical analysis of EFR instantiated with different deviation types in benchmark games, where we find that stronger types typically induce better performance.
翻訳日:2022-05-25 15:09:48 公開日:2022-05-24
# 近似反射結合の弱収束と非凸最適化への応用

Weak Convergence of Approximate reflection coupling and its Application to Non-convex Optimization ( http://arxiv.org/abs/2205.11970v1 )

ライセンス: Link先を確認
Keisuke Suzuki(参考訳) 本稿では,確率微分方程式(sdes)に対する反射結合(rc)の弱近似を提案し,所望の結合に弱収束することを証明する。 RCとは対照的に、提案された近似反射結合(ARC)は、プロセスの打点時間を対角線に向ける必要がなく、時間間隔全体におけるいくつかのSDEの解として定義することができる。 したがって、ARCは異なるドリフト項を持つSDEに対して効果的に動作する。 ARCの適用例として,非凸条件下での確率勾配降下の有効性の評価について述べる。 サンプルサイズが$n$, ステップサイズが$\eta$, バッチサイズが$B$に対して, それぞれ$n^{-1}$, $\eta^{1/2}$, $\sqrt{(n - B) / B (n - 1)}$の順に均一な評価を導出する。

In this paper, we propose a weak approximation of the reflection coupling (RC) for stochastic differential equations (SDEs), and prove it converges weakly to the desired coupling. In contrast to the RC, the proposed approximate reflection coupling (ARC) need not take the hitting time of processes to the diagonal set into consideration and can be defined as the solution of some SDEs on the whole time interval. Therefore, ARC can work effectively against SDEs with different drift terms. As an application of ARC, an evaluation on the effectiveness of the stochastic gradient descent in a non-convex setting is also described. For the sample size $n$, the step size $\eta$, and the batch size $B$, we derive uniform evaluations on the time with orders $n^{-1}$, $\eta^{1/2}$, and $\sqrt{(n - B) / B (n - 1)}$, respectively.
翻訳日:2022-05-25 15:09:25 公開日:2022-05-24
# エンドツーエンドマンダリン音声認識のためのマルチレベルモデリングユニット

Multi-Level Modeling Units for End-to-End Mandarin Speech Recognition ( http://arxiv.org/abs/2205.11998v1 )

ライセンス: Link先を確認
Yuting Yang, Binbin Du, Yuke Li(参考訳) モデリングユニットの選択は音響モデルの性能に影響を与え、自動音声認識(ASR)において重要な役割を果たす。 マンダリンのシナリオでは、漢字は意味を表すが、発音に直接関係しない。 したがって、漢字の表記をモデリング単位として考えるだけでは、音声の特徴を捉えるには不十分である。 本稿では,マンダリン音声認識のための多レベル情報を統合する多レベルモデリングユニットを用いた新しい手法を提案する。 具体的には、エンコーダブロックはシラブルをモデリングユニットとし、デコーダブロックはキャラクタモデリングユニットを扱う。 推論中、入力特徴列はエンコーダブロックによって音節列に変換され、その後デコーダブロックによって漢字に変換される。 このプロセスは、追加の変換モデルを導入することなく、統一されたエンドツーエンドモデルによって実行される。 InterCE補助タスクを導入することで、CERの4.1%/4.6%と4.6%/5.2%を言語モデルのないAISHELL-1ベンチマークでそれぞれコンフォーマーとトランスフォーマーのバックボーンを用いて比較した。

The choice of modeling units affects the performance of the acoustic modeling and plays an important role in automatic speech recognition (ASR). In mandarin scenarios, the Chinese characters represent meaning but are not directly related to the pronunciation. Thus only considering the writing of Chinese characters as modeling units is insufficient to capture speech features. In this paper, we present a novel method involves with multi-level modeling units, which integrates multi-level information for mandarin speech recognition. Specifically, the encoder block considers syllables as modeling units, and the decoder block deals with character modeling units. During inference, the input feature sequences are converted into syllable sequences by the encoder block and then converted into Chinese characters by the decoder block. This process is conducted by a unified end-to-end model without introducing additional conversion models. By introducing InterCE auxiliary task, our method achieves competitive results with CER of 4.1%/4.6% and 4.6%/5.2% on the widely used AISHELL-1 benchmark without a language model, using the Conformer and the Transformer backbones respectively.
翻訳日:2022-05-25 15:09:06 公開日:2022-05-24
# 学習型適応多面体画像を用いた野生単眼映像合成

Single-View View Synthesis in the Wild with Learned Adaptive Multiplane Images ( http://arxiv.org/abs/2205.11733v1 )

ライセンス: Link先を確認
Yuxuan Han, Ruicheng Wang, Jiaolong Yang(参考訳) 本論文は,地中写真のための新しいビューを合成する難題について論じる。 既存の手法では, 単分子深度推定と層状深度表現による色塗布による有望な結果を示している。 しかし、これらの手法は複雑な3次元幾何学でシーンを扱う能力に制限がある。 本論文では,マルチプレーン画像(mpi)表現に基づく新しい手法を提案する。 野生の多様なシーンレイアウトに対応し,高次元mpiコンテンツ作成の難しさに対処すべく,平面深度調整用と奥行き認識色予測用の2つの新規モジュールからなるネットワーク構造を設計した。 前者はrgbdコンテキスト特徴と注意機構を用いて初期平面位置を調整する。 調整された深さ値が与えられた場合、後者は特徴マスキング戦略によって達成された適切な平面間相互作用で各平面の色と密度を別々に予測する。 提案手法を訓練するために,制約のない単一視点画像のみを用いた大規模ステレオトレーニングデータを構築した。 合成データと実データの両方の実験により、我々のトレーニングされたモデルは驚くほどうまく機能し、最先端の結果が得られます。

This paper deals with the challenging task of synthesizing novel views for in-the-wild photographs. Existing methods have shown promising results leveraging monocular depth estimation and color inpainting with layered depth representations. However, these methods still have limited capability to handle scenes with complex 3D geometry. We propose a new method based on the multiplane image (MPI) representation. To accommodate diverse scene layouts in the wild and tackle the difficulty in producing high-dimensional MPI contents, we design a network structure that consists of two novel modules, one for plane depth adjustment and another for depth-aware color prediction. The former adjusts the initial plane positions using the RGBD context feature and an attention mechanism. Given adjusted depth values, the latter predicts the color and density for each plane separately with proper inter-plane interactions achieved via a feature masking strategy. To train our method, we construct large-scale stereo training data using only unconstrained single-view image collections by a simple yet effective warp-back strategy. The experiments on both synthetic and real datasets demonstrate that our trained model works remarkably well and achieves state-of-the-art results.
翻訳日:2022-05-25 15:08:08 公開日:2022-05-24
# UNet#: 医用画像セグメンテーションのためのUNetライクな再設計スキップ接続

UNet#: A UNet-like Redesigning Skip Connections for Medical Image Segmentation ( http://arxiv.org/abs/2205.11759v1 )

ライセンス: Link先を確認
Ledan Qian, Xiao Zhou, Yi Li, Zhongyi Hu(参考訳) 医療用インテリジェントアシスタントシステムの開発に欠かせない前提条件として,医療画像分割はニューラルネットワークコミュニティから広範な研究と集中を受けている。 エンコーダ-デコーダアーキテクチャを備えた一連のUNetライクなネットワークは、UNet2+とUNet3+を再設計し、それぞれ高密度なスキップ接続とフルスケールのスキップ接続を提案し、医用画像セグメンテーションにおいてUNetと比較して劇的に改善した。 しかし、UNet2+には、臓器の位置と境界の学習に影響を与える十分な情報がない。 UNet3+は、構造内の少数のニューロンのため、完全な集約機能マップを得ることができるが、サンプルの数が少ない場合には、小さなオブジェクトのセグメンテーションを満足しない。 本稿では,unet-sharp (unet\#) という,記号 \# に類似した形状を持つ,密なスキップ接続と本格的なスキップ接続を組み合わせた新しいネットワーク構造を提案する。 提案されたUNet\#は、デコーダサブネットワーク内の異なるスケールの機能マップを集約し、詳細な詳細と粗粒度のセマンティクスをフルスケールから取得することで、正確な位置を学習し、臓器や病変の境界を正確にセグメンテーションするのに役立つ。 モデルプルーニングを深く監視し,テストのスピードアップと,モデルをモバイルデバイス上で動作可能にする。さらに,偽陽性の低減を目的とした2つの分類誘導モジュールの設計によって,より正確なセグメンテーション結果が得られる。 異なるモダリティ(em, ct, mri)と次元(2d, 3d)のデータセット(核, 脳腫瘍, 肝臓, 肺など)におけるセマンティックセグメンテーションとインスタンスセグメンテーションの様々な実験は、提案手法が最先端モデルよりも優れていることを示している。

As an essential prerequisite for developing a medical intelligent assistant system, medical image segmentation has received extensive research and concentration from the neural network community. A series of UNet-like networks with encoder-decoder architecture has achieved extraordinary success, in which UNet2+ and UNet3+ redesign skip connections, respectively proposing dense skip connection and full-scale skip connection and dramatically improving compared with UNet in medical image segmentation. However, UNet2+ lacks sufficient information explored from the full scale, which will affect the learning of organs' location and boundary. Although UNet3+ can obtain the full-scale aggregation feature map, owing to the small number of neurons in the structure, it does not satisfy the segmentation of tiny objects when the number of samples is small. This paper proposes a novel network structure combining dense skip connections and full-scale skip connections, named UNet-sharp (UNet\#) for its shape similar to symbol \#. The proposed UNet\# can aggregate feature maps of different scales in the decoder sub-network and capture fine-grained details and coarse-grained semantics from the full scale, which benefits learning the exact location and accurately segmenting the boundary of organs or lesions. We perform deep supervision for model pruning to speed up testing and make it possible for the model to run on mobile devices; furthermore, designing two classification-guided modules to reduce false positives achieves more accurate segmentation results. Various experiments of semantic segmentation and instance segmentation on different modalities (EM, CT, MRI) and dimensions (2D, 3D) datasets, including the nuclei, brain tumor, liver, and lung, demonstrate that the proposed method outperforms state-of-the-art models.
翻訳日:2022-05-25 15:07:51 公開日:2022-05-24
# Thunder:Thumbnailベースの高速軽量画像デノイングネットワーク

Thunder: Thumbnail based Fast Lightweight Image Denoising Network ( http://arxiv.org/abs/2205.11823v1 )

ライセンス: Link先を確認
Yifeng Zhou and Xing Xu and Shuaicheng Liu and Guoqing Wang and Huimin Lu and Heng Tao Shen(参考訳) 実世界の画像からノイズを除去する有望な結果を得るため、既存のデノナイジングネットワークの多くは複雑なネットワーク構造で定式化されており、展開には実用的ではない。 いくつかの試みはフィルタや特徴チャネルの数を減らすことに重点を置いていたが、大きな性能損失を被り、高速な推論速度を持つより実用的で軽量なデノナイジングネットワークが要求される。 この目的のために, netwo\textbf{r}k を thunder と呼ぶ \textbf{thu}mb\textbf{n}ail ベースの \textbf{d}\textbf{e}noising netwo\textbf{r}k を提案・実装した。 具体的には,(1)サブバンド相関を利用して低頻度特性に基づく近似サムネイルを提供するwavelet-based thumbnail subspace encoder (tse),(2)サブスペースプロジェクションアプローチに基づいてサムネイルの詳細を段階的に復元するsubspace projection based refine module (spr)である。 提案したThunderは既存の軽量モデルよりも優れており、複雑な設計と比較するとPSNRとSSIMの競争性能が優れていることが実証された。

To achieve promising results on removing noise from real-world images, most of existing denoising networks are formulated with complex network structure, making them impractical for deployment. Some attempts focused on reducing the number of filters and feature channels but suffered from large performance loss, and a more practical and lightweight denoising network with fast inference speed is of high demand. To this end, a \textbf{Thu}mb\textbf{n}ail based \textbf{D}\textbf{e}noising Netwo\textbf{r}k dubbed Thunder, is proposed and implemented as a lightweight structure for fast restoration without comprising the denoising capabilities. Specifically, the Thunder model contains two newly-established modules: (1) a wavelet-based Thumbnail Subspace Encoder (TSE) which can leverage sub-bands correlation to provide an approximate thumbnail based on the low-frequent feature; (2) a Subspace Projection based Refine Module (SPR) which can restore the details for thumbnail progressively based on the subspace projection approach. Extensive experiments have been carried out on two real-world denoising benchmarks, demonstrating that the proposed Thunder outperforms the existing lightweight models and achieves competitive performance on PSNR and SSIM when compared with the complex designs.
翻訳日:2022-05-25 15:07:15 公開日:2022-05-24
# 画像の階層的ベクトル化

Hierarchical Vectorization for Portrait Images ( http://arxiv.org/abs/2205.11880v1 )

ライセンス: Link先を確認
Qian Fu, Linlin Liu, Fei Hou, Ying He(参考訳) 直感的かつ使いやすいポートレート編集ツールの開発を目指して,ラスター画像を3層階層表現に自動変換する新たなベクトル化手法を提案する。 ベース層は、鮮やかな幾何学的特徴と低周波な色を特徴付けるスパース拡散曲線(DC)の集合と、セマンティックカラー転送および表情編集のための手段からなる。 中層は、大きく編集可能なポアソン領域(PR)に仕様ハイライトと影を符号化し、ユーザーはPRの強度や形状を調整して照明を直接調整することができる。 トップレベルは、高周波残差のための2種類のピクセルサイズのprと、穴あけや色素沈着などの細部を含む。 また,高頻度残差を自動的に生成できる深部生成モデルも訓練した。 ベクトルプリミティブの有意義な構成のおかげで、ポートレートの編集は簡単で直感的になる。 特に,色の移動,表情の編集,ハイライトと影の編集,自動修正をサポートする。 ラプラス演算子の線形性のおかげで、ベクタ編集にアルファブレンディング、線形ドッジ、線形バーンを導入し、ハイライトやシャドーの編集に有効であることを示す。 その結果を定量的に評価するために,照明を考慮し,よく用いられるフリップメトリック(画像間の差を測定する)を拡張する。 照明感度FLIP(英語版)またはIS-FLIP(英語版)と呼ばれる新しい測定基準は、色移動結果の顕著な変化を効果的に捉え、FLIPや他の肖像画の画質測定値よりも人間の知覚と一致している。 本手法はFFHQRデータセット上で評価し,リタッチ,光編集,色移動,表現編集などの一般的な画像編集作業に有効であることを示す。 コードとトレーニングされたモデルを公開します。

Aiming at developing intuitive and easy-to-use portrait editing tools, we propose a novel vectorization method that can automatically convert raster images into a 3-tier hierarchical representation. The base layer consists of a set of sparse diffusion curves (DC) which characterize salient geometric features and low-frequency colors and provide means for semantic color transfer and facial expression editing. The middle level encodes specular highlights and shadows to large and editable Poisson regions (PR) and allows the user to directly adjust illumination via tuning the strength and/or changing shape of PR. The top level contains two types of pixel-sized PRs for high-frequency residuals and fine details such as pimples and pigmentation. We also train a deep generative model that can produce high-frequency residuals automatically. Thanks to the meaningful organization of vector primitives, editing portraits becomes easy and intuitive. In particular, our method supports color transfer, facial expression editing, highlight and shadow editing and automatic retouching. Thanks to the linearity of the Laplace operator, we introduce alpha blending, linear dodge and linear burn to vector editing and show that they are effective in editing highlights and shadows. To quantitatively evaluate the results, we extend the commonly used FLIP metric (which measures differences between two images) by considering illumination. The new metric, called illumination-sensitive FLIP or IS-FLIP, can effectively capture the salient changes in color transfer results, and is more consistent with human perception than FLIP and other quality measures on portrait images. We evaluate our method on the FFHQR dataset and show that our method is effective for common portrait editing tasks, such as retouching, light editing, color transfer and expression editing. We will make the code and trained models publicly available.
翻訳日:2022-05-25 15:06:42 公開日:2022-05-24
# GraSens: WiFiを用いた行動認識のためのガバー残留アンチエイリアスセンシングフレームワーク

GraSens: A Gabor Residual Anti-aliasing Sensing Framework for Action Recognition using WiFi ( http://arxiv.org/abs/2205.11945v1 )

ライセンス: Link先を確認
Yanling Hao, Zhiyuan Shi, Xidong Mu, Yuanwei Liu(参考訳) WiFiベースのヒューマンアクション認識(HAR)は、WiFi信号の広範で控えめな性質のため、スマートリビングやリモート監視といったアプリケーションにおいて有望なソリューションと見なされている。 しかし、WiFi信号の有効性は周囲環境の変化の影響を受けやすく、異なるサブキャリアによって異なる。 そこで本研究では,無線機器からのWiFi信号による動作を直接認識する,エンド・ツー・エンドのGabor残留アンチエイリアスセンシングネットワーク(GraSens)を提案する。 特に、新しいGabor残差ブロックは、WiFi信号の信頼性と堅牢な時間周波数表現の学習に焦点をあてて、環境変化の影響に対処するように設計されている。 各ブロックにおいて、Gabor層を残留的にアンチエイリアシング層に統合し、シフト不変の特徴を得る。 さらに,wi-fi信号の有効性を明示し,異なるサブキャリアに散在する出力特性の質を高めるために,フラクタル時間と周波数の自己着脱が提案されている。 無線ビジョン行動認識データセット(WVAR)と3つの公開データセットによる実験結果から,提案手法が認識精度において最先端の手法より優れていることが示された。

WiFi-based human action recognition (HAR) has been regarded as a promising solution in applications such as smart living and remote monitoring due to the pervasive and unobtrusive nature of WiFi signals. However, the efficacy of WiFi signals is prone to be influenced by the change in the ambient environment and varies over different sub-carriers. To remedy this issue, we propose an end-to-end Gabor residual anti-aliasing sensing network (GraSens) to directly recognize the actions using the WiFi signals from the wireless devices in diverse scenarios. In particular, a new Gabor residual block is designed to address the impact of the changing surrounding environment with a focus on learning reliable and robust temporal-frequency representations of WiFi signals. In each block, the Gabor layer is integrated with the anti-aliasing layer in a residual manner to gain the shift-invariant features. Furthermore, fractal temporal and frequency self-attention are proposed in a joint effort to explicitly concentrate on the efficacy of WiFi signals and thus enhance the quality of output features scattered in different subcarriers. Experimental results throughout our wireless-vision action recognition dataset (WVAR) and three public datasets demonstrate that our proposed GraSens scheme outperforms state-of-the-art methods with respect to recognition accuracy.
翻訳日:2022-05-25 15:06:13 公開日:2022-05-24
# SVBRDF推定のための教師なし生成逆数ネットワークを導く拡散マップ

Diffuse Map Guiding Unsupervised Generative Adversarial Network for SVBRDF Estimation ( http://arxiv.org/abs/2205.11951v1 )

ライセンス: Link先を確認
Zhiyao Luo, Hongnan Chen(参考訳) 現実の素材の再構築は、コンピュータグラフィックスにおいて常に難しい問題であった。 実世界の物質を正確に再構成することは、現実的なレンダリングの分野で重要である。 伝統的に、コンピュータグラフィックスの素材はアーティストによってマッピングされ、座標変換によって幾何学モデルにマッピングされ、最終的にレンダリングエンジンでレンダリングされ、リアルな素材が得られる。 不透明なオブジェクトに対して、業界は通常、物質モデリングに物理ベースの双方向反射率分布関数(BRDF)レンダリングモデルを使用する。 一般的な物理ベースのレンダリングモデルはCook-Torrance BRDF、Disney BRDFである。 本稿では,Cook-Torranceモデルを用いて材料を再構築する。 SVBRDFの材料パラメータは、正規、拡散、スペクトル、粗さである。 本稿では,GAN(Generative Adversarial Network)に基づく拡散マップ誘導材料推定手法を提案する。 この方法では、携帯電話で撮影した数枚の写真だけで、グローバル機能を備えたsvbrdfマップを予測できる。 本論文の主な貢献は次のとおりである。 1)少数の入力画像の事前処理を行い,多数の非繰り返し画像を生成してトレーニングを行い,過度な適合を減らす。 2)グローバルな特徴を持つ推定拡散マップを直接取得するために,新しい手法を用いて,トレーニングプロセスの事前情報を提供する。 3) ジェネレータのネットワーク構造を改良し, 通常の地図の細部を再現し, オーバーフラットな正規地図を生成する可能性を低減する。 本稿では,データセットのトレーニングを使わずに事前知識を得ることによって,材料復元の困難さを大幅に低減し,データセットの生成と校正に多くの時間を節約する手法を提案する。

Reconstructing materials in the real world has always been a difficult problem in computer graphics. Accurately reconstructing the material in the real world is critical in the field of realistic rendering. Traditionally, materials in computer graphics are mapped by an artist, then mapped onto a geometric model by coordinate transformation, and finally rendered with a rendering engine to get realistic materials. For opaque objects, the industry commonly uses physical-based bidirectional reflectance distribution function (BRDF) rendering models for material modeling. The commonly used physical-based rendering models are Cook-Torrance BRDF, Disney BRDF. In this paper, we use the Cook-Torrance model to reconstruct the materials. The SVBRDF material parameters include Normal, Diffuse, Specular and Roughness. This paper presents a Diffuse map guiding material estimation method based on the Generative Adversarial Network(GAN). This method can predict plausible SVBRDF maps with global features using only a few pictures taken by the mobile phone. The main contributions of this paper are: 1) We preprocess a small number of input pictures to produce a large number of non-repeating pictures for training to reduce over-fitting. 2) We use a novel method to directly obtain the guessed diffuse map with global characteristics, which provides more prior information for the training process. 3) We improve the network architecture of the generator so that it can generate fine details of normal maps and reduce the possibility to generate over-flat normal maps. The method used in this paper can obtain prior knowledge without using dataset training, which greatly reduces the difficulty of material reconstruction and saves a lot of time to generate and calibrate datasets.
翻訳日:2022-05-25 15:05:48 公開日:2022-05-24
# フルリファレンスキャリブレーションフリー画像品質評価

Full-Reference Calibration-Free Image Quality Assessment ( http://arxiv.org/abs/2205.12129v1 )

ライセンス: Link先を確認
Elio D. Di Claudio, Paolo Giannitrapani and Giovanni Jacovitti(参考訳) 客観的画像品質評価法(objective image quality assessment, iqa)の大きな問題の1つは、被験者が表したスコアに対する品質推定の線形性の欠如である。 このため、IQAメトリクスは通常、主観的品質の例に基づく校正プロセスを行う。 しかし、サンプルベーストレーニングは一般化を問題にし、異なるアプリケーションと手術条件で結果の比較を妨げている。 本稿では、校正を使わずに人間のスコアと線形に相関する推定を行う新しいフルリファレンス(fr)手法を提案する。 この目的を達成するために、これらの手法は原則と理論上の制約に深く根ざしている。 自然画像集合のIQAに対する関心を制限し、ガウスのぼかしによって劣化した画像に対する推定理論と心理物理原理の適用は、推定が主観的スコアと高度に線形に相関するだけでなく、ビューング距離(VD)とも直接的に関連しているいわゆる標準IQA法に導かれることを最初に認識した。 次に,一意な標本画像に基づく予備的計量変換を適用した正準法に対して,主流の iqa 法を再現できることを示す。 このスキームの適用は、ノイズや圧縮された画像を含むガウスのぼやけ以外の重要な種類の劣化画像に拡張される。 その結果、キャリブレーションのないFR IQA法は、異なる画像システムと異なるVD上での互換性と相互運用性が重要な要件であるアプリケーションに適している。 従来のキャリブレーション手法との比較を行った。

One major problem of objective Image Quality Assessment (IQA) methods is the lack of linearity of their quality estimates with respect to scores expressed by human subjects. For this reason, usually IQA metrics undergo a calibration process based on subjective quality examples. However, example-based training makes generalization problematic, hampering result comparison across different applications and operative conditions. In this paper, new Full Reference (FR) techniques, providing estimates linearly correlated with human scores without using calibration are introduced. To reach this objective, these techniques are deeply rooted on principles and theoretical constraints. Restricting the interest on the IQA of the set of natural images, it is first recognized that application of estimation theory and psycho physical principles to images degraded by Gaussian blur leads to a so-called canonical IQA method, whose estimates are not only highly linearly correlated to subjective scores, but are also straightforwardly related to the Viewing Distance (VD). Then, it is shown that mainstream IQA methods can be reconducted to the canonical method applying a preliminary metric conversion based on a unique specimen image. The application of this scheme is then extended to a significant class of degraded images other than Gaussian blur, including noisy and compressed images. The resulting calibration-free FR IQA methods are suited for applications where comparability and interoperability across different imaging systems and on different VDs is a major requirement. A comparison of their statistical performance with respect to some conventional calibration prone methods is finally provided.
翻訳日:2022-05-25 15:05:23 公開日:2022-05-24
# StylizedNeRF:2D-3D相互学習によるStylizedNeRFとしての連続3次元Scene Stylization

StylizedNeRF: Consistent 3D Scene Stylization as Stylized NeRF via 2D-3D Mutual Learning ( http://arxiv.org/abs/2205.12183v1 )

ライセンス: Link先を確認
Yi-Hua Huang and Yue He and Yu-Jie Yuan and Yu-Kun Lai and Lin Gao(参考訳) 3dシーンのスタイライゼーションは、あるスタイル例のセットに従う任意のノベルビューからシーンのスタイライゼーションイメージを生成し、異なるビューからレンダリングする際に一貫性を確保することを目的としている。 映像や映像のスタイリングを3Dシーンに直接適用しても,このような一貫性は得られない。 最近提案されたNeRF(Near Raddiance Field)により,我々は一貫した方法で3Dシーンを表現できる。 一致する3次元シーンのスタイライゼーションは、対応するnerfをスタイライゼーションすることで効果的に実現できる。 しかし、2dイメージであるスタイル例と暗黙のボリューム表現であるnerfとの間には、大きなドメインギャップがある。 そこで本研究では,2次元画像スタイリゼーションネットワークとNeRFを組み合わせた3次元シーンスタイリゼーションのための新たな相互学習フレームワークを提案し,NeRFの3次元一貫性と2次元画像スタイリゼーションネットワークのスタイリゼーション能力を融合させる。 まず3Dシーンの標準的なNeRFを事前にトレーニングし、カラー予測モジュールをスタイルネットワークに置き換えてスタイル化されたNeRFを得る。 また、NeRFスタイルモジュールの相互学習を監督し、2次元スタイリゼーションデコーダを微調整するために模倣損失を導入する。 モデルが2次元スタイリング結果のあいまいさを更に扱えるようにするために,我々は,このスタイルで条件付けられた確率分布に従う学習可能な潜在符号を導入する。 条件入力としてトレーニングサンプルにアタッチされ、新しいスタイル化されたNeRFのスタイルモジュールをよりよく学習します。 実験の結果,提案手法は視覚品質と長距離一貫性の両方において既存の手法よりも優れていることがわかった。

3D scene stylization aims at generating stylized images of the scene from arbitrary novel views following a given set of style examples, while ensuring consistency when rendered from different views. Directly applying methods for image or video stylization to 3D scenes cannot achieve such consistency. Thanks to recently proposed neural radiance fields (NeRF), we are able to represent a 3D scene in a consistent way. Consistent 3D scene stylization can be effectively achieved by stylizing the corresponding NeRF. However, there is a significant domain gap between style examples which are 2D images and NeRF which is an implicit volumetric representation. To address this problem, we propose a novel mutual learning framework for 3D scene stylization that combines a 2D image stylization network and NeRF to fuse the stylization ability of 2D stylization network with the 3D consistency of NeRF. We first pre-train a standard NeRF of the 3D scene to be stylized and replace its color prediction module with a style network to obtain a stylized NeRF.It is followed by distilling the prior knowledge of spatial consistency from NeRF to the 2D stylization network through an introduced consistency loss. We also introduce a mimic loss to supervise the mutual learning of the NeRF style module and fine-tune the 2D stylization decoder. In order to further make our model handle ambiguities of 2D stylization results, we introduce learnable latent codes that obey the probability distributions conditioned on the style. They are attached to training samples as conditional inputs to better learn the style module in our novel stylized NeRF. Experimental results demonstrate that our method is superior to existing approaches in both visual quality and long-range consistency.
翻訳日:2022-05-25 15:03:59 公開日:2022-05-24
# ASSET:高解像度トランスフォーマーを用いた自動回帰セマンティックシーン編集

ASSET: Autoregressive Semantic Scene Editing with Transformers at High Resolutions ( http://arxiv.org/abs/2205.12231v1 )

ライセンス: Link先を確認
Difan Liu, Sandesh Shetty, Tobias Hinz, Matthew Fisher, Richard Zhang, Taesung Park, Evangelos Kalogerakis(参考訳) 本稿では,ユーザのセマンティックセグメンテーションマップ上で,入力された高解像度画像を自動的に修正するニューラルネットワークであるASSETを提案する。 我々のアーキテクチャは、新しい注意機構を備えたトランスフォーマーに基づいている。 我々の重要なアイデアは、トランスフォーマーの注意行列を高分解能でスパース化することであり、低解像度で抽出された濃密な注意によって導かれる。 従来のアテンションメカニズムは高解像度画像を扱うには計算に高すぎるか、特定の画像領域に過剰に制約されているかのどちらかであるが、新しいアテンションメカニズムは計算的に効率的かつ効果的である。 私たちの散在した注意機構は、長距離の相互作用と文脈を捉えることができ、以前のコンベネットやトランスフォーマーのアプローチでは確実に生成できなかった、水面への風景の反射や風景の他の部分と一致する花などの興味深い現象をシーンで合成することができる。 本手法の有効性を示すために,ユーザ研究とともに質的,定量的な結果を示す。

We present ASSET, a neural architecture for automatically modifying an input high-resolution image according to a user's edits on its semantic segmentation map. Our architecture is based on a transformer with a novel attention mechanism. Our key idea is to sparsify the transformer's attention matrix at high resolutions, guided by dense attention extracted at lower image resolutions. While previous attention mechanisms are computationally too expensive for handling high-resolution images or are overly constrained within specific image regions hampering long-range interactions, our novel attention mechanism is both computationally efficient and effective. Our sparsified attention mechanism is able to capture long-range interactions and context, leading to synthesizing interesting phenomena in scenes, such as reflections of landscapes onto water or flora consistent with the rest of the landscape, that were not possible to generate reliably with previous convnets and transformer approaches. We present qualitative and quantitative results, along with user studies, demonstrating the effectiveness of our method.
翻訳日:2022-05-25 15:03:28 公開日:2022-05-24
# 深層学習に基づく中国語音声障害の自動分類

Deep Learning-based automated classification of Chinese Speech Sound Disorders ( http://arxiv.org/abs/2205.11748v1 )

ライセンス: Link先を確認
Yao-Ming Kuo, Shanq-Jang Ruan, Yu-Chin Chen, Ya-Wen Tu(参考訳) 本稿では,子どもの言語障害の診断と分類を支援するために,コンピュータを用いて音響データを解析するシステムについて述べる。 分析は4つの異なる中国のミスコンストラクションを識別し分類することに集中した。 本研究は,3~6歳児の正常・病的構音特徴を有する90例から,2540例の停止音,小声帯,子音母音,失語音を含む音声コーパスを収集・生成した。 各録音には音声療法の分野からの詳細な注釈が添えられた。 画像分類のための3つの確立されたニューラルネットワークモデルを用いて音声サンプルの分類を行った。 特徴マップは、音声から抽出された3組のMFCCパラメータを用いて作成され、モデル入力として三次元データ構造に集約される。 我々は、過剰なシミュレーションを避けつつ利用可能なデータセットを増強するために、データ拡張のための6つの技術を用いる。 実験では、中国語の句と文字の4つの異なるカテゴリのユーザビリティについて検討した。 異なるデータサブセットを用いた実験は、分析された発音障害を正確に検出するシステムの能力を示す。

This article describes a system for analyzing acoustic data in order to assist in the diagnosis and classification of children's speech disorders using a computer. The analysis concentrated on identifying and categorizing four distinct types of Chinese misconstructions. The study collected and generated a speech corpus containing 2540 Stopping, Velar, Consonant-vowel, and Affricate samples from 90 children aged 3-6 years with normal or pathological articulatory features. Each recording was accompanied by a detailed annotation from the field of speech therapy. Classification of the speech samples was accomplished using three well-established neural network models for image classification. The feature maps are created using three sets of MFCC parameters extracted from speech sounds and aggregated into a three-dimensional data structure as model input. We employ six techniques for data augmentation in order to augment the available dataset while avoiding over-simulation. The experiments examine the usability of four different categories of Chinese phrases and characters. Experiments with different data subsets demonstrate the system's ability to accurately detect the analyzed pronunciation disorders.
翻訳日:2022-05-25 15:03:09 公開日:2022-05-24
# 地形学的マルコフ連鎖モンテカルロ

Stereographic Markov Chain Monte Carlo ( http://arxiv.org/abs/2205.12112v1 )

ライセンス: Link先を確認
Jun Yang, Krzysztof {\L}atuszy\'nski, Gareth O. Roberts(参考訳) 高い次元分布、特に重い尾を持つものは、無界状態空間と勾配情報と局所移動の組み合わせによって、経験的に観察される「スティッキネス」と、幾何学的エルゴディク性が欠如する理論的な混合特性をもたらすという、市販のmcmcサンプラーにとって非常に困難である。 本稿では,ユークリッド空間における元の高次元問題を球面にマッピングし,これらの悪名高い混合問題を緩和する新しいMCMCサンプリング装置を提案する。 特に, ランダムウォークのメトロポリス型アルゴリズムと, 高次元の高速収束を経験的に示し, 多数の光・重尾分布に対して一様にエルゴード性を持つバウンシー粒子サンプリング器のバージョンを開発した。 最良のシナリオでは、提案したサンプルは、混合時間が次元とともに減少する「次元の恵み」を楽しむことができる。

High dimensional distributions, especially those with heavy tails, are notoriously difficult for off-the-shelf MCMC samplers: the combination of unbounded state spaces, diminishing gradient information, and local moves, results in empirically observed "stickiness" and poor theoretical mixing properties -- lack of geometric ergodicity. In this paper, we introduce a new class of MCMC samplers that map the original high dimensional problem in Euclidean space onto a sphere and remedy these notorious mixing problems. In particular, we develop random-walk Metropolis type algorithms as well as versions of Bouncy Particle Sampler that are uniformly ergodic for a large class of light and heavy-tailed distributions and also empirically exhibit rapid convergence in high dimensions. In the best scenario, the proposed samplers can enjoy the ``blessings of dimensionality'' that the mixing time decreases with dimension.
翻訳日:2022-05-25 15:02:42 公開日:2022-05-24
# (参考訳) GeoMLAMA:多言語事前学習言語モデルに基づくジオディバース・コモンセンス探索

GeoMLAMA: Geo-Diverse Commonsense Probing on Multilingual Pre-Trained Language Models ( http://arxiv.org/abs/2205.12247v1 )

ライセンス: CC BY 4.0
Da Yin, Hritik Bansal, Masoud Monajatipoor, Liunian Harold Li, Kai-Wei Chang(参考訳) 近年の研究では、プリトレーニングされた言語モデル(plm)は、モデルパラメータに事前トレーニングされたデータからリレーショナルな知識を格納できることが示されている。 しかし, PLM には, 地理的多様性に関する知識, 文化に関連する知識, ローカルでのみ共有される知識がどの程度蓄積されているかは明らかになっていない。 例えば、ブライダルドレスの色はアメリカの結婚式では白だが、中国の結婚式では赤である。 ここでは,PLMが,米国と中国の結婚式でそれぞれ調理したブライダルドレスの色として赤と白を予測できるかどうかを調査したい。 そこで本研究では,多言語 PLM (mPLMs) を用いたジオディバース・コモンセンス探索のためのフレームワークを導入し,それに対応するベンチマークであるGeoMLAMA(GeoMLAMA)データセットを提案する。 geomlamaには英語、中国語、ヒンディー語、ペルシア語、スワヒリ語の3125のプロンプトがあり、アメリカ、中国、インド、イラン、ケニアの文化の人々が共有している。 我々は、GeoMLAMA上のmBERT、XLM、mT5、XGLMの変種を含む11の標準mPLMをベンチマークする。 興味深いことに 1) より大きな mPLM 変種は、必ずしもより小さい変種よりもジオディバースの概念を保存しない。 2) mplmは、欧米(米国)の知識に対して本質的に偏ってはいない。 3) 国の母国語は,その知識を探究する最良の言語ではないかもしれない。 4) 言語は,その母国よりも非母国に関する知識を調査すべきである。

Recent work has shown that Pre-trained Language Models (PLMs) have the ability to store the relational knowledge from pre-training data in their model parameters. However, it is not clear up to what extent do PLMs store geo-diverse commonsense knowledge, the knowledge associated with a culture and only shared locally. For instance, the color of bridal dress is white in American weddings whereas it is red in Chinese weddings. Here, we wish to probe if PLMs can predict red and white as the color of the bridal dress when queried for American and Chinese weddings, respectively. To this end, we introduce a framework for geo-diverse commonsense probing on multilingual PLMs (mPLMs) and introduce a corresponding benchmark Geo-diverse Commonsense Multilingual Language Model Analysis (GeoMLAMA) dataset. GeoMLAMA contains 3125 prompts in English, Chinese, Hindi, Persian, and Swahili, with a wide coverage of concepts shared by people from American, Chinese, Indian, Iranian and Kenyan cultures. We benchmark 11 standard mPLMs which include variants of mBERT, XLM, mT5, and XGLM on GeoMLAMA. Interestingly, we find that 1) larger mPLM variants do not necessarily store geo-diverse concepts better than its smaller variant; 2) mPLMs are not intrinsically biased towards knowledge from the Western countries (the United States); 3) the native language of a country may not be the best language to probe its knowledge and 4) a language may better probe knowledge about a non-native country than its native country.
翻訳日:2022-05-25 15:01:30 公開日:2022-05-24
# 部分入力ベースラインは、NLIモデルがコンテキストを無視できることを示しているが、そうではない。

Partial-input baselines show that NLI models can ignore context, but they don't ( http://arxiv.org/abs/2205.12181v1 )

ライセンス: Link先を確認
Neha Srikanth, Rachel Rudinger(参考訳) クラウドソースされたnliデータセットで強い部分入力ベースラインがアーティファクトを明らかにすると、そのようなデータセットでトレーニングされたフル入力モデルのパフォーマンスは、スプリアス相関に依存するものとしてしばしば無視される。 最先端nliモデルが部分入力ベースラインによるデフォルト推論をオーバーライドできるかどうかを検討する。 編集されたコンテキストに対するロバータモデルの感度を調べるために,摂動環境を含む600例の評価セットを導入する。 以上の結果から,nliモデルは,アーティファクト・リデントデータセット上で訓練されたとしても,推論の必要成分である文脈条件を学習できることが示された。

When strong partial-input baselines reveal artifacts in crowdsourced NLI datasets, the performance of full-input models trained on such datasets is often dismissed as reliance on spurious correlations. We investigate whether state-of-the-art NLI models are capable of overriding default inferences made by a partial-input baseline. We introduce an evaluation set of 600 examples consisting of perturbed premises to examine a RoBERTa model's sensitivity to edited contexts. Our results indicate that NLI models are still capable of learning to condition on context--a necessary component of inferential reasoning--despite being trained on artifact-ridden datasets.
翻訳日:2022-05-25 14:36:32 公開日:2022-05-24
# EdiT5: T5 Warm-Startを使った半自動テキスト編集

EdiT5: Semi-Autoregressive Text-Editing with T5 Warm-Start ( http://arxiv.org/abs/2205.12209v1 )

ライセンス: Link先を確認
Jonathan Mallinson, Jakub Adamek, Eric Malmi, Aliaksei Severyn(参考訳) 本稿では,非自己回帰型テキスト編集と自己回帰型デコーディングの強みを組み合わせた,新しい半自己回帰型テキスト編集手法であるedit5を提案する。 EdiT5は従来のSequence-to-Sequence(seq2seq)モデルよりも高速で、柔軟な入出力変換をモデル化できる。 これは生成プロセスを3つのサブタスクに分解することで実現される:(1) 出力に保存される入力トークンのサブセットを決定するタグ付け、(2) 出力テキストでそれらの順序を定義するように再順序付け、(3) 入力に存在しない欠落トークンを埋め込む挿入。 出力の最大の部分を生成するためのタグ付けと再順序付けステップは非自己回帰的であり、挿入は自己回帰デコーダを使用する。 タスクによっては、edit5は従来のseq2seqモデルと比べて最大25倍のスピードアップを示す自動回帰ステップを著しく削減する必要がある。 品質面では、EdiT5はトレーニング済みのT5チェックポイントで初期化され、高リソース設定ではT5に匹敵するパフォーマンスを示し、3つのNLGタスク(センテンスフュージョン、文法エラー補正、デコンテクライゼーション)で評価された場合、低リソース設定では明らかにT5より優れている。

We present EdiT5 - a novel semi-autoregressive text-editing approach designed to combine the strengths of non-autoregressive text-editing and autoregressive decoding. EdiT5 is faster at inference times than conventional sequence-to-sequence (seq2seq) models, while being capable of modeling flexible input-output transformations. This is achieved by decomposing the generation process into three sub-tasks: (1) tagging to decide on the subset of input tokens to be preserved in the output, (2) re-ordering to define their order in the output text, and (3) insertion to infill the missing tokens that are not present in the input. The tagging and re-ordering steps, which are responsible for generating the largest portion of the output, are non-autoregressive, while the insertion uses an autoregressive decoder. Depending on the task, EdiT5 requires significantly fewer autoregressive steps demonstrating speedups of up to 25x when compared to classic seq2seq models. Quality-wise, EdiT5 is initialized with a pre-trained T5 checkpoint yielding comparable performance to T5 in high-resource settings and clearly outperforms it on low-resource settings when evaluated on three NLG tasks: Sentence Fusion, Grammatical Error Correction, and Decontextualization.
翻訳日:2022-05-25 14:36:18 公開日:2022-05-24
# t-modules:ゼロショットクロスモーダル機械翻訳のための翻訳モジュール

T-Modules: Translation Modules for Zero-Shot Cross-Modal Machine Translation ( http://arxiv.org/abs/2205.12216v1 )

ライセンス: Link先を確認
Paul-Ambroise Duquenne, Hongyu Gong, Beno\^it Sagot, Holger Schwenk(参考訳) 本稿では,翻訳タスクのための音声とテキスト間のゼロショットクロスモーダル転送を行う新しい手法を提案する。 多言語音声とテキストはジョイント固定サイズの表現空間に符号化される。 次に,マルチモーダル表現と多言語固定サイズの表現をデコードするための異なるアプローチを比較し,言語とモダリティ間のゼロショット翻訳を可能にする。 全てのモデルは、クロスモーダルなラベル付き翻訳データを必要とせずに訓練されている。 固定サイズの表現にもかかわらず、いくつかのテキストおよび音声翻訳タスクにおいて非常に競争力のある結果が得られる。 特に, must-cにおけるゼロショット音声翻訳の最先端性が大幅に向上した。 フレームワークに音声デコーダを組み込んだゼロショット直接音声合成とテキスト音声翻訳の最初の結果を紹介する。

We present a new approach to perform zero-shot cross-modal transfer between speech and text for translation tasks. Multilingual speech and text are encoded in a joint fixed-size representation space. Then, we compare different approaches to decode these multimodal and multilingual fixed-size representations, enabling zero-shot translation between languages and modalities. All our models are trained without the need of cross-modal labeled translation data. Despite a fixed-size representation, we achieve very competitive results on several text and speech translation tasks. In particular, we significantly improve the state-of-the-art for zero-shot speech translation on Must-C. Incorporating a speech decoder in our framework, we introduce the first results for zero-shot direct speech-to-speech and text-to-speech translation.
翻訳日:2022-05-25 14:35:50 公開日:2022-05-24
# VIRATrustData:COVID-19ワクチンに関する人間とチャットボットの対話の信頼できるコーパス

VIRATrustData: A Trust-Annotated Corpus of Human-Chatbot Conversations About COVID-19 Vaccines ( http://arxiv.org/abs/2205.12240v1 )

ライセンス: Link先を確認
Roni Friedman, Jo\~ao Sedoc, Shai Gretz, Assaf Toledo, Rose Weeks, Naor Bar-Zeev, Yoav Katz, Noam Slonim(参考訳) 医療情報に対する公衆の信頼は、ワクチン接種などの公衆衛生政策をうまく適用するために重要である。 これは、最近の人気が高まっているチャットボットによって、リモートで提供される情報には特に当てはまる。 本稿では,人間ロボットのターンレベル信頼分類の課題について考察する。 我々は、新型コロナウイルスワクチン情報資源アシスタントであるVIRAチャットボットと、最近リリースされた(クラウドソースではなく)観察的に収集されたダイアログのデータに依存しています。 これらの対話は、特に信頼が急進的な新型コロナウイルスワクチンに関する質問と懸念に集中している。 我々は、低機関信頼か低エージェント信頼か中立か高信頼かの3k$VIRAシステムユーザー会話ターンを注釈した。 私たちはラベル付きデータセットであるVIRATrustDataをリリースしました。 このタスクが非自明であることを示し、異なる信頼レベルを予測する複数のモデルを比較する。

Public trust in medical information is crucial for successful application of public health policies such as vaccine uptake. This is especially true when the information is offered remotely, by chatbots, which have become increasingly popular in recent years. Here, we explore the challenging task of human-bot turn-level trust classification. We rely on a recently released data of observationally-collected (rather than crowdsourced) dialogs with VIRA chatbot, a COVID-19 Vaccine Information Resource Assistant. These dialogs are centered around questions and concerns about COVID-19 vaccines, where trust is particularly acute. We annotated $3k$ VIRA system-user conversational turns for Low Institutional Trust or Low Agent Trust vs. Neutral or High Trust. We release the labeled dataset, VIRATrustData, the first of its kind to the best of our knowledge. We demonstrate how this task is non-trivial and compare several models that predict the different levels of trust.
翻訳日:2022-05-25 14:35:38 公開日:2022-05-24
# 意味解析における合成一般化におけるモデル尺度の影響評価

Evaluating the Impact of Model Scale for Compositional Generalization in Semantic Parsing ( http://arxiv.org/abs/2205.12253v1 )

ライセンス: Link先を確認
Linlu Qiu, Peter Shaw, Panupong Pasupat, Tianze Shi, Jonathan Herzig, Emily Pitler, Fei Sha, Kristina Toutanova(参考訳) 多くのタスクにおいて高い性能を示したにもかかわらず、事前学習された言語モデルは、分配外構成の一般化に苦戦している。 一方、最近の研究では、モデルスケーリングによる多くのNLPタスクが大幅に改善されている。 モデルサイズをスケールアップすることで、意味解析の合成一般化も改善できるのだろうか? 我々は,最大11Bパラメータと最大540Bパラメータのエンコーダ・デコーダモデルを評価し,すべてのパラメータの微調整,即時チューニング,コンテキスト内学習の3つの方法について,モデルスケーリング曲線を比較した。 我々は, セマンティック・パーシング評価において, 分布外構成の一般化に対して, 概して平坦あるいは負のスケーリング曲線を持つことを示した。 インコンテクスト学習はポジティブなスケーリング曲線を持つが、一般的にはより小さな微調整モデルの方が優れている。 プロンプトチューニングは微調整よりも優れており、よりポジティブなスケーリング曲線を示すため、スケーリングの改善の可能性も示唆されている。 さらに,モデルスケールによって異なる複数の誤差傾向を同定する。 例えば、より大きなモデルは一般的に出力空間の構文をモデル化するのに優れているが、ある種の過度に適合する傾向がある。 本研究は,構成一般化にモデルスケールを効果的に活用するための現在の手法の限界を強調するとともに,今後の研究に期待できる方向性も示唆する。

Despite their strong performance on many tasks, pre-trained language models have been shown to struggle on out-of-distribution compositional generalization. Meanwhile, recent work has shown considerable improvements on many NLP tasks from model scaling. Can scaling up model size also improve compositional generalization in semantic parsing? We evaluate encoder-decoder models up to 11B parameters and decoder-only models up to 540B parameters, and compare model scaling curves for three different methods for transfer learning: fine-tuning all parameters, prompt tuning, and in-context learning. We observe that fine-tuning generally has flat or negative scaling curves on out-of-distribution compositional generalization in semantic parsing evaluations. In-context learning has positive scaling curves, but is generally outperformed by much smaller fine-tuned models. Prompt-tuning can outperform fine-tuning, suggesting further potential improvements from scaling as it exhibits a more positive scaling curve. Additionally, we identify several error trends that vary with model scale. For example, larger models are generally better at modeling the syntax of the output space, but are also more prone to certain types of overfitting. Overall, our study highlights limitations of current techniques for effectively leveraging model scale for compositional generalization, while our analysis also suggests promising directions for future work.
翻訳日:2022-05-25 14:33:29 公開日:2022-05-24
# 一般化計画のための音響抽象化の自動検証

Automatic Verification of Sound Abstractions for Generalized Planning ( http://arxiv.org/abs/2205.11898v1 )

ライセンス: Link先を確認
Zhenhe Cui, Weidu Kuang, Yongmei Liu(参考訳) 一般計画は、計画問題の集合に対する一般解の計算を研究する。 正確性を保証する計算一般ソリューションは、長い間、一般的な計画において重要な問題であった。 抽象化は一般的な計画問題の解決に広く用いられている。 音の抽象化の解決策は、一般的な計画問題の正確性を保証するものである。 cuiらは最近、汎用計画のための統一的な抽象化フレームワークを提案した。 彼らは一般的な計画問題に対して、音響と完全な抽象化のモデル理論的な定義を与えた。 本稿では,Cuiらの研究に基づき,一般化計画のための音響抽象化の自動検証について検討する。 まず,音響抽象化の証明論的特性について述べる。 そして,その特徴に基づいて,一階の検証が可能な音の抽象化条件を提案する。 これを実現するために,回帰拡張を活用し,計数および推移的閉包を扱う手法を開発した。 最後に,音の抽象検証システムを実装し,複数の領域について実験結果を報告する。

Generalized planning studies the computation of general solutions for a set of planning problems. Computing general solutions with correctness guarantee has long been a key issue in generalized planning. Abstractions are widely used to solve generalized planning problems. Solutions of sound abstractions are those with correctness guarantees for generalized planning problems. Recently, Cui et al. proposed a uniform abstraction framework for generalized planning. They gave the model-theoretic definitions of sound and complete abstractions for generalized planning problems. In this paper, based on Cui et al.'s work, we explore automatic verification of sound abstractions for generalized planning. We firstly present the proof-theoretic characterization for sound abstraction. Then, based on the characterization, we give a sufficient condition for sound abstractions which is first-order verifiable. To implement it, we exploit regression extensions, and develop methods to handle counting and transitive closure. Finally, we implement a sound abstraction verification system and report experimental results on several domains.
翻訳日:2022-05-25 14:32:37 公開日:2022-05-24
# 極多ラベルテキスト分類のための動的および微粒なセマンティックスコープの発散

Exploiting Dynamic and Fine-grained Semantic Scope for Extreme Multi-label Text Classification ( http://arxiv.org/abs/2205.11973v1 )

ライセンス: Link先を確認
Yuan Wang and Huiling Song and Peng Huo and Tao Xu and Jucheng Yang and Yarui Chen and Tingting Zhao(参考訳) XMTC (Extreme Multi-label text classification) とは、あるテキストをラベル集合から最も関連性の高いサブセットにタグ付けする問題を指す。 ほとんどのラベルは、xmtcのラベル次元が大きいため、いくつかのトレーニングインスタンスしか持たない。 このデータ分散問題を解決するために、既存のXMTC法は、初期から得られた固定ラベルクラスタを利用して、テールラベルとヘッドラベルのパフォーマンスのバランスをとる。 しかし、このようなラベルクラスタは、各テキストに対して静的かつ粗いセマンティックスコープを提供し、異なるテキストの特徴を無視し、テールラベル付きテキストの正確なセマンティックスコープをモデル化するのは難しい。 本稿では,XMTCのための新しいフレームワークTReaderXMLを提案する。このフレームワークは,教師の個々のテキストに対する知識から動的かつきめ細かなセマンティックスコープを採用し,テキスト条件付き事前カテゴリセマンティックレンジを最適化する。 TReaderXMLは、トレーニングセットにおける類似のテキストと階層的なラベル情報により、各テキストに対する教師の知識を動的に取得し、ラベル指向のセマンティックスコープを明確化することができる。 次に、treaderxmlは、まずテキストの特徴と対応するラベル指向意味スコープを並列符号化モジュールと読み取りモジュールで学習し、次に相互作用モジュールによって2つの部分を埋め込み、動的かつきめ細かいラベル指向意味スコープでテキストの表現を規則化し、最終的に予測モジュールによってターゲットラベルを見つける、新しいデュアルコラボレーティブネットワークの恩恵を受ける。 3つのXMTCベンチマークデータセットによる実験結果から,本手法は新たな最先端結果を実現し,特に不均衡でスパースなデータセットに対して良好に動作することが示された。

Extreme multi-label text classification (XMTC) refers to the problem of tagging a given text with the most relevant subset of labels from a large label set. A majority of labels only have a few training instances due to large label dimensionality in XMTC. To solve this data sparsity issue, most existing XMTC methods take advantage of fixed label clusters obtained in early stage to balance performance on tail labels and head labels. However, such label clusters provide static and coarse-grained semantic scope for every text, which ignores distinct characteristics of different texts and has difficulties modelling accurate semantics scope for texts with tail labels. In this paper, we propose a novel framework TReaderXML for XMTC, which adopts dynamic and fine-grained semantic scope from teacher knowledge for individual text to optimize text conditional prior category semantic ranges. TReaderXML dynamically obtains teacher knowledge for each text by similar texts and hierarchical label information in training sets to release the ability of distinctly fine-grained label-oriented semantic scope. Then, TReaderXML benefits from a novel dual cooperative network that firstly learns features of a text and its corresponding label-oriented semantic scope by parallel Encoding Module and Reading Module, secondly embeds two parts by Interaction Module to regularize the text's representation by dynamic and fine-grained label-oriented semantic scope, and finally find target labels by Prediction Module. Experimental results on three XMTC benchmark datasets show that our method achieves new state-of-the-art results and especially performs well for severely imbalanced and sparse datasets.
翻訳日:2022-05-25 14:32:27 公開日:2022-05-24
# Dempster-Shafer理論による時間的グラフに基づくソーシャルイベントの検出

Evidential Temporal-aware Graph-based Social Event Detection via Dempster-Shafer Theory ( http://arxiv.org/abs/2205.12179v1 )

ライセンス: Link先を確認
Jiaqian Ren, Lei Jiang, Hao Peng, Zhiwei Liu, Jia Wu, Philip S. Yu(参考訳) オンラインソーシャルネットワークサービスの普及は、ソーシャルメディアデータのマイニング、特にソーシャルイベントのマイニングに関する多くの研究を引き寄せている。 広く応用されているソーシャルイベント検出は、今や簡単なタスクになっている。 グラフニューラルネットワーク(GNN)を利用した最先端のアプローチは通常、2段階の戦略に従う。 1)様々なビューに基づくテキストグラフの構築(\textit{co-user}, \textit{co-entities}, \textit{co-hashtags}) 2)特定のGNNモデルによる統一テキスト表現の学習。 一般に、結果は構築されたグラフの品質と特定のメッセージパッシングスキームに大きく依存する。 しかし、既存の手法は双方に欠点がある。 1)信頼できない視点によるノイズ情報の認識に失敗する。 2)ほとんどの作品において,出来事の重要な指標として働く時間情報は無視される。 そこで本研究では,新しい時空間認識グラフニューラルネットワークetgnnを提案する。 具体的には、ノードがテキストであり、エッジがそれぞれ複数の共有要素によって決定されるビュー固有グラフを構築する。 メッセージパッシング方式に時間的情報を組み込むため,適応時間指数減衰式に基づき,近隣に重みを割り当てる時間的アグリゲータを導入する。 ビュー固有の不確実性を考慮すると、全てのビューの表現は、明らかな深層学習(EDL)ニューラルネットワークを介して質量関数に変換され、さらにデンプスター・シェーファー理論(DST)を介して最終的な検出を行う。 実世界の3つのデータセットにおける実験結果は,ソーシャルイベント検出におけるetgnnの有効性,信頼性,ロバスト性を示す。

The rising popularity of online social network services has attracted lots of research on mining social media data, especially on mining social events. Social event detection, due to its wide applications, has now become a trivial task. State-of-the-art approaches exploiting Graph Neural Networks (GNNs) usually follow a two-step strategy: 1) constructing text graphs based on various views (\textit{co-user}, \textit{co-entities} and \textit{co-hashtags}); and 2) learning a unified text representation by a specific GNN model. Generally, the results heavily rely on the quality of the constructed graphs and the specific message passing scheme. However, existing methods have deficiencies in both aspects: 1) They fail to recognize the noisy information induced by unreliable views. 2) Temporal information which works as a vital indicator of events is neglected in most works. To this end, we propose ETGNN, a novel Evidential Temporal-aware Graph Neural Network. Specifically, we construct view-specific graphs whose nodes are the texts and edges are determined by several types of shared elements respectively. To incorporate temporal information into the message passing scheme, we introduce a novel temporal-aware aggregator which assigns weights to neighbours according to an adaptive time exponential decay formula. Considering the view-specific uncertainty, the representations of all views are converted into mass functions through evidential deep learning (EDL) neural networks, and further combined via Dempster-Shafer theory (DST) to make the final detection. Experimental results on three real-world datasets demonstrate the effectiveness of ETGNN in accuracy, reliability and robustness in social event detection.
翻訳日:2022-05-25 14:31:55 公開日:2022-05-24
# SCVRL:シャッフルされたコントラストビデオ表現学習

SCVRL: Shuffled Contrastive Video Representation Learning ( http://arxiv.org/abs/2205.11710v1 )

ライセンス: Link先を確認
Michael Dorkenwald, Fanyi Xiao, Biagio Brattoli, Joseph Tighe, Davide Modolo(参考訳) ビデオの自己教師型学習のための新しいコントラストベースのフレームワークSCVRLを提案する。 従来のコントラスト学習に基づく手法とは異なり、SCVRLは視覚意味学(例えばCVRL)の学習に重点を置いており、セマンティックパターンとモーションパターンの両方を学ぶことができる。 そのために、現代的コントラスト学習パラダイムにおいて、人気のあるシャッフリングプリテキストタスクを再構成する。 我々のトランスフォーマーネットワークは、自己監督された設定で動きを学習し、4つのベンチマークでCVRLよりも高い性能を達成することができることを示す。

We propose SCVRL, a novel contrastive-based framework for self-supervised learning for videos. Differently from previous contrast learning based methods that mostly focus on learning visual semantics (e.g., CVRL), SCVRL is capable of learning both semantic and motion patterns. For that, we reformulate the popular shuffling pretext task within a modern contrastive learning paradigm. We show that our transformer-based network has a natural capacity to learn motion in self-supervised settings and achieves strong performance, outperforming CVRL on four benchmarks.
翻訳日:2022-05-25 14:28:45 公開日:2022-05-24
# ランキングに基づくシームズビジュアルトラッキング

Ranking-Based Siamese Visual Tracking ( http://arxiv.org/abs/2205.11761v1 )

ライセンス: Link先を確認
Feng Tang, Qiang Ling(参考訳) 現在のシームズベースのトラッカーは、主に視覚追跡を2つの独立したサブタスクに定式化し、分類とローカライゼーションを含む。 各サンプルを別々に処理して分類サブネットワークを学習し、正と負の関係を無視する。 さらに、このような追跡パラダイムは最終予測のための提案の分類信頼性のみを取り、分類とローカライゼーションのミスアライメントをもたらす可能性がある。 そこで本研究では,これらの課題を解決するために,ランクに基づく最適化アルゴリズムを提案する。 この目的のために、最適化制約として分類1とIoU誘導の2つのランキング損失を導入する。 分類ランキングの損失は、正のサンプルがハードネガティブなものよりも高いランク、すなわち、トラッカーが邪魔者によって騙されることなく、前景のサンプルをうまく選択できるようにする。 IoU-guided rank lossは、正のサンプルに対する対応ローカライゼーション予測のIoU(Intersection over Union)と分類信頼度スコアを整合させることを目的としており、その局所化予測を高い分類信頼度で表すことができる。 具体的には、提案された2つのランキングの損失は、ほとんどのシアムトラッカーと互換性があり、推論のための追加計算は発生しない。 OTB100, UAV123, TC128, VOT2016, NFS30, GOT-10k, LaSOTを含む7つの追跡ベンチマークの大規模な実験は、提案したランキングベースの最適化アルゴリズムの有効性を実証している。 コードと生の結果はhttps://github.com/sansanfree/RBOで公開されている。

Current Siamese-based trackers mainly formulate the visual tracking into two independent subtasks, including classification and localization. They learn the classification subnetwork by processing each sample separately and neglect the relationship among positive and negative samples. Moreover, such tracking paradigm takes only the classification confidence of proposals for the final prediction, which may yield the misalignment between classification and localization. To resolve these issues, this paper proposes a ranking-based optimization algorithm to explore the relationship among different proposals. To this end, we introduce two ranking losses, including the classification one and the IoU-guided one, as optimization constraints. The classification ranking loss can ensure that positive samples rank higher than hard negative ones, i.e., distractors, so that the trackers can select the foreground samples successfully without being fooled by the distractors. The IoU-guided ranking loss aims to align classification confidence scores with the Intersection over Union(IoU) of the corresponding localization prediction for positive samples, enabling the well-localized prediction to be represented by high classification confidence. Specifically, the proposed two ranking losses are compatible with most Siamese trackers and incur no additional computation for inference. Extensive experiments on seven tracking benchmarks, including OTB100, UAV123, TC128, VOT2016, NFS30, GOT-10k and LaSOT, demonstrate the effectiveness of the proposed ranking-based optimization algorithm. The code and raw results are available at https://github.com/sansanfree/RBO.
翻訳日:2022-05-25 14:28:35 公開日:2022-05-24
# スマートホームセキュリティカメラからのパッケージ盗難検出

Package Theft Detection from Smart Home Security Cameras ( http://arxiv.org/abs/2205.11804v1 )

ライセンス: Link先を確認
Hung-Min Hsu, Xinyu Yuan, Baohua Zhu, Zhongwei Cheng and Lin Chen(参考訳) パッケージ盗難検出は、主にトレーニングデータの欠如と、さまざまなパッケージ盗難事例が現実にあるため、困難な課題となっている。 本稿では,ビデオ内の各セグメント毎のパッケージ盗難スコアを生成し,パッケージ盗難検出に関する現実世界の要件を満たすための,グローバルおよびローカルなフュージョンパッケージ盗難検出埋め込み(glf-ptde)フレームワークを提案する。 さらに,本研究を支援するために,新しいパッケージ盗難検出データセットを構築した。 提案手法は,提案したGLF-PTDEフレームワークの有効性とパッケージ盗難検出のための実環境におけるロバスト性を示すため,新たに提案したデータセット上で80%のAUC性能を実現する。

Package theft detection has been a challenging task mainly due to lack of training data and a wide variety of package theft cases in reality. In this paper, we propose a new Global and Local Fusion Package Theft Detection Embedding (GLF-PTDE) framework to generate package theft scores for each segment within a video to fulfill the real-world requirements on package theft detection. Moreover, we construct a novel Package Theft Detection dataset to facilitate the research on this task. Our method achieves 80% AUC performance on the newly proposed dataset, showing the effectiveness of the proposed GLF-PTDE framework and its robustness in different real scenes for package theft detection.
翻訳日:2022-05-25 14:28:06 公開日:2022-05-24
# 雑音剛性画像アライメントのための教師なし差分学習

Unsupervised Difference Learning for Noisy Rigid Image Alignment ( http://arxiv.org/abs/2205.11829v1 )

ライセンス: Link先を確認
Yu-Xuan Chen, Dagan Feng and Hong-Bin Shen(参考訳) 厳格な画像アライメントはコンピュータビジョンの基本的なタスクであり、従来のアルゴリズムはノイズや時間消費に敏感すぎる。 近年,空間的トランスフォーマネットワークに基づく教師なし画像アライメント法が開発され,クリーン画像の性能が向上しているが,画素値の比較に依存するため,ノイズ画像では満足できる性能が得られない。 このような難解なアプリケーションを扱うために,新しい教師なし差分学習(udl)戦略を報告し,厳格な画像アライメントに適用する。 UDLは回帰タスクの量的特性を利用して、元の教師なし問題を疑似教師付き問題に変換する。 新しいudlベースの画像アライメントパイプラインでは、クリーン画像とノイズ画像の両方で正確に回転を推定でき、翻訳も容易に解決できる。 自然画像と低温EM画像の両方に対する実験結果から, 本手法の有効性が示された。

Rigid image alignment is a fundamental task in computer vision, while the traditional algorithms are either too sensitive to noise or time-consuming. Recent unsupervised image alignment methods developed based on spatial transformer networks show an improved performance on clean images but will not achieve satisfactory performance on noisy images due to its heavy reliance on pixel value comparations. To handle such challenging applications, we report a new unsupervised difference learning (UDL) strategy and apply it to rigid image alignment. UDL exploits the quantitative properties of regression tasks and converts the original unsupervised problem to pseudo supervised problem. Under the new UDL-based image alignment pipeline, rotation can be accurately estimated on both clean and noisy images and translations can then be easily solved. Experimental results on both nature and cryo-EM images demonstrate the efficacy of our UDL-based unsupervised rigid image alignment method.
翻訳日:2022-05-25 14:27:08 公開日:2022-05-24
# クロスモダリティ画像生成と登録による非教師なし赤外線・可視画像融合

Unsupervised Misaligned Infrared and Visible Image Fusion via Cross-Modality Image Generation and Registration ( http://arxiv.org/abs/2205.11876v1 )

ライセンス: Link先を確認
Di Wang, Jinyuan Liu, Xin Fan, Risheng Liu(参考訳) 近年の学習ベース画像融合法は, 事前登録されたマルチモーダルデータにおいて多くの進歩を遂げているが, 空間的変形や, 相互モダリティ差の狭化が原因で, 多モーダルデータに不一致が生じた。 そこで本稿では,教師なしの赤外線・可視画像融合(IVIF)のための,頑健な相互モダリティ生成登録パラダイムを提案する。 具体的には,視像を入力として擬似赤外線画像を生成するためのクロスモダリティ知覚スタイル転送ネットワーク(cpstn)を提案する。 生成した擬似赤外画像は、CPSTNの好適な幾何保存能力から恩恵を受け、鋭い構造を取り入れ、赤外画像の構造感受性と相まって、異質な画像アライメントをモノモダリティ登録に変換する。 本稿では、歪み画像と擬似赤外線画像の間の変位ベクトル場を予測し、モノモダリティ設定で登録された赤外線画像の再構成を行うためのMRRN(Multi-level Refinement Registration Network)を提案する。 さらに、登録された赤外線画像と可視画像の融合を改善するために、Dual-path Interaction Fusion Network(DIFN)において、より有意義な融合特徴を適応的に選択するIFM(Feature Interaction Fusion Module)を提案する。 実験結果から,提案手法は不整合画像融合において優れた性能を発揮することが示唆された。

Recent learning-based image fusion methods have marked numerous progress in pre-registered multi-modality data, but suffered serious ghosts dealing with misaligned multi-modality data, due to the spatial deformation and the difficulty narrowing cross-modality discrepancy. To overcome the obstacles, in this paper, we present a robust cross-modality generation-registration paradigm for unsupervised misaligned infrared and visible image fusion (IVIF). Specifically, we propose a Cross-modality Perceptual Style Transfer Network (CPSTN) to generate a pseudo infrared image taking a visible image as input. Benefiting from the favorable geometry preservation ability of the CPSTN, the generated pseudo infrared image embraces a sharp structure, which is more conducive to transforming cross-modality image alignment into mono-modality registration coupled with the structure-sensitive of the infrared image. In this case, we introduce a Multi-level Refinement Registration Network (MRRN) to predict the displacement vector field between distorted and pseudo infrared images and reconstruct registered infrared image under the mono-modality setting. Moreover, to better fuse the registered infrared images and visible images, we present a feature Interaction Fusion Module (IFM) to adaptively select more meaningful features for fusion in the Dual-path Interaction Fusion Network (DIFN). Extensive experimental results suggest that the proposed method performs superior capability on misaligned cross-modality image fusion.
翻訳日:2022-05-25 14:26:54 公開日:2022-05-24
# マインド・ザ・ギャップ(Mind the Gap): 教師なしクロスモダリティ医療画像セグメンテーションにおける局所的不均衡を軽減する

Mind The Gap: Alleviating Local Imbalance for Unsupervised Cross-Modality Medical Image Segmentation ( http://arxiv.org/abs/2205.11888v1 )

ライセンス: Link先を確認
Zixian Su, Kai Yao, Xi Yang, Qiufeng Wang, Yuyao Yan and Kaizhu Huang(参考訳) 教師なしクロスモダリティ医療画像適応は、ターゲットドメインラベルを用いることなく、異なる画像モダリティ間の深刻な領域ギャップを軽減することを目的としている。 このキャンペーンの鍵は、ソースとターゲットドメインの分布を調整することである。 一つの一般的な試みは、2つの領域間の大域的整合を強制することであり、これは致命的な局所不均衡領域ギャップの問題を無視している。 近年,モデル学習の効率を向上させるために,局所領域に着目したアライメントを行う手法もある。 この操作は文脈から重要な情報が不足する可能性がある。 そこで本研究では,医療画像の特徴,すなわちグローバル・ローカル・アライメントを考慮したドメインギャップ不均衡を緩和する新しい手法を提案する。 具体的には、特徴分割スタイル転送モジュールがまずターゲットライクなソースコンテンツイメージを合成し、グローバルドメインギャップを低減する。 次に、局所特徴マスクを統合して、より大きなドメインギャップを持つ識別的特徴を優先することにより、局所特徴の「インターギャップ」を低減する。 このグローバルアライメントとローカルアライメントの組み合わせは、全体的な意味的一貫性を維持しながら、セグメンテーションターゲットの重要な領域を正確にローカライズすることができる。 心臓のサブストラクチャと腹部のマルチオルガンセグメンテーションという2つのクロスモダリティ適応タスクを用いた一連の実験を行った。 実験結果より,MRI-CT心筋分画では3.92%,逆方向では3.33%,SOTA法では3.92%以上であった。

Unsupervised cross-modality medical image adaptation aims to alleviate the severe domain gap between different imaging modalities without using the target domain label. A key in this campaign relies upon aligning the distributions of source and target domain. One common attempt is to enforce the global alignment between two domains, which, however, ignores the fatal local-imbalance domain gap problem, i.e., some local features with larger domain gap are harder to transfer. Recently, some methods conduct alignment focusing on local regions to improve the efficiency of model learning. While this operation may cause a deficiency of critical information from contexts. To tackle this limitation, we propose a novel strategy to alleviate the domain gap imbalance considering the characteristics of medical images, namely Global-Local Union Alignment. Specifically, a feature-disentanglement style-transfer module first synthesizes the target-like source-content images to reduce the global domain gap. Then, a local feature mask is integrated to reduce the 'inter-gap' for local features by prioritizing those discriminative features with larger domain gap. This combination of global and local alignment can precisely localize the crucial regions in segmentation target while preserving the overall semantic consistency. We conduct a series of experiments with two cross-modality adaptation tasks, i,e. cardiac substructure and abdominal multi-organ segmentation. Experimental results indicate that our method exceeds the SOTA methods by 3.92% Dice score in MRI-CT cardiac segmentation and 3.33% in the reverse direction.
翻訳日:2022-05-25 14:26:23 公開日:2022-05-24
# OPOM: 顔のプライバシー保護のためにカスタマイズされた見えないクローク

OPOM: Customized Invisible Cloak towards Face Privacy Protection ( http://arxiv.org/abs/2205.11981v1 )

ライセンス: Link先を確認
Yaoyao Zhong and Weihong Deng(参考訳) 日常的に便利だが、顔認識技術は、顔の画像やビデオを分析するためにソーシャルメディア上の通常のユーザーにとって、セキュリティ上の制約なしに効率よく、そして不定期に利用できるため、プライバシー上の懸念を生じさせる。 本稿では,通常のユーザのすべての画像に適用可能な,新しいタイプのカスタマイズクロークに基づく技術の観点からの顔のプライバシ保護について検討し,悪意のある顔認証システムによる識別の発見を防止する。 具体的には、各トレーニングサンプルをソースidのフィーチャーサブスペースから離れた方向に最適化することにより、個人固有の(クラス毎の)ユニバーサルマスクを生成する、one person one mask(opom)という新しい方法を提案する。 限られた訓練画像をフル活用するために,アフィン殻,クラスセンタ,凸殻など複数のモデリング手法について検討し,情報源の特徴部分空間をよりよく記述する。 本手法の有効性を,損失関数とネットワークアーキテクチャの異なるブラックボックス顔認識モデルに対して,共通および有名両方のデータセットで評価した。 また,提案手法の利点と潜在的な問題点についても考察する。 特に,ビデオデータセットであるSherlockのプライバシ保護に関するアプリケーション研究を行い,提案手法の実用性を実証する。 データセットとコードはhttps://github.com/zhongyy/OPOM.comで入手できる。

While convenient in daily life, face recognition technologies also raise privacy concerns for regular users on the social media since they could be used to analyze face images and videos, efficiently and surreptitiously without any security restrictions. In this paper, we investigate the face privacy protection from a technology standpoint based on a new type of customized cloak, which can be applied to all the images of a regular user, to prevent malicious face recognition systems from uncovering their identity. Specifically, we propose a new method, named one person one mask (OPOM), to generate person-specific (class-wise) universal masks by optimizing each training sample in the direction away from the feature subspace of the source identity. To make full use of the limited training images, we investigate several modeling methods, including affine hulls, class centers, and convex hulls, to obtain a better description of the feature subspace of source identities. The effectiveness of the proposed method is evaluated on both common and celebrity datasets against black-box face recognition models with different loss functions and network architectures. In addition, we discuss the advantages and potential problems of the proposed method. In particular, we conduct an application study on the privacy protection of a video dataset, Sherlock, to demonstrate the potential practical usage of the proposed method. Datasets and code are available at https://github.com/zhongyy/OPOM.
翻訳日:2022-05-25 14:25:55 公開日:2022-05-24
# SFace:ロバスト顔認識のためのSigmoid-Constrained Hypersphere Loss

SFace: Sigmoid-Constrained Hypersphere Loss for Robust Face Recognition ( http://arxiv.org/abs/2205.12010v1 )

ライセンス: Link先を確認
Yaoyao Zhong, Weihong Deng, Jiani Hu, Dongyue Zhao, Xian Li, Dongchao Wen(参考訳) 大規模トレーニングデータベースと急速に発達する損失関数により、ディープフェイス認識は大きな成功を収めた。 既存のアルゴリズムは、クラス内距離を最小化し、クラス間距離を最大化するという理想的なアイデアの実現に尽力した。 しかし、この厳格な方法で最適化すべきでない低品質のトレーニングイメージがあることを無視する可能性もある。 学習データベースの不完全性を考慮すると,クラス内およびクラス間目標を適度に最適化して過剰フィッティング問題を緩和し,さらにsgmoid-constrained hypersphere loss (sface) と呼ばれる新しい損失関数を提案する。 具体的には、SFaceは2つのシグモイド勾配再スケール関数によってそれぞれ制御される超球面多様体にクラス内およびクラス間制約を課す。 シグモノイド曲線はクラス内およびクラス間勾配を正確に再スケールし、トレーニングサンプルをある程度最適化することができる。 これにより、クリーンなサンプルのためのクラス内距離の削減とラベルノイズへの過剰フィット防止とのバランスが向上し、より堅牢な深層顔認識モデルに寄与する。 CASIA-WebFace、VGGFace2、MS-Celeb-1Mデータベースで訓練され、LFW、MegaFace、IJB-Cデータベースなどの顔認識ベンチマークで評価されたモデルの大規模な実験は、SFaceの優位性を実証した。

Deep face recognition has achieved great success due to large-scale training databases and rapidly developing loss functions. The existing algorithms devote to realizing an ideal idea: minimizing the intra-class distance and maximizing the inter-class distance. However, they may neglect that there are also low quality training images which should not be optimized in this strict way. Considering the imperfection of training databases, we propose that intra-class and inter-class objectives can be optimized in a moderate way to mitigate overfitting problem, and further propose a novel loss function, named sigmoid-constrained hypersphere loss (SFace). Specifically, SFace imposes intra-class and inter-class constraints on a hypersphere manifold, which are controlled by two sigmoid gradient re-scale functions respectively. The sigmoid curves precisely re-scale the intra-class and inter-class gradients so that training samples can be optimized to some degree. Therefore, SFace can make a better balance between decreasing the intra-class distances for clean examples and preventing overfitting to the label noise, and contributes more robust deep face recognition models. Extensive experiments of models trained on CASIA-WebFace, VGGFace2, and MS-Celeb-1M databases, and evaluated on several face recognition benchmarks, such as LFW, MegaFace and IJB-C databases, have demonstrated the superiority of SFace.
翻訳日:2022-05-25 14:25:35 公開日:2022-05-24
# 身体寸法推定における性別, ポーズ, カメラ距離の影響

Effect of Gender, Pose and Camera Distance on Human Body Dimensions Estimation ( http://arxiv.org/abs/2205.12028v1 )

ライセンス: Link先を確認
Yansel G\'onzalez Tejeda and Helmut A. Mayer(参考訳) 人体寸法推定 (human body dimension estimation, hbde) は、知的エージェントが画像 (2d) や雲やメッシュ (3d) から人体情報を判断しようとするタスクである。 より具体的には、HBDE問題を画像から人体計測を推測するものとして定義すると、HBDEは、機械学習技術、特に畳み込みニューラルネットワーク(CNN)に対処できる困難で逆のマルチタスク回帰問題である。 人間の形状分析を前進させようとするコミュニティの膨大な努力にもかかわらず、画像から人体寸法の推定をcnnで評価する体系的な実験が欠如している。 我々の貢献は、一連の制御実験におけるcnn推定性能の評価にある。 そのために、カメラ距離の異なる画像をレンダリングすることで、最近発表したニューラルヒューマトメーターデータセットを拡張しました。 推定されたHBDと実際のHBDのネットワーク推定誤差と相対平均誤差を評価する。 我々は,(1)特定の性別の被験者による訓練,(2)特定のポーズでの訓練,(3)疎カメラ距離,(4)密カメラ距離の4つのシナリオでcnnを訓練・評価した。 我々の実験は、ネットワークがタスクをうまく実行できることを実証するだけでなく、HBDEのタスクをよりよく理解するのに寄与する多くの関連する事実も明らかにする。

Human Body Dimensions Estimation (HBDE) is a task that an intelligent agent can perform to attempt to determine human body information from images (2D) or point clouds or meshes (3D). More specifically, if we define the HBDE problem as inferring human body measurements from images, then HBDE is a difficult, inverse, multi-task regression problem that can be tackled with machine learning techniques, particularly convolutional neural networks (CNN). Despite the community's tremendous effort to advance human shape analysis, there is a lack of systematic experiments to assess CNNs estimation of human body dimensions from images. Our contribution lies in assessing a CNN estimation performance in a series of controlled experiments. To that end, we augment our recently published neural anthropometer dataset by rendering images with different camera distance. We evaluate the network inference absolute and relative mean error between the estimated and actual HBDs. We train and evaluate the CNN in four scenarios: (1) training with subjects of a specific gender, (2) in a specific pose, (3) sparse camera distance and (4) dense camera distance. Not only our experiments demonstrate that the network can perform the task successfully, but also reveal a number of relevant facts that contribute to better understand the task of HBDE.
翻訳日:2022-05-25 14:25:06 公開日:2022-05-24
# VLCDoC:クロスモーダル文書分類のための視覚言語コントラスト事前学習モデル

VLCDoC: Vision-Language Contrastive Pre-Training Model for Cross-Modal Document Classification ( http://arxiv.org/abs/2205.12029v1 )

ライセンス: Link先を確認
Souhail Bakkali, Zuheng Ming, Mickael Coustaty, Mar\c{c}al Rusi\~nol, Oriol Ramos Terrades(参考訳) 文書データからのマルチモーダル学習は、学習可能な下流アプローチへの事前学習を可能にするため、近年大きな成功を収めている。 本稿では,モダリティ内およびモダリティ間関係を考慮し,言語と視覚の相互表現を学習し,文書分類問題にアプローチする。 提案手法は,異なるモダリティから共通表現空間に特徴をマージする代わりに,ハイレベルなインタラクションを活用し,モダリティ内および各モダリティ間の効果的な注意フローから関連する意味情報を学習する。 提案した学習目的は, 共通特徴表現空間における負の対を同時に比較しながら, 正のサンプル対を縮合することにより, タスクごとの類似度分布を計算する。 公開文書分類データセットに対する大規模な実験により,低スケール・大規模両方のデータセットにおいて,我々のモデルの有効性と一般化能力を示す。

Multimodal learning from document data has achieved great success lately as it allows to pre-train semantically meaningful features as a prior into a learnable downstream approach. In this paper, we approach the document classification problem by learning cross-modal representations through language and vision cues, considering intra- and inter-modality relationships. Instead of merging features from different modalities into a common representation space, the proposed method exploits high-level interactions and learns relevant semantic information from effective attention flows within and across modalities. The proposed learning objective is devised between intra- and inter-modality alignment tasks, where the similarity distribution per task is computed by contracting positive sample pairs while simultaneously contrasting negative ones in the common feature representation space}. Extensive experiments on public document classification datasets demonstrate the effectiveness and the generalization capacity of our model on both low-scale and large-scale datasets.
翻訳日:2022-05-25 14:24:43 公開日:2022-05-24
# (参考訳) 航空ビジョン・アンド・ダイアログナビゲーション

Aerial Vision-and-Dialog Navigation ( http://arxiv.org/abs/2205.12219v1 )

ライセンス: CC BY 4.0
Yue Fan, Winson Chen, Tongzhou Jiang, Chun Zhou, Yi Zhang, Xin Eric Wang(参考訳) 人間と会話し、自然言語でコマンドに従う能力は、インテリジェントな無人航空機(ドローン)にとって不可欠である。 コントローラーを常に持ち続けることの負担を軽減し、マルチタスクを可能にし、障害のある人や手を使ってドローンの制御をより容易に行えるようにする。 この目的のために,Aerial Vision-and-Dialog Navigation (AVDN)を導入し,自然言語による会話を通じてドローンをナビゲートする。 我々は、連続したフォトリアリスティック環境を備えたドローンシミュレータを構築し、3k以上のナビゲーショントラジェクトリの新たなAVDNデータセットを、指揮官とフォロワー間の非同期な人間と人間の対話で収集する。 コマンドは初期ナビゲーションの指示と要求によるガイダンスを提供するが、フォロワーはシミュレータでドローンをナビゲートし、必要なときに質問する。 データ収集中、ドローンの視覚的観察に対するフォロワーの注意も記録されている。 avdnデータセットに基づいて、(完全な)ダイアログ履歴から航空ナビゲーションのタスクを調査し、ナビゲーションのウェイポイントと人の注意の両方を予測するための効果的なヒューマンアテンション支援(haa)ベースラインモデルを提案する。 データセットとコードがリリースされる。

The ability to converse with humans and follow commands in natural language is crucial for intelligent unmanned aerial vehicles (a.k.a. drones). It can relieve people's burden of holding a controller all the time, allow multitasking, and make drone control more accessible for people with disabilities or with their hands occupied. To this end, we introduce Aerial Vision-and-Dialog Navigation (AVDN), to navigate a drone via natural language conversation. We build a drone simulator with a continuous photorealistic environment and collect a new AVDN dataset of over 3k recorded navigation trajectories with asynchronous human-human dialogs between commanders and followers. The commander provides initial navigation instruction and further guidance by request, while the follower navigates the drone in the simulator and asks questions when needed. During data collection, followers' attention on the drone's visual observation is also recorded. Based on the AVDN dataset, we study the tasks of aerial navigation from (full) dialog history and propose an effective Human Attention Aided (HAA) baseline model, which learns to predict both navigation waypoints and human attention. Dataset and code will be released.
翻訳日:2022-05-25 14:23:16 公開日:2022-05-24
# スパースグラフの半教師付きクラスタリング:情報理論閾値を越えて

Semi-Supervised Clustering of Sparse Graphs: Crossing the Information-Theoretic Threshold ( http://arxiv.org/abs/2205.11677v1 )

ライセンス: Link先を確認
Junda Sheng and Thomas Strohmer(参考訳) 確率ブロックモデルは、ネットワーク構造データのクラスタリングとコミュニティ検出のための標準ランダムグラフモデルである。 この問題に関する広範な研究は、ケステン・スティグム閾値における相転移が数学的および応用的な観点から特に興味深い、多くの重要な結果を生み出している。 ネットワークトポロジに基づく推定器は、モデルパラメータが一定の閾値以下である場合、スパースグラフの確率よりも大幅に向上する。 それでも、地平線をユビキタスな半教師付き設定に少し拡張すれば、そのような基本的な制限は完全に消える。 ラベルの任意の部分を明らかにすると、検出問題はパラメータ領域全体にわたって実現可能であることを示す。 さらに,ラベル情報をグラフ構造と統合するために,組合せと最適化に基づく2つの効率的なアルゴリズムを導入する。 我々の研究は、ネットワークの確率モデルと半定値プログラム研究に新たな視点をもたらす。

The stochastic block model is a canonical random graph model for clustering and community detection on network-structured data. Decades of extensive study on the problem have established many profound results, among which the phase transition at the Kesten-Stigum threshold is particularly interesting both from a mathematical and an applied standpoint. It states that no estimator based on the network topology can perform substantially better than chance on sparse graphs if the model parameter is below certain threshold. Nevertheless, if we slightly extend the horizon to the ubiquitous semi-supervised setting, such a fundamental limitation will disappear completely. We prove that with arbitrary fraction of the labels revealed, the detection problem is feasible throughout the parameter domain. Moreover, we introduce two efficient algorithms, one combinatorial and one based on optimization, to integrate label information with graph structures. Our work brings a new perspective to stochastic model of networks and semidefinite program research.
翻訳日:2022-05-25 13:55:16 公開日:2022-05-24
# サンプル効率バッチベイズ最適化による高度製造構成

Advanced Manufacturing Configuration by Sample-efficient Batch Bayesian Optimization ( http://arxiv.org/abs/2205.11827v1 )

ライセンス: Link先を確認
Xavier Guidetti, Alisa Rupenyan, Lutz Fassl, Majid Nabavi, John Lygeros(参考訳) ベイズ最適化に基づく高コスト・高コスト製造手法の構成と運用のための枠組みを提案する。 フレームワークは、調整された取得機能、並列取得手順、最適化手順にコンテキストを提供するプロセス情報の統合を統一する。 この新規な獲得関数を, ベンチマーク図式問題に基づいて実証, 解析した。 大気プラズマ溶射における最適化手法をシミュレーションおよび実験に応用する。 この結果から,提案フレームワークは,所望の結果をもたらす入力パラメータを効率的に発見し,プロセスコストを最小化できることを示す。

We propose a framework for the configuration and operation of expensive-to-evaluate advanced manufacturing methods, based on Bayesian optimization. The framework unifies a tailored acquisition function, a parallel acquisition procedure, and the integration of process information providing context to the optimization procedure. The novel acquisition function is demonstrated and analyzed on benchmark illustrative problems. We apply the optimization approach to atmospheric plasma spraying in simulation and experiments. Our results demonstrate that the proposed framework can efficiently find input parameters that produce the desired outcome and minimize the process cost.
翻訳日:2022-05-25 13:55:03 公開日:2022-05-24
# 制御変数と適応的重要度サンプリングを組み合わせた二次規則

A Quadrature Rule combining Control Variates and Adaptive Importance Sampling ( http://arxiv.org/abs/2205.11890v1 )

ライセンス: Link先を確認
R\'emi Leluc, Fran\c{c}ois Portier, Johan Segers, Aigerim Zhuman(参考訳) 確率勾配降下やベイズ計算などのいくつかの成功した応用により、制御変数はモンテカルロ積分の主要なツールとなっている。 しかし、標準的な方法では、逐次シミュレーション法のように、アルゴリズム中に粒子の分布が進化することを許さない。 標準適応型重要度サンプリングフレームワークでは、制御変数による手順改善のために、単純な重み付き最小二乗アプローチが提案されている。 この手順は、制御変数がもたらす情報を反映するために、適応された二次重み付き二次規則の形を取る。 四次点と重みは積分に依存せず、複数の積分の場合の計算上の利点である。 さらに、ターゲット密度は乗法定数までしか知られていない必要がある。 我々の主な結果は、手続きの確率的誤差の非漸近的境界である。 この境界は、推定精度を向上させるために、適応的重要度サンプリングと制御変動の利点を組み合わせることができることを証明している。 この手法のよい振る舞いは、ベイズ線形回帰の合成例と実世界データに基づいて実証的に示される。

Driven by several successful applications such as in stochastic gradient descent or in Bayesian computation, control variates have become a major tool for Monte Carlo integration. However, standard methods do not allow the distribution of the particles to evolve during the algorithm, as is the case in sequential simulation methods. Within the standard adaptive importance sampling framework, a simple weighted least squares approach is proposed to improve the procedure with control variates. The procedure takes the form of a quadrature rule with adapted quadrature weights to reflect the information brought in by the control variates. The quadrature points and weights do not depend on the integrand, a computational advantage in case of multiple integrands. Moreover, the target density needs to be known only up to a multiplicative constant. Our main result is a non-asymptotic bound on the probabilistic error of the procedure. The bound proves that for improving the estimate's accuracy, the benefits from adaptive importance sampling and control variates can be combined. The good behavior of the method is illustrated empirically on synthetic examples and real-world data for Bayesian linear regression.
翻訳日:2022-05-25 13:54:54 公開日:2022-05-24
# ジャコビアン制御によるガウスカーネルリッジ回帰の帯域選択

Bandwidth Selection for Gaussian Kernel Ridge Regression via Jacobian Control ( http://arxiv.org/abs/2205.11956v1 )

ライセンス: Link先を確認
Oskar Allerbo and Rebecka J\"ornsten(参考訳) ほとんどの機械学習手法はハイパーパラメータのチューニングに依存する。 ガウスカーネルを用いたカーネルリッジ回帰(KRR)では、ハイパーパラメータは帯域幅である。 帯域幅はカーネルの長さスケールを規定し、優れた一般化モデルを得るために慎重に選択する必要がある。 帯域幅選択のデフォルトの方法はクロスバリデーションであり、計算コストが高いにもかかわらず良い結果が得られる。 さらに、クロスバリデーションによって提供される推定値は、特にトレーニングデータが少ない場合、非常に大きなばらつきを持つ傾向にある。 ヤコビアン正則化に着想を得て、KRR とガウス核によって推論される関数の微分が、カーネルの帯域幅にどのように依存するかを定式化する。 次に、この表現を用いて、ヤコビアン制御に基づく閉形式、計算羽根光帯域選択法を提案する。 さらに、ヤコビアン式は、推定関数の滑らかさとトレーニングデータカーネル行列の条件付けとの間のトレードオフである帯域幅選択を照らす。 クロスバリデーションと比較して,提案手法は帯域選択の面ではかなり安定であり,小型データセットでは予測精度が向上することを示す。

Most machine learning methods depend on the tuning of hyper-parameters. For kernel ridge regression (KRR) with the Gaussian kernel, the hyper-parameter is the bandwidth. The bandwidth specifies the length-scale of the kernel and has to be carefully selected in order to obtain a model with good generalization. The default method for bandwidth selection is cross-validation, which often yields good results, albeit at high computational costs. Furthermore, the estimates provided by cross-validation tend to have very high variance, especially when training data are scarce. Inspired by Jacobian regularization, we formulate how the derivatives of the functions inferred by KRR with the Gaussian kernel depend on the kernel bandwidth. We then use this expression to propose a closed-form, computationally feather-light, bandwidth selection method based on controlling the Jacobian. In addition, the Jacobian expression illuminates how the bandwidth selection is a trade-off between the smoothness of the inferred function, and the conditioning of the training data kernel matrix. We show on real and synthetic data that compared to cross-validation, our method is considerably more stable in terms of bandwidth selection, and, for small data sets, provides better predictions.
翻訳日:2022-05-25 13:54:38 公開日:2022-05-24
# 分布型ハミルトン・ヤコビ・ベルマン方程式による連続時間強化学習

Distributional Hamilton-Jacobi-Bellman Equations for Continuous-Time Reinforcement Learning ( http://arxiv.org/abs/2205.12184v1 )

ライセンス: Link先を確認
Harley Wiltzer and David Meger and Marc G. Bellemare(参考訳) 連続時間強化学習は、時間経過が自然に離散的な増分に分割されない制御問題を記述するための魅力的な形式を提供する。 本稿では,連続した確率環境で相互作用するエージェントが得るリターン分布の予測の問題を考える。 正確な回帰予測は、リスク感受性制御、学習状態表現、マルチエージェント調整などの最適ポリシーを決定するのに有用であることが証明されている。 まずハミルトン・ヤコビ・ベルマン(hjb)方程式のit\^o拡散に対する分布的類似性とフェラー・ディンキン過程のより広いクラスを確立する。 次に、この方程式を、分布アルゴリズムにおける一般的な設計選択である、一様重み付き粒子が返却分布を近似する設定に専門化する。 私たちの導出は、連続時間設定における分布の適切な取り扱いから生じる統計的拡散性による追加項を強調している。 これに基づいて、オンライン制御アルゴリズムで実装可能なJKOスキームに基づいて、分布HJBを近似的に解くことのできるトラクタブルアルゴリズムを提案する。 合成制御問題において,そのようなアルゴリズムの有効性を示す。

Continuous-time reinforcement learning offers an appealing formalism for describing control problems in which the passage of time is not naturally divided into discrete increments. Here we consider the problem of predicting the distribution of returns obtained by an agent interacting in a continuous-time, stochastic environment. Accurate return predictions have proven useful for determining optimal policies for risk-sensitive control, learning state representations, multiagent coordination, and more. We begin by establishing the distributional analogue of the Hamilton-Jacobi-Bellman (HJB) equation for It\^o diffusions and the broader class of Feller-Dynkin processes. We then specialize this equation to the setting in which the return distribution is approximated by $N$ uniformly-weighted particles, a common design choice in distributional algorithms. Our derivation highlights additional terms due to statistical diffusivity which arise from the proper handling of distributions in the continuous-time setting. Based on this, we propose a tractable algorithm for approximately solving the distributional HJB based on a JKO scheme, which can be implemented in an online control algorithm. We demonstrate the effectiveness of such an algorithm in a synthetic control problem.
翻訳日:2022-05-25 13:52:51 公開日:2022-05-24
# 単細胞顕微鏡によるタンパク質の多スケール機能表現の学習

Learning multi-scale functional representations of proteins from single-cell microscopy data ( http://arxiv.org/abs/2205.11676v1 )

ライセンス: Link先を確認
Anastasia Razdaibiedina and Alexander Brechalov(参考訳) タンパク質機能は本質的に細胞内の局在と結びついており、蛍光顕微鏡データはタンパク質の表現を学習するのに欠かせない資源である。 分子表現学習の大きな発展にもかかわらず、生物学的画像から機能的情報を抽出することは、非自明な計算課題である。 現在の最先端のアプローチでは、オートエンコーダモデルを使用して画像の再構成によって高品質な特徴を学習している。 しかし、そのような手法はノイズや画像のアーティファクトを捉えやすい。 本研究では,主要な細胞内局在の分類に使用される深層学習モデルを再検討し,最終層から抽出した表現を評価する。 ローカライズ分類を訓練した単純な畳み込みネットワークは,多様な機能情報をカプセル化するタンパク質表現を学習し,オートエンコーダベースのモデルを大幅に上回っている。 また,生物機能の異なるスケールでタンパク質表現の質を評価するためのロバストな評価戦略を提案する。

Protein function is inherently linked to its localization within the cell, and fluorescent microscopy data is an indispensable resource for learning representations of proteins. Despite major developments in molecular representation learning, extracting functional information from biological images remains a non-trivial computational task. Current state-of-the-art approaches use autoencoder models to learn high-quality features by reconstructing images. However, such methods are prone to capturing noise and imaging artifacts. In this work, we revisit deep learning models used for classifying major subcellular localizations, and evaluate representations extracted from their final layers. We show that simple convolutional networks trained on localization classification can learn protein representations that encapsulate diverse functional information, and significantly outperform autoencoder-based models. We also propose a robust evaluation strategy to assess quality of protein representations across different scales of biological function.
翻訳日:2022-05-25 13:51:57 公開日:2022-05-24
# Gacs-Korner共通情報変分オートエンコーダ

Gacs-Korner Common Information Variational Autoencoder ( http://arxiv.org/abs/2205.12239v1 )

ライセンス: Link先を確認
Michael Kleinman, Alessandro Achille, Stefano Soatto, Jonathan Kao(参考訳) 本稿では,2つの変数間で共有される情報の定量化と分離を可能にする共通情報の概念を,それぞれに固有の情報から提案する。 我々の共通情報の概念は、g\'acs-k\"orner共通情報の変動緩和であり、これは特別な場合として回復するが、最適化に適しており、基礎となる分布からサンプルを用いて経験的に近似することができる。 次に,従来の変分オートエンコーダの簡単な修正を用いて,共通情報と一意情報を分割,定量化する手法を提案する。 画像やビデオなどの高次元データでも意味論的に意味のある共通要素や特徴要因を学習できることを実証的に実証した。 さらに,接地潜伏要因が知られているデータセットについて,確率変数間の共通情報を正確に定量化できることを示す。 さらに、学習する自動エンコーダは、明示的に最適化していないにもかかわらず、意味的に意味のあるばらつきの要因を回復することを示している。

We propose a notion of common information that allows one to quantify and separate the information that is shared between two random variables from the information that is unique to each. Our notion of common information is a variational relaxation of the G\'acs-K\"orner common information, which we recover as a special case, but is more amenable to optimization and can be approximated empirically using samples from the underlying distribution. We then provide a method to partition and quantify the common and unique information using a simple modification of a traditional variational auto-encoder. Empirically, we demonstrate that our formulation allows us to learn semantically meaningful common and unique factors of variation even on high-dimensional data such as images and videos. Moreover, on datasets where ground-truth latent factors are known, we show that we can accurately quantify the common information between the random variables. Additionally, we show that the auto-encoder that we learn recovers semantically meaningful disentangled factors of variation, even though we do not explicitly optimize for it.
翻訳日:2022-05-25 13:51:42 公開日:2022-05-24
# 低データレジームにおける対話からのワークフロー発見

Workflow Discovery from Dialogues in the Low Data Regime ( http://arxiv.org/abs/2205.11690v1 )

ライセンス: Link先を確認
Amine El Hattami, Stefania Raimondo, Issam Laradji, David Vazquez, Pau Rodriguez, Chris Pal(参考訳) 現在、テキストベースの対話は現実世界の問題を解決するために広く使われている。 ソリューション戦略がすでに知られている場合、ワークフローに成文化され、顧客を助けるタスクを通じて人間や人工エージェントを導くのに使われることがある。 正式なワークフローがまだ存在しない状況に興味がありますが、問題を解決するためのアクションのステップを見つけたいと思っています。 本稿では,この状況に対する新しいトランスフォーマーベースのアプローチについて検討し,ワークフローとABCD(Action-Based Conversations Dataset)の対話を要約する実験を行う。 ABCDダイアログは既知のワークフローを用いて生成されエージェントを誘導するので、ワークフローとして整理されたアクションステップの基底真理シーケンスを用いて、そのようなワークフローを抽出する能力を評価することができる。 我々は、許容アクションステップのセット上で条件モデルを構築する手法を提案し評価し、この戦略を用いることでワークフロー発見(wd)の性能を向上させることができることを示す。 我々の条件付け手法は、学習したモデルを全く新しい領域(つまりMultiWOZ設定)に転送する際のゼロショットと少数ショットのWD性能も改善する。 さらに,abcd上での動作状態追跡 (ast) とカスケード対話成功 (cds) に関して,関連するが異なる問題に対して最先端のパフォーマンスを実現する。

Text-based dialogues are now widely used to solve real-world problems. In cases where solution strategies are already known, they can sometimes be codified into workflows and used to guide humans or artificial agents through the task of helping clients. We are interested in the situation where a formal workflow may not yet exist, but we wish to discover the steps of actions that have been taken to resolve problems. We examine a novel transformer-based approach for this situation and we present experiments where we summarize dialogues in the Action-Based Conversations Dataset (ABCD) with workflows. Since the ABCD dialogues were generated using known workflows to guide agents we can evaluate our ability to extract such workflows using ground truth sequences of action steps, organized as workflows. We propose and evaluate an approach that conditions models on the set of allowable action steps and we show that using this strategy we can improve workflow discovery (WD) performance. Our conditioning approach also improves zero-shot and few-shot WD performance when transferring learned models to entirely new domains (i.e. the MultiWOZ setting). Further, a modified variant of our architecture achieves state-of-the-art performance on the related but different problems of Action State Tracking (AST) and Cascading Dialogue Success (CDS) on the ABCD.
翻訳日:2022-05-25 13:51:12 公開日:2022-05-24
# ニューラルオープン情報抽出に関する調査 : 現状と今後の方向性

A Survey on Neural Open Information Extraction: Current Status and Future Directions ( http://arxiv.org/abs/2205.11725v1 )

ライセンス: Link先を確認
Shaowen Zhou, Bowen Yu, Aixin Sun, Cheng Long, Jingyang Li, Jian Sun(参考訳) open information extraction (openie) は大きなコーパスからリレーショナル事実をドメインに依存しない発見を促進する。 このテクニックは、自動知識ベース構築、オープンドメイン質問応答、明示的推論など、多くのオープンワールド自然言語理解シナリオによく適合する。 ディープラーニング技術の急速な開発により、多くのニューラルOpenIEアーキテクチャが提案され、大幅なパフォーマンス向上を実現している。 本調査では、最先端のニューラルネットワークOpenIEモデル、設計決定、強度、弱点について概観する。 そして,現在のソリューションの限界と,OpenIE問題自体のオープンな問題について議論する。 最後に、そのスコープと適用性の拡大に役立つ最近のトレンドをリストアップし、OpenIEにおける将来の研究に向けた有望な方向性を設定します。 私たちの知る限り、この論文は、この特定のトピックに関する最初のレビューです。

Open Information Extraction (OpenIE) facilitates domain-independent discovery of relational facts from large corpora. The technique well suits many open-world natural language understanding scenarios, such as automatic knowledge base construction, open-domain question answering, and explicit reasoning. Thanks to the rapid development in deep learning technologies, numerous neural OpenIE architectures have been proposed and achieve considerable performance improvement. In this survey, we provide an extensive overview of the-state-of-the-art neural OpenIE models, their key design decisions, strengths and weakness. Then, we discuss limitations of current solutions and the open issues in OpenIE problem itself. Finally we list recent trends that could help expand its scope and applicability, setting up promising directions for future research in OpenIE. To our best knowledge, this paper is the first review on this specific topic.
翻訳日:2022-05-25 13:49:48 公開日:2022-05-24
# うつ病指向チャットのための中国語対話データセットD4

D4: a Chinese Dialogue Dataset for Depression-Diagnosis-Oriented Chat ( http://arxiv.org/abs/2205.11764v1 )

ライセンス: Link先を確認
Binwei Yao, Chao Shi, Likai Zou, Lingfeng Dai, Mengyue Wu, Lu Chen, Zhen Wang, Kai Yu(参考訳) うつ病指向の臨床セッションでは、医師は、臨床診断基準に基づいて患者に症状を公開するための十分な感情的支援との会話を開始する。 このようなダイアログはタスク指向とchitchatの組み合わせであり、従来の単一目的のヒューマンマシンダイアログシステムとは異なる。 しかし,精神病に伴う社会的便秘が原因でうつ病相談や診断に関する対話データが開示されることは稀である。 自動対話に基づく診断は大きな応用可能性をもたらすが、このようなタスク指向の対話の研究を制限する大きなボトルネックの1つはデータスパーシティである。 Based on clinical depression diagnostic criteria ICD-11 and DSM-5, we construct the D$^4$: a Chinese Dialogue Dataset for Depression-Diagnosis-Oriented Chat which simulates the dialogue between doctors and patients during the diagnosis of depression, including diagnosis results and symptom summary given by professional psychiatrists for each dialogue.Finally, we finetune on state-of-the-art pre-training models and respectively present our dataset baselines on four tasks including response generation, topic prediction, dialog summary, and severity classification of depressive episode and suicide risk. マルチスケール評価の結果,データセット上で訓練された共感駆動型・診断精度の高い対話システムを実現することができた。

In a depression-diagnosis-directed clinical session, doctors initiate a conversation with ample emotional support that guides the patients to expose their symptoms based on clinical diagnosis criteria. Such a dialog is a combination of task-oriented and chitchat, different from traditional single-purpose human-machine dialog systems. However, due to the social stigma associated with mental illness, the dialogue data related to depression consultation and diagnosis are rarely disclosed. Though automatic dialogue-based diagnosis foresees great application potential, data sparsity has become one of the major bottlenecks restricting research on such task-oriented chat dialogues. Based on clinical depression diagnostic criteria ICD-11 and DSM-5, we construct the D$^4$: a Chinese Dialogue Dataset for Depression-Diagnosis-Oriented Chat which simulates the dialogue between doctors and patients during the diagnosis of depression, including diagnosis results and symptom summary given by professional psychiatrists for each dialogue.Finally, we finetune on state-of-the-art pre-training models and respectively present our dataset baselines on four tasks including response generation, topic prediction, dialog summary, and severity classification of depressive episode and suicide risk. Multi-scale evaluation results demonstrate that a more empathy-driven and diagnostic-accurate consultation dialogue system trained on our dataset can be achieved compared to rule-based bots.
翻訳日:2022-05-25 13:49:35 公開日:2022-05-24
# Charon: マルチモーダルコーパスのためのFrameNetアノテーションツール

Charon: a FrameNet Annotation Tool for Multimodal Corpora ( http://arxiv.org/abs/2205.11836v1 )

ライセンス: Link先を確認
Frederico Belcavello, Marcelo Viridiano, Ely Edison Matos, Tiago Timponi Torrent(参考訳) 本稿では,複数モーダルコーパスをFrameNetカテゴリでアノテートするWebツールCharonを提案する。 コメントは、静的画像とビデオシーケンスの両方とテキストシーケンスとの組み合わせを含むコーパスに対して作成することができる。 パイプラインはアノテーションインターフェース、コーパスインポート、前処理ツールに加えて機能する。

This paper presents Charon, a web tool for annotating multimodal corpora with FrameNet categories. Annotation can be made for corpora containing both static images and video sequences paired - or not - with text sequences. The pipeline features, besides the annotation interface, corpus import and pre-processing tools.
翻訳日:2022-05-25 13:49:16 公開日:2022-05-24
# Lutma: 協調型FrameNet開発のためのフレーム作成ツール

Lutma: a Frame-Making Tool for Collaborative FrameNet Development ( http://arxiv.org/abs/2205.11840v1 )

ライセンス: Link先を確認
Tiago Timponi Torrent, Arthur Lorenzi, Ely Edison da Silva Matos, Frederico Belcavello, Marcelo Viridiano, Maucha Andrade Gamonal(参考訳) 本稿では,Global FrameNetイニシアチブにフレームと語彙単位をコントリビュートするための,協調的,半拘束的,チュートリアルベースのツールであるLutmaを紹介する。 このツールは、フレーム作成のプロセスをパラメータ化し、一貫性違反を避け、コミュニティが提供したフレームと既存のフレームの統合を促進する。 lutmaはウィザードのような方法で構成されており、フレーム作成プロセスの各ステップに関連するテキストやビデオチュートリアルを提供する。 我々は、このツールが、言語モデルにおける視点を表現するための有効な代替手段としてフレームを配置することで、言語とそれらによって符号化された文化的視点の両方の観点から、FrameNetのカバレッジを合理的に拡張できると論じている。

This paper presents Lutma, a collaborative, semi-constrained, tutorial-based tool for contributing frames and lexical units to the Global FrameNet initiative. The tool parameterizes the process of frame creation, avoiding consistency violations and promoting the integration of frames contributed by the community with existing frames. Lutma is structured in a wizard-like fashion so as to provide users with text and video tutorials relevant for each step in the frame creation process. We argue that this tool will allow for a sensible expansion of FrameNet coverage in terms of both languages and cultural perspectives encoded by them, positioning frames as a viable alternative for representing perspective in language models.
翻訳日:2022-05-25 13:49:13 公開日:2022-05-24
# ODL環境におけるC/C++導入プログラムの効果的な自動評価システムの構築

Building an Effective Automated Assessment System for C/C++ Introductory Programming Courses in ODL Environment ( http://arxiv.org/abs/2205.11915v1 )

ライセンス: Link先を確認
Muhammad Salman Khan and Adnan Ahmad and Muhammad Humayoun(参考訳) 評価は、特定の時点で学習者が得た知識を評価するのに役立つだけでなく、カリキュラム設計と学習プロセス全体の継続的な改善にも役立つ。 しかし、従来の教育環境や遠隔教育環境において、大学レベルの学生の入学率の増加に伴い、時間と労力の両面で、従来の学生の作業評価方法が不十分になっている。 遠隔教育環境では、多くの家庭教師を雇うための重い報酬の観点からも、こうした評価がさらに困難になる。 学生の作業評価を支援し,適切なタイムリーなフィードバックを提供する自動ツールが,これらの課題の克服に有効である。 我々は,学生のあらゆる科目における作業評価ツールの構築は,まだ不可能であると信じている。 しかし、表現の形式言語を含むコースは、コンピュータサイエンス(cs)の分野におけるプログラミングコースのように自動化することができる。 インストラクターは、これらのスキルを構築するための課題として、学生に様々な実践的な訓練を提供する。 通常、インストラクターは手動で評価し、これらの課題についてフィードバックを提供する。 文献では、このプロセスを自動化するための様々なツールが報告されているが、これらのツールのほとんどはホスト機関が独自に開発したものである。 パキスタンのラホールにあるcomsats情報技術研究所(comsats institute of information technology)では、学生に適切なフィードバックを提供する能力を備えた、cやc++言語を含む導入型プログラミングコースの割り当てのマーキングを自動化するための、先駆的な取り組みを行っています。 本稿では,c/c++プログラミングを含む導入型プログラミングコースの文脈において,効果的な自動評価システムを構築する上で必要な,さまざまなコンポーネントを基本的に識別する。

Assessments help in evaluating the knowledge gained by a learner at any specific point as well as in continuous improvement of the curriculum design and the whole learning process. However, with the increase in students' enrollment at University level in either conventional or distance education environment, traditional ways of assessing students' work are becoming insufficient in terms of both time and effort. In distance education environment, such assessments become additionally more challenging in terms of hefty remuneration for hiring large number of tutors. The availability of automated tools to assist the evaluation of students' work and providing students with appropriate and timely feedback can really help in overcoming these problems. We believe that building such tools for assessing students' work for all kinds of courses in not yet possible. However, courses that involve some formal language of expression can be automated, such as, programming courses in Computer Science (CS) discipline. Instructors provide various practical exercises to students as assignments to build these skills. Usually, instructors manually grade and provide feedbacks on these assignments. Although in literature, various tools have been reported to automate this process, but most of these tools have been developed by the host institutions themselves for their own use. We at COMSATS Institute of Information Technology, Lahore are conducting a pioneer effort in Pakistan to automate the marking of assignments of introductory programming courses that involve C or C++ languages with the capability of associating appropriate feedbacks for students. In this paper, we basically identify different components that we believe are necessary in building an effective automated assessment system in the context of introductory programming courses that involve C/C++ programming.
翻訳日:2022-05-25 13:47:01 公開日:2022-05-24
# インフルエンザワクチン・ヘシタンシーに関するインテント発見のためのベンチマークデータと評価フレームワーク

Benchmark Data and Evaluation Framework for Intent Discovery Around COVID-19 Vaccine Hesitancy ( http://arxiv.org/abs/2205.11966v1 )

ライセンス: Link先を確認
Shai Gretz, Assaf Toledo, Roni Friedman, Dan Lahav, Rose Weeks, Naor Bar-Zeev, Jo\~ao Sedoc, Pooja Sangha, Yoav Katz, Noam Slonim(参考訳) 新型コロナウイルス(COVID-19)のパンデミックは世界中で大きな影響を与え、数百万人の命を犠牲にした。 新型コロナウイルス(COVID-19)ワクチンがロールアウトされたため、彼らはすぐに広範囲の害に遭った。 VIRAは、新型コロナウイルスワクチンをめぐる問題や懸念に対処することを目的とした、公開対話システムだ。 ここでは、実際のユーザがVIRAを使って行う8k以上の対話のデータセットであるVIRADialogsをリリースし、ユニークな現実世界の会話データセットを提供する。 利用者の意図の急激な変化,ガイドラインの更新,あるいは新たな情報への対応などを踏まえ,本ユースケースにおける意図発見の重要な課題を強調した。 本稿では,対話システムの既存の意図分類を利用した意図発見のための新しい自動評価フレームワークを提案する。 我々はこのフレームワークを用いて、VIRADialogs上でのベースライン意図発見結果を報告し、この課題の難しさを浮き彫りにする。

The COVID-19 pandemic has made a huge global impact and cost millions of lives. As COVID-19 vaccines were rolled out, they were quickly met with widespread hesitancy. To address the concerns of hesitant people, we launched VIRA, a public dialogue system aimed at addressing questions and concerns surrounding the COVID-19 vaccines. Here, we release VIRADialogs, a dataset of over 8k dialogues conducted by actual users with VIRA, providing a unique real-world conversational dataset. In light of rapid changes in users' intents, due to updates in guidelines or as a response to new information, we highlight the important task of intent discovery in this use-case. We introduce a novel automatic evaluation framework for intent discovery, leveraging the existing intent classifier of a given dialogue system. We use this framework to report baseline intent-discovery results over VIRADialogs, that highlight the difficulty of this task.
翻訳日:2022-05-25 13:46:31 公開日:2022-05-24
# 多言語BERTにおける語順型:下節検出の事例

Word-order typology in Multilingual BERT: A case study in subordinate-clause detection ( http://arxiv.org/abs/2205.11987v1 )

ライセンス: Link先を確認
Dmitry Nikolaev and Sebastian Pad\'o(参考訳) BERTと類似のモデルの能力と限界は、特に言語間の構文的抽象化を学ぶことに関してまだ不明である。 本稿では,これらの特性を探索するために,言語内および言語間における従属クラス検出の課題を用いる。 我々は,この課題が極めて単純で,難易度の高いケースの長い尾で相反し易いことを示し,BERTのゼロショット性能は,SVO/VSO/SOVタイプロジを反映した語順効果に支配されていることを示した。

The capabilities and limitations of BERT and similar models are still unclear when it comes to learning syntactic abstractions, in particular across languages. In this paper, we use the task of subordinate-clause detection within and across languages to probe these properties. We show that this task is deceptively simple, with easy gains offset by a long tail of harder cases, and that BERT's zero-shot performance is dominated by word-order effects, mirroring the SVO/VSO/SOV typology.
翻訳日:2022-05-25 13:46:14 公開日:2022-05-24
# 感情分類によるギリシャ議会記録の分析

Analysing the Greek Parliament Records with Emotion Classification ( http://arxiv.org/abs/2205.12012v1 )

ライセンス: Link先を確認
John Pavlopoulos and Vanessa Lislevand(参考訳) このプロジェクトでは,ギリシャ語の感情分類に取り組み,新しいデータセットをギリシア語で提示し,公開する。 モノリンガルと多言語で事前学習したトランスフォーマタに基づくマスキング言語モデルの微調整と評価を行い,感情毎の結果を示し,感情と主観性レベルでの集計を行った。 提示された資源のポテンシャルは、ギリシャ議会記録における「嫌悪感」の感情を検出し、研究することで調査される。 私たち (a)1989年から現在までの最高値の月を特定する。 (b)その演説におけるこの感情の存在に基づいて、ギリシャの政党をランク付けし、 (c)人格付けに用いられる単語の感情的文脈変化について検討する。

In this project, we tackle emotion classification for the Greek language, presenting and releasing a new dataset in Greek. We fine-tune and assess Transformer-based masked language models that were pre-trained on monolingual and multilingual resources, and we present the results per emotion and by aggregating at the sentiment and subjectivity level. The potential of the presented resources is investigated by detecting and studying the emotion of `disgust' in the Greek Parliament records. We: (a) locate the months with the highest values from 1989 to present, (b) rank the Greek political parties based on the presence of this emotion in their speeches, and (c) study the emotional context shift of words used to stigmatise people.
翻訳日:2022-05-25 13:46:03 公開日:2022-05-24
# (参考訳) EBMライフサイクル:MCMCによる合成・防衛・密度モデリング

EBM Life Cycle: MCMC Strategies for Synthesis, Defense, and Density Modeling ( http://arxiv.org/abs/2205.12243v1 )

ライセンス: CC BY 4.0
Mitch Hill, Jonathan Mitchell, Chu Chen, Yuan Du, Mubarak Shah, Song-Chun Zhu(参考訳) 本研究は, MCMCサンプリング軌道の所望の長さに応じて, エネルギーベースモデル(EBM)を学習するための戦略を提案する。 異なる長さのMCMC軌道は異なる目的のモデルに対応する。 私たちの実験は3つの異なる軌跡の規模と学習結果をカバーしています。 1) 画像生成のためのショートランサンプリング 2) 分類器非依存抗防御のためのミッドランサンプリング 3)画像確率密度の原理モデリングのための長期サンプリング。 これらの結果を達成するために,最大確率(ml)学習に用いる負サンプルに対するmcmc初期化法を3つ導入した。 標準のネットワークアーキテクチャと未修正のML目標により、MCMCの初期化手法だけで、調査対象の3つのアプリケーション間で大きなパフォーマンス向上を実現できます。 その結果、CIFAR-10とImageNetデータセットの非正規化画像密度に対する最先端FIDスコア、CIFAR-10の精製方法における最先端の敵防御、ImageNetにおける最初のEMM防御、有効な確率密度を学習するためのスケーラブルなテクニックが得られた。 このプロジェクトのコードはhttps://github.com/point0bar1/ebm-life-cycleにある。

This work presents strategies to learn an Energy-Based Model (EBM) according to the desired length of its MCMC sampling trajectories. MCMC trajectories of different lengths correspond to models with different purposes. Our experiments cover three different trajectory magnitudes and learning outcomes: 1) shortrun sampling for image generation; 2) midrun sampling for classifier-agnostic adversarial defense; and 3) longrun sampling for principled modeling of image probability densities. To achieve these outcomes, we introduce three novel methods of MCMC initialization for negative samples used in Maximum Likelihood (ML) learning. With standard network architectures and an unaltered ML objective, our MCMC initialization methods alone enable significant performance gains across the three applications that we investigate. Our results include state-of-the-art FID scores for unnormalized image densities on the CIFAR-10 and ImageNet datasets; state-of-the-art adversarial defense on CIFAR-10 among purification methods and the first EBM defense on ImageNet; and scalable techniques for learning valid probability densities. Code for this project can be found at https://github.com/point0bar1/ebm-life-cycle.
翻訳日:2022-05-25 13:44:23 公開日:2022-05-24
# トップKアーム識別のための最適条件とアルゴリズム

Optimality Conditions and Algorithms for Top-K Arm Identification ( http://arxiv.org/abs/2205.12086v1 )

ライセンス: Link先を確認
Zihao Wang, Shuoguang Yang, Wei You(参考訳) 我々は,1パラメータの標準指数族に属する報酬を持つ多腕包帯に対するトップk腕識別問題を考察した。 目標は、サンプリング努力の逐次割り当てにより、最も平均報酬の高いkアームのセットを選択することである。 本研究では,固定信頼,固定予算設定,ベイズの観点からの後方収束率の下で,この問題の複雑性尺度を識別する統一最適割当問題を提案する。 我々はその最適性を初めて評価する。 k>1の固定信頼度設定において、最初の証明可能な最適アルゴリズムを提供する。 また,トップkアーム同定問題に対する効率的なヒューリスティックアルゴリズムを提案する。 大規模な数値実験は、既存の3つの設定の手法と比較して優れた性能を示す。

We consider the top-k arm identification problem for multi-armed bandits with rewards belonging to a one-parameter canonical exponential family. The objective is to select the set of k arms with the highest mean rewards by sequential allocation of sampling efforts. We propose a unified optimal allocation problem that identifies the complexity measures of this problem under the fixed-confidence, fixed-budget settings, and the posterior convergence rate from the Bayesian perspective. We provide the first characterization of its optimality. We provide the first provably optimal algorithm in the fixed-confidence setting for k>1. We also propose an efficient heuristic algorithm for the top-k arm identification problem. Extensive numerical experiments demonstrate superior performance compare to existing methods in all three settings.
翻訳日:2022-05-25 13:18:55 公開日:2022-05-24
# 1ピクセルショートカット:ディープニューラルネットワークの学習嗜好について

One-Pixel Shortcut: on the Learning Preference of Deep Neural Networks ( http://arxiv.org/abs/2205.12141v1 )

ライセンス: Link先を確認
Shutong Wu, Sizhe Chen, Cihang Xie, Xiaolin Huang(参考訳) Unlearnable Example (ULE) は、DNNのトレーニングのための不正使用からデータを保護することを目的としている。 クリーンなデータに注入される誤り最小化ノイズは、DNNが新しいデータに正しい予測を与えるのを防ぐ最も成功した方法の1つである。 それでも、敵の訓練のような特定の訓練戦略の下では、誤り最小化ノイズの未発生性は著しく低下する。 さらに, 誤り最小化雑音の伝達性は, 生成モデルと学習者モデルとのミスマッチによって本質的に制限される。 本稿では,未発見の例のメカニズムを調査し,各画像の1画素のみを摂動させ,データセットを無視可能にする,新しいモデルフリーな手法である \emph{one-pixel shortcut} を提案する。 提案手法は計算コストが大幅に削減され,転送性が向上し,多種多様なモデルからデータを保護することができる。 さらに、人間の観察者によって通常のCIFAR-10と区別されず、異なるモデルや訓練戦略のベンチマークとして機能し、非意味表現の乱れから重要な特徴を抽出する能力を評価することができるCIFAR-10-Sと呼ばれる最初の学習不可能データセットについても紹介する。 オリジナルのエラー最小化ULEは、モデルが83%以上クリーンなテスト精度が得られる敵の訓練で効率が低下する。 一方,adversarial training と randaugment のような強力なデータ拡張が一緒に適用されたとしても,cifar-10-s でトレーニングされたモデルは,50% 以上のクリーンなテスト精度を得ることはできない。

Unlearnable examples (ULEs) aim to protect data from unauthorized usage for training DNNs. Error-minimizing noise, which is injected to clean data, is one of the most successful methods for preventing DNNs from giving correct predictions on incoming new data. Nonetheless, under specific training strategies such as adversarial training, the unlearnability of error-minimizing noise will severely degrade. In addition, the transferability of error-minimizing noise is inherently limited by the mismatch between the generator model and the targeted learner model. In this paper, we investigate the mechanism of unlearnable examples and propose a novel model-free method, named \emph{One-Pixel Shortcut}, which only perturbs a single pixel of each image and makes the dataset unlearnable. Our method needs much less computational cost and obtains stronger transferability and thus can protect data from a wide range of different models. Based on this, we further introduce the first unlearnable dataset called CIFAR-10-S, which is indistinguishable from normal CIFAR-10 by human observers and can serve as a benchmark for different models or training strategies to evaluate their abilities to extract critical features from the disturbance of non-semantic representations. The original error-minimizing ULEs will lose efficiency under adversarial training, where the model can get over 83\% clean test accuracy. Meanwhile, even if adversarial training and strong data augmentation like RandAugment are applied together, the model trained on CIFAR-10-S cannot get over 50\% clean test accuracy.
翻訳日:2022-05-25 13:18:46 公開日:2022-05-24
# あまり多くない、あまり多くない:グラフ(上)の平滑化の理論解析

Not too little, not too much: a theoretical analysis of graph (over)smoothing ( http://arxiv.org/abs/2205.12156v1 )

ライセンス: Link先を確認
Nicolas Keriven(参考訳) グラフの平滑化を<emph{mean aggregation}>で解析し,各ノードは隣接ノードの特徴の平均を逐次受信する。 実際、グラフニューラルネットワーク(gnns)は、繰り返し集約されるメッセージパッシング(mp)のいくつかの変種に従っているが、これは \emph{oversmoothing} 現象の対象となる可能性がある。 平均集約の場合、連結グラフの場合、ノードの特徴はグラフ全体にわたって一定となる。 スペクトルの反対側では、 \emph{some} MP ラウンドが必要であることは直感的には明らかであるが、既存の分析では両方の現象が同時に現れていない。 本稿では,単純な線形gnnについて検討し,有限個の平均集約ステップが学習性能を向上し,過度にスムーシングする前の2つの例を厳格に解析する。 我々は、ノード特徴が潜在変数の部分観測であり、グラフがそれらの間の対関係を含む潜在空間確率グラフモデルを考える。 グラフの平滑化は、主データよりも高速に非主データ方向を縮小し、回帰に役立ち、同時に崩壊するよりも早くコミュニティ内のノードを縮小し、分類を改善するという2つの現象によって、失われた情報のいくつかをある時点まで復元することを示した。

We analyze graph smoothing with \emph{mean aggregation}, where each node successively receives the average of the features of its neighbors. Indeed, it has quickly been observed that Graph Neural Networks (GNNs), which generally follow some variant of Message-Passing (MP) with repeated aggregation, may be subject to the \emph{oversmoothing} phenomenon: by performing too many rounds of MP, the node features tend to converge to a non-informative limit. In the case of mean aggregation, for connected graphs, the node features become constant across the whole graph. At the other end of the spectrum, it is intuitively obvious that \emph{some} MP rounds are necessary, but existing analyses do not exhibit both phenomena at once: beneficial ``finite'' smoothing and oversmoothing in the limit. In this paper, we consider simplified linear GNNs, and rigorously analyze two examples for which a finite number of mean aggregation steps provably improves the learning performance, before oversmoothing kicks in. We consider a latent space random graph model, where node features are partial observations of the latent variables and the graph contains pairwise relationships between them. We show that graph smoothing restores some of the lost information, up to a certain point, by two phenomenon: graph smoothing shrinks non-principal directions in the data faster than principal ones, which is useful for regression, and shrinks nodes within communities faster than they collapse together, which improves classification.
翻訳日:2022-05-25 13:18:18 公開日:2022-05-24
# 一貫性規則化による敵訓練のロバストオーバーフィットの軽減

Alleviating Robust Overfitting of Adversarial Training With Consistency Regularization ( http://arxiv.org/abs/2205.11744v1 )

ライセンス: Link先を確認
Shudong Zhang, Haichang Gao, Tianwei Zhang, Yunyi Zhou and Zihui Wu(参考訳) 対戦訓練(AT)は、ディープニューラルネットワーク(DNN)を敵の攻撃から守る最も効果的な方法の1つであることが証明されている。 しかし、強固な過剰フィッティング現象、すなわち、ある段階で強固さが急激に低下し、常にat中に存在する。 強固なモデルを得るためには、この強固な一般化ギャップを減らすことが非常に重要である。 本稿では,新しい角度からのロバストオーバーフィットについて,詳細な研究を行う。 半教師付き学習における一般的な手法である一貫性規則化は、atと同様の目標を持ち、堅牢なオーバーフィッティングの緩和に使用できる。 私たちは経験的にこの観察を検証し、以前のソリューションの大多数が一貫性の正規化と暗黙のつながりを持っていることに気付きました。 そこで我々は, 整合性正規化と平均教師(MT)戦略をATに統合した新しいATソリューションを提案する。 具体的には,教師モデルについて,生徒モデルの平均重みから学習段階へ移行する教師モデルを提案する。 そこで我々は,教師モデルとクリーンサンプルとの整合性のある逆例上での生徒モデルの予測分布を,一貫性損失関数として設計する。 実験により,提案手法はロバストオーバーフィッティングを効果的に緩和し,dnnモデルのロバスト性を改善することができることを示した。

Adversarial training (AT) has proven to be one of the most effective ways to defend Deep Neural Networks (DNNs) against adversarial attacks. However, the phenomenon of robust overfitting, i.e., the robustness will drop sharply at a certain stage, always exists during AT. It is of great importance to decrease this robust generalization gap in order to obtain a robust model. In this paper, we present an in-depth study towards the robust overfitting from a new angle. We observe that consistency regularization, a popular technique in semi-supervised learning, has a similar goal as AT and can be used to alleviate robust overfitting. We empirically validate this observation, and find a majority of prior solutions have implicit connections to consistency regularization. Motivated by this, we introduce a new AT solution, which integrates the consistency regularization and Mean Teacher (MT) strategy into AT. Specifically, we introduce a teacher model, coming from the average weights of the student models over the training steps. Then we design a consistency loss function to make the prediction distribution of the student models over adversarial examples consistent with that of the teacher model over clean samples. Experiments show that our proposed method can effectively alleviate robust overfitting and improve the robustness of DNN models against common adversarial attacks.
翻訳日:2022-05-25 13:17:50 公開日:2022-05-24
# 幾何学的形状を組み立てる学習

Learning to Assemble Geometric Shapes ( http://arxiv.org/abs/2205.11809v1 )

ライセンス: Link先を確認
Jinhwi Lee and Jungtaek Kim and Hyunsoo Chung and Jaesik Park and Minsu Cho(参考訳) オブジェクトに部品を組み込むことは、現実世界の様々な文脈で発生し、科学や工学における多くの応用を含む組合せ問題である。 以前の関連する研究では、同一の単位部分やテクスチャ形状のjigsawスタイルの部分を持つ限定的なケースを取り上げており、この問題のコンビネーションの課題を大幅に軽減している。 そこで本研究では, 任意の形状のテクスチャのない断片と不連続な接合を伴い, より困難な形状集合問題を導入し, その解法を学習ベースで提案する。 本研究では, 異常な破片(例えば, 欠落, 歪んだ), 異なる数の破片, 異なる回転離散化を含む様々なシナリオを用いて, 形状組立タスクの有効性を示す。

Assembling parts into an object is a combinatorial problem that arises in a variety of contexts in the real world and involves numerous applications in science and engineering. Previous related work tackles limited cases with identical unit parts or jigsaw-style parts of textured shapes, which greatly mitigate combinatorial challenges of the problem. In this work, we introduce the more challenging problem of shape assembly, which involves textureless fragments of arbitrary shapes with indistinctive junctions, and then propose a learning-based approach to solving it. We demonstrate the effectiveness on shape assembly tasks with various scenarios, including the ones with abnormal fragments (e.g., missing and distorted), the different number of fragments, and different rotation discretization.
翻訳日:2022-05-25 13:17:28 公開日:2022-05-24
# 最後の完全連結層の解釈

An interpretation of the final fully connected layer ( http://arxiv.org/abs/2205.11908v1 )

ライセンス: Link先を確認
Siddhartha(参考訳) 近年、ニューラルネットワークは様々なタスクに対して最先端の精度を達成しているが、生成した出力の解釈は依然として困難である。 本研究では,画像分類モデルにおいて,最終完全連結層における学習重みを理解する手法を提案する。 本手法は, rlにおけるポリシー勾配目標と教師付き学習目標との接続を導き, モチベーションづけを行う。 一般的に使用されるクロスエントロピーに基づく教師付き学習目的は、政策勾配目標の特別な場合とみなすことができる。 この知見を用いて、画像の最も識別的かつ紛らわしい部分を見つける方法を提案する。 本手法では,ニューラルネットワークのアキテクチュアに関する事前の仮定は行わず,計算コストが低い。 提案手法を利用可能な事前学習モデルに適用し,その結果を報告する。

In recent years neural networks have achieved state-of-the-art accuracy for various tasks but the the interpretation of the generated outputs still remains difficult. In this work we attempt to provide a method to understand the learnt weights in the final fully connected layer in image classification models. We motivate our method by drawing a connection between the policy gradient objective in RL and supervised learning objective. We suggest that the commonly used cross entropy based supervised learning objective can be regarded as a special case of the policy gradient objective. Using this insight we propose a method to find the most discriminative and confusing parts of an image. Our method does not make any prior assumption about neural network achitecture and has low computational cost. We apply our method on publicly available pre-trained models and report the generated results.
翻訳日:2022-05-25 13:17:14 公開日:2022-05-24
# フェデレートされた人物の再識別性能の最適化:ベンチマークと分析

Optimizing Performance of Federated Person Re-identification: Benchmarking and Analysis ( http://arxiv.org/abs/2205.12144v1 )

ライセンス: Link先を確認
Weiming Zhuang, Xin Gan, Yonggang Wen, Shuai Zhang(参考訳) ますます厳しいデータプライバシー規制は、機密性の高い個人情報を含む膨大な量のデータを集中化する必要があるため、人物の再識別(ReID)の開発を制限する。 この問題に対処するために,新たな分散学習手法であるフェデレート学習を実装したフェデレーション・パーソナライゼーション(FedReID)を導入した。 FedReIDは、クライアントから中央サーバへ、生のデータではなく、モデル更新を集約することで、データのプライバシを保存する。 さらに,ベンチマーク解析により,統計的不均質性下でのfeedreidの性能を最適化する。 まず,拡張アルゴリズム,2つのアーキテクチャ,9人のReIDデータセットを用いて,実世界の統計的不均一性をシミュレートするベンチマークを構築した。 ベンチマークの結果は、FedReIDの統計的不均一性に対する洞察とボトルネックを示し、大量のデータセットに対する収束と性能の低下が問題となっている。 Based on these insights, we propose three optimization approaches: (1) We adopt knowledge distillation to facilitate the convergence of FedReID by better transferring knowledge from clients to the server; (2) We introduce client clustering to improve the performance of large datasets by aggregating clients with similar data distributions; (3) We propose cosine distance weight to elevate performance by dynamically updating the weights for aggregation depending on how well models are trained in clients. 大規模な実験により、これらの手法はすべてのデータセットではるかに優れた性能で収束を満足できることを示した。 FedReIDは、より多くのコンピュータビジョンアプリケーション上でのフェデレーション学習の実装と最適化に光を当てると思います。

The increasingly stringent data privacy regulations limit the development of person re-identification (ReID) because person ReID training requires centralizing an enormous amount of data that contains sensitive personal information. To address this problem, we introduce federated person re-identification (FedReID) -- implementing federated learning, an emerging distributed training method, to person ReID. FedReID preserves data privacy by aggregating model updates, instead of raw data, from clients to a central server. Furthermore, we optimize the performance of FedReID under statistical heterogeneity via benchmark analysis. We first construct a benchmark with an enhanced algorithm, two architectures, and nine person ReID datasets with large variances to simulate the real-world statistical heterogeneity. The benchmark results present insights and bottlenecks of FedReID under statistical heterogeneity, including challenges in convergence and poor performance on datasets with large volumes. Based on these insights, we propose three optimization approaches: (1) We adopt knowledge distillation to facilitate the convergence of FedReID by better transferring knowledge from clients to the server; (2) We introduce client clustering to improve the performance of large datasets by aggregating clients with similar data distributions; (3) We propose cosine distance weight to elevate performance by dynamically updating the weights for aggregation depending on how well models are trained in clients. Extensive experiments demonstrate that these approaches achieve satisfying convergence with much better performance on all datasets. We believe that FedReID will shed light on implementing and optimizing federated learning on more computer vision applications.
翻訳日:2022-05-25 13:17:02 公開日:2022-05-24
# 連帯学習におけるバックドア攻撃に対する防御に向けて

Towards a Defense against Backdoor Attacks in Continual Federated Learning ( http://arxiv.org/abs/2205.11736v1 )

ライセンス: Link先を確認
Shuaiqi Wang, Jonathan Hayase, Giulia Fanti, Sewoong Oh(参考訳) バックドアアタックは、長期にわたる信頼できないクライアント(すなわち継続的学習)からトレーニングデータが引き出される、連邦学習(FL)パイプラインにおいて大きな関心事である。 FLのディフェンダーは生のトレーニングデータにアクセスできないため、このような攻撃を防ぐのは難しい。 さらに、バックドアリークと呼ばれる現象では、継続的に訓練されたモデルは、バックドア防御機構の累積誤差により、最終的にバックドアに悩まされる。 連合型連続学習環境におけるバックドア攻撃を防御する新しい枠組みを提案する。 私たちのフレームワークは、バックボーンモデルとシャドーモデルという2つのモデルを並行してトレーニングします。 バックボーンは防御機構なしでトレーニングされ、メインタスクで優れたパフォーマンスを得る。 シャドウモデルは、データ分散が変化しても攻撃成功率を制御するために、ロバストな共分散推定に基づくフィルタの最近のアイデアと早期ストラップを組み合わせる。 この設計に理論的動機を与え、我々のフレームワークがバックドア攻撃に対する既存の防御を大幅に改善できることを実験的に示します。

Backdoor attacks are a major concern in federated learning (FL) pipelines where training data is sourced from untrusted clients over long periods of time (i.e., continual learning). Preventing such attacks is difficult because defenders in FL do not have access to raw training data. Moreover, in a phenomenon we call backdoor leakage, models trained continuously eventually suffer from backdoors due to cumulative errors in backdoor defense mechanisms. We propose a novel framework for defending against backdoor attacks in the federated continual learning setting. Our framework trains two models in parallel: a backbone model and a shadow model. The backbone is trained without any defense mechanism to obtain good performance on the main task. The shadow model combines recent ideas from robust covariance estimation-based filters with early-stopping to control the attack success rate even as the data distribution changes. We provide theoretical motivation for this design and show experimentally that our framework significantly improves upon existing defenses against backdoor attacks.
翻訳日:2022-05-25 13:15:30 公開日:2022-05-24
# GPUデータセンタにおけるディープラーニングワークロードスケジューリング - 分類学、課題、ビジョン

Deep Learning Workload Scheduling in GPU Datacenters: Taxonomy, Challenges and Vision ( http://arxiv.org/abs/2205.11913v1 )

ライセンス: Link先を確認
Wei Gao, Qinghao Hu, Zhisheng Ye, Peng Sun, Xiaolin Wang, Yingwei Luo, Tianwei Zhang, Yonggang Wen(参考訳) ディープラーニング(DL)は、様々な分野でその繁栄を示している。 DLモデルの開発は、時間とリソース集約的な手順である。 そのため、専用のGPUアクセラレータがGPUデータセンタに集合的に構築されている。 このようなGPUデータセンターの効率的なスケジューラ設計は、運用コストを削減し、リソース利用を改善するために極めて重要である。 しかし、ビッグデータやハイパフォーマンスコンピューティングワークロード用に設計された従来のアプローチは、GPUリソースを完全に活用するDLワークロードをサポートしない。 近年,GPUデータセンタにおけるDLワークロードの調整を目的としたスケジューラが提案されている。 本稿では,トレーニング作業と推論作業の両方に対する既存の研究成果について報告する。 主に、スケジューリング目的とリソース消費機能から、既存のスケジューラがそれぞれのワークロードをどのように促進するかを示す。 最後に、将来有望な研究の方向性を期待する。 調査した論文とコードリンクに関するより詳細な要約は、プロジェクトのwebサイトにある。

Deep learning (DL) shows its prosperity in a wide variety of fields. The development of a DL model is a time-consuming and resource-intensive procedure. Hence, dedicated GPU accelerators have been collectively constructed into a GPU datacenter. An efficient scheduler design for such GPU datacenter is crucially important to reduce the operational cost and improve resource utilization. However, traditional approaches designed for big data or high performance computing workloads can not support DL workloads to fully utilize the GPU resources. Recently, substantial schedulers are proposed to tailor for DL workloads in GPU datacenters. This paper surveys existing research efforts for both training and inference workloads. We primarily present how existing schedulers facilitate the respective workloads from the scheduling objectives and resource consumption features. Finally, we prospect several promising future research directions. More detailed summary with the surveyed paper and code links can be found at our project website: https://github.com/S-Lab-SystemGroup/Awesome-DL-Scheduling-Papers
翻訳日:2022-05-25 13:15:14 公開日:2022-05-24
# (参考訳) 表現木推論によるポリシーコンプライアンス検出

Policy Compliance Detection via Expression Tree Inference ( http://arxiv.org/abs/2205.12259v1 )

ライセンス: CC BY 4.0
Neema Kotonya, Andreas Vlachos, Majid Yazdani, Lambert Mathias and Marzieh Saeidi(参考訳) ポリシーコンプライアンス検出(英: Policy Compliance Detection、PCD)は、テキストを推論する際に遭遇するタスクである。 pcdに対処する以前の作業は、テキストの包含を認識する特別なケースとしてタスクのモデル化に大きく依存していた。 補足はpcdの問題に適用できるが、ポリシーを複数の相互リンクされた提案とは対照的に単一の提案と見なすと、性能が悪く説明ができない。 この課題に対処するため、pcdのより最近の提案は、論理演算子と結びついた質問からなる式木にポリシーを分解することを論じている。 質問応答は、シナリオに関するこれらの質問に対する回答を得るために使用される。 最後に、式木は全体解に到達するために評価される。 しかし、この研究は表現木が専門家によって提供されると仮定し、新しいポリシーの適用性を制限する。 本研究では,ポリシーテキストから表現木を自動的に推測する方法を学ぶ。 有限状態オートマトンを用いた制約付き復号を導入し,有効木の生成を保証することにより,推定木の有効性を確保する。 制約付き生成モデルによって生成された表現木のうち63%が金木と論理的に等価であるとの自動評価により決定する。 評価の結果,本モデルが生成する樹木の88%が正しいことがわかった。

Policy Compliance Detection (PCD) is a task we encounter when reasoning over texts, e.g. legal frameworks. Previous work to address PCD relies heavily on modeling the task as a special case of Recognizing Textual Entailment. Entailment is applicable to the problem of PCD, however viewing the policy as a single proposition, as opposed to multiple interlinked propositions, yields poor performance and lacks explainability. To address this challenge, more recent proposals for PCD have argued for decomposing policies into expression trees consisting of questions connected with logic operators. Question answering is used to obtain answers to these questions with respect to a scenario. Finally, the expression tree is evaluated in order to arrive at an overall solution. However, this work assumes expression trees are provided by experts, thus limiting its applicability to new policies. In this work, we learn how to infer expression trees automatically from policy texts. We ensure the validity of the inferred trees by introducing constrained decoding using a finite state automaton to ensure the generation of valid trees. We determine through automatic evaluation that 63% of the expression trees generated by our constrained generation model are logically equivalent to gold trees. Human evaluation shows that 88% of trees generated by our model are correct.
翻訳日:2022-05-25 13:12:24 公開日:2022-05-24
# シングルプレトレーニングモデルによる横ロテリティチケットの組み立て

Diverse Lottery Tickets Boost Ensemble from a Single Pretrained Model ( http://arxiv.org/abs/2205.11833v1 )

ライセンス: Link先を確認
Sosuke Kobayashi, Shun Kiyono, Jun Suzuki, Kentaro Inui(参考訳) ensemblingは、最後の手段としてのパフォーマンスを改善するために使用される一般的な方法である。 しかし、1つの事前訓練されたモデルから微調整された複数のモデルをアンサンブルすることは、あまり効果的ではない。 本稿では,事前学習モデルの異なるサブネットワークを微調整し,それらをアンサンブルするマルチticketアンサンブルを提案する。 我々は,勝ち点のサブネットワークが密集したネットワークよりも多様な予測を生み出し,それらのアンサンブルがいくつかのタスクで標準的なアンサンブルを上回ったことを実証した。

Ensembling is a popular method used to improve performance as a last resort. However, ensembling multiple models finetuned from a single pretrained model has been not very effective; this could be due to the lack of diversity among ensemble members. This paper proposes Multi-Ticket Ensemble, which finetunes different subnetworks of a single pretrained model and ensembles them. We empirically demonstrated that winning-ticket subnetworks produced more diverse predictions than dense networks, and their ensemble outperformed the standard ensemble on some tasks.
翻訳日:2022-05-25 12:56:24 公開日:2022-05-24
# revup: イベント表現のための情報ボトルネックの修正と更新

RevUp: Revise and Update Information Bottleneck for Event Representation ( http://arxiv.org/abs/2205.12248v1 )

ライセンス: Link先を確認
Mehdi Rezaee and Francis Ferraro(参考訳) 機械学習では、潜在変数はデータ構造をキャプチャする上で重要な役割を果たすが、しばしば教師なしである。 入力データに関するハイレベルな情報を既に持っているサイド知識があれば、そのソースを使用して潜在変数をガイドし、利用可能なバックグラウンド情報を"パラメータ注入"と呼ばれるプロセスでキャプチャできます。 そこで本研究では, ノイズや不完全であっても, 副次的知識を活用可能な半教師付き情報ボトルネックモデルを提案し, 個別潜伏変数の学習を指導する。 基本として,モデルの離散変数を軽量階層構造で再パラメータ化する方法として,補助連続潜在変数を導入する。 このパラメータ化により、モデルの離散潜在変数は、観測されたデータと、新しい補助変数が既に取得していない任意の側知識との間の相互情報を最小化するために学習される。 提案手法は,既存のパラメータ注入法を一般化し,言語に基づくイベントモデリングにおけるアプローチの実証的なケーススタディを行う。 提案手法は,提案手法が従来の複数のデータセットに対する提案手法よりも優れていることを示す。

In machine learning, latent variables play a key role to capture the underlying structure of data, but they are often unsupervised. When we have side knowledge that already has high-level information about the input data, we can use that source to guide latent variables and capture the available background information in a process called "parameter injection." In that regard, we propose a semi-supervised information bottleneck-based model that enables the use of side knowledge, even if it is noisy and imperfect, to direct the learning of discrete latent variables. Fundamentally, we introduce an auxiliary continuous latent variable as a way to reparameterize the model's discrete variables with a light-weight hierarchical structure. With this reparameterization, the model's discrete latent variables are learned to minimize the mutual information between the observed data and optional side knowledge that is not already captured by the new, auxiliary variables. We theoretically show that our approach generalizes an existing method of parameter injection, and perform an empirical case study of our approach on language-based event modeling. We corroborate our theoretical results with strong empirical experiments, showing that the proposed method outperforms previous proposed approaches on multiple datasets.
翻訳日:2022-05-25 12:56:13 公開日:2022-05-24
# 解釈可能性評価のための解釈品質スコア

Interpretation Quality Score for Measuring the Quality of interpretability methods ( http://arxiv.org/abs/2205.12254v1 )

ライセンス: Link先を確認
Yuansheng Xie, Soroush Vosoughi, Saeed Hassanpour(参考訳) 近年,機械学習(ML)モデルが自然言語処理(NLP)タスクに応用されている。 正確な決定を行うことに加えて、モデルがどのように意思決定するかを理解する必要性が多くのアプリケーションで明らかになっている。 そのため、MLモデルの決定過程を説明するための多くの解釈可能性手法が開発されている。 しかし、これらの手法によって生成された説明の質を評価するための広く受け入れられた計量は存在しない。 その結果、現在、解釈可能性法が意図した目的を達成する度合いを測る標準的な方法は存在しない。 さらに、既存の解釈可能性法を比較しランク付けできる性能基準は認められていない。 本稿では,解釈可能性法による説明の質を定量化する手法を提案する。 6つの解釈可能性法を用いて3つのNLPタスクのメトリクスを計算し,その結果を示す。

Machine learning (ML) models have been applied to a wide range of natural language processing (NLP) tasks in recent years. In addition to making accurate decisions, the necessity of understanding how models make their decisions has become apparent in many applications. To that end, many interpretability methods that help explain the decision processes of ML models have been developed. Yet, there currently exists no widely-accepted metric to evaluate the quality of explanations generated by these methods. As a result, there currently is no standard way of measuring to what degree an interpretability method achieves an intended objective. Moreover, there is no accepted standard of performance by which we can compare and rank the current existing interpretability methods. In this paper, we propose a novel metric for quantifying the quality of explanations generated by interpretability methods. We compute the metric on three NLP tasks using six interpretability methods and present our results.
翻訳日:2022-05-25 12:55:53 公開日:2022-05-24
# 逆知識蒸留によるディープグラフニューラルネットワークの圧縮

Compressing Deep Graph Neural Networks via Adversarial Knowledge Distillation ( http://arxiv.org/abs/2205.11678v1 )

ライセンス: Link先を確認
Huarui He, Jie Wang, Zhanqiu Zhang, Feng Wu(参考訳) グラフ構造化データのモデリングにはディープグラフニューラルネットワーク(GNN)が有効であることが示されている。 それでも、ディープグラフモデルのスタックオーバーアーキテクチャは、モバイルや組み込みシステムへのデプロイと迅速なテストを困難にしている。 オーバースタックGNNを圧縮するため,教師学生による知識蒸留は,教師と学生のネットワーク間の差分を予め定義された距離関数で測定する,効果的な手法であることが判明した。 しかし、様々な構造のグラフに対して同じ距離を使うことは不適切であり、最適な距離定式化は決定しにくい。 そこで本研究では,グラフモデルに対して,識別器と生成器を交互に訓練し,不一致を適応的に検出し,低減する新しい知識蒸留フレームワークであるgraphakdを提案する。 具体的には,ノード間相関とクラス間相関が深いGNNの成功に有利であることに気付き,学習可能な識別器を用いてノードレベルおよびクラスレベルの視点から遺伝知識を批判する。 識別器は教師の知識と学生が継承するものを区別し、学生GNNはジェネレータとして働き、識別器を騙す。 我々の知る限り、GraphAKDは、グラフ領域における知識蒸留に敵の訓練を導入した最初のものである。 ノードレベルおよびグラフレベルの分類ベンチマークの実験は、GraphAKDが学生のパフォーマンスを大きなマージンで改善することを示した。 その結果、GraphAKDは複雑な教師GNNからコンパクトな学生GNNに正確な知識を伝達できることがわかった。

Deep graph neural networks (GNNs) have been shown to be expressive for modeling graph-structured data. Nevertheless, the over-stacked architecture of deep graph models makes it difficult to deploy and rapidly test on mobile or embedded systems. To compress over-stacked GNNs, knowledge distillation via a teacher-student architecture turns out to be an effective technique, where the key step is to measure the discrepancy between teacher and student networks with predefined distance functions. However, using the same distance for graphs of various structures may be unfit, and the optimal distance formulation is hard to determine. To tackle these problems, we propose a novel Adversarial Knowledge Distillation framework for graph models named GraphAKD, which adversarially trains a discriminator and a generator to adaptively detect and decrease the discrepancy. Specifically, noticing that the well-captured inter-node and inter-class correlations favor the success of deep GNNs, we propose to criticize the inherited knowledge from node-level and class-level views with a trainable discriminator. The discriminator distinguishes between teacher knowledge and what the student inherits, while the student GNN works as a generator and aims to fool the discriminator. To our best knowledge, GraphAKD is the first to introduce adversarial training to knowledge distillation in graph domains. Experiments on node-level and graph-level classification benchmarks demonstrate that GraphAKD improves the student performance by a large margin. The results imply that GraphAKD can precisely transfer knowledge from a complicated teacher GNN to a compact student GNN.
翻訳日:2022-05-25 12:55:15 公開日:2022-05-24
# テンソル分解を伴うグラフニューラルネットワークの高次プーリング

High-Order Pooling for Graph Neural Networks with Tensor Decomposition ( http://arxiv.org/abs/2205.11691v1 )

ライセンス: Link先を確認
Chenqing Hua and Guillaume Rabusseau and Jian Tang(参考訳) グラフニューラルネットワーク(GNN)は、さまざまなグラフ構造化データモデリングの有効性と柔軟性から、注目を集めている。 gnnアーキテクチャの終了は通常、ノード表現の更新やグラフ全体からのノード表現のプーリングのためにローカル近傍からメッセージを集約する場合、単純なプーリング操作(例えば sum, average, max)を採用する。 単純かつ効果的であるが、これらの線形演算はノード間の高次非線形相互作用をモデル化しない。 本稿では,高次非線形ノード相互作用をモデル化するためにテンソル分解に依存する高表現性GNNアーキテクチャであるTensorized Graph Neural Network (tGNN)を提案する。 tgnnは対称cp分解を利用して、ノード相互作用のモデル化のために置換不変多線形写像を効率的にパラメータ化する。 ノード分類タスクとグラフ分類タスクの理論的および実証分析は、競合ベースラインよりもtgnnが優れていることを示している。 特に、tGNNは、2つのOGBノード分類データセットと1つのOGBグラフ分類データセットの最先端結果を達成する。

Graph Neural Networks (GNNs) are attracting growing attention due to their effectiveness and flexibility in modeling a variety of graph-structured data. Exiting GNN architectures usually adopt simple pooling operations (e.g., sum, average, max) when aggregating messages from a local neighborhood for updating node representation or pooling node representations from the entire graph to compute the graph representation. Though simple and effective, these linear operations do not model high-order non-linear interactions among nodes. We propose the Tensorized Graph Neural Network (tGNN), a highly expressive GNN architecture relying on tensor decomposition to model high-order non-linear node interactions. tGNN leverages the symmetric CP decomposition to efficiently parameterize permutation-invariant multilinear maps for modeling node interactions. Theoretical and empirical analysis on both node and graph classification tasks show the superiority of tGNN over competitive baselines. In particular, tGNN achieves state-of-the-art results on two OGB node classification datasets and one OGB graph classification dataset.
翻訳日:2022-05-25 12:52:36 公開日:2022-05-24
# 制約付き単調ニューラルネットワーク

Constrained Monotonic Neural Networks ( http://arxiv.org/abs/2205.11775v1 )

ライセンス: Link先を確認
Davor Runje, Sharath M. Shankaranarayana(参考訳) ノイズの多いデータから任意の関数を近似することで、ディープニューラルネットワークはますます人気が高まっている。 しかし、そのようなモデルを説明し、追加の制約を課す必要性によって、より広範な採用が妨げられている。 モノトニック性制約は現実シナリオにおいて最も要求される特性の1つであり,本論文の焦点となっている。 モノトニック完全連結ニューラルネットワークを構築する最も古い方法の1つは、その重みをモノトニック活性化関数を用いて非負に制限することである。 残念ながら、この構造は、近似凸関数しか持たないため、relu、elu、seluなどの一般的な不飽和活性化関数では機能しない。 この欠点は、この層内のニューロンの一部に対して元の活性化関数を使い、他の部分に対してその点反射を用いることにより解決可能であることを示す。 実験により, 単調なディープニューラルネットワークを構築する手法は, ヘーリスティック正則化によって得られるディープ格子ネットワークやモノトニックネットワークといった他の最先端手法と比較して, 整合性あるいは精度が向上することを示した。 この方法は、学習手順や学習後のステップの変更を必要とせず、パラメータ数が最小であるという意味で最も単純な方法である。

Deep neural networks are becoming increasingly popular in approximating arbitrary functions from noisy data. But wider adoption is being hindered by the need to explain such models and to impose additional constraints on them. Monotonicity constraint is one of the most requested properties in real-world scenarios and is the focus of this paper. One of the oldest ways to construct a monotonic fully connected neural network is to constrain its weights to be non-negative while employing a monotonic activation function. Unfortunately, this construction does not work with popular non-saturated activation functions such as ReLU, ELU, SELU etc, as it can only approximate convex functions. We show this shortcoming can be fixed by employing the original activation function for a part of the neurons in the layer, and employing its point reflection for the other part. Our experiments show this approach of building monotonic deep neural networks have matching or better accuracy when compared to other state-of-the-art methods such as deep lattice networks or monotonic networks obtained by heuristic regularization. This method is the simplest one in the sense of having the least number of parameters, not requiring any modifications to the learning procedure or steps post-learning steps.
翻訳日:2022-05-25 12:52:17 公開日:2022-05-24
# 無限幅3層ニューラルネットワークの経験的位相図

Empirical Phase Diagram for Three-layer Neural Networks with Infinite Width ( http://arxiv.org/abs/2205.12101v1 )

ライセンス: Link先を確認
Hanxu Zhou, Qixuan Zhou, Zhenyuan Jin, Tao Luo, Yaoyu Zhang, Zhi-Qin John Xu(参考訳) 実質的な研究は、ニューラルネットワーク(NN)のダイナミクスがパラメータの初期化と密接に関連していることを示している。 無限幅の2層ReLU NNの位相図(Luo et al., 2021)に着想を得て, 無限幅の3層ReLU NNの位相図を作成する。 まず, 3層relu nnの正規化勾配流を導出し, 共通初期化法で異なる動的レジームを識別するための2つのキー独立量を得る。 慎重に設計された実験と大規模な計算コストにより、合成データセットと実データセットの両方において、各層の力学も線形状態と凝縮状態に分けることができ、臨界状態によって分離される。 基準は入力重み(隠れたニューロンの入力重みは入力層から隠れたニューロンへの重みとバイアス項からなる)の相対的な変化であり、トレーニング中に幅が無限に近づくとそれぞれ$0$、$+\infty$、$o(1)$となる。 さらに,深層nn内のトレーニングプロセスにおいて,異なるレイヤが異なる動的レジームに存在することを実証する。 凝縮系では,低複雑性の孤立方向における重みの凝縮も観察する。 3層条件下での実験を通して, 相図は, 深層NNの3つの可能な状態と混合された状態からなる複雑な動的状態を示し, 異なる初期化状態における深部NNの研究のためのガイダンスを提供する。

Substantial work indicates that the dynamics of neural networks (NNs) is closely related to their initialization of parameters. Inspired by the phase diagram for two-layer ReLU NNs with infinite width (Luo et al., 2021), we make a step towards drawing a phase diagram for three-layer ReLU NNs with infinite width. First, we derive a normalized gradient flow for three-layer ReLU NNs and obtain two key independent quantities to distinguish different dynamical regimes for common initialization methods. With carefully designed experiments and a large computation cost, for both synthetic datasets and real datasets, we find that the dynamics of each layer also could be divided into a linear regime and a condensed regime, separated by a critical regime. The criteria is the relative change of input weights (the input weight of a hidden neuron consists of the weight from its input layer to the hidden neuron and its bias term) as the width approaches infinity during the training, which tends to $0$, $+\infty$ and $O(1)$, respectively. In addition, we also demonstrate that different layers can lie in different dynamical regimes in a training process within a deep NN. In the condensed regime, we also observe the condensation of weights in isolated orientations with low complexity. Through experiments under three-layer condition, our phase diagram suggests a complicated dynamical regimes consisting of three possible regimes, together with their mixture, for deep NNs and provides a guidance for studying deep NNs in different initialization regimes, which reveals the possibility of completely different dynamics emerging within a deep NN for its different layers.
翻訳日:2022-05-25 12:51:55 公開日:2022-05-24
# (参考訳) TALM: ツール拡張言語モデル

TALM: Tool Augmented Language Models ( http://arxiv.org/abs/2205.12255v1 )

ライセンス: CC BY 4.0
Aaron Parisi, Yao Zhao, Noah Fiedel(参考訳) トランスフォーマーベース言語モデル(LM)は、様々なタスクにまたがるスケールによるパフォーマンス向上を示す。 しかし、スケールだけでは、トレーニング時に利用できなかった短命、変更、プライベートデータへのアクセスを必要とするタスクをモデルが解決できない。 多くの便利なタスクは、状態の読み書きを行うapiにアクセスできるlmsの恩恵を受けるかもしれない。 本稿では,テキストのみによる言語モデル拡張手法と非微分可能ツールの併用と,少数のツールデモからパフォーマンスをブートストラップする反復的自己再生手法を組み合わせたツール拡張言語モデル(talm)を提案する。 TALMは知識量の多いQAタスクと単純なツールによる推論指向の数学タスクの両方に強い性能を示す。 与えられたモデルスケールでは、TALMは拡張されていないLMを著しく上回る。 さらに,非拡張LMがフェールするQAタスクと数学タスクの両方において,TALMがアウト・オブ・ディストリビューション推論を成功させることを示す。 この結果から,ツール拡張言語モデルがLMの能力を高める上で有望な方向であり,スケールへの依存度が低いことが示唆された。

Transformer based language models (LMs) demonstrate increasing performance with scale across a wide variety of tasks. Scale alone however cannot enable models to solve tasks that require access to ephemeral, changing, or private data that was unavailable at training time. Many useful tasks may also benefit from LMs being able to access APIs that read or modify state. In this work, we present Tool Augmented Language Models (TALM), combining a text-only approach to augment language models with non-differentiable tools, and an iterative "self-play" technique to bootstrap performance starting from few tool demonstrations. TALM exhibits strong performance on both a knowledge-heavy QA task and a reasoning oriented math task with simple tools. At a given model scale, TALM significantly outperforms non-augmented LMs. We further demonstrate that TALM successfully performs out-of-distribution inferences on both QA and math tasks, where non-augmented LMs fail. Our results suggest that Tool Augmented Language Models are a promising direction to enrich LMs' capabilities, with less dependence on scale.
翻訳日:2022-05-25 12:48:59 公開日:2022-05-24
# 大きな言語モデルはゼロショット推論である

Large Language Models are Zero-Shot Reasoners ( http://arxiv.org/abs/2205.11916v1 )

ライセンス: Link先を確認
Takeshi Kojima, Shixiang Shane Gu, Machel Reid, Yutaka Matsuo, Yusuke Iwasawa(参考訳) 事前訓練された大規模言語モデル(LLM)は、自然言語処理(NLP)の多くのサブフィールドで広く使われている。 特に、複雑な多段階推論をステップバイステップで導く手法である思考連鎖(CoT)プロンプトは、算術と記号的推論における最先端のパフォーマンスを達成し、LLMの標準スケーリング法則に従わない難しいシステム-2タスクを誘導する。 これらの成功は、数発の学習でLLMの能力に起因することが多いが、LLMは、各回答の前に'Let's Think by Step''を単に追加することで、まともなゼロショット推論であることを示す。 Experimental results demonstrate that our Zero-shot-CoT, using the same single prompt template, significantly outperforms zero-shot LLM performances on diverse benchmark reasoning tasks including arithmetics (MultiArith, GSM8K, AQUA-RAT, SVAMP), symbolic reasoning (Last Letter, Coin Flip), and other logical reasoning tasks (Date Understanding, Tracking Shuffled Objects), without any hand-crafted few-shot examples, e.g. increasing the accuracy on MultiArith from 17.7% to 78.7% and GSM8K from 10.4% to 40.7% with an off-the-shelf 175B parameter model. 非常に多様な推論タスクにまたがるこの単一のプロンプトの汎用性は、llmの基本的なゼロショット機能を暗示し、単純なプロンプトによって高レベルでマルチタスクの幅広い認知能力を抽出できることを示唆している。 我々の研究は、挑戦的な推論ベンチマークの最小限のゼロショットベースラインとして機能するだけでなく、微調整されたデータセットや数ショットの先例を作る前に、LSM内に隠された巨大なゼロショット知識を慎重に調査し分析することの重要性も強調したい。

Pretrained large language models (LLMs) are widely used in many sub-fields of natural language processing (NLP) and generally known as excellent few-shot learners with task-specific exemplars. Notably, chain of thought (CoT) prompting, a recent technique for eliciting complex multi-step reasoning through step-by-step answer examples, achieved the state-of-the-art performances in arithmetics and symbolic reasoning, difficult system-2 tasks that do not follow the standard scaling laws for LLMs. While these successes are often attributed to LLMs' ability for few-shot learning, we show that LLMs are decent zero-shot reasoners by simply adding ``Let's think step by step'' before each answer. Experimental results demonstrate that our Zero-shot-CoT, using the same single prompt template, significantly outperforms zero-shot LLM performances on diverse benchmark reasoning tasks including arithmetics (MultiArith, GSM8K, AQUA-RAT, SVAMP), symbolic reasoning (Last Letter, Coin Flip), and other logical reasoning tasks (Date Understanding, Tracking Shuffled Objects), without any hand-crafted few-shot examples, e.g. increasing the accuracy on MultiArith from 17.7% to 78.7% and GSM8K from 10.4% to 40.7% with an off-the-shelf 175B parameter model. The versatility of this single prompt across very diverse reasoning tasks hints at untapped and understudied fundamental zero-shot capabilities of LLMs, suggesting high-level, multi-task broad cognitive capabilities may be extracted through simple prompting. We hope our work not only serves as the minimal strongest zero-shot baseline for the challenging reasoning benchmarks, but also highlights the importance of carefully exploring and analyzing the enormous zero-shot knowledge hidden inside LLMs before crafting finetuning datasets or few-shot exemplars.
翻訳日:2022-05-25 12:37:46 公開日:2022-05-24
# 表現型タスク関連文表現の学習

Learning for Expressive Task-Related Sentence Representations ( http://arxiv.org/abs/2205.12186v1 )

ライセンス: Link先を確認
Xueying Bai, Jinghuan Shang, Yifan Sun, Niranjan Balasubramanian(参考訳) NLPモデルは、マスク付き言語モデリングによって事前訓練されたモデルを調整することで、下流タスクのための文表現を学習する。 しかし、チューニング後、学習された文表現はラベル空間に対して大きく歪められるため、文入力とラベルの両方のタスク関連情報を含むようなサンプル全体を表現するには十分表現力に乏しい。 本研究では,(1)教師付きタスクに対して表現的文表現を学習する。 文入力にタスク関連の情報が含まれ、(2) 正しいラベル予測を可能にする。 この目的を達成するために、まず、入力中のラベルトークン空間を明示的に指摘し、[MASK]トークンを追加してラベルのカテゴリを予測する新しい目的を提案する。 この目的はラベルと文の両方の意味情報を融合させることを奨励する。 次に,凍った事前学習モデルに付加した隣り合うアテンションモジュールを開発し,隣人を介してラベル/センテンストークン間の接続を構築する。 伝播は、表現性を促進するために近隣表現の正規化によってさらに導かれる。 実験結果から, 凍結事前学習モデルに対して5%のパラメータを調整するだけで, 高い表現性を維持しつつ, SOTAに匹敵する分類結果が得られることがわかった。

NLP models learn sentence representations for downstream tasks by tuning a model which is pre-trained by masked language modeling. However, after tuning, the learned sentence representations may be skewed heavily toward label space and thus are not expressive enough to represent whole samples, which should contain task-related information of both sentence inputs and labels. In this work, we learn expressive sentence representations for supervised tasks which (1). contain task-related information in the sentence inputs, and (2). enable correct label predictions. To achieve this goal, we first propose a new objective which explicitly points out the label token space in the input, and predicts categories of labels via an added [MASK] token. This objective encourages fusing the semantic information of both the label and sentence. Then we develop a neighbor attention module, added on a frozen pre-trained model, to build connections between label/sentence tokens via their neighbors. The propagation can be further guided by the regularization on neighborhood representations to encourage expressiveness. Experimental results show that, despite tuning only 5% additional parameters over a frozen pre-trained model, our model can achieve classification results comparable to the SOTA while maintaining strong expressiveness as well.
翻訳日:2022-05-25 12:37:11 公開日:2022-05-24
# 言語モデル事前学習における双方向性の役割について

On the Role of Bidirectionality in Language Model Pre-Training ( http://arxiv.org/abs/2205.11726v1 )

ライセンス: Link先を確認
Mikel Artetxe, Jingfei Du, Naman Goyal, Luke Zettlemoyer, Ves Stoyanov(参考訳) 言語モデルの事前学習に関する以前の研究は、異なるアーキテクチャと学習目標を探求してきたが、データ、ハイパーパラメータ、そして評価の違いは原則的な比較を困難にしている。 本研究では,既存のアプローチを差別化するキーファクタとして双方向性に注目し,次のトークン予測,テキストインフィルディング,ゼロショットプライミング,微調整におけるその役割を包括的に研究する。 本稿では,GPTのような一方向モデル,BERTのような完全双方向モデル,CM3やLMといったハイブリッドモデルなど,従来のアプローチを一般化する新しいフレームワークを提案する。 フレームワークは双方向性(双方向コンテキストと双方向注意)の2つの概念を区別し,それぞれを個別に制御することができる。 最適な構成はほとんどアプリケーションに依存しない(例えば、双方向の注意は微調整やインフィルディングに有益であるが、次のトークン予測やゼロショットプライミングには有害である)。 最大6.7Bのパラメータを持つモデルをトレーニングし、スケールで一貫性のある相違点を見つけます。 これまでのスケーリング作業は、左から右への自己回帰モデルに重点を置いてきたが、このアプローチにはいくつかのトレードオフがあり、非常に大きな双方向モデルを開発する価値はあるかもしれない。

Prior work on language model pre-training has explored different architectures and learning objectives, but differences in data, hyperparameters and evaluation make a principled comparison difficult. In this work, we focus on bidirectionality as a key factor that differentiates existing approaches, and present a comprehensive study of its role in next token prediction, text infilling, zero-shot priming and fine-tuning. We propose a new framework that generalizes prior approaches, including fully unidirectional models like GPT, fully bidirectional models like BERT, and hybrid models like CM3 and prefix LM. Our framework distinguishes between two notions of bidirectionality (bidirectional context and bidirectional attention) and allows us to control each of them separately. We find that the optimal configuration is largely application-dependent (e.g., bidirectional attention is beneficial for fine-tuning and infilling, but harmful for next token prediction and zero-shot priming). We train models with up to 6.7B parameters, and find differences to remain consistent at scale. While prior work on scaling has focused on left-to-right autoregressive models, our results suggest that this approach comes with some trade-offs, and it might be worthwhile to develop very large bidirectional models.
翻訳日:2022-05-25 12:36:51 公開日:2022-05-24
# 強化学習における言語モデルによる履歴圧縮

History Compression via Language Models in Reinforcement Learning ( http://arxiv.org/abs/2205.12258v1 )

ライセンス: Link先を確認
Fabian Paischer, Thomas Adler, Vihang Patil, Angela Bitto-Nemling, Markus Holzleitner, Sebastian Lehner, Hamid Eghbal-zadeh, Sepp Hochreiter(参考訳) 部分的に観測可能なマルコフ決定プロセス(POMDP)では、エージェントは通常、過去の表現を使って基礎となるMDPを近似する。 歴史表現と圧縮にフリーズした事前学習言語変換器(PLT)を用いて,サンプル効率を向上させることを提案する。 トランスフォーマーのトレーニングを避けるために,観測結果とオリジナルトークンの埋め込みを自動的に関連付けるFrozenHopfieldを導入する。 これらの関連性を形成するために、現代のホプフィールドネットワークは、ランダムだが固定された観測投影によって得られるクエリによって検索されるオリジナルのトークン埋め込みを格納する。 我々の新しい手法であるHELMは、メモリモジュールとしての履歴表現のための事前訓練された言語トランスフォーマーを含むアクタクリティカルネットワークアーキテクチャを実現する。 過去の表現を学習する必要がないため、HELMは競合他社よりもはるかに効率的なサンプルである。 Minigrid および Procgen 環境では、HELM は新たな最先端の結果を達成する。 私たちのコードはhttps://github.com/ml-jku/helmで利用可能です。

In a partially observable Markov decision process (POMDP), an agent typically uses a representation of the past to approximate the underlying MDP. We propose to utilize a frozen Pretrained Language Transformer (PLT) for history representation and compression to improve sample efficiency. To avoid training of the Transformer, we introduce FrozenHopfield, which automatically associates observations with original token embeddings. To form these associations, a modern Hopfield network stores the original token embeddings, which are retrieved by queries that are obtained by a random but fixed projection of observations. Our new method, HELM, enables actor-critic network architectures that contain a pretrained language Transformer for history representation as a memory module. Since a representation of the past need not be learned, HELM is much more sample efficient than competitors. On Minigrid and Procgen environments HELM achieves new state-of-the-art results. Our code is available at https://github.com/ml-jku/helm.
翻訳日:2022-05-25 12:36:30 公開日:2022-05-24
# G-Rep:任意オブジェクト指向物体検出のためのガウス表現

G-Rep: Gaussian Representation for Arbitrary-Oriented Object Detection ( http://arxiv.org/abs/2205.11796v1 )

ライセンス: Link先を確認
Liping Hou, Ke Lu, Xue Yang, Yuqiu Li, Jian Xue(参考訳) 任意指向オブジェクト表現は、向き付きバウンディングボックス(OBB)、四角形バウンディングボックス(QBB)、ポイントセット(PointSet)を含む。 それぞれの表現は、境界の不連続性、正方形問題、表現曖昧性、孤立点など、その特性に対応する問題に遭遇し、不正確な検出につながる。 様々な表現に対して多くの効果的な戦略が提案されているが、まだ統一された解はない。 ガウスモデルに基づく現在の検出法は、このジレンマを破る可能性を証明しているが、それらはobbに限定されている。 さらに,本論文では,様々な表現や問題に対する統一解を実現するために,obb,qbb,pointset のガウス分布を構成するために,g-rep と呼ばれる統一ガウス表現を提案する。 具体的には、PointSetまたはQBBベースのオブジェクトをガウス分布に変換し、そのパラメータを最大推定アルゴリズムを用いて最適化する。 次に、3つの任意ガウス計量を探索し、そのパラメータ最適化機構により検出器の回帰損失を最適化する。 さらに,ラベル割当と回帰損失の調整にはガウスメトリクスを用いたサンプリングも用いる。 いくつかの公開データセット、DOTA, HRSC2016, UCAS-AOD, ICDAR2015による実験結果から, 任意の対象検出のための提案手法の優れた性能を示した。 コードはhttps://github.com/open-mmlab/mmrotateで公開されている。

Arbitrary-oriented object representations contain the oriented bounding box (OBB), quadrilateral bounding box (QBB), and point set (PointSet). Each representation encounters problems that correspond to its characteristics, such as the boundary discontinuity, square-like problem, representation ambiguity, and isolated points, which lead to inaccurate detection. Although many effective strategies have been proposed for various representations, there is still no unified solution. Current detection methods based on Gaussian modeling have demonstrated the possibility of breaking this dilemma; however, they remain limited to OBB. To go further, in this paper, we propose a unified Gaussian representation called G-Rep to construct Gaussian distributions for OBB, QBB, and PointSet, which achieves a unified solution to various representations and problems. Specifically, PointSet or QBB-based objects are converted into Gaussian distributions, and their parameters are optimized using the maximum likelihood estimation algorithm. Then, three optional Gaussian metrics are explored to optimize the regression loss of the detector because of their excellent parameter optimization mechanisms. Furthermore, we also use Gaussian metrics for sampling to align label assignment and regression loss. Experimental results on several public available datasets, DOTA, HRSC2016, UCAS-AOD, and ICDAR2015 show the excellent performance of the proposed method for arbitrary-oriented object detection. The code has been open sourced at https://github.com/open-mmlab/mmrotate.
翻訳日:2022-05-25 12:36:00 公開日:2022-05-24
# CDFKD-MFS:多レベル特徴共有による協調的データフリー知識蒸留

CDFKD-MFS: Collaborative Data-free Knowledge Distillation via Multi-level Feature Sharing ( http://arxiv.org/abs/2205.11845v1 )

ライセンス: Link先を確認
Zhiwei Hao, Yong Luo, Zhi Wang, Han Hu, Jianping An(参考訳) 近年、リソース制限されたエッジデバイス上での強力なディープニューラルネットワーク(DNN)の圧縮とデプロイにより、インテリジェントなサービスの提供が魅力的なタスクとなっている。 知識蒸留(KD)は圧縮のための実現可能なソリューションであるが、元のデータセットに対する要求はプライバシー上の懸念を提起する。 さらに,複数の事前学習モデルを統合することで,良好な性能を実現することが一般的である。 複数のモデルを小さなモデルに圧縮する方法は、特に元のデータが利用できない場合、難しい。 この課題に取り組むために,マルチレベル機能共有(cdfkd-mfs)と非対称逆データフリーkdモジュール,注意に基づく集約モジュールを組み合わせた,共同データフリー知識蒸留という枠組みを提案する。 この枠組みでは,複数レベルの特徴共有構造を備えた学生モデルは,複数の教師モデルから学習し,非対称な逆方向でジェネレータとともに訓練する。 実際のサンプルが利用可能になると、アテンションモジュールは学生ヘッダの予測を適応的に集約し、パフォーマンスをさらに向上させる。 我々は,人気のある3つのコンピュータビジュアルデータセットについて広範な実験を行う。 特に、最も競争力のある選択肢と比較して、提案されたフレームワークの精度は、CIFAR-100データセットでは1.18\%、Caltech-101データセットでは1.67\%、mini-ImageNetデータセットでは2.99\%である。

Recently, the compression and deployment of powerful deep neural networks (DNNs) on resource-limited edge devices to provide intelligent services have become attractive tasks. Although knowledge distillation (KD) is a feasible solution for compression, its requirement on the original dataset raises privacy concerns. In addition, it is common to integrate multiple pretrained models to achieve satisfactory performance. How to compress multiple models into a tiny model is challenging, especially when the original data are unavailable. To tackle this challenge, we propose a framework termed collaborative data-free knowledge distillation via multi-level feature sharing (CDFKD-MFS), which consists of a multi-header student module, an asymmetric adversarial data-free KD module, and an attention-based aggregation module. In this framework, the student model equipped with a multi-level feature-sharing structure learns from multiple teacher models and is trained together with a generator in an asymmetric adversarial manner. When some real samples are available, the attention module adaptively aggregates predictions of the student headers, which can further improve performance. We conduct extensive experiments on three popular computer visual datasets. In particular, compared with the most competitive alternative, the accuracy of the proposed framework is 1.18\% higher on the CIFAR-100 dataset, 1.67\% higher on the Caltech-101 dataset, and 2.99\% higher on the mini-ImageNet dataset.
翻訳日:2022-05-25 12:35:33 公開日:2022-05-24
# 3次元ヘリカルCT再構成 : 記憶効率の良い非可逆学習法

3D helical CT reconstruction with memory efficient invertible Learned Primal-Dual method ( http://arxiv.org/abs/2205.11952v1 )

ライセンス: Link先を確認
Buda Baji\'c, Ozan \"Oktem, Jevgenija Rudzusika(参考訳) ヘリカル取得幾何は、CT(Computed tomography)スキャナーで医療画像に使用される最も一般的な幾何学である。 我々は,ilpd(invertible learned primal-dual)深層ニューラルネットワークアーキテクチャを適用し,ヘリカル3次元ct再構成に適用した。 メモリに合う部分で幾何学とデータを分割し、画像を対応するサブボリュームに分割することで実現している。 アーキテクチャは回転軸に沿った大きさの異なる画像に適用することができる。 現実的なヘリカルジオメトリからシミュレーションしたトモグラフィーデータについて実験を行った。

Helical acquisition geometry is the most common geometry used in computed tomography (CT) scanners for medical imaging. We adapt the invertible Learned Primal-Dual (iLPD) deep neural network architecture so that it can be applied to helical 3D CT reconstruction. We achieve this by splitting the geometry and the data in parts that fit the memory and by splitting images into corresponding sub-volumes. The architecture can be applied to images different in size along the rotation axis. We perform the experiments on tomographic data simulated from realistic helical geometries.
翻訳日:2022-05-25 12:35:07 公開日:2022-05-24
# 残差高速フーリエ変換とwasserstein距離によるヒト画像合成の改善

Improving Human Image Synthesis with Residual Fast Fourier Transformation and Wasserstein Distance ( http://arxiv.org/abs/2205.12022v1 )

ライセンス: Link先を確認
Jianhan Wu, Shijing Si, Jianzong Wang, Jing Xiao(参考訳) メタバースの急速な発展に伴い、仮想人間が出現し、ポーズ転送などの人間の画像合成や編集技術が最近普及している。 既存の技術のほとんどはGANに依存しており、大きな変種やオクルージョンでも優れた人間の画像を生成することができる。 第一に、合成画像のレンダリング効果は現実的ではなく、例えば、ある領域のレンダリングが貧弱であるなどである。 2つ目は、GANのトレーニングが不安定で、モデル崩壊のような収束が遅いことである。 上記の2つの問題に基づいて,その解決方法をいくつか提案する。 レンダリング効果を改善するために、従来のResidual Blockを置き換えるためにResidual Fast Fourier Transform Blockを使用します。 次に、ganトレーニングの速度と安定性を向上させるために、スペクトル正規化とwasserstein距離を用いる。 実験により,提案手法は上記の問題の解決に有効であることが示され,LPIPSとPSNRの最先端スコアが得られた。

With the rapid development of the Metaverse, virtual humans have emerged, and human image synthesis and editing techniques, such as pose transfer, have recently become popular. Most of the existing techniques rely on GANs, which can generate good human images even with large variants and occlusions. But from our best knowledge, the existing state-of-the-art method still has the following problems: the first is that the rendering effect of the synthetic image is not realistic, such as poor rendering of some regions. And the second is that the training of GAN is unstable and slow to converge, such as model collapse. Based on the above two problems, we propose several methods to solve them. To improve the rendering effect, we use the Residual Fast Fourier Transform Block to replace the traditional Residual Block. Then, spectral normalization and Wasserstein distance are used to improve the speed and stability of GAN training. Experiments demonstrate that the methods we offer are effective at solving the problems listed above, and we get state-of-the-art scores in LPIPS and PSNR.
翻訳日:2022-05-25 12:34:20 公開日:2022-05-24
# 最適統計量とプライバシ保証を用いたビザンチンロバストフェデレーション学習

Byzantine-Robust Federated Learning with Optimal Statistical Rates and Privacy Guarantees ( http://arxiv.org/abs/2205.11765v1 )

ライセンス: Link先を確認
Banghua Zhu, Lun Wang, Qi Pang, Shuai Wang, Jiantao Jiao, Dawn Song, Michael I. Jordan(参考訳) 我々は,bizantine-robustフェデレーション学習プロトコルを提案する。 従来の研究とは対照的に,提案手法は寸法依存性を改善し,強い凸損失のパラメータを全て考慮し,厳密な統計率を達成する。 競合プロトコルに対してベンチマークを行い、提案プロトコルの実証的な優位性を示す。 最後に、バケットによるプロトコルは、プライバシー保証手順と自然に組み合わせて、半正直なサーバに対するセキュリティを導入することができると述べる。 評価コードはhttps://github.com/wanglun1996/secure-robust-federated-learningで提供される。

We propose Byzantine-robust federated learning protocols with nearly optimal statistical rates. In contrast to prior work, our proposed protocols improve the dimension dependence and achieve a tight statistical rate in terms of all the parameters for strongly convex losses. We benchmark against competing protocols and show the empirical superiority of the proposed protocols. Finally, we remark that our protocols with bucketing can be naturally combined with privacy-guaranteeing procedures to introduce security against a semi-honest server. The code for evaluation is provided in https://github.com/wanglun1996/secure-robust-federated-learning.
翻訳日:2022-05-25 12:33:27 公開日:2022-05-24
# PERT: 文字変換タスクに対するPinyinの新しいソリューション

PERT: A New Solution to Pinyin to Character Conversion Task ( http://arxiv.org/abs/2205.11737v1 )

ライセンス: Link先を確認
Jinghui Xiao, Qun Liu, Xin Jiang, Yuanfeng Xiong, Haiteng Wu, Zhe Zhang(参考訳) pinyin to character conversion (p2c)タスクは、中国語、日本語、タイ語などのアジア言語向けの商用入力ソフトウェアにおいて、ime(input method engine)の重要なタスクである。 通常、シーケンスラベリングタスクとして扱われ、言語モデル、すなわちn-gramやRNNによって解決される。 しかし、n-gramまたはrnnの低容量は性能を制限している。 本稿では,トランスフォーマーによる双方向Pinyinエンコーダ表現のためのPERTという新しいソリューションを提案する。 ベースラインよりもパフォーマンスが大幅に向上します。 さらに PERT と n-gram をMarkov フレームワークで組み合わせることで,パフォーマンスをさらに向上する。 最後に、外部レキシコンをPERTに組み込んでIMEのOOD問題を解決する。

Pinyin to Character conversion (P2C) task is the key task of Input Method Engine (IME) in commercial input software for Asian languages, such as Chinese, Japanese, Thai language and so on. It's usually treated as sequence labelling task and resolved by language model, i.e. n-gram or RNN. However, the low capacity of the n-gram or RNN limits its performance. This paper introduces a new solution named PERT which stands for bidirectional Pinyin Encoder Representations from Transformers. It achieves significant improvement of performance over baselines. Furthermore, we combine PERT with n-gram under a Markov framework, and improve performance further. Lastly, the external lexicon is incorporated into PERT so as to resolve the OOD issue of IME.
翻訳日:2022-05-25 12:33:04 公開日:2022-05-24
# 補助データを活用したコミュニティ質問応答エンティティリンク

Community Question Answering Entity Linking via Leveraging Auxiliary Data ( http://arxiv.org/abs/2205.11917v1 )

ライセンス: Link先を確認
Yuhan Li, Wei Shen, Jianbo Gao, Yadong Wang(参考訳) コミュニティ質問回答 (Community Question Answering, CQA) プラットフォームには、名前付きエンティティがユビキタスに現れるCQAテキスト(質問と回答)が多数含まれている。 本稿では、CQAテキストから検出されたテキストエンティティ参照を知識ベースで対応するエンティティとリンクするCQAエンティティリンク(CQAEL)の新たなタスクを定義する。 このタスクは、エキスパート探しや知識ベース強化など、多くの下流アプリケーションを促進することができる。 従来のエンティティリンク方式は、主にニュースドキュメント内のエンティティのリンクに重点を置いており、CQAELのこの新しいタスクに対して、CQAプラットフォームに関連する様々な情報補助データを効果的に活用できないため、並列回答や2種類のメタデータ(トピックタグとユーザ)のようなエンティティリンクを支援するために最適である。 そこで本研究では,様々な補助データから得られる知識を効果的に活用し,リンク性能を向上させるトランスフォーマフレームワークを提案する。 我々は、最先端エンティティリンク手法に対して、新たにリリースされたCQAELデータセットに対する広範な実験により、フレームワークの優位性を検証する。

Community Question Answering (CQA) platforms contain plenty of CQA texts (i.e., questions and answers corresponding to the question) where named entities appear ubiquitously. In this paper, we define a new task of CQA entity linking (CQAEL) as linking the textual entity mentions detected from CQA texts with their corresponding entities in a knowledge base. This task can facilitate many downstream applications including expert finding and knowledge base enrichment. Traditional entity linking methods mainly focus on linking entities in news documents, and are suboptimal over this new task of CQAEL since they cannot effectively leverage various informative auxiliary data involved in the CQA platform to aid entity linking, such as parallel answers and two types of meta-data (i.e., topic tags and users). To remedy this crucial issue, we propose a novel transformer-based framework to effectively harness the knowledge delivered by different kinds of auxiliary data to promote the linking performance. We validate the superiority of our framework through extensive experiments over a newly released CQAEL data set against state-of-the-art entity linking methods.
翻訳日:2022-05-25 12:32:53 公開日:2022-05-24
# UMSNet:人間の活動認識のためのユニバーサルマルチセンサーネットワーク

UMSNet: An Universal Multi-sensor Network for Human Activity Recognition ( http://arxiv.org/abs/2205.11756v1 )

ライセンス: Link先を確認
Jialiang Wang, Haotian Wei, Yi Wang, Shu Yang, Chi Li(参考訳) マルチモーダルセンサに基づくヒューマンアクティビティ認識(HAR)は、バイオメトリック認識と人工知能の分野として急速に成長している。 しかし、マルチモーダル時系列データを完全にマイニングし、正確な行動特徴を効果的に学習する方法は、この分野において常にホットな話題である。 また、さまざまな生センサデータを迅速に処理し、より優れた特徴表現を学習できる、十分に一般化されたフレームワークも必要である。 本稿では,人間行動認識のためのユニバーサルマルチセンサネットワーク(UMSNet)を提案する。 特に,アクティベーション関数と正規化レイヤの数を減らし,逆ボトルネック構造とグルーピング畳み込みを追加することで,性能を向上させる新しい軽量センサ残差ブロック(lsrブロック)を提案する。 次に、変圧器を用いて時系列特徴の関係を抽出し、人間の活動の分類と認識を実現する。 我々のフレームワークは明確な構造を持ち、単純な特殊化後、様々な種類のマルチモーダル時系列分類(TSC)タスクに直接適用することができる。 広範な実験により、umsnetは2つの一般的なマルチセンサーヒューマンアクティビティ認識データセット(hharデータセットとmhealthデータセット)において、他の最先端手法よりも優れていることが示された。

Human activity recognition (HAR) based on multimodal sensors has become a rapidly growing branch of biometric recognition and artificial intelligence. However, how to fully mine multimodal time series data and effectively learn accurate behavioral features has always been a hot topic in this field. Practical applications also require a well-generalized framework that can quickly process a variety of raw sensor data and learn better feature representations. This paper proposes a universal multi-sensor network (UMSNet) for human activity recognition. In particular, we propose a new lightweight sensor residual block (called LSR block), which improves the performance by reducing the number of activation function and normalization layers, and adding inverted bottleneck structure and grouping convolution. Then, the Transformer is used to extract the relationship of series features to realize the classification and recognition of human activities. Our framework has a clear structure and can be directly applied to various types of multi-modal Time Series Classification (TSC) tasks after simple specialization. Extensive experiments show that the proposed UMSNet outperforms other state-of-the-art methods on two popular multi-sensor human activity recognition datasets (i.e. HHAR dataset and MHEALTH dataset).
翻訳日:2022-05-25 12:31:17 公開日:2022-05-24
# AFNet-M:2D+3次元表情認識のためのマスク付き適応核融合ネットワーク

AFNet-M: Adaptive Fusion Network with Masks for 2D+3D Facial Expression Recognition ( http://arxiv.org/abs/2205.11785v1 )

ライセンス: Link先を確認
Mingzhe Sui, Hanting Li, Zhaoqing Zhu, and Feng Zhao(参考訳) 2D+3D顔表情認識(FER)は、2Dテクスチャとより堅牢な3D深度情報とを同時に組み合わせることで、照明変化に効果的に対応し、変動を生じさせる。 深層学習に基づくほとんどのアプローチでは、各モダリティにおいて異なる重要性の度合いを考慮せずに、完全連結層に直接マルチモーダル特徴を結合する単純な融合戦略を採用している。 一方、2dと3dの両方のローカル機能にフォーカスする方法は依然として大きな課題だ。 本稿では2D+3D FERのためのマスク付き適応融合ネットワーク(AFNet-M)を提案する。 2Dおよび3Dの局所的特徴を高めるために,顔の有意な領域に注釈を付けるマスクを事前知識とし,2つの変調ベクトルを自動的に学習して特徴マップを調整可能なマスク注意モジュール(MA)を設計する。 さらに,iwc (designed importance weights computing module) による畳み込み層での適応型核融合が可能な新しい核融合戦略を提案する。 AFNet-MはBU-3DFEおよびBosphorusデータセット上での最先端性能を実現し,他のモデルと比較して少ないパラメータを必要とすることを示す。

2D+3D facial expression recognition (FER) can effectively cope with illumination changes and pose variations by simultaneously merging 2D texture and more robust 3D depth information. Most deep learning-based approaches employ the simple fusion strategy that concatenates the multimodal features directly after fully-connected layers, without considering the different degrees of significance for each modality. Meanwhile, how to focus on both 2D and 3D local features in salient regions is still a great challenge. In this letter, we propose the adaptive fusion network with masks (AFNet-M) for 2D+3D FER. To enhance 2D and 3D local features, we take the masks annotating salient regions of the face as prior knowledge and design the mask attention module (MA) which can automatically learn two modulation vectors to adjust the feature maps. Moreover, we introduce a novel fusion strategy that can perform adaptive fusion at convolutional layers through the designed importance weights computing module (IWC). Experimental results demonstrate that our AFNet-M achieves the state-of-the-art performance on BU-3DFE and Bosphorus datasets and requires fewer parameters in comparison with other models.
翻訳日:2022-05-25 12:31:00 公開日:2022-05-24
# 記号表現変換器:記号回帰のためのコンピュータビジョンアプローチ

Symbolic Expression Transformer: A Computer Vision Approach for Symbolic Regression ( http://arxiv.org/abs/2205.11798v1 )

ライセンス: Link先を確認
Jiachen Li, Ye Yuan, Hong-Bin Shen(参考訳) シンボリック回帰 (sr) は、データに最も適した数学的表現を自動的に見つける回帰分析の一種である。 現在、SRは基本的に様々な探索戦略に依存しており、全ての式にサンプル固有のモデルを最適化する必要があるため、モデルの一般化と効率は著しく制限されている。 本研究では,その曲線に基づいて数学的表現を推測できるという事実に着想を得て,SRのコンピュータビジョンの観点からのサンプル非依存モデルである記号表現変換器(SET)を提案する。 具体的には、収集したデータを画像として表現し、画像のシンボル表現への変換に画像キャプションモデルを用いる。 イメージドメイン内のトレーニングとテストセットの重複のない大規模なデータセットがリリースされます。 本研究は,SETの有効性を実証し,課題SR問題の解決に向けた画像ベースモデルの有望な方向性を提案する。

Symbolic Regression (SR) is a type of regression analysis to automatically find the mathematical expression that best fits the data. Currently, SR still basically relies on various searching strategies so that a sample-specific model is required to be optimized for every expression, which significantly limits the model's generalization and efficiency. Inspired by the fact that human beings can infer a mathematical expression based on the curve of it, we propose Symbolic Expression Transformer (SET), a sample-agnostic model from the perspective of computer vision for SR. Specifically, the collected data is represented as images and an image caption model is employed for translating images to symbolic expressions. A large-scale dataset without overlap between training and testing sets in the image domain is released. Our results demonstrate the effectiveness of SET and suggest the promising direction of image-based model for solving the challenging SR problem.
翻訳日:2022-05-25 12:30:36 公開日:2022-05-24
# 学習型通信による自動車両システムの協調3次元物体検出

Collaborative 3D Object Detection for Automatic Vehicle Systems via Learnable Communications ( http://arxiv.org/abs/2205.11849v1 )

ライセンス: Link先を確認
Junyong Wang, Yuan Zeng and Yi Gong(参考訳) 3dポイントクラウド内の物体の正確な検出は、自動運転システムにおける重要な問題である。 協調的知覚は、空間的に多様なセンサーからの情報を取り入れ、自律運転システムの知覚精度を向上させるための重要な利点を提供する。 本研究では, 自律走行車両がローカルポイントクラウドデータを用いて, 協調的3次元物体検出のための無線リンクを介して, 周辺インフラからの情報を組み合わせることを検討する。 しかし、事前定義された通信方式における車両とインフラ間の情報共有は、通信の混雑や性能改善の制限をもたらす可能性がある。 To this end, we propose a novel collaborative 3D object detection framework that consists of three components: feature learning networks that map point clouds into feature maps; an efficient communication block that propagates compact and fine-grained query feature maps from vehicle to support infrastructures and optimizes attention weights between query and key to refine support feature maps; a region proposal network that fuses local feature maps and weighted support feature maps for 3D object detection. 2つの複雑な運転シナリオ(ラウンドアバウトとtジャンクション)で作成した合成協調データセットを用いて,提案フレームワークの性能評価を行った。 実験結果と帯域使用量分析により,本手法は通信コストと計算コストを削減し,全てのシナリオにおいて異なる検出困難下での検出性能を大幅に向上することを示した。

Accurate detection of objects in 3D point clouds is a key problem in autonomous driving systems. Collaborative perception can incorporate information from spatially diverse sensors and provide significant benefits for improving the perception accuracy of autonomous driving systems. In this work, we consider that the autonomous vehicle uses local point cloud data and combines information from neighboring infrastructures through wireless links for cooperative 3D object detection. However, information sharing among vehicle and infrastructures in predefined communication schemes may result in communication congestion and/or bring limited performance improvement. To this end, we propose a novel collaborative 3D object detection framework that consists of three components: feature learning networks that map point clouds into feature maps; an efficient communication block that propagates compact and fine-grained query feature maps from vehicle to support infrastructures and optimizes attention weights between query and key to refine support feature maps; a region proposal network that fuses local feature maps and weighted support feature maps for 3D object detection. We evaluate the performance of the proposed framework using a synthetic cooperative dataset created in two complex driving scenarios: a roundabout and a T-junction. Experiment results and bandwidth usage analysis demonstrate that our approach can save communication and computation costs and significantly improve detection performance under different detection difficulties in all scenarios.
翻訳日:2022-05-25 12:30:23 公開日:2022-05-24
# 寒冷地におけるロバスト3次元物体検出

Robust 3D Object Detection in Cold Weather Conditions ( http://arxiv.org/abs/2205.11925v1 )

ライセンス: Link先を確認
Aldi Piroli, Vinzenz Dallabetta, Marc Walessa, Daniel Meissner, Johannes Kopp, Klaus Dietmayer(参考訳) 逆気象条件はLiDARベースの物体検出器に悪影響を及ぼす可能性がある。 本研究では,寒冷環境における自動車排ガスの凝縮現象に着目した。 この日常的な効果は、オブジェクトのサイズ、向き、ゴーストオブジェクト検出を導入し、アートオブジェクト検出器の状態の信頼性を損なう可能性がある。 本稿では,データ拡張と新たなトレーニング損失項を用いてこの問題を解決することを提案する。 ディープニューラルネットワークを効果的にトレーニングするには、大量のラベル付きデータが必要である。 悪天候の場合、このプロセスは非常に手間がかかり、費用がかかる。 まず, 3次元表面再構成とサンプリングに基づくガス排出データ生成法を提案することで, ラベル付きデータのプールから大量のガス排出雲を生成できる。 第2に、良質な気象条件で記録されたデータセットにガス排気を付加するための点雲増量プロセスを導入する。 最後に,拡張ポイントクラウドを活用した新たなトレーニング損失項を定式化し,ノイズを含む予測をペナライズすることで,オブジェクト検出の堅牢性を高める。 他の研究とは対照的に,本手法はグリッドベースとポイントベースの両方で利用することができる。 さらに、我々のアプローチはネットワークアーキテクチャの変更を必要としないため、推論時間は変化しない。 実データによる実験結果から, 提案手法はガス排気およびノイズデータに対するロバスト性を大幅に向上させることが示された。

Adverse weather conditions can negatively affect LiDAR-based object detectors. In this work, we focus on the phenomenon of vehicle gas exhaust condensation in cold weather conditions. This everyday effect can influence the estimation of object sizes, orientations and introduce ghost object detections, compromising the reliability of the state of the art object detectors. We propose to solve this problem by using data augmentation and a novel training loss term. To effectively train deep neural networks, a large set of labeled data is needed. In case of adverse weather conditions, this process can be extremely laborious and expensive. We address this issue in two steps: First, we present a gas exhaust data generation method based on 3D surface reconstruction and sampling which allows us to generate large sets of gas exhaust clouds from a small pool of labeled data. Second, we introduce a point cloud augmentation process that can be used to add gas exhaust to datasets recorded in good weather conditions. Finally, we formulate a new training loss term that leverages the augmented point cloud to increase object detection robustness by penalizing predictions that include noise. In contrast to other works, our method can be used with both grid-based and point-based detectors. Moreover, since our approach does not require any network architecture changes, inference times remain unchanged. Experimental results on real data show that our proposed method greatly increases robustness to gas exhaust and noisy data.
翻訳日:2022-05-25 12:30:04 公開日:2022-05-24
# より深く、より広く:トランスフォーマー構成の再検討

Deeper vs Wider: A Revisit of Transformer Configuration ( http://arxiv.org/abs/2205.10505v2 )

ライセンス: Link先を確認
Fuzhao Xue, Jianghai Chen, Aixin Sun, Xiaozhe Ren, Zangwei Zheng, Xiaoxin He, Xin Jiang, Yang You(参考訳) トランスフォーマーベースのモデルは、多くのタスク、特にビジョンと言語タスクで印象的な結果をもたらしました。 多くのモデルトレーニングでは、通常、従来の構成が採用される。 例えば、隠れた次元(すなわちモデル幅)のベースモデルを 768 に設定し、トランスフォーマー層(すなわちモデル深さ)を 12 に設定することが多い。 本稿では,従来の構成を再考する。 理論的解析と実験的評価により, マスク付きオートエンコーダは, 深部変圧器訓練における過密問題を緩和するのに有効であることを示す。 そこで本研究では,より深く狭いトランスフォーマー構成をマスキングオートエンコーダのトレーニングに利用するbambooを提案する。 ImageNetでは、そのような構成の変更により、再設計されたモデルは87.1%のトップ1の精度を実現し、MAEやBEiTのようなSoTAモデルより優れている。 言語タスクでは、再設計されたモデルは、GLUEデータセット上で、デフォルト設定でBERTを平均1.1ポイント上回る。

Transformer-based models have delivered impressive results on many tasks, particularly vision and language tasks. In many model training situations, conventional configurations are typically adopted. For example, we often set the base model with hidden dimensions (i.e. model width) to be 768 and the number of transformer layers (i.e. model depth) to be 12. In this paper, we revisit these conventional configurations. Through theoretical analysis and experimental evaluation, we show that the masked autoencoder is effective in alleviating the over-smoothing issue in deep transformer training. Based on this finding, we propose Bamboo, an idea of using deeper and narrower transformer configurations, for masked autoencoder training. On ImageNet, with such a simple change in configuration, re-designed model achieves 87.1% top-1 accuracy and outperforms SoTA models like MAE and BEiT. On language tasks, re-designed model outperforms BERT with default setting by 1.1 points on average, on GLUE datasets.
翻訳日:2022-05-25 12:08:40 公開日:2022-05-24
# 画像記述子を持つ言語モデルとビデオ言語学習者

Language Models with Image Descriptors are Strong Few-Shot Video-Language Learners ( http://arxiv.org/abs/2205.10747v2 )

ライセンス: Link先を確認
Zhenhailong Wang, Manling Li, Ruochen Xu, Luowei Zhou, Jie Lei, Xudong Lin, Shuohang Wang, Ziyi Yang, Chenguang Zhu, Derek Hoiem, Shih-Fu Chang, Mohit Bansal, Heng Ji(参考訳) この研究の目的は、ドメイン固有のキャプション、質問応答、将来のイベント予測など、いくつかの例から様々なビデオ・テキストタスクに一般化できる柔軟なビデオ言語モデルを構築することである。 既存の数発のビデオ言語学習者はエンコーダのみに集中しており、生成タスクを処理するビデオからテキストへのデコーダが存在しない。 ビデオキャプションは大規模なビデオ言語データセットで事前訓練されているが、微調整に大きく依存しており、数ショットで見えないタスクのためのテキストを生成する能力がない。 そこで本研究では,ビデオデータセットの事前学習や微調整を必要とせず,映像と言語モデルによるビデオ言語学習システムvidilを提案する。 画像言語モデルを用いて,映像コンテンツをフレームキャプション,オブジェクト,属性,イベントフレーズに変換し,時間構造テンプレートに合成する。 次に、いくつかのインコンテキスト例を含むプロンプトを持つ言語モデルを指示し、合成されたコンテンツからターゲット出力を生成する。 プロンプトの柔軟性により、モデルが任意の形式のテキスト入力、例えば自動音声認識(asr)の書き起こしをキャプチャできる。 実験では,ビデオキャプション,ビデオ質問応答,ビデオキャプション検索,ビデオ未来のイベント予測など,様々なビデオ言語タスクにおける映像理解における言語モデルの有用性を実証した。 特にビデオの将来的なイベント予測では,私たちのマイショットモデルは,大規模ビデオデータセットでトレーニングされた最先端の教師付きモデルを大幅に上回っています。 コードとリソースは https://github.com/MikeWangWZHL/VidIL で公開されている。

The goal of this work is to build flexible video-language models that can generalize to various video-to-text tasks from few examples, such as domain-specific captioning, question answering, and future event prediction. Existing few-shot video-language learners focus exclusively on the encoder, resulting in the absence of a video-to-text decoder to handle generative tasks. Video captioners have been pretrained on large-scale video-language datasets, but they rely heavily on finetuning and lack the ability to generate text for unseen tasks in a few-shot setting. We propose VidIL, a few-shot Video-language Learner via Image and Language models, which demonstrates strong performance on few-shot video-to-text tasks without the necessity of pretraining or finetuning on any video datasets. We use the image-language models to translate the video content into frame captions, object, attribute, and event phrases, and compose them into a temporal structure template. We then instruct a language model, with a prompt containing a few in-context examples, to generate a target output from the composed content. The flexibility of prompting allows the model to capture any form of text input, such as automatic speech recognition (ASR) transcripts. Our experiments demonstrate the power of language models in understanding videos on a wide variety of video-language tasks, including video captioning, video question answering, video caption retrieval, and video future event prediction. Especially, on video future event prediction, our few-shot model significantly outperforms state-of-the-art supervised models trained on large-scale video datasets. Code and resources are publicly available for research purposes at https://github.com/MikeWangWZHL/VidIL .
翻訳日:2022-05-25 12:08:23 公開日:2022-05-24
# 説明可能なドメイン適応

Explainable Supervised Domain Adaptation ( http://arxiv.org/abs/2205.09943v2 )

ライセンス: Link先を確認
Vidhya Kamakshi and Narayanan C Krishnan(参考訳) ドメイン適応技術はディープラーニングの成功に貢献した。 ラベル付きデータスカースターゲットドメインで学習するための補助ソースドメインからの知識を活用することは、ドメイン適応の基礎となる。 これらの技術は精度を高めるが、適応プロセス、特にソースドメインから得られる知識はいまだに不明である。 本稿では,設計管理型ドメイン適応フレームワーク xsda-net を提案する。 我々は、XSDA-Netにケースベースの推論機構を統合し、ソースとターゲットの列車画像の類似した領域でテストインスタンスの予測を説明する。 我々は,パートベースの説明可能性を示すために広く知られているデータセットのドメイン適応設定をキュレートすることにより,提案フレームワークの有用性を実証的に実証する。

Domain adaptation techniques have contributed to the success of deep learning. Leveraging knowledge from an auxiliary source domain for learning in labeled data-scarce target domain is fundamental to domain adaptation. While these techniques result in increasing accuracy, the adaptation process, particularly the knowledge leveraged from the source domain, remains unclear. This paper proposes an explainable by design supervised domain adaptation framework - XSDA-Net. We integrate a case-based reasoning mechanism into the XSDA-Net to explain the prediction of a test instance in terms of similar-looking regions in the source and target train images. We empirically demonstrate the utility of the proposed framework by curating the domain adaptation settings on datasets popularly known to exhibit part-based explainability.
翻訳日:2022-05-25 12:07:54 公開日:2022-05-24
# 連続時間平均回帰マルコフ決定過程に対する対数的後悔境界

Logarithmic regret bounds for continuous-time average-reward Markov decision processes ( http://arxiv.org/abs/2205.11168v2 )

ライセンス: Link先を確認
Xuefeng Gao, Xun Yu Zhou(参考訳) 無限ホリゾン平均回帰設定における連続時間マルコフ決定過程(mdps)に対する強化学習を考える。 離散時間MDPとは対照的に、連続時間プロセスは状態に移動し、アクションが実行された後にランダムに保持される。 未知の遷移確率と指数的保持時間率により、時間地平線において対数的となるインスタンス依存の後悔の下限を導出する。 さらに,学習アルゴリズムを設計し,対数成長率を達成する有限時間後悔境界を確立する。 本分析は,高信頼度強化学習,平均保持時間の微妙な推定,点過程の確率的比較に基づく。

We consider reinforcement learning for continuous-time Markov decision processes (MDPs) in the infinite-horizon, average-reward setting. In contrast to discrete-time MDPs, a continuous-time process moves to a state and stays there for a random holding time after an action is taken. With unknown transition probabilities and rates of exponential holding times, we derive instance-dependent regret lower bounds that are logarithmic in the time horizon. Moreover, we design a learning algorithm and establish a finite-time regret bound that achieves the logarithmic growth rate. Our analysis builds upon upper confidence reinforcement learning, a delicate estimation of the mean holding times, and stochastic comparison of point processes.
翻訳日:2022-05-25 12:07:45 公開日:2022-05-24
# relphormer: ナレッジグラフ表現のための関係グラフトランスフォーマー

Relphormer: Relational Graph Transformer for Knowledge Graph Representation ( http://arxiv.org/abs/2205.10852v2 )

ライセンス: Link先を確認
Zhen Bi, Siyuan Cheng, Ningyu Zhang, Xiaozhuan Liang, Feiyu Xiong, Huajun Chen(参考訳) トランスフォーマーは自然言語処理、コンピュータビジョン、グラフマイニングなど幅広い分野において顕著な性能を発揮している。 しかし、翻訳距離パラダイムがこの分野を支配している知識グラフ表現では、バニラトランスフォーマーアーキテクチャは有望な改善を得られていない。 注意すべきは、バニラトランスフォーマーアーキテクチャは知識グラフの本質的意味的および構造的情報を捉えるのに苦労しており、二次依存のため長距離の隣人にはほとんどスケールできないことである。 そこで本研究では,Relphormerと呼ばれる知識グラフ表現のためのTransformerの新たな変種を提案する。 具体的には、Triple2Seqを導入し、コンテキスト化されたサブグラフシーケンスをTransformerの入力として動的にサンプリングし、スケーラビリティの問題を軽減する。 次に、関係情報をエンコードし、サブグラフ間のグローバルな意味情報を保持するための構造強化自己認識機構を提案する。 さらに,異なるリンク予測タスクを統合するための知識グラフ表現学習のための新しいパラダイムとして,マスク付き知識モデリングを提案する。 実験結果から,本手法はベースラインと比較してベンチマークデータセットの性能が向上することが示された。

Transformers have achieved remarkable performance in widespread fields, including natural language processing, computer vision and graph mining. However, in the knowledge graph representation, where translational distance paradigm dominates this area, vanilla Transformer architectures have not yielded promising improvements. Note that vanilla Transformer architectures struggle to capture the intrinsically semantic and structural information of knowledge graphs and can hardly scale to long-distance neighbors due to quadratic dependency. To this end, we propose a new variant of Transformer for knowledge graph representation dubbed Relphormer. Specifically, we introduce Triple2Seq which can dynamically sample contextualized sub-graph sequences as the input of the Transformer to alleviate the scalability issue. We then propose a novel structure-enhanced self-attention mechanism to encode the relational information and keep the globally semantic information among sub-graphs. Moreover, we propose masked knowledge modeling as a new paradigm for knowledge graph representation learning to unify different link prediction tasks. Experimental results show that our approach can obtain better performance on benchmark datasets compared with baselines.
翻訳日:2022-05-25 12:07:35 公開日:2022-05-24
# banglanlg: バングラの低リソース自然言語生成評価のためのベンチマークとリソース

BanglaNLG: Benchmarks and Resources for Evaluating Low-Resource Natural Language Generation in Bangla ( http://arxiv.org/abs/2205.11081v2 )

ライセンス: Link先を確認
Abhik Bhattacharjee, Tahmid Hasan, Wasi Uddin Ahmad, Rifat Shahriyar(参考訳) この研究は、Webドメインで広く話されているが低リソース言語であるBanglaで自然言語生成(NLG)モデルを評価するための包括的なベンチマークであるBanglaNLGを提示する。 BanglaNLGベンチマークでは,3つの条件付きテキスト生成タスクを集約する。 次に、Banglaデータ27.5GBのクリーンコーパスを用いて、Banglaのシーケンス間変換モデルであるBanglaT5を事前訓練する。 BanglaT5はすべてのタスクで最先端のパフォーマンスを実現し、mT5(ベース)を最大5.4%上回っている。 Bangla NLGの今後の研究と評価を進めるために、BanglaT5言語モデルとリーダボードを公開しています。 リソースはhttps://github.com/csebuetnlp/BanglaNLGで見ることができる。

This work presents BanglaNLG, a comprehensive benchmark for evaluating natural language generation (NLG) models in Bangla, a widely spoken yet low-resource language in the web domain. We aggregate three challenging conditional text generation tasks under the BanglaNLG benchmark. Then, using a clean corpus of 27.5 GB of Bangla data, we pretrain BanglaT5, a sequence-to-sequence Transformer model for Bangla. BanglaT5 achieves state-of-the-art performance in all of these tasks, outperforming mT5 (base) by up to 5.4%. We are making the BanglaT5 language model and a leaderboard publicly available in the hope of advancing future research and evaluation on Bangla NLG. The resources can be found at https://github.com/csebuetnlp/BanglaNLG.
翻訳日:2022-05-25 12:07:17 公開日:2022-05-24
# 計算可能な人工知能

Computable Artificial General Intelligence ( http://arxiv.org/abs/2205.10513v2 )

ライセンス: Link先を確認
Michael Timothy Bennett(参考訳) 人工知能(artificial general intelligence, agi)は、正確な予測を行うために、他のどの情報よりも少ない情報を必要とするエージェントである。 一般的な強化学習エージェントであるAIXIが、この定義を満たしただけでなく、それを行う唯一の数学的形式主義であったことは疑わしい。 重要な結果となったが、AIXIは計算不能であり、性能は主観的であった。 本稿では,両問題を克服するAGIの代替形式性を提案する。 その性能の形式的な証明と、これらの主張をサポートする単純な実装と実験結果が与えられる。

An artificial general intelligence (AGI), by one definition, is an agent that requires less information than any other to make an accurate prediction. It is arguable that the general reinforcement learning agent AIXI not only met this definition, but was the only mathematical formalism to do so. Though a significant result, AIXI was incomputable and its performance subjective. This paper proposes an alternative formalism of AGI which overcomes both problems. Formal proof of its performance is given, along with a simple implementation and experimental results that support these claims.
翻訳日:2022-05-25 12:07:04 公開日:2022-05-24
# 学習データに遡る言語モデルにおける知識の追跡

Tracing Knowledge in Language Models Back to the Training Data ( http://arxiv.org/abs/2205.11482v2 )

ライセンス: Link先を確認
Ekin Aky\"urek, Tolga Bolukbasi, Frederick Liu, Binbin Xiong, Ian Tenney, Jacob Andreas, Kelvin Guu(参考訳) ニューラルネットワークモデル(LM)は、多くの事実知識を記憶するために示されている。 しかし、lmがアサーションを生成すると、どこでこの情報を学び、それが真かどうかを判断するのは難しい。 本稿では,これらの予測の証拠を提供するトレーニング例に言語モデルのアサーションを遡る,ファクトトレースのための新しいベンチマークを提案する。 以前の研究によると、データセットレベルの影響メソッドは、トレーニングデータへの予測を追跡するための効果的なフレームワークを提供する可能性がある。 しかし、これらの手法は事実追跡では評価されておらず、主に定性的分析や分類・回帰作業のためのデータクリーニング手法として研究されている。 本稿では,情報検索(IR)指標を用いて,事実追跡における影響評価手法を初めて提案する。 グラデーションベースと埋め込みベースという2つの一般的な影響メソッドのファミリを比較すると、どちらも事実追跡が確実にできないことを示します。 この現象がなぜ起こるのか(例えば勾配飽和)を考察し、既存の影響法がLMの事実予測を確実に属性付ける前に著しく改善されなければならないことを示す。

Neural language models (LMs) have been shown to memorize a great deal of factual knowledge. But when an LM generates an assertion, it is often difficult to determine where it learned this information and whether it is true. In this paper, we introduce a new benchmark for fact tracing: tracing language models' assertions back to the training examples that provided evidence for those predictions. Prior work has suggested that dataset-level influence methods might offer an effective framework for tracing predictions back to training data. However, such methods have not been evaluated for fact tracing, and researchers primarily have studied them through qualitative analysis or as a data cleaning technique for classification/regression tasks. We present the first experiments that evaluate influence methods for fact tracing, using well-understood information retrieval (IR) metrics. We compare two popular families of influence methods -- gradient-based and embedding-based -- and show that neither can fact-trace reliably; indeed, both methods fail to outperform an IR baseline (BM25) that does not even access the LM. We explore why this occurs (e.g., gradient saturation) and demonstrate that existing influence methods must be improved significantly before they can reliably attribute factual predictions in LMs.
翻訳日:2022-05-25 12:06:01 公開日:2022-05-24
# GraphMAE: 自己監督型マスクグラフオートエンコーダ

GraphMAE: Self-Supervised Masked Graph Autoencoders ( http://arxiv.org/abs/2205.10803v2 )

ライセンス: Link先を確認
Zhenyu Hou, Xiao Liu, Yukuo Cen, Yuxiao Dong, Hongxia Yang, Chunjie Wang, Jie Tang(参考訳) 自己教師付き学習(SSL)は近年広く研究されている。 特に、生成的なSSLは、自然言語処理やBERTやGPTの普及など、他の分野でも成功を収めている。 これにもかかわらず、構造的データ拡張と複雑なトレーニング戦略に大きく依存する対照的な学習は、グラフSSLにおいて支配的なアプローチであり、グラフ上の生成的SSLの進歩、特にグラフオートエンコーダ(GAE)は、他の分野で約束されているようなポテンシャルに達していない。 本稿では,GAEの再生目標,トレーニング堅牢性,エラーメトリクスなど,GAEの発達に悪影響を及ぼす問題を特定し,検討する。 本稿では,生成的自己教師付きグラフ学習におけるこれらの問題を緩和するマスクグラフオートエンコーダグラフメイを提案する。 構造を再構築する代わりに,GraphMAEの堅牢なトレーニングに役立つマスキング戦略とスケールドコサインエラーの両方による特徴再構成に着目することを提案する。 3つの異なるグラフ学習タスクに対して,21の公開データセットについて広範な実験を行う。 その結果、graphmae--注意深い設計を持つ単純なグラフオートエンコーダ--は、コントラストベースラインとジェネレーティブな最先端ベースラインの両方に対して一貫してアウトパフォーマンスを生成することができる。 本研究では,グラフオートエンコーダの理解と,グラフ上での自己教師型学習の可能性を示す。

Self-supervised learning (SSL) has been extensively explored in recent years. Particularly, generative SSL has seen emerging success in natural language processing and other fields, such as the wide adoption of BERT and GPT. Despite this, contrastive learning--which heavily relies on structural data augmentation and complicated training strategies--has been the dominant approach in graph SSL, while the progress of generative SSL on graphs, especially graph autoencoders (GAEs), has thus far not reached the potential as promised in other fields. In this paper, we identify and examine the issues that negatively impact the development of GAEs, including their reconstruction objective, training robustness, and error metric. We present a masked graph autoencoder GraphMAE that mitigates these issues for generative self-supervised graph learning. Instead of reconstructing structures, we propose to focus on feature reconstruction with both a masking strategy and scaled cosine error that benefit the robust training of GraphMAE. We conduct extensive experiments on 21 public datasets for three different graph learning tasks. The results manifest that GraphMAE--a simple graph autoencoder with our careful designs--can consistently generate outperformance over both contrastive and generative state-of-the-art baselines. This study provides an understanding of graph autoencoders and demonstrates the potential of generative self-supervised learning on graphs.
翻訳日:2022-05-25 12:05:41 公開日:2022-05-24
# Human-in-the-loop: 一般関数近似を用いた効率的推論に基づく強化学習

Human-in-the-loop: Provably Efficient Preference-based Reinforcement Learning with General Function Approximation ( http://arxiv.org/abs/2205.11140v2 )

ライセンス: Link先を確認
Xiaoyu Chen, Han Zhong, Zhuoran Yang, Zhaoran Wang, Liwei Wang(参考訳) そこで,各ステップで数値的な報酬を受けるのではなく,人間の監督者から軌道ペアに対してのみ選好を受ける。 エージェントの目標は、人間の監督者に最も好まれる最適なポリシーを学ぶことである。 経験的成功にもかかわらず、嗜好に基づくRL(PbRL)の理論的理解は表の場合に限られる。 本稿では,一般関数近似を用いたpbrlのための最初の楽観的モデルベースアルゴリズムを提案する。 我々のアルゴリズムは、$\tilde{O} (\operatorname{poly}(d H) \sqrt{K} )$, $d$は、エルダー次元とログ被覆数に依存する遷移と選好モデルの複雑さ尺度であり、$H$は計画的地平線であり、$K$はエピソード数であり、$\tilde O(\cdot)$は対数項を省略する。 我々の下界は、線形設定に特化する場合、アルゴリズムがほぼ最適であることを示している。 さらに、RLと呼ばれる新しい問題を$n$-wise比較で定式化し、PbRL問題を拡張し、この新しい設定のための最初のサンプル効率アルゴリズムを提供する。 我々の知る限りでは、これは(一般)関数近似を用いたPbRLの最初の理論的結果である。

We study human-in-the-loop reinforcement learning (RL) with trajectory preferences, where instead of receiving a numeric reward at each step, the agent only receives preferences over trajectory pairs from a human overseer. The goal of the agent is to learn the optimal policy which is most preferred by the human overseer. Despite the empirical successes, the theoretical understanding of preference-based RL (PbRL) is only limited to the tabular case. In this paper, we propose the first optimistic model-based algorithm for PbRL with general function approximation, which estimates the model using value-targeted regression and calculates the exploratory policies by solving an optimistic planning problem. Our algorithm achieves the regret of $\tilde{O} (\operatorname{poly}(d H) \sqrt{K} )$, where $d$ is the complexity measure of the transition and preference model depending on the Eluder dimension and log-covering numbers, $H$ is the planning horizon, $K$ is the number of episodes, and $\tilde O(\cdot)$ omits logarithmic terms. Our lower bound indicates that our algorithm is near-optimal when specialized to the linear setting. Furthermore, we extend the PbRL problem by formulating a novel problem called RL with $n$-wise comparisons, and provide the first sample-efficient algorithm for this new setting. To the best of our knowledge, this is the first theoretical result for PbRL with (general) function approximation.
翻訳日:2022-05-25 12:05:15 公開日:2022-05-24
# ユーザセッション制約を考慮したパーソナライズされたセッションベースレコメンデーションのためのヘテロジニアスグラフニューラルネットワーク

Heterogeneous Graph Neural Network for Personalized Session-Based Recommendation with User-Session Constraints ( http://arxiv.org/abs/2205.11343v2 )

ライセンス: Link先を確認
Minjae Park(参考訳) このレコメンデーションシステムは、最近のオンライン大量の情報の適切な制限を提供する。 セッションベースレコメンデーション(セッションベースレコメンデーション、セッションベースレコメンデーション)は、アイテムのシーケンスからなるセッションを解釈することで、アイテムを推奨しようとする。 近年,これらのセッションにユーザ情報を含める研究が進んでいる。 しかし,ユーザが生成したセッション表現を含む高品質なユーザ表現を生成することは困難である。 本稿では,不均一な注意ネットワークを通じてセッションによって生成されるグラフの様々な関係について考察する。 制約はまた、セッションで提示されたユーザの好みを考慮するようにユーザ表現を強制する。 トレーニングプロセスのさらなる最適化を通じて、パフォーマンスの向上を目指す。 提案手法は,実世界の様々なデータセットにおける他の手法よりも優れていた。

The recommendation system provides users with an appropriate limit of recent online large amounts of information. Session-based recommendation, a sub-area of recommender systems, attempts to recommend items by interpreting sessions that consist of sequences of items. Recently, research to include user information in these sessions is progress. However, it is difficult to generate high-quality user representation that includes session representations generated by user. In this paper, we consider various relationships in graph created by sessions through Heterogeneous attention network. Constraints also force user representations to consider the user's preferences presented in the session. It seeks to increase performance through additional optimization in the training process. The proposed model outperformed other methods on various real-world datasets.
翻訳日:2022-05-25 12:04:45 公開日:2022-05-24
# グリーディベストファーストとA*検索のための学習ヒューリスティック関数のサンプル複雑性

Sample Complexity of Learning Heuristic Functions for Greedy-Best-First and A* Search ( http://arxiv.org/abs/2205.09963v3 )

ライセンス: Link先を確認
Shinsaku Sakaue, Taihei Oki(参考訳) greedy best-first search (gbfs) と a* search (a*) は大きなグラフ上の経路探索のための一般的なアルゴリズムである。 どちらもいわゆるヒューリスティック関数を使い、頂点が目標にどれだけ近いかを推定する。 ヒューリスティック関数はドメイン知識を用いて手作りされているが、近年の研究では、データからのヒューリスティック関数の学習が多くのアプリケーションで有効であることが示されている。 そこで本研究では,GBFS と A* の学習ヒューリスティック関数のサンプル複雑性について検討した。 我々は最近のフレームワークである \textit{data-driven algorithm design} をベースに構築し,パラメータ化アルゴリズムの性能を測定するユーティリティ関数のクラスである \textit{pseudo-dimension} を評価する。 n$ の大きさの頂点集合が固定されていると仮定すると、gbfs と a* の擬次元に対して $\mathrm{o}(n\lg n)$ と $\mathrm{o}(n^2\lg n)$ 上界をそれぞれヒューリスティック関数の値でパラメータ化したものである。 A* の上界が $\mathrm{O}(n^2\lg d)$ に改善できるのは、すべての頂点が少なくとも $d$ の次数を持ち、さらに $\mathrm{O}(n \lg n)$ が $\mathrm{poly}(n)$ で有界な整数であればである。 また、GBFS と A* に対する$\Omega(n)$下界を与え、これは整数重み条件下での GBFS と A* の有界が $\lg n$ factor に固であることを意味する。 最後に,パラメータ依存の最悪のケースとサンプルの複雑性のバウンドとを組み合わせることで,A*の性能を最適以下で測定し,より良い保証が得られることを示す。

Greedy best-first search (GBFS) and A* search (A*) are popular algorithms for path-finding on large graphs. Both use so-called heuristic functions, which estimate how close a vertex is to the goal. While heuristic functions have been handcrafted using domain knowledge, recent studies demonstrate that learning heuristic functions from data is effective in many applications. Motivated by this emerging approach, we study the sample complexity of learning heuristic functions for GBFS and A*. We build on a recent framework called \textit{data-driven algorithm design} and evaluate the \textit{pseudo-dimension} of a class of utility functions that measure the performance of parameterized algorithms. Assuming that a vertex set of size $n$ is fixed, we present $\mathrm{O}(n\lg n)$ and $\mathrm{O}(n^2\lg n)$ upper bounds on the pseudo-dimensions for GBFS and A*, respectively, parameterized by heuristic function values. The upper bound for A* can be improved to $\mathrm{O}(n^2\lg d)$ if every vertex has a degree of at most $d$ and to $\mathrm{O}(n \lg n)$ if edge weights are integers bounded by $\mathrm{poly}(n)$. We also give $\Omega(n)$ lower bounds for GBFS and A*, which imply that our bounds for GBFS and A* under the integer-weight condition are tight up to a $\lg n$ factor. Finally, we discuss a case where the performance of A* is measured by the suboptimality and show that we can sometimes obtain a better guarantee by combining a parameter-dependent worst-case bound with a sample complexity bound.
翻訳日:2022-05-25 12:04:34 公開日:2022-05-24
# 視覚質問応答における評価実践の再考:アウト・オブ・ディストリビューションの一般化を事例として

Rethinking Evaluation Practices in Visual Question Answering: A Case Study on Out-of-Distribution Generalization ( http://arxiv.org/abs/2205.12191v1 )

ライセンス: Link先を確認
Aishwarya Agrawal, Ivana Kaji\'c, Emanuele Bugliarello, Elnaz Davoodi, Anita Gergely, Phil Blunsom, Aida Nematzadeh(参考訳) 大規模マルチモーダルデータに基づく視覚言語モデル(v&l)は,画像キャプションや視覚質問応答(vqa)など,さまざまなタスクにおいて強力なパフォーマンスを示している。 このようなモデルの品質は、通常トレーニングデータと同じ分布から得られる見えないデータ上でのパフォーマンスを測定することで評価される。 しかし,これらのモデルでは,VQAのタスクに対するOODの一般化が不十分であることが観察された。 一般化の低さの原因をよりよく理解するために,異なる設定(分類とオープンエンドテキスト生成)下での2つの事前学習V&Lモデルの性能を,クロスデータセット評価により総合的に検討する。 これらのモデルは、VQAタスクに必要な高度なスキルを学ぶよりも、ベンチマークを解くことを学ぶ傾向にある。 また、ほとんどのケースでは、生成モデルはデータ分散の変化の影響を受けにくく、テスト済みのベンチマークではよく機能します。 さらに,マルチモーダル事前学習により,ほとんどの設定におけるOOD性能が向上することがわかった。 最後に,VQA自動評価指標の使用を前提とした仮定を再検討し,その厳密な性質が正しい応答のモデルに繰り返し適用されることを実証的に示す。

Vision-and-language (V&L) models pretrained on large-scale multimodal data have demonstrated strong performance on various tasks such as image captioning and visual question answering (VQA). The quality of such models is commonly assessed by measuring their performance on unseen data that typically comes from the same distribution as the training data. However, we observe that these models exhibit poor out-of-distribution (OOD) generalization on the task of VQA. To better understand the underlying causes of poor generalization, we comprehensively investigate performance of two pretrained V&L models under different settings (i.e. classification and open-ended text generation) by conducting cross-dataset evaluations. We find that these models tend to learn to solve the benchmark, rather than learning the high-level skills required by the VQA task. We also argue that in most cases generative models are less susceptible to shifts in data distribution, while frequently performing better on our tested benchmarks. Moreover, we find that multimodal pretraining improves OOD performance in most settings. Finally, we revisit assumptions underlying the use of automatic VQA evaluation metrics, and empirically show that their stringent nature repeatedly penalizes models for correct responses.
翻訳日:2022-05-25 12:03:54 公開日:2022-05-24