このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。



PDF登録状況(公開日: 20220519)

# ホログラフィックテンソルネットワークモデルと量子誤差補正:トピックスレビュー

Holographic tensor network models and quantum error correction: A topical review ( http://arxiv.org/abs/2102.02619v3 )

ライセンス: Link先を確認
Alexander Jahn and Jens Eisert(参考訳) ホログラフィック双対性の研究の最近の進歩は、もともと弦理論からの洞察によって動機づけられ、量子情報理論の概念と技法との融合につながった。 特に成功したアプローチは、ホログラフィック境界状態の物理的に有意義な相関をもたらすだけでなく、ホログラフィにおける量子誤差補正の特徴を再現し洗練するテンソルネットワークによってホログラフィック特性を捉えることである。 このトピックレビューは、このようなモデルの最近の成功を概観するものである。 AdS/CFTの理論的基礎と必要な量子情報の概念を導入し、その多くが独立して急速に発展する研究分野へと発展してきた。

Recent progress in studies of holographic dualities, originally motivated by insights from string theory, has led to a confluence with concepts and techniques from quantum information theory. A particularly successful approach has involved capturing holographic properties by means of tensor networks which not only give rise to physically meaningful correlations of holographic boundary states, but also reproduce and refine features of quantum error correction in holography. This topical review provides an overview over recent successful realizations of such models. It does so by building on an introduction of the theoretical foundations of AdS/CFT and necessary quantum information concepts, many of which have themselves developed into independent, rapidly evolving research fields.
翻訳日:2023-04-12 20:02:58 公開日:2022-05-19
# 効率的な電子構造計算のための深層学習密度関数理論ハミルトニアン

Deep-Learning Density Functional Theory Hamiltonian for Efficient ab initio Electronic-Structure Calculation ( http://arxiv.org/abs/2104.03786v2 )

ライセンス: Link先を確認
He Li, Zun Wang, Nianlong Zou, Meng Ye, Runzhang Xu, Xiaoxun Gong, Wenhui Duan, Yong Xu(参考訳) 密度汎関数理論(dft)と深層学習法の融合は、現代の計算材料科学に革命をもたらす可能性がある。 本稿では,結晶材料のdftハミルトニアン(deeph)を表現する深層ニューラルネットワーク手法を開発し,dftの計算要求の自己整合フィールド反復を回避し,ab initio電子構造計算の効率を大幅に向上させる。 局所性を利用してDFTハミルトン行列の大きな次元とゲージ(あるいは回転)共分散を扱うための一般的な枠組みを提案し,深層学習のためのメッセージパッシングニューラルネットワークにより実現した。 DeepH法の高精度, 高効率, 良好な伝達性は, 様々な材料システムや物性に対して一般的に実証されている。 この方法は、DFTの精度効率ジレンマに対する解決策を提供し、ファンデルワールス材料の研究のための有望な応用によって証明されたように、大規模材料システムを探る機会を開く。

The marriage of density functional theory (DFT) and deep learning methods has the potential to revolutionize modern computational materials science. Here we develop a deep neural network approach to represent DFT Hamiltonian (DeepH) of crystalline materials, aiming to bypass the computationally demanding self-consistent field iterations of DFT and substantially improve the efficiency of ab initio electronic-structure calculations. A general framework is proposed to deal with the large dimensionality and gauge (or rotation) covariance of DFT Hamiltonian matrix by virtue of locality and is realized by the message passing neural network for deep learning. High accuracy, high efficiency and good transferability of the DeepH method are generally demonstrated for various kinds of material systems and physical properties. The method provides a solution to the accuracy-efficiency dilemma of DFT and opens opportunities to explore large-scale material systems, as evidenced by a promising application to study twisted van der Waals materials.
翻訳日:2023-04-04 12:03:39 公開日:2022-05-19
# 長距離非ユニタリダイナミクスをもつ自由フェルミオンの普遍エンタングルメント遷移

Universal Entanglement Transitions of Free Fermions with Long-range Non-unitary Dynamics ( http://arxiv.org/abs/2105.08895v3 )

ライセンス: Link先を確認
Pengfei Zhang, Chunxiao Liu, Shao-Kai Jian, and Xiao Chen(参考訳) 非単体進化は、その絡み合いの性質によって分類された新しい定常状態を引き起こす。 本研究では、自由フェルミオン系において$r^{-\alpha}$で崩壊する長距離ホッピングとの相互作用を理解することを目的とする。 まず, 長距離非ユニタリダイナミクスを持つ2つの可解ブラウンモデルについて検討した: 大きな n$ syk$_2$ chain と単発フェルミオン鎖であり, 同じ位相図を共有していることを示す。 $\alpha>0.5$のとき、サブボリュームエンタングルメントスケーリングを伴う2つの臨界位相を観測する。 (i)$\alpha>1.5$、ダイナミック指数$z=1$と対数サブシステム絡み合いを持つ対数位相、及び (ii)$0.5<\alpha<1.5$, $z=\frac{2\alpha-1}{2}$, $S_A\propto L_A^{1-z}$, $L_A$はサブシステム$A$の長さである。 この2つの相は、エントロピーが常に$l/t$で崩壊するパーソナリティダイナミクスでは区別できない。 この結果が静的なSYK$_2$連鎖に対しても有効であることを確認し、位相図は一般のフリーフェミオン系に対して普遍的であることを示す。 また、高次元の位相図と測定誘起相転移の意義についても論じる。

Non-unitary evolution can give rise to novel steady states classified by their entanglement properties. In this work, we aim to understand its interplay with long-range hopping that decays with $r^{-\alpha}$ in free-fermion systems. We first study two solvable Brownian models with long-range non-unitary dynamics: a large-$N$ SYK$_2$ chain and a single-flavor fermion chain and we show that they share the same phase diagram. When $\alpha>0.5$, we observe two critical phases with subvolume entanglement scaling: (i) $\alpha>1.5$, a logarithmic phase with dynamical exponent $z=1$ and logarithmic subsystem entanglement, and (ii) $0.5<\alpha<1.5$, a fractal phase with $z=\frac{2\alpha-1}{2}$ and subsystem entanglement $S_A\propto L_A^{1-z}$, where $L_A$ is the length of the subsystem $A$. These two phases cannot be distinguished by the purification dynamics, in which the entropy always decays as $L/T$. We then confirm that the results are also valid for the static SYK$_2$ chain, indicating the phase diagram is universal for general free-fermion systems. We also discuss phase diagrams in higher dimensions and the implication in measurement-induced phase transitions.
翻訳日:2023-03-30 11:46:40 公開日:2022-05-19
# 産業用EDA流れのセルマッピングに基づくディジタル回路の多目的最適化

Multi-objective Optimisation of Digital Circuits based on Cell Mapping in an Industrial EDA Flow ( http://arxiv.org/abs/2105.10410v2 )

ライセンス: Link先を確認
Linan Cao, Simon J. Bale, Martin A. Trefzer(参考訳) 現代の電子設計自動化(EDA)ツールは、より小さなブロックやセルに分解し、異なるレベルの抽象化とステージドデザインフローを導入することで、最先端の電子システムの複雑さを扱うことができる。 しかしながら、独立した最適化された設計ステップ全体を通して、オーバーヘッドと非効率性は全体的な設計に蓄積される可能性がある。 よりグローバルな視点から設計固有の最適化を実行するには、より大きな検索スペースのためにより多くの時間を要するが、性能改善のためのソリューションを提供する可能性がある。 本研究では,完全自動多目的EDAフローを導入してこの問題に対処する。 物理実装に先立って、多目的集団に基づく探索アルゴリズムによって、ドライブ強度マッピングをチューニングする。 設計は、その性能、性能、面積(PPA)に関して評価される。 提案手法は,設計空間を拡張可能なブロックレベルのディジタル回路最適化を目標とし,異なるケース固有利用のためのトレードオフソリューションセットを提供する。 提案するMOEDAフレームワークを,65nmの商用標準セルライブラリを用いてISCAS-85およびEPFLベンチマーク回路に適用した。 実験の結果,moedaフローは,標準ディジタルフローによって最初に生成した解をいかに強化するか,ppaメトリクスの大幅な改善が同時に達成されるかを示す。

Modern electronic design automation (EDA) tools can handle the complexity of state-of-the-art electronic systems by decomposing them into smaller blocks or cells, introducing different levels of abstraction and staged design flows. However, throughout each independent-optimised design step, overhead and inefficiency can accumulate in the resulting overall design. Performing design-specific optimisation from a more global viewpoint requires more time due to the larger search space, but has the potential to provide solutions with improved performance. In this work, a fully-automated, multi-objective (MO) EDA flow is introduced to address this issue. It specifically tunes drive strength mapping, preceding physical implementation, through multi-objective population-based search algorithms. Designs are evaluated with respect to their power, performance and area (PPA). The proposed approach is aimed at digital circuit optimisation at the block-level, where it is capable of expanding the design space and offers a set of trade-off solutions for different case-specific utilisation. We have applied the proposed MOEDA framework to ISCAS-85 and EPFL benchmark circuits using a commercial 65nm standard cell library. The experimental results demonstrate how the MOEDA flow enhances the solutions initially generated by the standard digital flow, and how simultaneously a significant improvement in PPA metrics is achieved.
翻訳日:2023-03-30 05:16:45 公開日:2022-05-19
# キャビティ内の多層原子における超ラジカルダイナミクスからの創発的暗黒状態

Emergent dark states from superradiant dynamics in multilevel atoms in a cavity ( http://arxiv.org/abs/2106.00019v2 )

ライセンス: Link先を確認
A. Pi\~neiro Orioli, J. K. Thompson, and A. M. Rey(参考訳) 空洞内の2つの異なる偏光モードに結合した汎用多層構造(角モーメント:$f\leftrightarrow f'$)を持つ原子の集団崩壊ダイナミクスについて検討した。 二層原子とは対照的に、多層原子は置換対称状態(英語版)(collective Dicke manifold)の部分空間においても空洞崩壊に完全に暗い固有状態を持つことができる。 暗黒状態は、異なる内部遷移間の破壊的干渉から生じ、絡み合っていることが示されている。 驚くべきことに、多層原子の超ラジアント崩壊は、これらの暗い状態の1つに収まり、原子の巨視的な分画が励起される。 これは、量子センシングや量子シミュレーションに有用な集合散逸を通じて、物質の絡み合った暗黒状態を作るための扉を開く。 我々の予測は、アルカリ-アース原子またはラマン配位遷移を用いた現在の光学キャビティ実験で容易に観測できるはずである。

We investigate the collective decay dynamics of atoms with a generic multilevel structure (angular momenta $F\leftrightarrow F'$) coupled to two light modes of different polarization inside a cavity. In contrast to two-level atoms, we find that multilevel atoms can harbour eigenstates that are perfectly dark to cavity decay even within the subspace of permutationally symmetric states (collective Dicke manifold). The dark states arise from destructive interference between different internal transitions and are shown to be entangled. Remarkably, the superradiant decay of multilevel atoms can end up stuck in one of these dark states, where a macroscopic fraction of the atoms remains excited. This opens the door to the preparation of entangled dark states of matter through collective dissipation useful for quantum sensing and quantum simulation. Our predictions should be readily observable in current optical cavity experiments with alkaline-earth atoms or Raman-dressed transitions.
翻訳日:2023-03-28 05:52:38 公開日:2022-05-19
# 量子エントロピー

Quantum Entropy ( http://arxiv.org/abs/2106.15375v2 )

ライセンス: Link先を確認
Davi Geiger and Zvi M. Kedem(参考訳) 量子物理学は、観測可能な性質が本質的に確率論的性質であるにもかかわらず、それらに量子エントロピーが割り当てられていない。 量子位相空間を構成する観測可能な共役対を通して、純粋な量子状態のランダム性を量子化する量子エントロピーを提案する。 エントロピーは無次元であり、相対論的スカラーであり、共役性を維持する位置と運動量の座標変換の下で不変であり、CPT変換の下では不変である。 我々はエントロピーを混合状態を含むように拡張し、提案されたエントロピーがフォン・ノイマンのエントロピーよりも常に大きいことを示す。 我々は、閉システムのエントロピーが決して減少しないエントロピー則を予想し、粒子物理学の時間矢印を示唆する。

Quantum physics, despite its observables being intrinsically of a probabilistic nature, does not have a quantum entropy assigned to them. We propose a quantum entropy that quantify the randomness of a pure quantum state via a conjugate pair of observables forming the quantum phase space. The entropy is dimensionless, it is a relativistic scalar, it is invariant under coordinate transformation of position and momentum that maintain conjugate properties, and under CPT transformations; and its minimum is positive due to the uncertainty principle. We expand the entropy to also include mixed states and show that the proposed entropy is always larger than von Neumann's entropy. We conjecture an entropy law whereby that entropy of a closed system never decreases, implying a time arrow for particles physics.
翻訳日:2023-03-24 19:43:13 公開日:2022-05-19
# Haemers 境界の tracial version について

On a tracial version of Haemers bound ( http://arxiv.org/abs/2107.02567v2 )

ライセンス: Link先を確認
Li Gao, Sander Gribling, Yinan Li(参考訳) 我々は、交換作用素モデルにおいて、グラフの量子独立数と量子シャノン容量の上限をそれらの値に拡張する。 フォン・ノイマン代数的一般化(英語版)(von Neumann algebraic generalization of the fractional Haemers bound)を導入し($\mathbb{C}$)、一般化が可換な量子独立数であることを示す。 私たちはこの境界を tracial Haemers bound と呼び、それが強い積に対して乗法的であることを証明します。 特に、これはシャノン容量の上限となる。 スペクトルヘイマー境界は、シャノンキャパシティ上のもう1つのよく知られた上界であるLov\'asz Theta関数と相容れない。 スペクトルと分数Haemers境界の分離は、コンヌの埋め込み予想に反することを示す。 その過程で、トラシアルランクとトラシアルヘマー束縛がグラフ(zuiddam, combinatorica, 2019)の(量子的に変化する)漸近スペクトルの元であることが証明される。 また、慣性境界(量子独立数の上界)は可換量子独立数の上界であることを示す。

We extend upper bounds on the quantum independence number and the quantum Shannon capacity of graphs to their counterparts in the commuting operator model. We introduce a von Neumann algebraic generalization of the fractional Haemers bound (over $\mathbb{C}$) and prove that the generalization upper bounds the commuting quantum independence number. We call our bound the tracial Haemers bound, and we prove that it is multiplicative with respect to the strong product. In particular, this makes it an upper bound on the Shannon capacity. The tracial Haemers bound is incomparable with the Lov\'asz theta function, another well-known upper bound on the Shannon capacity. We show that separating the tracial and fractional Haemers bounds would refute Connes' embedding conjecture. Along the way, we prove that the tracial rank and tracial Haemers bound are elements of the (commuting quantum) asymptotic spectrum of graphs (Zuiddam, Combinatorica, 2019). We also show that the inertia bound (an upper bound on the quantum independence number) upper bounds the commuting quantum independence number.
翻訳日:2023-03-23 06:50:34 公開日:2022-05-19
# 非エルミート量子系におけるR'enyiエントロピーと負中心電荷

R\'enyi entropies and negative central charges in non-Hermitian quantum systems ( http://arxiv.org/abs/2107.13006v6 )

ライセンス: Link先を確認
Yi-Ting Tu, Yu-Chin Tzeng, Po-Yao Chang(参考訳) 量子絡み合いは、多体量子システムを特徴づける重要な要素である。 しかし、絡み合い対策は主にエルミート系で議論されている。 ここでは、非エルミート量子系に対するエンタングルメントとR'enyiエントロピーの自然な拡張を提案する。 これらの量を計算するための別の提案があり、これは現在の論文で提案されているものとは異なる。 一般エンタングルメントとR'enyiエントロピーと呼ばれる提案されたエンタングルメント量を示す。 これらの量は非エルミート臨界系の所望の絡み合い特性を捉え、低エネルギー特性は非単位共形場理論(CFT)によって支配される。 一般エンタングルメント/R\enyiエントロピーによる負中心電荷の数値外挿と,非単位CFT予測との間には,良好な一致が認められた。 さらに、一般エンタングルメント/R\enyiエントロピーを非エルミート摂動を持つ対称性保護位相に適用する。 n$-th r\'enyiエントロピーは期待されたエンタングルメント特性を捉えているのに対し、従来のr\'enyiエントロピーは不適切な定義のために不自然な特異性を示すことができる。

Quantum entanglement is one essential element to characterize many-body quantum systems. However, the entanglement measures are mostly discussed in Hermitian systems. Here, we propose a natural extension of entanglement and R\'enyi entropies to non-Hermitian quantum systems. There have been other proposals for the computation of these quantities, which are distinct from what is proposed in the current paper. We demonstrate the proposed entanglement quantities which are referred to as generic entanglement and R\'enyi entropies. These quantities capture the desired entanglement properties in non-Hermitian critical systems, where the low-energy properties are governed by the non-unitary conformal field theories (CFTs). We find excellent agreement between the numerical extrapolation of the negative central charges from the generic entanglement/R\'enyi entropy and the non-unitary CFT prediction. Furthermore, we apply the generic entanglement/R\'enyi entropy to symmetry-protected topological phases with non-Hermitian perturbations. We find the generic $n$-th R\'enyi entropy captures the expected entanglement property, whereas the traditional R\'enyi entropy can exhibit unnatural singularities due to its improper definition.
翻訳日:2023-03-20 19:10:36 公開日:2022-05-19
# 有限浴に結合した開量子系:マスター方程式の階層

Open quantum systems coupled to finite baths: A hierarchy of master equations ( http://arxiv.org/abs/2108.01890v3 )

ライセンス: Link先を確認
Andreu Riera-Campeny and Anna Sanpera and Philipp Strasberg(参考訳) 無限の浴槽と接触する開量子系は平衡に近づくが、浴槽の状態は変わらない。 浴が有限であれば、開放系は依然として平衡状態に緩和されるが、浴状態の動的進化を誘導する。 本研究では,有限浴槽と接触する開量子系のダイナミクスについて検討する。 浴槽のよりダイナミックな情報を含めることで精度を向上させるマスター方程式の階層構造を得る。 例えば、階層の最も正確で単純な記述として、従来のボルン・マルコフ系列のマスター方程式を得る。 驚くべきことに、浴槽エネルギーの測定が不完全であっても、この枠組みはより現実的なだけでなく、理論的な記述も統一する。 また、ボルツマン温度とKubo-Martin-Schwinger関係が自然に生じる特定の非相互作用環境に対して、この形式を詳細に議論する。 最後に、主方程式の階層構造を中心スピンモデルの研究に適用する。

An open quantum system in contact with an infinite bath approaches equilibrium, while the state of the bath remains unchanged. If the bath is finite, the open system still relaxes to equilibrium, but it induces a dynamical evolution of the bath state. In this work, we study the dynamics of open quantum systems in contact with finite baths. We obtain a hierarchy of master equations that improve their accuracy by including more dynamical information of the bath. For instance, as the least accurate but simplest description in the hierarchy we obtain the conventional Born-Markov-secular master equation. Remarkably, our framework works even if the measurements of the bath energy are imperfect, which, not only is more realistic, but also unifies the theoretical description. Also, we discuss this formalism in detail for a particular non-interacting environment where the Boltzmann temperature and the Kubo-Martin-Schwinger relation naturally arise. Finally, we apply our hierarchy of master equations to study the central spin model.
翻訳日:2023-03-19 22:42:14 公開日:2022-05-19
# 量子回路のXEB検証のためのマルチテンソル縮合

Multi-Tensor Contraction for XEB Verification of Quantum Circuits ( http://arxiv.org/abs/2108.05665v2 )

ライセンス: Link先を確認
Gleb Kalachev, Pavel Panteleev, Man-Hong Yung(参考訳) ノイズ量子コンピュータの計算上の利点は、量子ランダム回路のビットストリングをサンプリングすることで証明されている。 重要な問題は、量子デバイスの性能がいわゆる「超越的体制」においてどのように定量化されるかである。 標準的なアプローチは線形クロスエントロピーベンチマーク(XEB)を通し、各ビットストリングに確率の理論的値が必要となる。 しかし、XEBの計算コストは指数関数的に増大する。 これまでのところ、53量子ビットのsycamoreチップのランダム回路は最大10サイクルのゲートのみで検証されており、より深い回路のxeb特性は単純な回路で近似されていた。 本稿では,量子回路におけるxebの計算を高速化するマルチテンソル縮小アルゴリズムを提案する。 実演として,53量子ビットのsycamoreチップの実験データを解析し,適度な計算資源(few gpu)のみを用いて16サイクルまでのxeb特性の正確な値を得た。 このアルゴリズムがサミットスーパーコンピュータに実装された場合、超越性(20サイクル)回路の場合、7.5日しかかからないと推定される。

The computational advantage of noisy quantum computers has been demonstrated by sampling the bitstrings of quantum random circuits. An important issue is how the performance of quantum devices could be quantified in the so-called "supremacy regime". The standard approach is through the linear cross entropy benchmark (XEB), where the theoretical value of the probability is required for each bitstring. However, the computational cost of XEB grows exponentially. So far, random circuits of the 53-qubit Sycamore chip were verified up to 10 cycles of gates only; the XEB fidelities of deeper circuits were approximated with simplified circuits instead. Here we present a multi-tensor contraction algorithm for speeding up the calculations of XEB for quantum circuits, where the computational cost can be significantly reduced through some form of memoization. As a demonstration, we analyzed the experimental data of the 53-qubit Sycamore chip and obtained the exact values of the corresponding XEB fidelities up to 16 cycles using only moderate computing resources (few GPUs). If the algorithm was implemented on the Summit supercomputer, we estimate that for the supremacy (20 cycles) circuits, it would only cost 7.5 days, which is several orders of magnitude lower than previously estimated in the literature.
翻訳日:2023-03-18 17:23:55 公開日:2022-05-19
# 分散・散逸を有する誘電体媒体におけるギンズバーグ効果

Ginzburg effect in a dielectric medium with dispersion and dissipation ( http://arxiv.org/abs/2108.10693v3 )

ライセンス: Link先を確認
Sascha Lang, Roland Sauerbrey, Ralf Sch\"utzhold and William G. Unruh(参考訳) チェレンコフ放射の量子アナログとして、慣性光子検出器は、一定の屈折率$n$の媒体を移動すると、その速度$v$が光速$c/n$を超えると、電磁量子揺らぎを実光子として知覚することができる。 ホップフィールド型分散媒体では、光の位相速度が媒体共鳴付近で非常に小さいため、このギンズバーグ効果はより低い$v$に拡張される。 しかし、この体制では散逸効果が重要となる。 拡張ホップフィールドモデルを用いて,分散媒質および散逸媒質の量子揺らぎを一貫した処理を行い,これらの系におけるギンズバーグ効果を導出する。 最後に,実験実験を提案する。

As a quantum analog of Cherenkov radiation, an inertial photon detector moving through a medium with constant refractive index $n$ may perceive the electromagnetic quantum fluctuations as real photons if its velocity $v$ exceeds the medium speed of light $c/n$. For dispersive Hopfield type media, we find this Ginzburg effect to extend to much lower $v$ because the phase velocity of light is very small near the medium resonance. In this regime, however, dissipation effects become important. Via an extended Hopfield model, we present a consistent treatment of quantum fluctuations in dispersive and dissipative media and derive the Ginzburg effect in such systems. Finally, we propose an experimental test.
翻訳日:2023-03-17 07:48:26 公開日:2022-05-19
# 非エルミートフォトニック浴による外因性相互作用

Exotic interactions mediated by a non-Hermitian photonic bath ( http://arxiv.org/abs/2109.13255v2 )

ライセンス: Link先を確認
Federico Roccati, Salvatore Lorenzo, Giuseppe Calaj\`o, G. Massimo Palma, Angelo Carollo, Francesco Ciccarello(参考訳) 工学的なフォトニック浴における量子エミッタ間の相互作用は、量子光学の新しい領域である。 同時に、非エルミート物理学(英語版)(NH)は、非自明な NHハミルトニアン(特にフォトニック格子)が支配するシステムで新しい物理学にアクセスするというエキサイティングな可能性によって、現在繁栄している。 ここではこれら2つの場を結合し、nhハミルトニアンによって記述された損失フォトニック格子のフォトニックモードを媒介とするエミッタ間のエキゾチック相互作用の研究を行う。 我々は,フィールドにおける構造的損失がエキゾチック・エミッション特性をシードできるというパラダイム的ケーススタディで示す。 光子は、損失率に決定的に依存する範囲のエミッタ間の散逸性、完全に非相反性相互作用を仲介することができる。 この損失率が裸格子の例外点に対応するとき、効果的なカップリングはちょうど最寄りであり、散逸的で完全に非相反的な波多野-ネルソンモデルを実装している。 直観的には、これは格子境界条件に関係なく起こる。 したがって、光子は場がそうではないという事実にもかかわらず、翻訳不変である有効エミッターのハミルトニアンを媒介することができる。 これらの効果を準安定な原子光子状態の観点から解釈し、2つの格子細胞だけに正確に局在させたり、格子全体に広げたりすることができる。 これらの知見は、非相反性、非自明な境界条件への依存、損失率による範囲チューナビリティといった前例のない特徴を持つ光媒介相互作用の新しいパラダイムを導入する。

Photon-mediated interactions between quantum emitters in engineered photonic baths is an emerging area of quantum optics. At the same time, non-Hermitian (NH) physics is currently thriving, spurred by the exciting possibility to access new physics in systems ruled by non-trivial NH Hamiltonians - in particular photonic lattices - which can challenge longstanding tenets such as the Bloch theory of bands. Here, we combine these two fields and study the exotic interaction between emitters mediated by the photonic modes of a lossy photonic lattice described by a NH Hamiltonian. We show in a paradigmatic case study that structured losses in the field can seed exotic emission properties. Photons can mediate dissipative, fully non-reciprocal, interactions between the emitters with range critically dependent on the loss rate. When this loss rate corresponds to a bare-lattice exceptional point, the effective couplings are exactly nearest-neighbour, implementing a dissipative, fully non-reciprocal, Hatano-Nelson model. Counter-intuitively, this occurs irrespective of the lattice boundary conditions. Thus photons can mediate an effective emitters' Hamiltonian which is translationally-invariant despite the fact that the field is not. We interpret these effects in terms of metastable atom-photon dressed states, which can be exactly localized on only two lattice cells or extended across the entire lattice. These findings introduce a new paradigm of light-mediated interactions with unprecedented features such as non-reciprocity, non-trivial dependence on the field boundary conditions and range tunability via a loss rate.
翻訳日:2023-03-13 11:43:44 公開日:2022-05-19
# 偏光ホフシュタッターバタフライと量子化ホールコンダクタンスのキャビティ制御

Polaritonic Hofstadter Butterfly and Cavity-Control of the Quantized Hall Conductance ( http://arxiv.org/abs/2109.15075v3 )

ライセンス: Link先を確認
Vasil Rokaj, Markus Penz, Michael A. Sentef, Michael Ruggenthaler, and Angel Rubio(参考訳) 前回の研究[phys. rev. lett. 123, 047202 (2019)]において、均質磁場中の周期物質を記述するために量子電気力学ブロッホ(qed-bloch)理論と呼ばれる翻訳不変な枠組みを導入し、光学限界における量子化された光子場と強く結合した。 このような系に対して,QED-Bloch理論はキャビティ結合強度の関数としてフラクタル偏光スペクトルの存在を予測する。 さらに、相対磁束の関数としてのエネルギースペクトルについては、テラヘルツ空洞が標準のホフスタッター蝶を修正できることが分かる。 量子化された光子場を持たない極限において、QED-Bloch理論はホフスタッター蝶のよく知られたフラクタルスペクトルを捉え、強い磁場中の2次元物質の記述に利用できる。 さらに, キャビティ閉じ込め下でのランドウ準位を考察し, キャビティが量子化されたホールコンダクタンスを変化させるとともに, ホール高原を, ライトマッターカップリング $\eta$ により$\sigma_{xy}=e^2\nu/h(1+\eta^2)$ に変更することを示した。 上記の現象のほとんどは実験的にアクセス可能でなければならない。

In a previous work [Phys. Rev. Lett. 123, 047202 (2019)] a translationally invariant framework called quantum-electrodynamical Bloch (QED-Bloch) theory was introduced for the description of periodic materials in homogeneous magnetic fields and strongly coupled to the quantized photon field in the optical limit. For such systems, we show that QED-Bloch theory predicts the existence of fractal polaritonic spectra as a function of the cavity coupling strength. In addition, for the energy spectrum as a function of the relative magnetic flux we find that a terahertz cavity can modify the standard Hofstadter butterfly. In the limit of no quantized photon field, QED-Bloch theory captures the well-known fractal spectrum of the Hofstadter butterfly and can be used for the description of 2D materials in strong magnetic fields, which are of great experimental interest. As a further application, we consider Landau levels under cavity confinement and show that the cavity alters the quantized Hall conductance and that the Hall plateaus are modified as $\sigma_{xy}=e^2\nu/h(1+\eta^2)$ by the light-matter coupling $\eta$. Most of the aforementioned phenomena should be experimentally accessible and corresponding implications are discussed.
翻訳日:2023-03-12 23:10:49 公開日:2022-05-19
# フルカウンティング統計量の減少ダイナミクス

Reduced Dynamics of Full Counting Statistics ( http://arxiv.org/abs/2111.08525v2 )

ライセンス: Link先を確認
Felix A. Pollock, Emanuel Gull, K. Modi and Guy Cohen(参考訳) 本稿では,実数体の存在下での修正還元ダイナミクスの理論を提案する。 縮小ダイナミクス技術は、メモリタイムスケールが短いとき、長い創発時間スケールでオープン量子システムを記述するのに有用である。 しかし、転送特性を特徴付けるようなシステムとその環境にまたがる可観測性について定式化するのは困難である。 様々な混合系-環境観測装置とその統計特性は、数え上げ場を考慮して評価することができる。 記憶時間スケールでフィールド変調ダイナミクスをシミュレートできる数値的手法が与えられ, 長寿命フルカウンティング統計を縮小ダイナミクスから効率的に得ることができることを示した。 短時間モンテカルロシミュレーションから非平衡アンダーソン不純物モデルにおける長時間電流を計算する手法の有用性を実証する。

We present a theory of modified reduced dynamics in the presence of counting fields. Reduced dynamics techniques are useful for describing open quantum systems at long emergent timescales when the memory timescales are short. However, they can be difficult to formulate for observables spanning the system and its environment, such as those characterizing transport properties. A large variety of mixed system--environment observables, as well as their statistical properties, can be evaluated by considering counting fields. Given a numerical method able to simulate the field-modified dynamics over the memory timescale, we show that the long-lived full counting statistics can be efficiently obtained from the reduced dynamics. We demonstrate the utility of the technique by computing the long-time current in the nonequilibrium Anderson impurity model from short-time Monte Carlo simulations.
翻訳日:2023-03-08 00:01:47 公開日:2022-05-19
# 2+1)$-dにおける量子リンク電気力学の基底状態相図

Ground-state phase diagram of quantum link electrodynamics in $(2+1)$-d ( http://arxiv.org/abs/2112.00756v2 )

ライセンス: Link先を確認
Tomohiro Hashizume, Jad C. Halimeh, Philipp Hauke, Debasish Banerjee(参考訳) 低次元の物質と結合した強相互作用ゲージ理論の位相図の探索は、エキゾチック相の同定と新しい普遍性クラスの実現を約束し、閉じ込めや高温超伝導などの自然現象のより深い理解を促進する。 量子合成物質実験の新たな技術と、行列積状態を持つ効率的な古典的計算手法は、1つの空間次元で非常に成功しており、現在では2つの空間次元でそのような研究を動機付けている。 本研究では、スピン=$\frac{1}{2}$演算子で表されるゲージ場が、スタガー化されたフェルミオンの1つのフレーバーに結合されるような、$\mathrm{U}(1)$量子リンク格子ゲージ理論を考える。 直径が増加する無限円筒上の行列積状態を用いて、その位相図を$(2+1)$-dで予想する。 このモデルにより、フェルミオン質量項の強度を調整し、$\mathrm{U}(1)$量子リンクと量子二量体モデルのスムーズなチューニングを可能にし、それらのモデルのよく研究された位相に接続することができる。 本研究は,エキゾチックな相と興味深い相転移を有するリッチな相図を液状相に導出する。 これにより、将来の量子シミュレーション実験を導くゲージ理論モデルの収集をさらに進める。

The exploration of phase diagrams of strongly interacting gauge theories coupled to matter in lower dimensions promises the identification of exotic phases and possible new universality classes, and it facilitates a better understanding of salient phenomena in Nature, such as confinement or high-temperature superconductivity. The emerging new techniques of quantum synthetic matter experiments as well as efficient classical computational methods with matrix product states have been extremely successful in one spatial dimension, and are now motivating such studies in two spatial dimensions. In this work, we consider a $\mathrm{U}(1)$ quantum link lattice gauge theory where the gauge fields, represented by spin-$\frac{1}{2}$ operators are coupled to a single flavor of staggered fermions. Using matrix product states on infinite cylinders with increasing diameter, we conjecture its phase diagram in $(2+1)$-d. This model allows us to smoothly tune between the $\mathrm{U}(1)$ quantum link and the quantum dimer models by adjusting the strength of the fermion mass term, enabling us to connect to the well-studied phases of those models. Our study reveals a rich phase diagram with exotic phases and interesting phase transitions to a potential liquid-like phase. It thus furthers the collection of gauge theory models that may guide future quantum-simulation experiments.
翻訳日:2023-03-06 04:35:12 公開日:2022-05-19
# 量子オートエンコーダを用いた高エネルギー物理における異常検出

Anomaly detection in high-energy physics using a quantum autoencoder ( http://arxiv.org/abs/2112.04958v3 )

ライセンス: Link先を確認
Vishal S. Ngairangbam, Michael Spannowsky, and Michihisa Takeuchi(参考訳) 大型ハドロン衝突型加速器における新しい相互作用と粒子の証拠の欠如は、高エネルギー物理学コミュニティが新しい物理学を探すためのモデル非依存のデータ分析アプローチを探求する動機となった。 オートエンコーダは、ニューラルネットワークに基づく教師なし機械学習モデルであり、背景分布を学習することができる。 lhcにおける異常検出問題に対する変分量子回路に基づく量子オートエンコーダの研究を行った。 QCD $t\bar{t}$ background and resonant heavy Higgs signalに対して、単純な量子オートエンコーダは同じ入力に対して古典的オートエンコーダより優れ、非常に効率的に訓練する。 さらに、この性能は現在の量子デバイスで再現可能である。 このことは、量子オートエンコーダが将来のLHCにおける高エネルギー物理データを解析するための良い候補であることを示している。

The lack of evidence for new interactions and particles at the Large Hadron Collider has motivated the high-energy physics community to explore model-agnostic data-analysis approaches to search for new physics. Autoencoders are unsupervised machine learning models based on artificial neural networks, capable of learning background distributions. We study quantum autoencoders based on variational quantum circuits for the problem of anomaly detection at the LHC. For a QCD $t\bar{t}$ background and resonant heavy Higgs signals, we find that a simple quantum autoencoder outperforms classical autoencoders for the same inputs and trains very efficiently. Moreover, this performance is reproducible on present quantum devices. This shows that quantum autoencoders are good candidates for analysing high-energy physics data in future LHC runs.
翻訳日:2023-03-05 00:57:54 公開日:2022-05-19
# 可変距離量子誤り訂正符号の有効性

Effectiveness of Variable Distance Quantum Error Correcting Codes ( http://arxiv.org/abs/2112.10044v2 )

ライセンス: Link先を確認
Salonik Resch, Ulya R. Karpuzcu(参考訳) 量子誤差補正は量子ノイズをデジタル化し、量子ビットのロバスト性を高めることができる。 通常、エラー訂正はすべてのエラーを取り除こうという目標で設計されている。 本研究では,量子位相推定アルゴリズムにおける統計的量子障害注入を用いて,量子雑音に対する感度をテストする。 我々の研究は、量子プログラムが非自明な誤りを許容し、なおも使用可能な出力を生成することを示唆している。 許容誤差率要件を緩和することにより,誤り訂正のオーバーヘッドを低減することができることを示す。 さらに,量子プログラムのより敏感な部分を高い距離符号で保護するだけでオーバーヘッドを低減できる可変強度(距離)誤差補正を提案する。

Quantum error correction is capable of digitizing quantum noise and increasing the robustness of qubits. Typically, error correction is designed with the target of eliminating all errors - making an error so unlikely it can be assumed that none occur. In this work, we use statistical quantum fault injection on the quantum phase estimation algorithm to test the sensitivity to quantum noise events. Our work suggests that quantum programs can tolerate non-trivial errors and still produce usable output. We show that it may be possible to reduce error correction overhead by relaxing tolerable error rate requirements. In addition, we propose using variable strength (distance) error correction, where overhead can be reduced by only protecting more sensitive parts of the quantum program with high distance codes.
翻訳日:2023-03-04 03:10:55 公開日:2022-05-19
# 放散性友長・ラッティンガー液体の普遍的性質:非エルミート型XXZスピン鎖のケーススタディ

Universal properties of dissipative Tomonaga-Luttinger liquids: Case study of a non-Hermitian XXZ spin chain ( http://arxiv.org/abs/2112.12467v3 )

ライセンス: Link先を確認
Kazuki Yamamoto, Masaya Nakagawa, Masaki Tezuka, Masahito Ueda, and Norio Kawakami(参考訳) 一次元オープン量子多体系における原型モデルとしての非エルミート型XXZスピン鎖の相関関数を計算し、有限サイズスケーリング解析を行うことにより、散逸性友長・ラッティンガー(TL)液体の普遍的性質を実証する。 解析計算は, ボーソライズを伴う実効場理論, 共形場理論における有限次元スケーリングアプローチ, bethe-ansatz 解に基づく。 数値解析は非エルミート系(nh-dmrg)に一般化された密度行列再正規化群に基づく。 弱散逸を持つ無質量状態のモデルは複素数値TLパラメータによって特徴づけられる普遍性クラスに属し、これは$c=1$共形場理論の複素一般化に関連している。 消散強度が大きくなるにつれて、NH-DMRGで得られたTLパラメータの値がBethe-ansatz解析で得られたパラメータから逸脱し始め、強い消散のためにモデルが大きくなることを示す。 この結果は、超低温原子の2成分Bose-Hubbard系で2体損失で試験できる。

We demonstrate the universal properties of dissipative Tomonaga-Luttinger (TL) liquids by calculating correlation functions and performing finite-size scaling analysis of a non-Hermitian XXZ spin chain as a prototypical model in one-dimensional open quantum many-body systems. Our analytic calculation is based on effective field theory with bosonization, finite-size scaling approach in conformal field theory, and the Bethe-ansatz solution. Our numerical analysis is based on the density-matrix renormalization group generalized to non-Hermitian systems (NH-DMRG). We uncover that the model in the massless regime with weak dissipation belongs to the universality class characterized by the complex-valued TL parameter, which is related to the complex generalization of the $c=1$ conformal field theory. As the dissipation strength increases, the values of the TL parameter obtained by the NH-DMRG begin to deviate from those obtained by the Bethe-ansatz analysis, indicating that the model becomes massive for strong dissipation. Our results can be tested with the two-component Bose-Hubbard system of ultracold atoms subject to two-body loss.
翻訳日:2023-03-03 17:59:46 公開日:2022-05-19
# サンドイッチR\'enyi条件エントロピーに対する一様連続性

Uniform continuity bound for sandwiched R\'enyi conditional entropy ( http://arxiv.org/abs/2201.05534v2 )

ライセンス: Link先を確認
Ashutosh Marwah and Fr\'ed\'eric Dupuis(参考訳) サンドイッチ化された R'enyi 条件エントロピーに対して、条件系の次元に依存しない$\alpha \in [1/2, 1) \cup (1, \infty]$ に対して単純な一様連続性を証明する。

We prove a simple uniform continuity bound for the sandwiched R\'enyi conditional entropy for $\alpha \in [1/2, 1) \cup (1, \infty]$, which is independent of the dimension of the conditioning system.
翻訳日:2023-03-01 04:32:24 公開日:2022-05-19
# フロッケ位相系の軌道磁化

Orbital magnetization of Floquet topological systems ( http://arxiv.org/abs/2201.07769v2 )

ライセンス: Link先を確認
Gabriel E. Topp, P\"aivi T\"orm\"a, Dante M. Kennes, Aditi Mitra(参考訳) フロッケ系の軌道磁化の一般的な表現が導かれる。 式はクリーンなシステムに対して保持され、任意の駆動プロトコルと任意のバンドの占有に有効である。 軌道磁化はチャーン絶縁体だけでなくチャーン数が位相を完全に考慮していない異常な位相に対しても大きいことが示されている。 さらに、軌道磁化は、フロックバンドの熱平衡占有と、ゼロ軌道磁化を持つ初期状態から量子クエンチによって決定される占有の両方に有意な値をとることが示されている。 後者の場合、軌道磁化はフロッケ帯のファン・ホーブ特異点に非常に敏感であることが示されている。

A general expression for the orbital magnetization of a Floquet system is derived. The expression holds for a clean system, and is valid for any driving protocol, and arbitrary occupation of the bands. The orbital magnetization is shown to be large not only for Chern insulators, but also for anomalous phases where the Chern number does not fully account for the topology. In addition, the orbital magnetization is shown to take significant values both for a thermal equilibrium occupation of the Floquet bands, and for occupations determined by a quantum quench from an initial state with zero orbital magnetization. For the latter case, the orbital magnetization is shown to be highly sensitive to van Hove singularities of the Floquet bands.
翻訳日:2023-02-28 10:12:06 公開日:2022-05-19
# 電気活性グラフェン導波路アレイを用いた局所領域量子テレポーテーションネットワーク

A Local Area Quantum Teleportation Network Based on an Array of Electrically Activated Graphene Waveguide ( http://arxiv.org/abs/2202.06332v4 )

ライセンス: Link先を確認
Muhammad Asjad, Montasir Qasymeh, and Hichem Eleuch(参考訳) 非古典的駆動マイクロ波モードによって活性化されるプラズモニックグラフェン導波路の配列を用いて,連続変数(cv)多部絡み状態を生成する方式を提案する。 このスキームでは、各導波路内の同じマイクロ波モードに結合された2つの光場の相互作用を利用して、任意の種類の多粒子ガウス交絡状態を生成することができる。 結果のCV多部絡み状態を用いてテレポーテーションネットワークを図示する。 特に,提案手法では,信頼度が2/3を超える遠隔接続ノード間のコヒーレント状態テレポーテーションが可能であり,損失が存在する場合でもセキュアな量子テレポーテーションネットワークを実現する。

We present a scheme to generate a continuous variable (CV) multipartite entangled state using an array of plasmonic graphene waveguides that are activated by nonclassical driving microwave modes. Within this scheme, we can exploit the interaction of two light fields coupled to the same microwave mode in each waveguide to produce any type of multipartite Gaussian entangled state. A teleportation network is illustrated using the resultant CV multipartite entangled state. In particular, the proposed setup enables coherent state teleportation across remotely connected nodes with fidelity above a threshold limit of 2/3, providing secure quantum teleportation networking even in the presence of losses.
翻訳日:2023-02-25 22:57:47 公開日:2022-05-19
# 高速相互作用による相対論的量子通信のチャネル容量

Channel capacity of relativistic quantum communication with rapid interaction ( http://arxiv.org/abs/2202.12301v4 )

ライセンス: Link先を確認
Erickson Tjoa and Kensuke Gallock-Yoshimura(参考訳) 本研究では,2つの量子ビット検出器間の通信チャネルがデルタカップリング相互作用を介して量子化された質量のないスカラー場と相互作用する双曲的時空における古典的情報と量子情報の非摂動的伝達について研究する。 この相互作用は非常に高速な検出器と磁場の相互作用を近似し、検出器ごとに1つの瞬間に事実上発生する。 両検出器がデルタカップリングを介して相互作用する場合、Landulfo [PRD 93, 104019] の \textit{gapless detector} を用いて非摂動的に構築された量子チャネルと同程度に(少なくとも)チャネルキャパシティを調整できることを示す。 さらに、このチャネル容量が実際に最適であること、すなわち両非摂動法が本質的に同じチャネル容量を与えることを証明し、相対論的量子通信に関する限り、この2つの方法が等価であると考えることができる。

In this work we study nonperturbatively the transmission of classical and quantum information in globally hyperbolic spacetimes, where the communication channel is between two qubit detectors interacting with a quantized massless scalar field via delta-coupling interaction. This interaction approximates very rapid detector-field interaction, effectively occurring at a single instant in time for each detector. We show that when both detectors interact via delta-coupling, one can arrange and tune the detectors so that the channel capacity is (at least) as good as the quantum channel constructed nonperturbatively using \textit{gapless detectors} by Landulfo [PRD 93, 104019]. Furthermore, we prove that this channel capacity is in fact optimal, i.e., both nonperturbative methods give essentially the same channel capacity, thus there is a sense in which the two methods can be regarded as equivalent as far as relativistic quantum communication is concerned.
翻訳日:2023-02-24 01:25:15 公開日:2022-05-19
# 進化的アルゴリズムによるロバスト資源効率量子変分アンサッツ

Robust resource-efficient quantum variational ansatz through evolutionary algorithm ( http://arxiv.org/abs/2202.13714v2 )

ライセンス: Link先を確認
Yuhan Huang, Qingyu Li, Xiaokai Hou, Rebing Wu, Man-Hong Yung, Abolfazl Bayat, Xiaoting Wang(参考訳) 変分量子アルゴリズム(vqas)は、必要なリソースを量子シミュレータと古典的最適化器に分割することにより、短期デバイスで量子優位を示す有望な手法である。 このように、資源効率が高く、ノイズに対して堅牢なVQAを設計することは、既存のノイズ量子シミュレーターの潜在的な利点を達成するための鍵となる要素である。 広く使われているハードウェア効率の良いアンサッツのような固定VQA回路設計は、必ずしも不完全性に対して堅牢ではないことが判明した。 本研究では,回路構造や深さを前提とせずに,回路アンサッツとゲートパラメータのばらつきに最適化された堅牢なVQA回路を設計するためのゲノム長調整可能な進化的アルゴリズムを提案する。 また,本手法は,奥行きが浅いノイズ効果最小化回路を生成するだけでなく,パラメータ数を著しく減らし,古典的な最適化を高速化する。 この点において、最適化された回路は量子的資源と古典的資源の両方に関してはるかに資源効率が高い。 VQAの2つの典型的な誤差モデルに基づいて,水素および水分子の基底エネルギーとハイゼンベルクモデルを計算する。 シミュレーションによれば、従来のハードウェア効率のよいansatzに比べて、回路構造可変性はコヒーレントノイズと非コヒーレントノイズの両方に対してより頑健な回路を生成することができる。

Variational quantum algorithms (VQAs) are promising methods to demonstrate quantum advantage on near-term devices as the required resources are divided between a quantum simulator and a classical optimizer. As such, designing a VQA which is resource-efficient and robust against noise is a key factor to achieve potential advantage with the existing noisy quantum simulators. It turns out that a fixed VQA circuit design, such as the widely-used hardware efficient ansatz, is not necessarily robust against imperfections. In this work, we propose a genome-length-adjustable evolutionary algorithm to design a robust VQA circuit that is optimized over variations of both circuit ansatz and gate parameters, without any prior assumptions on circuit structure or depth. Remarkably, our method not only generates a noise-effect-minimized circuit with shallow depth, but also accelerates the classical optimization by substantially reducing the number of parameters. In this regard, the optimized circuit is far more resource-efficient with respect to both quantum and classical resources. As applications, based on two typical error models in VQA, we apply our method to calculate the ground energy of the hydrogen and the water molecules as well as the Heisenberg model. Simulations suggest that compared with conventional hardware efficient ansatz, our circuit-structure-tunable method can generate circuits apparently more robust against both coherent and incoherent noise, and hence is more likely to be implemented on near-term devices.
翻訳日:2023-02-23 17:59:20 公開日:2022-05-19
# SU(2)$のラプラシアンに対する完全修飾対数ソボレフ不等式

Complete Modified Logarithmic Sobolev inequality for sub-Laplacian on $SU(2)$ ( http://arxiv.org/abs/2203.12731v2 )

ライセンス: Link先を確認
Li Gao, Maria Gordina(参考訳) 我々は、$su(2)$ 上の正準部分ラプラシアンが、行列次元とは独立に、すべての行列値関数に対して一様修正された対数ソボレフ不等式を持つことを証明する。 これは行列値修正対ソボレフ不等式が得られた部分ラプラシアンの最初の例である。 また、リー群上では、熱核測度 $p_t$ at time $t$ は行列値の修正対数-ソボレフ定数を$O(t^{-1})$ で表す。

We prove that the canonical sub-Laplacian on $SU(2)$ admits a uniform modified log-Sobolev inequality for all its matrix-valued functions, independent of the matrix dimension. This is the first example of sub-Laplacian that a matrix-valued modified log-Sobolev inequality has been obtained. We also show that on Lie groups, the heat kernel measure $p_t$ at time $t$ admits matrix-valued modified log-Sobolev constants of order $O(t^{-1})$.
翻訳日:2023-02-21 02:32:11 公開日:2022-05-19
# アルゴリズム利用における相同性とインセンティブ効果

Homophily and Incentive Effects in Use of Algorithms ( http://arxiv.org/abs/2205.09701v1 )

ライセンス: Link先を確認
Riccardo Fogliato, Sina Fazelpour, Shantanu Gupta, Zachary Lipton, David Danks(参考訳) アルゴリズムツールが専門家の意思決定を支援するようになり、その影響を媒介する正確な要因を理解する必要性が高まっている。 本稿では,2つの要因がAIによる意思決定に与える影響を評価するためのクラウドソーシング・ヴィグネット研究を提案する。 まず、参加者とアルゴリズムツールのトレーニング中に合意を操作することで、ホモフィリ -- 彼らに同意しやすいモデルにもっと推論するのか? 第二に、インセンティブを考えました -- ハイブリッド意思決定環境で(既知の)コスト構造をどのように組み込むのか? --正負対正負の報酬を異にする。 意外なことに、参加者は以前の研究と同様の行動をとったが、ホモフィリーの影響とインセンティブ効果の証拠がないことが判明した。 参加者とaiツールの間のより高いレベルの合意は、より自信のある予測をもたらしたが、結果のフィードバックがない場合のみだった。 これらの結果は、人間とアルゴリズムの相互作用を特徴づける複雑さを強調し、社会心理学からの発見は、人間がアルゴリズムと対話する際に再検査を必要とする可能性があることを示唆している。

As algorithmic tools increasingly aid experts in making consequential decisions, the need to understand the precise factors that mediate their influence has grown commensurately. In this paper, we present a crowdsourcing vignette study designed to assess the impacts of two plausible factors on AI-informed decision-making. First, we examine homophily -- do people defer more to models that tend to agree with them? -- by manipulating the agreement during training between participants and the algorithmic tool. Second, we considered incentives -- how do people incorporate a (known) cost structure in the hybrid decision-making setting? -- by varying rewards associated with true positives vs. true negatives. Surprisingly, we found limited influence of either homophily and no evidence of incentive effects, despite participants performing similarly to previous studies. Higher levels of agreement between the participant and the AI tool yielded more confident predictions, but only when outcome feedback was absent. These results highlight the complexity of characterizing human-algorithm interactions, and suggest that findings from social psychology may require re-examination when humans interact with algorithms.
翻訳日:2023-02-19 17:05:36 公開日:2022-05-19
# 新しいチームにおける個人的・集団的パフォーマンス劣化:CS:GOトーナメントを事例として

Individual and Collective Performance Deteriorate in a New Team: A Case Study of CS:GO Tournaments ( http://arxiv.org/abs/2205.09693v1 )

ライセンス: Link先を確認
Weiwei Zhang, Goran Muric, Emilio Ferrara(参考訳) プロのビデオゲームにおけるチーム構成はチームのパフォーマンスにどのように関係しますか? 本研究では,グループダイナミクスの1つの側面として,チーム変更がeスポーツトーナメントにおける個人的,集団的パフォーマンスに与える影響について考察した。 本研究では,チームの切り替えが短期的および長期的に個人とチームのパフォーマンスに有害である,という仮説を検証した。 人気のあるファーストパーソンシューティングゲーム『itshape counter-strike: global offensive』(cs:go)のプロトーナメントのデータを収集し、2つの自然実験を行った。 選手のパフォーマンスは,選手が参加したチーム数と逆相関していることがわかった。 プレイヤーが新しいチームに切り替えた後、個人と集団のパフォーマンスは当初低下し、その後ゆっくりと回復した。 この研究の知見は、eスポーツチームプレイにおけるグループのダイナミクスを理解するための洞察を提供し、最終的にはチームワーク全般におけるチームのコラボレーション、調整、知識共有を促進する上で、チームの結束の重要性を強調します。

How does the team formation relates to team performance in professional video game playing? This study examined one aspect of group dynamics - team switching - and aims to answer how changing a team affects individual and collective performance in eSports tournaments. In this study we test the hypothesis that switching teams can be detrimental to individual and team performance both in short term and in a long run. We collected data from professional tournaments of a popular first-person shooter game {\itshape Counter-Strike: Global Offensive (CS:GO)} and perform two natural experiments. We found that the player's performance was inversely correlated with the number of teams a player had joined. After a player switched to a new team, both the individual and the collective performance dropped initially, and then slowly recovered. The findings in this study can provide insights for understanding group dynamics in eSports team play and eventually emphasize the importance of team cohesion in facilitating team collaboration, coordination, and knowledge sharing in teamwork in general.
翻訳日:2023-02-19 17:04:57 公開日:2022-05-19
# 感染拡大を止める: 新型コロナウイルスワクチン認定の適正性に関するコンテキスト統合的視点

Stop the Spread: A Contextual Integrity Perspective on the Appropriateness of COVID-19 Vaccination Certificates ( http://arxiv.org/abs/2205.09036v2 )

ライセンス: Link先を確認
Shikun Zhang, Yan Shvartzshnaider, Yuanyuan Feng, Helen Nissenbaum, Norman Sadeh(参考訳) 本稿では,異なる現実的利用シナリオにまたがる予防接種証明書(vc)の受容にプライバシが与える影響について検討する。 この調査では、コンテキスト整合性のプライバシーフレームワークが採用され、さまざまなコンテキストにおける人々のプライバシの期待を捉えるのに特に有効であることが示されている。 我々は、Vignetteの手法を用いて、適切な文脈パラメータを選択的に操作し、それがVCに対する人々の態度に与える影響を学習する。 われわれは、人口統計学的に分類された米国人口の890人の参加者を調査し、予防接種義務を強制するためのVC展開の受け入れと全体的な態度、そしてVCが必要とするさまざまな情報フローを計測した。 この研究の一環として収集された結果の分析は、さまざまなVCプラクティスに関する一般的な規範的な観察を導き、異なるコンテキストにおけるVCの展開に関するガイダンスを提供するために使用される。

We present an empirical study exploring how privacy influences the acceptance of vaccination certificate (VC) deployments across different realistic usage scenarios. The study employed the privacy framework of Contextual Integrity, which has been shown to be particularly effective in capturing people's privacy expectations across different contexts. We use a vignette methodology, where we selectively manipulate salient contextual parameters to learn whether and how they affect people's attitudes towards VCs. We surveyed 890 participants from a demographically-stratified sample of the US population to gauge the acceptance and overall attitudes towards possible VC deployments to enforce vaccination mandates and the different information flows VCs might entail. Analysis of results collected as part of this study is used to derive general normative observations about different possible VC practices and to provide guidance for the possible deployments of VCs in different contexts.
翻訳日:2023-02-19 17:03:11 公開日:2022-05-19
# 超弦および深部ストロングカップリングレジームにおける光物質系の純劣化

Pure Dephasing of Light-Matter Systems in the Ultrastrong and Deep-Strong Coupling Regimes ( http://arxiv.org/abs/2205.05352v2 )

ライセンス: Link先を確認
Alberto Mercurio, Shilan Abo, Fabio Mauceri, Enrico Russo, Vincenzo Macr\`i, Adam Miranowicz, Salvatore Savasta, Omar Di Stefano(参考訳) 純粋なデファスティングは、量子システムと環境の間の非散逸的な情報交換に由来し、分光法と量子情報技術の両方において重要な役割を担っている。 純粋な否定はしばしば量子相関の崩壊の主なメカニズムを構成する。 本稿では,ハイブリッド量子システムのコンポーネントの1つが,システム遷移の低下率にどのように影響するかを検討する。 結果として、光マッター系の場合、相互作用は、採用されているゲージに依存するサブシステムの強調を記述する確率的摂動の形に大きな影響を与えることが分かる。 この問題を無視することは、相互作用がサブシステムの素共鳴周波数に匹敵し、超強結合と深結合に対応する場合、間違った非物理的結果をもたらす可能性がある。 空洞量子化電磁力学の2つの原型モデル(量子ラビとホップフィールドモデル)の結果を示す。

Pure dephasing originates from the non-dissipative information exchange between quantum systems and environments, and plays a key-role in both spectroscopy and quantum information technology. Often pure dephasing constitutes the main mechanism of decay of quantum correlations. Here we investigate how pure dephasing of one of the components of a hybrid quantum system affects the dephasing rate of the system transitions. We find that, in turn, the interaction, in the case of a light-matter system, can significantly affect the form of the stochastic perturbation describing the dephasing of a subsystem, depending on the adopted gauge. Neglecting this issue can lead to wrong and unphysical results when the interaction becomes comparable to the bare resonance frequencies of subsystems, which correspond to the ultrastrong and deep-strong coupling regimes. We present results for two prototypical models of cavity quantun electrodynamics: the quantum Rabi and the Hopfield model.
翻訳日:2023-02-13 12:39:13 公開日:2022-05-19
# nレベル単粒子状態と円多元量子プライベート比較

Circular multi-party quantum private comparison with n-level single-particle states ( http://arxiv.org/abs/2205.06928v2 )

ライセンス: Link先を確認
Chong-Qiang Ye, Tian-Yu Ye(参考訳) 本稿では,nレベル単一粒子状態との等価性比較のための,新しいマルチパーティ量子プライベート比較(MQPC)プロトコルを構築し,符号化された粒子を円形に伝送する。 ここで n の当事者は qudit shifting operation を用いてプライベートシークレットをエンコードし、プロトコルの1回の実行内でプライベートシークレットの平等性を比較することができる。 提案するmqpcプロトコルは外部攻撃と参加者攻撃の両方を克服することができる。 特に、各党の秘密は、他の政党や第三者(TP)に知られてはならない。

In this paper, a novel multi-party quantum private comparison (MQPC) protocol for equality comparison with n-level single-particle states is constructed, where the encoded particles are transmitted in a circular way. Here, n parties employ the qudit shifting operation to encode their private secrets and can compare the equality of their private secrets within one time execution of protocol. The proposed MQPC protocol can overcome both the outside attack and the participant attack. Specially, each party's secret can be kept unknown to other parties and the third party (TP).
翻訳日:2023-02-13 06:41:59 公開日:2022-05-19
# スロー計測によるQAOA

The QAOA with Slow Measurements ( http://arxiv.org/abs/2205.06845v3 )

ライセンス: Link先を確認
Anthony Polloreno and Graeme Smith(参考訳) 量子近似最適化アルゴリズム(quantum approximation optimization algorithm,qaoa)は、当初組合せ最適化問題を解くために開発されたが、量子コンピュータの性能評価の標準となっている。 完全な記述型ベンチマーク技術は、多くの量子ビット(n \gtrsim 10$)に対して禁止的に高価であるため、QAOAは実際に計算ベンチマークとして機能することが多い。 qaoaは、量子サブルーチンの最適なパラメータを見つけようとする古典的な最適化サブルーチンを含む。 残念ながら、QAOAで使用される多くのオプティマイザは、最小化されるエネルギーの信頼できる推定を得るためにパラメータ空間の点当たりの多くのショット(N \gtrsim 1000$)を必要とする。 しかしながら、中性原子量子コンピュータのような実験的な量子コンピューティングプラットフォームは、これらのシステムで使用される古典的な最適化サブルーチンに固有の要件を課している。 本稿では,QAOA(デュアルアニール)のための勾配自由古典最適化器の性能について検討し,$N=1$,$n=16$であっても最適化が可能であることを実証する。

The Quantum Approximate Optimization Algorithm (QAOA) was originally developed to solve combinatorial optimization problems, but has become a standard for assessing the performance of quantum computers. Fully descriptive benchmarking techniques are often prohibitively expensive for large numbers of qubits ($n \gtrsim 10$), so the QAOA often serves in practice as a computational benchmark. The QAOA involves a classical optimization subroutine that attempts to find optimal parameters for a quantum subroutine. Unfortunately, many optimizers used for the QAOA require many shots ($N \gtrsim 1000$) per point in parameter space to get a reliable estimate of the energy being minimized. However, some experimental quantum computing platforms such as neutral atom quantum computers have slow repetition rates, placing unique requirements on the classical optimization subroutine used in the QAOA in these systems. In this paper we investigate the performance of a gradient free classical optimizer for the QAOA - dual annealing - and demonstrate that optimization is possible even with $N=1$ and $n=16$.
翻訳日:2023-02-13 06:40:42 公開日:2022-05-19
# PrEF:大規模ネットワークにおける拡散ソースローカライゼーション問題のためのパーコレーションに基づく進化的フレームワーク

PrEF: Percolation-based Evolutionary Framework for the diffusion-source-localization problem in large networks ( http://arxiv.org/abs/2205.07422v2 )

ライセンス: Link先を確認
Yang Liu, Xiaoqi Wang, Xi Wang, Zhen Wang, J\"urgen Kurths(参考訳) ネットワーク内の多数のノードの状態が必要であれば調査できると仮定し、それらのノードの構成が拡散-ソース-ローカライズ(dsl)問題に対するより良い解決策になり得るかを検討する。 特に、拡散源を含む候補集合を定式化し、そのような集合を最小化するためのパーコレーションに基づく進化的枠組み(pref)を提案する。 したがって、ソースをターゲットとするノードはわずかしかなく、より集中的な調査を行うことができる。 これを実現するために、まず、DSL問題とネットワーク免疫問題に類似点があることを実証する。 候補集合の最小化は、オブザーバ集合を削除ノード集合として見る場合の順序パラメータの最小化と同値である。 したがって、PrEFはネットワークパーコレーションと進化的アルゴリズムに基づいて開発される。 提案手法の有効性は,様々な状況において,モデルネットワークと経験ネットワークの両方で検証される。 提案手法は, ほぼすべての症例において, 最先端技術と比較して, はるかに小さな候補セットを実現できる可能性が示唆された。 一方,我々のアプローチは,感染確率,拡散モデル,アウトブレイク範囲によらず,より安定している。 さらに重要なことに、我々のアプローチは、極端な大規模ネットワークにおけるdsl問題に取り組むための新しいフレームワークを提供するかもしれません。

We assume that the state of a number of nodes in a network could be investigated if necessary, and study what configuration of those nodes could facilitate a better solution for the diffusion-source-localization (DSL) problem. In particular, we formulate a candidate set which contains the diffusion source for sure, and propose the method, Percolation-based Evolutionary Framework (PrEF), to minimize such set. Hence one could further conduct more intensive investigation on only a few nodes to target the source. To achieve that, we first demonstrate that there are some similarities between the DSL problem and the network immunization problem. We find that the minimization of the candidate set is equivalent to the minimization of the order parameter if we view the observer set as the removal node set. Hence, PrEF is developed based on the network percolation and evolutionary algorithm. The effectiveness of the proposed method is validated on both model and empirical networks in regard to varied circumstances. Our results show that the developed approach could achieve a much smaller candidate set compared to the state of the art in almost all cases. Meanwhile, our approach is also more stable, i.e., it has similar performance irrespective of varied infection probabilities, diffusion models, and outbreak ranges. More importantly, our approach might provide a new framework to tackle the DSL problem in extreme large networks.
翻訳日:2023-02-12 23:54:01 公開日:2022-05-19
# 実用デバイスを用いたサイドチャネルフリー量子鍵分布

Side-channel-free quantum key distribution with practical devices ( http://arxiv.org/abs/2205.08421v3 )

ライセンス: Link先を確認
Cong Jiang, Zong-Wen Yu, Xiao-Long Hu and Xiang-Bin Wang(参考訳) 真空状態にサイドチャネルがないという考え方に基づいて、ソース側チャネル空間における全ての攻撃と検出器内の全ての攻撃に免疫するサイドチャネルフリー量子鍵分布(SCFQKD)プロトコルが提案された。 元のSCFQKDプロトコルでは、アリスとボブが完璧な真空パルスを生成できると仮定されている。 しかし、強度変調器の有限消滅比のため、実際には完全な真空パルスは不可能である。 本稿では、この問題を解決し、完全真空パルスを出力しない実音源装置で量子鍵分布のサイドチャネルをセキュアにする。 我々の結論は、情報源の強度の上限にのみ依存する。 安定したソースや安定したサイドチャネルなど、他の仮定は必要ない。 その結果、完全真空源を用いたscfqkdプロトコルの結果と比較すると、不完全真空源の強度の上限が10^{-8}$以下であれば、鍵レートと安全な距離はわずかに減少する。 また、SCFQKDプロトコルのデータ後処理に双方向の古典的通信を用いることで、鍵レートを向上できることを示す。 特に、アクティブな奇異パリティペアリング法は、全距離におけるキーレートを約2倍、安全な距離を約40km向上させることができる。 不完全な真空に基づくサイドチャネルセキュリティを提供することで、実際のデバイスでサイドチャネルセキュアなQKDを実現することができる。

Based on the idea that there is no side channel in the vacuum state, the side-channel-free quantum key distribution (SCFQKD) protocol was proposed, which is immune to all attacks in the source side-channel space and all attacks in the detectors. In the original SCFQKD protocol, an important assumption is that Alice and Bob can produce the perfect vacuum pulses. But due to the finite extinction ratio of the intensity modulators, the perfect vacuum pulse is impossible in practice. In this paper, we solve this problem and make the quantum key distribution side-channel secure with real source device which does not emit perfect vacuum pulses. Our conclusion only depends on the upper bounds of the intensities of the sources. No other assumptions such as stable sources and stable side channels are needed. The numerical results show that, comparing with the results of SCFQKD protocol with perfect vacuum sources, the key rates and secure distance are only slightly decreased if the upper bound of the intensity of the imperfect vacuum source is less than $10^{-8}$ which can be achieved in experiment by two-stage intensity modulator. We also show that the two-way classical communication can be used to the data post-processing of SCFQKD protocol to improve the key rate. Specially, the active odd-parity pairing method can improve the key rates in all distances by about two times and the secure distance by about 40 km. Give that the side channel security based on imperfect vacuum, this work makes it possible to realize side channel secure QKD with real devices.
翻訳日:2023-02-12 21:05:57 公開日:2022-05-19
# 相関による一次元非エルミート点ギャップ位相の減少

Reduction of one-dimensional non-Hermitian point-gap topology by correlations ( http://arxiv.org/abs/2205.09333v1 )

ライセンス: Link先を確認
Tsuneya Yoshida and Yasuhiro Hatsugai(参考訳) 非エルミート位相に関する広範な研究にもかかわらず、相関効果は依然として重要な問題である。 ここでは,1次元ポイントギャップ位相に着目した相関非エルミート系の解析を行う。 具体的には、電荷$\mathrm{U(1)}$対称性とスピンパリティ対称性を持つ1つの合成次元の系に対して、相関が位相分類 $\mathbb{Z}\times \mathbb{Z} \to \mathbb{Z}$ の減少をもたらすことを明らかにする。 さらに,非相互作用レベルでの皮膚効果を損なう相関効果を示すHatano-Nelson鎖の解析を行った。 この相互作用に対する皮膚効果の脆弱さは、一空間次元における点ギャップ位相の減少と一致している。 上記の発見は相関系のトポロジーに新しい光を与え、非エルミート位相物理学の研究の新たな方向を開く。

In spite of extensive works on the non-Hermitian topology, correlations effects remain crucial questions. We hereby analyze correlated non-Hermitian systems with special emphasis on the one-dimensional point-gap topology. Specifically, our analysis elucidates that correlations result in reduction of the topological classification $\mathbb{Z}\times \mathbb{Z} \to \mathbb{Z}$ for systems of one synthetic dimension with charge $\mathrm{U(1)}$ symmetry and spin-parity symmetry. Furthermore, we analyze an extended Hatano-Nelson chain which exhibits striking correlation effects; correlations destroy the skin effect at the non-interacting level. This fragility of the skin effect against interactions is consistent with the reduction of the point-gap topology in the one spatial dimension. The above discoveries shed new light on the topology of correlated systems and open up new directions of researches on non-Hermitian topological physics.
翻訳日:2023-02-12 16:11:32 公開日:2022-05-19
# 障壁のランダム階層上の量子ウォークにおける輸送と局在

Transport and Localization in Quantum Walks on a Random Hierarchy of Barriers ( http://arxiv.org/abs/2205.09308v1 )

ライセンス: Link先を確認
Richa Sharma and Stefan Boettcher (Emory U)(参考訳) 空間的に不均一な1次元量子ウォーク内の輸送を階層的障壁とランダム障壁の組み合わせで研究する。 空間的に乱れた量子ウォークに対する最近の再正規化群計算では、障壁の規則的な階層だけでは輸送が徐々に減少するが、障壁サイズを増大させる局在は示されていない。 逆に、空間障壁における広範囲なランダムな乱れは、線上の量子ウォークをローカライズするのに十分であることが知られている。 ここでは、障壁階層にスパース(部分拡大)のランダム性だけを加えると、輸送が停止するような局所化を誘導するのに十分であることを示す。 以上の結果から, 規則的障壁階層の強度はランダム性が大きくなり, かつ, 規則的障壁階層が十分に強固な障壁でランダム性が増加すること, の組合せに対する局所化遷移の存在が示唆された。

We study transport within a spatially heterogeneous one-dimensional quantum walk with a combination of hierarchical and random barriers. Recent renormalization group calculations for a spatially disordered quantum walk with a regular hierarchy of barriers alone have shown a gradual decrease in transport but no localization for increasing (but finite) barrier sizes. In turn, it is well-known that extensive random disorder in the spatial barriers is sufficient to localize a quantum walk on the line. Here we show that adding only a sparse (sub-extensive) amount of randomness to a hierarchy of barriers is sufficient to induce localization such that transport ceases. Our numerical results suggest the existence of a localization transition for a combination of both, the strength of the regular barrier hierarchy at large enough randomness as well as the increasing randomness at sufficiently strong barriers in the hierarchy.
翻訳日:2023-02-12 16:11:18 公開日:2022-05-19
# 複数の信用できない銀行が生み出す量子マネー

Quantum Money Generated by Multiple Untrustworthy Banks ( http://arxiv.org/abs/2205.09303v1 )

ライセンス: Link先を確認
Yuichi Sano(参考訳) 古典的なお金はコピーできるが、原理的には量子マネーをコピーすることは不可能であり、それを生成する方法を知っている銀行だけが発行する。 中央銀行のような信頼できる銀行が量子マネーを発行するわけではないので、信頼できない銀行がユーザーの知識なしに同じ量子マネーの偽または複数コピーを配布している可能性がある。 そこで我々は,銀行が正確なコピーをユーザに配布できない量子パッチワークマネースキームを提案する。 このスキームは、複数の銀行が公開鍵量子マネーをシャードとして提供し、それらを組み合わせて量子パッチワークマネーを生成する。 銀行は、他の銀行を完全に信頼することなく、量子パッチワーク資金を利用できる。 さらにnonbankのユーザは、コピーの配布を監視するプロトコルを追加することで、自己利益に重点を置く可能性のある銀行を信頼することなく、量子パッチワークマネーを安全に使用できる。

While classical money can be copied, it is impossible to copy quantum money in principle, with only the bank that issues it knowing how to generate it, meaning only the bank can make exact copies. Not all reliable banks, such as central banks, will issue quantum money, so there is the possibility that untrustworthy banks are distributing fake or multiple copies of the same quantum money without the users' knowledge. As such, we propose a quantum patchwork money scheme in which banks cannot distribute exact copies to users. This scheme involves multiple banks providing public-key quantum money as shards and generating quantum patchwork money by combining them. The banks can use the quantum patchwork money without completely trusting the other banks. In addition, nonbank users can use safely the quantum patchwork money without trusting any banks potentially focused on self-interest by adding a protocol for monitoring the distribution of copies.
翻訳日:2023-02-12 16:11:01 公開日:2022-05-19
# 3ビットスピンチェーンにおける熱反転

Inducing Heat Reversal in a Three-Qubit Spin Chain ( http://arxiv.org/abs/2205.09300v1 )

ライセンス: Link先を確認
Saleh Naghdi, Thomas Quella, Charles D. Hill(参考訳) 熱力学の標準的な第二法則により、熱は温かい体から冷たい体へと自然に流れる。 しかし、量子相関が顕著な役割を果たす量子系は、そのような熱流の古典的逆転を示す。 量子ビット列からなる量子システムを提案する。各量子ビットは局所ギブズ状態にあり、隣接する量子ビットのみが熱的に相互作用できる。 初期量子相関をチェーンに沿って制御することにより、量子コンピュータ上の3量子鎖の特別な場合の非古典的熱反転を実証する。 スピンチェーンの初期条件を複数検討し, 隣接する2組の量子ビット間の不等な初期相関によって与えられる熱の優先的なパンピングなどのエキゾチックな振る舞いを示し, 熱流のダイナミクスに影響を与える初期相関が果たす役割を補強する。

By the standard second law of thermodynamics, heat spontaneously flows from a hotter body to a colder body. However, quantum systems in which quantum correlations play a prominent role can exhibit a non-classical reversal of such heat flow. We propose a quantum system consisting of a chain of qubits, each in local Gibbs states, where only adjacent qubits are allowed to thermally interact. By controlling initial quantum correlations along the chain, we then demonstrate non-classical heat reversal for the special case of a three-qubit chain on a quantum computer. We explore multiple initial conditions for the spin chain to showcase exotic behaviour such as the preferential pumping of heat afforded by unequal initial correlations between adjacent pairs of qubits, reinforcing the role that initial correlations play in influencing the dynamics of heat flow.
翻訳日:2023-02-12 16:10:46 公開日:2022-05-19
# グローバー探索アルゴリズムにおける成功確率とコヒーレンスとの相補性

Complementarity between Success Probability and Coherence in Grover Search Algorithm ( http://arxiv.org/abs/2205.09268v1 )

ライセンス: Link先を確認
Minghua Pan, Haozhen Situ, Shenggen Zheng(参考訳) コヒーレンスはGrover Search Algorithm(GSA)において非常に重要な役割を果たす。 本稿では、C をコヒーレンス測定とする正規化コヒーレンス N(C) を定義する。 大きい n とシャノンの最大エントロピー原理の制約により、gsa のコヒーレンスと成功確率の間の驚くべき相補的な関係が得られる。 すなわち、p_s(t)+n(c(t))\simeq 1 であり、c はコヒーレンスの相対エントロピー、l_1 はコヒーレンスのノルム、t は gsa における探索反復の数である。 さらに、この方程式は理想的あるいはノイズの多い環境では何も持たない。 近年のノイズ中規模量子(nisq)時代には量子ビット数に制限があるため、異なる種類のノイズを持つデータベースサイズ n に対して、厳密な数値計算実験が行われる。 その結果、成功確率とコヒーレンスとの相補関係はほとんど常に成り立つことがわかった。 本研究は,補完的なコヒーレンスを操作することによって,成功確率を改善するための新たな視点を提供する。 NISQ時代の量子アルゴリズム設計を支援する優れた可能性を持っている。

Coherence plays a very important role in Grover search algorithm (GSA). In this paper, we define the normalization coherence N(C), where C is a coherence measurement. In virtue of the constraint of large N and Shannon's maximum entropy principle, a surprising complementary relationship between the coherence and the success probability of GSA is obtained. Namely, P_s(t)+N(C(t))\simeq 1, where C is in terms of the relative entropy of coherence and l_1 norm of coherence, t is the number of the search iterations in GSA. Moreover, the equation holds no matter in ideal or noisy environments. Considering the number of qubits is limited in the recent noisy intermediate-scale quantum (NISQ) era, some exact numerical calculation experiments are presented for different database sizes N with different types of noises. The results show that the complementary between the success probability and the coherence almost always hold. This work provides a new perspective to improve the success probability by manipulating its complementary coherence, and vice versa. It has an excellent potential for helping quantum algorithms design in the NISQ era.
翻訳日:2023-02-12 16:09:54 公開日:2022-05-19
# 量子インターネット: 古典的インターネットサービスを一度に1キュービットで拡張する

The Quantum Internet: Enhancing Classical Internet Services one Qubit at a Time ( http://arxiv.org/abs/2205.09476v1 )

ライセンス: Link先を確認
Angela Sara Cacciapuoti, Jessica Illiano, Seid Koudia, Kyrylo Simonov, Marcello Caleffi(参考訳) 今日、古典的なインターネットは主に量子インターネットの基盤となる通信基盤として考えられており、信号や協調メッセージなどのサービスの提供を目的としている。 しかし、古典的インターネットと量子インターネットの相互作用は複雑であり、量子インターネットプロトコルスタックの効果的な設計にはその理解が不可欠である。 本稿の目的は、このような相互作用が一方向ではなくむしろ双方向であることを強調することにより、この相互作用の光を遮ることである。 そして量子インターネットは、古典的インターネット機能をサポートし、さらに強化する可能性を秘めている。

Nowadays, the classical Internet has mainly envisioned as the underlying communication infrastructure of the Quantum Internet, aimed at providing services such as signaling and coordination messages. However, the interplay between classical and Quantum Internet is complex and its understanding is pivotal for an effective design of the Quantum Internet protocol stack. The aim of the paper is to shed the light on this interplay, by highlighting that such an interplay is indeed bidirectional rather than unidirectional. And the Quantum Internet exhibits the potential of supporting and even enhancing classical Internet functionalities.
翻訳日:2023-02-12 16:03:57 公開日:2022-05-19
# 未定義の粒子数を持つ状態におけるボゾン場は、検出可能な非文脈的特徴を有する。

Bosonic fields in states with undefined particle numbers possess detectable non-contextuality features, plus more ( http://arxiv.org/abs/2205.09440v1 )

ライセンス: Link先を確認
Konrad Schlichtholz, Antonio Mandarino, Marek \.Zukowski(参考訳) 古典的直観に対するパラドックスの殆どは、固定された粒子数を含む状況のために量子論の特徴が定式化された。 量子場に対するベルの定理の定式化を見つけることができるが、kochen-specker型推論は通常1つの粒子に対して定式化される。 疑問が浮かび上がる。 粒子の数が本質的に未定義の状況に対する文脈性証明を定式化することは可能か? 我々はこの問題をボソニック場で扱う。 ボソニック場の状態の非古典性を評価する2つのモードにおいて、ボゾン数状態の項で $\mathfrak{su}(2)$ algebra の表現を導入する。 非古典的行動の長所の1つとして,すべての文脈をまず分析し,導入された可観測性は局所的現実主義の違反を明らかにし,絡み合い指標を定式化するのに便利かつ効率的であることを示す。 本研究では,コッヘン・スペックの文脈性をボソニック量子場に拡張する手法を提案する。 不等式の形式はペレス=メルミン正方形の適切なバージョンを用いて導出される。 絡み合いの指標は、特別に定義されたパウリのような観測物で作られた目撃者を用いる。 最後にベル非古典性について議論し、パウリ様作用素の対の期待値を含む不等式を示す。 導入された指標は有効であることが示され、例えば、未定義のボソン数を含む非古典性を示す。 これは2\times 2$ bright squeezed vacuum stateの量子光学的な例と、パラメトリック過程における複数の光子放出による最近議論されたbright-ghz状態によって示される。

Most of the paradoxical, for the classical intuition, features of quantum theory were formulated for situations which involve a fixed number of particles. While one can now find a formulation of Bell's theorem for quantum fields, a Kochen-Specker-type reasoning is usually formulated for just one particle, or like in the case of Peres-Mermin square for two. A question emerges. Is it possible to formulate a contextuality proof for situation in which the numbers of particles are fundamentally undefined? We address this problem for bosonic fields. We introduce a representation of the $\mathfrak{su}(2)$ algebra in terms of boson number states in two modes that allows us to assess nonclassicality of states of bosonic fields. As a figure of merit of a nonclassical behaviour we analyze first of all contextuality, and we show that the introduced observables are handy and efficient to reveal violation of local realism, and to formulate entanglement indicators. We construct a method which extends the Kochen-Specker contextuality to bosonic quantum fields. A form of an inequality is derived using a suitable version of the Peres-Mermin square. The entanglement indicators use a witness built with specially defined Pauli-like observables. Finally, Bell-nonclassicality is discussed: an inequality that involves the expectation values of pairs of the Pauli-like operators is presented. The introduced indicators are shown to be effective, e.g. they reveal nonclassicality in situaations involving undefined boson numbers. This is shown via quantum optical examples of the $2\times 2$ bright squeezed vacuum state, and a recently discussed bright-GHZ state resulting from multiple three photon emissions in a parametric process.
翻訳日:2023-02-12 16:03:48 公開日:2022-05-19
# 周波数と時間間隔自由度を補助する決定論的および完全超エンタングルベル状態解析

Deterministic and complete hyperentangled Bell states analysis assisted by frequency and time interval degrees of freedom ( http://arxiv.org/abs/2205.09439v1 )

ライセンス: Link先を確認
Xin-Jie Zhou, Wen-Qiang Liu, Hai-Rui Wei, Yan-Bei Zheng, and Fang-Fang Du(参考訳) ハイパーエンタングルドベル状態解析(HBSA)は、ある種の超並列量子情報処理に不可欠な構成要素である。 固定周波数ベースの絡み合いと時間間隔DOFによる2光子系の空間的および分極的自由度(DOF)を符号化した完全決定論的HBSAスキームを提案する。 空間ベース及び偏光ベースの超エンタングルメントのパリティ情報は、光子対の異なる時間間隔で区別することができ、位相情報は検出符号で区別することができる。 従来の方式と比較して、時間間隔DOFを導入して補助的絡み合いの数を2から1に減らす。 さらに、追加周波数と時間間隔dofは、集束チャネルノイズによる負担が少なくなる。

Hyperentangled Bell states analysis (HBSA) is an essential building block for certain hyper-parallel quantum information processing. We propose a complete and deterministic HBSA scheme encoded in spatial and polarization degrees of freedom (DOFs) of two-photon system assisted by a fixed frequency-based entanglement and a time interval DOF. The parity information the spatial-based and polarization-based hyper-entanglement can be distinguished by the distinct time intervals of the photon pairs, and the phase information can be distinguished by the detection signature. Compared with previous schemes, the number of the auxiliary entanglements is reduced from two to one by introducing time interval DOF. Moreover, the additional frequency and time interval DOFs suffer less from the collective channel noise.
翻訳日:2023-02-12 16:03:16 公開日:2022-05-19
# 異なるエネルギーレジームにおけるトンネル時間の一般的なシナリオ

A General Scenario of Tunneling Time in Different Energy Regimes ( http://arxiv.org/abs/2205.09397v1 )

ライセンス: Link先を確認
Sheng-Chang Li(参考訳) 四角いバリアを通過するボース凝縮原子の波束を調べることでトンネル時間を理論的に研究する。 トンネル工時間は、異なるエネルギー体制において異なるスケーリング法則を示す。 ウェーブパケットの負の入射エネルギーに対して、入射速度を低下させるとともにトンネル時間は急速に減少する。 対照的に、障壁高さよりも小さい正の入射エネルギーの場合、トンネル時間は徐々に増加し、ラーモアクロック実験と一致する最大値に達する。 また, 最大トンネル時間に対する不確実性原理に関連するバリア幅の影響についても考察した。 我々の研究はトンネル時間の一般的なシナリオを提供し、トンネル時間に関する論争を理解し、説明することができる。

We theoretically study the tunneling time by investigating a wave packet of Bose-condensed atoms passing through a square barrier. We find that the tunneling time exhibits different scaling laws in different energy regimes. For negative incident energy of the wave packet, counterintuitively, the tunneling time decreases very rapidly with decreasing incident velocity. In contrast, for positive incident energy smaller than the barrier height, the tunneling time increases slowly and then reaches a maximum, which is in agreement with the Larmor clock experiments. The effect of the barrier width related to the uncertainty principle on the maximum tunneling time is also addressed. Our work provides a general scenario of tunneling time that can be used to understand and explain the controversy over tunneling time.
翻訳日:2023-02-12 16:02:19 公開日:2022-05-19
# スピンスピンカップリングに基づく2-impurityスピンボーソン模型の量子相転移と古典相転移

Spin-spin coupling-based quantum and classical phase transitions in two-impurity spin-boson models ( http://arxiv.org/abs/2205.09367v1 )

ライセンス: Link先を確認
Roberto Grimaudo, Antonino Messina, Hiromichi Nakazato, Alessandro Sergi, and Davide Valenti(参考訳) スピンペア上の横場を消失する2つの相互作用型スピンボーソンモデルのクラスについて検討した。 このモデルは、スピンスピンカップリングによってトンネルパラメータの役割が担う2つの独立な標準スピンボソンモデルに正確にマッピングすることができる。 磁化のダイナミクスは(an)等方性の異なるレベルで解析される。 さらに、非コヒーレンスのない部分空間と古典的および量子的(一階およびコステリッツ-Thouless型)相転移の存在は、オムジック系において光を放つ。

The class of two-interacting-impurity spin-boson models with vanishing transverse fields on the spin-pair is studied. The model can be exactly mapped into two independent standard single-impurity spin-boson models where the role of the tunnelling parameter is played by the spin-spin coupling. The dynamics of the magnetization is analysed for different levels of (an)isotropy. Further, the existence of a decoherence-free subspace as well as of both classical and quantum (first-order and Kosterlitz-Thouless type) phase transitions, in the Omhic regime, is brought to light.
翻訳日:2023-02-12 16:01:47 公開日:2022-05-19
# 硬い球の内部に空間的に閉じ込められた原子の密度関数的研究

Density functional study of atoms spatially confined inside a hard sphere ( http://arxiv.org/abs/2205.09581v1 )

ライセンス: Link先を確認
Sangita Majumdar and Amlan K. Roy(参考訳) 有限次元の空洞の中に置かれる原子は、多くの興味深い特徴を提供しており、そのため大きな電流活動のトピックとなっている。 本研究は,多電子原子の基底状態と励起状態の両方を球状不定エンベクタエンクロージャ下で追従する密度汎関数的アプローチを提案する。 ラジアル・コーン・シャム(ks)方程式は、物理的に動機づけられたワークファンクションに基づく交換ポテンシャルを呼び出すことによって解かれた。 ディリクレ境界条件を満たす一般化擬スペクトル法(GPS)により正確な数値固有関数と固有値を求める。 2つの相関関数 \emph{viz。 ,} (i)単純でパラメトリケートされた局所ウィグナー型、及び (II)勾配およびラプラシアン依存非局所リー・ヤン・パリ(LYP)関数を用いて電子相関効果を解析した。 He-等電子系列(Z=2-4$)の基底状態とLiおよびBe原子について予備的な探索結果が提供される。 He原子の低い励起状態もいくつか報告されている。 これらは、利用可能な文献結果と比較される。 放射密度と期待値も提供される。 相関エネルギー汎関数の性能を批判的に論じる。 本質的に、これはKS密度汎関数理論のルーリック内にある \emph{hard} 球状箱内の原子系を研究するための単純で正確なスキームである。

An atom placed inside a cavity of finite dimension offers many interesting features, and thus has been a topic of great current activity. This work proposes a density functional approach to pursue both ground and excited states of a multi-electron atom under a spherically impenetrable enclosure. The radial Kohn-Sham (KS) equation has been solved by invoking a physically motivated work-function-based exchange potential, which offers near-Hartree-Fock-quality results. Accurate numerical eigenfunctions and eigenvalues are obtained through a generalized pseudospectral method (GPS) fulfilling the Dirichlet boundary condition. Two correlation functionals, \emph{viz.,} (i) simple, parametrized local Wigner-type, and (ii) gradient- and Laplacian-dependent non-local Lee-Yang-Parr (LYP) functionals are adopted to analyze the electron correlation effects. Preliminary exploratory results are offered for ground states of He-isoelectronic series ($Z=2-4$), as well as Li and Be atom. Several low-lying singly excited states of He atom are also reported. These are compared with available literature results -- which offers excellent agreement. Radial densities as well as expectation values are also provided. The performance of correlation energy functionals are discussed critically. In essence, this presents a simple, accurate scheme for studying atomic systems inside a \emph{hard} spherical box within the rubric of KS density functional theory.
翻訳日:2023-02-12 15:54:56 公開日:2022-05-19
# 周期駆動荷電密度波絶縁体におけるギャップバンド形成

In-Gap Band Formation in a Periodically Driven Charge Density Wave Insulator ( http://arxiv.org/abs/2205.09557v1 )

ライセンス: Link先を確認
Alexander Osterkorn and Constantin Meyer and Salvatore R. Manmana(参考訳) 周期的に駆動される量子多体系は、平衡で実現されない非伝統的な振舞いを持つ。 本研究では,ゼロ温度と強い相互作用で電荷密度波絶縁体を形成する鎖上のスピンレスフェルミオンの強相互作用について検討する。 時間依存スペクトル関数に対する非バイアス数値行列積状態法を用いて,相関電荷密度波インシュレータの駆動は,有効フロッケハミルトニアンによって予測される励起スペクトルの再正規化だけでなく,コサイン様インギャップ特徴にもつながることを見出した。 これは相互作用のない電荷密度波モデルでは得られない。 平均場処理は、二重励起の観点で部分的な説明を与える。 しかし、その全体像は強い相関効果を考慮する必要がある。

Periodically driven quantum many-body systems host unconventional behavior not realized at equilibrium. Here we investigate such a setup for strongly interacting spinless fermions on a chain, which at zero temperature and strong interactions form a charge density wave insulator. Using unbiased numerical matrix product state methods for time-dependent spectral functions, we find that driving of the correlated charge-density wave insulator leads not only to a renormalization of the excitation spectrum as predicted by an effective Floquet Hamiltonian, but also to a cosine-like in-gap feature. This is not obtained for a charge density wave model without interactions. A mean-field treatment provides a partial explanation in terms of doublon excitations. However, the full picture needs to take into account strong correlation effects.
翻訳日:2023-02-12 15:54:17 公開日:2022-05-19
# 単一駆動散逸非線形発振器を用いた量子連想メモリ

Quantum associative memory with a single driven-dissipative non-linear oscillator ( http://arxiv.org/abs/2205.09491v1 )

ライセンス: Link先を確認
Adri\`a Labay-Mora, Roberta Zambrini, Gian Luca Giorgi(参考訳) 連想メモリのアルゴリズムは一般に多くの接続ユニットのネットワークに依存している。 原型的な例はホップフィールドモデルであり、量子領域への一般化は主に開量子イジングモデルに基づいている。 本稿では,位相空間の無限自由度を利用した単一駆動型量子発振器による連想メモリの実現を提案する。 このモデルでは,分散ニューロン系システムの記憶容量を大域的に向上させ,システムの記憶パターンを表現したn$コヒーレント状態間の状態識別を成功させる。 これらは、駆動強度を変更し、修正された学習規則を構成することで、連続的に調整することができる。 この連想記憶容量は、リウビリアン超作用素におけるスペクトルギャップの存在と本質的に関連しており、これは準安定相に対応するダイナミクスにおいて大きな時間スケールの分離をもたらす。

Algorithms for associative memory typically rely on a network of many connected units. The prototypical example is the Hopfield model, whose generalizations to the quantum realm are mainly based on open quantum Ising models. We propose a realization of associative memory with a single driven-dissipative quantum oscillator exploiting its infinite degrees of freedom in phase space. The model can improve the storage capacity of discrete neuron-based systems in a large regime and we prove successful state discrimination between $n$ coherent states, which represent the stored patterns of the system. These can be tuned continuously by modifying the driving strength, constituting a modified learning rule. We show that the associative-memory capacity is inherently related to the existence of a spectral gap in the Liouvillian superoperator, which results in a large timescale separation in the dynamics corresponding to a metastable phase.
翻訳日:2023-02-12 15:53:31 公開日:2022-05-19
# 絡み合いと量子相関を伴わない結合型量子オットー熱機械の性能向上

Enhancing the performance of coupled quantum Otto thermal machines without entanglement and quantum correlations ( http://arxiv.org/abs/2205.09725v1 )

ライセンス: Link先を確認
Abdelkader El Makouri, Abdallah Slaoui, and Mohammed Daoud(参考訳) まず、KSEA相互作用と磁場の影響下での2つの結合スピン-1/2$のリビジョン研究から始める。 まず,idelレベル,すなわち外部磁場と結合しないレベルについて,システムが熱エンジンとして動作しているとき,冷蔵庫であるとき,その役割を示す。 次に,[Phys. Rev. E. 92 (2015) 022142] の欠陥を指摘し,そこで実証された2つの結合スピン-1/2$からグローバルに抽出されたワークの広範な特性を破壊するために,磁場と結合パラメータの両方を変更する必要はないことを示した。 次に, 結合スピン数の増加が効率, 抽出可能な作業量, 性能係数に及ぼす影響について検討した。 まず、2-および3-結合スピン-1/2$ハイゼンベルク$XXX$-鎖を考える。 本研究は, 効率, 抽出作業, COPの点で, 前者より優れていることを示す。 次に、相互作用するスピンの数が2から6であるイジングモデルを考える。 相互作用するスピン数が奇数である場合のみ、強結合状態において系は熱エンジンとして機能する。 効率とコップの強化は詳細に検討されている。 最後に、このモデルは、絡み合いと量子相関が効率性、余剰な仕事、COPで観測される利点の背後にある理由ではなく、作用物質のハミルトニアンのエネルギー準位の構造によるものであるという考えを裏付ける。

We start with a revision study of two coupled spin-$1/2$ under the influence of KSEA interaction and a magnetic field. We first show the role of idel levels, i.e., levels that do not couple to the external magnetic field, when the system is working as a heat engine as well as when it is a refrigerator. Then we point out a flaw in [Phys. Rev. E. 92 (2015) 022142] by showing that it is not necessary to change both the magnetic field as well as the coupling parameters to break the extensive property of the work extracted globally from two coupled spin-$1/2$ as has been demonstrated there. Then we study the role of increasing the number of coupled spins on efficiency, extractable work, and coefficient of performance (COP). First, we consider two- and three-coupled spin-$1/2$ Heisenberg $XXX$-chain. We prove that the latter can outperform the former in terms of efficiency, extractable work, and COP. Then we consider the Ising model, where the number of interacting spins ranges from two to six. We show that only when the number of interacting spins is odd the system can work as a heat engine in the strong coupling regime. The enhancements in efficiency and COP are explored in detail. Finally, this model confirms the idea that entanglement and quantum correlations are not the reasons behind the advantages observed in efficiency, extracatable work, and COP, but only due to the structure of the energy levels of the Hamiltonian of the working substance.
翻訳日:2023-02-12 15:46:05 公開日:2022-05-19
# 原子干渉計と時計を用いた微分測定のためのスピンスキーングスワップ

Spin-squeezing swapping for differential measurements with atom interferometers and clocks ( http://arxiv.org/abs/2205.09698v1 )

ライセンス: Link先を確認
Robin Corgier and Marco Malitesta and Augusto Smerzi and Luca Pezz\`e(参考訳) コモンモードノイズリジェクションにより、差動配置は原子干渉計による位相・周波数推定の現実的な応用に不可欠である。 微分干渉法は分散マルチパラメータ推定問題として理解することができ、モードと粒子の絡み合いの両方の利点がある。 現在、非相関粒子とモード分離可能な設定を持つ微分プロトコルは、標準量子限界(SQL)に制限された感度に達する。 本稿では,原子量子ネットワークにおけるスピンスクイーズを利用したSQLの克服を提案する。 単一のスピンスクイーズ状態は、共通の干渉計モードでモードスワップされる。 モードスワップは、差動位相シフトをサブSQL感度で推定するために最適化される。 数値計算はプロトコルの最適化を導く解析近似によって支援される。 このスキームは原子時計と干渉計のノイズのシミュレーションで試験される。

Thanks to common-mode noise rejection, differential configurations are crucial for realistic applications of phase and frequency estimation with atom interferometers. Differential interferometry can be understood as a distributed multiparameter estimation problem and can benefit from both mode and particle entanglement. Currently, differential protocols with uncorrelated particles and mode-separable settings reach a sensitivity bounded by the standard quantum limit (SQL). Here, we propose to overcome the SQL by exploiting spin-squeezing in an atomic quantum network. A single spin-squeezed state is mode-swapped among common interferometric modes. The mode swapping is optimized to estimate the differential phase shift with sub-SQL sensitivity. Numerical calculations are supported by analytical approximations that guide the optimization of the protocol. The scheme is also tested with simulation of noise in atomic clocks and interferometers.
翻訳日:2023-02-12 15:45:24 公開日:2022-05-19
# 量子コヒーレンスメーカとしてのビームスプリッター

Beam splitter as quantum coherence-maker ( http://arxiv.org/abs/2205.09697v1 )

ライセンス: Link先を確認
Laura Ares and Alfredo Luis(参考訳) この研究の目的は、ビームスプリッターがどれだけの量子コヒーレンスを生成できるかという疑問に答えることである。 この目的のために、入力状態のコヒーレンス量とビームスプリッタ特性の両方について研究中の変数として考察する。 以上より,コヒーレンス最大のゲインとなる因子の最適組み合わせが存在することを結論づける。 さらに、ビームスプリッタを通過する際にコヒーレンスを得ることができる研究状態として、2モード圧縮真空が発生する。 これらの結果はコヒーレンスの l1-ノルムとコヒーレンスの相対エントロピーに対して定性的に同値である。

The aim of this work is to answer the question of how much quantum coherence a beam splitter is able to produce. To this end we consider as the variables under study both the amount of coherence of the input states as well as the beam splitter characteristics. We conclude that there is an optimal combination of these factors making the gain of coherence maximum. In addition, the two mode squeezed vacuum arises as the studied state most capable of gaining coherence when passing through a beam splitter. These results are qualitatively equivalent for the the l1-norm of coherence and for the relative entropy of coherence.
翻訳日:2023-02-12 15:45:14 公開日:2022-05-19
# 構成空間上のアンサンブルを用いた古典的装置による量子系の計測

Measurement of a quantum system with a classical apparatus using ensembles on configuration space ( http://arxiv.org/abs/2205.09632v1 )

ライセンス: Link先を確認
Marcel Reginatto and Sebastian Ulbricht(参考訳) 古典系と量子系の間の相互作用をモデル化する物理的に一貫したアプローチを見つけることは極めて非自明な作業である。 様々な数学的形式主義に基づく多くの提案がなされているが、これらの取り組みのほとんどは何らかの困難に陥る。 最初の詳細な記述の1つは、スダルシャンと彼の共同研究者によって与えられ、彼は量子力学における測定問題に動機づけられ、古典的量子相互作用のヒルベルト空間の定式化を提案した。 ここでは、構成空間上のアンサンブルのアプローチを用いて、2つの局所状態の重ね合わせで準備された量子粒子の位置を測定する古典的な装置の詳細な説明を行う。 古典的な装置のポインタの確率は、量子粒子の確率に対応する状態に残されていることを示す。 その後のポインターの観測により、その確率密度が更新される。 これにより、量子粒子の位置に関する情報を得ることができ、その波動関数の更新に繋がる。 この形式は不確かさと有限な測定精度を取り入れているため、メトロロジー応用に適している。 さらに、装置の量子的記述の場合に現れる根本的な問題を解消する。

Finding a physically consistent approach to modelling interactions between classical and quantum systems is a highly nontrivial task. While many proposals based on various mathematical formalisms have been made, most of these efforts run into difficulties of one sort or another. One of the first detailed descriptions was given by Sudarshan and his collaborators who, motivated by the measurement problem in quantum mechanics, proposed a Hilbert space formulation of classical-quantum interactions which made use of the Koopman-von Neumann description of classical systems. Here we use the approach of ensembles on configurations space to give a detailed account of a classical apparatus measuring the position of a quantum particle that is prepared in a superposition of two localized states. We show that the probability of the pointer of the classical apparatus is left in a state that corresponds to the probability of the quantum particle. A subsequent observation of the pointer leads to an update of its probability density. From this we can obtain information about the position of the quantum particle, leading to an update of its wave function. Since this formalism incorporates uncertainties and finite measurement precision, it is well suited for metrological applications. Furthermore, it resolves fundamental issues that appear in the case of a quantum description of the apparatus.
翻訳日:2023-02-12 15:45:05 公開日:2022-05-19
# スピン光子界面におけるエネルギー効率の高い絡み合い生成と読み出し

Energy-efficient entanglement generation and readout in a spin-photon interface ( http://arxiv.org/abs/2205.09623v1 )

ライセンス: Link先を確認
Maria Maffei, Bruno O. Goes, Stephen C. Wein, Andrew N. Jordan, Lo\"ic Lanco and Alexia Auff\`eves(参考訳) 1次元の原子に結合したスピンからなる量子インターフェースを考察し、エネルギー効率の良い絡み合い生成と読み出しの可能性について検討する。 ゼロと単一光子の量子重ね合わせは光のコヒーレントパルスよりも優れており、同じエネルギーでより絡み合っていることを示す。 絡み合いは一般に偏光と時間的自由度に分散するが、光と物質間の相互作用によって形状が保存される準単色パルスは例外である。 古典レベルでスピン状態に関する情報が抽出されると、コヒーレントパルスよりも量子パルスによって提供されるエネルギー的優位性が維持される。 提案手法は、最先端の半導体デバイスにおける欠陥に対して堅牢である。

We consider a quantum interface made of a spin coupled to a one-dimensional atom, and study its potential for energy-efficient entanglement generation and readout. We show that quantum superpositions of zero and single-photon states outperform coherent pulses of light, producing more entanglement with the same energy. Entanglement is generally distributed over the polarisation and the temporal degrees of freedom, except for quasi-monochromatic pulses whose shape is preserved by light-matter interaction. The energetic advantage provided by quantum pulses over coherent ones is maintained when information on the spin state is extracted at the classical level. The proposed schemes are robust against imperfections in state-of-the-art semi-conducting devices.
翻訳日:2023-02-12 15:44:45 公開日:2022-05-19
# 実測QFT問題とQFTにおけるハイゼンベルク風切削の必要性

The Pragmatic QFT Measurement Problem and the need for a Heisenberg-like Cut in QFT ( http://arxiv.org/abs/2205.09608v1 )

ライセンス: Link先を確認
Daniel Grimmer(参考訳) 量子理論が(統計的)実験の結果を予測することに顕著な成功にもかかわらず、多くの哲学者は理論と実験の間に決定的なつながりがないことを心配している。 このような心配は、量子測定問題の根源にある。 私たちは2種類の懸念を特定できます。 1)実用的:理論的な予測を抽出するために実験をどのようにモデル化するかは定かでない。 2) 現実主義: これらの理論的な予測の基礎となる実験には現実主義的な物語はない。 どちらの心配も注意に値するが、現実的な懸念は、答えが得られなければ、はるかに悪い結果をもたらす。 さらに、私が論じるように、リフレクションにおいて、量子理論の実験的な成功のほとんど全てが、ある時点で量子場をモデル化することを必然的に伴います。 したがって、QFTの実用的理論と実験的リンクがなければ、量子論の大きな部分に対する明らかな支持を主張する権利を失うリスクがある。 そこで,Pragmatic QFT Measurement Problemに着目した。 しかし、QFTにおけるモデリング計測がなぜそんなに難しいのか? 議論するが、我々の非相対論的量子測定理論をQFTに鼻で移植しようとする試みは、深く非物理的で不満足である。 したがって、QFTの新しい(あるいは少なくとも洗練された)測定理論が必要である。 しかし、私が議論するとおり、新しい測定理論にあまりにも直接的に取り組むことは慎重な方法であり、我々を先導しがちである。 我々はまず、我々の非相対論的量子測定理論がどのように測定鎖やハイゼンベルク切断の概念に根ざしているかをよりよく理解する必要がある。 そして、これらの概念を一般化し、QFTに移植すべきである。 このような移植は本論文で実施する。 私の分析は、非相対論的文脈における実用的ハイゼンベルク切断の必要性に類似した実用的qftカットの必要性を示唆する。

Despite quantum theory's remarkable success at predicting the (statistical) results of experiments, many philosophers worry that it nonetheless lacks some crucial connection between theory and experiment. Such worries are at the root of the Quantum Measurement Problem. We can identify two kinds of worries: 1) pragmatic: it's unclear how to model our experiments to extract theoretical predictions, and 2) realist: there is no realist narrative for the experiment underlying these theoretical predictions. While both worries deserve attention, the pragmatic worries have far worse consequences if left unanswered. Moreover, as I will argue, upon reflection, a satisfactory explanation of almost all of quantum theory's experimental successes unavoidably involves modeling quantum fields at some point. Thus, without a pragmatic theory-to-experiment link for QFT, we are at risk of losing any right to claim evidential support for large parts of quantum theory. Hence, I focus on the Pragmatic QFT Measurement Problem. But, what makes modeling measurements in QFT so hard? As I will discuss, attempts to naively transplant our non-relativistic quantum measurement theory into QFT are deeply unphysical and unsatisfying. Thus we need a new (or at least refined) measurement theory for QFT. However, as I will argue, aiming too directly at a new measurement theory is an incautious way to proceed and is apt to lead us astray. This paper proposes an alternate way forward: We ought to first better understand how our non-relativistic quantum measurement theory is rooted in notions of measurement chains and Heisenberg cuts. Then we ought to generalize these notions and transplant them into QFT. Such a transplant is carried out in this paper. My analysis suggests the need for a pragmatic QFT-cut analogous to the need for a pragmatic Heisenberg cut in non-relativistic contexts.
翻訳日:2023-02-12 15:44:32 公開日:2022-05-19
# 量子資源を用いた高密度符号化よりも強い相関

Stronger correlations than dense coding with elementary quantum resources ( http://arxiv.org/abs/2205.09602v1 )

ライセンス: Link先を確認
Am\'elie Piveteau, Jef Pauwels, Emil H{\aa}kansson, Sadiq Muhammad, Mohamed Bourennane, Armin Tavakoli(参考訳) デンスコーディングは、エンタングルメントが量子通信をいかに促進するかを示す基礎的な例である。 EPR(Einstein-Podolsky-Rosen)ペアを共有することで、密度の高い符号化により、2ビットの古典的な情報を送信できる。 本文では,共有EPR対を補助する量子ビット通信が,より一般的な通信タスクにおいて2つの古典的ビットよりも厳密に強力であること,高密度符号化に不可欠なベル基底測定を部分的なベル状態分析器や製品測定などの基本的な測定に置き換えた場合でも,この利点は持続することを示す。 その結果,量子通信の質的向上における絡み合いの力は,チャネル容量の増大以上のものとなり,よりシンプルでスケーラブルな実験で得られることが明らかとなった。

Dense coding is the seminal example of how entanglement can boost quantum communication. By sharing an Einstein-Podolsky-Rosen (EPR) pair, dense coding allows one to transmit two bits of classical information while sending only one qubit. In this letter we show in both theory and experiment that qubit communication assisted by a shared EPR pair is strictly more powerful than two classical bits in more general communication tasks, and that this advantage persists even when the Bell basis measurement, which is essential for dense coding, is replaced by more elementary measurements such as partial Bell state analysers or even product measurements. Our results reveal that the power of entanglement in enhancing quantum communications qualitatively goes beyond boosting channel capacities and that it can be harvested in simpler and scalable experiments.
翻訳日:2023-02-12 15:43:47 公開日:2022-05-19
# 改良近似によるデングファンポテンシャルを受ける分子のro振動エネルギーと熱力学的性質

Ro-vibrational energy and thermodynamic properties of molecules subjected to Deng-Fan potential through an improved approximation ( http://arxiv.org/abs/2205.09590v1 )

ライセンス: Link先を確認
Debraj Nath and Amlan K. Roy(参考訳) デングファンポテンシャルを持つシュル=オディンガー方程式の正確な解をニキフォロフ-ウバロフ法による。 遠心項に対して、$r \to 0$ と $r \to r_e$ の線形結合から修正されたペケリス型近似が提案される。 一連の近似(調整可能なパラメータ$\lambda$に依存する)を提供する可能性がある。 文献の既存の近似は、特定のケースで回復することができる。 その効率性と実現性は、4つの分子に対して様々な$\lambda$'sで生成される固有値の臨界比較によって証明される。 }, H$_2$, LiH, HCl, CO。 解析式は、エネルギー、固有関数、振動平均自由エネルギー、振動自由エネルギー、振動エントロピー、振動固有熱などの熱力学特性に対して導出される。 分割関数と熱力学特性に対する量子補正の効果を、H$_2$およびLiHに対する10階補正を含むことによって論じる。 これらの特性に対する$\lambda$パラメータの影響も研究されている。

Accurate solution of the Schr\"odinger equation with Deng-Fan potential is presented by means of Nikiforov-Uvarov method. A modified Pekeris-type approximation is proposed for the centrifugal term, from a linear combination of the $r \to 0$ and $r \to r_e$ limits. It can potentially offer a series of approximations (depending on an adjustable parameter $\lambda$). The existing approximations in the literature can then be recovered in certain special cases. Its efficiency and feasibility is demonstrated by a critical comparison of eigenvalues produced at various $\lambda$'s for four molecules, \emph{viz.}, H$_2$, LiH, HCl and CO. Analytical expressions are derived for energies, eigenfunctions and the thermodynamic properties such as vibrational mean free energy, vibrational free energy, vibrational entropy and vibrational specific heat. The effect of quantum correction on partition function and thermodynamic properties is discussed by including the correction up to 10th-order, for H$_2$ and LiH. The effect of $\lambda$ parameter on these properties is also studied.
翻訳日:2023-02-12 15:43:30 公開日:2022-05-19
# アンダーソン不純物モデルにおける近藤ナノ機械散逸

Kondo nanomechanical dissipation in the driven Anderson impurity model ( http://arxiv.org/abs/2205.09789v1 )

ライセンス: Link先を確認
Lucas Kohn, Giuseppe E. Santoro, Michele Fabrizio, Erio Tosatti(参考訳) 近藤から非コンド状態への磁気不純物の周期的突然の切り替えは、最近、1サイクルあたり数ドル=k_bt_k$という重要な散逸を伴うことが示されている。 例えば、超感光性原子間力顕微鏡(AFM)ツールによるナノ機械散逸によって、これや他の電子過程を明らかにすることは、現在、異常で興味深い分光形態を示している。 ここでは, 急激なスイッチングと低速スイッチングの間に, 物理的に最大からゼロに減少することが期待される量である散逸の切替時間に対する依存性について検討する。 最近確立されたマトリクス生成状態に基づく時間依存変分アルゴリズムを磁場誘起型近藤スイッチングに応用することにより、消散は近藤時間スケール$\hbar(k_b t_k)^{-1}$またはより高速に切り替える必要があることがわかった。 このような高速なスイッチングは現在のAFMでは問題に思えるが、将来的には時間依存磁場、静電不純物レベルシフト、ハイブリダイゼーションスイッチングによる消耗を検出することが課題となる。

The cyclic sudden switching of a magnetic impurity from Kondo to a non-Kondo state and back was recently shown to involve an important dissipation of the order of several $k_BT_K$ per cycle. The possibility to reveal this and other electronic processes through nanomechanical dissipation by e.g., ultrasensitive Atomic Force Microscope (AFM) tools currently represents an unusual and interesting form of spectroscopy. Here we explore the dependence on the switching time of the expected dissipation, a quantity whose magnitude is physically expected to drop from maximum to zero between sudden and slow switching, respectively. By applying a recently established matrix-product-state based time-dependent variational algorithm to the magnetic field-induced Kondo switching in an Anderson model of the magnetic impurity, we find that dissipation requires switching within the Kondo time scale $\hbar(k_B T_K)^{-1}$ or faster. While such a fast switching seems problematic for current AFM setups, the challenge is open for future means to detect this dissipation by time-dependent magnetic fields, electrostatic impurity level shift, or hybridization switching.
翻訳日:2023-02-12 15:37:28 公開日:2022-05-19
# 真空は、他のシミュラブルアーキテクチャに対する量子的優位性を提供する

The vacuum provides quantum advantage to otherwise simulatable architectures ( http://arxiv.org/abs/2205.09781v1 )

ライセンス: Link先を確認
Cameron Calcluth, Alessandro Ferraro, Giulia Ferrini(参考訳) 我々は,理想的なgottesman-kitaev-preskill安定化状態,すべての有理シンプレクティック演算と実変位を含むガウス演算,ホモダイン測定からなる計算モデルを考える。 計算結果の確率密度関数を計算するアルゴリズムを明示的に提供することにより,このようなアーキテクチャが古典的に効率的にシミュレーション可能であることを実証する。 また,回路が条件演算を含む場合にサンプリングする手法を提案する。 この結果は、手前のコードに対して適切な安定化作用素を導入することによって、有名なゴッテマン=クニールの定理の拡張に基づいている。 b.q. baragiola et al [phys. rev. lett. 123, 200502 (2019)] によって考慮された普遍計算モデルにおいて量子優位を実現する資源は、上述の真空状態の条件を付加した要素のサブセットからなる真に真空状態である。

We consider a computational model composed of ideal Gottesman-Kitaev-Preskill stabilizer states, Gaussian operations - including all rational symplectic operations and all real displacements -, and homodyne measurement. We prove that such architecture is classically efficiently simulatable, by explicitly providing an algorithm to calculate the probability density function of the measurement outcomes of the computation. We also provide a method to sample when the circuits contain conditional operations. This result is based on an extension of the celebrated Gottesman-Knill theorem, via introducing proper stabilizer operators for the code at hand. We conclude that the resource enabling quantum advantage in the universal computational model considered by B.Q. Baragiola et al [Phys. Rev. Lett. 123, 200502 (2019)], composed of a subset of the elements given above augmented with a provision of vacuum states, is indeed the vacuum state.
翻訳日:2023-02-12 15:37:05 公開日:2022-05-19
# 多光子集合位相測定のためのスパース干渉法

Sparse interferometry for measuring multiphoton collective phase ( http://arxiv.org/abs/2205.09780v1 )

ライセンス: Link先を確認
Jizhou Wu and Barry C. Sanders(参考訳) 多光子集合相は、2光子散乱事象の列に還元できない多重光子散乱特徴であり、3光子「トライアドファス」は最小の非自明な例である。 高次集合相の観測は実験的に困難であり、三光子と四光子のみが観察されている。 本研究では,多光子集団位相を観測するための現在の最善の手法と比較して,より少ない干渉計の設計により,高次多光子集団位相観察を可能にする手法を提案する。 具体的には, 対数から定数までの光学的深さを減少させ, ビームスプリッター数をo(n\log n)$から線形スケーリングへ減少させる。 一定深さが集合相秩序にかかわらず損失と分散を一定速度に減少させるので、大規模集合相を観測する大きな障害が除去される。

A multiphoton collective phase is a multiphoton-scattering feature that cannot be reduced to a sequence of two-photon scattering events, and the three-photon "triad phas" is the smallest nontrivial example. Observing a higher-order collective phase is experimentally challenging, and only triad and four-photon tetrad collective phases have been observed. We introduce a scheme to make higher-order multiphoton collective-phase observations feasible by designing a sparse interferometer, which significantly reduces complexity compared with the current best scheme for observing a multiphoton collective phase. Specifically, our scheme reduces the optical depth from logarithmic to constant and reduces the number of beam splitters from $O(n\log n)$ to linear scaling with respect to the collective-phase order $n$. As constant depth reduces loss and dispersion to a fixed rate regardless of collective-phase order, a major obstacle to observing large-scale collective phases is removed.
翻訳日:2023-02-12 15:36:46 公開日:2022-05-19
# mat2qubit: 振動、ボソニック、グラフ彩色、ルーティング、スケジューリング、一般的な行列問題の量子ビット符号化のための軽量pythonパッケージ

mat2qubit: A lightweight pythonic package for qubit encodings of vibrational, bosonic, graph coloring, routing, scheduling, and general matrix problems ( http://arxiv.org/abs/2205.09776v1 )

ライセンス: Link先を確認
Nicolas PD Sawaya(参考訳) 量子コンピュータ上での実行には多くのコンパイルステップが必要になる。 自動コンパイルソフトウェアは、容易で高速な問題実行だけでなく、異なるアルゴリズム選択の比較を容易にするためにも有用である。 ここでは、古典的および量子的問題のいくつかのクラスをqubit表現にエンコードするPythonパッケージである mat2qubit について説明する。 特にハミルトニアンや 2 より大きい濃度を持つ変数(例えば粒子)上で定義される関数に使用されることを意図している。 より具体的には、 mat2qubit はボソニック、フォノニック、ビブレーション、スピン=$$の問題を、グラフカラー化、ルーティング、スケジューリング、古典線型代数などの古典的な問題をより一般にコンパイルするために用いられる。 数値解析とプログラム容易性を容易にするため、組込みコンピュータ代数システム(CAS)は、量子ビットへの最終コンパイルが行われる前に問題(記号演算子、記号係数、記号粒子ラベルを含む)の完全なシンボリックな準備と操作を可能にする。 ディジタル量子コンピュータ上での物理・化学・材料・最適化問題の準備と解析に,このコードが有用であることが期待されている。

Preparing problems for execution on quantum computers can require many compilation steps. Automated compilation software is useful not only for easier and faster problem execution, but also for facilitating the comparison between different algorithmic choices. Here we describe mat2qubit, a Python package for encoding several classes of classical and quantum problems into qubit representations. It is intended for use especially on Hamiltonians and functions defined over variables (e.g. particles) with cardinality larger than 2. More specifically, mat2qubit may be used to compile bosonic, phononic/vibrational, and spin-$s$ problems, as well as classical problems such as graph coloring, routing, scheduling, and classical linear algebra more generally. In order to facilitate numerical analyses and ease of programmability, a built-in computer algebra system (CAS) allows for fully symbolic preparation and manipulation of problems (with symbolic operators, symbolic coefficients, and symbolic particle labels) before the final compilation into qubits is performed. We expect this code to be useful in the preparation and analysis of various classes of physics, chemistry, materials, and optimization problems for execution on digital quantum computers.
翻訳日:2023-02-12 15:36:28 公開日:2022-05-19
# 決定論的テンソルネットワーク分類器

Deterministic Tensor Network Classifiers ( http://arxiv.org/abs/2205.09768v1 )

ライセンス: Link先を確認
L. Wright, F. Barratt, J. Dborin, V. Wimalaweera, B. Coyle, A. G. Green(参考訳) 本稿では,特徴抽出と分類器の性能改善のためのテンソルネットワークを提案する。 これらのネットワークは決定論的に初期化することができ、短期中規模量子(NISQ)デバイスに実装する可能性がある。 特徴抽出は、$\log N_{\text{pixels}}$ qubits上で振幅エンコードされたイメージを直接組み合わせて圧縮する。 性能は、構造によらず任意の分類器の予測に適用可能な決定論的手法である‘Quantum Stacking’を用いて改善され、データ再アップロードを用いてNISQデバイスに実装される。 これらの手順はデータのテンソルネットワークエンコーディングに適用され、10種類のmnistとファッションmnistデータセットに対してベンチマークされる。 優れたトレーニングとテスト精度は、変分トレーニングなしで達成される。

We present tensor networks for feature extraction and refinement of classifier performance. These networks can be initialised deterministically and have the potential for implementation on near-term intermediate-scale quantum (NISQ) devices. Feature extraction proceeds through a direct combination and compression of images amplitude-encoded over just $\log N_{\text{pixels}}$ qubits. Performance is refined using `Quantum Stacking', a deterministic method that can be applied to the predictions of any classifier regardless of structure, and implemented on NISQ devices using data re-uploading. These procedures are applied to a tensor network encoding of data, and benchmarked against the 10 class MNIST and fashion MNIST datasets. Good training and test accuracy are achieved without any variational training.
翻訳日:2023-02-12 15:35:51 公開日:2022-05-19
# 重ね合わせランダムスピンテンソルネットワークとそのホログラフィック特性

Superposed Random Spin Tensor Networks and their Holographic Properties ( http://arxiv.org/abs/2205.09761v1 )

ライセンス: Link先を確認
Simon Langenscheidt(参考訳) 本研究では,投影対状態 (PEPS) に類似して定義されるスピンネットワーク状態のクラスにおける境界-境界ホログラフィーの基準と性質について検討する。 特に、グラフ上のよく定義された離散幾何学に対応する状態の重ね合わせを考える。 ランダムテンソル平均化手法を適用することで、エントロピー計算を同じグラフ上のランダムイジングモデルにマッピングし、関連するジオメトリの相対サイズによってカップリングの分布を決定する。 ここで使われる可変結合次元を持つテンソルネットワーク状態の重ね合わせは、幾何学的背景上の真の量子和の像を示す。 各幾何学が固定境界領域 c からその補集合への等尺写像を生成すると、それらの重ね合わせは各幾何学への相対的な重みをその大きさに逆比例させる。 さらに、与えられた境界領域の面積の平均と分散を算出し、各領域の平均と和によって、平均が下から下から有界であることを確認する。 最後に,プログラムの拡張の可能性について概観し,実装に関する概念的制約を強調した。

We study criteria for and properties of boundary-to-boundary holography in a class of spin network states defined by analogy to projected entangled pair states (PEPS). In particular, we consider superpositions of states corresponding to well-defined, discrete geometries on a graph. By applying random tensor averaging techniques, we map entropy calculations to a random Ising model on the same graph, with distribution of couplings determined by the relative sizes of the involved geometries. The superposition of tensor network states with variable bond dimension used here presents a picture of a genuine quantum sum over geometric backgrounds. We find that, whenever each individual geometry produces an isometric mapping of a fixed boundary region C to its complement, then their superposition does so iff the relative weight going into each geometry is inversely proportional to its size. Additionally, we calculate average and variance of the area of the given boundary region and find that the average is bounded from below and above by the mean and sum of the individual areas, respectively. Finally, we give an outlook on possible extensions to our program and highlight conceptual limitations to implementing these.
翻訳日:2023-02-12 15:35:20 公開日:2022-05-19
# ランダム量子回路における量子複雑性の飽和と再帰

Saturation and recurrence of quantum complexity in random quantum circuits ( http://arxiv.org/abs/2205.09734v1 )

ライセンス: Link先を確認
Micha{\l} Oszmaniec, Micha{\l} Horodecki, Nicholas Hunter-Jones(参考訳) 量子複雑性 (quantum complexity) とは、与えられた状態またはユニタリチャネルをおよそ準備するために必要な基本演算数の最小値である。 近年、量子多体系のダイナミクスとadsブラックホールの長期特性の研究において、この概念は量子コンピューティングを超えて応用されている。 この文脈において、ブラウンとススキンドは、カオス量子系の複雑性は、系のサイズが最大値で飽和し、二重指数時間で繰り返し続くまで最大複素の時間で線形に成長すると予想した。 本研究では、ランダムな量子回路に基づくカオス的時間進化モデルにおいて、量子状態とユニタリの複雑性の飽和と再発を証明し、各ステップで局所的なランダムなユニタリ変換をシステムに適用する。 重要な点は、ゲート集合とキュービット相互作用の幾何学に関係なく、非常に一般的なランダム回路モデルについての研究である。 その結果、カオス量子系の長期的挙動の理解が進み、ブラックホールの内部の物理に光を当てることができた。 技術的な観点からは,ハール測度と高次近似設計との新たな定量的関係の確立と,十分に高い深さのランダム量子回路が近似設計に収束するという事実に基づいている。

Quantum complexity is a measure of the minimal number of elementary operations required to approximately prepare a given state or unitary channel. Recently, this concept has found applications beyond quantum computing -- in studying the dynamics of quantum many-body systems and the long-time properties of AdS black holes. In this context Brown and Susskind conjectured that the complexity of a chaotic quantum system grows linearly in time up to times exponential in the system size, saturating at a maximal value, and remaining maximally complex until undergoing recurrences at doubly-exponential times. In this work we prove the saturation and recurrence of the complexity of quantum states and unitaries in a model of chaotic time-evolution based on random quantum circuits, in which a local random unitary transformation is applied to the system at every time step. Importantly, our findings hold for quite general random circuit models, irrespective of the gate set and geometry of qubit interactions. Our results advance an understanding of the long-time behaviour of chaotic quantum systems and could shed light on the physics of black hole interiors. From a technical perspective our results are based on establishing new quantitative connections between the Haar measure and high-degree approximate designs, as well as the fact that random quantum circuits of sufficiently high depth converge to approximate designs.
翻訳日:2023-02-12 15:34:46 公開日:2022-05-19
# 密度汎関数フレームワークにおけるH$^-$イオンの収束

Confined H$^-$ ion within a density functional framework ( http://arxiv.org/abs/2205.10314v1 )

ライセンス: Link先を確認
Sangita Majumdar, Neetik Mukherjee and Amlan K. Roy(参考訳) 閉じ込められた負の水素イオンの基底および励起状態は、物理的に動機付けされたワークファンクションに基づく交換ポテンシャルを誘発することにより、コーンシャム密度汎関数法の下で追求されている。 交換のみの結果はhartree-fock品質に近い。 局所パラメータ化ウィグナー型および勾配およびラプラシアン依存性の非局所リー-ヤン-パー汎関数は電子相関効果を調べるために選択される。 ディリクレ境界条件に従う一般化擬スペクトル法を用いて固有関数と固有値を抽出する。 エネルギー値は、1s$^{2}$ ($^{1}$s)、1s2s ($^{3,1}$s)、1s2p ($^{3,1}$p)状態に対して報告される。 閉じ込めの文脈における相関関数の性能を批判的に検討した。 本研究結果は文献と良好に一致している。 さらに、シャノンエントロピーとオニスクのエネルギーは1s2s(^{3}$S)および1s2p(^{3}$P)状態に対して地上と低地で供給される。 電子相関の影響はより弱い閉じ込め限界において支配的であり、閉じ込め強度の増加とともに崩壊する。 本質的には、エネルギーといくつかの情報測度を、新たに定式化された密度汎関数戦略を用いて推定する。

Ground and excited states of a confined negative Hydrogen ion has been pursued under Kohn-Sham density functional approach by invoking a physically motivated work-function-based exchange potential. The exchange-only results are of near Hartree-Fock quality. Local parameterised Wigner-type, and gradient- and Laplacian-dependent non-local Lee-Yang-Parr functionals are chosen to investigate the electron correlation effects. Eigenfunctions and eigenvalues are extracted by using a generalized pseudospectral method obeying Dirichlet boundary condition. Energy values are reported for 1s$^{2}$ ($^{1}$S), 1s2s ($^{3,1}$S) and 1s2p ($^{3,1}$P) states. Performance of the correlation functionals in the context of confinement is examined critically. The present results are in excellent agreement with available literature. Additionally, Shannon entropy and Onicescu energy are offered for ground and low lying singly excited 1s2s ($^{3}$S) and 1s2p ($^{3}$P) states. The influence of electron correlation is more predominant in the weaker confinement limit and it decays with an increase in confinement strength. In essence, energy and some information measures are estimated using a newly formulated density functional strategy.
翻訳日:2023-02-12 15:27:16 公開日:2022-05-19
# マニング・ローゼンとP\"oschl-Teller電位のロ-振動エネルギー解析と遠心項での新たな近似

Ro-vibrational energy analysis of Manning-Rosen and P\"oschl-Teller potentials with a new improved approximation in the centrifugal term ( http://arxiv.org/abs/2205.10313v1 )

ライセンス: Link先を確認
Debraj Nath and Amlan K. Roy(参考訳) 2つの物理的に重要なポテンシャル(Manning-Rosen と P\"oschl-Teller")は二原子分子のロ-振動エネルギーであると考えられている。 改良された新しい近似が遠心項に対して呼び出され、ニキフォロフ・ウバロフフレームワーク内の解法に使用される。 これは最近提案されたスキームを採用しており、グリーン・アルドリッチとピーケリス型近似を組み合わせたものである。 したがって、近似解析式は固有値と固有関数に対して導出される。 エネルギーは2つの近似パラメータ、$\lambda$と$\nu$について検討される。 元の近似はこれらの2つのパラメータの特定の特殊値に対して復元される。 これは量子力学におけるこれらおよび他の関連するポテンシャルに対する単純な効果的なスキームを提供する。

Two physically important potentials (Manning-Rosen and P\"oschl-Teller) are considered for the ro-vibrational energy in diatomic molecules. An improved new approximation is invoked for the centrifugal term, which is then used for their solution within the Nikiforov-Uvarov framework. This employs a recently proposed scheme, which combines the two widely used Greene-Aldrich and Pekeris-type approximations. Thus, approximate analytical expressions are derived for eigenvalues and eigenfunctions. The energies are examined with respect to two approximation parameters, $\lambda$ and $\nu$. The original approximations are recovered for certain specials values of these two parameters. This offers a simple effective scheme for these and other relevant potentials in quantum mechanics.
翻訳日:2023-02-12 15:26:54 公開日:2022-05-19
# 6導出量子重力におけるベータ関数の構造を理解する方法

How to understand the Structure of Beta Functions in Six-derivative Quantum Gravity? ( http://arxiv.org/abs/2205.09893v1 )

ライセンス: Link先を確認
Les{\l}aw Rachwa{\l}(参考訳) 我々は高微分重力の研究を広範囲に動機付け、特に、定義に6つの微分を持つ新しい量子特徴理論が持つものを強調する。 次に、一般に4つの微分(ワイルテンソル二乗、リッチスカラー二乗、ガウス・ボネスカラー)と3つの共変項の前の3つの結合で得られた全量子レベルベータ関数の正確な数学的構造を、d=4$時空次元で最小6微分量子重力で議論する。 ここでの基本的役割は、ワイルテンソルの項の前における結合の比$x$と、元の作用におけるリッチスカラーの項の前における結合によって演じられる。 x$ の多項式依存性と拡張共形対称性の欠如と再正規化可能性の関係を, 4-および 6-導出理論において形式的に $x\to+\infty$ とするモデルで示した。

We extensively motivate the studies of higher-derivative gravities, and in particular we emphasize which new quantum features theories with six derivatives in their definitions possess. Next, we discuss the mathematical structure of the exact on the full quantum level beta functions obtained previously for three couplings in front of generally covariant terms with four derivatives (Weyl tensor squared, Ricci scalar squared and the Gauss-Bonnet scalar) in minimal six-derivative quantum gravity in $d=4$ spacetime dimensions. The fundamental role here is played by the ratio $x$ of the coupling in front of the term with Weyl tensors to the coupling in front of the term with Ricci scalars in the original action. We draw a relation between the polynomial dependence on $x$ and the absence/presence of enhanced conformal symmetry and renormalizability in the models where formally $x\to+\infty$ in the case of four- and six-derivative theories respectively.
翻訳日:2023-02-12 15:26:42 公開日:2022-05-19
# 繰り返し相互作用過程による量子電池の効率変動

Efficiency fluctuations in a quantum battery charged by a repeated interaction process ( http://arxiv.org/abs/2205.09835v1 )

ライセンス: Link先を確認
Felipe Barra(参考訳) 補助熱システムによって補助される繰り返し相互作用プロセスは、量子電池を充電する。 充電エネルギーは、電池と熱システムとの相互作用をオンオフすることで供給される。 荷電状態は繰り返し相互作用過程の平衡状態であり、エルゴトロピーはその電荷を特徴づける。 作業サイクルは、エルゴトロピーを抽出し、電池を再び充電する。 本稿では, プロセスの変動効率, その他の変動特性について論じる。 これらの揺らぎは平衡分布に支配され、他のプロセスの性質に弱い。

A repeated interaction process assisted by auxiliary thermal systems charges a quantum battery. The charging energy is supplied by switching on and off the interaction between the battery and the thermal systems. The charged state is an equilibrium state for the repeated interaction process, and the ergotropy characterizes its charge. The working cycle consists in extracting the ergotropy and charging the battery again. We discuss the fluctuating efficiency of the process, among other fluctuating properties. These fluctuations are dominated by the equilibrium distribution and depend weakly on other process properties.
翻訳日:2023-02-12 15:25:42 公開日:2022-05-19
# 表面符号のパイプライン相関最小重量完全マッチング

Pipelined correlated minimum weight perfect matching of the surface code ( http://arxiv.org/abs/2205.09828v1 )

ライセンス: Link先を確認
Alexandru Paler, Austin G. Fowler(参考訳) 検出イベント間の相関を考慮することを含む,最小ウェイト完全マッチングを用いて表面コードを復号するパイプライン手法について述べる。 独立な非通信可並列化処理段階は、潜在的な相関関係に従ってグラフを再重み付けし、次いで高信頼マッチングのための別の非通信可並列化処理段階が続く。 後段の一般ステージがマッチングを終了します。 これは、グラフの一般マッチングと再重み付けの間の複雑な相互作用を必要とする以前の相関マッチング技法の単純化である。 この単純化により、相関マッチングによりリアルタイム処理を行う可能性が向上するが、論理誤差率は実質的に変化しない。 完全にフォールトトレラントなトーリック, 回転しない, 回転する曲面符号に対して, 標準偏極雑音で新しいアルゴリズムを検証する。 これらのテクニックは他の幅広いデコーダにも適用できると考えています。

We describe a pipeline approach to decoding the surface code using minimum weight perfect matching, including taking into account correlations between detection events. An independent no-communication parallelizable processing stage reweights the graph according to likely correlations, followed by another no-communication parallelizable stage for high confidence matching. A later general stage finishes the matching. This is a simplification of previous correlated matching techniques which required a complex interaction between general matching and re-weighting the graph. Despite this simplification, which gives correlated matching a better chance of achieving real-time processing, we find the logical error rate practically unchanged. We validate the new algorithm on the fully fault-tolerant toric, unrotated, and rotated surface codes, all with standard depolarizing noise. We expect these techniques to be applicable to a wide range of other decoders.
翻訳日:2023-02-12 15:25:34 公開日:2022-05-19
# 言語モデルの微調整を改善するインフォーマティブコンテキストの選択

Selecting Informative Contexts Improves Language Model Finetuning ( http://arxiv.org/abs/2005.00175v3 )

ライセンス: Link先を確認
Richard Antonello, Nicole Beckage, Javier Turek, and Alexander Huth(参考訳) 言語モデルの微調整は現代の自然言語処理には不可欠であるが、計算に高価で時間を要する。 さらに、微調整の有効性は、パフォーマンスに悪影響を及ぼすトレーニング例を含めることによって制限される。 本稿では,言語モデルファインチューニングの総合的訓練効率と最終性能を改善するため,情報ゲインフィルタと呼ぶ汎用的なファインチューニング手法を提案する。 我々は、サンプルの情報ゲインを、そのサンプルのトレーニング後のテストメトリクスの改善として定義する。 その後、二次学習者がこの量を近似するように訓練される。 微調整中、学習者は情報的サンプルを選択し、非情報的サンプルをスキップする。 提案手法は,データセット,微調整タスク,言語モデルアーキテクチャにまたがって一貫した改善が得られた。 例えば、書籍データセットの平均パープレキシティは54.0であり、標準的な微調整では57.3である。 標準的な微調整よりも,提案手法の改善に関する洞察を与える統計的証拠を提示する。 提案手法の一般化により,言語モデルファインチューニングの新たなパラダイムが提案され,研究者は学習者に対して,学習者の事前学習を共通コーパス上にリリースして,効率的かつ効果的なファインチューニングを促進するとともに,性能の向上と言語モデルファインチューニングの全体的なエネルギーフットプリントの削減を図っている。

Language model fine-tuning is essential for modern natural language processing, but is computationally expensive and time-consuming. Further, the effectiveness of fine-tuning is limited by the inclusion of training examples that negatively affect performance. Here we present a general fine-tuning method that we call information gain filtration for improving the overall training efficiency and final performance of language model fine-tuning. We define the information gain of an example as the improvement on a test metric after training on that example. A secondary learner is then trained to approximate this quantity. During fine-tuning, this learner selects informative examples and skips uninformative ones. We show that our method has consistent improvement across datasets, fine-tuning tasks, and language model architectures. For example, we achieve a median perplexity of 54.0 on a books dataset compared to 57.3 for standard fine-tuning. We present statistical evidence that offers insight into the improvements of our method over standard fine-tuning. The generality of our method leads us to propose a new paradigm for language model fine-tuning -- we encourage researchers to release pretrained secondary learners on common corpora to promote efficient and effective fine-tuning, thereby improving the performance and reducing the overall energy footprint of language model fine-tuning.
翻訳日:2022-12-07 23:37:35 公開日:2022-05-19
# ディジタルアニールを用いたベイズネットワーク構造学習

Bayesian Network Structure Learning using Digital Annealer ( http://arxiv.org/abs/2006.06926v3 )

ライセンス: Link先を確認
Yuta Shikuri(参考訳) 二次的非制約バイナリ最適化(QUBO)を解くアナリングプロセッサは、スコアベースのベイズネットワーク構造学習の精度を向上させるための潜在的なブレークスルーである。 しかし、現在、アニールプロセッサのビット容量は非常に限られている。 アニーリングプロセッサのパワーを利用するには、スコアベースの学習問題をビットの上限内でQUBOにエンコードする必要がある。 本稿では,候補となる親集合を分解する手法を提案する。 337ドルから223ドルの変数を持つベンチマークネットワークの実験結果は、半導体技術で開発された完全結合アニーリングプロセッサである第4世代富士通デジタルアニーラーのビット容量よりも少ないビットを必要とすることを示している。 さらに,本手法によるディジタルアニーラは,ベンチマークネットワーク上で既存のアルゴリズムよりも優れていることを示す。 ベイズネットワークの学習において,プロセッサのアニーリングが有効であることが期待される。

Annealing processors, which solve a quadratic unconstrained binary optimization (QUBO), are a potential breakthrough in improving the accuracy of score-based Bayesian network structure learning. However, currently, the bit capacity of an annealing processor is very limited. To utilize the power of annealing processors, it is necessary to encode score-based learning problems into QUBO within the upper bound of bits. In this paper, we propose a novel approach with the decomposition of candidate parent sets. Experimental results on benchmark networks with $37$ to $223$ variables show that our approach requires lesser bits than the bit capacity of the fourth-generation Fujitsu Digital Annealer, a fully coupled annealing processor developed with semiconductor technology. Moreover, we demonstrate that the Digital Annealer with our conversion method outperforms existing algorithms on some benchmark networks. It is expected that our approach promotes the utility of annealing processors in learning the Bayesian network.
翻訳日:2022-11-22 02:31:06 公開日:2022-05-19
# 正規化層による学習の球面的視点

Spherical Perspective on Learning with Normalization Layers ( http://arxiv.org/abs/2006.13382v3 )

ライセンス: Link先を確認
Simon Roburin, Yann de Mont-Marin, Andrei Bursuc, Renaud Marlet, Patrick P\'erez, Mathieu Aubry(参考訳) 正規化層(NL)は現代のディープラーニングアーキテクチャで広く使われている。 明らかな単純さにもかかわらず、最適化に対する効果はまだ完全には理解されていない。 本稿では,NLを用いたニューラルネットワークの最適化を幾何学的観点から研究するための球面フレームワークを提案する。 具体的には、畳み込みニューラルネットワークのフィルタのようなパラメータのグループのラジアル不変性により、$l_2$単位超球上の最適化ステップを変換できる。 この定式化と関連する幾何学的解釈は、トレーニングダイナミクスに新しい光を当てた。 まず、アダムの最初の効果的な学習率表現を導出する。 そして、NLが存在する場合、SGD(Stochastic Gradient Descent)を単独で実行するという実演は、実際には、単位超球面に制約されたアダムの変種と等価である。 最後に,従来のadamの変種が作用する現象を概説し,最適化プロセスにおけるその重要性を実験的に検証する。

Normalization Layers (NLs) are widely used in modern deep-learning architectures. Despite their apparent simplicity, their effect on optimization is not yet fully understood. This paper introduces a spherical framework to study the optimization of neural networks with NLs from a geometric perspective. Concretely, the radial invariance of groups of parameters, such as filters for convolutional neural networks, allows to translate the optimization steps on the $L_2$ unit hypersphere. This formulation and the associated geometric interpretation shed new light on the training dynamics. Firstly, the first effective learning rate expression of Adam is derived. Then the demonstration that, in the presence of NLs, performing Stochastic Gradient Descent (SGD) alone is actually equivalent to a variant of Adam constrained to the unit hypersphere, stems from the framework. Finally, this analysis outlines phenomena that previous variants of Adam act on and their importance in the optimization process are experimentally validated.
翻訳日:2022-11-17 22:15:18 公開日:2022-05-19
# SEMI:マルチセンサー・インコングルティによる自己監督型探査

SEMI: Self-supervised Exploration via Multisensory Incongruity ( http://arxiv.org/abs/2009.12494v2 )

ライセンス: Link先を確認
Jianren Wang, Ziwen Zhuang, Hang Zhao(参考訳) 効率の良い探索は強化学習における長年の課題である。 この問題に対する一般的な解決策は、新奇なシグナルを内在的な報酬としてエージェントに与えることである。 本研究では,エージェントに刺激を与えて新たな新規性信号,多感覚不整合を最大化する自己教師型探索政策であるSEMIを紹介する。 前者は多感覚入力の不一致を表し、後者は異なる感覚入力の下でのエージェントのポリシーの分散を表す。 具体的には、アライメント予測器を用いて、複数の感覚入力がアライメントされているかどうかを検知し、その誤差を知覚の不一致を測定する。 政策モデルは、多感覚観測の異なる組み合わせを入力として、探索のためのアクションを出力する。 アクションのばらつきは、アクションの不整合を測定するためにさらに使用される。 両者を内在的な報酬として使用することで、エージェントは外部の報酬なしで自己監督的な方法でスキルを学習することができる。 さらに、SEMIは外部報酬と互換性があることを示し、政策学習のサンプル効率を向上させる。 SEMIの有効性は、オブジェクト操作やオーディオ視覚ゲームなど、様々なベンチマーク環境で実証されている。

Efficient exploration is a long-standing problem in reinforcement learning since extrinsic rewards are usually sparse or missing. A popular solution to this issue is to feed an agent with novelty signals as intrinsic rewards. In this work, we introduce SEMI, a self-supervised exploration policy by incentivizing the agent to maximize a new novelty signal: multisensory incongruity, which can be measured in two aspects, perception incongruity and action incongruity. The former represents the misalignment of the multisensory inputs, while the latter represents the variance of an agent's policies under different sensory inputs. Specifically, an alignment predictor is learned to detect whether multiple sensory inputs are aligned, the error of which is used to measure perception incongruity. A policy model takes different combinations of the multisensory observations as input and outputs actions for exploration. The variance of actions is further used to measure action incongruity. Using both incongruities as intrinsic rewards, SEMI allows an agent to learn skills by exploring in a self-supervised manner without any external rewards. We further show that SEMI is compatible with extrinsic rewards and it improves sample efficiency of policy learning. The effectiveness of SEMI is demonstrated across a variety of benchmark environments including object manipulation and audio-visual games.
翻訳日:2022-10-14 08:36:38 公開日:2022-05-19
# 機械学習の展開における課題:ケーススタディの調査

Challenges in Deploying Machine Learning: a Survey of Case Studies ( http://arxiv.org/abs/2011.09926v3 )

ライセンス: Link先を確認
Andrei Paleyes, Raoul-Gabriel Urma, Neil D. Lawrence(参考訳) 近年、機械学習は学術研究の分野から、現実世界のビジネス問題を解決することのできる分野へと移行している。 しかし、本番システムへの機械学習モデルのデプロイには、多くの問題と懸念がある。 この調査は、さまざまなユースケース、業界、アプリケーションにおける機械学習ソリューションのデプロイに関する報告をレビューし、機械学習デプロイメントワークフローのステージに対応する実践的考察を抽出した。 機械学習デプロイメントワークフローのステップに対する課題のマッピングによって、デプロイプロセスの各段階で、実践者が問題に直面していることが分かる。 本稿の目的は,これらの課題に対するアプローチを検討するための研究課題を整理することである。

In recent years, machine learning has transitioned from a field of academic research interest to a field capable of solving real-world business problems. However, the deployment of machine learning models in production systems can present a number of issues and concerns. This survey reviews published reports of deploying machine learning solutions in a variety of use cases, industries and applications and extracts practical considerations corresponding to stages of the machine learning deployment workflow. By mapping found challenges to the steps of the machine learning deployment workflow we show that practitioners face issues at each stage of the deployment process. The goal of this paper is to lay out a research agenda to explore approaches addressing these challenges.
翻訳日:2022-09-24 04:48:05 公開日:2022-05-19
# 層幅データフリーCNN圧縮

Layer-Wise Data-Free CNN Compression ( http://arxiv.org/abs/2011.09058v3 )

ライセンス: Link先を確認
Maxwell Horton, Yanzi Jin, Ali Farhadi, Mohammad Rastegari(参考訳) 本稿では,実データを用いずに学習したニューラルネットワークを計算効率良く圧縮する手法を提案する。 データフリーネットワーク圧縮の問題を,独立したレイヤワイド圧縮に分割する。 本研究では,事前学習ネットワークのみを用いて,レイヤワイドトレーニングデータを効率的に生成する方法を示す。 このデータを用いて、事前訓練されたネットワーク上で独立したレイヤワイズ圧縮を行う。 また,ネットワークをプリコンディショニングして,階層圧縮手法の精度を向上させる方法を示す。 本稿では,量子化とプルーニングを用いた層間圧縮の結果について述べる。 量子化の際には、計算の桁数を桁違いに減らしながら、関連する作業よりも高い精度で圧縮する。 提案手法は,MobileNetV2を圧縮し,ImageNet上での評価を行う場合,すべてのビット幅で既存の量子化手法よりも優れ,$+0.34\%の量子化を実現し,$8$の量子化で$+0.34\%の精度向上を実現した。 プルーニングでは、同様の計算エンベロープのベースラインを上回り、同じ精度でスパーシティレートの1.5ドルを達成します。 また,提案手法を高速な生成法と組み合わせて結果を改善する方法についても述べる。

We present a computationally efficient method for compressing a trained neural network without using real data. We break the problem of data-free network compression into independent layer-wise compressions. We show how to efficiently generate layer-wise training data using only a pretrained network. We use this data to perform independent layer-wise compressions on the pretrained network. We also show how to precondition the network to improve the accuracy of our layer-wise compression method. We present results for layer-wise compression using quantization and pruning. When quantizing, we compress with higher accuracy than related works while using orders of magnitude less compute. When compressing MobileNetV2 and evaluating on ImageNet, our method outperforms existing methods for quantization at all bit-widths, achieving a $+0.34\%$ improvement in $8$-bit quantization, and a stronger improvement at lower bit-widths (up to a $+28.50\%$ improvement at $5$ bits). When pruning, we outperform baselines of a similar compute envelope, achieving $1.5$ times the sparsity rate at the same accuracy. We also show how to combine our efficient method with high-compute generative methods to improve upon their results.
翻訳日:2022-09-24 04:11:12 公開日:2022-05-19
# 画像再構成のためのマルチスケール畳み込み辞書の学習

Learning Multiscale Convolutional Dictionaries for Image Reconstruction ( http://arxiv.org/abs/2011.12815v3 )

ライセンス: Link先を確認
Tianlin Liu, Anadi Chaman, David Belius, and Ivan Dokmani\'c(参考訳) 畳み込みニューラルネットワーク(CNN)は、画像逆問題の解決に非常に成功した。 彼らの成功を理解するための効果的な戦略は、cnnと必須成分を共有するよりシンプルで数学的に扱いやすい畳み込み型スパースコーディング(csc)モデルを構築することである。 しかし、既存のCSC手法は、逆問題において主要なCNNの性能を損なう。 多くのCNNではマルチスケールの特徴表現を使用しているが、既存のCSCモデルは主として単一スケールの辞書に依存している。 そこで,性能ギャップを解消するために,多スケール畳み込み辞書構造を提案する。 提案する辞書構造は、画像から画像への学習問題に対して最も多彩で広く使用されるcnnであるu-netに由来する。 提案したマルチスケール辞書を標準のCSCフレームワークに組み込むことで,CTやMRIの再構成など,さまざまな課題において最先端のCNNと競合する性能が得られることを示す。 そこで本研究では,逆問題に対するマルチスケールCSC手法の有効性と拡張性を示す。

Convolutional neural networks (CNNs) have been tremendously successful in solving imaging inverse problems. To understand their success, an effective strategy is to construct simpler and mathematically more tractable convolutional sparse coding (CSC) models that share essential ingredients with CNNs. Existing CSC methods, however, underperform leading CNNs in challenging inverse problems. We hypothesize that the performance gap may be attributed in part to how they process images at different spatial scales: While many CNNs use multiscale feature representations, existing CSC models mostly rely on single-scale dictionaries. To close the performance gap, we thus propose a multiscale convolutional dictionary structure. The proposed dictionary structure is derived from the U-Net, arguably the most versatile and widely used CNN for image-to-image learning problems. We show that incorporating the proposed multiscale dictionary in an otherwise standard CSC framework yields performance competitive with state-of-the-art CNNs across a range of challenging inverse problems including CT and MRI reconstruction. Our work thus demonstrates the effectiveness and scalability of the multiscale CSC approach in solving challenging inverse problems.
翻訳日:2022-09-21 02:39:27 公開日:2022-05-19
# (参考訳) 画像認識のための時相ニューロモルフィックエンコーダのインタースパイク間隔の設計と数学的モデル化

Design and Mathematical Modelling of Inter Spike Interval of Temporal Neuromorphic Encoder for Image Recognition ( http://arxiv.org/abs/2205.09519v1 )

ライセンス: CC BY 4.0
Aadhitiya VS, Jani Babu Shaik, Sonal Singhal, Siona Menezes Picardo, Nilesh Goel(参考訳) ニューロモルフィックコンピューティングシステムは、混合モードアナログまたはデジタルVLSI回路を用いて生体神経系の電気生理学的挙動をエミュレートする。 これらのシステムは、認知タスクの実行において優れた精度と電力効率を示す。 ニューロモルフィックコンピューティングシステムで使用されるニューラルネットワークアーキテクチャは、生物学的神経系に類似したニューラルネットワーク(SNN)をスパイクしている。 SNNは時としてスパイク列車を運行している。 ニューロモルフィックエンコーダは、感覚データをスパイクトレインに変換する。 本稿では,画像処理のための低消費電力ニューロモルフィックエンコーダを提案する。 また、画像の画素とスパイク間隔の間の数学的モデルも定式化する。 一方、画素とスパイク間隔間の指数的関係が得られる。 最後に、数式は回路シミュレーションによって検証される。

Neuromorphic computing systems emulate the electrophysiological behavior of the biological nervous system using mixed-mode analog or digital VLSI circuits. These systems show superior accuracy and power efficiency in carrying out cognitive tasks. The neural network architecture used in neuromorphic computing systems is spiking neural networks (SNNs) analogous to the biological nervous system. SNN operates on spike trains as a function of time. A neuromorphic encoder converts sensory data into spike trains. In this paper, a low-power neuromorphic encoder for image processing is implemented. A mathematical model between pixels of an image and the inter-spike intervals is also formulated. Wherein an exponential relationship between pixels and inter-spike intervals is obtained. Finally, the mathematical equation is validated with circuit simulation.
翻訳日:2022-06-27 08:48:28 公開日:2022-05-19
# (参考訳) Hippocluster: 効率的な海馬インスパイアされたグラフクラスタリングアルゴリズム

Hippocluster: an efficient, hippocampus-inspired algorithm for graph clustering ( http://arxiv.org/abs/2205.12338v1 )

ライセンス: CC BY 4.0
Eric Chalmers and Artur Luczak(参考訳) ランダムウォークは、ネットワーク内のコミュニティやクラスタを明らかにする可能性がある。 このように、コミュニティ検出アルゴリズムの1つのファミリーはランダムウォークを使用して、ノードのペア間の距離を様々な方法で測定し、K-Meansや他の一般的なクラスタリング手法をこれらの距離に適用する。 興味深いことに、脳内の情報処理はランダムウォークから直接クラスタを学習する方法を示唆するかもしれない。 海馬からインスピレーションを得た単純な2層ニューラルネットワークフレームワークについて述べる。 1層のニューロンはグラフノードと関連付けられ、ランダムウォークをシミュレートする。 これらのシミュレーションにより、第2層のニューロンは単純な連想学習によってグラフクラスタにチューニングされる。 これらの神経相互作用が特定の方法でモデル化されている場合、このシステムは本質的に、歩行空間に直接適用されるK-Meansクラスタリングの変種であり、ノード距離/相似性の計算の通常のステップをバイパスすることを示す。 その結果,効率的なグラフクラスタリング法が得られた。 生物情報処理システムは高い効率と適応性で知られている。 ベンチマークグラフのテストでは,この高いデータ効率,低メモリ使用量,低複雑性,グラフ変更へのリアルタイム適応性を示すとともに,クラスタリング品質を他のアルゴリズムと同等に達成している。

Random walks can reveal communities or clusters in networks, because they are more likely to stay within a cluster than leave it. Thus, one family of community detection algorithms uses random walks to measure distance between pairs of nodes in various ways, and then applies K-Means or other generic clustering methods to these distances. Interestingly, information processing in the brain may suggest a simpler method of learning clusters directly from random walks. Drawing inspiration from the hippocampus, we describe a simple two-layer neural learning framework. Neurons in one layer are associated with graph nodes and simulate random walks. These simulations cause neurons in the second layer to become tuned to graph clusters through simple associative learning. We show that if these neuronal interactions are modelled a particular way, the system is essentially a variant of K-Means clustering applied directly in the walk-space, bypassing the usual step of computing node distances/similarities. The result is an efficient graph clustering method. Biological information processing systems are known for high efficiency and adaptability. In tests on benchmark graphs, our framework demonstrates this high data-efficiency, low memory use, low complexity, and real-time adaptation to graph changes, while still achieving clustering quality comparable to other algorithms.
翻訳日:2022-06-27 08:42:54 公開日:2022-05-19
# (参考訳) Spikemax: 分類のためのスパイクベースの損失方法

Spikemax: Spike-based Loss Methods for Classification ( http://arxiv.org/abs/2205.09845v1 )

ライセンス: CC BY 4.0
Sumit Bam Shrestha and Longwei Zhu and Pengfei Sun(参考訳) Spiking Neural Networks〜(SNN)は、低消費電力エッジベースのコンピューティングのための有望な研究パラダイムである。 SNNバックプロパゲーションの最近の研究により,SNNの実践的な訓練が可能になった。 しかし、スパイクは時間内にバイナリイベントとなるため、標準損失定式化はスパイク出力と直接互換性がない。 その結果、現在の作業はスパイク数の平均二乗損失の使用に限られる。 本稿では,スパイク数測度からの出力確率解釈を定式化し,特にエネルギー効率と推論レイテンシの観点から分類タスクに適するスパイクに基づく負の対数類似度尺度を提案する。 我々は,nmnist,dvs gesture,n-tidigits18の3つのベンチマークデータセットにおいて,損失尺度を他の既存手法と比較し,分類性能評価を行った。 さらに,これらのデータセット上での技術性能を実証し,より高速な推論速度と省エネルギーを実現する。

Spiking Neural Networks~(SNNs) are a promising research paradigm for low power edge-based computing. Recent works in SNN backpropagation has enabled training of SNNs for practical tasks. However, since spikes are binary events in time, standard loss formulations are not directly compatible with spike output. As a result, current works are limited to using mean-squared loss of spike count. In this paper, we formulate the output probability interpretation from the spike count measure and introduce spike-based negative log-likelihood measure which are more suited for classification tasks especially in terms of the energy efficiency and inference latency. We compare our loss measures with other existing alternatives and evaluate using classification performances on three neuromorphic benchmark datasets: NMNIST, DVS Gesture and N-TIDIGITS18. In addition, we demonstrate state of the art performances on these datasets, achieving faster inference speed and less energy consumption.
翻訳日:2022-06-27 08:26:49 公開日:2022-05-19
# (参考訳) 接続経路としての文:脳における文構造のニューラル言語構造

Sentences as connection paths: A neural language architecture of sentence structure in the brain ( http://arxiv.org/abs/2206.01725v1 )

ライセンス: CC BY 4.0
Frank van der Velde(参考訳) 本稿では,脳における文構造のニューラル言語構造について述べる。文は,単語の基盤となる神経構造を相互に接続する時間的接続経路である。 言葉は「in-situ」のままであり、常に内容に順応できる。 任意文と新規文(新語)は、単語や文の「神経黒板」で作成することができる。 したがって、自然言語の無限の生産性は、ネットワーク構造のような「固定された」小さな世界によって達成できる。 記事は文のニューラルブラックボードに焦点を当てている。 このアーキテクチャは、文中の単語間のすべての構造的関係を結び付けるために、1つの「接続行列」のみを使用する。 任意の(英語)文を表現する能力は、それらの包括的分析に基づいて詳細に議論される。 このアーキテクチャは、文処理中に観察される頭蓋内脳活動と、文の複雑さと曖昧さに関連するfMRI観察をシミュレートする。 シミュレーションの結果, 観察された効果は, 関係する文構造ではなく, アーキテクチャのグローバルな制御に関係していることが示唆された。 その他の側面として、接続経路によって提供される「本質的な」文構造とスコープと屈折の関係、結合の制御のための依存性パーサの使用、長距離依存関係とギャップ、質問応答、明示的なバックトラックなしの後方処理に基づくあいまいさの解決、庭の小道、埋め込みに関連するパフォーマンス上の困難がある。

This article presents a neural language architecture of sentence structure in the brain, in which sentences are temporal connection paths that interconnect neural structures underlying their words. Words remain 'in-situ', hence they are always content-addressable. Arbitrary and novel sentences (with novel words) can be created with 'neural blackboards' for words and sentences. Hence, the unlimited productivity of natural language can be achieved with a 'fixed' small world like network structure. The article focuses on the neural blackboard for sentences. The architecture uses only one 'connection matrix' for binding all structural relations between words in sentences. Its ability to represent arbitrary (English) sentences is discussed in detail, based on a comprehensive analysis of them. The architecture simulates intra-cranial brain activity observed during sentence processing and fMRI observations related to sentence complexity and ambiguity. The simulations indicate that the observed effects relate to global control over the architecture, not to the sentence structures involved, which predicts higher activity differences related to complexity and ambiguity with higher comprehension capacity. Other aspects discussed are the 'intrinsic' sentence structures provided by connection paths and their relation to scope and inflection, the use of a dependency parser for control of binding, long-distance dependencies and gaps, question answering, ambiguity resolution based on backward processing without explicit backtracking, garden paths, and performance difficulties related to embeddings.
翻訳日:2022-06-12 23:05:08 公開日:2022-05-19
# (参考訳) ウェーブレットベースを用いた空間トランスクリプトミクス次元化

Spatial Transcriptomics Dimensionality Reduction using Wavelet Bases ( http://arxiv.org/abs/2205.11243v1 )

ライセンス: CC BY 4.0
Zhuoyan Xu, Kris Sankaran(参考訳) 空間分解転写学(st)は、測定の空間座標とともに遺伝子発現を測定する。 STデータの解析には計算の複雑さが伴う。 本研究では,空間構造を保持する遺伝子発現次元削減アルゴリズムを提案する。 ウェーブレット変換と行列分解を組み合わせ、空間的に変化する遺伝子を選択する。 これらの遺伝子の低次元表現を抽出する。 経験的ベイズ設定を考慮し、因子遺伝子の事前分布を通して正規化を示唆する。 さらに,全球空間パターンを捉えた抽出表現遺伝子の可視化を行う。 シミュレーションにおいて,空間構造回復と遺伝子発現再構成による手法の性能を示す。 実データ実験では,遺伝子因子の空間構造を同定し,再構成誤差に関する正規分解よりも優れていた。 遺伝子パターンのゆらぎとウェーブレット技術との関係を見出した結果,よりスムーズな可視化が可能となった。 このパッケージを開発し、再現可能な定量的結果と遺伝子視覚化を生成するワークフローを共有する。 パッケージはhttps://github.com/OliverXUZY/waveSTで入手できる。

Spatially resolved transcriptomics (ST) measures gene expression along with the spatial coordinates of the measurements. The analysis of ST data involves significant computation complexity. In this work, we propose gene expression dimensionality reduction algorithm that retains spatial structure. We combine the wavelet transformation with matrix factorization to select spatially-varying genes. We extract a low-dimensional representation of these genes. We consider Empirical Bayes setting, imposing regularization through the prior distribution of factor genes. Additionally, We provide visualization of extracted representation genes capturing the global spatial pattern. We illustrate the performance of our methods by spatial structure recovery and gene expression reconstruction in simulation. In real data experiments, our method identifies spatial structure of gene factors and outperforms regular decomposition regarding reconstruction error. We found the connection between the fluctuation of gene patterns and wavelet technique, providing smoother visualization. We develop the package and share the workflow generating reproducible quantitative results and gene visualization. The package is available at https://github.com/OliverXUZY/waveST.
翻訳日:2022-06-06 05:39:12 公開日:2022-05-19
# (参考訳) 機械学習とディープラーニング技術を用いたヒューマンアクティビティの分類

Classifying Human Activities using Machine Learning and Deep Learning Techniques ( http://arxiv.org/abs/2205.10325v1 )

ライセンス: CC BY 4.0
Sanku Satya Uday, Satti Thanuja Pavani, T.Jaya Lakshmi, Rohit Chivukula(参考訳) human activity recognition (har) は、人間の行動を認識する機械の能力を記述する。 現在、地球上のほとんどの人は健康を意識しているため、人々はスマートフォンやスマートウォッチを使って日々の活動を追跡することに興味がある。 この目的により、Kaggleは30人のボランティアスマートフォンから得られた慣性信号に基づいて、6つの異なる人間の活動を明確に分類する競争を行った。 harの主な課題は、与えられたデータに基づいて人間の活動を切り離すことの難しさを克服し、2つの活動が重複しないようにすることだ。 この実験では、まず、データビジュアライゼーションは、t分散Stochastic Neighborhood Embeddingの助けを借りて、専門家が作成した機能に基づいて行われ、続いて、ロジスティック回帰、線形SVC、カーネルSVM、決定木といったさまざまな機械学習技術を適用して、6つの異なる人間のアクティビティをよりよく分類する。 さらに、Long Short-Term Memory (LSTM)、Bi-Directional LSTM、Recurrent Neural Network (RNN)、Gated Recurrent Unit (GRU)といったディープラーニング技術を生時系列データを用いて訓練する。 最後に、機械学習およびディープラーニングモデルのパフォーマンスを評価するために、精度、混乱マトリックス、精度、リコールなどのメトリクスが使用される。 実験の結果,機械学習における線形支援ベクトル分類器とディープラーニングにおけるGated Recurrent Unitは,他の分類器と比較して,人間の活動認識の精度が高かった。

Human Activity Recognition (HAR) describes the machines ability to recognize human actions. Nowadays, most people on earth are health conscious, so people are more interested in tracking their daily activities using Smartphones or Smart Watches, which can help them manage their daily routines in a healthy way. With this objective, Kaggle has conducted a competition to classify 6 different human activities distinctly based on the inertial signals obtained from 30 volunteers smartphones. The main challenge in HAR is to overcome the difficulties of separating human activities based on the given data such that no two activities overlap. In this experimentation, first, Data visualization is done on expert generated features with the help of t distributed Stochastic Neighborhood Embedding followed by applying various Machine Learning techniques like Logistic Regression, Linear SVC, Kernel SVM, Decision trees to better classify the 6 distinct human activities. Moreover, Deep Learning techniques like Long Short-Term Memory (LSTM), Bi-Directional LSTM, Recurrent Neural Network (RNN), and Gated Recurrent Unit (GRU) are trained using raw time series data. Finally, metrics like Accuracy, Confusion matrix, precision and recall are used to evaluate the performance of the Machine Learning and Deep Learning models. Experiment results proved that the Linear Support Vector Classifier in machine learning and Gated Recurrent Unit in Deep Learning provided better accuracy for human activity recognition compared to other classifiers.
翻訳日:2022-06-06 05:21:49 公開日:2022-05-19
# (参考訳) 女性、人工知能、そしてコラボレーションネットワークにおける重要な位置:より平等な科学エコシステムを目指して

Women, artificial intelligence, and key positions in collaboration networks: Towards a more equal scientific ecosystem ( http://arxiv.org/abs/2205.12339v1 )

ライセンス: CC BY 4.0
Anahita Hajibabaei and Andrea Schiffauerova and Ashkan Ebadi(参考訳) ほぼすべての分野における科学的コラボレーションは、主に知識、専門知識、プールされたリソースを共有する必要性によって導かれる。 科学はますます複雑になってきており、科学者は課題にもっと対処するために協力研究プロジェクトに参加するように促している。 急速に進化する科学的な展望を持つ高度に学際的な分野として、人工知能は様々なスキルと専門知識をカバーする特別なプロファイルを持つ研究者を求める。 科学的なコラボレーションのジェンダー的側面を理解することは、特に大きな投資を集めている人工知能のような分野において、最も重要である。 本研究は,2000年から2019年にかけてのソーシャル・ネットワーク分析,自然言語処理,機械学習を用いて,ジェンダー・レンズによる科学協力ネットワークにおける重要な位置獲得に対する,いくつかの要因の影響を総合的に検討した。 その結果、性別にかかわらず、量や影響の科学的なパフォーマンスは「社会研究者」をネットワークに持つ上で極めて重要であることがわかった。 しかし,「局所的インフルエンサー」の役割獲得において,男女の微妙な違いが見られた。

Scientific collaboration in almost every discipline is mainly driven by the need of sharing knowledge, expertise, and pooled resources. Science is becoming more complex which has encouraged scientists to involve more in collaborative research projects in order to better address the challenges. As a highly interdisciplinary field with a rapidly evolving scientific landscape, artificial intelligence calls for researchers with special profiles covering a diverse set of skills and expertise. Understanding gender aspects of scientific collaboration is of paramount importance, especially in a field such as artificial intelligence that has been attracting large investments. Using social network analysis, natural language processing, and machine learning and focusing on artificial intelligence publications for the period from 2000 to 2019, in this work, we comprehensively investigated the effects of several driving factors on acquiring key positions in scientific collaboration networks through a gender lens. It was found that, regardless of gender, scientific performance in terms of quantity and impact plays a crucial in possessing the "social researcher" in the network. However, subtle differences were observed between female and male researchers in acquiring the "local influencer" role.
翻訳日:2022-06-06 04:57:15 公開日:2022-05-19
# (参考訳) 正則化スパージャ相関によるマルチタスク一般化の改善

Improving Multi-Task Generalization via Regularizing Spurious Correlation ( http://arxiv.org/abs/2205.09797v1 )

ライセンス: CC0 1.0
Ziniu Hu and Zhe Zhao and Xinyang Yi and Tiansheng Yao and Lichan Hong and Yizhou Sun and Ed H. Chi(参考訳) マルチタスク学習(MTL)は知識共有による一般化性能向上のための強力な学習パラダイムである。 しかし、既存の研究では、特に2つのタスクの相関が低い場合、MTLが一般化を損なうことがある。 一般化を損なう理由の1つは、スプリアス相関(sprious correlation)、すなわち、いくつかの知識はスプリアスであり、タスクラベルに因果関係はないが、モデルがそれを誤用し、そのような相関が変化した場合に失敗する可能性がある。 MTL設定では、刺激的な相関に関するいくつかのユニークな課題が存在する。 共有mtlモデルは、異なるタスクからのすべての知識をエンコードする必要があるため、一方のタスクの因果知識は他方に拍車をかける可能性がある。 第2に、タスクラベルの共創者は、MTLと異なる種類の刺激的相関をもたらす。 理論的には、MTLはシングルタスク学習よりも、他のタスクから非因果的知識を取る傾向があり、それによってより一般化される。 そこで本研究では,神経モジュールの疎結合によるマルチタスク知識の表現を目的とし,mtl固有の不変正規化によって各タスクに因果関係のあるモジュールを学習するマルチタスク因果表現学習フレームワークを提案する。 実験の結果、mtlモデルの性能は、スプリアス相関問題を緩和することで、マルチmnist、movielens、taskonomy、cityscape、nyuv2よりも平均5.5%向上することが判明した。

Multi-Task Learning (MTL) is a powerful learning paradigm to improve generalization performance via knowledge sharing. However, existing studies find that MTL could sometimes hurt generalization, especially when two tasks are less correlated. One possible reason that hurts generalization is spurious correlation, i.e., some knowledge is spurious and not causally related to task labels, but the model could mistakenly utilize them and thus fail when such correlation changes. In MTL setup, there exist several unique challenges of spurious correlation. First, the risk of having non-causal knowledge is higher, as the shared MTL model needs to encode all knowledge from different tasks, and causal knowledge for one task could be potentially spurious to the other. Second, the confounder between task labels brings in a different type of spurious correlation to MTL. We theoretically prove that MTL is more prone to taking non-causal knowledge from other tasks than single-task learning, and thus generalize worse. To solve this problem, we propose Multi-Task Causal Representation Learning framework, aiming to represent multi-task knowledge via disentangled neural modules, and learn which module is causally related to each task via MTL-specific invariant regularization. Experiments show that it could enhance MTL model's performance by 5.5% on average over Multi-MNIST, MovieLens, Taskonomy, CityScape, and NYUv2, via alleviating spurious correlation problem.
翻訳日:2022-06-06 04:06:39 公開日:2022-05-19
# (参考訳) キャリブレーション問題:大規模広告レコメンデーションシステムにおける最大化バイアスに取り組む

Calibration Matters: Tackling Maximization Bias in Large-scale Advertising Recommendation Systems ( http://arxiv.org/abs/2205.09809v1 )

ライセンス: CC BY 4.0
Yewen Fan, Nian Si, Kun Zhang(参考訳) キャリブレーションは、平均予測クリック率と真のクリック率との比として定義される。 キャリブレーションの最適化は多くのオンライン広告レコメンデーションシステムにとって必要不可欠なものである。 その重要性にもかかわらず、キャリブレーション最適化はしばしば「最大化バイアス」と呼ばれる問題に悩まされる。 最大化バイアスとは、予測値の最大値が真の最大値を過大評価する現象を指す。 この問題は、予測モデル自体によって選択された集合上で校正が計算されるからである。 たとえバイアスのない予測がすべてのデータポイントで達成できたとしても持続し、トレーニングとテストセットの間に共変量が存在する場合、さらに悪化する。 この問題を緩和するために, 最大化バイアスの定量化を理論化し, 分散調整デバイアス (vad) メタアルゴリズムを提案する。 このアルゴリズムは、共変量シフトの下で最大化バイアス問題を軽減できるため、効率的で堅牢で実用的であり、追加のオンラインサービスコストやランキングのパフォーマンスを損なわない。 大規模実世界のデータセット上で,最先端のレコメンデーションニューラルネットワークモデルを用いて提案アルゴリズムの有効性を示す。

Calibration is defined as the ratio of the average predicted click rate to the true click rate. The optimization of calibration is essential to many online advertising recommendation systems because it directly affects the downstream bids in ads auctions and the amount of money charged to advertisers. Despite its importance, calibration optimization often suffers from a problem called "maximization bias". Maximization bias refers to the phenomenon that the maximum of predicted values overestimates the true maximum. The problem is introduced because the calibration is computed on the set selected by the prediction model itself. It persists even if unbiased predictions can be achieved on every datapoint and worsens when covariate shifts exist between the training and test sets. To mitigate this problem, we theorize the quantification of maximization bias and propose a variance-adjusting debiasing (VAD) meta-algorithm in this paper. The algorithm is efficient, robust, and practical as it is able to mitigate maximization bias problems under covariate shifts, neither incurring additional online serving costs nor compromising the ranking performance. We demonstrate the effectiveness of the proposed algorithm using a state-of-the-art recommendation neural network model on a large-scale real-world dataset.
翻訳日:2022-06-06 03:32:23 公開日:2022-05-19
# (参考訳) 人狼ゲームのための新しい重み付きアンサンブル学習エージェント

A Novel Weighted Ensemble Learning Based Agent for the Werewolf Game ( http://arxiv.org/abs/2205.09813v1 )

ライセンス: CC BY 4.0
Mohiuddeen Khan, Claus Aranha(参考訳) ワイアウルフは世界中で人気のあるパーティーゲームであり、近年その重要性の研究が進んでいる。 人狼ゲームは会話に基づいており、勝つためには、参加者はすべての認知能力を使わなければならない。 このコミュニケーションゲームは、プレイヤーが勝つために非常に洗練されたエージェントを必要とする。 本研究では,複雑な重み付きアンサンブル学習手法を用いて,Werewolfをプレイする洗練されたエージェントを作成した。 この研究は、他のエージェントやプレイヤーがゲームで我々をどう考えているかを推定することを目的としている。 このエージェントは、AI Wolfコンペティションのさまざまな参加者の戦略を集約して開発され、機械学習を使ってそれらから学習する。 さらに、作成したエージェントは他の競合製品よりも性能が向上し、非常に基本的な戦略を用いて、人狼ゲームにおけるアプローチの有効性を示すことができた。 ここで使用される機械学習技術は、Werewolfゲームに限らず、他の参加者によるコミュニケーションとアクションを必要とするどんなゲームにも拡張することができる。

Werewolf is a popular party game throughout the world, and research on its significance has progressed in recent years. The Werewolf game is based on conversation, and in order to win, participants must use all of their cognitive abilities. This communication game requires the playing agents to be very sophisticated to win. In this research, we generated a sophisticated agent to play the Werewolf game using a complex weighted ensemble learning approach. This research work aimed to estimate what other agents/players think of us in the game. The agent was developed by aggregating strategies of different participants in the AI Wolf competition and thereby learning from them using machine learning. Moreover, the agent created was able to perform much better than other competitors using very basic strategies to show the approach's effectiveness in the Werewolf game. The machine learning technique used here is not restricted to the Werewolf game but may be extended to any game that requires communication and action depending on other participants.
翻訳日:2022-06-06 02:53:28 公開日:2022-05-19
# (参考訳) MiDAS:フェイクニュース検出のためのマルチ統合ドメイン適応スーパービジョン

MiDAS: Multi-integrated Domain Adaptive Supervision for Fake News Detection ( http://arxiv.org/abs/2205.09817v1 )

ライセンス: CC BY 4.0
Abhijit Suprem and Calton Pu(参考訳) 新型コロナウイルス関連の偽情報や偽ニュースは、ここ数年で劇的に増加している。 この誤報は、偽ニュースの分布が時間とともに変化するという概念ドリフトを示し、以前に訓練された偽ニュース検出モデルの有効性を低下させる。 複数のドメインでトレーニングされた偽ニュースモデルのセットを考えると、新しいサンプルに最適なモデルを選択するための適応決定モジュールを提案する。 既存のモデルと新しいサンプルの関連性をランク付けする,偽ニュース検出のためのマルチドメイン適応手法であるMiDASを提案する。 MiDASには、doman-invariant encoderとAdaptive model selectorの2つのコンポーネントが含まれている。 MiDASは、訓練済みおよび微調整された複数のモデルとトレーニングデータを統合し、ドメイン不変表現を生成する。 次に、MiDASは不変埋め込み空間の局所リプシッツ滑らかさを用いて、各モデルの新しいサンプルとの関係を推定する。 上位のモデルは予測を提供し、下位のモデルは無視する。 我々は,9つの偽ニュースデータセットを用いたドリフトデータへの一般化に関するMIDASの評価を行った。 MiDASは、配信外フェイクニュース分類のためのマルチドメイン適応のための新しい最先端性能を実現する。

COVID-19 related misinformation and fake news, coined an 'infodemic', has dramatically increased over the past few years. This misinformation exhibits concept drift, where the distribution of fake news changes over time, reducing effectiveness of previously trained models for fake news detection. Given a set of fake news models trained on multiple domains, we propose an adaptive decision module to select the best-fit model for a new sample. We propose MiDAS, a multi-domain adaptative approach for fake news detection that ranks relevancy of existing models to new samples. MiDAS contains 2 components: a doman-invariant encoder, and an adaptive model selector. MiDAS integrates multiple pre-trained and fine-tuned models with their training data to create a domain-invariant representation. Then, MiDAS uses local Lipschitz smoothness of the invariant embedding space to estimate each model's relevance to a new sample. Higher ranked models provide predictions, and lower ranked models abstain. We evaluate MiDAS on generalization to drifted data with 9 fake news datasets, each obtained from different domains and modalities. MiDAS achieves new state-of-the-art performance on multi-domain adaptation for out-of-distribution fake news classification.
翻訳日:2022-06-06 02:45:47 公開日:2022-05-19
# (参考訳) 学習に基づく近似符号計算へのアプローチ

A Learning-Based Approach to Approximate Coded Computation ( http://arxiv.org/abs/2205.09818v1 )

ライセンス: CC BY 4.0
Navneet Agrawal, Yuqin Qiu, Matthias Frey, Igor Bjelakovic, Setareh Maghsudi, Slawomir Stanczak, Jingge Zhu(参考訳) ラグランジュ符号化計算(lcc)は、行列多項式に関する問題を符号化分散形式で解くのに必須であるが、行列多項式として表現可能な問題のみを解くことができる。 本稿では,LCCにヒントを得たAI支援学習手法として,深層ニューラルネットワーク(DNN)を用いたAICCを提案する。 より一般的な関数の符号化計算に適している。 数値シミュレーションにより,デジタル信号処理によく利用される行列関数の符号化計算に,提案手法が適用可能であることを示す。

Lagrange coded computation (LCC) is essential to solving problems about matrix polynomials in a coded distributed fashion; nevertheless, it can only solve the problems that are representable as matrix polynomials. In this paper, we propose AICC, an AI-aided learning approach that is inspired by LCC but also uses deep neural networks (DNNs). It is appropriate for coded computation of more general functions. Numerical simulations demonstrate the suitability of the proposed approach for the coded computation of different matrix functions that are often utilized in digital signal processing.
翻訳日:2022-06-06 02:30:49 公開日:2022-05-19
# (参考訳) 最大モーメント制限による近位推論のための深層学習手法

Deep Learning Methods for Proximal Inference via Maximum Moment Restriction ( http://arxiv.org/abs/2205.09824v1 )

ライセンス: CC BY 4.0
Benjamin Kompa and David R. Bellamy and Thomas Kolokotrones and James M. Robins and Andrew L. Beam(参考訳) No Unmeasured Confounding Assumptionは、観察研究における因果関係の同定に広く用いられている。 近位推論に関する最近の研究は、観測されていない共同設立者の存在下でも成功する別の識別結果を提供しており、特定の構造条件を満たす十分なリッチなプロキシ変数を計測している。 しかし、近位推理は不適切な積分方程式を解く必要がある。 以前のアプローチでは、この積分方程式の解を推定するために様々な機械学習技術を使用しており、一般にブリッジ関数と呼ばれる。 しかしながら、事前の作業は、データ適応性がなく、大規模なデータセットにスケールするのに苦労する、事前に指定されたカーネル関数に依存することで制限されることが多い。 本研究では,深層ニューラルネットワークを用いたフレキシブルでスケーラブルな手法を提案する。 本手法は, 確立された2つの近位推定ベンチマークにおいて, 技術性能の状態を実現できる。 最後に,提案手法の理論的整合性を保証する。

The No Unmeasured Confounding Assumption is widely used to identify causal effects in observational studies. Recent work on proximal inference has provided alternative identification results that succeed even in the presence of unobserved confounders, provided that one has measured a sufficiently rich set of proxy variables, satisfying specific structural conditions. However, proximal inference requires solving an ill-posed integral equation. Previous approaches have used a variety of machine learning techniques to estimate a solution to this integral equation, commonly referred to as the bridge function. However, prior work has often been limited by relying on pre-specified kernel functions, which are not data adaptive and struggle to scale to large datasets. In this work, we introduce a flexible and scalable method based on a deep neural network to estimate causal effects in the presence of unmeasured confounding using proximal inference. Our method achieves state of the art performance on two well-established proximal inference benchmarks. Finally, we provide theoretical consistency guarantees for our method.
翻訳日:2022-06-06 02:19:04 公開日:2022-05-19
# (参考訳) 弱最適輸送のためのアルゴリズムと経済学への応用

Algorithms for Weak Optimal Transport with an Application to Economics ( http://arxiv.org/abs/2205.09825v1 )

ライセンス: CC BY 4.0
Fran\c{c}ois-Pierre Paty, Philippe Chon\'e, Francis Kramarz(参考訳) ゴズランらによって導入された弱最適輸送理論(WOT)は、ある点と一致する点の間の輸送コストを非線形にすることで古典的なモンゲ・カントロヴィッチの枠組みを一般化する。 WOT のいわゆる Barycentric バージョンでは、ある点を x$ で輸送するコストは、その点が一致する点の Barycenter にのみ依存する。 WOTのこのアグリゲーション特性は、機械学習、経済、金融にアピールしている。 しかし、WOTを計算するアルゴリズムは、二次バリ中心のWOTの特殊な場合のみ開発され、あるいは計算値とマッチングを保証しないニューラルネットワークに依存している。 主な困難は、投射するのにコストがかかる交通の制約である。 本稿では,wot問題の原始バージョンと双対バージョンを解くために,ミラー降下アルゴリズムを用いることを提案する。 また、このアルゴリズムを[Chon\'e et al., 2022] によって導入された WOT の変種にも適用し、そこでは質量をある空間から別の空間へ非正規化カーネル (WOTUK) を通して分散させる。 WOTとWOTUKの解を古典OTと経験的に比較する。 我々は,労働市場における労働者と企業とのマッチングという,[Chon\'e and Kramarz, 2021]の経済枠組みについて,我々の数値手法を説明する。

The theory of weak optimal transport (WOT), introduced by [Gozlan et al., 2017], generalizes the classic Monge-Kantorovich framework by allowing the transport cost between one point and the points it is matched with to be nonlinear. In the so-called barycentric version of WOT, the cost for transporting a point $x$ only depends on $x$ and on the barycenter of the points it is matched with. This aggregation property of WOT is appealing in machine learning, economics and finance. Yet algorithms to compute WOT have only been developed for the special case of quadratic barycentric WOT, or depend on neural networks with no guarantee on the computed value and matching. The main difficulty lies in the transportation constraints which are costly to project onto. In this paper, we propose to use mirror descent algorithms to solve the primal and dual versions of the WOT problem. We also apply our algorithms to the variant of WOT introduced by [Chon\'e et al., 2022] where mass is distributed from one space to another through unnormalized kernels (WOTUK). We empirically compare the solutions of WOT and WOTUK with classical OT. We illustrate our numerical methods to the economic framework of [Chon\'e and Kramarz, 2021], namely the matching between workers and firms on labor markets.
翻訳日:2022-06-06 01:59:12 公開日:2022-05-19
# (参考訳) Manifold-aligned Neighbor Embedding

Manifold-aligned Neighbor Embedding ( http://arxiv.org/abs/2205.11257v1 )

ライセンス: CC BY 4.0
Mohammad Tariqul Islam, Jason W. Fleischer(参考訳) 本稿では,多様体アライメントのための隣接埋め込みフレームワークを提案する。 本研究では,一様多様体近似および投影アルゴリズムの多様体整列版を用いたフレームワークの有効性を示す。 我々のアルゴリズムは、データセット全体の埋め込みに視覚的に競合する整列多様体を学習できることを示す。

In this paper, we introduce a neighbor embedding framework for manifold alignment. We demonstrate the efficacy of the framework using a manifold-aligned version of the uniform manifold approximation and projection algorithm. We show that our algorithm can learn an aligned manifold that is visually competitive to embedding of the whole dataset.
翻訳日:2022-06-06 01:39:51 公開日:2022-05-19
# パラメータ化物理インフォームドニューラルネットワークを用いた多孔質媒質中の輸送の不確かさ定量化

Uncertainty Quantification for Transport in Porous media using Parameterized Physics Informed neural Networks ( http://arxiv.org/abs/2205.12730v1 )

ライセンス: Link先を確認
Cedric Fraces Gasmi and Hamdi Tchelepi(参考訳) 本稿では,物理インフォームドニューラルネットワーク(p-pinn)手法のパラメトリゼーションを行い,貯留層工学問題における不確実性定量化問題に取り組む。 異種多孔質媒質中の不混和性二相流変位(Buckley-Leverett問題)によるアプローチを示す。 貯留層特性(ポーシティ、透過性)は確率変数として扱われる。 これらの特性の分布は、流体飽和、前方伝播速度、ブレークスルー時間などの動的特性に影響を及ぼす。 我々は、複雑な高次元関数を補間するネットワークの能力の利点を探求し、活用する。 偏微分方程式の確率的処理により得られる付加次元は、ピンの性能を向上させることが示される利子量(分配パラメータ)に対してより滑らかな解を生み出す傾向がある。 PINNは不確実性空間の適切なパラメータ化を提供することで、アンサンブル実現と確率的モーメントを密接に一致させる解を生成できることを示す。 均質場と異質場の両方への応用を実証する。 古典的な手法では難しい問題の解決が可能です。 このアプローチは、入力空間の変動に対してより堅牢で、従来の確率的サンプリング手法と性能的に競合する訓練されたモデルを生み出す。

We present a Parametrization of the Physics Informed Neural Network (P-PINN) approach to tackle the problem of uncertainty quantification in reservoir engineering problems. We demonstrate the approach with the immiscible two phase flow displacement (Buckley-Leverett problem) in heterogeneous porous medium. The reservoir properties (porosity, permeability) are treated as random variables. The distribution of these properties can affect dynamic properties such as the fluids saturation, front propagation speed or breakthrough time. We explore and use to our advantage the ability of networks to interpolate complex high dimensional functions. We observe that the additional dimensions resulting from a stochastic treatment of the partial differential equations tend to produce smoother solutions on quantities of interest (distributions parameters) which is shown to improve the performance of PINNS. We show that provided a proper parameterization of the uncertainty space, PINN can produce solutions that match closely both the ensemble realizations and the stochastic moments. We demonstrate applications for both homogeneous and heterogeneous fields of properties. We are able to solve problems that can be challenging for classical methods. This approach gives rise to trained models that are both more robust to variations in the input space and can compete in performance with traditional stochastic sampling methods.
翻訳日:2022-05-29 20:41:05 公開日:2022-05-19
# 創発へのアルゴリズム的アプローチ

An Algorithmic Approach to Emergence ( http://arxiv.org/abs/2205.12997v1 )

ライセンス: Link先を確認
Charles Alexandre B\'edard and Geoffroy Bergeron(参考訳) 定量的かつ客観的な創発概念を提案する。 本稿では,ビット列が観測データを符号化する客観的枠組みの基礎としてアルゴリズム情報理論を用いる。 そのような弦のコルモゴロフ構造関数における滴の多重性は出現の目印と見なされる。 我々の定義は、粗粒化と境界条件の概念を拡張することに加えて、いくつかの理論的結果をもたらす。 最後に, 力学系と熱力学への応用について提案する。

We suggest a quantitative and objective notion of emergence. Our proposal uses algorithmic information theory as a basis for an objective framework in which a bit string encodes observational data. Plurality of drops in the Kolmogorov structure function of such a string is seen as the hallmark of emergence. Our definition offers some theoretical results, in addition to extending the notions of coarse-graining and boundary conditions. Finally, we confront our proposal with applications to dynamical systems and thermodynamics.
翻訳日:2022-05-29 20:23:14 公開日:2022-05-19
# SOL: ハードウェアサポートをAIフレームワークに統合するためのメンテナンスオーバーヘッドを削減する

SOL: Reducing the Maintenance Overhead for Integrating Hardware Support into AI Frameworks ( http://arxiv.org/abs/2205.10357v1 )

ライセンス: Link先を確認
Nicolas Weber(参考訳) 人工知能(AI)への関心が高まり、高度に最適化された洗練されたAIフレームワークの必要性が高まった。 LuaベースのTorchから、Theano、Caffe、Chainer、CNTK、MxNet、PyTorch、DL4J、TensorFlowなど、多くのフレームワークが時間をかけて登場した。 これらすべてが高レベルのスクリプティングAPIを提供しており、ユーザーはニューラルネットワークを設計し、さまざまな種類のハードウェア上でそれらを実行できる。 通常ユーザが見ることができないのは、ピーク時の実行パフォーマンスを提供するためにこれらのフレームワークに費やされた高い労力です。 主流のCPUやGPUは、オープンソースコミュニティに広く普及する"豪華な"ものである一方で、主流のCPUやGPU、アクセラレータベンダは、これらのフレームワークでハードウェアをサポートするために、高い努力を払わなければならない。 これには、CUDNN、OneDNN、VEDNNのような高効率な計算ライブラリの開発だけでなく、和算や乗算のようなより単純な計算操作もサポートしている。 現在、これらのフレームワークはそれぞれ数百のユニークな操作をサポートしており、さまざまなサイズ、形状、データ型を持つテンソルは、各デバイスタイプに必要な数千の計算カーネルで終わる。 そしてオペレーションの数は増え続けています。 NEC Laboratories Europeはすでに、メンテナンスの負担を最小限に抑えながら、ユーザに最適なパフォーマンスを提供するため、SOL AI Optimizationプロジェクトの開発を開始しています。

The increased interest in Artificial Intelligence (AI) raised the need for highly optimized and sophisticated AI frameworks. Starting with the Lua-based Torch many frameworks have emerged over time, such as Theano, Caffe, Chainer, CNTK, MxNet, PyTorch, DL4J, or TensorFlow. All of these provide a high level scripting API that allows users to easily design neural networks and run these on various kinds of hardware. What the user usually does not see is the high effort put into these frameworks to provide peak execution performance. While mainstream CPUs and GPUs have the "luxury" to have a wide spread user base in the open source community, less mainstream CPU, GPU or accelerator vendors need to put in a high effort to get their hardware supported by these frameworks. This includes not only the development of highly efficient compute libraries such as CUDNN, OneDNN or VEDNN but also supporting an ever growing number of simpler compute operations such as summation and multiplications. Each of these frameworks, nowadays, supports several hundred of unique operations, with tensors of various sizes, shapes and data types, which end up in thousands of compute kernels required for each device type. And the number of operations keeps increasing. That is why NEC Laboratories Europe started developing the SOL AI Optimization project already years ago, to deliver optimal performance to users while keeping the maintenance burden minimal.
翻訳日:2022-05-24 19:51:48 公開日:2022-05-19
# モダリティを横断するニューラルアーキテクチャ探索を高速化するハードウェアアウェアフレームワーク

A Hardware-Aware Framework for Accelerating Neural Architecture Search Across Modalities ( http://arxiv.org/abs/2205.10358v1 )

ライセンス: Link先を確認
Daniel Cummings, Anthony Sarah, Sharath Nittur Sridhar, Maciej Szankin, Juan Pablo Munoz, Sairam Sundaresan(参考訳) ワンショットNASのようなニューラルアーキテクチャサーチ(NAS)の最近の進歩は、タスク固有のスーパーネットワークから特別なハードウェア対応サブネットワーク構成を抽出する機能を提供する。 第1段階の改良、すなわちスーパーネットワークの訓練にかなりの努力が払われているが、派生型高性能サブネットワークの探索はまだ未検討である。 一般的な手法では、サブネットワーク検索からスーパーネットワークトレーニングを分離し、さまざまなハードウェアプラットフォームでの検索の計算負荷を軽減するためにパフォーマンス予測器を使用する。 本稿では,様々な性能指標やハードウェア構成に最適化された最適なサブネットワークを自動かつ効率的に見つけるフレキシブル検索フレームワークを提案する。 具体的には、機械翻訳や画像分類などの多目的設定において、進化的アルゴリズムと軽量に訓練された客観的予測器を反復サイクルで組み合わせてアーキテクチャ探索を高速化する方法を示す。

Recent advances in Neural Architecture Search (NAS) such as one-shot NAS offer the ability to extract specialized hardware-aware sub-network configurations from a task-specific super-network. While considerable effort has been employed towards improving the first stage, namely, the training of the super-network, the search for derivative high-performing sub-networks is still under-explored. Popular methods decouple the super-network training from the sub-network search and use performance predictors to reduce the computational burden of searching on different hardware platforms. We propose a flexible search framework that automatically and efficiently finds optimal sub-networks that are optimized for different performance metrics and hardware configurations. Specifically, we show how evolutionary algorithms can be paired with lightly trained objective predictors in an iterative cycle to accelerate architecture search in a multi-objective setting for various modalities including machine translation and image classification.
翻訳日:2022-05-24 19:30:54 公開日:2022-05-19
# Mapuzugunの教育ツール

Educational Tools for Mapuzugun ( http://arxiv.org/abs/2205.10411v1 )

ライセンス: Link先を確認
Cristian Ahumada, Claudio Gutierrez, Antonios Anastasopoulos(参考訳) マプーズグン(Mapuzugun)は、マプーチェ族の言語。 政治的・歴史的理由により話者数は減少し、チリやアルゼンチンの教育制度から除外されている。 そのため、社会のあらゆる空間やメディアにおいて、水津郡復興を支援することが非常に重要である。 そこで本研究では,この言語の特徴に合わせた教育活動を支援するツールを提案する。 このツールは、正書法検出器と変換器の設計と開発、形態解析器、非公式翻訳器の3つの部分から構成されている。 また,Mapuzugunの学生を対象に,有望な結果を示す事例研究を行った。 Mapuzuzgunの短い要約: T\"ufachi k\"uzaw pegelfi ki\~ne zugun k\"uzawpey\"um kelluaetew pu mapuzugun chillkatufe kimal kizu ta\~ni zugun。

Mapuzugun is the language of the Mapuche people. Due to political and historical reasons, its number of speakers has decreased and the language has been excluded from the educational system in Chile and Argentina. For this reason, it is very important to support the revitalization of the Mapuzugun in all spaces and media of society. In this work we present a tool towards supporting educational activities of Mapuzugun, tailored to the characteristics of the language. The tool consists of three parts: design and development of an orthography detector and converter; a morphological analyzer; and an informal translator. We also present a case study with Mapuzugun students showing promising results. Short Abstract in Mapuzuzgun: T\"ufachi k\"uzaw pegelfi ki\~ne zugun k\"uzawpey\"um kelluaetew pu mapuzugun chillkatufe kimal kizu ta\~ni zugun.
翻訳日:2022-05-24 16:25:47 公開日:2022-05-19
# EXPANSE:Deep Transfer Learningのためのディープラーニング/プログレッシブ学習システム

EXPANSE: A Deep Continual / Progressive Learning System for Deep Transfer Learning ( http://arxiv.org/abs/2205.10356v1 )

ライセンス: Link先を確認
Mohammadreza Iman, John A. Miller, Khaled Rasheed, Robert M. Branchinst, Hamid R. Arabnia(参考訳) ディープトランスファー学習技術は、得られた知識を再利用することで、ディープラーニングの限界、広範なトレーニングデータへの依存、トレーニングコストに対処しようとする。 しかし、現在のDTL技術は、あらかじめ訓練されたモデルの微調整において、破滅的な忘れジレンマ(事前に取得した知識をなくす)または過度に偏った事前訓練されたモデル(ターゲットデータに適応するハード)に悩まされている。 DTLのサブカテゴリであるプログレッシブラーニング(Progressive Learning)は、凍結事前学習モデルの最後に新しい層を追加することで、初期の層を凍結する際の過度に偏りのあるモデルの効果を低減する。 多くの場合は成功したが、遠方のソースやターゲットデータを扱うことはできない。 本稿では,これらの制約に対処する深層移動学習のための連続・進行学習手法を提案する。 破滅的な忘れ方と過度に偏ったモデルの問題の両方を避けるために、事前学習されたレイヤ(各レイヤに新しいノードを追加する)をモデル内に拡張することで、事前学習されたモデルを拡張します。 そのため、この手法はEXPANSEと命名される。 実験結果から,この手法により遠方の音源と目標データに対処できることが確認された。 同時に、最終モデルは依然としてソースデータ上で有効であり、将来的な深層学習アプローチを実現する。 さらに、人間の教育システムにインスパイアされたディープラーニングモデルをトレーニングする新しい方法を提供する。 まず基礎を学習し、次に複雑さと不確実性を追加する。 評価の結果, 2段階のトレーニングは, 通常のトレーニングよりも精度が向上するため, より有意義な特徴と誤差面の微粒度を抽出できることがわかった。 EXPANSE (model expansion and two-step training) は、異なる問題やDLモデルに適用可能な体系的な連続学習手法である。

Deep transfer learning techniques try to tackle the limitations of deep learning, the dependency on extensive training data and the training costs, by reusing obtained knowledge. However, the current DTL techniques suffer from either catastrophic forgetting dilemma (losing the previously obtained knowledge) or overly biased pre-trained models (harder to adapt to target data) in finetuning pre-trained models or freezing a part of the pre-trained model, respectively. Progressive learning, a sub-category of DTL, reduces the effect of the overly biased model in the case of freezing earlier layers by adding a new layer to the end of a frozen pre-trained model. Even though it has been successful in many cases, it cannot yet handle distant source and target data. We propose a new continual/progressive learning approach for deep transfer learning to tackle these limitations. To avoid both catastrophic forgetting and overly biased-model problems, we expand the pre-trained model by expanding pre-trained layers (adding new nodes to each layer) in the model instead of only adding new layers. Hence the method is named EXPANSE. Our experimental results confirm that we can tackle distant source and target data using this technique. At the same time, the final model is still valid on the source data, achieving a promising deep continual learning approach. Moreover, we offer a new way of training deep learning models inspired by the human education system. We termed this two-step training: learning basics first, then adding complexities and uncertainties. The evaluation implies that the two-step training extracts more meaningful features and a finer basin on the error surface since it can achieve better accuracy in comparison to regular training. EXPANSE (model expansion and two-step training) is a systematic continual learning approach applicable to different problems and DL models.
翻訳日:2022-05-24 15:58:57 公開日:2022-05-19
# (参考訳) DPER: 既存の確率SATのための動的プログラミング

DPER: Dynamic Programming for Exist-Random Stochastic SAT ( http://arxiv.org/abs/2205.09826v1 )

ライセンス: CC BY 4.0
Vu H. N. Phan and Moshe Y. Vardi(参考訳) ベイズ推定では、最大アフターイ(MAP)問題は最も可能性の高い説明(MPE)と限界化(MAR)の問題を組み合わせている。 命題論理のもう1つの問題は、確率的満足度(ER-SSAT)問題であり、これはSATと重み付きモデルカウント(WMC)問題を組み合わせたものである。 map と er-ssat のどちらも、$\operatorname{argmax}_x \sum_y f(x, y)$ の形をしている。 これら2つの最適化問題は、$y$変数のすべての値代入に対して$f(x, y)$の重み付き和を最大化する$x$変数の値代入を要求する。 ER-SSATは教師あり学習における公正性を正式に検証するための有望なアプローチであることが示されている。 近年, 重み付き射影モデルカウント (WPMC) の解法として, $\sum_X \max_Y f(X, Y)$ が提案されている。 我々は、このWPMCフレームワークを拡張して、ER-SSATを正確に解き、動的プログラミングの解法DPERを実装します。 我々の実証評価は、DPERが低幅問題インスタンス上での競合性能を通じて、最先端のER-SSATソルバ(DC-SSATとerSSAT)のポートフォリオに寄与していることを示している。

In Bayesian inference, the maximum a posteriori (MAP) problem combines the most probable explanation (MPE) and marginalization (MAR) problems. The counterpart in propositional logic is the exist-random stochastic satisfiability (ER-SSAT) problem, which combines the satisfiability (SAT) and weighted model counting (WMC) problems. Both MAP and ER-SSAT have the form $\operatorname{argmax}_X \sum_Y f(X, Y)$, where $f$ is a real-valued function over disjoint sets $X$ and $Y$ of variables. These two optimization problems request a value assignment for the $X$ variables that maximizes the weighted sum of $f(X, Y)$ over all value assignments for the $Y$ variables. ER-SSAT has been shown to be a promising approach to formally verify fairness in supervised learning. Recently, dynamic programming on graded project-join trees has been proposed to solve weighted projected model counting (WPMC), a related problem that has the form $\sum_X \max_Y f(X, Y)$. We extend this WPMC framework to exactly solve ER-SSAT and implement a dynamic-programming solver named DPER. Our empirical evaluation indicates that DPER contributes to the portfolio of state-of-the-art ER-SSAT solvers (DC-SSAT and erSSAT) through competitive performance on low-width problem instances.
翻訳日:2022-05-24 14:05:29 公開日:2022-05-19
# (参考訳) 一貫したニューロンアンサンブルの自己教師あり同定による交叉性神経集団変動の捉え

Capturing cross-session neural population variability through self-supervised identification of consistent neuron ensembles ( http://arxiv.org/abs/2205.09829v1 )

ライセンス: CC BY 4.0
Justin Jude, Matthew G. Perich, Lee E. Miller, Matthias H. Hennig(参考訳) 記録された神経活動からの刺激や行動の復号は、研究における脳機能検査の一般的なアプローチであり、脳-コンピュータと脳-機械インターフェースの重要な部分である。 なぜなら、高次元の神経集団活動は通常、適切な潜在変数モデルで発見可能な低次元多様体を占有するためである。 しかし、時間とともに個々のニューロンの活性のドリフトと神経記録装置の不安定性は相当なものとなり、数日から数週間にわたって安定した復号化は現実的ではない。 このドリフトは個々のニューロンレベルでは予測できないが、ニューロンの異なる集合や記録データ内の一貫したニューロンの変動といった連続的な記録セッションにおける個体群レベルの変動は、基礎となる多様体が時間とともに安定しているときに学習可能である。 セッション間の一貫性のあるニューロンと不慣れなニューロンの分類と、セッション間の記録データセットにおける一貫した記録ニューロンの順番のずれを考慮に入れることで、デコード性能を維持することができる。 本研究では,ディープニューラルネットワークの自己教師付き学習を,このセッション間変動の補償に利用できることを示す。 その結果、シーケンシャルなオートエンコーディングモデルでは、何日も経たない記録セッションに対して、最先端の動作復号性能を維持できる。 私たちのアプローチでは、モデルをトレーニングするために単一の記録セッションしか必要とせず、信頼性とリカバリフリーなブレインコンピュータインターフェースへの一歩です。

Decoding stimuli or behaviour from recorded neural activity is a common approach to interrogate brain function in research, and an essential part of brain-computer and brain-machine interfaces. Reliable decoding even from small neural populations is possible because high dimensional neural population activity typically occupies low dimensional manifolds that are discoverable with suitable latent variable models. Over time however, drifts in activity of individual neurons and instabilities in neural recording devices can be substantial, making stable decoding over days and weeks impractical. While this drift cannot be predicted on an individual neuron level, population level variations over consecutive recording sessions such as differing sets of neurons and varying permutations of consistent neurons in recorded data may be learnable when the underlying manifold is stable over time. Classification of consistent versus unfamiliar neurons across sessions and accounting for deviations in the order of consistent recording neurons in recording datasets over sessions of recordings may then maintain decoding performance. In this work we show that self-supervised training of a deep neural network can be used to compensate for this inter-session variability. As a result, a sequential autoencoding model can maintain state-of-the-art behaviour decoding performance for completely unseen recording sessions several days into the future. Our approach only requires a single recording session for training the model, and is a step towards reliable, recalibration-free brain computer interfaces.
翻訳日:2022-05-24 13:03:04 公開日:2022-05-19
# (参考訳) ドメイン分解解におけるインタフェース条件の学習

Learning Interface Conditions in Domain Decomposition Solvers ( http://arxiv.org/abs/2205.09833v1 )

ライセンス: CC BY 4.0
Ali Taghibakhshi, Nicolas Nytko, Tareq Zaman, Scott MacLachlan, Luke Olson, Matthew West(参考訳) 領域分解法は偏微分方程式の解の近似に広く使われ、有効である。 しかし、これらの手法の最適構成は退屈な分析を必要とし、しばしば単純化された構造化グリッド設定でのみ利用可能であり、より複雑な問題に対する使用を制限する。 本稿では,グラフ畳み込みニューラルネットワーク(gcnns)と教師なし学習を用いて,非構造化グリッド問題に対して最適化されたシュワルツ領域分割法を一般化し,サブドメインインタフェースで最適な修正を学ぶ。 このアプローチの重要な要素は損失関数の改善であり、比較的小さな問題に対する効果的なトレーニングを可能にするが、問題サイズの計算コストが線形な、任意に大きな問題に対する堅牢なパフォーマンスを実現する。 学習された線形解法の性能は、古典的および最適化された領域分解アルゴリズムと比較される。

Domain decomposition methods are widely used and effective in the approximation of solutions to partial differential equations. Yet the optimal construction of these methods requires tedious analysis and is often available only in simplified, structured-grid settings, limiting their use for more complex problems. In this work, we generalize optimized Schwarz domain decomposition methods to unstructured-grid problems, using Graph Convolutional Neural Networks (GCNNs) and unsupervised learning to learn optimal modifications at subdomain interfaces. A key ingredient in our approach is an improved loss function, enabling effective training on relatively small problems, but robust performance on arbitrarily large problems, with computational cost linear in problem size. The performance of the learned linear solvers is compared with both classical and optimized domain decomposition algorithms, for both structured- and unstructured-grid problems.
翻訳日:2022-05-24 11:56:00 公開日:2022-05-19
# (参考訳) hybnnとfeedhybnn:(フェデレートされた)ハイブリッドバイナリニューラルネットワーク

HyBNN and FedHyBNN: (Federated) Hybrid Binary Neural Networks ( http://arxiv.org/abs/2205.09839v1 )

ライセンス: CC BY 4.0
Kinshuk Dua(参考訳) 重みとアクティベーションが-1(0)と+1に制限されたニューラルネットワークであるBNN(Binary Neural Networks)は、より高速なトレーニング、メモリ消費の低減、軽量なモデルを提供するディープニューラルネットワークの代替であり、ディープニューラルネットワークのアーキテクチャを活用しつつ、リソース制約されたデバイスでの使用に適している。 しかし、BNNで使用される入力バイナライゼーションステップは、深刻な精度の損失を引き起こす。 本稿では,2つの潜在空間を持つタスク非依存,一般の完全精度変分オートエンコーダと,全精度変分オートエンコーダを特徴抽出器として使用することにより,入力バイナライゼーションによる精度損失を大幅に抑制できるタスク固有二分ニューラルネットワークからなる,ハイブリッドニューラルネットワークアーキテクチャであるHybrid Binary Neural Network(HyBNN)を紹介する。 私たちは、ディープニューラルネットワークの最先端の精度と、より高速なトレーニング時間、より高速なテスト時間推論、バイナリニューラルネットワークの電力効率を組み合わせています。 提案するシステムは,入力バイナリ化によってバニラバイナリニューラルネットワークを著しく上回ることができることを示す。 また,HyBNNと通信効率のよいフェデレーションであるFedHyBNNを導入し,その非フェデレーション等価性と同じ精度に到達できることを実証した。 ソースコード、実験パラメータ、モデルを、https://anonymous.4open.science/r/HyBNNで公開しています。

Binary Neural Networks (BNNs), neural networks with weights and activations constrained to -1(0) and +1, are an alternative to deep neural networks which offer faster training, lower memory consumption and lightweight models, ideal for use in resource constrained devices while being able to utilize the architecture of their deep neural network counterpart. However, the input binarization step used in BNNs causes a severe accuracy loss. In this paper, we introduce a novel hybrid neural network architecture, Hybrid Binary Neural Network (HyBNN), consisting of a task-independent, general, full-precision variational autoencoder with a binary latent space and a task specific binary neural network that is able to greatly limit the accuracy loss due to input binarization by using the full precision variational autoencoder as a feature extractor. We use it to combine the state-of-the-art accuracy of deep neural networks with the much faster training time, quicker test-time inference and power efficiency of binary neural networks. We show that our proposed system is able to very significantly outperform a vanilla binary neural network with input binarization. We also introduce FedHyBNN, a highly communication efficient federated counterpart to HyBNN and demonstrate that it is able to reach the same accuracy as its non-federated equivalent. We make our source code, experimental parameters and models available at: https://anonymous.4open.science/r/HyBNN.
翻訳日:2022-05-24 11:36:16 公開日:2022-05-19
# (参考訳) PCA圧縮比による信頼クラスタリングと単一セルRNA配列解析への応用

Confident Clustering via PCA Compression Ratio and Its Application to Single-cell RNA-seq Analysis ( http://arxiv.org/abs/2205.09849v1 )

ライセンス: CC BY 4.0
Yingcong Li, Chandra Sekhar Mukherjee and Jiapeng Zhang(参考訳) ベクトルに対する教師なしクラスタリングアルゴリズムは機械学習の分野で広く利用されている。 この論文で研究した生物学的データを含む多くのアプリケーションには、2つの下位クラスタの組合せ特性を示し、従来のクラスタリングアルゴリズムの性能を低下させる可能性のある境界データポイントが含まれている。 我々は,これらのデータポイントの影響を低減し,クラスタリング結果を改善することを目的とした,確実なクラスタリング手法を開発した。 具体的には、データポイントのリストに対して、2つのクラスタリング結果を与えます。 第1ラウンドのクラスタリングは、信頼性の高い純粋なベクトルのみを分類しようとする。 それに基づいて,第2ラウンドへの信頼度の低い,より多くのベクトルを分類する。 我々は,生物学領域において強力で広く利用されている単一セルRNA-seqデータを用いて,本アルゴリズムの有効性を検証する。 信頼性の高いクラスタリングは、テストデータセットに高い精度を示しています。 さらに、単一セル解析における従来のクラスタリング法とは異なり、信頼性クラスタリングはパラメータの異なる選択下で高い安定性を示す。

Unsupervised clustering algorithms for vectors has been widely used in the area of machine learning. Many applications, including the biological data we studied in this paper, contain some boundary datapoints which show combination properties of two underlying clusters and could lower the performance of the traditional clustering algorithms. We develop a confident clustering method aiming to diminish the influence of these datapoints and improve the clustering results. Concretely, for a list of datapoints, we give two clustering results. The first-round clustering attempts to classify only pure vectors with high confidence. Based on it, we classify more vectors with less confidence in the second round. We validate our algorithm on single-cell RNA-seq data, which is a powerful and widely used tool in biology area. Our confident clustering shows a high accuracy on our tested datasets. In addition, unlike traditional clustering methods in single-cell analysis, the confident clustering shows high stability under different choices of parameters.
翻訳日:2022-05-24 11:25:27 公開日:2022-05-19
# (参考訳) 2層ニューラルネットワークの平均場解析:線形収束率による大域的最適性

Mean-Field Analysis of Two-Layer Neural Networks: Global Optimality with Linear Convergence Rates ( http://arxiv.org/abs/2205.09860v1 )

ライセンス: CC BY 4.0
Jingwei Zhang and Xunpeng Huang(参考訳) 本研究では,ネットワーク重みの学習ダイナミクスを,ニューロンに関連する重みパラメータに対する確率測度空間の進化によって近似できる平均場環境における2層ニューラルネットワークの最適化について検討する。 平均場状態はNTK (lazy training) の代替として理論的に魅力的であり、これは特殊初期化の周りのいわゆる神経タンジェント核空間にのみ局所的に制限される。 いくつかの先行研究 (\cite{mei2018mean, chizat2018global}) は平均場状態の漸近的大域的最適性を確立するが、訓練力学の複雑な非線形性のために定量的収束率を得るのは難しい。 この研究は、平均場状態における連続時間雑音勾配勾配により訓練された2層ニューラルネットワークに対する新しい線形収束結果を確立する。 この結果は2層ニューラルネットワークに対する新しい対数ソボレフ不等式と、隠れたニューロンの進化的分布によって決定される一連の指標に対する対数ソボレフ定数の均一な上界に依存する。

We consider optimizing two-layer neural networks in the mean-field regime where the learning dynamics of network weights can be approximated by the evolution in the space of probability measures over the weight parameters associated with the neurons. The mean-field regime is a theoretically attractive alternative to the NTK (lazy training) regime which is only restricted locally in the so-called neural tangent kernel space around specialized initializations. Several prior works (\cite{mei2018mean, chizat2018global}) establish the asymptotic global optimality of the mean-field regime, but it is still challenging to obtain a quantitative convergence rate due to the complicated nonlinearity of the training dynamics. This work establishes a new linear convergence result for two-layer neural networks trained by continuous-time noisy gradient descent in the mean-field regime. Our result relies on a novelty logarithmic Sobolev inequality for two-layer neural networks, and uniform upper bounds on the logarithmic Sobolev constants for a family of measures determined by the evolving distribution of hidden neurons.
翻訳日:2022-05-24 11:00:25 公開日:2022-05-19
# (参考訳) 時間的ネットワークにおける再帰的セグメンテーションとブロックモデル

Recurrent segmentation meets block models in temporal networks ( http://arxiv.org/abs/2205.09862v1 )

ライセンス: CC BY 4.0
{Chamalee Wickrama Arachchi and Nikolaj Tatti(参考訳) モデル相互作用に対する一般的なアプローチは、ノードがエージェント、インタラクションがエッジであるネットワークとしてそれらを表現することである。 インタラクションはしばしばタイムスタンプ化され、エッジがタイムスタンプ化される。 多くの現実世界の時間ネットワークは、繰り返しまたはおそらく循環的な振る舞いを持つ。 例えば、ソーシャルネットワークのアクティビティは、ある時間帯に高まる可能性がある。 本稿では,このような時間的ネットワークにおけるリカレント活動のモデル化を主な関心事とする。 まず、静的ネットワークをモデル化するための一般的な選択肢である確率ブロックモデルを使い、ノードを$R$グループに分割します。 我々は、このモデルをPoissonプロセスでエッジをモデル化することで、時間ネットワークに拡張する。 プロセスのパラメータは、タイムラインを$k$セグメントに分割することで、時間に依存します。 繰り返し実行されるアクティビティを強制するためには、パラメータのセットを指定できるのは$H < K$ のみである。 最適ブロックとセグメンテーションの探索はnp問題であることが証明される。 その結果,ブロック,モデルパラメータ,セグメンテーションを最適化し,残りの構造を固定しつつ,問題を3つのサブプロブレムに分割した。 我々は,ネットワーク内のノード数とエッジ数として$O(KHm + Rn + R^2H)$時間を必要とする反復アルゴリズムを提案する。 実験により,要求された反復回数は典型的に低く,アルゴリズムは合成データセットから基礎的真理を発見することができ,特定の実世界のネットワークが$H$を下げたときの繰り返し動作が劣化しないことを示す。

A popular approach to model interactions is to represent them as a network with nodes being the agents and the interactions being the edges. Interactions are often timestamped, which leads to having timestamped edges. Many real-world temporal networks have a recurrent or possibly cyclic behaviour. For example, social network activity may be heightened during certain hours of day. In this paper, our main interest is to model recurrent activity in such temporal networks. As a starting point we use stochastic block model, a popular choice for modelling static networks, where nodes are split into $R$ groups. We extend this model to temporal networks by modelling the edges with a Poisson process. We make the parameters of the process dependent on time by segmenting the time line into $K$ segments. To enforce the recurring activity we require that only $H < K$ different set of parameters can be used, that is, several, not necessarily consecutive, segments must share their parameters. We prove that the searching for optimal blocks and segmentation is an NP-hard problem. Consequently, we split the problem into 3 subproblems where we optimize blocks, model parameters, and segmentation in turn while keeping the remaining structures fixed. We propose an iterative algorithm that requires $O(KHm + Rn + R^2H)$ time per iteration, where $n$ and $m$ are the number of nodes and edges in the network. We demonstrate experimentally that the number of required iterations is typically low, the algorithm is able to discover the ground truth from synthetic datasets, and show that certain real-world networks exhibit recurrent behaviour as the likelihood does not deteriorate when $H$ is lowered.
翻訳日:2022-05-24 10:18:44 公開日:2022-05-19
# (参考訳) In-context BERT チューニングによる読解の自動化

Automated Scoring for Reading Comprehension via In-context BERT Tuning ( http://arxiv.org/abs/2205.09864v1 )

ライセンス: CC BY 4.0
Nigel Fernandez, Aritra Ghosh, Naiming Liu, Zichao Wang, Beno\^it Choffin, Richard Baraniuk, Andrew Lan(参考訳) オープンエンドの学生反応の自動スコアリングは、人間の成績を著しく低下させる可能性がある。 近年の自動スコアリングの進歩は、BERTやGPTといった事前訓練された言語モデルに基づくテキスト表現をスコアリングモデルへの入力として利用することが多い。 既存のアプローチのほとんどは、アイテム/クエスト毎に別々のモデルをトレーニングしています。 しかし、これらのアプローチには2つの制限がある。 1) 複数の項目が読み出し経路を共有する場合の理解などのシナリオにおいて,項目リンクの活用に失敗する。 2) 多数のパラメータを持つモデルでは,アイテム毎にひとつのモデルを保存することが難しくなるため,スケーラブルではない。 本稿では,全国教育進歩評価(naep)による読解のための自動採点課題に対する(大賞獲得)ソリューションについて報告する。 In-context BERT fine-tuningでは、各項目のコンテキスト情報を提供するために、慎重に設計された入力構造を持つ、すべての項目に対して単一のスコアリングモデルを生成する。 この課題から得られたトレーニングデータセットを用いて,地域評価によるアプローチの有効性を示す。 また,バイアス,一般的なエラータイプ,アプローチの制限についても論じた。

Automated scoring of open-ended student responses has the potential to significantly reduce human grader effort. Recent advances in automated scoring often leverage textual representations based on pre-trained language models such as BERT and GPT as input to scoring models. Most existing approaches train a separate model for each item/question, which is suitable for scenarios such as essay scoring where items can be quite different from one another. However, these approaches have two limitations: 1) they fail to leverage item linkage for scenarios such as reading comprehension where multiple items may share a reading passage; 2) they are not scalable since storing one model per item becomes difficult when models have a large number of parameters. In this paper, we report our (grand prize-winning) solution to the National Assessment of Education Progress (NAEP) automated scoring challenge for reading comprehension. Our approach, in-context BERT fine-tuning, produces a single shared scoring model for all items with a carefully-designed input structure to provide contextual information on each item. We demonstrate the effectiveness of our approach via local evaluations using the training dataset provided by the challenge. We also discuss the biases, common error types, and limitations of our approach.
翻訳日:2022-05-24 09:55:55 公開日:2022-05-19
# (参考訳) メタエンベディングにおけるジェンダーバイアス

Gender Bias in Meta-Embeddings ( http://arxiv.org/abs/2205.09867v1 )

ライセンス: CC BY 4.0
Masahiro Kaneko, Danushka Bollegala, Naoaki Okazaki(参考訳) メタ埋め込みを作成するために複数のソース埋め込みを組み合わせることは、より正確な埋め込みを得るのに効果的であると考えられる。 与えられたソース組込みからメタ組込みを開発するために異なる方法が提案されている。 しかし、ソース埋め込みには不公平な性別バイアスがあり、複数の埋め込みとデバイアスの組合せにおけるバイアスはまだ研究されていない。 本稿では,(1)マルチソース・ノー・デビジング:デビジングのない複数ソース組込みからのメタエンビジング,の3種類のメタエンベディングにおけるバイアスについて検討する。 実験の結果,メタ埋め込みは入力ソース埋め込みと比較して性別バイアスを増幅することが明らかとなった。(2)マルチソース単一バイアス:複数のソース埋め込みからメタ埋め込みをデバイアス化し,各ソース埋め込みのデバイアス化,学習メタ埋め込みのデバイアス化,およびソース埋め込みとメタ埋め込みの両方のデバイアス化という3つの方法で生成することができる。 その結果、3つのバイアス評価ベンチマークのうち2つのうちデバイアスが最適であることが判明した: (3) 単一ソースマルチデバイアス: 異なる手法でデバイアスを埋め込んだ同じソースからのメタエンベディング。 3つのバイアス評価ベンチマークで1つのメソッドでデバイアスされたソース埋め込みよりも効果的に動作した。

Combining multiple source embeddings to create meta-embeddings is considered effective to obtain more accurate embeddings. Different methods have been proposed to develop meta-embeddings from a given set of source embeddings. However, the source embeddings can contain unfair gender bias, and the bias in the combination of multiple embeddings and debiasing it effectively have not been studied yet. In this paper, we investigate the bias in three types of meta-embeddings: (1) Multi-Source No-Debiasing: meta-embedding from multiple source embeddings without any debiasing. The experimental results show that meta-embedding amplifies the gender bias compared to those of input source embeddings; (2) Multi-Source Single-Debiasing: meta-embedding from multiple source embeddings debiased by a single method and it can be created in three ways: debiasing each source embedding, debiasing the learned meta-embeddings, and debiasing both source embeddings and meta-embeddings. The results show that debiasing both is the best in two out of three bias evaluation benchmarks; (3) Single-Source Multi-Debiasing: meta-embedding from the same source embedding debiased by different methods. It performed more effectively than its source embeddings debiased with a single method in all three bias evaluation benchmarks.
翻訳日:2022-05-24 09:44:47 公開日:2022-05-19
# (参考訳) ヘルメット安全のためのリアルタイムマルチオブジェクト検出

Real Time Multi-Object Detection for Helmet Safety ( http://arxiv.org/abs/2205.09878v1 )

ライセンス: CC BY 4.0
Mrinal Mathur, Archana Benkkallpalli Chandrashekhar, Venkata Krishna Chaithanya Nuthalapati(参考訳) ナショナル・フットボール・リーグとAmazon Web Servicesは、カグル・コンペティションを通じて最高のスポーツ傷害監視と緩和プログラムを開発するために協力した。 nflはそれぞれのヘルメットに特定の選手を割り当てることで、試合中各選手の「露出」を正確に識別することを目指している。 我々は,検出したヘルメットの衝撃を追跡情報を介してプレイヤーに割り当てるコンピュータビジョンベースのMLアルゴリズムを実装しようとしている。 本稿は,選手のヘルメットとその衝突を自動的に追跡するアプローチについて説明する。 これにより、過去のプレイをレビューしたり、時間とともに露出の傾向を調査できる。

The National Football League and Amazon Web Services teamed up to develop the best sports injury surveillance and mitigation program via the Kaggle competition. Through which the NFL wants to assign specific players to each helmet, which would help accurately identify each player's "exposures" throughout a football play. We are trying to implement a computer vision based ML algorithms capable of assigning detected helmet impacts to correct players via tracking information. Our paper will explain the approach to automatically track player helmets and their collisions. This will also allow them to review previous plays and explore the trends in exposure over time.
翻訳日:2022-05-24 09:23:27 公開日:2022-05-19
# (参考訳) 慢性緊急時在宅シェルタークライアントの早期同定のためのルール検索フレームワーク

A Rule Search Framework for the Early Identification of Chronic Emergency Homeless Shelter Clients ( http://arxiv.org/abs/2205.09883v1 )

ライセンス: CC BY 4.0
Caleb John and Geoffrey G. Messier(参考訳) 本稿では,長期ないし慢性的なシェルターユーザになるリスクのある緊急避難所クライアントの早期識別にルールサーチ手法を用いる。 4万人以上の個人との12年間のサービスインタラクションを含む、北米の主要シェルターのデータセットを使用して、unordered search(opus)アルゴリズムを最適化したpruningは、直感的かつ効果的なルールを開発するために使用される。 ルールは、リスクの高いクライアントを支援的な住宅に移行するための住宅プログラムのリアルタイム配信と互換性のあるフレームワーク内で評価される。 その結果, 本研究の手法を適用した場合, 慢性シェルター使用リスクのクライアント識別の中央値が297日から162日に低下することが認められた。

This paper uses rule search techniques for the early identification of emergency homeless shelter clients who are at risk of becoming long term or chronic shelter users. Using a data set from a major North American shelter containing 12 years of service interactions with over 40,000 individuals, the optimized pruning for unordered search (OPUS) algorithm is used to develop rules that are both intuitive and effective. The rules are evaluated within a framework compatible with the real-time delivery of a housing program meant to transition high risk clients to supportive housing. Results demonstrate that the median time to identification of clients at risk of chronic shelter use drops from 297 days to 162 days when the methods in this paper are applied.
翻訳日:2022-05-24 09:14:55 公開日:2022-05-19
# ピーク時の感情認識を垣間見る

A Peek at Peak Emotion Recognition ( http://arxiv.org/abs/2205.09791v1 )

ライセンス: Link先を確認
Tzvi Michelson, Hillel Aviezer, Shmuel Peleg(参考訳) 表情認識の分野での進歩にもかかわらず、ピーク感情の認識にはほとんど注意が払われていない。 Aviezerなど。 [1]では,ヒトは正のピーク感情と負のピーク感情の区別が困難であった。 本研究では,この課題に対する深層学習の効果を分析する。 私たちはそれを見つけ (i)非常に小さなデータセットを用いているにもかかわらず、ディープラーニングモデルから抽出した特徴は人間よりもはるかに優れた結果が得られる。 (ii) 深層学習モデルは、人間によってタグ付けされたデータセットのみを訓練しても、このタスクでは人間よりも優れています。

Despite much progress in the field of facial expression recognition, little attention has been paid to the recognition of peak emotion. Aviezer et al. [1] showed that humans have trouble discerning between positive and negative peak emotions. In this work we analyze how deep learning fares on this challenge. We find that (i) despite using very small datasets, features extracted from deep learning models can achieve results significantly better than humans. (ii) We find that deep learning models, even when trained only on datasets tagged by humans, still outperform humans in this task.
翻訳日:2022-05-23 16:03:18 公開日:2022-05-19
# サンプル複雑性が向上した定空間エントロピーの推定

Estimation of Entropy in Constant Space with Improved Sample Complexity ( http://arxiv.org/abs/2205.09804v1 )

ライセンス: Link先を確認
Maryam Aliakbarpour, Andrew McGregor, Jelani Nelson, Erik Waingarten(参考訳) acharya et al. (neurips 2019) の最近の研究では、$(k/\epsilon^3) \cdot \text{polylog}(1/\epsilon)$ i.i.d.のサンプルをストリーミングし、$o(1)$のメモリのみを使用して、大きさのアルファベット上の$\mathcal d$の分布のエントロピーを推定する方法が示されている。 この研究では、サンプルの複雑さを$(k/\epsilon^2)\cdot \text{polylog}(1/\epsilon)$にする新しい定数メモリスキームを与える。 これは$\text{polylog}(1/\epsilon)$ factor まで最適であると推測する。

Recent work of Acharya et al. (NeurIPS 2019) showed how to estimate the entropy of a distribution $\mathcal D$ over an alphabet of size $k$ up to $\pm\epsilon$ additive error by streaming over $(k/\epsilon^3) \cdot \text{polylog}(1/\epsilon)$ i.i.d. samples and using only $O(1)$ words of memory. In this work, we give a new constant memory scheme that reduces the sample complexity to $(k/\epsilon^2)\cdot \text{polylog}(1/\epsilon)$. We conjecture that this is optimal up to $\text{polylog}(1/\epsilon)$ factors.
翻訳日:2022-05-23 16:02:44 公開日:2022-05-19
# 自動音声認識のためのコンテンツコンテキスト分解表現

Content-Context Factorized Representations for Automated Speech Recognition ( http://arxiv.org/abs/2205.09872v1 )

ライセンス: Link先を確認
David M. Chan, Shalini Ghosh(参考訳) ディープニューラルネットワークは、入力された音声フレームから有意義な特徴を抽出することにより、自動音声認識(ASR)を実行する能力を大きく実証している。 しかし、そのような特徴は、話し言葉の内容に関する情報だけでなく、背景雑音や音、話者のアイデンティティ、アクセント、保護された属性といった不要な文脈に関する情報も含むことができる。 このような情報は、話し言葉と話し言葉の文脈とのスプリアスな相関を導入することによって、一般化性能に直結する可能性がある。 本稿では,音声エンコーダ表現を明示的なコンテンツエンコーダ表現とスプリアスな文脈エンコーダ表現に分解する教師なし,エンコーダ非依存の手法を提案する。 これにより、標準的なASRベンチマークの性能向上と、実環境と人工ノイズのあるASRシナリオの両方のパフォーマンス向上を実証する。

Deep neural networks have largely demonstrated their ability to perform automated speech recognition (ASR) by extracting meaningful features from input audio frames. Such features, however, may consist not only of information about the spoken language content, but also may contain information about unnecessary contexts such as background noise and sounds or speaker identity, accent, or protected attributes. Such information can directly harm generalization performance, by introducing spurious correlations between the spoken words and the context in which such words were spoken. In this work, we introduce an unsupervised, encoder-agnostic method for factoring speech-encoder representations into explicit content-encoding representations and spurious context-encoding representations. By doing so, we demonstrate improved performance on standard ASR benchmarks, as well as improved performance in both real-world and artificially noisy ASR scenarios.
翻訳日:2022-05-23 16:02:23 公開日:2022-05-19
# 50キュービットまでのテンソルネットワークを用いた大規模量子回路サンプリングのフレームポテンシャルの推定

Estimating the frame potential of large-scale quantum circuit sampling using tensor networks up to 50 qubits ( http://arxiv.org/abs/2205.09900v1 )

ライセンス: Link先を確認
Minzhao Liu, Junyu Liu, Yuri Alexeev, Liang Jiang(参考訳) フレームポテンシャル、与えられたアンサンブルと正確なハール乱数の間の2ノルム距離を、 \texttt{qtensor} プラットフォームを用いて推定するための数値プロトコルを開発した。 このテンソルネットワークに基づくアルゴリズムは、浅い回路では多項式複雑性を持ち、cpuとgpuの並列処理を用いて高い性能を発揮する。 この手法を2つの問題に適用する: Brown-Susskind予想、Haar距離の局所的および並列的乱数回路、および量子機械学習におけるハードウェア効率の良いAns{\"a}tzeの近似$k$-design特性により、バレンプラトー問題を誘導する。 最大50 qubits と $k=5$ のアンサンブルでフレームポテンシャルを推定し、ハードウェア効率の良い ans{\"a}tze のhaar距離を調べ、ブラウン・ススキンド予想を数値的に検証する。 我々の研究は、大規模テンソルネットワークシミュレーションが量子情報科学におけるオープンな問題に重要なヒントを与える可能性を示唆している。

We develop numerical protocols for estimating the frame potential, the 2-norm distance between a given ensemble and the exact Haar randomness, using the \texttt{QTensor} platform. Our tensor-network-based algorithm has polynomial complexity for shallow circuits and is high performing using CPU and GPU parallelism. We apply the above methods to two problems: the Brown-Susskind conjecture, with local and parallel random circuits in terms of the Haar distance and the approximate $k$-design properties of the hardware efficient ans{\"a}tze in quantum machine learning, which induce the barren plateau problem. We estimate frame potentials with these ensembles up to 50 qubits and $k=5$, examine the Haar distance of the hardware-efficient ans{\"a}tze, and verify the Brown-Susskind conjecture numerically. Our work shows that large-scale tensor network simulations could provide important hints toward open problems in quantum information science.
翻訳日:2022-05-23 16:02:07 公開日:2022-05-19
# 残留動的モード分解:ロバストかつ検証されたkoopmanism

Residual Dynamic Mode Decomposition: Robust and verified Koopmanism ( http://arxiv.org/abs/2205.09779v1 )

ライセンス: Link先を確認
Matthew J. Colbrook, Lorna J. Ayton, M\'at\'e Sz\H{o}ke(参考訳) 動的モード分解(DMD)は、より単純なコヒーレントな特徴の階層による複雑な動的プロセスを記述する。 DMDは定期的に乱流の基本特性を理解するために使われ、クープマン作用素と密接に関連している。 しかし、クープマン作用素の計算されたスペクトル特徴と同等の分解を検証することは、クープマン作用素の無限次元の性質のために大きな課題である。 課題には、刺激的な(非物理的)モードや、乱流で定期的に発生する連続スペクトルを扱うことが含まれる。 残留動的モード分解(Residual Dynamic Mode Decomposition, ResDMD)はColbrook & Townsend 2021によって導入され、完全な無限次元クープマン作用素に関連する残差のデータ駆動計算によってこれらの課題を克服する。 resdmdは誤差制御を持つ一般クープマン作用素のスペクトルと擬スペクトルを計算し、明示的な高階収束定理を持つスペクトル測度(連続スペクトルを含む)の滑らかな近似を計算する。 したがって、ResDMDは堅牢で検証されたクープマン主義を提供する。 resdmdを実装し、数値データと実験データの両方から生じる様々なレイノルズ数における様々な流体力学的状況でその応用を実証する。 例としては、シリンダーの後ろの渦シーディング、乱流境界層で得られた熱線データ、壁面噴流に着目した粒子画像速度測定データ、レーザー誘起プラズマの音響圧力信号がある。 resdmdの利点として,非線形モード,過渡モード,スペクトル計算を有効に解決し,広化効果を低減できる点について述べる。 また, 残差に基づく新しいモーダル順序付けは, 従来のモジュラス順序付けよりも小さい辞書で, 高い精度を実現する。 これにより、精度を犠牲にすることなく、大規模なデータセットのよりダイナミックな圧縮が可能になる。

Dynamic Mode Decomposition (DMD) describes complex dynamic processes through a hierarchy of simpler coherent features. DMD is regularly used to understand the fundamental characteristics of turbulence and is closely related to Koopman operators. However, verifying the decomposition, equivalently the computed spectral features of Koopman operators, remains a major challenge due to the infinite-dimensional nature of Koopman operators. Challenges include spurious (unphysical) modes, and dealing with continuous spectra, both of which occur regularly in turbulent flows. Residual Dynamic Mode Decomposition (ResDMD), introduced by (Colbrook & Townsend 2021), overcomes some of these challenges through the data-driven computation of residuals associated with the full infinite-dimensional Koopman operator. ResDMD computes spectra and pseudospectra of general Koopman operators with error control, and computes smoothed approximations of spectral measures (including continuous spectra) with explicit high-order convergence theorems. ResDMD thus provides robust and verified Koopmanism. We implement ResDMD and demonstrate its application in a variety of fluid dynamic situations, at varying Reynolds numbers, arising from both numerical and experimental data. Examples include: vortex shedding behind a cylinder; hot-wire data acquired in a turbulent boundary layer; particle image velocimetry data focusing on a wall-jet flow; and acoustic pressure signals of laser-induced plasma. We present some advantages of ResDMD, namely, the ability to verifiably resolve non-linear, transient modes, and spectral calculation with reduced broadening effects. We also discuss how a new modal ordering based on residuals enables greater accuracy with a smaller dictionary than the traditional modulus ordering. This paves the way for greater dynamic compression of large datasets without sacrificing accuracy.
翻訳日:2022-05-23 15:59:47 公開日:2022-05-19
# 教師なし機械学習による天文学画像の異常値の同定

Identifying outliers in astronomical images with unsupervised machine learning ( http://arxiv.org/abs/2205.09760v1 )

ライセンス: Link先を確認
Yang Han and Zhiqiang Zou and Nan Li and Yanli Chen(参考訳) 異常、稀、未知の種類の天体や現象のような天文学上の外れは、天文学において真に予期せぬ知識の発見につながる。 より予測不能な異常値が原則として,今後の調査データのカバレッジと品質の増分とともに発見されるだろう。 しかし、膨大な作業負荷のため、人的検査を伴う膨大なデータから、まれで予期せぬ目標を発掘することは厳しい課題である。 予測外の信号に対する適切なトレーニングセットを設計することは、この目的には適さない。 これらの課題に動機づけられ、銀河画像の異常値を特定するために教師なしの機械学習アプローチを採用し、天文学的異常値を検出する経路を探索する。 比較のために,k-nearest neighbors (KNN), Convolutional Auto-Encoder (CAE)+ KNN, CAE + KNN + Attention Mechanism (attCAE KNN) を別々に構築する。 テストセットは、オンライン公開されたGalaxy Zooイメージデータに基づいて作成され、上記の手法の性能を評価する。 その結果,attCAE KNNは,従来のKNN法より53%高く,CAE+KNNより22%高いリコール(78%)を達成した。 attCAE KNN (10分) の効率は KNN (4時間) よりも優れており、同じタスクを達成するのに CAE+KNN(10分) に等しい。 したがって、銀河画像のデータの天文学的異常を教師なしの方法で検出することは可能であると信じている。 次に、attCAE KNNを利用可能な調査データセットに適用して、適用性と信頼性を評価する。

Astronomical outliers, such as unusual, rare or unknown types of astronomical objects or phenomena, constantly lead to the discovery of genuinely unforeseen knowledge in astronomy. More unpredictable outliers will be uncovered in principle with the increment of the coverage and quality of upcoming survey data. However, it is a severe challenge to mine rare and unexpected targets from enormous data with human inspection due to a significant workload. Supervised learning is also unsuitable for this purpose since designing proper training sets for unanticipated signals is unworkable. Motivated by these challenges, we adopt unsupervised machine learning approaches to identify outliers in the data of galaxy images to explore the paths for detecting astronomical outliers. For comparison, we construct three methods, which are built upon the k-nearest neighbors (KNN), Convolutional Auto-Encoder (CAE)+ KNN, and CAE + KNN + Attention Mechanism (attCAE KNN) separately. Testing sets are created based on the Galaxy Zoo image data published online to evaluate the performance of the above methods. Results show that attCAE KNN achieves the best recall (78%), which is 53% higher than the classical KNN method and 22% higher than CAE+KNN. The efficiency of attCAE KNN (10 minutes) is also superior to KNN (4 hours) and equal to CAE+KNN(10 minutes) for accomplishing the same task. Thus, we believe it is feasible to detect astronomical outliers in the data of galaxy images in an unsupervised manner. Next, we will apply attCAE KNN to available survey datasets to assess its applicability and reliability.
翻訳日:2022-05-23 15:43:40 公開日:2022-05-19
# Patch-based Conditional Generative Adversarial Networks を用いた人工CT画像の生成

Generation of Artificial CT Images using Patch-based Conditional Generative Adversarial Networks ( http://arxiv.org/abs/2205.09842v1 )

ライセンス: Link先を確認
Marija Habijan, Irena Galic(参考訳) 深層学習は様々な臨床手順の診断と予後を緩和する大きな可能性を秘めている。 しかし、十分な数の医療画像の欠如は、ディープラーニングを用いた画像分析の最も一般的な障害である。 アノテーションの不足により、自動医療分析における半監督技術が注目されている。 generative adversarial networks (gans) のような人工的なデータ拡張と生成技術は、この障害を克服するのに役立つかもしれない。 本稿では,画像生成の条件としてセグメンテーションマスクを用いる条件付き判別器を用いて,生成逆ネットワークを用いた画像生成手法を提案する。 右心室,右心室,左心房,右心房,心筋,肺動脈,大動脈の7つのサブ構造について,全心臓ct画像を用いたgan強調医用画像生成の有用性を確認した。 得られた結果は,高品質ct画像の高精度生成に向けた,提案手法の適用性を示している。 提案手法は, 人工医用画像生成分野におけるさらなる研究を促進する大きな可能性を示す。

Deep learning has a great potential to alleviate diagnosis and prognosis for various clinical procedures. However, the lack of a sufficient number of medical images is the most common obstacle in conducting image-based analysis using deep learning. Due to the annotations scarcity, semi-supervised techniques in the automatic medical analysis are getting high attention. Artificial data augmentation and generation techniques such as generative adversarial networks (GANs) may help overcome this obstacle. In this work, we present an image generation approach that uses generative adversarial networks with a conditional discriminator where segmentation masks are used as conditions for image generation. We validate the feasibility of GAN-enhanced medical image generation on whole heart computed tomography (CT) images and its seven substructures, namely: left ventricle, right ventricle, left atrium, right atrium, myocardium, pulmonary arteries, and aorta. Obtained results demonstrate the suitability of the proposed adversarial approach for the accurate generation of high-quality CT images. The presented method shows great potential to facilitate further research in the domain of artificial medical image generation.
翻訳日:2022-05-23 15:43:11 公開日:2022-05-19
# パノラマX線画像からの深層移動学習に基づくジェンダー予測

Human Gender Prediction Based on Deep Transfer Learning from Panoramic Radiograph Images ( http://arxiv.org/abs/2205.09850v1 )

ライセンス: Link先を確認
I. Atas(参考訳) パノラマ歯科x線撮影(pdr)画像処理は、法医学における性別決定に最も広く使われている手作業の方法の1つである。 手動のアプローチには、メートル法単位の広い範囲の下顎パラメータ測定が必要である。 時間を要するだけでなく、経験豊富な専門家の雇用も必要である。 この文脈では、深層学習モデルは、その高い処理速度、精度、安定性のために、現在、放射線画像の自動解析に広く利用されている。 本研究では,24,000枚の歯科用パノラマ画像からなるデータセットをバイナリ分類のために準備し,DenseNet121深層学習モデルの訓練を加速し,性能を向上させるために移動学習法を用いた。 転送学習法では,学習プロセスをスクラッチから始めるのではなく,事前に学習した既存のパターンを用いた。 深層移動学習(DTL)モデルVGG16,ResNet50,EfficientNetB6を用いて,提案モデルのPDR画像における分類性能の評価を行った。 比較分析の結果, 提案モデルは, 性別分類において97.25%の成功率を達成し, 他の手法よりも優れていた。

Panoramic Dental Radiography (PDR) image processing is one of the most extensively used manual methods for gender determination in forensic medicine. Manual approaches require a wide range of mandibular parameter measurements in metric units. Besides being time-consuming, these methods also necessitate the employment of experienced professionals. In this context, deep learning models are widely utilized in the auto-analysis of radiological images nowadays, owing to their high processing speed, accuracy, and stability. In our study, a data set consisting of 24,000 dental panoramic images was prepared for binary classification, and the transfer learning method was used to accelerate the training and increase the performance of our proposed DenseNet121 deep learning model. With the transfer learning method, instead of starting the learning process from scratch, the existing patterns learned beforehand were used. Extensive comparisons were made using deep transfer learning (DTL) models VGG16, ResNet50, and EfficientNetB6 to assess the classification performance of the proposed model in PDR images. According to the findings of the comparative analysis, the proposed model outperformed the other approaches by achieving a success rate of 97.25% in gender classification.
翻訳日:2022-05-23 15:42:56 公開日:2022-05-19
# 説明可能なグラフ理論に基づくメータ変換写像の同定

Explainable Graph Theory-Based Identification of Meter-Transformer Mapping ( http://arxiv.org/abs/2205.09874v1 )

ライセンス: Link先を確認
Bilal Saleem, Yang Weng(参考訳) 分散エネルギー資源は環境に適しているが、変圧器の過負荷を引き起こす可能性がある。 課題はメーター変換器(m.t.)マッピングを回復することであり、例えば、メーターと親変圧器の間の大きな距離、またはメーターの消費パターンと非親変圧器のメーターとの高い類似性である。 過去のメソッドでは、トランスミッショングリッドのようにさまざまなデータを想定するか、上述の2つの一般的なシナリオを無視する。 そこで本稿では,変換器間メータの消費が同一ではないことと,電圧系ラプラシアン行列のk最小固有値が理想ラプラシアン行列の次の最小固有値よりも小さいようにデータノイズが制限される特性を用いて,スペクトル埋め込みによる観測を利用する。 この理解に基づく保証も提供します。 さらに、位置情報を利用して地理的に離れた地域でも同様の電圧で電圧情報を支援することで、仮定を部分的に緩和する。 パートナーユーティリティのIEEEテストシステムと実給電システムの数値シミュレーションにより,提案手法がM.T.マッピングを正しく識別することを示す。

Distributed energy resources are better for the environment but may cause transformer overload in distribution grids, calling for recovering meter-transformer mapping to provide situational awareness, i.e., the transformer loading. The challenge lies in recovering meter-transformer (M.T.) mapping for two common scenarios, e.g., large distances between a meter and its parent transformer or high similarity of a meter's consumption pattern to a non-parent transformer's meters. Past methods either assume a variety of data as in the transmission grid or ignore the two common scenarios mentioned above. Therefore, we propose to utilize the above observation via spectral embedding by using the property that inter-transformer meter consumptions are not the same and that the noise in data is limited so that all the k smallest eigenvalues of the voltage-based Laplacian matrix are smaller than the next smallest eigenvalue of the ideal Laplacian matrix. We also provide a guarantee based on this understanding. Furthermore, we partially relax the assumption by utilizing location information to aid voltage information for areas geographically far away but with similar voltages. Numerical simulations on the IEEE test systems and real feeders from our partner utility show that the proposed method correctly identifies M.T. mapping.
翻訳日:2022-05-23 15:40:00 公開日:2022-05-19
# 特徴核融合型畳み込みニューラルネットワークによるレーダ信号のパルス内変調の分類

Classification of Intra-Pulse Modulation of Radar Signals by Feature Fusion Based Convolutional Neural Networks ( http://arxiv.org/abs/2205.09834v1 )

ライセンス: Link先を確認
Fatih Cagatay Akyon, Yasar Kemal Alp, Gokhan Gok, Orhan Arikan(参考訳) 送信パルスに基づくレーダーの検出と分類は、電子戦システムにおいて重要な応用である。 本研究では,レーダ信号のパルス内変調型を自動的に認識する深層学習手法を提案する。 複数の畳み込みニューラルネットワークのトレーニングには、計測されたレーダ信号の再割り当てスペクトルと、特別な関数でフィルタリングされた瞬時位相の異常値を検出する。 ネットワークから自動的に抽出された特徴を融合させ、周波数と位相変調信号を区別する。 シミュレーションの結果, ff-cnn (feature fusion based convolutional neural network) 手法は最先端の代替手法よりも優れており, 幅広い変調タイプ間で容易に拡張できることがわかった。

Detection and classification of radars based on pulses they transmit is an important application in electronic warfare systems. In this work, we propose a novel deep-learning based technique that automatically recognizes intra-pulse modulation types of radar signals. Re-assigned spectrogram of measured radar signal and detected outliers of its instantaneous phases filtered by a special function are used for training multiple convolutional neural networks. Automatically extracted features from the networks are fused to distinguish frequency and phase modulated signals. Simulation results show that the proposed FF-CNN (Feature Fusion based Convolutional Neural Network) technique outperforms the current state-of-the-art alternatives and is easily scalable among broad range of modulation types.
翻訳日:2022-05-23 15:39:35 公開日:2022-05-19
# モバイルデバイス上でのフェデレーション学習のためのサービス遅延最小化

Service Delay Minimization for Federated Learning over Mobile Devices ( http://arxiv.org/abs/2205.09868v1 )

ライセンス: Link先を確認
Rui Chen, Dian Shi, Xiaoqi Qin, Dongjie Liu, Miao Pan, and Shuguang Cui(参考訳) モバイルデバイス上の連合学習(federated learning, fl)は、多くの興味深いアプリケーション/サービスを生み出し、その多くが遅延に敏感である。 本稿では,モバイル端末上でのサービス遅延効率FL(SDEFL)方式を提案する。 無線通信をボトルネックとみなす従来の通信効率のよいFLとは違い,多くの状況において,高速無線伝送技術の発展を考えると,ローカルコンピューティングの遅延はFL訓練過程における通信遅延に匹敵する。 したがって、flのサービス遅延は、トレーニングラウンドでの計算遅延+通信遅延であるべきです。 FLのサービス遅延を最小化するためには、ローカルコンピューティング/通信遅延を独立して低減するだけでは不十分である。 ローカルコンピューティングと無線通信の遅延トレードオフを考慮する必要がある。 さらに,ローカルコンピューティング制御と圧縮戦略(ローカル更新数,重み量子化,勾配量子化)がコンピューティング,通信,サービス遅延に与える影響を実証的に研究した。 これらのトレードオフ観測と実証研究に基づいて,異種デバイス上でのflのサービス遅延を最小限に抑える最適化手法を開発した。 実験ベッドを設置し,エミュレーション・実験を行い,理論解析を行った。 その結果,SDEFLはピア設計と比較して,少ない精度でサービス遅延を低減できることがわかった。

Federated learning (FL) over mobile devices has fostered numerous intriguing applications/services, many of which are delay-sensitive. In this paper, we propose a service delay efficient FL (SDEFL) scheme over mobile devices. Unlike traditional communication efficient FL, which regards wireless communications as the bottleneck, we find that under many situations, the local computing delay is comparable to the communication delay during the FL training process, given the development of high-speed wireless transmission techniques. Thus, the service delay in FL should be computing delay + communication delay over training rounds. To minimize the service delay of FL, simply reducing local computing/communication delay independently is not enough. The delay trade-off between local computing and wireless communications must be considered. Besides, we empirically study the impacts of local computing control and compression strategies (i.e., the number of local updates, weight quantization, and gradient quantization) on computing, communication and service delays. Based on those trade-off observation and empirical studies, we develop an optimization scheme to minimize the service delay of FL over heterogeneous devices. We establish testbeds and conduct extensive emulations/experiments to verify our theoretical analysis. The results show that SDEFL reduces notable service delay with a small accuracy drop compared to peer designs.
翻訳日:2022-05-23 15:36:52 公開日:2022-05-19
# 多様な深層構造を用いたヒトタンパク質アトラスの細胞内タンパク質局在

Subcellular Protein Localisation in the Human Protein Atlas using Ensembles of Diverse Deep Architectures ( http://arxiv.org/abs/2205.09841v1 )

ライセンス: Link先を確認
Syed Sameed Husain, Eng-Jon Ong, Dmitry Minskiy, Mikel Bober-Irizar, Amaia Irizar and Miroslaw Bober(参考訳) 細胞内タンパク質の自動局在化は、健康と病気における細胞機能の理解を促進する。 近年の機械学習(ML)の進歩にもかかわらず、人間は多様な手がかりを用いてより優れた精度を保っている。 3つの重要な側面に対処することで、このギャップを狭めることができることを示す。 (i)細胞アノテーションの品質を自動改善する。 (II)不均衡でノイズの多いデータをサポートする新しい畳み込みニューラルネットワーク(CNN)アーキテクチャ (iii)多種多様な機械学習モデルの選択と融合を通知する。 本稿では,弱いラベルの品質向上のための新しいAI-trains-AI手法を提案し,ウェーブレットフィルタとワイブルアクティベーションを利用した新しいCNNアーキテクチャを提案する。 また,画像レベルとセルレベルの相関関係を解析することにより,マルチCNNアンサンブルプロセスにおける重要な要素についても検討する。 最後に、ヒトタンパク質アトラスにおいて、タンパク質局在パターンのマルチラベル単一細胞分類において、本システムは最先端の性能を達成できることを実証する。 一般化能力も大幅に向上する。

Automated visual localisation of subcellular proteins can accelerate our understanding of cell function in health and disease. Despite recent advances in machine learning (ML), humans still attain superior accuracy by using diverse clues. We show how this gap can be narrowed by addressing three key aspects: (i) automated improvement of cell annotation quality, (ii) new Convolutional Neural Network (CNN) architectures supporting unbalanced and noisy data, and (iii) informed selection and fusion of multiple & diverse machine learning models. We introduce a new "AI-trains-AI" method for improving the quality of weak labels and propose novel CNN architectures exploiting wavelet filters and Weibull activations. We also explore key factors in the multi-CNN ensembling process by analysing correlations between image-level and cell-level predictions. Finally, in the context of the Human Protein Atlas, we demonstrate that our system achieves state-of-the-art performance in the multi-label single-cell classification of protein localisation patterns. It also significantly improves generalisation ability.
翻訳日:2022-05-23 15:17:43 公開日:2022-05-19
# メモリリプレイによるトランス

Transformer with Memory Replay ( http://arxiv.org/abs/2205.09869v1 )

ライセンス: Link先を確認
Rui Liu and Barzan Mozafari(参考訳) 変換器は,大規模テキストコーパスの事前学習により,自然言語処理タスクの最先端性能を実現する。 計算量が非常に多く、サンプルの複雑さも非常に高い。 メモリリプレイは、メモリバッファからの保存と再生によって過去の例を記憶し再利用するメカニズムである。 より優れたサンプル効率のため、強化学習やGANに成功している。 本稿では,メモリリプレイとトランスフォーマを統合し,トランスフォーマのサンプリング効率を向上する,メモリリプレイ付きemph{Transformer with Memory Replay} (TMR)を提案する。 GLUEとSQuADベンチマークデータセットの実験では、同じサンプル数で事前トレーニングされた場合、メモリリプレイによるTransformerは、ベースライントランスフォーマーモデルと比較して、少なくとも1\%$ポイントアップを達成した。 さらに、メモリ再生のウォールクロック時間オーバーヘッドを低減するための注意深い設計を採用することで、より優れた実行効率を実証的に達成する。

Transformers achieve state-of-the-art performance for natural language processing tasks by pre-training on large-scale text corpora. They are extremely compute-intensive and have very high sample complexity. Memory replay is a mechanism that remembers and reuses past examples by saving to and replaying from a memory buffer. It has been successfully used in reinforcement learning and GANs due to better sample efficiency. In this paper, we propose \emph{Transformer with Memory Replay} (TMR), which integrates memory replay with transformer, making transformer more sample-efficient. Experiments on GLUE and SQuAD benchmark datasets show that Transformer with Memory Replay achieves at least $1\%$ point increase compared to the baseline transformer model when pretrained with the same number of examples. Further, by adopting a careful design that reduces the wall-clock time overhead of memory replay, we also empirically achieve a better runtime efficiency.
翻訳日:2022-05-23 15:09:24 公開日:2022-05-19
# 強化学習に基づくモデル選択による時系列異常検出

Time Series Anomaly Detection via Reinforcement Learning-Based Model Selection ( http://arxiv.org/abs/2205.09884v1 )

ライセンス: Link先を確認
Jiuqi Elise Zhang, Di Wu, Benoit Boulet(参考訳) 実世界のシステムの信頼性と効率的な運用には,時系列異常検出が重要である。 多くの異常検出モデルが、異常特性に関する様々な仮定に基づいて長年にわたって開発されてきた。 しかし、実世界のデータの複雑な性質から、時系列内の異なる異常は通常、異なる異常仮定をサポートする多様なプロファイルを持ち、他の全てのモデルに一貫して打ち勝つ単一の異常検出器を見つけることは困難である。 本研究では,異なるベースモデルの利点を利用するために,異常検出モデルのプールがアクセス可能であると仮定し,強化学習を利用してこれらのベースモデルから候補モデルを動的に選択することを提案する。 実世界データに関する実験が実施されている。 提案手法は,全体の性能において,すべてのベースラインモデルより優れていることを示す。

Time series anomaly detection is of critical importance for the reliable and efficient operation of real-world systems. Many anomaly detection models have been developed throughout the years based on various assumptions regarding anomaly characteristics. However, due to the complex nature of real-world data, different anomalies within a time series usually have diverse profiles supporting different anomaly assumptions, making it difficult to find a single anomaly detector that can consistently beat all other models. In this work, to harness the benefits of different base models, we assume that a pool of anomaly detection models is accessible and propose to utilize reinforcement learning to dynamically select a candidate model from these base models. Experiments on real-world data have been implemented. It is demonstrated that the proposed strategy can outperforms all baseline models in terms of overall performance.
翻訳日:2022-05-23 15:09:10 公開日:2022-05-19
# 補間圧縮パラメータ部分空間

Interpolating Compressed Parameter Subspaces ( http://arxiv.org/abs/2205.09891v1 )

ライセンス: Link先を確認
Siddhartha Datta, Nigel Shadbolt(参考訳) ニューラルサブスペースとモード接続に関する最近の研究に触発され、(単一の非シフト分布ではなく)シフトおよび/または補間可能な入力分布に対するパラメータサブスペースサンプリングを再検討する。 圧縮幾何構造を列車時間分布の集合にマッピングされた一連の訓練パラメータ上に適用し、得られた部分空間を圧縮パラメータ部分空間(cps)として表現する。 最適パラメータがCPS内に存在するシフト分布のタイプの成功と失敗モードを示す。 我々は, CPS 内の点推定値のアンサンブルが, バックドア, 逆方向, 順方向, スタイル化, 回転摂動など, 様々なテスト時間分布に対して高い平均精度が得られることを発見した。 また、CPSには様々なタスクシフトのための低損失点推定(補間、摂動、見えない、識別不能な粗いラベル)を含むことができる。 さらに,CIFAR100を用いた連続学習環境において,この特性を示す。

Inspired by recent work on neural subspaces and mode connectivity, we revisit parameter subspace sampling for shifted and/or interpolatable input distributions (instead of a single, unshifted distribution). We enforce a compressed geometric structure upon a set of trained parameters mapped to a set of train-time distributions, denoting the resulting subspaces as Compressed Parameter Subspaces (CPS). We show the success and failure modes of the types of shifted distributions whose optimal parameters reside in the CPS. We find that ensembling point-estimates within a CPS can yield a high average accuracy across a range of test-time distributions, including backdoor, adversarial, permutation, stylization and rotation perturbations. We also find that the CPS can contain low-loss point-estimates for various task shifts (albeit interpolated, perturbed, unseen or non-identical coarse labels). We further demonstrate this property in a continual learning setting with CIFAR100.
翻訳日:2022-05-23 15:08:58 公開日:2022-05-19
# ニューラルネットワーク予測のための最小説明

Minimal Explanations for Neural Network Predictions ( http://arxiv.org/abs/2205.09901v1 )

ライセンス: Link先を確認
Ouns El Harzli, Bernardo Cuenca Grau, Ian Horrocks(参考訳) ニューラルネットワークの予測を説明することは難しい問題である。 本稿では,神経モデル予測の解釈可能性を高めるために,孤立的あるいは他の手法と組み合わせて効果的に活用できる新しい手法を提案する。 トレーニングされたニューラルモデルに対して与えられた入力は、最小の入力特徴集合を計算し、これらの特徴が無視されたときにモデル予測が非形式的ベースライン値に設定されるようにすることを目的とする。 このような極小説明の計算は、完全連結ニューラルネットワークでは一般に計算に難解であるが、ネットワークの活性化関数に対する軽度仮定の下での欲張りなアルゴリズムによって多項式時間で解くことができることを示した。 その結果,畳み込みニューラルネットワークやグラフニューラルネットワークといった,より高度なニューラルネットワークにシームレスに拡張できることが分かった。 我々は,モデルの予測に不可欠な入力特徴を特定するための手法の有効性を示す実験を行った。

Explaining neural network predictions is known to be a challenging problem. In this paper, we propose a novel approach which can be effectively exploited, either in isolation or in combination with other methods, to enhance the interpretability of neural model predictions. For a given input to a trained neural model, our aim is to compute a smallest set of input features so that the model prediction changes when these features are disregarded by setting them to an uninformative baseline value. While computing such minimal explanations is computationally intractable in general for fully-connected neural networks, we show that the problem becomes solvable in polynomial time by a greedy algorithm under mild assumptions on the network's activation functions. We then show that our tractability result extends seamlessly to more advanced neural architectures such as convolutional and graph neural networks. We conduct experiments to showcase the capability of our method for identifying the input features that are essential to the model's prediction.
翻訳日:2022-05-23 15:08:41 公開日:2022-05-19
# GANがNLPに過大評価されている理由

Why GANs are overkill for NLP ( http://arxiv.org/abs/2205.09838v1 )

ライセンス: Link先を確認
David Alvarez-Melis and Vikas Garg and Adam Tauman Kalai(参考訳) この研究は、多くの試みにもかかわらず、生成モデリング(例えばgans)に対する敵対的アプローチが、特定の世代タスク、特に自然言語生成のような逐次的なタスク、例えばコンピュータビジョンのような他のタスクで人気を博していない理由について、新しい理論的視点を提供する。 特にテキストなどのシーケンシャルデータでは、gansよりも最大類似のアプローチがかなり活用されている。 最大の可能性の最大化は、識別可能性の最小化と本質的に異なるように見えるが、この区別は大半が人工的であり、限られたモデルにのみ当てはまる。 我々は、kl-divergenceの最小化(すなわち最大化可能性)は、敵モデルが最適化しようとするのと同じ識別可能性基準を効果的に最小化するためのより効率的なアプローチであると主張する。 判別可能性の最小化は、n-gramモデルや、ソフトマックス出力層を持つニューラルネットワークを含むモデルのある種のモデルに対して、単に可能性を高めることができる。 多項式時間削減を実現するために,新しい次点微分可能性モデルを提案する。

This work offers a novel theoretical perspective on why, despite numerous attempts, adversarial approaches to generative modeling (e.g., GANs) have not been as popular for certain generation tasks, particularly sequential tasks such as Natural Language Generation, as they have in others, such as Computer Vision. In particular, on sequential data such as text, maximum-likelihood approaches are significantly more utilized than GANs. We show that, while it may seem that maximizing likelihood is inherently different than minimizing distinguishability, this distinction is largely artificial and only holds for limited models. We argue that minimizing KL-divergence (i.e., maximizing likelihood) is a more efficient approach to effectively minimizing the same distinguishability criteria that adversarial models seek to optimize. Reductions show that minimizing distinguishability can be seen as simply boosting likelihood for certain families of models including n-gram models and neural networks with a softmax output layer. To achieve a full polynomial-time reduction, a novel next-token distinguishability model is considered.
翻訳日:2022-05-23 14:38:14 公開日:2022-05-19
# Beyond Labels: 骨髄細胞形態認識のための視覚表現

Beyond Labels: Visual Representations for Bone Marrow Cell Morphology Recognition ( http://arxiv.org/abs/2205.09880v1 )

ライセンス: Link先を確認
Shayan Fazeli, Alireza Samiei, Thomas D. Lee, Majid Sarrafzadeh(参考訳) 骨髄細胞の形態の解析と検査は、血液病理診断において極めて複雑かつ時間を要する要素である。 最近の人工知能の進歩は、深層学習アルゴリズムを複雑な医療タスクに応用する道を開いた。 それでも、十分な正確かつ確実にアノテートされたトレーニングデータセットの欠如や、ほとんどの医療データの高度にクラス不均衡な性質など、医療画像解析に効果的な学習アルゴリズムを適用する上での多くの課題がある。 本稿では,ラベル付きデータへの単独依存から脱却し,学習モデルの学習に自己スーパービジョンを活用し,骨髄細胞認識の最先端手法を改善する。 骨髄細胞型同定における我々のアプローチの有効性について検討した。 実験では, 骨髄細胞認識課題の遂行において, 現状と比較して有意な性能改善が得られた。

Analyzing and inspecting bone marrow cell cytomorphology is a critical but highly complex and time-consuming component of hematopathology diagnosis. Recent advancements in artificial intelligence have paved the way for the application of deep learning algorithms to complex medical tasks. Nevertheless, there are many challenges in applying effective learning algorithms to medical image analysis, such as the lack of sufficient and reliably annotated training datasets and the highly class-imbalanced nature of most medical data. Here, we improve on the state-of-the-art methodologies of bone marrow cell recognition by deviating from sole reliance on labeled data and leveraging self-supervision in training our learning models. We investigate our approach's effectiveness in identifying bone marrow cell types. Our experiments demonstrate significant performance improvements in conducting different bone marrow cell recognition tasks compared to the current state-of-the-art methodologies.
翻訳日:2022-05-23 14:37:26 公開日:2022-05-19
# 一般化支援制御のための並行ポリシブレンディングとシステム同定

Concurrent Policy Blending and System Identification for Generalized Assistive Control ( http://arxiv.org/abs/2205.09836v1 )

ライセンス: Link先を確認
Luke Bhan, Marcos Quinones-Grueiro and Gautam Biswas(参考訳) 本研究では,複数のパラメータを対象とする複雑な協調ロボットタスクの解決問題に対処する。 本手法は,システムパラメータの変化に対して堅牢な汎用ポリシを作成するために,システム識別と同時ポリシを組み合わせる。 状態空間はシステム同定手法によるパラメータ推定のみに依存するブレンディングネットワークを用いる。 その結果、このブレンディングネットワークは、一般化されたパラメータセットのタスクを同時に解く方法を学ぶのではなく、パラメータ変更の扱い方を学ぶ。 本研究は,人間とロボットが協調して作業するロボットの能力と,運動障害を有する人間のかゆみ課題を実証する。 次に、標準的なドメインランダム化と比較して、様々なシステム識別手法でアプローチの効率を実証する。

In this work, we address the problem of solving complex collaborative robotic tasks subject to multiple varying parameters. Our approach combines simultaneous policy blending with system identification to create generalized policies that are robust to changes in system parameters. We employ a blending network whose state space relies solely on parameter estimates from a system identification technique. As a result, this blending network learns how to handle parameter changes instead of trying to learn how to solve the task for a generalized parameter set simultaneously. We demonstrate our scheme's ability on a collaborative robot and human itching task in which the human has motor impairments. We then showcase our approach's efficiency with a variety of system identification techniques when compared to standard domain randomization.
翻訳日:2022-05-23 14:34:33 公開日:2022-05-19
# 自然言語生成におけるジェンダー・プライオリティ複合バイアスの理解に向けて

Towards Understanding Gender-Seniority Compound Bias in Natural Language Generation ( http://arxiv.org/abs/2205.09830v1 )

ライセンス: Link先を確認
Samhita Honnavalli, Aesha Parekh, Lily Ou, Sophie Groenwold, Sharon Levy, Vicente Ordonez, William Yang Wang(参考訳) 女性はしばしば男性よりも若いと見なされるが、同じ肩書き内でもそうである。 自然言語処理(nlp)における性バイアスの評価には大きな進展があるが、他の社会バイアスと組み合わせた場合、性グループに対するバイアスがどのように変化するかはほとんど研究されていない。 本研究では,プレトレーニングニューラルジェネレーションモデルにおける性バイアスの程度に高齢者が与える影響について,複合バイアスを探索する新しい枠組みを導入することにより検討する。 本稿では,米国上院議員と教授の2つの領域にまたがるベンチマークロバストネステストデータセットを,遠距離スーパービジョン法を用いて作成した。 我々のデータセットには、基礎となる真実とペア化された反事実を含む人文テキストが含まれています。 次に、生成したテキストにおけるGPT-2の難易度とジェンダー言語頻度について検討する。 以上の結果から,gpt-2は,女性を中高生,男性を年長者とみなしてバイアスを増幅することが示唆された。 以上の結果から, GPT-2を用いて構築したNLPアプリケーションは, 職業能力において女性に害を与える可能性が示唆された。

Women are often perceived as junior to their male counterparts, even within the same job titles. While there has been significant progress in the evaluation of gender bias in natural language processing (NLP), existing studies seldom investigate how biases toward gender groups change when compounded with other societal biases. In this work, we investigate how seniority impacts the degree of gender bias exhibited in pretrained neural generation models by introducing a novel framework for probing compound bias. We contribute a benchmark robustness-testing dataset spanning two domains, U.S. senatorship and professorship, created using a distant-supervision method. Our dataset includes human-written text with underlying ground truth and paired counterfactuals. We then examine GPT-2 perplexity and the frequency of gendered language in generated text. Our results show that GPT-2 amplifies bias by considering women as junior and men as senior more often than the ground truth in both domains. These results suggest that NLP applications built using GPT-2 may harm women in professional capacities.
翻訳日:2022-05-23 14:27:35 公開日:2022-05-19
# テーブル固有モデル設計を必要としないテーブル検索

Table Retrieval May Not Necessitate Table-specific Model Design ( http://arxiv.org/abs/2205.09843v1 )

ライセンス: Link先を確認
Zhiruo Wang, Zhengbao Jiang, Eric Nyberg, Graham Neubig(参考訳) テーブルは人間と機械の読者の両方にとって重要な構造化データであり、テキストには見つからない、あるいは簡単には見つからない質問に対する回答を提供する。 最近の研究は、テーブルベースの質問応答やテーブル検索といったテーブル関連タスクのための特別なモデルと訓練パラダイムを設計してきた。 効果はあるものの、モデリングとデータ取得の両方において、ジェネリックテキストソリューションに比べて複雑さが増し、どの要素が真に有益か分からない。 本研究では,テーブル検索の課題に注目し,「テーブル検索にテーブル固有モデル設計は必要か,あるいは,より単純なテキストベースモデルで同様の結果を得るために効果的に使用できるか?」を問う。 まず、自然質問データセット(NQ-table)の表に基づく分析を行い、70%以上のケースにおいて構造が無視可能な役割を担っていることを確認する。 そこで本研究では,テキストに基づく汎用Dense Passage Retriever (DPR) と,テーブル固有のモデル設計を用いた専用Dense Table Retriever (DTR) を実験した。 DPRはテーブル固有の設計や訓練を必要とせず、適切に線形化されたテーブル上で微調整された場合よりも優れた結果が得られる。 次に、テーブル構造、すなわち補助列/カラム埋め込み、ハードアテンションマスク、ソフトリレーションに基づくアテンションバイアスを明示的にエンコードする3つのモジュールを実験する。 しかし、いずれも大きな改善は得られず、テーブル固有のモデル設計がテーブル検索に不要である可能性が示唆された。

Tables are an important form of structured data for both human and machine readers alike, providing answers to questions that cannot, or cannot easily, be found in texts. Recent work has designed special models and training paradigms for table-related tasks such as table-based question answering and table retrieval. Though effective, they add complexity in both modeling and data acquisition compared to generic text solutions and obscure which elements are truly beneficial. In this work, we focus on the task of table retrieval, and ask: "is table-specific model design necessary for table retrieval, or can a simpler text-based model be effectively used to achieve a similar result?" First, we perform an analysis on a table-based portion of the Natural Questions dataset (NQ-table), and find that structure plays a negligible role in more than 70% of the cases. Based on this, we experiment with a general Dense Passage Retriever (DPR) based on text and a specialized Dense Table Retriever (DTR) that uses table-specific model designs. We find that DPR performs well without any table-specific design and training, and even achieves superior results compared to DTR when fine-tuned on properly linearized tables. We then experiment with three modules to explicitly encode table structures, namely auxiliary row/column embeddings, hard attention masks, and soft relation-based attention biases. However, none of these yielded significant improvements, suggesting that table-specific model design may not be necessary for table retrieval.
翻訳日:2022-05-23 14:25:33 公開日:2022-05-19
# 関係抽出のための間接スーパービジョンとしての要約

Summarization as Indirect Supervision for Relation Extraction ( http://arxiv.org/abs/2205.09837v1 )

ライセンス: Link先を確認
Keming Lu, I-Hung Hsu, Wenxuan Zhou, Mingyu Derek Ma, Muhao Chen(参考訳) リレーションレーション抽出(re)モデルは、高価なアノテーションによるトレーニングデータに依存することで挑戦されている。 要約タスクは、より長い文脈から合成情報の簡潔な表現を取得することを目的としており、これらのタスクは自然にREの目的、すなわちエンティティ参照の関係を記述した合成情報の抽出と一致する。 本稿では,REを要約式に変換するSuREを提案する。 SuREは、要約タスクからの間接的な監督に基づいて、より正確でリソース効率のよいREをもたらす。 この目的を達成するために、要約と再タスクの定式化を本質的に橋渡しする文と関係変換技術を開発する。 また,制約復号化手法をTrieスコアに組み込んで,ロバスト推論による要約型REをさらに強化する。 3つのREデータセットの実験は、完全なデータセットと低リソースの両方でSuREの有効性を実証し、REモデルを改善するための間接的監督の有望な源であることを示す。

Relation extraction (RE) models have been challenged by their reliance on training data with expensive annotations. Considering that summarization tasks aim at acquiring concise expressions of synoptical information from the longer context, these tasks naturally align with the objective of RE, i.e., extracting a kind of synoptical information that describes the relation of entity mentions. We present SuRE, which converts RE into a summarization formulation. SuRE leads to more precise and resource-efficient RE based on indirect supervision from summarization tasks. To achieve this goal, we develop sentence and relation conversion techniques that essentially bridge the formulation of summarization and RE tasks. We also incorporate constraint decoding techniques with Trie scoring to further enhance summarization-based RE with robust inference. Experiments on three RE datasets demonstrate the effectiveness of SuRE in both full-dataset and low-resource settings, showing that summarization is a promising source of indirect supervision to improve RE models.
翻訳日:2022-05-23 13:41:57 公開日:2022-05-19
# モデルがマルチタスク学習のためのカリキュラムを決定する

Let the Model Decide its Curriculum for Multitask Learning ( http://arxiv.org/abs/2205.09898v1 )

ライセンス: Link先を確認
Neeraj Varshney, Swaroop Mishra, and Chitta Baral(参考訳) 従来のマルチタスク学習手法におけるカリキュラム学習戦略は、人間の知覚に基づいてデータセットを難易度階層に配置する。 しかし、人間の困難に対する認識は、必ずしも機械解釈と相関しておらず、性能が悪く、徹底的な探索は計算コストがかかる。 これらの問題に対処するため,モデルに基づくアプローチによって計算される難易度に基づいて,学習カリキュラムにトレーニングインスタンスを配置する手法を2種類提案する。 データセットレベルとインスタンスレベルの2つのクラスは、アレンジメントの粒度が異なる。 12のデータセットによる総合的な実験を通して、インスタンスレベルとデータセットレベルのテクニックは、それぞれのベースラインに対して平均4.17%と3.15%のパフォーマンス改善をもたらすため、強い表現をもたらすことを示す。 さらに、この改善のほとんどは、難解な事例に正しく答えることによるものであり、難解な作業において我々の技術がより有効であることを示唆している。

Curriculum learning strategies in prior multi-task learning approaches arrange datasets in a difficulty hierarchy either based on human perception or by exhaustively searching the optimal arrangement. However, human perception of difficulty may not always correlate well with machine interpretation leading to poor performance and exhaustive search is computationally expensive. Addressing these concerns, we propose two classes of techniques to arrange training instances into a learning curriculum based on difficulty scores computed via model-based approaches. The two classes i.e Dataset-level and Instance-level differ in granularity of arrangement. Through comprehensive experiments with 12 datasets, we show that instance-level and dataset-level techniques result in strong representations as they lead to an average performance improvement of 4.17% and 3.15% over their respective baselines. Furthermore, we find that most of this improvement comes from correctly answering the difficult instances, implying a greater efficacy of our techniques on difficult tasks.
翻訳日:2022-05-23 13:41:41 公開日:2022-05-19
# 動的処理規則のポリシー適応によるアクター・クリティカルネットワークの分離

Deconfounding Actor-Critic Network with Policy Adaptation for Dynamic Treatment Regimes ( http://arxiv.org/abs/2205.09852v1 )

ライセンス: Link先を確認
Changchang Yin, Ruoqi Liu, Jeffrey Caterino, Ping Zhang(参考訳) 基礎研究や臨床研究の激しい取り組みにもかかわらず、重症患者に対する個別換気戦略は依然として大きな課題である。 近年、電子健康記録(EHR)に関する強化学習(RL)を伴う動的治療体制(DTR)が、医療産業と機械学習研究コミュニティの両方から関心を集めている。 しかし、ほとんどの学習されたDTRポリシーは、共同設立者の存在によってバイアスを受ける可能性がある。 もし共同設立者が死亡の原因となった場合、長期的結果(例えば90日間の死亡)によって導かれるRLモデルの訓練は、学習したDTRポリシーを最適にするためにこれらの治療行為を罰する。 本研究では,患者に対して最適なDTRポリシーを学習するための,DAC (Deconfounding actor-critic Network) を開発した。 コンファウンディングの問題を軽減するため,患者再サンプリングモジュールとコンファウンディングバランスモジュールをアクター批判フレームワークに組み込んだ。 非生存者の効果的な治療行為の処罰を避けるため,患者の即時健康状態の変化を捉えるための短期報酬を設計する。 短期報酬と長期報酬を組み合わせることで、モデルの性能がさらに向上する可能性がある。 さらに,学習モデルを新たな小規模データセットにうまく移行させるポリシ適応手法を提案する。 1つの半合成データと2つの異なる実世界のデータセットの実験結果は、提案されたモデルが最先端モデルを上回ることを示している。 提案モデルでは, 人工呼吸器の個別的治療決定を行うことで, 患者の予後を改善できる。

Despite intense efforts in basic and clinical research, an individualized ventilation strategy for critically ill patients remains a major challenge. Recently, dynamic treatment regime (DTR) with reinforcement learning (RL) on electronic health records (EHR) has attracted interest from both the healthcare industry and machine learning research community. However, most learned DTR policies might be biased due to the existence of confounders. Although some treatment actions non-survivors received may be helpful, if confounders cause the mortality, the training of RL models guided by long-term outcomes (e.g., 90-day mortality) would punish those treatment actions causing the learned DTR policies to be suboptimal. In this study, we develop a new deconfounding actor-critic network (DAC) to learn optimal DTR policies for patients. To alleviate confounding issues, we incorporate a patient resampling module and a confounding balance module into our actor-critic framework. To avoid punishing the effective treatment actions non-survivors received, we design a short-term reward to capture patients' immediate health state changes. Combining short-term with long-term rewards could further improve the model performance. Moreover, we introduce a policy adaptation method to successfully transfer the learned model to new-source small-scale datasets. The experimental results on one semi-synthetic and two different real-world datasets show the proposed model outperforms the state-of-the-art models. The proposed model provides individualized treatment decisions for mechanical ventilation that could improve patient outcomes.
翻訳日:2022-05-23 13:38:25 公開日:2022-05-19
# 微分可能なアーキテクチャによるインクリメンタルラーニングと探索

Incremental Learning with Differentiable Architecture and Forgetting Search ( http://arxiv.org/abs/2205.09875v1 )

ライセンス: Link先を確認
James Seale Smith, Zachary Seymour, Han-Pang Chiu(参考訳) インクリメンタルな分類タスク(インクリメンタルな学習)をインクリメンタルに拡張する機械学習モデルをトレーニングする上で、次のステップは、この進歩を産業の期待に変換することだ。 漸進的な学習で欠けているテクニックは、Neural Architecture Search (NAS)による自動アーキテクチャ設計である。 本稿では,NASをインクリメンタル学習に活用することで,分類タスクの性能向上が期待できることを示す。 第一に、我々は、差別化可能なアーキテクチャ検索(darts)と最先端のインクリメンタル学習戦略に基づく、インクリメンタルな学習のための強力なベースラインアプローチを作成し、同様のサイズのポピュラーアーキテクチャで訓練された多くの既存の戦略を上回ります。 本手法はRF信号と画像分類タスクの両方で評価し,最先端手法よりも最大10%の性能向上を達成できることを実証した。 最も重要なのは,データ分布の複雑さが不明な実世界のアプリケーションデータに対する連続分布からの学習や,(rf信号分類などの)モダリティの低さを実現することである。

As progress is made on training machine learning models on incrementally expanding classification tasks (i.e., incremental learning), a next step is to translate this progress to industry expectations. One technique missing from incremental learning is automatic architecture design via Neural Architecture Search (NAS). In this paper, we show that leveraging NAS for incremental learning results in strong performance gains for classification tasks. Specifically, we contribute the following: first, we create a strong baseline approach for incremental learning based on Differentiable Architecture Search (DARTS) and state-of-the-art incremental learning strategies, outperforming many existing strategies trained with similar-sized popular architectures; second, we extend the idea of architecture search to regularize architecture forgetting, boosting performance past our proposed baseline. We evaluate our method on both RF signal and image classification tasks, and demonstrate we can achieve up to a 10% performance increase over state-of-the-art methods. Most importantly, our contribution enables learning from continuous distributions on real-world application data for which the complexity of the data distribution is unknown, or the modality less explored (such as RF signal classification).
翻訳日:2022-05-23 13:38:01 公開日:2022-05-19
# 半教師付きグラフ分類のためのラベル不変な拡張

Label-invariant Augmentation for Semi-Supervised Graph Classification ( http://arxiv.org/abs/2205.09802v1 )

ライセンス: Link先を確認
Han Yue, Chunhui Zhang, Chuxu Zhang, Hongfu Liu(参考訳) 近年、コントラストに基づく拡張は、ローテーション、クロップ、フリップなどいくつかの操作と専用アルゴリズムを組み合わせることで、モデルの一般化とロバスト性が劇的に向上するコンピュータビジョン領域の新たなクライマックスを飛躍的に高めている。 この傾向に従い、いくつかの先駆的な試みはグラフデータと同様のアイデアを採用している。 しかし、画像とは異なり、グラフの性質を変えることなく、合理的な拡張を設計することはより困難である。 現在のグラフコントラスト学習は、エキサイティングではあるが、視覚コントラスト学習ほど有望なパフォーマンスを達成できない。 グラフコントラスト学習の現在の性能はラベル不変増補仮説の違反によって制限されるかもしれないと推測する。 この課題に対処するために,グラフ構造化データに対するラベル不変拡張を提案する。 ノード/エッジの修正やサブグラフの抽出とは異なり、表現空間における拡張を行い、拡張データのラベルを元のサンプルと同じ状態に保ちながら、最も難しい方向に拡張されたサンプルを生成する。 半教師付きシナリオにおいて,提案手法は,従来のグラフニューラルネットワークの手法と最近のグラフコントラスト学習を8つのベンチマークグラフ構造化データで比較し,さらに,ラベル不変の拡張について,より深い実験を行った。

Recently, contrastiveness-based augmentation surges a new climax in the computer vision domain, where some operations, including rotation, crop, and flip, combined with dedicated algorithms, dramatically increase the model generalization and robustness. Following this trend, some pioneering attempts employ the similar idea to graph data. Nevertheless, unlike images, it is much more difficult to design reasonable augmentations without changing the nature of graphs. Although exciting, the current graph contrastive learning does not achieve as promising performance as visual contrastive learning. We conjecture the current performance of graph contrastive learning might be limited by the violation of the label-invariant augmentation assumption. In light of this, we propose a label-invariant augmentation for graph-structured data to address this challenge. Different from the node/edge modification and subgraph extraction, we conduct the augmentation in the representation space and generate the augmented samples in the most difficult direction while keeping the label of augmented data the same as the original samples. In the semi-supervised scenario, we demonstrate our proposed method outperforms the classical graph neural network based methods and recent graph contrastive learning on eight benchmark graph-structured data, followed by several in-depth experiments to further explore the label-invariant augmentation in several aspects.
翻訳日:2022-05-23 13:16:14 公開日:2022-05-19
# 予測・生成・補間のためのマスキング条件付き映像拡散

Masked Conditional Video Diffusion for Prediction, Generation, and Interpolation ( http://arxiv.org/abs/2205.09853v1 )

ライセンス: Link先を確認
Vikram Voleti and Alexia Jolicoeur-Martineau and Christopher Pal(参考訳) ビデオの予測は難しい課題だ。 現在のSOTA(State-of-the-art Generative Model)の映像フレームの品質は低い傾向にあり、トレーニングデータ以外の一般化は難しい。 さらに、既存の予測フレームワークは、通常、無条件生成や補間といった他のビデオ関連タスクを同時に処理できない。 本研究では,これらすべてのビデオ合成タスクに対して,過去および/または将来のフレームに条件付された確率的条件付きスコアに基づくデノナイジング拡散モデルを用いて,Masked Conditional Video Diffusion (MCVD) と呼ばれる汎用フレームワークを考案する。 私たちは、過去のフレームや将来のフレームをすべてランダムかつ独立にマスクする方法でモデルをトレーニングします。 未来/ペースト予測(future/past prediction) - 未来/ペーストフレームだけがマスクされている場合、無条件生成(unconditional generation) - 過去と将来のフレームの両方がマスクされている場合、そして、過去と将来のフレームがマスクされていない場合の補間。 実験により,様々な種類のビデオに対して高品質なフレームを生成することが可能であることが確認された。 MCVDモデルは、単純な再帰的2次元畳み込みアーキテクチャ、フレームブロックの条件付け、フレームブロックの生成から構築されている。 我々はブロックワイズで任意の長さのビデオを自動回帰的に生成する。 提案手法は,標準的なビデオ予測と補間ベンチマークにまたがってSOTA結果を出力し,1~12日で測定したトレーニングモデルの計算時間を$$$\le$4 GPUで行う。 https://mask-cond-video-diffusion.github.io

Video prediction is a challenging task. The quality of video frames from current state-of-the-art (SOTA) generative models tends to be poor and generalization beyond the training data is difficult. Furthermore, existing prediction frameworks are typically not capable of simultaneously handling other video-related tasks such as unconditional generation or interpolation. In this work, we devise a general-purpose framework called Masked Conditional Video Diffusion (MCVD) for all of these video synthesis tasks using a probabilistic conditional score-based denoising diffusion model, conditioned on past and/or future frames. We train the model in a manner where we randomly and independently mask all the past frames or all the future frames. This novel but straightforward setup allows us to train a single model that is capable of executing a broad range of video tasks, specifically: future/past prediction -- when only future/past frames are masked; unconditional generation -- when both past and future frames are masked; and interpolation -- when neither past nor future frames are masked. Our experiments show that this approach can generate high-quality frames for diverse types of videos. Our MCVD models are built from simple non-recurrent 2D-convolutional architectures, conditioning on blocks of frames and generating blocks of frames. We generate videos of arbitrary lengths autoregressively in a block-wise manner. Our approach yields SOTA results across standard video prediction and interpolation benchmarks, with computation times for training models measured in 1-12 days using $\le$ 4 GPUs. https://mask-cond-video-diffusion.github.io
翻訳日:2022-05-23 13:15:54 公開日:2022-05-19
# $\sqrt{T}$ Barrier: 確率的文脈線形帯域におけるインスタンス独立な対数レグレットを破る

Breaking the $\sqrt{T}$ Barrier: Instance-Independent Logarithmic Regret in Stochastic Contextual Linear Bandits ( http://arxiv.org/abs/2205.09899v1 )

ライセンス: Link先を確認
Avishek Ghosh and Abishek Sankararaman(参考訳) 線形ペイオフを伴う確率的文脈的バンディットに対するインスタンス独立(多)対数的後悔を証明する。 以前は、$\mathcal{O}(\sqrt{T})$ の下界は任意の(逆選択された)文脈を持つ文脈線形帯域問題に対して示されていた。 本稿では,確率的文脈が,その後悔を$\sqrt{T}$から$\polylog(T)$に減らすのに役立つことを示す。 本稿では,確率的文脈を活かし,パラメータ推定($\ell_2$ norm)と後悔最小化を同時に行う低レグレト確率的文脈帯域(\texttt{LR-SCB})を提案する。 \textt{lr-scb} は、以前のエポックのパラメータ推定が現在のエポックの後悔を減らすために使用されるエポックで動作する。 texttt{LR-SCB} の(多分)対数的後悔は2つの重要な事実に由来する。 (a)パラメータ推定とパラメータ推定のためのノルム適応アルゴリズムの適用 (b) シフトした線形文脈帯域幅アルゴリズムの解析により, シフトが後悔を増すことを示した。 我々はまた、確率的文脈が実際に$\polylog(T)$でスケールする後悔を引き起こすことを実験的に示した。

We prove an instance independent (poly) logarithmic regret for stochastic contextual bandits with linear payoff. Previously, in \cite{chu2011contextual}, a lower bound of $\mathcal{O}(\sqrt{T})$ is shown for the contextual linear bandit problem with arbitrary (adversarily chosen) contexts. In this paper, we show that stochastic contexts indeed help to reduce the regret from $\sqrt{T}$ to $\polylog(T)$. We propose Low Regret Stochastic Contextual Bandits (\texttt{LR-SCB}), which takes advantage of the stochastic contexts and performs parameter estimation (in $\ell_2$ norm) and regret minimization simultaneously. \texttt{LR-SCB} works in epochs, where the parameter estimation of the previous epoch is used to reduce the regret of the current epoch. The (poly) logarithmic regret of \texttt{LR-SCB} stems from two crucial facts: (a) the application of a norm adaptive algorithm to exploit the parameter estimation and (b) an analysis of the shifted linear contextual bandit algorithm, showing that shifting results in increasing regret. We have also shown experimentally that stochastic contexts indeed incurs a regret that scales with $\polylog(T)$.
翻訳日:2022-05-23 13:14:44 公開日:2022-05-19
# 単眼映像からの深度・カメラポーズ・光流れの教師なし学習

Unsupervised Learning of Depth, Camera Pose and Optical Flow from Monocular Video ( http://arxiv.org/abs/2205.09821v1 )

ライセンス: Link先を確認
Dipan Mandal, Abhilash Jain, Sreenivas Subramoney(参考訳) 単眼画像列からの単眼深度・光流・自我(カメラポーズ)推定のための非教師付き共同学習システムDFPNetを提案する。 3次元シーン幾何学の性質からこれら3つのコンポーネントは結合される。 この事実を利用して、3つのコンポーネントをエンドツーエンドで共同でトレーニングします。 ネットワークのトレーニングには,画像再構成による深度・光流の損失,双方向の整合性チェック,スムーズな損失成分を含む複合損失関数が使用される。 ハイパーパラメータチューニングを使用することで、最先端DFPモデルのモデルサイズを5%未満(8.4Mパラメータ)に削減できる。 kitti と cityscapes driving datasets の評価では,モデルのサイズが大幅に小さくても,3つのタスクすべてにおいて最先端に匹敵する結果が得られた。

We propose DFPNet -- an unsupervised, joint learning system for monocular Depth, Optical Flow and egomotion (Camera Pose) estimation from monocular image sequences. Due to the nature of 3D scene geometry these three components are coupled. We leverage this fact to jointly train all the three components in an end-to-end manner. A single composite loss function -- which involves image reconstruction-based loss for depth & optical flow, bidirectional consistency checks and smoothness loss components -- is used to train the network. Using hyperparameter tuning, we are able to reduce the model size to less than 5% (8.4M parameters) of state-of-the-art DFP models. Evaluation on KITTI and Cityscapes driving datasets reveals that our model achieves results comparable to state-of-the-art in all of the three tasks, even with the significantly smaller model size.
翻訳日:2022-05-23 13:14:20 公開日:2022-05-19
# 議論品質予測に関する総合的視点に向けて

Towards a Holistic View on Argument Quality Prediction ( http://arxiv.org/abs/2205.09803v1 )

ライセンス: Link先を確認
Michael Fromm, Max Berrendorf, Johanna Reiml, Isabelle Mayerhofer, Siddharth Bhargava, Evgeniy Faerman, Thomas Seidl(参考訳) 論証は社会の基礎的な柱の1つであり、NLPの進歩とテキストデータの広範囲な利用によって引き起こされ、議論の自動化が注目を集めている。 議論の決定的な特性は、その強さまたは品質である。 議論の強さを自動推定する作業は存在するが、その範囲は狭く、孤立したデータセットに注目し、議論の識別や証拠検出、感情的な魅力といった関連する議論のマイニングタスクとの相互作用を無視している。 本研究では,複数の異なる角度から議論品質推定にアプローチすることで,このギャップを解消する:徹底的な経験的評価から得られた豊富な結果に基づいて,多様な領域にわたる議論品質推定の一般化能力,関連する議論マイニングタスクとの相互作用,感情が議論の知覚力に与える影響を評価する。 一般化は訓練部の異なる領域の十分な表現に依存することが分かる。 ゼロショット転送やマルチタスク実験では、引数の品質はより難しいタスクの1つだが、他のタスクを改善できることを明らかにしている。 最後に,感情はしばしば想定されるよりも,議論の品質において小さい役割を担っていることを示す。

Argumentation is one of society's foundational pillars, and, sparked by advances in NLP and the vast availability of text data, automated mining of arguments receives increasing attention. A decisive property of arguments is their strength or quality. While there are works on the automated estimation of argument strength, their scope is narrow: they focus on isolated datasets and neglect the interactions with related argument mining tasks, such as argument identification, evidence detection, or emotional appeal. In this work, we close this gap by approaching argument quality estimation from multiple different angles: Grounded on rich results from thorough empirical evaluations, we assess the generalization capabilities of argument quality estimation across diverse domains, the interplay with related argument mining tasks, and the impact of emotions on perceived argument strength. We find that generalization depends on a sufficient representation of different domains in the training part. In zero-shot transfer and multi-task experiments, we reveal that argument quality is among the more challenging tasks but can improve others. Finally, we show that emotions play a minor role in argument quality than is often assumed.
翻訳日:2022-05-23 12:46:35 公開日:2022-05-19
# アイデア生成と評価のためのツールボックス - 機械学習、データ駆動、アイデア生成を支援するコンテスト駆動アプローチ

A toolbox for idea generation and evaluation: Machine learning, data-driven, and contest-driven approaches to support idea generation ( http://arxiv.org/abs/2205.09840v1 )

ライセンス: Link先を確認
Workneh Yilma Ayele(参考訳) ソーシャルメディア、センサー、学術文献、特許、オンライン出版のさまざまな形態の文書、データベース、製品マニュアルなどから生成されるデジタルデータによって、データの重要性と存在感が高まっている。 さまざまなデータソースを使用してアイデアを生成できるが、バイアスに加えて、利用可能なデジタルデータのサイズは、手作業による分析において大きな課題である。 したがって、人間と機械の相互作用は、機械学習とデータ駆動技術がデータからパターンを生成し、人間の感覚形成に役立つ貴重なアイデアを生み出すのに不可欠である。 しかし、アイデアを生み出すための機械学習とデータ駆動アプローチの利用は比較的新しい分野だ。 さらに、コンテスト駆動のアイデア生成と評価を用いてイノベーションを刺激することも可能である。 この論文の結果とコントリビューションは、アイデア生成をサポートするデータソースとモデルを備えたデータ駆動型および機械学習技術のリストを含む、アイデア生成技術のツールボックスと見なすことができる。 さらに、データ駆動とコンテスト駆動のアイデア生成を支援するために、2つのモデル、1つのメソッドと1つのフレームワークが結果に含まれる。 これらの成果物の受益者は、データと知識工学の実践者、データマイニングプロジェクトマネージャ、イノベーションエージェントである。 イノベーションエージェントには、インキュベーター、コンテスト主催者、コンサルタント、イノベーションアクセラレーター、産業が含まれる。 提案されたアーティファクトは、ai技術によって拡張されたプロセスモデルで構成されているため、人間中心のaiは、アーティファクトのさらなる発展と創造性を促進するための有望な研究領域である。

The significance and abundance of data are increasing due to the growing digital data generated from social media, sensors, scholarly literature, patents, different forms of documents published online, databases, product manuals, etc. Various data sources can be used to generate ideas, yet, in addition to bias, the size of the available digital data is a major challenge when it comes to manual analysis. Hence, human-machine interaction is essential for generating valuable ideas where machine learning and data-driven techniques generate patterns from data and serve human sense-making. However, the use of machine learning and data-driven approaches to generate ideas is a relatively new area. Moreover, it is also possible to stimulate innovation using contest-driven idea generation and evaluation. The results and contributions of this thesis can be viewed as a toolbox of idea-generation techniques, including a list of data-driven and machine learning techniques with corresponding data sources and models to support idea generation. In addition, the results include two models, one method and one framework, to better support data-driven and contest- driven idea generation. The beneficiaries of these artefacts are practitioners in data and knowledge engineering, data mining project managers, and innovation agents. Innovation agents include incubators, contest organizers, consultants, innovation accelerators, and industries. Since the proposed artefacts consist of process models augmented with AI techniques, human-centred AI is a promising area of research that can contribute to the artefacts' further development and promote creativity.
翻訳日:2022-05-23 12:46:16 公開日:2022-05-19
# グラフニューラルネットワークは思った以上に強力

Graph Neural Networks Are More Powerful Than we Think ( http://arxiv.org/abs/2205.09801v1 )

ライセンス: Link先を確認
Charilaos I. Kanatsoulis and Alejandro Ribeiro(参考訳) グラフニューラルネットワーク(GNN)は、様々なノードレベルおよびグラフレベルタスクにおいて顕著なパフォーマンスを示す強力な畳み込みアーキテクチャである。 彼らの成功にもかかわらず、GNNの表現力は限られており、Weisfeiler-Lehman (WL)アルゴリズムと同じくらい差別的であるという共通の信念がある。 本稿では、逆を論じ、GNNへの入力が全てのベクトルである場合にのみ、WLアルゴリズムが上限となることを示す。 この方向において、線形代数ツールを用いてグラフ演算子の固有値分解に関するGNNの表現力を特徴づける別の解析法を導出する。 GNNは、少なくとも1つの固有値が異なるグラフと、WLアルゴリズムよりも確実に表現可能な単純なGNNアーキテクチャを区別できることを示す。 グラフ同型とグラフ分類データセットに関する徹底した実験分析により,提案するアーキテクチャの有効性が実証された。

Graph Neural Networks (GNNs) are powerful convolutional architectures that have shown remarkable performance in various node-level and graph-level tasks. Despite their success, the common belief is that the expressive power of GNNs is limited and that they are at most as discriminative as the Weisfeiler-Lehman (WL) algorithm. In this paper we argue the opposite and show that the WL algorithm is the upper bound only when the input to the GNN is the vector of all ones. In this direction, we derive an alternative analysis that employs linear algebraic tools and characterize the representational power of GNNs with respect to the eigenvalue decomposition of the graph operators. We show that GNNs can distinguish between any graphs that differ in at least one eigenvalue and design simple GNN architectures that are provably more expressive than the WL algorithm. Thorough experimental analysis on graph isomorphism and graph classification datasets corroborates our theoretical results and demonstrates the effectiveness of the proposed architectures.
翻訳日:2022-05-23 12:45:34 公開日:2022-05-19
# フィードフォワードニューラルネットワークのための因果的発見と注入

Causal Discovery and Injection for Feed-Forward Neural Networks ( http://arxiv.org/abs/2205.09787v1 )

ライセンス: Link先を確認
Fabrizio Russo and Francesca Toni(参考訳) ニューラルネットワークは、幅広い問題を解決するのに効果的であることが証明されているが、有意義な因果関係を学んでいるかどうかは不明であることが多い。 本稿では,フィードフォワードニューラルネットワークに(おそらく部分的な)因果グラフの形で知識を注入することにより,学習モデルがグラフに準拠することを保証し,専門家の知識に固執することで,この問題を克服する新しい手法を提案する。 この知識は、人間とAIのコラボレーションを通じてモデルを改善するために、事前または学習プロセス中に与えられる。 本手法を合成および実データ(表式)に適用し,ノイズに対するロバスト性を示し,低データ環境における因果発見と予測性能を向上させる。

Neural networks have proven to be effective at solving a wide range of problems but it is often unclear whether they learn any meaningful causal relationship: this poses a problem for the robustness of neural network models and their use for high-stakes decisions. We propose a novel method overcoming this issue by injecting knowledge in the form of (possibly partial) causal graphs into feed-forward neural networks, so that the learnt model is guaranteed to conform to the graph, hence adhering to expert knowledge. This knowledge may be given up-front or during the learning process, to improve the model through human-AI collaboration. We apply our method to synthetic and real (tabular) data showing that it is robust against noise and can improve causal discovery and prediction performance in low data regimes.
翻訳日:2022-05-23 12:45:17 公開日:2022-05-19
# (参考訳) 実世界における位置支援ビーム予測:gps位置の実際的有用性は?

Position Aided Beam Prediction in the Real World: How Useful GPS Locations Actually Are? ( http://arxiv.org/abs/2205.09054v2 )

ライセンス: CC BY 4.0
Jo\~ao Morais, Arash Behboodi, Hamed Pezeshki and Ahmed Alkhateeb(参考訳) ミリ波(mmWave)通信システムは受信信号の十分な出力を達成するために狭いビームに依存している。 これらのビームの調整は、通常、大きなトレーニングオーバーヘッドと関連付けられ、特にハイモービルアプリケーションにとって重要となる。 直観的には、最適なビーム選択は通信端末の位置の知識の恩恵を受けるので、mm波ビーム予測のオーバーヘッドを減らすために位置データを活用することへの関心が高まっている。 しかし、以前の研究は、現実世界の測定を正確に表現しない合成データのみを使用してこの問題を研究した。 本稿では,実世界の大規模データセットを用いて位置支援ビーム予測を行い,実際にどれだけのオーバーヘッドを節約できるかを考察する。 さらに,機械学習アルゴリズムの最適性能,実データにおける推論性能の低下要因,実際の通信システム性能の把握において機械学習メトリクスがより意味を持つかを分析する。

Millimeter-wave (mmWave) communication systems rely on narrow beams for achieving sufficient receive signal power. Adjusting these beams is typically associated with large training overhead, which becomes particularly critical for highly-mobile applications. Intuitively, since optimal beam selection can benefit from the knowledge of the positions of communication terminals, there has been increasing interest in leveraging position data to reduce the overhead in mmWave beam prediction. Prior work, however, studied this problem using only synthetic data that generally does not accurately represent real-world measurements. In this paper, we investigate position-aided beam prediction using a real-world large-scale dataset to derive insights into precisely how much overhead can be saved in practice. Furthermore, we analyze which machine learning algorithms perform best, what factors degrade inference performance in real data, and which machine learning metrics are more meaningful in capturing the actual communication system performance.
翻訳日:2022-05-23 12:30:23 公開日:2022-05-19
# (参考訳) PillarNet:リアルタイムかつ高性能なPillarベースの3Dオブジェクト検出

PillarNet: Real-Time and High-Performance Pillar-based 3D Object Detection ( http://arxiv.org/abs/2205.07403v2 )

ライセンス: CC BY-SA 4.0
Guangsheng Shi, Ruifeng Li and Chao Ma(参考訳) リアルタイムかつ高性能な3Dオブジェクト検出は、自動運転にとって重要な課題である。 最近のトップパフォーマンスの3Dオブジェクト検出器は、主にポイントベースまたは3Dボクセルベースの畳み込みに依存している。 最近の研究は、ポイントベースや3dボクセルベースの畳み込みに重点を置いているが、これらの手法は特に組み込みデバイスへのデプロイにおいてレイテンシと電力効率の要件を満たしていない。 対照的に、柱ベースの手法は単に2次元の畳み込みを使い、少ない計算資源を消費するが、検出精度においてボクセルベースの手法よりもはるかに遅れている。 しかし,3次元畳み込みニューラルネットワーク(cnn)の有効性は,柱に基づく手法よりも3次元ボクセル法の方が優れていると考えられる。 本稿では,柱型検出器とボクセル型検出器の主な性能ギャップを調べた結果,PillarNetと呼ばれるリアルタイムかつ高性能な柱型検出器を開発した。 提案するPillarNetは,効率的な柱特徴学習のためのエンコーダネットワーク,空間意味的特徴融合のためのネックネットワーク,そして一般的に使用される検出ヘッドからなる。 2Dコンボリューションのみを使用して、PillarNetはオプションの柱サイズに柔軟性があり、VGGNetやResNetのような古典的な2D CNNバックボーンと互換性がある。 さらに、PillarNetは、IoU認識予測ブランチとともに、設計した方向分離されたIoU回帰損失の恩恵を受けています。 大規模nuscenesデータセットとwaymo open datasetの広範な実験結果から,提案するpilarnetは,実効性と効率の面では最先端の3d検出器に対して良好に機能することが示された。 コードは公開される予定だ。

Real-time and high-performance 3D object detection is of critical importance for autonomous driving. Recent top-performing 3D object detectors mainly rely on point-based or 3D voxel-based convolutions, which are both computationally inefficient for onboard deployment. While recent researches focus on point-based or 3D voxel-based convolutions for higher performance, these methods fail to meet latency and power efficiency requirements especially for deployment on embedded devices. In contrast, pillar-based methods use merely 2D convolutions, which consume less computation resources, but they lag far behind their voxel-based counterparts in detection accuracy. However, the superiority of such 3D voxel-based methods over pillar-based methods is still broadly attributed to the effectiveness of 3D convolution neural network (CNN). In this paper, by examining the primary performance gap between pillar- and voxel-based detectors, we develop a real-time and high-performance pillar-based detector, dubbed PillarNet. The proposed PillarNet consists of a powerful encoder network for effective pillar feature learning, a neck network for spatial-semantic feature fusion and the commonly used detect head. Using only 2D convolutions, PillarNet is flexible to an optional pillar size and compatible with classical 2D CNN backbones, such as VGGNet and ResNet. Additionally, PillarNet benefits from our designed orientation-decoupled IoU regression loss along with the IoU-aware prediction branch. Extensive experimental results on large-scale nuScenes Dataset and Waymo Open Dataset demonstrate that the proposed PillarNet performs well over the state-of-the-art 3D detectors in terms of effectiveness and efficiency. Code will be made publicly available.
翻訳日:2022-05-21 15:23:29 公開日:2022-05-19
# (参考訳) 「質問はどんなものか?」 タイプ制御型質問生成に関する研究

"What makes a question inquisitive?" A Study on Type-Controlled Inquisitive Question Generation ( http://arxiv.org/abs/2205.08056v3 )

ライセンス: CC BY 4.0
Lingyu Gao, Debanjan Ghosh, Kevin Gimpel(参考訳) 質問生成のためのタイプ制御フレームワークを提案する。 我々は、質問型、訓練質問型分類器、および型制御された質問生成のためのファインチューンモデルを含む質問データセットを注釈付けする。 実験結果から,ソーステキストを描画しながら,特定のタイプに従属するさまざまな質問を生成できることが示された。 また,生成した集合から1つの質問を選択するための戦略についても検討する。 ~質問分類器と、専門家アノテーションの小さなセットから訓練されたペアワイズローダ。 ペアワイズランカを用いた質問選択は,自動的および手作業による評価において強い結果をもたらす。 人間の評価は、生成した質問の複数の側面を評価し、ランク付け者が最高の構文(4.59)、セマンティクス(4.37)、問合せ性(3.92)を1~5の尺度で選択し、人間による質問のパフォーマンスに匹敵する。

We propose a type-controlled framework for inquisitive question generation. We annotate an inquisitive question dataset with question types, train question type classifiers, and finetune models for type-controlled question generation. Empirical results demonstrate that we can generate a variety of questions that adhere to specific types while drawing from the source texts. We also investigate strategies for selecting a single question from a generated set, considering both an informative vs.~inquisitive question classifier and a pairwise ranker trained from a small set of expert annotations. Question selection using the pairwise ranker yields strong results in automatic and manual evaluation. Our human evaluation assesses multiple aspects of the generated questions, finding that the ranker chooses questions with the best syntax (4.59), semantics (4.37), and inquisitiveness (3.92) on a scale of 1-5, even rivaling the performance of human-written questions.
翻訳日:2022-05-21 15:22:19 公開日:2022-05-19
# (参考訳) 生成逆数ネットワークと拡張時間的リターンスロットによる財務時系列データ拡張

Financial Time Series Data Augmentation with Generative Adversarial Networks and Extended Intertemporal Return Plots ( http://arxiv.org/abs/2205.08924v2 )

ライセンス: CC BY 4.0
Justin Hellermann, Qinzhuan Qian, Ankit Shah(参考訳) データ拡張は、コンピュータビジョンにおける高パラメータ化モデルの予測と分類性能をサポートするための重要な正規化手法である。 しかし、時系列領域では、これらの手法は小さなサンプルサイズや非定常性の影響を緩和しているにもかかわらず、増大の点における正規化は等しく一般的ではない。 本稿では,データ拡張作業に最先端の画像ベース生成モデルを適用し,時系列の新しい画像表現である拡張時空間回帰プロット(XIRP)を導入する。 時系列を効果的に合成する能力とm4コンペティションのサブセットにおける予測結果の改善に関する増補技術の質を評価するため,複数の試験を行った。 さらに,特徴量に寄与する特徴量に対するShapley値によるデータセット特性とサンプリング結果の関係と,拡張データの最適比について検討する。 すべてのデータセットにおいて,本手法は,統計特性や頻度が異なる金融データセットの79%に対して,リターン予測誤差を7%削減する効果があることを実証する。

Data augmentation is a key regularization method to support the forecast and classification performance of highly parameterized models in computer vision. In the time series domain however, regularization in terms of augmentation is not equally common even though these methods have proven to mitigate effects from small sample size or non-stationarity. In this paper we apply state-of-the art image-based generative models for the task of data augmentation and introduce the extended intertemporal return plot (XIRP), a new image representation for time series. Multiple tests are conducted to assess the quality of the augmentation technique regarding its ability to synthesize time series effectively and improve forecast results on a subset of the M4 competition. We further investigate the relationship between data set characteristics and sampling results via Shapley values for feature attribution on the performance metrics and the optimal ratio of augmented data. Over all data sets, our approach proves to be effective in reducing the return forecast error by 7% on 79% of the financial data sets with varying statistical properties and frequencies.
翻訳日:2022-05-21 13:43:48 公開日:2022-05-19
# (参考訳) 限定データハイパースペクトルリモートセンシング画像分類のためのベイズ畳み込みニューラルネットワーク

Bayesian Convolutional Neural Networks for Limited Data Hyperspectral Remote Sensing Image Classification ( http://arxiv.org/abs/2205.09250v1 )

ライセンス: CC BY 4.0
Mohammad Joshaghani, Amirabbas Davari, Faezeh Nejati Hatamian, Andreas Maier, Christian Riess(参考訳) ハイパースペクトルリモートセンシング(HSRS)画像分類にディープニューラルネットワークを使用することは、難しい課題である。 HSRS画像は次元性が高く、チャネル間にかなりの冗長性を持つ多数のチャネルを持つ。 また、hsrs画像の分類のための訓練データには制限があり、他の分類タスクに比べ、利用可能な訓練データ量ははるかに少ない。 これらの要因は、多くのパラメータでディープニューラルネットワークのトレーニングプロセスを複雑にし、従来のモデルと比較してもうまく機能しない。 さらに、畳み込みニューラルネットワークは、上記の問題を考えると非常に望ましくない、自信過剰な予測を生成する。 本研究では,深層ニューラルネットワーク,すなわちベイズ型ニューラルネットワークを用いて,hsrs画像の分類を行う。 私たちの知る限りでは、この種のニューラルネットワークがHSRS画像分類に使用されているのはこれが初めてです。 ベイズニューラルネットワークは、不確実性を測定するための固有のツールを提供する。 ベイジアンネットワークは、同様に構築された非ベイジアン畳み込みニューラルネットワーク(CNN)と、既成のランダムフォレスト(RF)より優れていることを示す。 さらに、pavia centre、salinas、botswanaデータセットの実験結果は、ベイズネットワークがより安定し、プラニングのモデル化に堅牢であることを示している。 さらに,ベイズモデルの予測不確実性を分析し,予測不確実性指標がモデル予測に関する情報を提供し,予測誤差と正の相関を持つことを示す。

Employing deep neural networks for Hyper-spectral remote sensing (HSRS) image classification is a challenging task. HSRS images have high dimensionality and a large number of channels with substantial redundancy between channels. In addition, the training data for classifying HSRS images is limited and the amount of available training data is much smaller compared to other classification tasks. These factors complicate the training process of deep neural networks with many parameters and cause them to not perform well even compared to conventional models. Moreover, convolutional neural networks produce over-confident predictions, which is highly undesirable considering the aforementioned problem. In this work, we use a special class of deep neural networks, namely Bayesian neural network, to classify HSRS images. To the extent of our knowledge, this is the first time that this class of neural networks has been used in HSRS image classification. Bayesian neural networks provide an inherent tool for measuring uncertainty. We show that a Bayesian network can outperform a similarly-constructed non-Bayesian convolutional neural network (CNN) and an off-the-shelf Random Forest (RF). Moreover, experimental results for the Pavia Centre, Salinas, and Botswana datasets show that the Bayesian network is more stable and robust to model pruning. Furthermore, we analyze the prediction uncertainty of the Bayesian model and show that the prediction uncertainty metric can provide information about the model predictions and has a positive correlation with the prediction error.
翻訳日:2022-05-21 08:20:12 公開日:2022-05-19
# (参考訳) IL-flOw:正規化フローを用いた観測からの模倣学習

IL-flOw: Imitation Learning from Observation using Normalizing Flows ( http://arxiv.org/abs/2205.09251v1 )

ライセンス: CC BY 4.0
Wei-Di Chang, Juan Camilo Gamboa Higuera, Scott Fujimoto, David Meger, Gregory Dudek(参考訳) 本稿では,エキスパート状態観測のみから逆強化学習(IRL)のアルゴリズムを提案する。 我々の手法は、政策探索中に報酬モデルを更新する必要のある最先端の敵法とは異なり、政策学習から報酬モデリングを分離し、不安定で最適化が難しいことが知られている。 提案手法であるIL-flOwは,実証軌道で訓練された密度推定器を用いて,状態遷移をモデル化して専門家の方針を復元する。 本研究では,フォワード強化学習の報奨信号として状態遷移対数確率密度を用いることで,専門家による実演の軌道分布の整合を図り,実際の報奨信号の良好な回復と,ロコモーションやロボットによる連続制御作業の観察から得られた成果の再現状態を実験的に示す。

We present an algorithm for Inverse Reinforcement Learning (IRL) from expert state observations only. Our approach decouples reward modelling from policy learning, unlike state-of-the-art adversarial methods which require updating the reward model during policy search and are known to be unstable and difficult to optimize. Our method, IL-flOw, recovers the expert policy by modelling state-state transitions, by generating rewards using deep density estimators trained on the demonstration trajectories, avoiding the instability issues of adversarial methods. We demonstrate that using the state transition log-probability density as a reward signal for forward reinforcement learning translates to matching the trajectory distribution of the expert demonstrations, and experimentally show good recovery of the true reward signal as well as state of the art results for imitation from observation on locomotion and robotic continuous control tasks.
翻訳日:2022-05-21 08:01:50 公開日:2022-05-19
# (参考訳) Twist Decoding: 異なるジェネレータが相互にガイドする

Twist Decoding: Diverse Generators Guide Each Other ( http://arxiv.org/abs/2205.09273v1 )

ライセンス: CC BY 4.0
Jungo Kasai, Keisuke Sakaguchi, Ronan Le Bras, Hao Peng, Ximing Lu, Dragomir Radev, Yejin Choi, Noah A. Smith(参考訳) 自然言語生成技術は最近、大規模トレーニングで著しく進歩しており、多くの自然言語アプリケーションは、現在、幅広い世代モデル上に構築されている。 多様なモデルを組み合わせることでさらなる進歩がもたらされるが、従来のエンセンスリング(例えば浅い融合)では語彙/分岐スキームを共有する必要がある。 様々なモデルの恩恵を受けながらテキストを生成するシンプルで一般的な推論アルゴリズムであるTwist decodingを導入する。 本手法は語彙やトークン化や生成順序の共有を前提としない。 機械翻訳と科学論文の要約に関する広範な評価から,ツイスト復号化は,ドメイン固有モデルと汎用モデルの両方が利用可能である場合を含む,さまざまなシナリオにおいて分離復号された各モデルを大きく上回っていることが示された。 ツイストデコーディングは、あるモデルからの出力候補が別のモデルによってリコードされる、一般的なリランキングヒューリスティックを一貫して上回っている。 私たちの研究は、研究者や実践者が独立したモデルではなく、世代モデルをまとめて検討し、現在利用可能なモデルに補完的な強みを持つモデルを探すことを奨励することを期待しています。

Natural language generation technology has recently seen remarkable progress with large-scale training, and many natural language applications are now built upon a wide range of generation models. Combining diverse models may lead to further progress, but conventional ensembling (e.g., shallow fusion) requires that they share vocabulary/tokenization schemes. We introduce Twist decoding, a simple and general inference algorithm that generates text while benefiting from diverse models. Our method does not assume the vocabulary, tokenization or even generation order is shared. Our extensive evaluations on machine translation and scientific paper summarization demonstrate that Twist decoding substantially outperforms each model decoded in isolation over various scenarios, including cases where domain-specific and general-purpose models are both available. Twist decoding also consistently outperforms the popular reranking heuristic where output candidates from one model is rescored by another. We hope that our work will encourage researchers and practitioners to examine generation models collectively, not just independently, and to seek out models with complementary strengths to the currently available models.
翻訳日:2022-05-21 07:52:27 公開日:2022-05-19
# (参考訳) 検索による長文質問応答のモデル化例

Modeling Exemplification in Long-form Question Answering via Retrieval ( http://arxiv.org/abs/2205.09278v1 )

ライセンス: CC BY 4.0
Shufan Wang, Fangyuan Xu, Laure Thompson, Eunsol Choi, Mohit Iyyer(参考訳) 例示とは、著者が例を示して概念の説明や明確化を行う過程である。 あらゆる形式に共通するが、例示は特に、単純な例によって複雑な答えをより理解しやすい長文質問応答(LFQA)のタスクにおいて有用である。 本稿では,3つのコーパスで異なる種類の例(仮説,逸話など)の微粒なアノテーションを実行し,QAにおけるサンプル化に関する最初の計算的研究を行う。 我々は,最先端のlfqaモデルが関連する例を生成するのに苦労しているだけでなく,ルージュなどの標準評価指標が模範的品質を判断するには不十分であることを示す。 そこで本研究では,コーパスから抽出した多数の人文例の問合せに部分書き回答を用いる,emph{retrieval}問題として例証化を扱うことを提案する。 提案手法は,人的評価と相関する信頼性の高いランキング型自動指標を実現する。 人間による評価により,我々のモデルから得られた例は,最先端のLFQAモデルから生成された例よりも関連性が高いことが示された。

Exemplification is a process by which writers explain or clarify a concept by providing an example. While common in all forms of writing, exemplification is particularly useful in the task of long-form question answering (LFQA), where a complicated answer can be made more understandable through simple examples. In this paper, we provide the first computational study of exemplification in QA, performing a fine-grained annotation of different types of examples (e.g., hypotheticals, anecdotes) in three corpora. We show that not only do state-of-the-art LFQA models struggle to generate relevant examples, but also that standard evaluation metrics such as ROUGE are insufficient to judge exemplification quality. We propose to treat exemplification as a \emph{retrieval} problem in which a partially-written answer is used to query a large set of human-written examples extracted from a corpus. Our approach allows a reliable ranking-type automatic metrics that correlates well with human evaluation. A human evaluation shows that our model's retrieved examples are more relevant than examples generated from a state-of-the-art LFQA model.
翻訳日:2022-05-21 07:26:25 公開日:2022-05-19
# (参考訳) 小さな高次元データセットからの因果推論

Causal Inference from Small High-dimensional Datasets ( http://arxiv.org/abs/2205.09281v1 )

ライセンス: CC BY 4.0
Raquel Aoki and Martin Ester(参考訳) 観察データによる治療効果を推定するための多くの手法が提案されている。 多くの場合、この手法の選択は、治療の種類や結果、境界効果、データの複雑さなど、アプリケーションの特性を考慮に入れている。 これらの手法は、サンプルサイズがそのようなモデルをトレーニングするのに十分な大きさであると暗黙的に仮定する。 もしそうでなければ? 本研究では,同じ特徴空間に別の高次元データセットが存在する場合の,小さな高次元データセットにおける処理効果を推定する手法であるCausal-Batleを提案する。 我々は、因果推論に伝達学習技術をもたらすアプローチを採用する。 実験により,ニューラルネットワークを用いた手法の安定性向上と,小型高次元データセットの処理効果評価の改善が期待できる。

Many methods have been proposed to estimate treatment effects with observational data. Often, the choice of the method considers the application's characteristics, such as type of treatment and outcome, confounding effect, and the complexity of the data. These methods implicitly assume that the sample size is large enough to train such models, especially the neural network-based estimators. What if this is not the case? In this work, we propose Causal-Batle, a methodology to estimate treatment effects in small high-dimensional datasets in the presence of another high-dimensional dataset in the same feature space. We adopt an approach that brings transfer learning techniques into causal inference. Our experiments show that such an approach helps to bring stability to neural network-based methods and improve the treatment effect estimates in small high-dimensional datasets.
翻訳日:2022-05-21 07:07:38 公開日:2022-05-19
# (参考訳) 深部強化学習を用いたマクロのルーティングと配置

Routing and Placement of Macros using Deep Reinforcement Learning ( http://arxiv.org/abs/2205.09289v1 )

ライセンス: CC BY 4.0
Mrinal Mathur(参考訳) チップ配置は、セミコンダクタ分野では最も時間のかかる作業のひとつであり、この怠慢さのため、多くのプロジェクトが推進され、実際の市場でチップの入手が遅れている。 チップにマクロを配置するエンジニアは、電力、性能、時間という3つの重要な要素を最適に削減する必要がある。 これらの以前の問題を見て、チップネットリストのノードをチップキャンバスに配置するようにモデルをトレーニングする強化学習を使った新しい方法を紹介したかったのです。 私たちは、さまざまな入力ネットリストにわたってエージェントに正確に報酬を与えるニューラルネットワークを構築したいと考えています。

Chip placement has been one of the most time consuming task in any semi conductor area, Due to this negligence, many projects are pushed and chips availability in real markets get delayed. An engineer placing macros on a chip also needs to place it optimally to reduce the three important factors like power, performance and time. Looking at these prior problems we wanted to introduce a new method using Reinforcement Learning where we train the model to place the nodes of a chip netlist onto a chip canvas. We want to build a neural architecture that will accurately reward the agent across a wide variety of input netlist correctly.
翻訳日:2022-05-21 06:54:30 公開日:2022-05-19
# (参考訳) Promptベースのモデルは不要か?

Are Prompt-based Models Clueless? ( http://arxiv.org/abs/2205.09295v1 )

ライセンス: CC BY 4.0
Pride Kavumba, Ryo Takahashi, Yasuke Oda(参考訳) タスク固有のヘッドで訓練済みの大規模言語モデルを微調整することで、多くの自然言語理解ベンチマークにおける最先端の手法が進歩した。 しかし、タスク固有のヘッドを持つモデルには、多くのトレーニングデータが必要であるため、他のデータセットに一般化しないデータセット固有の表面的ヒントを学習し、活用しやすくなる。 Promptingは、言語モデルヘッドを再利用し、トレーニング済みの目的に合わせてタスク入力をフォーマットすることで、データ要求を減らした。 したがって,プロンプトベースモデルでは表面的手がかりを活用できないことが期待される。 本稿では, 単発プロンプトモデルが表面的手がかりを活用できるかどうかを実験的に検討する。 MNLI、SNLI、HANS、COPAで数発のプロンプトベースのモデルを分析することで、プロンプトベースのモデルも表面的な手がかりを利用することが明らかになった。 モデルは表面的な手掛かりのあるインスタンスでうまく機能するが、表面的な手掛かりのないインスタンスでは、ランダムな精度を過小評価したり、わずかに上回ったりすることがしばしばある。

Finetuning large pre-trained language models with a task-specific head has advanced the state-of-the-art on many natural language understanding benchmarks. However, models with a task-specific head require a lot of training data, making them susceptible to learning and exploiting dataset-specific superficial cues that do not generalize to other datasets. Prompting has reduced the data requirement by reusing the language model head and formatting the task input to match the pre-training objective. Therefore, it is expected that few-shot prompt-based models do not exploit superficial cues. This paper presents an empirical examination of whether few-shot prompt-based models also exploit superficial cues. Analyzing few-shot prompt-based models on MNLI, SNLI, HANS, and COPA has revealed that prompt-based models also exploit superficial cues. While the models perform well on instances with superficial cues, they often underperform or only marginally outperform random accuracy on instances without superficial cues.
翻訳日:2022-05-21 06:47:59 公開日:2022-05-19
# (参考訳) 論理正規化によるニューラルネットワーク過信の軽減

Mitigating Neural Network Overconfidence with Logit Normalization ( http://arxiv.org/abs/2205.09310v1 )

ライセンス: CC0 1.0
Hongxin Wei, Renchunzi Xie, Hao Cheng, Lei Feng, Bo An, Yixuan Li(参考訳) 分散インプットの検出は、現実世界における機械学習モデルの安全なデプロイに不可欠である。 しかし、ニューラルネットワークは自信過剰な問題に苦しむことが知られており、分布内入力と分布外入力の両方に対して異常に高い信頼感を生み出す。 本研究では,ロジット正規化(Logit Normalization, LogitNorm)により,ロジットに一定のベクトルノルムを課すことにより,この問題を緩和できることを示す。 本手法は,トレーニング中にロジットの標準値が上昇し,自信過剰なアウトプットにつながるという分析結果に動機づけられている。 LogitNormの主な考え方は、ネットワーク最適化中に出力のノルムの影響を分離することです。 logitnormでトレーニングされたニューラルネットワークは、分布内データと分布外データの間で、高度に識別可能な信頼度スコアを生成する。 広範な実験によりlogitnormの優位性が示され、一般的なベンチマークで平均的なfpr95を最大42.30%削減した。

Detecting out-of-distribution inputs is critical for safe deployment of machine learning models in the real world. However, neural networks are known to suffer from the overconfidence issue, where they produce abnormally high confidence for both in- and out-of-distribution inputs. In this work, we show that this issue can be mitigated through Logit Normalization (LogitNorm) -- a simple fix to the cross-entropy loss -- by enforcing a constant vector norm on the logits in training. Our method is motivated by the analysis that the norm of the logit keeps increasing during training, leading to overconfident output. Our key idea behind LogitNorm is thus to decouple the influence of output's norm during network optimization. Trained with LogitNorm, neural networks produce highly distinguishable confidence scores between in- and out-of-distribution data. Extensive experiments demonstrate the superiority of LogitNorm, reducing the average FPR95 by up to 42.30% on common benchmarks.
翻訳日:2022-05-21 06:30:50 公開日:2022-05-19
# (参考訳) Commonsense と Data Augmentation を用いた目標誘導対話応答生成

Target-Guided Dialogue Response Generation Using Commonsense and Data Augmentation ( http://arxiv.org/abs/2205.09314v1 )

ライセンス: CC BY 4.0
Prakhar Gupta, Harsh Jhamtani, Jeffrey P. Bigham(参考訳) 目標指示応答生成により、対話システムは対話コンテキストから対象文へ会話をスムーズに移行することができる。 このような制御は、非邪魔なレコメンデーションの作成や会話に新しいトピックを導入するなど、特定の目標に向けて会話を指示する対話システムの設計に有用である。 本稿では,まずソースとターゲット間の共通知識概念の橋渡しパスを探索し,識別された橋渡しパスを用いて遷移応答を生成する,目標誘導応答生成のための新しい手法を提案する。 さらに,既存の対話データセットをターゲット誘導生成のために再利用する手法を提案する。 実験により,提案手法が様々なベースラインよりも優れていることが明らかとなった。 最後に、このタスクの既存の自動メトリクスは、人間の判断基準と相関が低いことを観察する。 我々は,ターゲット誘導応答評価に信頼性の高い新しい評価指標を提案する。 我々の作業は、一般的に、対話システムの設計者が、システムが生み出す会話をより制御できるようにする。

Target-guided response generation enables dialogue systems to smoothly transition a conversation from a dialogue context toward a target sentence. Such control is useful for designing dialogue systems that direct a conversation toward specific goals, such as creating non-obtrusive recommendations or introducing new topics in the conversation. In this paper, we introduce a new technique for target-guided response generation, which first finds a bridging path of commonsense knowledge concepts between the source and the target, and then uses the identified bridging path to generate transition responses. Additionally, we propose techniques to re-purpose existing dialogue datasets for target-guided generation. Experiments reveal that the proposed techniques outperform various baselines on this task. Finally, we observe that the existing automated metrics for this task correlate poorly with human judgement ratings. We propose a novel evaluation metric that we demonstrate is more reliable for target-guided response evaluation. Our work generally enables dialogue system designers to exercise more control over the conversations that their systems produce.
翻訳日:2022-05-21 06:10:16 公開日:2022-05-19
# (参考訳) TransTab: テーブル間のトランスフォーマを学習する

TransTab: Learning Transferable Tabular Transformers Across Tables ( http://arxiv.org/abs/2205.09328v1 )

ライセンス: CC BY 4.0
Zifeng Wang, Jimeng Sun(参考訳) 表データ(または表)は、機械学習(ml)で最も広く使われているデータフォーマットである。 しかしながら、mlモデルは、しばしば、テーブル構造がトレーニングとテストで固定されていると仮定する。 MLモデリングの前には、異なる列のテーブルをマージするために、重いデータクリーニングが必要である。 この前処理は、しばしば重要なデータムダを引き起こす(例えば、未整合カラムやサンプルを取り除く)。 部分的に重なる列を持つ複数のテーブルからMLモデルを学ぶには? より多くの列が使えるようになるにつれて、MLモデルをインクリメンタルに更新する方法? 複数の異なるテーブルでモデルの事前トレーニングを活用できますか? 目に見えないテーブルで予測できるMLモデルをトレーニングする方法? これらの質問に答えるために,テーブルにトランスファー可能な表型トランスフォーマ(transtab)を導入することで,固定テーブル構造を緩和する。 transtabの目標は、各サンプル(テーブルの行)を一般化可能な埋め込みベクトルに変換し、特徴エンコーディングにスタックトランスを適用することである。 一つの方法論の洞察は、列記述とテーブルセルをゲートトランスフォーマモデルへの生入力として組み合わせることである。 もうひとつの洞察は、モデルパフォーマンスを改善するために、教師付きおよび自己教師付き事前トレーニングを導入することだ。 多様なベンチマークデータセットと5つのオンコロジー臨床試験データセットを用いて,TransTabと複数のベースライン手法を比較した。 総じて、transtabは教師付き学習の12つの方法のうち1.00, 1.00, 1.78をランク付けし、特徴量増加学習、転校学習のシナリオをそれぞれランク付けした。 }

Tabular data (or tables) are the most widely used data format in machine learning (ML). However, ML models often assume the table structure keeps fixed in training and testing. Before ML modeling, heavy data cleaning is required to merge disparate tables with different columns. This preprocessing often incurs significant data waste (e.g., removing unmatched columns and samples). How to learn ML models from multiple tables with partially overlapping columns? How to incrementally update ML models as more columns become available over time? Can we leverage model pretraining on multiple distinct tables? How to train an ML model which can predict on an unseen table? To answer all those questions, we propose to relax fixed table structures by introducing a Transferable Tabular Transformer (TransTab) for tables. The goal of TransTab is to convert each sample (a row in the table) to a generalizable embedding vector, and then apply stacked transformers for feature encoding. One methodology insight is combining column description and table cells as the raw input to a gated transformer model. The other insight is to introduce supervised and self-supervised pretraining to improve model performance. We compare TransTab with multiple baseline methods on diverse benchmark datasets and five oncology clinical trial datasets. Overall, TransTab ranks 1.00, 1.00, 1.78 out of 12 methods in supervised learning, feature incremental learning, and transfer learning scenarios, respectively; and the proposed pretraining leads to 2.3\% AUC lift on average over the supervised learning.}
翻訳日:2022-05-21 05:46:41 公開日:2022-05-19
# (参考訳) 単一画像からの室内照明の物理的編集

Physically-Based Editing of Indoor Scene Lighting from a Single Image ( http://arxiv.org/abs/2205.09343v1 )

ライセンス: CC BY 4.0
Zhengqin Li, Jia Shi, Sai Bi, Rui Zhu, Kalyan Sunkavalli, Milo\v{s} Ha\v{s}an, Zexiang Xu, Ravi Ramamoorthi, Manmohan Chandraker(参考訳) 本稿では,1つの画像から複雑な室内照明を推定深度と光源セグメンテーションマスクで編集する方法を提案する。 これは複雑な光輸送をモデル化し、シーンの部分的なLDR観測のみで物質や幾何学からHDR光を遠ざけるという非常に難しい問題である。 2つの新しい要素を使ってこの問題に取り組みます 1)シーン反射率とパラメトリック3d照明を推定する総合的なシーン再構成法 2) 予測からシーンを再レンダリングするニューラルネットワークレンダリングフレームワーク。 我々は、直感的な編集を可能にし、可視光源と可視光源の両方を推論する物理ベースの屋内光表現を使用します。 我々のニューラルレンダリングフレームワークは、物理ベースの直接照明と影のレンダリングをディープネットワークと組み合わせ、大域的な照明を近似する。 ソフトシャドウ、指向性照明、特殊素材、反射など、困難な照明効果を捉えることができる。 以前のシングルイメージ逆レンダリング手法は通常、シーン照明と幾何学を絡み合わせ、オブジェクト挿入のようなアプリケーションのみをサポートする。 代わりに、パラメトリックな3次元照明推定とニューラルシーンレンダリングを組み合わせることで、光源挿入、除去、置換を含むフルシーンの照明を実現するための最初の自動手法を、単一の画像から示す。 すべてのソースコードとデータは公開されます。

We present a method to edit complex indoor lighting from a single image with its predicted depth and light source segmentation masks. This is an extremely challenging problem that requires modeling complex light transport, and disentangling HDR lighting from material and geometry with only a partial LDR observation of the scene. We tackle this problem using two novel components: 1) a holistic scene reconstruction method that estimates scene reflectance and parametric 3D lighting, and 2) a neural rendering framework that re-renders the scene from our predictions. We use physically-based indoor light representations that allow for intuitive editing, and infer both visible and invisible light sources. Our neural rendering framework combines physically-based direct illumination and shadow rendering with deep networks to approximate global illumination. It can capture challenging lighting effects, such as soft shadows, directional lighting, specular materials, and interreflections. Previous single image inverse rendering methods usually entangle scene lighting and geometry and only support applications like object insertion. Instead, by combining parametric 3D lighting estimation with neural scene rendering, we demonstrate the first automatic method to achieve full scene relighting, including light source insertion, removal, and replacement, from a single image. All source code and data will be publicly released.
翻訳日:2022-05-21 05:26:38 公開日:2022-05-19
# (参考訳) 解析のためのデータ拡張法としての言語間インフレクション

Cross-lingual Inflection as a Data Augmentation Method for Parsing ( http://arxiv.org/abs/2205.09350v1 )

ライセンス: CC BY 4.0
Alberto Mu\~noz Ortiz and Carlos G\'omez-Rodr\'iguez and David Vilares(参考訳) 本稿では,低リソース(LR)依存性解析のための形態素に基づく手法を提案する。 対象のLR言語に類似した言語間(x-inflected)ツリーバンクを作成するために,対象のLR言語に対する形態的インフレクタをトレーニングし,関連するリッチリソースツリーバンクに適用する。 このようなツリーバンクを使用して、ゼロ(x-inflected treebanksでトレーニング)と少数ショット(x-inflectedおよびターゲット言語ツリーバンクでトレーニング)のパーサをトレーニングします。 その結果、この手法は時々ベースラインを改善するが、一貫性は持たないことが示された。

We propose a morphology-based method for low-resource (LR) dependency parsing. We train a morphological inflector for target LR languages, and apply it to related rich-resource (RR) treebanks to create cross-lingual (x-inflected) treebanks that resemble the target LR language. We use such inflected treebanks to train parsers in zero- (training on x-inflected treebanks) and few-shot (training on x-inflected and target language treebanks) setups. The results show that the method sometimes improves the baselines, but not consistently.
翻訳日:2022-05-21 05:25:02 公開日:2022-05-19
# (参考訳) GitRanking: アクティブサンプリングを使用したソフトウェア分類のためのGitHubトピックのランキング

GitRanking: A Ranking of GitHub Topics for Software Classification using Active Sampling ( http://arxiv.org/abs/2205.09379v1 )

ライセンス: CC BY 4.0
Cezar Sas, Andrea Capiluppi, Claudio Di Sipio, Juri Di Rocco, Davide Di Ruscio(参考訳) GitHubは世界最大のソースコードホストで、1億5000万以上のリポジトリがある。 しかし、これらのリポジトリのほとんどはラベルが付けられていないため、関連するプロジェクトを見つけるのが難しくなっている。 過去数年間、ソフトウェアアプリケーションドメイン分類に関する様々な提案があった。 しかしながら、これらのアプローチには、階層的で、知識ベースに根ざし、無関係な用語のない、明確に定義された分類法がない。 一般的な意味や特定の意味に基づいて、個別のレベルに分類された分類を作成するためのフレームワークだ。 GitHubから121Kのトピックを収集し、ランキングでもっとも頻繁なトピックの60\%$を検討した。 GitRanking 1) 必要なアノテーションの最小数を保証するためにアクティブサンプリングを使用する。 2)各トピックをwikidataにリンクし,あいまいさを低減し,分類の再利用性を改善する。 この結果から,プロジェクトへの注釈付けを行う場合,高い特異性を持つ用語の使用を避けることができることがわかった。 これにより、他のユーザにとってプロジェクトの発見と発見がより困難になる。 さらに、GitRankingは、その一般的な意味や特定の意味に応じて、効率的に用語をランク付けできることを示す。 このランキングは、開発者が構築する上で必須の資産であり、より正確なトピックでアノテーションを補完することができる。 最後に、GitRankingは動的に拡張可能なメソッドであることを示す。 本論文は,ソフトウェア領域の分類体系を構築するための最初の試みである。

GitHub is the world's largest host of source code, with more than 150M repositories. However, most of these repositories are not labeled or inadequately so, making it harder for users to find relevant projects. There have been various proposals for software application domain classification over the past years. However, these approaches lack a well-defined taxonomy that is hierarchical, grounded in a knowledge base, and free of irrelevant terms. This work proposes GitRanking, a framework for creating a classification ranked into discrete levels based on how general or specific their meaning is. We collected 121K topics from GitHub and considered $60\%$ of the most frequent ones for the ranking. GitRanking 1) uses active sampling to ensure a minimal number of required annotations; and 2) links each topic to Wikidata, reducing ambiguities and improving the reusability of the taxonomy. Our results show that developers, when annotating their projects, avoid using terms with a high degree of specificity. This makes the finding and discovery of their projects more challenging for other users. Furthermore, we show that GitRanking can effectively rank terms according to their general or specific meaning. This ranking would be an essential asset for developers to build upon, allowing them to complement their annotations with more precise topics. Finally, we show that GitRanking is a dynamically extensible method: it can currently accept further terms to be ranked with a minimum number of annotations ($\sim$ 15). This paper is the first collective attempt to build a ground-up taxonomy of software domains.
翻訳日:2022-05-21 05:10:00 公開日:2022-05-19
# (参考訳) BabyNet:胎児超音波映像の出生体重予測用残差変圧器モジュール

BabyNet: Residual Transformer Module for Birth Weight Prediction on Fetal Ultrasound Video ( http://arxiv.org/abs/2205.09382v1 )

ライセンス: CC BY 4.0
Szymon P{\l}otka, Micha{\l} K. Grzeszczyk, Robert Brawura-Biskupski-Samaha, Pawe{\l} Gutaj, Micha{\l} Lipa, Tomasz Trzci\'nski, Arkadiusz Sitek(参考訳) 出生時の胎児の体重を予測することは周産期ケアの重要な側面であり、特に妊娠管理の文脈では、計画されたタイミングと出産の様式を含む。 出生前超音波による正確な体重予測は、妊娠中の胎児の特定の部位の画像を必要とするため困難であり、羊水不足による画像の質の低下により撮影が困難である。 その結果、標準メソッドに依存する予測は、しばしば重大なエラーに悩まされる。 本稿では,2d+t時空間超音波映像解析のための3d resnetベースのネットワークを拡張した残差変圧器モジュールを提案する。 BabyNetと呼ばれるエンドツーエンドの手法は、胎児超音波ビデオスキャンに基づいて胎児の体重を自動的に予測する。 当科におけるBabyNetは,産後1日前に実施した75例の妊娠の225D胎児超音波ビデオを用いた専用臨床セットを用いて評価を行った。 実験の結果、babynetは最先端の手法よりも優れており、人間の専門家に匹敵する精度で出生時の体重を見積もっている。 さらに、人間の専門家が計算した推定値とバビネットが計算した推定値とを組み合わせると、最も良い結果が得られる。 BabyNetのソースコードはhttps://github.com/SanoScience/BabyNetで入手できる。

Predicting fetal weight at birth is an important aspect of perinatal care, particularly in the context of antenatal management, which includes the planned timing and the mode of delivery. Accurate prediction of weight using prenatal ultrasound is challenging as it requires images of specific fetal body parts during advanced pregnancy which is difficult to capture due to poor quality of images caused by the lack of amniotic fluid. As a consequence, predictions which rely on standard methods often suffer from significant errors. In this paper we propose the Residual Transformer Module which extends a 3D ResNet-based network for analysis of 2D+t spatio-temporal ultrasound video scans. Our end-to-end method, called BabyNet, automatically predicts fetal birth weight based on fetal ultrasound video scans. We evaluate BabyNet using a dedicated clinical set comprising 225 2D fetal ultrasound videos of pregnancies from 75 patients performed one day prior to delivery. Experimental results show that BabyNet outperforms several state-of-the-art methods and estimates the weight at birth with accuracy comparable to human experts. Furthermore, combining estimates provided by human experts with those computed by BabyNet yields the best results, outperforming either of other methods by a significant margin. The source code of BabyNet is available at https://github.com/SanoScience/BabyNet.
翻訳日:2022-05-21 04:49:51 公開日:2022-05-19
# (参考訳) 自動車用非従来型視覚センサ

Unconventional Visual Sensors for Autonomous Vehicles ( http://arxiv.org/abs/2205.09383v1 )

ライセンス: CC BY-SA 4.0
You Li, Julien Moreau, Javier Ibanez-Guzman(参考訳) 自動運転車は、周囲を理解するために認識システムに依存している。 カメラは、現代のコンピュータビジョンアルゴリズムが提供する物体検出と認識の利点から、lidarやレーダーなどの他のセンサーと比較して、知覚システムにとって不可欠である。 しかし、その固有の撮像原理によって制限されるため、標準的なrgbカメラは、低照度、高コントラスト、霧・雨・雪などの悪天候など、様々な悪いシナリオで性能が低下する可能性がある。 一方,2次元画像検出による3次元情報の推定は,ライダーやレーダーに比べて一般的に困難である。 近年、従来のRGBカメラの限界に対応するために、いくつかの新しいセンシング技術が登場している。 本稿では,赤外線カメラ,レンジゲートカメラ,偏光カメラ,イベントカメラの4つの新しいイメージセンサの原理を概観する。 それらの比較優位性、既存または潜在的アプリケーション、および対応するデータ処理アルゴリズムはすべて、体系的な方法で提示される。 本研究は、自動運転社会の実践者に対して、新たな視点と洞察を提供することを期待する。

Autonomous vehicles rely on perception systems to understand their surroundings for further navigation missions. Cameras are essential for perception systems due to the advantages of object detection and recognition provided by modern computer vision algorithms, comparing to other sensors, such as LiDARs and radars. However, limited by its inherent imaging principle, a standard RGB camera may perform poorly in a variety of adverse scenarios, including but not limited to: low illumination, high contrast, bad weather such as fog/rain/snow, etc. Meanwhile, estimating the 3D information from the 2D image detection is generally more difficult when compared to LiDARs or radars. Several new sensing technologies have emerged in recent years to address the limitations of conventional RGB cameras. In this paper, we review the principles of four novel image sensors: infrared cameras, range-gated cameras, polarization cameras, and event cameras. Their comparative advantages, existing or potential applications, and corresponding data processing algorithms are all presented in a systematic manner. We expect that this study will assist practitioners in the autonomous driving society with new perspectives and insights.
翻訳日:2022-05-21 04:40:18 公開日:2022-05-19
# (参考訳) ニューラルオーグメンタとしてのトランスフォーマー:変分ベイによるクラス条件文生成

Transformers as Neural Augmentors: Class Conditional Sentence Generation via Variational Bayes ( http://arxiv.org/abs/2205.09391v1 )

ライセンス: CC BY 4.0
M. \c{S}afak Bilici, Mehmet Fatih Amasyali(参考訳) 近年,自然言語処理タスクのためのデータ拡張手法が検討されているが,制限されているため,文レベルでの多様性の把握は困難である。 さらに、教師付きタスクでデータ拡張を行うこともできるとは限らない。 これらの問題に対処するために,条件付き変分オートエンコーダとエンコーダ・デコーダ・トランスフォーマモデルを組み合わせたニューラルデータ拡張手法を提案する。 入力文を符号化・復号化しながら,そのクラス条件で入力言語の構文的・意味的表現をキャプチャする。 過去数年間の事前訓練言語モデルの開発に続いて、下流タスクを強化するために、いくつかのベンチマークでモデルをトレーニングし、評価した。 本手法を3種類の拡張手法と比較した。 その結果,本モデルでは計算能力の少ない他のデータ拡張手法と比較して,現在のモデルの性能が向上することが示された。

Data augmentation methods for Natural Language Processing tasks are explored in recent years, however they are limited and it is hard to capture the diversity on sentence level. Besides, it is not always possible to perform data augmentation on supervised tasks. To address those problems, we propose a neural data augmentation method, which is a combination of Conditional Variational Autoencoder and encoder-decoder Transformer model. While encoding and decoding the input sentence, our model captures the syntactic and semantic representation of the input language with its class condition. Following the developments in the past years on pre-trained language models, we train and evaluate our models on several benchmarks to strengthen the downstream tasks. We compare our method with 3 different augmentation techniques. The presented results show that, our model increases the performance of current models compared to other data augmentation techniques with a small amount of computation power.
翻訳日:2022-05-21 03:55:53 公開日:2022-05-19
# (参考訳) UIF: 水中画像改善のための客観的品質評価

UIF: An Objective Quality Assessment for Underwater Image Enhancement ( http://arxiv.org/abs/2205.09392v1 )

ライセンス: CC BY 4.0
Yannan Zheng, Weiling Chen, Rongfu Lin, Tiesong Zhao(参考訳) 複雑で揮発的な照明環境のため、水中の撮像は光の散乱、反り、ノイズによって容易に損なわれる。 視覚的品質を改善するため,水中画像強調技術(UIE)が広く研究されている。 UIEのパフォーマンスと主観的,客観的な手法の評価と比較にも,近年の取り組みが貢献している。 しかし、主観評価はすべての画像に対して時間と非経済的であり、既存の客観的手法はディープラーニングに基づく新しいUIEアプローチの能力に制限がある。 このギャップを埋めるために,水中画像の客観的評価のための水中画像忠実度(UIF)指標を提案する。 これらの画像の統計的特徴を利用して,自然度,鋭度,構造的特徴を抽出する。 そのうち自然度関連特徴と鋭度関連特徴は強調画像の視覚的改善を評価し,構造関連特徴はUIE前後の画像間の構造的類似性を示す。 次に、上記の3つの特徴を最終uifメトリックに融合するためにサポートベクトル回帰を用いる。 また,すべての客観的指標を比較するベンチマークとして,水中画像強調データベース(uied)という主観的スコアを持つ大規模uieデータベースを構築した。 実験の結果,提案したUIFは水中および汎用画像品質指標よりも優れていた。

Due to complex and volatile lighting environment, underwater imaging can be readily impaired by light scattering, warping, and noises. To improve the visual quality, Underwater Image Enhancement (UIE) techniques have been widely studied. Recent efforts have also been contributed to evaluate and compare the UIE performances with subjective and objective methods. However, the subjective evaluation is time-consuming and uneconomic for all images, while existing objective methods have limited capabilities for the newly-developed UIE approaches based on deep learning. To fill this gap, we propose an Underwater Image Fidelity (UIF) metric for objective evaluation of enhanced underwater images. By exploiting the statistical features of these images, we present to extract naturalness-related, sharpness-related, and structure-related features. Among them, the naturalness-related and sharpness-related features evaluate visual improvement of enhanced images; the structure-related feature indicates structural similarity between images before and after UIE. Then, we employ support vector regression to fuse the above three features into a final UIF metric. In addition, we have also established a large-scale UIE database with subjective scores, namely Underwater Image Enhancement Database (UIED), which is utilized as a benchmark to compare all objective metrics. Experimental results confirm that the proposed UIF outperforms a variety of underwater and general-purpose image quality metrics.
翻訳日:2022-05-21 03:43:31 公開日:2022-05-19
# (参考訳) 雑音中規模量子コンピュータのための機械学習応用

Machine learning applications for noisy intermediate-scale quantum computers ( http://arxiv.org/abs/2205.09414v1 )

ライセンス: CC BY 4.0
Brian Coyle(参考訳) 量子機械学習は、量子コンピュータの潜在的な応用を探索する実りある分野であることが証明されている。 これは特に短期的に利用可能であり、いわゆるノイズ型中間スケール量子(NISQ)デバイスに当てはまる。 本論文では,NISQコンピュータに適した3つの量子機械学習アプリケーションを開発,研究し,それらに提示されるデータの複雑さの増大を考慮に入れた。 これらのアルゴリズムは本質的に変動し、量子機械学習モデルとしてパラメータ化量子回路(PQC)を使用する。 第一の応用領域は、古典的特徴ベクトルとその対応するラベルであるPQCを用いた量子分類である。 本稿では,量子コンピュータに存在する雑音に対するデータ符号化戦略のロバスト性について検討する。 第2の領域は量子コンピュータを用いた生成モデリングであり、量子回路生まれの機械を使って複雑な確率分布から学習しサンプルする。 このようなモデルに対する量子アドバンテージの枠組みを議論・提示し、勾配に基づく学習法を提案し、リゲッティ量子コンピュータ上で最大28量子ビットまでの数値計算を行った。 最後の応用として、近似量子クローニングの領域における変分アルゴリズムを提案し、そこではデータが自然に量子化される。 本アルゴリズムでは, 異なるコスト関数を導出し, 忠実性などの理論的保証を証明し, 量子アーキテクチャ探索などの技術手法の状態を取り入れる。 さらに,このアルゴリズムが量子暗号プロトコルに対する新しい実装可能な攻撃を発見し,量子コインのフリップと鍵分布を例に紹介する。

Quantum machine learning has proven to be a fruitful area in which to search for potential applications of quantum computers. This is particularly true for those available in the near term, so called noisy intermediate-scale quantum (NISQ) devices. In this Thesis, we develop and study three quantum machine learning applications suitable for NISQ computers, ordered in terms of increasing complexity of data presented to them. These algorithms are variational in nature and use parameterised quantum circuits (PQCs) as the underlying quantum machine learning model. The first application area is quantum classification using PQCs, where the data is classical feature vectors and their corresponding labels. Here, we study the robustness of certain data encoding strategies in such models against noise present in a quantum computer. The second area is generative modelling using quantum computers, where we use quantum circuit Born machines to learn and sample from complex probability distributions. We discuss and present a framework for quantum advantage for such models, propose gradient-based training methods and demonstrate these both numerically and on the Rigetti quantum computer up to 28 qubits. For our final application, we propose a variational algorithm in the area of approximate quantum cloning, where the data becomes quantum in nature. For the algorithm, we derive differentiable cost functions, prove theoretical guarantees such as faithfulness, and incorporate state of the art methods such as quantum architecture search. Furthermore, we demonstrate how this algorithm is useful in discovering novel implementable attacks on quantum cryptographic protocols, focusing on quantum coin flipping and key distribution as examples.
翻訳日:2022-05-21 03:31:33 公開日:2022-05-19
# (参考訳) 観測時系列から拡張要約因果グラフを推定する

Inferring extended summary causal graphs from observational time series ( http://arxiv.org/abs/2205.09422v1 )

ライセンス: CC BY 4.0
Charles K. Assaad, Emilie Devijver, and Eric Gaussier(参考訳) 本研究は,時系列上の拡張要約因果グラフの学習問題に対処する。 提案するアルゴリズムは、因果探索のためのよく知られた制約ベースのフレームワークに適合し、時系列間の差分を決定するために情報理論の手法を用いる。 まず,本尺度をpcとfciの2つのよく知られたアルゴリズムを適用し,拡張要約因果グラフを構築するために使用する前に,遅延関係や瞬時関係に対する因果関係の一般化を導入する。 本手法の挙動は,シミュレーションおよび実データを用いたいくつかの実験によって示される。

This study addresses the problem of learning an extended summary causal graph on time series. The algorithms we propose fit within the well-known constraint-based framework for causal discovery and make use of information-theoretic measures to determine (in)dependencies between time series. We first introduce generalizations of the causation entropy measure to any lagged or instantaneous relations, prior to using this measure to construct extended summary causal graphs by adapting two well-known algorithms, namely PC and FCI. The behavior of our methods is illustrated through several experiments run on simulated and real datasets.
翻訳日:2022-05-21 03:29:24 公開日:2022-05-19
# (参考訳) 動作条件付き触覚予測:スリップ予測の事例研究

Action Conditioned Tactile Prediction: a case study on slip prediction ( http://arxiv.org/abs/2205.09430v1 )

ライセンス: CC BY 4.0
Willow Mandil, Kiyanoush Nazari, Amir Ghalamzan E(参考訳) 触覚予測モデルは、ロボットのプッシュ、ロボットの把持、滑り回避、ハンド操作など、いくつかのロボット操作タスクで有用である。 しかし,触覚予測モデルはほとんどが画像ベースの触覚センサとして研究されており,最高の動作モデルを示す比較研究は行われていない。 本稿では,実世界のロボットインタラクションタスクにおける触覚信号予測のためのデータ駆動型アクションコンディションモデルとして,(1)動作状態触覚予測と(2)動作条件付き触覚映像予測モデルを提案する。 我々は、最先端の予測モデルの解析とテストが難しい磁気式触覚センサと、現存する唯一の美味しい触覚予測モデルを使用する。 これらのモデルの性能と提案モデルの性能を比較した。 実世界のロボット操作作業の51,000個の触覚フレームを含む触覚有効データセットを,11個の平滑な家庭用物体を用いて比較検討した。 実験の結果,定性的,定量的,すべり予測スコアの観点から,触覚予測モデルの優位性を示した。

Tactile predictive models can be useful across several robotic manipulation tasks, e.g. robotic pushing, robotic grasping, slip avoidance, and in-hand manipulation. However, available tactile prediction models are mostly studied for image-based tactile sensors and there is no comparison study indicating the best performing models. In this paper, we presented two novel data-driven action-conditioned models for predicting tactile signals during real-world physical robot interaction tasks (1) action condition tactile prediction and (2) action conditioned tactile-video prediction models. We use a magnetic-based tactile sensor that is challenging to analyse and test state-of-the-art predictive models and the only existing bespoke tactile prediction model. We compare the performance of these models with those of our proposed models. We perform the comparison study using our novel tactile enabled dataset containing 51,000 tactile frames of a real-world robotic manipulation task with 11 flat-surfaced household objects. Our experimental results demonstrate the superiority of our proposed tactile prediction models in terms of qualitative, quantitative and slip prediction scores.
翻訳日:2022-05-21 03:12:58 公開日:2022-05-19
# (参考訳) CAMEO:好奇心を増したメトロポリタンの探索的最適政策

CAMEO: Curiosity Augmented Metropolis for Exploratory Optimal Policies ( http://arxiv.org/abs/2205.09433v1 )

ライセンス: CC BY 4.0
Mohamed Alami Chehboune and Fernando Llorente and Rim Kaddah and Luca Martino and Jesse Read(参考訳) 強化学習は最適な制御問題を解決するツールとして大きな関心を集めている。 与えられた問題(タスクまたは環境)を解決するには、最適なポリシーをまとめる必要がある。 しかし、それらの行動に劇的に異なる複数の最適ポリシーが存在する可能性があり、例えば、あるものは他のものよりも速いが、より大きなリスクを犠牲にしてある。 我々は最適な政策の分布を検討し研究する。 我々は,好奇心を増強したメトロポリス・アルゴリズム(CAMEO)を設計し,最適ポリシーをサンプリングし,これらのポリシーが様々な振る舞いを効果的に適用できるようにした。 実験シミュレーションでは、CAMEOは古典的な制御問題を全て解決するポリシーを実際に得ており、スパース報酬を提供する環境においても問題となる。 さらに,我々がサンプリングした異なる政策は,異なるリスクプロファイルを示し,解釈可能性における興味深い実用的応用に対応し,最適な政策自体の分布を学ぶための第一歩であることを示す。

Reinforcement Learning has drawn huge interest as a tool for solving optimal control problems. Solving a given problem (task or environment) involves converging towards an optimal policy. However, there might exist multiple optimal policies that can dramatically differ in their behaviour; for example, some may be faster than the others but at the expense of greater risk. We consider and study a distribution of optimal policies. We design a curiosity-augmented Metropolis algorithm (CAMEO), such that we can sample optimal policies, and such that these policies effectively adopt diverse behaviours, since this implies greater coverage of the different possible optimal policies. In experimental simulations we show that CAMEO indeed obtains policies that all solve classic control problems, and even in the challenging case of environments that provide sparse rewards. We further show that the different policies we sample present different risk profiles, corresponding to interesting practical applications in interpretability, and represents a first step towards learning the distribution of optimal policies itself.
翻訳日:2022-05-21 02:52:45 公開日:2022-05-19
# (参考訳) 無監督無害林によるスムース密度と生成モデル

Smooth densities and generative modeling with unsupervised random forests ( http://arxiv.org/abs/2205.09435v1 )

ライセンス: CC BY 4.0
David S. Watson, Kristin Blesch, Jan Kapar, Marvin N. Wright(参考訳) 密度推定は統計学の基本的な問題であり、高次元でそれを試みるには、強い仮定や複雑なディープラーニングアーキテクチャが必要となる。 密度推定器の重要な応用は合成データ生成である。この領域は現在、膨大なトレーニングデータセットと広範囲なチューニングを必要とするニューラルネットワークに支配されている。 パラメトリック制約を伴わずに任意の次元の滑らかな密度を推定し,現実的な合成データを生成するための教師なしランダムフォレストに基づく新しい手法を提案する。 我々はこのアプローチの一貫性を証明し、既存の木に基づく密度推定器よりもその利点を実証する。 実験により,我々のアルゴリズムは最先端のディープラーニング生成モデルと良好に比較でき,ベンチマーク試験の範囲で性能が向上し,平均で約2桁高速化された。 我々のメソッドは簡単に使える$\texttt{R}$とPythonパッケージで実装されます。

Density estimation is a fundamental problem in statistics, and any attempt to do so in high dimensions typically requires strong assumptions or complex deep learning architectures. An important application for density estimators is synthetic data generation, an area currently dominated by neural networks that often demand enormous training datasets and extensive tuning. We propose a new method based on unsupervised random forests for estimating smooth densities in arbitrary dimensions without parametric constraints, as well as generating realistic synthetic data. We prove the consistency of our approach and demonstrate its advantages over existing tree-based density estimators, which generally rely on ill-chosen split criteria and do not scale well with data dimensionality. Experiments illustrate that our algorithm compares favorably to state-of-the-art deep learning generative models, achieving superior performance in a range of benchmark trials while executing about two orders of magnitude faster on average. Our method is implemented in easy-to-use $\texttt{R}$ and Python packages.
翻訳日:2022-05-21 02:30:46 公開日:2022-05-19
# (参考訳) Oracle-MNIST: 機械学習アルゴリズムのベンチマークのためのリアルなイメージデータセット

Oracle-MNIST: a Realistic Image Dataset for Benchmarking Machine Learning Algorithms ( http://arxiv.org/abs/2205.09442v1 )

ライセンス: CC BY 4.0
Mei Wang, Weihong Deng(参考訳) Oracle-MNISTデータセットは、パターン分類のベンチマークのために、10カテゴリの30,222の古代文字の28ドルのグレースケールイメージで構成されており、特に画像ノイズと歪みに関する課題がある。 トレーニングセットは完全に27,222の画像で構成され、テストセットにはクラス毎に300の画像が含まれている。 Oracle-MNISTは、元のMNISTデータセットと同じデータフォーマットを共有しており、既存のすべての分類器やシステムと直接互換性があるが、MNISTよりも難しい分類タスクとなっている。 古代の人物像が苦しむ 1)3年にわたる埋葬・老化・老化に伴う極めて深刻で独特な騒音 2) 古代中国語の書体は劇的に変化し, すべて機械学習研究の現実化に寄与した。 データセットはhttps://github.com/wm-bupt/oracle-mnistで無料で利用できる。

We introduce the Oracle-MNIST dataset, comprising of 28$\times $28 grayscale images of 30,222 ancient characters from 10 categories, for benchmarking pattern classification, with particular challenges on image noise and distortion. The training set totally consists of 27,222 images, and the test set contains 300 images per class. Oracle-MNIST shares the same data format with the original MNIST dataset, allowing for direct compatibility with all existing classifiers and systems, but it constitutes a more challenging classification task than MNIST. The images of ancient characters suffer from 1) extremely serious and unique noises caused by three-thousand years of burial and aging and 2) dramatically variant writing styles by ancient Chinese, which all make them realistic for machine learning research. The dataset is freely available at https://github.com/wm-bupt/oracle-mnist.
翻訳日:2022-05-21 02:11:29 公開日:2022-05-19
# (参考訳) プライバシーの相違:何がノイズなのか?

Differential Privacy: What is all the noise about? ( http://arxiv.org/abs/2205.09453v1 )

ライセンス: CC BY 4.0
Roxana Danger(参考訳) 差分プライバシー(DP)は、データ処理中のプライバシー侵害のリスクに対して厳格な保証を提供する、正式なプライバシー定義である。 敵の知識や計算能力は仮定せず、解釈可能で量化可能で構成可能な形式主義を提供する。 DPは、過去15年間、活発に研究されてきたが、多くの機械学習(ML)実践者には、依然として習得が難しい。 本稿では,MLにおけるDPの最も重要な概念,概念,利用について概観することを目的として,フェデレートラーニング(FL)との交差に着目した。

Differential Privacy (DP) is a formal definition of privacy that provides rigorous guarantees against risks of privacy breaches during data processing. It makes no assumptions about the knowledge or computational power of adversaries, and provides an interpretable, quantifiable and composable formalism. DP has been actively researched during the last 15 years, but it is still hard to master for many Machine Learning (ML)) practitioners. This paper aims to provide an overview of the most important ideas, concepts and uses of DP in ML, with special focus on its intersection with Federated Learning (FL).
翻訳日:2022-05-21 02:00:30 公開日:2022-05-19
# (参考訳) エンドツーエンド音声認識におけるニューラル表現の検討

Insights on Neural Representations for End-to-End Speech Recognition ( http://arxiv.org/abs/2205.09456v1 )

ライセンス: CC BY-SA 4.0
Anna Ollerenshaw, Md Asif Jalal, Thomas Hain(参考訳) エンドツーエンド自動音声認識(ASR)モデルは、一般化された音声表現を学習することを目的としている。 しかし、内部機能やモデルアーキテクチャにおける階層的依存関係の影響を理解するための限られたツールが存在する。 階層表現間の相関を理解することは、神経表現と性能の関係についての洞察を導き出すために重要である。 相関解析手法を用いたネットワーク類似性の調査は、エンド・ツー・エンドASRモデルでは行われていない。 本稿では,cnn,lstmおよびtransformerを用いたトレーニング中の層間のダイナミクスを,canonical correlation analysis(cca)およびcentered kernel alignment(cka)を用いて解析し,検討する。 cnn層内の神経表現は層深度が増大するにつれて階層的相関関係を示すが、神経表現がより密接に相関する場合に限られる。 この挙動はLSTMアーキテクチャでは観察されないが、トレーニングプロセス全体でボトムアップパターンが観察される一方、トランスフォーマーエンコーダ層は神経深度が増加するにつれて不規則なコ効率相関を示す。 これらの結果は、ニューラルアーキテクチャが音声認識性能に与える影響に関する新たな洞察を与えてくれる。 より具体的には、これらの技術はより良い音声認識モデルを構築するための指標として使用できる。

End-to-end automatic speech recognition (ASR) models aim to learn a generalised speech representation. However, there are limited tools available to understand the internal functions and the effect of hierarchical dependencies within the model architecture. It is crucial to understand the correlations between the layer-wise representations, to derive insights on the relationship between neural representations and performance. Previous investigations of network similarities using correlation analysis techniques have not been explored for End-to-End ASR models. This paper analyses and explores the internal dynamics between layers during training with CNN, LSTM and Transformer based approaches using Canonical correlation analysis (CCA) and centered kernel alignment (CKA) for the experiments. It was found that neural representations within CNN layers exhibit hierarchical correlation dependencies as layer depth increases but this is mostly limited to cases where neural representation correlates more closely. This behaviour is not observed in LSTM architecture, however there is a bottom-up pattern observed across the training process, while Transformer encoder layers exhibit irregular coefficiency correlation as neural depth increases. Altogether, these results provide new insights into the role that neural architectures have upon speech recognition performance. More specifically, these techniques can be used as indicators to build better performing speech recognition models.
翻訳日:2022-05-21 01:40:28 公開日:2022-05-19
# (参考訳) 不規則なデータとノイズのあるニューラルode

Neural ODEs with Irregular and Noisy Data ( http://arxiv.org/abs/2205.09479v1 )

ライセンス: CC BY 4.0
Pawan Goyal and Peter Benner(参考訳) 測定ノイズは、物理プロセスのデータを収集しながら、積分部分である。 したがって、これらのデータから結論を引き出すためにはノイズ除去が必要であり、これらのデータを用いて動的モデルを構築することがしばしば必要となる。 ノイズや不規則なサンプル測定を用いて微分方程式を学習する手法について議論する。 我々の方法論では、ディープニューラルネットワークとニューラル常微分方程式(ODE)アプローチの統合において、大きな革新が見られる。 正確には、データの暗黙的な表現を提供するニューラルネットワークと、依存変数のベクトル場をモデル化する追加のニューラルネットワークを学習することを目指している。 この2つのネットワークを結合して,ニューラルodeを制約する。 ベクトル場を記述するモデルを学ぶための提案手法は, 騒音測定において非常に効果的である。 このアプローチは、同じテンポラリグリッドで依存変数が利用できないシナリオを扱うことができる。 さらに、例えば時間に関する二階の特定の構造を容易に組み込むことができる。 様々な微分方程式から得られたデータを用いたモデル学習における提案手法の有効性を実証し,ノイズに対して特別な処理を行わないニューラルode法との比較を行った。

Measurement noise is an integral part while collecting data of a physical process. Thus, noise removal is necessary to draw conclusions from these data, and it often becomes essential to construct dynamical models using these data. We discuss a methodology to learn differential equation(s) using noisy and irregular sampled measurements. In our methodology, the main innovation can be seen in the integration of deep neural networks with the neural ordinary differential equations (ODEs) approach. Precisely, we aim at learning a neural network that provides (approximately) an implicit representation of the data and an additional neural network that models the vector fields of the dependent variables. We combine these two networks by constraining using neural ODEs. The proposed framework to learn a model describing the vector field is highly effective under noisy measurements. The approach can handle scenarios where dependent variables are not available at the same temporal grid. Moreover, a particular structure, e.g., second-order with respect to time, can easily be incorporated. We demonstrate the effectiveness of the proposed method for learning models using data obtained from various differential equations and present a comparison with the neural ODE method that does not make any special treatment to noise.
翻訳日:2022-05-21 01:30:18 公開日:2022-05-19
# (参考訳) うつ病早期発見のための精神医学的尺度誘導後スクリーニング

Psychiatric Scale Guided Risky Post Screening for Early Detection of Depression ( http://arxiv.org/abs/2205.09497v1 )

ライセンス: CC BY 4.0
Zhiling Zhang, Siyuan Chen, Mengyue Wu, Kenny Q. Zhu(参考訳) うつ病は世界にとって顕著な健康上の課題であり、オンライン投稿からのうつ病の早期発見(ERD)は脅威に対処するための有望なテクニックである。 早期抑うつ検出は、タイムライン間のトレードオフ、正確性、説明可能性のバランスをとることで、ストリーミングデータに効率的に取り組むという課題に直面している。 これらの課題に取り組むために, 臨床抑うつ尺度で定義された次元に関連するリスクポストを捉え, 解釈可能な診断基準を提示できる精神医学的尺度誘導後スクリーニング法を提案する。 BERT (HAN-BERT) を内蔵した階層型注意ネットワークを提案する。 erdでは,リスクの高い投稿の待ち行列に基づくオンラインアルゴリズムを提案し,効率を高めるためにモデル推論の回数を大幅に削減する。 提案手法は,従来の抑うつ検出条件下での競合的特徴量モデルとニューラルモデルよりも優れており,erdの有効性と効率の両立を両立させる。

Depression is a prominent health challenge to the world, and early risk detection (ERD) of depression from online posts can be a promising technique for combating the threat. Early depression detection faces the challenge of efficiently tackling streaming data, balancing the tradeoff between timeliness, accuracy and explainability. To tackle these challenges, we propose a psychiatric scale guided risky post screening method that can capture risky posts related to the dimensions defined in clinical depression scales, and providing interpretable diagnostic basis. A Hierarchical Attentional Network equipped with BERT (HAN-BERT) is proposed to further advance explainable predictions. For ERD, we propose an online algorithm based on an evolving queue of risky posts that can significantly reduce the number of model inferences to boost efficiency. Experiments show that our method outperforms the competitive feature-based and neural models under conventional depression detection settings, and achieves simultaneous improvement in both efficacy and efficiency for ERD.
翻訳日:2022-05-21 01:14:30 公開日:2022-05-19
# (参考訳) ベイジアンブリッジ回帰の変分推論

Variational Inference for Bayesian Bridge Regression ( http://arxiv.org/abs/2205.09515v1 )

ライセンス: CC BY 4.0
Carlos Tadeu Pagani Zanini, Helio dos Santos Migon and Ronaldo Dias(参考訳) 橋梁ペナル化を伴う回帰モデルに対するベイズ推定のための自動微分変分推論(ADVI)の実装について検討する。 ブリッジのアプローチでは、$\ell_{\alpha}$ normを使用し、特殊ケースとしてLasso$(\alpha = 1$)およびridge$(\alpha = 2)$ Penalizationsを含む回帰係数の大きな値に対するペナル化を定義するために$\alpha \in (0, +\infty)$を使用する。 完全ベイズ予想は、すべてのモデルパラメータに対してシームレスに共同不確実性推定を与える。 MCMCアパッチは橋梁の回帰には有効であるが、特に高次元の大規模なデータセットでは遅くなる可能性がある。 adviの実装では、各イテレーションで小さなバッチデータ(確率的勾配に基づくアルゴリズムによる)を使用できるため、mcmcと比較して計算時間を短縮できる。 B-スプラインを持つ非パラメトリック回帰モデルに対するアプローチについて説明するが、この方法は基底関数の他の選択に対してシームレスに機能する。 シミュレーション研究は,提案手法の主な特性を示す。

We study the implementation of Automatic Differentiation Variational inference (ADVI) for Bayesian inference on regression models with bridge penalization. The bridge approach uses $\ell_{\alpha}$ norm, with $\alpha \in (0, +\infty)$ to define a penalization on large values of the regression coefficients, which includes the Lasso ($\alpha = 1$) and ridge $(\alpha = 2)$ penalizations as special cases. Full Bayesian inference seamlessly provides joint uncertainty estimates for all model parameters. Although MCMC aproaches are available for bridge regression, it can be slow for large dataset, specially in high dimensions. The ADVI implementation allows the use of small batches of data at each iteration (due to stochastic gradient based algorithms), therefore speeding up computational time in comparison with MCMC. We illustrate the approach on non-parametric regression models with B-splines, although the method works seamlessly for other choices of basis functions. A simulation study shows the main properties of the proposed method.
翻訳日:2022-05-21 01:06:13 公開日:2022-05-19
# (参考訳) 畳み込みニューラルネットワークを用いた超音波減衰係数の推定 -実現可能性研究-

Estimating the ultrasound attenuation coefficient using convolutional neural networks -- a feasibility study ( http://arxiv.org/abs/2205.09533v1 )

ライセンス: CC BY 4.0
Piotr Jarosik, Michal Byra, Marcin Lewandowski, Ziemowit Klimonda(参考訳) 減衰係数(attenuation coefficient、ac)は、医療診断に使用できる組織音響特性の基本的な尺度である。 本研究では、畳み込みニューラルネットワーク(CNN)を用いて、高周波(RF)超音波信号から直接交流を推定できる可能性を検討する。 CNNの開発には、0.1から1.5dB/(MHz*cm)の範囲の交流値に数値ファントムを模した組織から収集したRF信号を用いた。 モデルはRFデータの1次元パッチに基づいて訓練された。 パッチ長の平均AC推定誤差は0.08,0.12,0.20,0.25で,それぞれ10mm,5mm,2mm,1mmであった。 本稿では,畳み込みフィルタに関連する周波数コンテンツを可視化することで,モデルの性能を説明する。 本研究では,深層学習を用いてACを計算し,CNNの重みを物理的に解釈できることを示す。

Attenuation coefficient (AC) is a fundamental measure of tissue acoustical properties, which can be used in medical diagnostics. In this work, we investigate the feasibility of using convolutional neural networks (CNNs) to directly estimate AC from radio-frequency (RF) ultrasound signals. To develop the CNNs we used RF signals collected from tissue mimicking numerical phantoms for the AC values in a range from 0.1 to 1.5 dB/(MHz*cm). The models were trained based on 1-D patches of RF data. We obtained mean absolute AC estimation errors of 0.08, 0.12, 0.20, 0.25 for the patch lengths: 10 mm, 5 mm, 2 mm and 1 mm, respectively. We explain the performance of the model by visualizing the frequency content associated with convolutional filters. Our study presents that the AC can be calculated using deep learning, and the weights of the CNNs can have physical interpretation.
翻訳日:2022-05-21 00:40:30 公開日:2022-05-19
# (参考訳) ギャップを閉じる:可逆層を用いた生成型オートエンコーダの完全最大度トレーニング

Closing the gap: Exact maximum likelihood training of generative autoencoders using invertible layers ( http://arxiv.org/abs/2205.09546v1 )

ライセンス: CC BY 4.0
Gianluigi Silvestri, Daan Roos, Luca Ambrogioni(参考訳) 本研究では,生成型オートエンコーダの変分訓練に代わる正確な可能性を提供する。 VAE方式のオートエンコーダは非可逆層を用いて構築可能であることを示す。 これは、エンコーダ、デコーダ、および先行アーキテクチャの選択において完全に自由を保ちながら実現され、我々のアプローチは既存のVAEおよびVAEスタイルモデルのトレーニングの代替となる。 エンコーダ、デコーダ、プリエントは、全体的な可逆アーキテクチャの個々のレイヤとして定義されるため、結果のモデルをフロー内のオートエンコーダ(aef)と呼びます。 この手法は,ログライクリフ,サンプル品質,デノーミング性能の観点から,アーキテクチャ的に等価なVAEよりも著しく高い性能を示す。 広義には、この研究の主な目的は、正規化フローと自己エンコーダ文学の間のギャップを、可逆性と正確な最大可能性という共通の枠組みの下で埋めることである。

In this work, we provide an exact likelihood alternative to the variational training of generative autoencoders. We show that VAE-style autoencoders can be constructed using invertible layers, which offer a tractable exact likelihood without the need for any regularization terms. This is achieved while leaving complete freedom in the choice of encoder, decoder and prior architectures, making our approach a drop-in replacement for the training of existing VAEs and VAE-style models. We refer to the resulting models as Autoencoders within Flows (AEF), since the encoder, decoder and prior are defined as individual layers of an overall invertible architecture. We show that the approach results in strikingly higher performance than architecturally equivalent VAEs in term of log-likelihood, sample quality and denoising performance. In a broad sense, the main ambition of this work is to close the gap between the normalizing flow and autoencoder literature under the common framework of invertibility and exact maximum likelihood.
翻訳日:2022-05-21 00:32:45 公開日:2022-05-19
# (参考訳) ハイブリッドインテリジェントテストによるシミュレーション検証

Hybrid Intelligent Testing in Simulation-Based Verification ( http://arxiv.org/abs/2205.09552v1 )

ライセンス: CC BY 4.0
Nyasha Masamba, Kerstin Eder, Tim Blackmore(参考訳) シミュレーションに基づくハードウェア検証の効率的かつ効果的なテストは難しい。 制約付きランダムテスト生成を使用することで、数百万のテストがカバレッジ目標を達成するために必要になる可能性がある。 ほとんどのテストはカバレッジの進歩に寄与しませんが、検証リソースを消費します。 本稿では,これまで別々に扱われてきた2つの手法,すなわちカバレッジ指向テスト選択とノベルティ駆動検証を組み合わせたハイブリッドインテリジェントテスト手法を提案する。 カバレッジ指向のテスト選択は、カバレッジフィードバックからバイアステストまで、最も効果的なテストへと学習する。 ノベルティ駆動検証は、以前の刺激とは異なる刺激を特定し、シミュレートすることで、シミュレーションの数を減らし、テスト効率を向上する。 我々は,各メソッドの長所と短所を議論し,我々のアプローチが各メソッドの制限にどのように対処し,効率的かつ効果的なハードウェアテストへと導くかを示す。

Efficient and effective testing for simulation-based hardware verification is challenging. Using constrained random test generation, several millions of tests may be required to achieve coverage goals. The vast majority of tests do not contribute to coverage progress, yet they consume verification resources. In this paper, we propose a hybrid intelligent testing approach combining two methods that have previously been treated separately, namely Coverage-Directed Test Selection and Novelty-Driven Verification. Coverage-Directed Test Selection learns from coverage feedback to bias testing towards the most effective tests. Novelty-Driven Verification learns to identify and simulate stimuli that differ from previous stimuli, thereby reducing the number of simulations and increasing testing efficiency. We discuss the strengths and limitations of each method, and we show how our approach addresses each method's limitations, leading to hardware testing that is both efficient and effective.
翻訳日:2022-05-21 00:12:09 公開日:2022-05-19
# (参考訳) 連続型PDMPサンプリング器

Continuously-Tempered PDMP Samplers ( http://arxiv.org/abs/2205.09559v1 )

ライセンス: CC BY 4.0
Matthew Sutton, Robert Salomone, Augustin Chevallier, Paul Fearnhead(参考訳) 部分的決定論的マルコフ過程 (PDMP) と呼ばれる連続時間確率過程のシミュレーションに基づく新しいサンプリングアルゴリズムは、かなり有望である。 しかし、これらの手法はマルチモーダル分布やヘビーテール分布のサンプリングに苦慮する。 このような場合、PDMPの混合により、テンパリングアイデアがいかに改善できるかを示す。 逆温度が0の場合と逆温度が1の場合の後方分布との間を補間する後分布状態と逆温度の状態とで定義される拡張分布を導入する。 逆温度の限界分布は、[0,1) の連続分布と 1 の点質量の混合物であり、逆温度が 1 のときにサンプルを得ることを意味し、これらが後から引き出されることを意味するが、サンプリングアルゴリズムはより低い温度の分布を探索し、混合を改善する。 本稿では,PDMP,特にZig-Zagサンプルを,このような拡張分布からサンプルとして実装する方法を示す。 提案アルゴリズムは実装が容易で,既存のPDMPベースのサンプルを多モード後部よりも優れていることを示す。

New sampling algorithms based on simulating continuous-time stochastic processes called piece-wise deterministic Markov processes (PDMPs) have shown considerable promise. However, these methods can struggle to sample from multi-modal or heavy-tailed distributions. We show how tempering ideas can improve the mixing of PDMPs in such cases. We introduce an extended distribution defined over the state of the posterior distribution and an inverse temperature, which interpolates between a tractable distribution when the inverse temperature is 0 and the posterior when the inverse temperature is 1. The marginal distribution of the inverse temperature is a mixture of a continuous distribution on [0,1) and a point mass at 1: which means that we obtain samples when the inverse temperature is 1, and these are draws from the posterior, but sampling algorithms will also explore distributions at lower temperatures which will improve mixing. We show how PDMPs, and particularly the Zig-Zag sampler, can be implemented to sample from such an extended distribution. The resulting algorithm is easy to implement and we show empirically that it can outperform existing PDMP-based samplers on challenging multimodal posteriors.
翻訳日:2022-05-20 23:59:40 公開日:2022-05-19
# (参考訳) 決定木に対する正確で簡潔で効率的な説明

Provably Precise, Succinct and Efficient Explanations for Decision Trees ( http://arxiv.org/abs/2205.09569v1 )

ライセンス: CC BY 4.0
Yacine Izza, Alexey Ignatiev, Nina Narodytska, Martin C. Cooper and Joao Marques-Silva(参考訳) 決定木(DT)は解釈可能な分類器を具現化する。 DTは、リスクの高いアプリケーションへのデプロイだけでなく、他の複雑な分類器を説明するためにも提唱されている。 しかしながら、最近の研究は、DTの予測は厳密なアプローチで説明されるべきであることを示した。 厳密な説明はDTの多項式時間で計算できるが、その大きさは人間の意思決定者の認知限界を超えている可能性がある。 本稿では,DT に対する delta}-relevant set の計算について検討する。 {\delta}-関連集合は簡潔で証明可能な正確な説明を意味する。 これらの集合は厳密な説明の一般化を表しており、これは確率 1 で正確であり、正確な説明サイズを交換できる。 本稿では,DTの最小値集合を計算するための2つの論理符号化法を提案する。 この論文はさらに、部分集合が最小であることは保証されていないが、実験が実際には最も最小であることが示されている {\delta}-関係集合を計算するための多項式時間アルゴリズムを考案する。 実験結果は、最小の デルタ-関連集合の計算の実用的効率も示している。

Decision trees (DTs) embody interpretable classifiers. DTs have been advocated for deployment in high-risk applications, but also for explaining other complex classifiers. Nevertheless, recent work has demonstrated that predictions in DTs ought to be explained with rigorous approaches. Although rigorous explanations can be computed in polynomial time for DTs, their size may be beyond the cognitive limits of human decision makers. This paper investigates the computation of {\delta}-relevant sets for DTs. {\delta}-relevant sets denote explanations that are succinct and provably precise. These sets represent generalizations of rigorous explanations, which are precise with probability one, and so they enable trading off explanation size for precision. The paper proposes two logic encodings for computing smallest {\delta}-relevant sets for DTs. The paper further devises a polynomial-time algorithm for computing {\delta}-relevant sets which are not guaranteed to be subset-minimal, but for which the experiments show to be most often subset-minimal in practice. The experimental results also demonstrate the practical efficiency of computing smallest {\delta}-relevant sets.
翻訳日:2022-05-20 23:48:04 公開日:2022-05-19
# (参考訳) 拡張音韻アライメントを用いた分類問題としての反射予測へのアプローチ

Approaching Reflex Predictions as a Classification Problem Using Extended Phonological Alignments ( http://arxiv.org/abs/2205.09570v1 )

ライセンス: CC BY-SA 4.0
Tiago Tresoldi(参考訳) 本稿では,コグネイト反射予測のための"拡張アライメント"(あるいは"マルチティア")アプローチの実装について述べる。 List2022dと同様に、この手法は、複数層ベクターによるシーケンスアライメントを自動的に拡張し、音のクラスや特徴的特徴などのサイト固有の特徴と、クロスサイト参照と複製によって伝達される文脈的および部分的特徴の両方の情報層を符号化する。 この方法は、コグネート集合の並列コーパスを用いて訓練されたモデルを用いて、コグネート反射予測の問題を分類問題として一般化することができる。 反射予測のための共有タスクに基づいてランダム森林を用いたモデルを訓練・評価し,実験結果と他の実装との相違点について考察した。

This work describes an implementation of the "extended alignment" (or "multitiers") approach for cognate reflex prediction, submitted to "Prediction of Cognate Reflexes" shared task. Similarly to List2022d, the technique involves an automatic extension of sequence alignments with multilayered vectors that encode informational tiers on both site-specific traits, such as sound classes and distinctive features, as well as contextual and suprasegmental ones, conveyed by cross-site referrals and replication. The method allows to generalize the problem of cognate reflex prediction as a classification problem, with models trained using a parallel corpus of cognate sets. A model using random forests is trained and evaluated on the shared task for reflex prediction, and the experimental results are presented and discussed along with some differences to other implementations.
翻訳日:2022-05-20 23:32:39 公開日:2022-05-19
# (参考訳) 時間制約付きオンライン凸最適化のための拡張ラグランジアン法

Augmented Lagrangian Methods for Time-varying Constrained Online Convex Optimization ( http://arxiv.org/abs/2205.09571v1 )

ライセンス: CC BY 4.0
Haoyang Liu and Xiantao Xiao and Liwei Zhang(参考訳) 本稿では,オンライン凸最適化(OCO)と時間的損失と制約関数について考察する。 具体的には、過去の情報のみに基づいて順次決定を行うが、時間とともに損失や制約関数が明らかにされる。 まず, 時間変動関数制約OCOのためのモデルベース拡張ラグランジアン法 (MALM) のクラスを (フィードバックの遅れなく) 開発した。 標準的な仮定では、MALMのサブリニア後悔とサブリニア制約違反を確立する。 さらに,遅延フィードバックを伴う時間変動機能制約付きocoに対応するためにmalmを拡張し,遅延のある意思決定者に損失と制約関数のフィードバック情報を開示する。 追加の仮定がなければ,MALMの遅延バージョンに対するサブリニア後悔とサブリニア制約違反も成立する。 最後に,オンラインネットワークリソース割り当て,オンラインロジスティック回帰,オンライン2次制約付き二次プログラムなど,制約付きocoのいくつかの例について数値計算を行い,提案アルゴリズムの効率性を示す。

In this paper, we consider online convex optimization (OCO) with time-varying loss and constraint functions. Specifically, the decision maker chooses sequential decisions based only on past information, meantime the loss and constraint functions are revealed over time. We first develop a class of model-based augmented Lagrangian methods (MALM) for time-varying functional constrained OCO (without feedback delay). Under standard assumptions, we establish sublinear regret and sublinear constraint violation of MALM. Furthermore, we extend MALM to deal with time-varying functional constrained OCO with delayed feedback, in which the feedback information of loss and constraint functions is revealed to decision maker with delays. Without additional assumptions, we also establish sublinear regret and sublinear constraint violation for the delayed version of MALM. Finally, numerical results for several examples of constrained OCO including online network resource allocation, online logistic regression and online quadratically constrained quadratical program are presented to demonstrate the efficiency of the proposed algorithms.
翻訳日:2022-05-20 23:20:14 公開日:2022-05-19
# (参考訳) ジャコビアングランジャー因果ニューラルネットワークによる定常データおよび非定常データの解析

Jacobian Granger Causal Neural Networks for Analysis of Stationary and Nonstationary Data ( http://arxiv.org/abs/2205.09573v1 )

ライセンス: CC BY 4.0
Suryadi, Yew-Soon Ong, Lock Yue Chew(参考訳) グランガー因果関係(Granger causality)は、時系列における情報フローと依存性を明らかにするための一般的な方法である。 本稿では,JGC(Jacobian Granger Causality)を変数重要度尺度として用いた神経ネットワークに基づくGranger causalityのアプローチとして紹介し,この尺度を用いてGranger causal variablesを推定するためのしきい値処理手法を提案する。 結果として得られるアプローチは、グランガー因果変数、関連する時間ラグ、および相互作用標識を識別する他のアプローチと比較して一貫してうまく機能する。 最後に,時間変数を包含することで,グランジャー因果構造が時間とともに変化する非定常系の時間依存性を学習できることを示す。

Granger causality is a commonly used method for uncovering information flow and dependencies in a time series. Here we introduce JGC (Jacobian Granger Causality), a neural network-based approach to Granger causality using the Jacobian as a measure of variable importance, and propose a thresholding procedure for inferring Granger causal variables using this measure. The resulting approach performs consistently well compared to other approaches in identifying Granger causal variables, the associated time lags, as well as interaction signs. Lastly, through the inclusion of a time variable, we show that this approach is able to learn the temporal dependencies for nonstationary systems whose Granger causal structures change in time.
翻訳日:2022-05-20 22:55:36 公開日:2022-05-19
# (参考訳) 空間的・チャネル的注意による動的機能脳ネットワークの発見

Discovering Dynamic Functional Brain Networks via Spatial and Channel-wise Attention ( http://arxiv.org/abs/2205.09576v1 )

ライセンス: CC BY 4.0
Yiheng Liu, Enjie Ge, Mengshen He, Zhengliang Liu, Shijie Zhao, Xintao Hu, Dajiang Zhu, Tianming Liu, Bao Ge(参考訳) 機能的脳ネットワーク(fbns)を機能的磁気共鳴イメージング(fmri)で認識するディープラーニングモデルの利用が近年注目を集めている。 しかし、既存の研究のほとんどは、相関に基づく機能接続など、fMRI信号全体から静的FBNを検出することに重点を置いている。 スライディング・ウィンドウはFBNのダイナミクスを捉えるために広く使われている戦略であるが、各ステップで固有の機能的インタラクティブなダイナミクスを表現することにはまだ限界がある。 また、FBNの数は手動で設定する必要がある。 さらに、脳における動的相互作用の複雑さのため、従来の線形モデルや浅いモデルは、時間ステップごとに複雑で空間的に重なり合うfbnを識別するのに不十分である。 本稿では,FBNを動的に発見するための空間的・チャネル的アテンションオートエンコーダ(SCAAE)を提案する。 SCAAEの中核となる考え方は、FBNの構築に注意機構を適用することである。 具体的には2つの注意モジュールを設計しました 1)空間的注意(SA)モジュールによる空間領域におけるFBNの発見 2)FBNを自動選択するためのチャンネルを重み付けするチャネルワイドアテンション(CA)モジュール。 我々はADHD200データセットに対するアプローチを評価し,提案手法はスライドウィンドウを用いることなく,各fMRI時間ステップにおけるFBNの動的変化を効果的に回復できることを示す。 さらに,我々の提案するハイブリッドアテンションモジュール (SA, CA) は,線形性や独立性の仮定を従来の手法として強制せず,機能的脳ネットワークをよりよく理解するための新しいアプローチを提供する。

Using deep learning models to recognize functional brain networks (FBNs) in functional magnetic resonance imaging (fMRI) has been attracting increasing interest recently. However, most existing work focuses on detecting static FBNs from entire fMRI signals, such as correlation-based functional connectivity. Sliding-window is a widely used strategy to capture the dynamics of FBNs, but it is still limited in representing intrinsic functional interactive dynamics at each time step. And the number of FBNs usually need to be set manually. More over, due to the complexity of dynamic interactions in brain, traditional linear and shallow models are insufficient in identifying complex and spatially overlapped FBNs across each time step. In this paper, we propose a novel Spatial and Channel-wise Attention Autoencoder (SCAAE) for discovering FBNs dynamically. The core idea of SCAAE is to apply attention mechanism to FBNs construction. Specifically, we designed two attention modules: 1) spatial-wise attention (SA) module to discover FBNs in the spatial domain and 2) a channel-wise attention (CA) module to weigh the channels for selecting the FBNs automatically. We evaluated our approach on ADHD200 dataset and our results indicate that the proposed SCAAE method can effectively recover the dynamic changes of the FBNs at each fMRI time step, without using sliding windows. More importantly, our proposed hybrid attention modules (SA and CA) do not enforce assumptions of linearity and independence as previous methods, and thus provide a novel approach to better understanding dynamic functional brain networks.
翻訳日:2022-05-20 22:40:23 公開日:2022-05-19
# (参考訳) ウズベク語アルファベット間の機械音訳ツール

A machine transliteration tool between Uzbek alphabets ( http://arxiv.org/abs/2205.09578v1 )

ライセンス: CC BY 4.0
Ulugbek Salaev, Elmurod Kuriyozov, Carlos G\'omez-Rodr\'iguez(参考訳) 本論文で定義されている機械翻訳は,文字の文字を同じ言語内で他のターゲットアルファベットの単語に自動変換するプロセスであり,その意味や発音を保存している。 本研究の目的は,低資源のウズベク語で使用される3つの共通文字(旧キリル文字,現在公式ラテン文字,新たに発表された新ラテン文字)間の機械翻訳ツールを提供することである。 このツールはルールベースと微調整のアプローチを組み合わせて作られている。 作成したツールは、オープンソースのPythonパッケージと、パブリックAPIを含むWebベースのアプリケーションとして利用できる。 我々の知る限り、これはウズベク語で新しく発表されたラテン文字をサポートする最初の機械翻訳ツールである。

Machine transliteration, as defined in this paper, is a process of automatically transforming written script of words from a source alphabet into words of another target alphabet within the same language, while preserving their meaning, as well as pronunciation. The main goal of this paper is to present a machine transliteration tool between three common scripts used in low-resource Uzbek language: the old Cyrillic, currently official Latin, and newly announced New Latin alphabets. The tool has been created using a combination of rule-based and fine-tuning approaches. The created tool is available as an open-source Python package, as well as a web-based application including a public API. To our knowledge, this is the first machine transliteration tool that supports the newly announced Latin alphabet of the Uzbek language.
翻訳日:2022-05-20 22:26:49 公開日:2022-05-19
# (参考訳) TRT-ViT:TensorRT指向ビジョントランス

TRT-ViT: TensorRT-oriented Vision Transformer ( http://arxiv.org/abs/2205.09579v1 )

ライセンス: CC BY 4.0
Xin Xia, Jiashi Li, Jie Wu, Xing Wang, Mingkai Wang, Xuefeng Xiao, Min Zheng, Rui Wang(参考訳) 我々は,既存の優れたトランスフォーマーを実用化の観点から再考する。 それらのほとんどは、ベーシックなresnetsシリーズほど効率的ではなく、現実的なデプロイメントシナリオから逸脱している。 FLOPやパラメータは一方的、準最適、ハードウェア非感受性といった計算効率を測る現在の基準が原因かもしれない。 そこで本稿では,計算能力,メモリコスト,帯域幅に関するより包括的なフィードバックを提供するため,ハードウェアのテンソルトレイテンシを効率指標として直接扱う。 一連の制御された実験に基づいて、この研究はTensorRT指向でデプロイに優しいネットワーク設計のための4つの実践的ガイドライン(例えば、早期CNNと後期CNNのステージレベル、早期トランスフォーマーと後期CNNのブロックレベル)を導出した。 そのため、TRT-ViTと略して、TensortRT指向トランスフォーマーのファミリーが提示される。 TRT-ViTは、画像分類、オブジェクト検出、セマンティックセグメンテーションなど、様々な視覚的タスクにおけるレイテンシ/精度のトレードオフに関して、既存のConvNetやビジョントランスフォーマーを著しく上回っている。 例えば、82.7%のImageNet-1kトップ-1精度で、TRT-ViTはCSWinより2.7$\times$、Twinsより2.0$\times$である。 MS-COCOオブジェクト検出タスクでは、RTT-ViTはTwinsと同等のパフォーマンスを達成し、推論速度は2.8$\times$に向上する。

We revisit the existing excellent Transformers from the perspective of practical application. Most of them are not even as efficient as the basic ResNets series and deviate from the realistic deployment scenario. It may be due to the current criterion to measure computation efficiency, such as FLOPs or parameters is one-sided, sub-optimal, and hardware-insensitive. Thus, this paper directly treats the TensorRT latency on the specific hardware as an efficiency metric, which provides more comprehensive feedback involving computational capacity, memory cost, and bandwidth. Based on a series of controlled experiments, this work derives four practical guidelines for TensorRT-oriented and deployment-friendly network design, e.g., early CNN and late Transformer at stage-level, early Transformer and late CNN at block-level. Accordingly, a family of TensortRT-oriented Transformers is presented, abbreviated as TRT-ViT. Extensive experiments demonstrate that TRT-ViT significantly outperforms existing ConvNets and vision Transformers with respect to the latency/accuracy trade-off across diverse visual tasks, e.g., image classification, object detection and semantic segmentation. For example, at 82.7% ImageNet-1k top-1 accuracy, TRT-ViT is 2.7$\times$ faster than CSWin and 2.0$\times$ faster than Twins. On the MS-COCO object detection task, TRT-ViT achieves comparable performance with Twins, while the inference speed is increased by 2.8$\times$.
翻訳日:2022-05-20 22:13:35 公開日:2022-05-19
# (参考訳) Evonne: 記述論理(システム記述)のためのインタラクティブな証明可視化 - 拡張版

Evonne: Interactive Proof Visualization for Description Logics (System Description) -- Extended Version ( http://arxiv.org/abs/2205.09583v1 )

ライセンス: CC BY 4.0
Christian Alrabbaa, Franz Baader, Stefan Borgwardt, Raimund Dachselt, Patrick Koopmann, Juli\'an M\'endez(参考訳) 記述論理(DL)に関する説明は、大きなオントロジーの維持に重要な支援を提供する。 オントロジーの編集者は、通常、この目的のために用いられる「正当性」は、特定の内容に責任を負うオントロジーの一部を特定する。 補足の証明は中間的推論ステップを明確にし、その結果を実際に導出する方法を説明する。 本稿では,表現型DLで記述されたオントロジーの結果の証明を可視化するEvonneと呼ばれる記述論理証明を探索する対話型システムを提案する。 これらの証明を計算するのに使用される手法をシグネチャベースの証明凝縮という特徴と合わせて記述する。 さらに,実際のオントロジーを用いて生成証明の品質を評価する。

Explanations for description logic (DL) entailments provide important support for the maintenance of large ontologies. The "justifications" usually employed for this purpose in ontology editors pinpoint the parts of the ontology responsible for a given entailment. Proofs for entailments make the intermediate reasoning steps explicit, and thus explain how a consequence can actually be derived. We present an interactive system for exploring description logic proofs, called Evonne, which visualizes proofs of consequences for ontologies written in expressive DLs. We describe the methods used for computing those proofs, together with a feature called signature-based proof condensation. Moreover, we evaluate the quality of generated proofs using real ontologies.
翻訳日:2022-05-20 21:58:01 公開日:2022-05-19
# (参考訳) 脳-コンピュータインタフェースにおけるマルチアーマッドバンド

Multi-Armed Bandits in Brain-Computer Interfaces ( http://arxiv.org/abs/2205.09584v1 )

ライセンス: CC BY 4.0
Frida Heskebeck, Carolina Bergeling, Bo Bernhardsson(参考訳) マルチアームバンディット(MAB)問題は、現在の知識に基づいて行動の最適化を行い、報酬を最大化する。 この種のオンライン決定は、BCI(Brain-Computer Interfaces)の多くの手順で顕著であり、MABは以前、BCIのパフォーマンスを最適化するためにどんなメンタルコマンドを使用するかを調べるために用いられてきた。 しかし、キャリブレーションとリアルタイム実装の両方において、BCI性能を改善する可能性があるにもかかわらず、BCIの文脈でのMAB最適化はいまだに未定である。 そこで本稿では,MABをBCIコミュニティにさらに導入することを目的としている。 このレビューには、MAB問題と標準解法、およびBCIシステムに関する解釈の背景が含まれている。 さらに、bciにおけるmabの最先端の概念や今後の研究の提案も含まれている。

The multi-armed bandit (MAB) problem models a decision-maker that optimizes its actions based on current and acquired new knowledge to maximize its reward. This type of online decision is prominent in many procedures of Brain-Computer Interfaces (BCIs) and MAB has previously been used to investigate, e.g., what mental commands to use to optimize BCI performance. However, MAB optimization in the context of BCI is still relatively unexplored, even though it has the potential to improve BCI performance during both calibration and real-time implementation. Therefore, this review aims to further introduce MABs to the BCI community. The review includes a background on MAB problems and standard solution methods, and interpretations related to BCI systems. Moreover, it includes state-of-the-art concepts of MAB in BCI and suggestions for future research.
翻訳日:2022-05-20 21:45:08 公開日:2022-05-19
# (参考訳) 壊滅的な破滅はいかにして線形回帰を引き起こすのか?

How catastrophic can catastrophic forgetting be in linear regression? ( http://arxiv.org/abs/2205.09588v1 )

ライセンス: CC BY 4.0
Itay Evron, Edward Moroshko, Rachel Ward, Nati Srebro, Daniel Soudry(参考訳) 破滅的な記憶をよりよく理解するために,入力分布の異なるタスク列に過パラメータ線形モデルを適用した。 モデルが後続タスクのトレーニング後のタスクの本当のラベルをどれだけ忘れているかを分析し、正確な表現とバウンダリを得る。 線形設定における連続学習と他の2つの研究領域(交互射影法とカツマーツ法)との関係を確立する。 特定の環境では、これらの領域で研究されているように、オフラインソリューションの忘れ方と収束性の違いを強調する。 特に、d次元の T 個のタスクが k 個の反復に対して巡回的に表されるとき、忘れ物について T^2 * min{1/sqrt(k), d/k} の上界が証明される。 これは、既存の交代投影結果に従って任意に遅くなるオフラインソリューションへの収束とは対照的である。 さらに,タスクがランダムな順序付けで提示されると,T^2因子が持ち上げられることを示す。

To better understand catastrophic forgetting, we study fitting an overparameterized linear model to a sequence of tasks with different input distributions. We analyze how much the model forgets the true labels of earlier tasks after training on subsequent tasks, obtaining exact expressions and bounds. We establish connections between continual learning in the linear setting and two other research areas: alternating projections and the Kaczmarz method. In specific settings, we highlight differences between forgetting and convergence to the offline solution as studied in those areas. In particular, when T tasks in d dimensions are presented cyclically for k iterations, we prove an upper bound of T^2 * min{1/sqrt(k), d/k} on the forgetting. This stands in contrast to the convergence to the offline solution, which can be arbitrarily slow according to existing alternating projection results. We further show that the T^2 factor can be lifted when tasks are presented in a random ordering.
翻訳日:2022-05-20 21:35:39 公開日:2022-05-19
# (参考訳) LAGr: セマンティックパーシングにおけるシステム一般化のためのラベル付きグラフ

LAGr: Label Aligned Graphs for Better Systematic Generalization in Semantic Parsing ( http://arxiv.org/abs/2205.09607v1 )

ライセンス: CC BY 4.0
Dora Jambor and Dzmitry Bahdanau(参考訳) 意味構文解析は、自然言語文の構造化された意味表現を作成するタスクである。 近年の研究では、一般的に使用されているseq2seq(sequence-to-sequence)セマンティクスパーサは、体系的な一般化、すなわち新しい設定で既知の知識を再結合する必要がある例を扱うのに苦労していると指摘している。 本研究では, 意味表現を直接グラフとして生成することで, シーケンスとしてではなく, 体系的な一般化を実現することができることを示す。 この目的のために我々は,完全多層入力整合グラフに対するノードとエッジラベルを独立に予測することで意味解析を行う汎用フレームワークである LAGr (Label Aligned Graphs) を提案する。 強い教師付き LAGr アルゴリズムは、入力として整列グラフを必要とするが、弱い教師付き LAGr は、近似最大-a-ポテリオ推定を用いて、元々の非整列対象グラフに対する整列を推論する。 実験により、lagerは、強い教師付き設定と弱い教師付き設定の両方において、ベースラインのseq2seqパーサー上で系統的一般化を著しく改善できることが示されている。

Semantic parsing is the task of producing structured meaning representations for natural language sentences. Recent research has pointed out that the commonly-used sequence-to-sequence (seq2seq) semantic parsers struggle to generalize systematically, i.e. to handle examples that require recombining known knowledge in novel settings. In this work, we show that better systematic generalization can be achieved by producing the meaning representation directly as a graph and not as a sequence. To this end we propose LAGr (Label Aligned Graphs), a general framework to produce semantic parses by independently predicting node and edge labels for a complete multi-layer input-aligned graph. The strongly-supervised LAGr algorithm requires aligned graphs as inputs, whereas weakly-supervised LAGr infers alignments for originally unaligned target graphs using approximate maximum-a-posteriori inference. Experiments demonstrate that LAGr achieves significant improvements in systematic generalization upon the baseline seq2seq parsers in both strongly- and weakly-supervised settings.
翻訳日:2022-05-20 21:33:52 公開日:2022-05-19
# (参考訳) EXACT: 正確さのトレーニング方法

EXACT: How to Train Your Accuracy ( http://arxiv.org/abs/2205.09615v1 )

ライセンス: CC BY 4.0
Ivan Karpukhin, Stanislav Dereka, Sergey Kolesnikov(参考訳) 分類は通常、正確性の観点から評価される。 しかし、精度は不連続であり、勾配法による直接最適化はできない。 一般的な方法は、クロスエントロピー、ヒンジ損失、その他の代理損失を最小限に抑え、最適以下の結果をもたらす。 本稿では,モデルの出力に確率性を導入し,予測精度,すなわち確率モデルの精度を最適化することで,新しい最適化手法を提案する。 画像分類に関する広範囲な実験により,提案手法は広く用いられている分類損失の強力な代替手段であることが示された。

Classification tasks are usually evaluated in terms of accuracy. However, accuracy is discontinuous and cannot be directly optimized using gradient ascent. Popular methods minimize cross-entropy, Hinge loss, or other surrogate losses, which can lead to suboptimal results. In this paper, we propose a new optimization framework by introducing stochasticity to a model's output and optimizing expected accuracy, i.e. accuracy of the stochastic model. Extensive experiments on image classification show that the proposed optimization method is a powerful alternative to widely used classification losses.
翻訳日:2022-05-20 21:13:44 公開日:2022-05-19
# (参考訳) 忠実性の理論に向けて:連続データ上の微分可能分類器の忠実な説明

Towards a Theory of Faithfulness: Faithful Explanations of Differentiable Classifiers over Continuous Data ( http://arxiv.org/abs/2205.09620v1 )

ライセンス: CC BY 4.0
Nico Potyka, Xiang Yin, Francesca Toni(参考訳) 文献には説明方法が説明のモデルに忠実であるべきだという広い一致があるが、忠実さはいまだに曖昧な用語である。 連続データの文脈で忠実性を再検討し,特徴帰属法に対する忠実性に関する2つの形式的定義を提案する。 定性的忠実性は、スコアがモデル上の特徴の真の質的効果(正対負)を反映し、スコアの大きさが真の量的効果を反映することを要求する。 我々は、これらの要件をどの程度まで(ローカル対グローバル)満たせるかについて議論する。 概念概念の応用として、連続データ上の微分可能な分類器を考察し、グラデーションスコアを次のように特徴づける: 定性的に忠実な特徴帰属法はすべて、定性的にグラデーションスコアと等価である。 さらに、分類器の出力の変化が特徴のスコアに比例するという意味で、帰属法が定量的に忠実であるならば、その分類器の劣等な近似に基づいているか、または、グラデーション・スコーリングと等価である。 この理論の実際的妥当性を説明するために,一般的な帰属法ではデータが連続的かつ分類子微分可能な設定において忠実な説明ができないことを実験的に証明する。

There is broad agreement in the literature that explanation methods should be faithful to the model that they explain, but faithfulness remains a rather vague term. We revisit faithfulness in the context of continuous data and propose two formal definitions of faithfulness for feature attribution methods. Qualitative faithfulness demands that scores reflect the true qualitative effect (positive vs. negative) of the feature on the model and quanitative faithfulness that the magnitude of scores reflect the true quantitative effect. We discuss under which conditions these requirements can be satisfied to which extent (local vs global). As an application of the conceptual idea, we look at differentiable classifiers over continuous data and characterize Gradient-scores as follows: every qualitatively faithful feature attribution method is qualitatively equivalent to Gradient-scores. Furthermore, if an attribution method is quantitatively faithful in the sense that changes of the output of the classifier are proportional to the scores of features, then it is either equivalent to gradient-scoring or it is based on an inferior approximation of the classifier. To illustrate the practical relevance of the theory, we experimentally demonstrate that popular attribution methods can fail to give faithful explanations in the setting where the data is continuous and the classifier differentiable.
翻訳日:2022-05-20 21:02:51 公開日:2022-05-19
# (参考訳) 公平とは何か? FairMLの意義

What Is Fairness? Implications For FairML ( http://arxiv.org/abs/2205.09622v1 )

ライセンス: CC BY 4.0
Ludwig Bothmann, Kristina Peters, Bernd Bischl(参考訳) フェアネスを意識したML(fairML)における文献の増大は、機械学習(ML)に関連する不公平さを自動意思決定(ADM)において軽減することを目的としており、MLモデルの公平性を測定するメトリクスを定義し、訓練されたMLモデルがこれらの尺度で低い値を達成することを保証する方法を提案する。 しかし、公正とは何かという根本的な概念は、何世紀にもわたる哲学的議論とMLコミュニティにおけるこの概念の最近の採用の間にかなりのギャップを残しているため、ほとんど議論されない。 本研究では,公正性という一貫した概念を定式化し,哲学的考察をADMシステムにおけるMLモデル評価のための形式的枠組みに変換することにより,このギャップを埋めようとしている。 フェアネス問題は保護属性の存在なしに既に発生しており、フェアネスと予測性能は不整合性ではなく、前者を達成するためには後者が必要であることを指摘した。 さらに,保護属性の存在下での公平性を評価する上で,なぜ因果的考察が必要なのかを論じる。 最終的には、FairMLの議論において、ML内外の利害関係者に責任を明確に割り当てることにより、より言語学的に明確化が達成される。

A growing body of literature in fairness-aware ML (fairML) aspires to mitigate machine learning (ML)-related unfairness in automated decision making (ADM) by defining metrics that measure fairness of an ML model and by proposing methods that ensure that trained ML models achieve low values in those measures. However, the underlying concept of fairness, i.e., the question of what fairness is, is rarely discussed, leaving a considerable gap between centuries of philosophical discussion and recent adoption of the concept in the ML community. In this work, we try to bridge this gap by formalizing a consistent concept of fairness and by translating the philosophical considerations into a formal framework for the evaluation of ML models in ADM systems. We derive that fairness problems can already arise without the presence of protected attributes, pointing out that fairness and predictive performance are not irreconcilable counterparts, but rather that the latter is necessary to achieve the former. Moreover, we argue why and how causal considerations are necessary when assessing fairness in the presence of protected attributes. Eventually, we achieve greater linguistic clarity for the discussion of fairML by clearly assigning responsibilities to stakeholders inside and outside ML.
翻訳日:2022-05-20 20:42:39 公開日:2022-05-19
# (参考訳) なぜコンベックスブースターを殺したのか?

What killed the Convex Booster ? ( http://arxiv.org/abs/2205.09628v1 )

ライセンス: CC BY 4.0
Yishay Mansour and Richard Nock and Robert C. Williamson(参考訳) ロング・アンド・サーヴェディオの目覚ましい否定的な結果は、教師付き学習トリオ(ロス、アルゴリズム、モデル)が、それ以外は高精度な機械で賞賛された最悪の大失敗を生んだ。 何百もの論文が、この2つの容疑者について追及された: 損失(凸)とアルゴリズム(古典的なブースティング・ブループリントに適合する)だ。 ここでは半世紀以上にわたるクラス確率推定の損失の理論、ロングとサーミオの結果の拡張、そしてそれらの特定の文脈における真の原因が実際に(線形)モデルクラスであることを示す新しい一般的なブースティングアルゴリズムを提唱する。 我々は、負の結果の源は、ML: \textit{parameterisation} の浸透的側面の暗黒側にあると主張するので、この問題に関するより一般的なスタンポイントを提唱する。

A landmark negative result of Long and Servedio established a worst-case spectacular failure of a supervised learning trio (loss, algorithm, model) otherwise praised for its high precision machinery. Hundreds of papers followed up on the two suspected culprits: the loss (for being convex) and/or the algorithm (for fitting a classical boosting blueprint). Here, we call to the half-century+ founding theory of losses for class probability estimation (properness), an extension of Long and Servedio's results and a new general boosting algorithm to demonstrate that the real culprit in their specific context was in fact the (linear) model class. We advocate for a more general stanpoint on the problem as we argue that the source of the negative result lies in the dark side of a pervasive -- and otherwise prized -- aspect of ML: \textit{parameterisation}.
翻訳日:2022-05-20 20:21:53 公開日:2022-05-19
# (参考訳) アテンションマップのトポロジーの検討による受容性判定

Acceptability Judgements via Examining the Topology of Attention Maps ( http://arxiv.org/abs/2205.09630v1 )

ライセンス: CC BY 4.0
Daniil Cherniavskii, Eduard Tulchinskii, Vladislav Mikhailov, Irina Proskurina, Laida Kushnareva, Ekaterina Artemova, Serguei Barannikov, Irina Piontkovskaya, Dmitri Piontkovski, Evgeny Burnaev(参考訳) 言語知識のエンコーディングにおける注意機構の役割は、特にnlpに注目されている。 しかし, 文の文法的受容性を判断する上で, 注意を向ける能力は過小評価されている。 本稿では、トポロジカルデータ分析(TDA)を用いた受理性判定のパラダイムにアプローチし、言語学における2つの標準実践において、注目グラフの幾何学的性質を効率的に活用できることを示す。 トポロジ的特徴は、3つの言語(英語、イタリア語、スウェーデン語)のCoLAでBERTベースのアクセプティビリティ分類器のスコアを8ドルから24ドル%向上させる。 最小対のアテンションマップ間のトポロジ的差異を明らかにすることで,BLiMPベンチマークにおける人間レベルの性能が9つの統計およびトランスフォーマーLMベースラインを上回った。 同時に、tdaは注意ヘッドの言語機能を分析し、グラフの特徴と文法現象の対応を解釈するための基礎を提供する。

The role of the attention mechanism in encoding linguistic knowledge has received special interest in NLP. However, the ability of the attention heads to judge the grammatical acceptability of a sentence has been underexplored. This paper approaches the paradigm of acceptability judgments with topological data analysis (TDA), showing that the geometric properties of the attention graph can be efficiently exploited for two standard practices in linguistics: binary judgments and linguistic minimal pairs. Topological features enhance the BERT-based acceptability classifier scores by $8$%-$24$% on CoLA in three languages (English, Italian, and Swedish). By revealing the topological discrepancy between attention maps of minimal pairs, we achieve the human-level performance on the BLiMP benchmark, outperforming nine statistical and Transformer LM baselines. At the same time, TDA provides the foundation for analyzing the linguistic functions of attention heads and interpreting the correspondence between the graph features and grammatical phenomena.
翻訳日:2022-05-20 20:20:51 公開日:2022-05-19
# (参考訳) フィロジェニーに基づく多言語モデルの新しい言語への適応

Phylogeny-Inspired Adaptation of Multilingual Models to New Languages ( http://arxiv.org/abs/2205.09634v1 )

ライセンス: CC BY 4.0
Fahim Faisal, Antonios Anastasopoulos(参考訳) 数十の言語でトレーニングされた大規模な事前訓練された多言語モデルは、さまざまな言語タスクにおける言語間学習能力によって、有望な結果をもたらしている。 これらのモデルを特定の言語、特に事前トレーニング中に見えない言語にさらに適応させることは、言語技術の範囲を拡大するための重要な目標である。 本研究では, 言語系統情報を用いて, 近縁な言語を構造的, 言語的インフォームドで活用し, 言語間移動を改善する方法について述べる。 多様な言語群(ドイツ語、ウラル語、トゥピアン語、ウト=アステカン語)の言語に対するアダプタベースの学習を行い、構文的・意味的タスクの両方について評価し、特に事前学習中の言語において、強固に使用されるベースラインに対して20%以上の相対的なパフォーマンス改善を得た。

Large pretrained multilingual models, trained on dozens of languages, have delivered promising results due to cross-lingual learning capabilities on variety of language tasks. Further adapting these models to specific languages, especially ones unseen during pre-training, is an important goal towards expanding the coverage of language technologies. In this study, we show how we can use language phylogenetic information to improve cross-lingual transfer leveraging closely related languages in a structured, linguistically-informed manner. We perform adapter-based training on languages from diverse language families (Germanic, Uralic, Tupian, Uto-Aztecan) and evaluate on both syntactic and semantic tasks, obtaining more than 20% relative performance improvements over strong commonly used baselines, especially on languages unseen during pre-training.
翻訳日:2022-05-20 19:56:48 公開日:2022-05-19
# (参考訳) 二段階関係ランキングにおける候補セットプルーニングの認定誤差制御

Certified Error Control of Candidate Set Pruning for Two-Stage Relevance Ranking ( http://arxiv.org/abs/2205.09638v1 )

ライセンス: CC BY 4.0
Minghan Li, Xinyu Zhang, Ji Xin, Hongyang Zhang, Jimmy Lin(参考訳) 情報検索(IR)において、候補セットプルーニングは2段階関係ランキングの高速化に一般的に用いられている。 しかし、そのようなアプローチは正確な誤差制御を欠き、理論的な保証を欠く経験的な方法で計算効率と精度を交換することが多い。 本稿では,関連度ランキングのための候補セットプルーニングの認証エラー制御の概念を提案する。つまり,プルーニング後のテストエラーを,ユーザ指定閾値の下で高い確率で制御することが保証される。 in-domain と out-of-domain の両実験により,本手法は第1段階の検索候補集合の探索に成功し,2段階のリランキング速度を向上し,両方の設定で予め定められた精度制約を満たした。 例えば、ms marco passage v1では、平均候補設定サイズが1000から27に設定され、リランキング速度が約37倍に向上する一方、mr@10は約90%の経験的カバレッジを持つ0.38よりも大きく、経験的ベースラインはそのような保証を提供しない。 コードとデータは、https://github.com/alexlimh/CEC-Ranking.comで入手できる。

In information retrieval (IR), candidate set pruning has been commonly used to speed up two-stage relevance ranking. However, such an approach lacks accurate error control and often trades accuracy off against computational efficiency in an empirical fashion, lacking theoretical guarantees. In this paper, we propose the concept of certified error control of candidate set pruning for relevance ranking, which means that the test error after pruning is guaranteed to be controlled under a user-specified threshold with high probability. Both in-domain and out-of-domain experiments show that our method successfully prunes the first-stage retrieved candidate sets to improve the second-stage reranking speed while satisfying the pre-specified accuracy constraints in both settings. For example, on MS MARCO Passage v1, our method yields an average candidate set size of 27 out of 1,000 which increases the reranking speed by about 37 times, while the MRR@10 is greater than a pre-specified value of 0.38 with about 90% empirical coverage and the empirical baselines fail to provide such guarantee. Code and data are available at: https://github.com/alexlimh/CEC-Ranking.
翻訳日:2022-05-20 19:36:30 公開日:2022-05-19
# (参考訳) グラフ表現学習法はグラフ空間と非対称ノード情報に頑健か?

Are Graph Representation Learning Methods Robust to Graph Sparsity and Asymmetric Node Information? ( http://arxiv.org/abs/2205.09648v1 )

ライセンス: CC BY 4.0
Pierre Sevestre, Marine Neyret(参考訳) グラフ表現学習(grl)法の人気が高まっているため、多くのドメインに適用される多数のモデルが開発されている。 この領域の多様性の背後には、グラフの強い異質性があり、特にグラフがベンチマークでまだ遭遇していない特異な特性を持つ場合、新しいグラフ上でのモデルの期待性能を推定することは困難である。 そこで我々は,与えられた特性がモデルの性能に与える影響を評価する実験パイプラインを開発した。 本稿では、このパイプラインを用いて、銀行が市場において実施する全ての個人および取引に対する部分的視点から、銀行の取引グラフに生じる2つの特異性の影響を考察する。 これらの特徴はグラフスパーシティと非対称ノード情報である。 本研究では,これらの特徴に対するGRL法の堅牢性を示す。 本研究は、GRL法の評価を特定の特性に容易にし、トランザクショングラフ上での開発を促進することができると考えている。

The growing popularity of Graph Representation Learning (GRL) methods has resulted in the development of a large number of models applied to a miscellany of domains. Behind this diversity of domains, there is a strong heterogeneity of graphs, making it difficult to estimate the expected performance of a model on a new graph, especially when the graph has distinctive characteristics that have not been encountered in the benchmark yet. To address this, we have developed an experimental pipeline, to assess the impact of a given property on the models performances. In this paper, we use this pipeline to study the effect of two specificities encountered on banks transactional graphs resulting from the partial view a bank has on all the individuals and transactions carried out on the market. These specific features are graph sparsity and asymmetric node information. This study demonstrates the robustness of GRL methods to these distinctive characteristics. We believe that this work can ease the evaluation of GRL methods to specific characteristics and foster the development of such methods on transactional graphs.
翻訳日:2022-05-20 19:17:19 公開日:2022-05-19
# (参考訳) 名前付きエンティティ認識、マルチタスク学習、ネストエンティティ、bert、アラビア語nerコーパス

Named Entity Recognition, Multi-Task Learning, Nested Entities, BERT, Arabic NER Corpus ( http://arxiv.org/abs/2205.09651v1 )

ライセンス: CC BY 4.0
Mustafa Jarrar, Mohammed Khalilia, Sana Ghanem(参考訳) 本稿ではアラビアネスト付き名前付きエンティティ認識(NER)のためのコーパスであるWojoodについて述べる。 ネストされたエンティティは、あるエンティティの言及が別のエンティティの言及の中に埋め込まれたときに発生する。 Wojoodは、約550Kの現代標準アラビア語(MSA)と、人、組織、場所、イベント、日付を含む21のエンティティタイプを手動で注釈付けした方言トークンで構成されている。 さらに重要なことに、コーパスは、より一般的なフラットアノテーションではなく、ネストされたエンティティでアノテートされる。 データには約75Kのエンティティが含まれ、うち22.5%がネストされている。 コーパスのアノテータ間評価はコーエンのカッパ0.979とF1スコア0.976との強い一致を示した。 データの検証には,マルチタスク学習とAraBERT(アラビアBERT)に基づくネストNERモデルをトレーニングするために,コーパスを使用した。 モデル全体のマイクロf1scoreは0.884である。 私たちのコーパス、アノテーションガイドライン、ソースコード、事前訓練されたモデルが公開されています。

This paper presents Wojood, a corpus for Arabic nested Named Entity Recognition (NER). Nested entities occur when one entity mention is embedded inside another entity mention. Wojood consists of about 550K Modern Standard Arabic (MSA) and dialect tokens that are manually annotated with 21 entity types including person, organization, location, event and date. More importantly, the corpus is annotated with nested entities instead of the more common flat annotations. The data contains about 75K entities and 22.5% of which are nested. The inter-annotator evaluation of the corpus demonstrated a strong agreement with Cohen's Kappa of 0.979 and an F1-score of 0.976. To validate our data, we used the corpus to train a nested NER model based on multi-task learning and AraBERT (Arabic BERT). The model achieved an overall micro F1-score of 0.884. Our corpus, the annotation guidelines, the source code and the pre-trained model are publicly available.
翻訳日:2022-05-20 19:02:37 公開日:2022-05-19
# (参考訳) ニューラルネットワークにおけるカーネル進化の自己一貫性動的場理論

Self-Consistent Dynamical Field Theory of Kernel Evolution in Wide Neural Networks ( http://arxiv.org/abs/2205.09653v1 )

ライセンス: CC BY 4.0
Blake Bordelon, Cengiz Pehlevan(参考訳) 勾配流を訓練した無限幅ニューラルネットワークの特徴学習を, 自己整合力学場理論を用いて解析する。 本研究では,各層に隠れた単位アクティベーションと勾配の内積カーネルである決定論的動的順序パラメータの集合を,時間点のペアで構築し,ネットワーク活動のトレーニングによる記述を削減した。 これらのカーネル順序パラメータは、隠れた層活性化分布、神経接核の進化を集合的に定義し、その結果、予測を出力する。 深い線形ネットワークの場合、これらの核は代数行列方程式の集合を満たす。 非線形ネットワークに対しては,カーネル順序パラメータを自己整合的に解くための交互サンプリング手順を提案する。 本稿では, 静的NTK近似, 勾配独立仮定, 先行順序摂動理論などの様々な近似スキームに対する自己整合性解の比較を行い, 一般自己整合性解が依然として正確な記述を提供する体制において各近似が分解可能であることを示す。 最後に,固定特徴学習強度におけるcnnの損失とカーネルダイナミクスがcifar分類タスクにおいて異なる幅にわたって保持されることを示す,より現実的な環境での実験を行う。

We analyze feature learning in infinite width neural networks trained with gradient flow through a self-consistent dynamical field theory. We construct a collection of deterministic dynamical order parameters which are inner-product kernels for hidden unit activations and gradients in each layer at pairs of time points, providing a reduced description of network activity through training. These kernel order parameters collectively define the hidden layer activation distribution, the evolution of the neural tangent kernel, and consequently output predictions. For deep linear networks, these kernels satisfy a set of algebraic matrix equations. For nonlinear networks, we provide an alternating sampling procedure to self-consistently solve for the kernel order parameters. We provide comparisons of the self-consistent solution to various approximation schemes including the static NTK approximation, gradient independence assumption, and leading order perturbation theory, showing that each of these approximations can break down in regimes where general self-consistent solutions still provide an accurate description. Lastly, we provide experiments in more realistic settings which demonstrate that the loss and kernel dynamics of CNNs at fixed feature learning strength is preserved across different widths on a CIFAR classification task.
翻訳日:2022-05-20 18:21:40 公開日:2022-05-19
# (参考訳) アラビアオントロジー-オントロジー的にクリーンな内容を持つアラビア語のワーネット

The Arabic Ontology -- An Arabic Wordnet with Ontologically Clean Content ( http://arxiv.org/abs/2205.09664v1 )

ライセンス: CC BY 4.0
Mustafa Jarrar(参考訳) 我々は、ここでアラビアオントロジーと呼ばれる、慎重に設計されたオントロジーに基づいて構築された形式アラビア語のワードネットを提示する。 オントロジーはアラビア語の用語が伝える概念を形式的に表現し、その内容は存在論的分析を念頭に置いて構築され、可能な限り科学的進歩と厳格な知識ソースにベンチマークされた。 包括的な評価が行われ、オントロジーの最上位階の現在のバージョンがアラビア語の意味の大部分を上回ることができることを示した。 オントロジーは現在約1,300の精巧な概念と、部分的に検証された11,000の概念で構成されている。 オントロジーは辞書検索エンジン(https://ontology.birzeit.edu)を通じてアクセス可能で、約150のアラビア語対応のレキシコンを含む。 オントロジーは、Princeton WordNet、Wikidata、その他のリソースで完全にマッピングされている。

We present a formal Arabic wordnet built on the basis of a carefully designed ontology hereby referred to as the Arabic Ontology. The ontology provides a formal representation of the concepts that the Arabic terms convey, and its content was built with ontological analysis in mind, and benchmarked to scientific advances and rigorous knowledge sources as much as this is possible, rather than to only speakers' beliefs as lexicons typically are. A comprehensive evaluation was conducted thereby demonstrating that the current version of the top-levels of the ontology can top the majority of the Arabic meanings. The ontology consists currently of about 1,300 well-investigated concepts in addition to 11,000 concepts that are partially validated. The ontology is accessible and searchable through a lexicographic search engine (https://ontology.birzeit.edu) that also includes about 150 Arabic-multilingual lexicons, and which are being mapped and enriched using the ontology. The ontology is fully mapped with Princeton WordNet, Wikidata, and other resources.
翻訳日:2022-05-20 18:20:02 公開日:2022-05-19
# (参考訳) 自動クロスワード解法

Automated Crossword Solving ( http://arxiv.org/abs/2205.09665v1 )

ライセンス: CC BY 4.0
Eric Wallace, Nicholas Tomlin, Albert Xu, Kevin Yang, Eshaan Pathak, Matthew Ginsberg, Dan Klein(参考訳) 本稿では,クロスワードパズルの自動解法であるバークレークロスワードソルバーを提案する。 本システムでは,ニューラル質問応答モデルを用いて,各クロスワード手がかりに対する回答候補を生成し,ループ的信念伝達と局所探索を組み合わせた解を求める。 既存の手法と比較して、我々のシステムは、New York Timesのクロスワードの精度を57%から82%改善し、テーマレスパズルの精度を99.9%向上した。 また,本大会では,コンピュータプログラムが人的パフォーマンスを上回った最初の事例となる,人的クロスワードトーナメントで優勝した。 質問応答とクロスワード解決の研究を容易にするため,システムの残差を分析し,600万以上の質問応答対のデータセットをリリースする。

We present the Berkeley Crossword Solver, a state-of-the-art approach for automatically solving crossword puzzles. Our system works by generating answer candidates for each crossword clue using neural question answering models and then combines loopy belief propagation with local search to find full puzzle solutions. Compared to existing approaches, our system improves exact puzzle accuracy from 57% to 82% on crosswords from The New York Times and obtains 99.9% letter accuracy on themeless puzzles. Our system also won first place at the top human crossword tournament, which marks the first time that a computer program has surpassed human performance at this event. To facilitate research on question answering and crossword solving, we analyze our system's remaining errors and release a dataset of over six million question-answer pairs.
翻訳日:2022-05-20 17:43:41 公開日:2022-05-19
# (参考訳) 全スライド画像分類のためのグラフ変換器

A graph-transformer for whole slide image classification ( http://arxiv.org/abs/2205.09671v1 )

ライセンス: CC BY 4.0
Yi Zheng, Rushin H. Gindra, Emily J. Green, Eric J. Burks, Margrit Betke, Jennifer E. Beane, Vijaya B. Kolachalama(参考訳) ディープラーニングは、スライド画像全体(WSI)解析のための強力なツールである。 通常、教師付きディープラーニングを行う場合、WSIは小さなパッチに分割され、トレーニングされ、その結果を集約して病気の成績を推定する。 しかし、パッチベースの手法では、各パッチがwsiと同じラベルと独立していると仮定してトレーニング中にラベルノイズを発生させ、病気の採点において重要なwsiレベルの情報を無視する。 本稿では、WSIのグラフベース表現を融合したグラフ変換器(GT)と、GTPと呼ばれる病理画像の処理を行うビジョン変換器について述べる。 臨床プロテオミック腫瘍解析コンソーシアム(CPTAC),国立肺検診試験(NLST)および癌ゲノムアトラス(TCGA)から4,818ドルのWSIを選定し,GTPを用いて肺腺癌(LUAD)と扁平上皮癌(LSCC)とを鑑別した。 まず,NLSTデータを用いて,特徴抽出器を生成するためのコントラスト学習フレームワークを開発した。 これにより、グラフのノードを表すために使われた個々のWSIパッチの特徴ベクトルを計算し、続いてGTPフレームワークを構築しました。 cptacデータに基づいてトレーニングしたモデルは、3ラベルの分類(通常とluadとlscc:平均精度$91.2$$$$$\pm$$$2.5\%$)で、外部テストデータ(tcga)で平均精度$82.3$$$$$\pm$$$$1.0\%$で一貫して高い性能を達成しました。 また,graphcamと呼ばれる,クラスラベルに高度に関連付けられた領域を識別するグラフベースのサリエンシーマッピング手法も導入した。 本研究は,WSIレベルの分類において,GTPを解釈可能かつ効果的なディープラーニングフレームワークとして示すものである。

Deep learning is a powerful tool for whole slide image (WSI) analysis. Typically, when performing supervised deep learning, a WSI is divided into small patches, trained and the outcomes are aggregated to estimate disease grade. However, patch-based methods introduce label noise during training by assuming that each patch is independent with the same label as the WSI and neglect overall WSI-level information that is significant in disease grading. Here we present a Graph-Transformer (GT) that fuses a graph-based representation of an WSI and a vision transformer for processing pathology images, called GTP, to predict disease grade. We selected $4,818$ WSIs from the Clinical Proteomic Tumor Analysis Consortium (CPTAC), the National Lung Screening Trial (NLST), and The Cancer Genome Atlas (TCGA), and used GTP to distinguish adenocarcinoma (LUAD) and squamous cell carcinoma (LSCC) from adjacent non-cancerous tissue (normal). First, using NLST data, we developed a contrastive learning framework to generate a feature extractor. This allowed us to compute feature vectors of individual WSI patches, which were used to represent the nodes of the graph followed by construction of the GTP framework. Our model trained on the CPTAC data achieved consistently high performance on three-label classification (normal versus LUAD versus LSCC: mean accuracy$= 91.2$ $\pm$ $2.5\%$) based on five-fold cross-validation, and mean accuracy $= 82.3$ $\pm$ $1.0\%$ on external test data (TCGA). We also introduced a graph-based saliency mapping technique, called GraphCAM, that can identify regions that are highly associated with the class label. Our findings demonstrate GTP as an interpretable and effective deep learning framework for WSI-level classification.
翻訳日:2022-05-20 17:28:40 公開日:2022-05-19
# (参考訳) ラフ集合のカテゴリについての一考察

A Note on Categories about Rough Sets ( http://arxiv.org/abs/2205.09672v1 )

ライセンス: CC BY 4.0
Y.R. Syau, E.B. Lin, and C.J. Liau(参考訳) 圏と関手の概念を用いて、圏 ${\bf AprS}$ の近似空間と関係保存関数、圏 ${\bf RCls}$ の粗閉空間と連続函数、圏 ${\bf RInt}$ の荒内空間と連続函数の内在的性質をいくつかの洞察と証明を与える。 さらに、情報システムと O-A-D 準同型を${\bf IS}$ と${\bf AprS}$ をサブカテゴリとして定義し、その対象が情報システムであり、矢印が従属属性写像を持つ非指数的 O-A-D 準同型であるような ${\bf NeIS}$ を考慮すれば、${\bf AprS}$ と ${\bf AprS}$ の関係を確立する。

Using the concepts of category and functor, we provide some insights and prove an intrinsic property of the category ${\bf AprS}$ of approximation spaces and relation-preserving functions, the category ${\bf RCls}$ of rough closure spaces and continuous functions, and the category ${\bf RInt}$ of rough interior spaces and continuous functions. Furthermore, we define the category ${\bf IS}$ of information systems and O-A-D homomorphisms, and establish the relationship between the category ${\bf IS}$ and the category ${\bf AprS}$ by considering a subcategory ${\bf NeIS}$ of ${\bf IS}$ whose objects are information systems and whose arrows are non-expensive O-A-D homomorphisms with surjective attribute mappings.
翻訳日:2022-05-20 17:05:21 公開日:2022-05-19
# (参考訳) レコメンダシステムにおけるメトリクス学習による専門的悪意のあるユーザの検出

Detect Professional Malicious User with Metric Learning in Recommender Systems ( http://arxiv.org/abs/2205.09673v1 )

ライセンス: CC BY 4.0
Yuanbo Xu, Yongjian Yang, En Wang, Fuzhen Zhuang, Hui Xiong(参考訳) 電子商取引では、オンライン小売業者は通常プロの悪意のあるユーザー(PMU)に悩まされている。 具体的には、PMU検出には3つの課題がある。 1)プロの悪意のあるユーザーは、異常な、または違法なやりとりは行わず(否定的なレビューと低い評価を同時に残すことは決してない)、偽装するためのマスキング戦略を行う。 したがって、従来の異常検出方法はマスキング戦略によって混乱する。 2) PMU検出モデルでは, 評価とレビューの両方を考慮し, マルチモーダル問題としてPMU検出を行う。 3) プロの悪意のあるユーザを対象としたラベル付きデータセットは公開されていないため, PMU検出は教師なし学習の問題となる。 この目的のために,マルチモーダル学習モデルmmdを提案する。mmdは,評価とレビューの両面で,プロフェッショナルな悪意のあるユーザ検出にメトリック学習を用いる。 MMDはまず、修正されたRNNを使用して、情報レビューを感情スコアに投影し、評価とレビューを共同で検討する。 次に、感情スコアとレーティングの感情ギャップを捉えるために、プロの悪意のあるユーザプロファイル(MUP)を提案する。 MUPはユーザをフィルタリングし、候補のPMUセットを構築する。 pmu検出のための適切なメトリックマトリックスを学ぶために、メトリック学習ベースのクラスタリングを適用する。 最後に、この測定値とラベル付きユーザを用いてPMUを検出する。 具体的には,距離学習における注意機構をモデルの性能向上に適用する。 4つのデータセットにおける広範な実験により,提案手法は教師なし検出問題を解くことができることを示した。 さらに,MDDを前処理段階とすることで,最先端のレコメンデータモデルの性能を向上させる。

In e-commerce, online retailers are usually suffering from professional malicious users (PMUs), who utilize negative reviews and low ratings to their consumed products on purpose to threaten the retailers for illegal profits. Specifically, there are three challenges for PMU detection: 1) professional malicious users do not conduct any abnormal or illegal interactions (they never concurrently leave too many negative reviews and low ratings at the same time), and they conduct masking strategies to disguise themselves. Therefore, conventional outlier detection methods are confused by their masking strategies. 2) the PMU detection model should take both ratings and reviews into consideration, which makes PMU detection a multi-modal problem. 3) there are no datasets with labels for professional malicious users in public, which makes PMU detection an unsupervised learning problem. To this end, we propose an unsupervised multi-modal learning model: MMD, which employs Metric learning for professional Malicious users Detection with both ratings and reviews. MMD first utilizes a modified RNN to project the informational review into a sentiment score, which jointly considers the ratings and reviews. Then professional malicious user profiling (MUP) is proposed to catch the sentiment gap between sentiment scores and ratings. MUP filters the users and builds a candidate PMU set. We apply a metric learning-based clustering to learn a proper metric matrix for PMU detection. Finally, we can utilize this metric and labeled users to detect PMUs. Specifically, we apply the attention mechanism in metric learning to improve the model's performance. The extensive experiments in four datasets demonstrate that our proposed method can solve this unsupervised detection problem. Moreover, the performance of the state-of-the-art recommender models is enhanced by taking MMD as a preprocessing stage.
翻訳日:2022-05-20 16:47:46 公開日:2022-05-19
# (参考訳) ArabGlossBERT:WSD用コンテキストグロスペアの細調整BERT

ArabGlossBERT: Fine-Tuning BERT on Context-Gloss Pairs for WSD ( http://arxiv.org/abs/2205.09685v1 )

ライセンス: CC BY 4.0
Moustafa Al-Hajj, Mustafa Jarrar(参考訳) BERTのような事前訓練されたトランスフォーマーモデルを使用することは多くのNLPタスクに有効であることが証明されている。 本稿では,アラビア語単語センス曖昧化(WSD)のためのBERTモデルを微調整する。 我々はWSDタスクを文対二項分類タスクとして扱った。 まず,アラビアオントロジーから抽出したラベル付きアラビア・コンテクスト・グロス対(約167kペア)と,バージット大学で利用可能な大型語彙データベースを構築した。 各ペアはtrueあるいはfalseとラベル付けされ、各コンテキスト内のターゲットワードが識別され、注釈付けされた。 次に、このデータセットを用いて、事前訓練された3つのアラビアBERTモデルを微調整した。 第3に,対象単語の文脈強調に用いた教師あり信号の使用実験を行った。 実験では有望な結果(精度84%)を得たが,実験では多数の感覚を用いた。

Using pre-trained transformer models such as BERT has proven to be effective in many NLP tasks. This paper presents our work to fine-tune BERT models for Arabic Word Sense Disambiguation (WSD). We treated the WSD task as a sentence-pair binary classification task. First, we constructed a dataset of labeled Arabic context-gloss pairs (~167k pairs) we extracted from the Arabic Ontology and the large lexicographic database available at Birzeit University. Each pair was labeled as True or False and target words in each context were identified and annotated. Second, we used this dataset for fine-tuning three pre-trained Arabic BERT models. Third, we experimented the use of different supervised signals used to emphasize target words in context. Our experiments achieved promising results (accuracy of 84%) although we used a large set of senses in the experiment.
翻訳日:2022-05-20 16:18:19 公開日:2022-05-19
# (参考訳) PLAID: 遅延インタラクション検索のための効率的なエンジン

PLAID: An Efficient Engine for Late Interaction Retrieval ( http://arxiv.org/abs/2205.09707v1 )

ライセンス: CC BY 4.0
Keshav Santhanam, Omar Khattab, Christopher Potts, Matei Zaharia(参考訳) 事前学習された言語モデルは、複数の情報検索(ir)パラダイムにおいて、ますます重要なコンポーネントである。 ColBERTモデルで導入され、最近ColBERTv2で改良された後期インタラクションは、多くのベンチマークで最先端のステータスを保持する一般的なパラダイムである。 遅延インタラクションの検索レイテンシを劇的に高速化するために,plaid(performance-optimized late interaction driver)を導入する。 PLAIDは、品質に影響を与えずに、全ての通路を軽量なセントロイド袋として扱う、新しいセントロイド相互作用機構を用いて、素早く低スコアの通路を除去する。 PLAIDは、Centroidインタラクションだけでなく、Centroidプルーニング(Centroid pruning)も使用しています。これは、高度に最適化されたエンジン内で、遅延インタラクション検索のレイテンシをGPU上で最大7$\times$、バニラColBERTv2に対してCPU上で45$\times$に削減します。 これにより、corbertv2を搭載した格子縞エンジンは、gpu上で数十ミリ秒、大規模なcpuで数十ミリ秒、あるいは数百ミリ秒のレイテンシを実現することができます。

Pre-trained language models are increasingly important components across multiple information retrieval (IR) paradigms. Late interaction, introduced with the ColBERT model and recently refined in ColBERTv2, is a popular paradigm that holds state-of-the-art status across many benchmarks. To dramatically speed up the search latency of late interaction, we introduce the Performance-optimized Late Interaction Driver (PLAID). Without impacting quality, PLAID swiftly eliminates low-scoring passages using a novel centroid interaction mechanism that treats every passage as a lightweight bag of centroids. PLAID uses centroid interaction as well as centroid pruning, a mechanism for sparsifying the bag of centroids, within a highly-optimized engine to reduce late interaction search latency by up to 7$\times$ on a GPU and 45$\times$ on a CPU against vanilla ColBERTv2, while continuing to deliver state-of-the-art retrieval quality. This allows the PLAID engine with ColBERTv2 to achieve latency of tens of milliseconds on a GPU and tens or just few hundreds of milliseconds on a CPU at large scale, even at the largest scales we evaluate with 140M passages.
翻訳日:2022-05-20 15:48:51 公開日:2022-05-19
# (参考訳) HyperAid: ツリーフィッティングと階層クラスタリングのための双曲空間のDenoising

HyperAid: Denoising in hyperbolic spaces for tree-fitting and hierarchical clustering ( http://arxiv.org/abs/2205.09721v1 )

ライセンス: CC BY 4.0
Eli Chien, Puoya Tabaghi, Olgica Milenkovic(参考訳) 木量測定による適合距離の問題は、自然言語処理、系統学、癌ゲノム学、階層的クラスタリングを含む無数の問題領域に多くの応用があるため、理論的コンピュータ科学や機械学習のコミュニティでも注目されている。 ツリーメトリック制約に本質的に従属するデータのツリーメトリックフィッティングに関する実証可能なアルゴリズムはいくつか存在するが、構造が木と適度に(あるいは実質的に)異なるデータに対してツリーメトリックを最適に適合させる方法については、あまり知られていない。 このようなノイズの多いデータに対して、ほとんどのアルゴリズムは性能が悪く、しばしば代表木に負のエッジ重みを生じる。 また、現在、ノイズフィッティングの最も適した近似目標を選定する方法は分かっていない。 私たちの貢献は以下の通りです。 まず、Gromov の $\delta$ hyperbolicity の観点から評価すると、元のデータを `more'' 木のようなデータに変換するハイパーボリック空間におけるツリーメトリック・デノーミング(HyperAid)の新しいアプローチを提案する。 第2に,近似目標に対する2つの選択,$\ell_p$ノルム,Dasgupta損失に関するアブレーション研究を行った。 第三に、HyperAidと非負のエッジウェイトを強制するスキームを統合する。 その結果、HyperAidプラットフォームは、NJ(Neighbor Joining)、TreeRep、T-REXといった、合成データと実世界のデータの両方において、他の既存の手法よりも優れています。 合成データはエッジ表示木と最短距離メトリクスで表現され、現実世界のデータセットにはzoo, iris, glass, segmentation, spambaseがある。

The problem of fitting distances by tree-metrics has received significant attention in the theoretical computer science and machine learning communities alike, due to many applications in natural language processing, phylogeny, cancer genomics and a myriad of problem areas that involve hierarchical clustering. Despite the existence of several provably exact algorithms for tree-metric fitting of data that inherently obeys tree-metric constraints, much less is known about how to best fit tree-metrics for data whose structure moderately (or substantially) differs from a tree. For such noisy data, most available algorithms perform poorly and often produce negative edge weights in representative trees. Furthermore, it is currently not known how to choose the most suitable approximation objective for noisy fitting. Our contributions are as follows. First, we propose a new approach to tree-metric denoising (HyperAid) in hyperbolic spaces which transforms the original data into data that is ``more'' tree-like, when evaluated in terms of Gromov's $\delta$ hyperbolicity. Second, we perform an ablation study involving two choices for the approximation objective, $\ell_p$ norms and the Dasgupta loss. Third, we integrate HyperAid with schemes for enforcing nonnegative edge-weights. As a result, the HyperAid platform outperforms all other existing methods in the literature, including Neighbor Joining (NJ), TreeRep and T-REX, both on synthetic and real-world data. Synthetic data is represented by edge-augmented trees and shortest-distance metrics while the real-world datasets include Zoo, Iris, Glass, Segmentation and SpamBase; on these datasets, the average improvement with respect to NJ is $125.94\%$.
翻訳日:2022-05-20 15:28:36 公開日:2022-05-19
# (参考訳) Light in the Black: COVID-19 CTのセマンティックセグメンテーションのためのデータ拡張手法の評価

Light In The Black: An Evaluation of Data Augmentation Techniques for COVID-19 CT's Semantic Segmentation ( http://arxiv.org/abs/2205.09722v1 )

ライセンス: CC BY 4.0
Bruno A. Krinski, Daniel V. Ruiz, and Eduardo Todt(参考訳) 新型コロナウイルスの世界的なパンデミックにより、医療画像のコンピュータ支援診断が注目され、CT(Semantic Segmentation of Computed Tomography)の堅牢な手法が好まれるようになった。 ctのセマンティクスセグメンテーションは、covid-19の自動検出の多くの研究分野の1つであり、covid-19の流行以来広く研究されてきた。 本研究では,この問題に対するエンコーダ・デコーダニューラルネットワークのトレーニングを,異なるデータ拡張手法がいかに改善するかを広範囲に分析する。 20種類の異なるデータ拡張手法を5つのデータセットで評価した。 各データセットは5倍のクロスバリデーション戦略によって検証され、3000以上の実験が行われた。 この結果から,空間レベルの変換はニューラルネットワークの学習を改善する上で最も有望であることが示唆された。

With the COVID-19 global pandemic, computer-assisted diagnoses of medical images have gained much attention, and robust methods of Semantic Segmentation of Computed Tomography (CT) became highly desirable. Semantic Segmentation of CT is one of many research fields of automatic detection of COVID-19 and has been widely explored since the COVID-19 outbreak. In this work, we propose an extensive analysis of how different data augmentation techniques improve the training of encoder-decoder neural networks on this problem. Twenty different data augmentation techniques were evaluated on five different datasets. Each dataset was validated through a five-fold cross-validation strategy, thus resulting in over 3,000 experiments. Our findings show that spatial level transformations are the most promising to improve the learning of neural networks on this problem.
翻訳日:2022-05-20 15:09:22 公開日:2022-05-19
# ビジネス分析におけるディープラーニング - 期待と現実の衝突

Deep Learning in Business Analytics: A Clash of Expectations and Reality ( http://arxiv.org/abs/2205.09337v1 )

ライセンス: Link先を確認
Marc Andreas Schmitt(参考訳) 我々の急成長したデジタル経済は、グローバルな競争によって形成され、人工知能(AI)と機械学習(ML)に基づくデータ駆動型意思決定の強化が必要です。 ディープラーニング(DL)の利点は多様体ですが、業界が広く採用されるのを妨げている制限が伴っています。 本稿では、DLの人気にもかかわらず、なぜビジネス分析におけるDLの採用を加速させるのかを説明する。 ディープラーニングの採用は、計算の複雑さ、ビッグデータアーキテクチャの欠如、透明性の欠如(ブラックボックス)、スキル不足などの影響を受けているだけでなく、固定長特徴ベクトルを持つ構造化データセットの場合、dlが従来のmlモデルに勝らないという事実からも影響を受けている。 ディープラーニングは、すべてのソリューションに適した1つのサイズではなく、既存のmlモデル本体への強力な追加と見なされるべきである。

Our fast-paced digital economy shaped by global competition requires increased data-driven decision-making based on artificial intelligence (AI) and machine learning (ML). The benefits of deep learning (DL) are manifold, but it comes with limitations that have - so far - interfered with widespread industry adoption. This paper explains why DL - despite its popularity - has difficulties speeding up its adoption within business analytics. It is shown - by a mixture of content analysis and empirical study - that the adoption of deep learning is not only affected by computational complexity, lacking big data architecture, lack of transparency (black-box), and skill shortage, but also by the fact that DL does not outperform traditional ML models in the case of structured datasets with fixed-length feature vectors. Deep learning should be regarded as a powerful addition to the existing body of ML models instead of a one size fits all solution.
翻訳日:2022-05-20 14:53:59 公開日:2022-05-19
# 深層学習を用いたシュリンガー方程式の金標準解:どのくらいの物理学が必要か?

Gold-standard solutions to the Schr\"odinger equation using deep learning: How much physics do we need? ( http://arxiv.org/abs/2205.09438v1 )

ライセンス: Link先を確認
Leon Gerard, Michael Scherbela, Philipp Marquetand, Philipp Grohs(参考訳) Schr\'odinger方程式の正確な解を見つけることは、計算化学の重要な未解決問題である。 新しい化合物の開発において重要なことを考えると、何十年もの研究がこの問題に注がれてきたが、最も有効な方法でさえも望まれる精度に達していない。 近年,モンテカルロ法と深層学習の組み合わせが,高精度なエネルギーと計算コストの適度なスケーリングを実現するための有望な方法として出現している。 本稿では,従来の8倍の計算コストで40~70%のエネルギーエラーを実現する新しいディープラーニングアーキテクチャを導入することで,この目標に大きく貢献する。 提案手法を用いて,多数の異なる原子および分子に対して発行された最も正確な変動基底エネルギーを計算することにより,新しいベンチマークを確立する。 身体的事前知識の増大の影響に特に焦点をあてて、系統的に改善を分解し、測定する。 アーキテクチャに与えられた事前知識の増加は、実際に精度を低下させる可能性がある。

Finding accurate solutions to the Schr\"odinger equation is the key unsolved challenge of computational chemistry. Given its importance for the development of new chemical compounds, decades of research have been dedicated to this problem, but due to the large dimensionality even the best available methods do not yet reach the desired accuracy. Recently the combination of deep learning with Monte Carlo methods has emerged as a promising way to obtain highly accurate energies and moderate scaling of computational cost. In this paper we significantly contribute towards this goal by introducing a novel deep-learning architecture that achieves 40-70% lower energy error at 8x lower computational cost compared to previous approaches. Using our method we establish a new benchmark by calculating the most accurate variational ground state energies ever published for a number of different atoms and molecules. We systematically break down and measure our improvements, focusing in particular on the effect of increasing physical prior knowledge. We surprisingly find that increasing the prior knowledge given to the architecture can actually decrease accuracy.
翻訳日:2022-05-20 14:53:43 公開日:2022-05-19
# 実ネットワークと実負荷の学習に基づくac-opfソルバ

Learning-based AC-OPF Solvers on Realistic Network and Realistic Loads ( http://arxiv.org/abs/2205.09452v1 )

ライセンス: Link先を確認
Tsun Ho Aaron Cheung, Min Zhou, Minghua Chen(参考訳) 近年,交流電流最適潮流(AC-OPF)問題に対するディープラーニングアプローチが活発に研究されている。 この領域における一般的な欠点は、現実的なパワーネットワークトポロジーと対応する現実的な負荷の両方を含むデータセットの欠如である。 この問題に対処するため,タスマニアの電気ネットワークから,現実的なネットワーク情報と現実的なバス負荷を含むAC-OPF定式化対応データセットTAS-97を構築した。 その結果,タスマニアの現実的な負荷はバス間で相関し,多変量正規分布の徴候を示すことがわかった。 フェーザビリティ最適化されたエンドツーエンドのディープニューラルネットワークモデルをトレーニングし、構築されたデータセット上でテストする。 適応多変量正規分布から発生するバス負荷のサンプルに基づいて,本学習用AC-OPFソルバは,PYPOWERと比較した場合の実測試験において,0.13%のコスト最適性ギャップ,99.73%の実現率,38.62倍のスピードアップを達成した。

Deep learning approaches for the Alternating Current-Optimal Power Flow (AC-OPF) problem are under active research in recent years. A common shortcoming in this area of research is the lack of a dataset that includes both a realistic power network topology and the corresponding realistic loads. To address this issue, we construct an AC-OPF formulation-ready dataset called TAS-97 that contains realistic network information and realistic bus loads from Tasmania's electricity network. We found that the realistic loads in Tasmania are correlated between buses and they show signs of an underlying multivariate normal distribution. Feasibility-optimized end-to-end deep neural network models are trained and tested on the constructed dataset. Trained on samples with bus loads generated from a fitted multivariate normal distribution, our learning-based AC-OPF solver achieves 0.13% cost optimality gap, 99.73% feasibility rate, and 38.62 times of speedup on realistic testing samples when compared to PYPOWER.
翻訳日:2022-05-20 14:53:24 公開日:2022-05-19
# 強化学習のためのレーザーカオスに基づく並列帯域アーキテクチャ

Parallel bandit architecture based on laser chaos for reinforcement learning ( http://arxiv.org/abs/2205.09543v1 )

ライセンス: Link先を確認
Takashi Urushibara, Nicolas Chauvet, Satoshi Kochi, Satoshi Sunada, Kazutaka Kanno, Atsushi Uchida, Ryoichi Horisaki, Makoto Naruse(参考訳) フォトニクスによる人工知能の加速は、光子のユニークな性質を利用するための活発な研究分野である。 強化学習は機械学習の重要な分野であり、多武装バンディット問題に関してフォトニックな意思決定原則が実証されている。 しかし、強化学習には大量の州が含まれる可能性があるが、以前に実証されたバンディット問題とは異なり、州の数は1つに過ぎない。 q-learningは強化学習においてよく知られたアプローチであり、多くの状態を扱うことができる。 しかしながら、q-learningのアーキテクチャは、更新ルールとアクション選択の分離のため、フォトニック実装には適していない。 本研究では,多状態強化学習のための新しいアーキテクチャを,フォトニック決定器の恩恵を受けるために,並列化バンディット問題として整理し,これを並列化バンディットアーキテクチャ( parallel bandit architecture for reinforcement learning, PBRL)と呼ぶ。 カートポールバランス問題を例として、PBRLがQラーニングよりも少ない時間ステップで環境に適応できることを実証する。 さらに、PBRLは、レーザーカオスに固有の自己相関が正の効果をもたらす均一に分散された擬似ランダム数の場合よりも、カオスレーザー時系列で操作するとより高速に適応する。 また,学習段階においてシステムが行う様々な状態は,pbrlとq-learningとは全く異なる性質を示すことがわかった。 本研究により得られた知見は,PBRLアルゴリズムと相関ランダムシーケンスによる性能向上において,フォトニックな実現だけでなく,既存のコンピューティングプラットフォームにも有用である。

Accelerating artificial intelligence by photonics is an active field of study aiming to exploit the unique properties of photons. Reinforcement learning is an important branch of machine learning, and photonic decision-making principles have been demonstrated with respect to the multi-armed bandit problems. However, reinforcement learning could involve a massive number of states, unlike previously demonstrated bandit problems where the number of states is only one. Q-learning is a well-known approach in reinforcement learning that can deal with many states. The architecture of Q-learning, however, does not fit well photonic implementations due to its separation of update rule and the action selection. In this study, we organize a new architecture for multi-state reinforcement learning as a parallel array of bandit problems in order to benefit from photonic decision-makers, which we call parallel bandit architecture for reinforcement learning or PBRL in short. Taking a cart-pole balancing problem as an instance, we demonstrate that PBRL adapts to the environment in fewer time steps than Q-learning. Furthermore, PBRL yields faster adaptation when operated with a chaotic laser time series than the case with uniformly distributed pseudorandom numbers where the autocorrelation inherent in the laser chaos provides a positive effect. We also find that the variety of states that the system undergoes during the learning phase exhibits completely different properties between PBRL and Q-learning. The insights obtained through the present study are also beneficial for existing computing platforms, not just photonic realizations, in accelerating performances by the PBRL algorithms and correlated random sequences.
翻訳日:2022-05-20 14:52:48 公開日:2022-05-19
# odbo: 検索空間によるタンパク質進化の事前スクリーニングによるベイズ最適化

ODBO: Bayesian Optimization with Search Space Prescreening for Directed Protein Evolution ( http://arxiv.org/abs/2205.09548v1 )

ライセンス: Link先を確認
Lixue Cheng, Ziyi Yang, Benben Liao, Changyu Hsieh, Shengyu Zhang(参考訳) ダイレクト進化(Directed Evolution)は、タンパク質工学において、触媒活性や特定の標的への親和性などの特定の性質を最適化する配列を探索するために、変異原性とスクリーニングを反復的に交互に交互に交互に行うことによって、自然選択の過程を模倣する多用途技術である。 しかし、可能なタンパク質の空間は実験室で徹底的に探索するには大きすぎるため、機能的なタンパク質は広大な配列空間では不足している。 機械学習(ml)アプローチは、基礎となる物理、化学、生物学的経路の詳細なモデルを構築することなく、タンパク質の配列を機能にマッピングすることで、方向付けられた進化を加速することができる。 これらのml手法が持つ大きな可能性にもかかわらず、ターゲット関数に最適なシーケンスを特定する上での厳しい課題に直面する。 これらの失敗は、タンパク質配列の高次元的特徴表現と非効率的な探索法を採用するという一般的な実践によるものと考えられる。 これらの課題に対処するために,新規な低次元タンパク質エンコーディング戦略と,検索空間事前スクリーニングによるベイズ最適化を併用した,タンパク質指向進化のための効率的な設計指向クローズループ最適化フレームワークODBOを提案する。 さらに,MLモデルをトレーニングするための実験サンプル数を最小化するために,初期サンプル選択戦略を設計する。 本研究は, タンパク質指向進化実験を4回実施し, 興味のある変異を見出すためのフレームワークの能力を実証した。 ODBOフレームワークは、指向する進化の実験的コストと時間的コストを大幅に削減し、より広い文脈で適応的な実験設計のための強力なツールとしてさらに一般化できることを期待している。

Directed evolution is a versatile technique in protein engineering that mimics the process of natural selection by iteratively alternating between mutagenesis and screening in order to search for sequences that optimize a given property of interest, such as catalytic activity and binding affinity to a specified target. However, the space of possible proteins is too large to search exhaustively in the laboratory, and functional proteins are scarce in the vast sequence space. Machine learning (ML) approaches can accelerate directed evolution by learning to map protein sequences to functions without building a detailed model of the underlying physics, chemistry and biological pathways. Despite the great potentials held by these ML methods, they encounter severe challenges in identifying the most suitable sequences for a targeted function. These failures can be attributed to the common practice of adopting a high-dimensional feature representation for protein sequences and inefficient search methods. To address these issues, we propose an efficient, experimental design-oriented closed-loop optimization framework for protein directed evolution, termed ODBO, which employs a combination of novel low-dimensional protein encoding strategy and Bayesian optimization enhanced with search space prescreening via outlier detection. We further design an initial sample selection strategy to minimize the number of experimental samples for training ML models. We conduct and report four protein directed evolution experiments that substantiate the capability of the proposed framework for finding of the variants with properties of interest. We expect the ODBO framework to greatly reduce the experimental cost and time cost of directed evolution, and can be further generalized as a powerful tool for adaptive experimental design in a broader context.
翻訳日:2022-05-20 14:52:24 公開日:2022-05-19
# 畳み込み混合から学習するグラフ構造

Learning Graph Structure from Convolutional Mixtures ( http://arxiv.org/abs/2205.09575v1 )

ライセンス: Link先を確認
Max Wasserman, Saurabh Sihag, Gonzalo Mateos, Alejandro Ribeiro(参考訳) グラフニューラルネットワークのような機械学習フレームワークは、通常、リレーショナルインダクティブバイアスを活用し、ネットワークデータから効果的に学習するために、所定の固定グラフに依存している。 しかし、そのようなグラフが(部分的に)観測できない、騒がしい、あるいは動的である場合、データからグラフ構造を推論する問題は関係する。 本稿では,観測されたグラフと潜在グラフのグラフ畳み込み関係を仮定し,グラフ学習タスクをネットワーク逆(デ畳み込み)問題として定式化する。 固有分解に基づくスペクトル法や反復最適化法の代わりに、近似勾配の反復をアンロール・トランケートして、グラフデコンボリューションネットワーク(GDN)と呼ばれるパラメータ化ニューラルネットワークアーキテクチャに到達させる。 gdnsは教師ありの方法でグラフの分布を学習し、損失関数を適用してリンク予測やエッジウェイト回帰タスクを実行し、本質的に帰納的である。 我々は,GDNの優れたグラフ回復性能と,教師付き設定における合成データを用いた大規模グラフへの一般化を相関づける。 さらに、実世界のニューロイメージングとソーシャルネットワークデータセットにおけるGDNの堅牢性と表現力を示す。

Machine learning frameworks such as graph neural networks typically rely on a given, fixed graph to exploit relational inductive biases and thus effectively learn from network data. However, when said graphs are (partially) unobserved, noisy, or dynamic, the problem of inferring graph structure from data becomes relevant. In this paper, we postulate a graph convolutional relationship between the observed and latent graphs, and formulate the graph learning task as a network inverse (deconvolution) problem. In lieu of eigendecomposition-based spectral methods or iterative optimization solutions, we unroll and truncate proximal gradient iterations to arrive at a parameterized neural network architecture that we call a Graph Deconvolution Network (GDN). GDNs can learn a distribution of graphs in a supervised fashion, perform link prediction or edge-weight regression tasks by adapting the loss function, and they are inherently inductive. We corroborate GDN's superior graph recovery performance and its generalization to larger graphs using synthetic data in supervised settings. Furthermore, we demonstrate the robustness and representation power of GDNs on real world neuroimaging and social network datasets.
翻訳日:2022-05-20 14:50:47 公開日:2022-05-19
# 確率予測のための校正指標

Metrics of calibration for probabilistic predictions ( http://arxiv.org/abs/2205.09680v1 )

ライセンス: Link先を確認
Imanol Arrieta-Ibarra, Paman Gujral, Jonathan Tannen, Mark Tygert, and Cherie Xu(参考訳) 例えば、明日の降水は予測できるが、30%の確率で予測できる。 このような確率的予測と実際の結果が与えられた場合、「信頼性図」は、予測と結果の間の統計的に重要な相違(いわゆる「ミススキャリブレーション」)を検出し、診断するのに役立つ。 標準的信頼性図ヒストグラム 予測の観測値と予測値、ハードヒストグラムのバイナリー化をソフトカーネル密度推定に置き換えることも一般的である。 しかし、どの幅のビンやカーネルが最善か? 観測値と期待値の累積差のプロットは、グラフのセカント線の傾斜線として誤校正を直接表示することにより、この問題を回避する。 スロープは、セカントラインの定数オフセットが無関係であっても、定量的な精度で容易に認識でき、バイナリやカーネル密度の推定は不要である。 既存の標準の誤校正メトリクスはそれぞれ、信頼性図を単一のスカラー統計量として要約している。 累積プロットは自然にゼロから外れた累積差のグラフの偏差に対するスカラーメトリックにつながり、良質なキャリブレーションはゼロからほとんどずれない水平な平坦グラフに対応する。 累積的アプローチは、現在非古典的であるが、厳密な証明と図解的な数値例を背景とした数学的理論によって保証される多くの好ましい統計的性質を提供する。 特に、バイナリやカーネル密度の推定に基づく指標は、予測確率の関数として変動を解決する能力について統計的な自信をトレードオフする必要がある。 ビンやカーネルを拡大すると、ランダムノイズを除去し、解決するパワーを諦める。 ビンやカーネルを狭めることで、ノイズを平均化することなく、解決力を高めることができる。

Predictions are often probabilities; e.g., a prediction could be for precipitation tomorrow, but with only a 30% chance. Given such probabilistic predictions together with the actual outcomes, "reliability diagrams" help detect and diagnose statistically significant discrepancies -- so-called "miscalibration" -- between the predictions and the outcomes. The canonical reliability diagrams histogram the observed and expected values of the predictions; replacing the hard histogram binning with soft kernel density estimation is another common practice. But, which widths of bins or kernels are best? Plots of the cumulative differences between the observed and expected values largely avoid this question, by displaying miscalibration directly as the slopes of secant lines for the graphs. Slope is easy to perceive with quantitative precision, even when the constant offsets of the secant lines are irrelevant; there is no need to bin or perform kernel density estimation. The existing standard metrics of miscalibration each summarize a reliability diagram as a single scalar statistic. The cumulative plots naturally lead to scalar metrics for the deviation of the graph of cumulative differences away from zero; good calibration corresponds to a horizontal, flat graph which deviates little from zero. The cumulative approach is currently unconventional, yet offers many favorable statistical properties, guaranteed via mathematical theory backed by rigorous proofs and illustrative numerical examples. In particular, metrics based on binning or kernel density estimation unavoidably must trade-off statistical confidence for the ability to resolve variations as a function of the predicted probability or vice versa. Widening the bins or kernels averages away random noise while giving up some resolving power. Narrowing the bins or kernels enhances resolving power while not averaging away as much noise.
翻訳日:2022-05-20 14:50:28 公開日:2022-05-19
# 一般位相図の同定のためのニューラルネットワークトポロジカルスネークモデル

Neural network topological snake models for locating general phase diagrams ( http://arxiv.org/abs/2205.09699v1 )

ライセンス: Link先を確認
Wanzhou Zhang, Huijiong Yang, and Nan Wu(参考訳) 位相図の配置のための機械学習は近年、大きな研究関心を集めている。 しかし、位相図の自動配置への応用は、単一の閉位相境界に限られる。 本稿では,複数の位相と複雑な境界を持つ位相図を求めるため,本論文で紹介する。 (i)網型蛇型モデルと (ii) 識別協調ネットワークを有するトポロジカル変換可能なヘビ。 量子および古典スピン-1モデルの相図を得る。 本手法は冷間原子や他の実験から構成のスナップショットのみを用いて位相図を決定することができる。

Machine learning for locating phase diagram has received intensive research interest in recent years. However, its application in automatically locating phase diagram is limited to single closed phase boundary. In this paper, in order to locate phase diagrams with multiple phases and complex boundaries, we introduce (i) a network-shaped snake model and (ii) a topologically transformable snake with discriminative cooperative networks, respectively. The phase diagrams of both quantum and classical spin-1 model are obtained. Our method is flexible to determine the phase diagram with just snapshots of configurations from the cold-atom or other experiments.
翻訳日:2022-05-20 14:49:56 公開日:2022-05-19
# 並列および分散グラフニューラルネットワーク: 詳細な並列処理解析

Parallel and Distributed Graph Neural Networks: An In-Depth Concurrency Analysis ( http://arxiv.org/abs/2205.09702v1 )

ライセンス: Link先を確認
Maciej Besta, Torsten Hoefler(参考訳) グラフニューラルネットワーク(GNN)は、ディープラーニングにおいて最も強力なツールのひとつだ。 ノード分類、グラフ分類、リンク予測といった非構造化ネットワーク上の複雑な問題を、精度良く日常的に解決する。 しかし、GNNの推論と訓練は複雑であり、不規則なグラフ処理の特徴と密度計算と正規計算を一意に組み合わせている。 この複雑さにより、現代の大規模並列アーキテクチャ上でのGNNの効率的な実行が非常に困難になる。 これを緩和するために、まず、データとモデル並列性、および異なる形式のパイプライニングを考慮して、GNNにおける並列性の分類を設計する。 そして、この分類法を用いて、多数のGNNモデル、GNN駆動機械学習タスク、ソフトウェアフレームワーク、ハードウェアアクセラレーターにおける並列性の量を調べる。 作業深度モデルを用いて通信量と同期性を評価する。 特に,ベクトル化などの手法を効果的に適用する方法を理解するために,関連するテンソルのスパーシティ/密度に着目した。 我々はまた、GNNパイプラインのパイプライン化を公式に分析し、GNNモデルの確立されたメッセージパッシングクラスを任意のパイプライン深さをカバーするために一般化し、将来の最適化を容易にする。 最後に,非同期並列GNNパイプラインの経路をナビゲートする,様々な非同期性について検討する。 分析の結果は、GNNの性能を最大化するための一連の洞察と、効率的なGNN計算のさらなる研究のための課題と機会の包括的リストで合成される。 我々の仕事は将来のGNNの設計を前進させるのに役立ちます。

Graph neural networks (GNNs) are among the most powerful tools in deep learning. They routinely solve complex problems on unstructured networks, such as node classification, graph classification, or link prediction, with high accuracy. However, both inference and training of GNNs are complex, and they uniquely combine the features of irregular graph processing with dense and regular computations. This complexity makes it very challenging to execute GNNs efficiently on modern massively parallel architectures. To alleviate this, we first design a taxonomy of parallelism in GNNs, considering data and model parallelism, and different forms of pipelining. Then, we use this taxonomy to investigate the amount of parallelism in numerous GNN models, GNN-driven machine learning tasks, software frameworks, or hardware accelerators. We use the work-depth model, and we also assess communication volume and synchronization. We specifically focus on the sparsity/density of the associated tensors, in order to understand how to effectively apply techniques such as vectorization. We also formally analyze GNN pipelining, and we generalize the established Message-Passing class of GNN models to cover arbitrary pipeline depths, facilitating future optimizations. Finally, we investigate different forms of asynchronicity, navigating the path for future asynchronous parallel GNN pipelines. The outcomes of our analysis are synthesized in a set of insights that help to maximize GNN performance, and a comprehensive list of challenges and opportunities for further research into efficient GNN computations. Our work will help to advance the design of future GNNs.
翻訳日:2022-05-20 14:49:48 公開日:2022-05-19
# マルチモーダル学習によるオンラインコンテンツ分類における言語格差の克服

Overcoming Language Disparity in Online Content Classification with Multimodal Learning ( http://arxiv.org/abs/2205.09744v1 )

ライセンス: Link先を確認
Gaurav Verma, Rohit Mujumdar, Zijie J. Wang, Munmun De Choudhury, Srijan Kumar(参考訳) 自然言語処理(NLP)の進歩は、研究者や実践者が重要な社会問題に対処する方法に革命をもたらした。 大規模言語モデルは、テキスト検出と分類タスクのための最先端ソリューションを開発するための標準となっている。 しかし、先進的な計算技術と資源の発展は英語に不釣り合いに焦点を合わせており、世界の言語の大半を横に並べている。 既存の研究は、英語と非英語の言語格差を橋渡しするために、より優れた多言語言語モデルと単言語言語モデルを開発したが、マルチモーダル機械学習によって画像に含まれる情報を統合するという約束を探求する。 危機情報、偽ニュース、感情認識に焦点をあてた3つの検出課題と5つの高資源非英語言語の比較分析を行った。 (a) BERT や Multilingual-BERT のような事前学習された大規模言語モデルに基づく検出フレームワークは、非英語と比較して、体系的に英語において優れた性能を発揮する。 (b)マルチモーダル学習による画像を含むと、この性能ギャップを橋渡しする。 本稿では,大規模言語モデルの落とし穴に関する既存の研究について考察し,その理論的および実践的意義について考察する。 この論文のリソースはhttps://multimodality-language-disparity.github.io/で入手できる。

Advances in Natural Language Processing (NLP) have revolutionized the way researchers and practitioners address crucial societal problems. Large language models are now the standard to develop state-of-the-art solutions for text detection and classification tasks. However, the development of advanced computational techniques and resources is disproportionately focused on the English language, sidelining a majority of the languages spoken globally. While existing research has developed better multilingual and monolingual language models to bridge this language disparity between English and non-English languages, we explore the promise of incorporating the information contained in images via multimodal machine learning. Our comparative analyses on three detection tasks focusing on crisis information, fake news, and emotion recognition, as well as five high-resource non-English languages, demonstrate that: (a) detection frameworks based on pre-trained large language models like BERT and multilingual-BERT systematically perform better on the English language compared against non-English languages, and (b) including images via multimodal learning bridges this performance gap. We situate our findings with respect to existing work on the pitfalls of large language models, and discuss their theoretical and practical implications. Resources for this paper are available at https://multimodality-language-disparity.github.io/.
翻訳日:2022-05-20 14:49:24 公開日:2022-05-19
# 時系列モデリングを改善するための動的情報の抽出--科学的ワークフローを用いたケーススタディ

Extract Dynamic Information To Improve Time Series Modeling: a Case Study with Scientific Workflow ( http://arxiv.org/abs/2205.09703v1 )

ライセンス: Link先を確認
Jeeyung Kim, Mengtian Jin, Youkow Homma, Alex Sim, Wilko Kroeger, Kesheng Wu(参考訳) 時系列データのモデリングでは、モデリング精度を高めるために、既存のデータレコードを拡張する必要があることが多い。 本研究では,他の種類の応用に一般化可能な,大規模科学ワークフローの現在の状態に関する動的情報を抽出する技術について述べる。 モデル化すべき特定のタスクは、実験施設からデータセンターにファイルを転送するのに必要な時間である。 私たちのアプローチの重要なアイデアは、現在のイベントと何らかの方法で一致する、最近のデータ転送イベントを見つけることです。 テストの結果、記録されたプロパティにマッチする最近のイベントを識別でき、静的な特徴しか持たない類似モデルと比較して予測誤差を約12%削減できることがわかった。 また,データ生成プロセスに関する情報を抽出するアプリケーション固有の手法についても検討し,平均予測誤差を44%削減することができた。

In modeling time series data, we often need to augment the existing data records to increase the modeling accuracy. In this work, we describe a number of techniques to extract dynamic information about the current state of a large scientific workflow, which could be generalized to other types of applications. The specific task to be modeled is the time needed for transferring a file from an experimental facility to a data center. The key idea of our approach is to find recent past data transfer events that match the current event in some ways. Tests showed that we could identify recent events matching some recorded properties and reduce the prediction error by about 12% compared to the similar models with only static features. We additionally explored an application specific technique to extract information about the data production process, and was able to reduce the average prediction error by 44%.
翻訳日:2022-05-20 14:49:02 公開日:2022-05-19
# (参考訳) 深層学習における安定性のエッジにおける勾配降下の理解

Understanding Gradient Descent on Edge of Stability in Deep Learning ( http://arxiv.org/abs/2205.09745v1 )

ライセンス: CC BY 4.0
Sanjeev Arora, Zhiyuan Li, Abhishek Panigrahi(参考訳) Cohen et al. (2021) における、決定論的勾配 Descent (GD) を用いた深層学習実験では、学習率 (LR) と鋭さ (\emph{i.e.}) が従来の最適化ではもはや振る舞わないときの安定性のエッジ (EoS) が明らかにされた。 シャープネスは約2ドル/lrで安定し、損失はイテレーションで上下するが、全体的な下降傾向は続く。 本稿では,eos相における暗黙的正則化の新しいメカニズムを数学的に解析し,最小損失多様体上の決定論的流れに沿ってgd更新が進化することを示す。 これは、無限小更新や勾配のノイズに依存する暗黙のバイアスに関する以前の多くの結果とは対照的である。 形式的には、ある正則性条件の任意の滑らかな函数 $L$ に対して、この効果は (1) {\displaystyle {\em Normalized GD} に対して示される、すなわち、異なる LR $ \eta_t =\frac{ \eta }{|| \nabla L(x(t))|| } $ と損失 $L$; (2) 一定LR と損失 $\sqrt{L}$ に対して示される。 どちらも安定性の辺に到達し、多様体上の関連する流れは$\lambda_{\max}(\nabla^2 l)$ を最小化する。 上記の理論結果は実験的研究によって裏付けられている。

Deep learning experiments in Cohen et al. (2021) using deterministic Gradient Descent (GD) revealed an {\em Edge of Stability (EoS)} phase when learning rate (LR) and sharpness (\emph{i.e.}, the largest eigenvalue of Hessian) no longer behave as in traditional optimization. Sharpness stabilizes around $2/$LR and loss goes up and down across iterations, yet still with an overall downward trend. The current paper mathematically analyzes a new mechanism of implicit regularization in the EoS phase, whereby GD updates due to non-smooth loss landscape turn out to evolve along some deterministic flow on the manifold of minimum loss. This is in contrast to many previous results about implicit bias either relying on infinitesimal updates or noise in gradient. Formally, for any smooth function $L$ with certain regularity condition, this effect is demonstrated for (1) {\em Normalized GD}, i.e., GD with a varying LR $ \eta_t =\frac{ \eta }{ || \nabla L(x(t)) || } $ and loss $L$; (2) GD with constant LR and loss $\sqrt{L}$. Both provably enter the Edge of Stability, with the associated flow on the manifold minimizing $\lambda_{\max}(\nabla^2 L)$. The above theoretical results have been corroborated by an experimental study.
翻訳日:2022-05-20 14:48:06 公開日:2022-05-19
# 誰が先に行く? 臨床画像におけるヒューマンAIワークフローが意思決定に及ぼす影響

Who Goes First? Influences of Human-AI Workflow on Decision Making in Clinical Imaging ( http://arxiv.org/abs/2205.09696v1 )

ライセンス: Link先を確認
Riccardo Fogliato, Shreya Chappidi, Matthew Lungren, Michael Fitzke, Mark Parkinson, Diane Wilson, Paul Fisher, Eric Horvitz, Kori Inkpen, Besmira Nushi(参考訳) 人間とAIのコラボレーションを支援するための設計とメカニズムの詳細は、AI技術の現実のフィールド化において考慮する必要がある。 AI支援による意思決定のためのインタラクション設計の重要な側面は、より大きな意思決定ワークフロー内のAI推論の表示とシークエンシングに関するポリシーである。 診断タスクの人間によるレビューの前後で、AI推論を利用可能にすることの影響について、理解が不十分です。 放射線医学における診断セッションの開始時にAI支援を提供することの効果を,放射線科医が仮決定をした後に比較検討する。 医用放射線科医19名を対象に, 患者のx線画像中のx線像をaiツールを用いて同定した。 2つのワークフロー構成を使って分析しました (i)アンカー効果 (ii)人間-aiチームによる診断成績と合意 三 意思決定に費やした時間及び信頼性 (4)AIの有用性が認められた。 その結果、AI推論をレビューする前に仮回答を登録するよう求められている参加者は、アドバイスが正確かどうかに関わらず、AIに同意する確率が低く、AIと意見の相違がある場合には、同僚の第二の意見を求める確率が低いことがわかった。 これらの参加者はまた、AIアドバイスがあまり役に立たないと報告した。 驚いたことに、ai推論の表示に先立って、ケースの暫定的な決定を要求することは、参加者がタスクに費やす時間を延ばすことはなかった。 この研究は、ヒト・イン・ザ・ループシステムに臨床AIツールを配置するための汎用的で実用的な洞察を提供し、人間とAIのコラボレーションのための代替設計を研究するための方法論を紹介している。 実験プラットフォームをオープンソースとして公開し,代替設計がヒューマン-aiワークフローに与える影響に関する今後の研究を支援します。

Details of the designs and mechanisms in support of human-AI collaboration must be considered in the real-world fielding of AI technologies. A critical aspect of interaction design for AI-assisted human decision making are policies about the display and sequencing of AI inferences within larger decision-making workflows. We have a poor understanding of the influences of making AI inferences available before versus after human review of a diagnostic task at hand. We explore the effects of providing AI assistance at the start of a diagnostic session in radiology versus after the radiologist has made a provisional decision. We conducted a user study where 19 veterinary radiologists identified radiographic findings present in patients' X-ray images, with the aid of an AI tool. We employed two workflow configurations to analyze (i) anchoring effects, (ii) human-AI team diagnostic performance and agreement, (iii) time spent and confidence in decision making, and (iv) perceived usefulness of the AI. We found that participants who are asked to register provisional responses in advance of reviewing AI inferences are less likely to agree with the AI regardless of whether the advice is accurate and, in instances of disagreement with the AI, are less likely to seek the second opinion of a colleague. These participants also reported the AI advice to be less useful. Surprisingly, requiring provisional decisions on cases in advance of the display of AI inferences did not lengthen the time participants spent on the task. The study provides generalizable and actionable insights for the deployment of clinical AI tools in human-in-the-loop systems and introduces a methodology for studying alternative designs for human-AI collaboration. We make our experimental platform available as open source to facilitate future research on the influence of alternate designs on human-AI workflows.
翻訳日:2022-05-20 14:44:56 公開日:2022-05-19
# 多次元関数データに対するロバスト深層ニューラルネットワーク推定

Robust Deep Neural Network Estimation for Multi-dimensional Functional Data ( http://arxiv.org/abs/2205.09604v1 )

ライセンス: Link先を確認
Shuoyang Wang, Guanqun Cao(参考訳) 本稿では,多次元関数データからの位置関数に対するロバスト推定器を提案する。 提案した推定器は、ReLUアクティベーション機能を持つディープニューラルネットワークに基づいている。 一方、推定器は外部からの観測やモデルミスの影響を受けにくい。 多次元関数データに対して,提案するロバスト深層ニューラルネットワーク推定器に対して一様収束率を与える。 シミュレーション研究は、通常のデータに対するロバストなディープニューラルネットワーク推定器の競合性能と、異常を含むデータでの優れた性能を示す。 また,アルツハイマー病ニューロイメージングイニシアチブデータベースから得られたアルツハイマー病患者の2Dおよび3D画像の解析にも応用した。

In this paper, we propose a robust estimator for the location function from multi-dimensional functional data. The proposed estimators are based on the deep neural networks with ReLU activation function. At the meanwhile, the estimators are less susceptible to outlying observations and model-misspecification. For any multi-dimensional functional data, we provide the uniform convergence rates for the proposed robust deep neural networks estimators. Simulation studies illustrate the competitive performance of the robust deep neural network estimators on regular data and their superior performance on data that contain anomalies. The proposed method is also applied to analyze 2D and 3D images of patients with Alzheimer's disease obtained from the Alzheimer Disease Neuroimaging Initiative database.
翻訳日:2022-05-20 14:44:28 公開日:2022-05-19
# 新型コロナウイルスの誤情報を検索するためのグラフに基づくアプローチ

A Weakly-Supervised Iterative Graph-Based Approach to Retrieve COVID-19 Misinformation Topics ( http://arxiv.org/abs/2205.09416v1 )

ライセンス: Link先を確認
Harry Wang and Sharath Chandra Guntuku(参考訳) 新型コロナウイルス(COVID-19)のパンデミックは、ソーシャルメディア全体で正確で不正確な健康情報を収集する「インフォデミック」が伴っている。 動的に変化する情報ランドスケープの中で誤情報を検出することは困難であり、関連するキーワードや投稿を特定することは、投稿の内容や情報源を調べるのに必要な大量の人的労力のために困難である。 我々は,キーワードや話題,誤情報に関連するテーマを検出するために,弱教師付き反復グラフベースのアプローチを導入することで,このプロセスの資源コストを低減し,COVID-19に焦点を当てることを目的としている。 本手法は,いくつかのシードテキストにおいて,一般的な誤情報関連シードワードから特定のトピックを検出できる。 提案手法では,コンテキストベースニューラルネットワークの埋め込みに基づくBERTベースのWord Graph Search(BWGS)アルゴリズムを用いて,誤情報関連投稿の検索を行う。 我々は,BWGSが返送したテキストから誤情報関連テーマを取得するために,LDA(Latent Dirichlet Allocation)トピックモデリングを利用する。 さらに,BERTに基づく多方向単語グラフ検索(BMDWGS)アルゴリズムを提案する。 本手法の質的解析に加えて,BWGSとBMDWGSは,低データリソース設定における共通ベースラインと比較して誤情報関連コンテンツを抽出するのに有効であることを示す。 このようなコンテンツの抽出は、一般的な誤解や懸念を明らかにし、健康行動を改善するための正確な公衆衛生メッセージキャンペーンを促進するのに有用である。

The COVID-19 pandemic has been accompanied by an `infodemic' -- of accurate and inaccurate health information across social media. Detecting misinformation amidst dynamically changing information landscape is challenging; identifying relevant keywords and posts is arduous due to the large amount of human effort required to inspect the content and sources of posts. We aim to reduce the resource cost of this process by introducing a weakly-supervised iterative graph-based approach to detect keywords, topics, and themes related to misinformation, with a focus on COVID-19. Our approach can successfully detect specific topics from general misinformation-related seed words in a few seed texts. Our approach utilizes the BERT-based Word Graph Search (BWGS) algorithm that builds on context-based neural network embeddings for retrieving misinformation-related posts. We utilize Latent Dirichlet Allocation (LDA) topic modeling for obtaining misinformation-related themes from the texts returned by BWGS. Furthermore, we propose the BERT-based Multi-directional Word Graph Search (BMDWGS) algorithm that utilizes greater starting context information for misinformation extraction. In addition to a qualitative analysis of our approach, our quantitative analyses show that BWGS and BMDWGS are effective in extracting misinformation-related content compared to common baselines in low data resource settings. Extracting such content is useful for uncovering prevalent misconceptions and concerns and for facilitating precision public health messaging campaigns to improve health behaviors.
翻訳日:2022-05-20 14:44:20 公開日:2022-05-19
# 視覚・言語変換器の訓練

Training Vision-Language Transformers from Captions Alone ( http://arxiv.org/abs/2205.09256v1 )

ライセンス: Link先を確認
Liangke Gui, Qiuyuan Huang, Alex Hauptmann, Yonatan Bisk, Jianfeng Gao(参考訳) 視覚言語トランスフォーマーは,人間のラベル(クラスラベル,バウンディングボックスなど)を使わずに学習できることを示す。 既存の作業は、バウンディングボックスやパッチを明示的に利用するにせよ、視覚的なバックボーンは、マルチモーダル言語パイプラインに統合される前に、ImageNetクラス予測に基づいてトレーニングする必要があると仮定する。 これは不要であることを示し、この監督を必要としないマスク付きオートエンコーダ上に構築されたキャプション(vlc)から新しいモデルヴィジョン言語を導入する。 実際、監督対象分類で事前訓練された現在の最先端のパッチベース視覚言語トランスフォーマであるVLTと、我々のモデルであるVLCとの直接比較では、我々のアプローチが分かる。 1.標準ベンチマークでvultを上回っている 2. より解釈可能で直感的なパッチ視覚化を提供する。 3.3は、アノテーション付きバウンディングボックスでトレーニングされたROIを利用する多くの大きなモデルと競合する。

We show that Vision-Language Transformers can be learned without human labels (e.g. class labels, bounding boxes, etc). Existing work, whether explicitly utilizing bounding boxes or patches, assumes that the visual backbone must first be trained on ImageNet class prediction before being integrated into a multimodal linguistic pipeline. We show that this is not necessary and introduce a new model Vision-Language from Captions (VLC) built on top of Masked Auto-Encoders that does not require this supervision. In fact, in a head-to-head comparison between ViLT, the current state-of-the-art patch-based vision-language transformer which is pretrained with supervised object classification, and our model, VLC, we find that our approach 1. outperforms ViLT on standard benchmarks, 2. provides more interpretable and intuitive patch visualizations, and 3. is competitive with many larger models that utilize ROIs trained on annotated bounding-boxes.
翻訳日:2022-05-20 14:43:56 公開日:2022-05-19
# 関節リウマチにおける関節間隙狭窄進展のサブピクセル定量化

A Sub-pixel Accurate Quantification of Joint Space Narrowing Progression in Rheumatoid Arthritis ( http://arxiv.org/abs/2205.09315v1 )

ライセンス: Link先を確認
Yafei Ou, Prasoon Ambalathankandy, Ryunosuke Furuya, Seiya Kawada, Tianyu Zeng, Yujie An, Tamotsu Kamishima, Kenichi Tamura, and Masayuki Ikebe(参考訳) 慢性関節リウマチ(RA)は慢性自己免疫疾患であり、主に指、手首、足などの関節周囲に影響を及ぼす。 放射線学はRAの診断とモニタリングにおいて重要な役割を担っている。 放射線画像の現在の空間分解能によって制限されるが、同じ理由によりRAのJSNの進行は、普遍的な空間分解能を持つ年に1ピクセル未満である。 JSNの非感受性モニタリングは、放射線医やリウマチ医が適切な、タイムリーな臨床判断を下すのを妨げる可能性がある。 本稿では,RAの初期におけるJSN進行を自動的に定量化することを目的とした,部分像位相のみの相関法を提案する。 現在の文献の大半は平均誤差、根-平均二乗偏差、標準偏差を利用して画素レベルでの精度を報告している。 本研究は,周波数領域の位相スペクトルを用いて,ベースラインとその追従指関節画像間のJSN進行を測定する。 本研究は, 臨床放射線検査における標準偏差0.0519mmを用いて, 平均誤差を0.0130mmまで低減できることを示した。 手動測定をはるかに超えたサブピクセル精度で、我々の研究がJSNの進行を自動的に定量化することを約束していると楽観的である。

Rheumatoid arthritis (RA) is a chronic autoimmune disease that primarily affects peripheral synovial joints, like fingers, wrist and feet. Radiology plays a critical role in the diagnosis and monitoring of RA. Limited by the current spatial resolution of radiographic imaging, joint space narrowing (JSN) progression of RA with the same reason above can be less than one pixel per year with universal spatial resolution. Insensitive monitoring of JSN can hinder the radiologist/rheumatologist from making a proper and timely clinical judgment. In this paper, we propose a novel and sensitive method that we call partial image phase-only correlation which aims to automatically quantify JSN progression in the early stages of RA. The majority of the current literature utilizes the mean error, root-mean-square deviation and standard deviation to report the accuracy at pixel level. Our work measures JSN progression between a baseline and its follow-up finger joint images by using the phase spectrum in the frequency domain. Using this study, the mean error can be reduced to 0.0130mm when applied to phantom radiographs with ground truth, and 0.0519mm standard deviation for clinical radiography. With its sub-pixel accuracy far beyond manual measurement, we are optimistic that our work is promising for automatically quantifying JSN progression.
翻訳日:2022-05-20 14:41:14 公開日:2022-05-19
# コントラスト学習による任意の画像スタイル転送のドメイン化

Domain Enhanced Arbitrary Image Style Transfer via Contrastive Learning ( http://arxiv.org/abs/2205.09542v1 )

ライセンス: Link先を確認
Yuxin Zhang, Fan Tang, Weiming Dong, Haibin Huang, Chongyang Ma, Tong-Yee Lee, Changsheng Xu(参考訳) 本研究では,新しいスタイル特徴表現学習手法を用いて,任意の画像スタイル転送の課題に対処する。 画像スタイリングタスクのキーコンポーネントとしてに適したスタイル表現は、満足な結果を得るために不可欠である。 既存のディープニューラルネットワークベースのアプローチは、コンテンツ特徴のGram行列のような2階統計からのガイダンスで合理的な結果が得られる。 しかし、それらには十分なスタイル情報がないため、局所的な歪みやスタイルの不整合といったアーティファクトが生じる。 これらの課題に対処するために,複数のスタイル間の類似点と相違点を分析し,スタイル分布を考慮した画像特徴から直接スタイル表現を学習することを提案する。 具体的には,コントラスト学習による新しいスタイル表現学習とスタイル転送手法であるコントラスト型任意スタイル転送(cast)を提案する。 本フレームワークは,スタイルコード符号化のための多層スタイルプロジェクタ,スタイル分布を効果的に学習するためのドメイン拡張モジュール,画像スタイル転送のための生成ネットワークという,3つのキーコンポーネントから構成される。 本手法は, 最先端手法による手法に比べて, 極めて優れた結果が得られることを示すため, 定性的かつ定量的な評価を包括的に実施する。 コードとモデルはhttps://github.com/zyxelsa/cast_pytorchで入手できる。

In this work, we tackle the challenging problem of arbitrary image style transfer using a novel style feature representation learning method. A suitable style representation, as a key component in image stylization tasks, is essential to achieve satisfactory results. Existing deep neural network based approaches achieve reasonable results with the guidance from second-order statistics such as Gram matrix of content features. However, they do not leverage sufficient style information, which results in artifacts such as local distortions and style inconsistency. To address these issues, we propose to learn style representation directly from image features instead of their second-order statistics, by analyzing the similarities and differences between multiple styles and considering the style distribution. Specifically, we present Contrastive Arbitrary Style Transfer (CAST), which is a new style representation learning and style transfer method via contrastive learning. Our framework consists of three key components, i.e., a multi-layer style projector for style code encoding, a domain enhancement module for effective learning of style distribution, and a generative network for image style transfer. We conduct qualitative and quantitative evaluations comprehensively to demonstrate that our approach achieves significantly better results compared to those obtained via state-of-the-art methods. Code and models are available at https://github.com/zyxElsa/CAST_pytorch
翻訳日:2022-05-20 14:40:53 公開日:2022-05-19
# HandoverSim:人間とロボットのオブジェクトハンドオーバのためのシミュレーションフレームワークとベンチマーク

HandoverSim: A Simulation Framework and Benchmark for Human-to-Robot Object Handovers ( http://arxiv.org/abs/2205.09747v1 )

ライセンス: Link先を確認
Yu-Wei Chao, Chris Paxton, Yu Xiang, Wei Yang, Balakumar Sundaralingam, Tao Chen, Adithyavairavan Murali, Maya Cakmak, Dieter Fox(参考訳) 我々は人間とロボットのオブジェクトハンドオーバのための新しいシミュレーションベンチマーク"HandoverSim"を紹介する。 本研究は,手の動きをシミュレートするために,物体の握手の最近の動きキャプチャーデータセットを利用する。 標準化されたプロトコルとメトリクスを使って受信機のトレーニングと評価環境を作成します。 本研究では,一連のベースラインの性能を分析し,実世界評価と相関関係を示す。 コードはhttps://handover-sim.github.ioで公開されている。

We introduce a new simulation benchmark "HandoverSim" for human-to-robot object handovers. To simulate the giver's motion, we leverage a recent motion capture dataset of hand grasping of objects. We create training and evaluation environments for the receiver with standardized protocols and metrics. We analyze the performance of a set of baselines and show a correlation with a real-world evaluation. Code is open sourced at https://handover-sim.github.io.
翻訳日:2022-05-20 14:40:31 公開日:2022-05-19
# 閾値デザイナ適応:共同創造システムにおけるデザイナ適応の改善

Threshold Designer Adaptation: Improved Adaptation for Designers in Co-creative Systems ( http://arxiv.org/abs/2205.09269v1 )

ライセンス: Link先を確認
Emily Halina and Matthew Guzdial(参考訳) 異なるスタイルを持つ人間設計者を支援するために、機械学習(ml)システムはそれらに適応する必要がある。 しかしながら、MLシステムを共同設計者に対してどのように、いつ最もうまく適応するかについては、これまでほとんど研究がなかった。 本稿では,クリエイティビティMLモデルを個々のデザイナに適用するための新しい手法であるしきい値デザイナ適応を提案する。 共創リズムゲームデザインツールを用いて,人間の被験者によるアプローチを評価する。 設計者は提案手法を好み,既存のベースラインに比べて高品質なコンテンツを生成する。

To best assist human designers with different styles, Machine Learning (ML) systems need to be able to adapt to them. However, there has been relatively little prior work on how and when to best adapt an ML system to a co-designer. In this paper we present threshold designer adaptation: a novel method for adapting a creative ML model to an individual designer. We evaluate our approach with a human subject study using a co-creative rhythm game design tool. We find that designers prefer our proposed method and produce higher quality content in comparison to an existing baseline.
翻訳日:2022-05-20 14:37:00 公開日:2022-05-19
# 方向性グラフのための単純で効果的なSVD-GCN

A Simple Yet Effective SVD-GCN for Directed Graphs ( http://arxiv.org/abs/2205.09335v1 )

ライセンス: Link先を確認
Chunya Zou, Andi Han, Lequan Lin, Junbin Gao(参考訳) 本稿では,従来のSingular Value Decomposition (SVD) に基づく有向グラフ(ディグラフ)のための,単純かつ効果的なグラフニューラルネットワーク SVD-GCN を提案する。 新しいグラフニューラルネットワークは、グラフsvdフレーム上に構築され、svd `` frequency'''バンド上のグラフ信号を分解する。 さらに,チェビシェフ多項式近似を用いて,新たなフレームレットSVD-GCNを大規模グラフに対してスケールアップする。 複数のノード分類データセットで行った実験を通じて、svd-gcnは様々なグラフノード学習タスクにおいて著しく改善され、グラフのためのgcnや他の最先端グラフニューラルネットワークよりも優れています。 さらに,我々は,SVD-GCNが高レベルグラフデータ攻撃に対する優れた認知能力とロバスト性を持っていることを実証的に実証した。 理論的および実験的結果は、SVD-GCNがグラフデータセットの変種に対して有効であり、一方で、最先端技術よりも安定的でさらに優れた性能を維持していることを証明している。

In this paper, we propose a simple yet effective graph neural network for directed graphs (digraph) based on the classic Singular Value Decomposition (SVD), named SVD-GCN. The new graph neural network is built upon the graph SVD-framelet to better decompose graph signals on the SVD ``frequency'' bands. Further the new framelet SVD-GCN is also scaled up for larger scale graphs via using Chebyshev polynomial approximation. Through empirical experiments conducted on several node classification datasets, we have found that SVD-GCN has remarkable improvements in a variety of graph node learning tasks and it outperforms GCN and many other state-of-the-art graph neural networks for digraphs. Moreover, we empirically demonstate that the SVD-GCN has great denoising capability and robustness to high level graph data attacks. The theoretical and experimental results prove that the SVD-GCN is effective on a variant of graph datasets, meanwhile maintaining stable and even better performance than the state-of-the-arts.
翻訳日:2022-05-20 14:36:51 公開日:2022-05-19
# 相同ラベル伝搬を持つ異好グラフのノード分類の簡易化

Simplifying Node Classification on Heterophilous Graphs with Compatible Label Propagation ( http://arxiv.org/abs/2205.09389v1 )

ライセンス: Link先を確認
Zhiqiang Zhong and Sergey Ivanov and Jun Pang(参考訳) グラフニューラルネットワーク(GNN)は,グラフ学習のタスクにおいて主流となっているが,近年の研究では,グラフ上の半教師付きノード分類において,グラフアルゴリズムであるラベル伝搬(LP)と浅いニューラルネットワークを組み合わせることで,GNNと同等のパフォーマンスが得られることが示されている。 本稿では,ノードが反対クラスのノードに接続されることの多い低ホモフィリーグラフ上では,このアプローチが不十分であることを示す。 これを解決するために,我々は,閉形式解と収束保証を享受するLPアルゴリズムとベース予測器の組み合わせを慎重に設計する。 アルゴリズムはまずクラス互換行列を学習し、次にクラス適合性によって重み付けされたLPアルゴリズムを用いてラベル予測を集約する。 様々なベンチマークにおいて,本手法は様々なレベルのホモフィリーを持つグラフ上での先行的な性能を実現する。 一方、パラメータは桁違いに少なく、実行時間も少なくなる。 経験的評価により、lp の単純適応はホモフィアとヘテロフィアの双方で半教師ありノード分類において競合できることを示した。

Graph Neural Networks (GNNs) have been predominant for graph learning tasks; however, recent studies showed that a well-known graph algorithm, Label Propagation (LP), combined with a shallow neural network can achieve comparable performance to GNNs in semi-supervised node classification on graphs with high homophily. In this paper, we show that this approach falls short on graphs with low homophily, where nodes often connect to the nodes of the opposite classes. To overcome this, we carefully design a combination of a base predictor with LP algorithm that enjoys a closed-form solution as well as convergence guarantees. Our algorithm first learns the class compatibility matrix and then aggregates label predictions using LP algorithm weighted by class compatibilities. On a wide variety of benchmarks, we show that our approach achieves the leading performance on graphs with various levels of homophily. Meanwhile, it has orders of magnitude fewer parameters and requires less execution time. Empirical evaluations demonstrate that simple adaptations of LP can be competitive in semi-supervised node classification in both homophily and heterophily regimes.
翻訳日:2022-05-20 14:36:32 公開日:2022-05-19
# 滑らか凸最適化における高次法の最初の最適加速

The First Optimal Acceleration of High-Order Methods in Smooth Convex Optimization ( http://arxiv.org/abs/2205.09647v1 )

ライセンス: Link先を確認
Dmitry Kovalev, Alexander Gasnikov(参考訳) 本稿では,滑らかな凸最小化問題を解くための最適高次アルゴリズムを求めるための基礎的な解法について検討する。 Arjevani et al. (2019) は、アルゴリズムが問題に対する$\epsilon$-accurate ソリューションを見つけるために必要となる$p$-thorder oracle 呼び出しの数に対して$\Omega\left(\epsilon^{-2/(3p+1)}\right) という下界の$\Omega\left(\epsilon^{-2/(3p+1)}\right) を確立した。 しかしながら、Gasnikov et al. (2019b); Bubeck et al. (2019); Jiang et al. (2019) の既存の最先端高次法は、下界と一致しないオラクル複雑性 $\mathcal{O}\left(\epsilon^{-2/(3p+1)} \log (1/\epsilon)\right)$ を達成する。 この理由は、これらのアルゴリズムが複雑な二分探索手順を必要とするため、最適でも実用でもない。 我々は、最初のアルゴリズムに$\mathcal{o}\left(\epsilon^{-2/(3p+1)}\right)$ p$-thorder oracle complexityを提供することで、この根本的な問題を解決する。

In this paper, we study the fundamental open question of finding the optimal high-order algorithm for solving smooth convex minimization problems. Arjevani et al. (2019) established the lower bound $\Omega\left(\epsilon^{-2/(3p+1)}\right)$ on the number of the $p$-th order oracle calls required by an algorithm to find an $\epsilon$-accurate solution to the problem, where the $p$-th order oracle stands for the computation of the objective function value and the derivatives up to the order $p$. However, the existing state-of-the-art high-order methods of Gasnikov et al. (2019b); Bubeck et al. (2019); Jiang et al. (2019) achieve the oracle complexity $\mathcal{O}\left(\epsilon^{-2/(3p+1)} \log (1/\epsilon)\right)$, which does not match the lower bound. The reason for this is that these algorithms require performing a complex binary search procedure, which makes them neither optimal nor practical. We fix this fundamental issue by providing the first algorithm with $\mathcal{O}\left(\epsilon^{-2/(3p+1)}\right)$ $p$-th order oracle complexity.
翻訳日:2022-05-20 14:34:44 公開日:2022-05-19
# Semi-WTC: ウェイトタスク一貫性による攻撃分類のための実践的半教師付きフレームワーク

Semi-WTC: A Practical Semi-supervised Framework for Attack Categorization through Weight-Task Consistency ( http://arxiv.org/abs/2205.09669v1 )

ライセンス: Link先を確認
Zihan Li, Wentao Chen, Zhiqing Wei, Xingqi Luo, Bing Su(参考訳) 監視学習は、大量の高品質のデータとラベルを必要とする攻撃検出に広く利用されている。 しかし、データはしばしば不均衡であり、十分なアノテーションを得るのは難しい。 さらに、これらの監視されたモデルは、目に見えない人工攻撃に対する防御など、現実世界の展開の問題に直面している。 本稿では,ラベル付きおよびラベルなしデータからの情報を統合するためのエンコーダと2分岐構造からなる半教師付ききめ細粒度攻撃分類フレームワークを提案する。 このフレームワークは異なる教師付きモデルに一般化することができる。 残差接続とバッチ正規化を伴う多層パーセプトロンは、特徴抽出と複雑さの低減のためにエンコーダとして用いられる。 recurrent prototype module (rpm) は半教師方式でエンコーダを効果的に訓練するために提案されている。 データ不均衡の問題を緩和するために、損失関数のサンプルが少ないクラスにより大きな重みを割り当てることで、RPMの反復過程にWTC(Weight-Task Consistency)を導入する。 さらに,実世界の展開における新たな攻撃に対処するため,未確認サンプルデータの分布をよりよく発見し,エンコーダのパラメータを適応させることができるアクティブ適応サンプリング(AAR)手法を提案する。 実験結果から,本モデルは分類精度が5%向上し,トレーニング時間が90%削減され,最先端の半教師付き攻撃検出法を上回った。

Supervised learning has been widely used for attack detection, which requires large amounts of high-quality data and labels. However, the data is often imbalanced and sufficient annotations are difficult to obtain. Moreover, these supervised models are subject to real-world deployment issues, such as defending against unseen artificial attacks. We propose a semi-supervised fine-grained attack categorization framework consisting of an encoder and a two-branch structure to integrate information from labeled and unlabeled data to tackle these practical challenges. This framework can be generalized to different supervised models. The multilayer perceptron with residual connection and batch normalization is used as the encoder to extract features and reduce the complexity. The Recurrent Prototype Module (RPM) is proposed to train the encoder effectively in a semi-supervised manner. To alleviate the problem of data imbalance, we introduce the Weight-Task Consistency (WTC) into the iterative process of RPM by assigning larger weights to classes with fewer samples in the loss function. In addition, to cope with new attacks in real-world deployment, we further propose an Active Adaption Resampling (AAR) method, which can better discover the distribution of the unseen sample data and adapt the parameters of the encoder. Experimental results show that our model outperforms the state-of-the-art semi-supervised attack detection methods with a general 5% improvement in classification accuracy and a 90% reduction in training time.
翻訳日:2022-05-20 14:34:07 公開日:2022-05-19
# 深部強化学習と知識伝達を用いた複雑なスパース・リワード型タスクのためのデクサラスロボットマニピュレーション

Dexterous Robotic Manipulation using Deep Reinforcement Learning and Knowledge Transfer for Complex Sparse Reward-based Tasks ( http://arxiv.org/abs/2205.09683v1 )

ライセンス: Link先を確認
Qiang Wang, Francisco Roldan Sanchez, Robert McCarthy, David Cordova Bulens, Kevin McGuinness, Noel O'Connor, Manuel W\"uthrich, Felix Widmaier, Stefan Bauer, Stephen J. Redmond(参考訳) 本稿では,Real Robot Challenge (RRC) 2021のフェーズ1に勝った深層強化学習(DRL)アプローチについて述べる。 RRCは、TriFingerロボットを使用して特定の位置軌道に沿って立方体を操作するが、立方体が特定の向きを持つ必要はない。 DRLエージェント(Deep Deterministic Policy Gradient, DDPG)の学習を指導するために, 比較的単純な報酬関数, ゴールベーススパース報酬と距離報酬を組み合わせたHindsight Experience Replay(HER)を用いた。 我々の手法により、エージェントはシミュレーションにおいて巧妙なロボット操作戦略を習得することができた。 これらの戦略はその後、実際のロボットに適用され、rrcの最終評価段階において、より伝統的なロボット制御技術を使用するものを含む、他の全ての競争提案を上回った。 ここでは、ロボットがキューブを特定の方向に維持し、キューブが必要な位置の軌道に沿って移動するように、rrcの第1相のタスクを変更することで、この方法を拡張する。 立方体をオリエントする要求は、問題を複雑化するため、盲目的探索によってタスクを学習できないようにする。 この問題を回避するために,我々は,エージェントが学習した戦略(立方体配向に依存しない)を,このタスク(配向が重要な部分)に転送することのできる,知識伝達(KT)手法を新たに導入する。 KTは、エージェントがシミュレータで拡張タスクを学習し実行し、平均位置偏差を0.134mから0.02mに改善し、評価中に平均方向偏差を142{\deg}から76{\deg}に改善した。 このKT概念は優れた一般化特性を示し、アクター批判学習アルゴリズムに適用できる。

This paper describes a deep reinforcement learning (DRL) approach that won Phase 1 of the Real Robot Challenge (RRC) 2021, and then extends this method to a more difficult manipulation task. The RRC consisted of using a TriFinger robot to manipulate a cube along a specified positional trajectory, but with no requirement for the cube to have any specific orientation. We used a relatively simple reward function, a combination of goal-based sparse reward and distance reward, in conjunction with Hindsight Experience Replay (HER) to guide the learning of the DRL agent (Deep Deterministic Policy Gradient (DDPG)). Our approach allowed our agents to acquire dexterous robotic manipulation strategies in simulation. These strategies were then applied to the real robot and outperformed all other competition submissions, including those using more traditional robotic control techniques, in the final evaluation stage of the RRC. Here we extend this method, by modifying the task of Phase 1 of the RRC to require the robot to maintain the cube in a particular orientation, while the cube is moved along the required positional trajectory. The requirement to also orient the cube makes the agent unable to learn the task through blind exploration due to increased problem complexity. To circumvent this issue, we make novel use of a Knowledge Transfer (KT) technique that allows the strategies learned by the agent in the original task (which was agnostic to cube orientation) to be transferred to this task (where orientation matters). KT allowed the agent to learn and perform the extended task in the simulator, which improved the average positional deviation from 0.134 m to 0.02 m, and average orientation deviation from 142{\deg} to 76{\deg} during evaluation. This KT concept shows good generalisation properties and could be applied to any actor-critic learning algorithm.
翻訳日:2022-05-20 14:33:40 公開日:2022-05-19
# 高次元統計におけるフランツ・パリシ基準と計算トレードオフ

The Franz-Parisi Criterion and Computational Trade-offs in High Dimensional Statistics ( http://arxiv.org/abs/2205.09727v1 )

ライセンス: Link先を確認
Afonso S. Bandeira, Ahmed El Alaoui, Samuel B. Hopkins, Tselil Schramm, Alexander S. Wein, Ilias Zadik(参考訳) 多くの高次元統計推論問題は固有の計算困難性を持っていると考えられている。 このような硬さの厳密な証拠を与えるための様々なフレームワークが提案されている。例えば、制限された計算モデル(例えば低次関数)に対する下限や、自由エネルギーの風景に基づく統計物理学に根ざした手法などである。 本稿は,低次と自由エネルギーの異なるアプローチの厳密な接続を実現することを目的とする。 自由エネルギーに基づく硬さの基準を定め、より広い種類の統計問題、すなわちすべてのガウス加法モデルとスパース植込み信号のある特定のモデルに対して、より確立された低次硬さの概念と正式に結びつける。 これらの厳密な接続を利用することで、ガウスモデルの低次ハードネスの「代数的」概念は「幾何的」な局所mcmcアルゴリズムの失敗を暗示し、直接的に証明するのが困難であるように思える、スパース線形回帰のための新しい低次下界を提供する。 これらの結果は、硬さの異なる概念間のつながりに関する概念的洞察と、低次下界を証明するための新しい方法のような具体的な技術ツールの両方を提供する。

Many high-dimensional statistical inference problems are believed to possess inherent computational hardness. Various frameworks have been proposed to give rigorous evidence for such hardness, including lower bounds against restricted models of computation (such as low-degree functions), as well as methods rooted in statistical physics that are based on free energy landscapes. This paper aims to make a rigorous connection between the seemingly different low-degree and free-energy based approaches. We define a free-energy based criterion for hardness and formally connect it to the well-established notion of low-degree hardness for a broad class of statistical problems, namely all Gaussian additive models and certain models with a sparse planted signal. By leveraging these rigorous connections we are able to: establish that for Gaussian additive models the "algebraic" notion of low-degree hardness implies failure of "geometric" local MCMC algorithms, and provide new low-degree lower bounds for sparse linear regression which seem difficult to prove directly. These results provide both conceptual insights into the connections between different notions of hardness, as well as concrete technical tools such as new methods for proving low-degree lower bounds.
翻訳日:2022-05-20 14:32:40 公開日:2022-05-19
# (参考訳) 脳刺激による強化学習は環境変化への適応を改善する

Reinforcement Learning with Brain-Inspired Modulation can Improve Adaptation to Environmental Changes ( http://arxiv.org/abs/2205.09729v1 )

ライセンス: CC BY 4.0
Eric Chalmers and Artur Luczak(参考訳) 強化学習(RL)の開発により、アルゴリズムは非常に複雑ながほとんど静的な問題で優れた性能を達成できるようになった。 対照的に生物学的学習は、常に変化する世界への適応の効率を重んじているようだ。 ここでは、最近提案されたニューロン学習規則に基づいて、各ニューロンが将来の活動を予測することで、エネルギーバランスを最適化できると仮定する。 この仮定は、シナプス前の入力を使って予測誤差を変調する神経学習規則につながる。 類似のRL規則は、報酬予測誤差を変調するために行動確率を用いる。 この変調により、エージェントはネガティブな経験に敏感になり、好みを形成するのにより慎重になる。 提案するルールを表型および深層ネットワークrlアルゴリズムに組み込むことにより,従来のアルゴリズムよりも単純だがダイナミックなタスクで優れていることを示す。 新しいルールは、アルゴリズムが人間のような方法で変化に適応するための重要な構成要素である、生物学的知性の中核的な原則をカプセル化することを提案する。

Developments in reinforcement learning (RL) have allowed algorithms to achieve impressive performance in highly complex, but largely static problems. In contrast, biological learning seems to value efficiency of adaptation to a constantly-changing world. Here we build on a recently-proposed neuronal learning rule that assumes each neuron can optimize its energy balance by predicting its own future activity. That assumption leads to a neuronal learning rule that uses presynaptic input to modulate prediction error. We argue that an analogous RL rule would use action probability to modulate reward prediction error. This modulation makes the agent more sensitive to negative experiences, and more careful in forming preferences. We embed the proposed rule in both tabular and deep-Q-network RL algorithms, and find that it outperforms conventional algorithms in simple, but highly-dynamic tasks. We suggest that the new rule encapsulates a core principle of biological intelligence; an important component for allowing algorithms to adapt to change in a human-like way.
翻訳日:2022-05-20 14:30:10 公開日:2022-05-19
# 新型コロナウイルスパンデミックがLGBTQオンラインコミュニティに与える影響

The Impact of COVID-19 Pandemic on LGBTQ Online Communitie ( http://arxiv.org/abs/2205.09511v1 )

ライセンス: Link先を確認
Yunhao Yuan, Gaurav Verma, Barbara Keller, Talayeh Aledavood(参考訳) 新型コロナウイルスのパンデミックは、既存の社会的不利益や健康格差のためにLGBTQコミュニティ(レズビアン、ゲイ、バイセクシャル、トランスジェンダー、クイア)のメンバーなどマイノリティの生活に大きな影響を与えている。 新型コロナウイルスのパンデミックが一般住民の生活の様々な側面に与える影響について広範な研究がなされているが、LGBTQ人口に焦点を当てた研究はほとんどない。 本稿では、LGBTQコミュニティに属することを自己開示するTwitterユーザーのグループを特定する。 パンデミック前とパンデミック時のデータセットを用いた2つの機械学習分類器の開発と評価を行い、少数派ストレスを呈するtwitter投稿を特定した。 このタスクでは,7,241人のLGBTQユーザによる20,593,823件の投稿を収集し,ランダムに選択された2800件の投稿に注釈を付ける。 パンデミック前の最良のモデルとパンデミックモデルの間は、少数派のストレスを含むポストを検出するための強力で安定したパフォーマンスを示すことが示されています。 パンデミック期およびパンデミック期における少数ストレスポストの言語的差異について検討した。 新型コロナウイルス(covid-19)のパンデミックでは、怒りの言葉は少数派のストレスと強く関連している。 我々は,パンデミックがLGBTQ人口の感情状態に与える影響を,一般人口との比較により検討した。 因果分析を行うために,傾向スコアに基づくマッチングを採用する。 その結果、lbgtq集団は認知語の使用率が高く、ポジティブ感情語の使用における観察可能な属性は、パンデミック以前の行動特性を持つ一般集団よりも悪化していることが示された。

The COVID-19 pandemic has disproportionately impacted the lives of minorities, such as members of the LGBTQ community (lesbian, gay, bisexual, transgender, and queer) due to pre-existing social disadvantages and health disparities. Although extensive research has been carried out on the impact of the COVID-19 pandemic on different aspects of the general population's lives, few studies are focused on the LGBTQ population. In this paper, we identify a group of Twitter users who self-disclose to belong to the LGBTQ community. We develop and evaluate two sets of machine learning classifiers using a pre-pandemic and a during pandemic dataset to identify Twitter posts exhibiting minority stress, which is a unique pressure faced by the members of the LGBTQ population due to their sexual and gender identities. For this task, we collect a set of 20,593,823 posts by 7,241 self-disclosed LGBTQ users and annotate a randomly selected subset of 2800 posts. We demonstrate that our best pre-pandemic and during pandemic models show strong and stable performance for detecting posts that contain minority stress. We investigate the linguistic differences in minority stress posts across pre- and during-pandemic periods. We find that anger words are strongly associated with minority stress during the COVID-19 pandemic. We explore the impact of the pandemic on the emotional states of the LGBTQ population by conducting controlled comparisons with the general population. We adopt propensity score-based matching to perform a causal analysis. The results show that the LBGTQ population have a greater increase in the usage of cognitive words and worsened observable attribute in the usage of positive emotion words than the group of the general population with similar pre-pandemic behavioral attributes.
翻訳日:2022-05-20 14:20:22 公開日:2022-05-19
# 時間遅延ニューラルネットワークを用いた音声の自動識別

Automatic Spoken Language Identification using a Time-Delay Neural Network ( http://arxiv.org/abs/2205.09564v1 )

ライセンス: Link先を確認
Benjamin Kepecs and Homayoon Beigi(参考訳) クローズドセット音声言語識別は、録音された音声クリップで話されている言語を既知の言語群から認識するタスクである。 本研究では、アラビア語、スペイン語、フランス語、トルコ語を識別するための言語識別システムが、録音された音声のみに基づいて構築され、訓練された。 既存の多言語データセットを用いて、Tedlium TDNNモデルに基づく一連の音響モデルのトレーニングを行い、音声認識を行った。 このシステムは、カスタム多言語言語モデルと、電話に先立つ言語名を持つ特殊発音辞書を備えていた。 訓練されたモデルは、4つの言語すべてからデータをテストするために電話アライメントを生成するのに使われ、発話に必要となる最も一般的な言語を選択する投票方式に基づいて言語を予測した。 予測された言語と既知の言語を比較することで精度を測定し、スペイン語とアラビア語の識別において非常に高く、トルコ語とフランス語の識別において若干低いと判断された。

Closed-set spoken language identification is the task of recognizing the language being spoken in a recorded audio clip from a set of known languages. In this study, a language identification system was built and trained to distinguish between Arabic, Spanish, French, and Turkish based on nothing more than recorded speech. A pre-existing multilingual dataset was used to train a series of acoustic models based on the Tedlium TDNN model to perform automatic speech recognition. The system was provided with a custom multilingual language model and a specialized pronunciation lexicon with language names prepended to phones. The trained model was used to generate phone alignments to test data from all four languages, and languages were predicted based on a voting scheme choosing the most common language prepend in an utterance. Accuracy was measured by comparing predicted languages to known languages, and was determined to be very high in identifying Spanish and Arabic, and somewhat lower in identifying Turkish and French.
翻訳日:2022-05-20 14:19:55 公開日:2022-05-19
# fedilc:非iidデータにおける重み付き幾何平均と不変勾配共分散

FedILC: Weighted Geometric Mean and Invariant Gradient Covariance for Federated Learning on Non-IID Data ( http://arxiv.org/abs/2205.09305v1 )

ライセンス: Link先を確認
Mike He Zhu, L\'ena N\'ehale Ezzine, Dianbo Liu, Yoshua Bengio(参考訳) フェデレーション学習(Federated Learning)とは、ローカルに計算されたパラメータの更新を、空間的に分散されたクライアントサイロからトレーニングデータに集約することで、共有サーバモデルを学習する分散機械学習アプローチである。 スケールとプライバシの両方でメリットを享受することは成功しているが、フェデレーション学習は、トレーニングドメインに関してデータ分散が非i.i.d.である未認識のドメインに一般化できないドメインシフト問題によって痛められている。 本研究では,Hessianの勾配の共分散と幾何平均を利用して,環境のサイロ間およびサイロ内両方の成分を捕捉し,フェデレートネットワークにおけるドメインシフト問題を解くフェデレート不変学習一貫性(FedILC)アプローチを提案する。 このベンチマークと実世界のデータセット実験は,提案アルゴリズムが従来のベースラインや類似のフェデレーション学習アルゴリズムよりも優れていることを示す。 これは医療、コンピュータビジョン、IoT(Internet of Things)といった様々な分野に関係している。 コードはhttps://github.com/mikemikezhu/fedilcでリリースされる。

Federated learning is a distributed machine learning approach which enables a shared server model to learn by aggregating the locally-computed parameter updates with the training data from spatially-distributed client silos. Though successfully possessing advantages in both scale and privacy, federated learning is hurt by domain shift problems, where the learning models are unable to generalize to unseen domains whose data distribution is non-i.i.d. with respect to the training domains. In this study, we propose the Federated Invariant Learning Consistency (FedILC) approach, which leverages the gradient covariance and the geometric mean of Hessians to capture both inter-silo and intra-silo consistencies of environments and unravel the domain shift problems in federated networks. The benchmark and real-world dataset experiments bring evidence that our proposed algorithm outperforms conventional baselines and similar federated learning algorithms. This is relevant to various fields such as medical healthcare, computer vision, and the Internet of Things (IoT). The code is released at https://github.com/mikemikezhu/FedILC.
翻訳日:2022-05-20 14:19:39 公開日:2022-05-19
# 次世代AIシステムのためのマルチDNN加速器

Multi-DNN Accelerators for Next-Generation AI Systems ( http://arxiv.org/abs/2205.09376v1 )

ライセンス: Link先を確認
Stylianos I. Venieris and Christos-Savvas Bouganis and Nicholas D. Lane(参考訳) AIによるアプリケーションの利用が複数のドメインにまたがるにつれて、計算要求が増大する。 AI技術の第一のドライバはディープニューラルネットワーク(DNN)である。 異なるユーザからの複数のAIクエリをそれぞれ独自のDNNモデルで処理するクラウドベースのシステムや、さまざまなモデルのパイプラインやマルチモーダルデータの並列処理に並列DNNを使用するモバイルロボットやスマートフォンに注目する場合、次世代のAIシステムはコアにマルチDNNワークロードを持つことになる。 AIサービスの大規模展開とモバイルおよび組み込みシステム間の統合は、コンピュータアーキテクチャの面でさらなるブレークスルーを必要とし、DNNの品質要件を満たしながらDNNの数が増加するにつれて高いパフォーマンスを維持するプロセッサによって、マルチDNNアクセラレータ設計のトピックがもたらされる。

As the use of AI-powered applications widens across multiple domains, so do increase the computational demands. Primary driver of AI technology are the deep neural networks (DNNs). When focusing either on cloud-based systems that serve multiple AI queries from different users each with their own DNN model, or on mobile robots and smartphones employing pipelines of various models or parallel DNNs for the concurrent processing of multi-modal data, the next generation of AI systems will have multi-DNN workloads at their core. Large-scale deployment of AI services and integration across mobile and embedded systems require additional breakthroughs in the computer architecture front, with processors that can maintain high performance as the number of DNNs increases while meeting the quality-of-service requirements, giving rise to the topic of multi-DNN accelerator design.
翻訳日:2022-05-20 14:19:17 公開日:2022-05-19
# nebula-i:低帯域クラウドクラスタ上でディープラーニングモデルを協調的にトレーニングするための汎用フレームワーク

Nebula-I: A General Framework for Collaboratively Training Deep Learning Models on Low-Bandwidth Cloud Clusters ( http://arxiv.org/abs/2205.09470v1 )

ライセンス: Link先を確認
Yang Xiang, Zhihua Wu, Weibao Gong, Siyu Ding, Xianjie Mo, Yuang Liu, Shuohuan Wang, Peng Liu, Yongshuai Hou, Long Li, Bin Wang, Shaohuai Shi, Yaqian Han, Yue Yu, Ge Li, Yu Sun, Yanjun Ma, Dianhai Yu(参考訳) 増大するモデルサイズと計算規模は、複数のノードにわたるディープラーニングモデルのトレーニングに関心を惹きつけている。 しかし、クラウドクラスタ、特にリモートクラスタでのトレーニングに関しては、大きな課題に直面しています。 本稿では,低帯域幅広域ネットワーク(wans)間の接続である遠隔異種クラスタ上でのディープラーニングモデルを協調的にトレーニングするための汎用フレームワークnebula-iを提案する。 自然言語処理(NLP)を例として、Nebula-Iが次のような異なるトレーニングフェーズでどのように動作するかを示しました。 a) 2つの遠隔クラスタを用いた多言語モデルの事前学習 b) 事前訓練されたモデルから抽出した知識を用いて機械翻訳モデルを微調整すること。 精度と通信効率のバランスをとるため、nebula-iではパラメータ効率の良いトレーニング戦略、ハイブリッド並列計算手法、適応的通信加速技術が併用される。 一方、クラスタ内計算とクラスタ間通信の安全性、信頼性、プライバシを保証するためにセキュリティ戦略が採用されている。 Nebula-IはPaddlePaddleディープラーニングフレームワークで実装されており、GPUやNPUといった異種ハードウェア上での協調トレーニングをサポートする。 実験により,提案フレームワークは,良好なNLP性能を維持しつつ,トレーニング効率を大幅に向上できることが示された。 Nebula-Iを使用することで、ユーザは最小限の開発でクラウドクラスタ上で大規模なトレーニングタスクを実行できる。 また,新しい学習フレームワークとnebula-iに基づいて生成された言語間自然言語推論タスクに関する最新の結果も紹介した。

The ever-growing model size and scale of compute have attracted increasing interests in training deep learning models over multiple nodes. However, when it comes to training on cloud clusters, especially across remote clusters, huge challenges are faced. In this work, we introduce a general framework, Nebula-I, for collaboratively training deep learning models over remote heterogeneous clusters, the connections between which are low-bandwidth wide area networks (WANs). We took natural language processing (NLP) as an example to show how Nebula-I works in different training phases that include: a) pre-training a multilingual language model using two remote clusters; and b) fine-tuning a machine translation model using knowledge distilled from pre-trained models, which run through the most popular paradigm of recent deep learning. To balance the accuracy and communication efficiency, in Nebula-I, parameter-efficient training strategies, hybrid parallel computing methods and adaptive communication acceleration techniques are jointly applied. Meanwhile, security strategies are employed to guarantee the safety, reliability and privacy in intra-cluster computation and inter-cluster communication. Nebula-I is implemented with the PaddlePaddle deep learning framework, which can support collaborative training over heterogeneous hardware, e.g. GPU and NPU. Experiments demonstrate that the proposed framework could substantially maximize the training efficiency while preserving satisfactory NLP performance. By using Nebula-I, users can run large-scale training tasks over cloud clusters with minimum developments, and the utility of existed large pre-trained models could be further promoted. We also introduced new state-of-the-art results on cross-lingual natural language inference tasks, which are generated based upon a novel learning framework and Nebula-I.
翻訳日:2022-05-20 14:18:59 公開日:2022-05-19
# グラフニューラルレコメンデーションのための空間自己回帰符号化

Spatial Autoregressive Coding for Graph Neural Recommendation ( http://arxiv.org/abs/2205.09489v1 )

ライセンス: Link先を確認
Jiayi Zheng, Ling Yang, Heyuan Wang, Cheng Yang, Yinghong Li, Xiaowei Hu, Shenda Hong(参考訳) 従来の浅層モデルやディープグラフニューラルネットワーク(gnn)を含むグラフ埋め込み手法は、推奨の有望な応用につながった。 それでも、浅いモデル、特にランダムウォークに基づくアルゴリズムは、その最適化パラダイムのため、サンプリングされたサブグラフやシーケンスの近傍を適切に利用できない。 gnnベースのアルゴリズムは、高次情報の利用が不十分で、レイヤーの積み重ね時に過度な問題が発生しやすいため、低度(ロングテール)アイテムの推奨が低下し、表現性やスケーラビリティが制限される可能性がある。 本稿では、上記の問題を統一的に解くための新しいフレームワークである空間自己回帰符号化(SAC)を提案する。 近接および高次情報を適切に活用するために,新しい空間自己回帰パラダイムを考案する。 具体的には、まず、まずランダムにマルチホップ隣人をマスクし、周囲のすべての隣接ノードを明示的なマルチホップアテンションに統合することにより、ターゲットノードを埋め込む。 そこで我々は,新しいハードネガティブサンプリング戦略を備えた,符号化とマスク付き隣人の埋め込みを対比して,対象ノードの隣接予測符号を学習するモデルを補強する。 周辺住民の冗長さを最小限に抑えるために,対象予測符号化とマスク付き近隣住民の埋め込みの相互情報を最大化し,同時に符号化と周辺近隣住民の埋め込みを制限し,近隣住民の冗長さを最小限に抑える。 パブリックレコメンデーションデータセットと実シナリオのWebスケールデータセットであるDouyin-Friend-Recommendationの実験結果は、最先端の手法と比較してSACの優位性を示している。

Graph embedding methods including traditional shallow models and deep Graph Neural Networks (GNNs) have led to promising applications in recommendation. Nevertheless, shallow models especially random-walk-based algorithms fail to adequately exploit neighbor proximity in sampled subgraphs or sequences due to their optimization paradigm. GNN-based algorithms suffer from the insufficient utilization of high-order information and easily cause over-smoothing problems when stacking too much layers, which may deteriorate the recommendations of low-degree (long-tail) items, limiting the expressiveness and scalability. In this paper, we propose a novel framework SAC, namely Spatial Autoregressive Coding, to solve the above problems in a unified way. To adequately leverage neighbor proximity and high-order information, we design a novel spatial autoregressive paradigm. Specifically, we first randomly mask multi-hop neighbors and embed the target node by integrating all other surrounding neighbors with an explicit multi-hop attention. Then we reinforce the model to learn a neighbor-predictive coding for the target node by contrasting the coding and the masked neighbors' embedding, equipped with a new hard negative sampling strategy. To learn the minimal sufficient representation for the target-to-neighbor prediction task and remove the redundancy of neighbors, we devise Neighbor Information Bottleneck by maximizing the mutual information between target predictive coding and the masked neighbors' embedding, and simultaneously constraining those between the coding and surrounding neighbors' embedding. Experimental results on both public recommendation datasets and a real scenario web-scale dataset Douyin-Friend-Recommendation demonstrate the superiority of SAC compared with state-of-the-art methods.
翻訳日:2022-05-20 14:18:08 公開日:2022-05-19
# IFTT-PIN:自己校正パラダイムを利用したPIN入力手法

IFTT-PIN: A PIN-Entry Method Leveraging the Self-Calibration Paradigm ( http://arxiv.org/abs/2205.09534v1 )

ライセンス: Link先を確認
Jonathan Grizou(参考訳) IFTT-PIN は Roth et al. (2004) [1] で導入された PIN-entry 法の自己校正版である。 [1]では、桁は2つの集合に分割され、それぞれ色が割り当てられる。 ディジットを伝えるには、ディジットに割り当てられた同じ色でボタンを押せば、数回のイテレーションで削除することで識別することができる。 IFTT-PINは同じ原理を用いるが、各ボタンに色をプリアサインしない。 ユーザーはそれぞれの色にどのボタンを使うか自由に選択できる。 ボタンからカラーへのマッピングはユーザの心の中にのみ存在し、インターフェースに直接通信されることはない。 言い換えれば、IFTT-PINはユーザーのPINと好みのボタン・ツー・カラーのマッピングを同時に推論する。 本稿では, IFTT-PIN(https://github.com/jgrizou/IFTT-PIN)のオンラインインタラクティブなデモを行い, 自己校正が可能となる重要な概念と仮定を紹介する。 我々は脳-コンピュータインタフェースの分野での関連研究をレビューし、肩サーフィン攻撃からユーザを保護する新しいアプローチとして自己校正を提案する。 最後に,本研究所で非公式に実施したユーザビリティとセキュリティテストとして,vault cracking challengeを紹介する。 IFTT-PINでは、ユーザーがインターフェイスの使い方を積極的に、そしてオンザフライで決定できる新しいインタラクティブ体験を実証したい。 自己校正パラダイムは、他のアプリケーションやドメインで相互作用する新しい機会をもたらすかもしれない。 この取り組みがコミュニティにイノベーションを起こさせることを期待しています。

IFTT-PIN is a self-calibrating version of the PIN-entry method introduced in Roth et al. (2004) [1]. In [1], digits are split into two sets and assigned a color respectively. To communicate their digit, users press the button with the same color that is assigned to their digit, which can thus be identified by elimination after a few iterations. IFTT-PIN uses the same principle but does not pre-assign colors to each button. Instead, users are free to choose which button to use for each color. The button-to-color mapping only exists in the user's mind and is never directly communicated to the interface. In other words, IFTT-PIN infers both the user's PIN and their preferred button-to-color mapping at the same time, a process called self-calibration. In this paper, we present online interactive demonstrations of IFTT-PIN (available at https://github.com/jgrizou/IFTT-PIN), with and without self-calibration, and introduce the key concepts and assumptions making self-calibration possible. We review related work in the field of brain-computer interface and further propose self-calibration as a novel approach to protect users against shoulder surfing attacks. Finally, we introduce a vault cracking challenge as a test of usability and security that was informally tested at our institute. With IFTT-PIN, we wish to demonstrate a new interactive experience where users can decide actively and on-the-fly how to use an interface. The self-calibration paradigm might lead to novel opportunities for interaction in other applications or domains. We hope this work will inspire the community to invent them.
翻訳日:2022-05-20 14:16:47 公開日:2022-05-19
# aiメカニック:音響車両によるニューラルネットワークのキャラクタリゼーション

The AI Mechanic: Acoustic Vehicle Characterization Neural Networks ( http://arxiv.org/abs/2205.09667v1 )

ライセンス: Link先を確認
Adam M. Terwilliger, Joshua E. Siegel(参考訳) 道路交通にますます依存する世界では、車両を理解することが不可欠である。 我々は,自動車の透明性と理解を高めるため,モバイルデバイスから取得した音声と,非専門家ユーザに対するその状況の統合アプローチとして,音響車両の特徴的深層学習システムであるAIメカニックを紹介した。 車両理解のための新しいカスケードアーキテクチャを開発し,実装し,高粒度のインサイトを抽出するために生音声を処理するシーケンシャルで条件付きマルチレベルネットワークと定義する。 カスケードアーキテクチャの実現可能性を示すために,車両特性を予測・カスケードするマルチタスク畳み込みニューラルネットワークを構築し,故障検出を強化する。 これらのモデルを40時間以上の拡張オーディオを反映した合成データセットでトレーニングおよびテストし,属性(燃料タイプ,エンジン構成,シリンダー数,吸引型)の検証精度を92%以上達成した。 我々のカスケーディングアーキテクチャは、さらに93.6%の検証と86.8%のテストセットの正確さを達成し、16.4%/7.8%と4.2%/1.5%のマージンを示した。 本研究では,音響的特徴,データ拡張,特徴融合,データの信頼性に着目した実験研究を行う。 最後に、この作業の幅広い意味、将来の方向性、アプリケーション領域について議論を締めくくります。

In a world increasingly dependent on road-based transportation, it is essential to understand vehicles. We introduce the AI mechanic, an acoustic vehicle characterization deep learning system, as an integrated approach using sound captured from mobile devices to enhance transparency and understanding of vehicles and their condition for non-expert users. We develop and implement novel cascading architectures for vehicle understanding, which we define as sequential, conditional, multi-level networks that process raw audio to extract highly-granular insights. To showcase the viability of cascading architectures, we build a multi-task convolutional neural network that predicts and cascades vehicle attributes to enhance fault detection. We train and test these models on a synthesized dataset reflecting more than 40 hours of augmented audio and achieve >92% validation set accuracy on attributes (fuel type, engine configuration, cylinder count and aspiration type). Our cascading architecture additionally achieved 93.6% validation and 86.8% test set accuracy on misfire fault prediction, demonstrating margins of 16.4% / 7.8% and 4.2% / 1.5% improvement over na\"ive and parallel baselines. We explore experimental studies focused on acoustic features, data augmentation, feature fusion, and data reliability. Finally, we conclude with a discussion of broader implications, future directions, and application areas for this work.
翻訳日:2022-05-20 14:16:20 公開日:2022-05-19
# 連続時間ネットワークのための相互励磁型ラテント・スペースホークスプロセスモデル

A Mutually Exciting Latent Space Hawkes Process Model for Continuous-time Networks ( http://arxiv.org/abs/2205.09263v1 )

ライセンス: Link先を確認
Zhipeng Huang, Hadeel Soliman, Subhadeep Paul, Kevin S. Xu(参考訳) ネットワークとテンポラリポイントプロセスは、様々なドメインにおける複雑な動的関係データをモデリングするための基本的な構成要素として機能する。 本稿では,ノードの潜在空間表現を用いて,関係イベントの連続時間ネットワークのための新しい生成モデルであるlsh(latent space hawkes)モデルを提案する。 我々は,各ノード間の関係イベントを,潜時空間のノードと送信側と受信側との距離に依存するベースライン強度を持つ相互刺激的ホークスプロセスを用いてモデル化する。 本稿では,ノードの潜在位置と他のモデルパラメータを同時推定する交互最小化アルゴリズムを提案する。 提案するlshモデルは,相互性や推移性といった実時間ネットワークで観測される多くの特徴を再現できると同時に,予測精度が優れ,既存のモデルよりも解釈性が向上することを示す。

Networks and temporal point processes serve as fundamental building blocks for modeling complex dynamic relational data in various domains. We propose the latent space Hawkes (LSH) model, a novel generative model for continuous-time networks of relational events, using a latent space representation for nodes. We model relational events between nodes using mutually exciting Hawkes processes with baseline intensities dependent upon the distances between the nodes in the latent space and sender and receiver specific effects. We propose an alternating minimization algorithm to jointly estimate the latent positions of the nodes and other model parameters. We demonstrate that our proposed LSH model can replicate many features observed in real temporal networks including reciprocity and transitivity, while also achieves superior prediction accuracy and provides more interpretability compared to existing models.
翻訳日:2022-05-20 14:15:54 公開日:2022-05-19
# 微分プライベートリーマン最適化

Differentially private Riemannian optimization ( http://arxiv.org/abs/2205.09494v1 )

ライセンス: Link先を確認
Andi Han, Bamdev Mishra, Pratik Jawanpuria, Junbin Gao(参考訳) 本稿では、パラメータがリーマン多様体に制約される微分プライベートな経験的リスク最小化問題について検討する。 接空間上のリーマン勾配に雑音を加えることにより、微分プライベートリーマン最適化の枠組みを導入する。 このノイズは本質的にリーマン計量に関して定義されるガウス分布に従う。 ユークリッド空間からそのような一般化されたガウス分布に相反する接空間にガウスの機構を適用する。 この戦略は、多様体に直接雑音を加えるよりも単純な解析であることを示す。 さらに,モーメント・アカウンタラント手法の拡張を用いて,提案する微分的リーマン(確率的)勾配降下のプライバシー保証を示す。 さらに、測地的(強)凸、一般非凸目的、およびリーマン的ポリアック-{\L}ojasiewicz条件の下で有効性を保証する。 いくつかのアプリケーションで提案手法の有効性を示す。

In this paper, we study the differentially private empirical risk minimization problem where the parameter is constrained to a Riemannian manifold. We introduce a framework of differentially private Riemannian optimization by adding noise to the Riemannian gradient on the tangent space. The noise follows a Gaussian distribution intrinsically defined with respect to the Riemannian metric. We adapt the Gaussian mechanism from the Euclidean space to the tangent space compatible to such generalized Gaussian distribution. We show that this strategy presents a simple analysis as compared to directly adding noise on the manifold. We further show privacy guarantees of the proposed differentially private Riemannian (stochastic) gradient descent using an extension of the moments accountant technique. Additionally, we prove utility guarantees under geodesic (strongly) convex, general nonconvex objectives as well as under the Riemannian Polyak-{\L}ojasiewicz condition. We show the efficacy of the proposed framework in several applications.
翻訳日:2022-05-20 14:15:38 公開日:2022-05-19
# 集中した敵の攻撃

Focused Adversarial Attacks ( http://arxiv.org/abs/2205.09624v1 )

ライセンス: Link先を確認
Thomas Cilloni and Charles Walter and Charles Fleming(参考訳) 機械学習の最近の進歩は、ニューラルモデルが最小限の摂動入力や逆例に弱いことを示している。 逆アルゴリズム(adversarial algorithms)は、入力を摂動させることでmlモデルの精度を最小化する最適化問題である。 最先端のオブジェクト検出モデルは、画像中のオブジェクトの位置とサイズが考えられるため、非常に大きな出力多様体によって特徴づけられる。 この結果、出力はスパースであり、不必要な計算を大量に発生させる最適化問題に繋がる。 我々は、モデルの学習多様体の非常に限られた部分集合を用いて、逆の例を計算することを提案する。 当社の \textit{focus adversarial attacks} (fa)アルゴリズムは,勾配に基づく逆攻撃を行うために,機密領域のごく一部を識別する。 FAは、モデルの多様体がわずかに活性化された場合、他の勾配ベースの攻撃よりもはるかに高速である。 また、その摂動は同じ摂動制約下の他の方法よりも効率的である。 我々はCOCO 2017およびPascal VOC 2007検出データセット上でFAを評価する。

Recent advances in machine learning show that neural models are vulnerable to minimally perturbed inputs, or adversarial examples. Adversarial algorithms are optimization problems that minimize the accuracy of ML models by perturbing inputs, often using a model's loss function to craft such perturbations. State-of-the-art object detection models are characterized by very large output manifolds due to the number of possible locations and sizes of objects in an image. This leads to their outputs being sparse and optimization problems that use them incur a lot of unnecessary computation. We propose to use a very limited subset of a model's learned manifold to compute adversarial examples. Our \textit{Focused Adversarial Attacks} (FA) algorithm identifies a small subset of sensitive regions to perform gradient-based adversarial attacks. FA is significantly faster than other gradient-based attacks when a model's manifold is sparsely activated. Also, its perturbations are more efficient than other methods under the same perturbation constraints. We evaluate FA on the COCO 2017 and Pascal VOC 2007 detection datasets.
翻訳日:2022-05-20 14:13:28 公開日:2022-05-19
# k-strip:頭蓋骨ストリッピングへの応用のためのk-spaceにおける新しいセグメンテーションアルゴリズム

k-strip: A novel segmentation algorithm in k-space for the application of skull stripping ( http://arxiv.org/abs/2205.09706v1 )

ライセンス: Link先を確認
Moritz Rempe, Florian Mentzel, Kelsey L. Pomykala, Johannes Haubold, Felix Nensa, Kevin Kr\"oninger, Jan Egger, Jens Kleesiek(参考訳) 目的: 情報豊富なk空間で直接動作するMRIのための新しい深層学習ベースの頭蓋骨ストリッピングアルゴリズムを提案する。 材料と方法: 合計36,900個のMRIスライスを持つ異なる機関の2つのデータセットを使用して、複雑な生のk空間データを直接扱うためのディープラーニングベースのモデルを訓練した。 画像領域におけるHD-BET (Brain extract Tool) によるスカルストリップを基礎として用いた。 結果:両データセットは地上の真実と非常によく似ていた(DICEスコアは92\%-98\%、ハウスドルフ距離は5.5mm)。 眼領域の上のスライスは最大99\%のdiceスコアに達し、その精度は眼の周囲と下の領域で低下し、部分的にぼやけた出力となる。 kストリップの出力は、しばしば頭蓋骨への区切りの端を滑らかにした。 バイナリマスクは適切なしきい値で生成される。 結論: この概念実証研究により, k空間周波数領域での作業の実現可能性を示し, 相情報を保持し, 一貫した結果を得た。 将来の研究は、k空間を革新的な画像分析やさらなるワークフローに利用できる方法を見つけることに集中すべきである。

Objectives: Present a novel deep learning-based skull stripping algorithm for magnetic resonance imaging (MRI) that works directly in the information rich k-space. Materials and Methods: Using two datasets from different institutions with a total of 36,900 MRI slices, we trained a deep learning-based model to work directly with the complex raw k-space data. Skull stripping performed by HD-BET (Brain Extraction Tool) in the image domain were used as the ground truth. Results: Both datasets were very similar to the ground truth (DICE scores of 92\%-98\% and Hausdorff distances of under 5.5 mm). Results on slices above the eye-region reach DICE scores of up to 99\%, while the accuracy drops in regions around the eyes and below, with partially blurred output. The output of k-strip often smoothed edges at the demarcation to the skull. Binary masks are created with an appropriate threshold. Conclusion: With this proof-of-concept study, we were able to show the feasibility of working in the k-space frequency domain, preserving phase information, with consistent results. Future research should be dedicated to discovering additional ways the k-space can be used for innovative image analysis and further workflows.
翻訳日:2022-05-20 14:13:14 公開日:2022-05-19
# オンラインモデレーションのためのパーソナライズされた介入

Personalized Interventions for Online Moderation ( http://arxiv.org/abs/2205.09462v1 )

ライセンス: Link先を確認
Stefano Cresci, Amaury Trujillo, Tiziano Fagni(参考訳) 現在のオンラインモデレーションは、すべてのユーザに同じ方法で介入を適用する、ワンサイズのアプローチに従っている。 このナイーブなアプローチは、確立された社会行動理論や、そのような介入の限られた効果を示す最近の実証的な結果によって挑戦される。 オンラインモデレーションにおけるパラダイムシフトを,パーソナライズされたユーザ中心のアプローチに移行して提案する。 コンピュータ科学、社会学、心理学といった様々な分野における最先端の理論と実践を組み合わせて、パーソナライズドモデレーション介入(pmis)を設計する。 次世代のモデレーション介入への道筋を概説する中で、このような破壊的変化によってもたらされる最も顕著な課題についても論じる。

Current online moderation follows a one-size-fits-all approach, where each intervention is applied in the same way to all users. This naive approach is challenged by established socio-behavioral theories and by recent empirical results that showed the limited effectiveness of such interventions. We propose a paradigm-shift in online moderation by moving towards a personalized and user-centered approach. Our multidisciplinary vision combines state-of-the-art theories and practices in diverse fields such as computer science, sociology and psychology, to design personalized moderation interventions (PMIs). In outlining the path leading to the next-generation of moderation interventions, we also discuss the most prominent challenges introduced by such a disruptive change.
翻訳日:2022-05-20 14:12:52 公開日:2022-05-19
# エンドツーエンド生成システムにおけるサブタイトルセグメンテーションの評価

Evaluating Subtitle Segmentation for End-to-end Generation Systems ( http://arxiv.org/abs/2205.09360v1 )

ライセンス: Link先を確認
Alina Karakanta and Fran\c{c}ois Buet and Mauro Cettolo and Fran\c{c}ois Yvon(参考訳) 字幕は、形式的な制約(長さ)と構文・意味的基準に基づいて区切られた短いテキストとして画面に表示される。 サブタイトルセグメンテーションは、人間の参照に対するシーケンスセグメンテーションメトリクスで評価することができる。 しかし、標準的なセグメンテーションメトリクスは、システムが参照とは異なる出力を生成する場合、例えばエンドツーエンドのサブトリングシステムでは適用できない。 本稿では,テキストの内容に関わらず,セグメンテーション精度の基準に基づく評価を行う方法について検討する。 まず,字幕セグメンテーションを評価するために既存の指標を体系的に分析する。 次に、セグメンテーション境界上のBLEUの近似上界から派生した新しいサブタイトルセグメンテーションスコアである$Sigma$を導入し、テキスト品質からセグメンテーションの効果を解消する。 既存のメトリクスと$Sigma$を比較するために、不完全仮説から真の基準への境界射影法を提案する。 結果は、すべてのメトリクスが高品質な出力を報奨できることを示しているが、類似の出力システムランキングは、各メトリックのエラータイプに対する感度に依存する。 Sigma$は有望なセグメンテーション候補であるが、他のセグメンテーション指標に対する信頼性は人間の判断と相関して検証される。

Subtitles appear on screen as short pieces of text, segmented based on formal constraints (length) and syntactic/semantic criteria. Subtitle segmentation can be evaluated with sequence segmentation metrics against a human reference. However, standard segmentation metrics cannot be applied when systems generate outputs different than the reference, e.g. with end-to-end subtitling systems. In this paper, we study ways to conduct reference-based evaluations of segmentation accuracy irrespective of the textual content. We first conduct a systematic analysis of existing metrics for evaluating subtitle segmentation. We then introduce $Sigma$, a new Subtitle Segmentation Score derived from an approximate upper-bound of BLEU on segmentation boundaries, which allows us to disentangle the effect of good segmentation from text quality. To compare $Sigma$ with existing metrics, we further propose a boundary projection method from imperfect hypotheses to the true reference. Results show that all metrics are able to reward high quality output but for similar outputs system ranking depends on each metric's sensitivity to error type. Our thorough analyses suggest $Sigma$ is a promising segmentation candidate but its reliability over other segmentation metrics remains to be validated through correlations with human judgements.
翻訳日:2022-05-20 14:10:20 公開日:2022-05-19
# オープンドメインQAのための2段階質問検索

Two-Step Question Retrieval for Open-Domain QA ( http://arxiv.org/abs/2205.09393v1 )

ライセンス: Link先を確認
Yeon Seonwoo, Juhee Son, Jiho Jin, Sang-Woo Lee, Ji-Hoon Kim, Jung-Woo Ha, Alice Oh(参考訳) retriever-readerパイプラインは、オープンドメインのQAで有望なパフォーマンスを示しているが、非常に遅い推論速度に悩まされている。 近年,質問回答ペアをインデックス化し,類似した質問を検索することで,この問題に対処する。 これらのモデルでは推論速度が大幅に向上するが、レトリバー・リーダーモデルと比較してQA性能が低下する。 本稿では,2段階の質問検索モデルであるSQuID(Sequential Question-Indexed Dense Search)と遠隔指導によるトレーニングを提案する。 SQuIDは質問検索に2つのバイエンコーダを使用する。 第1ステップ検索者はトップk類似質問を選択し、第2ステップ検索者はトップk類似質問の中から最も類似した質問を求める。 我々はSQuIDの性能と計算効率を評価する。 その結果,squidは推定速度を損なうことなく,既存の質問検索モデルの性能を大幅に向上させることがわかった。

The retriever-reader pipeline has shown promising performance in open-domain QA but suffers from a very slow inference speed. Recently proposed question retrieval models tackle this problem by indexing question-answer pairs and searching for similar questions. These models have shown a significant increase in inference speed, but at the cost of lower QA performance compared to the retriever-reader models. This paper proposes a two-step question retrieval model, SQuID (Sequential Question-Indexed Dense retrieval) and distant supervision for training. SQuID uses two bi-encoders for question retrieval. The first-step retriever selects top-k similar questions, and the second-step retriever finds the most similar question from the top-k questions. We evaluate the performance and the computational efficiency of SQuID. The results show that SQuID significantly increases the performance of existing question retrieval models with a negligible loss on inference speed.
翻訳日:2022-05-20 14:09:57 公開日:2022-05-19
# 単純かつ効果的な関係情報誘導手法によるマイトショット関係抽出

A Simple yet Effective Relation Information Guided Approach for Few-Shot Relation Extraction ( http://arxiv.org/abs/2205.09536v1 )

ライセンス: Link先を確認
Yang Liu, Jinpeng Hu, Xiang Wan, Tsung-Hui Chang(参考訳) 限定的関係抽出は、各関係のいくつかのラベル付き例を訓練することにより、文中の一対のエンティティの関係を予測することを目的としている。 近年,プロトタイプネットワークを用いたモデル学習を支援する関係情報(関係ラベルや記述)が導入されている。 しかし、それらの多くは、関係クラスのプロトタイプを暗黙的に関係情報に制約しており、一般的には、ハイブリッドな特徴の生成や、対照的な学習や注意ネットワークの組み合わせなど、複雑なネットワーク構造を設計している。 関係情報はモデルにより明確かつ効果的に導入できると主張している。 そこで本稿では,関係情報を導入するための直接追加手法を提案する。 具体的には、関係クラスごとに、2つの関係のビュー([cls]トークンの埋め込みとすべてのトークンの埋め込みの平均値)を結合して関係表現を生成し、その後、トレーニングと予測の両方のために元のプロトタイプに直接追加する。 ベンチマークデータセットであるFewRel 1.0の実験結果は、大幅な改善と、提案手法の有効性を示す最先端技術に匹敵する結果が得られた。 さらに、さらなる分析により、直接加算が関係表現と原型を統合するためのより効果的な方法であることを検証した。

Few-Shot Relation Extraction aims at predicting the relation for a pair of entities in a sentence by training with a few labelled examples in each relation. Some recent works have introduced relation information (i.e., relation labels or descriptions) to assist model learning based on Prototype Network. However, most of them constrain the prototypes of each relation class implicitly with relation information, generally through designing complex network structures, like generating hybrid features, combining with contrastive learning or attention networks. We argue that relation information can be introduced more explicitly and effectively into the model. Thus, this paper proposes a direct addition approach to introduce relation information. Specifically, for each relation class, the relation representation is first generated by concatenating two views of relations (i.e., [CLS] token embedding and the mean value of embeddings of all tokens) and then directly added to the original prototype for both train and prediction. Experimental results on the benchmark dataset FewRel 1.0 show significant improvements and achieve comparable results to the state-of-the-art, which demonstrates the effectiveness of our proposed approach. Besides, further analyses verify that the direct addition is a much more effective way to integrate the relation representations and the original prototypes.
翻訳日:2022-05-20 14:09:40 公開日:2022-05-19
# SNaC: ナラティブ要約のためのコヒーレンスエラー検出

SNaC: Coherence Error Detection for Narrative Summarization ( http://arxiv.org/abs/2205.09641v1 )

ライセンス: Link先を確認
Tanya Goyal, Junyi Jessy Li, Greg Durrett(参考訳) 長文要約の進展は適切な評価フレームワークの欠如によって抑制される。 テキストの面を適切にカバーするために長い要約を作成しなければならない場合、その要約は読者が理解できる一貫性のある物語を提示する必要があるが、現在の自動的および人的評価法は一貫性のギャップを識別できない。 本研究では,長い要約の細かいアノテーションに根ざした物語コヒーレンス評価フレームワークであるSNaCを紹介する。 生成したナラティブ要約におけるコヒーレンスエラーの分類法を開発し,150冊の書籍および映画脚本要約において6,6k文のスパンレベルアノテーションを収集する。 我々の研究は、最先端の要約モデルによって生成されるコヒーレンスエラーの最初の特徴と、群衆アノテータからコヒーレンス判断を引き出すプロトコルを提供する。 さらに、収集したアノテーションにより、生成した要約中のコヒーレンスエラーを自動的にローカライズし、コヒーレンスモデリングにおける過去の作業をベンチマークする強力な分類器を訓練できることを示す。 最後に、SNaCフレームワークは、文書要約およびコヒーレンス評価における将来の作業を支援することができる。

Progress in summarizing long texts is inhibited by the lack of appropriate evaluation frameworks. When a long summary must be produced to appropriately cover the facets of that text, that summary needs to present a coherent narrative to be understandable by a reader, but current automatic and human evaluation methods fail to identify gaps in coherence. In this work, we introduce SNaC, a narrative coherence evaluation framework rooted in fine-grained annotations for long summaries. We develop a taxonomy of coherence errors in generated narrative summaries and collect span-level annotations for 6.6k sentences across 150 book and movie screenplay summaries. Our work provides the first characterization of coherence errors generated by state-of-the-art summarization models and a protocol for eliciting coherence judgments from crowd annotators. Furthermore, we show that the collected annotations allow us to train a strong classifier for automatically localizing coherence errors in generated summaries as well as benchmarking past work in coherence modeling. Finally, our SNaC framework can support future work in long document summarization and coherence evaluation, including improved summarization modeling and post-hoc summary correction.
翻訳日:2022-05-20 14:07:24 公開日:2022-05-19
# Few-shotダイアログ生成のための自己拡張データ選択

Self-augmented Data Selection for Few-shot Dialogue Generation ( http://arxiv.org/abs/2205.09661v1 )

ライセンス: Link先を確認
Wanyu Du, Hanjie Chen, Yangfeng Ji(参考訳) タスク指向対話システムにおける自然言語生成(NLG)モジュールは、構造化された意味表現(MR)をテキスト応答に変換する。 しかし、実際には、開発者は少ない注釈付きデータしか持たず、nlgモジュールを構築するための高いデータ収集コストに直面します。 本研究では,テキスト生成問題に対処するために,自己学習フレームワークを採用する。 我々は、事前学習された言語モデルを利用して、多くの擬似ラベルデータを提供する。 ターゲットデータ分布からノイズの多い拡張データ分布への漸進的ドリフトを防止するため,我々は生成モデルが最も不確実なデータを選択する新しいデータ選択戦略を提案する。 既存のデータ選択法と比較して,(1)パラメータ効率,(2)追加のニューラルモデルを訓練する必要のない,(2)計算効率,2)不確実性を推定するために,モデルの確率的前方通過を適用するだけでよい。 FewShotWOZとFewShotSGDという2つのベンチマークデータセット上で実証実験を行い、提案フレームワークがBLEUとERRの点で他のベースラインを一貫して上回っていることを示す。

The natural language generation (NLG) module in task-oriented dialogue systems translates structured meaning representations (MRs) into text responses, which has a great impact on users' experience as the human-machine interaction interface. However, in practice, developers often only have a few well-annotated data and confront a high data collection cost to build the NLG module. In this work, we adopt the self-training framework to deal with the few-shot MR-to-Text generation problem. We leverage the pre-trained language model to self-augment many pseudo-labeled data. To prevent the gradual drift from target data distribution to noisy augmented data distribution, we propose a novel data selection strategy to select the data that our generation model is most uncertain about. Compared with existing data selection methods, our method is: (1) parameter-efficient, which does not require training any additional neural models, (2) computation-efficient, which only needs to apply several stochastic forward passes of the model to estimate the uncertainty. We conduct empirical experiments on two benchmark datasets: FewShotWOZ and FewShotSGD, and show that our proposed framework consistently outperforms other baselines in terms of BLEU and ERR.
翻訳日:2022-05-20 14:07:02 公開日:2022-05-19
# マルチエージェント強化学習におけるsparse adversarial attack

Sparse Adversarial Attack in Multi-agent Reinforcement Learning ( http://arxiv.org/abs/2205.09362v1 )

ライセンス: Link先を確認
Yizheng Hu, Zhihua Zhang(参考訳) 協調型マルチエージェント強化学習(cMARL)は多くの実応用があるが、既存のcMARLアルゴリズムで訓練されたポリシーは、デプロイ時に十分に堅牢ではない。 RL系に対する敵攻撃には多くの方法があり、RL系は敵攻撃に苦しむ可能性があるが、そのほとんどは単一のエージェントRLに焦点を当てている。 本稿では,cMARLシステム上でのtextit{sparse adversarial attack}を提案する。 我々は(MA)RLを正規化して攻撃ポリシーを訓練する。 実験の結果、現在のcMARLアルゴリズムで訓練されたポリシーは、チーム内のエージェントが1人または数人(例:8人中1人、25人中5人)に数回(例:40人中3人)攻撃された場合、性能が劣ることがわかった。

Cooperative multi-agent reinforcement learning (cMARL) has many real applications, but the policy trained by existing cMARL algorithms is not robust enough when deployed. There exist also many methods about adversarial attacks on the RL system, which implies that the RL system can suffer from adversarial attacks, but most of them focused on single agent RL. In this paper, we propose a \textit{sparse adversarial attack} on cMARL systems. We use (MA)RL with regularization to train the attack policy. Our experiments show that the policy trained by the current cMARL algorithm can obtain poor performance when only one or a few agents in the team (e.g., 1 of 8 or 5 of 25) were attacked at a few timesteps (e.g., attack 3 of total 40 timesteps).
翻訳日:2022-05-20 14:05:59 公開日:2022-05-19
# 雑音に対するロバスト調整のための分散マルチエージェント深部強化学習

Distributed Multi-Agent Deep Reinforcement Learning for Robust Coordination against Noise ( http://arxiv.org/abs/2205.09705v1 )

ライセンス: Link先を確認
Yoshinari Motokawa and Toshiharu Sugawara(参考訳) マルチエージェントシステムでは,周囲のエージェントとの協調的協調行動を促進するために,限られた環境情報に頼らなければならないため,システム全体の信頼性を向上させるためにノイズ低減技術が重要である。 しかし、従来の研究では、雑音の多いマルチエージェント環境においてロバストで多用途な協調を構築するために集中型ノイズ低減法を適用してきた。 本稿では,多エージェントシステム(DA3-X)のための<emph{distributed attentional actor architecture model(DA3-X)を紹介し,DA3-Xを持つエージェントが雑音環境を選択的に学習し,協調して振る舞うことを実証する。 DA3-Xの学習方法とDA3-Xの有無を比較し,DA3-Xのエージェントがベースラインエージェントよりも優れた性能が得られることを示す。 さらに,DA3-Xから<emph{attentional weights</e>の熱マップを可視化し,決定過程と協調行動がノイズに与える影響を分析する。

In multi-agent systems, noise reduction techniques are important for improving the overall system reliability as agents are required to rely on limited environmental information to develop cooperative and coordinated behaviors with the surrounding agents. However, previous studies have often applied centralized noise reduction methods to build robust and versatile coordination in noisy multi-agent environments, while distributed and decentralized autonomous agents are more plausible for real-world application. In this paper, we introduce a \emph{distributed attentional actor architecture model for a multi-agent system} (DA3-X), using which we demonstrate that agents with DA3-X can selectively learn the noisy environment and behave cooperatively. We experimentally evaluate the effectiveness of DA3-X by comparing learning methods with and without DA3-X and show that agents with DA3-X can achieve better performance than baseline agents. Furthermore, we visualize heatmaps of \emph{attentional weights} from the DA3-X to analyze how the decision-making process and coordinated behavior are influenced by noise.
翻訳日:2022-05-20 14:05:42 公開日:2022-05-19
# AIGenC:創造性によるAIの一般化

AIGenC: AI generalisation via creativity ( http://arxiv.org/abs/2205.09738v1 )

ライセンス: Link先を確認
Corina Catarau-Cotutiu, Esther Mondragon, Eduardo Alonso(参考訳) 本稿では,創造性の認知理論に触発された深層強化学習エージェントにおける創造的問題解決の計算モデルを提案する。 AIGenCモデルは、人工エージェントが変換可能な表現を学習、使用、生成できるようにすることを目的としている。 AIGenCは、概念処理、反射的推論、概念のブレンドという3つの主要なコンポーネントを含むディープラーニングアーキテクチャに組み込まれている。 第1のコンポーネントは、知覚入力からオブジェクトとアフォーアンスを抽出し、それらを階層グラフ構造として表される概念空間にエンコードする。 概念表現は二重メモリシステムに格納される。 深層強化学習中にエージェントが取得した目標指向および時間的情報は、概念空間において高いレベルの抽象化を生み出す表現を豊かにする。 並行して、リフレクション推論に類似したプロセスは、現在の状態とメモリグラフ構造との類似度値を計算するマッチングプロセスに従って、タスクに関連するメモリ概念を検出して回復する。 インタラクションが終了すると、報酬と時間情報がグラフ構造に追加され、より高い抽象化レベルが生成される。 反射的推論が適切なソリューションを提供できない場合、過去の情報を組み合わせることで新しい概念を創出するブレンディングプロセスが発生する。 本稿では, 人工エージェントのアウト・オブ・ディストリビューション・ジェネレーションを向上するモデルの能力について論じる。 私たちの知る限りでは、これは単なる形式理論を超えた初めての計算モデルであり、深層学習アーキテクチャにおける創造的な問題解決の解決策となる。

This paper introduces a computational model of creative problem-solving in deep reinforcement learning agents, inspired by cognitive theories of creativity. The AIGenC model aims at enabling artificial agents to learn, use and generate transferable representations. AIGenC is embedded in a deep learning architecture that includes three main components: concept processing, reflective reasoning, and blending of concepts. The first component extracts objects and affordances from sensory input and encodes them in a concept space, represented as a hierarchical graph structure. Concept representations are stored in a dual memory system. Goal-directed and temporal information acquired by the agent during deep reinforcement learning enriches the representations creating a higher level of abstraction in the concept space. In parallel, a process akin to reflective reasoning detects and recovers from memory concepts relevant to the task according to a matching process that calculates a similarity value between the current state and memory graph structures. Once an interaction is finalised, rewards and temporal information are added to the graph structure, creating a higher abstraction level. If reflective reasoning fails to offer a suitable solution, a blending process comes into place to create new concepts by combining past information. We discuss the model's capability to yield better out-of-distribution generalisation in artificial agents, thus advancing toward artificial general intelligence. To the best of our knowledge, this is the first computational model, beyond mere formal theories, that posits a solution to creative problem solving within a deep learning architecture.
翻訳日:2022-05-20 14:05:21 公開日:2022-05-19
# セルフスーパービジョン蒸留による手術ビデオ理解のためのフリーランチ

Free Lunch for Surgical Video Understanding by Distilling Self-Supervisions ( http://arxiv.org/abs/2205.09292v1 )

ライセンス: Link先を確認
Xinpeng Ding, Ziwei Liu and Xiaomeng Li(参考訳) 自己教師型学習は視力とNLPの進歩を目の当たりにしており、最近ではX線、CT、MRIといった様々な医学的画像モダリティにも注目が集まっている。 既存の手法は主に、医用画像の特性に応じて、再構築、配向、マスキング識別などの新しいプリテキスト・セルフ・スーパービジョン・タスクを構築することに焦点を当てている。 しかし、公に入手可能なセルフスーパービジョンモデルは十分に活用されていない。 本稿では,外科的ビデオ理解のための強力な自己監督フレームワークを提案する。 私たちの重要な洞察は、大きなジェネリックデータセット4でトレーニングされた公開モデルから知識を抽出し、手術ビデオの自己監督学習を促進することです。 この目的のために,我々はまず,教師モデルを得るための意味保存トレーニングスキームを導入する。 また, コントラスト学習のみによる学習に加えて, リッチな学習情報を教師モデルから手術データに基づく自己監督学習へ伝達する蒸留目的も紹介する。 2つの手術段階認識ベンチマークに関する広範囲な実験により,既存の自己教師あり学習法の性能が大幅に向上することを示した。 特に、私たちのフレームワークは低データ体制下で魅力的な優位性を示しています。 私たちのコードはhttps://github.com/xmed-lab/distillingselfで利用可能です。

Self-supervised learning has witnessed great progress in vision and NLP; recently, it also attracted much attention to various medical imaging modalities such as X-ray, CT, and MRI. Existing methods mostly focus on building new pretext self-supervision tasks such as reconstruction, orientation, and masking identification according to the properties of medical images. However, the publicly available self-supervision models are not fully exploited. In this paper, we present a powerful yet efficient self-supervision framework for surgical video understanding. Our key insight is to distill knowledge from publicly available models trained on large generic datasets4 to facilitate the self-supervised learning of surgical videos. To this end, we first introduce a semantic-preserving training scheme to obtain our teacher model, which not only contains semantics from the publicly available models, but also can produce accurate knowledge for surgical data. Besides training with only contrastive learning, we also introduce a distillation objective to transfer the rich learned information from the teacher model to self-supervised learning on surgical data. Extensive experiments on two surgical phase recognition benchmarks show that our framework can significantly improve the performance of existing self-supervised learning methods. Notably, our framework demonstrates a compelling advantage under a low-data regime. Our code is available at https://github.com/xmed-lab/DistillingSelf.
翻訳日:2022-05-20 14:04:11 公開日:2022-05-19
# 3dconvcaps: 医用画像分割用畳み込みカプセルエンコーダ付き3デュネット

3DConvCaps: 3DUnet with Convolutional Capsule Encoder for Medical Image Segmentation ( http://arxiv.org/abs/2205.09299v1 )

ライセンス: Link先を確認
Minh Tran, Viet-Khoa Vo-Ho, Ngan T.H. Le(参考訳) 畳み込みニューラルネットワーク(CNN)は医療画像セグメンテーションにおいて有望な成果を上げている。 しかし、CNNは大量のトレーニングデータを必要とし、オブジェクトのポーズや変形を処理できない。 さらに、それらのプール層は、回転やアフィン変換に敏感な位置やcnnなどの重要な情報を捨てる傾向がある。 capsule networkは、プール層を動的ルーティングと畳み込みステップに置き換えることで、部分表現学習におけるロバスト性が向上した最近の新しいアーキテクチャであり、数字の分類やオブジェクトのセグメンテーションといった一般的なタスクで潜在的な結果を示している。 本稿では,畳み込み層で低レベル特徴(短距離注意)を学習し,カプセル層で高レベル特徴(長距離依存)をモデル化する,畳み込みカプセルエンコーダネットワーク(3DConvCaps)を提案する。 iseg-2017、海馬、心臓など複数のデータセットに関する実験では、3dconvcapsネットワークが従来のカプセルネットワークや3d-unetsを大きく上回っていることが示されています。 さらに,畳み込み層およびカプセル層の収縮および伸長経路における種々の構成下でのネットワーク効率およびセグメント化性能のアブレーション研究を行う。

Convolutional Neural Networks (CNNs) have achieved promising results in medical image segmentation. However, CNNs require lots of training data and are incapable of handling pose and deformation of objects. Furthermore, their pooling layers tend to discard important information such as positions as well as CNNs are sensitive to rotation and affine transformation. Capsule network is a recent new architecture that has achieved better robustness in part-whole representation learning by replacing pooling layers with dynamic routing and convolutional strides, which has shown potential results on popular tasks such as digit classification and object segmentation. In this paper, we propose a 3D encoder-decoder network with Convolutional Capsule Encoder (called 3DConvCaps) to learn lower-level features (short-range attention) with convolutional layers while modeling the higher-level features (long-range dependence) with capsule layers. Our experiments on multiple datasets including iSeg-2017, Hippocampus, and Cardiac demonstrate that our 3D 3DConvCaps network considerably outperforms previous capsule networks and 3D-UNets. We further conduct ablation studies of network efficiency and segmentation performance under various configurations of convolution layers and capsule layers at both contracting and expanding paths.
翻訳日:2022-05-20 14:03:49 公開日:2022-05-19
# ビデオキャプションのためのサポートセットに基づくマルチモーダル表現強調

Support-set based Multi-modal Representation Enhancement for Video Captioning ( http://arxiv.org/abs/2205.09307v1 )

ライセンス: Link先を確認
Xiaoya Chen, Jingkuan Song, Pengpeng Zeng, Lianli Gao and Heng Tao Shen(参考訳) ビデオキャプションは、視覚シーンの徹底的な理解を必要とする課題である。 既存の手法は、サンプル間の内在的な意味関係を無視しながら、限られたサンプル空間に集中する典型的な1対1のマッピングに従う。 この問題に対処するため,我々は,サンプル間で共有される意味的部分空間にリッチな情報をマイニングするサポートセットベースのマルチモーダル表現拡張(smre)モデルを提案する。 具体的には、サンプル間の基礎となる関係を学習し、意味的関連視覚要素を得るためのサポートセットを構築するためのサポートセット構築(SC)モジュールを提案する。 本研究では,SST(Semantic Space Transformation)モジュールを設計し,相対距離を制約し,マルチモーダルインタラクションを自己管理的に管理する。 MSVDとMSR-VTTデータセットの大規模な実験は、我々のSMREが最先端のパフォーマンスを達成することを示す。

Video captioning is a challenging task that necessitates a thorough comprehension of visual scenes. Existing methods follow a typical one-to-one mapping, which concentrates on a limited sample space while ignoring the intrinsic semantic associations between samples, resulting in rigid and uninformative expressions. To address this issue, we propose a novel and flexible framework, namely Support-set based Multi-modal Representation Enhancement (SMRE) model, to mine rich information in a semantic subspace shared between samples. Specifically, we propose a Support-set Construction (SC) module to construct a support-set to learn underlying connections between samples and obtain semantic-related visual elements. During this process, we design a Semantic Space Transformation (SST) module to constrain relative distance and administrate multi-modal interactions in a self-supervised way. Extensive experiments on MSVD and MSR-VTT datasets demonstrate that our SMRE achieves state-of-the-art performance.
翻訳日:2022-05-20 14:03:23 公開日:2022-05-19
# 指紋認識における人口バイアスについて

On Demographic Bias in Fingerprint Recognition ( http://arxiv.org/abs/2205.09318v1 )

ライセンス: Link先を確認
Akash Godbole, Steven A. Grosz, Karthik Nandakumar, Anil K. Jain(参考訳) 指紋認識システムは、パーソナルデバイス、鑑識、法執行機関、銀行、国家識別システムなど、多くのアプリケーションに世界中に展開されている。 これらの制度が社会的に受け入れられ、信頼に値するためには、異なる人口集団で等しく機能することが重要である。 本研究では,4大人口集団(白人男性,白人女性,黒人男性,黒人女性)における指紋認識におけるバイアス(デコグラフィー差)の存在を,認証・識別モードで動作している2つの最先端指紋照合器(SOTA)に対して検証する公式統計フレームワークを提案する。 2つの異なる指紋データベース(15,468名と1,014名)での実験では、マッチング精度が高まるにつれて、soma指紋認識システムの人口差が減少し、特定の異常で低品質な指紋画像が原因で明らかな小さなバイアスが存在することが示されている。

Fingerprint recognition systems have been deployed globally in numerous applications including personal devices, forensics, law enforcement, banking, and national identity systems. For these systems to be socially acceptable and trustworthy, it is critical that they perform equally well across different demographic groups. In this work, we propose a formal statistical framework to test for the existence of bias (demographic differentials) in fingerprint recognition across four major demographic groups (white male, white female, black male, and black female) for two state-of-the-art (SOTA) fingerprint matchers operating in verification and identification modes. Experiments on two different fingerprint databases (with 15,468 and 1,014 subjects) show that demographic differentials in SOTA fingerprint recognition systems decrease as the matcher accuracy increases and any small bias that may be evident is likely due to certain outlier, low-quality fingerprint images.
翻訳日:2022-05-20 14:03:06 公開日:2022-05-19
# Mip-NeRF RGB-D:深度支援高速神経放射場

Mip-NeRF RGB-D: Depth Assisted Fast Neural Radiance Fields ( http://arxiv.org/abs/2205.09351v1 )

ライセンス: Link先を確認
Arnab Dey, Yassine Ahmine, Andrew I. Comport(参考訳) ニューラルレイディアンスフィールド(NeRF)のようなニューラルシーン表現は、既知のポーズを持つカラー画像のセットを使用して多層パーセプトロン(MLP)をトレーニングすることに基づいている。 多くのデバイスがrgb-d情報を生成しており、これは幅広いタスクで非常に重要であることが示されている。 そこで本研究では,色画像に深度情報を組み込むことにより,これらの有望な暗黙表現にどのような改善をもたらすかを検討する。 特に、最近提案されたMip-NeRFアプローチでは、ボリュームレンダリングに光線の代わりに円錐状のフラストラムを用いることで、カメラ中心からの距離の異なるピクセルの領域を考慮できる。 提案手法はさらに深度不確かさをモデル化する。 これにより、幾何の精度の向上、アーティファクトの削減、トレーニング時間の短縮、予測時間の短縮など、NeRFベースのアプローチの大きな制限に対処できる。 有名なベンチマークシーンで実験を行い、比較によりシーン形状と測光再構成の精度が向上し、トレーニング時間を3~5倍に短縮した。

Neural scene representations, such as neural radiance fields (NeRF), are based on training a multilayer perceptron (MLP) using a set of color images with known poses. An increasing number of devices now produce RGB-D information, which has been shown to be very important for a wide range of tasks. Therefore, the aim of this paper is to investigate what improvements can be made to these promising implicit representations by incorporating depth information with the color images. In particular, the recently proposed Mip-NeRF approach, which uses conical frustums instead of rays for volume rendering, allows one to account for the varying area of a pixel with distance from the camera center. The proposed method additionally models depth uncertainty. This allows to address major limitations of NeRF-based approaches including improving the accuracy of geometry, reduced artifacts, faster training time, and shortened prediction time. Experiments are performed on well-known benchmark scenes, and comparisons show improved accuracy in scene geometry and photometric reconstruction, while reducing the training time by 3 - 5 times.
翻訳日:2022-05-20 14:02:47 公開日:2022-05-19
# 平面幾何学図解析

Plane Geometry Diagram Parsing ( http://arxiv.org/abs/2205.09363v1 )

ライセンス: Link先を確認
Ming-Liang Zhang, Fei Yin, Yi-Han Hao, Cheng-Lin Liu(参考訳) 幾何学的ダイアグラム解析は幾何学的問題解決において重要な役割を担い、複雑なレイアウトと原始的関係性のために原始的抽出と関係解析は難しいままである。 本稿では,ディープラーニングとグラフ推論に基づく強力な図解析器を提案する。 具体的には、幾何学的プリミティブを抽出する修正インスタンスセグメンテーション法を提案し、幾何学的特徴と事前知識を取り入れた関係解析とプリミティブ分類を実現するためにグラフニューラルネットワーク(GNN)を活用している。 すべてのモジュールはPGDPNetと呼ばれるエンドツーエンドモデルに統合され、すべてのサブタスクを同時に実行する。 さらに、プリミティブレベルのアノテーションを備えたPGDP5Kという、新しい大規模幾何学図データセットを構築した。 PGDP5Kと既存のデータセットIMP-Geometry3Kの実験は、我々のモデルが4つのサブタスクで最先端の手法を著しく上回っていることを示している。 私たちのコード、データセット、appendixの資料はhttps://github.com/mingliangzhang2018/pgdpで閲覧できます。

Geometry diagram parsing plays a key role in geometry problem solving, wherein the primitive extraction and relation parsing remain challenging due to the complex layout and between-primitive relationship. In this paper, we propose a powerful diagram parser based on deep learning and graph reasoning. Specifically, a modified instance segmentation method is proposed to extract geometric primitives, and the graph neural network (GNN) is leveraged to realize relation parsing and primitive classification incorporating geometric features and prior knowledge. All the modules are integrated into an end-to-end model called PGDPNet to perform all the sub-tasks simultaneously. In addition, we build a new large-scale geometry diagram dataset named PGDP5K with primitive level annotations. Experiments on PGDP5K and an existing dataset IMP-Geometry3K show that our model outperforms state-of-the-art methods in four sub-tasks remarkably. Our code, dataset and appendix material are available at https://github.com/mingliangzhang2018/PGDP.
翻訳日:2022-05-20 14:02:27 公開日:2022-05-19
# 多様性問題:信頼性のある単眼3次元物体検出のための深さ手がかりの完全活用

Diversity Matters: Fully Exploiting Depth Clues for Reliable Monocular 3D Object Detection ( http://arxiv.org/abs/2205.09373v1 )

ライセンス: Link先を確認
Zhuoling Li, Zhan Qu, Yang Zhou, Jianzhuang Liu, Haoqian Wang, Lihui Jiang(参考訳) 本質的に不適切な問題として、単眼画像からの深度推定はモノクロ3Dオブジェクト検出(M3OD)の最も難しい部分である。 既存の手法の多くは、欠落している空間情報を単眼画像に橋渡しし、興味のある対象ごとに単独の深さ値を予測する、事前の仮定に依存している。 しかし、これらの仮定は実用上必ずしも成り立たない。 この問題に対処するために,M3ODのサブタスクから視覚的手がかりを完全に探索し,各ターゲットの深さに対して複数の推定値を生成する深度問題解決システムを提案する。 深さ推定は本質的に異なる仮定に依存するため、様々な分布を示す。 いくつかの仮定が崩壊しても、残りの仮定に基づく推定は依然として信頼できる。 さらに,深度選択と組み合わせ戦略を開発する。 この戦略は、崩壊した仮定による異常な推定を除去し、残りの見積もりを1つに適応的に組み合わせることができる。 このようにして、深度問題解決システムはより正確で堅牢になる。 提案手法は,M3ODの複数のサブタスクからヒントを抽出し,追加情報を導入することなく,KITTI 3Dオブジェクト検出ベンチマークにおけるテスト分割の適度レベルに対して,現在のベストメソッドを20%以上越えながら,リアルタイム効率を維持している。

As an inherently ill-posed problem, depth estimation from single images is the most challenging part of monocular 3D object detection (M3OD). Many existing methods rely on preconceived assumptions to bridge the missing spatial information in monocular images, and predict a sole depth value for every object of interest. However, these assumptions do not always hold in practical applications. To tackle this problem, we propose a depth solving system that fully explores the visual clues from the subtasks in M3OD and generates multiple estimations for the depth of each target. Since the depth estimations rely on different assumptions in essence, they present diverse distributions. Even if some assumptions collapse, the estimations established on the remaining assumptions are still reliable. In addition, we develop a depth selection and combination strategy. This strategy is able to remove abnormal estimations caused by collapsed assumptions, and adaptively combine the remaining estimations into a single one. In this way, our depth solving system becomes more precise and robust. Exploiting the clues from multiple subtasks of M3OD and without introducing any extra information, our method surpasses the current best method by more than 20% relatively on the Moderate level of test split in the KITTI 3D object detection benchmark, while still maintaining real-time efficiency.
翻訳日:2022-05-20 14:02:10 公開日:2022-05-19
# PYSKL: 骨格行動認識の実践に向けて

PYSKL: Towards Good Practices for Skeleton Action Recognition ( http://arxiv.org/abs/2205.09443v1 )

ライセンス: Link先を確認
Haodong Duan, Jiaqi Wang, Kai Chen, Dahua Lin(参考訳) PyTorchに基づく骨格に基づく行動認識のためのオープンソースのツールボックスであるPYSKLを提案する。 このツールボックスは、gcnとcnnに基づくアプローチを含む、様々なスケルトンアクション認識アルゴリズムをサポートしている。 1つまたは2つのアルゴリズムのみを含む既存のオープンソースのスケルトン行動認識プロジェクトとは対照的に、PYSKLは6つの異なるアルゴリズムを統一されたフレームワークの下で実装し、有効性と効率の比較を容易にするために、最新およびオリジナル両方の優れたプラクティスを実装している。 また,ST-GCN++という独自のGCNベースのスケルトン動作認識モデルも提供し,複雑な注意スキームを伴わずに競合認識性能を実現し,強力なベースラインとして機能する。 一方、PYSKLは9つの骨格に基づく行動認識ベンチマークのトレーニングとテストをサポートし、そのうち8つで最先端の認識性能を達成する。 骨格行動認識の今後の研究を容易にするため,多数の訓練済みモデルと詳細なベンチマーク結果も提供し,いくつかの知見を得た。 PYSKLはhttps://github.com/kennymckormick/pysklでリリースされ、アクティブにメンテナンスされている。 新機能やベンチマークを追加すると、このレポートを更新します。 現在のバージョンはPYSKL v0.2に対応している。

We present PYSKL: an open-source toolbox for skeleton-based action recognition based on PyTorch. The toolbox supports a wide variety of skeleton action recognition algorithms, including approaches based on GCN and CNN. In contrast to existing open-source skeleton action recognition projects that include only one or two algorithms, PYSKL implements six different algorithms under a unified framework with both the latest and original good practices to ease the comparison of efficacy and efficiency. We also provide an original GCN-based skeleton action recognition model named ST-GCN++, which achieves competitive recognition performance without any complicated attention schemes, serving as a strong baseline. Meanwhile, PYSKL supports the training and testing of nine skeleton-based action recognition benchmarks and achieves state-of-the-art recognition performance on eight of them. To facilitate future research on skeleton action recognition, we also provide a large number of trained models and detailed benchmark results to give some insights. PYSKL is released at https://github.com/kennymckormick/pyskl and is actively maintained. We will update this report when we add new features or benchmarks. The current version corresponds to PYSKL v0.2.
翻訳日:2022-05-20 14:00:46 公開日:2022-05-19
# 動作セグメンテーションのためのクロスエンハンスメントトランス

Cross-Enhancement Transformer for Action Segmentation ( http://arxiv.org/abs/2205.09445v1 )

ライセンス: Link先を確認
Jiahui Wang, Zhenyou Wang, Shanna Zhuang, Hui Wang(参考訳) 時間的畳み込み(temporal convolution)は、畳み込み層を増やすことによって長期的な受容野を強化するアクションセグメンテーションのパラダイムである。 しかし、高い層はフレーム認識に必要なローカル情報の損失を引き起こす。 この問題を解決するために, クロスエンハンストランスと呼ばれる新しいエンコーダ・デコーダ構造を提案する。 本手法は,対話型自己認識機構を用いた時間構造表現の効果的な学習である。 エンコーダ内の各レイヤの畳み込み特徴マップと、自己アテンションによって生成されたデコーダの機能セットを連結する。 したがって、一連のフレームアクションで同時にローカル情報とグローバル情報を使用する。 さらに,過分割誤差を罰するトレーニングプロセスを強化するために,新たな損失関数を提案する。 実験によると、我々のフレームワークは、50Salads、ジョージア工科大学のEgocentric Activity、Breakfastの3つの挑戦的なデータセットに対して最先端の処理を行っている。

Temporal convolutions have been the paradigm of choice in action segmentation, which enhances long-term receptive fields by increasing convolution layers. However, high layers cause the loss of local information necessary for frame recognition. To solve the above problem, a novel encoder-decoder structure is proposed in this paper, called Cross-Enhancement Transformer. Our approach can be effective learning of temporal structure representation with interactive self-attention mechanism. Concatenated each layer convolutional feature maps in encoder with a set of features in decoder produced via self-attention. Therefore, local and global information are used in a series of frame actions simultaneously. In addition, a new loss function is proposed to enhance the training process that penalizes over-segmentation errors. Experiments show that our framework performs state-of-the-art on three challenging datasets: 50Salads, Georgia Tech Egocentric Activities and the Breakfast dataset.
翻訳日:2022-05-20 14:00:25 公開日:2022-05-19
# 教師なしドメイン適応人物再同定のための学習特徴融合

Learning Feature Fusion for Unsupervised Domain Adaptive Person Re-identification ( http://arxiv.org/abs/2205.09495v1 )

ライセンス: Link先を確認
Jin Ding, Xue Zhou(参考訳) unsupervised domain adaptive (uda) person re-identification (reid) は、手動アノテーションなしでターゲットドメインの有効性で注目を集めている。 多くの微調整ベースUDAパーソンReIDメソッドは、擬似ラベル生成のためのグローバルな特徴の符号化に重点を置いており、詳細な情報を提供するローカルな特徴を無視している。 この問題に対処するために,グローバル特徴とローカル特徴の融合を適応的に学習し,より包括的な融合特徴表現を得る学習機能融合(lf2)フレームワークを提案する。 具体的には、まず、まずソースドメイン内でモデルを事前トレーニングし、次に教師/学生のトレーニング戦略に基づいてラベルなしのターゲットドメイン上でモデルを微調整する。 平均重み付け教師ネットワークはグローバルな機能をエンコードするように設計されており、各イテレーションで更新される学生ネットワークは、きめ細かいローカル機能に責任がある。 これらのマルチビュー機能を融合させることで、多様な擬似ラベルを生成するためにマルチレベルクラスタリングを採用する。 特に,複数の擬似ラベルの曖昧な学習を避けるために,グローバル特徴の細かな局所情報に長所を与える学習可能な融合モジュール (fm) も提案されている。 実験の結果,提案するLF2フレームワークは, Market1501では73.5% mAP, 83.7% Rank1, DukeMTMC-ReIDでは83.2% mAP, DukeMTMC-ReIDでは92.8% Rank1, Market1501では83.8%であることがわかった。

Unsupervised domain adaptive (UDA) person re-identification (ReID) has gained increasing attention for its effectiveness on the target domain without manual annotations. Most fine-tuning based UDA person ReID methods focus on encoding global features for pseudo labels generation, neglecting the local feature that can provide for the fine-grained information. To handle this issue, we propose a Learning Feature Fusion (LF2) framework for adaptively learning to fuse global and local features to obtain a more comprehensive fusion feature representation. Specifically, we first pre-train our model within a source domain, then fine-tune the model on unlabeled target domain based on the teacher-student training strategy. The average weighting teacher network is designed to encode global features, while the student network updating at each iteration is responsible for fine-grained local features. By fusing these multi-view features, multi-level clustering is adopted to generate diverse pseudo labels. In particular, a learnable Fusion Module (FM) for giving prominence to fine-grained local information within the global feature is also proposed to avoid obscure learning of multiple pseudo labels. Experiments show that our proposed LF2 framework outperforms the state-of-the-art with 73.5% mAP and 83.7% Rank1 on Market1501 to DukeMTMC-ReID, and achieves 83.2% mAP and 92.8% Rank1 on DukeMTMC-ReID to Market1501.
翻訳日:2022-05-20 14:00:09 公開日:2022-05-19
# PGD様敵攻撃の痕跡について

On Trace of PGD-Like Adversarial Attacks ( http://arxiv.org/abs/2205.09586v1 )

ライセンス: Link先を確認
Mo Zhou, Vishal M. Patel(参考訳) 敵対的攻撃は、ディープラーニングアプリケーションに対する安全性とセキュリティ上の懸念を引き起こす。 PGDのような強い攻撃は、敵の例では強い痕跡を残している可能性がある。 アタックはネットワークの局所線形性をトリガーするので、ネットワークは良質な例や逆の例に対して線形性の異なる範囲で振る舞うと推測する。 そこで本稿では, 線形性の範囲を示すために, 入力周辺におけるモデルの勾配一貫性を反映するように, ARC特性を構築する。 特定の条件下では、後続攻撃効果(sae)につながるため、良質な例から敵対的な例へと徐々に変化するパターンを示す。 ARC機能は、バイナリ分類器による情報攻撃検出(摂動マグニチュードが知られている)や、順序回帰による非情報攻撃検出(摂動マグニチュードが不明)に使用できる。 SAE から PGD のような攻撃に対する特異性のため、ARC は損失関数などの攻撃の詳細や、後処理の防御としてグラウンドトルースラベルを推測することもできる。 cifar-10 w/resnet-18およびimagenet w/resnet-152およびswint-b-in1kにおけるarc特徴の質的および定量的評価は、ドメインシフトにもかかわらずpgd様攻撃においてかなり一般化した。 本手法は直感的,軽量,非意図的,データ不要である。

Adversarial attacks pose safety and security concerns for deep learning applications. Yet largely imperceptible, a strong PGD-like attack may leave strong trace in the adversarial example. Since attack triggers the local linearity of a network, we speculate network behaves in different extents of linearity for benign examples and adversarial examples. Thus, we construct Adversarial Response Characteristics (ARC) features to reflect the model's gradient consistency around the input to indicate the extent of linearity. Under certain conditions, it shows a gradually varying pattern from benign example to adversarial example, as the later leads to Sequel Attack Effect (SAE). ARC feature can be used for informed attack detection (perturbation magnitude is known) with binary classifier, or uninformed attack detection (perturbation magnitude is unknown) with ordinal regression. Due to the uniqueness of SAE to PGD-like attacks, ARC is also capable of inferring other attack details such as loss function, or the ground-truth label as a post-processing defense. Qualitative and quantitative evaluations manifest the effectiveness of ARC feature on CIFAR-10 w/ ResNet-18 and ImageNet w/ ResNet-152 and SwinT-B-IN1K with considerable generalization among PGD-like attacks despite domain shift. Our method is intuitive, light-weighted, non-intrusive, and data-undemanding.
翻訳日:2022-05-20 13:59:40 公開日:2022-05-19
# 分離注意による物体検出に対する移動体攻撃

Transferable Physical Attack against Object Detection with Separable Attention ( http://arxiv.org/abs/2205.09592v1 )

ライセンス: Link先を確認
Yu Zhang, Zhiqiang Gong, Yichuang Zhang, YongQian Li, Kangcheng Bin, Jiahao Qi, Wei Xue, Ping Zhong(参考訳) ディープラーニングモデルは、敵のサンプルに対して脆弱であることが証明されているため、トランスファー可能な敵攻撃は常に注目されている。 しかし、既存の物理的攻撃法では、未知のモデルへの転送可能性に十分な注意が払われず、ブラックボックス攻撃の性能が低下し、本研究では、物理的に実現可能な逆カモフラージュを生成する新しい手法を提案し、検出モデルに対するトランスファー可能な攻撃を実現する。 具体的には,対象物の特徴を様々な解像度で捉えるために,検出モデルに基づくマルチスケールアテンションマップを導入する。 一方,平均的なアテンションマップを得るために,複合変換のシーケンスを採用し,モデル固有のアテンションノイズを抑制することにより,トランスファー性がさらに向上する。 モデル注意をできるだけ前景のオブジェクトに配置する一般的な可視化解釈法とは異なり,我々は,前景の注意を抑え,背景の注意を増大させるような,反対の視点から分離可能な注意を攻撃する。 その結果,新たな注意に基づく損失関数により,移動可能な対向カモフラージュを効率よく得ることができた。 広範な比較実験により,本手法の最先端手法に対する優位性が検証された。

Transferable adversarial attack is always in the spotlight since deep learning models have been demonstrated to be vulnerable to adversarial samples. However, existing physical attack methods do not pay enough attention on transferability to unseen models, thus leading to the poor performance of black-box attack.In this paper, we put forward a novel method of generating physically realizable adversarial camouflage to achieve transferable attack against detection models. More specifically, we first introduce multi-scale attention maps based on detection models to capture features of objects with various resolutions. Meanwhile, we adopt a sequence of composite transformations to obtain the averaged attention maps, which could curb model-specific noise in the attention and thus further boost transferability. Unlike the general visualization interpretation methods where model attention should be put on the foreground object as much as possible, we carry out attack on separable attention from the opposite perspective, i.e. suppressing attention of the foreground and enhancing that of the background. Consequently, transferable adversarial camouflage could be yielded efficiently with our novel attention-based loss function. Extensive comparison experiments verify the superiority of our method to state-of-the-art methods.
翻訳日:2022-05-20 13:59:14 公開日:2022-05-19
# 3次元点雲アップサンプリングのための特徴拡張ユニットの比較検討

A Comparative Study of Feature Expansion Unit for 3D Point Cloud Upsampling ( http://arxiv.org/abs/2205.09594v1 )

ライセンス: Link先を確認
Qiang Li, Tao Dai, Shu-Tao Xia(参考訳) 近年,深層学習手法は3次元点雲のアップサンプリングにおいて大きな成功を収めている。 これらの方法のうち、多くの特徴拡張ユニットが最後に点展開を完了するために提案された。 本稿では,様々な特徴拡張単位を理論的解析と定量的実験により比較する。 既存の機能拡張ユニットのほとんどは、各ポイントの機能を独立して処理するが、異なるポイント間の機能インタラクションは無視できる。 さらに、画像超解像のアップサンプリングモジュールと最近の点雲上の動的グラフCNNの成功に触発されて、ProEdgeShuffleという新しい機能拡張ユニットを提案する。 実験の結果,提案手法は従来の特徴拡張ユニットよりも大幅に改善できることがわかった。

Recently, deep learning methods have shown great success in 3D point cloud upsampling. Among these methods, many feature expansion units were proposed to complete point expansion at the end. In this paper, we compare various feature expansion units by both theoretical analysis and quantitative experiments. We show that most of the existing feature expansion units process each point feature independently, while ignoring the feature interaction among different points. Further, inspired by upsampling module of image super-resolution and recent success of dynamic graph CNN on point clouds, we propose a novel feature expansion units named ProEdgeShuffle. Experiments show that our proposed method can achieve considerable improvement over previous feature expansion units.
翻訳日:2022-05-20 13:58:53 公開日:2022-05-19
# CORPS:脳MRI分類における類似度に基づく費用不要な厳密な擬似ラベル

CORPS: Cost-free Rigorous Pseudo-labeling based on Similarity-ranking for Brain MRI Segmentation ( http://arxiv.org/abs/2205.09601v1 )

ライセンス: Link先を確認
Can Taylan Sari, Sila Kurugol, Onur Afacan, Simon K. Warfield(参考訳) 脳磁気共鳴画像(MRI)のセグメンテーションは、ヒト脳の分析と様々な脳疾患の診断に不可欠である。 時間的およびエラーに起因した手動記述の欠点は、従来の手法が計算的に強力であり、後者の手法には十分な数のラベル付きデータがないアトラスベースおよび教師付き機械学習手法によって緩和される。 このモチベーションを生かした,新しいアトラスを用いた擬似ラベル法に基づく半教師付きセグメンテーションフレームワークCORPSと,3次元脳MRIセグメンテーションのための3次元深部畳み込みニューラルネットワーク(DCNN)を提案する。 本研究では,既存のラベル付き画像集合に対する局所的強度に基づく類似度スコアと,新しいatlasに基づくラベル融合法を用いて,ラベル付き画像集合に対するエキスパートレベル擬似ラベルを生成する。 次に,各解剖学的構造のバイナリセグメンテーションのためのエキスパート画像と擬似ラベル画像の組み合わせについて,3次元dcnnを訓練することを提案する。 限定データおよび不均衡データに対するマルチクラスセグメンテーション法の性能低下を回避するため,バイナリセグメンテーション手法を提案する。 また、2D/3Dパッチや2Dスライスではなく、フルスケールでフル解像度の3D MRIボリューム上でバイナリネットワークをトレーニングするためのフィルタと予備メモリリソースの数の観点から、軽量で効率的な3D DCNNを使用することもできる。 そこで,提案手法は各次元の空間的連続性をカプセル化し,文脈認識性を高める。 実験により,手動ラベリングに付加的なラベリングコストを伴わずに,定性的かつ定量的にベースライン法よりも優れた手法が提案された。

Segmentation of brain magnetic resonance images (MRI) is crucial for the analysis of the human brain and diagnosis of various brain disorders. The drawbacks of time-consuming and error-prone manual delineation procedures are aimed to be alleviated by atlas-based and supervised machine learning methods where the former methods are computationally intense and the latter methods lack a sufficiently large number of labeled data. With this motivation, we propose CORPS, a semi-supervised segmentation framework built upon a novel atlas-based pseudo-labeling method and a 3D deep convolutional neural network (DCNN) for 3D brain MRI segmentation. In this work, we propose to generate expert-level pseudo-labels for unlabeled set of images in an order based on a local intensity-based similarity score to existing labeled set of images and using a novel atlas-based label fusion method. Then, we propose to train a 3D DCNN on the combination of expert and pseudo labeled images for binary segmentation of each anatomical structure. The binary segmentation approach is proposed to avoid the poor performance of multi-class segmentation methods on limited and imbalanced data. This also allows to employ a lightweight and efficient 3D DCNN in terms of the number of filters and reserve memory resources for training the binary networks on full-scale and full-resolution 3D MRI volumes instead of 2D/3D patches or 2D slices. Thus, the proposed framework can encapsulate the spatial contiguity in each dimension and enhance context-awareness. The experimental results demonstrate the superiority of the proposed framework over the baseline method both qualitatively and quantitatively without additional labeling cost for manual labeling.
翻訳日:2022-05-20 13:58:43 公開日:2022-05-19
# 視覚オブジェクト検出のためのインテグレータ移行事前学習トランスフォーマーエンコーダ

Integral Migrating Pre-trained Transformer Encoder-decoders for Visual Object Detection ( http://arxiv.org/abs/2205.09613v1 )

ライセンス: Link先を確認
Xiaosong Zhang, Feng Liu, Zhiliang Peng, Zonghao Guo, Fang Wan, Xiangyang Ji, Qixiang Ye(参考訳) 現代の物体検出器は、事前訓練された視覚トランスフォーマーの利点をバックボーンネットワークとして活用している。 しかし、バックボーンネットワークを除き、検出器ヘッドや特徴ピラミッドネットワークなどの他の検出器コンポーネントはランダムに初期化されており、検出器と事前訓練されたモデル間の一貫性を阻害している。 本研究では,オブジェクト検出のための事前学習されたトランスコーダデコーダ(imted)を統合的に移行し,"完全に事前学習"されるだけでなく,事前学習されたモデルと整合する特徴抽出操作パスを構築することを提案する。 既存のトランスベースの検出器に対するimtedの基本的な改善点は、(1)プリトレーニングされたトランスデコーダを検出器ヘッドに組み込むこと、(2)特徴抽出経路から特徴ピラミッドネットワークを取り除くことである。 このような改善により、ランダムに初期化されたパラメータの比率が大幅に減少し、検出器の生成能力が向上する。 MS COCOデータセットの実験では、ImTEDはAPを約2.8%上回っている。 ベルとホイッスルがなければ、ImTEDは数発の物体検出の最先端を最大7.6%改善し、より高度な一般化能力を示す。 コードは公開される予定だ。

Modern object detectors have taken the advantages of pre-trained vision transformers by using them as backbone networks. However, except for the backbone networks, other detector components, such as the detector head and the feature pyramid network, remain randomly initialized, which hinders the consistency between detectors and pre-trained models. In this study, we propose to integrally migrate the pre-trained transformer encoder-decoders (imTED) for object detection, constructing a feature extraction-operation path that is not only "fully pre-trained" but also consistent with pre-trained models. The essential improvements of imTED over existing transformer-based detectors are twofold: (1) it embeds the pre-trained transformer decoder to the detector head; and (2) it removes the feature pyramid network from the feature extraction path. Such improvements significantly reduce the proportion of randomly initialized parameters and enhance the generation capability of detectors. Experiments on MS COCO dataset demonstrate that imTED consistently outperforms its counterparts by ~2.8% AP. Without bells and whistles, imTED improves the state-of-the-art of few-shot object detection by up to 7.6% AP, demonstrating significantly higher generalization capability. Code will be made publicly available.
翻訳日:2022-05-20 13:58:14 公開日:2022-05-19
# デノイジングコントラストを用いたマスク画像モデリング

Masked Image Modeling with Denoising Contrast ( http://arxiv.org/abs/2205.09616v1 )

ライセンス: Link先を確認
Kun Yi, Yixiao Ge, Xiaotong Li, Shusheng Yang, Dian Li, Jianping Wu, Ying Shan, Xiaohu Qie(参考訳) コントラスト学習からマスキング画像モデリングへの自己教師あり視覚表現学習の開発により,視覚辞書検索のための適切な前文タスクの設計方法という本質的な違いは認められなかった。 マスク付き画像モデリングは、近ごろ、ビジョントランスフォーマーにおける最先端のパフォーマンスでこの研究のラインを独占し、コアとなるのは、自動エンコーディング機構をデノベートすることで、ネットワークのパッチレベルの視覚的コンテキストキャプチャを強化することである。 従来のように訓練段階を余分に調整する代わりに、自動エンコーディングのデノベーションにおけるコントラスト学習の大きな可能性を解き放ち、マスク付きパッチ予測の学習目的として、シンプルな画像内パッチ間コントラスト制約を生成するための新しい事前学習手法であるConMIMを導入する。 さらに、画像摂動やモデル進行率などの非対称な設計でデノナイジング機構を強化し、ネットワーク事前学習を改善する。 様々なスケールのconmimプリトレーニングされたビジョントランスフォーマは、下流の画像分類、セマンティックセグメンテーション、オブジェクト検出、インスタンスセグメンテーションタスクにおいて有望な結果を達成する。

Since the development of self-supervised visual representation learning from contrastive learning to masked image modeling, there is no significant difference in essence, that is, how to design proper pretext tasks for vision dictionary look-up. Masked image modeling recently dominates this line of research with state-of-the-art performance on vision Transformers, where the core is to enhance the patch-level visual context capturing of the network via denoising auto-encoding mechanism. Rather than tailoring image tokenizers with extra training stages as in previous works, we unleash the great potential of contrastive learning on denoising auto-encoding and introduce a new pre-training method, ConMIM, to produce simple intra-image inter-patch contrastive constraints as the learning objectives for masked patch prediction. We further strengthen the denoising mechanism with asymmetric designs, including image perturbations and model progress rates, to improve the network pre-training. ConMIM-pretrained vision Transformers with various scales achieve promising results on downstream image classification, semantic segmentation, object detection, and instance segmentation tasks.
翻訳日:2022-05-20 13:57:50 公開日:2022-05-19
# VNT-Net:回転不変ベクトルニューロントランス

VNT-Net: Rotational Invariant Vector Neuron Transformers ( http://arxiv.org/abs/2205.09690v1 )

ライセンス: Link先を確認
Hedi Zisling and Andrei Sharf(参考訳) 回転不変性を持つ3次元点集合の学習は、機械学習において重要かつ困難な問題である。 回転不変アーキテクチャにより、3Dポイントのクラウドニューラルネットワークは、標準的なグローバルなポーズや、すべての可能なローテーションを伴う徹底的なデータ拡張が不要になる。 本稿では,最近導入されたベクターニューロンとセルフアテンション層を組み合わせて,点群ベクトルニューロントランスフォーマーネットワーク(vnt-net)を構築することで,回転不変ニューラルネットワークを提案する。 ベクトルニューロンは、SO(3)作用の単純さと汎用性で知られており、共通の神経操作に組み込まれている。 同様にトランスフォーマーアーキテクチャも人気を博し、最近ではイメージパッチのシーケンスに直接適用して優れたパフォーマンスと収束を達成することで、イメージに成功を収めている。 両世界の利益を享受するため,我々は2つの構造を結合し,ベクターニューロン操作に適合するマルチヘッドアテンション層をどのように適応させるかを示す。 この適応により、注意層はSO(3)となり、全体のネットワークは回転不変となる。 実験により、ネットワークは任意のポーズで3Dポイントのクラウドオブジェクトを効率的に処理することを示した。 また,本ネットワークは,関連する最先端手法と比較して精度が高く,共通分類タスクやセグメンテーションタスクにおいて,ハイパーパラメータが少ないため,トレーニングの必要が少なくなることを示す。

Learning 3D point sets with rotational invariance is an important and challenging problem in machine learning. Through rotational invariant architectures, 3D point cloud neural networks are relieved from requiring a canonical global pose and from exhaustive data augmentation with all possible rotations. In this work, we introduce a rotational invariant neural network by combining recently introduced vector neurons with self-attention layers to build a point cloud vector neuron transformer network (VNT-Net). Vector neurons are known for their simplicity and versatility in representing SO(3) actions and are thereby incorporated in common neural operations. Similarly, Transformer architectures have gained popularity and recently were shown successful for images by applying directly on sequences of image patches and achieving superior performance and convergence. In order to benefit from both worlds, we combine the two structures by mainly showing how to adapt the multi-headed attention layers to comply with vector neurons operations. Through this adaptation attention layers become SO(3) and the overall network becomes rotational invariant. Experiments demonstrate that our network efficiently handles 3D point cloud objects in arbitrary poses. We also show that our network achieves higher accuracy when compared to related state-of-the-art methods and requires less training due to a smaller number of hyperparameters in common classification and segmentation tasks.
翻訳日:2022-05-20 13:56:57 公開日:2022-05-19
# 統一キーフレーム伝播モデルに向けて

Towards Unified Keyframe Propagation Models ( http://arxiv.org/abs/2205.09731v1 )

ライセンス: Link先を確認
Patrick Esser and Peter Michael and Soumyadip Sengupta(参考訳) ロトスコープやオブジェクト削除などの多くのビデオ編集タスクは、フレーム間のコンテキストの伝搬を必要とする。 トランスフォーマーや他の注目に基づく機能集約アプローチは、キーフレームからビデオ全体へのオブジェクトマスクの伝播に大きな成功を収めている一方で、テクスチャなどの高周波の詳細を忠実に伝播するのに苦労している。 これは低周波特性に対する世界的注意の偏りによるものであると仮定する。 この制限を克服するために、高周波数特徴が局所的に相互作用し、低周波数特徴がグローバルに相互作用する2ストリームアプローチを提案する。 グローバルな相互作用ストリームは、明示的なアライメントが失敗する大きなカメラモーションのような困難な状況において、引き続き堅牢である。 局所的な相互作用ストリームは、変形可能な特徴集約を通じて高周波の詳細を伝播し、グローバルな相互作用ストリームによって通知され、変形フィールドのエラーを検出し、修正する。 そこでは,画像の描画に必要な単一フレーム内の特徴の伝搬と,キーフレームからターゲットフレームへの伝搬を両立させる実験を行った。 ビデオインペインティングに適用すると,fidスコアとlpipsスコアは44%,26%改善した。 Code at https://github.com/runwayml/guided-inpainting

Many video editing tasks such as rotoscoping or object removal require the propagation of context across frames. While transformers and other attention-based approaches that aggregate features globally have demonstrated great success at propagating object masks from keyframes to the whole video, they struggle to propagate high-frequency details such as textures faithfully. We hypothesize that this is due to an inherent bias of global attention towards low-frequency features. To overcome this limitation, we present a two-stream approach, where high-frequency features interact locally and low-frequency features interact globally. The global interaction stream remains robust in difficult situations such as large camera motions, where explicit alignment fails. The local interaction stream propagates high-frequency details through deformable feature aggregation and, informed by the global interaction stream, learns to detect and correct errors of the deformation field. We evaluate our two-stream approach for inpainting tasks, where experiments show that it improves both the propagation of features within a single frame as required for image inpainting, as well as their propagation from keyframes to target frames. Applied to video inpainting, our approach leads to 44% and 26% improvements in FID and LPIPS scores. Code at https://github.com/runwayml/guided-inpainting
翻訳日:2022-05-20 13:56:34 公開日:2022-05-19
# beverse:視覚中心自律運転における鳥眼視の統一的知覚と予測

BEVerse: Unified Perception and Prediction in Birds-Eye-View for Vision-Centric Autonomous Driving ( http://arxiv.org/abs/2205.09743v1 )

ライセンス: Link先を確認
Yunpeng Zhang, Zheng Zhu, Wenzhao Zheng, Junjie Huang, Guan Huang, Jie Zhou, Jiwen Lu(参考訳) 本稿では,マルチカメラシステムに基づく3次元認識と予測のための統合フレームワークであるBEVerseを提案する。 シングルタスクアプローチの改善に焦点を当てた既存の研究とは異なり、BEVerseは、マルチカメラビデオから時空間バードスアイビュー(BEV)表現を生成し、視覚中心の自律運転のための複数のタスクを共同で推論する。 具体的には、BEVerseはまず共有特徴抽出とリフトを行い、マルチタイムスタンプとマルチビュー画像から4次元のBEV表現を生成する。 エゴモーションアライメント後、時空間エンコーダを用いてBEVのさらなる特徴抽出を行う。 最後に、共同推論と予測のために複数のタスクデコーダを取り付ける。 デコーダ内では、異なる範囲とタスクの粒度を持つBEV機能を生成するためのグリッドサンプリング器を提案する。 また,メモリ効率の高い将来予測のための反復フローの手法を設計する。 時間情報は3次元物体検出と意味マップ構築を改善し,マルチタスク学習は暗黙的に動き予測に有用であることを示す。 nuscenesデータセットに関する広範な実験により、マルチタスクは3dオブジェクト検出、セマンティックマップ構築、モーション予測において、既存のシングルタスクメソッドよりも優れています。 シーケンシャルパラダイムと比較すると、BEVerseは効率を大幅に改善することを好む。 コードとトレーニングされたモデルはhttps://github.com/zhangyp15/beverseでリリースされる。

In this paper, we present BEVerse, a unified framework for 3D perception and prediction based on multi-camera systems. Unlike existing studies focusing on the improvement of single-task approaches, BEVerse features in producing spatio-temporal Birds-Eye-View (BEV) representations from multi-camera videos and jointly reasoning about multiple tasks for vision-centric autonomous driving. Specifically, BEVerse first performs shared feature extraction and lifting to generate 4D BEV representations from multi-timestamp and multi-view images. After the ego-motion alignment, the spatio-temporal encoder is utilized for further feature extraction in BEV. Finally, multiple task decoders are attached for joint reasoning and prediction. Within the decoders, we propose the grid sampler to generate BEV features with different ranges and granularities for different tasks. Also, we design the method of iterative flow for memory-efficient future prediction. We show that the temporal information improves 3D object detection and semantic map construction, while the multi-task learning can implicitly benefit motion prediction. With extensive experiments on the nuScenes dataset, we show that the multi-task BEVerse outperforms existing single-task methods on 3D object detection, semantic map construction, and motion prediction. Compared with the sequential paradigm, BEVerse also favors in significantly improved efficiency. The code and trained models will be released at https://github.com/zhangyp15/BEVerse.
翻訳日:2022-05-20 13:56:13 公開日:2022-05-19
# データセット・プルーニング:一般化の影響評価によるトレーニングデータの削減

Dataset Pruning: Reducing Training Data by Examining Generalization Influence ( http://arxiv.org/abs/2205.09329v1 )

ライセンス: Link先を確認
Shuo Yang, Zeke Xie, Hanyu Peng, Min Xu, Mingming Sun, Ping Li(参考訳) ディープラーニングの大きな成功は、ますます大きなトレーニングデータに大きく依存しています。 すべてのトレーニングデータは、モデルのパフォーマンスに寄与するのか? 個々のトレーニングサンプルやサブトレーニングセットがモデルの一般化にどの程度影響し、モデルのパフォーマンスを著しく犠牲にすることなく、プロキシトレーニングセットとしてトレーニングデータ全体から最小限のサブセットを構築するにはどうすればよいのか? そこで本研究では,(1)特定のトレーニングサンプルの集合がモデル一般化能力に与える影響を理論的保証付きで検証し,(2)厳密な制約付き一般化ギャップを生じるトレーニングデータの最小サブセットを構築する,最適化に基づくサンプル選択手法であるデータセットプルーニングを提案する。 実験的に観察されたデータセットプルーニングの一般化ギャップは、我々の理論的期待とほぼ一致している。 さらに,提案手法は,CIFAR-10データセット上で40%のトレーニング例を抽出し,従来のスコアベースサンプル選択法よりも優れた1.3%の精度で収束時間を短縮する。

The great success of deep learning heavily relies on increasingly larger training data, which comes at a price of huge computational and infrastructural costs. This poses crucial questions that, do all training data contribute to model's performance? How much does each individual training sample or a sub-training-set affect the model's generalization, and how to construct a smallest subset from the entire training data as a proxy training set without significantly sacrificing the model's performance? To answer these, we propose dataset pruning, an optimization-based sample selection method that can (1) examine the influence of removing a particular set of training samples on model's generalization ability with theoretical guarantee, and (2) construct a smallest subset of training data that yields strictly constrained generalization gap. The empirically observed generalization gap of dataset pruning is substantially consistent with our theoretical expectations. Furthermore, the proposed method prunes 40% training examples on the CIFAR-10 dataset, halves the convergence time with only 1.3% test accuracy decrease, which is superior to previous score-based sample selection methods.
翻訳日:2022-05-20 13:52:48 公開日:2022-05-19
# メッシュレス離散化を用いた物理学インフォームドニューラルネットワーク(pinns)の高速化

Accelerated Training of Physics Informed Neural Networks (PINNs) using Meshless Discretizations ( http://arxiv.org/abs/2205.09332v1 )

ライセンス: Link先を確認
Ramansh Sharma, Varun Shankar(参考訳) 本稿では,物理形ニューラルネットワーク(pinns)の高速化のための新しい手法である離散学習ピン(dt-pinns)を提案する。 トレーニング中の自動微分によるPINN損失関数の部分微分項の繰り返し計算は、特に高階微分の場合、計算コストが高いことが知られている。 DT-PINNは、これらの正確な空間微分を、メッシュレスラジアル基底関数有限差分(RBF-FD)を用いて計算し、スパース行列ベクトル乗法により適用する高次精度数値離散化に置き換えることによって訓練される。 RBF-FDを使用することで、DT-PINNは不規則な領域に配置された点雲のサンプルでも訓練することができる。 さらに、従来のPINN(バニラ-PINN)は、通常、GPU上の32ビット浮動小数点(fp32)に保存されてトレーニングされるが、DT-PINNでは、GPU上でfp64を使用することで、同等の精度でfp32バニラ-PINNよりもトレーニング時間が大幅に短縮されることを示す。 DT-PINNの効率と精度を一連の実験により示す。 まず、ランダムな重み付きニューラルネットワークの数値的および自動微分に対するネットワーク深さの影響について検討し、RBF-FD近似の3次精度以上は十分正確でありながらより効率的であることを示す。 次に、DT-PINNを非線形ポアソン方程式および非線形ポアソン方程式のバニラ-PINNと比較し、DT-PINNが2-4倍高速なトレーニング時間で同様の損失を得ることを示す。 最後に, rbf-fd を用いて空間微分を離散化し, 時間微分の自動微分を用いて熱方程式(時空間問題)に対する pinn 溶液に対して同様の結果が得られることを示す。 以上の結果から,fp64 DT-PINNは,fp32バニラ-PINNよりもコスト精度が高いことがわかった。

We present a new technique for the accelerated training of physics-informed neural networks (PINNs): discretely-trained PINNs (DT-PINNs). The repeated computation of partial derivative terms in the PINN loss functions via automatic differentiation during training is known to be computationally expensive, especially for higher-order derivatives. DT-PINNs are trained by replacing these exact spatial derivatives with high-order accurate numerical discretizations computed using meshless radial basis function-finite differences (RBF-FD) and applied via sparse-matrix vector multiplication. The use of RBF-FD allows for DT-PINNs to be trained even on point cloud samples placed on irregular domain geometries. Additionally, though traditional PINNs (vanilla-PINNs) are typically stored and trained in 32-bit floating-point (fp32) on the GPU, we show that for DT-PINNs, using fp64 on the GPU leads to significantly faster training times than fp32 vanilla-PINNs with comparable accuracy. We demonstrate the efficiency and accuracy of DT-PINNs via a series of experiments. First, we explore the effect of network depth on both numerical and automatic differentiation of a neural network with random weights and show that RBF-FD approximations of third-order accuracy and above are more efficient while being sufficiently accurate. We then compare the DT-PINNs to vanilla-PINNs on both linear and nonlinear Poisson equations and show that DT-PINNs achieve similar losses with 2-4x faster training times on a consumer GPU. Finally, we also demonstrate that similar results can be obtained for the PINN solution to the heat equation (a space-time problem) by discretizing the spatial derivatives using RBF-FD and using automatic differentiation for the temporal derivative. Our results show that fp64 DT-PINNs offer a superior cost-accuracy profile to fp32 vanilla-PINNs.
翻訳日:2022-05-20 13:52:29 公開日:2022-05-19
# 機械学習を用いた予測メンテナンス

Predictive Maintenance using Machine Learning ( http://arxiv.org/abs/2205.09402v1 )

ライセンス: Link先を確認
Archit P. Kane, Ashutosh S. Kore, Advait N. Khandale, Sarish S. Nigade, Pranjali P. Joshi(参考訳) 予測保守(英: Predictive maintenance, PdM)とは、データ駆動技術で故障を予測して資産の保守計画を効果的に管理するための概念である。 これらのシナリオでは、機器の状態を監視するために一定時間にわたってデータが収集される。 目的は、失敗を予測し、最終的に予防するのに役立ついくつかの相関関係とパターンを見つけることである。 製造業の設備は、しばしば計画されたメンテナンスアプローチなしで利用される。 このような実践はしばしば、予期せぬ失敗のために予期せぬダウンタイムをもたらす。 定期保守では、一定時間間隔後に製造装置の状態をチェックし、故障が発生した場合には、予期しない設備停止を回避するために部品を交換する。 逆に、これはマシンが非機能である時間とメンテナンスのコストの増加につながります。 産業4.0の出現とスマートシステムは、ダウンタイムのコストを削減し、製造機器の可用性(利用率)を向上する予測保守戦略(PdM)に重点を置いている。 PdMはまた、コンポーネントの有用な生活を十分に活用することで、製造における新しい持続可能なプラクティスをもたらす可能性がある。

Predictive maintenance (PdM) is a concept, which is implemented to effectively manage maintenance plans of the assets by predicting their failures with data driven techniques. In these scenarios, data is collected over a certain period of time to monitor the state of equipment. The objective is to find some correlations and patterns that can help predict and ultimately prevent failures. Equipment in manufacturing industry are often utilized without a planned maintenance approach. Such practise frequently results in unexpected downtime, owing to certain unexpected failures. In scheduled maintenance, the condition of the manufacturing equipment is checked after fixed time interval and if any fault occurs, the component is replaced to avoid unexpected equipment stoppages. On the flip side, this leads to increase in time for which machine is non-functioning and cost of carrying out the maintenance. The emergence of Industry 4.0 and smart systems have led to increasing emphasis on predictive maintenance (PdM) strategies that can reduce the cost of downtime and increase the availability (utilization rate) of manufacturing equipment. PdM also has the potential to bring about new sustainable practices in manufacturing by fully utilizing the useful lives of components.
翻訳日:2022-05-20 13:51:48 公開日:2022-05-19
# オフライン強化学習のためのデータ評価

Data Valuation for Offline Reinforcement Learning ( http://arxiv.org/abs/2205.09550v1 )

ライセンス: Link先を確認
Amir Abolfazli, Gregory Palmer and Daniel Kudenko(参考訳) 深層強化学習(DRL)の成功は、多くの環境相互作用を通じて得られる訓練データの可用性に左右される。 多くの現実のシナリオでは、コストとリスクがこれらのデータ収集に関連しています。 オフライン強化学習の分野は、データの収集をドメインの専門家や注意深く監視されたプログラムにアウトソーシングし、次にバッチ制約された最適ポリシーを探索することで、これらの問題に対処する。 データマーケットの出現に伴い、データセットを社内で構築する代わりに、外部データを購入する方法がある。 しかし、現在最先端のオフライン強化学習アプローチは、多くの約束を示しているが、現在は、意図されたターゲットドメインに適切に適合した、注意深く構築されたデータセットに依存している。 これは、外部取得データでトレーニングされたオフライン強化学習エージェントの転送可能性と堅牢性に関する疑問を提起する。 本論文では,現在最先端のオフライン強化学習手法が2つのMuJoCo環境におけるソースターゲットドメインミスマッチに対処する能力について実証的に評価し,現在最先端のオフライン強化学習アルゴリズムが対象領域で性能が低いことを明らかにする。 これを解決するために、オフライン強化学習(DVORL)のデータバリュエーションを提案し、関連性および高品質な遷移を識別し、オフライン強化学習アルゴリズムで学習したポリシーの性能と伝達性を改善する。 その結果,本手法は2つのMuJoCo環境におけるオフライン強化学習ベースラインよりも優れていた。

The success of deep reinforcement learning (DRL) hinges on the availability of training data, which is typically obtained via a large number of environment interactions. In many real-world scenarios, costs and risks are associated with gathering these data. The field of offline reinforcement learning addresses these issues through outsourcing the collection of data to a domain expert or a carefully monitored program and subsequently searching for a batch-constrained optimal policy. With the emergence of data markets, an alternative to constructing a dataset in-house is to purchase external data. However, while state-of-the-art offline reinforcement learning approaches have shown a lot of promise, they currently rely on carefully constructed datasets that are well aligned with the intended target domains. This raises questions regarding the transferability and robustness of an offline reinforcement learning agent trained on externally acquired data. In this paper, we empirically evaluate the ability of the current state-of-the-art offline reinforcement learning approaches to coping with the source-target domain mismatch within two MuJoCo environments, finding that current state-of-the-art offline reinforcement learning algorithms underperform in the target domain. To address this, we propose data valuation for offline reinforcement learning (DVORL), which allows us to identify relevant and high-quality transitions, improving the performance and transferability of policies learned by offline reinforcement learning algorithms. The results show that our method outperforms offline reinforcement learning baselines on two MuJoCo environments.
翻訳日:2022-05-20 13:51:29 公開日:2022-05-19
# 決定領域定量化による実世界のロバスト性向上とワーストケース分布シフト

Improving Robustness against Real-World and Worst-Case Distribution Shifts through Decision Region Quantification ( http://arxiv.org/abs/2205.09619v1 )

ライセンス: Link先を確認
Leo Schwinn and Leon Bungert and An Nguyen and Ren\'e Raab and Falk Pulsmeyer and Doina Precup and Bj\"orn Eskofier and Dario Zanca(参考訳) ニューラルネットワークの信頼性は、安全クリティカルなアプリケーションでの使用に不可欠である。 既存のアプローチは一般的に、ニューラルネットワークの堅牢性を改善することを目的としており、実世界の分散シフト(例えば、一般的な汚職や摂動、空間変換、自然対向的な例)や最悪の分散シフト(例えば、最適化された対向的な例)がある。 本研究では,実世界および最悪のデータ分散シフトに対して,任意の事前学習モデルのロバスト性を向上させるための決定領域定量化(DRQ)アルゴリズムを提案する。 drqは、所定のデータポイント付近の局所決定領域のロバスト性を分析し、より信頼できる予測を行う。 理論的には, 決定面における局所的極大を効果的に平滑化させることで, drqアルゴリズムの動機付けを行う。 さらに,標的攻撃と未目標攻撃を用いた実装を提案する。 広範な経験的評価により、drqは、いくつかのコンピュータビジョンベンチマークデータセットにおける実世界および最悪のケースの分散シフトに対して、敵対的および非敵対的に訓練されたモデルのロバスト性を高めることが示されている。

The reliability of neural networks is essential for their use in safety-critical applications. Existing approaches generally aim at improving the robustness of neural networks to either real-world distribution shifts (e.g., common corruptions and perturbations, spatial transformations, and natural adversarial examples) or worst-case distribution shifts (e.g., optimized adversarial examples). In this work, we propose the Decision Region Quantification (DRQ) algorithm to improve the robustness of any differentiable pre-trained model against both real-world and worst-case distribution shifts in the data. DRQ analyzes the robustness of local decision regions in the vicinity of a given data point to make more reliable predictions. We theoretically motivate the DRQ algorithm by showing that it effectively smooths spurious local extrema in the decision surface. Furthermore, we propose an implementation using targeted and untargeted adversarial attacks. An extensive empirical evaluation shows that DRQ increases the robustness of adversarially and non-adversarially trained models against real-world and worst-case distribution shifts on several computer vision benchmark datasets.
翻訳日:2022-05-20 13:51:05 公開日:2022-05-19
# (参考訳) 微分木アンサンブルを用いたフレキシブルモデリングとマルチタスク学習

Flexible Modeling and Multitask Learning using Differentiable Tree Ensembles ( http://arxiv.org/abs/2205.09717v1 )

ライセンス: CC BY 4.0
Shibal Ibrahim and Hussein Hazimeh and Rahul Mazumder(参考訳) 決定木アンサンブルは広く使われ、競争的な学習モデルである。 その成功にもかかわらず、ツリーアンサンブルを学習するための一般的なツールキットはモデリング能力に制限がある。 例えば、これらのツールキットは限られた数の損失関数をサポートし、単一のタスク学習に制限される。 本稿では、任意の損失関数、欠落応答、マルチタスク学習をサポートする既存のツールキットを超えて、ツリーアンサンブルを学習するための柔軟なフレームワークを提案する。 私たちのフレームワークは差別化可能な(ソフトな)ツリーアンサンブルをベースとしています。 しかし、伝統的な木とは異なり、分化可能な木はスケーリングが難しい。 そこで我々は,GPU上での効率的なベクトル化を可能にする微分可能木のテンソルに基づく新しい定式化を提案する。 私たちは28のオープンソースデータセットとプロプライエタリなデータセットのコレクションで実験を行い、フレームワークが人気のあるツールキットよりも100倍コンパクトで、23%の表現力のあるツリーアンサンブルに繋がることを示した。

Decision tree ensembles are widely used and competitive learning models. Despite their success, popular toolkits for learning tree ensembles have limited modeling capabilities. For instance, these toolkits support a limited number of loss functions and are restricted to single task learning. We propose a flexible framework for learning tree ensembles, which goes beyond existing toolkits to support arbitrary loss functions, missing responses, and multi-task learning. Our framework builds on differentiable (a.k.a. soft) tree ensembles, which can be trained using first-order methods. However, unlike classical trees, differentiable trees are difficult to scale. We therefore propose a novel tensor-based formulation of differentiable trees that allows for efficient vectorization on GPUs. We perform experiments on a collection of 28 real open-source and proprietary datasets, which demonstrate that our framework can lead to 100x more compact and 23% more expressive tree ensembles than those by popular toolkits.
翻訳日:2022-05-20 13:49:49 公開日:2022-05-19
# 正ラベル学習のためのブースティングアルゴリズム

A Boosting Algorithm for Positive-Unlabeled Learning ( http://arxiv.org/abs/2205.09485v1 )

ライセンス: Link先を確認
Yawen Zhao, Mingzhe Zhang, Chenhao Zhang, Tony Chen, Nan Ye, Miao Xu(参考訳) Positive-Unlabeled (PU) 学習は、正 (P) と未ラベル (U) のデータのみが利用できる場合のバイナリ分類問題を扱う。 線形モデルとニューラルネットワークに基づくPU法が数多く提案されているが、理論上は音声ブースティングスタイルのアルゴリズムがPとUのデータでどのように機能するかは研究されていない。 ニューラルネットワークが完全に教師されたデータでもアルゴリズムを向上できないシナリオを考えると、PU学習のための新しいブースティングアルゴリズムであるAda-PUを提案する。 Ada-PUはAdaBoostの一般的な手順に従い、Pデータの2つの異なる分布が維持および更新される。 新たに更新された分布について弱い分類器を学習した後、PUデータのみを用いて最終アンサンブルに対する対応する組み合わせ重みを推定する。 提案手法は,より小さな基底分類器を用いて,ブースティングアルゴリズムの理論的特性を維持することが保証された。 実験では、ベンチマークpuデータセットでada-puがニューラルネットワークを上回ることを示した。 また,サイバーセキュリティにおける実世界のデータセットunsw-nb15を調査し,ada-puが悪意のある活動検出に優れた性能を持つことを示した。

Positive-unlabeled (PU) learning deals with binary classification problems when only positive (P) and unlabeled (U) data are available. A lot of PU methods based on linear models and neural networks have been proposed; however, there still lacks study on how the theoretically sound boosting-style algorithms could work with P and U data. Considering that in some scenarios when neural networks cannot perform as good as boosting algorithms even with fully-supervised data, we propose a novel boosting algorithm for PU learning: Ada-PU, which compares against neural networks. Ada-PU follows the general procedure of AdaBoost while two different distributions of P data are maintained and updated. After a weak classifier is learned on the newly updated distribution, the corresponding combining weight for the final ensemble is estimated using only PU data. We demonstrated that with a smaller set of base classifiers, the proposed method is guaranteed to keep the theoretical properties of boosting algorithm. In experiments, we showed that Ada-PU outperforms neural networks on benchmark PU datasets. We also study a real-world dataset UNSW-NB15 in cyber security and demonstrated that Ada-PU has superior performance for malicious activities detection.
翻訳日:2022-05-20 12:39:55 公開日:2022-05-19
# 不確かさを意識した知識蒸留のための簡易正則化

Simple Regularisation for Uncertainty-Aware Knowledge Distillation ( http://arxiv.org/abs/2205.09526v1 )

ライセンス: Link先を確認
Martin Ferianc and Miguel Rodrigues(参考訳) 現代のニューラルネットワーク(NN)の不確実性を考慮すれば、医療や金融、自律システムといった現実的なアプリケーションに機械学習システムをデプロイする上で、最も重要なステップの1つである。 現在、異なるNNのアンサンブルは、異なるタスクにおける正確さと不確実性の両方において最先端の要素となっている。 しかし、NNのアンサンブルは、その計算とメモリ消費がアンサンブルのサイズと線形にスケールするため、実際の制約下では実践的ではない。 本研究では,機械学習モデルのアンサンブルを単一NNに分割した分布自由知識蒸留のための簡単な正規化手法について検討する。 正規化の目的は、微調整などの複雑さなしに元のアンサンブルの多様性、正確さ、不確かさを推定する特性を維持することである。 本稿では,toy data,svhn/cifar-10,simple to complex nn architectures and different tasksの組み合わせによるアプローチの汎用性を示す。

Considering uncertainty estimation of modern neural networks (NNs) is one of the most important steps towards deploying machine learning systems to meaningful real-world applications such as in medicine, finance or autonomous systems. At the moment, ensembles of different NNs constitute the state-of-the-art in both accuracy and uncertainty estimation in different tasks. However, ensembles of NNs are unpractical under real-world constraints, since their computation and memory consumption scale linearly with the size of the ensemble, which increase their latency and deployment cost. In this work, we examine a simple regularisation approach for distribution-free knowledge distillation of ensemble of machine learning models into a single NN. The aim of the regularisation is to preserve the diversity, accuracy and uncertainty estimation characteristics of the original ensemble without any intricacies, such as fine-tuning. We demonstrate the generality of the approach on combinations of toy data, SVHN/CIFAR-10, simple to complex NN architectures and different tasks.
翻訳日:2022-05-20 12:39:35 公開日:2022-05-19
# データ駆動による航空管制官のコンフリクト解消反応の予測

Data-driven prediction of Air Traffic Controllers reactions to resolving conflicts ( http://arxiv.org/abs/2205.09539v1 )

ライセンス: Link先を確認
Alevizos Bastas and George A. Vouros(参考訳) 本稿では,航空交通管理分野における紛争検出・解決(CD&R)タスクの自動化をめざして,航空機軌道間の最小限の制約を逸脱できる紛争を解決するために,航空交通管制官(ATCO)反応のモデルを学ぶことができるディープラーニング技術(DL)を提案する。 タイムリーな反応は, 反応がいつ起こるかに注目し, 軌道の進行とともに軌道点を予測し, ATCOが紛争解決アクションを発行し, 解決アクションの種類を予測することを目的としている。 この目的に向けて,本論文では,CD&RにおけるATCO反応予測問題を定式化し,ATCOのタイムリーな反応をモデル化し,実世界のデータセットで評価するDL法を提案する。

With the aim to enhance automation in conflict detection and resolution (CD&R) tasks in the Air Traffic Management domain, in this paper we propose deep learning techniques (DL) that can learn models of Air Traffic Controllers' (ATCO) reactions in resolving conflicts that can violate separation minimum constraints among aircraft trajectories: This implies learning when the ATCO will react towards resolving a conflict, and how he/she will react. Timely reactions, to which this paper aims, focus on when do reactions happen, aiming to predict the trajectory points, as the trajectory evolves, that the ATCO issues a conflict resolution action, while also predicting the type of resolution action (if any). Towards this goal, the paper formulates the ATCO reactions prediction problem for CD&R, and presents DL methods that can model ATCO timely reactions and evaluates these methods in real-world data sets, showing their efficacy in prediction with very high accuracy.
翻訳日:2022-05-20 12:39:21 公開日:2022-05-19
# Manifold-Hilbertカーネルによる一貫性補間アンサンブル

Consistent Interpolating Ensembles via the Manifold-Hilbert Kernel ( http://arxiv.org/abs/2205.09342v1 )

ライセンス: Link先を確認
Yutong Wang, Clayton D. Scott(参考訳) オーバーパラメタライズドラーニングの理論に関する最近の研究は、補間体制における一般化保証を確立することを目指している。 このような結果は、いくつかの一般的なメソッドのクラスに対して確立されているが、これまでのところアンサンブルメソッドには当てはまらない。 我々は、訓練データを同時に補間するアンサンブル分類法を考案し、幅広いデータ分布のクラスに一貫性を持たせる。 この目的のために、リーマン多様体上に分布するデータに対して多様体ヒルベルト核を定義する。 多様体ヒルベルト核を用いたカーネル平滑化回帰は、Devroye et al. 1998 の設定において弱い整合性を示す。 球面に対して、多様体ヒルベルト核は、分割に基づく分類器の無限アンサンブルとして生じる重み付きランダム分割核として実現できることを示した。

Recent research in the theory of overparametrized learning has sought to establish generalization guarantees in the interpolating regime. Such results have been established for a few common classes of methods, but so far not for ensemble methods. We devise an ensemble classification method that simultaneously interpolates the training data, and is consistent for a broad class of data distributions. To this end, we define the manifold-Hilbert kernel for data distributed on a Riemannian manifold. We prove that kernel smoothing regression using the manifold-Hilbert kernel is weakly consistent in the setting of Devroye et al. 1998. For the sphere, we show that the manifold-Hilbert kernel can be realized as a weighted random partition kernel, which arises as an infinite ensemble of partition-based classifiers.
翻訳日:2022-05-20 12:36:47 公開日:2022-05-19
# テンソルシャッテンp-ノルムを用いた複雑欠落パターンを用いた時空間トラヒックデータインプテーション

Truncated tensor Schatten p-norm based approach for spatiotemporal traffic data imputation with complicated missing patterns ( http://arxiv.org/abs/2205.09390v1 )

ライセンス: Link先を確認
Tong Nie, Guoyang Qin, Jian Sun(参考訳) センサー、無線通信、クラウドコンピューティング、データサイエンスの急速な進歩は、輸送エンジニアや研究者がより良い意思決定を行うのを助けるために、前例のない量のデータをもたらした。 しかし、実際の交通データは、検出器や通信の故障により、しばしば破損または不完全な値である。 したがって、下流のデータ駆動アプリケーションの有効性を保証するためにデータ計算が必要である。 この目的のために、インプテーション問題を低ランクテンソル補完(lrtc)として扱う多くのテンソルベース手法が、以前の研究で試みられている。 LRTCの中核であるランク最小化に取り組むために、上記の手法のほとんどは、テンソル核ノルム(NN)を最小化のための凸代理として利用する。 しかし、NNの過剰な緩和問題は、実際には望ましいパフォーマンスを控えている。 本稿では, テンソルに対する非凸切断シャッテン p-ノルム (tspn) を定義し, テンソルランクを近似し, lrtc フレームワーク下での時空間的トラフィックデータの欠落を示唆する。 我々は、トラフィックデータを3階テンソル構造(時間間隔、位置(センサ)、日)にモデル化し、テンソルモードn繊維によるランダム欠失と3つの繊維様欠失を含む4つの複雑な欠失パターンを導入する。 対象関数の非凸性にもかかわらず,乗算器の交互方向法(ADMM)と一般化ソフトスレッショルド法(GST)を統合することにより,大域的最適解を求める。 さらに, 種々の欠落率シナリオに対応するために, トラクション速度減衰戦略を設計する。 実世界の時空間データセットを用いて総合実験を行い、提案したLRTC-TSpN法は、ほとんど全てのシナリオにおいて他のSOTAテンソルベースの計算モデルよりも優れていることを示す。

Rapid advances in sensor, wireless communication, cloud computing and data science have brought unprecedented amount of data to assist transportation engineers and researchers in making better decisions. However, traffic data in reality often has corrupted or incomplete values due to detector and communication malfunctions. Data imputation is thus required to ensure the effectiveness of downstream data-driven applications. To this end, numerous tensor-based methods treating the imputation problem as the low-rank tensor completion (LRTC) have been attempted in previous works. To tackle rank minimization, which is at the core of the LRTC, most of aforementioned methods utilize the tensor nuclear norm (NN) as a convex surrogate for the minimization. However, the over-relaxation issue in NN refrains it from desirable performance in practice. In this paper, we define an innovative nonconvex truncated Schatten p-norm for tensors (TSpN) to approximate tensor rank and impute missing spatiotemporal traffic data under the LRTC framework. We model traffic data into a third-order tensor structure of (time intervals,locations (sensors),days) and introduce four complicated missing patterns, including random missing and three fiber-like missing cases according to the tensor mode-n fibers. Despite nonconvexity of the objective function in our model, we derive the global optimal solutions by integrating the alternating direction method of multipliers (ADMM) with generalized soft-thresholding (GST). In addition, we design a truncation rate decay strategy to deal with varying missing rate scenarios. Comprehensive experiments are finally conducted using real-world spatiotemporal datasets, which demonstrate that the proposed LRTC-TSpN method performs well under various missing cases, meanwhile outperforming other SOTA tensor-based imputation models in almost all scenarios.
翻訳日:2022-05-20 12:36:36 公開日:2022-05-19
# 幅と深さを超えたニューラルネットワークアーキテクチャ

Neural Network Architecture Beyond Width and Depth ( http://arxiv.org/abs/2205.09459v1 )

ライセンス: Link先を確認
Zuowei Shen, Haizhao Yang, Shijun Zhang(参考訳) 本稿では,幅と深さを超えた高さという付加次元を導入することで,新しいニューラルネットワークアーキテクチャを提案する。 ハイパーパラメータとして高さ、幅、深さを持つニューラルネットワークアーキテクチャを三次元アーキテクチャと呼ぶ。 三次元アーキテクチャを持つニューラルネットワークは、2次元アーキテクチャを持つもの(ハイパーパラメータとして幅と深さのみを持つもの)よりもはるかに表現力が高いことが示されている。 新しいネットワークアーキテクチャはネスト構造によって再帰的に構築されるので、我々は新しいアーキテクチャネストネットワーク(NestNet)をネットワークと呼ぶ。 高さ$s$のNestNetは、高さ$\le s-1$のNestNetによって起動される隠れニューロンで構築される。 s=1$ の場合、nestnet は2次元アーキテクチャを持つ標準ネットワークに縮退する。 height-$s$ relu nestnets with $\mathcal{o}(n)$ parameters can approximation lipschitz continuous functions on $[0,1]^d$ with a error $\mathcal{o}(n^{-(s+1)/d})$ しかし、$\mathcal{o}(n)$ parametersの標準reluネットワークの最適近似誤差は$\mathcal{o}(n^{-2/d})$である。 さらに、そのような結果は$[0,1]^d$上の一般連続関数に拡張され、近似誤差は連続性の係数によって特徴づけられる。 最後に、ReLU NestNetsの超近似パワーの利点を探求する数値的な例を示す。

This paper proposes a new neural network architecture by introducing an additional dimension called height beyond width and depth. Neural network architectures with height, width, and depth as hyperparameters are called three-dimensional architectures. It is shown that neural networks with three-dimensional architectures are significantly more expressive than the ones with two-dimensional architectures (those with only width and depth as hyperparameters), e.g., standard fully connected networks. The new network architecture is constructed recursively via a nested structure, and hence we call a network with the new architecture nested network (NestNet). A NestNet of height $s$ is built with each hidden neuron activated by a NestNet of height $\le s-1$. When $s=1$, a NestNet degenerates to a standard network with a two-dimensional architecture. It is proved by construction that height-$s$ ReLU NestNets with $\mathcal{O}(n)$ parameters can approximate Lipschitz continuous functions on $[0,1]^d$ with an error $\mathcal{O}(n^{-(s+1)/d})$, while the optimal approximation error of standard ReLU networks with $\mathcal{O}(n)$ parameters is $\mathcal{O}(n^{-2/d})$. Furthermore, such a result is extended to generic continuous functions on $[0,1]^d$ with the approximation error characterized by the modulus of continuity. Finally, a numerical example is provided to explore the advantages of the super approximation power of ReLU NestNets.
翻訳日:2022-05-20 12:36:03 公開日:2022-05-19
# scICML:シングルセルマルチオミクスデータの統合分析のための情報理論コクラスタリングに基づく多視点学習

scICML: Information-theoretic Co-clustering-based Multi-view Learning for the Integrative Analysis of Single-cell Multi-omics data ( http://arxiv.org/abs/2205.09523v1 )

ライセンス: Link先を確認
Pengcheng Zeng, Zhixiang Lin(参考訳) 現代の高スループットシークエンシング技術は、同じ単一細胞から複数の分子モーダルをプロファイリングし、複数の生物学的層から細胞質の不均一性を評価するという前例のない機会を提供する。 しかし、これらの技術から生成されるデータセットは高いレベルのノイズを持ち、非常にスパースであり、データ分析に課題をもたらす。 本稿では,マルチオミクス単一セルデータ統合のための情報理論コクラスタリングに基づくマルチビュー学習(scICML)手法を提案する。 scICMLは共同クラスタリングを使用して、データのビュー毎に同様の機能を集約し、セルの共通クラスタリングパターンを明らかにする。 さらに、 scICMLは、異なるタイプのゲノム特徴間の生物学的依存関係構造を考慮するために、異なるデータタイプ間でリンクされた機能のクラスタを自動的にマッチングする。 実世界の4つのデータセットに対する実験により、SCICMLは全体のクラスタリング性能を改善し、末梢血単核球のデータ解析に関する生物学的知見を提供する。

Modern high-throughput sequencing technologies have enabled us to profile multiple molecular modalities from the same single cell, providing unprecedented opportunities to assay celluar heterogeneity from multiple biological layers. However, the datasets generated from these technologies tend to have high level of noise and are highly sparse, bringing challenges to data analysis. In this paper, we develop a novel information-theoretic co-clustering-based multi-view learning (scICML) method for multi-omics single-cell data integration. scICML utilizes co-clusterings to aggregate similar features for each view of data and uncover the common clustering pattern for cells. In addition, scICML automatically matches the clusters of the linked features across different data types for considering the biological dependency structure across different types of genomic features. Our experiments on four real-world datasets demonstrate that scICML improves the overall clustering performance and provides biological insights into the data analysis of peripheral blood mononuclear cells.
翻訳日:2022-05-20 12:35:29 公開日:2022-05-19
# フェンシェル・ヤング損失を一般化した学習エネルギーネットワーク

Learning Energy Networks with Generalized Fenchel-Young Losses ( http://arxiv.org/abs/2205.09589v1 )

ライセンス: Link先を確認
Mathieu Blondel, Felipe Llinares-L\'opez, Robert Dadashi, L\'eonard Hussenot, Matthieu Geist(参考訳) エネルギーベースのモデル、すなわちエネルギーネットワークは、通常ニューラルネットワークによってパラメータ化されたエネルギー関数を最適化することで推論を行う。 これにより、入力と出力の間の潜在的に複雑な関係をキャプチャできる。 エネルギー関数のパラメータを学習するために、最適化問題の解は通常損失関数に供給される。 エネルギーネットワークのトレーニングにおける重要な課題は、一般的にargmin/argmax微分を必要とするため、損失勾配の計算にある。 本稿では,通常の双線型ペアリングを一般エネルギー関数に置き換えた共役関数の一般化概念に基づいて,学習エネルギーネットワークの自然損失構造である一般化Fenchel-Young損失を提案する。 我々の損失は多くの望ましい特性を享受し、その勾配はargmin/argmax微分なしで効率的に計算できる。 また, 線形対流エネルギーの場合, 余剰リスクの校正を実証する。 マルチラベル分類と模倣学習における損失を実証する。

Energy-based models, a.k.a. energy networks, perform inference by optimizing an energy function, typically parametrized by a neural network. This allows one to capture potentially complex relationships between inputs and outputs. To learn the parameters of the energy function, the solution to that optimization problem is typically fed into a loss function. The key challenge for training energy networks lies in computing loss gradients, as this typically requires argmin/argmax differentiation. In this paper, building upon a generalized notion of conjugate function, which replaces the usual bilinear pairing with a general energy function, we propose generalized Fenchel-Young losses, a natural loss construction for learning energy networks. Our losses enjoy many desirable properties and their gradients can be computed efficiently without argmin/argmax differentiation. We also prove the calibration of their excess risk in the case of linear-concave energies. We demonstrate our losses on multilabel classification and imitation learning tasks.
翻訳日:2022-05-20 12:35:11 公開日:2022-05-19
# 近似確率推論のための基礎後根

Foundation Posteriors for Approximate Probabilistic Inference ( http://arxiv.org/abs/2205.09735v1 )

ライセンス: Link先を確認
Mike Wu, Noah Goodman(参考訳) 確率プログラムは生成モデルのための表現表現言語を提供する。 確率的プログラムが与えられた場合、我々は後続推論のタスクに興味を持ち、観測された変数の集合が与えられた潜在変数を推定する。 確率的プログラムにおける推論のための既存の技術は、しばしば多くのハイパーパラメータを選択し、計算コストが高く、またはプログラムの制限されたクラスでのみ機能する。 プログラムが与えられたとき、変数と代入の教師付きデータセットを生成し、代入のサブセットをランダムにマスクします。 次に,乱数を解き明かすためにニューラルネットワークを訓練し,近似的な後方分布を定義する。 プログラムの範囲で1つのニューラルネットワークを最適化することで、トレーニングのコストを減らし、新しいプログラムに対してゼロショット推論を実行できる ``foundation'' を後付けします。 基礎後部は、変動推論目標を最適化することにより、特定のプログラムやデータセットに対して微調整することもできる。 我々は、stanプログラムのベンチマークにおいて、ゼロショットと微調整によるアプローチの有効性を示す。

Probabilistic programs provide an expressive representation language for generative models. Given a probabilistic program, we are interested in the task of posterior inference: estimating a latent variable given a set of observed variables. Existing techniques for inference in probabilistic programs often require choosing many hyper-parameters, are computationally expensive, and/or only work for restricted classes of programs. Here we formulate inference as masked language modeling: given a program, we generate a supervised dataset of variables and assignments, and randomly mask a subset of the assignments. We then train a neural network to unmask the random values, defining an approximate posterior distribution. By optimizing a single neural network across a range of programs we amortize the cost of training, yielding a ``foundation'' posterior able to do zero-shot inference for new programs. The foundation posterior can also be fine-tuned for a particular program and dataset by optimizing a variational inference objective. We show the efficacy of the approach, zero-shot and fine-tuned, on a benchmark of STAN programs.
翻訳日:2022-05-20 12:34:56 公開日:2022-05-19
# CLCNet: 分類信頼ネットワークを用いたアンサンブルモデリングの再考

CLCNet: Rethinking of Ensemble Modeling with Classification Confidence Network ( http://arxiv.org/abs/2205.09612v1 )

ライセンス: Link先を確認
Yao-Ching Yu, Shi-Jinn Horng(参考訳) 本稿では,分類モデルが入力サンプルを正しく分類するかどうかを判断できる分類信頼度ネットワーク(clcnet)を提案する。 任意の次元のベクトルの形で分類結果を取得し、信頼スコアを出力として返すことができ、これは正しく分類されたインスタンスの確率を表す。 我々はclcnetをいくつかのsota(state-of-the-art)分類モデルからなる単純なカスケード構造システムで利用することができ,実験により以下の利点が得られた。 1. このシステムは、推論中に画像毎の平均計算要求(FLOP)をカスタマイズできる。 2 同一の計算要件の下では、システムの性能は、システム内のモデルと同一の構造を持つが、サイズが異なる任意のモデルを超えることができる。 実際、これは新しいタイプのアンサンブルモデリングである。 一般的なアンサンブルモデリングと同様に、単一分類モデルよりも高い性能を達成することができるが、我々のシステムは一般的なアンサンブルモデリングよりもはるかに少ない計算を必要とする。 コードをgithubリポジトリにアップロードしました。 https://github.com/yaoching0/CLCNet-Rethinking-of-Ensemble-Modeling。

In this paper, we propose a Classification Confidence Network (CLCNet) that can determine whether the classification model classifies input samples correctly. It can take a classification result in the form of vector in any dimension, and return a confidence score as output, which represents the probability of an instance being classified correctly. We can utilize CLCNet in a simple cascade structure system consisting of several SOTA (state-of-the-art) classification models, and our experiments show that the system can achieve the following advantages: 1. The system can customize the average computation requirement (FLOPs) per image while inference. 2. Under the same computation requirement, the performance of the system can exceed any model that has identical structure with the model in the system, but different in size. In fact, this is a new type of ensemble modeling. Like general ensemble modeling, it can achieve higher performance than single classification model, yet our system requires much less computation than general ensemble modeling. We have uploaded our code to a github repository: https://github.com/yaoching0/CLCNet-Rethinking-of-Ensemble-Modeling.
翻訳日:2022-05-20 12:34:38 公開日:2022-05-19
# (参考訳) Curras + Baladi: レバンタ・コーパスを目指して

Curras + Baladi: Towards a Levantine Corpus ( http://arxiv.org/abs/2205.09692v1 )

ライセンス: CC BY 4.0
Karim El Haff, Mustafa Jarrar, Tymaa Hammouda, Fadi Zaraket(参考訳) アラビア語の処理は複雑な研究分野である。 これは、アラビア語の複雑で豊かな形態学、その曖昧さの度合いの高さ、独自の特徴を考慮に入れながら処理する必要があるいくつかの地域品種の存在など、多くの要因による。 方言が考慮されると、この言語はNLPの限界を押して、その固有の性質によって引き起こされる問題の解を見つける。 標準言語は形式的な設定や教育で使われ、異なる地域で話される言語とは全く異なるものであり、歴史的にこれらの地域で話されていた古い言語の影響を受けている。 これにより、NLPの専門家は、バージット大学のパレスチナ語形態学的に注釈付けされたCurras corpusのような方言固有のコーパスを作成することができる。 本研究では、約9.6Kの注釈付きトークンからなるレバノン・コーパス・バラディを提示する。 レバノン語とパレスチナ語の方言は、同じレバンチン方言連続体の一部であり、非常に相互に理解しやすいため、提案するコーパスは、(1)キュラを豊かにし、より一般的なレバンチンコーパスに変換し、(2)検出されたエラーを解決することで、キュラを改善するために使用される。

The processing of the Arabic language is a complex field of research. This is due to many factors, including the complex and rich morphology of Arabic, its high degree of ambiguity, and the presence of several regional varieties that need to be processed while taking into account their unique characteristics. When its dialects are taken into account, this language pushes the limits of NLP to find solutions to problems posed by its inherent nature. It is a diglossic language; the standard language is used in formal settings and in education and is quite different from the vernacular languages spoken in the different regions and influenced by older languages that were historically spoken in those regions. This should encourage NLP specialists to create dialect-specific corpora such as the Palestinian morphologically annotated Curras corpus of Birzeit University. In this work, we present the Lebanese Corpus Baladi that consists of around 9.6K morphologically annotated tokens. Since Lebanese and Palestinian dialects are part of the same Levantine dialectal continuum, and thus highly mutually intelligible, our proposed corpus was constructed to be used to (1) enrich Curras and transform it into a more general Levantine corpus and (2) improve Curras by solving detected errors.
翻訳日:2022-05-20 12:33:07 公開日:2022-05-19
# (参考訳) selection-inference: 大きな言語モデルを解釈可能な論理推論に活用する

Selection-Inference: Exploiting Large Language Models for Interpretable Logical Reasoning ( http://arxiv.org/abs/2205.09712v1 )

ライセンス: CC BY 4.0
Antonia Creswell, Murray Shanahan and Irina Higgins(参考訳) 大規模言語モデル(LLM)は、新しいタスクへの印象的な数ショットの一般化を可能にすることが示されている。 しかし、それでも多段階論理推論問題では性能が劣る傾向にある。 ここでは、論理的推論の異なる側面を探索する50のタスクに対するLLMの総合的な評価を行う。 我々は、言語モデルが単一のステップ推論や帰属タスクでかなりうまく機能する傾向があるが、より複雑な問題を解決するために複数の推論ステップを連結するのに苦労していることを示す。 そこで本研究では,事前学習したLLMを汎用処理モジュールとして活用し,選択と推論を交互に組み合わせて,解釈可能なカジュアルな推論ステップを生成する,選択推論(SI)フレームワークを提案する。 5ショットの一般化設定でSIフレームワーク内で使用する 7B パラメータ LLM は、微調整なしで、論理的推論タスク10組の等価なバニラベースラインと比較して100%以上の性能向上が得られることを示す。 同じ設定で同じモデルでも、同じタスクセットでかなり大きな280Bパラメータのベースラインを上回ります。 さらに、SIフレームワークが生み出す回答には、因果的自然言語に基づく推論トレースが伴い、システムの安全性と信頼性に重要な意味を持つ。

Large language models (LLMs) have been shown to be capable of impressive few-shot generalisation to new tasks. However, they still tend to perform poorly on multi-step logical reasoning problems. Here we carry out a comprehensive evaluation of LLMs on 50 tasks that probe different aspects of logical reasoning. We show that language models tend to perform fairly well at single step inference or entailment tasks, but struggle to chain together multiple reasoning steps to solve more complex problems. In light of this, we propose a Selection-Inference (SI) framework that exploits pre-trained LLMs as general processing modules, and alternates between selection and inference to generate a series of interpretable, casual reasoning steps leading to the final answer. We show that a 7B parameter LLM used within the SI framework in a 5-shot generalisation setting, with no fine-tuning, yields a performance improvement of over 100% compared to an equivalent vanilla baseline on a suite of 10 logical reasoning tasks. The same model in the same setting even outperforms a significantly larger 280B parameter baseline on the same suite of tasks. Moreover, answers produced by the SI framework are accompanied by a causal natural-language-based reasoning trace, which has important implications for the safety and trustworthiness of the system.
翻訳日:2022-05-20 12:10:53 公開日:2022-05-19
# なぜMicro-F1だけなのか? 関係分類のための尺度のクラス重み付け

Why only Micro-F1? Class Weighting of Measures for Relation Classification ( http://arxiv.org/abs/2205.09460v1 )

ライセンス: Link先を確認
David Harbecke, Yuxuan Chen, Leonhard Hennig, Christoph Alt(参考訳) 関係分類モデルは従来、マイクロf1、マクロf1、aucなどの単一の尺度のみを用いて評価される。 本研究では,不均衡データセットに対してマイクロやマクロなどの重み付けスキームを分析する。 既存のスキームが極端である重み付けスキームの枠組みと,2つの新しい中間スキームを導入する。 異なる重み付けスキームの報告結果が,モデルの強みと弱みをよりよく強調することを示した。

Relation classification models are conventionally evaluated using only a single measure, e.g., micro-F1, macro-F1 or AUC. In this work, we analyze weighting schemes, such as micro and macro, for imbalanced datasets. We introduce a framework for weighting schemes, where existing schemes are extremes, and two new intermediate schemes. We show that reporting results of different weighting schemes better highlights strengths and weaknesses of a model.
翻訳日:2022-05-20 12:09:57 公開日:2022-05-19
# rankgen: 大きなランキングモデルによるテキスト生成の改善

RankGen: Improving Text Generation with Large Ranking Models ( http://arxiv.org/abs/2205.09726v1 )

ライセンス: Link先を確認
Kalpesh Krishna, Yapei Chang, John Wieting, Mohit Iyyer(参考訳) 入力シーケンス(またはプレフィックス)が与えられた場合、現代の言語モデルは、しばしばプレフィックスに関係のない繰り返し、一貫性のない、あるいは非一貫性のないシーケンスを出力するために高い確率を割り当てる。 これらの問題に対処するために、プレフィックスを与えられたモデル世代をスコアするエンコーダモデル(1.2Bパラメータ)であるRanGenを提案する。 RankGenはビームサーチにおいてスコアリング関数として柔軟に組み込まれ、事前訓練された言語モデルからデコードするために使用される。 大規模コントラスト学習を用いてLangeGenを訓練し、それに続く接頭辞列に近い接頭辞を2つの負のタイプから遠く離れたものにマッピングする。(1) 同一の文書からランダムな列を抽出し、(2) 接頭辞に条件づけられた大きな言語モデルから生成される列は反復と幻覚を阻止する。 4つの異なる言語モデル(345M-11Bパラメータ)と2つのドメインにわたる実験により、RangeGenは、カーネル、トップk、典型的なサンプリングのようなデコードアルゴリズム(85.0対77.3 MAUVE)と、イングランドのライターによる人間による評価(74.5%が核サンプリングよりも人間の好み)を著しく上回っている。 分析により、rankgen出力はプレフィックスとより関連があり、ベースラインと比較して連続性とコヒーレンスを改善することが分かる。 我々は、将来の研究の詳細な説明とともに、モデルチェックポイント、コード、人間の好みをオープンソースにしています。

Given an input sequence (or prefix), modern language models often assign high probabilities to output sequences that are repetitive, incoherent, or irrelevant to the prefix; as such, model-generated text also contains such artifacts. To address these issues, we present RankGen, an encoder model (1.2B parameters) that scores model generations given a prefix. RankGen can be flexibly incorporated as a scoring function in beam search and used to decode from any pretrained language model. We train RankGen using large-scale contrastive learning to map a prefix close to the ground-truth sequence that follows it and far away from two types of negatives: (1) random sequences from the same document as the prefix, and, which discourage topically-similar but irrelevant generations; (2) sequences generated from a large language model conditioned on the prefix, which discourage repetition and hallucination. Experiments across four different language models (345M-11B parameters) and two domains show that RankGen significantly outperforms decoding algorithms like nucleus, top-k, and typical sampling on both automatic metrics (85.0 vs 77.3 MAUVE) as well as human evaluations with English writers (74.5% human preference over nucleus sampling). Analysis reveals that RankGen outputs are more relevant to the prefix and improve continuity and coherence compared to baselines. We open source our model checkpoints, code, and human preferences with detailed explanations for future research.
翻訳日:2022-05-20 12:09:50 公開日:2022-05-19
# 偉大なパワーと大きな責任: 言語モデルのトレーニングのためのエネルギー削減の推奨

Great Power, Great Responsibility: Recommendations for Reducing Energy for Training Language Models ( http://arxiv.org/abs/2205.09646v1 )

ライセンス: Link先を確認
Joseph McDonald, Baolin Li, Nathan Frey, Devesh Tiwari, Vijay Gadepally, Siddharth Samsi(参考訳) 現在の自然言語処理モデルのエネルギー要求は、迅速かつ持続不可能なペースで成長を続けている。 この問題を浮き彫りにする最近の研究は、NLPと機械学習のエネルギー需要をより広く削減する手法が緊急に必要であると結論付けている。 本稿では,一般的なNLPアプリケーションのエネルギー消費を削減できる技術について検討する。 特に、トレーニングや言語モデルの推論のためのエネルギー消費を減らすために調整可能な、エネルギー使用量を測定する技術と、異なるハードウェアおよびデータセンター指向の設定に焦点を当てる。 我々は,これらの設定が計算性能やエネルギー消費などの指標に与える影響を,高性能コンピューティングシステムと一般的なクラウドコンピューティングプラットフォームで行った実験を通じて特徴づける。 これらの手法は、訓練言語モデルや推論に使用する際のエネルギー消費を著しく減少させる可能性がある。 例えば、GPUが消費する最大電力を制限するパワーキャッピングは、トランスフォーマーベースの言語モデルをトレーニングする際の計算時間全体の限界増加とともに、エネルギー使用量の15倍の削減を可能にする。

The energy requirements of current natural language processing models continue to grow at a rapid, unsustainable pace. Recent works highlighting this problem conclude there is an urgent need for methods that reduce the energy needs of NLP and machine learning more broadly. In this article, we investigate techniques that can be used to reduce the energy consumption of common NLP applications. In particular, we focus on techniques to measure energy usage and different hardware and datacenter-oriented settings that can be tuned to reduce energy consumption for training and inference for language models. We characterize the impact of these settings on metrics such as computational performance and energy consumption through experiments conducted on a high performance computing system as well as popular cloud computing platforms. These techniques can lead to significant reduction in energy consumption when training language models or their use for inference. For example, power-capping, which limits the maximum power a GPU can consume, can enable a 15\% decrease in energy usage with marginal increase in overall computation time when training a transformer-based language model.
翻訳日:2022-05-20 12:09:05 公開日:2022-05-19
# 適応型強化学習に向けて:ポリシーアンサンブルによる一般化とサンプル効率の向上

Towards Applicable Reinforcement Learning: Improving the Generalization and Sample Efficiency with Policy Ensemble ( http://arxiv.org/abs/2205.09284v1 )

ライセンス: Link先を確認
Zhengyu Yang, Kan Ren, Xufang Luo, Minghuan Liu, Weiqing Liu, Jiang Bian, Weinan Zhang, Dongsheng Li(参考訳) 金融取引やロジスティックシステムといった実世界のアプリケーションにおいて,強化学習(rl)アルゴリズムが成功するには,ノイズの観測や,トレーニングと評価の環境シフトなどによって困難である。 したがって、実世界のタスクを解決するには高いサンプル効率と一般化が必要である。 しかし、一般的なRLアルゴリズムを直接適用すると、そのようなシナリオでは性能が低下する可能性がある。 教師付き学習(SL)におけるアンサンブル手法の精度と一般化の両面での優れた性能を考慮し,エンド・ツー・エンドでアンサンブルポリシーを学習するEnsemble Proximal Policy Optimization(EPPO)という,堅牢で適用可能な手法を設計する。 特に、EPPOは、各ポリシーと政策アンサンブルを有機的に組み合わせ、両方を同時に最適化する。 さらに、EPPOは、未確認状態への一般化と探索の促進を支援する政策空間の多様性向上規則化を採用する。 我々はEPPOが探索効率を高めることを理論的に証明し、様々なタスクに関する包括的な実験的評価を通じて、EPPOはより効率が高く、バニラポリシー最適化アルゴリズムや他のアンサンブル手法と比較して実世界のアプリケーションにとって堅牢であることを示す。 コードと補足資料はhttps://seqml.github.io/eppoで入手できる。

It is challenging for reinforcement learning (RL) algorithms to succeed in real-world applications like financial trading and logistic system due to the noisy observation and environment shifting between training and evaluation. Thus, it requires both high sample efficiency and generalization for resolving real-world tasks. However, directly applying typical RL algorithms can lead to poor performance in such scenarios. Considering the great performance of ensemble methods on both accuracy and generalization in supervised learning (SL), we design a robust and applicable method named Ensemble Proximal Policy Optimization (EPPO), which learns ensemble policies in an end-to-end manner. Notably, EPPO combines each policy and the policy ensemble organically and optimizes both simultaneously. In addition, EPPO adopts a diversity enhancement regularization over the policy space which helps to generalize to unseen states and promotes exploration. We theoretically prove EPPO increases exploration efficacy, and through comprehensive experimental evaluations on various tasks, we demonstrate that EPPO achieves higher efficiency and is robust for real-world applications compared with vanilla policy optimization algorithms and other ensemble methods. Code and supplemental materials are available at https://seqml.github.io/eppo.
翻訳日:2022-05-20 12:08:48 公開日:2022-05-19
# 生成フレームワークを用いたオンラインクラスインクリメンタルラーニングにおけるロジットバイアスの回避

Bypassing Logits Bias in Online Class-Incremental Learning with a Generative Framework ( http://arxiv.org/abs/2205.09347v1 )

ライセンス: Link先を確認
Gehui Shen, Shibo Jie, Ziheng Li, Zhi-Hong Deng(参考訳) 継続的な学習は、非i.dデータストリームから継続的に学習しながら、学習した知識を維持するモデルを必要とする。 シングルパスのトレーニング設定のため、オンラインの連続学習は非常に難しいが、新しいデータへの迅速な適応がアピールされる現実世界のシナリオに近い。 本稿では,新しい授業が時間とともに出現するオンライン授業増分学習環境に焦点を当てた。 既存のメソッドのほとんどすべてが、softmax分類器でリプレイベースである。 しかし、softmax分類器に内在するlogitsバイアス問題は、オンライン設定に既存のソリューションが適用できない場合、壊滅的な忘れる主な原因である。 この問題を回避するため,softmax分類器を廃止し,特徴空間に基づく新しい生成フレームワークを提案する。 本フレームワークでは,リプレイメモリを利用した生成型分類器を推論に使用し,理論上,特徴空間を生成的手法で最適化することが証明された,ペアベースのメトリック学習損失である。 さらに,新しいデータ学習能力を向上させるために,モデル学習のための生成的損失と識別的損失のハイブリッドを提案する。 新たに導入されたタスクフリーデータセットを含むいくつかのベンチマークにおいて、我々の手法は、識別型分類器を用いた一連の最先端のリプレイベース手法を破り、破滅的な忘れ込みを顕著なマージンとともに減少させることを示した。

Continual learning requires the model to maintain the learned knowledge while learning from a non-i.i.d data stream continually. Due to the single-pass training setting, online continual learning is very challenging, but it is closer to the real-world scenarios where quick adaptation to new data is appealing. In this paper, we focus on online class-incremental learning setting in which new classes emerge over time. Almost all existing methods are replay-based with a softmax classifier. However, the inherent logits bias problem in the softmax classifier is a main cause of catastrophic forgetting while existing solutions are not applicable for online settings. To bypass this problem, we abandon the softmax classifier and propose a novel generative framework based on the feature space. In our framework, a generative classifier which utilizes replay memory is used for inference, and the training objective is a pair-based metric learning loss which is proven theoretically to optimize the feature space in a generative way. In order to improve the ability to learn new data, we further propose a hybrid of generative and discriminative loss to train the model. Extensive experiments on several benchmarks, including newly introduced task-free datasets, show that our method beats a series of state-of-the-art replay-based methods with discriminative classifiers, and reduces catastrophic forgetting consistently with a remarkable margin.
翻訳日:2022-05-20 12:08:27 公開日:2022-05-19
# 言語とビジョンにおける事前学習の継続

Continual Pre-Training Mitigates Forgetting in Language and Vision ( http://arxiv.org/abs/2205.09357v1 )

ライセンス: Link先を確認
Andrea Cossu, Tinne Tuytelaars, Antonio Carta, Lucia Passaro, Vincenzo Lomonaco, Davide Bacciu(参考訳) 事前学習モデルは現在、機械学習研究の基本的なコンポーネントとなっている。 連続学習では、非定常データのストリームでトレーニングする前にモデルを初期化するのに使われる。 しかし、事前学習は連続学習中にはほとんど適用されない。 言語と視覚環境の両方において、モデルが入力されたデータストリーム上で継続的に事前学習され、後から異なる下流タスクに微調整されるような連続的な事前学習シナリオの特性を形式化し、検証する。 我々は, 自己指導型事前学習が, 教師付きプロトコルよりも, 事前知識の維持に有効であるという事実を裏付ける, 強烈な実証的証拠を提示する。 コードはhttps://github.com/AndreaCossu/continual-pretraining-nlp-visionで提供されている。

Pre-trained models are nowadays a fundamental component of machine learning research. In continual learning, they are commonly used to initialize the model before training on the stream of non-stationary data. However, pre-training is rarely applied during continual learning. We formalize and investigate the characteristics of the continual pre-training scenario in both language and vision environments, where a model is continually pre-trained on a stream of incoming data and only later fine-tuned to different downstream tasks. We show that continually pre-trained models are robust against catastrophic forgetting and we provide strong empirical evidence supporting the fact that self-supervised pre-training is more effective in retaining previous knowledge than supervised protocols. Code is provided at https://github.com/AndreaCossu/continual-pretraining-nlp-vision .
翻訳日:2022-05-20 12:08:04 公開日:2022-05-19
# (参考訳) 自己スーパービジョンを用いたロバスト・高能率医用イメージング

Robust and Efficient Medical Imaging with Self-Supervision ( http://arxiv.org/abs/2205.09723v1 )

ライセンス: CC BY 4.0
Shekoofeh Azizi, Laura Culp, Jan Freyberg, Basil Mustafa, Sebastien Baur, Simon Kornblith, Ting Chen, Patricia MacWilliams, S. Sara Mahdavi, Ellery Wulczyn, Boris Babenko, Megan Wilson, Aaron Loh, Po-Hsuan Cameron Chen, Yuan Liu, Pinal Bavishi, Scott Mayer McKinney, Jim Winkens, Abhijit Guha Roy, Zach Beaver, Fiona Ryan, Justin Krogue, Mozziyar Etemadi, Umesh Telang, Yun Liu, Lily Peng, Greg S. Corrado, Dale R. Webster, David Fleet, Geoffrey Hinton, Neil Houlsby, Alan Karthikesalingam, Mohammad Norouzi, Vivek Natarajan(参考訳) 医療人工知能(AI)の最近の進歩は、臨床専門家レベルのパフォーマンスに到達するシステムを提供している。 しかし,これらのシステムでは,トレーニング環境と異なる臨床環境において,最適な「アウト・オブ・ディストリビューション」性能を示す傾向にある。 一般的な緩和戦略は、サイト固有のデータ [1] を用いて、臨床環境ごとに別々のシステムを開発することである。 しかし、医療データが取得に時間がかかり、[2]を注釈するのにコストがかかるため、これはすぐに非現実的になる。 このように、「データ効率の一般化」という問題は、医療AI開発において進行中の困難を呈している。 表現学習の進歩は将来性を示すが、その利点は厳密には研究されていない。 これらの課題に対処するため、医療画像AIの堅牢性とデータ効率を向上させるための統一表現学習戦略REMEDISを提案する。 REMEDISは、大規模教師ありトランスファー学習と自己教師あり学習を組み合わせた汎用的な組み合わせを使用し、タスク固有のカスタマイズをほとんど必要としない。 様々な医療画像タスクを研究し, 振り返りデータを用いて3つの現実的な応用シナリオをシミュレートする。 remedisは、強力な教師付きベースラインよりも診断精度が最大11.5%向上し、分布内性能が著しく向上している。 より重要なことに、我々の戦略は、医療画像aiの強力なデータ効率の一般化につながり、タスク間でデータを再トレーニングする1%から33%の頻度で、強い教師付きベースラインと一致します。 これらの結果から,REMEDISは医療画像AI開発のライフサイクルを著しく加速し,医療画像AIが幅広い影響を与えるための重要な一歩となることが示唆された。

Recent progress in Medical Artificial Intelligence (AI) has delivered systems that can reach clinical expert level performance. However, such systems tend to demonstrate sub-optimal "out-of-distribution" performance when evaluated in clinical settings different from the training environment. A common mitigation strategy is to develop separate systems for each clinical setting using site-specific data [1]. However, this quickly becomes impractical as medical data is time-consuming to acquire and expensive to annotate [2]. Thus, the problem of "data-efficient generalization" presents an ongoing difficulty for Medical AI development. Although progress in representation learning shows promise, their benefits have not been rigorously studied, specifically for out-of-distribution settings. To meet these challenges, we present REMEDIS, a unified representation learning strategy to improve robustness and data-efficiency of medical imaging AI. REMEDIS uses a generic combination of large-scale supervised transfer learning with self-supervised learning and requires little task-specific customization. We study a diverse range of medical imaging tasks and simulate three realistic application scenarios using retrospective data. REMEDIS exhibits significantly improved in-distribution performance with up to 11.5% relative improvement in diagnostic accuracy over a strong supervised baseline. More importantly, our strategy leads to strong data-efficient generalization of medical imaging AI, matching strong supervised baselines using between 1% to 33% of retraining data across tasks. These results suggest that REMEDIS can significantly accelerate the life-cycle of medical imaging AI development thereby presenting an important step forward for medical imaging AI to deliver broad impact.
翻訳日:2022-05-20 12:07:38 公開日:2022-05-19
# ブートストラップとステップワイズ強化リワードから学ぶ:テキストスタイル転送のための半スーパービジョンフレームワーク

Learning from Bootstrapping and Stepwise Reinforcement Reward: A Semi-Supervised Framework for Text Style Transfer ( http://arxiv.org/abs/2205.09324v1 )

ライセンス: Link先を確認
Zhengyuan Liu, Nancy F. Chen(参考訳) テキストスタイル転送は、制御可能な言語生成において重要なタスクである。 教師付きアプローチは形式変換のようなスタイル指向の書き換えのパフォーマンス向上を促した。 しかし、多くの領域で大規模並列データが不足しているため、課題は残る。 教師なしのアプローチでは各スタイルに注釈付き文対は依存しないが、モード崩壊や品質劣化といった不安定な問題に悩まされることが多い。 本研究では,教師なしと教師なしの両方のパラダイムを活用し,課題に取り組むため,テキストスタイル転送のための半教師なしフレームワークを提案する。 まず、語彙と意味に基づく手法を用いて擬似並列ペアを自動構築し、教師付きで学習プロセスをブートストラップする。 そして、モデルがラベルのないデータから強化報酬を通じて学習する。 具体的には,段階的な報酬最適化,きめ細かな学習信号の提供,強化学習プロセスの安定化などを通じて,シーケンス・ツー・シーケンスの政策勾配を改善することを提案する。 実験の結果,提案手法は,複数のデータセットにおいて最先端のパフォーマンスを達成し,最大10\%のトレーニングデータで効率的な生成を実現することがわかった。

Text style transfer is an important task in controllable language generation. Supervised approaches have pushed performance improvement on style-oriented rewriting such as formality conversion. However, challenges remain due to the scarcity of large-scale parallel data in many domains. While unsupervised approaches do not rely on annotated sentence pairs for each style, they are often plagued with instability issues such as mode collapse or quality degradation. To take advantage of both supervised and unsupervised paradigms and tackle the challenges, in this work, we propose a semi-supervised framework for text style transfer. First, the learning process is bootstrapped with supervision guided by automatically constructed pseudo-parallel pairs using lexical and semantic-based methods. Then the model learns from unlabeled data via reinforcement rewards. Specifically, we propose to improve the sequence-to-sequence policy gradient via stepwise reward optimization, providing fine-grained learning signals and stabilizing the reinforced learning process. Experimental results show that the proposed approach achieves state-of-the-art performance on multiple datasets, and produces effective generation with as minimal as 10\% of training data.
翻訳日:2022-05-20 12:05:47 公開日:2022-05-19
# sds-200 - スイスの標準ドイツ語テキストコーパス用音声。

SDS-200: A Swiss German Speech to Standard German Text Corpus ( http://arxiv.org/abs/2205.09501v1 )

ライセンス: Link先を確認
Michel Pl\"uss, Manuela H\"urlimann, Marc Cuny, Alla St\"ockli, Nikolaos Kapotis, Julia Hartmann, Malgorzata Anna Ulasik, Christian Scheller, Yanick Schraner, Amit Jain, Jan Deriu, Mark Cieliebak, Manfred Vogel(参考訳) SDS-200は、標準ドイツ語のテキスト翻訳によるスイスドイツ語方言のコーパスであり、話者の方言、年齢、性別情報に注釈を付けたものである。 このデータセットは、音声翻訳、方言認識、音声合成システムなどの訓練を可能にする。 データは一般に公開されているウェブ記録ツールを使って収集された。 各参加者は標準ドイツ語でテキストを与えられ、録音する前にスイスドイツ語の方言に翻訳するよう求められた。 コーパスの品質を高めるため、他の参加者によって録音が検証された。 このデータは、約4000人の異なる話者による200時間のスピーチで構成され、スイス・ドイツ方言の風景の大部分をカバーしている。 SDS-200をベースライン音声翻訳モデルとともにリリースし、SDS-200テストセット上でワード誤り率(WER)30.3とBLEUスコア53.1を達成する。 さらに、SDS-200を用いて事前学習したXLS-Rモデルを微調整し、21.6 WERおよび64.0BLEUを達成する。

We present SDS-200, a corpus of Swiss German dialectal speech with Standard German text translations, annotated with dialect, age, and gender information of the speakers. The dataset allows for training speech translation, dialect recognition, and speech synthesis systems, among others. The data was collected using a web recording tool that is open to the public. Each participant was given a text in Standard German and asked to translate it to their Swiss German dialect before recording it. To increase the corpus quality, recordings were validated by other participants. The data consists of 200 hours of speech by around 4000 different speakers and covers a large part of the Swiss-German dialect landscape. We release SDS-200 alongside a baseline speech translation model, which achieves a word error rate (WER) of 30.3 and a BLEU score of 53.1 on the SDS-200 test set. Furthermore, we use SDS-200 to fine-tune a pre-trained XLS-R model, achieving 21.6 WER and 64.0 BLEU.
翻訳日:2022-05-20 12:05:30 公開日:2022-05-19
# BERTを用いたタスク指向自然言語理解のためのインテント特徴付きスロットタギングの強化

Enhancing Slot Tagging with Intent Features for Task Oriented Natural Language Understanding using BERT ( http://arxiv.org/abs/2205.09732v1 )

ライセンス: Link先を確認
Shruthi Hariharan, Vignesh Kumar Krishnamurthy, Utkarsh, Jayantha Gowda Sarapanahalli(参考訳) 最近のジョイントインテント検出とスロットタギングモデルでは,個々のモデルと比較して性能が向上している。 多くの現実世界のデータセットでは、スロットラベルと値はインテントラベルと強い相関がある。 このような場合、インテントラベル情報はスロットタグ付けモデルに有用な機能として機能する。 本稿では,3つの手法による意図ラベル特徴の活用が,関節インテントとスロット検出モデルのスロットタギングタスクに与える影響について検討する。 我々は,音声言語データセットSNIPSとATISのベンチマークおよび大規模プライベートBixbyデータセットの評価を行い,最先端モデルに対するスロットタグ付け性能の改善について検討した。

Recent joint intent detection and slot tagging models have seen improved performance when compared to individual models. In many real-world datasets, the slot labels and values have a strong correlation with their intent labels. In such cases, the intent label information may act as a useful feature to the slot tagging model. In this paper, we examine the effect of leveraging intent label features through 3 techniques in the slot tagging task of joint intent and slot detection models. We evaluate our techniques on benchmark spoken language datasets SNIPS and ATIS, as well as over a large private Bixby dataset and observe an improved slot-tagging performance over state-of-the-art models.
翻訳日:2022-05-20 12:05:12 公開日:2022-05-19
# Sparse Reward Visual Scene のための画像強化に基づくモーメント記憶固有のリワード

Image Augmentation Based Momentum Memory Intrinsic Reward for Sparse Reward Visual Scenes ( http://arxiv.org/abs/2205.09448v1 )

ライセンス: Link先を確認
Zheng Fang, Biao Zhao, Guizhong Liu(参考訳) 実生活における多くのシーンは、スパース報酬の視覚シーンに抽象化することができ、エージェントがイメージとスパース報酬のみを受け入れるという条件下でタスクに取り組むことは困難である。 我々はこの問題を視覚的表現とスパース報酬という2つのサブ問題に分割することを提案する。 そこで本研究では,自己指導型表現学習と本質的なモチベーションを組み合わせた新しいフレームワークIAMMIRを提案する。 視覚表現では、画像強化されたフォワードダイナミクスと報酬の組合せによって駆動される表現を取得する。 スパース報酬には、新しいタイプの内因性報酬、Momentum Memory Intrinsic Reward (MMIR)が設計されている。 現在のモデル(オンラインネットワーク)と過去のモデル(ターゲットネットワーク)からの出力の差を利用してエージェントの状態の親しみを提示する。 本手法はvizdoomの視覚的ナビゲーションタスクにおいてスパース報酬を用いて評価する。 実験により,本手法は,既存の手法の100%成功率の少なくとも2倍の精度で,試料効率で技術性能を達成できることを示した。

Many scenes in real life can be abstracted to the sparse reward visual scenes, where it is difficult for an agent to tackle the task under the condition of only accepting images and sparse rewards. We propose to decompose this problem into two sub-problems: the visual representation and the sparse reward. To address them, a novel framework IAMMIR combining the self-supervised representation learning with the intrinsic motivation is presented. For visual representation, a representation driven by a combination of the imageaugmented forward dynamics and the reward is acquired. For sparse rewards, a new type of intrinsic reward is designed, the Momentum Memory Intrinsic Reward (MMIR). It utilizes the difference of the outputs from the current model (online network) and the historical model (target network) to present the agent's state familiarity. Our method is evaluated on the visual navigation task with sparse rewards in Vizdoom. Experiments demonstrate that our method achieves the state of the art performance in sample efficiency, at least 2 times faster than the existing methods reaching 100% success rate.
翻訳日:2022-05-20 12:05:02 公開日:2022-05-19
# 少数のクエリによる逆例の転送性の向上

Enhancing the Transferability of Adversarial Examples via a Few Queries ( http://arxiv.org/abs/2205.09518v1 )

ライセンス: Link先を確認
Xiangyuan Yang, Jie Lin, Hanlin Zhang, Xinyu Yang, Peng Zhao(参考訳) ディープニューラルネットワークの脆弱性のため、ブラックボックス攻撃はコミュニティから大きな注目を集めている。 転送可能なプリエントは、最近の取り組みでブラックボックスクエリアタックのクエリ数を減少させるが、クエリの平均数は100以上であり、クエリ制限ポリシーの数に影響を受けやすい。 そこで本研究では,高速勾配符号法のファミリを改良し,いくつかのクエリを用いて攻撃伝達性を向上するクエリ事前手法を提案する。 具体的には、標的外攻撃の場合、攻撃に成功した敵の例は、被害者モデルにより高い確率で間違ったカテゴリに分類される傾向にある。 そこで, 重み付き拡張クロスエントロピー損失は, サロゲートモデルと被害者モデル間の勾配角度を減少させ, 逆例の移動性を高めるために提案する。 理論的解析と広範な実験により,cifar10/100とimagenetに対する勾配ベースの逆攻撃の転送性が大幅に向上し,同じクエリ数でブラックボックスクエリ攻撃よりも優れることが示された。

Due to the vulnerability of deep neural networks, the black-box attack has drawn great attention from the community. Though transferable priors decrease the query number of the black-box query attacks in recent efforts, the average number of queries is still larger than 100, which is easily affected by the number of queries limit policy. In this work, we propose a novel method called query prior-based method to enhance the family of fast gradient sign methods and improve their attack transferability by using a few queries. Specifically, for the untargeted attack, we find that the successful attacked adversarial examples prefer to be classified as the wrong categories with higher probability by the victim model. Therefore, the weighted augmented cross-entropy loss is proposed to reduce the gradient angle between the surrogate model and the victim model for enhancing the transferability of the adversarial examples. Theoretical analysis and extensive experiments demonstrate that our method could significantly improve the transferability of gradient-based adversarial attacks on CIFAR10/100 and ImageNet and outperform the black-box query attack with the same few queries.
翻訳日:2022-05-20 12:04:40 公開日:2022-05-19
# (参考訳) 分布外一般化のための横重平均化

Diverse Weight Averaging for Out-of-Distribution Generalization ( http://arxiv.org/abs/2205.09739v1 )

ライセンス: CC BY 4.0
Alexandre Rame, Matthieu Kirchmeyer, Thibaud Rahier, Alain Rakotomamonjy, Patrick Gallinari, Matthieu Cord(参考訳) 標準ニューラルネットワークは、分散シフトの下で一般化するのに苦労する。 コンピュータビジョンにおける分散の一般化のために、最良の現在のアプローチはトレーニング実行時の重みを平均する。 本稿では,この戦略をシンプルに変化させる多様重量平均化(diwa)を提案する。 おそらく驚くべきことに、ネットワークの非線形性にもかかわらず、平均的な重み付けはソフトな制約の下でうまく機能する。 DiWAの背後にある主な動機は、平均モデル間の機能的多様性を高めることである。 実際、異なるランから得られたモデルは、ハイパーパラメータとトレーニング手順の違いにより、単一のランで収集したモデルよりも多様である。 予測誤差のバイアス-分散-共分散-局所分解により多様性の必要性を動機付け、DiWAと標準機能アンサンブルの類似性を利用する。 さらにこの分解は、分散項が支配するときにdiwaが成功し、テスト時に限界分布が変化するときに起こることを強調する。 実験的に、DiWAは推論オーバーヘッドなしに競合するDomainBedベンチマークのテクニックの状態を一貫して改善します。

Standard neural networks struggle to generalize under distribution shifts. For out-of-distribution generalization in computer vision, the best current approach averages the weights along a training run. In this paper, we propose Diverse Weight Averaging (DiWA) that makes a simple change to this strategy: DiWA averages the weights obtained from several independent training runs rather than from a single run. Perhaps surprisingly, averaging these weights performs well under soft constraints despite the network's nonlinearities. The main motivation behind DiWA is to increase the functional diversity across averaged models. Indeed, models obtained from different runs are more diverse than those collected along a single run thanks to differences in hyperparameters and training procedures. We motivate the need for diversity by a new bias-variance-covariance-locality decomposition of the expected error, exploiting similarities between DiWA and standard functional ensembling. Moreover, this decomposition highlights that DiWA succeeds when the variance term dominates, which we show happens when the marginal distribution changes at test time. Experimentally, DiWA consistently improves the state of the art on the competitive DomainBed benchmark without inference overhead.
翻訳日:2022-05-20 12:02:51 公開日:2022-05-19
# 話者ダイアリゼーションのためのアグロマリティブ階層クラスタリング(AHC)を用いたBi-LSTMスコーリングによる類似度測定

Bi-LSTM Scoring Based Similarity Measurement with Agglomerative Hierarchical Clustering (AHC) for Speaker Diarization ( http://arxiv.org/abs/2205.09709v1 )

ライセンス: Link先を確認
Siddharth S. Nijhawan and Homayoon Beigi(参考訳) 異なるシナリオにわたる音声信号の多数は、1つの話者のみを含む明確に定義された音声セグメントでは利用できない。 2つの話者間の典型的な会話は、声が重なり合う部分からなり、互いに中断したり、複数の文間での会話を止めたりする。 ダイアリゼーション技術の最近の進歩は、セグメントワイド埋め込みの特徴を抽出し、会話中の話者の変化を検出することを含む、話者ダイアリゼーションシステムの複数のサブシステムを改善するために、ニューラルネットワークベースのアプローチを活用する。 しかし、クラスタリングによって話者を特定するために、モデルはPLDAのような手法に依存し、与えられた会話音声から抽出された2つのセグメント間の類似度を測定する。 これらのアルゴリズムは会話の時間的構造を無視するため、高いダイアリゼーション誤り率(DER)を達成する傾向にあり、話者識別と変化識別の両方の誤検出につながる。 そこで,2つの音声セグメントの相似性を独立かつ逐次的に比較するために,相似行列に存在する要素を推定するための双方向長短期記憶ネットワークを提案する。 類似度行列が生成されると、しきい値に基づいて話者セグメントをさらに識別するためにAHC(Agglomerative Hierarchical Clustering)が適用される。 性能を評価するために、ダイアリゼーション誤差レート(DER%)メートル法を用いる。 提案モデルは,従来のPLDAに基づく類似度測定機構と比較して,ICSI Meeting Corpus から抽出した音声サンプルの試験セットに対して,低DDERの34.80%を達成する。

Majority of speech signals across different scenarios are never available with well-defined audio segments containing only a single speaker. A typical conversation between two speakers consists of segments where their voices overlap, interrupt each other or halt their speech in between multiple sentences. Recent advancements in diarization technology leverage neural network-based approaches to improvise multiple subsystems of speaker diarization system comprising of extracting segment-wise embedding features and detecting changes in the speaker during conversation. However, to identify speaker through clustering, models depend on methodologies like PLDA to generate similarity measure between two extracted segments from a given conversational audio. Since these algorithms ignore the temporal structure of conversations, they tend to achieve a higher Diarization Error Rate (DER), thus leading to misdetections both in terms of speaker and change identification. Therefore, to compare similarity of two speech segments both independently and sequentially, we propose a Bi-directional Long Short-term Memory network for estimating the elements present in the similarity matrix. Once the similarity matrix is generated, Agglomerative Hierarchical Clustering (AHC) is applied to further identify speaker segments based on thresholding. To evaluate the performance, Diarization Error Rate (DER%) metric is used. The proposed model achieves a low DER of 34.80% on a test set of audio samples derived from ICSI Meeting Corpus as compared to traditional PLDA based similarity measurement mechanism which achieved a DER of 39.90%.
翻訳日:2022-05-20 12:00:56 公開日:2022-05-19
# 話し合おう! 対話型視覚質問生成による会話の検索

Let's Talk! Striking Up Conversations via Conversational Visual Question Generation ( http://arxiv.org/abs/2205.09327v1 )

ライセンス: Link先を確認
Shih-Han Chan, Tsai-Lun Yang, Yun-Wei Chu, Chi-Yang Hsu, Ting-Hao Huang, Yu-Shian Chiu, Lun-Wei Ku(参考訳) 活発で挑発的な質問は、素晴らしい会話を開きます。 本研究では,会話エージェントがユーザの写真(例えばソーシャルメディアプラットフォームから)の集合を閲覧し,ユーザとの会話を開始するための係わる質問を行うという,新たなシナリオを探求する。 既存のvision-to-questionモデルは、主に退屈で明白な質問を生成します。 本稿では,まず写真集合の視覚的ストーリーを生成し,そのストーリーを用いて興味深い質問を行う2相フレームワークを提案する。 人間の評価から,我々のフレームワークは,他の視線から質問へのベースラインよりも,会話を開始するための応答を促す質問を生成することがわかった。

An engaging and provocative question can open up a great conversation. In this work, we explore a novel scenario: a conversation agent views a set of the user's photos (for example, from social media platforms) and asks an engaging question to initiate a conversation with the user. The existing vision-to-question models mostly generate tedious and obvious questions, which might not be ideals conversation starters. This paper introduces a two-phase framework that first generates a visual story for the photo set and then uses the story to produce an interesting question. The human evaluation shows that our framework generates more response-provoking questions for starting conversations than other vision-to-question baselines.
翻訳日:2022-05-20 12:00:13 公開日:2022-05-19
# Voxel-informed Language Grounding

Voxel-informed Language Grounding ( http://arxiv.org/abs/2205.09710v1 )

ライセンス: Link先を確認
Rodolfo Corona, Shizhan Zhu, Dan Klein, Trevor Darrell(参考訳) 自然の2D画像に適用される自然言語は、基本的に3Dの世界を記述する。 本稿では,Voxel-informed Language Grounder (VLG)について述べる。VLGは3次元幾何情報を利用する言語基盤モデルである。 VLGはオブジェクト参照ゲームタスクであるSNAREの接地精度を大幅に向上することを示す。 執筆時点では、VLGはSNAREのリーダーボードでトップであり、SOTAの結果を2.0%の絶対的な改善で達成しています。

Natural language applied to natural 2D images describes a fundamentally 3D world. We present the Voxel-informed Language Grounder (VLG), a language grounding model that leverages 3D geometric information in the form of voxel maps derived from the visual input using a volumetric reconstruction model. We show that VLG significantly improves grounding accuracy on SNARE, an object reference game task. At the time of writing, VLG holds the top place on the SNARE leaderboard, achieving SOTA results with a 2.0% absolute improvement.
翻訳日:2022-05-20 12:00:00 公開日:2022-05-19
# 半教師付き学習のためのトポロジ的アプローチ

A Topological Approach for Semi-Supervised Learning ( http://arxiv.org/abs/2205.09617v1 )

ライセンス: Link先を確認
Adri\'an In\'es, C\'esar Dom\'inguez, J\'onathan Heras, Gadea Mata and Julio Rubio(参考訳) 現在、機械学習とディープラーニングは、データ分類タスクを解決する最先端のアプローチとなっている。 これらの手法を使用するには、大量のデータを取得してラベル付けする必要があるが、データアノテーションは時間がかかり、専門家の知識を必要とする可能性があるため、いくつかの分野では簡単ではない。 この課題はラベル付きデータとラベルなしデータの両方を利用する半教師付き学習手法によって解決できる。 本研究では,多変量および次元の多変量解析において重要となる分野である位相データ解析(tda)の手法に基づく,新しい半教師付き学習手法を提案する。 特に, 2つの異なる位相的アプローチに従って, 半教師付き学習法を考案した。 前者では、Bottleneck と Wasserstein 距離を用いてデータに関連付けられた永続性図について研究するホモロジー的アプローチを用いている。 後者では、データの接続性を考慮しています。 また、3つの合成データセット、5つの構造化データセット、2つの画像データセットを用いた開発手法の徹底的な分析を行った。 本研究で開発された半教師付き手法は,手動ラベル付きデータのみを用いて訓練したモデルと,古典的半教師付き学習法により得られたモデルとを比較検討した結果,最大16%の改善が得られた。

Nowadays, Machine Learning and Deep Learning methods have become the state-of-the-art approach to solve data classification tasks. In order to use those methods, it is necessary to acquire and label a considerable amount of data; however, this is not straightforward in some fields, since data annotation is time consuming and might require expert knowledge. This challenge can be tackled by means of semi-supervised learning methods that take advantage of both labelled and unlabelled data. In this work, we present new semi-supervised learning methods based on techniques from Topological Data Analysis (TDA), a field that is gaining importance for analysing large amounts of data with high variety and dimensionality. In particular, we have created two semi-supervised learning methods following two different topological approaches. In the former, we have used a homological approach that consists in studying the persistence diagrams associated with the data using the Bottleneck and Wasserstein distances. In the latter, we have taken into account the connectivity of the data. In addition, we have carried out a thorough analysis of the developed methods using 3 synthetic datasets, 5 structured datasets, and 2 datasets of images. The results show that the semi-supervised methods developed in this work outperform both the results obtained with models trained with only manually labelled data, and those obtained with classical semi-supervised learning methods, reaching improvements of up to a 16%.
翻訳日:2022-05-20 11:57:35 公開日:2022-05-19
# Beyond Greedy Search: マルチエージェント強化学習に基づくビームサーチによる追跡

Beyond Greedy Search: Tracking by Multi-Agent Reinforcement Learning-based Beam Search ( http://arxiv.org/abs/2205.09676v1 )

ライセンス: Link先を確認
Xiao Wang, Zhe Chen, Jin Tang, Bin Luo, Dacheng Tao(参考訳) 既存のトラッカーは通常、フレーム毎のトラッキング結果として最大スコアの場所または提案を選択する。 しかし、そのような欲深い検索方式は、特に重い咬合や速い動きといった困難な追跡シナリオに遭遇する場合、最適選択ではないかもしれない。 累積エラーにより、レスポンススコアはもはや信頼できない。 本稿では,本課題に対処するために,新しいマルチエージェント強化学習ベースビーム探索戦略(ビームトラッキング)を提案する。 具体的には、複数の並列決定プロセスによって達成されるサンプル選択問題としてトラッキングを定式化し、それぞれのフレームにおいて、トラッキング結果として1つのサンプルを抽出する。 我々は,ターゲット機能,提案機能,応答スコアを状態とし,近接エージェントが予測する行動も考慮し,複数のエージェントが行動を選択するように訓練する。 全てのフレームが処理されると、追跡結果として最大累積スコアで軌道を選択する。 7つの人気のあるトラッキングベンチマークデータセットに関する広範囲な実験により、提案アルゴリズムの有効性が検証された。

Existing trackers usually select a location or proposal with the maximum score as tracking result for each frame. However, such greedy search scheme maybe not the optimal choice, especially when encountering challenging tracking scenarios like heavy occlusions and fast motion. Since the accumulated errors would make response scores not reliable anymore. In this paper, we propose a novel multi-agent reinforcement learning based beam search strategy (termed BeamTracking) to address this issue. Specifically, we formulate the tracking as a sample selection problem fulfilled by multiple parallel decision-making processes, each of which aims at picking out one sample as their tracking result in each frame. We take the target feature, proposal feature, and its response score as state, and also consider actions predicted by nearby agent, to train multi-agents to select their actions. When all the frames are processed, we select the trajectory with the maximum accumulated score as the tracking result. Extensive experiments on seven popular tracking benchmark datasets validated the effectiveness of the proposed algorithm.
翻訳日:2022-05-20 11:57:14 公開日:2022-05-19
# コンパクトネットワークを用いた画像分類のための半教師あり学習

Semi-Supervised Learning for Image Classification using Compact Networks in the BioMedical Context ( http://arxiv.org/abs/2205.09678v1 )

ライセンス: Link先を確認
Adri\'an In\'es, Andr\'es D\'iaz-Pinto, C\'esar Dom\'inguez, J\'onathan Heras, Eloy Mata and Vico Pascual(参考訳) 深層畳み込みニューラルネットワークを組み込んだモバイルおよびエッジアプリケーションの開発は、バイオメディシンに革命をもたらす可能性がある。 しかし、ほとんどのディープラーニングモデルはスマートフォンやエッジデバイスでは利用できない計算資源を必要とする。 このようなモデルの問題は、少なくとも通常、大きなモデルよりも精度が低いことである。 本研究では,この制限が半教師付き学習手法の応用にどのように対処できるかを考察する。 半教師あり学習法を用いて生物医学的文脈における画像分類タスクに取り組む際に,深層コンパクトアーキテクチャの性能を比較するために,いくつかの統計解析を行った。 特に,コンパクトネットワークの3つのファミリーと,半教師付き学習技法の2つのファミリーについて検討した。 半教師付き学習法とコンパクトネットワークを組み合わせることで、標準サイズネットワークと同様の性能を得ることができる。 一般に, データ蒸留をMixNet, プレーン蒸留とResNet-18を併用した場合に最もよい結果が得られる。 また、一般にNASネットワークは、手動設計のネットワークや量子化されたネットワークよりも優れた結果が得られる。 本稿では,コンパクトネットワークに半教師付き手法を適用することの利点を示す。これにより,標準サイズモデルほど正確ではなく,より高速かつ軽量なコンパクトモデルを構築することができる。 最後に,半教師付き学習手法を用いてコンパクトモデルの構築を単純化するライブラリを開発した。

The development of mobile and on the edge applications that embed deep convolutional neural models has the potential to revolutionise biomedicine. However, most deep learning models require computational resources that are not available in smartphones or edge devices; an issue that can be faced by means of compact models. The problem with such models is that they are, at least usually, less accurate than bigger models. In this work, we study how this limitation can be addressed with the application of semi-supervised learning techniques. We conduct several statistical analyses to compare performance of deep compact architectures when trained using semi-supervised learning methods for tackling image classification tasks in the biomedical context. In particular, we explore three families of compact networks, and two families of semi-supervised learning techniques for 10 biomedical tasks. By combining semi-supervised learning methods with compact networks, it is possible to obtain a similar performance to standard size networks. In general, the best results are obtained when combining data distillation with MixNet, and plain distillation with ResNet-18. Also, in general, NAS networks obtain better results than manually designed networks and quantized networks. The work presented in this paper shows the benefits of apply semi-supervised methods to compact networks; this allow us to create compact models that are not only as accurate as standard size models, but also faster and lighter. Finally, we have developed a library that simplifies the construction of compact models using semi-supervised learning methods.
翻訳日:2022-05-20 11:56:59 公開日:2022-05-19
# 米国議会における積極的・受動的責任の解消

Disentangling Active and Passive Cosponsorship in the U.S. Congress ( http://arxiv.org/abs/2205.09674v1 )

ライセンス: Link先を確認
Giuseppe Russo, Christoph Gote, Laurence Brandenberger, Sophia Schlosser, and Frank Schweitzer(参考訳) アメリカ合衆国議会では、議員は法案を支持するために能動的かつ受動的に協力できる。 これら2つのタイプの共同責任は、政治的同僚の支持と法案の内容の支持という2つの異なる動機によって引き起こされている。 そこで我々は,請求書のテキストと音声の書き起こしから議員表現を学習するEncoder+RGCNモデルを開発した。 これらの表現は、f1-score 0.88でアクティブかつパッシブな共責任を予測する。 投票決定を予測するために私たちの表現を適用することで、それらが解釈可能で、目に見えないタスクに一般化されていることを示す。

In the U.S. Congress, legislators can use active and passive cosponsorship to support bills. We show that these two types of cosponsorship are driven by two different motivations: the backing of political colleagues and the backing of the bill's content. To this end, we develop an Encoder+RGCN based model that learns legislator representations from bill texts and speech transcripts. These representations predict active and passive cosponsorship with an F1-score of 0.88. Applying our representations to predict voting decisions, we show that they are interpretable and generalize to unseen tasks.
翻訳日:2022-05-20 11:56:17 公開日:2022-05-19
# (参考訳) semicurv:半教師付き曲線構造セグメンテーション

SemiCurv: Semi-Supervised Curvilinear Structure Segmentation ( http://arxiv.org/abs/2205.08706v2 )

ライセンス: CC BY 4.0
Xun Xu, Manh Cuong Nguyen, Yasin Yazici, Kangkang Lu, Hlaing Min, Chuan-Sheng Foo(参考訳) 線形構造分割に関する最近の研究は、主にバックボーンネットワークの設計と損失エンジニアリングに焦点を当てている。 高価で労働集約的なプロセスであるラベル付きデータ収集の課題は見過ごされている。 ラベル付きデータは入手に費用がかかるが、ラベルなしのデータはしばしば手に入る。 そこで本研究では,ラベル付けの負担を軽減するために,ラベル付きデータの活用が可能な半教師付き学習(SSL)フレームワークであるSemiCurvを提案する。 本フレームワークは,半教師付き方式でカービリナーセグメンテーションを定式化する際の2つの課題に対処する。 まず、一貫性に基づくSSLのパワーをフル活用するために、強いデータ拡張として幾何変換を導入し、また、異なる逆変換によってセグメント化予測を調整し、ピクセル単位での一貫性の計算を可能にする。 第二に、乱れのないデータに対する従来の平均二乗誤差(MSE)は、予測が崩壊する傾向にあり、この問題は深刻なクラス不均衡(特に背景画素の増大)で悪化する。 ラベルなしデータに対する自明な予測を避けるために,nペア一貫性の損失を提案する。 6つの線形セグメンテーションデータセット上で半曲線を評価し,ラベル付きデータの5%未満で,全教師付きデータセットと比較して95%近い性能が得られることを確認した。

Recent work on curvilinear structure segmentation has mostly focused on backbone network design and loss engineering. The challenge of collecting labelled data, an expensive and labor intensive process, has been overlooked. While labelled data is expensive to obtain, unlabelled data is often readily available. In this work, we propose SemiCurv, a semi-supervised learning (SSL) framework for curvilinear structure segmentation that is able to utilize such unlabelled data to reduce the labelling burden. Our framework addresses two key challenges in formulating curvilinear segmentation in a semi-supervised manner. First, to fully exploit the power of consistency based SSL, we introduce a geometric transformation as strong data augmentation and then align segmentation predictions via a differentiable inverse transformation to enable the computation of pixel-wise consistency. Second, the traditional mean square error (MSE) on unlabelled data is prone to collapsed predictions and this issue exacerbates with severe class imbalance (significantly more background pixels). We propose a N-pair consistency loss to avoid trivial predictions on unlabelled data. We evaluate SemiCurv on six curvilinear segmentation datasets, and find that with no more than 5% of the labelled data, it achieves close to 95% of the performance relative to its fully supervised counterpart.
翻訳日:2022-05-20 11:53:58 公開日:2022-05-19
# 交通予測のための時空間対話型動的グラフ畳み込みネットワーク

Spatial-Temporal Interactive Dynamic Graph Convolution Network for Traffic Forecasting ( http://arxiv.org/abs/2205.08689v2 )

ライセンス: Link先を確認
Aoyu Liu, Yaying Zhang(参考訳) 交通流制御,経路計画,検出を実現するためには,スマートシティにとって正確な交通予測が不可欠である。 現在,多くの時空間法が提案されているが,これらの手法は交通データの時空間依存性を同期的に捉えるには不十分である。 さらに、ほとんどの手法は、トラフィックデータの変化に伴って発生する道路ネットワークノード間の動的に変化する相関を無視する。 本稿では,トラフィック予測のためのニューラルネットワークを用いた空間-時間対話型動的グラフ畳み込みネットワーク(stidgcn)を提案する。 stidgcnでは、対話型学習戦略を用いて、まず間隔毎にシーケンスを分割し、トラヒックデータの空間的-時間的依存性を同時に捉え、有効長期予測を行う対話型動的グラフ畳み込み構造を提案する。 本稿では,グラフ生成器と融合グラフ畳み込みからなる新しい動的グラフ畳み込みモジュールを提案する。 動的グラフ畳み込みモジュールは、入力トラフィックデータ、事前定義されたグラフ構造を使用してグラフ構造を生成し、事前定義されたグラフ構造を満たすために使用される定義された適応隣接マトリックスと融合し、道路網のノード間の動的関連の発生をシミュレートすることができる。 4つの現実世界のトラフィックフローデータセットに関する広範な実験は、sidgcnが最先端のベースラインを上回ることを示している。

Accurate traffic forecasting is essential for smart cities to achieve traffic flow control, route planning, and detection. Although many spatial-temporal methods are currently proposed, these methods are deficient in capturing the spatial-temporal dependence of traffic data synchronously. In addition, most of the methods ignore the dynamically changing correlations between road network nodes that arise as traffic data changes. To address the above challenges, we propose a neural network-based Spatial-Temporal Interactive Dynamic Graph Convolutional Network (STIDGCN) for traffic forecasting in this paper. In STIDGCN, we propose an interactive dynamic graph convolution structure, which first divides the sequences at intervals and captures the spatial-temporal dependence of the traffic data simultaneously through an interactive learning strategy for effective long-term prediction. We propose a novel dynamic graph convolution module consisting of a graph generator, fusion graph convolution. The dynamic graph convolution module can use the input traffic data, pre-defined graph structure to generate a graph structure and fuse it with the defined adaptive adjacency matrix, which is used to achieve the filling of the pre-defined graph structure and simulate the generation of dynamic associations between nodes in the road network. Extensive experiments on four real-world traffic flow datasets demonstrate that STIDGCN outperforms the state-of-the-art baseline.
翻訳日:2022-05-20 11:28:46 公開日:2022-05-19
# Conformalized Online Learning: ホールドアウトセットのないオンライン校正

Conformalized Online Learning: Online Calibration Without a Holdout Set ( http://arxiv.org/abs/2205.09095v2 )

ライセンス: Link先を確認
Shai Feldman, Stephen Bates, Yaniv Romano(参考訳) 私たちは、オンライン環境で有効なカバレッジ保証を備えた不確実性セットを構築するためのフレームワークを開発します。 提案する手法は,任意のオンライン学習アルゴリズムと統合可能であるため,実装の労力と計算コストが最小限である。 既存の代替手段(共形推論にもとづくもの)に対する私たちのメソッドの重要な利点は、データをトレーニングとホールドアウトのキャリブレーションセットに分割する必要がないことです。 これにより、校正不確実性セットを構築するための最新の観測を利用して、予測モデルを完全にオンラインに適合させることができる。 そのため、既存の技術とは対照的である。 i) 構築した集合は、分布の新たな変化に迅速に適応でき、 (ii)この手順では、各時間ステップでモデルを再フィッティングする必要がなくなる。 合成および実世界のベンチマークデータセットを用いて,提案手法の有効性と提案手法の性能向上を実証する。 提案手法のさらなる柔軟性を示すために,従来の逐次キャリブレーション法では非現実的な計算やメモリ要求のために処理できない多重出力回帰問題に対して,有効間隔を構築する方法を示す。

We develop a framework for constructing uncertainty sets with a valid coverage guarantee in an online setting, in which the underlying data distribution can drastically -- and even adversarially -- shift over time. The technique we propose is highly flexible as it can be integrated with any online learning algorithm, requiring minimal implementation effort and computational cost. A key advantage of our method over existing alternatives -- which also build on conformal inference -- is that we do not need to split the data into training and holdout calibration sets. This allows us to fit the predictive model in a fully online manner, utilizing the most recent observation for constructing calibrated uncertainty sets. Consequently, and in contrast with existing techniques, (i) the sets we build can quickly adapt to new changes in the distribution; and (ii) our procedure does not require refitting the model at each time step. Using synthetic and real-world benchmark data sets, we demonstrate the validity of our theory and the improved performance of our proposal over existing techniques. To demonstrate the greater flexibility of the proposed method, we show how to construct valid intervals for a multiple-output regression problem that previous sequential calibration methods cannot handle due to impractical computational and memory requirements.
翻訳日:2022-05-20 11:28:21 公開日:2022-05-19
# 効率的な半教師付き学習のためのルール自動生成

Automatic Rule Induction for Efficient Semi-Supervised Learning ( http://arxiv.org/abs/2205.09067v2 )

ライセンス: Link先を確認
Reid Pryzant, Ziyi Yang, Yichong Xu, Chenguang Zhu, Michael Zeng(参考訳) 半教師付き学習は、少量のラベル付きデータからNLPモデルを一般化できることを約束している。 一方、事前訓練されたトランスフォーマーモデルはブラックボックス相関エンジンとして機能するが、説明が難しく、時には確実に振る舞う。 本稿では,シンボル規則の自動発見と事前学習型トランスフォーマーモデルへの統合のための簡易かつ汎用的なフレームワークであるAutomatic Rule Injection (ARI) を用いて,これらの課題に対処することを提案する。 まず,少量のラベル付きデータに基づいて学習した低容量機械学習モデルから,弱い記号規則を抽出する。 次に,これらのルールを高容量事前学習トランスモデルに統合するために注意機構を用いる。 最後に、ルール強化システムは、ラベルなしデータの監視信号を強化するための自己学習フレームワークの一部となる。 これらのステップは、性能と解釈可能性を改善するために、様々な弱い監督と半教師付きNLPアルゴリズムの下に階層化することができる。 9つのシーケンス分類と関係抽出タスクによる実験により、ARIは手作業や計算オーバーヘッドを最小限にすることなく最先端の手法を改良できることが示唆された。

Semi-supervised learning has shown promise in allowing NLP models to generalize from small amounts of labeled data. Meanwhile, pretrained transformer models act as black-box correlation engines that are difficult to explain and sometimes behave unreliably. In this paper, we propose tackling both of these challenges via Automatic Rule Induction (ARI), a simple and general-purpose framework for the automatic discovery and integration of symbolic rules into pretrained transformer models. First, we extract weak symbolic rules from low-capacity machine learning models trained on small amounts of labeled data. Next, we use an attention mechanism to integrate these rules into high-capacity pretrained transformer models. Last, the rule-augmented system becomes part of a self-training framework to boost supervision signal on unlabeled data. These steps can be layered beneath a variety of existing weak supervision and semi-supervised NLP algorithms in order to improve performance and interpretability. Experiments across nine sequence classification and relation extraction tasks suggest that ARI can improve state-of-the-art methods with no manual effort and minimal computational overhead.
翻訳日:2022-05-20 11:28:00 公開日:2022-05-19
# Budge プログラミング言語

The Budge programming language ( http://arxiv.org/abs/2205.07979v2 )

ライセンス: Link先を確認
Boro Sitnikovski(参考訳) G\"odelナンバリングと素因数分解に基づいて、明示的なスコープループで拡張され、プログラム構成が容易な、単純で難解なプログラミング言語を提案する。 構文とセマンティクスを示し、いくつかのサンプルプログラムとそれらの評価を提供する。

We present a simple, esoteric programming language based on G\"odel numbering and prime factorization, enhanced with explicit, scoped loops, allowing for easy program composition. We will show the syntax and semantics and then provide a few example programs and their evaluation.
翻訳日:2022-05-20 11:27:43 公開日:2022-05-19
# ロボットのローカライゼーションのための野生のテキスト検出と認識

Text Detection & Recognition in the Wild for Robot Localization ( http://arxiv.org/abs/2205.08565v2 )

ライセンス: Link先を確認
Zobeir Raisi and John Zelek(参考訳) サインはどこにでもあり、ロボットは、視覚的位置認識(VPR)やマップのローカライズを支援するために、サインを利用する必要がある。 野生におけるロバストテキストの検出と認識は、ポーズ、不規則テキスト、照明、閉塞などの要因により困難である。 テキスト文字列とバウンディングボックスを同時に出力するエンド・ツー・エンドシーンテキストスポッティングモデルを提案する。 このモデルはVPRに適している。 我々の中心的なコントリビューションは、エンドツーエンドのテキストスポッティングフレームワークを活用して、不規則かつ隠蔽されたテキスト領域を、異なる困難な場所で適切にキャプチャすることである。 提案するVPRの性能を評価するために,SCTP(Self-Collected Text Place)ベンチマークデータセットを用いた実験を行った。 実験結果から,提案手法は精度とリコールの点でSOTA法よりも優れていることがわかった。

Signage is everywhere and a robot should be able to take advantage of signs to help it localize (including Visual Place Recognition (VPR)) and map. Robust text detection & recognition in the wild is challenging due to such factors as pose, irregular text, illumination, and occlusion. We propose an end-to-end scene text spotting model that simultaneously outputs the text string and bounding boxes. This model is more suitable for VPR. Our central contribution is introducing utilizing an end-to-end scene text spotting framework to adequately capture the irregular and occluded text regions in different challenging places. To evaluate our proposed architecture's performance for VPR, we conducted several experiments on the challenging Self-Collected Text Place (SCTP) benchmark dataset. The initial experimental results show that the proposed method outperforms the SOTA methods in terms of precision and recall when tested on this benchmark.
翻訳日:2022-05-20 11:27:39 公開日:2022-05-19
# 非正規化政策ミラー降下における政策の収束について

On the Convergence of Policy in Unregularized Policy Mirror Descent ( http://arxiv.org/abs/2205.08176v2 )

ライセンス: Link先を確認
Dachao Lin, Zhihua Zhang(参考訳) 本稿では,最近の有名な政策ミラー降下(pmd)における政策の収束分析について述べる。 一般にブレグマンの発散を伴う[11] に続く非正規化集合を主に検討する。 違いは、一般的なブレグマン分岐の下でポリシーの収束率を直接与えることである。 この結果は過去の研究における値関数の収束にインスパイアされ、政策ミラー降下に関する拡張研究である。 すでにいくつかの結果が先行研究に現れているが、我々はさらに多くのブレグマン・ダイバージェンスが古典ユークリッド距離のような最適方針に有限ステップ収束できることを発見している。

In this short note, we give the convergence analysis of the policy in the recent famous policy mirror descent (PMD). We mainly consider the unregularized setting following [11] with generalized Bregman divergence. The difference is that we directly give the convergence rates of policy under generalized Bregman divergence. Our results are inspired by the convergence of value function in previous works and are an extension study of policy mirror descent. Though some results have already appeared in previous work, we further discover a large body of Bregman divergences could give finite-step convergence to an optimal policy, such as the classical Euclidean distance.
翻訳日:2022-05-20 11:27:22 公開日:2022-05-19