このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220819となっている論文です。

PDF登録状況(公開日: 20220819)

TitleAuthorsAbstract論文公表日・翻訳日
# 多体量子非マルコフ性

Many-body quantum non-Markovianity ( http://arxiv.org/abs/2207.06100v2 )

ライセンス: Link先を確認
Jonathan Brugger, Christoph Dittel, and Andreas Buchleitner(参考訳) 我々は、多粒子ヒルベルト空間の適切な分解により、非マルコフ量子力学の概念を多粒子領域に移植する。 多粒子状態の特定の構造が単一または多粒子の可観測性によって非マルコビアン性の可観測性をどのように決定するかを示し、容易に実装できる数粒子のセットアップにおいて実現可能性について議論する。

We port the concept of non-Markovian quantum dynamics to the many-particle realm, by a suitable decomposition of the many-particle Hilbert space. We show how the specific structure of many-particle states determines the observability of non-Markovianity by single- or many-particle observables, and discuss a realization in a readily implementable few-particle set-up.
翻訳日:2023-02-05 06:58:59 公開日:2022-08-19
# pointillisme \`a la signac と疑似量子位相空間の構成

Pointillisme \`a la Signac and Construction of a Pseudo Quantum Phase Space ( http://arxiv.org/abs/2208.00470v2 )

ライセンス: Link先を確認
Maurice de Gosson and Charlyne de Gosson(参考訳) 凸幾何学からの極双対性の概念とシンプレクティック幾何学からのラグランジュ平面の理論を用いて、古典的シンプレクティック位相空間の量子力学的代用と見なすことができる楕円体上のファイバー束を構成する。 このファイバー束の全空間は幾何学的量子状態からなり、ラグランジアン平面によって第二横断ラグランジアン平面に対して極双対によって運ばれる凸体の積である。 . ジョン・エリプソイドの理論を用いて、これらの幾何学的量子状態と以前の研究で導入された「量子ブロブ」の概念を関連付ける;量子ブロブは不確実性原理と一致する位相空間の最小のシンプレクティック不変領域である。 ユニタリ関係の幾何学的量子状態の同値類の集合は、すべてのガウス波束の集合と1対1の対応にあることを示す。

We use the notion of polar duality from convex geometry and the theory of Lagrangian planes from symplectic geometry to construct a fiber bundle over ellipsoids that can be viewed as a quantum-mechanical substitute for the classical symplectic phase space. The total space of this fiber bundle consists of geometric quantum states, products of convex bodies carried by Lagrangian planes by their polar duals with respect to a second transversal Lagrangian plane.. Using the theory of the John ellipsoid we relate these geometric quantum states to the notion of "quantum blobs" introduced in previous work; quantum blobs are the smallest symplectic invariant regions of the phase space compatible with the uncertainty principle. We show that the set of equivalence classes of unitarily related geometric quantum states is in a one-to-one correspondence with the set of all Gaussian wavepackets.
翻訳日:2023-02-02 21:29:17 公開日:2022-08-19
# 20量子ビット量子シミュレータの複素状態再構成

Reconstructing complex states of a 20-qubit quantum simulator ( http://arxiv.org/abs/2208.04862v2 )

ライセンス: Link先を確認
Murali K. Kurmapu, V.V. Tiunova, E.S. Tiunov, Martin Ringbauer, Christine Maier, Rainer Blatt, Thomas Monz, Aleksey K. Fedorov, A.I. Lvovsky(参考訳) 量子コンピュータとシミュレーターの開発に成功するための前提条件は、それらが生成する量子状態を測定することによって得られる物理的過程の正確な理解である。 しかしながら、従来の量子状態推定に必要なリソースは、システムサイズと指数関数的にスケールし、代替アプローチの必要性を強調している。 ここでは、複雑なマルチキュービット量子状態の完全なキャラクタリゼーションのための効率的な方法を示す。 行列積状態 ansatz の変分版を用いて、20量子ビットのトラップイオンイジング型量子シミュレータで生成された量子状態の完全なトモグラフィーを行い、各基底で1000個の測定値を持つ27のベースで取得したデータを用いた。 我々は、ニューラルネットワークの量子状態表現に基づく手法と比較して、優れた状態再構成品質とより高速な収束を観察する:制限ボルツマンマシンと自己回帰アーキテクチャを備えたフィードフォワードニューラルネットワーク。 この結果は、多体量子系の力学によって生成される複素状態の効率的な実験的評価への道を開いた。

A prerequisite to the successful development of quantum computers and simulators is precise understanding of physical processes occurring therein, which can be achieved by measuring the quantum states they produce. However, the resources required for traditional quantum-state estimation scale exponentially with the system size, highlighting the need for alternative approaches. Here we demonstrate an efficient method for complete characterization of complex multi-qubit quantum states. Using a variational version of the matrix product state ansatz, we perform the full tomography of quantum states produced in a 20-qubit trapped-ion Ising-type quantum simulator, using the data acquired in only 27 bases with 1000 measurements in each basis. We observe superior state reconstruction quality and faster convergence compared to the methods based on neural network quantum state representations: restricted Boltzmann machines and feedforward neural networks with autoregressive architecture. Our results pave the way towards efficient experimental characterization of complex states produced by the dynamics of many-body quantum systems.
翻訳日:2023-02-01 19:13:50 公開日:2022-08-19
# 一般化イジングモデルから非可逆アノマリーへ

Towards Non-Invertible Anomalies from Generalized Ising Models ( http://arxiv.org/abs/2208.09101v1 )

ライセンス: Link先を確認
Shang Liu, Wenjie Ji(参考訳) 1dの逆場イジングモデルは、$Z_2$対称セクターに射影されると、2dの$Z_2$トーリックモデルで補償できる非可逆重力異常を持つことが知られている。 本稿では,このタイプのバルク-バウンダリ対応を,任意の次元の大規模量子ビット格子モデルにおいて一般化し,一般化イジング(GI)モデルと呼ぶ。 我々は、GIモデルがその境界で終了できる、正確に解けるバルクモデルの体系的な構成を提供する。 各バルクモデルでは、任意の基底状態は局所摂動に対して堅牢である。 モデルが周期的境界条件を持つ退化基底状態を持つ場合、位相は位相的および/またはフラクトンである。 この構成は、任意の次元における$z_2$ toric コードモデルや x-cube fracton モデルのようなプロトタイプモデルだけでなく、$z_2\times z_2$ トポロジカルオーダー、純ループ励起による 4d $z_2$ トポロジカルオーダーなどのより多様な例を生み出している。 可解モデルのバウンダリは潜在的に異常であり、特定の全対称性電荷を持ち、あるいは特定の境界条件を満たすGIモデルのセクタのみに対応する。 このようなバルク境界対応の具体的条件を導出する。 この条件はバルクモデルが自明であるかフラクトンが順序付けられた場合にのみ違反する。 クラマース=ワニエ双対性の一般化された概念は、建設において重要な役割を果たす。 また, この双対性を利用して, 2つの異なるバルクフラクトンモデルの境界において, 1つの異常理論が実現可能であることを示す。 より一般的には、位相順序はgiモデルを超えて量子ビット格子モデル(例えばspt順序を持つモデル)から、付録で提示するバルク構成(英語版)を通じて生成されることもある。

The 1d transverse-field Ising model, when projected to the $Z_2$ symmetric sector, is known to have a noninvertible gravitational anomaly that can be compensated by the $Z_2$ toric model in 2d. In this paper, we study the generalization of this type of bulk-boundary correspondence in a large class of qubit lattice models in arbitrary dimensions, called the generalized Ising (GI) models. We provide a systematic construction of exactly solvable bulk models, where the GI models can terminate on their boundaries. In each bulk model, any ground state is robust against local perturbations. If the model has degenerate ground states with periodic boundary condition, the phase is topological and/or fracton ordered. The construction generates abundant examples, including not only prototype ones such as $Z_2$ toric code models in any dimensions no less than two, and the X-cube fracton model, but also more diverse ones such as the $Z_2\times Z_2$ topological order, the 4d $Z_2$ topological order with pure-loop excitations, etc. The boundary of the solvable model is potentially anomalous and corresponds to precisely only sectors of the GI model that host certain total symmetry charges and/or satisfy certain boundary conditions. We derive a concrete condition for such bulk-boundary correspondence. The condition is violated only when the bulk model is either trivial or fracton ordered. A generalized notion of Kramers-Wannier duality plays an important role in the construction. Also, utilizing the duality, we find an example where a single anomalous theory can be realized on the boundaries of two distinct bulk fracton models, a phenomenon not expected in the case of topological orders. More generally, topological orders may also be generated starting with qubit lattice models beyond the GI models, such as those with SPT orders, through a variant bulk construction, which we provide in an appendix.
翻訳日:2023-01-30 12:20:13 公開日:2022-08-19
# 長ベースライン光ファイバ干渉計の限界と展望

Ultimate limits and prospects of long-baseline optical fiber interferometry ( http://arxiv.org/abs/2208.09247v1 )

ライセンス: Link先を確認
Christopher Hilweg, Danial Shadmany, Philip Walther, Nergis Mavalvala and Vivishek Sudhir(参考訳) 今日の最も正確な光学機器(重力波干渉計と光原子時計)は、光子の感度を高めるために長時間の貯蔵時間に依存している。 光ファイバー技術は、長距離光伝搬を実現するための最も広く展開されたプラットフォームである。 しかし、精密光学測定への応用は少ない。 本稿では,従来型(ソリッドコア)光ファイバのノイズ性能の最先端を,遠距離情報を正確に伝達する精密光計測と量子技術の観点から検討する。 そうすることで、このプラットフォームの制限を強調し、構造化ファイバー技術がこれらの制限を克服する機会を指摘している。

Today's most precise optical instruments -- gravitational-wave interferometers and optical atomic clocks -- rely on long storage times for photons to realize their exquisite sensitivity. Optical fiber technology is the most widely deployed platform for realizing long-distance optical propagation. Yet, their application to precision optical measurements is sparse. We review the state-of-the-art in the noise performance of conventional (solid-core) optical fibers from the perspective of precision optical measurements and quantum technology that rely on precise transfer of information over long distances. In doing so, we highlight the limitations of this platform and point to the opportunities that structured fiber technology offers to overcome some of these limitations.
翻訳日:2023-01-30 12:18:53 公開日:2022-08-19
# 一般化アインシュタイン・ポドルスキー・ローゼンシナリオのための半定義プログラムの階層構造

A hierarchy of semidefinite programs for generalised Einstein-Podolsky-Rosen scenarios ( http://arxiv.org/abs/2208.09236v1 )

ライセンス: Link先を確認
Matty J. Hoban, Tom Drescher, Ana Bel\'en Sainz(参考訳) 非正規化量子状態の \textit{assemblages} によって捉えられたeinstein-podolsky-rosen (epr) シナリオの相関は最近、基礎的および情報理論的な観点からコミュニティの注目を集めている。 量子分解可能な集合体(quantum-realisable assemblag)または量子集合体(quantum assemblag)は、共有量子系上で局所的な測定を行う複数のパーティから生じるものである。 一般に、与えられた集合が量子集合であるかどうか、すなわち量子集合の集合のメンバーシップであるかどうかを決定することは難しい問題であり、常に解けるとは限らない。 本稿では,各レベルが量子集合の非メンバシップを決定するか,あるいは決定不能なテストの階層を導入する。 階層のレベルが高ければ高いほど、より優れた階層は非メンバーシップを決定でき、この階層は特定の集合に収束する。 さらに、収束するこの集合は、量子集合を含む。 階層内の各テストは半確定プログラムとして定式化される。 この階層は、ステアリング不平等の量子違反と、通信や情報処理タスクにおける量子EPRアセンブリによって提供される量子優位性とを上限にすることができる。

Correlations in Einstein-Podolsky-Rosen (EPR) scenarios, captured by \textit{assemblages} of unnormalised quantum states, have recently caught the attention of the community, both from a foundational and an information-theoretic perspective. The set of quantum-realisable assemblages, or abbreviated to quantum assemblages, are those that arise from multiple parties performing local measurements on a shared quantum system. In general, deciding whether or not a given assemblage is a quantum assemblage, i.e. membership of the set of quantum assemblages, is a hard problem, and not always solvable. In this paper we introduce a hierarchy of tests where each level either determines non-membership of the set of quantum assemblages or is inconclusive. The higher the level of the hierarchy the better one can determine non-membership, and this hierarchy converges to a particular set of assemblages. Furthermore, this set to which it converges contains the quantum assemblages. Each test in the hierarchy is formulated as a semidefinite program. This hierarchy allows one to upper bound the quantum violation of a steering inequality and the quantum advantage provided by quantum EPR assemblages in a communication or information-processing task.
翻訳日:2023-01-30 12:18:31 公開日:2022-08-19
# 非線形フォトニック時間結晶におけるKギャップソリトン

Superluminal k-gap solitons in nonlinear photonic time-crystals ( http://arxiv.org/abs/2208.09220v1 )

ライセンス: Link先を確認
Yiming Pan, Moshe-Ishay Cohen, Mordechai Segev(参考訳) 非線形フォトニック時間結晶の運動量ギャップ(k-gap)に存在する超発光ソリトンを提案する。 これらのギャップソリトンは、周期的に自己再構成されたウェーブパックを時間内に宇宙の平面波として構成される。 ソリトンは無限群速度のモードから出現し、群速度ゼロのエネルギーギャップ(または空間ギャップ)の端に位置する類似のブラッグギャップソリトン(英語版)の定常性質とは逆の超光進化を引き起こす。 アインシュタインの因果関係からk-gapソリトンの光速パルス伝播を探究し,信号速度の前駆体として切断された入力種を導入し,k-gapソリトンの超発光伝播が因果性を損なわないことを発見した。

We propose superluminal solitons residing in the momentum gap (k-gap) of nonlinear photonic time-crystals. These gap solitons are structured as plane-waves in space while being periodically self-reconstructing wavepackets in time. The solitons emerge from modes with infinite group velocity causing superluminal evolution, which is opposite to the stationary nature of the analogous Bragg gap soliton residing at the edge of an energy gap (or a spatial gap) with zero group velocity. We explore the faster-than-light pulsed propagation of these k-gap solitons in view of Einstein's causality by introducing a truncated input seed as a precursor of signal velocity forerunner, and find that the superluminal propagation of k-gap solitons does not break causality.
翻訳日:2023-01-30 12:18:09 公開日:2022-08-19
# グローバル制御と統合トリミングを用いた量子コンピューティングのためのシリコンエッジドットアーキテクチャ

Silicon edge-dot architecture for quantum computing with global control and integrated trimming ( http://arxiv.org/abs/2208.09172v1 )

ライセンス: Link先を確認
Michael A. Fogarty(参考訳) 平面および3次元シリコン・オン・インシュレータ技術による量子ハードウェア要素を組み合わせた,シリコン金属酸化物半導体技術に基づくスケーラブルな量子情報処理アーキテクチャを提案する。 このアーキテクチャは 'unit cell' のアプローチで表現され、2次元のタイリングセルがセル間近傍の相互作用を許容し、フォールトトレラント量子計算のための表面コードと互換性を持つ。 単一量子ビット制御はグローバルに応用されたスピン共鳴技術を用いて達成され、2量子ビット相互作用は大きな量子ドットによって媒介される。 さらに,量子ドット電圧参照の個別トリミングのための電子回路の統合により,デバイス変動に対する解決策を提案する。 このような統合されたソリューションは、完全にシリコンベースのアーキテクチャ内で量子マシンをスケールするためのいくつかの大きな障壁に対処する。

A scalable quantum information processing architecture based on silicon metal-oxide-semiconductor technology is presented, combining quantum hardware elements from planar and 3D silicon-on-insulator technologies. This architecture is expressed in the ``unit cell'' approach, where tiling cells in two dimensions and allowing inter-cellular nearest-neighbour interactions makes the architecture compatible with the surface code for fault tolerant quantum computation. The architecture utilises global control methods, substantially reducing processor complexity with scale: Single-qubit control is achieved using globally applied spin-resonance techniques and two-qubit interactions are mediated by large quantum dots. Further, a solution to device variation is proposed through integration of electronics for individual trimming of quantum dot voltage references. Such a combined set of solutions addresses several major barriers to scaling quantum machines within completely silicon based architectures.
翻訳日:2023-01-30 12:17:00 公開日:2022-08-19
# アクティブフィードバックのない衛星QKDに向けた偏光補正

Polarization correction towards satellite-based QKD without an active feedback ( http://arxiv.org/abs/2208.09124v1 )

ライセンス: Link先を確認
Sourav Chatterjee, Kaumudibikash Goswami, Rishab Chatterjee, Urbasi Sinha(参考訳) 量子鍵分散(QKD)は、2つのパーティがセキュアな鍵文字列を共有できるようにする暗号プロトコルである。 QKDプロトコルの長期的フォトニック実装への関心が高まっている。 しかし、その努力は多くの点で困難である。 特に大きな課題の1つは、単一光子の偏光度が光ファイバーや大気乱流を通して伝達されるときに影響を受けることである。 従来,実時間偏光追跡を実現するためにアクティブフィードバックに基づく機構が用いられる。 本研究では,まず,出力密度行列を再構成するための状態トモグラフィーを行う方法を提案する。 次に,両当事者の計測結果の最大(反)相関につながるボブ端の最適測定基準を評価する。 実証実験として,量子エンタングルメントをリソースとして用いたQKDプロトコルの特定の変種であるBBM92プロトコルを実装し,その性能を実証する。 偏光エンタングル光子対を実験的に生成し,$\ket{\psi}_1 = 1/\sqrt{2}\,(\ket{hv}+\ket{vh})$状態と$0.92$の共起値を持つ。 1 ns の一致窓幅を考えることで、量子ビットエラーレート (QBER) の$\approx 5\%$、キーレートの $\approx 35$ Kbps を達成することができる。 プロトコル性能は光ファイバーによる局所偏光回転とは無関係である。 また,鍵レートとqberのトレードオフを最適化するアルゴリズム手法を開発した。 我々のアプローチは、アクティブな偏光追跡の必要性を緩和する。 本手法は, 半混合および非最大絡み合い状態を用いた絡み合いベースのqkdデモにも適用でき, ファイバーチャネル上の単一光子実装にも拡張できる。

Quantum key distribution (QKD) is a cryptographic protocol to enable two parties to share a secure key string, which can be used in one-time pad cryptosystem. There has been an ongoing surge of interest in implementing long-haul photonic-implementation of QKD protocols. However, the endeavour is challenging in many aspects. In particular, one of the major challenges is the polarization degree of freedom of single-photons getting affected while transmission through optical fibres, or atmospheric turbulence. Conventionally, an active feedback-based mechanism is employed to achieve real-time polarization tracking. In this work, we propose an alternative approach where we first perform a state tomography to reconstruct the output density matrix. We then evaluate the optimal measurement bases at Bob's end that leads to the maximum (anti-)correlation in the measurement outcomes of both parties. As a proof-of-principle demonstration, we implement an in-lab BBM92 protocol -- a particular variant of a QKD protocol using quantum entanglement as a resource -- to exemplify the performance of our technique. We experimentally generate polarization-entangled photon pairs having $94\%$ fidelity with $\ket{\psi}_1 = 1/\sqrt{2}\,(\ket{HV}+\ket{VH})$ state and a concurrence of $0.92$. By considering a representative 1 ns coincidence window span, we are able to achieve a quantum-bit-error-rate (QBER) of $\approx 5\%$, and a key rate of $\approx 35$ Kbps. The protocol performance is independent of local polarization rotations through optical fibres. We also develop an algorithmic approach to optimize the trade-off between the key rate and QBER. Our approach obviates the need for active polarization tracking. Our method is also applicable to entanglement-based QKD demonstrations using partially mixed as well as non-maximally entangled states, and extends to single-photon implementations over fibre channels.
翻訳日:2023-01-30 12:16:47 公開日:2022-08-19
# シリコンのパターン化デルタ層デバイスの非破壊X線イメージング

Non-destructive X-ray imaging of patterned delta-layer devices in silicon ( http://arxiv.org/abs/2208.09379v1 )

ライセンス: Link先を確認
Nicol\`o D'Anna, Dario Ferreira Sanchez, Guy Matmon, Jamie Bragg, Procopios C. Constantinou, Taylor J.Z. Stock, Sarah Fearn, Steven R. Schofield, Neil J. Curson, Marek Bartkowiak, Y. Soh, Daniel Grolimund, Simon Gerber and Gabriel Aeppli(参考訳) 集積エレクトロニクスにおける小型化の進展は、シリコンの原子およびナノメートルサイズのドーパントデバイスにつながった。 このような構造は、リンやヒ素などの様々なドーパントを用いて、水素抵抗リソグラフィーによって日常的に製造することができる。 しかし、量子コプロセッサのようなより複雑なナノスケールデバイスを構築するために必須となる最終構造の原子種特異的なイメージを非破壊的に得る能力は未解決の課題である。 ここでは、x線蛍光を利用して、デバイス低温電子特性に影響を与えずに、絶対単位のドーパント密度とビーム焦点サイズ(ここでは$\sim1~\mu$m)に制限された解像度を持つシリコン中のasドーパントの元素特異的画像を作成する。 X線データによるAs密度は、ホール効果測定から得られたものと、標準的な非可逆性走査型トンネル顕微鏡および二次イオン質量分析法と比較される。 X線実験の前後で、弱局所化に支配される磁気コンダクタンスの測定を行い、量子干渉効果は試料の寸法や乱れに非常に敏感であった。 1.5\times10^{10}$ Sv$1.5\times10^{16}$ Rad/cm$^{-2}$)デバイスをX線に露出しても、すべての輸送データは実験誤差の範囲内で変化せず、典型的なAs原子の放射誘起運動に対する0.2アングストロームの上限と、活性化されたキャリア寄与ドーパントの損失に対する3$\%の値に対応する。 次世代のシンクロトロン放射源とより高度な光学により、5nmの分解半径内で単一のドーパント原子のX線像を得ることが可能となる。

The progress of miniaturisation in integrated electronics has led to atomic and nanometre-sized dopant devices in silicon. Such structures can be fabricated routinely by hydrogen resist lithography, using various dopants such as phosphorous and arsenic. However, the ability to non-destructively obtain atomic-species-specific images of the final structure, which would be an indispensable tool for building more complex nano-scale devices, such as quantum co-processors, remains an unresolved challenge. Here we exploit X-ray fluorescence to create an element-specific image of As dopants in silicon, with dopant densities in absolute units and a resolution limited by the beam focal size (here $\sim1~\mu$m), without affecting the device's low temperature electronic properties. The As densities provided by the X-ray data are compared to those derived from Hall effect measurements as well as the standard non-repeatable, scanning tunnelling microscopy and secondary ion mass spectroscopy, techniques. Before and after the X-ray experiments, we also measured the magneto-conductance, dominated by weak localisation, a quantum interference effect extremely sensitive to sample dimensions and disorder. Notwithstanding the $1.5\times10^{10}$ Sv ($1.5\times10^{16}$ Rad/cm$^{-2}$) exposure of the device to X-rays, all transport data were unchanged to within experimental errors, corresponding to upper bounds of 0.2 Angstroms for the radiation-induced motion of the typical As atom and 3$\%$ for the loss of activated, carrier-contributing dopants. With next generation synchrotron radiation sources and more advanced optics, we foresee that it will be possible to obtain X-ray images of single dopant atoms within resolved radii of 5 nm.
翻訳日:2023-01-30 12:09:25 公開日:2022-08-19
# HAMMER:誤った結果のハミング挙動を利用したノイズ量子回路の忠実度向上

HAMMER: boosting fidelity of noisy Quantum circuits by exploiting Hamming behavior of erroneous outcomes ( http://arxiv.org/abs/2208.09371v1 )

ライセンス: Link先を確認
Swamit Tannu, Poulami Das, Ramin Ayanzadeh and Moinuddin Qureshi(参考訳) 数百量子ビットの量子コンピュータが近く発売される。 残念ながら、高いデバイスエラー率は、これらの短期量子システムを使用して現実世界のアプリケーションを動かす上で大きな課題となる。 既存の量子システム上でプログラムを実行すると、正しい結果と間違った結果の両方が生成されるが、出力分布はノイズが多すぎて区別できない。 本稿では、誤った結果が任意ではなく、ハミング空間で表されるときに明確に定義された構造を示すことを示す。 IBMとGoogleの量子コンピュータに関する我々の実験は、最も頻繁な誤った結果がハミング空間で正しい結果に近づいた可能性が高いことを示している。 我々はこの行動を利用して正しい結果を推測する能力を向上させる。 本研究では,ハミング動作の観測を生かした後処理手法であるハミング再構成法(ハミング再構成法)を提案する。 我々は,500以上のユニークな量子回路を持つGoogleおよびIBM量子コンピュータの実験データを用いてHAMMERを評価し,解の質を平均1.37倍改善する。 Googleが公開しているQAOAデータセットでは、HAMMERがコスト関数のランドスケープの勾配を鋭くすることを示している。

Quantum computers with hundreds of qubits will be available soon. Unfortunately, high device error-rates pose a significant challenge in using these near-term quantum systems to power real-world applications. Executing a program on existing quantum systems generates both correct and incorrect outcomes, but often, the output distribution is too noisy to distinguish between them. In this paper, we show that erroneous outcomes are not arbitrary but exhibit a well-defined structure when represented in the Hamming space. Our experiments on IBM and Google quantum computers show that the most frequent erroneous outcomes are more likely to be close in the Hamming space to the correct outcome. We exploit this behavior to improve the ability to infer the correct outcome. We propose Hamming Reconstruction (HAMMER), a post-processing technique that leverages the observation of Hamming behavior to reconstruct the noisy output distribution, such that the resulting distribution has higher fidelity. We evaluate HAMMER using experimental data from Google and IBM quantum computers with more than 500 unique quantum circuits and obtain an average improvement of 1.37x in the quality of solution. On Google's publicly available QAOA datasets, we show that HAMMER sharpens the gradients on the cost function landscape.
翻訳日:2023-01-30 12:08:50 公開日:2022-08-19
# 光周波数拡散のないツインフィールド量子鍵分布

Twin-field quantum key distribution without optical frequency dissemination ( http://arxiv.org/abs/2208.09347v1 )

ライセンス: Link先を確認
Lai Zhou, Jinping Lin, Yumang Jing and Zhiliang Yuan(参考訳) ツインフィールド(TF)量子鍵分布(QKD)は、基本的にリピータライクなレートロススケーリングにより、長距離セキュアファイバー通信の最も有効なソリューションとして急速に上昇している。 しかし、その実装の複雑さは、うまく対処できなければ、現実の世界への進出を妨げたり、妨げたりすることができる。 ツインフィールドコヒーレンス(英語版)の要求を満たすため、全ての現在のセットアップは基本的に、QKDシステムが単純な量子リンクを提供するスケーラビリティに欠ける巨大でリソース非効率な干渉計構造を採用した。 本稿では,閉干渉計を使わずに開水路を安定化し,位相感応型量子通信に適用可能な新しい手法を提案する。 局所的に発生する周波数コムを用いて相互コヒーレンスを確立することにより,サービスファイバーを必要としない,100km非対称性のリンク上で動作可能な,シンプルで汎用的なTF-QKD構成を開発する。 セットアップのリピータライクな動作を確認し、615.6kmの距離で0.32ビット/秒の有限サイズ速度を得る。

Twin-field (TF) quantum key distribution (QKD) has rapidly risen as the most viable solution to long-distance secure fibre communication thanks to its fundamentally repeater-like rate-loss scaling. However, its implementation complexity, if not successfully addressed, could impede or even prevent its advance into real-world. To satisfy its requirement for twin-field coherence, all present setups adopted essentially a gigantic, resource-inefficient interferometer structure that lacks scalability that mature QKD systems provide with simplex quantum links. Here we introduce a novel technique that can stabilise an open channel without using a closed interferometer and has general applicability to phase-sensitive quantum communications. Using locally generated frequency combs to establish mutual coherence, we develop a simple and versatile TF-QKD setup that does not need service fibre and can operate over links of 100 km asymmetry. We confirm the setup's repeater-like behaviour and obtain a finite-size rate of 0.32 bit/s at a distance of 615.6 km.
翻訳日:2023-01-30 12:08:09 公開日:2022-08-19
# 特徴的状態生成に向けたランク調整弱測定の顕在化

Manifestation of Rank-Tuned Weak Measurements Towards Featured State Generation ( http://arxiv.org/abs/2208.09317v1 )

ライセンス: Link先を確認
Pritam Halder, Ratul Banerjee, Shiladitya Mal, Aditi Sen De(参考訳) 本研究では,量子ビット数の少ないエンタングル初期状態から真の多成分絡み合いを生成する非シャープな計測に基づくプロセスについて,バイアス付きおよび偏りのないインフレーションプロトコルの2つの方法で分類することを提案する。 偏りのある場合には、単一の測定結果から得られた結果状態の真の多部絡み(GME)を最適化し、偏りのない場合には、すべての可能な結果に対して平均GMEを最適化する。 興味深いことに、2量子アンシャープ測定の集合は、GME測度、一般化幾何測度、モノガミーに基づく絡み合い測度、絡み合い、無シャープ測度演算子のランクによって定量化された粒子損失に対する頑健性に応じて異なる特徴を持つ多部状態を生成することができる。 具体的には、3量子の純状態を生成する過程において、ランク=2$の測定はグリーンベルガー・ホーン・ゼイリンジャー級(GHZ)のみを生成できるのに対し、ランク=4$の測定ではランク=3$の測定しか生成できないことを証明している。 任意の数の量子ビットを持つ多部状態の場合、測定演算子のランクの低下に伴い、真の多部絡み合いの平均内容が増加するが、その持続性は、偏りのあるプロトコルと偏りのないプロトコルの両方において、ランクとともに減少する。

We propose that an unsharp measurement-based process to generate genuine multipartite entanglement from an entangled initial state with a fewer number of qubits can be classified in two ways -- biased and unbiased inflation protocols. In the biased case, genuine multipartite entanglement (GME) of the resulting state obtained after a single measurement outcome is optimized, thereby creating a possibility of states with high GME while in the unbiased case, average GME is optimized over all possible outcomes. Interestingly, we show that the set of two-qubit unsharp measurements can generate multipartite states having different features according to GME measure, generalized geometric measure, the monogamy-based entanglement measure, tangle and robustness against particle loss quantified via persistency depending on the rank of the unsharp measurement operators. Specifically, in the process of producing three-qubit pure states, we prove that rank-$2$ measurements can create only Greenberger Horne Zeilinger (GHZ)-class states while only W-class states are produced with rank-$4$ measurements although rank-$3$ measurements are capable to generate both. In the case of multipartite states with an arbitrary number of qubits, we report that the average content of genuine multipartite entanglement increases with the decrease of the rank in the measurement operators although the persistency decreases with the rank, both in the biased as well as unbiased protocols.
翻訳日:2023-01-30 12:07:51 公開日:2022-08-19
# 卵胞ビリヤードにおける異常スペクトル蓄積と分岐

Bifurcation and anomalous spectral accumulation in oval billiard ( http://arxiv.org/abs/2208.09306v1 )

ライセンス: Link先を確認
Hironori Makino(参考訳) 古典力学系が分岐を示す量子楕円ビリヤードのスペクトル統計は、特定のエネルギー間隔で2つのレベルを見つける確率密度として定義される2点相関関数(TPCF)を用いて数値的に研究される。 分岐点の固有エネルギーレベルは、TPCFの周期的なスパイク発振として観測される異常な蓄積を示す。 位相空間内の様々な古典的軌道上に局在する固有関数を分析し、振動が分岐軌道を含む位相空間内の限られた領域から供給されることを発見した。 また, 振動周期は, グッツウィラートレース式により得られた半古典的tpcfへの分岐軌道からの寄与周期とよく一致していることを示した。

Spectral statistics of quantum oval billiard whose classical dynamical system shows bifurcations is numerically investigated in terms of the two-point correlation function (TPCF) which is defined as the probability density of finding two levels at a specific energy interval. The eigenenergy levels at bifurcation point is found to show anomalous accumulation which is observed as a periodic spike oscillation of the TPCF. We analyzed the eigenfunctions localizing onto the various classical trajectories in the phase space and found that the oscillation is supplied from a limited region in the phase space, which contains the bifurcating orbit. We also show that the period of the oscillation is in good agreement with the period of a contribution from the bifurcating orbit to the semiclassical TPCF obtained by Gutzwiller trace formula.
翻訳日:2023-01-30 12:07:10 公開日:2022-08-19
# 位置依存実効質量に対する$\mathcal{p}\mathcal{t}$-symmetric quantum systems はハイゼンベルクの不確かさ原理に違反する

$\mathcal{P}\mathcal{T}$-symmetric Quantum systems for position-dependent effective mass violate the Heisenberg uncertainty principle ( http://arxiv.org/abs/2208.10336v1 )

ライセンス: Link先を確認
Pinaki Patra(参考訳) 我々は位置依存的有効質量のクラスに対して、$\mathcal{p}\mathcal{t}$-symmetric quantum system を研究した。 超対称量子力学の形式は、パートナーポテンシャルを構築するために利用される。 検討中の系は自己共役ではないので、絡み合う作用素はハミルトニアンを分解しない。 我々は、変形座標と運動量空間に作用する一般化消滅と生成作用素の助けを借りてハミルトニアンを分解した。 系のコヒーレント状態構造は、一般化消滅作用素の固有状態から構成される。 これは、自己随伴変形位置と運動量作用素が$\mathcal{P}\mathcal{T}$-対称系に対するハイゼンベルクの不確実性原理に反することを示している。 この違反は内積の選択ではなく、$\mathcal{P}\mathcal{T}$-symmetric 項にのみ依存する。 明示的な構成のために、単純さのために、定数質量 $\mathcal{p}\mathcal{t}$-symmetric system harmonic oscillator が示され、許容されるパラメータ値の選択に対する不確実性原理の違反を示している。 この結果は、$\mathcal{P}\mathcal{T}$-対称系が通常の量子力学の自明な拡張であるか、あるいは開量子系にのみ適していることを示している。

We have studied a $\mathcal{P}\mathcal{T}$-symmetric quantum system for a class of position-dependent effective mass. Formalisms of supersymmetric quantum mechanics are utilized to construct the partner potentials. Since the system under consideration is not self-adjoint, the intertwining operators do not factorize the Hamiltonian. We have factorized the Hamiltonian with the aid of generalized annihilation and creation operators, which acts on a deformed coordinate and momentum space. The coherent state structure for the system is constructed from the eigenstates of the generalized annihilation operator. \\ It turns out that the self-adjoint deformed position and momentum operators violate the Heisenberg uncertainty principle for the $\mathcal{P}\mathcal{T}$-symmetric system. This violation depends solely on the $\mathcal{P}\mathcal{T}$-symmetric term, not on the choice of the inner product. For explicit construction, we have demonstrated, for simplicity, a constant mass $\mathcal{P}\mathcal{T}$-symmetric system Harmonic oscillator, which shows the violation of the uncertainty principle for a choice of acceptable parameter values. The result indicates that either $\mathcal{P}\mathcal{T}$-symmetric systems are a trivial extension of usual quantum mechanics or only suitable for open quantum systems.
翻訳日:2023-01-30 12:00:41 公開日:2022-08-19
# Wang-Landauサンプリングのための量子アルゴリズム

Quantum algorithm for Wang-Landau sampling ( http://arxiv.org/abs/2208.09543v1 )

ライセンス: Link先を確認
Garrett T. Floyd, David P. Landau, Michael R. Geller(参考訳) 符号問題を回避する方法として,メトロポリスアルゴリズムを量子コンピュータに実装できることが示されている。 しかし、平らなヒストグラム技術は、現実世界の関心の問題にメトロポリスを苦しめ、他の多くの利益をもたらすような制限に悩まされないため、しばしば好まれる。 特に、wang-landau法はその効率と精度で知られている。 本研究では,Wang-Landauサンプリングのための量子アルゴリズムの設計,実装,検証を行い,モンテカルロシミュレーションにより解ける量子多体問題の範囲を大きく拡大した。

It has been shown that the Metropolis algorithm can be implemented on quantum computers in a way that avoids the sign problem. However, flat histogram techniques are often preferred as they don't suffer from the same limitations that afflict Metropolis for problems of real-world interest and provide a host of other benefits. In particular, the Wang-Landau method is known for its efficiency and accuracy. In this work we design, implement, and validate a quantum algorithm for Wang-Landau sampling, greatly expanding the range of quantum many body problems solvable by Monte Carlo simulation.
翻訳日:2023-01-30 12:00:11 公開日:2022-08-19
# 1次元二重井戸ポテンシャルにおけるボース-フェルミ混合系の密度確率と量子臨界現象

Density probabilities and quantum critical phenomena of a Bose-Fermi Mixture in 1D Double well potential ( http://arxiv.org/abs/2208.09504v1 )

ライセンス: Link先を確認
R. Avella, J. Nisperuza, JP Rubio and D. Grajales(参考訳) 2つのモード近似を用いて,確率密度の時間発展,基底状態の忠実性,ボース・フェルミ混合物の1次元二重井戸ポテンシャルにおける絡み合いについて検討した。 量子戻り確率の挙動は3つの異なる領域を示すことがわかった。 第1の領域は完全な不明瞭さと、ボソンとフェルミオンの相関トンネルによって特徴づけられる。 第2の領域は連続するトンネルの相関によって特徴づけられ、最後の領域では2種のトンネル周波数が増加した。 フォン・ノイマンエントロピーを通して、ボソン-フェルミオン結合はボソンとフェルミオンの量子相関を同じ値で最大に絡み合わせることができることが分かった。 最後に、$\lambda_{FF}-\lambda_{BF}$と$\lambda_{BB}-\lambda_{BF}$平面の忠実度を計算し、ボゾン-フェルミオン相互作用が減少するにつれて、2つの忠実度がより深く深くなることを示した。

The time evolution of probability density, the ground-state fidelity and the entanglement of a Bose-Fermi mixture in a 1D double well potential, are studied through the two mode approximation. We found that the behaviour of the quantum return probability shows three distinct regions. The first region is characterized by a complete miscibility, and correlated tunneling of bosons and fermion. The second region is characterized by correlated sequential tunneling and in the last region we found an increase in the tunneling frequency of the two species. We found through the Von Neumann entropy, that the boson-fermion coupling allows a maximum entanglement of quantum correlations of bosons and fermions in the same value. Finally we calculated the fidelity in the $\lambda_{FF}-\lambda_{BF}$ and $\lambda_{BB}-\lambda_{BF}$ planes and we found that the drop of the two fidelities becomes deeper and deeper as the boson-fermion interaction decreases.
翻訳日:2023-01-30 11:59:59 公開日:2022-08-19
# 長距離アドバンテージを有する量子熱エンジン

Quantum heat engine with long-range advantages ( http://arxiv.org/abs/2208.09492v1 )

ライセンス: Link先を確認
Andrea Solfanelli, Guido Giachetti, Michele Campisi, Stefano Ruffo, Nicol\`o Defenu(参考訳) 量子デバイスにおける長距離インタラクションの利用は、量子技術応用におけるパフォーマンス向上への有望な道筋を提供する。 ここで、長距離相互作用の存在は、多体作動物質を特徴とする量子熱エンジンの性能を高めることが示されている。 我々は,量子オットーサイクルを経たキタエフ連鎖のパラダイム的例に注目し,その構成要素間の相互作用範囲が増加すると,熱力学的にかなりの優位性が得られることを示す。 興味深いことに、このような利点は有限周期の現実的な状況において最も重要である: 長距離相互作用の存在は、動的に生成された励起の有害な効果を抑えることにより、非断熱的エネルギー損失を減少させる。 この効果により、電力と効率のトレードオフを緩和し、幅広い実験および技術応用への道を開くことができる。

The employment of long-range interactions in quantum devices provides a promising route towards enhancing their performance in quantum technology applications. Here, the presence of long-range interactions is shown to enhance the performances of a quantum heat engine featuring a many-body working substance. We focus on the paradigmatic example of a Kitaev chain undergoing a quantum Otto cycle and show that a substantial thermodynamic advantage may be achieved as the range of the interactions among its constituents increases. Interestingly, such an advantage is most significant for the realistic situation of a finite time cycle: the presence of long-range interactions reduces the non-adiabatic energy losses, by suppressing the detrimental effects of dynamically generated excitations. This effect allows mitigating the trade-off between power and efficiency, paving the way for a wide range of experimental and technological applications.
翻訳日:2023-01-30 11:59:38 公開日:2022-08-19
# 高精細空洞中の原子を含む工学的ランダムスピンモデル

Engineering random spin models with atoms in a high-finesse cavity ( http://arxiv.org/abs/2208.09421v1 )

ライセンス: Link先を確認
Nick Sauerwein, Francesca Orsi, Philipp Uhrich, Soumik Bandyopadhyay, Francesco Mattiotti, Tigrane Cantat-Moltrecht, Guido Pupillo, Philipp Hauke, Jean-Philippe Brantut(参考訳) すべての相互作用と無秩序な量子多体モデルは、凝縮マッター物理学におけるスピングラス、高エネルギー物理学におけるホログラフィック双対性、量子コンピューティングにおけるアニーリングアルゴリズムなど、分野にまたがって幅広い応用がある。 通常、これらのモデルは自然界において不明瞭な物理的実現が見つからない抽象概念である。 ここでは、キャビティ内の原子雲を制御可能な光シフトにすることで、全ての相互作用する無秩序なスピン系を実現する。 原子共鳴とキャビティモードの変形を調整することで、中央モードモデルとリプキン-メシュコフ-グリックモデルの違いを調整できる。 システムの低エネルギー励起を分光学的に検出することにより、幅広いパラメータ範囲にわたる障害との相互作用の競合を探索する。 中心モードモデルにおける乱れが強結合を壊す様子を示し、ダーク状態多様体を弱混合光物質「グレー」状態のランダム分布に交差させる。 lipkin-meshkov-glickモデルでは、強磁性有限サイズの基底状態は乱れが大きくなるにつれてパラマグネットへと進化する。 この方法では、半局所的固有状態が出現し、参加比率の境界を抽出することによって観察される。 これらの結果は、任意のスピンハミルトニアンの設計のための自由プログラマブルキャビティ媒介相互作用に向けた重要なステップを示す。

All-to-all interacting, disordered quantum many-body models have a wide range of applications across disciplines, from spin glasses in condensed-matter physics, over holographic duality in high-energy physics, to annealing algorithms in quantum computing. Typically, these models are abstractions that do not find unambiguous physical realisations in nature. Here, we realise an all-to-all interacting, disordered spin system by subjecting an atomic cloud in a cavity to a controllable light shift. Adjusting the detuning between atom resonance and cavity mode, we can tune between disordered versions of a central-mode model and a Lipkin-Meshkov-Glick model. By spectroscopically probing the low-energy excitations of the system, we explore the competition of interactions with disorder across a broad parameter range. We show how disorder in the central-mode model breaks the strong collective coupling, making the dark state manifold cross over to a random distribution of weakly-mixed light-matter, "grey", states. In the Lipkin-Meshkov-Glick model the ferromagnetic finite-size ground state evolves towards a paramagnet as disorder is increased. In that regime, semi-localised eigenstates emerge, as we observe by extracting bounds on the participation ratio. These results present significant steps towards freely programmable cavity-mediated interactions for the design of arbitrary spin Hamiltonians.
翻訳日:2023-01-30 11:58:22 公開日:2022-08-19
# Memristor-CMOSハイブリッド回路を用いたニューロモルフィックICの検討

An Investigation into Neuromorphic ICs using Memristor-CMOS Hybrid Circuits ( http://arxiv.org/abs/2210.15593v1 )

ライセンス: Link先を確認
Udit Kumar Agarwal, Shikhar Makhija, Varun Tripathi and Kunwar Singh(参考訳) メムリスタの分裂は、その中を流れる電荷の量と、その中を流れる電流が止まったときに状態が記憶される。 したがって、メモリユニットの実装に非常に適している。 メモリと処理が分離された従来のフォン・ノイマンのデジタルアーキテクチャと比較すると、メモリと処理の結合が可能なため、メムリスタはニューロモルフィック回路に優れた応用がある。 ニューラルネットワークは、情報がある層から別の層に渡される階層構造を持ち、これらの各層は高い並列性の可能性を秘めている。 cmos-memristorベースのニューラルネットワークアクセラレータは、この並列性とアナログ計算を利用してニューラルネットワークを高速化する方法を提供する。 本研究では,memristorを用いたプログラミング回路の技術実装の現状について,初期調査を行った。 様々なメムリスタプログラミング回路と基本的なニューロモルフィック回路がシミュレーションされている。 プロジェクトの次のフェーズは、ニューラルネットワークの設計に使用できる基本的なビルディングブロックの設計に関するものです。 memristor bridgeベースのシナプス重み付けブロックと運用上のトランスコンダクタベースの和み上げブロックが当初設計された。 次に、制御された非線形性を導入するために使用されるアクティベーション関数ブロックを設計した。 基本整流線形単位のブロックとタン双曲関数の新たな実装が提案されている。 これらのブロックを使用して、その性能を検証およびテストするために、人工ニューラルネットワークが設計されている。 また、これらの基本ブロックを使って畳み込みニューラルネットワークの基本層を設計しました。 畳み込みニューラルネットワークは画像処理アプリケーションで多用されている。 コア畳み込みブロックは設計され、その性能をテストするために画像処理カーネルとして使用されている。

The memristance of a memristor depends on the amount of charge flowing through it and when current stops flowing through it, it remembers the state. Thus, memristors are extremely suited for implementation of memory units. Memristors find great application in neuromorphic circuits as it is possible to couple memory and processing, compared to traditional Von-Neumann digital architectures where memory and processing are separate. Neural networks have a layered structure where information passes from one layer to another and each of these layers have the possibility of a high degree of parallelism. CMOS-Memristor based neural network accelerators provide a method of speeding up neural networks by making use of this parallelism and analog computation. In this project we have conducted an initial investigation into the current state of the art implementation of memristor based programming circuits. Various memristor programming circuits and basic neuromorphic circuits have been simulated. The next phase of our project revolved around designing basic building blocks which can be used to design neural networks. A memristor bridge based synaptic weighting block, a operational transconductor based summing block were initially designed. We then designed activation function blocks which are used to introduce controlled non-linearity. Blocks for a basic rectified linear unit and a novel implementation for tan-hyperbolic function have been proposed. An artificial neural network has been designed using these blocks to validate and test their performance. We have also used these fundamental blocks to design basic layers of Convolutional Neural Networks. Convolutional Neural Networks are heavily used in image processing applications. The core convolutional block has been designed and it has been used as an image processing kernel to test its performance.
翻訳日:2023-01-30 11:49:39 公開日:2022-08-19
# ノンブロードキャストの定理を超えて量子情報を流すこと -- 真の量子をブロードキャストすることは可能か?

Dispensing of quantum information beyond no-broadcasting theorem -- is it possible to broadcast anything genuinely quantum? ( http://arxiv.org/abs/2208.10341v1 )

ライセンス: Link先を確認
Teiko Heinosaari, Martin Pl\'avala(参考訳) no-broadcasting theorem は量子情報理論における最も基本的な結果の1つであり、量子情報の盗聴とコピーに基づく任意の量子プロトコルに対する最も単純な攻撃は不可能である。 非ブロードキャスティング定理の基本的な重要性から、この制限の正確な境界を理解することが不可欠である。 我々は、放送したい状態の集合を制限し、放送をテストするために使用する測定の集合を制限することで、放送の標準的な定義を一般化する。 その結果,全事例において放送は可換性に等しいことがわかった。

No-broadcasting theorem is one of the most fundamental results in quantum information theory; it guarantees that the simplest attacks on any quantum protocol, based on eavesdropping and copying of quantum information, are impossible. Due to the fundamental importance of the no-broadcasting theorem, it is essential to understand the exact boundaries of this limitation. We generalize the standard definition of broadcasting by restricting the set of states which we want to broadcast and restricting the sets of measurements which we use to test the broadcasting. We show that in all of the investigated cases broadcasting is equivalent to commutativity.
翻訳日:2023-01-30 11:48:27 公開日:2022-08-19
# ARID: 暗闇でアクションを認識するための新しいデータセット

ARID: A New Dataset for Recognizing Action in the Dark ( http://arxiv.org/abs/2006.03876v4 )

ライセンス: Link先を確認
Yuecong Xu, Jianfei Yang, Haozhi Cao, Kezhi Mao, Jianxiong Yin and Simon See(参考訳) ダークビデオにおける行動認識のタスクは、夜間監視や夜間自動運転といった様々なシナリオで有用である。 通常の照明におけるビデオのアクション認識タスクは進歩しているが、暗闇下でのアクション認識の研究は少ない。 これは部分的には、そのようなタスクに十分なデータセットがないためである。 本稿では,ダークビデオにおける行動認識の課題について考察する。 我々は、新しいデータセット:Action Recognition in the Dark (ARID)データセットを集めることで、このタスクのデータ不足のギャップを埋める。 3,780本以上のビデオクリップと11のアクションカテゴリで構成されている。 私たちの知る限りでは、ダークビデオにおける人間の行動に焦点を当てた最初のデータセットです。 ARIDデータセットのさらなる理解を得るために、我々はARIDデータセットを詳細に分析し、合成ダークビデオよりもその必要性を示した。 さらに,我々のデータセット上での動作認識モデルの性能をベンチマークし,その性能向上の可能性について検討した。 この結果から,現在の行動認識モデルとフレーム拡張手法は,暗ビデオにおける行動認識の課題に有効ではない可能性が示唆された。

The task of action recognition in dark videos is useful in various scenarios, e.g., night surveillance and self-driving at night. Though progress has been made in the action recognition task for videos in normal illumination, few have studied action recognition in the dark. This is partly due to the lack of sufficient datasets for such a task. In this paper, we explored the task of action recognition in dark videos. We bridge the gap of the lack of data for this task by collecting a new dataset: the Action Recognition in the Dark (ARID) dataset. It consists of over 3,780 video clips with 11 action categories. To the best of our knowledge, it is the first dataset focused on human actions in dark videos. To gain further understandings of our ARID dataset, we analyze the ARID dataset in detail and exhibited its necessity over synthetic dark videos. Additionally, we benchmarked the performance of several current action recognition models on our dataset and explored potential methods for increasing their performances. Our results show that current action recognition models and frame enhancement methods may not be effective solutions for the task of action recognition in dark videos.
翻訳日:2022-11-24 21:51:44 公開日:2022-08-19
# 経験的または不変のリスク最小化? サンプル複雑性の観点

Empirical or Invariant Risk Minimization? A Sample Complexity Perspective ( http://arxiv.org/abs/2010.16412v2 )

ライセンス: Link先を確認
Kartik Ahuja, Jun Wang, Amit Dhurandhar, Karthikeyan Shanmugam, Kush R. Varshney(参考訳) 近年,オフ・オブ・ディストリビューション(OOD)の一般化に対処するために,不変リスク最小化(IRM)が提案されている。 しかし、IRMが広く採用されている経験的リスク最小化(ERM)フレームワークよりも好まれるべき時期は不明である。 本研究では,これら2つのフレームワークをサンプル複雑性の観点から分析し,この重要な質問に答えるための確固たる一歩を踏み出した。 データ生成機構の種類によって、2つのアプローチは、非常に異なる有限標本と漸近挙動を持つ可能性がある。 例えば、共変量シフト設定では、2つのアプローチが同じ漸近解に到達するだけでなく、明らかな勝者を持たない同様の有限標本の挙動を持つことが分かる。 しかし、共同設立者や反因果変数などを含む他の分布シフトでは、2つのアプローチは異なる漸近解に到達し、IRMは有限サンプル状態において所望のOOD解に近いことが保証される一方、ERMは漸近的に偏っている。 さらに、OOD溶液からの距離に関して、異なる因子(環境数、モデルの複雑さ、およびIRMのペナルティ重量)がIRMの試料複雑性に与える影響についても検討する。

Recently, invariant risk minimization (IRM) was proposed as a promising solution to address out-of-distribution (OOD) generalization. However, it is unclear when IRM should be preferred over the widely-employed empirical risk minimization (ERM) framework. In this work, we analyze both these frameworks from the perspective of sample complexity, thus taking a firm step towards answering this important question. We find that depending on the type of data generation mechanism, the two approaches might have very different finite sample and asymptotic behavior. For example, in the covariate shift setting we see that the two approaches not only arrive at the same asymptotic solution, but also have similar finite sample behavior with no clear winner. For other distribution shifts such as those involving confounders or anti-causal variables, however, the two approaches arrive at different asymptotic solutions where IRM is guaranteed to be close to the desired OOD solutions in the finite sample regime, while ERM is biased even asymptotically. We further investigate how different factors -- the number of environments, complexity of the model, and IRM penalty weight -- impact the sample complexity of IRM in relation to its distance from the OOD solutions
翻訳日:2022-10-01 16:18:37 公開日:2022-08-19
# BanglaWriting: 多目的オフラインBangla手書きデータセット

BanglaWriting: A multi-purpose offline Bangla handwriting dataset ( http://arxiv.org/abs/2011.07499v3 )

ライセンス: Link先を確認
M. F. Mridha, Abu Quwsar Ohi, M. Ameer Ali, Mazedul Islam Emon, Muhammad Mohsin Kabir(参考訳) 本稿は,個人差と年齢差の異なる260人の筆跡を含む,バングラ筆跡という名のバングラ筆跡データセットを提案する。 各ページには、各単語とunicode文の表現とを結ぶバウンディングボックスが含まれている。 このデータセットは21,234語、合計32,787文字を含む。 さらに、このデータセットには、バングラ語彙の5,470のユニークな単語が含まれている。 通常の言葉とは別に、データセットは261の理解可能なオーバーライトと450の手書きのストライクとミスで構成されている。 すべてのバウンディングボックスとワードラベルは手作業で生成される。 このデータセットは、複雑な光学文字/単語認識、作者識別、手書き単語分割、単語生成に使用できる。 さらに、このデータセットは、年齢および性別による手書き変化を抽出するのに適している。

This article presents a Bangla handwriting dataset named BanglaWriting that contains single-page handwritings of 260 individuals of different personalities and ages. Each page includes bounding-boxes that bounds each word, along with the unicode representation of the writing. This dataset contains 21,234 words and 32,787 characters in total. Moreover, this dataset includes 5,470 unique words of Bangla vocabulary. Apart from the usual words, the dataset comprises 261 comprehensible overwriting and 450 handwritten strikes and mistakes. All of the bounding-boxes and word labels are manually-generated. The dataset can be used for complex optical character/word recognition, writer identification, handwritten word segmentation, and word generation. Furthermore, this dataset is suitable for extracting age-based and gender-based variation of handwriting.
翻訳日:2022-09-25 07:05:03 公開日:2022-08-19
# ヘビアン学習によるStarCraft IIクラスタの予測進化

Forecasting Evolution of Clusters in StarCraft II with Hebbian Learning ( http://arxiv.org/abs/2209.06904v1 )

ライセンス: Link先を確認
Beomseok Kang, Saibal Mukhopadhyay(参考訳) StarCraft IIの戦術はゲームエージェントの集団行動と密接に関連している。 言い換えれば、ゲームの人間プレイヤーは、しばしばエージェントの近くに空間的にグループ化され、相手を倒すためにチームを制御する。 この光の中では,多エージェント強化学習におけるエージェントの効率的な制御やゲームユーザのためのゲーム解析ツールなど,さまざまな目的で,StarCraft IIにおけるエージェントのクラスタリングが研究されている。 しかし、これらの作品はクラスタのダイナミクスを学習し予測することを目的としておらず、アプリケーションは現在観察されているゲームステータスに制限されている。 本稿では,StarCraft IIにおけるクラスタの進化を予測するために,教師なし学習と自己教師付き学習を組み合わせたハイブリッドAIモデルを提案する。 本研究では,クラスタの可変数を効率的に生成するために,クラスタモジュールに教師なしのヘビー学習法を開発し,従来のk-meansクラスタリングよりも推論時間の複雑さを低減した。 予測タスクのために、長い短期記憶ベースの予測モジュールは、設定からクラスタまでのモジュールによって生成された状態ベクトルを再帰的に予測するように設計されている。 提案モデルでは,クラスター中心核とその半径に関して,クラスターの複雑な進化をうまく予測できた。

Tactics in StarCraft II are closely related to group behavior of the game agents. In other words, human players in the game often group spatially near agents into a team and control the team to defeat opponents. In this light, clustering the agents in StarCraft II has been studied for various purposes such as the efficient control of the agents in multi-agent reinforcement learning and game analytic tools for the game users. However, these works do not aim to learn and predict dynamics of the clusters, limiting the applications to currently observed game status. In this paper, we present a hybrid AI model that couples unsupervised and self-supervised learning to forecast evolution of the clusters in StarCraft II. We develop an unsupervised Hebbian learning method in a set-to-cluster module to efficiently create a variable number of the clusters, and it also features lower inference time complexity than conventional k-means clustering. For the prediction task, a long short-term memory based prediction module is designed to recursively forecast state vectors generated by the set-to-cluster module. We observe the proposed model successfully predicts complex evolution of the clusters with regard to cluster centroids and their radii.
翻訳日:2022-09-18 17:00:38 公開日:2022-08-19
# グラフニューラルネットワークによるスループット向上のためのノード配置

Graph Neural Network Based Node Deployment for Throughput Enhancement ( http://arxiv.org/abs/2209.06905v1 )

ライセンス: Link先を確認
Yifei Yang, Dongmian Zou, and Xiaofan He(参考訳) 近年のモバイルデータトラフィックの急激な増加は、基礎となる無線通信ネットワークのスループット向上に対する需要を圧迫している。 ネットワークノードの展開はスループット向上の効果的なアプローチとして考えられてきたが、しばしば非自明な非凸最適化につながる。 凸近似に基づく解法は文献では考慮されているが、実際のスループットに対する近似は緩く、時には不満足な性能をもたらすことがある。 本稿では,ネットワークノード配置問題に対する新しいグラフニューラルネットワーク(GNN)手法を提案する。 具体的には、GNNをネットワークスループットに適合させ、GNNの勾配を使ってネットワークノードの位置を反復的に更新する。 また, 表現型gnnは, 多変量置換不変関数の関数値と勾配の両方を近似する能力を持つことを示した。 スループットをさらに向上するため,本手法に基づくハイブリッドノード配置手法についても検討する。 所望のGNNをトレーニングするために、適切なトレーニングサンプルを含むデータセットを作成するためにポリシー勾配アルゴリズムを採用する。 数値実験により,提案手法はベースラインと比較して競争結果が得られた。

The recent rapid growth in mobile data traffic entails a pressing demand for improving the throughput of the underlying wireless communication networks. Network node deployment has been considered as an effective approach for throughput enhancement which, however, often leads to highly non-trivial non-convex optimizations. Although convex approximation based solutions are considered in the literature, their approximation to the actual throughput may be loose and sometimes lead to unsatisfactory performance. With this consideration, in this paper, we propose a novel graph neural network (GNN) method for the network node deployment problem. Specifically, we fit a GNN to the network throughput and use the gradients of this GNN to iteratively update the locations of the network nodes. Besides, we show that an expressive GNN has the capacity to approximate both the function value and the gradients of a multivariate permutation-invariant function, as a theoretic support to the proposed method. To further improve the throughput, we also study a hybrid node deployment method based on this approach. To train the desired GNN, we adopt a policy gradient algorithm to create datasets containing good training samples. Numerical experiments show that the proposed methods produce competitive results compared to the baselines.
翻訳日:2022-09-18 16:59:51 公開日:2022-08-19
# 不当なクレームの構造の探索

Searching for Structure in Unfalsifiable Claims ( http://arxiv.org/abs/2209.00495v1 )

ライセンス: Link先を確認
Peter Ebert Christensen, Frederik Warburg, Menglin Jia, Serge Belongie(参考訳) ソーシャルメディアプラットフォームは、想像できるあらゆるトピックに関する投稿やコメントを大量に生み出す。 これらの投稿の多くは社会の様々な側面について意見を表明しているが、その不当な性質は事実チェックパイプラインに不適当である。 本研究の目的は,特定の話題に関する本質的な主張を捉えた,少数の物語集にその投稿を蒸留することである。 これらの物語を理解し視覚化することは、ソーシャルメディア上でよりインフォームドな議論を促進することができる。 ソーシャルメディア上の基本的な物語を体系的に特定するための第一歩として,公開トイレにおける衛生に関するオンラインコメントの詳細なデータセットであるpapyerを紹介する。 本稿では,機械と人間のカーネルを組み合わせることで,一般的なナラティブを探索し,このパイプラインが最近の大規模トランスフォーマーモデルや最先端の非教師付きトピックモデルよりも優れていることを示す。

Social media platforms give rise to an abundance of posts and comments on every topic imaginable. Many of these posts express opinions on various aspects of society, but their unfalsifiable nature makes them ill-suited to fact-checking pipelines. In this work, we aim to distill such posts into a small set of narratives that capture the essential claims related to a given topic. Understanding and visualizing these narratives can facilitate more informed debates on social media. As a first step towards systematically identifying the underlying narratives on social media, we introduce PAPYER, a fine-grained dataset of online comments related to hygiene in public restrooms, which contains a multitude of unfalsifiable claims. We present a human-in-the-loop pipeline that uses a combination of machine and human kernels to discover the prevailing narratives and show that this pipeline outperforms recent large transformer models and state-of-the-art unsupervised topic models.
翻訳日:2022-09-04 02:10:39 公開日:2022-08-19
# MonaCoBERT:知識追跡のためのモノトニックアテンションベースのConvBERT

MonaCoBERT: Monotonic attention based ConvBERT for Knowledge Tracing ( http://arxiv.org/abs/2208.12615v1 )

ライセンス: Link先を確認
Unggi Lee, Yonghyun Park, Yujin Kim, Seongyune Choi, Hyeoncheol Kim(参考訳) 知識追跡(KT)は、知的学習システム、学習管理システム、オンラインコースなどの教育アプリケーションから収集された事前のパフォーマンスデータセットに基づいて、学生の将来のパフォーマンスを予測する学問分野である。 KTに関する以前の研究はモデルの解釈可能性にのみ集中しているが、他の研究は性能の向上に重点を置いている。 解釈可能性と性能改善の両方を考慮するモデルは不十分である。 さらに、パフォーマンス改善に焦点を当てたモデルは、既存のモデルと比べて圧倒的なパフォーマンスを示していない。 本研究では,ほとんどのベンチマークデータセット上で最高の性能を達成し,高い解釈性を有するMonaCoBERTを提案する。 MonaCoBERTは、単調な畳み込み型マルチヘッドアテンションを備えたBERTベースのアーキテクチャを使用して、学生の忘れられた振る舞いを反映し、モデルの表現力を高める。 また,問題の難易度を考慮に入れた古典的テスト理論(CTT)の埋め込み戦略を用いて,性能と解釈可能性を向上させることができる。 モナコベルトがベストパフォーマンスを達成した理由を判定し, 定量的に解析するため, grad-cam, umap, および各種可視化技術を用いてアブレーション研究および追加分析を行った。 分析の結果,注意要素が相互補完し,cttに基づく埋め込みがグローバルおよび局所的困難に関する情報であることがわかった。 モデルが概念間の関係を表すことも示しています。

Knowledge tracing (KT) is a field of study that predicts the future performance of students based on prior performance datasets collected from educational applications such as intelligent tutoring systems, learning management systems, and online courses. Some previous studies on KT have concentrated only on the interpretability of the model, whereas others have focused on enhancing the performance. Models that consider both interpretability and the performance improvement have been insufficient. Moreover, models that focus on performance improvements have not shown an overwhelming performance compared with existing models. In this study, we propose MonaCoBERT, which achieves the best performance on most benchmark datasets and has significant interpretability. MonaCoBERT uses a BERT-based architecture with monotonic convolutional multihead attention, which reflects forgetting behavior of the students and increases the representation power of the model. We can also increase the performance and interpretability using a classical test-theory-based (CTT-based) embedding strategy that considers the difficulty of the question. To determine why MonaCoBERT achieved the best performance and interpret the results quantitatively, we conducted ablation studies and additional analyses using Grad-CAM, UMAP, and various visualization techniques. The analysis results demonstrate that both attention components complement one another and that CTT-based embedding represents information on both global and local difficulties. We also demonstrate that our model represents the relationship between concepts.
翻訳日:2022-09-04 02:10:14 公開日:2022-08-19
# DBE-KT22:オンライン学生評価に基づく知識追跡データセット

DBE-KT22: A Knowledge Tracing Dataset Based on Online Student Evaluation ( http://arxiv.org/abs/2208.12651v1 )

ライセンス: Link先を確認
Ghodai Abdelrahman, Sherif Abdelfattah, Qing Wang, Yu Lin(参考訳) オンライン教育は、世界中の学生に安価な高品質の教育を提供するために、過去10年間でますます重要になっている。 これは世界的なパンデミックの間にさらに拡大し、より多くの学生がオンライン学習に切り替えた。 オンライン教育タスクの大多数、例えばコースレコメンデーション、エクササイズレコメンデーション、自動評価は、生徒の知識の進歩を追跡することに依存している。 これは文献において \emph{knowledge tracing}問題として知られている。 この問題に対処するには、時間とともに知識の進化を反映できる学生評価データを集める必要がある。 本稿では,オーストラリアのオーストラリア国立大学において,オンライン学生演習システムから収集された知識追跡のためのデータベースエクササイズ(dbe-kt22)という新しい知識追跡データセットを提案する。 DBE-KT22データセットの特徴を考察し、知識追跡文献における既存のデータセットと対比する。 私たちのデータセットは、australian data archive platformを介してパブリックアクセスできます。

Online education has gained an increasing importance over the last decade for providing affordable high-quality education to students worldwide. This has been further magnified during the global pandemic as more students switched to study online. The majority of online education tasks, e.g., course recommendation, exercise recommendation, or automated evaluation, depends on tracking students' knowledge progress. This is known as the \emph{Knowledge Tracing} problem in the literature. Addressing this problem requires collecting student evaluation data that can reflect their knowledge evolution over time. In this paper, we propose a new knowledge tracing dataset named Database Exercises for Knowledge Tracing (DBE-KT22) that is collected from an online student exercise system in a course taught at the Australian National University in Australia. We discuss the characteristics of the DBE-KT22 dataset and contrast it with the existing datasets in the knowledge tracing literature. Our dataset is available for public access through the Australian Data Archive platform.
翻訳日:2022-09-04 02:09:02 公開日:2022-08-19
# 一般ロバスト部分帯域適応フィルタリングに関する研究

Study of General Robust Subband Adaptive Filtering ( http://arxiv.org/abs/2208.08856v2 )

ライセンス: Link先を確認
Yi Yu, Hongsen He, Rodrigo C. de Lamare, Badong Chen(参考訳) 本稿では,個々の重みの不確かさを持つランダムウォークモデルにおける平均二乗偏差を最小化することにより,衝動雑音に対する一般ロバストサブバンド適応フィルタ(gr-saf)方式を提案する。 具体的には、GR-SAF方式において、M推定および最大コレントロピーロバスト基準から異なるスケーリング係数を選択することで、GR-SAFアルゴリズムを簡単に得ることができる。 重要なことに、提案したGR-SAFアルゴリズムは、可変正則化ロバスト正規化SAFアルゴリズムに還元することができ、高速収束率と低定常誤差を有する。 インパルスノイズとエコーキャンセリングの文脈におけるシミュレーションにより,提案したGR-SAFアルゴリズムがそれより優れていることを確認した。

In this paper, we propose a general robust subband adaptive filtering (GR-SAF) scheme against impulsive noise by minimizing the mean square deviation under the random-walk model with individual weight uncertainty. Specifically, by choosing different scaling factors such as from the M-estimate and maximum correntropy robust criteria in the GR-SAF scheme, we can easily obtain different GR-SAF algorithms. Importantly, the proposed GR-SAF algorithm can be reduced to a variable regularization robust normalized SAF algorithm, thus having fast convergence rate and low steady-state error. Simulations in the contexts of system identification with impulsive noise and echo cancellation with double-talk have verified that the proposed GR-SAF algorithms outperforms its counterparts.
翻訳日:2022-08-28 22:28:43 公開日:2022-08-19
# 因果推論の銀行・保険における分析顧客関係管理への応用

Application of Causal Inference to Analytical Customer Relationship Management in Banking and Insurance ( http://arxiv.org/abs/2208.10916v1 )

ライセンス: Link先を確認
Satyam Kumar and Vadlamani Ravi(参考訳) 最近では、様々な領域でより良い受容性を持つために、機械学習アルゴリズムは人間が因果的に理解できる説明を提供する必要があると主張している。 この側面は因果性としても知られ、人間レベルの説明可能性の特定のレベルを達成する。 counterfactualsとして知られる特定のアルゴリズムのクラスは、可利用性を提供することができるかもしれない。 統計学では、因果関係は長年研究され、応用されてきたが、人工知能(ai)にはあまり詳しくない。 まず,分析的顧客関係管理(ACRM)問題を解決するための説明可能性を提供するために,因果推論の原則を適用した。 銀行と保険の文脈では、現在の解釈可能性に関する研究は、なぜこのモデルがそのような決定をしたのか、そしてモデルの選択は特定の要因に影響されたのか? 本稿では,ACRMデータセットの特徴の分布を変化させる効果を対象特徴として検討した介入形態のソリューションを提案する。 その後、銀行・保険会社が行った決定について説明を求める顧客に対して提供することができる一連の偽物も取得される。 クレジットカードチャーン予測データセットを除くと、ローンデフォルト、保険不正検出、クレジットカード不正検出データセットの良質な偽物が生成され、3つ以上の機能の変更が観察される。

Of late, in order to have better acceptability among various domain, researchers have argued that machine intelligence algorithms must be able to provide explanations that humans can understand causally. This aspect, also known as causability, achieves a specific level of human-level explainability. A specific class of algorithms known as counterfactuals may be able to provide causability. In statistics, causality has been studied and applied for many years, but not in great detail in artificial intelligence (AI). In a first-of-its-kind study, we employed the principles of causal inference to provide explainability for solving the analytical customer relationship management (ACRM) problems. In the context of banking and insurance, current research on interpretability tries to address causality-related questions like why did this model make such decisions, and was the model's choice influenced by a particular factor? We propose a solution in the form of an intervention, wherein the effect of changing the distribution of features of ACRM datasets is studied on the target feature. Subsequently, a set of counterfactuals is also obtained that may be furnished to any customer who demands an explanation of the decision taken by the bank/insurance company. Except for the credit card churn prediction dataset, good quality counterfactuals were generated for the loan default, insurance fraud detection, and credit card fraud detection datasets, where changes in no more than three features are observed.
翻訳日:2022-08-24 12:47:41 公開日:2022-08-19
# home run: 軌跡を想像して家に帰る方法を見つける

Home Run: Finding Your Way Home by Imagining Trajectories ( http://arxiv.org/abs/2208.10914v1 )

ライセンス: Link先を確認
Daria de Tinguy, Pietro Mazzaglia, Tim Verbelen, Bart Dhoedt(参考訳) 拘束されない行動を研究し、マウスが複雑な迷路をナビゲートするためにケージを離れることを許すと、マウスは報奨を求めて迷路で捕食行動を示し、すぐに自宅のケージに戻り、例えば飲む。 驚くべきことに、そのような'home run''を実行するとき、マウスは正確な逆経路を辿らない。 近年の研究では、低レベルモデルが隠れ状態や感覚入力を説明するポーズを推論し、高レベルモデルが位置間の移動を推論し、環境マップを効果的に構築する、ナビゲーションのための階層的アクティブ推論モデルが提案されている。 しかし、この `map'' を計画に使用すると、観察されたマウスの行動から遠く離れた、以前に探索した軌跡のみを見つけることができる。 本稿では,低レベル生成モデルを用いて,未発見の経路を推定することにより,計画アルゴリズムに事前見当たらない経路を組み込む方法について検討する。 筆者らは, グリッドワールド環境における概念実証を行い, ピクセルベース観測から学習した生成モデルを用いて, エージェントが地図の新しい短い経路を正確に予測し, 開始点に導く方法を示した。

When studying unconstrained behaviour and allowing mice to leave their cage to navigate a complex labyrinth, the mice exhibit foraging behaviour in the labyrinth searching for rewards, returning to their home cage now and then, e.g. to drink. Surprisingly, when executing such a ``home run'', the mice do not follow the exact reverse path, in fact, the entry path and home path have very little overlap. Recent work proposed a hierarchical active inference model for navigation, where the low level model makes inferences about hidden states and poses that explain sensory inputs, whereas the high level model makes inferences about moving between locations, effectively building a map of the environment. However, using this ``map'' for planning, only allows the agent to find trajectories that it previously explored, far from the observed mice's behaviour. In this paper, we explore ways of incorporating before-unvisited paths in the planning algorithm, by using the low level generative model to imagine potential, yet undiscovered paths. We demonstrate a proof of concept in a grid-world environment, showing how an agent can accurately predict a new, shorter path in the map leading to its starting point, using a generative model learnt from pixel-based observations.
翻訳日:2022-08-24 12:36:56 公開日:2022-08-19
# 脳波に基づく感情認識のためのグラフ注意機構を用いた局所時間空間パターン学習

Locally temporal-spatial pattern learning with graph attention mechanism for EEG-based emotion recognition ( http://arxiv.org/abs/2208.11087v1 )

ライセンス: Link先を確認
Yiwen Zhu, Kaiyu Gan, and Zhong Yin(参考訳) 感情認識技術により、コンピュータは人間の感情状態を個別のカテゴリーに分類することができる。 しかし、感情は短時間でも安定した状態を維持する代わりに変動することがある。 また,3次元トポロジー構造のため,脳波空間分布のフル活用も困難である。 そこで本研究では,局所的時間空間パターン学習グラフアテンションネットワーク(lts-gat)を提案する。 LTS-GATでは,グラフアテンション機構に基づく脳波パターンの時間的および空間的次元の局所的情報を調べるために,分割・対数方式を用いた。 動的領域判別器は脳波統計の個人間変動に対する堅牢性を向上させるために追加され、異なる参加者間で頑健な脳波特徴表現を学習した。 我々は,2つの公開データセットにおけるlts-gatの評価を行った。 LTS-GATモデルの有効性は,他の主流手法と比較した場合に示された。 さらに、異なる脳領域と感情認識の関係を可視化する手法を用いた。 一方,感情スパーシティの問題を調査するために,異なる時間区間の重みも可視化された。

Technique of emotion recognition enables computers to classify human affective states into discrete categories. However, the emotion may fluctuate instead of maintaining a stable state even within a short time interval. There is also a difficulty to take the full use of the EEG spatial distribution due to its 3-D topology structure. To tackle the above issues, we proposed a locally temporal-spatial pattern learning graph attention network (LTS-GAT) in the present study. In the LTS-GAT, a divide-and-conquer scheme was used to examine local information on temporal and spatial dimensions of EEG patterns based on the graph attention mechanism. A dynamical domain discriminator was added to improve the robustness against inter-individual variations of the EEG statistics to learn robust EEG feature representations across different participants. We evaluated the LTS-GAT on two public datasets for affective computing studies under individual-dependent and independent paradigms. The effectiveness of LTS-GAT model was demonstrated when compared to other existing mainstream methods. Moreover, visualization methods were used to illustrate the relations of different brain regions and emotion recognition. Meanwhile, the weights of different time segments were also visualized to investigate emotion sparsity problems.
翻訳日:2022-08-24 12:18:06 公開日:2022-08-19
# 分子動力学軌道からのタンパク質-リガンド親和性予測

Predicting the protein-ligand affinity from molecular dynamics trajectories ( http://arxiv.org/abs/2208.10230v1 )

ライセンス: Link先を確認
Yaosen Min, Ye Wei, Peizhuo Wang, Nian Wu, Stefan Bauer, Shuxin Zheng, Yu Shi, Yingheng Wang, Dan Zhao, Ji Wu, Jianyang Zeng(参考訳) 正確なタンパク質-リガンド結合親和性予測は、薬物設計や他の多くの分子認識問題において不可欠である。 機械学習技術に基づく親和性予測の進歩にもかかわらず、タンパク質-リガンド結合は原子や分子のダイナミクスによって決定されるため、それらはまだ限られている。 そこで我々は3,218個の動的タンパク質-リガンド複合体を含むMDデータセットをキュレートし,さらにグラフベースのディープラーニングフレームワークであるDynaformerを開発した。 ダイナフォーマは相互作用の様々な幾何学的特性を考慮し、動的結合規則を完全に捉えることができる。 本手法は報告した手法よりも優れた性能を示す。 また, 本モデルと構造ベースのドッキングを統合することで, 熱ショックタンパク質90 (hsp90) の仮想スクリーニングを行った。 我々は,他の塩基性物質と比較し,分子を最も高い実験能力で同定できることを実証した。 我々は、大規模mdデータセットと機械学習モデルが新しいシナジーを形成することを期待し、薬物の発見と最適化を加速するための新しいルートを提供する。

The accurate protein-ligand binding affinity prediction is essential in drug design and many other molecular recognition problems. Despite many advances in affinity prediction based on machine learning techniques, they are still limited since the protein-ligand binding is determined by the dynamics of atoms and molecules. To this end, we curated an MD dataset containing 3,218 dynamic protein-ligand complexes and further developed Dynaformer, a graph-based deep learning framework. Dynaformer can fully capture the dynamic binding rules by considering various geometric characteristics of the interaction. Our method shows superior performance over the methods hitherto reported. Moreover, we performed virtual screening on heat shock protein 90 (HSP90) by integrating our model with structure-based docking. We benchmarked our performance against other baselines, demonstrating that our method can identify the molecule with the highest experimental potency. We anticipate that large-scale MD dataset and machine learning models will form a new synergy, providing a new route towards accelerated drug discovery and optimization.
翻訳日:2022-08-23 14:46:43 公開日:2022-08-19
# forbid:グラフ描画のための確率的勾配降下による高速重なり除去

FORBID: Fast Overlap Removal By stochastic gradIent Descent for Graph Drawing ( http://arxiv.org/abs/2208.10334v1 )

ライセンス: Link先を確認
Loann Giovannangeli, Frederic Lalanne, Romain Giot and Romain Bourqui(参考訳) 多くのグラフ描画アルゴリズムはノードをポイントとみなすが、グラフ視覚化ツールはそれらを形として表現することが多い。 これらの形状はラベルなどの情報を表示するか、サイズや色で様々なデータをエンコードする。 しかし、情報の一部を隠蔽することで探索プロセスを妨げるノード間の重複を生成することができる。 したがって、グラフ視覚化の可読性を改善するためにこれらの重複を取り除くことが最も重要である。 レイアウトプロセスで処理されない場合、オーバーラップ除去(OR)アルゴリズムがレイアウト後処理として提案されている。 グラフレイアウトは通常、そのトポロジに関する情報を伝達するので、ORアルゴリズムは可能な限り保存することが重要である。 本稿では,ORを共同応力およびスケーリング最適化問題としてモデル化し,効率的な確率勾配勾配を求めるアルゴリズムを提案する。 このアプローチは最先端のアルゴリズムと比較され、いくつかの品質指標は、初期レイアウト構造を維持しながらオーバーラップを素早く除去する効率を示している。

While many graph drawing algorithms consider nodes as points, graph visualization tools often represent them as shapes. These shapes support the display of information such as labels or encode various data with size or color. However, they can create overlaps between nodes which hinder the exploration process by hiding parts of the information. It is therefore of utmost importance to remove these overlaps to improve graph visualization readability. If not handled by the layout process, Overlap Removal (OR) algorithms have been proposed as layout post-processing. As graph layouts usually convey information about their topology, it is important that OR algorithms preserve them as much as possible. We propose a novel algorithm that models OR as a joint stress and scaling optimization problem, and leverages efficient stochastic gradient descent. This approach is compared with state-of-the-art algorithms, and several quality metrics demonstrate its efficiency to quickly remove overlaps while retaining the initial layout structures.
翻訳日:2022-08-23 14:46:03 公開日:2022-08-19
# 楕円体のランダム点への準最適嵌合

Near-optimal fitting of ellipsoids to random points ( http://arxiv.org/abs/2208.09493v1 )

ライセンス: Link先を確認
Prayaag Venkat, Paxton Turner, and Alexander S. Wein(参考訳) 独立標準ガウス点 $v_1, \ldots, v_n$ in dimension $d$, for what value of $(n, d)$ は高確率で存在し、同時にすべての点を通過する原点対称楕円体が存在するか? 楕円体をランダムな点に当てはめるという基本的な問題は、低ランク行列分解、独立成分分析、主成分分析と関係している。 Saunderson, Parrilo, and Willsky [Proc. of Conference on Decision and Control, pp. 6031-6036, 2013] の強い数値的証拠に基づいて、楕円体嵌合問題は、点数$n$が増加し、鋭い閾値が$n \sim d^2/4$となるにつれて、実現不可能から不可能へと遷移する。 我々はこの予想を、ある$n = \Omega( \, d^2/\log^5(d) \,)$ の適合楕円体を構築し、Ghosh et al の先行作業を改善することで対数的因子に分解する。 [コンピュータ科学の基礎シンポジウム, pp. 954-965, 2020]$n = o(d^{3/2})$. この証明は、ある非標準確率行列の固有ベクトルと固有値の注意深い解析を用いて、サンダーソン等最小二乗構成の実現可能性を示す。

Given independent standard Gaussian points $v_1, \ldots, v_n$ in dimension $d$, for what values of $(n, d)$ does there exist with high probability an origin-symmetric ellipsoid that simultaneously passes through all of the points? This basic problem of fitting an ellipsoid to random points has connections to low-rank matrix decompositions, independent component analysis, and principal component analysis. Based on strong numerical evidence, Saunderson, Parrilo, and Willsky [Proc. of Conference on Decision and Control, pp. 6031-6036, 2013] conjecture that the ellipsoid fitting problem transitions from feasible to infeasible as the number of points $n$ increases, with a sharp threshold at $n \sim d^2/4$. We resolve this conjecture up to logarithmic factors by constructing a fitting ellipsoid for some $n = \Omega( \, d^2/\log^5(d) \,)$, improving prior work of Ghosh et al. [Proc. of Symposium on Foundations of Computer Science, pp. 954-965, 2020] that requires $n = o(d^{3/2})$. Our proof demonstrates feasibility of the least squares construction of Saunderson et al. using a careful analysis of the eigenvectors and eigenvalues of a certain non-standard random matrix.
翻訳日:2022-08-23 14:41:04 公開日:2022-08-19
# 音楽レコメンデーションモデルと商用蒸しサービスにおける人気バイアスの検討

Exploring Popularity Bias in Music Recommendation Models and Commercial Steaming Services ( http://arxiv.org/abs/2208.09517v1 )

ライセンス: Link先を確認
Douglas R. Turnbull and Sean McQuillan and Vera Crabtree and John Hunter and Sunny Zhang(参考訳) 人気度バイアスは、レコメンデーターシステムが、人気アーティストをユーザに推薦するときに、不当に人気アーティストを好むという考えだ。 このようにして、少数のアーティストがほとんどすべての注目を集める市場へ貢献できるが、同じようにメリットのあるアーティストが見つかる可能性は低い。 本稿では,3つの最先端レコメンデータシステムモデル(SLIM, Multi-VAE, WRMF)および3つの商用音楽ストリーミングサービス(Spotify, Amazon Music, YouTube)における人気バイアスの測定を試みる。 最も正確なモデル(SLIM)は最も人気バイアスを持つが、より正確でないモデルはより人気バイアスが少ない。 また,ユーザ実験をシミュレートした商用レコメンデーションでは,人気バイアスの証拠は見つからなかった。

Popularity bias is the idea that a recommender system will unduly favor popular artists when recommending artists to users. As such, they may contribute to a winner-take-all marketplace in which a small number of artists receive nearly all of the attention, while similarly meritorious artists are unlikely to be discovered. In this paper, we attempt to measure popularity bias in three state-of-art recommender system models (e.g., SLIM, Multi-VAE, WRMF) and on three commercial music streaming services (Spotify, Amazon Music, YouTube). We find that the most accurate model (SLIM) also has the most popularity bias while less accurate models have less popularity bias. We also find no evidence of popularity bias in the commercial recommendations based on a simulated user experiment.
翻訳日:2022-08-23 14:40:34 公開日:2022-08-19
# 多層パーセプトロンを用いたデータ拡張によるエキゾチックハドロン質量予測

Predicting Exotic Hadron Masses with Data Augmentation Using Multilayer Perceptron ( http://arxiv.org/abs/2208.09538v1 )

ライセンス: Link先を確認
Huseyin Bahtiyar(参考訳) 近年、ニューラルネットワークは大きな発展を遂げているため、ニューラルネットワークは物理学の文献で頻繁に使われている。 この研究は、ニューラルネットワークを用いて、メソンとバリオンの質量から、エキゾチックなハドロン、二重の魅力と底のバリオンの質量を推定する。 その後,最近提案された人工データ拡張技術を用いてデータ数を増やした。 我々は,拡張データを用いてニューラルネットワークの予測能力が増加することを観測した。 本研究では、データ拡張技術がニューラルネットワークの予測を改善する上で重要な役割を担っていることを示し、さらに、ニューラルネットワークはエキゾチックなハドロン、二重魅力のあるバリオン、二重底付きバリオンに対して合理的な予測を行うことができることを示した。 結果はガウス過程や構成クォークモデルにも匹敵する。

Recently, there have been significant developments in neural networks; thus, neural networks have been frequently used in the physics literature. This work estimates the masses of exotic hadrons, doubly charmed and bottomed baryons from the meson and baryon masses using neural networks. Subsequently, the number of data has been increased using the artificial data augmentation technique proposed recently. We have observed that the neural network's predictive ability increases using augmented data. This study has shown that data augmentation techniques play an essential role in improving neural network predictions; moreover, neural networks can make reasonable predictions for exotic hadrons, doubly charmed, and doubly bottomed baryons. The results are also comparable to Gaussian Process and Constituent Quark Model.
翻訳日:2022-08-23 14:40:20 公開日:2022-08-19
# $\ell_1$-regularized Logistic Regression を用いた高次元イジングモデル選択のためのメタラーニング

Meta Learning for High-dimensional Ising Model Selection Using $\ell_1$-regularized Logistic Regression ( http://arxiv.org/abs/2208.09539v1 )

ライセンス: Link先を確認
Huiming Xie, Jean Honorio(参考訳) 本稿では,各ノードの近傍選択に対して,$\ell_1$-regularized logistic regression法を用いて,高次元Isingモデルに関連するグラフを推定するメタ学習問題を考察する。 我々のゴールは、新しいタスクの学習において補助的なタスクから学んだ情報を用いて、十分なサンプルの複雑さを減らすことである。 そこで本研究では,新しい生成モデルと不適切な推定手法を提案する。 私たちの設定では、すべてのタスクは \emph{similar} モデルパラメータの \emph{random} であり、サポートします。 補助タスクからすべてのサンプルを \emph{improperly} にプールすることで、単一のパラメータベクトルを推定することで、小さなサイズの真のサポートユニオンを復元でき、十分なサンプル複雑性を持つ高い確率で、1タスク当たり$\omega(1) $、$k = \omega(d^3 \log p ) $ ノードと最大近傍サイズ$d$を持つイジングモデルのタスクを復元することができる。 そして, 推定支援組合に制限された新規タスクのサポートにより, 新規タスクに対する一貫した近傍選択が, 十分なサンプルの複雑さを$\Omega(d^3 \log d)$に減らして得られることを示す。

In this paper, we consider the meta learning problem for estimating the graphs associated with high-dimensional Ising models, using the method of $\ell_1$-regularized logistic regression for neighborhood selection of each node. Our goal is to use the information learned from the auxiliary tasks in the learning of the novel task to reduce its sufficient sample complexity. To this end, we propose a novel generative model as well as an improper estimation method. In our setting, all the tasks are \emph{similar} in their \emph{random} model parameters and supports. By pooling all the samples from the auxiliary tasks to \emph{improperly} estimate a single parameter vector, we can recover the true support union, assumed small in size, with a high probability with a sufficient sample complexity of $\Omega(1) $ per task, for $K = \Omega(d^3 \log p ) $ tasks of Ising models with $p$ nodes and a maximum neighborhood size $d$. Then, with the support for the novel task restricted to the estimated support union, we prove that consistent neighborhood selection for the novel task can be obtained with a reduced sufficient sample complexity of $\Omega(d^3 \log d)$.
翻訳日:2022-08-23 14:40:06 公開日:2022-08-19
# Sudakov-FerniqueポストAMPとTAP自由エネルギーの局所凸性の新しい証明

Sudakov-Fernique post-AMP, and a new proof of the local convexity of the TAP free energy ( http://arxiv.org/abs/2208.09550v1 )

ライセンス: Link先を確認
Michael Celentano(参考訳) 現代の統計学や機械学習における多くの問題において、非凸リスク関数上の一階法が最終的に、そのリスクが局所凸であるパラメータ空間の領域に入ることを保証することがしばしば重要である。 我々は、Sudakov-FerniqueポストAMP不等式(英語版)と呼ばれる漸近的比較不等式を導出し、GOE行列を含むある種の問題において、近似メッセージパッシング(AMP)アルゴリズムの反復点付近の最適化ランドスケープの特性を探索することができる。 その使用例として、celentano et al. (2021) のいくつかの結果の、新しく、そして間違いなくより単純な証明を提供する。これは、$\mathbb{z}_2$-synchronization 問題におけるいわゆるタップ自由エネルギーが、amp が収束する領域において局所的に凸であることを立証するものである。 さらに、関係するが異なるTAP自由エネルギーの局所凸性を含むEl Alaoui et al. (2022) の予想を証明し、その結果、シェリントン・カークパトリック・ギブズ測度のアルゴリズムが「容易」な状態を通じて効率的にサンプリングできることを確認する。

In many problems in modern statistics and machine learning, it is often of interest to establish that a first order method on a non-convex risk function eventually enters a region of parameter space in which the risk is locally convex. We derive an asymptotic comparison inequality, which we call the Sudakov-Fernique post-AMP inequality, which, in a certain class of problems involving a GOE matrix, is able to probe properties of an optimization landscape locally around the iterates of an approximate message passing (AMP) algorithm. As an example of its use, we provide a new, and arguably simpler, proof of some of the results of Celentano et al. (2021), which establishes that the so-called TAP free energy in the $\mathbb{Z}_2$-synchronization problem is locally convex in the region to which AMP converges. We further prove a conjecture of El Alaoui et al. (2022) involving the local convexity of a related but distinct TAP free energy, which, as a consequence, confirms that their algorithm efficiently samples from the Sherrington-Kirkpatrick Gibbs measure throughout the "easy" regime.
翻訳日:2022-08-23 14:39:39 公開日:2022-08-19
# スカース時系列データを用いた大企業の信頼度推定によるシミュレーションインフォームド収益推定

Simulation-Informed Revenue Extrapolation with Confidence Estimate for Scaleup Companies Using Scarce Time-Series Data ( http://arxiv.org/abs/2208.10375v1 )

ライセンス: Link先を確認
Lele Cao, Sonja Horn, Vilhelm von Ehrenheim, Richard Anselmo Stahl, Henrik Landgren(参考訳) 投資専門家は、企業収益を将来(収益予測など)への外挿に頼り、スケールアップ(高成長期の民間企業)の評価を近似し、投資決定を通知する。 このタスクは手動で経験的であり、予測品質は投資専門家の経験と洞察に大きく依存します。 さらに、スケールアップに関する財務データは一般的にプロプライエタリでコストがかかり、不足しているため、データ駆動アプローチの広範な採用を除外する。 そこで本研究では,小規模のデータセットと短時間の時系列データを用いて,長期収益予測を高精度に生成するシミュレーションインフォームド収益推定アルゴリズムを提案する。 SiREは、収益動態を線形力学系(LDS)としてモデル化し、EMアルゴリズムを用いて解決する。 主なイノベーションは、トレーニングと推論の間にうるさい収入測定がどのように得られるかにある。 SiREはさまざまなセクターで運用されるスケールアップに取り組み、信頼性評価を提供する。 2つの実用的なタスクに関する定量的実験は、sireがベースライン法を大幅に上回っていることを示している。 また,SiREが短い時系列から外挿し,長期の予測を行う際にも高い性能を示す。 sireの性能効率バランスと結果説明可能性についても実証的に検証する。 投資専門家の観点から評価すると、SiREは2~5年で大きなリターンをもたらすスケールアップを正確に見つけることができる。 さらに, 質的検査の結果から, sire収益予測の利点を明らかにした。

Investment professionals rely on extrapolating company revenue into the future (i.e. revenue forecast) to approximate the valuation of scaleups (private companies in a high-growth stage) and inform their investment decision. This task is manual and empirical, leaving the forecast quality heavily dependent on the investment professionals' experiences and insights. Furthermore, financial data on scaleups is typically proprietary, costly and scarce, ruling out the wide adoption of data-driven approaches. To this end, we propose a simulation-informed revenue extrapolation (SiRE) algorithm that generates fine-grained long-term revenue predictions on small datasets and short time-series. SiRE models the revenue dynamics as a linear dynamical system (LDS), which is solved using the EM algorithm. The main innovation lies in how the noisy revenue measurements are obtained during training and inferencing. SiRE works for scaleups that operate in various sectors and provides confidence estimates. The quantitative experiments on two practical tasks show that SiRE significantly surpasses the baseline methods by a large margin. We also observe high performance when SiRE extrapolates from short time-series and predicts for long-term. The performance-efficiency balance and result explainability of SiRE are also validated empirically. Evaluated from the perspective of investment professionals, SiRE can precisely locate the scaleups that have a great potential return in 2 to 5 years. Furthermore, our qualitative inspection illustrates some advantageous attributes of the SiRE revenue forecasts.
翻訳日:2022-08-23 14:32:54 公開日:2022-08-19
# 条件付きモーメントマッチングのためのゲーム理論アルゴリズム

Game-Theoretic Algorithms for Conditional Moment Matching ( http://arxiv.org/abs/2208.09551v1 )

ライセンス: Link先を確認
Gokul Swamy and Sanjiban Choudhury and J. Andrew Bagnell and Zhiwei Steven Wu(参考訳) エコノメトリや機械学習における様々な問題、例えば器楽変数回帰やベルマン残差最小化は、一連の条件モーメント制限(CMR)を満たすものとして定式化することができる。 非線形問題にスケールし、勾配に基づく最適化に適しており、有限サンプルの不確かさを考慮できるcmrを満たす一般的なゲーム理論戦略を導出する。 我々は、様々な拡張の詳細とCMRで定義されたゲームの効率的な解法を述べる前に、Dikkala et al.とDai et al.のアプローチを、我々の一般的なフレームワークの特別な事例として回収する。

A variety of problems in econometrics and machine learning, including instrumental variable regression and Bellman residual minimization, can be formulated as satisfying a set of conditional moment restrictions (CMR). We derive a general, game-theoretic strategy for satisfying CMR that scales to nonlinear problems, is amenable to gradient-based optimization, and is able to account for finite sample uncertainty. We recover the approaches of Dikkala et al. and Dai et al. as special cases of our general framework before detailing various extensions and how to efficiently solve the game defined by CMR.
翻訳日:2022-08-23 14:23:59 公開日:2022-08-19
# ニューラルネットワークによる線形公式のab initio導出の促進 : dnaモチーフと遺伝子発現の関係を定式化するケーススタディ

Neural network facilitated ab initio derivation of linear formula: A case study on formulating the relationship between DNA motifs and gene expression ( http://arxiv.org/abs/2208.09559v1 )

ライセンス: Link先を確認
Chengyu Liu, Wei Wang(参考訳) 高い解釈性と、生物学的データ間の関係を定量化するための公式を導出するモデルの開発は、新たなニーズである。 本稿では、文脈回帰モデルと呼ばれる解釈可能なニューラルネットワークモデルに基づく新しいアプローチを用いて、シーケンスモチーフと線形式を導出するためのフレームワークを提案する。 この線形モデルは、ディープニューラルネットワークモデルに匹敵するパフォーマンスを持つプロモーター配列を用いて遺伝子発現レベルを予測できることを示した。 遺伝子発現に重要な制御的役割を持つ300のモチーフのリストを発見し、154種類の異なる細胞型において、細胞型特異的な遺伝子発現に重要な寄与を示した。 この研究は、容易に解明できない生物学の法則を表す式を導出する可能性を示している。 (https://github.com/Wang-lab-UCSD/Motif_Finding_Contextual_Regression)

Developing models with high interpretability and even deriving formulas to quantify relationships between biological data is an emerging need. We propose here a framework for ab initio derivation of sequence motifs and linear formula using a new approach based on the interpretable neural network model called contextual regression model. We showed that this linear model could predict gene expression levels using promoter sequences with a performance comparable to deep neural network models. We uncovered a list of 300 motifs with important regulatory roles on gene expression and showed that they also had significant contributions to cell-type specific gene expression in 154 diverse cell types. This work illustrates the possibility of deriving formulas to represent biology laws that may not be easily elucidated. (https://github.com/Wang-lab-UCSD/Motif_Finding_Contextual_Regression)
翻訳日:2022-08-23 14:23:47 公開日:2022-08-19
# パーソナライズされた意思決定 --概念導入-

Personalized Decision Making -- A Conceptual Introduction ( http://arxiv.org/abs/2208.09558v1 )

ライセンス: Link先を確認
Scott Mueller and Judea Pearl(参考訳) パーソナライズされた意思決定は特定の個人の行動をターゲットにし、人口ベースの意思決定はその個人に似たサブ人口に関係している。 本稿は,両者の区別を明確化し,前者がよりインフォームドな判断に導く理由を説明する。 さらに,実験と観察を組み合わせることで,個人の行動に関する貴重な情報を得ることができ,その結果,実験だけで得られるものよりも意思決定が向上することを示す。

Personalized decision making targets the behavior of a specific individual, while population-based decision making concerns a sub-population resembling that individual. This paper clarifies the distinction between the two and explains why the former leads to more informed decisions. We further show that by combining experimental and observational studies we can obtain valuable information about individual behavior and, consequently, improve decisions over those obtained from experimental studies alone.
翻訳日:2022-08-23 14:17:00 公開日:2022-08-19
# 力と危険弧の変動による本中の物語時間の特徴付け

Characterizing narrative time in books through fluctuations in power and danger arcs ( http://arxiv.org/abs/2208.09496v1 )

ライセンス: Link先を確認
Mikaela Irene Fudolig, Thayer Alshaabi, Kathryn Cramer, Christopher M. Danforth, Peter Sheridan Dodds(参考訳) 近年の研究では、言葉の用法を定量化し、物語の感情的弧の全体像を見出すことに焦点が当てられているが、物語の中の物語の特徴についてはいまだ検討が続けられている。 本稿では,単語使用のゆらぎが関連し始めるテキストの長さを求めることにより,語下詞の物語時間尺度を特徴付ける。 我々は3万冊以上のプロジェクト・グーテンベルクの書籍を、本質的な意味を持つパワー・ダンガー・フレームワークである ousiometrics を用いて時系列として表現する。 各本のパワーと危険時系列を経験的モード分解を用いて構成振動モードと非振動トレンドの合計に分解する。 原典のパワーと危険時間列の分解をシャッフルテキストから導出したものと比較することにより、短い本は一般的な傾向しか示さないのに対し、より長い本は一般的な傾向に加えて変動があることが分かる。 これらの変動は通常、本の長さや図書館の分類コードに関わらず数千語という期間を持つが、本の内容や構造によって異なる。 提案手法は,様々な長さのテキストに対して,特に短いテキストに対して,不注意に関連情報を取り除くような大きなウィンドウサイズを用いる従来の手法とは対照的に,データ駆動分別手法を提供する。

While recent studies have focused on quantifying word usage to find the overall shapes of narrative emotional arcs, certain features of narratives within narratives remain to be explored. Here, we characterize the narrative time scale of sub-narratives by finding the length of text at which fluctuations in word usage begin to be relevant. We represent more than 30,000 Project Gutenberg books as time series using ousiometrics, a power-danger framework for essential meaning, itself a reinterpretation of the valence-arousal-dominance framework derived from semantic differentials. We decompose each book's power and danger time series using empirical mode decomposition into a sum of constituent oscillatory modes and a non-oscillatory trend. By comparing the decomposition of the original power and danger time series with those derived from shuffled text, we find that shorter books exhibit only a general trend, while longer books have fluctuations in addition to the general trend, similar to how subplots have arcs within an overall narrative arc. These fluctuations typically have a period of a few thousand words regardless of the book length or library classification code, but vary depending on the content and structure of the book. Our method provides a data-driven denoising approach that works for text of various lengths, in contrast to the more traditional approach of using large window sizes that may inadvertently smooth out relevant information, especially for shorter texts.
翻訳日:2022-08-23 14:04:08 公開日:2022-08-19
# トピック: 注意力を用いたソースコードからの学習リポジトリ埋め込み

Topical: Learning Repository Embeddings from Source Code using Attention ( http://arxiv.org/abs/2208.09495v1 )

ライセンス: Link先を確認
Agathe Lherondelle, Yash Satsangi, Fran Silavong, Shaltiel Eloul, Sean Moran(参考訳) ソースコード(MLOnCode)上の機械学習は、ソフトウェアの提供方法を変えることを約束する。 ソフトウェアアーチファクト間のコンテキストと関係をマイニングすることで、mloncodeは、コード自動生成、コードレコメンデーション、コード自動タグ付け、その他のデータ駆動機能拡張によって、ソフトウェア開発機能を強化する。 これらのタスクの多くにおいて、コードのスクリプトレベルの表現は十分であるが、多くの場合、さまざまな依存関係とリポジトリ構造を考慮したリポジトリレベルの表現は、例えば、トピックによるリポジトリの自動タグ付けや、リポジトリコードの自動文書化など、必須である。 リポジトリレベルの表現を計算するための既存の方法 (a)コード(例えば、readmeファイル)の自然言語ドキュメンテーションへの依存 b) 結合や平均化によるメソッド/スクリプトレベルの表現のナイーブな集約。 本稿では,GitHubリポジトリのリポジトリレベルの埋め込みをソースコードから直接生成するディープニューラルネットワークTopicalを紹介する。 Topicalにはソースコード、フル依存グラフ、スクリプトレベルのテキスト情報を高密度なリポジトリレベルの表現に投影するアテンションメカニズムが含まれている。 リポジトリレベルの表現を計算するために、 topicalは、公開利用可能なgithubリポジトリのデータセット上で、リポジトリに関連するトピックを予測するように訓練されている。 実験の結果,Topicalが計算した埋め込みは,リポジトリの自動タグ付けタスクにおける平均化や結合によって,メソッドレベルの表現を直感的に組み合わせたベースラインなど,複数のベースラインよりも優れていることがわかった。

Machine learning on source code (MLOnCode) promises to transform how software is delivered. By mining the context and relationship between software artefacts, MLOnCode augments the software developers capabilities with code auto-generation, code recommendation, code auto-tagging and other data-driven enhancements. For many of these tasks a script level representation of code is sufficient, however, in many cases a repository level representation that takes into account various dependencies and repository structure is imperative, for example, auto-tagging repositories with topics or auto-documentation of repository code etc. Existing methods for computing repository level representations suffer from (a) reliance on natural language documentation of code (for example, README files) (b) naive aggregation of method/script-level representation, for example, by concatenation or averaging. This paper introduces Topical a deep neural network to generate repository level embeddings of publicly available GitHub code repositories directly from source code. Topical incorporates an attention mechanism that projects the source code, the full dependency graph and the script level textual information into a dense repository-level representation. To compute the repository-level representations, Topical is trained to predict the topics associated with a repository, on a dataset of publicly available GitHub repositories that were crawled along with their ground truth topic tags. Our experiments show that the embeddings computed by Topical are able to outperform multiple baselines, including baselines that naively combine the method-level representations through averaging or concatenation at the task of repository auto-tagging.
翻訳日:2022-08-23 13:59:46 公開日:2022-08-19
# globus automation services: 時空連続体全体の研究プロセス自動化

Globus Automation Services: Research process automation across the space-time continuum ( http://arxiv.org/abs/2208.09513v1 )

ライセンス: Link先を確認
Ryan Chard and Jim Pruyne and Kurt McKee and Josh Bryan and Brigitte Raumann and Rachana Ananthakrishnan and Kyle Chard and Ian Foster(参考訳) 研究プロセスの自動化 - 科学機器、コンピュータ、データストア、その他の資源に対する関連した一連の行動の信頼性、効率的、再現可能な実行 - が現代科学の重要な要素として登場した。 本稿ではglobus research data management platformにおける新たなサービスについて報告する。このプラットフォームは多様な研究プロセスを再利用可能なアクションセット、フロー、およびヘテロジニアスな研究環境におけるフローの実行として特定することを可能にする。 広い空間的範囲(科学機器から遠隔データセンターまで)と時間的範囲(数秒から数週間まで)のフローをサポートするために、以下のglobus automation services機能がある。 1) 散発的な障害にもかかわらず,長期間のフローを信頼性よく実行するためのクラウドホスティング 2) 任意のリソースを含む多種多様なアクションおよびフロー仕様を定義し実行するための宣言的記法及び拡張可能な非同期アクションプロバイダAPI。 3) 行動の安全な実行のための権限委譲機構 これらのサービスにより、研究者は幅広い研究タスクの管理を、信頼性が高くスケーラブルでセキュアなクラウドプラットフォームにアウトソースし、自動化することができる。 我々は、globus automation servicesのユースケース、サービスの設計と実装、マイクロベンチマーク研究、および様々なアプリケーションにおけるサービスの適用経験について紹介する。

Research process automation--the reliable, efficient, and reproducible execution of linked sets of actions on scientific instruments, computers, data stores, and other resources--has emerged as an essential element of modern science. We report here on new services within the Globus research data management platform that enable the specification of diverse research processes as reusable sets of actions, flows, and the execution of such flows in heterogeneous research environments. To support flows with broad spatial extent (e.g., from scientific instrument to remote data center) and temporal extent (from seconds to weeks), these Globus automation services feature: 1) cloud hosting for reliable execution of even long-lived flows despite sporadic failures; 2) a declarative notation, and extensible asynchronous action provider API, for defining and executing a wide variety of actions and flow specifications involving arbitrary resources; 3) authorization delegation mechanisms for secure invocation of actions. These services permit researchers to outsource and automate the management of a broad range of research tasks to a reliable, scalable, and secure cloud platform. We present use cases for Globus automation services, describe the design and implementation of the services, present microbenchmark studies, and review experiences applying the services in a range of applications
翻訳日:2022-08-23 13:59:06 公開日:2022-08-19
# 変圧器を用いた[Re]微分可能空間計画

[Re] Differentiable Spatial Planning using Transformers ( http://arxiv.org/abs/2208.09536v1 )

ライセンス: Link先を確認
Rohit Ranjan, Himadri Bhakta, Animesh Jha, Parv Maheshwari, Debashish Chakravarty(参考訳) 本報告は,chaplotらによる論文 "differentiable spatial planning using transformers" の再現活動について述べる。 . 本稿では,空間的な経路計画の問題について考察する。 提案手法は,従来のデータ駆動モデルに勝る空間計画トランスフォーマーを用い,微分可能な構造を利用して基底真理マップを伴わずにマッピングを学習できることを示す。 これらの主張を,実験を再現して検証し,その手法を新たなデータで検証する。 また,障害の複雑化を伴う地図を用いて,計画精度の安定性について検討した。 Mapperモジュールの学習を調査し検証する試みは、計算資源と到達不能な著者の多さから生じる失敗に直面した。

This report covers our reproduction effort of the paper 'Differentiable Spatial Planning using Transformers' by Chaplot et al. . In this paper, the problem of spatial path planning in a differentiable way is considered. They show that their proposed method of using Spatial Planning Transformers outperforms prior data-driven models and leverages differentiable structures to learn mapping without a ground truth map simultaneously. We verify these claims by reproducing their experiments and testing their method on new data. We also investigate the stability of planning accuracy with maps with increased obstacle complexity. Efforts to investigate and verify the learnings of the Mapper module were met with failure stemming from a paucity of computational resources and unreachable authors.
翻訳日:2022-08-23 13:58:49 公開日:2022-08-19
# 野生における動的顔表情認識のための強度認識損失

Intensity-Aware Loss for Dynamic Facial Expression Recognition in the Wild ( http://arxiv.org/abs/2208.10335v1 )

ライセンス: Link先を確認
Hanting Li, Hongjing Niu, Zhaoqing Zhu, and Feng Zhao(参考訳) 画像に基づく静的表情認識(SFER)タスクと比較して、映像シーケンスに基づく動的表情認識(DFER)タスクは、自然な表情認識シーンに近い。 しかし、DFERはもっと難しいことが多い。 主な理由の1つは、ビデオシーケンスが表現強度の異なるフレーム(特に実世界のシナリオにおける表情)をしばしば含んでいるのに対し、SFERのイメージは均一で高表現強度であることが多いことである。 しかし、異なる強度の表現が等しく扱われる場合、ネットワークによって学習される特徴は、DFERにとって有害な、クラス内およびクラス間の違いが大きい。 この問題に対処するため,機能マップのチャネルを再スケールするグローバル・コンボリューション・アテンション・ブロック(GCA)を提案する。 さらに,ネットワークが比較的低発現強度のサンプルを識別するために,トレーニングプロセスにおける強度認識損失(IAL)を導入する。 DFEWとFERV39kの2つの動的表情データセットの実験結果から,本手法は最先端のDFER手法よりも優れていることが示された。 ソースコードは一般公開される予定だ。

Compared with the image-based static facial expression recognition (SFER) task, the dynamic facial expression recognition (DFER) task based on video sequences is closer to the natural expression recognition scene. However, DFER is often more challenging. One of the main reasons is that video sequences often contain frames with different expression intensities, especially for the facial expressions in the real-world scenarios, while the images in SFER frequently present uniform and high expression intensities. However, if the expressions with different intensities are treated equally, the features learned by the networks will have large intra-class and small inter-class differences, which is harmful to DFER. To tackle this problem, we propose the global convolution-attention block (GCA) to rescale the channels of the feature maps. In addition, we introduce the intensity-aware loss (IAL) in the training process to help the network distinguish the samples with relatively low expression intensities. Experiments on two in-the-wild dynamic facial expression datasets (i.e., DFEW and FERV39k) indicate that our method outperforms the state-of-the-art DFER approaches. The source code will be made publicly available.
翻訳日:2022-08-23 13:42:31 公開日:2022-08-19
# 複数のジャミング対策のための繰り返しニューラルネットワークによるアンチジャミングフレームワーク

Recurrent Neural Network-based Anti-jamming Framework for Defense Against Multiple Jamming Policies ( http://arxiv.org/abs/2208.09518v1 )

ライセンス: Link先を確認
Ali Pourranjbar, Georges Kaddoum, and Walid Saad(参考訳) 従来のジャミング法は主に、不変のジャミングポリシーによる単一ジャミングアタックの防止や、同様のジャミングポリシを持つ複数のジャミングアタックの妨害に重点を置いている。 これらのアンチジャミング法は、複数の異なるジャミングポリシーまたは異なるポリシーを持つ複数のジャミングポリシーに従って、1つのジャミングに対して効果がない。 そこで本稿では,現行のジャミング攻撃に対処可能なアンチジャミング手法を提案する。 また,マルチジャマーシナリオでは,前回のスロットでジャマーの占有チャネルを用いて将来の占有チャネルを推定するアンチジャミング手法が提案されている。 単一および複数のジャマーシナリオにおいて、ユーザとジャマー間のインタラクションは、recurrent neural networks (rnn)を使用してモデル化される。 提案手法の性能は,ユーザの送信率(STR)とエルゴディックレート(ER)を算出し,Q-learning(DQL)に基づくベースラインと比較することにより評価した。 シミュレーションの結果、単一のジャムマーシナリオでは、すべてのジャムポリシーが完全に検出され、高いSTRとERが維持されることが示された。 さらに、スペクトルの70%が複数のジャマーからの攻撃を受けている場合、提案手法は、それぞれ75%および80%以上のSTRとERを達成する。 これらの値は、スペクトルの30%が妨害攻撃を受けているときに90%まで上昇する。 さらに、提案手法は、考慮されたすべてのケースとジャミングシナリオにおいて、DQLメソッドよりも大幅に優れている。

Conventional anti-jamming methods mainly focus on preventing single jammer attacks with an invariant jamming policy or jamming attacks from multiple jammers with similar jamming policies. These anti-jamming methods are ineffective against a single jammer following several different jamming policies or multiple jammers with distinct policies. Therefore, this paper proposes an anti-jamming method that can adapt its policy to the current jamming attack. Moreover, for the multiple jammers scenario, an anti-jamming method that estimates the future occupied channels using the jammers' occupied channels in previous time slots is proposed. In both single and multiple jammers scenarios, the interaction between the users and jammers is modeled using recurrent neural networks (RNN)s. The performance of the proposed anti-jamming methods is evaluated by calculating the users' successful transmission rate (STR) and ergodic rate (ER), and compared to a baseline based on Q-learning (DQL). Simulation results show that for the single jammer scenario, all the considered jamming policies are perfectly detected and high STR and ER are maintained. Moreover, when 70 % of the spectrum is under jamming attacks from multiple jammers, the proposed method achieves an STR and ER greater than 75 % and 80 %, respectively. These values rise to 90 % when 30 % of the spectrum is under jamming attacks. In addition, the proposed anti-jamming methods significantly outperform the DQL method for all the considered cases and jamming scenarios.
翻訳日:2022-08-23 13:40:14 公開日:2022-08-19
# 早期停止基準としての並列のインターセクション

Intersection of Parallels as an Early Stopping Criterion ( http://arxiv.org/abs/2208.09529v1 )

ライセンス: Link先を確認
Ali Vardasbi, Maarten de Rijke, Mostafa Dehghani(参考訳) 教師あり学習における過剰フィットを避ける一般的な方法は、最大一般化をもたらすトレーニングステップの数でスイートスポットを見つけるために、トレーニング中の反復評価にホールドアウトセットを使用する早期停止である。 しかし、そのような方法は不整合検証セットを必要とするため、トレーニングセットからのラベル付きデータの一部は、通常この目的のために取り除かれ、トレーニングデータが不足している場合には理想的ではない。 さらに、トレーニングラベルが騒がしい場合、検証セットに対するモデルのパフォーマンスは、一般化の正確なプロキシにはならないかもしれない。 本稿では,検証セットを必要とせずに,トレーニングイテレーションの早期停止点を見つける手法を提案する。 まず,過剰パラメータ化環境では,線形モデルのランダム初期化重みがトレーニング中に同じ方向に収束することを示す。 この結果を用いて,異なるランダムな種で初期化される線形モデルの2つの並列インスタンスを訓練し,それらの交点を信号としてオーバーフィッティングを検出する。 交点を検出するために,訓練中の並列モデルの重み間のコサイン距離を用いる。 NNの最終層がロジット出力のための事前ラスト層活性化の線形写像であることに気付き、線形モデルの基準の上に構築し、対実重みという新たな概念を用いて多層ネットワークの拡張を提案する。 我々は,早期停止がNNのオーバーフィット防止に顕著な影響を及ぼす2つの領域について実験を行った。 (i)騒がしいラベルから学ぶこと、 (ii)irにおけるランク付けを学ぶこと。 広範に使用される4つのデータセットを用いた実験により,本手法の有効性を確認した。 幅広い学習率において,コサイン距離基準 (CDC) と呼ばれる手法は, ほぼすべてのテストケースで比較した手法と比較して, 平均値の一般化に寄与する。

A common way to avoid overfitting in supervised learning is early stopping, where a held-out set is used for iterative evaluation during training to find a sweet spot in the number of training steps that gives maximum generalization. However, such a method requires a disjoint validation set, thus part of the labeled data from the training set is usually left out for this purpose, which is not ideal when training data is scarce. Furthermore, when the training labels are noisy, the performance of the model over a validation set may not be an accurate proxy for generalization. In this paper, we propose a method to spot an early stopping point in the training iterations without the need for a validation set. We first show that in the overparameterized regime the randomly initialized weights of a linear model converge to the same direction during training. Using this result, we propose to train two parallel instances of a linear model, initialized with different random seeds, and use their intersection as a signal to detect overfitting. In order to detect intersection, we use the cosine distance between the weights of the parallel models during training iterations. Noticing that the final layer of a NN is a linear map of pre-last layer activations to output logits, we build on our criterion for linear models and propose an extension to multi-layer networks, using the new notion of counterfactual weights. We conduct experiments on two areas that early stopping has noticeable impact on preventing overfitting of a NN: (i) learning from noisy labels; and (ii) learning to rank in IR. Our experiments on four widely used datasets confirm the effectiveness of our method for generalization. For a wide range of learning rates, our method, called Cosine-Distance Criterion (CDC), leads to better generalization on average than all the methods that we compare against in almost all of the tested cases.
翻訳日:2022-08-23 13:39:48 公開日:2022-08-19
# オンラインワンショット学習のための多様な知識ソースの評価

Evaluating Diverse Knowledge Sources for Online One-shot Learning of Novel Tasks ( http://arxiv.org/abs/2208.09554v1 )

ライセンス: Link先を確認
James R. Kirk, Robert E. Wray, Peter Lindes, John E. Laird(参考訳) オンラインの自律エージェントは、タスク知識の幅広い潜在的な源を引くことができるが、現在のアプローチでは、必ず1つか2つだけに焦点を当てている。 本稿では,家庭内移動ロボットをシミュレートする新たな課題として,多様な知識資源を活用して学習することの課題と影響について検討する。 soar cognitive architectureで開発されたエージェントは、環境とのインタラクション、タスクの実行と計画の知識、人間の自然言語命令、大きな言語モデル(gpt-3)から得られた応答など、ドメインとタスクの知識のソースを使用する。 我々はこれらの知識源の異なる貢献を探求し、正しいタスク知識、人的作業負荷、計算コストの学習の観点から異なる組み合わせのパフォーマンスを評価する。 すべてのソースを組み合わせることで、計算コストと人的ワークロードの観点から、統合が総合的にワンショットタスク学習を改善することが示される。

Online autonomous agents are able to draw on a wide variety of potential sources of task knowledge; however current approaches invariably focus on only one or two. Here we investigate the challenges and impact of exploiting diverse knowledge sources to learn, in one-shot, new tasks for a simulated household mobile robot. The resulting agent, developed in the Soar cognitive architecture, uses the following sources of domain and task knowledge: interaction with the environment, task execution and planning knowledge, human natural language instruction, and responses retrieved from a large language model (GPT-3). We explore the distinct contributions of these knowledge sources and evaluate the performance of different combinations in terms of learning correct task knowledge, human workload, and computational costs. The results from combining all sources demonstrate that integration improves one-shot task learning overall in terms of computational costs and human workload.
翻訳日:2022-08-23 13:12:45 公開日:2022-08-19
# 非バイナリ治療による因果関係の確率と効果

Probabilities of Causation with Nonbinary Treatment and Effect ( http://arxiv.org/abs/2208.09568v1 )

ライセンス: Link先を確認
Ang Li and Judea Pearl(参考訳) 本稿では,治療と効果が二元的でない場合の因果関係の確率を推定する問題を扱う。 テンとパールは、実験データと観測データを用いて、必然性と十分性の確率(pns)、十分性の確率(ps)、必然性の確率(pn)に対する鋭い境界を導出した。 本稿では,多値処理と効果に対する因果関係のあらゆるタイプの確率に対する理論的境界を提案する。 さらに,この境界が実用的決定を導く事例を考察し,その境界が様々なデータの組み合わせに対してどの程度有益であるかをシミュレーションによって評価する。

This paper deals with the problem of estimating the probabilities of causation when treatment and effect are not binary. Tian and Pearl derived sharp bounds for the probability of necessity and sufficiency (PNS), the probability of sufficiency (PS), and the probability of necessity (PN) using experimental and observational data. In this paper, we provide theoretical bounds for all types of probabilities of causation to multivalued treatments and effects. We further discuss examples where our bounds guide practical decisions and use simulation studies to evaluate how informative the bounds are for various combinations of data.
翻訳日:2022-08-23 13:12:29 公開日:2022-08-19
# 深層学習時代における説明可能なバイオメトリックス

Explainable Biometrics in the Age of Deep Learning ( http://arxiv.org/abs/2208.09500v1 )

ライセンス: Link先を確認
Pedro C. Neto, Tiago Gon\c{c}alves, Jo\~ao Ribeiro Pinto, Wilson Silva, Ana F. Sequeira, Arun Ross, Jaime S. Cardoso(参考訳) 生体計測システム(biometrics systems)として知られる人間の身体的・行動的特性を分析・定量化できるシステムは、利用と応用のバラエティが増大している。 手作りの特徴や伝統的な機械学習からディープラーニングや自動特徴抽出へ進化したため、生体計測システムの性能は優れた値に成長した。 しかし、この急速な進歩のコストはまだ理解されていない。 その不透明さのため、ディープニューラルネットワークは理解や解析が困難であり、誤った動機によって動機づけられた隠れた能力や決定が潜在的なリスクである。 研究者たちは、ディープニューラルネットワークの理解と予測の説明に焦点を合わせ始めている。 本稿では, 47論文の研究をもとに, 説明可能なバイオメトリックスの現状を概観し, 本分野の展開の方向性を総合的に検討する。

Systems capable of analyzing and quantifying human physical or behavioral traits, known as biometrics systems, are growing in use and application variability. Since its evolution from handcrafted features and traditional machine learning to deep learning and automatic feature extraction, the performance of biometric systems increased to outstanding values. Nonetheless, the cost of this fast progression is still not understood. Due to its opacity, deep neural networks are difficult to understand and analyze, hence, hidden capacities or decisions motivated by the wrong motives are a potential risk. Researchers have started to pivot their focus towards the understanding of deep neural networks and the explanation of their predictions. In this paper, we provide a review of the current state of explainable biometrics based on the study of 47 papers and discuss comprehensively the direction in which this field should be developed.
翻訳日:2022-08-23 13:11:05 公開日:2022-08-19
# パッチサンプリングスケジュールによる視覚トランスフォーマートレーニングの高速化

Accelerating Vision Transformer Training via a Patch Sampling Schedule ( http://arxiv.org/abs/2208.09520v1 )

ライセンス: Link先を確認
Bradley McDanel, Chi Phuong Huynh(参考訳) 本稿では,訓練中にバッチ毎に使用する視覚トランスフォーマー(vit)パッチの数を変化させるパッチサンプリングスケジュール(pss)の概念を紹介する。 すべてのパッチは、ほとんどの視覚的目的(例えば分類)において等しく重要ではないので、より重要でないパッチは、より少ないトレーニングイテレーションで使用できるため、パフォーマンスに最小限の影響を与える訓練時間が短くなる、と我々は主張する。 さらに、PSSを用いたトレーニングにより、ViTは推論中により広いパッチサンプリング範囲に対してより堅牢になる。 これにより、推論中にスループットと正確性の間のきめ細かい動的トレードオフが可能になる。 我々は,再建損失関数を用いて,スクラッチからトレーニングした画像ネットに対して,VTT上のPSSを用いて評価を行った。 事前学習モデルでは,各パッチの使用時間に対して,訓練時間の31%削減(25時間から17時間)に対して,分類精度が0.26%低下した。 コード、モデルチェックポイント、ログはhttps://github.com/BradMcDanel/pssで確認できる。

We introduce the notion of a Patch Sampling Schedule (PSS), that varies the number of Vision Transformer (ViT) patches used per batch during training. Since all patches are not equally important for most vision objectives (e.g., classification), we argue that less important patches can be used in fewer training iterations, leading to shorter training time with minimal impact on performance. Additionally, we observe that training with a PSS makes a ViT more robust to a wider patch sampling range during inference. This allows for a fine-grained, dynamic trade-off between throughput and accuracy during inference. We evaluate using PSSs on ViTs for ImageNet both trained from scratch and pre-trained using a reconstruction loss function. For the pre-trained model, we achieve a 0.26% reduction in classification accuracy for a 31% reduction in training time (from 25 to 17 hours) compared to using all patches each iteration. Code, model checkpoints and logs are available at https://github.com/BradMcDanel/pss.
翻訳日:2022-08-23 13:10:45 公開日:2022-08-19
# 太陽型EUV画像の画像間変換による合成創造限界の探索

Exploring the Limits of Synthetic Creation of Solar EUV Images via Image-to-Image Translation ( http://arxiv.org/abs/2208.09512v1 )

ライセンス: Link先を確認
Valentina Salvatelli, Luiz F. G. dos Santos, Souvik Bose, Brad Neuberg, Mark C. M. Cheung, Miho Janvier, Meng Jin, Yarin Gal, Atilim Gunes Baydin(参考訳) 太陽からテラバイト単位の観測データを毎日生成しているnasaの多スペクトル10年にわたるミッションであるsolar dynamics observatory(sdo)は、先日、機械学習手法の可能性を実証し、将来の深宇宙ミッション計画への道を開くために利用された。 特に、極端紫外チャネルを仮想的に生成するために画像と画像の翻訳を用いるという考え方は、より少ないチャネルでのミッションの強化と、深宇宙における低ダウンリンク率による課題の軽減の両方を目的として、最近の研究で提案されている。 本稿では,4つのチャネルの置換とエンコーダ・デコーダに基づくアーキテクチャ,特に,太陽表面の形態的特徴と明るさがニューラルネットワークの予測にどのような影響を及ぼすかに注目して,ディープラーニングアプローチの可能性と限界について検討する。 画像から画像への変換によって生成された太陽コロナの合成画像は、太陽の科学的研究に使用できるのだろうか? 分析では、ニューラルネットワークが3桁のカウントレート(ピクセル強度)で高品質な画像を生成し、1%の誤差でチャネル間の共分散を再現できることが強調された。 しかし, モデル性能は, フレアのような極めて高エネルギーなイベントに対応して大幅に低下し, モデルトレーニングに挑戦するイベントの希少性に関係していると考えられる。

The Solar Dynamics Observatory (SDO), a NASA multi-spectral decade-long mission that has been daily producing terabytes of observational data from the Sun, has been recently used as a use-case to demonstrate the potential of machine learning methodologies and to pave the way for future deep-space mission planning. In particular, the idea of using image-to-image translation to virtually produce extreme ultra-violet channels has been proposed in several recent studies, as a way to both enhance missions with less available channels and to alleviate the challenges due to the low downlink rate in deep space. This paper investigates the potential and the limitations of such a deep learning approach by focusing on the permutation of four channels and an encoder--decoder based architecture, with particular attention to how morphological traits and brightness of the solar surface affect the neural network predictions. In this work we want to answer the question: can synthetic images of the solar corona produced via image-to-image translation be used for scientific studies of the Sun? The analysis highlights that the neural network produces high-quality images over three orders of magnitude in count rate (pixel intensity) and can generally reproduce the covariance across channels within a 1% error. However the model performance drastically diminishes in correspondence of extremely high energetic events like flares, and we argue that the reason is related to the rareness of such events posing a challenge to model training.
翻訳日:2022-08-23 12:53:37 公開日:2022-08-19
# 強化学習のためのスペクトル分解表現

Spectral Decomposition Representation for Reinforcement Learning ( http://arxiv.org/abs/2208.09515v1 )

ライセンス: Link先を確認
Tongzheng Ren, Tianjun Zhang, Lisa Lee, Joseph E. Gonzalez, Dale Schuurmans, Bo Dai(参考訳) 表現学習は、しばしば次元の呪いを管理することによって強化学習において重要な役割を果たす。 代表的なアルゴリズムクラスは、確率的遷移ダイナミクスのスペクトル分解を利用して、理想化された設定で強い理論的性質を享受する表現を構築する。 しかし、現在のスペクトル法は、状態のみの集約のために構築され、探索の問題を考慮せずにポリシーに依存した遷移カーネルから導出されるため、適用性に制限がある。 そこで,本稿では,データ収集方針へのスパイラル依存を生じさせることなく,ダイナミクスから状態動作抽象化を抽出するスペクトル分解表現(speder)を提案し,学習中の探索・探索・探索トレードオフのバランスをとる。 理論的解析により、オンライン設定とオフライン設定の両方において提案アルゴリズムのサンプル効率が確立される。 さらに、いくつかのベンチマークで現在の最先端アルゴリズムよりも優れた性能を示している。

Representation learning often plays a critical role in reinforcement learning by managing the curse of dimensionality. A representative class of algorithms exploits a spectral decomposition of the stochastic transition dynamics to construct representations that enjoy strong theoretical properties in an idealized setting. However, current spectral methods suffer from limited applicability because they are constructed for state-only aggregation and derived from a policy-dependent transition kernel, without considering the issue of exploration. To address these issues, we propose an alternative spectral method, Spectral Decomposition Representation (SPEDER), that extracts a state-action abstraction from the dynamics without inducing spurious dependence on the data collection policy, while also balancing the exploration-versus-exploitation trade-off during learning. A theoretical analysis establishes the sample efficiency of the proposed algorithm in both the online and offline settings. In addition, an experimental investigation demonstrates superior performance over current state-of-the-art algorithms across several benchmarks.
翻訳日:2022-08-23 12:36:23 公開日:2022-08-19
# Multi Instance Neuroimage Transformer

Multiple Instance Neuroimage Transformer ( http://arxiv.org/abs/2208.09567v1 )

ライセンス: Link先を確認
Ayush Singla, Qingyu Zhao, Daniel K. Do, Yuyin Zhou, Kilian M. Pohl, and Ehsan Adeli(参考訳) はじめに、T1weighted (T1w) MRIの分類のために、Multiple Instance Neuroimage Transformer (MINiT)と呼ばれる複数のインスタンス学習に基づく畳み込みフリートランスモデルを提案する。 まず,神経画像に適用したトランスフォーマモデルについて紹介する。 これらのモデルは入力体積から重複しない3Dブロックを抽出し、線形射影の列上で多頭部自己アテンションを行う。 一方、MINiTは、入力MRIの重複しない3Dブロックをそれぞれ自身のインスタンスとして扱い、さらに重複しない3Dパッチに分割し、マルチヘッドの自己注意が計算される。 概念実証として,青年期脳認知発達(abcd)と青年期におけるアルコールおよび神経発達に関する全国コンソーシアム(ncanda)の2つのデータセットのt1w-mriから性別を識別する訓練を行い,このモデルの有効性を評価した。 学習されたアテンションマップは、脳形態計測における性差の同定に寄与するボクセルを強調する。 コードはhttps://github.com/singlaayush/minitで入手できる。

For the first time, we propose using a multiple instance learning based convolution-free transformer model, called Multiple Instance Neuroimage Transformer (MINiT), for the classification of T1weighted (T1w) MRIs. We first present several variants of transformer models adopted for neuroimages. These models extract non-overlapping 3D blocks from the input volume and perform multi-headed self-attention on a sequence of their linear projections. MINiT, on the other hand, treats each of the non-overlapping 3D blocks of the input MRI as its own instance, splitting it further into non-overlapping 3D patches, on which multi-headed self-attention is computed. As a proof-of-concept, we evaluate the efficacy of our model by training it to identify sex from T1w-MRIs of two public datasets: Adolescent Brain Cognitive Development (ABCD) and the National Consortium on Alcohol and Neurodevelopment in Adolescence (NCANDA). The learned attention maps highlight voxels contributing to identifying sex differences in brain morphometry. The code is available at https://github.com/singlaayush/MINIT.
翻訳日:2022-08-23 12:34:39 公開日:2022-08-19
# ゼロショット)マルチラベル分類のためのデュアルモータリティ手法

A Dual Modality Approach For (Zero-Shot) Multi-Label Classification ( http://arxiv.org/abs/2208.09562v1 )

ライセンス: Link先を確認
Shichao Xu, Yikang Li, Jenhao Hsiao, Chiuman Ho, Zhu Qi(参考訳) コンピュータビジョンにおいて、ゼロショットマルチラベル分類を含むマルチラベル分類は多くの実世界のアプリケーションにおいて重要なタスクである。 本稿では,マルチラベル分類タスクのために,視覚特徴量とテキスト特徴量とをアライメントするデュアルモーダルデコーダ(dm-デコーダ)を含む新しいアルゴリズムであるアラインドデュアルモダリティ分類器(adds)を提案する。 さらに,高分解能入力の性能を向上させるために,ピラミッドフォワードと呼ばれる単純かつ効果的な手法を考案した。 標準マルチラベルベンチマークデータセットであるMS-COCOとNUS-WIDEで実施された大規模な実験により、従来のマルチラベル分類やゼロショットマルチラベル分類、シングルラベルデータセットでトレーニングされたモデル(画像Net-1k, ImageNet-21k)をマルチラベルモデル(MS-COCOとNUS-WIDE)でテストする1対複数ラベル分類という極端なケースに対して、従来の手法よりも大幅に優れ、最先端のパフォーマンスを提供することが示された。 また,提案手法が視覚テキストアライメントにどのように寄与するかを分析し,DMデコーダの意義を検証し,視覚変換器におけるピラミッドフォワードの有効性を実証する。

In computer vision, multi-label classification, including zero-shot multi-label classification are important tasks with many real-world applications. In this paper, we propose a novel algorithm, Aligned Dual moDality ClaSsifier (ADDS), which includes a Dual-Modal decoder (DM-decoder) with alignment between visual and textual features, for multi-label classification tasks. Moreover, we design a simple and yet effective method called Pyramid-Forwarding to enhance the performance for inputs with high resolutions. Extensive experiments conducted on standard multi-label benchmark datasets, MS-COCO and NUS-WIDE, demonstrate that our approach significantly outperforms previous methods and provides state-of-the-art performance for conventional multi-label classification, zero-shot multi-label classification, and an extreme case called single-to-multi label classification where models trained on single-label datasets (ImageNet-1k, ImageNet-21k) are tested on multi-label ones (MS-COCO and NUS-WIDE). We also analyze how visual-textual alignment contributes to the proposed approach, validate the significance of the DM-decoder, and demonstrate the effectiveness of Pyramid-Forwarding on vision transformer.
翻訳日:2022-08-23 12:12:34 公開日:2022-08-19
# 見せるか見せないか:電子ディスプレイのビデオからセンシティブなテキストをリアクションする

To show or not to show: Redacting sensitive text from videos of electronic displays ( http://arxiv.org/abs/2208.10270v1 )

ライセンス: Link先を確認
Abhishek Mukhopadhyay, Shubham Agarwal, Patrick Dylan Zwick, and Pradipta Biswas(参考訳) ビデオ録画の普及に伴い、録画されたビデオのプライバシーを維持するツールの必要性が高まっている。 本稿では,光文字認識 (ocr) と自然言語処理 (nlp) を組み合わせた手法を用いて,映像から個人識別可能なテキストを再現する手法を定義する。 具体的には,Google Cloud Vision (GCV) の Tesseract と OCR システムを用いて,異なる OCR モデルを用いて,このアプローチの相対的性能を検討する。 提案手法では,gcvの性能は精度と速度の両方において,tesseractよりも有意に高い。 最後に、実世界のアプリケーションにおける両方のモデルの利点と欠点について考察する。

With the increasing prevalence of video recordings there is a growing need for tools that can maintain the privacy of those recorded. In this paper, we define an approach for redacting personally identifiable text from videos using a combination of optical character recognition (OCR) and natural language processing (NLP) techniques. We examine the relative performance of this approach when used with different OCR models, specifically Tesseract and the OCR system from Google Cloud Vision (GCV). For the proposed approach the performance of GCV, in both accuracy and speed, is significantly higher than Tesseract. Finally, we explore the advantages and disadvantages of both models in real-world applications.
翻訳日:2022-08-23 12:10:51 公開日:2022-08-19
# 深層学習プログラムを用いた地球近傍小惑星の微弱・高視運動速度の発見

Discovering Faint and High Apparent Motion Rate Near-Earth Asteroids Using A Deep Learning Program ( http://arxiv.org/abs/2208.09098v1 )

ライセンス: Link先を確認
Franklin Wang, Jian Ge, Kevin Willis(参考訳) 地上望遠鏡によって多くの地球近傍天体が発見されているが、特に検出限界に近い天体は観測機関によって見逃されている。 本研究では,地球近傍を高速で移動する物体を検出する畳み込みニューラルネットワークを開発した。 シミュレーションから生成された人工ストレークを用いて訓練され、シミュレーションデータから98.7%の精度と0.02%の偽陽性率でこれらの小惑星ストレークを見つけることができた。 このプログラムは、2019年にzwicky transient facility(ztf)から4日間の画像データを検索するために使われ、6つの未発見の小惑星を特定した。 我々の検出の視等級は ~19.0 - 20.3 で、運動速度は ~6.8 - 24 deg/day で、同様の運動速度で移動する他のZTF検出と比較して非常に低い。 私たちの小惑星は直径1 - 51m、近距離では約5 - 60mで、アルベド値は既知の小惑星のアルベド分布関数に従っていると仮定している。 モデルトレーニングに純粋にシミュレーションされたデータセットを使用することで、プログラムはかすかな物体や高速に動く物体を検知する感度を得られると同時に、ニューラルネットワークを訓練するために実際の検出を用いたニューラルネットワークによって得られたほぼすべての発見を回復することができる。 我々のアプローチは、高速で動く小惑星のストリークを検出するために、いかなる観測所でも適用できる。

Although many near-Earth objects have been found by ground-based telescopes, some fast-moving ones, especially those near detection limits, have been missed by observatories. We developed a convolutional neural network for detecting faint fast-moving near-Earth objects. It was trained with artificial streaks generated from simulations and was able to find these asteroid streaks with an accuracy of 98.7% and a false positive rate of 0.02% on simulated data. This program was used to search image data from the Zwicky Transient Facility (ZTF) in four nights in 2019, and it identified six previously undiscovered asteroids. The visual magnitudes of our detections range from ~19.0 - 20.3 and motion rates range from ~6.8 - 24 deg/day, which is very faint compared to other ZTF detections moving at similar motion rates. Our asteroids are also ~1 - 51 m diameter in size and ~5 - 60 lunar distances away at close approach, assuming their albedo values follow the albedo distribution function of known asteroids. The use of a purely simulated dataset to train our model enables the program to gain sensitivity in detecting faint and fast-moving objects while still being able to recover nearly all discoveries made by previously designed neural networks which used real detections to train neural networks. Our approach can be adopted by any observatory for detecting fast-moving asteroid streaks.
翻訳日:2022-08-22 17:47:36 公開日:2022-08-19
# ラボと倉庫を最適化するスケーラブルなマルチエージェントフレームワーク

Scalable Multi-Agent Framework for Optimizing the Lab and Warehouse ( http://arxiv.org/abs/2208.09099v1 )

ライセンス: Link先を確認
A. Gilad Kusne, Austin McDannald(参考訳) 機械学習がクローズドループで実験をガイドし、学習する自律的物理科学の分野は、急速に重要になっている。 自律的なシステムによって、科学者はよりスマートに失敗し、より早く学習し、研究にリソースを費やすことができる。 この分野は、研究室、研究開発パイプライン、倉庫など様々な施設のパフォーマンス向上を約束している。 自律システムが数、能力、複雑さで成長するにつれて、新しい課題が生まれます - これらのシステムが大規模施設でどのように連携するのか? 我々は、この問題に対する1つの解決策、マルチエージェントフレームワークについて検討する。 私たちはフレームワークをデモします 1)設備使用限度等の現実的な資源制限を有する模擬施設 2)多様な学習能力と目標を有する機械学習エージェント、実験機器の制御、研究キャンペーンの実行能力、 3)これらのエージェントが知識を共有し、個別または集合的な目標を達成するために協力できるネットワーク。 このフレームワークはマルチエージェント自律機能(multi-agent autonomous facility)と呼ばれ、スケーラブルなフレームワークである。 MultiTASKはエージェントとエージェントの相互作用を含む施設全体のシミュレーションを可能にする。 フレームワークのモジュール化により、実世界の自律空間は段階的にオンラインになり、シミュレーションされた機器は徐々に実世界の機器に置き換えられる。 ここでは,実世界の材料科学課題である材料探索と最適化の枠組みをシミュレーション材料研究室で実証する。 我々は,エージェント対エージェント市場や経済,管理と意思決定の構造,コミュニケーションとデータ共有構造,ゲーム理論に基づくエージェントや施設の最適化戦略など,エージェントベースの施設管理シナリオにおける新たな研究領域が開かれることを願っている。

The field of autonomous physical science - where machine learning guides and learns from experiments in a closed-loop - is rapidly growing in importance. Autonomous systems allow scientists to fail smarter, learn faster, and spend less resources in their studies. The field promises improved performance for various facilities such as labs, research and development pipelines, and warehouses. As autonomous systems grow in number, capability, and complexity, a new challenge arises - how will these systems work together across large facilities? We explore one solution to this question - a multi-agent framework. We demonstrate a framework with 1) a simulated facility with realistic resource limits such as equipment use limits, 2) machine learning agents with diverse learning capabilities and goals, control over lab instruments, and the ability to run research campaigns, and 3) a network over which these agents can share knowledge and work together to achieve individual or collective goals. The framework is dubbed the MULTI-agent auTonomous fAcilities - a Scalable frameworK aka MULTITASK. MULTITASK allows facility-wide simulations including agent-instrument and agent-agent interactions. Framework modularity allows real-world autonomous spaces to come on-line in phases, with simulated instruments gradually replaced by real-world instruments. Here we demonstrate the framework with a real-world materials science challenge of materials exploration and optimization in a simulated materials lab. We hope the framework opens new areas of research in agent-based facility control scenarios such as agent-to-agent markets and economies, management and decision-making structures, communication and data-sharing structures, and optimization strategies for agents and facilities including those based on game theory.
翻訳日:2022-08-22 17:47:08 公開日:2022-08-19
# 特異摂動境界値問題に対する半解析的PINN法

Semi-analytic PINN methods for singularly perturbed boundary value problems ( http://arxiv.org/abs/2208.09145v1 )

ライセンス: Link先を確認
Gung-Min Gie, Youngjoon Hong, Chang-Yeol Jung(参考訳) 本稿では,特異な摂動境界値問題を解くために,新しい半解析物理学インフォームドニューラルネットワーク(pinn)を提案する。 PINNは、偏微分方程式の数値解を見つけるための有望な視点を提供する科学機械学習フレームワークである。 PINNは、領域の複雑な幾何学に関わる時間依存方程式や多次元方程式を含む様々な微分方程式の解法において顕著な性能を示した。 しかし、剛性微分方程式を考えると、一般にニューラルネットワークは、スペクトルバイアスのため、解の鋭い遷移を捉えることができない。 そこで本研究では,境界層解析から得られたいわゆる補正関数を用いて,半解析的PINN法を開発した。 新しい濃縮ピンは特異摂動問題に対する数値解を正確に予測する。 数値実験には、特異摂動線形および非線形微分方程式の様々な種類が含まれる。

We propose a new semi-analytic physics informed neural network (PINN) to solve singularly perturbed boundary value problems. The PINN is a scientific machine learning framework that offers a promising perspective for finding numerical solutions to partial differential equations. The PINNs have shown impressive performance in solving various differential equations including time-dependent and multi-dimensional equations involved in a complex geometry of the domain. However, when considering stiff differential equations, neural networks in general fail to capture the sharp transition of solutions, due to the spectral bias. To resolve this issue, here we develop the semi-analytic PINN methods, enriched by using the so-called corrector functions obtained from the boundary layer analysis. Our new enriched PINNs accurately predict numerical solutions to the singular perturbation problems. Numerical experiments include various types of singularly perturbed linear and nonlinear differential equations.
翻訳日:2022-08-22 17:46:42 公開日:2022-08-19
# ディープラーニング型型推論システムのクロスドメイン評価

Cross-Domain Evaluation of a Deep Learning-Based Type Inference System ( http://arxiv.org/abs/2208.09189v1 )

ライセンス: Link先を確認
Bernd Gruner, Tim Sonnekalb, Thomas S. Heinze, Clemens-Alexander Brust(参考訳) オプション型アノテーションにより、より優れた統合開発環境(IDE)サポート、より正確なプログラム分析、型関連のランタイムエラーの早期検出と防止など、静的型付け機能を備えた動的プログラミング言語の強化が可能になる。 機械学習ベースの型推論は、このタスクの自動化に興味深い結果をもたらす。 しかし、そのようなシステムの実践的利用は、訓練領域外に適用されることが多いため、異なる領域にまたがる一般化能力に依存する。 本研究では,最先端の深層学習型推論システムの代表としてのType4Pyの一般化能力を,広範囲にわたるクロスドメイン実験により検討する。 これにより、データセットシフト、語彙外ワード、未知クラス、希少クラスといった問題に対処する。 このような実験を行うには、MultiTypes4PyとCrossDomainTypes4Pyのデータセットを使用します。 後者は,本論文で紹介する。 我々のデータセットには1000,000以上の型アノテーションがあり、2つのドメインのWeb開発と科学計算のデータを用いて、ソフトウェアプロジェクトの異なるドメインにおける型推論システムのクロスドメイン評価を可能にする。 実験により,データセットのシフトを検知し,未知のレアデータ型を多数有するロングテール分布を持つことにより,ディープラーニング型推論システムの性能を劇的に低下させる。 この文脈では、教師なしのドメイン適応メソッドと微調整をテストし、問題を克服する。 さらに,語彙外単語の影響について検討した。

Optional type annotations allow for enriching dynamic programming languages with static typing features like better Integrated Development Environment (IDE) support, more precise program analysis, and early detection and prevention of type-related runtime errors. Machine learning-based type inference promises interesting results for automating this task. However, the practical usage of such systems depends on their ability to generalize across different domains, as they are often applied outside their training domain. In this work, we investigate the generalization ability of Type4Py as a representative for state-of-the-art deep learning-based type inference systems, by conducting extensive cross-domain experiments. Thereby, we address the following problems: dataset shifts, out-of-vocabulary words, unknown classes, and rare classes. To perform such experiments, we use the datasets ManyTypes4Py and CrossDomainTypes4Py. The latter we introduce in this paper. Our dataset has over 1,000,000 type annotations and enables cross-domain evaluation of type inference systems in different domains of software projects using data from the two domains web development and scientific calculation. Through our experiments, we detect shifts in the dataset and that it has a long-tailed distribution with many rare and unknown data types which decreases the performance of the deep learning-based type inference system drastically. In this context, we test unsupervised domain adaptation methods and fine-tuning to overcome the issues. Moreover, we investigate the impact of out-of-vocabulary words.
翻訳日:2022-08-22 17:46:30 公開日:2022-08-19
# 強化学習を用いた音声イベント検出器の事後改善

Improving Post-Processing of Audio Event Detectors Using Reinforcement Learning ( http://arxiv.org/abs/2208.09201v1 )

ライセンス: Link先を確認
Petros Giannakopoulos, Aggelos Pikrakis, Yannis Cotronis(参考訳) 音声イベント分類モデルのクラス確率分布出力に後処理を適用し、強化学習を用いて、モデル予測の円滑化に使用される分類しきい値や中央フィルタリングアルゴリズムのカーネルサイズなどの後処理スタックの様々な段階の最適パラメータを共同で発見する。 これを実現するために、強化学習環境を定義します。 1) 状態は、所定のオーディオサンプルのモデルによって提供されるクラス確率分布である。 2) アクションは、処理後スタックの各パラメータに対する候補最適値の選択である。 3)報奨は,音声イベントベースのマクロF1スコアである,最適化を目的とした分類精度基準に基づく。 本稿では,DCASE Task4 2020 課題に提出された2つの音声イベント分類モデルのクラス確率分布出力に適用する。 音声イベント分類モデルの出力に適用される後処理スタックの最適パラメータを強化学習を用いて発見することにより、手動で調整されたパラメータを持つ同一の後処理スタックと比較して、音声イベントベースのマクロF1スコア(DCASEの課題である音声イベント分類精度を比較するための主要な指標)を4-5%改善できることがわかった。

We apply post-processing to the class probability distribution outputs of audio event classification models and employ reinforcement learning to jointly discover the optimal parameters for various stages of a post-processing stack, such as the classification thresholds and the kernel sizes of median filtering algorithms used to smooth out model predictions. To achieve this we define a reinforcement learning environment where: 1) a state is the class probability distribution provided by the model for a given audio sample, 2) an action is the choice of a candidate optimal value for each parameter of the post-processing stack, 3) the reward is based on the classification accuracy metric we aim to optimize, which is the audio event-based macro F1-score in our case. We apply our post-processing to the class probability distribution outputs of two audio event classification models submitted to the DCASE Task4 2020 challenge. We find that by using reinforcement learning to discover the optimal per-class parameters for the post-processing stack that is applied to the outputs of audio event classification models, we can improve the audio event-based macro F1-score (the main metric used in the DCASE challenge to compare audio event classification accuracy) by 4-5% compared to using the same post-processing stack with manually tuned parameters.
翻訳日:2022-08-22 17:46:08 公開日:2022-08-19
# 局所代理モードを用いた原子構造探索

Atomistic structure search using local surrogate mode ( http://arxiv.org/abs/2208.09273v1 )

ライセンス: Link先を確認
Nikolaj R{\o}nne, Mads-Peter V. Christiansen, Andreas M{\o}ller Slavensky, Zeyuan Tang, Florian Brix, Mikkel Elkj{\ae}r Pedersen, Malthe Kj{\ae}r Bisbo, Bj{\o}rk Hammer(参考訳) 本稿では,グローバルな構造探索手法と組み合わせた局所代理モデルについて述べる。 このモデルはガウス近似ポテンシャル (GAP) の定式化に従っており、ミニバッチ$k$-means を用いた局所環境の削減の観点から、原子位置記述子のスムーズな重複に基づく。 このモデルはAtomistic Global Optimization Xフレームワークで実装され、流域ホッピング構造探索における局所緩和の部分的な代替として使用される。 このアプローチは分子、ナノ粒子、表面担持クラスター、表面薄膜を含む幅広い原子系に対して堅牢であることが示されている。 局所代理モデルの構造探索コンテキストにおける利点を実証する。 これには、より小さなシステムから学習を転送する機能や、同時マルチストイテメトリ検索の実行機能が含まれる。

We describe a local surrogate model for use in conjunction with global structure search methods. The model follows the Gaussian approximation potential (GAP) formalism and is based on a the smooth overlap of atomic positions descriptor with sparsification in terms of a reduced number of local environments using mini-batch $k$-means. The model is implemented in the Atomistic Global Optimization X framework and used as a partial replacement of the local relaxations in basin hopping structure search. The approach is shown to be robust for a wide range of atomistic system including molecules, nano-particles, surface supported clusters and surface thin films. The benefits in a structure search context of a local surrogate model are demonstrated. This includes the ability to transfer learning from smaller systems as well as the possibility to perform concurrent multi-stoichiometry searches.
翻訳日:2022-08-22 17:45:46 公開日:2022-08-19
# 非筋覚エージェントを用いたstackelbergゲームにおける学習

Learning in Stackelberg Games with Non-myopic Agents ( http://arxiv.org/abs/2208.09407v1 )

ライセンス: Link先を確認
Nika Haghtalab, Thodoris Lykouris, Sloan Nietert, Alex Wei(参考訳) そこで本研究では,校長がエージェントの報酬関数を知らずに長生きする非筋覚剤と繰り返し対話する,stackelbergゲームについて検討する。 スタッケルバーグゲームでの学習は、エージェントがミオライクであるときによく理解されているが、非ミオライクエージェントは追加の合併症を引き起こす。 特に、非筋覚剤は、現在より劣っている行動を戦略的に選択して、校長の学習アルゴリズムを誤解させ、将来より良い結果を得ることができる。 我々は、非ミオピックエージェントの存在下での学習を、ミオピックエージェントの存在下で堅牢な帯域最適化に還元する一般的なフレームワークを提供する。 最小反応性バンディットアルゴリズムの設計と解析を通じて,本手法は主学習アルゴリズムの統計的効率と,その近親感誘導効果とをトレードオフする。 このフレームワークをStackelbergセキュリティゲーム(SSG)に適用し、要求曲線の未知の価格、戦略分類、一般有限なStackelbergゲームに適用する。 各設定において、最寄りの応答に存在する誤特定の種類と影響を特徴付け、そのような誤特定に頑健な学習アルゴリズムを開発する。 その過程で、ssgsにおける学習のクエリの複雑さを、最先端の$o(n^3)$から準最適の$\widetilde{o}(n)$まで、そのようなゲームの基本的な構造的性質を明らかにすることによって、n$ターゲットで改善する。 この結果は、非ミオピックエージェントによる学習を超えた独立した関心である。

We study Stackelberg games where a principal repeatedly interacts with a long-lived, non-myopic agent, without knowing the agent's payoff function. Although learning in Stackelberg games is well-understood when the agent is myopic, non-myopic agents pose additional complications. In particular, non-myopic agents may strategically select actions that are inferior in the present to mislead the principal's learning algorithm and obtain better outcomes in the future. We provide a general framework that reduces learning in presence of non-myopic agents to robust bandit optimization in the presence of myopic agents. Through the design and analysis of minimally reactive bandit algorithms, our reduction trades off the statistical efficiency of the principal's learning algorithm against its effectiveness in inducing near-best-responses. We apply this framework to Stackelberg security games (SSGs), pricing with unknown demand curve, strategic classification, and general finite Stackelberg games. In each setting, we characterize the type and impact of misspecifications present in near-best-responses and develop a learning algorithm robust to such misspecifications. Along the way, we improve the query complexity of learning in SSGs with $n$ targets from the state-of-the-art $O(n^3)$ to a near-optimal $\widetilde{O}(n)$ by uncovering a fundamental structural property of such games. This result is of independent interest beyond learning with non-myopic agents.
翻訳日:2022-08-22 17:45:31 公開日:2022-08-19
# 確率的パラメータ化を伴う部分観測から複雑系の下界ダイナミクスを明らかにする因果性に基づく学習手法

A Causality-Based Learning Approach for Discovering the Underlying Dynamics of Complex Systems from Partial Observations with Stochastic Parameterization ( http://arxiv.org/abs/2208.09104v1 )

ライセンス: Link先を確認
Nan Chen, Yinling Zhang(参考訳) データから複雑なシステムの基盤となるダイナミクスを発見することは、重要な実践的トピックである。 制約付き最適化アルゴリズムは広く活用され、多くの成功に繋がる。 しかし、そのような純粋にデータ駆動の手法は、ランダムノイズの存在下で不正確な物理をもたらし、不完全なデータでは容易に対処できない。 本稿では, モデル構造同定, 未観測変数の復元, パラメータ推定を交互に行う, 部分的観測を伴う複雑な乱流系の反復学習アルゴリズムを開発した。 まず、因果関係に基づく学習手法を用いて、データから事前学習された特定の物理知識を考慮に入れたモデル構造のスパース同定を行う。 特徴間の間接結合を扱うのに特有の利点があり、確率的雑音に対して頑健である。 実用的なアルゴリズムは、高次元システムの因果推論を容易にするよう設計されている。 次に、非観測変数の時間発展を特徴付けるために、系統的非線形確率パラメータ化が構築される。 効率的な非線形データ同化によるクローズド解析式を用いて、観測されていない変数の軌跡をサンプリングし、その後、合成観測として処理して高速パラメータ推定を行う。 さらに、状態変数依存の局在化と物理学的制約を学習手順に取り入れ、次元の呪いを緩和し、有限時間ブローアップ問題を防止する。 数値実験により, カオス力学, 時空間的多スケール構造, 断続性, 極端な事象を含む多くの複雑な非線形系に対して, モデル構造を同定し, 適切な確率パラメータ化を提供することに成功した。

Discovering the underlying dynamics of complex systems from data is an important practical topic. Constrained optimization algorithms are widely utilized and lead to many successes. Yet, such purely data-driven methods may bring about incorrect physics in the presence of random noise and cannot easily handle the situation with incomplete data. In this paper, a new iterative learning algorithm for complex turbulent systems with partial observations is developed that alternates between identifying model structures, recovering unobserved variables, and estimating parameters. First, a causality-based learning approach is utilized for the sparse identification of model structures, which takes into account certain physics knowledge that is pre-learned from data. It has unique advantages in coping with indirect coupling between features and is robust to the stochastic noise. A practical algorithm is designed to facilitate the causal inference for high-dimensional systems. Next, a systematic nonlinear stochastic parameterization is built to characterize the time evolution of the unobserved variables. Closed analytic formula via an efficient nonlinear data assimilation is exploited to sample the trajectories of the unobserved variables, which are then treated as synthetic observations to advance a rapid parameter estimation. Furthermore, the localization of the state variable dependence and the physics constraints are incorporated into the learning procedure, which mitigate the curse of dimensionality and prevent the finite time blow-up issue. Numerical experiments show that the new algorithm succeeds in identifying the model structure and providing suitable stochastic parameterizations for many complex nonlinear systems with chaotic dynamics, spatiotemporal multiscale structures, intermittency, and extreme events.
翻訳日:2022-08-22 17:44:00 公開日:2022-08-19
# クロスモーダルトランスフォーマーを用いたダンススタイルトランスファー

Dance Style Transfer with Cross-modal Transformer ( http://arxiv.org/abs/2208.09406v1 )

ライセンス: Link先を確認
Wenjie Yin, Hang Yin, Kim Baraka, Danica Kragic, and M{\aa}rten Bj\"orkman(参考訳) そこで本研究では,あるダンススタイルにおける既存のモーションクリップを,ダンスのモーションコンテキストを保ちつつ,別のダンススタイルのモーションクリップに変換する,ダンススタイル転送システムであるcycledanceを提案する。 提案手法は,既存のCycleGANアーキテクチャを拡張して音声シーケンスをモデル化し,マルチモーダルトランスフォーマーエンコーダを統合する。 シーケンス長に基づくカリキュラム学習を採用し,トレーニングを安定化する。 本手法は,移動フレーム間のリッチかつ長期的関係を捉え,移動伝達と合成作業において共通の課題である。 さらに,ダンス動作の文脈において,移動強度とコンテンツ保存の指標を新たに導入する。 5年以上のダンス経験を持つ30人を対象に,広範囲にわたるアブレーション研究と人間による研究を行った。 その結果, サイクルダンスは, 自然性, 伝達強度, コンテンツ保存において, ベースラインのサイクルガンを著しく上回って, ターゲットスタイルで現実的な動きを生じさせることがわかった。

We present CycleDance, a dance style transfer system to transform an existing motion clip in one dance style to a motion clip in another dance style while attempting to preserve motion context of the dance. Our method extends an existing CycleGAN architecture for modeling audio sequences and integrates multimodal transformer encoders to account for music context. We adopt sequence length-based curriculum learning to stabilize training. Our approach captures rich and long-term intra-relations between motion frames, which is a common challenge in motion transfer and synthesis work. We further introduce new metrics for gauging transfer strength and content preservation in the context of dance movements. We perform an extensive ablation study as well as a human study including 30 participants with 5 or more years of dance experience. The results demonstrate that CycleDance generates realistic movements with the target style, significantly outperforming the baseline CycleGAN on naturalness, transfer strength, and content preservation.
翻訳日:2022-08-22 17:43:15 公開日:2022-08-19
# Federated Select: コミュニケーションとメモリ効率のよいフェデレーション学習のためのプリミティブ

Federated Select: A Primitive for Communication- and Memory-Efficient Federated Learning ( http://arxiv.org/abs/2208.09432v1 )

ライセンス: Link先を確認
Zachary Charles, Kallista Bonawitz, Stanislav Chiknavaryan, Brendan McMahan, Blaise Ag\"uera y Arcas(参考訳) フェデレーション学習(federated learning, fl)は、異種クライアントデバイス間のマシンラーニングのためのフレームワークである。 現在、ほとんどのFLアルゴリズムは複数のラウンドで"グローバル"サーバーモデルを学習している。 各ラウンドで、同じサーバモデルを参加するすべてのクライアントにブロードキャストし、ローカルに更新し、クライアント間で集約する。 本研究では,クライアントがどの値が送信されるかを"選択"する,より一般的な手順を提案する。 これにより、クライアントはより小さなデータ依存スライスで操作できる。 これを実現するために,現実のflシステムにおいてクライアント固有の選択を可能にするプリミティブなフェデレーションセレクトを概説する。 我々は、モデルトレーニングにフェデレートセレクトをどのように使うかについて議論し、それが通信とクライアントメモリ使用量を大幅に削減し、デバイスに適合するには大きすぎるモデルのトレーニングを可能にする可能性があることを示す。 また,システムの制約や設計に影響を与えるプライバシと信頼に関するフェデレーション選択の影響についても論じる。 最後に,モデルアーキテクチャ,プライバシ保護技術,実用的なflシステムに関するオープン質問について論じる。

Federated learning (FL) is a framework for machine learning across heterogeneous client devices in a privacy-preserving fashion. To date, most FL algorithms learn a "global" server model across multiple rounds. At each round, the same server model is broadcast to all participating clients, updated locally, and then aggregated across clients. In this work, we propose a more general procedure in which clients "select" what values are sent to them. Notably, this allows clients to operate on smaller, data-dependent slices. In order to make this practical, we outline a primitive, federated select, which enables client-specific selection in realistic FL systems. We discuss how to use federated select for model training and show that it can lead to drastic reductions in communication and client memory usage, potentially enabling the training of models too large to fit on-device. We also discuss the implications of federated select on privacy and trust, which in turn affect possible system constraints and design. Finally, we discuss open questions concerning model architectures, privacy-preserving technologies, and practical FL systems.
翻訳日:2022-08-22 17:43:00 公開日:2022-08-19
# 基礎を慎重に選ぶ - 地学における回帰タスクへのxai帰属法の適用から学んだ教訓

Carefully choose the baseline: Lessons learned from applying XAI attribution methods for regression tasks in geoscience ( http://arxiv.org/abs/2208.09473v1 )

ライセンス: Link先を確認
Antonios Mamalakis, Elizabeth A. Barnes, Imme Ebert-Uphoff(参考訳) eXplainable Artificial Intelligence (XAI) の手法は、ニューラルネットワーク(NN)の意思決定戦略に関する洞察を得るために、どの特徴がNN予測に最も寄与しているかを明らかにするために、地学的な応用に使用される。 ここでは、入力に予測を帰属させるタスクには、単一の解がないという教訓について論じる。 むしろ、帰属の結果とその解釈は、XAI法が活用する基準線(参照点と呼ばれることもある)に大きく依存している。 このベースラインは、ユーザが選択することも、メソッドsアルゴリズムの構築によって設定することもできる。 異なるベースラインが異なる科学の質問に対して異なる洞察をもたらす可能性があることを強調し、それに従って選択すべきである。 我々は,SSP3-7.0シナリオで強制された歴史的・将来の気候シミュレーションの大規模なアンサンブルを用いて,個別のアンサンブルメンバーから年次温度マップを与えられたアンサンブル及びグローバル平均気温(すなわち,強制地球温暖化信号)を予測するために,完全に接続されたNNを訓練する。 次に、入力にネットワーク予測を属性付けるために、様々なXAIメソッドと異なるベースラインを使用します。 異なるベースラインを考えるとき, 帰属関係は, 異なる科学質問への回答に対応するため, 大きく異なることが示された。 最後に、xai研究におけるベースラインの利用に関する重要な意味と考察について論じる。

Methods of eXplainable Artificial Intelligence (XAI) are used in geoscientific applications to gain insights into the decision-making strategy of Neural Networks (NNs) highlighting which features in the input contribute the most to a NN prediction. Here, we discuss our lesson learned that the task of attributing a prediction to the input does not have a single solution. Instead, the attribution results and their interpretation depend greatly on the considered baseline (sometimes referred to as reference point) that the XAI method utilizes; a fact that has been overlooked so far in the literature. This baseline can be chosen by the user or it is set by construction in the method s algorithm, often without the user being aware of that choice. We highlight that different baselines can lead to different insights for different science questions and, thus, should be chosen accordingly. To illustrate the impact of the baseline, we use a large ensemble of historical and future climate simulations forced with the SSP3-7.0 scenario and train a fully connected NN to predict the ensemble- and global-mean temperature (i.e., the forced global warming signal) given an annual temperature map from an individual ensemble member. We then use various XAI methods and different baselines to attribute the network predictions to the input. We show that attributions differ substantially when considering different baselines, as they correspond to answering different science questions. We conclude by discussing some important implications and considerations about the use of baselines in XAI research.
翻訳日:2022-08-22 17:42:40 公開日:2022-08-19
# ニューラルodeモデルに基づく連合学習のコミュニケーションサイズ削減

Communication Size Reduction of Federated Learning based on Neural ODE Model ( http://arxiv.org/abs/2208.09478v1 )

ライセンス: Link先を確認
Yuto Hoshino, Hiroki Kawakami, Hiroki Matsutani(参考訳) フェデレーション学習(federated learning)は、セキュリティとプライバシを考慮してデータをサーバに集約するのではなく、エッジに分散する、マシンラーニング手法である。 ResNetは古典的だが代表的なニューラルネットワークで、入力と出力を同時に追加する残関数を学習することで、ニューラルネットワークの深化に成功している。 連合学習では、重みパラメータを交換するためにサーバとエッジデバイス間の通信が行われるが、resnetには深い層と多くのパラメータがあり、通信サイズが大きくなる。 本稿では,ResNetの軽量モデルとしてNeural ODEを用いて,連合学習における通信量を削減する。 さらに,繰り返し回数の異なるニューラルODEモデルを用いたフレキシブルなフェデレーション学習を導入し,深さの異なるResNetに対応する。 CIFAR-10データセットは評価に使用され、Neural ODEの使用はResNetと比較して通信サイズを約90%削減する。 また,提案するフレキシブルフェデレーション学習は,異なるイテレーション数を持つモデルをマージできることを示す。

Federated learning is a machine learning method in which data is not aggregated on a server, but is distributed to the edges, in consideration of security and privacy. ResNet is a classic but representative neural network that succeeds in deepening the neural network by learning a residual function that adds the inputs and outputs together. In federated learning, communication is performed between the server and edge devices to exchange weight parameters, but ResNet has deep layers and a large number of parameters, so communication size becomes large. In this paper, we use Neural ODE as a lightweight model of ResNet to reduce communication size in federated learning. In addition, we newly introduce a flexible federated learning using Neural ODE models with different number of iterations, which correspond to ResNet with different depths. The CIFAR-10 dataset is used in the evaluation, and the use of Neural ODE reduces communication size by approximately 90% compared to ResNet. We also show that the proposed flexible federated learning can merge models with different iteration counts.
翻訳日:2022-08-22 17:42:16 公開日:2022-08-19
# ワンショットスケルトンに基づく行動認識のための部分認識型グラフネットワーク

Part-aware Prototypical Graph Network for One-shot Skeleton-based Action Recognition ( http://arxiv.org/abs/2208.09150v1 )

ライセンス: Link先を確認
Tailin Chen, Desen Zhou, Jian Wang, Shidong Wang, Qian He, Chuanyang Hu, Errui Ding, Yu Guan, Xuming He(参考訳) 本稿では,単発スケルトンに基づく行動認識の問題について検討し,ベースクラスから新しいクラス,特にきめ細かいアクションを学習する上で,ユニークな課題を提起する。 既存のメタラーニングフレームワークは通常、空間次元のボディレベル表現に依存しており、一般化は細粒度ラベル空間の微妙な視覚差を捉えるために制限されている。 上記の制限を克服するため,一発骨格に基づく行動認識のための部分認識型表現を提案する。 本手法では, 骨の運動パターンを2つの特徴的空間レベル, ひとつは全身関節のグローバルな文脈, もうひとつは身体部位の局所的な空間領域, もう一つは部分レベルである。 また、アクションクラスごとに重要な部分を強調するために、クラスに依存しない注意機構を考案する。 具体的には,2レベルモデリングのためのカスケード埋め込みモジュール,部品を融合して部品認識プロトタイプを生成する注意型部分融合モジュール,部品認識表現を分類するマッチングモジュールの3つのモジュールからなる,部品認識型グラフネットワークを開発した。 本研究では,NTU RGB+D 120とNW-UCLAの2つの行動認識データセットに対して,本手法の有効性を示す。

In this paper, we study the problem of one-shot skeleton-based action recognition, which poses unique challenges in learning transferable representation from base classes to novel classes, particularly for fine-grained actions. Existing meta-learning frameworks typically rely on the body-level representations in spatial dimension, which limits the generalisation to capture subtle visual differences in the fine-grained label space. To overcome the above limitation, we propose a part-aware prototypical representation for one-shot skeleton-based action recognition. Our method captures skeleton motion patterns at two distinctive spatial levels, one for global contexts among all body joints, referred to as body level, and the other attends to local spatial regions of body parts, referred to as the part level. We also devise a class-agnostic attention mechanism to highlight important parts for each action class. Specifically, we develop a part-aware prototypical graph network consisting of three modules: a cascaded embedding module for our dual-level modelling, an attention-based part fusion module to fuse parts and generate part-aware prototypes, and a matching module to perform classification with the part-aware representations. We demonstrate the effectiveness of our method on two public skeleton-based action recognition datasets: NTU RGB+D 120 and NW-UCLA.
翻訳日:2022-08-22 17:41:57 公開日:2022-08-19
# PyMIC: アノテーション効率の良い医用画像セグメンテーションのためのディープラーニングツールキット

PyMIC: A deep learning toolkit for annotation-efficient medical image segmentation ( http://arxiv.org/abs/2208.09350v1 )

ライセンス: Link先を確認
Guotai Wang, Xiangde Luo, Ran Gu, Shuojue Yang, Yijie Qu, Shuwei Zhai, Qianfei Zhao, Kang Li, Shaoting Zhang(参考訳) 背景と目的: 医用画像セグメンテーションのための既存のディープラーニングプラットフォームは主に、フルかつ正確なピクセルレベルのアノテーションが利用できると仮定する完全に教師付きセグメンテーションに焦点を当てています。 医用画像セグメンテーションのためのアノテーション効率のよい学習を支援するための新しいディープラーニングツールキットを開発することを目的としている。 方法: 提案したPyMICは医用画像分割タスクのためのモジュール型ディープラーニングプラットフォームである。 完全教師付きセグメンテーションのための高性能モデルの開発をサポートする基本的なコンポーネントに加えて、アノテーションや未発表の画像のロード、注釈なし、一部または不正確な注釈付き画像の損失関数、複数ネットワーク間のコラーニングのトレーニング手順など、不完全なアノテーションから学ぶためのいくつかの高度なコンポーネントが含まれている。 PyMICはPyTorchフレームワーク上に構築されており、医療画像セグメンテーションのための半教師付き、弱教師付き、ノイズロスト学習手法の開発をサポートする。 結果: PyMICに基づく医用画像分割作業は,(1)完全教師付き学習における競争力向上,(2)トレーニング画像10%に注釈付き半教師付き心構造分割,(3)スクリブルアノテーションを用いた弱教師付きセグメンテーション,(4)胸部X線写真セグメンテーションのためのノイズラベルからの学習の4つの課題を提示した。 結論: PyMICツールキットは使いやすく、不完全なアノテーションを持つ医用画像分割モデルの効率的な開発を容易にする。 モジュラーで柔軟性があり、研究者はアノテーションコストの低い高性能モデルを開発することができる。 ソースコードはhttps://github.com/hilab-git/pymic。

Background and Objective: Existing deep learning platforms for medical image segmentation mainly focus on fully supervised segmentation that assumes full and accurate pixel-level annotations are available. We aim to develop a new deep learning toolkit to support annotation-efficient learning for medical image segmentation, which can accelerate and simply the development of deep learning models with limited annotation budget, e.g., learning from partial, sparse or noisy annotations. Methods: Our proposed toolkit named PyMIC is a modular deep learning platform for medical image segmentation tasks. In addition to basic components that support development of high-performance models for fully supervised segmentation, it contains several advanced components that are tailored for learning from imperfect annotations, such as loading annotated and unannounced images, loss functions for unannotated, partially or inaccurately annotated images, and training procedures for co-learning between multiple networks, etc. PyMIC is built on the PyTorch framework and supports development of semi-supervised, weakly supervised and noise-robust learning methods for medical image segmentation. Results: We present four illustrative medical image segmentation tasks based on PyMIC: (1) Achieving competitive performance on fully supervised learning; (2) Semi-supervised cardiac structure segmentation with only 10% training images annotated; (3) Weakly supervised segmentation using scribble annotations; and (4) Learning from noisy labels for chest radiograph segmentation. Conclusions: The PyMIC toolkit is easy to use and facilitates efficient development of medical image segmentation models with imperfect annotations. It is modular and flexible, which enables researchers to develop high-performance models with low annotation cost. The source code is available at: https://github.com/HiLab-git/PyMIC.
翻訳日:2022-08-22 17:37:45 公開日:2022-08-19
# PrepNet: クロスデータセット医療画像解析のためのCTスキャンを均質化する畳み込み自動エンコーダ

PrepNet: A Convolutional Auto-Encoder to Homogenize CT Scans for Cross-Dataset Medical Image Analysis ( http://arxiv.org/abs/2208.09408v1 )

ライセンス: Link先を確認
Mohammadreza Amirian, Javier A. Montoya-Zegarra, Jonathan Gruss, Yves D. Stebler, Ahmet Selman Bozkir, Marco Calandri, Friedhelm Schwenker and Thilo Stadelmann(参考訳) 新型コロナウイルス(COVID-19)が世界中に広まると、画像ベースの診断など人間の努力を減らして病気の拡散を減速させる、迅速かつ正確なトリアージ機構の必要性が生じた。 文献はこの方向に有望な取り組みを示しているが、報告された結果は、様々な状況下で取得されたctスキャンの変動性を考慮せず、結果として得られたモデルは、例えば、異なるスキャナ技術を用いて取得されたデータに不適当である。 PCR検査により、新型コロナウイルスの診断が効率的に行えるようになったが、このユースケースは、医療画像解析モデルをより広く適用するために、データのばらつきを克服する方法論の必要性を実証するものである。 本稿では,新型コロナウイルス(covid-19)診断の例を用いて,可変性の問題に明示的に対処し,例えば撮像技術によって引き起こされる差異を解消するとともに,ctスキャンにおける深層オートエンコーダの考え方を活用し,その変化を最小限に抑えることを目的とした新しい生成手法を提案する。 プレプネット(PrepNet)の提案 i)複数のCTスキャンデータセットと共同で訓練する。 (ii) 診断改善のための識別機能の改善を抽出できる。 3つの公開データセット(SARS-COVID-2, UCSD COVID-CT, MosMed)による実験結果から,データセット性能の低下にもかかわらず,我々のモデルはデータセット間の一般化を最大184ドルのパーセンテージで改善することが示された。

With the spread of COVID-19 over the world, the need arose for fast and precise automatic triage mechanisms to decelerate the spread of the disease by reducing human efforts e.g. for image-based diagnosis. Although the literature has shown promising efforts in this direction, reported results do not consider the variability of CT scans acquired under varying circumstances, thus rendering resulting models unfit for use on data acquired using e.g. different scanner technologies. While COVID-19 diagnosis can now be done efficiently using PCR tests, this use case exemplifies the need for a methodology to overcome data variability issues in order to make medical image analysis models more widely applicable. In this paper, we explicitly address the variability issue using the example of COVID-19 diagnosis and propose a novel generative approach that aims at erasing the differences induced by e.g. the imaging technology while simultaneously introducing minimal changes to the CT scans through leveraging the idea of deep auto-encoders. The proposed prepossessing architecture (PrepNet) (i) is jointly trained on multiple CT scan datasets and (ii) is capable of extracting improved discriminative features for improved diagnosis. Experimental results on three public datasets (SARS-COVID-2, UCSD COVID-CT, MosMed) show that our model improves cross-dataset generalization by up to $11.84$ percentage points despite a minor drop in within dataset performance.
翻訳日:2022-08-22 17:37:09 公開日:2022-08-19
# 相関光と電子顕微鏡の誘導分解

Guided-deconvolution for Correlative Light and Electron Microscopy ( http://arxiv.org/abs/2208.09451v1 )

ライセンス: Link先を確認
Fengjiao Ma, Rainer Kaufmann, Jaroslaw Sedzicki, Zolt\'an Cseresny\'es, Christoph Dehio, Stephanie Hoeppener, Marc Thilo Figge, Rainer Heintzmann(参考訳) 相関光と電子顕微鏡は細胞の内部構造を研究する強力なツールである。 これは、光(LM)と電子(EM)顕微鏡情報の相互利益を組み合わせたものである。 しかし、em画像にlmを重ねて構造情報に機能的に割り当てる古典的なアプローチは、lm画像で見える構造的詳細の大きな違いによって妨げられている。 本稿では,EM誘導デコンボリューションと呼ばれる最適化アプローチについて検討する。 蛍光標識構造をem画像で見える詳細に自動的に割り当てて、2つの撮像モード間の解像度と特異性のギャップを埋める。

Correlative light and electron microscopy is a powerful tool to study the internal structure of cells. It combines the mutual benefit of correlating light (LM) and electron (EM) microscopy information. However, the classical approach of overlaying LM onto EM images to assign functional to structural information is hampered by the large discrepancy in structural detail visible in the LM images. This paper aims at investigating an optimized approach which we call EM-guided deconvolution. It attempts to automatically assign fluorescence-labelled structures to details visible in the EM image to bridge the gaps in both resolution and specificity between the two imaging modes.
翻訳日:2022-08-22 17:36:44 公開日:2022-08-19
# 長期逐次ユーザ行動モデリングのためのパーソナライズ介入型ネットワーク

Personalizing Intervened Network for Long-tailed Sequential User Behavior Modeling ( http://arxiv.org/abs/2208.09130v1 )

ライセンス: Link先を確認
Zheqi Lv, Feng Wang, Shengyu Zhang, Kun Kuang, Hongxia Yang, Fei Wu(参考訳) 情報爆発の時代には、コンテンツ探索を促進することによって、人々の日常生活においてレコメンデーションシステムは重要な役割を果たす。 ユーザの活動性、すなわち行動の回数は、大部分のユーザの活動性が低い長い分布に追従する傾向にあることが知られている。 実際に,尾部利用者は,共同トレーニング後の頭部利用者よりも格段に低品質なレコメンデーションに悩まされている。 さらに,テイルユーザを個別にトレーニングしたモデルが,限られたデータによって劣る結果が得られることも確認した。 ロングテール分布はレコメンデーションシステムではユビキタスだが、ロングテールユーザのレコメンデーション性能の向上は研究と産業の両方において依然として課題である。 ロングテール配信に関連手法を直接適用することは、ヘッドユーザー体験を損なうリスクが伴う可能性があり、これは、アクティブなヘッドユーザーのごく一部がプラットフォーム収益の考慮事項に寄与しているため、安価ではない。 本稿では,利用者の推薦性能を大幅に向上させるとともに,頭部ユーザに対して,ベースモデルよりも少なくとも同等の性能を達成できる手法を提案する。 このアプローチの本質は、すべてのユーザが共有する共通知識をバックボーンモデルに学習し、続いてヘッドユーザとテールユーザのパーソナライズのためのプラグイン予測ネットワークを分離する、新しい勾配集約技術である。 共通知識学習では,因果性理論による後方調整を活用して勾配推定を分解し,共同創設者のバックボーントレーニング,すなわちユーザ能率を遮蔽する。 2つのパブリックレコメンデーションベンチマークデータセットと、Alipayプラットフォームから収集された大規模産業データセットに関する広範な実験を行う。 実証研究は、我々のアプローチの合理性と有効性を検証する。

In an era of information explosion, recommendation systems play an important role in people's daily life by facilitating content exploration. It is known that user activeness, i.e., number of behaviors, tends to follow a long-tail distribution, where the majority of users are with low activeness. In practice, we observe that tail users suffer from significantly lower-quality recommendation than the head users after joint training. We further identify that a model trained on tail users separately still achieve inferior results due to limited data. Though long-tail distributions are ubiquitous in recommendation systems, improving the recommendation performance on the tail users still remains challenge in both research and industry. Directly applying related methods on long-tail distribution might be at risk of hurting the experience of head users, which is less affordable since a small portion of head users with high activeness contribute a considerate portion of platform revenue. In this paper, we propose a novel approach that significantly improves the recommendation performance of the tail users while achieving at least comparable performance for the head users over the base model. The essence of this approach is a novel Gradient Aggregation technique that learns common knowledge shared by all users into a backbone model, followed by separate plugin prediction networks for the head users and the tail users personalization. As for common knowledge learning, we leverage the backward adjustment from the causality theory for deconfounding the gradient estimation and thus shielding off the backbone training from the confounder, i.e., user activeness. We conduct extensive experiments on two public recommendation benchmark datasets and a large-scale industrial datasets collected from the Alipay platform. Empirical studies validate the rationality and effectiveness of our approach.
翻訳日:2022-08-22 17:36:34 公開日:2022-08-19
# AtomistかHolistか? より生産的なai倫理対話のための診断とビジョン

Atomist or Holist? A Diagnosis and Vision for More Productive Interdisciplinary AI Ethics Dialogue ( http://arxiv.org/abs/2208.09174v1 )

ライセンス: Link先を確認
Travis Greene, Amit Dhurandhar, Galit Shmueli(参考訳) 新たなAIベースの技術による社会的、法的、倫理的影響の増大に対応するため、主要なAIおよびMLカンファレンスやジャーナルは、倫理的影響のステートメントを含め、倫理的レビューを受けるために提出された論文を奨励または要求している。 この動きはAIとデータサイエンス研究における倫理の役割に関する熱い議論を巻き起こし、時には反生産的な名前呼び出しや「キャンセル」の脅威へと発展させた。 データサイエンティストのモラル教育にもっと集中することは、データサイエンスコミュニティを分離するイデオロギー的な隔たりの橋渡しとなるかもしれない。 我々はこの深いイデオロギーの対立を、アトムストとホロリストの1つと診断する。 中でも、アトミックは事実は価値とは切り離され、分離されるべきであるという考えを広め、ホロリストは事実と価値は互いに欠如していると信じている。 規律を越えた民事談話の奨励と懲戒的偏見の低減を目標とし、哲学や法学、社会理論や人道心理学など、各イデオロギーの信念や前提を記述するための様々な歴史資料について論じる。 最後に、我々はデータサイエンスコミュニティ内のアトムストとホロリストに対して、倫理的不一致の時により共感を示すよう呼びかけ、データサイエンス研究の利益を社会に確保するための4つの目標戦略を提案する。

In response to the growing recognition of the social, legal, and ethical impacts of new AI-based technologies, major AI and ML conferences and journals now encourage or require submitted papers to include ethics impact statements and undergo ethics reviews. This move has sparked heated debate concerning the role of ethics in AI and data science research, at times devolving into counter-productive name-calling and threats of "cancellation." We argue that greater focus on the moral education of data scientists may help bridge the ideological divide separating the data science community. We diagnose this deep ideological conflict as one between atomists and holists. Among other things, atomists espouse the idea that facts are and should be kept separate from values, while holists believe facts and values are and should be inextricable from one another. With the goals of encouraging civil discourse across disciplines and reducing disciplinary polarization, we draw on a variety of historical sources ranging from philosophy and law, to social theory and humanistic psychology, to describe each ideology's beliefs and assumptions. Finally, we call on atomists and holists within the data science community to exhibit greater empathy during ethical disagreements and propose four targeted strategies to ensure data science research benefits society.
翻訳日:2022-08-22 17:36:05 公開日:2022-08-19
# twitterのクラウドソーシングファクトチェック: 専門家とはどのように違うのか?

Crowdsourced Fact-Checking at Twitter: How Does the Crowd Compare With Experts? ( http://arxiv.org/abs/2208.09214v1 )

ライセンス: Link先を確認
Mohammed Saeed, Nicolas Traub, Maelle Nicolas, Gianluca Demartini, and Paolo Papotti(参考訳) Fact-checkingは、オンラインの誤報と戦うための効果的なソリューションの1つだ。 しかしながら、従来のファクトチェックは、専門家の人材が不足するプロセスであり、新しいコンテンツが継続的に流れるため、ソーシャルメディアではうまくスケールしない。 クラウドソーシングに基づく手法は、より小さなコストでスケールできるため、この課題に取り組むために提案されているが、実現可能であることは示されているが、常に制御された環境で研究されている。 本研究では,twitterがbirdwatchプログラムで開始した,クラウドソーシングによるファクトチェックを実際に実施する最初の大規模な取り組みについて検討した。 我々の分析によると、クラウドソーシングは、人間の専門家による結果に匹敵する効果的な事実チェック戦略であるが、一貫性のある行動可能な結果をもたらすものではない。 Birdwatchプログラムで確認されたツイート119万件を処理し、実証的な証拠を報告した。 一 群衆及び専門家が事実確認を受けるコンテンツを選択する方法の相違 二 群衆及び専門家が事実確認のために異なる資源を取得する方法 三 専門家のチェッカーと比較して、群衆が事実チェックのスケーラビリティと効率性を示すエッジ。

Fact-checking is one of the effective solutions in fighting online misinformation. However, traditional fact-checking is a process requiring scarce expert human resources, and thus does not scale well on social media because of the continuous flow of new content to be checked. Methods based on crowdsourcing have been proposed to tackle this challenge, as they can scale with a smaller cost, but, while they have shown to be feasible, have always been studied in controlled environments. In this work, we study the first large-scale effort of crowdsourced fact-checking deployed in practice, started by Twitter with the Birdwatch program. Our analysis shows that crowdsourcing may be an effective fact-checking strategy in some settings, even comparable to results obtained by human experts, but does not lead to consistent, actionable results in others. We processed 11.9k tweets verified by the Birdwatch program and report empirical evidence of i) differences in how the crowd and experts select content to be fact-checked, ii) how the crowd and the experts retrieve different resources to fact-check, and iii) the edge the crowd shows in fact-checking scalability and efficiency as compared to expert checkers.
翻訳日:2022-08-22 17:35:40 公開日:2022-08-19
# UnCommonSense: 毎日のインフォームショナルな否定的知識

UnCommonSense: Informative Negative Knowledge about Everyday ( http://arxiv.org/abs/2208.09292v1 )

ライセンス: Link先を確認
Hiba Arnaout, Simon Razniewski, Gerhard Weikum, Jeff Z. Pan(参考訳) 日常概念に関する常識的な知識は、質問応答やチャットボットなど、AIアプリケーションにとって重要な資産である。 近年,構造化コモンセンス知識ベース(CSKB)の構築への関心が高まっている。 human commonsenseの重要な部分は、概念に当てはまらないプロパティであるが、既存のcskbは、ポジティブなステートメントしか保存しない。 さらに、cskbはオープンワールドの仮定の下で機能するので、欠落したステートメントは無効ではなく未知の真理を持つと考えられている。 本稿では,情報的否定的常識文を実現するUNCOMMONSENSEフレームワークを提案する。 対象概念が与えられると、それと同等の概念がcskbで識別され、そこでは局所閉世界仮定が仮定される。 このように、ターゲット概念に欠けている同等の概念に関する肯定的なステートメントは、否定的なステートメント候補のシードとなる。 大量の候補者が精査され、選抜され、情報によってランク付けされる。 内因性および外因性評価は,本手法が最先端の手法よりも優れていることを示す。 将来の研究のためのリソースとして、情報的否定の大規模なデータセットがリリースされている。

Commonsense knowledge about everyday concepts is an important asset for AI applications, such as question answering and chatbots. Recently, we have seen an increasing interest in the construction of structured commonsense knowledge bases (CSKBs). An important part of human commonsense is about properties that do not apply to concepts, yet existing CSKBs only store positive statements. Moreover, since CSKBs operate under the open-world assumption, absent statements are considered to have unknown truth rather than being invalid. This paper presents the UNCOMMONSENSE framework for materializing informative negative commonsense statements. Given a target concept, comparable concepts are identified in the CSKB, for which a local closed-world assumption is postulated. This way, positive statements about comparable concepts that are absent for the target concept become seeds for negative statement candidates. The large set of candidates is then scrutinized, pruned and ranked by informativeness. Intrinsic and extrinsic evaluations show that our method significantly outperforms the state-of-the-art. A large dataset of informative negations is released as a resource for future research.
翻訳日:2022-08-22 17:35:21 公開日:2022-08-19
# 定性確率ネットワークにおける正の依存

Positive dependence in qualitative probabilistic networks ( http://arxiv.org/abs/2208.09344v1 )

ライセンス: Link先を確認
Jack Storror Carter(参考訳) 定性確率ネットワーク(qpns)は、ベイズネットワークの条件付き独立性仮定と、正と負の依存の「定性的」性質を結合する。 彼らは、変数の大きなネットワーク上で推論を可能にするために、ポジティブ依存の様々な直感的な性質を形式化しようとする。 しかし、QPNの文献では、QPNによる推論のほとんどは数学的に真ではないという重要な誤りが強調されている。 また、この問題を修正するためにQPNを再定義する方法についても論じる。

Qualitative probabilistic networks (QPNs) combine the conditional independence assumptions of Bayesian networks with the `qualitative' properties of positive and negative dependence. They attempt to formalise various intuitive properties of positive dependence to allow inferences over a large network of variables. However, we highlight a key mistake in the QPN literature which means that most inferences made by a QPN are not mathematically true. We also discuss how to redefine a QPN in order to fix this issue.
翻訳日:2022-08-22 17:35:08 公開日:2022-08-19
# 18のプログラミング言語に対するNL2Codeのベンチマークのためのスケーラブルで拡張可能なアプローチ

A Scalable and Extensible Approach to Benchmarking NL2Code for 18 Programming Languages ( http://arxiv.org/abs/2208.08227v2 )

ライセンス: Link先を確認
Federico Cassano, John Gouwar, Daniel Nguyen, Sydney Nguyen, Luna Phipps-Costin, Donald Pinckney, Ming Ho Yee, Yangtian Zi, Carolyn Jane Anderson, Molly Q Feldman, Arjun Guha, Michael Greenberg, Abhinav Jangda(参考訳) 大規模言語モデルは、自然言語とプログラミング言語のテキストの両方を条件付けし、生成する能力を示している。 コード生成モデルは、ある言語から別の言語への知識を一般化できるだろうか? 現代のコード生成モデルは、セマンティックに正しいPythonコードを生成することができるが、他の言語との能力についてはほとんど知られていない。 我々は、自然言語からコードへ生成する最初のマルチ言語並列ベンチマークであるMultiPL-Eを提案することにより、このトピックの探索を容易にする。 multipl-e は humaneval benchmark (chen et al, 2021) を拡張し、18のプログラミング言語をサポートし、様々なプログラミングパラダイムと人気を包含している。 我々は,MultiPL-Eのコード生成モデルであるCodexとInCoderの評価を行った。 いくつかの言語では、Codexが一致し、Pythonのパフォーマンスを超えています。 MultiPL-Eで表現される言語の範囲は、言語周波数と言語特徴がモデル性能に与える影響を調査することができる。 最後に、コード生成ベンチマークを新しいプログラミング言語にコンパイルするMultiPL-Eアプローチは、スケーラブルで拡張性がある。 我々はMultiPL-Eに新しいベンチマークや言語を簡単に追加するための一般的なアプローチについて述べる。

Large language models have demonstrated the ability to condition on and generate both natural language and programming language text. Such models open up the possibility of multi-language code generation: could code generation models generalize knowledge from one language to another? Although contemporary code generation models can generate semantically correct Python code, little is known about their abilities with other languages. We facilitate the exploration of this topic by proposing MultiPL-E, the first multi-language parallel benchmark for natural-language-to-code-generation. MultiPL-E extends the HumanEval benchmark (Chen et al, 2021) to support 18 more programming languages, encompassing a range of programming paradigms and popularity. We evaluate two state-of-the-art code generation models on MultiPL-E: Codex and InCoder. We find that on several languages, Codex matches and even exceeds its performance on Python. The range of programming languages represented in MultiPL-E allow us to explore the impact of language frequency and language features on model performance. Finally, the MultiPL-E approach of compiling code generation benchmarks to new programming languages is both scalable and extensible. We describe a general approach for easily adding support for new benchmarks and languages to MultiPL-E.
翻訳日:2022-08-22 17:35:01 公開日:2022-08-19
# エントロピー強化強化学習

Entropy Augmented Reinforcement Learning ( http://arxiv.org/abs/2208.09322v1 )

ライセンス: Link先を確認
Jianfei Ma(参考訳) 信頼領域ポリシー最適化(TRPO)と近位ポリシ最適化(PPO)の存在により,そのスケーラビリティと効率性において,深層強化学習は大きな成功を収めている。 しかしながら、信頼領域に制約されているか、不審な勾配を厳格に排除している両方のアルゴリズムの悲観論は、エージェントの探索を抑え、性能を損なうことが証明されている。 これらの問題に対処するため,我々は移動マルコフ決定プロセス(shifted markov decision process, mdp)を提案する。 我々の方法は拡張可能であり、報酬形成やブートストラッピングに適応する。 収束解析を行った結果,温度係数の制御が不可欠であることが判明した。 しかし、適切にチューニングすれば、単純で効果的であるため、他のアルゴリズムでも優れたパフォーマンスを達成することができる。 実験では,MuJoCoベンチマークタスクにおけるTRPOとPPOの強化テストを行い,エージェントがより高い報酬領域に向けて心を温め,探索と利用のバランスを保っていることを示す。 2つのグリッドワールド環境における手法の探索ボーナスを検証する。

Deep reinforcement learning has gained a lot of success with the presence of trust region policy optimization (TRPO) and proximal policy optimization (PPO), for their scalability and efficiency. However, the pessimism of both algorithms, among which it either is constrained in a trust region or strictly excludes all suspicious gradients, has been proven to suppress the exploration and harm the performance of the agent. To address those issues, we propose a shifted Markov decision process (MDP), or rather, with entropy augmentation, to encourage the exploration and reinforce the ability of escaping from suboptimums. Our method is extensible and adapts to either reward shaping or bootstrapping. With convergence analysis given, we find it is crucial to control the temperature coefficient. However, if appropriately tuning it, we can achieve remarkable performance, even on other algorithms, since it is simple yet effective. Our experiments test augmented TRPO and PPO on MuJoCo benchmark tasks, of an indication that the agent is heartened towards higher reward regions, and enjoys a balance between exploration and exploitation. We verify the exploration bonus of our method on two grid world environments.
翻訳日:2022-08-22 17:32:13 公開日:2022-08-19
# ノイズラベルによるフェデレーション学習

Federated Learning with Noisy Labels ( http://arxiv.org/abs/2208.09378v1 )

ライセンス: Link先を確認
Vasileios Tsouvalas, Aaqib Saeed, Tanir Ozcelebi, Nirvana Meratnia(参考訳) フェデレーション学習(federated learning, fl)は、分散型機械学習パラダイムであり、分散化されたプライベートデータセットからの学習モデルを可能にする。 既存のFLアプローチの多くは、高品質なラベルがユーザのデバイスで容易に利用できると仮定しているが、実際には、ラベルノイズはFLで自然に発生し、クライアント間で非i.d.分布に従うことができる。 非ID性の問題により、既存の最先端集中型アプローチは不満足な性能を示す一方、以前のFL研究はデータ交換や繰り返しサーバサイドの補助に頼ってモデルの性能を改善する。 本稿では,FLの初期化,オンデバイスモデルトレーニング,サーバモデルアグリゲーションなど,さまざまなFLトレーニング段階にわたるラベルノイズを扱うフレームワークであるFedLNを提案する。 具体的には、FedLNは、単一フェデレーションラウンドにおけるクライアントごとのノイズレベル推定を計算し、ノイズサンプルの修正(または制限)によりモデルの性能を改善する。 様々な視覚および音声データセットに関する広範囲な実験は、ラベルノイズレベルが70%である他の既存の方法と比較して平均24%改善していることを示している。 さらに,人間の注釈付き実世界のノイズデータセットにおけるFedLNの有効性を検証するとともに,モデル認識率の平均9%の増加を報告し,FedLNが日常のユーザに提供するFLサービスの改善に有効であることを強調した。

Federated Learning (FL) is a distributed machine learning paradigm that enables learning models from decentralized private datasets, where the labeling effort is entrusted to the clients. While most existing FL approaches assume high-quality labels are readily available on users' devices; in reality, label noise can naturally occur in FL and follows a non-i.i.d. distribution among clients. Due to the non-iid-ness challenges, existing state-of-the-art centralized approaches exhibit unsatisfactory performance, while previous FL studies rely on data exchange or repeated server-side aid to improve model's performance. Here, we propose FedLN, a framework to deal with label noise across different FL training stages; namely, FL initialization, on-device model training, and server model aggregation. Specifically, FedLN computes per-client noise-level estimation in a single federated round and improves the models' performance by correcting (or limiting the effect of) noisy samples. Extensive experiments on various publicly available vision and audio datasets demonstrate a 24% improvement on average compared to other existing methods for a label noise level of 70%. We further validate the efficiency of FedLN in human-annotated real-world noisy datasets and report a 9% increase on average in models' recognition rate, highlighting that FedLN can be useful for improving FL services provided to everyday users.
翻訳日:2022-08-22 17:31:53 公開日:2022-08-19
# 逆ロバスト一般化のための新しいプラグイン・アンド・プレイアプローチ

A Novel Plug-and-Play Approach for Adversarially Robust Generalization ( http://arxiv.org/abs/2208.09449v1 )

ライセンス: Link先を確認
Deepak Maurya, Adarsh Barik, Jean Honorio(参考訳) 本研究では,機械学習モデルを摂動テストデータから保護するために,逆向きに堅牢なトレーニングを利用する堅牢なフレームワークを提案する。 モデル推定中に各サンプルに対する固定予算内に最悪の加法的逆誤差を組み込むことにより、これを実現する。 私たちの主な焦点は、最小限の変更で既存の機械学習アルゴリズムに組み込むことのできる、プラグアンドプレイのソリューションを提供することです。 この目的を達成するために, 逆摂動に対する様々な規範制約を持つ複数の広く使用される損失関数に対して, クローズドフォームな解法を導出する。 最後に,回帰や分類などの教師付き問題や,行列完了やグラフィカルモデルの学習といった教師なし問題に対して,計算オーバーヘッドが極めて少ない実世界のデータセットの性能向上を示すことにより,このアプローチを検証する。

In this work, we propose a robust framework that employs adversarially robust training to safeguard the machine learning models against perturbed testing data. We achieve this by incorporating the worst-case additive adversarial error within a fixed budget for each sample during model estimation. Our main focus is to provide a plug-and-play solution that can be incorporated in the existing machine learning algorithms with minimal changes. To that end, we derive the closed-form ready-to-use solution for several widely used loss functions with a variety of norm constraints on adversarial perturbation. Finally, we validate our approach by showing significant performance improvement on real-world datasets for supervised problems such as regression and classification, as well as for unsupervised problems such as matrix completion and learning graphical models, with very little computational overhead.
翻訳日:2022-08-22 17:31:30 公開日:2022-08-19
# 非定常タスクとゲームにおける連続行動強化学習のための統一ポリシー最適化

Unified Policy Optimization for Continuous-action Reinforcement Learning in Non-stationary Tasks and Games ( http://arxiv.org/abs/2208.09452v1 )

ライセンス: Link先を確認
Rong-Jun Qin, Fan-Ming Luo, Hong Qian, Yang Yu(参考訳) 本稿では,非定常環境における政策学習と継続的な行動を伴うゲームについて述べる。 追従規則化リーダ(FTRL)とミラー降下(MD)更新のアイデアにインスパイアされた古典的な報酬最大化メカニズムではなく、連続動作タスクのための非回帰型強化学習アルゴリズム PORL を提案する。 我々は,PORLが最後に収束を保証することを証明し,対戦ゲームや協調ゲームにおいて重要である。 実験的な研究によると、MuJoCoの移動制御タスクのような静止環境においては、PORLはソフトアクター・クリティック(SAC)アルゴリズムと同等に機能し、動的環境、対戦訓練、競争ゲームを含む非定常環境では、より優れた最終政策性能とより安定したトレーニングプロセスにおいて、PORLはSACよりも優れている。

This paper addresses policy learning in non-stationary environments and games with continuous actions. Rather than the classical reward maximization mechanism, inspired by the ideas of follow-the-regularized-leader (FTRL) and mirror descent (MD) update, we propose a no-regret style reinforcement learning algorithm PORL for continuous action tasks. We prove that PORL has a last-iterate convergence guarantee, which is important for adversarial and cooperative games. Empirical studies show that, in stationary environments such as MuJoCo locomotion controlling tasks, PORL performs equally well as, if not better than, the soft actor-critic (SAC) algorithm; in non-stationary environments including dynamical environments, adversarial training, and competitive games, PORL is superior to SAC in both a better final policy performance and a more stable training process.
翻訳日:2022-08-22 17:31:16 公開日:2022-08-19
# マルチディープcnnアーキテクチャを用いた商用車両のブラインドスポット衝突検出システム

Blind-Spot Collision Detection System for Commercial Vehicles Using Multi Deep CNN Architecture ( http://arxiv.org/abs/2208.08224v2 )

ライセンス: Link先を確認
Muhammad Muzammel, Mohd Zuki Yusoff, Mohamad Naufal Mohamad Saad, Faryal Sheikh and Muhammad Ahsan Awais(参考訳) バスや大型車両は大型のため、車や他の道路車両に比べて盲点が多い。 そのため、重車両による事故は致命的であり、他の道路利用者に重傷を負わせている。 これらの盲点衝突は、視覚に基づく物体検出手法を用いて早期に特定できる。 しかし、既存の最先端のビジョンベースのオブジェクト検出モデルは、決定を行うための単一の機能記述子に大きく依存している。 本研究では、高レベル特徴記述子に基づく2つの畳み込みニューラルネットワーク(CNN)の設計と、より高速なR-CNNとの統合を提案し、重車両の盲点衝突を検出する。 さらに,2つの事前訓練ネットワーク(Resnet 50とResnet 101)を統合して,盲点車両検出のための高レベル特徴を抽出する融合手法を提案する。 機能の融合により、より高速なR-CNNの性能が大幅に向上し、既存の最先端手法よりも優れていた。 どちらのアプローチも、バス用の自己記録された盲点車両検出データセットと、車両検出のためのオンラインlisaデータセットで検証される。 どちらのアプローチも、自己記録データセットに対して3.05%と3.49%の偽検出率(FDR)が得られ、これらのアプローチはリアルタイムアプリケーションに適している。

Buses and heavy vehicles have more blind spots compared to cars and other road vehicles due to their large sizes. Therefore, accidents caused by these heavy vehicles are more fatal and result in severe injuries to other road users. These possible blind-spot collisions can be identified early using vision-based object detection approaches. Yet, the existing state-of-the-art vision-based object detection models rely heavily on a single feature descriptor for making decisions. In this research, the design of two convolutional neural networks (CNNs) based on high-level feature descriptors and their integration with faster R-CNN is proposed to detect blind-spot collisions for heavy vehicles. Moreover, a fusion approach is proposed to integrate two pre-trained networks (i.e., Resnet 50 and Resnet 101) for extracting high level features for blind-spot vehicle detection. The fusion of features significantly improves the performance of faster R-CNN and outperformed the existing state-of-the-art methods. Both approaches are validated on a self-recorded blind-spot vehicle detection dataset for buses and an online LISA dataset for vehicle detection. For both proposed approaches, a false detection rate (FDR) of 3.05% and 3.49% are obtained for the self recorded dataset, making these approaches suitable for real time applications.
翻訳日:2022-08-22 17:30:39 公開日:2022-08-19
# 上半身CT画像からの骨分割におけるデータセット拡張の基準としてのアンサンブル不確実性

Ensemble uncertainty as a criterion for dataset expansion in distinct bone segmentation from upper-body CT images ( http://arxiv.org/abs/2208.09216v1 )

ライセンス: Link先を確認
Eva Schnider, Antal Huck, Mireille Toranelli, Georg Rauter, Azhar Zam, Magdalena M\"uller-Gerbl, Philippe Cattin(参考訳) 目的: 個々の骨の局所化と分節化は、多くの計画やナビゲーションアプリケーションにおいて重要な前処理である。 しかし、手作業で行うと、時間がかかり反復的なタスクになります。 これは、臨床実習だけでなく、トレーニングデータの取得にも当てはまる。 したがって,上半身ctで125個の異なる骨をセグメント化できるエンドツーエンド学習アルゴリズムを提示するだけでなく,学習データセットを拡大するためのスキャンの単一アウトを支援するアンサンブルベースの不確実性尺度を提供する。 3d-untおよび完全教師付きトレーニングにインスパイアされたニューラルネットワークアーキテクチャを用いて,完全自動化されたエンドツーエンド学習セグメンテーションを作成する。 結果はアンサンブルと推論時間の増大によって改善される。 トレーニングデータセットの一部として,アンサンブル不確かさと非競合スキャンの有用性について検討した。 結果:本手法は1次元あたりのSI{2}{\milli\meter}の解像度で16個の上半身CTスキャンの社内データセットを用いて評価した。 ラベルセットの125個の骨を全て考慮し、最も成功したアンサンブルは、中央値のダイススコア係数0.83を達成する。 我々は,スキャンのアンサンブルの不確かさと,トレーニングセットの拡大によって達成されたアキュラシーに対する予測的影響との間には,相関関係がないことを見出した。 同時に、アンサンブルの不確実性は、初期自動セグメンテーション後の手動補正を必要とするボクセルの数と相関し、新しい基底真理セグメンテーションの完了に必要な時間を最小化することを示す。 結論: アンサンブル不確実性の低いスキャンではアノテーション時間が少なくなり, 将来的なDSCの改善が期待できる。 したがって、これらはCTスキャンから上半身の異なる骨分節のトレーニングセットを拡張するのに理想的な候補である。 }

Purpose: The localisation and segmentation of individual bones is an important preprocessing step in many planning and navigation applications. It is, however, a time-consuming and repetitive task if done manually. This is true not only for clinical practice but also for the acquisition of training data. We therefore not only present an end-to-end learnt algorithm that is capable of segmenting 125 distinct bones in an upper-body CT, but also provide an ensemble-based uncertainty measure that helps to single out scans to enlarge the training dataset with. Methods We create fully automated end-to-end learnt segmentations using a neural network architecture inspired by the 3D-Unet and fully supervised training. The results are improved using ensembles and inference-time augmentation. We examine the relationship of ensemble-uncertainty to an unlabelled scan's prospective usefulness as part of the training dataset. Results: Our methods are evaluated on an in-house dataset of 16 upper-body CT scans with a resolution of \SI{2}{\milli\meter} per dimension. Taking into account all 125 bones in our label set, our most successful ensemble achieves a median dice score coefficient of 0.83. We find a lack of correlation between a scan's ensemble uncertainty and its prospective influence on the accuracies achieved within an enlarged training set. At the same time, we show that the ensemble uncertainty correlates to the number of voxels that need manual correction after an initial automated segmentation, thus minimising the time required to finalise a new ground truth segmentation. Conclusion: In combination, scans with low ensemble uncertainty need less annotator time while yielding similar future DSC improvements. They are thus ideal candidates to enlarge a training set for upper-body distinct bone segmentation from CT scans. }
翻訳日:2022-08-22 17:30:18 公開日:2022-08-19
# 注意マップネットに基づく低光度強調法

Low-light Enhancement Method Based on Attention Map Net ( http://arxiv.org/abs/2208.09330v1 )

ライセンス: Link先を確認
Mengfei Wu, Xucheng Xue, Taiji Lan, Xinwei Xu(参考訳) 低照度画像強調は、複雑な視覚タスクにおいて重要な前処理タスクである。 ターゲット検出、画像分割、画像認識の結果はすべて、画像強調の影響によって直接影響を受ける。 しかし、現在使われている画像強調技術の大部分は良好な結果をもたらしておらず、これらの強化されたネットワークは比較的弱い。 我々は,U-Netを主構造とし,この問題の解決策として多くの異なる注意機構を組み込んだBrightenNetと呼ばれる改良されたネットワークを提案する。 特定のアプリケーションでは、ネットワークをジェネレータとして、LSGANをトレーニングフレームワークとして使い、より良い拡張結果を得る。 本稿では,提案するネットワーク BrightenNet の有効性について述べる。 生成した結果は、画像の詳細を保存でき、人間の視覚基準に準拠することができる。

Low-light image enhancement is a crucial preprocessing task for some complex vision tasks. Target detection, image segmentation, and image recognition outcomes are all directly impacted by the impact of image enhancement. However, the majority of the currently used image enhancement techniques do not produce satisfactory outcomes, and these enhanced networks have relatively weak robustness. We suggest an improved network called BrightenNet that uses U-Net as its primary structure and incorporates a number of different attention mechanisms as a solution to this issue. In a specific application, we employ the network as the generator and LSGAN as the training framework to achieve better enhancement results. We demonstrate the validity of the proposed network BrightenNet in the experiments that follow in this paper. The results it produced can both preserve image details and conform to human vision standards.
翻訳日:2022-08-22 17:29:49 公開日:2022-08-19
# 政策最適化に対するリスク感作的アプローチ

A Risk-Sensitive Approach to Policy Optimization ( http://arxiv.org/abs/2208.09106v1 )

ライセンス: Link先を確認
Jared Markowitz, Ryan W. Gardner, Ashley Llorens, Raman Arora, I-Jeng Wang(参考訳) 標準深層強化学習(DRL)は、政策の定式化における収集経験を均等に考慮し、期待される報酬を最大化することを目的としている。 これは人的意思決定と異なり、利得と損失を異なる価値で評価し、その結果が考慮される。 また、分散コンテキストの導入を通じて、安全性と/またはパフォーマンスを改善する機会を活かすことにも失敗している。 分布DRLに対するいくつかのアプローチが研究され、ある一般的な戦略は、可能なアクションに対するリターンの予測分布を評価することである。 本稿では,全報酬の分配の累積分布関数(cdf)で規定されるリスクに敏感な目標を最適化する,より直接的なアプローチを提案する。 このアプローチは、相対的な品質に基づいて結果を測定することができ、連続的および離散的なアクション空間の両方に使用することができ、自然に制約付きおよび制約なしの設定に適用することができる。 そこで本研究では,幅広いリスクに敏感な対象の政策勾配の漸近的に一貫した推定をサンプリングし,分散削減と正規化を組み込んで効果的なオンポリシー学習を促進する手法を提案する。 次に,エージェントの動作不良を強調する中程度に"悲観的"なリスクプロファイルの使用が,探索の促進と欠陥への継続的な対処に結びつくことを実証する。 我々は,6つのOpenAIセーフティガイム環境において,異なるリスクプロファイルを用いてアプローチをテストする。 コスト制約がなければ、悲観的なリスクプロファイルはコスト削減に有効であり、全体の報酬蓄積を改善することができる。 コスト制約により、それらは所定の許容コストでリスク中立アプローチよりも高いポジティブな報酬を提供する。

Standard deep reinforcement learning (DRL) aims to maximize expected reward, considering collected experiences equally in formulating a policy. This differs from human decision-making, where gains and losses are valued differently and outlying outcomes are given increased consideration. It also fails to capitalize on opportunities to improve safety and/or performance through the incorporation of distributional context. Several approaches to distributional DRL have been investigated, with one popular strategy being to evaluate the projected distribution of returns for possible actions. We propose a more direct approach whereby risk-sensitive objectives, specified in terms of the cumulative distribution function (CDF) of the distribution of full-episode rewards, are optimized. This approach allows for outcomes to be weighed based on relative quality, can be used for both continuous and discrete action spaces, and may naturally be applied in both constrained and unconstrained settings. We show how to compute an asymptotically consistent estimate of the policy gradient for a broad class of risk-sensitive objectives via sampling, subsequently incorporating variance reduction and regularization measures to facilitate effective on-policy learning. We then demonstrate that the use of moderately "pessimistic" risk profiles, which emphasize scenarios where the agent performs poorly, leads to enhanced exploration and a continual focus on addressing deficiencies. We test the approach using different risk profiles in six OpenAI Safety Gym environments, comparing to state of the art on-policy methods. Without cost constraints, we find that pessimistic risk profiles can be used to reduce cost while improving total reward accumulation. With cost constraints, they are seen to provide higher positive rewards than risk-neutral approaches at the prescribed allowable cost.
翻訳日:2022-08-22 17:25:09 公開日:2022-08-19
# GraphTTA: グラフニューラルネットワークによるテスト時間適応

GraphTTA: Test Time Adaptation on Graph Neural Networks ( http://arxiv.org/abs/2208.09126v1 )

ライセンス: Link先を確認
Guanzi Chen, Jiying Zhang, Xi Xiao and Yang Li(参考訳) 近年,テスト時間適応(TTA)は,実世界の分散シフト問題に対処する能力によって注目が集まっている。 画像データのための畳み込みニューラルネットワーク(CNN)のために開発されたものとは異なり、TTAはグラフニューラルネットワーク(GNN)では探索されていない。 いまだに不規則な構造を持つグラフに適した効率的なアルゴリズムがない。 本稿では,グラフニューラルネットワーク TTA のための新しいテスト時間適応戦略である Graph Adversarial Pseudo Group Contrast (GAPGC) を提案する。 特に、gapgcは、tta中の自己教師ありタスクとして、自己教師付きタスクとメインタスクの関連性を高めるために、敵対的学習可能な拡張器とグループ偽陽性サンプルを備えたコントラスト型を採用し、メインタスクのパフォーマンスを高めている。 さらに,情報理論の観点から,GAPGCが主課題に必要最小限の情報を抽出できるという理論的証拠を提供する。 分子足場OODデータセットの大規模な実験により,提案手法がGNNの最先端性能を実現することを示した。

Recently, test time adaptation (TTA) has attracted increasing attention due to its power of handling the distribution shift issue in the real world. Unlike what has been developed for convolutional neural networks (CNNs) for image data, TTA is less explored for Graph Neural Networks (GNNs). There is still a lack of efficient algorithms tailored for graphs with irregular structures. In this paper, we present a novel test time adaptation strategy named Graph Adversarial Pseudo Group Contrast (GAPGC), for graph neural networks TTA, to better adapt to the Out Of Distribution (OOD) test data. Specifically, GAPGC employs a contrastive learning variant as a self-supervised task during TTA, equipped with Adversarial Learnable Augmenter and Group Pseudo-Positive Samples to enhance the relevance between the self-supervised task and the main task, boosting the performance of the main task. Furthermore, we provide theoretical evidence that GAPGC can extract minimal sufficient information for the main task from information theory perspective. Extensive experiments on molecular scaffold OOD dataset demonstrated that the proposed approach achieves state-of-the-art performance on GNNs.
翻訳日:2022-08-22 17:24:38 公開日:2022-08-19
# DAFT:より優れたOOD一般化のための逆調整モデル

DAFT: Distilling Adversarially Fine-tuned Models for Better OOD Generalization ( http://arxiv.org/abs/2208.09139v1 )

ライセンス: Link先を確認
Anshul Nasery, Sravanti Addepalli, Praneeth Netrapalli, Prateek Jain(参考訳) 我々は,OOD一般化の課題について考察する。その目的は,トレーニング分布と異なるテスト分布でよく機能するモデルをトレーニングすることである。 ディープラーニングモデルはそのようなシフトに対して脆弱であることが知られており、わずかに異なるテスト分布であっても大きな精度低下を被る可能性がある。 我々は,多数のリッチな特徴を逆向きに堅牢に組み合わせることで,OODの堅牢性を実現するという直感に基づく新しい手法,DAFTを提案する。 本手法は,標準的な訓練を併用しながら,複数の識別的特徴を学習する強力な教師の知識を精査する。 標準的な対人訓練手順は、生徒をよりよく指導できる教師を生み出すために修正される。 我々は、DomainBedフレームワークの標準ベンチマーク上でDAFTを評価し、DAFTが現在の最先端OOD一般化法よりも大幅に改善されていることを示す。 DAFTは、よく調整されたEMMと蒸留ベースラインを最大6%上回り、より小さなネットワークではより顕著な利益を得る。

We consider the problem of OOD generalization, where the goal is to train a model that performs well on test distributions that are different from the training distribution. Deep learning models are known to be fragile to such shifts and can suffer large accuracy drops even for slightly different test distributions. We propose a new method - DAFT - based on the intuition that adversarially robust combination of a large number of rich features should provide OOD robustness. Our method carefully distills the knowledge from a powerful teacher that learns several discriminative features using standard training while combining them using adversarial training. The standard adversarial training procedure is modified to produce teachers which can guide the student better. We evaluate DAFT on standard benchmarks in the DomainBed framework, and demonstrate that DAFT achieves significant improvements over the current state-of-the-art OOD generalization methods. DAFT consistently out-performs well-tuned ERM and distillation baselines by up to 6%, with more pronounced gains for smaller networks.
翻訳日:2022-08-22 17:24:15 公開日:2022-08-19
# ginex:ssd対応の10億規模のグラフニューラルネットワークトレーニングを最適なインメモリキャッシュで実現

Ginex: SSD-enabled Billion-scale Graph Neural Network Training on a Single Machine via Provably Optimal In-memory Caching ( http://arxiv.org/abs/2208.09151v1 )

ライセンス: Link先を確認
Yeonhong Park, Sunhong Min, Jae W. Lee(参考訳) 近年、グラフニューラルネットワーク(GNN)は、グラフ構造化データに対する様々な推論タスクを効果的に提供する強力なツールとして注目を浴びている。 実世界のグラフのサイズが拡大を続けるにつれ、GNNトレーニングシステムはスケーラビリティの課題に直面している。 分散トレーニングは、CPUノードをスケールアウトすることでこの問題に対処する一般的なアプローチである。 しかし、ディスクベースのGNNトレーニングにはそれほど注意が払われておらず、NVMe SSDのような高性能ストレージデバイスを活用することで、シングルノードシステムをよりコスト効率よくスケールアップすることができる。 我々は,ssdベースのトレーニングシステムにおいて,メインメモリとディスク間のデータ移動が主要なボトルネックであり,従来のgnnトレーニングパイプラインは,このオーバーヘッドを考慮せずに最適化されていることを確認した。 そこで我々は,1台のマシン上で数十億のグラフデータセットを処理可能な,SSDベースの初のGNNトレーニングシステムであるGinexを提案する。 コンパイラ最適化におけるインスペクタ-実行モデルにインスパイアされたginexは、サンプルと収集ステージを分離してgnnトレーニングパイプラインを再構成する。 この分離により、ginexは、i/oアクセスの優位部分を占めるメモリ上の特徴ベクトルをキャッシュするbeladyアルゴリズムとして知られる、確実に最適な置換アルゴリズムを実現することができる。 40億のグラフデータセットを用いた評価によれば、ginexは平均で2.11倍のトレーニングスループットを実現している(最大で2.67倍)。

Recently, Graph Neural Networks (GNNs) have been receiving a spotlight as a powerful tool that can effectively serve various inference tasks on graph structured data. As the size of real-world graphs continues to scale, the GNN training system faces a scalability challenge. Distributed training is a popular approach to address this challenge by scaling out CPU nodes. However, not much attention has been paid to disk-based GNN training, which can scale up the single-node system in a more cost-effective manner by leveraging high-performance storage devices like NVMe SSDs. We observe that the data movement between the main memory and the disk is the primary bottleneck in the SSD-based training system, and that the conventional GNN training pipeline is sub-optimal without taking this overhead into account. Thus, we propose Ginex, the first SSD-based GNN training system that can process billion-scale graph datasets on a single machine. Inspired by the inspector-executor execution model in compiler optimization, Ginex restructures the GNN training pipeline by separating sample and gather stages. This separation enables Ginex to realize a provably optimal replacement algorithm, known as Belady's algorithm, for caching feature vectors in memory, which account for the dominant portion of I/O accesses. According to our evaluation with four billion-scale graph datasets, Ginex achieves 2.11x higher training throughput on average (up to 2.67x at maximum) than the SSD-extended PyTorch Geometric.
翻訳日:2022-08-22 17:23:56 公開日:2022-08-19
# 生成モデル評価のためのランダム初期化ネットワークのデミスティファイション

Demystifying Randomly Initialized Networks for Evaluating Generative Models ( http://arxiv.org/abs/2208.09218v1 )

ライセンス: Link先を確認
Junghyuk Lee, Jun-Hyuk Kim, Jong-Seok Lee(参考訳) 生成モデルの評価は、主に、ある特徴空間における推定分布と基底真理分布の比較に基づいて行われる。 サンプルを情報的特徴に組み込むために、以前の研究では、分類に最適化された畳み込みニューラルネットワークを使用していた。 そのため、様々な特徴空間を探索して代替品を発見することができる。 その中でも驚くべきアプローチは、ランダムに初期化されたニューラルネットワークを機能埋め込みに使用することだ。 しかし、ランダムな特徴を用いる基本的な根拠は十分に正当化されていない。 本稿では,ランダムな重み付きモデルの特徴空間を,訓練されたモデルと比較して厳密に検討する。 さらに,ランダムな特徴のネットワークを選択し,一貫性,信頼性の高い結果を得るための実証的なエビデンスを提供する。 以上の結果から,ランダムネットワークの特徴は,学習したネットワークとよく似た生成モデルの評価が可能であり,さらに,これら2つの特徴を相補的に併用できることが示唆された。

Evaluation of generative models is mostly based on the comparison between the estimated distribution and the ground truth distribution in a certain feature space. To embed samples into informative features, previous works often use convolutional neural networks optimized for classification, which is criticized by recent studies. Therefore, various feature spaces have been explored to discover alternatives. Among them, a surprising approach is to use a randomly initialized neural network for feature embedding. However, the fundamental basis to employ the random features has not been sufficiently justified. In this paper, we rigorously investigate the feature space of models with random weights in comparison to that of trained models. Furthermore, we provide an empirical evidence to choose networks for random features to obtain consistent and reliable results. Our results indicate that the features from random networks can evaluate generative models well similarly to those from trained networks, and furthermore, the two types of features can be used together in a complementary way.
翻訳日:2022-08-22 17:23:31 公開日:2022-08-19
# FP8量子化:指数のパワー

FP8 Quantization: The Power of the Exponent ( http://arxiv.org/abs/2208.09225v1 )

ライセンス: Link先を確認
Andrey Kuzmin, Mart Van Baalen, Yuwei Ren, Markus Nagel, Jorn Peters, Tijmen Blankevoort(参考訳) 効率的な推論のためにニューラルネットワークを量子化する場合、低ビット整数は効率のためのゴーツーフォーマットである。 しかし、低ビット浮動小数点数は余分な自由度を持ち、代わりに指数関数的なスケールで動くビットを割り当てる。 本稿では,ニューラルネットワーク推論における浮動小数点フォーマットの利点について詳細に検討する。 FP8フォーマットで選択できる選択について詳述し、マティーサと指数のビット数の重要な選択を含め、これらの選択がより優れたパフォーマンスをもたらすか分析的に示す。 次に、これらの結果が実際のネットワークにどのように変換されるかを示し、FP8シミュレーションの効率的な実装と、FP8フォーマットのスケールパラメータと指数ビット数の両方の学習を可能にする新しいアルゴリズムを提案する。 主な結論は、広範囲のネットワークに対してトレーニング後の量子化を行う場合、FP8フォーマットは精度においてINT8よりも優れており、指数ビット数の選択はネットワーク内の外れ値の重大さによって引き起こされるということである。 また、ネットワークが異常値の影響を低減させるように訓練されると、フォーマットの違いが消えてしまう量子化アウェアトレーニングの実験も行います。

When quantizing neural networks for efficient inference, low-bit integers are the go-to format for efficiency. However, low-bit floating point numbers have an extra degree of freedom, assigning some bits to work on an exponential scale instead. This paper in-depth investigates this benefit of the floating point format for neural network inference. We detail the choices that can be made for the FP8 format, including the important choice of the number of bits for the mantissa and exponent, and show analytically in which settings these choices give better performance. Then we show how these findings translate to real networks, provide an efficient implementation for FP8 simulation, and a new algorithm that enables the learning of both the scale parameters and the number of exponent bits in the FP8 format. Our chief conclusion is that when doing post-training quantization for a wide range of networks, the FP8 format is better than INT8 in terms of accuracy, and the choice of the number of exponent bits is driven by the severity of outliers in the network. We also conduct experiments with quantization-aware training where the difference in formats disappears as the network is trained to reduce the effect of outliers.
翻訳日:2022-08-22 17:23:17 公開日:2022-08-19
# シーブとニューラルタンジェントカーネルの観点からのグラフ畳み込みネットワーク

Graph Convolutional Networks from the Perspective of Sheaves and the Neural Tangent Kernel ( http://arxiv.org/abs/2208.09309v1 )

ライセンス: Link先を確認
Thomas Gebhart(参考訳) グラフ畳み込みネットワークは、多くの関係学習タスクで成功したディープニューラルネットワークアルゴリズムの一般的なクラスである。 その成功にもかかわらず、グラフ畳み込みネットワークは、これらのアルゴリズムの複雑な性質のために容易には診断できない、過度に滑らかな関数やホモフィル関数の学習へのバイアスを含む、多くの特異な特徴を示す。 グラフ畳み込みネットワークの位相的一般化である層畳み込みネットワークの神経接核を研究することにより,この理解のギャップを埋めることを提案する。 この目的のために、関数をグラフによって決定される前方拡散過程と、出力層へのノードのアクティベーションの複合効果によって決定される2つの部分に分割する層畳み込みネットワークのための神経接核のパラメータ化を導出する。 この幾何学的に焦点を絞った導出は、我々が詳細に論じる直近の洞察を生み出す。

Graph convolutional networks are a popular class of deep neural network algorithms which have shown success in a number of relational learning tasks. Despite their success, graph convolutional networks exhibit a number of peculiar features, including a bias towards learning oversmoothed and homophilic functions, which are not easily diagnosed due to the complex nature of these algorithms. We propose to bridge this gap in understanding by studying the neural tangent kernel of sheaf convolutional networks--a topological generalization of graph convolutional networks. To this end, we derive a parameterization of the neural tangent kernel for sheaf convolutional networks which separates the function into two parts: one driven by a forward diffusion process determined by the graph, and the other determined by the composite effect of nodes' activations on the output layer. This geometrically-focused derivation produces a number of immediate insights which we discuss in detail.
翻訳日:2022-08-22 17:22:58 公開日:2022-08-19
# PersDet:パースペクティブバードのEye-Viewにおける単眼3D検出

PersDet: Monocular 3D Detection in Perspective Bird's-Eye-View ( http://arxiv.org/abs/2208.09394v1 )

ライセンス: Link先を確認
Hongyu Zhou, Zheng Ge, Weixin Mao, Zeming Li(参考訳) 現在、Bird's-Eye-View (BEV) における3D物体の検出は、自律走行やロボット工学のための他の3D検出器よりも優れている。 しかし、画像特徴をBEVに変換するには、特徴サンプリングを行う特別な演算子が必要である。 これらのオペレータは、多くのエッジデバイスではサポートされておらず、検出器のデプロイに余計な障害をもたらします。 この問題に対処するため、我々はBEV表現の生成を再考し、特徴サンプリングを必要としない新しいBEV表現である、BEVにおけるオブジェクトの検出を提案する。 私たちはまた、BEVの機能がBEVパラダイムの利点を享受できることを示します。 さらに,特徴サンプリングに起因する問題に対処することにより,検出性能を向上させる。 本稿では,この発見に基づく視点BEV空間における高性能物体検出のためのPersDetを提案する。 PersDetはシンプルでメモリ効率のよい構造を実装しながら、nuScenesベンチマークで既存の最先端モノラルメソッドよりも優れており、ResNet-50をバックボーンとして使用すると34.6%のmAPと40.8%のNDSに達した。

Currently, detecting 3D objects in Bird's-Eye-View (BEV) is superior to other 3D detectors for autonomous driving and robotics. However, transforming image features into BEV necessitates special operators to conduct feature sampling. These operators are not supported on many edge devices, bringing extra obstacles when deploying detectors. To address this problem, we revisit the generation of BEV representation and propose detecting objects in perspective BEV -- a new BEV representation that does not require feature sampling. We demonstrate that perspective BEV features can likewise enjoy the benefits of the BEV paradigm. Moreover, the perspective BEV improves detection performance by addressing issues caused by feature sampling. We propose PersDet for high-performance object detection in perspective BEV space based on this discovery. While implementing a simple and memory-efficient structure, PersDet outperforms existing state-of-the-art monocular methods on the nuScenes benchmark, reaching 34.6% mAP and 40.8% NDS when using ResNet-50 as the backbone.
翻訳日:2022-08-22 17:19:35 公開日:2022-08-19
# 衛星画像と深部生成モデルによる山火事予報

Wildfire Forecasting with Satellite Images and Deep Generative Model ( http://arxiv.org/abs/2208.09411v1 )

ライセンス: Link先を確認
Thai-Nam Hoang and Sang Truong and Chris Schmidt(参考訳) 森林火災の予報は、人文科学が成長させたい最も重要な課題の1つだ。 人間の生命を守る上で重要な役割を担っている。 一方,野生火災の予測は,その確率的・カオス的性質から困難である。 私たちは、一連のワイルドファイア画像をビデオとして解釈し、将来の火災がどのように振る舞うかを予測して、この問題に取り組みました。 しかし,将来的な不確実性を考慮した映像予測モデルの作成は困難である。 公表された試みの大部分は、確率的イメージ自動回帰リカレントネットワークに基づいており、計算コストや大規模なデータセットの限られた効率など、さまざまなパフォーマンスとアプリケーションの困難を生じさせる。 もう1つの可能性は、フレーム合成と時間力学を組み合わせた完全に潜時モデルを使用することである。 しかし, 設計・訓練上の問題から, 確率的映像予測のモデルはまだ提案されていない。 本稿では,動的に潜在空間で駆動される新しい確率時間モデルを導入することにより,これらの問題に対処する。 GOES-16データセットに対する従来の最先端のアプローチを、より軽く解釈しやすくすることで、ビデオのダイナミクスを自然に予測する。 結果は様々なベンチマークモデルで比較される。

Wildfire forecasting has been one of the most critical tasks that humanities want to thrive. It plays a vital role in protecting human life. Wildfire prediction, on the other hand, is difficult because of its stochastic and chaotic properties. We tackled the problem by interpreting a series of wildfire images as a video and used it to anticipate how the fire would behave in the future. However, creating video prediction models that account for the inherent uncertainty of the future is challenging. The bulk of published attempts is based on stochastic image-autoregressive recurrent networks, which raises various performance and application difficulties, such as computational cost and limited efficiency on massive datasets. Another possibility is to use entirely latent temporal models that combine frame synthesis and temporal dynamics. However, due to design and training issues, no such model for stochastic video prediction has yet been proposed in the literature. This paper addresses these issues by introducing a novel stochastic temporal model whose dynamics are driven in a latent space. It naturally predicts video dynamics by allowing our lighter, more interpretable latent model to beat previous state-of-the-art approaches on the GOES-16 dataset. Results will be compared towards various benchmarking models.
翻訳日:2022-08-22 17:19:16 公開日:2022-08-19
# ModSelect:Synthetic-to-Real Domain Generalizationのための自動モダリティ選択

ModSelect: Automatic Modality Selection for Synthetic-to-Real Domain Generalization ( http://arxiv.org/abs/2208.09414v1 )

ライセンス: Link先を確認
Zdravko Marinov, Alina Roitberg, David Schneider, Rainer Stiefelhagen(参考訳) モダリティ選択はマルチモーダルシステムの設計において重要なステップであり、特にクロスドメインアクティビティ認識の場合、特定のモダリティがドメインシフトに対して他のものよりも堅牢である。 しかし、正の貢献を持つモダリティのみを選択するには体系的なアプローチが必要となる。 本稿では,基底ラベルを必要としない教師なしモダリティ選択法(modselect)を提案する。 複数の単項分類器の予測値と埋め込みの領域差との相関関係について検討する。 そこで我々は,高い相関性と低領域差を有するモダリティのみを選択するモダリティ選択閾値を体系的に計算する。 提案手法は,肯定的な寄与を伴うモダリティのみを選択し,Synthetic-to-Realドメイン適応ベンチマークの性能を一貫して改善し,ドメインギャップを狭める。

Modality selection is an important step when designing multimodal systems, especially in the case of cross-domain activity recognition as certain modalities are more robust to domain shift than others. However, selecting only the modalities which have a positive contribution requires a systematic approach. We tackle this problem by proposing an unsupervised modality selection method (ModSelect), which does not require any ground-truth labels. We determine the correlation between the predictions of multiple unimodal classifiers and the domain discrepancy between their embeddings. Then, we systematically compute modality selection thresholds, which select only modalities with a high correlation and low domain discrepancy. We show in our experiments that our method ModSelect chooses only modalities with positive contributions and consistently improves the performance on a Synthetic-to-Real domain adaptation benchmark, narrowing the domain gap.
翻訳日:2022-08-22 17:18:59 公開日:2022-08-19
# ファウショット行動認識のための階層的構成表現

Hierarchical Compositional Representations for Few-shot Action Recognition ( http://arxiv.org/abs/2208.09424v1 )

ライセンス: Link先を確認
Changzhen Li, Jie Zhang, Shuzhe Wu, Xin Jin, and Shiguang Shan(参考訳) 近年、知的監視と人間とコンピュータのインタラクションにおける包括的かつ実践的な応用により、アクション認識がますます注目を集めている。 しかし、少数のアクション認識は十分に研究されておらず、データ不足のため依然として挑戦的である。 本稿では,新しい階層型合成表現(HCR)学習手法を提案する。 具体的には,階層的クラスタリングを注意深く設計し,さらに細粒度の空間的注意的サブアクション(sas-actions)に分解することで,複雑なアクションを複数のサブアクションに分割する。 基本クラスと新規クラスの間には大きな違いがあるが、サブアクションやSASアクションで同様のパターンを共有することができる。 さらに,輸送問題におけるアースモーバー距離を,サブアクション表現の観点からビデオサンプル間の類似度を測定するために採用する。 サブアクション間の最適なマッチングフローを距離メートル法として計算し、きめ細かいパターンを比較するのに好適である。 広範な実験により, hmdb51, ucf101およびkineticsデータセットの最先端の結果が得られた。

Recently action recognition has received more and more attention for its comprehensive and practical applications in intelligent surveillance and human-computer interaction. However, few-shot action recognition has not been well explored and remains challenging because of data scarcity. In this paper, we propose a novel hierarchical compositional representations (HCR) learning approach for few-shot action recognition. Specifically, we divide a complicated action into several sub-actions by carefully designed hierarchical clustering and further decompose the sub-actions into more fine-grained spatially attentional sub-actions (SAS-actions). Although there exist large differences between base classes and novel classes, they can share similar patterns in sub-actions or SAS-actions. Furthermore, we adopt the Earth Mover's Distance in the transportation problem to measure the similarity between video samples in terms of sub-action representations. It computes the optimal matching flows between sub-actions as distance metric, which is favorable for comparing fine-grained patterns. Extensive experiments show our method achieves the state-of-the-art results on HMDB51, UCF101 and Kinetics datasets.
翻訳日:2022-08-22 17:18:43 公開日:2022-08-19
# monopcns:point cloud networkシミュレーションによるモノクロ3dオブジェクト検出

MonoPCNS: Monocular 3D Object Detection via Point Cloud Network Simulation ( http://arxiv.org/abs/2208.09446v1 )

ライセンス: Link先を確認
Han Sun, Zhaoxin Fan, Zhenbo Song, Zhicheng Wang, Kejian Wu, Jianfeng Lu(参考訳) モノキュラーな3dオブジェクト検出は、自動運転、ロボットの把持、拡張現実など、多くのアプリケーションにとって基本だが非常に重要なタスクである。 既存のリード手法では、まず入力画像の深さを推定し、ポイントクラウドに基づいて3dオブジェクトを検出する傾向がある。 このルーチンは、深さ推定とオブジェクト検出に固有のギャップに苦しむ。 さらに、予測エラーの蓄積はパフォーマンスにも影響を及ぼす。 本稿では,MonoPCNSという新しい手法を提案する。 MonoPCNSの導入の背景にある洞察は、トレーニング期間中に単分子検出器のための点雲検出器の特徴学習挙動をシミュレートすることである。 したがって、推測期間中、学習された特徴と予測は可能な限り点雲ベースの検出器に類似する。 そこで本研究では,1つのシーンレベルシミュレーションモジュール,1つのroiレベルシミュレーションモジュール,および1つの応答レベルシミュレーションモジュールを提案する。 本手法を有名なM3D-RPN検出器およびCaDDN検出器に適用し,KITTIおよびWaymo Openデータセットに関する広範な実験を行った。 その結果,本手法はネットワークアーキテクチャを変更することなく,各単分子検出器の性能を一定に向上することを示した。 我々の手法はついに最先端の性能を達成する。

Monocular 3D object detection is a fundamental but very important task to many applications including autonomous driving, robotic grasping and augmented reality. Existing leading methods tend to estimate the depth of the input image first, and detect the 3D object based on point cloud. This routine suffers from the inherent gap between depth estimation and object detection. Besides, the prediction error accumulation would also affect the performance. In this paper, a novel method named MonoPCNS is proposed. The insight behind introducing MonoPCNS is that we propose to simulate the feature learning behavior of a point cloud based detector for monocular detector during the training period. Hence, during inference period, the learned features and prediction would be similar to the point cloud based detector as possible. To achieve it, we propose one scene-level simulation module, one RoI-level simulation module and one response-level simulation module, which are progressively used for the detector's full feature learning and prediction pipeline. We apply our method to the famous M3D-RPN detector and CaDDN detector, conducting extensive experiments on KITTI and Waymo Open dataset. Results show that our method consistently improves the performance of different monocular detectors for a large margin without changing their network architectures. Our method finally achieves state-of-the-art performance.
翻訳日:2022-08-22 17:18:26 公開日:2022-08-19
# 多平面画像を用いた3次元物体運動推定による動的シーンの時間ビュー合成

Temporal View Synthesis of Dynamic Scenes through 3D Object Motion Estimation with Multi-Plane Images ( http://arxiv.org/abs/2208.09463v1 )

ライセンス: Link先を確認
Nagabhushan Somraj, Pranali Sancheti, Rajiv Soundararajan(参考訳) 低計算デバイス上で高フレームレートビデオをグラフィカルにレンダリングするという課題は、仮想現実アプリケーションにおけるユーザエクスペリエンスを向上させるために、将来のフレームを定期的に予測することで解決できる。 これは、前フレームと前フレームと後フレームの頭部ポーズからビデオの次のフレームを予測することを目的とした、時間的ビュー合成(tvs)の問題を通して研究される。 本研究では,ユーザとオブジェクトの両方が動いている動的シーンのTVSについて考察する。 動作をユーザとオブジェクトに分離し、次のフレームを予測しながら使用可能なユーザの動きを効果的に活用するフレームワークを設計する。 過去のフレームにおける3次元物体の動きを分離・推定し,その外挿により物体の動きを予測する。 マルチプレーン画像(MPI)をシーンの3次元表現として使用し、MPI表現の対応する点間の3次元変位としてオブジェクトの動きをモデル化する。 動きを推定しながらmpisのスパーシティを扱うために,部分畳み込みとマスキング相関層を組み込んで対応する点を推定する。 予測された物体の動きは、所定のユーザまたはカメラの動きと統合され、次のフレームを生成する。 分割インフィルディングモジュールを用いて,カメラと物体の動きによって検出された領域を合成する。 フルHD解像度で800本のビデオからなる動的シーンのTVSのための新しい合成データセットを開発した。 我々は、我々のデータセットとMPIシンテルデータセットの実験を通して、我々のモデルは文学における競合するすべての手法より優れていることを示す。

The challenge of graphically rendering high frame-rate videos on low compute devices can be addressed through periodic prediction of future frames to enhance the user experience in virtual reality applications. This is studied through the problem of temporal view synthesis (TVS), where the goal is to predict the next frames of a video given the previous frames and the head poses of the previous and the next frames. In this work, we consider the TVS of dynamic scenes in which both the user and objects are moving. We design a framework that decouples the motion into user and object motion to effectively use the available user motion while predicting the next frames. We predict the motion of objects by isolating and estimating the 3D object motion in the past frames and then extrapolating it. We employ multi-plane images (MPI) as a 3D representation of the scenes and model the object motion as the 3D displacement between the corresponding points in the MPI representation. In order to handle the sparsity in MPIs while estimating the motion, we incorporate partial convolutions and masked correlation layers to estimate corresponding points. The predicted object motion is then integrated with the given user or camera motion to generate the next frame. Using a disocclusion infilling module, we synthesize the regions uncovered due to the camera and object motion. We develop a new synthetic dataset for TVS of dynamic scenes consisting of 800 videos at full HD resolution. We show through experiments on our dataset and the MPI Sintel dataset that our model outperforms all the competing methods in the literature.
翻訳日:2022-08-22 17:18:08 公開日:2022-08-19
# 微分可能な仮想物体挿入による街路シーンのニューラルライトフィールド推定

Neural Light Field Estimation for Street Scenes with Differentiable Virtual Object Insertion ( http://arxiv.org/abs/2208.09480v1 )

ライセンス: Link先を確認
Zian Wang, Wenzheng Chen, David Acuna, Jan Kautz, Sanja Fidler(参考訳) 写真に仮想物体を挿入することを目的とした屋外照明推定の課題について考察する。 既存の屋外照明推定の作業は通常、屋外シーンにおける空間的に変化する照明効果を捉えられない環境マップにシーン照明を単純化する。 本研究では,1つの画像から5次元HDR光場を推定するニューラルアプローチを提案する。 具体的には、太陽の極端な強度を扱うHDRスカイドームと、周囲のシーンの空間的に変化する外観をモデル化するボリューム照明表現を含む、屋外シーンに適したハイブリッド照明表現を設計する。 推定照明により、我々の影認識物体挿入は完全に微分可能であり、合成画像上での対角訓練により、照明予測にさらなる監視信号を与えることができる。 従来の屋外照明推定手法よりもハイブリッド照明表現の性能が高いことを実験的に実証した。 さらに、ARオブジェクト挿入の利点を自律運転アプリケーションで示し、拡張現実データに基づいてトレーニングすると、3Dオブジェクト検出器の性能向上が得られることを示した。

We consider the challenging problem of outdoor lighting estimation for the goal of photorealistic virtual object insertion into photographs. Existing works on outdoor lighting estimation typically simplify the scene lighting into an environment map which cannot capture the spatially-varying lighting effects in outdoor scenes. In this work, we propose a neural approach that estimates the 5D HDR light field from a single image, and a differentiable object insertion formulation that enables end-to-end training with image-based losses that encourage realism. Specifically, we design a hybrid lighting representation tailored to outdoor scenes, which contains an HDR sky dome that handles the extreme intensity of the sun, and a volumetric lighting representation that models the spatially-varying appearance of the surrounding scene. With the estimated lighting, our shadow-aware object insertion is fully differentiable, which enables adversarial training over the composited image to provide additional supervisory signal to the lighting prediction. We experimentally demonstrate that our hybrid lighting representation is more performant than existing outdoor lighting estimation methods. We further show the benefits of our AR object insertion in an autonomous driving application, where we obtain performance gains for a 3D object detector when trained on our augmented data.
翻訳日:2022-08-22 17:17:45 公開日:2022-08-19
# テキスト生成を超えて:連続的な自動テキスト要約による書き手支援

Beyond Text Generation: Supporting Writers with Continuous Automatic Text Summaries ( http://arxiv.org/abs/2208.09323v1 )

ライセンス: Link先を確認
Hai Dang, Karim Benharrak, Florian Lehmann, Daniel Buschek(参考訳) 本稿では,ユーザによる記述プロセスの計画,構造化,反映を支援するテキストエディタを提案する。 自動テキスト要約を用いて、連続的に更新された段落の要約をマージンアノテーションとして提供する。 要約レベルはフルテキストから選択された(中央)文、キーワードのコレクションまで様々である。 筆者らは,本システムについて,ある話題や記事の分析エッセイを執筆する2つのユーザスタディ(N=4,N=8)を行った。 重要な発見として、要約はユーザに対して、執筆に関する外部の視点を与え、ドラフトされた段落の内容と範囲の修正を支援した。 人々はさらにツールを使用して、テキストの概要を素早く取得し、自動化された要約からの洞察を統合する戦略を開発した。 より広い範囲で、この研究は、テキスト生成と修正を超越した自然言語処理(NLP)機能を備えた、ライターのためのAIツール設計の価値を探求し、強調する。

We propose a text editor to help users plan, structure and reflect on their writing process. It provides continuously updated paragraph-wise summaries as margin annotations, using automatic text summarization. Summary levels range from full text, to selected (central) sentences, down to a collection of keywords. To understand how users interact with this system during writing, we conducted two user studies (N=4 and N=8) in which people wrote analytic essays about a given topic and article. As a key finding, the summaries gave users an external perspective on their writing and helped them to revise the content and scope of their drafted paragraphs. People further used the tool to quickly gain an overview of the text and developed strategies to integrate insights from the automated summaries. More broadly, this work explores and highlights the value of designing AI tools for writers, with Natural Language Processing (NLP) capabilities that go beyond direct text generation and correction.
翻訳日:2022-08-22 17:17:25 公開日:2022-08-19
# HRIの拡散緩和のための対話ポリシー

Dialogue Policies for Confusion Mitigation in Situated HRI ( http://arxiv.org/abs/2208.09367v1 )

ライセンス: Link先を確認
Na Li and Robert Ross(参考訳) 融合は認知的不均衡によって引き起こされる精神状態であり、人間とロボットの相互作用(HRI)を含む様々な種類のタスク指向の相互作用で起こりうる。 コミュニケーションやタスク中心の課題によって、人々はロボットと対話しながら混乱するかもしれません。 円滑で活発なHRIを構築するためには、エージェントが単に混乱を検出するのが不十分である。 そこで本稿では,対話政策を言語的に設計し,対話の枠組みを構築し,対話者の混乱を緩和する手法を提案する。 また,このスケッチを概説し,その運用に関する課題について論じる。

Confusion is a mental state triggered by cognitive disequilibrium that can occur in many types of task-oriented interaction, including Human-Robot Interaction (HRI). People may become confused while interacting with robots due to communicative or even task-centred challenges. To build a smooth and engaging HRI, it is insufficient for an agent to simply detect confusion; instead, the system should aim to mitigate the situation. In light of this, in this paper, we present our approach to a linguistic design of dialogue policies to build a dialogue framework to alleviate interlocutor confusion. We also outline our sketch and discuss challenges with respect to its operationalisation.
翻訳日:2022-08-22 17:17:08 公開日:2022-08-19
# カプセルネットワークの効率化に向けて

Towards Efficient Capsule Networks ( http://arxiv.org/abs/2208.09203v1 )

ライセンス: Link先を確認
Riccardo Renzulli and Marco Grangetto(参考訳) ニューラルネットワークが画像処理の現場を支配した時から、目標とするタスクを解くのに必要な計算の複雑さが急増し、このような持続不可能なトレンドに対して、パフォーマンスの保存を野心的に狙った多くの戦略が開発されてきた。 例えば、スパーストポロジの促進は、組み込みのリソース制約のあるデバイスにディープニューラルネットワークモデルのデプロイを可能にする。 近年、カプセルネットワークはモデルの説明可能性を高めるために導入され、各カプセルは対象またはその部分の明示的な表現である。 これらのモデルはおもちゃのデータセットで有望な結果を示すが、スケーラビリティの低いため、より複雑なタスクへのデプロイが妨げられる。 本研究では,カプセル数を減らすことで計算効率を向上させるため,カプセル表現以外のスパーシティを探索する。 本稿では,Capsule Network を用いたプルーニングが,メモリ要件の低減,計算作業,推論とトレーニング時間といった高度な一般化を実現する方法を示す。

From the moment Neural Networks dominated the scene for image processing, the computational complexity needed to solve the targeted tasks skyrocketed: against such an unsustainable trend, many strategies have been developed, ambitiously targeting performance's preservation. Promoting sparse topologies, for example, allows the deployment of deep neural networks models on embedded, resource-constrained devices. Recently, Capsule Networks were introduced to enhance explainability of a model, where each capsule is an explicit representation of an object or its parts. These models show promising results on toy datasets, but their low scalability prevents deployment on more complex tasks. In this work, we explore sparsity besides capsule representations to improve their computational efficiency by reducing the number of capsules. We show how pruning with Capsule Network achieves high generalization with less memory requirements, computational effort, and inference and training time.
翻訳日:2022-08-22 17:13:52 公開日:2022-08-19
# Booster-SHOT:注意を伴う多視点歩行者検出のための積み重ねホログラフィ変換

Booster-SHOT: Boosting Stacked Homography Transformations for Multiview Pedestrian Detection with Attention ( http://arxiv.org/abs/2208.09211v1 )

ライセンス: Link先を確認
Jinwoo Hwang, Philipp Benz, Tae-hoon Kim(参考訳) マルチビューアグリゲーションの改善は、キャリブレーションされたカメラで撮影された画像から鳥視点歩行者占有マップを得ることを目的としているマルチビュー歩行者検出に不可欠である。 ディープニューラルネットワークにおけるアテンションモジュールの成功に触発されて,我々はまず,新しいチャネルゲートと空間ゲートを利用して,既存のエンドツーエンドのマルチビュー検出手法の性能向上を図ったHomography Attention Module (HAM)を提案する。 さらに,提案するHAMと,ビューコヒーレント拡張や階層化ホモグラフィ変換といった従来手法の要素を取り入れた,多視点歩行者検出のためのエンドツーエンドの畳み込み手法であるBooster-SHOTを提案する。 Booster-SHOTは、WildtrackとMultiviewXのMODAの92.9%と94.2%をそれぞれ達成し、WildtrackとMultiviewXの1.4%、MultiviewXの0.5%を上回り、マルチビューの歩行者検出に使用される標準的な評価指標の総合的なパフォーマンスを達成する。

Improving multi-view aggregation is integral for multi-view pedestrian detection, which aims to obtain a bird's-eye-view pedestrian occupancy map from images captured through a set of calibrated cameras. Inspired by the success of attention modules for deep neural networks, we first propose a Homography Attention Module (HAM) which is shown to boost the performance of existing end-to-end multiview detection approaches by utilizing a novel channel gate and spatial gate. Additionally, we propose Booster-SHOT, an end-to-end convolutional approach to multiview pedestrian detection incorporating our proposed HAM as well as elements from previous approaches such as view-coherent augmentation or stacked homography transformations. Booster-SHOT achieves 92.9% and 94.2% for MODA on Wildtrack and MultiviewX respectively, outperforming the state-of-the-art by 1.4% on Wildtrack and 0.5% on MultiviewX, achieving state-of-the-art performance overall for standard evaluation metrics used in multi-view pedestrian detection.
翻訳日:2022-08-22 17:13:37 公開日:2022-08-19
# somoformer:多人数動作予測のためのソーシャルアウェアモーショントランスフォーマー

SoMoFormer: Social-Aware Motion Transformer for Multi-Person Motion Prediction ( http://arxiv.org/abs/2208.09224v1 )

ライセンス: Link先を確認
Xiaogang Peng, Yaodi Shen, Haoran Wang, Binling Nie, Yigang Wang and Zizhao Wu(参考訳) 複数対人動作予測は、特に個人の動きと社会的相互作用の同時表現学習において、依然として困難な問題である。 以前の手法では、個々の運動に対する局所的なポーズダイナミクス(グローバルな身体の軌跡を含まずに)の学習と、社会的相互作用のための複雑な相互作用依存性の獲得に苦労している。 本稿では,個人の運動と社会的相互作用を協調的に効果的にモデル化するソーシャル・アウェア・モーショントランスフォーマー(somoformer)を提案する。 具体的には、SoMoFormerは変位軌道空間のサブシーケンスから運動特徴を抽出し、各個体の局所的およびグローバルなポーズダイナミクスを効果的に学習する。 さらに,SoMoFormerに新たなソーシャル・アウェアメント・アテンション・メカニズムを考案し,動的表現をさらに最適化し,時間と社会次元をまたいだ動作類似性計算によって相互依存を同時に捉える。 短期・長期の両面において,多人動データセットの枠組みを実証的に評価し,その手法が単人動と多人動予測の最先端手法を大きく上回っていることを示す。 コードは受理次第公開される予定だ。

Multi-person motion prediction remains a challenging problem, especially in the joint representation learning of individual motion and social interactions. Most prior methods only involve learning local pose dynamics for individual motion (without global body trajectory) and also struggle to capture complex interaction dependencies for social interactions. In this paper, we propose a novel Social-Aware Motion Transformer (SoMoFormer) to effectively model individual motion and social interactions in a joint manner. Specifically, SoMoFormer extracts motion features from sub-sequences in displacement trajectory space to effectively learn both local and global pose dynamics for each individual. In addition, we devise a novel social-aware motion attention mechanism in SoMoFormer to further optimize dynamics representations and capture interaction dependencies simultaneously via motion similarity calculation across time and social dimensions. On both short- and long-term horizons, we empirically evaluate our framework on multi-person motion datasets and demonstrate that our method greatly outperforms state-of-the-art methods of single- and multi-person motion prediction. Code will be made publicly available upon acceptance.
翻訳日:2022-08-22 17:13:13 公開日:2022-08-19
# シーンテキスト検出におけるシフト変動

Shift Variance in Scene Text Detection ( http://arxiv.org/abs/2208.09231v1 )

ライセンス: Link先を確認
Markus Glitzner, Jan-Hendrik Neudeck, Philipp H\"artinger(参考訳) 畳み込みニューラルネットワークの理論は、シフト同分散の性質、すなわちシフト入力が等しくシフトされた出力を引き起こすことを示唆する。 しかし実際には、必ずしもそうとは限らない。 これは、シーン内のテキストの位置に関わらず、一貫した空間応答が重要であるシーンのテキスト検出において大きな問題となる。 単純な合成実験を用いて,最先端の完全畳み込み文検出器の固有シフト分散を実証する。 さらに,同じ実験的な設定を用いて,アーキテクチャ変更がいかに小さく,シフト等価性が向上し,検出器出力のばらつきが小さくなるかを示す。 テキスト検出ネットワーク上で実世界のトレーニングスケジュールを用いて合成結果を検証する。 シフト変動量の定量化のために,確立されたテキスト検出ベンチマークに基づくメトリクスを提案する。 提案されたアーキテクチャ変更はシフト等価性を完全に回復することができないが、平滑化フィルタを追加することで、一般的なテキストデータセットのシフト一貫性が大幅に向上する。 小さいシフトによる潜在的大きな影響を考慮し,本研究で記述した指標を用いて,一般的なテキスト検出指標を拡張し,テキスト検出の一貫性を定量化することを提案する。

Theory of convolutional neural networks suggests the property of shift equivariance, i.e., that a shifted input causes an equally shifted output. In practice, however, this is not always the case. This poses a great problem for scene text detection for which a consistent spatial response is crucial, irrespective of the position of the text in the scene. Using a simple synthetic experiment, we demonstrate the inherent shift variance of a state-of-the-art fully convolutional text detector. Furthermore, using the same experimental setting, we show how small architectural changes can lead to an improved shift equivariance and less variation of the detector output. We validate the synthetic results using a real-world training schedule on the text detection network. To quantify the amount of shift variability, we propose a metric based on well-established text detection benchmarks. While the proposed architectural changes are not able to fully recover shift equivariance, adding smoothing filters can substantially improve shift consistency on common text datasets. Considering the potentially large impact of small shifts, we propose to extend the commonly used text detection metrics by the metric described in this work, in order to be able to quantify the consistency of text detectors.
翻訳日:2022-08-22 17:12:53 公開日:2022-08-19
# 適応時空間的注意による多様な映像キャプション

Diverse Video Captioning by Adaptive Spatio-temporal Attention ( http://arxiv.org/abs/2208.09266v1 )

ライセンス: Link先を確認
Zohreh Ghaderi, Leonard Salewski, Hendrik P. A. Lensch(参考訳) ビデオの適切なキャプションを生成するには、関連する概念を特定し、それらの間の空間的関係と、クリップの時間的発展に注意を払う必要がある。 エンドツーエンドエンコーダ・デコーダビデオキャプションフレームワークは,2つのトランスフォーマベースのアーキテクチャと,1つのジョイント時空間ビデオ解析に適応したトランスフォーマと,高度なテキスト生成のためのセルフアテンションベースのデコーダを組み込んでいる。 さらに,両変圧器を訓練する際の関連コンテンツを維持しつつ,必要なフレーム数を削減する適応フレーム選択方式を提案する。 さらに,ビデオキャプションに関連する意味概念を,各サンプルのすべての真実キャプションを集約することで推定する。 提案手法は,複数の自然言語生成(NLG)指標を考慮した大規模MSR-VTTおよびVATEXベンチマークデータセットと同様に,MSVDの最先端結果を実現する。 多様性スコアに関するさらなる評価は、生成されたキャプションの構造における表現性と多様性を強調している。

To generate proper captions for videos, the inference needs to identify relevant concepts and pay attention to the spatial relationships between them as well as to the temporal development in the clip. Our end-to-end encoder-decoder video captioning framework incorporates two transformer-based architectures, an adapted transformer for a single joint spatio-temporal video analysis as well as a self-attention-based decoder for advanced text generation. Furthermore, we introduce an adaptive frame selection scheme to reduce the number of required incoming frames while maintaining the relevant content when training both transformers. Additionally, we estimate semantic concepts relevant for video captioning by aggregating all ground truth captions of each sample. Our approach achieves state-of-the-art results on the MSVD, as well as on the large-scale MSR-VTT and the VATEX benchmark datasets considering multiple Natural Language Generation (NLG) metrics. Additional evaluations on diversity scores highlight the expressiveness and diversity in the structure of our generated captions.
翻訳日:2022-08-22 17:12:32 公開日:2022-08-19
# 放射線科医としての診断 : 属性に基づく医用画像診断のためのハイブリッド神経確率推論

Diagnose Like a Radiologist: Hybrid Neuro-Probabilistic Reasoning for Attribute-Based Medical Image Diagnosis ( http://arxiv.org/abs/2208.09282v1 )

ライセンス: Link先を確認
Gangming Zhao, Quanlong Feng, Chaoqi Chen, Zhen Zhou, Yizhou Yu(参考訳) 臨床実践中、放射線科医は疾患の診断を支援するために、例えば病変の形態的、外観的特徴などの属性をしばしば使用する。 属性と属性に関連するすべての関係を効果的にモデル化することで、医用画像診断アルゴリズムの一般化能力と妥当性を高めることができる。 本稿では,属性に基づく医用画像診断のためのハイブリッド型神経確率推論アルゴリズムを提案する。 ハイブリッドアルゴリズムには,確率的因果関係推論を行うベイズネットワーク分枝と,特徴表現を用いたより汎用的な関係モデリングと推論を行うグラフ畳み込みネットワーク分枝の2つの並列分枝がある。 これら2つの枝間の密結合は、ネットワーク間の注意機構とそれらの分類結果の融合によって達成される。 2つの難解な医用画像診断タスクにハイブリッド推論アルゴリズムを適用した。 CT画像における良性肺結節の良性分類のためのLIDC-IDRIベンチマークデータセットでは,新しい最先端精度95.36\%,AUC96.54\%を実現している。 また,結核診断のための胸部X線画像データセットの精度を3.24\%向上させた。 我々のアブレーション研究から,本アルゴリズムは非常に限られたトレーニングデータの下で,純粋なニューラルネットワークアーキテクチャよりもはるかに優れた一般化性能を実現できることが示された。

During clinical practice, radiologists often use attributes, e.g. morphological and appearance characteristics of a lesion, to aid disease diagnosis. Effectively modeling attributes as well as all relationships involving attributes could boost the generalization ability and verifiability of medical image diagnosis algorithms. In this paper, we introduce a hybrid neuro-probabilistic reasoning algorithm for verifiable attribute-based medical image diagnosis. There are two parallel branches in our hybrid algorithm, a Bayesian network branch performing probabilistic causal relationship reasoning and a graph convolutional network branch performing more generic relational modeling and reasoning using a feature representation. Tight coupling between these two branches is achieved via a cross-network attention mechanism and the fusion of their classification results. We have successfully applied our hybrid reasoning algorithm to two challenging medical image diagnosis tasks. On the LIDC-IDRI benchmark dataset for benign-malignant classification of pulmonary nodules in CT images, our method achieves a new state-of-the-art accuracy of 95.36\% and an AUC of 96.54\%. Our method also achieves a 3.24\% accuracy improvement on an in-house chest X-ray image dataset for tuberculosis diagnosis. Our ablation study indicates that our hybrid algorithm achieves a much better generalization performance than a pure neural network architecture under very limited training data.
翻訳日:2022-08-22 17:12:13 公開日:2022-08-19
# 時間と特徴を考慮した自己監督型視覚的位置認識

Self-Supervised Visual Place Recognition by Mining Temporal and Feature Neighborhoods ( http://arxiv.org/abs/2208.09315v1 )

ライセンス: Link先を確認
Chao Chen, Xinhao Liu, Xuchu Xu, Yiming Li, Li Ding, Ruoyu Wang, and Chen Feng(参考訳) ディープネットワークを用いた視覚的位置認識(VPR)は最先端の性能を達成した。 しかし、そのほとんどは、各観測所の空間的近傍の正と負のサンプルを得るために、地上の真実センサーを用いた訓練セットを必要とする。 このような情報が利用できない場合、シーケンシャルに収集されたデータストリームからの時間的近傍を自己教師付きトレーニングに活用することができる。 そこで我々は,時間的近傍と学習可能な特徴地区を用いて未知の空間近傍を発見する,新しい自己教師型フレームワーク「textit{TF-VPR}」を提案する。 本手法は,(1)データ拡張による表現学習,(2)現在の特徴空間を含む正集合展開,(3)幾何学的検証による正集合縮小を交互に行う反復学習パラダイムに従う。 我々は、RGB画像または点雲を入力として、シミュレーションと実データの両方で包括的な実験を行う。 その結果,本手法は,VPRに提案する新たな指標であるリコール率,ロバスト性,方向多様性において,ベースラインよりも優れていた。 コードとデータセットはhttps://ai4ce.github.io/TF-VPR/で確認できます。

Visual place recognition (VPR) using deep networks has achieved state-of-the-art performance. However, most of them require a training set with ground truth sensor poses to obtain positive and negative samples of each observation's spatial neighborhood for supervised learning. When such information is unavailable, temporal neighborhoods from a sequentially collected data stream could be exploited for self-supervised training, although we find its performance suboptimal. Inspired by noisy label learning, we propose a novel self-supervised framework named \textit{TF-VPR} that uses temporal neighborhoods and learnable feature neighborhoods to discover unknown spatial neighborhoods. Our method follows an iterative training paradigm which alternates between: (1) representation learning with data augmentation, (2) positive set expansion to include the current feature space neighbors, and (3) positive set contraction via geometric verification. We conduct comprehensive experiments on both simulated and real datasets, with either RGB images or point clouds as inputs. The results show that our method outperforms our baselines in recall rate, robustness, and heading diversity, a novel metric we propose for VPR. Our code and datasets can be found at https://ai4ce.github.io/TF-VPR/.
翻訳日:2022-08-22 17:11:28 公開日:2022-08-19
# IPNET:少数のショット学習のための流用プロトタイプネットワーク

IPNET:Influential Prototypical Networks for Few Shot Learning ( http://arxiv.org/abs/2208.09345v1 )

ライセンス: Link先を確認
Ranjana Roy Chowdhury, Deepti R. Bathula(参考訳) プロトタイプネットワーク(PN)は単純だが効果的なショットラーニング戦略である。 ユークリッド距離を計算して各クラスの原型表現に分類する,メートル法に基づくメタラーニング手法である。 従来のpn属性はすべてのサンプルに等しく重要であり、各クラスに属するサポートサンプル埋め込みを平均化することによってプロトタイプを生成する。 そこで本研究では, 支持試料分布への影響に対応する試料に重みを付与するPNの新たなバージョンを提案する。 試料を含む試料分布の平均埋込量と試料を除いた最大平均差(mmd)に基づいて試料の影響重みを算出する。 さらに, 試料の有無の分布変化に基づいて, MMDを用いて試料の影響係数を測定した。

Prototypical network (PN) is a simple yet effective few shot learning strategy. It is a metric-based meta-learning technique where classification is performed by computing Euclidean distances to prototypical representations of each class. Conventional PN attributes equal importance to all samples and generates prototypes by simply averaging the support sample embeddings belonging to each class. In this work, we propose a novel version of PN that attributes weights to support samples corresponding to their influence on the support sample distribution. Influence weights of samples are calculated based on maximum mean discrepancy (MMD) between the mean embeddings of sample distributions including and excluding the sample. Further, the influence factor of a sample is measured using MMD based on the shift in the distribution in the absence of that sample.
翻訳日:2022-08-22 17:11:06 公開日:2022-08-19
# VLMAE:ビジョンランゲージのマスケードオートエンコーダ

VLMAE: Vision-Language Masked Autoencoder ( http://arxiv.org/abs/2208.09374v1 )

ライセンス: Link先を確認
Sunan He, Taian Guo, Tao Dai, Ruizhi Qiao, Chen Wu, Xiujun Shu, Bo Ren(参考訳) 画像と言語モデリングは、大規模なペア画像テキストデータからマルチモーダル表現を学習することを目的とした視覚言語事前学習(VLP)において重要である。 しかし,既存のVLP手法のほとんどは,画像とテキスト間の相互作用をモデル化することに焦点を当て,画像とテキスト間の情報格差を無視し,焦点バイアスに悩まされている。 そこで本研究では,vlmae(vision-language masked autoencoder framework)を提案する。 VLMAEは視覚的生成学習を採用し、モデルが細粒度で偏りのない特徴を取得するのを容易にする。 以前の作品とは異なり、VLMAEは画像内のほぼすべての重要なパッチに注目し、より包括的な理解を提供する。 広汎な実験により、VLMAEは視覚的質問応答、画像テキスト検索、視覚的グラウンドニングを含む様々な視覚言語下流タスクにおいて、最大20%の事前学習スピードアップを達成できることを示した。

Image and language modeling is of crucial importance for vision-language pre-training (VLP), which aims to learn multi-modal representations from large-scale paired image-text data. However, we observe that most existing VLP methods focus on modeling the interactions between image and text features while neglecting the information disparity between image and text, thus suffering from focal bias. To address this problem, we propose a vision-language masked autoencoder framework (VLMAE). VLMAE employs visual generative learning, facilitating the model to acquire fine-grained and unbiased features. Unlike the previous works, VLMAE pays attention to almost all critical patches in an image, providing more comprehensive understanding. Extensive experiments demonstrate that VLMAE achieves better performance in various vision-language downstream tasks, including visual question answering, image-text retrieval and visual grounding, even with up to 20% pre-training speedup.
翻訳日:2022-08-22 17:10:55 公開日:2022-08-19
# Frank-Wolfeアルゴリズムを用いた長期文書の教師なし抽出要約のためのスパース最適化

Sparse Optimization for Unsupervised Extractive Summarization of Long Documents with the Frank-Wolfe Algorithm ( http://arxiv.org/abs/2208.09454v1 )

ライセンス: Link先を確認
Alicia Y. Tsai, Laurent El Ghaoui(参考訳) 本稿では,特に長い文書について,教師なし抽出文書要約の問題に対処する。 我々は、教師なし問題をスパース自己回帰問題としてモデル化し、凸・ノルム制約問題を用いて結果の組合せ問題を近似する。 専用Frank-Wolfeアルゴリズムを用いて解く。 k$文で要約を生成するには、アルゴリズムは$\approx k$イテレーションを実行するだけでよく、非常に効率的である。 本稿では,全勾配の明示的な計算を避ける方法と文埋め込み情報を含める方法について述べる。 我々は,語彙(標準)ROUGEスコアと意味(埋め込みに基づく)スコアを用いて,他の2つの教師なし手法に対するアプローチを評価する。 本手法はデータセットの双方でより優れた結果を得ることができ,高度にパラフレッシュなサマリーの組込みと組み合わせると特にうまく機能する。

We address the problem of unsupervised extractive document summarization, especially for long documents. We model the unsupervised problem as a sparse auto-regression one and approximate the resulting combinatorial problem via a convex, norm-constrained problem. We solve it using a dedicated Frank-Wolfe algorithm. To generate a summary with $k$ sentences, the algorithm only needs to execute $\approx k$ iterations, making it very efficient. We explain how to avoid explicit calculation of the full gradient and how to include sentence embedding information. We evaluate our approach against two other unsupervised methods using both lexical (standard) ROUGE scores, as well as semantic (embedding-based) ones. Our method achieves better results with both datasets and works especially well when combined with embeddings for highly paraphrased summaries.
翻訳日:2022-08-22 17:08:18 公開日:2022-08-19
# GreenKGC:軽量な知識グラフ補完方法

GreenKGC: A Lightweight Knowledge Graph Completion Method ( http://arxiv.org/abs/2208.09137v1 )

ライセンス: Link先を確認
Yun-Cheng Wang, Xiou Ge, Bin Wang, C.-C. Jay Kuo(参考訳) 知識グラフ補完(KGC)は、知識グラフ(KG)におけるエンティティ間の欠落した関係を発見することを目的としている。 初期のKGC研究は、エンティティとリレーションのための学習表現に焦点を当てていた。 しかし、より高次元の埋め込み空間は、より優れた推論能力のために要求されるため、モデルのサイズが大きくなり、現実世界の問題(大規模なKGやモバイル/エッジコンピューティングなど)への適用が妨げられる。 この問題に対処するために,GreenKGCと呼ばれる軽量モジュール化KGCソリューションが提案されている。 GreenKGCは3つのモジュールから構成される。 1)表現学習 2)特徴の刈り込み,及び 3)意思決定。 モジュール1では、既存のkg埋め込みモデルを利用してエンティティとリレーションの高次元表現を学習する。 モジュール2では、kg は複数の関係群に分割され、その後、各関係群に対して最も識別的な特徴を見つけるための特徴プラニングプロセスが続く。 最後に、モジュール3におけるKGCタスクの低次元三重特徴に対応するために、各関係群に分類器を割り当てる。 広範に使用されている4つのリンク予測データセット上でのGreenKGCの性能を評価し、モデルサイズがはるかに小さいオリジナルの高次元埋め込みに対して、GreenKGCが同等あるいはさらに優れた性能が得られることを観察した。 さらに、2つの3重分類データセットを用いて、同じ方法論がより多くのタスクに一般化できることを実証する。

Knowledge graph completion (KGC) aims to discover missing relationships between entities in knowledge graphs (KGs). Most prior KGC work focuses on learning representations for entities and relations. Yet, a higher-dimensional embedding space is usually required for a better reasoning capability, which leads to a larger model size and hinders applicability to real-world problems (e.g., large-scale KGs or mobile/edge computing). A lightweight modularized KGC solution, called GreenKGC, is proposed in this work to address this issue. GreenKGC consists of three modules: 1) representation learning, 2) feature pruning, and 3) decision learning. In Module 1, we leverage existing KG embedding models to learn high-dimensional representations for entities and relations. In Module 2, the KG is partitioned into several relation groups followed by a feature pruning process to find the most discriminant features for each relation group. Finally, a classifier is assigned to each relation group to cope with low-dimensional triple features for KGC tasks in Module 3. We evaluate the performance of GreenKGC on four widely used link prediction datasets and observe that GreenKGC can achieve comparable or even better performance against original high-dimensional embeddings with a much smaller model size. Furthermore, we experiment on two triple classification datasets to demonstrate that the same methodology can generalize to more tasks.
翻訳日:2022-08-22 17:08:03 公開日:2022-08-19
# NeIF:未校正光度ステレオの一般反射をニューラル固有場として表現する

NeIF: Representing General Reflectance as Neural Intrinsics Fields for Uncalibrated Photometric Stereo ( http://arxiv.org/abs/2208.08897v2 )

ライセンス: Link先を確認
Zongrui Li, Qian Zheng, Feishi Wang, Boxin Shi, Gang Pan, Xudong Jiang(参考訳) 非平衡測光ステレオ(UPS)は、未知の光によってもたらされる固有の曖昧さのために困難である。 既存の解は、光条件への反射を明示的に関連付けるか、監督された方法で光条件を解消することによって曖昧さを緩和する。 本稿では,光手がかりと光推定の暗黙の関係を確立し,教師なしの方法でUPSを解く。 重要なアイデアは、反射率を4つの神経内在性場、すなわち位置、光、鏡面、影として表現することである。 ニューラルネットワークフィールドの教師なし共同最適化は、トレーニングデータバイアスや累積誤差から解放され、UPSのすべての観測画素値を完全に活用することができる。 提案手法は,正規かつ挑戦的な設定の下で,公開および自己コンパイルされたデータセット上での最先端UPS手法よりも優れた性能を実現する。 コードはまもなくリリースされる。

Uncalibrated photometric stereo (UPS) is challenging due to the inherent ambiguity brought by unknown light. Existing solutions alleviate the ambiguity by either explicitly associating reflectance to light conditions or resolving light conditions in a supervised manner. This paper establishes an implicit relation between light clues and light estimation and solves UPS in an unsupervised manner. The key idea is to represent the reflectance as four neural intrinsics fields, i.e., position, light, specular, and shadow, based on which the neural light field is implicitly associated with light clues of specular reflectance and cast shadow. The unsupervised, joint optimization of neural intrinsics fields can be free from training data bias as well as accumulating error, and fully exploits all observed pixel values for UPS. Our method achieves a superior performance advantage over state-of-the-art UPS methods on public and self-collected datasets, under regular and challenging setups. The code will be released soon.
翻訳日:2022-08-22 17:07:39 公開日:2022-08-19
# 異方性球面ガウスを用いた顔ポーズ推定のための不偏ラベル分布学習

Towards Unbiased Label Distribution Learning for Facial Pose Estimation Using Anisotropic Spherical Gaussian ( http://arxiv.org/abs/2208.09122v1 )

ライセンス: Link先を確認
Zhiwen Cao, Dongfang Liu, Qifan Wang, Yingjie Chen(参考訳) 顔のポーズ推定は、単一のRGB画像から顔の向きを予測するタスクを指す。 コンピュータビジョンにおける幅広い応用分野において重要な研究テーマである。 ラベル分布学習(LDL)に基づく顔のポーズ推定法が最近提案され,有望な結果が得られた。 しかし、既存のLCL法には2つの大きな問題がある。 まず、ラベル分布の期待値が偏り、偏りのあるポーズ推定となる。 第二に、固定分布パラメータが全ての学習サンプルに適用され、モデル能力が著しく制限される。 本稿では,Anisotropic Spherical Gaussian (ASG) を用いた顔ポーズ推定のためのLCL手法を提案する。 特に, 単位球面上の球面ガウス分布は, 常に偏りのない期待値を生成する。 一方,ネットワークが各学習サンプルの分布パラメータを柔軟に学習できる新たな損失関数を導入する。 実験結果から,AFLW2000およびBIWIデータセットに新たな最先端記録が設定された。

Facial pose estimation refers to the task of predicting face orientation from a single RGB image. It is an important research topic with a wide range of applications in computer vision. Label distribution learning (LDL) based methods have been recently proposed for facial pose estimation, which achieve promising results. However, there are two major issues in existing LDL methods. First, the expectations of label distributions are biased, leading to a biased pose estimation. Second, fixed distribution parameters are applied for all learning samples, severely limiting the model capability. In this paper, we propose an Anisotropic Spherical Gaussian (ASG)-based LDL approach for facial pose estimation. In particular, our approach adopts the spherical Gaussian distribution on a unit sphere which constantly generates unbiased expectation. Meanwhile, we introduce a new loss function that allows the network to learn the distribution parameter for each learning sample flexibly. Extensive experimental results show that our method sets new state-of-the-art records on AFLW2000 and BIWI datasets.
翻訳日:2022-08-22 17:06:49 公開日:2022-08-19
# 符号列生成のためのCodeUnetを用いたベクトル量子拡散モデル

Vector Quantized Diffusion Model with CodeUnet for Text-to-Sign Pose Sequences Generation ( http://arxiv.org/abs/2208.09141v1 )

ライセンス: Link先を確認
Pan Xie, Qipeng Zhang, Zexian Li, Hao Tang, Yao Du, Xiaohui Hu(参考訳) 手話生成(SLP)は、音声言語を手話列に自動的に翻訳することを目的としている。 SLPのコアプロセスは、サイングロス配列を対応するサインポーズシーケンス(G2P)に変換することである。 既存のG2Pモデルは、通常、この条件付き長距離生成を自己回帰的に実行し、必然的にエラーの蓄積につながる。 そこで本研究では, 条件付きポーズ列生成のためのベクトル量子化拡散法として, posevq-diffusion を提案する。 具体的には,まず,ベクトル量子化変分オートエンコーダ(pose-vqvae)モデルを導入し,ポーズ列を潜在符号列として表現する。 次に,最近開発された拡散構造の拡張により,潜在離散空間をモデル化する。 空間時間情報をよりよく活用するために、離散空間における高品質なポーズシーケンスを生成する新しいアーキテクチャ、CodeUnetを導入する。 さらに,学習符号を生かして,対応するグロスシーケンスに対するポーズ列の可変長を予測するための,新しい逐次k-nearest-neighbours法を開発した。 その結果, 自己回帰型G2Pモデルと比較すると, サンプリング速度が速く, より優れた結果が得られることがわかった。 従来の非自己回帰型g2p法と比較して, posevq-diffusion は反復的な改良により予測結果を改善し,slp 評価ベンチマークで最新の結果を得た。

Sign Language Production (SLP) aims to translate spoken languages into sign sequences automatically. The core process of SLP is to transform sign gloss sequences into their corresponding sign pose sequences (G2P). Most existing G2P models usually perform this conditional long-range generation in an autoregressive manner, which inevitably leads to an accumulation of errors. To address this issue, we propose a vector quantized diffusion method for conditional pose sequences generation, called PoseVQ-Diffusion, which is an iterative non-autoregressive method. Specifically, we first introduce a vector quantized variational autoencoder (Pose-VQVAE) model to represent a pose sequence as a sequence of latent codes. Then we model the latent discrete space by an extension of the recently developed diffusion architecture. To better leverage the spatial-temporal information, we introduce a novel architecture, namely CodeUnet, to generate higher quality pose sequence in the discrete space. Moreover, taking advantage of the learned codes, we develop a novel sequential k-nearest-neighbours method to predict the variable lengths of pose sequences for corresponding gloss sequences. Consequently, compared with the autoregressive G2P models, our model has a faster sampling speed and produces significantly better results. Compared with previous non-autoregressive G2P methods, PoseVQ-Diffusion improves the predicted results with iterative refinements, thus achieving state-of-the-art results on the SLP evaluation benchmark.
翻訳日:2022-08-22 17:06:35 公開日:2022-08-19
# 自己教師付きマルチフレーム深層学習のための単眼手技と速度指導

Crafting Monocular Cues and Velocity Guidance for Self-Supervised Multi-Frame Depth Learning ( http://arxiv.org/abs/2208.09170v1 )

ライセンス: Link先を確認
Xiaofeng Wang and Zheng Zhu and Guan Huang and Xu Chi and Yun Ye and Ziwei Chen and Xingang Wang(参考訳) 自己教師付き単眼法は、弱いテクスチャ表面や反射対象の深さ情報を効率的に学習することができる。 しかし,単眼幾何モデリングに固有のあいまいさのため,深さ精度は限られている。 対照的に、マルチフレーム深度推定法は、幾何学的制約を直接利用するマルチビューステレオ(mvs)の成功により、深度精度を向上させる。 残念ながらmvsはテクスチャのない領域、非ランバート曲面、移動物体、特にカメラの動きや深度の監督がない実世界のビデオシーケンスに苦しむことが多い。 そこで本研究では,単眼手がかりと速度指導を活用し,マルチフレーム深層学習を改善するmovedepthを提案する。 MVS深度と単眼深度との整合性を強制する既存の方法とは異なり、MOVEDepthはMVS固有の問題に直接対処することで、多眼深度学習を促進する。 提案手法の鍵は,mvsコストボリュームの幾何学的優先順位として単眼深度を活用し,カメラ速度予測の指導下でコスト体積の深さ候補を調整することである。 さらに,コストボリュームの不確かさを学習することにより,単分子深度とMVS深度を融合させ,マルチビュー幾何におけるあいまいさに対して頑健な深度推定を行う。 提案手法はMonodepth2 と PackNet と比較して,KITTI ベンチマークの深さ精度を 20 % と 19.8 % で相対的に改善する。 MOVEDepthはまた、より難しいDDADベンチマークに一般化し、MaryDepthを7.2\%上回る。 コードはhttps://github.com/JeffWang987/MOVEDepth.comで公開されている。

Self-supervised monocular methods can efficiently learn depth information of weakly textured surfaces or reflective objects. However, the depth accuracy is limited due to the inherent ambiguity in monocular geometric modeling. In contrast, multi-frame depth estimation methods improve the depth accuracy thanks to the success of Multi-View Stereo (MVS), which directly makes use of geometric constraints. Unfortunately, MVS often suffers from texture-less regions, non-Lambertian surfaces, and moving objects, especially in real-world video sequences without known camera motion and depth supervision. Therefore, we propose MOVEDepth, which exploits the MOnocular cues and VElocity guidance to improve multi-frame Depth learning. Unlike existing methods that enforce consistency between MVS depth and monocular depth, MOVEDepth boosts multi-frame depth learning by directly addressing the inherent problems of MVS. The key of our approach is to utilize monocular depth as a geometric priority to construct MVS cost volume, and adjust depth candidates of cost volume under the guidance of predicted camera velocity. We further fuse monocular depth and MVS depth by learning uncertainty in the cost volume, which results in a robust depth estimation against ambiguity in multi-view geometry. Extensive experiments show MOVEDepth achieves state-of-the-art performance: Compared with Monodepth2 and PackNet, our method relatively improves the depth accuracy by 20\% and 19.8\% on the KITTI benchmark. MOVEDepth also generalizes to the more challenging DDAD benchmark, relatively outperforming ManyDepth by 7.2\%. The code is available at https://github.com/JeffWang987/MOVEDepth.
翻訳日:2022-08-22 17:06:09 公開日:2022-08-19
# 人間の分析における合成データ:調査

Synthetic Data in Human Analysis: A Survey ( http://arxiv.org/abs/2208.09191v1 )

ライセンス: Link先を確認
Indu Joshi, Marcel Grimmer, Christian Rathgeb, Christoph Busch, Francois Bremond, Antitza Dantcheva(参考訳) ディープニューラルネットワークは、人間の分析において普及し、生体認証、行動認識、人物の再識別などのアプリケーションの性能を高めている。 しかし、そのようなネットワークの性能は、利用可能なトレーニングデータと共にスケールする。 人間の分析では、データ収集は退屈で時間のかかる、費用がかかり、データ保護法に従わなければならないため、大規模なデータセットの需要は厳しい課題となる。 現在の研究は、現場で実データを集めるための効率的でプライバシーを侵害する代替手段として、 \textit{synthetic data} の生成を調査している。 本研究は,人間分析のための合成データの生成と活用に不可欠な基本的定義と方法論を紹介する。 我々は,現在最先端の手法と合成データの利用の主な利点を要約した調査を行う。 また、利用可能な合成データセットと生成モデルの概観も提供する。 最後に、この分野でのオープンな研究課題と同様に、制限についても論じる。 この調査は、人間分析の分野の研究者や実践者を対象としている。

Deep neural networks have become prevalent in human analysis, boosting the performance of applications, such as biometric recognition, action recognition, as well as person re-identification. However, the performance of such networks scales with the available training data. In human analysis, the demand for large-scale datasets poses a severe challenge, as data collection is tedious, time-expensive, costly and must comply with data protection laws. Current research investigates the generation of \textit{synthetic data} as an efficient and privacy-ensuring alternative to collecting real data in the field. This survey introduces the basic definitions and methodologies, essential when generating and employing synthetic data for human analysis. We conduct a survey that summarises current state-of-the-art methods and the main benefits of using synthetic data. We also provide an overview of publicly available synthetic datasets and generation models. Finally, we discuss limitations, as well as open research problems in this field. This survey is intended for researchers and practitioners in the field of human analysis.
翻訳日:2022-08-22 17:05:38 公開日:2022-08-19
# EAA-Net: 医用画像セグメンテーションのためのクラス内機能を備えたオートエンコーダアーキテクチャ再考

EAA-Net: Rethinking the Autoencoder Architecture with Intra-class Features for Medical Image Segmentation ( http://arxiv.org/abs/2208.09197v1 )

ライセンス: Link先を確認
Shiqiang Ma, Xuejian Li, Jijun Tang, Fei Guo(参考訳) 画像の自動分割技術は視覚的解析に不可欠である。 autoencoderアーキテクチャは、様々な画像分割タスクのパフォーマンスを満足させる。 しかし、畳み込みニューラルネットワーク(CNN)に基づくオートエンコーダは、セマンティックセグメンテーションの精度向上にボトルネックに直面しているように見える。 前景と背景の間のクラス間距離の増加はセグメンテーションネットワークの固有の特徴である。 しかしながら、セグメンテーションネットワークは、フォアグラウンドとバックグラウンドの主な視覚的差異にあまりに注意を払っており、エッジセグメンテーションの精度の低下につながる詳細なエッジ情報を無視している。 本稿では,エッジアテンション・オートエンコーダネットワーク(EAA-Net)と呼ばれるマルチタスク学習に基づく軽量なエンドツーエンドセグメンテーションフレームワークを提案し,エッジセグメンテーション能力を向上させる。 本手法は,クラス間特徴の獲得にセグメント化ネットワークを利用するだけでなく,前景間のクラス内特徴の抽出にもレコンストラクションネットワークを適用する。 さらに、クラス内およびクラス間の機能融合モジュール -- i2 fusionモジュールを設計。 I2融合モジュールは、クラス内およびクラス間機能をマージし、ソフトアテンション機構を使用して、無効なバックグラウンド情報を削除する。 実験の結果, 医用画像分割作業は良好であった。 EAA-Netの実装が容易で、計算コストも小さい。

Automatic image segmentation technology is critical to the visual analysis. The autoencoder architecture has satisfying performance in various image segmentation tasks. However, autoencoders based on convolutional neural networks (CNN) seem to encounter a bottleneck in improving the accuracy of semantic segmentation. Increasing the inter-class distance between foreground and background is an inherent characteristic of the segmentation network. However, segmentation networks pay too much attention to the main visual difference between foreground and background, and ignores the detailed edge information, which leads to a reduction in the accuracy of edge segmentation. In this paper, we propose a light-weight end-to-end segmentation framework based on multi-task learning, termed Edge Attention autoencoder Network (EAA-Net), to improve edge segmentation ability. Our approach not only utilizes the segmentation network to obtain inter-class features, but also applies the reconstruction network to extract intra-class features among the foregrounds. We further design a intra-class and inter-class features fusion module -- I2 fusion module. The I2 fusion module is used to merge intra-class and inter-class features, and use a soft attention mechanism to remove invalid background information. Experimental results show that our method performs well in medical image segmentation tasks. EAA-Net is easy to implement and has small calculation cost.
翻訳日:2022-08-22 17:05:24 公開日:2022-08-19
# TTT-UCDR:ユニバーサルクロスドメイン検索のためのテストタイムトレーニング

TTT-UCDR: Test-time Training for Universal Cross-Domain Retrieval ( http://arxiv.org/abs/2208.09198v1 )

ライセンス: Link先を確認
Soumava Paul, Aheli Saha, Abhishek Samanta(参考訳) 画像検索はコンピュータビジョンにおけるニッチな問題であり、クエリを使ってデータベースで類似した画像を見つける。 本研究では,Universal Cross-Domain Retrieval (UCDR)の下での分散シフトに適応するためのテストタイムトレーニング手法を文献で初めて採用する。 これまでテストタイムトレーニングは、画像分類、ドメイン適応、セマンティックセグメンテーション、ゼロショットスケッチベース画像検索(ZS-SBIR)の一般化誤差を低減することが示されている。 UCDRでは、ZS-SBIRに存在する未知のカテゴリのセマンティックシフトに加えて、未知のドメインの存在はさらに高い分布シフトをもたらす。 このドメインギャップを埋めるために、テスト時にトレーニング済みネットワーク上でBarlow Twins、Jigsaw Puzzle、RotNetという3つの異なる損失を通じてセルフスーパービジョンを使用します。 この単純なアプローチはUCDRベンチマークの改善と、挑戦的なデータセットの一般化設定の下でモデルの堅牢性の向上につながる。

Image retrieval is a niche problem in computer vision curated towards finding similar images in a database using a query. In this work, for the first time in literature, we employ test-time training techniques for adapting to distribution shifts under Universal Cross-Domain Retrieval (UCDR). Test-time training has previously been shown to reduce generalization error for image classification, domain adaptation, semantic segmentation, and zero-shot sketch-based image retrieval (ZS-SBIR). In UCDR, in addition to the semantic shift of unknown categories present in ZS-SBIR, the presence of unknown domains leads to even higher distribution shifts. To bridge this domain gap, we use self-supervision through 3 different losses - Barlow Twins, Jigsaw Puzzle and RotNet on a pretrained network at test-time. This simple approach leads to improvements on UCDR benchmarks and also improves model robustness under a challenging cross-dataset generalization setting.
翻訳日:2022-08-22 17:05:01 公開日:2022-08-19
# 音声に基づく感情認識のための特徴選択強調と特徴空間可視化

Feature Selection Enhancement and Feature Space Visualization for Speech-Based Emotion Recognition ( http://arxiv.org/abs/2208.09269v1 )

ライセンス: Link先を確認
Sofia Kanwal, Sohail Asghar, Hazrat Ali(参考訳) 頑健な音声感情認識は、音声特徴の品質に依存する。 音声の感情認識を改善する音声特徴強調戦略を提案する。 私たちは、InterSPEECH 2010 Challenge機能セットを使用しました。 機能セットからサブセットを特定し,そのサブセットに原則コンポーネント分析を適用した。 最後に、特徴を水平に融合する。 得られた特徴集合は、感情認識のための特徴の応用の前に、t分散近傍埋め込み(t-SNE)を用いて分析される。 本手法は,文献で用いられる最先端の手法と比較する。 経験的証拠は、感情音声データセット(EMO-DB)とRyerson Audio-Visual Database of Emotional Speech and Song(RAVDESS)の2つのよく知られたデータセットを用いて記述される。 本手法は,emo-dbデータセットの7つの感情のうち6つのうち11.5\%,ravedessデータセットの8つの感情のうち7つのうち13.8\%の平均認識ゲインを達成した。

Robust speech emotion recognition relies on the quality of the speech features. We present speech features enhancement strategy that improves speech emotion recognition. We used the INTERSPEECH 2010 challenge feature-set. We identified subsets from the features set and applied Principle Component Analysis to the subsets. Finally, the features are fused horizontally. The resulting feature set is analyzed using t-distributed neighbour embeddings (t-SNE) before the application of features for emotion recognition. The method is compared with the state-of-the-art methods used in the literature. The empirical evidence is drawn using two well-known datasets: Emotional Speech Dataset (EMO-DB) and Ryerson Audio-Visual Database of Emotional Speech and Song (RAVDESS) for two languages, German and English, respectively. Our method achieved an average recognition gain of 11.5\% for six out of seven emotions for the EMO-DB dataset, and 13.8\% for seven out of eight emotions for the RAVDESS dataset as compared to the baseline study.
翻訳日:2022-08-22 17:01:52 公開日:2022-08-19
# 機械学習のための非線形光データ変換器

Nonlinear Optical Data Transformer for Machine Learning ( http://arxiv.org/abs/2208.09398v1 )

ライセンス: Link先を確認
Mustafa Yildirim, Ilker Oguz, Fabian Kaufmann, Marc Reig Escale, Rachel Grange, Demetri Psaltis and Christophe Moser(参考訳) 現代の機械学習モデルは、より優れたパフォーマンスを得るために、大きなデータセットで1750億のパラメータをトレーニングするために、ますます多くのパラメータを使用する。 大きい方がよいのが標準だった。 光コンピューティングは、電力を減らしながら線形演算を行う光加速器による大規模コンピューティングの潜在的な解決策として再認識されている。 しかし、光による効率的な計算を実現するためには、電子的にではなく光学的に非線形性を作成し制御することが課題である。 本研究は,LiNbO3の14mm長の多モード導波路を複合非線形光学プロセッサとして使用する貯留層計算(RC)手法について検討する。 データセットはフェムト秒パルスのスペクトル上にデジタル符号化され、導波路で起動される。 出力スペクトルは入力に非線形に依存する。 入力として導波管からの出力スペクトルを用いた784パラメータの単純なディジタル線形分類器は, 変形しないデータに比べて, 複数データベースの分類精度を約10$\%$に向上させることを示した。 同じ精度を達成するためには、40000パラメータのディープ・デジタル・ニューラル・ネットワーク(nn)が必要であった。 パラメータ数を$\sim$50の係数で減少させることは、デジタルNNと同等にコンパクトな光学RCアプローチを実現できることを示している。

Modern machine learning models use an ever-increasing number of parameters to train (175 billion parameters for GPT-3) with large datasets to obtain better performance. Bigger is better has been the norm. Optical computing has been reawakened as a potential solution to large-scale computing through optical accelerators that carry out linear operations while reducing electrical power. However, to achieve efficient computing with light, creating and controlling nonlinearity optically rather than electronically remains a challenge. This study explores a reservoir computing (RC) approach whereby a 14 mm long few-mode waveguide in LiNbO3 on insulator is used as a complex nonlinear optical processor. A dataset is encoded digitally on the spectrum of a femtosecond pulse which is then launched in the waveguide. The output spectrum depends nonlinearly on the input. We experimentally show that a simple digital linear classifier with 784 parameters using the output spectrum from the waveguide as input increased the classification accuracy of several databases compared to non-transformed data, approximately 10$\%$. In comparison, a deep digital neural network (NN) with 40000 parameters was necessary to achieve the same accuracy. Reducing the number of parameters by a factor of $\sim$50 illustrates that a compact optical RC approach can perform on par with a deep digital NN.
翻訳日:2022-08-22 17:01:35 公開日:2022-08-19
# フェデレーションベストアーム識別におけるほぼ無償通信

Almost Cost-Free Communication in Federated Best Arm Identification ( http://arxiv.org/abs/2208.09215v1 )

ライセンス: Link先を確認
Kota Srinivas Reddy, P. N. Karthik, and Vincent Y. F. Tan(参考訳) 中央サーバと複数のクライアントを備えた多腕バンディット構成の連合学習における最適なアーム識別の問題について検討する。 それぞれのクライアントは多腕のバンディットに関連付けられており、各アームはガウス分布に従えば、未知の平均と既知の分散を持つ。 腕のセットは、すべてのクライアントで同じであると仮定されます。 ベストアームの2つの概念 — ローカルとグローバル – を定義します。 クライアントのローカルな最高の腕は、クライアントのローカルな腕の中で最大の平均を持つ腕であり、グローバルな最高の腕は、すべてのクライアントに対して最も平均的な平均を持つ腕である。 各クライアントは、そのローカルアームからのみ報酬を観察でき、それによってローカルのベストアームを推定できると仮定する。 クライアントはアップリンク上の中央サーバと通信し、アップリンクあたりの使用量あたり$c\ge0$のコストがかかる。 グローバルなベストアームはサーバで推定されます。 目標は、すべてのクライアントにおけるアーム選択の総数と通信コストの総和として定義され、エラー確率の上限が上限となるような、最小限のコストで、ローカルなベストアームとグローバルベストアームを特定することである。 本研究では,逐次除去法に基づく新しいアルゴリズムであるscフェデリアムを提案し,指数時間ステップでのみ通信し,その総コストに対して高い確率インスタンス依存上限を求める。 我々の論文から得られる重要な点は、C\geq 0$とエラー確率が十分に小さい場合、腕の選択総数(resp)である。 総コスト ( \ the total cost) {\sc fedelim} は最大で 2$ (resp.~$3$) であり、全ての時間ステップで通信するその変種の下でのarm選択の最大数である。 さらに、後者は、一定要素まで期待する上で最適であることを示し、したがって、通信が {\sc FedElim} においてほとんど費用がかからないことを示す。 我々は, {\sc FedElim} の有効性を数値的に検証した。

We study the problem of best arm identification in a federated learning multi-armed bandit setup with a central server and multiple clients. Each client is associated with a multi-armed bandit in which each arm yields {\em i.i.d.}\ rewards following a Gaussian distribution with an unknown mean and known variance. The set of arms is assumed to be the same at all the clients. We define two notions of best arm -- local and global. The local best arm at a client is the arm with the largest mean among the arms local to the client, whereas the global best arm is the arm with the largest average mean across all the clients. We assume that each client can only observe the rewards from its local arms and thereby estimate its local best arm. The clients communicate with a central server on uplinks that entail a cost of $C\ge0$ units per usage per uplink. The global best arm is estimated at the server. The goal is to identify the local best arms and the global best arm with minimal total cost, defined as the sum of the total number of arm selections at all the clients and the total communication cost, subject to an upper bound on the error probability. We propose a novel algorithm {\sc FedElim} that is based on successive elimination and communicates only in exponential time steps and obtain a high probability instance-dependent upper bound on its total cost. The key takeaway from our paper is that for any $C\geq 0$ and error probabilities sufficiently small, the total number of arm selections (resp.\ the total cost) under {\sc FedElim} is at most~$2$ (resp.~$3$) times the maximum total number of arm selections under its variant that communicates in every time step. Additionally, we show that the latter is optimal in expectation up to a constant factor, thereby demonstrating that communication is almost cost-free in {\sc FedElim}. We numerically validate the efficacy of {\sc FedElim}.
翻訳日:2022-08-22 17:01:19 公開日:2022-08-19
# 文書レベルニューラルマシン翻訳のための談話結合評価

Discourse Cohesion Evaluation for Document-Level Neural Machine Translation ( http://arxiv.org/abs/2208.09118v1 )

ライセンス: Link先を確認
Xin Tan and Longyin Zhang and Guodong Zhou(参考訳) 優れた文書レベルのニューラルマシン翻訳(NMT)モデルによって生成された翻訳は一貫性があり一貫性があることが知られている。 しかし、bleuのような既存の文レベルの評価指標は、文書レベルでのモデルのパフォーマンスをほとんど反映できない。 そこで本稿では,文書翻訳の凝集度を測定するための4つの結合方法(参照,結合,置換,語彙結合)を考慮した新しいテストスイートを提案する。 近年の文書レベルのNMTシステムにおける評価結果から,本手法は文書レベルでの翻訳を推定するのに不可欠であることが示された。

It is well known that translations generated by an excellent document-level neural machine translation (NMT) model are consistent and coherent. However, existing sentence-level evaluation metrics like BLEU can hardly reflect the model's performance at the document level. To tackle this issue, we propose a Discourse Cohesion Evaluation Method (DCoEM) in this paper and contribute a new test suite that considers four cohesive manners (reference, conjunction, substitution, and lexical cohesion) to measure the cohesiveness of document translations. The evaluation results on recent document-level NMT systems show that our method is practical and essential in estimating translations at the document level.
翻訳日:2022-08-22 17:00:31 公開日:2022-08-19
# 自然言語理解のための階層型マルチタスク学習

Coarse-to-Fine: Hierarchical Multi-task Learning for Natural Language Understanding ( http://arxiv.org/abs/2208.09129v1 )

ライセンス: Link先を確認
Zhaoye Fei, Yu Tian, Yongkang Wu, Xinyu Zhang, Yutao Zhu, Zheng Liu, Jiawen Wu, Dejiang Kong, Ruofei Lai, Zhao Cao, Zhicheng Dou and Xipeng Qiu(参考訳) 一般化されたテキスト表現は多くの自然言語理解タスクの基礎である。 異なるコーパスを完全に活用するには、モデルがそれらの関係を理解する必要がある。 しかし、多くの手法は関連性を無視し、全てのタスクに対して直接シングルチャネルモデル(粗いパラダイム)を採用する。 さらに、既存の作品の中には、スキルブロック(優れたパラダイム)を縫い合わせることで下流タスクを学習するものもある。 本研究では,データプロパティ,手動設計,モデルベースの関連性という3つの視点から,類似したタスクをグループ化したタスク相関を最初に分析する。 次に,下位レベルをすべてのタスクに共有し,中間レベルを異なるグループに分割し,上位レベルを各タスクに割り当てた,粗雑な粒度のパラダイムを持つ階層的フレームワークを提案する。 これにより、すべてのタスクから基本言語特性を学習し、関連するタスクのパフォーマンスを高め、無関係なタスクから負の影響を減らすことができる。 5つの自然言語理解タスクを対象とした13のベンチマークデータセット実験により,本手法の優位性を実証した。

Generalized text representations are the foundation of many natural language understanding tasks. To fully utilize the different corpus, it is inevitable that models need to understand the relevance among them. However, many methods ignore the relevance and adopt a single-channel model (a coarse paradigm) directly for all tasks, which lacks enough rationality and interpretation. In addition, some existing works learn downstream tasks by stitches skill block(a fine paradigm), which might cause irrationalresults due to its redundancy and noise. Inthis work, we first analyze the task correlation through three different perspectives, i.e., data property, manual design, and model-based relevance, based on which the similar tasks are grouped together. Then, we propose a hierarchical framework with a coarse-to-fine paradigm, with the bottom level shared to all the tasks, the mid-level divided to different groups, and the top-level assigned to each of the tasks. This allows our model to learn basic language properties from all tasks, boost performance on relevant tasks, and reduce the negative impact from irrelevant tasks. Our experiments on 13 benchmark datasets across five natural language understanding tasks demonstrate the superiority of our method.
翻訳日:2022-08-22 17:00:19 公開日:2022-08-19
# UniCausal: 因果テキストマイニングのための統一ベンチマークとモデル

UniCausal: Unified Benchmark and Model for Causal Text Mining ( http://arxiv.org/abs/2208.09163v1 )

ライセンス: Link先を確認
Fiona Anting Tan, Xinyu Zuo and See-Kiong Ng(参考訳) 現在の因果テキストマイニングデータセットは、目的、データカバレッジ、アノテーションスキームによって異なる。 これらの不整合な努力は、モデル性能のモデリング能力と公正な比較を妨げた。 エンドツーエンドの因果抽出に必要な、因果効果スパンアノテーションを含むデータセットは少ない。 そこで本研究では,因果シーケンス分類,因果効果スパン検出,因果ペア分類の3つのタスクにまたがる因果テキストマイニングの統一ベンチマークであるunicausalを提案する。 高品質な6つの注釈付きコーパスのアノテーションを統合し,それぞれ58,720,12,144,69,165のサンプルを作成した。 因果関係の定義は主観的であるため、我々のフレームワークは研究者がいくつかの、またはすべてのデータセットやタスクに取り組むことができるように設計されている。 最初のベンチマークとして、BERTの事前訓練されたモデルをタスクに適応させ、ベースラインスコアを生成しました。 シーケンス分類では70.10%のバイナリF1スコア,スパン検出では52.42%のマクロF1スコア,ペア分類では84.68%のバイナリF1スコアを得た。

Current causal text mining datasets vary in objectives, data coverage, and annotation schemes. These inconsistent efforts prevented modeling capabilities and fair comparisons of model performance. Few datasets include cause-effect span annotations, which are needed for end-to-end causal extraction. Therefore, we proposed UniCausal, a unified benchmark for causal text mining across three tasks: Causal Sequence Classification, Cause-Effect Span Detection and Causal Pair Classification. We consolidated and aligned annotations of six high quality human-annotated corpus, resulting in a total of 58,720, 12,144 and 69,165 examples for each task respectively. Since the definition of causality can be subjective, our framework was designed to allow researchers to work on some or all datasets and tasks. As an initial benchmark, we adapted BERT pre-trained models to our task and generated baseline scores. We achieved 70.10% Binary F1 score for Sequence Classification, 52.42% Macro F1 score for Span Detection, and 84.68% Binary F1 score for Pair Classification.
翻訳日:2022-08-22 16:59:58 公開日:2022-08-19
# Pseudo-Labelsは必要なものすべて

Pseudo-Labels Are All You Need ( http://arxiv.org/abs/2208.09243v1 )

ライセンス: Link先を確認
Bogdan Kosti\'c and Mathis Lucka and Julian Risch(参考訳) 読み手のテキストの複雑さを自動的に見積もるには、言語学習者に対して適切な複雑さレベルのテキストを推薦したり、テキスト簡易化アプローチの評価をサポートするなど、さまざまな応用がある。 本稿では,ドイツ語学習者のドイツ語文の複雑さをレベルBで予測することを目的とした回帰課題であるText Complexity DE Challenge 2022を提示する。我々のアプローチは,ドイツ語ウィキペディアや他のコーパスから作られた220,000以上の擬似ラベルを用いてトランスフォーマーベースのモデルをトレーニングし,機能工学や追加ラベル付きデータから除外する。 擬似ラベルに基づくアプローチは印象的な結果を与えるが、特定のタスクの調整をほとんど必要としないため、他のドメインやタスクに容易に適応できる。

Automatically estimating the complexity of texts for readers has a variety of applications, such as recommending texts with an appropriate complexity level to language learners or supporting the evaluation of text simplification approaches. In this paper, we present our submission to the Text Complexity DE Challenge 2022, a regression task where the goal is to predict the complexity of a German sentence for German learners at level B. Our approach relies on more than 220,000 pseudo-labels created from the German Wikipedia and other corpora to train Transformer-based models, and refrains from any feature engineering or any additional, labeled data. We find that the pseudo-label-based approach gives impressive results yet requires little to no adjustment to the specific task and therefore could be easily adapted to other domains and tasks.
翻訳日:2022-08-22 16:59:39 公開日:2022-08-19
# UKP-SQuARE v2 信頼できるQAのための説明可能性と敵攻撃

UKP-SQuARE v2 Explainability and Adversarial Attacks for Trustworthy QA ( http://arxiv.org/abs/2208.09316v1 )

ライセンス: Link先を確認
Rachneet Sachdeva, Haritz Puerto Tim Baumg\"artner, Sewin Tariverdian, Hao Zhang, Kexin Wang, Hossain Shaikh Saadi, Leonardo F. R. Ribeiro, Iryna Gurevych(参考訳) 質問応答(qa)システムは、現実の意思決定をサポートするアプリケーションにますますデプロイされている。 しかし、最先端のモデルは人間の解釈が難しいディープニューラルネットワークに依存している。 本質的に解釈可能なモデルやポストホックな説明可能性メソッドは、モデルが予測にどのように到着するかを理解し、成功すればシステムに対する信頼を高めるのに役立つ。 さらに、研究者はこれらの洞察を利用して、より正確でバイアスの少ない新しい方法を開発することができる。 本稿では,SQuAREの新バージョンであるSQuARE v2を紹介し,従量性マップやグラフに基づく説明などの手法に基づくモデルの比較を行うための説明可能性基盤を提供する。 サーリエンシマップはモデル予測における各入力トークンの重要性を調べるのに有用であるが、外部知識グラフからのグラフベースの説明により、ユーザーはモデル予測の背後にある推論を検証できる。 さらに、QAモデルのロバスト性を比較するために、複数の敵攻撃を提供する。 これらの説明可能性手法と敵攻撃により,信頼性の高いQAモデルの研究が容易になる。 SQuAREはhttps://square.ukp-lab.de.comで入手できる。

Question Answering (QA) systems are increasingly deployed in applications where they support real-world decisions. However, state-of-the-art models rely on deep neural networks, which are difficult to interpret by humans. Inherently interpretable models or post hoc explainability methods can help users to comprehend how a model arrives at its prediction and, if successful, increase their trust in the system. Furthermore, researchers can leverage these insights to develop new methods that are more accurate and less biased. In this paper, we introduce SQuARE v2, the new version of SQuARE, to provide an explainability infrastructure for comparing models based on methods such as saliency maps and graph-based explanations. While saliency maps are useful to inspect the importance of each input token for the model's prediction, graph-based explanations from external Knowledge Graphs enable the users to verify the reasoning behind the model prediction. In addition, we provide multiple adversarial attacks to compare the robustness of QA models. With these explainability methods and adversarial attacks, we aim to ease the research on trustworthy QA models. SQuARE is available on https://square.ukp-lab.de.
翻訳日:2022-08-22 16:59:22 公開日:2022-08-19
# 電子メール会話におけるタスク指向対話モデルの適用

Adapting Task-Oriented Dialogue Models for Email Conversations ( http://arxiv.org/abs/2208.09439v1 )

ライセンス: Link先を確認
Soham Deshmukh, Charles Lee(参考訳) Intent Detectionは、会話アシスタントの自然言語理解(NLU)システムにおいて重要な部分である。 複数の指示や意図が存在するメール会話には、正しい意図を検出することが不可欠だが、難しい。 このような設定では、会話コンテキストは、アシスタントからのユーザの要求を検出するための重要な曖昧化要因となる。 コンテキストを組み込む顕著な方法の1つは、タスク指向の対話モデルのような過去の会話履歴のモデリングである。 しかし、メール会話の性質(長文)はタスク指向対話モデルにおける最新の進歩の直接的利用を制限する。 そこで本稿では,対話モデルの最新開発を長期会話に適応させるための効果的な伝達学習フレームワーク(EMToD)を提案する。 提案するEMToDフレームワークは,事前学習した言語モデルに対して45%,事前学習した対話モデルに対して30%の意図検出性能を向上させる。 さらに、提案フレームワークのモジュール性により、事前訓練された言語とタスク指向の対話モデルの両方で、将来の開発をプラグイン・アンド・プレイできる。

Intent detection is a key part of any Natural Language Understanding (NLU) system of a conversational assistant. Detecting the correct intent is essential yet difficult for email conversations where multiple directives and intents are present. In such settings, conversation context can become a key disambiguating factor for detecting the user's request from the assistant. One prominent way of incorporating context is modeling past conversation history like task-oriented dialogue models. However, the nature of email conversations (long form) restricts direct usage of the latest advances in task-oriented dialogue models. So in this paper, we provide an effective transfer learning framework (EMToD) that allows the latest development in dialogue models to be adapted for long-form conversations. We show that the proposed EMToD framework improves intent detection performance over pre-trained language models by 45% and over pre-trained dialogue models by 30% for task-oriented email conversations. Additionally, the modular nature of the proposed framework allows plug-and-play for any future developments in both pre-trained language and task-oriented dialogue models.
翻訳日:2022-08-22 16:59:04 公開日:2022-08-19
# 自動評価のための文法誤り訂正システムにおけるジェンダーバイアスとユニバーサル置換回避攻撃

Gender Bias and Universal Substitution Adversarial Attacks on Grammatical Error Correction Systems for Automated Assessment ( http://arxiv.org/abs/2208.09466v1 )

ライセンス: Link先を確認
Vyas Raina and Mark Gales(参考訳) 文法的誤り訂正(gec:grammatical error correction)システムは、文法的誤りを含む入力語列をgecシステムによって補正して文法的に正しい単語列を出力する、シーケンス-シーケンス間タスクを実行する。 ディープラーニング手法の出現により、自動化されたECCシステムはますます人気が高まっている。 例えば、GECシステムは英語学習者の音声の書き起こしにアセスメントとフィードバックの形でよく使われます。 候補の入力文(またはエッセイ)から GEC システムの文法的に訂正された出力文までの \textit{edits} のカウントは、より少ない編集がより流布を示唆する候補の言語能力を示すものである。 したがって、編集回数は完全な流束を含まない \textit{fluency score} と見なすことができる。 しかし、ディープラーニングに基づくGECシステムは極めて強力で正確であるが、敵の攻撃の影響を受けやすい:敵対者は、出力に大きな望ましくない変更を引き起こすシステムの入力時に、小さな特定の変更を導入することができる。 自動言語評価へのgecシステムの適用を考えると、逆者の目的は、gecシステムから誤りを隠蔽する文法的不正確な入力文に小さな変更を加えることで、編集が無く、候補が不当に完全なフルエンシースコアを与えられるようにすることである。 本研究は、英語の母語話者以外の話者が現実的に、評価に使用されるECCシステムを欺くための単純な普遍的置換対逆攻撃について検討する。

Grammatical Error Correction (GEC) systems perform a sequence-to-sequence task, where an input word sequence containing grammatical errors, is corrected for these errors by the GEC system to output a grammatically correct word sequence. With the advent of deep learning methods, automated GEC systems have become increasingly popular. For example, GEC systems are often used on speech transcriptions of English learners as a form of assessment and feedback - these powerful GEC systems can be used to automatically measure an aspect of a candidate's fluency. The count of \textit{edits} from a candidate's input sentence (or essay) to a GEC system's grammatically corrected output sentence is indicative of a candidate's language ability, where fewer edits suggest better fluency. The count of edits can thus be viewed as a \textit{fluency score} with zero implying perfect fluency. However, although deep learning based GEC systems are extremely powerful and accurate, they are susceptible to adversarial attacks: an adversary can introduce a small, specific change at the input of a system that causes a large, undesired change at the output. When considering the application of GEC systems to automated language assessment, the aim of an adversary could be to cheat by making a small change to a grammatically incorrect input sentence that conceals the errors from a GEC system, such that no edits are found and the candidate is unjustly awarded a perfect fluency score. This work examines a simple universal substitution adversarial attack that non-native speakers of English could realistically employ to deceive GEC systems used for assessment.
翻訳日:2022-08-22 16:56:06 公開日:2022-08-19
# Kernel Memory Networks: メモリモデリングのための統一フレームワーク

Kernel Memory Networks: A Unifying Framework for Memory Modeling ( http://arxiv.org/abs/2208.09416v1 )

ライセンス: Link先を確認
Georgios Iatropoulos, Johanni Brea, Wulfram Gerstner(参考訳) 我々は、ニューラルネットワークをトレーニングして、最大ノイズロバスト性を持つパターンの集合を格納する問題を考察する。 最適重みと状態更新規則の観点から解は、カーネル分類または最小重みノルムによる補間を実行するために各ニューロンを訓練することによって導出される。 この手法をフィードフォワードおよびリカレントネットワークに適用することにより、現代のホップフィールドネットワークやkanervaのスパース分散メモリなど、近年提案されているヘテロおよび自己結合型メモリモデルの多くを含む最適なネットワークを導出する。 カネルバのモデルを一般化し、有限のアトラクションベースを持つ指数関数的な連続値パターンを格納できるカーネルメモリネットワークを設計する簡単な方法を示す。 カーネルメモリネットワークのフレームワークは、以前のメモリモデルのストレージ容量を理解するためのシンプルで直感的な方法を提供し、樹状非線形性とシナプスクラスタリングの観点から新しい生物学的解釈を可能にする。

We consider the problem of training a neural network to store a set of patterns with maximal noise robustness. A solution, in terms of optimal weights and state update rules, is derived by training each individual neuron to perform either kernel classification or interpolation with a minimum weight norm. By applying this method to feed-forward and recurrent networks, we derive optimal networks that include, as special cases, many of the hetero- and auto-associative memory models that have been proposed over the past years, such as modern Hopfield networks and Kanerva's sparse distributed memory. We generalize Kanerva's model and demonstrate a simple way to design a kernel memory network that can store an exponential number of continuous-valued patterns with a finite basin of attraction. The framework of kernel memory networks offers a simple and intuitive way to understand the storage capacity of previous memory models, and allows for new biological interpretations in terms of dendritic non-linearities and synaptic clustering.
翻訳日:2022-08-22 16:55:36 公開日:2022-08-19
# IAN: 多様体学習と次元推定のための反復適応近傍

IAN: Iterated Adaptive Neighborhoods for manifold learning and dimensionality estimation ( http://arxiv.org/abs/2208.09123v1 )

ライセンス: Link先を確認
Luciano Dyballa and Steven W. Zucker(参考訳) 機械学習において多様体の仮定を呼び出すには、多様体の幾何学と次元に関する知識が必要である。 しかし、アプリケーションデータに制限がある場合、サンプリングは均一ではなく、多様体の性質は未知であり、(おそらく)非純粋である。 類似性カーネルが与えるデータに対して適応的近傍を推定するアルゴリズムを提案する。 局所保存近傍(ガブリエル)グラフから始めると、重み付けされたグラフに従って反復的に分割する。 それぞれのステップにおいて、線形プログラムは極小近傍を大域的に生成し、体積統計により多様体幾何学に違反する可能性のある近傍の外れ値が明らかにされる。 我々は,非線型次元減少,測地線計算,次元推定に適応的近傍を適用した。 k-nearestの隣人などを用いた標準アルゴリズムとの比較は、その有用性を示している。

Invoking the manifold assumption in machine learning requires knowledge of the manifold's geometry and dimension, and theory dictates how many samples are required. However, in applications data are limited, sampling may not be uniform, and manifold properties are unknown and (possibly) non-pure; this implies that neighborhoods must adapt to the local structure. We introduce an algorithm for inferring adaptive neighborhoods for data given by a similarity kernel. Starting with a locally-conservative neighborhood (Gabriel) graph, we sparsify it iteratively according to a weighted counterpart. In each step, a linear program yields minimal neighborhoods globally and a volumetric statistic reveals neighbor outliers likely to violate manifold geometry. We apply our adaptive neighborhoods to non-linear dimensionality reduction, geodesic computation and dimension estimation. A comparison against standard algorithms using, e.g., k-nearest neighbors, demonstrates their usefulness.
翻訳日:2022-08-22 16:54:46 公開日:2022-08-19
# ファクトフェアネスに対する因果制約付き不整合表現

Disentangled Representation with Causal Constraints for Counterfactual Fairness ( http://arxiv.org/abs/2208.09147v1 )

ライセンス: Link先を確認
Ziqi Xu and Jixue Liu and Debo Cheng and Jiuyong Li and Lin Liu and Ke Wang(参考訳) 多くの研究は公平表現を学ぶ問題に費やされてきたが、潜在表現間の関係を明示的には示していない。 多くの実世界のアプリケーションでは、潜在表現の間に因果関係があるかもしれない。 さらに、ほとんどの公正表現学習手法は、グループレベルの公平さに焦点をあて、データに基づく因果関係を無視して相関に基づく。 本研究では,構築された表現を使用することで,下流の予測モデルが反ファクトフェアネスを実現することを理論的に実証し,ドメイン知識に関する構造化表現を得るための対実フェアネス変動自動エンコーダ(CF-VAE)を提案する。 実験の結果,本手法はベンチマークフェアネス法よりもフェアネスと精度が良好であることが判明した。

Much research has been devoted to the problem of learning fair representations; however, they do not explicitly the relationship between latent representations. In many real-world applications, there may be causal relationships between latent representations. Furthermore, most fair representation learning methods focus on group-level fairness and are based on correlations, ignoring the causal relationships underlying the data. In this work, we theoretically demonstrate that using the structured representations enable downstream predictive models to achieve counterfactual fairness, and then we propose the Counterfactual Fairness Variational AutoEncoder (CF-VAE) to obtain structured representations with respect to domain knowledge. The experimental results show that the proposed method achieves better fairness and accuracy performance than the benchmark fairness methods.
翻訳日:2022-08-22 16:54:31 公開日:2022-08-19
# 時系列アテンション変換器を用いた多変量時系列グラフ表現

Expressing Multivariate Time Series as Graphs with Time Series Attention Transformer ( http://arxiv.org/abs/2208.09300v1 )

ライセンス: Link先を確認
William T. Ng, K. Siu, Albert C. Cheung, Michael K. Ng(参考訳) 多変量時系列の信頼性と効率的な表現は、下流機械学習タスクにおいて重要である。 多変量時系列予測では、各変数はその履歴値に依存し、変数間にも相互依存性がある。 モデルは時系列間の相互関係を捉えるように設計する必要がある。 この目標に向けて,多変量時系列表現学習のための時系列注意変換器(TSAT)を提案する。 tsatを用いて,エッジエンハンス動的グラフを用いて多変量時系列の時間情報と相互依存性を表現する。 シリーズ内相関は動的グラフのノードによって表現され、スーパーempirical mode decomposition (smd) モジュールを用いてシリーズ間相関をキャプチャするために自己アテンション機構が修正される。 組込み動的グラフを実世界の2つのデータセットと2つのベンチマークデータセットを含む時系列予測問題に適用した。 広範囲な実験により、TSATは様々な予測地平線で6つの最先端のベースライン法を明らかに上回っていることが示された。 さらに,組込み動的グラフを可視化し,TSATのグラフ表現能力を示す。 コードをhttps://github.com/RadiantResearch/TSAT.comで共有しています。

A reliable and efficient representation of multivariate time series is crucial in various downstream machine learning tasks. In multivariate time series forecasting, each variable depends on its historical values and there are inter-dependencies among variables as well. Models have to be designed to capture both intra- and inter-relationships among the time series. To move towards this goal, we propose the Time Series Attention Transformer (TSAT) for multivariate time series representation learning. Using TSAT, we represent both temporal information and inter-dependencies of multivariate time series in terms of edge-enhanced dynamic graphs. The intra-series correlations are represented by nodes in a dynamic graph; a self-attention mechanism is modified to capture the inter-series correlations by using the super-empirical mode decomposition (SMD) module. We applied the embedded dynamic graphs to times series forecasting problems, including two real-world datasets and two benchmark datasets. Extensive experiments show that TSAT clearly outerperforms six state-of-the-art baseline methods in various forecasting horizons. We further visualize the embedded dynamic graphs to illustrate the graph representation power of TSAT. We share our code at https://github.com/RadiantResearch/TSAT.
翻訳日:2022-08-22 16:54:17 公開日:2022-08-19
# 選択モデリングのためのディープラーニング

Deep Learning for Choice Modeling ( http://arxiv.org/abs/2208.09325v1 )

ライセンス: Link先を確認
Zhongze Cai, Hanzhao Wang, Kalyan Talluri, Xiaocheng Li(参考訳) 選択モデリングは、経済学、マーケティング、オペレーション研究、心理学を含む多くの分野における個人の好みや有用性の研究において中心的なトピックとなっている。 選択モデルに関する文献の大部分は、管理的および政策決定的洞察につながる分析的性質に費やされてきたが、既存の経験的データから選択モデルを学ぶ方法は、しばしば計算上難解かサンプル的非効率である。 本稿では,2つの選択モデルを用いた深層学習に基づく選択モデルを提案する。 (i)機能フリーで (ii)機能ベース。 提案モデルは,各候補選択に対する本質的有用性と,選択確率に対する分類の影響の両方を捉える。 合成および実データ実験は、既存の選択モデルの回復、サンプルの複雑さ、配置効果、アーキテクチャ設計、モデル解釈の観点から提案されたモデルの性能を実証する。

Choice modeling has been a central topic in the study of individual preference or utility across many fields including economics, marketing, operations research, and psychology. While the vast majority of the literature on choice models has been devoted to the analytical properties that lead to managerial and policy-making insights, the existing methods to learn a choice model from empirical data are often either computationally intractable or sample inefficient. In this paper, we develop deep learning-based choice models under two settings of choice modeling: (i) feature-free and (ii) feature-based. Our model captures both the intrinsic utility for each candidate choice and the effect that the assortment has on the choice probability. Synthetic and real data experiments demonstrate the performances of proposed models in terms of the recovery of the existing choice models, sample complexity, assortment effect, architecture design, and model interpretation.
翻訳日:2022-08-22 16:53:55 公開日:2022-08-19
# アクタクリティカル情報指向価格による非定常動的価格設定

Non-Stationary Dynamic Pricing Via Actor-Critic Information-Directed Pricing ( http://arxiv.org/abs/2208.09372v1 )

ライセンス: Link先を確認
Po-Yi Liu, Chi-Hua Wang, Heng-Hsui Tsai(参考訳) 本稿では,不完全な需要情報や市場環境の変化に直面する非定常動的価格決定アルゴリズムを提案する。 エージェントは、各製品の需要曲線と利益を最大化する価格について学ぶために価格実験を行い、市場環境の変化を認識しながら、最適以下の価格の提供から高い機会コストを回避する。 提案したACIDPは,情報指向サンプリング(IDS)アルゴリズムを統計機械学習からマイクロエコノミクス選択理論まで拡張し,市場環境シフト後の準最適価格を回避するための新たな価格戦略監査手法を提案する。 提案したACIDPは,アッパー信頼境界 (UCB) やトンプソンサンプリング (TS) など,一連の市場環境シフトにおいて競合する帯域幅アルゴリズムより優れている。

This paper presents a novel non-stationary dynamic pricing algorithm design, where pricing agents face incomplete demand information and market environment shifts. The agents run price experiments to learn about each product's demand curve and the profit-maximizing price, while being aware of market environment shifts to avoid high opportunity costs from offering sub-optimal prices. The proposed ACIDP extends information-directed sampling (IDS) algorithms from statistical machine learning to include microeconomic choice theory, with a novel pricing strategy auditing procedure to escape sub-optimal pricing after market environment shift. The proposed ACIDP outperforms competing bandit algorithms including Upper Confidence Bound (UCB) and Thompson sampling (TS) in a series of market environment shifts.
翻訳日:2022-08-22 16:53:41 公開日:2022-08-19
# 物理世界攻撃に対する実時間ロバスト映像オブジェクト検出システム

Real-Time Robust Video Object Detection System Against Physical-World Adversarial Attacks ( http://arxiv.org/abs/2208.09195v1 )

ライセンス: Link先を確認
Husheng Han, Xing Hu, Kaidi Xu, Pucheng Dang, Ying Wang, Yongwei Zhao, Zidong Du, Qi Guo, Yanzhi Yang, Tianshi Chen(参考訳) DNNベースのビデオオブジェクト検出(VOD)は、自動運転とビデオ監視産業に、重要性と有望な機会を与えている。 しかし、敵パッチ攻撃は、実用性、実現可能性、強力な攻撃効果のために、ライブビジョンタスクにおいて大きな懸念をもたらす。 本研究は,リアルタイムなロバストなビデオオブジェクト検出のためのソフトウェア/ハードウェアシステムであるThemisを提案する。 本研究では,非破壊予測の少ない小領域において,対向パッチが極めて局所的な表面的特徴を示すことを観察し,対向効果除去のための対向領域検出アルゴリズムを提案する。 Themisはまた、冗長な計算とメモリトラフィックを排除してアルゴリズムを効率的にサポートする体系的な設計を提案する。 実験の結果,本手法はハードウェアのオーバーヘッドが無視できる敵の攻撃から効果的にシステムを回復できることがわかった。

DNN-based video object detection (VOD) powers autonomous driving and video surveillance industries with rising importance and promising opportunities. However, adversarial patch attack yields huge concern in live vision tasks because of its practicality, feasibility, and powerful attack effectiveness. This work proposes Themis, a software/hardware system to defend against adversarial patches for real-time robust video object detection. We observe that adversarial patches exhibit extremely localized superficial feature importance in a small region with non-robust predictions, and thus propose the adversarial region detection algorithm for adversarial effect elimination. Themis also proposes a systematic design to efficiently support the algorithm by eliminating redundant computations and memory traffics. Experimental results show that the proposed methodology can effectively recover the system from the adversarial attack with negligible hardware overhead.
翻訳日:2022-08-22 16:53:26 公開日:2022-08-19
# コロイド自己集合の最小確率制御のための物理インフォームド深層学習手法

A Physics-informed Deep Learning Approach for Minimum Effort Stochastic Control of Colloidal Self-Assembly ( http://arxiv.org/abs/2208.09182v1 )

ライセンス: Link先を確認
Iman Nodozi, Jared O'Leary, Ali Mesbah, Abhishek Halder(参考訳) 本研究では、基底状態変数(すなわち順序パラメータ)の確率密度関数(PDF)空間におけるコロイド自己集合に対する有限水平確率的最適制御問題を定式化する。 制御対象は、所定の初期確率測度から所定の終端確率測度への状態pdfを最小限の制御労力で制御する観点から定式化される。 特異性については,文献から不定な確率状態モデルを用いる。 本論文で開発された制御合成の解析と計算ステップは, 一般非線形状態と非アフィン制御モデルによって与えられる多変量確率状態ダイナミクスを一般化する。 我々は、関連する最適制御問題に対する最適性の条件を導出する。 この導出は、3つの結合した偏微分方程式の系を初期時と終了時の境界条件と共に与える。 結果として得られたシステムは、いわゆるschr\"{o}dinger bridge問題(英語版)の一般化例であり、物理に変形したディープニューラルネットワークを訓練することで最適な制御方針を決定する。 提案手法の性能は, ベンチマークコロイド自己集合問題に対する数値シミュレーションにより検証した。

We propose formulating the finite-horizon stochastic optimal control problem for colloidal self-assembly in the space of probability density functions (PDFs) of the underlying state variables (namely, order parameters). The control objective is formulated in terms of steering the state PDFs from a prescribed initial probability measure towards a prescribed terminal probability measure with minimum control effort. For specificity, we use a univariate stochastic state model from the literature. Both the analysis and the computational steps for control synthesis as developed in this paper generalize for multivariate stochastic state dynamics given by generic nonlinear in state and non-affine in control models. We derive the conditions of optimality for the associated optimal control problem. This derivation yields a system of three coupled partial differential equations together with the boundary conditions at the initial and terminal times. The resulting system is a generalized instance of the so-called Schr\"{o}dinger bridge problem. We then determine the optimal control policy by training a physics-informed deep neural network, where the "physics" are the derived conditions of optimality. The performance of the proposed solution is demonstrated via numerical simulations on a benchmark colloidal self-assembly problem.
翻訳日:2022-08-22 16:53:12 公開日:2022-08-19
# イベントログ解析に基づく障害検出と予測のための特徴選択

Feature Selection for Fault Detection and Prediction based on Event Log Analysis ( http://arxiv.org/abs/2208.09440v1 )

ライセンス: Link先を確認
Zhong Li and Matthijs van Leeuwen(参考訳) イベントログは複雑なシステムの異常検出と予測に広く利用されている。 既存のログベースの異常検出方法は、ログ収集、ログ解析、特徴抽出、異常検出の4つの主要なステップで構成されており、特徴抽出ステップは、ログイベントを数えることで異常検出に有用な特徴を抽出する。 多数のサブシステムからなるリソグラフィマシンのような複雑なシステムでは、ログには数千の異なるイベントが含まれており、多くの特徴が抽出される。 しかし、サブシステムレベルで異常検出を行うと、すべての機能の解析は高価で不要になる。 この問題を軽減するため、ログベースの異常検出と予測のための特徴選択手法を開発し、その効率と効率を大幅に改善する。

Event logs are widely used for anomaly detection and prediction in complex systems. Existing log-based anomaly detection methods usually consist of four main steps: log collection, log parsing, feature extraction, and anomaly detection, wherein the feature extraction step extracts useful features for anomaly detection by counting log events. For a complex system, such as a lithography machine consisting of a large number of subsystems, its log may contain thousands of different events, resulting in abounding extracted features. However, when anomaly detection is performed at the subsystem level, analyzing all features becomes expensive and unnecessary. To mitigate this problem, we develop a feature selection method for log-based anomaly detection and prediction, largely improving the effectiveness and efficiency.
翻訳日:2022-08-22 16:49:34 公開日:2022-08-19
# メタスパース主成分分析

Meta Sparse Principal Component Analysis ( http://arxiv.org/abs/2208.08938v2 )

ライセンス: Link先を確認
Imon Banerjee and Jean Honorio(参考訳) 高次元主成分分析において,支援のためのメタラーニング(非ゼロ要素の集合)について検討した。 補助タスクから学習した情報を用いて,新規タスクの十分なサンプル複雑性を低減する。 各タスクは、異なるサポートを持つ異なるランダム主成分(pc)マトリックスであると仮定し、pc行列の支持結合が小さいことを仮定する。 そして、すべてのタスクからデータをプールして、1つのpcマトリックスの不適切な推定を実行し、l_1$-regularized prediction covarianceを最大化することで、高い確率で真のサポートユニオンを復元できる、十分な数のタスク m$ と十分な数のサンプル $ o\left(\frac{\log(p)}{m}\right)$ が各タスクに対して $p$-dimensional ベクトルに対して与えられるようにする。 新たなタスクでは、$l_1$-regularized prediction covariance の最大化と、サポートが推定されたサポートユニオンのサブセットであるという追加の制約により、サポート回復に成功するサンプルの複雑さを$o(\log |j|)$ に減らすことが証明され、ここで$j$ は補助タスクから回復したサポートユニオンである。 通常、$|j|$ はスパース行列に対して $p$ 以下である。 最後に,数値シミュレーションによる実験の有効性を示す。

We study the meta-learning for support (i.e. the set of non-zero entries) recovery in high-dimensional Principal Component Analysis. We reduce the sufficient sample complexity in a novel task with the information that is learned from auxiliary tasks. We assume each task to be a different random Principal Component (PC) matrix with a possibly different support and that the support union of the PC matrices is small. We then pool the data from all the tasks to execute an improper estimation of a single PC matrix by maximising the $l_1$-regularised predictive covariance to establish that with high probability the true support union can be recovered provided a sufficient number of tasks $m$ and a sufficient number of samples $ O\left(\frac{\log(p)}{m}\right)$ for each task, for $p$-dimensional vectors. Then, for a novel task, we prove that the maximisation of the $l_1$-regularised predictive covariance with the additional constraint that the support is a subset of the estimated support union could reduce the sufficient sample complexity of successful support recovery to $O(\log |J|)$, where $J$ is the support union recovered from the auxiliary tasks. Typically, $|J|$ would be much less than $p$ for sparse matrices. Finally, we demonstrate the validity of our experiments through numerical simulations.
翻訳日:2022-08-22 16:49:22 公開日:2022-08-19
# 構造状態空間モデルによる拡散型時系列計算と予測

Diffusion-based Time Series Imputation and Forecasting with Structured State Space Models ( http://arxiv.org/abs/2208.09399v1 )

ライセンス: Link先を確認
Juan Miguel Lopez Alcaraz and Nils Strodthoff(参考訳) 欠落した値の計算は、多くの実世界のデータ分析パイプラインにとって大きな障害となる。 ここでは,時系列データに着目し,(条件付き)拡散モデルを最先端生成モデルとして,構造化状態空間モデルを内部モデルアーキテクチャとして2つの新興技術に依存したインプテーションモデルであるssdを,特に時系列データの長期依存を捉えるのに適した内部モデルアーキテクチャとして展開する。 我々は,従来のアプローチでは有意義な結果が得られなかったブラックアウト回避シナリオを含む,幅広いデータセットとさまざまな欠損シナリオにおいて,SSSDが最先端の確率的計算と予測性能に一致または超えていることを示す。

The imputation of missing values represents a significant obstacle for many real-world data analysis pipelines. Here, we focus on time series data and put forward SSSD, an imputation model that relies on two emerging technologies, (conditional) diffusion models as state-of-the-art generative models and structured state space models as internal model architecture, which are particularly suited to capture long-term dependencies in time series data. We demonstrate that SSSD matches or even exceeds state-of-the-art probabilistic imputation and forecasting performance on a broad range of data sets and different missingness scenarios, including the challenging blackout-missing scenarios, where prior approaches failed to provide meaningful results.
翻訳日:2022-08-22 16:48:46 公開日:2022-08-19
# 分割関数の悪さを伴わずにポテンシャルを推定する

Estimating a potential without the agony of the partition function ( http://arxiv.org/abs/2208.09433v1 )

ライセンス: Link先を確認
Eldad Haber, Moshe Eliasof, Luis Tenorio(参考訳) サンプルが与えられたギブス密度関数の推定は、計算統計学や統計学習において重要な問題である。 確立された最大可能性法は一般的に用いられるが、分割関数(すなわち密度の正規化)の計算を必要とする。 この関数は単純な低次元問題でも容易に計算できるが、一般密度や高次元問題では計算が困難あるいは難解である。 本稿では,最大 A-Posteriori (MAP) 推定器(MR-MAP)を用いて,分割関数の計算を必要としない推定器を導出し,最適化問題として問題を再構成する手法を提案する。 さらに,フィードフォワード型双曲型ニューラルネットワークとして,最適化問題を迅速に解くための最小動作型ポテンシャルを提案する。 いくつかの標準データセットにおいて,提案手法の有効性を示す。

Estimating a Gibbs density function given a sample is an important problem in computational statistics and statistical learning. Although the well established maximum likelihood method is commonly used, it requires the computation of the partition function (i.e., the normalization of the density). This function can be easily calculated for simple low-dimensional problems but its computation is difficult or even intractable for general densities and high-dimensional problems. In this paper we propose an alternative approach based on Maximum A-Posteriori (MAP) estimators, we name Maximum Recovery MAP (MR-MAP), to derive estimators that do not require the computation of the partition function, and reformulate the problem as an optimization problem. We further propose a least-action type potential that allows us to quickly solve the optimization problem as a feed-forward hyperbolic neural network. We demonstrate the effectiveness of our methods on some standard data sets.
翻訳日:2022-08-22 16:48:32 公開日:2022-08-19
# 物理に基づく建築エネルギーシステムのモデリングと予測のためのドメイン適応フレームワーク

A Physics-based Domain Adaptation framework for modelling and forecasting building energy systems ( http://arxiv.org/abs/2208.09456v1 )

ライセンス: Link先を確認
Zack Xuereb Conti, Ruchi Choudhary, Luca Magri(参考訳) 最先端の機械学習ベースのモデルは、十分なデータが得られると、複雑さが分析的な記述を禁止するシナリオでも時空間パターンや構造を見つけるのに優れているため、建物のエネルギー行動のモデリングと予測に一般的な選択肢である。 しかしながら、機械学習に基づくエネルギー予測モデルの構築は、通常、そのアーキテクチャはエネルギー伝達の制御現象に関連する力学構造と物理的に対応しないため、データに表現されないサンプル外シナリオへの一般化が困難である。 このように、観測データの構築において保証されないデータの代表性に依存する初期条件や境界条件の予測が可能となる。 その結果、これらの制限はデジタル双生児のエネルギー管理のような実世界の工学的応用を妨げた。 そこで本研究では,建物内のエネルギー挙動をよく理解し,実測データ以上のサンプルシナリオを予測することを目的とした,ドメイン適応フレームワークを提案する。 具体的には、低ランク線形時間不変状態空間モデルを用いてエネルギー挙動の力学知識を表現し、その後、その支配構造を利用して測定データのみを構築可能な目標エネルギーシステムの予測を行う。 測定データから得られる対象部分空間に対して,大域的な状態空間の挙動を管理する物理起源の部分空間を整列させることにより,これを実現する。 本研究は, 線形エネルギー系に焦点をあて, 物理から測定データへの力学モデルの伝達性を示すため, 熱物性および対象系の熱物性を変化させることにより, サブスペース系DAフレームワークを1次元熱伝導シナリオ上で試験する。

State-of-the-art machine-learning based models are a popular choice for modelling and forecasting energy behaviour in buildings because given enough data, they are good at finding spatiotemporal patterns and structures even in scenarios where the complexity prohibits analytical descriptions. However, machine-learning based models for building energy forecasting have difficulty generalizing to out-of-sample scenarios that are not represented in the data because their architecture typically does not hold physical correspondence to mechanistic structures linked with governing phenomena of energy transfer. Thus, their ability to forecast for unseen initial conditions and boundary conditions wholly depends on the representativeness in the data, which is not guaranteed in building measurement data. Consequently, these limitations impede their application to real-world engineering applications such as energy management in Digital Twins. In response, we present a Domain Adaptation framework that aims to leverage well-known understanding of phenomenon governing energy behavior in buildings to forecast for out of sample scenarios beyond building measurement data. More specifically, we represent mechanistic knowledge of energy behavior using low-rank linear time-invariant state space models and subsequently leverage their governing structure to forecast for a target energy system for which only building measurement data is available. We achieve this by aligning the Physics-derived subspace that governs global state space behavior closer towards the target subspace derived from the measurement data. In this initial exploration we focus on linear energy systems; we test the subspace-based DA framework on a 1D heat conduction scenario by varying the thermophysical properties of the source and target systems to demonstrate the transferability of mechanistic models from Physics to measurement data.
翻訳日:2022-08-22 16:48:17 公開日:2022-08-19
# 意味的確率による背景不変性試験

Background Invariance Testing According to Semantic Proximity ( http://arxiv.org/abs/2208.09286v1 )

ライセンス: Link先を確認
Zukang Liao, Pengfei Zhang and Min Chen(参考訳) 多くのアプリケーションにおいて、機械学習(ML)モデルは回転、サイズ、強度、背景の不変性などの不変性を保持する必要がある。 多くのタイプの分散とは異なり、背景シーンの変種は容易に順序付けできないため、モデルの頑健さやバイアスを分析するのが困難である。 本研究では,前景オブジェクトを含む対象画像への意味的近さに応じて背景シーンを順序づける技術を提案する。 オブジェクト認識の結果を各画像の意味的記述として利用し、関連分析を用いて、異なるオブジェクト間の関係に関する知識を格納するオントロジーを構築した。 このオントロジーは (i)対象画像と意味距離の異なる背景シーンの効率的かつ有意義な検索 (ii)サンプリングされた背景シーンの分布とスパーシティの定量的制御 (iii)不変性試験結果の視覚的表現を用いた品質保証(分散行列として参照) 本稿では,MLモデルの不変性を評価するためのML4MLアセスタのトレーニングについても報告する。

In many applications, machine learned (ML) models are required to hold some invariance qualities, such as rotation, size, intensity, and background invariance. Unlike many types of variance, the variants of background scenes cannot be ordered easily, which makes it difficult to analyze the robustness and biases of the models concerned. In this work, we present a technical solution for ordering background scenes according to their semantic proximity to a target image that contains a foreground object being tested. We make use of the results of object recognition as the semantic description of each image, and construct an ontology for storing knowledge about relationships among different objects using association analysis. This ontology enables (i) efficient and meaningful search for background scenes of different semantic distances to a target image, (ii) quantitative control of the distribution and sparsity of the sampled background scenes, and (iii) quality assurance using visual representations of invariance testing results (referred to as variance matrices). In this paper, we also report the training of an ML4ML assessor to evaluate the invariance quality of ML models automatically.
翻訳日:2022-08-22 16:47:17 公開日:2022-08-19
# 寒冷拡散:雑音のない任意画像の変換

Cold Diffusion: Inverting Arbitrary Image Transforms Without Noise ( http://arxiv.org/abs/2208.09392v1 )

ライセンス: Link先を確認
Arpit Bansal, Eitan Borgnia, Hong-Min Chu, Jie S. Li, Hamid Kazemi, Furong Huang, Micah Goldblum, Jonas Geiping, Tom Goldstein(参考訳) 標準拡散モデルは、画像変換 -- ガウスノイズを追加する -- と、この劣化を反転させるイメージ復元演算子を含む。 我々は,拡散モデルの生成挙動が画像劣化の選択に強く依存していないことを観察し,実際に,この選択によって生成モデル全体のファミリーを構築することができることを示した。 完全に決定論的劣化(例えば、ぼかし、マスキングなど)を使用する場合でも、拡散モデルを満たすトレーニングとテストタイム更新ルールは、生成モデルを作成するために容易に一般化できる。 これらの完全決定論的モデルの成功は、勾配ランジュバンダイナミクスまたは変分推論のノイズに依存する拡散モデルに対するコミュニティの理解に疑問を呈し、任意のプロセスを反転させる一般化拡散モデルへの道を開く。 私たちのコードはhttps://github.com/arpitbansal297/Cold-Diffusion-Modelsで利用可能です。

Standard diffusion models involve an image transform -- adding Gaussian noise -- and an image restoration operator that inverts this degradation. We observe that the generative behavior of diffusion models is not strongly dependent on the choice of image degradation, and in fact an entire family of generative models can be constructed by varying this choice. Even when using completely deterministic degradations (e.g., blur, masking, and more), the training and test-time update rules that underlie diffusion models can be easily generalized to create generative models. The success of these fully deterministic models calls into question the community's understanding of diffusion models, which relies on noise in either gradient Langevin dynamics or variational inference, and paves the way for generalized diffusion models that invert arbitrary processes. Our code is available at https://github.com/arpitbansal297/Cold-Diffusion-Models
翻訳日:2022-08-22 16:47:01 公開日:2022-08-19
# 画像分類用画素摂動型非受容型バックドアトリガー

Dispersed Pixel Perturbation-based Imperceptible Backdoor Trigger for Image Classifier Models ( http://arxiv.org/abs/2208.09336v1 )

ライセンス: Link先を確認
Yulong Wang, Minghui Zhao, Shenghong Li, Xin Yuan, Wei Ni(参考訳) 典型的なディープニューラルネットワーク(DNN)バックドア攻撃は、入力に埋め込まれたトリガーに基づいている。 既存のインセプタブルトリガーは計算コストが高いか、攻撃の成功率が低い。 本稿では, 生成が容易で, 認識不能で, 有効性の高い新しいバックドアトリガを提案する。 新しいトリガーは、一様ランダムに生成された3次元(3d)バイナリパターンで、水平および垂直に繰り返し、ミラーされ、バックドア付きdnnモデルをトレーニングするための3チャンネルイメージに重ね合わせられる。 イメージ全体に分散した新しいトリガーは、個々のピクセルに対して弱い摂動を発生させるが、dnnのバックドアを訓練し活性化するための強力な認識パターンを集合的に保持する。 また,画像の解像度向上にトリガーが益々有効であることを解析的に明らかにする。 実験は、MNIST、CIFAR-10、BTSRデータセット上のResNet-18およびMLPモデルを用いて行われた。 認識不能という点では、新しいトリガーはBadNets、Trojaned NN、Hidden Backdoorなどの既存のトリガーを桁違いに上回っている。 新しいトリガーは攻撃の成功率を100%近く達成し、分類精度を0.7%-2.4%以下に低下させ、最先端の防御技術を無効にする。

Typical deep neural network (DNN) backdoor attacks are based on triggers embedded in inputs. Existing imperceptible triggers are computationally expensive or low in attack success. In this paper, we propose a new backdoor trigger, which is easy to generate, imperceptible, and highly effective. The new trigger is a uniformly randomly generated three-dimensional (3D) binary pattern that can be horizontally and/or vertically repeated and mirrored and superposed onto three-channel images for training a backdoored DNN model. Dispersed throughout an image, the new trigger produces weak perturbation to individual pixels, but collectively holds a strong recognizable pattern to train and activate the backdoor of the DNN. We also analytically reveal that the trigger is increasingly effective with the improving resolution of the images. Experiments are conducted using the ResNet-18 and MLP models on the MNIST, CIFAR-10, and BTSR datasets. In terms of imperceptibility, the new trigger outperforms existing triggers, such as BadNets, Trojaned NN, and Hidden Backdoor, by over an order of magnitude. The new trigger achieves an almost 100% attack success rate, only reduces the classification accuracy by less than 0.7%-2.4%, and invalidates the state-of-the-art defense techniques.
翻訳日:2022-08-22 16:44:25 公開日:2022-08-19
# 逐次クロスモーダル意味グラフを用いたアスペクトベース感情分類

Aspect-based Sentiment Classification with Sequential Cross-modal Semantic Graph ( http://arxiv.org/abs/2208.09417v1 )

ライセンス: Link先を確認
Yufeng Huang, Zhuo Chen, Wen Zhang, Jiaoyan Chen, Jeff Z. Pan, Zhen Yao, Yujie Xie, Huajun Chen(参考訳) mabsc(multi-modal aspect-based sentiment classification)は、特定の対象の感情を分類することを目的とした分類タスクである。 テキストと画像を用いた一般的なマルチモーダルデータでは、従来のアプローチでは、画像の微細な意味論、特にテキストのセマンティクスと組み合わせて、きめ細かい画像情報とターゲットの関係を十分にモデル化することができないため、画像の使用が不十分で、きめ細かい側面や意見を特定するのに不十分である。 これらの制約に対処するために,シーケンシャルクロスモーダル意味グラフとエンコーダ・デコーダモデルを構築する手法を含む新しいフレームワーク seqcsg を提案する。 具体的には、原画像、画像キャプション、シーングラフからきめ細かい情報を抽出し、それらをテキストからのトークンだけでなく、クロスモーダルなセマンティックグラフの要素とみなす。 クロスモーダル意味グラフは、要素間の関係を示すマルチモーダル可視行列を持つシーケンスとして表現される。 モーダルなセマンティックグラフを効果的に活用するために,ターゲットプロンプトテンプレートを用いたエンコーダデコーダ法を提案する。 実験の結果,提案手法は既存の手法より優れており,2つの標準データセットMABSCの最先端化を実現していることがわかった。 さらに分析した結果,各コンポーネントの有効性が示され,対象と画像のきめ細かい情報との相関関係を暗黙的に学習できることがわかった。

Multi-modal aspect-based sentiment classification (MABSC) is an emerging classification task that aims to classify the sentiment of a given target such as a mentioned entity in data with different modalities. In typical multi-modal data with text and image, previous approaches do not make full use of the fine-grained semantics of the image, especially in conjunction with the semantics of the text and do not fully consider modeling the relationship between fine-grained image information and target, which leads to insufficient use of image and inadequate to identify fine-grained aspects and opinions. To tackle these limitations, we propose a new framework SeqCSG including a method to construct sequential cross-modal semantic graphs and an encoder-decoder model. Specifically, we extract fine-grained information from the original image, image caption, and scene graph, and regard them as elements of the cross-modal semantic graph as well as tokens from texts. The cross-modal semantic graph is represented as a sequence with a multi-modal visible matrix indicating relationships between elements. In order to effectively utilize the cross-modal semantic graph, we propose an encoder-decoder method with a target prompt template. Experimental results show that our approach outperforms existing methods and achieves the state-of-the-art on two standard datasets MABSC. Further analysis demonstrates the effectiveness of each component and our model can implicitly learn the correlation between the target and fine-grained information of the image.
翻訳日:2022-08-22 16:44:02 公開日:2022-08-19
# Representation similarity-Guided Multi-Task Feature Sharing を用いたカービングタスク干渉

Curbing Task Interference using Representation Similarity-Guided Multi-Task Feature Sharing ( http://arxiv.org/abs/2208.09427v1 )

ライセンス: Link先を確認
Naresh Kumar Gurulingan, Elahe Arani, Bahram Zonooz(参考訳) 高密度予測タスクのマルチタスク学習は、エンコーダとデコーダの両方を共有することによって、エンコーダのみを共有することよりも、精度と計算効率の両方を高めるための魅力的な側面を提供する。 タスクが類似している場合、デコーダの共有は、タスク間で補完的な情報を共有する余地を拡大する帰納的バイアスとして機能する。 しかし、共有の増大はタスクの干渉により多くのパラメータを公開し、一般化とロバスト性の両方を妨げる可能性がある。 この干渉を抑制する効果的な方法は、デコーダを共有する誘導バイアスを活用しながら、オープンな課題である。 そこで本研究では,タスク間の類似性に基づいてタスクデコーダを漸進的に結合するプログレッシブデコーダ融合(pdf)を提案する。 本手法は,分散と分散データの一般化が向上し,対向攻撃に対するロバスト性が向上したマルチタスクネットワークを実現する。 さらに、このマルチタスクネットワークの異なるタスクの予測が互いにより一致していることが観察された。

Multi-task learning of dense prediction tasks, by sharing both the encoder and decoder, as opposed to sharing only the encoder, provides an attractive front to increase both accuracy and computational efficiency. When the tasks are similar, sharing the decoder serves as an additional inductive bias providing more room for tasks to share complementary information among themselves. However, increased sharing exposes more parameters to task interference which likely hinders both generalization and robustness. Effective ways to curb this interference while exploiting the inductive bias of sharing the decoder remains an open challenge. To address this challenge, we propose Progressive Decoder Fusion (PDF) to progressively combine task decoders based on inter-task representation similarity. We show that this procedure leads to a multi-task network with better generalization to in-distribution and out-of-distribution data and improved robustness to adversarial attacks. Additionally, we observe that the predictions of different tasks of this multi-task network are more consistent with each other.
翻訳日:2022-08-22 16:43:34 公開日:2022-08-19
# 医用臨床ノートの類似度推定のためのグラフ提示循環学習フレームワーク

Graph-Augmented Cyclic Learning Framework for Similarity Estimation of Medical Clinical Notes ( http://arxiv.org/abs/2208.09437v1 )

ライセンス: Link先を確認
Can Zheng, Yanshan Wang, Xiaowei Jia(参考訳) 臨床領域におけるsemantic textual similarity(sts)は、診断効率の向上と下流データマイニングタスクのための簡潔なテキストの作成に役立つ。 しかし,クリニカルテキストに関わるドメイン知識の高さを考えると,臨床文章の背後にある暗黙的な医学的関係を推測し,類似性を正しく出力することは,一般言語モデルでは依然として困難である。 本稿では,臨床領域における類似度推定のためのグラフ型巡回学習フレームワークを提案する。 このフレームワークは最先端のバックボーン言語モデル上で便利に実装でき、補助グラフ畳み込みネットワーク(gcn)ベースのネットワークと協調してドメイン知識を活用することで、そのパフォーマンスを向上させることができる。 本稿では,GCNとコトレーニングフレームワークにおけるドメイン知識の導入の成功を,それぞれ16.3%,27.9%の改善により報告する。

Semantic textual similarity (STS) in the clinical domain helps improve diagnostic efficiency and produce concise texts for downstream data mining tasks. However, given the high degree of domain knowledge involved in clinic text, it remains challenging for general language models to infer implicit medical relationships behind clinical sentences and output similarities correctly. In this paper, we present a graph-augmented cyclic learning framework for similarity estimation in the clinical domain. The framework can be conveniently implemented on a state-of-art backbone language model, and improve its performance by leveraging domain knowledge through co-training with an auxiliary graph convolution network (GCN) based network. We report the success of introducing domain knowledge in GCN and the co-training framework by improving the Bio-clinical BERT baseline by 16.3% and 27.9%, respectively.
翻訳日:2022-08-22 16:42:51 公開日:2022-08-19
# NECE:ナラティブイベントチェーン抽出ツールキット

NECE: Narrative Event Chain Extraction Toolkit ( http://arxiv.org/abs/2208.08063v3 )

ライセンス: Link先を確認
Guangxuan Xu, Paulina Toro Isaza, Moshi Li, Akintoye Oloko, Bingsheng Yao, Aminat Adebiyi, Yufang Hou, Nanyun Peng, Dakuo Wang(参考訳) NECEは、物語文書のためのイベントベースのテキスト分析ツールキットである。 NECEは、ユーザに対して、グラフィックインターフェースとピソンパッケージの両方を通じて、イベントベースの要約と長い物語文書の抽象化へのオープンで簡単なアクセスを提供することを目的としている。 本研究は,重要なイベントの長期的イベント抽出と時間的順序付けの課題に対処し,同時に,主人公や性別グループといった物語的実体に関連するイベントを選択・閲覧するオプションを提供する。 イベントチェーン抽出システムの品質を実証するため,人間による評価を行い,特徴抽出アルゴリズムを提案する。 最後に、ジェンダーバイアス分析や質問応答タスクでの使用法を実証することで、ツールキットの潜在的な下流アプリケーションに光を当てた。

NECE is an event-based text analysis toolkit built for narrative documents. NECE aims to provide users open and easy accesses to an event-based summary and abstraction of long narrative documents through both a graphic interface and a python package, which can be readily used in narrative analysis, understanding, or other advanced purposes. Our work addresses the challenge of long passage events extraction and temporal ordering of key events; at the same time, it offers options to select and view events related to narrative entities, such as main characters and gender groups. We conduct human evaluation to demonstrate the quality of the event chain extraction system and character features mining algorithms. Lastly, we shed light on the toolkit's potential downstream applications by demonstrating its usage in gender bias analysis and Question-Answering tasks.
翻訳日:2022-08-22 16:42:35 公開日:2022-08-19
# 多変量時系列異常検出のための教師なし短時間・長期マスク表現

An Unsupervised Short- and Long-Term Mask Representation for Multivariate Time Series Anomaly Detection ( http://arxiv.org/abs/2208.09240v1 )

ライセンス: Link先を確認
Qiucheng Miao, Chuanfu Xu, Jun Zhan, Dong zhu, Chengkun Wu(参考訳) 多変量時系列の異常検出は,システムの挙動モニタリングに有用である。 本稿では,教師なし短期・長期マスク表現学習(slmr)に基づく異常検出手法を提案する。 本研究の目的は,多変量時系列の短期的局所依存パターンと長期的グローバルトレンドパターンを,多変量拡張畳み込みとゲートリカレント単位(gru)を用いて抽出することである。 さらに,空間-時空間マスク型自己教師付き表現学習とシーケンス分割を組み合わせることで,時間的文脈と特徴的相関を理解できる。 特徴の重要性は異なると考え,各特徴の貢献度を調整するための注意機構を導入する。 最後に,予測ベースモデルと再構成ベースモデルを統合し,時系列の単一タイムスタンプ予測と潜在表現に着目した。 実験の結果,本手法は実世界の3つのデータセットにおいて,他の最先端モデルよりも優れていた。 さらに分析した結果,本手法は解釈可能性に優れていた。

Anomaly detection of multivariate time series is meaningful for system behavior monitoring. This paper proposes an anomaly detection method based on unsupervised Short- and Long-term Mask Representation learning (SLMR). The main idea is to extract short-term local dependency patterns and long-term global trend patterns of the multivariate time series by using multi-scale residual dilated convolution and Gated Recurrent Unit(GRU) respectively. Furthermore, our approach can comprehend temporal contexts and feature correlations by combining spatial-temporal masked self-supervised representation learning and sequence split. It considers the importance of features is different, and we introduce the attention mechanism to adjust the contribution of each feature. Finally, a forecasting-based model and a reconstruction-based model are integrated to focus on single timestamp prediction and latent representation of time series. Experiments show that the performance of our method outperforms other state-of-the-art models on three real-world datasets. Further analysis shows that our method is good at interpretability.
翻訳日:2022-08-22 16:42:21 公開日:2022-08-19
# 報酬を最大化しながら格差を緩和する:バンド改善のためのタイトな保証

Mitigating Disparity while Maximizing Reward: Tight Anytime Guarantee for Improving Bandits ( http://arxiv.org/abs/2208.09254v1 )

ライセンス: Link先を確認
Vishakha Patil, Vineet Nair, Ganesh Ghalme, Arindam Khan(参考訳) 腕から得られる報酬が、受信したプル数に応じて増加するIMAB問題について検討する。 このモデルは、機会の分配に関する決定がコミュニティの将来的能力とそれら間の格差に影響を及ぼすことができる教育や雇用といった領域における多くの現実的な問題に対して、エレガントな抽象化を提供する。 このような設定の意思決定者は、いつでも累積報酬を最大化する標準的な目的に加えて、将来の報酬に対する彼女の決定の影響を考慮する必要がある。 これらの応用の多くにおいて、時間軸は意思決定者には事前に不明であり、技術的に困難な地平線認識環境におけるイマーブ問題の研究の動機となっている。 地平線を意識しない2つの目的の間に生じる緊張について検討する。 a) 腕の現在の報酬に基づいて,いつでも累積報酬を最大化すること,及び b) 早期に報酬が少なくても、長期報酬が良好な武器が十分な機会を得られること。 驚くべきことに、この2つの目標は、この設定で互いに一致していることを示します。 我々の主な貢献は、腕が十分な時間に真のポテンシャルに達することを保証しながら、可能な限りの累積報酬を達成するIMAB問題に対する任意のアルゴリズムである。 我々のアルゴリズムは、機会の欠如による初期格差を緩和し、改善が止まるまで腕を引っ張る。 私たちはそれを示してアルゴリズムの最適性を証明する。 a) IMAB問題のアルゴリズムは、どのような実用性があっても、最適のオフラインポリシーに関して、ポリシー後悔の$\Omega(T)と$\Omega(k)の競争比率を被らなければならない。 b)アルゴリズムの競合比は$O(k)$である。

We study the Improving Multi-Armed Bandit (IMAB) problem, where the reward obtained from an arm increases with the number of pulls it receives. This model provides an elegant abstraction for many real-world problems in domains such as education and employment, where decisions about the distribution of opportunities can affect the future capabilities of communities and the disparity between them. A decision-maker in such settings must consider the impact of her decisions on future rewards in addition to the standard objective of maximizing her cumulative reward at any time. In many of these applications, the time horizon is unknown to the decision-maker beforehand, which motivates the study of the IMAB problem in the technically more challenging horizon-unaware setting. We study the tension that arises between two seemingly conflicting objectives in the horizon-unaware setting: a) maximizing the cumulative reward at any time based on current rewards of the arms, and b) ensuring that arms with better long-term rewards get sufficient opportunities even if they initially have low rewards. We show that, surprisingly, the two objectives are aligned with each other in this setting. Our main contribution is an anytime algorithm for the IMAB problem that achieves the best possible cumulative reward while ensuring that the arms reach their true potential given sufficient time. Our algorithm mitigates the initial disparity due to lack of opportunity and continues pulling an arm till it stops improving. We prove the optimality of our algorithm by showing that a) any algorithm for the IMAB problem, no matter how utilitarian, must suffer $\Omega(T)$ policy regret and $\Omega(k)$ competitive ratio with respect to the optimal offline policy, and b) the competitive ratio of our algorithm is $O(k)$.
翻訳日:2022-08-22 16:42:05 公開日:2022-08-19
# グラフニューラルネットワークの説明可能性の評価

Evaluating Explainability for Graph Neural Networks ( http://arxiv.org/abs/2208.09339v1 )

ライセンス: Link先を確認
Chirag Agarwal, Owen Queen, Himabindu Lakkaraju, Marinka Zitnik(参考訳) グラフニューラルネットワーク(GNN)の振る舞いを理解するためにポストホックな説明がますます使われているため、GNNの説明の品質と信頼性を評価することが重要である。 しかしながら、既存のグラフデータセットが与えられたタスクに対して根拠となる説明を全く持たない、あるいは信頼できないため、gnnの説明の品質を評価することは困難である。 本稿では, 様々なベンチマークデータセット(例えば, グラフサイズ, 次数分布, ホモ親和性, ヘテロ親和性グラフ)を, 地層構造の説明を伴う合成グラフデータ生成器であるShapeGGenを紹介する。 さらに、多様な合成データセットを生成する柔軟性と、対応する接地説明により、様々な実世界のアプリケーションによって生成されたデータを模倣することができる。 ShapeGGenといくつかの実世界のグラフデータセットを、オープンソースのグラフ説明可能性ライブラリGraphXAIに含めています。 合成および実世界のグラフデータセットに加えて、graphxaiはデータローダ、データ処理関数、ビジュアライザ、gnnモデル実装、評価メトリクスを提供し、gnn説明可能性メソッドのパフォーマンスをベンチマークする。

As post hoc explanations are increasingly used to understand the behavior of graph neural networks (GNNs), it becomes crucial to evaluate the quality and reliability of GNN explanations. However, assessing the quality of GNN explanations is challenging as existing graph datasets have no or unreliable ground-truth explanations for a given task. Here, we introduce a synthetic graph data generator, ShapeGGen, which can generate a variety of benchmark datasets (e.g., varying graph sizes, degree distributions, homophilic vs. heterophilic graphs) accompanied by ground-truth explanations. Further, the flexibility to generate diverse synthetic datasets and corresponding ground-truth explanations allows us to mimic the data generated by various real-world applications. We include ShapeGGen and several real-world graph datasets into an open-source graph explainability library, GraphXAI. In addition to synthetic and real-world graph datasets with ground-truth explanations, GraphXAI provides data loaders, data processing functions, visualizers, GNN model implementations, and evaluation metrics to benchmark the performance of GNN explainability methods.
翻訳日:2022-08-22 16:41:36 公開日:2022-08-19
# SAFARI:解釈可能性のロバスト性の評価

SAFARI: Versatile and Efficient Evaluations for Robustness of Interpretability ( http://arxiv.org/abs/2208.09418v1 )

ライセンス: Link先を確認
Wei Huang, Xingyu Zhao, Gaojie Jin, Xiaowei Huang(参考訳) ディープラーニング(DL)モデルの解釈可能性は、信頼できるAIの障壁であることは間違いない。 説明可能なAI(XAI)コミュニティによる多大な努力にもかかわらず、説明には堅牢性がない。 したがって、XAI技術を考えると、DL解釈可能性の堅牢性を評価することが不可欠である。 この目的のために私たちは,最先端技術が集合的に対処できない,次の課題を特定します。 i) xai技術は高度に異質である。 二 誤解は、通常まれな出来事である。 三 最悪の場合及び全体的な堅牢性の両方が実用上の関心事である。 本稿では, 遺伝的アルゴリズム (ga) と部分集合シミュレーション (ss) に基づいて, ブラックボックスの性質を持つ2つの評価手法を提案する。 二 GAが制約された最適化を効率的に解くのに用い、一方、SSは、まれな事象の確率を推定するために用いている。 三 最悪の解釈の不一致及び一般には「textit{how}」という確率論的概念に関する2つの多様な指標を導入。 我々は,最先端技術を上回る精度,感度,効率性について実験を行った。 最後に,ロバストなxai法をランク付けし,分類と解釈のロバスト性を改善するためのトレーニングスキームを選択する方法の2つの応用例を示す。

Interpretability of Deep Learning (DL) models is arguably the barrier in front of trustworthy AI. Despite great efforts made by the Explainable AI (XAI) community, explanations lack robustness--indistinguishable input perturbations may lead to different XAI results. Thus, it is vital to assess how robust DL interpretability is, given an XAI technique. To this end, we identify the following challenges that state-of-the-art is unable to cope with collectively: i) XAI techniques are highly heterogeneous; ii) misinterpretations are normally rare events; iii) both worst-case and overall robustness are of practical interest. In this paper, we propose two evaluation methods to tackle them--i) they are of black-box nature, based on Genetic Algorithm (GA) and Subset Simulation (SS); ii) bespoke fitness functions are used by GA to solve a constrained optimisation efficiently, while SS is dedicated to estimating rare event probabilities; iii) two diverse metrics are introduced, concerning the worst-case interpretation discrepancy and a probabilistic notion of \textit{how} robust in general, respectively. We conduct experiments to study the accuracy, sensitivity and efficiency of our methods that outperform state-of-the-arts. Finally, we show two applications of our methods for ranking robust XAI methods and selecting training schemes to improve both classification and interpretation robustness.
翻訳日:2022-08-22 16:41:15 公開日:2022-08-19
# テキストから画像生成:背後に言語は残らない

Text to Image Generation: Leaving no Language Behind ( http://arxiv.org/abs/2208.09333v1 )

ライセンス: Link先を確認
Pedro Reviriego and Elena Merino-G\'omez(参考訳) 人工知能(AI)の最新の応用の1つは、自然言語の記述から画像を生成することである。 これらのジェネレータは現在利用可能になり、例えば雑誌の表紙に使われている印象的な結果が得られている。 ジェネレータへの入力は自然言語テキストの形式であるので、即座に生じる疑問は、入力が異なる言語で書かれたときにこれらのモデルがどのように振る舞うかである。 本稿では,3つの人気テキスト・イメージ・ジェネレータの性能が言語にどのように依存するかを最初に検討する。 その結果,英語以外の言語,特に広く使われていない言語では,性能が著しく低下していることがわかった。 この観察結果から,テキストと画像のジェネレータをどのように改良して,異なる言語間で性能が一貫したものになるかを議論する。 これは、この新技術が非ネイティブの英語話者によって使用され、言語多様性を維持するために基本である。

One of the latest applications of Artificial Intelligence (AI) is to generate images from natural language descriptions. These generators are now becoming available and achieve impressive results that have been used for example in the front cover of magazines. As the input to the generators is in the form of a natural language text, a question that arises immediately is how these models behave when the input is written in different languages. In this paper we perform an initial exploration of how the performance of three popular text-to-image generators depends on the language. The results show that there is a significant performance degradation when using languages other than English, especially for languages that are not widely used. This observation leads us to discuss different alternatives on how text-to-image generators can be improved so that performance is consistent across different languages. This is fundamental to ensure that this new technology can be used by non-native English speakers and to preserve linguistic diversity.
翻訳日:2022-08-22 16:37:50 公開日:2022-08-19
# simlda: トピックモデル評価のためのツール

SimLDA: A tool for topic model evaluation ( http://arxiv.org/abs/2208.09299v1 )

ライセンス: Link先を確認
Rebecca M.C. Taylor, Johan A. du Preez(参考訳) 遅延ディリクレアロケーション (LDA) に適用される変分ベイズ (VB) はアスペクトモデリングにおける最も一般的なアルゴリズムとなっている。 大規模なコーパスからテキストトピック抽出に十分な成功を収める一方で、VBは限られたデータの存在下での側面を特定することにはあまり成功していない。 我々は, 潜在ディリクレ割当(lda)に適用した新しい変分メッセージパッシングアルゴリズムを提案し, 金標準vbと崩壊ギブスサンプリングとの比較を行った。 余分化が非共役メッセージにつながる状況では、サンプリングのアイデアを使って近似更新方程式を導出する。 共謀がある場合、ループ信条更新(lbu、lauritzen-spiegelhalterとも呼ばれる)が使用される。 我々のアルゴリズムであるALBU (approximate LBU) は、変分メッセージパッシング (VMP) と強い類似性を持っている(VBのメッセージパッシング変種である)。 限られたデータが存在する場合のアルゴリズムの性能を比較するために、ツイートとニュースグループからなるデータセットを使用する。 コヒーレンス測度を用いて、ALBUは、特に小さなデータセットに対して、VBよりも正確な潜伏分布を学習することを示す。

Variational Bayes (VB) applied to latent Dirichlet allocation (LDA) has become the most popular algorithm for aspect modeling. While sufficiently successful in text topic extraction from large corpora, VB is less successful in identifying aspects in the presence of limited data. We present a novel variational message passing algorithm as applied to Latent Dirichlet Allocation (LDA) and compare it with the gold standard VB and collapsed Gibbs sampling. In situations where marginalisation leads to non-conjugate messages, we use ideas from sampling to derive approximate update equations. In cases where conjugacy holds, Loopy Belief update (LBU) (also known as Lauritzen-Spiegelhalter) is used. Our algorithm, ALBU (approximate LBU), has strong similarities with Variational Message Passing (VMP) (which is the message passing variant of VB). To compare the performance of the algorithms in the presence of limited data, we use data sets consisting of tweets and news groups. Using coherence measures we show that ALBU learns latent distributions more accurately than does VB, especially for smaller data sets.
翻訳日:2022-08-22 16:37:35 公開日:2022-08-19
# 分類性能指標の抽出とその応用

Classification Performance Metric Elicitation and its Applications ( http://arxiv.org/abs/2208.09142v1 )

ライセンス: Link先を確認
Gaurush Hiranandani(参考訳) 実世界のトレードオフによる学習問題を考えると、モデルを最適化するためにどのコスト関数を訓練すべきか? これは機械学習におけるメトリック選択問題です。 その実践的関心にもかかわらず、機械学習アプリケーションのためのメトリクスの選択方法に関する正式なガイダンスは限られている。 この論文は、暗黙のユーザの好みを最もよく反映するパフォーマンスメトリックを選択するための原則的なフレームワークとして、メトリックのエリシテーションを概説する。 一度指定すれば、評価基準はモデルの比較と訓練に使用できる。 本稿では,メトリック・リサイクリングの問題を形式化し,分類器よりもペア優先フィードバックを用いて分類性能指標を抽出するための新しい戦略を考案する。 具体的には,二進分類問題や多クラス分類問題に対して,線形および線形フラクショナルメトリクスを導出する新たな手法を提案し,複数のセンシティブなグループが存在する場合に,グループフレアパフォーマンスメトリクスを導出するフレームワークに拡張する。 我々が議論する全ての推定戦略は有限サンプルノイズとフィードバックノイズの両方に頑健であり、現実のアプリケーションでは実用上有用である。 さらに, 2次, 多クラス, 多クラス・多群の分類設定から得られる有理混乱統計セットのツールと幾何学的特徴を用いて, それらの局所線形構造を利用して, 解析統計の二次関数によって定義される, より広い範囲の複合的, 近代的多クラスメトリクスを抽出する戦略を提供する。 アプリケーションの観点からは,ネットワークの深層トレーニングに有効な複雑なブラックボックスメトリクスを最適化するために,メトリック・エリケーション・フレームワークを利用することも提案する。 最後に、理論を実践に近づけるために、二分分類設定において、ユーザが好むパフォーマンスメトリックを回復する上で、メトリックエリシテーションフレームワークの有効性を示す予備的な実ユーザー調査を行う。

Given a learning problem with real-world tradeoffs, which cost function should the model be trained to optimize? This is the metric selection problem in machine learning. Despite its practical interest, there is limited formal guidance on how to select metrics for machine learning applications. This thesis outlines metric elicitation as a principled framework for selecting the performance metric that best reflects implicit user preferences. Once specified, the evaluation metric can be used to compare and train models. In this manuscript, we formalize the problem of Metric Elicitation and devise novel strategies for eliciting classification performance metrics using pairwise preference feedback over classifiers. Specifically, we provide novel strategies for eliciting linear and linear-fractional metrics for binary and multiclass classification problems, which are then extended to a framework that elicits group-fair performance metrics in the presence of multiple sensitive groups. All the elicitation strategies that we discuss are robust to both finite sample and feedback noise, thus are useful in practice for real-world applications. Using the tools and the geometric characterizations of the feasible confusion statistics sets from the binary, multiclass, and multiclass-multigroup classification setups, we further provide strategies to elicit from a wider range of complex, modern multiclass metrics defined by quadratic functions of confusion statistics by exploiting their local linear structure. From application perspective, we also propose to use the metric elicitation framework in optimizing complex black box metrics that is amenable to deep network training. Lastly, to bring theory closer to practice, we conduct a preliminary real-user study that shows the efficacy of the metric elicitation framework in recovering the users' preferred performance metric in a binary classification setup.
翻訳日:2022-08-22 16:37:17 公開日:2022-08-19
# 低リソース自然言語理解のための効果的な伝達学習

Effective Transfer Learning for Low-Resource Natural Language Understanding ( http://arxiv.org/abs/2208.09180v1 )

ライセンス: Link先を確認
Zihan Liu(参考訳) 自然言語理解(NLU)は、機械による人間の言語の意味的復号化のタスクである。 NLUモデルは、優れたパフォーマンスを確保するために大規模なトレーニングデータに大きく依存している。 しかし、実質的な言語やドメインにはデータリソースやドメインエキスパートがほとんどありません。 非常に少ないか、あるいはゼロのトレーニングサンプルが利用できる場合、データの不足を克服する必要があります。 本論文では,低リソース問題に対処するクロスランガルおよびクロスドメイン手法の開発に焦点をあてる。 まず,タスク関連キーワードに着目し,モデルの頑健性を高め,表現を規則化することにより,モデルの言語横断能力を向上させることを提案する。 キーワードのみに注目することで、低リソース言語の表現が簡単かつ大幅に改善できることが分かりました。 第2に,言語間適応のための順序減少モデリング手法を提案し,シーケンス全体ではなく部分語順をモデル化することで,言語間の単語順序の差異に対するモデルの頑健性の向上と低リソース言語へのタスク知識の伝達が期待できることを示す。 第3に、ドメイン関連コーパスの異なるレベルと、クロスドメイン適応のための事前トレーニングにおけるデータのマスキングの追加、そして、より困難な事前トレーニングは、タスク知識転送におけるドメインの欠如の問題にもっと対処できることを発見することを提案する。 最後に,粒度の粗いフレームワークであるcoachと,言語間およびクロスドメインのパースフレームワークであるx2parserを紹介する。 Coachは表現学習プロセスを粗くきめ細かな機能学習に分解し、X2Parserは階層的なタスク構造をフラットなものに単純化する。 タスク構造を単純化することで、低リソース言語やドメインでの表現学習がより効果的になる。

Natural language understanding (NLU) is the task of semantic decoding of human languages by machines. NLU models rely heavily on large training data to ensure good performance. However, substantial languages and domains have very few data resources and domain experts. It is necessary to overcome the data scarcity challenge, when very few or even zero training samples are available. In this thesis, we focus on developing cross-lingual and cross-domain methods to tackle the low-resource issues. First, we propose to improve the model's cross-lingual ability by focusing on the task-related keywords, enhancing the model's robustness and regularizing the representations. We find that the representations for low-resource languages can be easily and greatly improved by focusing on just the keywords. Second, we present Order-Reduced Modeling methods for the cross-lingual adaptation, and find that modeling partial word orders instead of the whole sequence can improve the robustness of the model against word order differences between languages and task knowledge transfer to low-resource languages. Third, we propose to leverage different levels of domain-related corpora and additional masking of data in the pre-training for the cross-domain adaptation, and discover that more challenging pre-training can better address the domain discrepancy issue in the task knowledge transfer. Finally, we introduce a coarse-to-fine framework, Coach, and a cross-lingual and cross-domain parsing framework, X2Parser. Coach decomposes the representation learning process into a coarse-grained and a fine-grained feature learning, and X2Parser simplifies the hierarchical task structures into flattened ones. We observe that simplifying task structures makes the representation learning more effective for low-resource languages and domains.
翻訳日:2022-08-22 16:36:19 公開日:2022-08-19
# 因果介入によるインシシット・センシティメント分析の改善

Causal Intervention Improves Implicit Sentiment Analysis ( http://arxiv.org/abs/2208.09329v1 )

ライセンス: Link先を確認
Siyin Wang, Jie Zhou, Changzhi Sun, Junjie Ye, Tao Gui, Qi Zhang, Xuanjing Huang(参考訳) 感情分析で大きな成功を収めたにもかかわらず、既存のニューラルモデルは暗黙的な感情分析に苦しむ。 これは、スプリアス相関(例えば明示的な感情語のみに焦点をあてる)にラッチし、学習モデルの有効性と堅牢性を損なう可能性があるという事実による可能性がある。 本研究では,インスツルメンタル・バリアブル(ISAIV)を用いたインシシット・センシティメント分析のための因果介入モデルを提案する。 まず、因果的視点から感情分析をレビューし、このタスクに存在する共同設立者を分析する。 次に,因果効果を解消するためのインストゥルメンタル変数を導入し,文と感情の純粋な因果効果を抽出する。 提案するisaivモデルは,一般の暗黙的感情分析とアスペクトに基づく暗黙的感情分析タスクの両方において,いくつかの強いベースラインと比較した。 その結果,モデルの大きな利点と暗黙的な感情推論の有効性が示唆された。

Despite having achieved great success for sentiment analysis, existing neural models struggle with implicit sentiment analysis. This may be due to the fact that they may latch onto spurious correlations ("shortcuts", e.g., focusing only on explicit sentiment words), resulting in undermining the effectiveness and robustness of the learned model. In this work, we propose a causal intervention model for Implicit Sentiment Analysis using Instrumental Variable (ISAIV). We first review sentiment analysis from a causal perspective and analyze the confounders existing in this task. Then, we introduce an instrumental variable to eliminate the confounding causal effects, thus extracting the pure causal effect between sentence and sentiment. We compare the proposed ISAIV model with several strong baselines on both the general implicit sentiment analysis and aspect-based implicit sentiment analysis tasks. The results indicate the great advantages of our model and the efficacy of implicit sentiment reasoning.
翻訳日:2022-08-22 16:35:53 公開日:2022-08-19
# 中国電子健康記録からのエンドツーエンド臨床イベント抽出

End-to-end Clinical Event Extraction from Chinese Electronic Health Record ( http://arxiv.org/abs/2208.09354v1 )

ライセンス: Link先を確認
Wei Feng and Ruochen Huang and Yun Yu and Huiting Sun and Yun Liu(参考訳) イベント抽出は医療用テキスト処理の重要な仕事である。 医用テキストアノテーションの複雑な特性により,イベントの出力フォーマット情報を強化するために,エンドツーエンドのイベント抽出モデルを用いる。 事前訓練と微調整により,医学文献の4次元(解剖学的位置,主語,記述語,発生状態)の属性を抽出できる。 テストセットでは、精度は0.4511、リコール率は0.3928、F1値は0.42だった。 このモデルの方法は単純であり、第7回中国健康情報処理会議(chip2021)の中国電子カルテにおいて、臨床発見イベント(task2)の採掘作業で2位を獲得している。

Event extraction is an important work of medical text processing. According to the complex characteristics of medical text annotation, we use the end-to-end event extraction model to enhance the output formatting information of events. Through pre training and fine-tuning, we can extract the attributes of the four dimensions of medical text: anatomical position, subject word, description word and occurrence state. On the test set, the accuracy rate was 0.4511, the recall rate was 0.3928, and the F1 value was 0.42. The method of this model is simple, and it has won the second place in the task of mining clinical discovery events (task2) in the Chinese electronic medical record of the seventh China health information processing Conference (chip2021).
翻訳日:2022-08-22 16:35:39 公開日:2022-08-19
# イベント駆動型光流異方性調整による映像補間

Video Interpolation by Event-driven Anisotropic Adjustment of Optical Flow ( http://arxiv.org/abs/2208.09127v1 )

ライセンス: Link先を確認
Song Wu, Kaichao You, Weihua He, Chen Yang, Yang Tian, Yaoyuan Wang, Ziyang Zhang, Jianxing Liao(参考訳) ビデオフレームの補間は、変化する現実世界のシーンのために難しい作業だ。 従来の手法はしばしば双方向の光流を計算し、線形運動仮定の下で中間の光流を予測し、等方的な中間流を生成する。 追跡研究は、余分なフレームを持つ推定された高次モーション情報による異方性調整を得た。 動きの仮定に基づいて、実際のシーンで複雑な動きをモデル化することは困難である。 本稿では,イベント駆動型光フローの異方性調整を用いたビデオフレーム補間のためのエンドツーエンドトレーニング手法A^2OFを提案する。 具体的には、2つのフレーム間の複雑な動きをモデル化できる中間光学フローのための光フロー分布マスクを生成する。 提案手法は,映像フレーム補間における従来の手法よりも優れ,教師付きイベントベースビデオ補間をより高い段階に進める。

Video frame interpolation is a challenging task due to the ever-changing real-world scene. Previous methods often calculate the bi-directional optical flows and then predict the intermediate optical flows under the linear motion assumptions, leading to isotropic intermediate flow generation. Follow-up research obtained anisotropic adjustment through estimated higher-order motion information with extra frames. Based on the motion assumptions, their methods are hard to model the complicated motion in real scenes. In this paper, we propose an end-to-end training method A^2OF for video frame interpolation with event-driven Anisotropic Adjustment of Optical Flows. Specifically, we use events to generate optical flow distribution masks for the intermediate optical flow, which can model the complicated motion between two frames. Our proposed method outperforms the previous methods in video frame interpolation, taking supervised event-based video interpolation to a higher stage.
翻訳日:2022-08-22 16:35:25 公開日:2022-08-19
# Token Fusionによる画像分類の改善

Improved Image Classification with Token Fusion ( http://arxiv.org/abs/2208.09183v1 )

ライセンス: Link先を確認
Keong Hun Choi, Jin Woo Kim, Yao Wang, Jong Eun Ha(参考訳) 本稿では,CNNと変圧器構造を融合して画像分類性能を向上させる手法を提案する。 CNNの場合、画像上の局所領域に関する情報を適切に抽出することができるが、グローバル情報の抽出には限界がある。 一方、変換器は比較的グローバルな抽出に有利であるが、局所的な特徴値抽出に大量のメモリを必要とすることには欠点がある。 画像の場合、cnnを介してフィーチャーマップに変換され、各フィーチャーマップのピクセルはトークンとみなされる。 同時に、画像はパッチ領域に分割され、それらをトークンとして見るトランスフォーマーメソッドと融合する。 2つの異なる特徴を持つトークンの融合について,(1)並列構造を持つ後期トークン融合,(2)初期トークン融合,(3)層別トークン融合の3つの方法を提案する。 imagenet 1kを用いた実験では,提案手法が最適な分類性能を示す。

In this paper, we propose a method using the fusion of CNN and transformer structure to improve image classification performance. In the case of CNN, information about a local area on an image can be extracted well, but there is a limit to the extraction of global information. On the other hand, the transformer has an advantage in relatively global extraction, but has a disadvantage in that it requires a lot of memory for local feature value extraction. In the case of an image, it is converted into a feature map through CNN, and each feature map's pixel is considered a token. At the same time, the image is divided into patch areas and then fused with the transformer method that views them as tokens. For the fusion of tokens with two different characteristics, we propose three methods: (1) late token fusion with parallel structure, (2) early token fusion, (3) token fusion in a layer by layer. In an experiment using ImageNet 1k, the proposed method shows the best classification performance.
翻訳日:2022-08-22 16:35:12 公開日:2022-08-19