このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20221018となっている論文です。

PDF登録状況(公開日: 20221018)

TitleAuthorsAbstract論文公表日・翻訳日
# トイプリッツ密度演算子とその分離性

Toeplitz Density Operators and their Separability Properties ( http://arxiv.org/abs/2209.08051v2 )

ライセンス: Link先を確認
Maurice de Gosson(参考訳) トエプリッツ作用素(toeplitz operator、ローカライゼーション作用素とも呼ばれる)は、ベレージンとシュビンによって研究されたよく知られた反ウィック擬微分作用素の一般化である。 トープリッツ作用素が正の半定値であり、トレース 1 を持つとき、密度トープリッツ作用素( density toeplitz operator)と呼ぶ。 そのような作用素は量子力学における物理状態を表す。 本稿では、トープリッツ作用素の記号がいくつかのよく知られた汎函数空間(例えば、ファイヒティンガー代数)に属するとき、いくつかの側面を研究し、ガウスの場合を強調してそれらの分離性について論じる。

Toeplitz operators (also called localization operators) are a generalization of the well-known anti-Wick pseudodifferential operators studied by Berezin and Shubin. When a Toeplitz operator is positive semi-definite and has trace one we call it a density Toeplitz operator. Such operators represent physical states in quantum mechanics. In the present paper we study several aspects of Toeplitz operators when their symbols belong to some well-known functional spaces (e.g. the Feichtinger algebra) and discuss (tentatively) their separability properties with an emphasis on the Gaussian case.
翻訳日:2023-01-26 09:26:31 公開日:2022-10-18
# 一般化逐次量子最適化器における単一量子ゲートの完全最適化

Full optimization of a single-qubit gate on the generalized sequential quantum optimizer ( http://arxiv.org/abs/2209.08535v3 )

ライセンス: Link先を確認
Kaito Wada, Rudy Raymond, Yuki Sato, Hiroshi C. Watanabe(参考訳) パラメタライズド量子回路(PQC)における単一量子ビットゲートの解析最適選択に基づく量子アルゴリズムを提案する。 我々のアルゴリズムは、PQCの単一ビットゲートを変分量子アルゴリズムの目的関数を最小化する最適ゲートに順次置き換えることで、PQC構造を最適化する。 本手法では, 正弦波特性を利用する従来の逐次最適化器とは対照的に, 目的関数の回路評価をわずかに修正した行列要素を用いた行列分解を用いる。 この行列分解に基づく単一量子ゲート上の最適選択は、より効率的なPQCの最適化をもたらす。 さらに,本手法で用いられる行列因子分解の枠組みが,既存の逐次手法を統一し拡張することを示す。 本手法の有効性を示す数値実験を行った。

We propose a quantum algorithm based on the analytically-optimal selection of a single-qubit gate in parameterized quantum circuits (PQCs). Our algorithm optimizes the PQC structure by sequentially replacing a single-qubit gate in the PQC with the optimal one minimizing the objective function in the variational quantum algorithm. To directly find local optima, our method uses matrix factorization whose matrix elements consist of slightly-modified circuit evaluations on the objective function, which is in contrast to conventional sequential optimizers that utilize sinusoidal properties. Optimal selection over single-qubit gates based on this matrix factorization leads to more efficient optimization of PQCs. Moreover, we show that the framework of matrix factorization utilized in our method unifies and extends the existing sequential methods. We perform numerical experiments demonstrating the efficacy of the framework.
翻訳日:2023-01-26 04:40:04 公開日:2022-10-18
# 導波路QEDにおける局所多重励起暗黒状態の制御

Control of Localized Multiple Excitation Dark States in Waveguide QED ( http://arxiv.org/abs/2209.09212v3 )

ライセンス: Link先を確認
Raphael Holzinger, Ricardo Gutierrez-Jauregui, Teresa H\"onigl-Decrinis, Gerhard Kirchmair, Ana Asenjo-Garcia, Helmut Ritsch(参考訳) 1次元貯水池に結合した2レベル量子エミッタの有限鎖におけるサブラジアント励起状態は、優れた光子貯蔵と制御光子操作のための資源である。 通常、複数の励起を格納する状態はフェルミオン相関を示し、したがって反対称波動関数によって特徴づけられる。 ここでは、量子ビットの最大半分が励起された準局在化ダーク状態のクラスを特定し、これは誘導モード波長の整数倍の格子定数に対して現れる。 高度な準備ができ、最先端のセットアップで最小限の侵襲的な読み出しができる。 特に,超伝導トランスモン量子ビットに結合したコプラナー波導波路を用いた実験的実装を提案する。 自由空間と本質的な損失は最小限であるため、極端に完全な暗黒状態は低い量子ビットでも達成でき、高速な準備と高忠実な操作が可能となる。

Subradiant excited states in finite chains of two-level quantum emitters coupled to a one-dimensional reservoir are a resource for superior photon storage and controlled photon manipulation. Typically, states storing multiple excitations exhibit fermionic correlations and are thus characterized by an anti-symmetric wavefunction, which makes them hard to prepare experimentally. Here we identify a class of quasi-localized dark states with up to half of the qubits excited, which appear for lattice constants that are an integer multiple of the guided-mode wavelength. They allow for a high-fidelity preparation and minimally invasive read out in state-of-the-art setups. In particular, we suggest an experimental implementation using a coplanar wave-guide coupled to superconducting transmon qubits on a chip. As free space and intrinsic losses are minimal, virtually perfect dark states can be achieved even for a low number of qubits, enabling fast preparation and manipulation with high fidelity.
翻訳日:2023-01-26 02:03:45 公開日:2022-10-18
# ウィルソンループ作用素の抽出と単一バルク基底状態からの分数統計

Extracting Wilson loop operators and fractional statistics from a single bulk ground state ( http://arxiv.org/abs/2209.14302v2 )

ライセンス: Link先を確認
Ze-Pei Cian, Mohammad Hafezi, Maissam Barkeshli(参考訳) トポロジカル位相の重要な側面は、基底状態部分空間を不変に保つウィルソンループ作用素の存在である。 ここでは、ガッピングハミルトニアンの1つの基底状態波動関数をディスク上に与えたウィルソンループ作用素を体系的に見つけるための \it unbiased \rm 数値最適化スキームを実装した。 次に、これらのウィルソンループ作用素をさらなる最適化により切断・接着し、エノン励起を生成、移動、消滅できる演算子を与える方法を示す。 その後、これらの演算子を用いて、任意のオンのブレイディング統計とトポロジカルツイストを決定し、単一の波動関数からトポロジカル秩序を完全に抽出する方法を提供する。 本手法を摂動トーラス符号の基底状態に適用し, 臨界値の最大半分の磁場を持つ2重セミオンモデルを適用した。 現代の観点では、これは基底状態波動関数の創発的な1形式対称性を発見する機械学習アプローチと考えることができる。 アプリケーションの観点からは、現在の量子シミュレータでwilsonループ演算子を見つけるのに、このアプローチは関係がある。

An essential aspect of topological phases of matter is the existence of Wilson loop operators that keep the ground state subspace invariant. Here we present and implement an \it unbiased \rm numerical optimization scheme to systematically find the Wilson loop operators given a single ground state wave function of a gapped Hamiltonian on a disk. We then show how these Wilson loop operators can be cut and glued through further optimization to give operators that can create, move, and annihilate anyon excitations. We subsequently use these operators to determine the braiding statistics and topological twists of the anyons, yielding a way to fully extract topological order from a single wave function. We apply our method to the ground state of the perturbed toric code and doubled semion models with a magnetic field that is up to a half of the critical value. From a contemporary perspective, this can be thought of as a machine learning approach to discover emergent 1-form symmetries of a ground state wave function. From an application perspective, our approach can be relevant to find Wilson loop operators in current quantum simulators.
翻訳日:2023-01-24 19:27:06 公開日:2022-10-18
# デチューン共鳴蛍光における2光子放出

Two-photon emission in detuned resonance fluorescence ( http://arxiv.org/abs/2210.03733v2 )

ライセンス: Link先を確認
Eduardo Zubizarreta Casalengua, Elena del Valle and Fabrice P. Laussy(参考訳) 2レベル系エミッタをコヒーレントに駆動する際に形成される側ピークからの2光子相関について、駆動源とエミッタ(クアシ共鳴蛍光)の調整について検討する。 我々は、周波数分解光子相関とホモダイニングの理論の文脈において、それらの組み合わせが量子電磁力学の初期に流行した摂動性2光子散乱と相性の良い画像をもたらすことを示す。 これは多光子放出の新しいレギュレーションを制御し、強化し、開放するのに役立つだろう。 また、光発光のみによるプロセスの量子コヒーレントな性質を、その放射強度の上昇に伴うラインシェイプの対称性の崩壊を観察することによって証明する方法を提案する。 我々は,最近の実験成果を踏まえて,いくつかの結果について考察する。

We discuss two-photon correlations from the side peaks that are formed when a two-level system emitter is driven coherently, with a detuning between the driving source and the emitter (quasi-resonance fluorescence). We do so in the context of the theories of frequency-resolved photon correlations and homodyning, showing that their combination leads to a neat picture compatible with perturbative two-photon scattering that was popular in the early days of quantum electrodynamics. This should help to control, enhance and open new regimes of multiphoton emission. We also propose a way to evidence the quantum coherent nature of the process from photoluminescence only, through the observation of a collapse of the symmetry of the lineshape accompanied by a surge of its intensity of emission. We discuss several of our results in the light of recent experimental works.
翻訳日:2023-01-23 07:54:59 公開日:2022-10-18
# 論理ビットパフォーマンスのためのRydberg Gatesの最適化

Optimizing Rydberg Gates for Logical Qubit Performance ( http://arxiv.org/abs/2210.06879v2 )

ライセンス: Link先を確認
Sven Jandura, Jeff D Thompson, Guido Pupillo(参考訳) ロバストゲート配列は、実験的な欠陥に対するゲート操作の感度を低下させるために広く用いられている。 一般に、最適化は平均ゲート誤差を最小化するが、近年の量子誤差補正の研究は、符号化された論理量子ビットの性能が平均エラー率だけでなく、発生するエラーの種類にも敏感であることを示した。 ここでは,中性原子量子ビットに対して,強度不均一性とドップラーシフトという2つの一般的な不完全性に対して頑健なrydbergブロックゲートの族を示す。 これらの門は、中等度または大規模な不備のために既存の門より優れている。 また、メタスタブル$~^{171}$Ybに基づく消去バイアス量子ビットの文脈におけるこれらのゲートの論理的性能についても考察する。 この場合、ロバストゲートは、これらの量子ビットの消去誤差に対するネイティブな大きなバイアスを保っているため、不完全性の小さな値であっても、既存のゲートよりも優れている。 これらの結果は、中性原子を用いたフォールトトレラント量子コンピューティングを実現するためのレーザー安定性と原子温度要件を著しく低減する。 論理キュービット性能のためにゲートを最適化するアプローチは、他のキュービットプラットフォームに適用できる。

Robust gate sequences are widely used to reduce the sensitivity of gate operations to experimental imperfections. Typically, the optimization minimizes the average gate error, however, recent work in quantum error correction has demonstrated that the performance of encoded logical qubits is sensitive to not only the average error rate, but also the type of errors that occur. Here, we present a family of Rydberg blockade gates for neutral atom qubits that are robust against two common, major imperfections: intensity inhomogeneity and Doppler shifts. These gates outperform existing gates for moderate or large imperfections. We also consider the logical performance of these gates in the context of an erasure-biased qubit based on metastable $~^{171}$Yb. In this case, we observe that the robust gates outperform existing gates for even very small values of the imperfections, because they maintain the native large bias towards erasure errors for these qubits. These results significantly reduce the laser stability and atomic temperature requirements to achieve fault-tolerant quantum computing with neutral atoms. The approach of optimizing gates for logical qubit performance may be applied to other qubit platforms.
翻訳日:2023-01-22 17:04:59 公開日:2022-10-18
# 識別可能な光子を用いたオンチップ量子情報処理

On-chip quantum information processing with distinguishable photons ( http://arxiv.org/abs/2210.08044v2 )

ライセンス: Link先を確認
Patrick Yard, Alex E. Jones, Stefano Paesani, Alexandre Ma\"inos, Jacob F. F. Bulmer and Anthony Laing(参考訳) 多光子干渉はフォトニック量子技術の中心にある。 集積キャビティの配列は、高い純度と小さなフットプリントを持つ単一光子の明るい源をサポートすることができるが、非同一のキャビティから生成される光子の不可避なスペクトル識別性はスケーリングの障害となる。 原理として、この問題は、時間-エネルギーの不確実性関係を通じてスペクトル情報を消去する高タイミング分解能の光子を測定することで緩和することができる。 本稿では,キャビティベース集積光子源に必要なスケールで調整された光子を妨害するのに十分な時間分解能で検出を実装できることを実験的に実証する。 システムの効率的なタイミング分解能を200psから20psに向上させることで,6.8GHzで劣化する集積マイクロリング共振器からの独立光子間の量子干渉の可視性は20%向上する。 続いて,非理想光子の時間分解検出によって絡み合い動作の忠実性が向上し,ボゾンサンプリング実験における計算複雑性の低減が期待できることを示す。 これらの結果は、アクティブアライメントを必要としない多くの光子源によるフォトニック量子情報処理の道を開いた。

Multi-photon interference is at the heart of photonic quantum technologies. Arrays of integrated cavities can support bright sources of single-photons with high purity and small footprint, but the inevitable spectral distinguishability between photons generated from non-identical cavities is an obstacle to scaling. In principle, this problem can be alleviated by measuring photons with high timing resolution, which erases spectral information through the time-energy uncertainty relation. Here, we experimentally demonstrate that detection can be implemented with a temporal resolution sufficient to interfere photons detuned on the scales necessary for cavity-based integrated photon sources. By increasing the effective timing resolution of the system from 200ps to 20ps, we observe a 20% increase in the visibility of quantum interference between independent photons from integrated micro-ring resonator sources that are detuned by 6.8GHz. We go on to show how time-resolved detection of non-ideal photons can be used to improve the fidelity of an entangling operation and to mitigate the reduction of computational complexity in boson sampling experiments. These results pave the way for photonic quantum information processing with many photon sources without the need for active alignment.
翻訳日:2023-01-22 14:01:29 公開日:2022-10-18
# 2つの導波路集積単一光子源の独立動作

Independent operation of two waveguide-integrated single-photon sources ( http://arxiv.org/abs/2210.09826v1 )

ライセンス: Link先を確認
Camille Papon, Ying Wang, Ravitej Uppu, Sven Scholz, Andreas Dirk Wieck, Arne Ludwig, Peter Lodahl, Leonardo Midolo(参考訳) 複数の空間モードにおけるオンチップ単光子生成のためのフォトニック集積回路において、2つの量子ドットの共振励起を示す。 2つの量子ドットは、孤立した1対のp$-$i$-n$ジャンクションを使用して同じ発光波長に電気的に調整され、デュアルモード導波路を介して共鳴ポンプレーザーによって励起される。 狭線幅量子ドットの連続波励起下での$(79\pm2)\%$の2光子量子干渉の可視性を示す。 我々の研究は、決定論的単一光子源のスケールアップの鍵となる機能を実現することによって、量子フォトニクスにおける卓越した課題を解決する。

We demonstrate the resonant excitation of two quantum dots in a photonic integrated circuit for on-chip single-photon generation in multiple spatial modes. The two quantum dots are electrically tuned to the same emission wavelength using a pair of isolated $p$-$i$-$n$ junctions and excited by a resonant pump laser via dual-mode waveguides. We demonstrate two-photon quantum interference visibility of $(79\pm2)\%$ under continuous-wave excitation of narrow-linewidth quantum dots. Our work solves an outstanding challenge in quantum photonics by realizing the key enabling functionality of how to scale-up deterministic single-photon sources.
翻訳日:2023-01-22 04:38:50 公開日:2022-10-18
# ヘキサゴナルQECCのための効率的な機械学習型デコーダ

Efficient Machine-Learning-based decoder for Heavy Hexagonal QECC ( http://arxiv.org/abs/2210.09730v1 )

ライセンス: Link先を確認
Debasmita Bhoumik, Ritajit Majumdar, Dhiraj Madan, Dhinakaran Vinayagamurthy, Shesha Raghunathan, Susmita Sur-Kolay(参考訳) ヘキサゴナル符号や表面符号などの位相符号の誤りは通常、MWPM(Minimum Weight Perfect Matching)ベースのデコーダを用いてデコードされた。 最近の進歩は、例えばニューラルネットワークのような機械学習(ML)技術をデプロイすることで、トポロジ的コードは効率的に復号化できることを示している。 本研究では,まずMLに基づくデコーダを提案し,このデコーダが各種ノイズモデルに対してしきい値と擬似閾値の値を用いてヘキサゴナルコードを効率的に復号可能であることを示す。 提案手法は,mwpm によるしきい値値よりも$\sim の5$倍高い値が得られることを示す。 次に,サブシステムの特性を生かして,2つの異なるエラーが同じエラークラスに属するヘキサゴナルコードのゲージ等価性を定義する。 ビットフリップと位相フリップの両方のエラークラス数を2次的に削減することで、基本mlデコーダのしきい値overにおける$\sim 14\%$のさらなる改善を実現する。 クラス数を最小化するためのランクベースゲージ同値最小化の新たな手法が提案され、前述のゲージ同値最小化よりも実験的に高速である。

Errors in heavy hexagonal code and other topological codes like surface code were usually decoded using the Minimum Weight Perfect Matching (MWPM) based decoders. Recent advances have shown that topological codes can be efficiently decoded by deploying machine learning (ML) techniques, for example, neural networks. In this work, we first propose an ML based decoder and show that this decoder can decode heavy hexagonal code efficiently, in terms of the values of threshold and pseudo-threshold, for various noise models. We show that the proposed ML based decoding method achieves $\sim 5$ times higher values of threshold than that by MWPM. Next, exploiting the property of subsystem codes, we define gauge equivalence in heavy hexagonal code, by which two different errors can belong to the same error class. We obtain a quadratic reduction in the number of error classes for both bit flip and phase flip errors, thus achieving a further improvement of $\sim 14\%$ in the threshold o ver the basic ML decoder. A novel technique of rank based gauge equivalence minimization to minimize the number of classes is further proposed, which is empirically faster than the previously mentioned gauge equivalence minimization.
翻訳日:2023-01-22 04:38:40 公開日:2022-10-18
# 超伝導共振器のカーフリー点近傍でのフォック状態の解法

Resolving Fock states near the Kerr-free point of a superconducting resonator ( http://arxiv.org/abs/2210.09718v1 )

ライセンス: Link先を確認
Yong Lu, Marina Kudra, Timo Hillmann, Jiaying Yang, Hangxi Li, Fernando Quijandr\'ia, Per Delsing(参考訳) SNAIL(Superconducting Nonly Asymmetric Inductive eLement)で終端する可変非線形共振器を設計した。 このような装置は、外部磁束がカー相互作用を抑制することができるスイートスポットを有する。 我々はこのKerr自由点付近に励起光子を持ち、トランスモン量子ビットを用いたデバイスを特徴付ける。 量子ビットの励起スペクトルは、量子ビット線幅の約9倍の光子数依存周波数シフトを観測できる。 本研究では,マイクロ波領域における大きなカップリング,緩和時間,光子モード構造に対する優れた制御を組み合わせた,連続可変量子処理のためのコンパクトな統合プラットフォームを示す。

We have designed a tunable nonlinear resonator terminated by a SNAIL (Superconducting Nonlinear Asymmetric Inductive eLement). Such a device possesses a sweet spot in which the external magnetic flux allows to suppress the Kerr interaction. We have excited photons near this Kerr-free point and characterized the device using a transmon qubit. The excitation spectrum of the qubit allows to observe photon-number-dependent frequency shifts about nine times larger than the qubit linewidth. Our study demonstrates a compact integrated platform for continuous-variable quantum processing that combines large couplings, considerable relaxation times and excellent control over the photon mode structure in the microwave domain.
翻訳日:2023-01-22 04:38:17 公開日:2022-10-18
# 量子状態マッチングプロトコルを用いた量子コンピュータのテスト

Testing quantum computers with the protocol of quantum state matching ( http://arxiv.org/abs/2210.09674v1 )

ライセンス: Link先を確認
Adrian Ortega, Orsolya K\'alm\'an, Tam\'as Kiss(参考訳) 量子コンピュータにおけるノイズの存在は、その効果的な操作を妨げる。 量子誤差補正はこの問題を理論的に修復することができるが、その実践的実現は依然として課題である。 したがって、NISC(中規模量子コンピュータ)の試験とベンチマークが重要である。 本稿では、いわゆる量子状態マッチングプロトコルを試験目的に適用することを提案する。 このプロトコルは元々、未知の量子状態が参照状態の所定の近傍にあるかどうかを決定するために提案された。 我々はプロトコルに固有のユニタリを分解し、スキームの異なる特性パラメータに対するダイナミクスの一段階を実装した量子回路を構築し、2つの異なるIBM量子コンピュータのテスト結果を示す。 実験により得られた相対的な成功頻度と理想的な成功確率を最大統計許容度と比較することにより、デバイス固有のものと統計誤差を識別する。 ノイズのキャラクタリゼーションには、理想的なプロトコルの出力が入力状態の内部位相に敏感であるにもかかわらず、実際の実装はずれにつながる可能性があるという事実も活用する。 体系的に異なる入力に対して、より小さな量子ボリュームを持つデバイスは、より大きな量子ボリュームを持つデバイスよりも、我々のテストにおいてより良い性能を示す。

The presence of noise in quantum computers hinders their effective operation. Even though quantum error correction can theoretically remedy this problem, its practical realization is still a challenge. Testing and benchmarking noisy, intermediate-scale quantum (NISC) computers is therefore of high importance. Here, we suggest the application of the so-called quantum state matching protocol for testing purposes. This protocol was originally proposed to determine if an unknown quantum state falls in a prescribed neighborhood of a reference state. We decompose the unitary specific to the protocol and construct the quantum circuit implementing one step of the dynamics for different characteristic parameters of the scheme and present test results for two different IBM quantum computers. By comparing the experimentally obtained relative frequencies of success to the ideal success probability with a maximum statistical tolerance, we discriminate statistical errors from device specific ones. For the characterization of noise, we also use the fact that while the output of the ideal protocol is insensitive to the internal phase of the input state, the actual implementation may lead to deviations. For systematically varied inputs we find that the device with the smaller quantum volume performs better on our tests than the one with larger quantum volume, while for random inputs they show a more similar performance.
翻訳日:2023-01-22 04:38:05 公開日:2022-10-18
# 非定常BiFeO3膜における一軸ひずみ変調スピンサイクロイドの観察

Observation of uniaxial strain tuned spin cycloid in a freestanding BiFeO3 film ( http://arxiv.org/abs/2210.09548v1 )

ライセンス: Link先を確認
Zhe Ding, Yumeng Sun, Ningchong Zheng, Xingyue Ma, Mengqi Wang, Yipeng Zang, Pei Yu, Pengfei Wang, Ya Wang, Yurong Yang, Yuefeng Nie, Fazhan Shi and Jiangfeng Du(参考訳) 空間反転対称性を破り、磁気の効率的な電場制御を可能にする非線形スピン秩序は、BiFeO$_3$が低出力スピントロニクスデバイスへの応用に有望な候補となる。 エピタキシャルひずみ効果は、BiFeO$_3$の磁気秩序の顕著な変調を示すが、そのスピン構造を連続的に変化する一軸ひずみで調整することは、今もなお不十分である。 本稿では,BiFeO$_3$膜に一軸ひずみを印加し,走査型NV顕微鏡を用いて実空間におけるナノスケール磁気秩序を撮像する。 この期間、ひずみを0\%から1.5\%まで連続的に増加させ、異なるひずみの4つの画像を取得する。 これらの画像から、スピンサイクロイドはひずみが1.5\%近づくと$\sim 12.6^\circ$で傾くことが分かる。 最初の原理計算は、傾きがそのようなひずみ下でエネルギー的に有利であることを示すものである。 走査型NV顕微鏡による実空間イメージングと組み合わせた<emph{in situ} ひずみ印加法は,BiFeO$_3$薄膜の磁気秩序とひずみのカップリングの新たな研究方法である。

Non-collinear spin order that breaks space inversion symmetry and allows efficient electric-field control of magnetism makes BiFeO$_3$ a promising candidate for applications in low-power spintronic devices. Epitaxial strain effects have been intensively studied and exhibit significant modulation of the magnetic order in BiFeO$_3$, but tuning its spin structure with continuously varied uniaxial strain is still lacking up to date. Here, we apply \emph{in situ} uniaxial strain to a freestanding BiFeO$_3$ film and use scanning NV microscope to image the nanoscale magnetic order in real-space. The strain is continuously increased from 0\% to 1.5\% and four images under different strains are acquired during this period. The images show that the spin cycloid tilts by $\sim 12.6^\circ$ when strain approaches 1.5\%. A first principle calculation has been processed to show that the tilting is energetically favorable under such strain. Our \emph{in situ} strain applying method in combination with scanning NV microscope real-space imaging ability paves a new way in studying the coupling between magnetic order and strain in BiFeO$_3$ films.
翻訳日:2023-01-22 04:37:17 公開日:2022-10-18
# 高温ハイブリッドアルカリ-ノーブルガスを用いた非クリニック量子リピータの提案

Proposal for non-cryogenic quantum repeaters with hot hybrid alkali-noble gases ( http://arxiv.org/abs/2210.09504v1 )

ライセンス: Link先を確認
Jia-Wei Ji, Faezeh Kimiaee Asadi, Khabat Heshami, and Christoph Simon(参考訳) 極低温下で動作可能な量子リピータアーキテクチャを提案する。 アーキテクチャの各ノードは、高温のアルカリ原子と高貴なガススピンのセルの上に構築され、数時間の保存時間を提供します。 このようなハイブリッドガスのセルをリングキャビティに配置することで、システム内の有害な4波混合(FWM)ノイズを抑制することができる。 我々は,同じ高温アルカリ原子のアンサンブルからなる単一光子源に基づくプロトコルについて検討した。 ソースから放出される単一光子は、メモリに記憶されるか、検出対象の中央局に送信される。 我々は,検出器の有限メモリ効率,チャネル損失,暗数を考慮した,希ガススピンの2つのリモートアンサンブル間の絡み合いの発生率と成功確率を定量化する。 本稿では,格納信号の検索により,絡み合い操作により,絡み合いを長距離に拡張する方法について述べる。 さらに,提案するリピータアーキテクチャの性能をリピータレートと全体のエンタングルメントフィディティの観点から定量化し,窒素空孔(nv)中心と光機械スピン光子界面に基づく最近提案された非クリニック量子リピータアーキテクチャと比較した。 システムは比較的単純な設定を必要とするため、多重化がより容易であり、これはNV中心と光力学の繰り返し器の速度に匹敵する速度を達成できる一方、現在のスキームの全体的な絡み合いは以前のスキームの忠実度よりも高い。 我々の研究は、熱いハイブリッド原子ガスからなるスケーラブルな長距離量子ネットワークが、現在の技術的能力の範囲内にあることを示している。

We propose a quantum repeater architecture that can operate without cryogenics. Each node in our architecture builds on a cell of hot alkali atoms and noble-gas spins which offer a storage time as long as a few hours. Such a cell of hybrid gases is placed in a ring cavity, which allows us to suppress the detrimental four-wave mixing (FWM) noise in the system. We investigate the protocol based on a single-photon source made of an ensemble of the same hot alkali atoms. A single photon emitted from the source is either stored in the memory or transmitted to the central station to be detected. We quantify the fidelity and success probability of generating entanglement between two remote ensembles of noble-gas spins by taking into account finite memory efficiency, channel loss, and dark counts in detectors. We describe how the entanglement can be extended to long distances via entanglement swapping operations by retrieving the stored signal. Moreover, we quantify the performance of this proposed repeater architecture in terms of repeater rates and overall entanglement fidelities and compare it to another recently proposed non-cryogenic quantum repeater architecture based on nitrogen-vacancy (NV) centers and optomechanical spin-photon interfaces. As the system requires a relatively simple setup, it is much easier to perform multiplexing, which enables achieving rates comparable to the rates of repeaters with NV centers and optomechanics, while the overall entanglement fidelities of the present scheme are higher than the fidelities of the previous scheme. Our work shows that a scalable long-distance quantum network made of hot hybrid atomic gases is within reach of current technological capabilities.
翻訳日:2023-01-22 04:36:51 公開日:2022-10-18
# マイクロストリップフィルタを用いた超電導量子ビット制御のダブルアップコンバージョン

Double Upconversion for Superconducting Qubit Control realised using Microstrip Filters ( http://arxiv.org/abs/2210.09498v1 )

ライセンス: Link先を確認
Jonathan Dearlove, Prasanna Pakkiam, Arkady Fedorov(参考訳) 超伝導量子ビットは、大規模に量子コンピュータを物理的に実現するための有望なプラットフォームを提供する。 このような装置はマイクロ波周波数での精密制御を必要とする。 一般的には、IQ変調を用いて制御信号を合成し、2つの直流オフセットと共に位相内(I)と二次(Q)信号を校正する必要がある。 本稿では,ハードウェアキャリブレーションや物理資源の削減が要求されるダブルアップコンバージョンと呼ばれる代替手法の経済的物理的実装について述べる。 マイクロストリップフィルタと2つの一般的なRFミキサーの標準PCB設計技術を用いて物理回路が作成された。 この回路は超伝導トランスモン量子ビットの制御に成功した。 適切なRF遮蔽法では,トランスモン量子ビットの動作スペクトル全体にわたって70dB以上のスプリアスフリーダイナミックレンジで量子ビットのトーンが実証された。

Superconducting qubits provide a promising platform for physically realising quantum computers at scale. Such devices require precision control at microwave frequencies. Common practice is to synthesise such control signals using IQ modulation, requiring calibration of a in-phase (I) and quadrature (Q) signals alongside two DC offsets to generate pure tones. This paper presents an economic physical implementation of an alternative method referred to as double upconversion which requires considerably less hardware calibration and physical resources to operate a qubit. A physical circuit was created using standard PCB design techniques for microstrip filters and two common RF mixers. This circuit was then utilised to successfully control a superconducting transmon qubit. When using proper RF shielding, qubit tones were demonstrated with over 70dB of spurious-free dynamic range across the entire operational spectrum of a transmon qubit.
翻訳日:2023-01-22 04:36:24 公開日:2022-10-18
# Zak変換: Gottesman-Kitaev-Preskill符号を用いた量子計算のフレームワーク

The Zak transform: a framework for quantum computation with the Gottesman-Kitaev-Preskill code ( http://arxiv.org/abs/2210.09494v1 )

ライセンス: Link先を確認
Giacomo Pantaleoni, Ben Q. Baragiola, Nicolas C. Menicucci(参考訳) Gottesman-Kitaev-Preskill (GKP) 符号は周期波動関数を用いて量子ビットをボソニックモードに符号化する。 この周期性により、GKP符号はザック変換の自然な設定となり、周期関数の簡単な記述を提供するように仕上がっている。 我々は、ヒルベルト空間の状態のザック変換とそのザック基底への接続をレビューし、安定化子と補正可能な誤差の基盤となるシフト作用素を分解し、位置波動関数のザック変換がGKP誤差補正に自然に現れることを発見した。 我々は,zakベースで表現されたモードのヒルベルト空間を仮想量子ビットと仮想ゲージモードに分割することで,新しいボソニックサブシステム分解 (ssd) を構築する。 ゲージモードをトレースすると論理量子状態となり、特定の論理ゲージ相互作用でトレースに先立つと、gkpエラー訂正に関連する異なる論理状態が得られる。

The Gottesman-Kitaev-Preskill (GKP) code encodes a qubit into a bosonic mode using periodic wavefunctions. This periodicity makes the GKP code a natural setting for the Zak transform, which is tailor-made to provide a simple description for periodic functions. We review the Zak transform and its connection to a Zak basis of states in Hilbert space, decompose the shift operators that underpin the stabilizers and the correctable errors, and we find that Zak transforms of the position wavefunction appear naturally in GKP error correction. We construct a new bosonic subsystem decomposition (SSD) -- the modular variable SSD -- by dividing a mode's Hilbert space, expressed in the Zak basis, into that of a virtual qubit and a virtual gauge mode. Tracing over the gauge mode gives a logical-qubit state, and preceding the trace with a particular logical-gauge interaction gives a different logical state -- that associated to GKP error correction.
翻訳日:2023-01-22 04:36:09 公開日:2022-10-18
# 炭化ケイ素中の超微粒子結合バナジウム不純物のコヒーレントスピンダイナミクス

Coherent spin dynamics of hyperfine-coupled vanadium impurities in silicon carbide ( http://arxiv.org/abs/2210.09942v1 )

ライセンス: Link先を確認
Joop Hendriks, Carmem M. Gilardoni, Chris Adambukulam, Arne Laucht, and Caspar H. van der Wal(参考訳) 量子テクノロジーの進歩は、ダイヤモンドの窒素空洞センターでほとんど実現されている。 しかし、その性質の一部は非理想的であり、他のスピン活性結晶欠陥の研究を促進する。 これらのいくつかはスピン軌道と超微細結合のためのより強いエネルギースケールを持つが、それがスピンコヒーレンスにどのように影響するかはほとんど調査されていない。 炭化ケイ素のバナジウム(Vanadium in Silicon Carbide)は、テレコム波長での光学発光と半導体産業との互換性に技術的関心を持つシステムである。 ここでは、クロック遷移の周りのバナジウム欠陥のアンサンブルのコヒーレントスピンダイナミクスを示す。 スピンは最大7.2ドル(約7万2000円)で、スピンエコーによるコヒーレンスライフタイムは数十マイクロ秒を超えます。 我々は、隣接する核スピンとの強い結合が中心バナジウムスピンのコヒーレンスを損なわない操作点を示し、これらをコヒーレントスピンレジスタとして適用する方法を明らかにした。 本研究は, ダイヤモンド, 炭化ケイ素, 六方晶窒化ホウ素で現在研究されている, 類似したエネルギースケールと結晶対称性を持つ幅広い欠陥の理解に有用である。

Progress with quantum technology has for a large part been realized with the nitrogen-vacancy centre in diamond. Part of its properties, however, are nonideal and this drives research into other spin-active crystal defects. Several of these come with much stronger energy scales for spin-orbit and hyperfine coupling, but how this affects their spin coherence is little explored. Vanadium in silicon carbide is such a system, with technological interest for its optical emission at a telecom wavelength and compatibility with semiconductor industry. Here we show coherent spin dynamics of an ensemble of vanadium defects around a clock-transition, studied while isolated from, or coupled to neighbouring nuclear spins. We find spin dephasing times up to 7.2 $\mu$s, and via spin-echo studies coherence lifetimes that go well beyond tens of microseconds. We demonstrate operation points where strong coupling to neighbouring nuclear spins does not compromise the coherence of the central vanadium spin, which identifies how these can be applied as a coherent spin register. Our findings are relevant for understanding a wide class of defects with similar energy scales and crystal symmetries, that are currently explored in diamond, silicon carbide, and hexagonal boron nitride.
翻訳日:2023-01-22 04:30:43 公開日:2022-10-18
# IBM量子コンピュータにおける量子ウォークの測定

Measurement induced quantum walks on an IBM Quantum Computer ( http://arxiv.org/abs/2210.09941v1 )

ライセンス: Link先を確認
Sabine Tornow and Klaus Ziegler(参考訳) 2つの点を持つグラフ上のストロボスコープ射影計測の対象となる1つの粒子の量子ウォークについて検討した。 この2レベルシステムは、測定誘導量子ウォークの最小モデルである。 平均の最初の検出された遷移と戻り時間は、サイトとオンサイト電位の間のホッピング行列要素の関数としてibm量子コンピュータで計算される。 実験的に観測された量子ウォークは, 理論的に予測された応答時間の量子化や, 縮退点近傍で検出された平均第1遷移時間の強い増加などの挙動を, 高精度に明らかにした。

We study a quantum walk of a single particle that is subject to stroboscopic projective measurements on a graph with two sites. This two-level system is the minimal model of a measurement induced quantum walk. The mean first detected transition and return time are computed on an IBM quantum computer as a function of the hopping matrix element between the sites and the on-site potential. The experimentally monitored quantum walk reveals the theoretically predicted behavior, such as the quantization of the first detected return time and the strong increase of the mean first detected transition time near degenerate points, with high accuracy.
翻訳日:2023-01-22 04:30:21 公開日:2022-10-18
# ボソンサンプリングの完全状態ベクトルにおける絡み合い

Entanglement in the full state vector of boson sampling ( http://arxiv.org/abs/2210.09915v1 )

ライセンス: Link先を確認
Yulong Qiao, Joonsuk Huh, and Frank Grossmann(参考訳) ボソンサンプリングの完全状態ベクトルは、Mモードのビームスプリッタを介してS単一光子を通過させることにより生成される。 初期フォック状態は一般化コヒーレント状態で表現され、ユニタリ進化の正確な適用が可能となる。 M の多項式スケーリングに有利なため、中間粒子と巨大モード数に対する Renyi 絡み合いエントロピーを調査できる。 ほぼ)renyiインデックス独立な対称ページ曲線が等間隔で最大エントロピーを持つ。 さらに、モードインデックスの関数としての最大エントロピーは、衝突のない部分空間の場合のMの関数として飽和する。 エントロピーの漸近値は S と直線的に増加するが、さらに、エントロピーの組上げは非対称エントロピー曲線の S に等しいサブシステムサイズでのカスプにつながることを示す。 最大エンタングルメントは、システム全体にわたってモード人口が分散する前に驚くほど早く到達する。

The full state vector of boson sampling is generated by passing S single photons through beam splitters of M modes. The initial Fock state is expressed withgeneralized coherent states, and an exact application of the unitary evolution becomes possible. Due to the favorable polynomial scaling in M , we can investigate Renyi entanglement entropies for moderate particle and huge mode numbers. We find (almost) Renyi index independent symmetric Page curves with maximum entropy at equal partition. Furthermore, the maximum entropy as a function of mode index saturates as a function of M in the collision-free subspace case. The asymptotic value of the entropy increases linearly with S. Furthermore, we show that the build-up of the entanglement leads to a cusp at subsystem size equal to S in the asymmetric entanglement curve. The maximum entanglement is reached surprisingly early before the mode population is distributed over the whole system.
翻訳日:2023-01-22 04:30:11 公開日:2022-10-18
# 3次元テンソルネットワークの効率的な計算

Efficient calculation of three-dimensional tensor networks ( http://arxiv.org/abs/2210.09896v1 )

ライセンス: Link先を確認
Li-Ping Yang, Y. F. Fu, Z. Y. Xie, and T. Xiang(参考訳) 本研究では,3次元古典統計モデルと(2+1)次元量子格子モデルの研究に特に関係する,変換不変な3次元テンソルネットワークの物理量を計算する効率的なアルゴリズムを提案する。 古典モデルの文脈では、左と右の優性固有ベクトルが2つの射影された単純な状態によって表現される転送行列の優性固有値問題を解くことによって分割関数を決定する。 これら2つの凸凸状態はエルミート共役ではなく、内部積が通常の処方薬よりもはるかに効率的に計算できるように適切に配置されている。 3次元イジングモデルでは,計算された内部エネルギーと自発的磁化は文献で公表された結果と一致する。 他のモデルの改良や拡張についても論じている。

We have proposed an efficient algorithm to calculate physical quantities in the translational invariant three-dimensional tensor networks, which is particularly relevant to the study of the three-dimensional classical statistical models and the (2+1)-dimensional quantum lattice models. In the context of a classical model, we determine the partition function by solving the dominant eigenvalue problem of the transfer matrix, whose left and right dominant eigenvectors are represented by two projected entangled simplex states. These two projected entangled simplex states are not hermitian conjugate to each other but are appropriately arranged so that their inner product can be computed much more efficiently than in the usual prescription. For the three-dimensional Ising model, the calculated internal energy and spontaneous magnetization agree with the published results in the literature. The possible improvement and extension to other models are also discussed.
翻訳日:2023-01-22 04:29:48 公開日:2022-10-18
# 量子コンピュータ上での仮想時間進化を用いた最適分子ジオメトリーの探索

Exhaustive search for optimal molecular geometries using imaginary-time evolution on a quantum computer ( http://arxiv.org/abs/2210.09883v1 )

ライセンス: Link先を確認
Taichi Kosugi, Hirofumi Nishi, Yuichiro Matsushita(参考訳) 量子コンピュータ上での確率的想像時間進化(PITE)を用いた量子化学のフレームワークである第一量子化固有解法のための分子の幾何最適化のための非変分法スキームを提案する。 分子中の電子は量子力学的粒子として扱われるが、核は古典的な点電荷として扱われる。 電子状態と分子の候補を多ビット状態の重ね合わせとしてエンコードし、量子的優位性をもたらす。 繰り返し測定の結果によって形成されるヒストグラムは、エネルギー表面の地球的最小値を与える。 回路深さは電子番号n_eのO(n_e^2 poly(log n_e))としてスケールし、余剰O(n_e log n_e)量子ビットが利用可能であればO(n_e poly(log n_e))に縮小できる。 我々は数値シミュレーションによりその計画を裏付ける。 新しい効率的なスキームは、量子コンピュータ上で実用的な量子化学のスケーラビリティを達成するのに役立つだろう。 このスキームの特別な場合として、荷電粒子のみからなる古典的な体系が認められる。 また、ノイズの多い中間規模量子(NISQ)デバイスにおける回路深度を優先する変動計算に適応する手法についても検討する。

We propose a nonvariational scheme for geometry optimization of molecules for the first-quantized eigensolver, a recently proposed framework for quantum chemistry using the probabilistic imaginary-time evolution (PITE) on a quantum computer. While the electrons in a molecule are treated in the scheme as quantum mechanical particles, the nuclei are treated as classical point charges. We encode both electronic states and candidate molecular geometries as a superposition of many-qubit states, leading to quantum advantage. The histogram formed by outcomes of repeated measurements gives the global minimum of the energy surface. We demonstrate that the circuit depth scales as O (n_e^2 poly(log n_e)) for the electron number n_e, which can be reduced to O (n_e poly(log n_e)) if extra O (n_e log n_e) qubits are available. We corroborate the scheme via numerical simulations. The new efficient scheme will be helpful for achieving scalability of practical quantum chemistry on quantum computers. As a special case of the scheme, a classical system composed only of charged particles is admitted. We also examine the scheme adapted to variational calculations that prioritize saving circuit depths for noisy intermediate-scale quantum (NISQ) devices.
翻訳日:2023-01-22 04:29:26 公開日:2022-10-18
# 異なる量子能力を持つクライアントに対するアンシラ駆動ブラインド量子計算

Ancilla-driven blind quantum computation for clients with different quantum capabilities ( http://arxiv.org/abs/2210.09878v1 )

ライセンス: Link先を確認
Qunfeng Dai, Junyu Quan, Xiaoping Lou, and Qin Li(参考訳) ブラインド量子計算(Blind quantum compute, BQC)は、限られた量子パワーを持つクライアントが、量子計算タスクを強力なサーバに委譲し、入力、出力、アルゴリズムをプライベートに保つことを可能にする。 主にBQCに関する2種類のモデル、すなわち回路ベースのモデルと測定ベースのモデルがある。 さらに、レジスタ量子ビット上のすべてのユニタリ操作をレジスタ量子ビットに結合した単一のアンシラによって実現できる回路ベースと測定ベースの両方の特性を組み合わせることで、ancilla-driven universal blind quantum computing (adbqc) と呼ばれるハイブリッドモデルを提案した。 しかし、adbqcモデルでは、クライアントの量子能力は、シングルキュービットの作成に厳密に制限される。 クライアントが単一の量子ビットまたはいくつかの単純な量子ゲートしか実行できない場合、adbqcを介して計算をリモートサーバに委譲することもできます。 本稿では,シングルキュービット計測やシングルキュービットゲートなど,量子能力の異なるクライアントに対して2種類のadbqcプロトコルを提案することで,この問題を解決し,既存のモデルを拡張する。 さらに、提案する2つのadbqcプロトコルでは、クライアントは、検証可能な技術を用いて、サーバが正直であるかどうかを高い確率で検出できる。

Blind quantum computation (BQC) allows a client with limited quantum power to delegate his quantum computational task to a powerful server and still keep his input, output, and algorithm private. There are mainly two kinds of models about BQC, namely circuit-based and measurement-based models. In addition, a hybrid model called ancilla-driven universal blind quantum computing (ADBQC) was proposed by combining the properties of both circuit-based and measurement-based models, where all unitary operations on the register qubits can be realized with the aid of single ancillae coupled to the register qubits. However, in the ADBQC model, the quantum capability of the client is strictly limited to preparing single qubits. If a client can only perform single-qubit measurements or a few simple quantum gates, he may also want to delegate his computation to a remote server via ADBQC. This paper solves the problem and extends the existing model by proposing two types of ADBQC protocols for clients with different quantum capabilities, such as performing single-qubit measurements or single-qubit gates. Furthermore, in the proposed two ADBQC protocols, clients can detect whether servers are honest or not with a high probability by using corresponding verifiable techniques.
翻訳日:2023-01-22 04:28:57 公開日:2022-10-18
# 偏光効果を用いたポジトロニウム密度測定

Positronium density measurements using polaritonic effects ( http://arxiv.org/abs/2210.09875v1 )

ライセンス: Link先を確認
Erika Cortese, David B. Cassidy and Simone De Liberato(参考訳) ポシトロニウム(Ps)物理学の最近の実験的進歩により、Ps-Ps相互作用が起こるような密度の高いPsアンサンブルを生成でき、Ps$2$分子が生成され、Psボース-アインシュタイン凝縮体(BEC)の実現への道が開かれた。 後者の目的を達成するために、Ps密度をリアルタイムで測定する新しい手法を開発するのが有利である。 現実的な実験パラメータを用いて、密度の高いPsガスが分散ブラッグ反射体マイクロキャビティのフォトニック場に強く結合できることを実証する。 この強い結合状態において、系の光学スペクトルは、Ps密度の平方根に比例する真空ラビ分裂によって分離された2つのハイブリッドポジトロニウム-ポラリトン共鳴からなる。 ポラリトンがサブサイクルの時間スケールで生成できることを考えると、真空ラビ分裂の分光測定は、ps bec形成に関連する領域における超高速ps密度測定として使用できる。 さらに, ポジトロニウム-ポーラリトンが超強光子結合系に入る可能性を示し, 非摂動現象学を探究する画期的なプラットフォームを導入した。

Recent experimental advances in Positronium (Ps) physics have made it possible to produce dense Ps ensembles in which Ps-Ps interactions may occur, leading to the production of Ps$_2$ molecules and paving the way to the realization of a Ps Bose-Einstein Condensate (BEC). In order to achieve this latter goal it would be advantageous to develop new methods to measure Ps densities in real-time. Here we describe a possible approach to do this using polaritonic methods: using realistic experimental parameters we demonstrate that a dense Ps gas can be strongly coupled to the photonic field of a distributed Bragg reflector microcavity. In this strongly coupled regime, the optical spectrum of the system is composed of two hybrid positronium-polariton resonances separated by the vacuum Rabi splitting, which is proportional to the square root of the Ps density. Given that polaritons can be created on a sub-cycle timescale, a spectroscopic measurement of the vacuum Rabi splitting could be used as an ultra-fast Ps density measurement in regimes relevant to Ps BEC formation. Moreover, we show how positronium-polaritons could potentially enter the ultrastrong light-matter coupling regime, introducing a radically novel platform to explore its non-perturbative phenomenology.
翻訳日:2023-01-22 04:28:36 公開日:2022-10-18
# 異なるタイプのクライアントに対するID認証による検証可能なブラインド量子計算

Verifiable blind quantum computation with identity authentication for different types of clients ( http://arxiv.org/abs/2210.09830v1 )

ライセンス: Link先を確認
Junyu Quan, Qin Li, Lvzhou Li(参考訳) 量子コンピューティングは、古典的な問題よりもいくつかの問題を解く上で大きな利点がある。 現在、量子コンピュータを構築するために様々な物理システムが開発されているが、まだ困難であり、量子コンピュータの最初の使用はクラウドスタイルを採用するかもしれない。 Blind Quant Computing(BQC)は、限られた量子能力を持つクライアントに対して、入力、出力、アルゴリズムのプライベートを維持しながら、量子計算をリモート量子サーバに委譲するソリューションを提供する。 本稿では, 量子ネットワークにおいて, 測定, 単一量子ビットの作成, 数個の単一量子ビットゲートの実行など, 様々な量子能力を持つクライアントを扱えるように, 識別認証付き多人数検証型ブラインド量子コンピューティング(VBQC)プロトコルを提案する。 クライアントは自身の量子デバイスに依存してBQCを達成でき、量子ネットワークにおけるインサイダー外部攻撃の両方に抵抗できるため、クライアントフレンドリでフレキシブルである。 さらに、提案した3つのプロトコルはすべて検証可能であり、クライアントは計算の正確性を検証することができる。

Quantum computing has considerable advantages in solving some problems over its classical counterpart. Currently various physical systems are developed to construct quantum computers but it is still challenging and the first use of quantum computers may adopt the cloud style. Blind quantum computing (BQC) provides a solution for clients with limited quantum capabilities to delegate their quantum computation to remote quantum servers while keeping input, output, and even algorithm private. In this paper, we propose three multi-party verifiable blind quantum computing (VBQC) protocols with identity authentication to handle clients with varying quantum capabilities in quantum networks, such as those who can just make measurements, prepare single qubits, or perform a few single-qubit gates. They are client-friendly and flexible since the clients can achieve BQC depending on their own quantum devices and resist both insider outsider attacks in quantum networks. Furthermore, all the three proposed protocols are verifiable, namely that the clients can verify the correctness of their calculations.
翻訳日:2023-01-22 04:27:46 公開日:2022-10-18
# 粒子除去を伴う超流動フェルミ気体の長寿命ヒッグスモード

Exciting long-lived Higgs mode in superfluid Fermi gases with particle removal ( http://arxiv.org/abs/2210.09829v1 )

ライセンス: Link先を確認
Guitao Lyu, Kui-Tian Xi, Sukjin Yoon, Qijin Chen, and Gentaro Watanabe(参考訳) 強い相互作用を持つ超流動フェルミガスにおけるヒッグスモードの実験的証拠は、これまで観測されていない [A. Behrle et al., Nat. Phys. 14, 781 (2018)]。 他の集合モードと準粒子励起との結合のため、安定なヒッグスモード振動の生成は困難である。 bcs-becクロスオーバーにおける一様超流動フェルミ気体中の長寿命ヒッグスモード振動の励起方法を検討した。 時間周期的に散乱長を適切な振幅と周波数で調節することでヒッグスモードを励起することができる。 しかし、ペアリングギャップエネルギーの2倍以下の変調周波数であっても、準粒子は超流動の非線形性のために高調波の発生を通じて励起される。 さらに, 粒子を適切な運動量で除去することにより, ほぼ一定振幅の持続ヒッグスモード振動を発生させることができ, 発振振幅を除去粒子数で制御できることがわかった。 最後に, 粒子除去実験の2つの方法を提案する。

Experimental evidence of the Higgs mode in strongly interacting superfluid Fermi gases has not been observed until not long ago [A. Behrle et al., Nat. Phys. 14, 781 (2018)]. Due to the coupling with other collective modes and quasiparticle excitations, generating stable Higgs-mode oscillations is challenging. We study how to excite long-lived Higgs-mode oscillations in a homogeneous superfluid Fermi gas in the BCS-BEC crossover. We find that the Higgs mode can be excited by time-periodically modulating the scattering length at an appropriate amplitude and frequency. However, even for a modulation frequency below twice the pairing gap energy, quasiparticles are still excited through the generation of higher harmonics due to nonlinearity in the superfluid. More importantly, we find that persistent Higgs-mode oscillations with almost constant amplitude can be produced by removing particles at an appropriate momentum, and the oscillation amplitude can be controlled by the number of removed particles. Finally, we propose two ways of experimental realization of particle removal.
翻訳日:2023-01-22 04:27:26 公開日:2022-10-18
# 2次元クリフォード回路における局在の欠如

Absence of localization in two-dimensional Clifford circuits ( http://arxiv.org/abs/2210.10129v1 )

ライセンス: Link先を確認
Tom Farshi, Jonas Richter, Daniele Toniolo, Arijeet Pal, Lluis Masanes(参考訳) ユニタリ回路モデルは、多体量子系のダイナミクスの普遍的な側面に関する有用なレンズを提供する。 相互作用は量子情報の拡散と熱化に繋がるが、強い障害の存在は情報の局所化を誘導することによってこの過程を禁止できる。 量子力学の回路モデルにおける時空の制約のないランダム性は、量子カオスと情報の高速スクランブルを引き起こす。 逆に、時間周期回路は局在化の影響を受けやすい。 本研究では,そのような量子回路における局所化の存在に物理空間の次元性が果たす重要な役割を示す。 ランダムなクリフォードゲートを持つフロケット回路を1次元と2次元で解析する。 ランダムグラフとパーコレーション理論の手法を用いることで、局所作用素が弾道速度で成長することを2次元で証明し、これは局所化の欠如を意味する。 対照的に、一次元モデルはランダムな場所における左右の遮蔽壁の出現を特徴とする強固な局在を示す。 2次元(単次元)における局所化の欠如(予備)を示す演算子の拡散と絡み合い成長の数値シミュレーションにより,解析結果を補完することにより,さらなる知見を提供する。 さらに,2次元回路におけるフロケ単位のスペクトル形状係数が,カオス的な単一粒子動力学を持つ準自由フェルミオンのように振る舞うことを明らかにする。 我々の研究は、クリフォード回路が様々な量子多体現象の量子シミュレーションにおいて重要な役割を果たすことを強調する。

Unitary circuit models provide a useful lens on the universal aspects of the dynamics of many-body quantum systems. Although interactions lead to spreading of quantum information and thermalization, the presence of strong disorder can prohibit this process, by inducing localization of information. Unrestricted randomness along space-time in circuit models of quantum dynamics gives rise to quantum chaos and fast scrambling of information. On the contrary, time-periodic circuits can be susceptible to localization. In this work, we show the crucial role played by dimensionality of physical space on the existence of localization in such quantum circuits. We analyse a Floquet circuit with random Clifford gates in one and two spatial dimensions. By using random graphs and methods from percolation theory, we prove in the two dimensional setting that some local operators grow at ballistic rate, which implies the absence of localization. In contrast, the one-dimensional model displays a strong form of localization characterized by the emergence of left and right-blocking walls in random locations. We provide additional insights by complementing our analytical results with numerical simulations of operator spreading and entanglement growth, which show the absence (presence) of localization in two-dimension (one-dimension). Furthermore, we unveil that the spectral form factor of the Floquet unitary in two-dimensional circuits behaves like that of quasi-free fermions with chaotic single particle dynamics, with an exponential ramp that persists till times scaling linearly with the size of the system. Our work highlights that Clifford circuits can play a vital role in quantum simulations of a wide class of novel quantum many-body phenomena.
翻訳日:2023-01-22 04:21:37 公開日:2022-10-18
# ヒルベルト・シュミット速度による屈折率の変動のモニタリングと量子気象学の改善への応用

Monitoring variations of refractive index via Hilbert-Schmidt speed and applying this phenomenon to improve quantum metrology ( http://arxiv.org/abs/2210.10106v1 )

ライセンス: Link先を確認
Seyed Mohammad Hosseiny, Hossein Rangani Jahromi, Mahdi Amniat-Talab(参考訳) 効果的な非線形光学相互作用は現代のフォトニクスにおいて多くの応用に不可欠である。 本稿では,材料の非線形応答が量子力学改善に果たす役割について検討する。 特に、原子アンサンブルの集合的な光学的挙動を適用し、原子の1つによる周波数推定を強化する。 さらに,線形および非線形屈折率の変動を監視し,光学材料の非線形応答の強度を評価するために,容易に計算可能な理論ツールであるhilbert-schmidt speedを導入する。 さらに、量子フィッシャー情報とヒルベルト=シュミット速度は、実用的な観点から非常に重要な負の誘電率と屈折率を効率的に検出できることを示す。

Effective nonlinear optical interactions are essential for many applications in modern photonics. In this paper, we investigate the role of the nonlinear response of a material to improve quantum metrology. In particular, the collective optical behavior of an atomic ensemble is applied to enhance frequency estimation through one of the atoms. Moreover, we introduce Hilbert-Schmidt speed, an easily computable theoretical tool, to monitor the variations of linear as well as nonlinear refractive indices and evaluate the strength of the nonlinear response of optical materials. Furthermore, we illustrate that quantum Fisher information and Hilbert-Schmidt speed can efficiently detect negative permittivity and refractive index, which is of great importance from a practical point of view.
翻訳日:2023-01-22 04:21:14 公開日:2022-10-18
# 全光一方向量子リピータ

All-photonic one-way quantum repeaters ( http://arxiv.org/abs/2210.10071v1 )

ライセンス: Link先を確認
Daoheng Niu, Yuxuan Zhang, Alireza Shabani, Hassan Shapourian(参考訳) 量子リピータは長距離量子通信の鍵となる技術である。 現在までに、既存の量子リピータプロトコルのほとんどは、特定の量子コードやグラフ状態に基づいて設計されている。 本稿では,最近発見された量子低密度パリティチェック(QLDPC)を含む任意のCalderbank-Shor-Steane符号に適用可能な,測定に基づく誤差補正に基づく全フォトニックワンウェイ量子リピータの汎用フレームワークを提案する。 本稿では,ネットワークを横断する計測結果から蓄積したデータに基づいて,目的地で誤り訂正処理を行う新しい復号方式を提案する。 この手順は、従来のプロトコルを独立したリピータで上回るだけでなく、リピータでの局所量子演算を単純化する。 例えば,[48,6,8]の一般化自転車符号(小型だが効率的なQLDPC符号として)は,少なくとも1桁のリソースを削減しつつ,等しく優れた性能を示す。

Quantum repeater is the key technology enabler for long-distance quantum communication. To date, most of the existing quantum repeater protocols are designed based on specific quantum codes or graph states. In this paper, we propose a general framework for all-photonic one-way quantum repeaters based on the measurement-based error correction, which can be adapted to any Calderbank-Shor-Steane codes including the recently discovered quantum low density parity check (QLDPC) codes. We present a novel decoding scheme, where the error correction process is carried out at the destination based on the accumulated data from the measurements made across the network. This procedure not only outperforms the conventional protocols with independent repeaters but also simplifies the local quantum operations at repeaters. As an example, we numerically show that the [[48,6,8]] generalized bicycle code (as a small but efficient QLDPC code) has an equally good performance while reducing the resources by at least an order of magnitude.
翻訳日:2023-01-22 04:21:02 公開日:2022-10-18
# 超固体スピン軌道結合ボースガス中のStripeパターンのダイナミクス

Dynamics of Stripe Patterns in Supersolid Spin-Orbit-Coupled Bose Gases ( http://arxiv.org/abs/2210.10064v1 )

ライセンス: Link先を確認
Kevin T. Geier, Giovanni I. Martone, Philipp Hauke, Wolfgang Ketterle and Sandro Stringari(参考訳) スピン軌道結合したボース=アインシュタイン凝縮体における超固体の基底的な観測にもかかわらず、現在まで、出現する空間周期密度変調のダイナミクスは明らかに解明されていない。 本稿では, スピン摂動を受ける超固体凝縮体中の密度帯の動的挙動について検討する。 我々は、無限系と数値的にも、スピン波が結晶波の形で超固体の密度分布にどう影響するかを調和トラップの存在下で解析的に示し、周期性の振動と縁の向きを誘導する。 これらの特徴はどちらも、現在の実験の範囲内にある。 このシステムは, 完全に動的結晶構造とともに超流動性を有する, パラダイム的な超固体であることを示す。

Despite groundbreaking observations of supersolidity in spin-orbit-coupled Bose-Einstein condensates, until now the dynamics of the emerging spatially-periodic density modulations has been vastly unexplored. Here, we study the dynamic behavior of density stripes in such a supersolid condensate subject to spin perturbations. We show both analytically in infinite systems and numerically in presence of a harmonic trap how spin waves affect the supersolid's density profile in the form of crystal waves, inducing oscillations of the periodicity as well as the orientation of the fringes. Both these features are well within reach of present-day experiments. Our results show that this system is a paradigmatic supersolid, featuring superfluidity in conjunction with a fully dynamic crystalline structure.
翻訳日:2023-01-22 04:20:45 公開日:2022-10-18
# liとハルダン予想の逆転:低次エンタングルメントスペクトルはバルクエネルギースペクトルにも似ている

Reversing the Li and Haldane conjecture: The low-lying entanglement spectrum can also resemble the bulk energy spectrum ( http://arxiv.org/abs/2210.10062v1 )

ライセンス: Link先を確認
Menghan Song, Jiarui Zhao, Zheng Yan, and Zi Yang Meng(参考訳) 本稿では, 経路積分定式化のワームホール効果に基づく物理図面を提案し, エンタングルメントスペクトル(ES)のメカニズムを説明するとともに, エネルギースペクトルのバルクエッジ対応とES(LiとHaldane予想)のトポロジ的状態を説明するとともに, それらのトポロジ的性質とは無関係に他のシステムに適用可能であることを示す。 我々は、システムの低レベルesの挙動を決定するエッジエネルギーギャップに関して、究極的にはバルクエネルギーギャップ(逆温度$\beta = 1/t$)の相対強度であると指摘した。 状況によっては、ESは仮想エッジのエネルギースペクトルに似ているが、仮想バルクのエネルギースペクトルを表すこともできる。 我々は 1D と 2D の両方でモデルを設計し、Li と Haldane 予想の逆転、すなわちバルク風の低層ES の証明に成功した。 本研究はESを経路積分におけるワームホール効果とみなす一般性を支持するものである。

We propose a physical picture based on the wormhole effect of the path-integral formulation to explain the mechanism of entanglement spectrum (ES), such that, our picture not only explains the topological state with bulk-edge correspondence of the energy spectrum and ES (the Li and Haldane conjecture), but is generically applicable to other systems independent of their topological properties. We point out it is ultimately the relative strength of bulk energy gap (multiplied with inverse temperature $\beta = 1/T$) with respect to the edge energy gap that determines the behavior of the low-lying ES of the system. Depending on the circumstances, the ES can resemble the energy spectrum of the virtual edge, but can also represent that of the virtual bulk. We design models both in 1D and 2D to successfully demonstrate the reversal of the Li and Haldane conjecture, i.e., the bulk-like low-lying ES. Our results support the generality of viewing the ES as the wormhole effect in the path integral.
翻訳日:2023-01-22 04:20:32 公開日:2022-10-18
# 適応型ポリトープによる量子分離性認証

Certifying Quantum Separability with Adaptive Polytopes ( http://arxiv.org/abs/2210.10054v1 )

ライセンス: Link先を確認
Ties-A. Ohst, Xiao-Dong Yu, Otfried G\"uhne, H. Chau Nguyen(参考訳) 量子状態の絡み合いと分離性の概念は物理学のいくつかの分野に関係している。 しかし、これらの特徴を特徴づける効果的な操作方法が欠けている。 適応型ポリトープ近似に基づく2粒子および多粒子量子系の量子分離性の証明法を提案する。 これは、実用上、中小次元の2粒子分離性を決定的に認識するアルゴリズムに繋がる。 多粒子系の場合、このアプローチは最大5キュービットまたは3キュートリットの完全分離性を特徴づけることができる。 最後に,本手法は,すべての二分法に対して分離可能であるが完全に分離できないような最大強固な状態など,興味深い絡み合い特性を持つ系統的量子状態の同定を可能にする。

The concept of entanglement and separability of quantum states is relevant for several fields in physics. Still, there is a lack of effective operational methods to characterise these features. We propose a method to certify quantum separability of two- and multiparticle quantum systems based on an adaptive polytope approximation. This leads to an algorithm which, for practical purposes, conclusively recognises two-particle separability for small and medium-size dimensions. For multiparticle systems, the approach allows to characterise full separability for up to five qubits or three qutrits; in addition, different classes of entanglement can be distinguished. Finally, our methods allow to identify systematically quantum states with interesting entanglement properties, such as maximally robust states which are separable for all bipartitions, but not fully separable.
翻訳日:2023-01-22 04:20:10 公開日:2022-10-18
# 散逸分散ジョセフソン移動波パラメトリック増幅器の回路量子力学モデル

Circuit quantum electrodynamic model of dissipative-dispersive Josephson traveling-wave parametric amplifiers ( http://arxiv.org/abs/2210.10032v1 )

ライセンス: Link先を確認
Yongjie Yuan (1), Michael Haider (1), Johannes A. Russer (1), Peter Russer (1) and Christian Jirauschek (1) ((1) TUM School of Computation, Information and Technology, Technical University of Munich, Garching, Germany)(参考訳) 基板損失とそれに伴う熱ゆらぎを含む4波混合ジョセフソン走行波パラメトリック増幅器の量子力学モデルを提案する。 弱信号光子場におけるボソニック消滅演算子に対して, 色分散を含む基準時間枠における運動の時間方程式を用いた解析解を導出した。 この結果から、非ゼロ基板損失によるジョセフソン走行波パラメトリック増幅器の非対称利得スペクトルを予測することができる。 また、量子揺らぎを含む等価な入力ノイズと熱雑音の寄与も予測する。 その結果は,最近公表された実験データと良好に一致した。

We present a quantum mechanical model for a four-wave mixing Josephson traveling-wave parametric amplifier including substrate losses and associated thermal fluctuations. Under the assumption of a strong undepleted classical pump tone, we derive an analytic solution for the bosonic annihilation operator of the weak signal photon field using temporal equations of motion in a reference timeframe, including chromatic dispersion. From this result, we can predict the asymmetric gain spectrum of a Josephson traveling-wave parametric amplifier due to non-zero substrate losses. We also predict the equivalent added input noise including quantum fluctuations as well as thermal noise contributions. Our results are in excellent agreement with recently published experimental data.
翻訳日:2023-01-22 04:19:58 公開日:2022-10-18
# 実験量子光学の中心における科学概念のデジタル発見

Digital Discovery of a Scientific Concept at the Core of Experimental Quantum Optics ( http://arxiv.org/abs/2210.09981v1 )

ライセンス: Link先を確認
S\"oren Arlt, Carlos Ruiz-Gonzalez, Mario Krenn(参考訳) 絡み合いは量子通信から量子エンハンスド計測や計算まで、量子技術にとって重要な資源である。 これらのタスクの実験的なセットアップを見つけることは、多粒子干渉の直感的振る舞いと膨大な組合せ探索空間によって、人間の科学者にとって概念的な課題である。 近年,高次元多粒子エンタングルメントの生成と操作のための実験装置を人工知能が提案する人工的な発見により,新たな可能性が開けている。 デジタルで発見された実験は、人間の専門家が考案したもの以上のものだが、重要なゴールは、これらの新しい有用な実験青写真を可能にする基本的な概念を理解することである。 ここでは、驚きの性質を持つ新しい多光子量子干渉法であるHalo(Hyperedge Assembly by Linear Optics)を紹介する。 Halosは私たちのデジタル発見フレームワークで、以前オープンだった問題を解決するために使われました。 このコラボレーションの人間的部分である私たちは、コンピュータ発見の背後にあるアイデアを概念化し、効果的な確率的多光子エミッターという観点から表現することができたのです。 次に、高絡み合い状態、量子ネットワークでの通信、フォトニック量子ゲートのための新しい実験の核としての有用性を示す。 私たちの原稿には2つの結論がある。 まず, 集積フォトニック回路などの高度な構成で容易に実現可能な, 実用上有用な多光子干渉現象の物理を紹介, 解説する。 第二に、我々の原稿は、人工知能が物理学における新しい実行可能な概念の科学的発見のインスピレーションの源となることを実証している。

Entanglement is a crucial resource for quantum technologies ranging from quantum communication to quantum-enhanced measurements and computation. Finding experimental setups for these tasks is a conceptual challenge for human scientists due to the counterintuitive behavior of multiparticle interference and the enormously large combinatorial search space. Recently, new possibilities have been opened by artificial discovery where artificial intelligence proposes experimental setups for the creation and manipulation of high-dimensional multi-particle entanglement. While digitally discovered experiments go beyond what has been conceived by human experts, a crucial goal is to understand the underlying concepts which enable these new useful experimental blueprints. Here, we present Halo (Hyperedge Assembly by Linear Optics), a new form of multiphoton quantum interference with surprising properties. Halos were used by our digital discovery framework to solve previously open questions. We -- the human part of this collaboration -- were then able to conceptualize the idea behind the computer discovery and describe them in terms of effective probabilistic multi-photon emitters. We then demonstrate its usefulness as a core of new experiments for highly entangled states, communication in quantum networks, and photonic quantum gates. Our manuscript has two conclusions. First, we introduce and explain the physics of a new practically useful multi-photon interference phenomenon that can readily be realized in advanced setups such as integrated photonic circuits. Second, our manuscript demonstrates how artificial intelligence can act as a source of inspiration for the scientific discoveries of new actionable concepts in physics.
翻訳日:2023-01-22 04:19:09 公開日:2022-10-18
# PyTheusを用いた100種類の量子実験のデジタル発見

Digital Discovery of 100 diverse Quantum Experiments with PyTheus ( http://arxiv.org/abs/2210.09980v1 )

ライセンス: Link先を確認
Carlos Ruiz-Gonzalez, S\"oren Arlt, Jan Petermann, Sharareh Sayyad, Tareq Jaouni, Ebrahim Karimi, Nora Tischler, Xuemei Gu, Mario Krenn(参考訳) 光子は、量子力学の基礎の実験的なテストを行うための物理的なシステムである。 さらに、フォトニック量子技術は第2次量子革命の主要なプレイヤーであり、より良いセンサー、安全な通信、量子エンハンス計算の開発を約束している。 これらの取り組みは、特定の量子状態を生成するか、効率的に量子タスクを実行する必要がある。 対応する光学実験の設計は歴史的に人間の創造性に支えられていたが、近年は高度なコンピュータアルゴリズムと人工知能で自動化されている。 いくつかのコンピュータによる実験が実験的に実現されているが、このアプローチは幅広いフォトニック量子光学コミュニティにはまだ広く採用されていない。 主な障害は、ほとんどのシステムはクローズドソース、非効率、あるいは一般化が難しい非常に特殊なユースケースをターゲットにしている。 そこで我々は,これらの問題を高効率でオープンソースのデジタル発見フレームワークpytheusで解決する。 これには、高絡み合った量子状態の発見、量子測定スキーム、量子通信プロトコル、多粒子量子ゲート、および量子実験または量子状態の連続的および離散的性質の最適化が含まれる。 PyTheusは、人間の研究者が容易に概念化できる複雑な実験的な問題に対する解釈可能な設計を生成する。 pytheusは、科学における人工知能の中核的目標の一つである科学的発見につながる強力なフレームワークの例である。 量子光学の開発を加速させ、量子ハードウェアとテクノロジーの新しいアイデアを提供することを期待している。

Photons are the physical system of choice for performing experimental tests of the foundations of quantum mechanics. Furthermore, photonic quantum technology is a main player in the second quantum revolution, promising the development of better sensors, secure communications, and quantum-enhanced computation. These endeavors require generating specific quantum states or efficiently performing quantum tasks. The design of the corresponding optical experiments was historically powered by human creativity but is recently being automated with advanced computer algorithms and artificial intelligence. While several computer-designed experiments have been experimentally realized, this approach has not yet been widely adopted by the broader photonic quantum optics community. The main roadblocks consist of most systems being closed-source, inefficient, or targeted to very specific use-cases that are difficult to generalize. Here, we overcome these problems with a highly-efficient, open-source digital discovery framework PyTheus, which can employ a wide range of experimental devices from modern quantum labs to solve various tasks. This includes the discovery of highly entangled quantum states, quantum measurement schemes, quantum communication protocols, multi-particle quantum gates, as well as the optimization of continuous and discrete properties of quantum experiments or quantum states. PyTheus produces interpretable designs for complex experimental problems which human researchers can often readily conceptualize. PyTheus is an example of a powerful framework that can lead to scientific discoveries -- one of the core goals of artificial intelligence in science. We hope it will help accelerate the development of quantum optics and provide new ideas in quantum hardware and technology.
翻訳日:2023-01-22 04:18:45 公開日:2022-10-18
# スケーラブルディスタント・スーパービジョンからの大規模ディスコースツリーバンク

Large Discourse Treebanks from Scalable Distant Supervision ( http://arxiv.org/abs/2212.06038v1 )

ライセンス: Link先を確認
Patrick Huber and Giuseppe Carenini(参考訳) 談話解析は自然言語処理において必須の上流タスクであり、現実世界の多くのアプリケーションに強い影響を与える。 その役割は広く認識されているが、最近の談話パーサー(そしてそれゆえ下流のタスク)は、いくつかの狭い領域の非常に限られたデータから汎用の談話構造を推測しようと、小規模の人間の注釈付き談話木バンクに依存している。 この難易度を克服し、より大きく多様でドメインに依存しないデータセットで談話パーサを訓練できるようにするために、感情分析の補助的なタスクにおいて遠隔から「銀標準」談話木を生成する枠組みを提案する。

Discourse parsing is an essential upstream task in Natural Language Processing with strong implications for many real-world applications. Despite its widely recognized role, most recent discourse parsers (and consequently downstream tasks) still rely on small-scale human-annotated discourse treebanks, trying to infer general-purpose discourse structures from very limited data in a few narrow domains. To overcome this dire situation and allow discourse parsers to be trained on larger, more diverse and domain-independent datasets, we propose a framework to generate "silver-standard" discourse trees from distant supervision on the auxiliary task of sentiment analysis.
翻訳日:2023-01-22 04:11:53 公開日:2022-10-18
# zxw計算を用いた量子機械学習

Quantum Machine Learning using the ZXW-Calculus ( http://arxiv.org/abs/2210.11523v1 )

ライセンス: Link先を確認
Mark Koch(参考訳) 量子機械学習(QML)の分野は、量子コンピュータが機械学習の問題をより効率的に解ける方法を探っている。 ハイブリッド量子古典アルゴリズムの応用として、短期的には潜在的な量子アドバンテージを約束する。 この論文では、ZXW計算を用いて、QMLアプリケーションが直面する2つの重要な問題を図解的に分析する。 まず、量子ハードウェア上で勾配を計算し、qmlの勾配に基づく最適化を行うアルゴリズムについて述べる。 具体的には,文献で用いられる2項および4項のパラメータシフト規則の新しい図式的証明を与える。 さらに,zxw係数のnパラメータクモで表現できるゲートに適用可能な2n項を持つ,新しい一般化パラメータシフト規則を導出する。 さらに、我々の知る限りでは、アンセルメッティらによる予想の最初の証明を、より効率的な4項シフト規則の代替を決定づけるno-go定理の証明によって与える。 次に, 実験的手法と解析的手法の両方を用いて, 不毛高原の量子ans\"atzeの勾配景観を解析する。 具体的には、勾配の分散を自動的に計算し、一般的な量子ans\"atzeにおける不毛高原を検出するツールを開発した。 さらに、ZXW-計算の図式的手法を用いて、アンス・アッツの選択のためのバレン台地の存在の有無を正式に証明する。

The field of quantum machine learning (QML) explores how quantum computers can be used to more efficiently solve machine learning problems. As an application of hybrid quantum-classical algorithms, it promises a potential quantum advantages in the near term. In this thesis, we use the ZXW-calculus to diagrammatically analyse two key problems that QML applications face. First, we discuss algorithms to compute gradients on quantum hardware that are needed to perform gradient-based optimisation for QML. Concretely, we give new diagrammatic proofs of the common 2- and 4-term parameter shift rules used in the literature. Additionally, we derive a novel, generalised parameter shift rule with 2n terms that is applicable to gates that can be represented with n parametrised spiders in the ZXW-calculus. Furthermore, to the best of our knowledge, we give the first proof of a conjecture by Anselmetti et al. by proving a no-go theorem ruling out more efficient alternatives to the 4-term shift rule. Secondly, we analyse the gradient landscape of quantum ans\"atze for barren plateaus using both empirical and analytical techniques. Concretely, we develop a tool that automatically calculates the variance of gradients and use it to detect likely barren plateaus in commonly used quantum ans\"atze. Furthermore, we formally prove the existence or absence of barren plateaus for a selection of ans\"atze using diagrammatic techniques from the ZXW-calculus.
翻訳日:2023-01-22 04:11:31 公開日:2022-10-18
# フェルミオン量子場理論のための相対エントロピー

Relative Entropy for Fermionic Quantum Field Theory ( http://arxiv.org/abs/2210.10746v1 )

ライセンス: Link先を確認
Stefano Galanda(参考訳) 相対エントロピーをアラキの意味で、自己双対 CAR 代数 $\mathfrak{A}_{SDC}(\mathcal{H},\Gamma)$ の表現として研究する。 f \in \mathcal{h}$ の特定の選択に対して、$\mathfrak{a}_{sdc}(\mathcal{h},\gamma)$ の関連要素がユニタリであることに気付く。 結果として、$\mathfrak{a}_{sdc}(\mathcal{h},\gamma)$ 上の準自由状態の間の相対エントロピーを明示的に計算し、上記のユニタリ要素に関してそれを励起する。 このアプローチの一般性により、大域的双曲的時空上の古典ディラック方程式の解のヒルベルト空間として$\mathcal{h}$を考えることができ、その結果、フェルミオン場の量子論における相対エントロピーの計算が可能になる。 この結果は、準自由状態と自由スカラー量子場理論のコヒーレント励起の間の相対エントロピーをフェルミオンの場合まで拡張する。 まず, 静時空上でのマヨラナ場に対する相対エントロピーを計算した。

We study the relative entropy, in the sense of Araki, for the representation of a self-dual CAR algebra $\mathfrak{A}_{SDC}(\mathcal{H},\Gamma)$. We notice, for a specific choice of $f \in \mathcal{H}$, that the associated element in $\mathfrak{A}_{SDC}(\mathcal{H},\Gamma)$ is unitary. As a consequence, we explicitly compute the relative entropy between a quasifree state over $\mathfrak{A}_{SDC}(\mathcal{H},\Gamma)$ and an excitation of it with respect to the abovely mentioned unitary element. The generality of the approach, allows us to consider $\mathcal{H}$ as the Hilbert space of solutions of the classical Dirac equation over globally hyperbolic spacetimes, making our result, a computation of relative entropy for a Fermionic Quantum Field Theory. Our result extends those of Longo and Casini et al. for the relative entropy between a quasifree state and a coherent excitation for a free Scalar Quantum Field Theory, to the case of fermions. As a first application, we computed such a relative entropy for a Majorana field on an ultrastatic spacetime.
翻訳日:2023-01-22 04:10:46 公開日:2022-10-18
# トロッター近似を用いた量子コンピュータ上の電子構造問題に対する種々のハミルトン分割の評価

Assessment of various Hamiltonian partitionings for the electronic structure problem on a quantum computer using the Trotter approximation ( http://arxiv.org/abs/2210.10189v1 )

ライセンス: Link先を確認
Luis A. Mart\'inez-Mart\'inez, Tzu-Ching Yen and Artur F. Izmaylov(参考訳) 電子ハミルトニアンのユニタリ進化による電子構造問題の解決は、デジタル量子コンピュータの有望な応用の1つである。 ユニタリ進化を実装するための実践的な戦略の1つは、高速フォワード可能な(すなわち効率的に対角化可能な)ハミルトンの断片の短い時間進化の列を使用するトロッター化である。 ファストフォワード可能な断片に対するハミルトン分解の可能な選択肢が複数あるとすると、ハミルトン進化の精度は断片の選択に依存する。 ロータライズのためのフェルミオン代数とキュービット代数を用いた複数のハミルトニアン分割手法の効率評価を行う。 電子ハミルトニアンとそのフラグメントの対称性の使用は、トロッター誤差を著しく減少させる。 この削減により、フェルミオンベースのパーティショニングトロッター誤差は、クォービットベースのテクニックよりも小さくなる。 しかし、シミュレーションコストの観点からは、フェルミオン法は各トロッターステップでより多くのTゲートを持つ量子回路を導入する傾向にあり、従って量子ビットに比べて計算コストが高い。

Solving the electronic structure problem via unitary evolution of the electronic Hamiltonian is one of the promising applications of digital quantum computers. One of the practical strategies to implement the unitary evolution is via Trotterization, where a sequence of short-time evolutions of fast-forwardable (i.e. efficiently diagonalizable) Hamiltonian fragments is used. Given multiple choices of possible Hamiltonian decompositions to fast-forwardable fragments, the accuracy of the Hamiltonian evolution depends on the choice of the fragments. We assess efficiency of multiple Hamiltonian partitioning techniques using fermionic and qubit algebras for the Trotterization. Use of symmetries of the electronic Hamiltonian and its fragments significantly reduces the Trotter error. This reduction makes fermionic-based partitioning Trotter errors lower compared to those in qubit-based techniques. However, from the simulation-cost standpoint, fermionic methods tend to introduce quantum circuits with a greater number of T-gates at each Trotter step and thus are more computationally expensive compared to their qubit counterparts.
翻訳日:2023-01-22 04:10:20 公開日:2022-10-18
# 一般量子マルコフ過程のヒット時間について

On Hitting Times for General Quantum Markov Processes ( http://arxiv.org/abs/2210.10188v1 )

ライセンス: Link先を確認
Lorenzo Laneve, Francesco Tacchino, Ivano Tavernelli(参考訳) ランダムウォーク(英: Random walk、またはMarkov chains)は、理論計算機科学で広く使われているモデルである。 打つ時間や混合時間などの量の分析を含むいくつかのツールは、ランダム化されたアルゴリズムを考案するのに役立ちます。 注目すべき例はsch\"oning's algorithm for the satisfiability (sat) problemである。 本研究では,古典的ウォークを直接一般化する量子マルコフ連鎖モデルを定義するために密度行列形式を用い,古典的理論で見られるものと同様の公式で時間を打つような共通ツールが計算できることを示し,グロバーのアルゴリズムのような既知の量子的設定に適用する。

Random walks (or Markov chains) are models extensively used in theoretical computer science. Several tools, including analysis of quantities such as hitting and mixing times, are helpful for devising randomized algorithms. A notable example is Sch\"oning's algorithm for the satisfiability (SAT) problem. In this work, we use the density-matrix formalism to define a quantum Markov chain model which directly generalizes classical walks, and we show that a common tools such as hitting times can be computed with a similar formula as the one found in the classical theory, which we then apply to known quantum settings such as Grover's algorithm.
翻訳日:2023-01-22 04:10:02 公開日:2022-10-18
# 量子計算におけるメルミンポリトープと基礎

Mermin polytopes in quantum computation and foundations ( http://arxiv.org/abs/2210.10186v1 )

ライセンス: Link先を確認
Cihan Okay, Ho Yiu Chung, Selman Ipek(参考訳) mermin squareのシナリオは、状態に依存しないコンテキスト性の簡単な証明を提供する。 本稿では,mermin のシナリオから得られるポリトープ $\text{mp}_\beta$ について検討する。 組合せ同型に関しては、$\beta$ のパリティに応じて $\text{MP}_0$ と $\text{MP}_1$ の2種類のポリトープが存在する。 我々の主な成果は2つのポリトープの頂点の分類である。 さらに,ポリトープに関連付けられたグラフについて述べる。 すべての$\text{MP}_0$の頂点は決定論的である。 この結果は、CHSHシナリオ上の非文脈分布を微妙に特徴づける、祝福された結果の新たなトポロジカルな証明を提供する。 $\text{MP}_1$は、普遍量子計算のシミュレーションのために導入されたポリトープのクラスである$\Lambda$-polytopesの非局所的なおもちゃ版と見なすことができる。 2ドルの量子ビットの場合、頂点が分類された$\text{mp}_1$と、頂点がよく知られている$(2,3,2)$ベルシナリオの非符号ポリトープを用いて、$\lambda$-polytopeの分解を提供する。

Mermin square scenario provides a simple proof for state-independent contextuality. In this paper, we study polytopes $\text{MP}_\beta$ obtained from the Mermin scenario, parametrized by a function $\beta$ on the set of contexts. Up to combinatorial isomorphism, there are two types of polytopes $\text{MP}_0$ and $\text{MP}_1$ depending on the parity of $\beta$. Our main result is the classification of the vertices of these two polytopes. In addition, we describe the graph associated with the polytopes. All the vertices of $\text{MP}_0$ turn out to be deterministic. This result provides a new topological proof of a celebrated result of Fine characterizing noncontextual distributions on the CHSH scenario. $\text{MP}_1$ can be seen as a nonlocal toy version of $\Lambda$-polytopes, a class of polytopes introduced for the simulation of universal quantum computation. In the $2$-qubit case, we provide a decomposition of the $\Lambda$-polytope using $\text{MP}_1$, whose vertices are classified, and the nonsignaling polytope of the $(2,3,2)$ Bell scenario, whose vertices are well-known.
翻訳日:2023-01-22 04:09:50 公開日:2022-10-18
# 回転測定による格子型量子アドバンテージ

Lattice-Based Quantum Advantage from Rotated Measurements ( http://arxiv.org/abs/2210.10143v1 )

ライセンス: Link先を確認
Yusuf Alnawakhtha and Atul Mantri and Carl A. Miller and Daochen Wang(参考訳) Trapdoor Claw-free Function (TCF) は、古典的なクライアントと量子サーバーの間の暗号化相互作用において非常に有用である。 通常、プロトコルは、量子サーバが爪の2ビット文字列の重ね合わせを準備し、pauli-$x$または$z$を用いて測定する。 本稿では,XY$-planeの量子ビット測定範囲全体を用いた新しい手法について紹介する。 このアプローチの利点を2つのアプリケーションで示します。 まず、(Brakerski et al. 2018, Kalai et al. 2022)に基づいて、LWE問題(エラーを伴う学習)の難しさの観点から、セキュリティを直接表現できる量子性の最適化された2ラウンドの証明を示す。 第2に、任意の状態の視覚的遠隔準備のためのワンラウンドプロトコルを、Pauli-Z$修正まで$XY$平面上に構築する。

Trapdoor claw-free functions (TCFs) are immensely valuable in cryptographic interactions between a classical client and a quantum server. Typically, a protocol has the quantum server prepare a superposition of two-bit strings of a claw and then measure it using Pauli-$X$ or $Z$ measurements. In this paper, we demonstrate a new technique that uses the entire range of qubit measurements from the $XY$-plane. We show the advantage of this approach in two applications. First, building on (Brakerski et al. 2018, Kalai et al. 2022), we show an optimized two-round proof of quantumness whose security can be expressed directly in terms of the hardness of the LWE (learning with errors) problem. Second, we construct a one-round protocol for blind remote preparation of an arbitrary state on the $XY$-plane up to a Pauli-$Z$ correction.
翻訳日:2023-01-22 04:09:11 公開日:2022-10-18
# 確率的勾配法による確率変数のサンプリングと更新頻度

Sampling and Update Frequencies in Proximal Variance-Reduced Stochastic Gradient Methods ( http://arxiv.org/abs/2002.05545v3 )

ライセンス: Link先を確認
Martin Morin and Pontus Giselsson(参考訳) 分散還元確率勾配法は近年普及している。 いくつかの変種は勾配の保存とサンプリングのための異なる戦略を持ち、この研究はこれらの2つの側面間の相互作用に関するものである。 本稿では, 一般近似分散還元勾配法を提案し, 強い凸性仮定の下で解析する。 このアルゴリズムの特別な例は、SAGA、L-SVRGとその近位変種である。 我々の分析は、エポック長の選択に光を当て、繰り返しの収束とどれだけの頻度で勾配が保存されるかのバランスを取る必要がある。 この分析は文献中の他の収束率を改善し、SAGAの新しいより高速な収束サンプリング戦略を生成する。 実世界データに基づく問題とともに、予測率と実用率とが同一である問題事例を提示する。

Variance-reduced stochastic gradient methods have gained popularity in recent times. Several variants exist with different strategies for the storing and sampling of gradients and this work concerns the interactions between these two aspects. We present a general proximal variance-reduced gradient method and analyze it under strong convexity assumptions. Special cases of the algorithm include SAGA, L-SVRG and their proximal variants. Our analysis sheds light on epoch-length selection and the need to balance the convergence of the iterates with how often gradients are stored. The analysis improves on other convergence rates found in the literature and produces a new and faster converging sampling strategy for SAGA. Problem instances for which the predicted rates are the same as the practical rates are presented together with problems based on real world data.
翻訳日:2023-01-01 13:48:09 公開日:2022-10-18
# 意味学習による体系的一般化の再検討

Revisit Systematic Generalization via Meaningful Learning ( http://arxiv.org/abs/2003.06658v5 )

ライセンス: Link先を確認
Ning Shi, Boxin Wang, Wei Wang, Xiangyu Liu, Zhouhan Lin(参考訳) 人間は既存の概念の新しい構成に体系的に一般化することができる。 最近の研究では、ニューラルネットワークはそのような認知能力において本質的に非効率に見え、悲観的な見方と楽観的な結果への注意の欠如につながっていると主張している。 我々は、この議論を有意義な学習の観点から再検討する。人間は既知の概念と結びつけることで、新しい概念を学べる例外的な能力である。 新しい概念と古い概念のセマンティックリンクを条件としたシーケンス・ツー・シーケンス・モデルの合成スキルを再評価する。 我々の観察から、モデルは帰納的、または帰納的に、意味的リンクを通じて、新しい概念や構成にうまく一般化できることが示唆される。 事前知識が重要な役割を担っていることを実証する。 合成試験に加えて,機械翻訳や意味解析における概念実証実験も実施し,アプリケーションにおける意味学習のメリットを示す。 我々のポジティブな発見は、より高度な学習方式を通じて、体系的一般化における現代のニューラルネットワークの可能性を引き出すことを期待している。

Humans can systematically generalize to novel compositions of existing concepts. Recent studies argue that neural networks appear inherently ineffective in such cognitive capacity, leading to a pessimistic view and a lack of attention to optimistic results. We revisit this controversial topic from the perspective of meaningful learning, an exceptional capability of humans to learn novel concepts by connecting them with known ones. We reassess the compositional skills of sequence-to-sequence models conditioned on the semantic links between new and old concepts. Our observations suggest that models can successfully one-shot generalize to novel concepts and compositions through semantic linking, either inductively or deductively. We demonstrate that prior knowledge plays a key role as well. In addition to synthetic tests, we further conduct proof-of-concept experiments in machine translation and semantic parsing, showing the benefits of meaningful learning in applications. We hope our positive findings will encourage excavating modern neural networks' potential in systematic generalization through more advanced learning schemes.
翻訳日:2022-12-23 19:54:43 公開日:2022-10-18
# 近傍埋め込みにおけるアトラクション-反発スペクトル

Attraction-Repulsion Spectrum in Neighbor Embeddings ( http://arxiv.org/abs/2007.08902v4 )

ライセンス: Link先を確認
Jan Niklas B\"ohm, Philipp Berens, Dmitry Kobak(参考訳) 隣接する埋め込みは、$k$NNグラフを使用して複雑な高次元データセットを視覚化する一連の方法である。 低次元埋め込みを見つけるために、これらのアルゴリズムは隣り合う点の対とすべての点の間の反発力を組み合わせた。 そのようなアルゴリズムの最も一般的な例の1つは t-SNE である。 ここでは、誇張パラメータを用いたt-SNEの誘引力と反発力のバランスの変化が、単純なトレードオフによって特徴づけられる埋め込みのスペクトルを生じることを実証的に示し、より強いアトラクションは連続的な多様体構造を表現し、強い反発は離散的なクラスタ構造を表現し、より高い$k$NNリコールを与える。 UMAP の埋め込みは t-SNE に対応してアトラクションが増加し, 数学的解析により, UMAP が採用する負のサンプリング最適化戦略が効果的な反発を強く低下させることが示唆された。 同様に、発達段階の単細胞転写データの可視化に一般的に用いられるforceatlas2は、アトラクションの増加とともにt-sneに対応する埋め込みを生じさせる。 このスペクトルの極端にはラプラシア固有写像がある。 以上の結果から,多くの隣接する埋め込みアルゴリズムをアトラクション・反発スペクトル上に配置し,それらの間に固有のトレードオフを明らかにすることができた。

Neighbor embeddings are a family of methods for visualizing complex high-dimensional datasets using $k$NN graphs. To find the low-dimensional embedding, these algorithms combine an attractive force between neighboring pairs of points with a repulsive force between all points. One of the most popular examples of such algorithms is t-SNE. Here we empirically show that changing the balance between the attractive and the repulsive forces in t-SNE using the exaggeration parameter yields a spectrum of embeddings, which is characterized by a simple trade-off: stronger attraction can better represent continuous manifold structures, while stronger repulsion can better represent discrete cluster structures and yields higher $k$NN recall. We find that UMAP embeddings correspond to t-SNE with increased attraction; mathematical analysis shows that this is because the negative sampling optimisation strategy employed by UMAP strongly lowers the effective repulsion. Likewise, ForceAtlas2, commonly used for visualizing developmental single-cell transcriptomic data, yields embeddings corresponding to t-SNE with the attraction increased even more. At the extreme of this spectrum lie Laplacian Eigenmaps. Our results demonstrate that many prominent neighbor embedding algorithms can be placed onto the attraction-repulsion spectrum, and highlight the inherent trade-offs between them.
翻訳日:2022-11-09 13:12:28 公開日:2022-10-18
# Tiny-Attention Adapter: パラメータの数よりもコンテキストが重要である

Tiny-Attention Adapter: Contexts Are More Important Than the Number of Parameters ( http://arxiv.org/abs/2211.01979v1 )

ライセンス: Link先を確認
Hongyu Zhao, Hao Tan and Hongyuan Mei(参考訳) Adapter-tuningは、トレーニング済みの言語モデルを、少数の新しいパラメータの追加とチューニングによって下流タスクに転送するパラダイムである。 以前提案されたアダプタアーキテクチャはすべてフィードフォワードニューラルネットワークである。 本稿では,極小アテンション,すなわち極小の頭部次元の注意をアダプタとして用いることの有効性について検討する。 我々の小型アテンションアダプタは、以前に提案されたアダプタが見逃した他のすべての位置の隠れ状態に直接条件付きされた各位置の隠れ状態を変更することを学習する。 さらに,複数の注意点を専門家の混在とみなし,展開中の重量を平均化し,推論計算コストをさらに削減することを提案する。 GLUEベンチマークでは、我々の小型アテンションアダプタは、パラメータの0.05%しか更新せず、他のパラメータ効率のよい転送学習方法よりも優れています。 FewGLUEベンチマークでは、パフォーマンスはGPT-3とPETに匹敵する。

Adapter-tuning is a paradigm that transfers a pretrained language model to downstream tasks by adding and tuning a small number of new parameters. Previously proposed adapter architectures are all feed-forward neural networks. In this paper, we investigate the effectiveness of using tiny-attention -- i.e., attention with extremely small per-head dimensionality -- as adapters. Our tiny-attention adapter learns to modify the hidden states at each position directly conditioned on the hidden states at all the other positions, which is missed by the previously proposed adapters. Moreover, we view its multiple attention heads as a mixture of experts and propose to average their weights during deployment, which further reduces its inference computation cost. On the GLUE benchmark, our tiny-attention adapter outperforms the other parameter-efficient transfer learning methods as well as full fine-tuning while only updating 0.05% of the parameters. On the FewGLUE benchmark, its performance is comparable to that of GPT-3 and PET.
翻訳日:2022-11-06 15:15:20 公開日:2022-10-18
# 階層型トピックフレーズ生成によるトピック分類の拡張

Topic Taxonomy Expansion via Hierarchy-Aware Topic Phrase Generation ( http://arxiv.org/abs/2211.01981v1 )

ライセンス: Link先を確認
Dongha Lee, Jiaming Shen, Seonghyeon Lee, Susik Yoon, Hwanjo Yu, Jiawei Han(参考訳) トピック分類学はテキストコーパスの階層的なトピック構造を示し、様々なNLPアプリケーションを強化するためのトピック知識を提供する。 新しいトピック情報を動的に組み込むために、最近のいくつかの研究は、新しいドキュメントのセットに識別された新しいトピックを挿入することでトピック分類を拡張し(あるいは完全)しようと試みている。 しかし、既存の手法は、文書における頻繁な用語と分類学における局所的なトピック・サブトピックの関係にのみ焦点をあてており、トピック用語のカバー範囲が限られ、グローバルなトピック階層のモデル化に失敗する。 本研究では,トピック分類の拡張のための新しい枠組みであるトピックエクスパンを提案し,トピックに関連した用語を直接生成する。 具体的には、新しいトピックを取り巻く階層的関係構造と、トピック項生成のための入力文書のテキスト内容を利用する。 このアプローチにより、新しく導入されたトピックは、重要だが頻繁でない用語を更にカバーし、それらの関係性は分類学内で維持される。 2つの実世界のテキストコーポラの実験結果は、トピックエクスパンが出力分類の質の観点から他のベースラインメソッドを大きく上回っていることを示している。

Topic taxonomies display hierarchical topic structures of a text corpus and provide topical knowledge to enhance various NLP applications. To dynamically incorporate new topic information, several recent studies have tried to expand (or complete) a topic taxonomy by inserting emerging topics identified in a set of new documents. However, existing methods focus only on frequent terms in documents and the local topic-subtopic relations in a taxonomy, which leads to limited topic term coverage and fails to model the global topic hierarchy. In this work, we propose a novel framework for topic taxonomy expansion, named TopicExpan, which directly generates topic-related terms belonging to new topics. Specifically, TopicExpan leverages the hierarchical relation structure surrounding a new topic and the textual content of an input document for topic term generation. This approach encourages newly-inserted topics to further cover important but less frequent terms as well as to keep their relation consistency within the taxonomy. Experimental results on two real-world text corpora show that TopicExpan significantly outperforms other baseline methods in terms of the quality of output taxonomies.
翻訳日:2022-11-06 15:15:05 公開日:2022-10-18
# PEMP:物理特性を利用した分子特性予測

PEMP: Leveraging Physics Properties to Enhance Molecular Property Prediction ( http://arxiv.org/abs/2211.01978v1 )

ライセンス: Link先を確認
Yuancheng Sun, Yimeng Chen, Weizhi Ma, Wenhao Huang, Kang Liu, Zhiming Ma, Wei-Ying Ma, Yanyan Lan(参考訳) 分子特性予測は薬物発見に不可欠である。 近年,この領域にディープラーニング手法を導入し,最先端のパフォーマンスを実現している。 しかし、既存の手法のほとんどは、対応する予測タスクの性能を改善するために使用できる分子特性間の本質的な関係を無視している。 本稿では,従来の物理理論と物理化学研究で明らかになった分子特性の関係を活かし,物理特性強化分子特性予測 (pemp) という新しい手法を提案する。 具体的には,物理特性予測タスクを用いた化学・生理特性予測器の訓練を強化する。 PEMPの多タスク学習と移動学習の2つの異なる手法を設計する。 どちらの方法にもモデルに依存しない分子表現モジュールと特性予測モジュールが含まれる。 本実装では,pempの分子表現モジュールとして,教師付き学習パラダイムと事前学習パラダイムの両方を用いて,最先端の分子埋め込みモデルを採用する。 公開ベンチマークシグネティクスネットにおける実験結果から,提案手法は対応する最先端モデルよりも優れることが示された。

Molecular property prediction is essential for drug discovery. In recent years, deep learning methods have been introduced to this area and achieved state-of-the-art performances. However, most of existing methods ignore the intrinsic relations between molecular properties which can be utilized to improve the performances of corresponding prediction tasks. In this paper, we propose a new approach, namely Physics properties Enhanced Molecular Property prediction (PEMP), to utilize relations between molecular properties revealed by previous physics theory and physical chemistry studies. Specifically, we enhance the training of the chemical and physiological property predictors with related physics property prediction tasks. We design two different methods for PEMP, respectively based on multi-task learning and transfer learning. Both methods include a model-agnostic molecule representation module and a property prediction module. In our implementation, we adopt both the state-of-the-art molecule embedding models under the supervised learning paradigm and the pretraining paradigm as the molecule representation module of PEMP, respectively. Experimental results on public benchmark MoleculeNet show that the proposed methods have the ability to outperform corresponding state-of-the-art models.
翻訳日:2022-11-06 15:14:44 公開日:2022-10-18
# ディープラーニングを使って次のユニコーンを見つける: 実践的な合成

Using Deep Learning to Find the Next Unicorn: A Practical Synthesis ( http://arxiv.org/abs/2210.14195v1 )

ライセンス: Link先を確認
Lele Cao, Vilhelm von Ehrenheim, Sebastian Krakowski, Xiaoxue Li, Alexandra Lutz(参考訳) スタートアップはしばしば、破壊的なイノベーションと高いスケーラビリティに関連する、新しく確立されたビジネスモデルを表現する。 経済・社会発展の強力なエンジンとして一般に見なされている。 一方、スタートアップは資金不足や人的資源の制限など、多くの要因に強く制約されている。 したがって、スタートアップが最終的に成功するチャンスは、‘野生のユニコーンをスポットする’ことと同じくらい稀である。 Venture Capital(VC)は、ユニコーンスタートアップを早期に特定して投資し、高いリターンを得ることを期待している。 人間のドメインの専門知識や直観に完全に依存することを避けるため、投資家は通常、スタートアップの成功確率を予測するためにデータ駆動アプローチを採用する。 過去20年間、業界は従来の統計的アプローチから機械学習(ML)ベースのものへと移行してきた。 特に、データ量と多様性の急速な成長は、MLのサブセットであるディープラーニング(DL)において、キャパシティと表現力の面で潜在的に優れたアプローチとして急速に浸透している。 本研究は,DLのライフサイクル全体をカバーする,DLベースのアプローチに関する文献レビューと合成を行う。 目的は イ dlを用いた起動評価の方法論を徹底的かつ深く理解すること、及び b) 実践者にとって価値ある実効性のある学習を駆除すること。 私たちの知る限りでは、私たちの仕事はこの種の最初のものです。

Startups often represent newly established business models associated with disruptive innovation and high scalability. They are commonly regarded as powerful engines for economic and social development. Meanwhile, startups are heavily constrained by many factors such as limited financial funding and human resources. Therefore the chance for a startup to eventually succeed is as rare as ``spotting a unicorn in the wild''. Venture Capital (VC) strives to identify and invest in unicorn startups during their early stages, hoping to gain a high return. To avoid entirely relying on human domain expertise and intuition, investors usually employ data-driven approaches to forecast the success probability of startups. Over the past two decades, the industry has gone through a paradigm shift moving from conventional statistical approaches towards becoming machine-learning (ML) based. Notably, the rapid growth of data volume and variety is quickly ushering in deep learning (DL), a subset of ML, as a potentially superior approach in terms capacity and expressivity. In this work, we carry out a literature review and synthesis on DL-based approaches, covering the entire DL life cycle. The objective is a) to obtain a thorough and in-depth understanding of the methodologies for startup evaluation using DL, and b) to distil valuable and actionable learning for practitioners. To the best of our knowledge, our work is the first of this kind.
翻訳日:2022-10-30 12:03:16 公開日:2022-10-18
# dagkt: グラフベースの知識トレースの難易度と試み

DAGKT: Difficulty and Attempts Boosted Graph-based Knowledge Tracing ( http://arxiv.org/abs/2210.15470v1 )

ライセンス: Link先を確認
Rui Luo, Fei Liu, Wenhao Liang, Yuhong Zhang, Chenyang Bu and Xuegang Hu(参考訳) 知的教育の分野では、知識追跡(KT)が注目され、高品質な教育を提供するための知識概念の習得を推定・追跡している。 KTでは、疑問や知識概念の間に自然グラフ構造が存在するため、グラフ構造を使用しないKTモデルの性能を改善するためにグラフニューラルネットワーク(GNN)の適用について検討する研究もある。 しかし,そのほとんどは質問の難しさと学生の質問への試みを無視していた。 実際、同じ知識概念を持つ質問には異なる困難があり、生徒の異なる試みも異なる知識の習得を表している。 本稿では,学生の記録から得られた豊富な情報を用いて,グラフベースのKT(DAGKT)の強化を図る。 さらに,f1スコアに触発された質問類似度関係を確立するための新しい手法を提案する。 3つの実世界のデータセットに対する大規模な実験は、提案したDAGKTの有効性を示す。

In the field of intelligent education, knowledge tracing (KT) has attracted increasing attention, which estimates and traces students' mastery of knowledge concepts to provide high-quality education. In KT, there are natural graph structures among questions and knowledge concepts so some studies explored the application of graph neural networks (GNNs) to improve the performance of the KT models which have not used graph structure. However, most of them ignored both the questions' difficulties and students' attempts at questions. Actually, questions with the same knowledge concepts have different difficulties, and students' different attempts also represent different knowledge mastery. In this paper, we propose a difficulty and attempts boosted graph-based KT (DAGKT), using rich information from students' records. Moreover, a novel method is designed to establish the question similarity relationship inspired by the F1 score. Extensive experiments on three real-world datasets demonstrate the effectiveness of the proposed DAGKT.
翻訳日:2022-10-30 12:02:31 公開日:2022-10-18
# 前方伝播によるスパイクニューラルネットワークの厳密な勾配計算

Exact Gradient Computation for Spiking Neural Networks Through Forward Propagation ( http://arxiv.org/abs/2210.15415v1 )

ライセンス: Link先を確認
Jane H. Lee, Saeid Haghighatshoar, Amin Karbasi(参考訳) スパイキングニューラルネットワーク(SNN)は、生物の神経機構をよりよく捉えるためのエネルギー効率と能力のため、従来のニューラルネットワークに代わるものとして最近登場した。 しかしながら、従来のネットワークをトレーニングするための古典的なバックプロパゲーションアルゴリズムは、スパイク時の強固な保持と不連続のためにsnnに適用することが難しいことで悪名高い。 したがって、以前の研究の大部分は、SNNの重量の正確な勾配は存在しないと考えており、代理勾配を生成する近似法に焦点を当てている。 本稿では,(1)離散スパイク時間に暗黙の関数定理を適用することにより,SNNが時間的に微分不可能であるにもかかわらず,その重みを適切に定義した勾配を持つことを示すとともに,(2)SNNの正確な勾配を計算する新しいトレーニングアルゴリズムである「emph{forward propagation} (FP)」を提案する。 FPはスパイク間の因果構造を利用し、時間内に計算を並列化する。 フォワードパスをシミュレートする他のアルゴリズムと併用することができ、また、ヘビー学習や最近発表されたサーロゲート勾配法のような他の関連するアルゴリズムがうまく機能する理由についての洞察を提供する。

Spiking neural networks (SNN) have recently emerged as alternatives to traditional neural networks, owing to energy efficiency benefits and capacity to better capture biological neuronal mechanisms. However, the classic backpropagation algorithm for training traditional networks has been notoriously difficult to apply to SNN due to the hard-thresholding and discontinuities at spike times. Therefore, a large majority of prior work believes exact gradients for SNN w.r.t. their weights do not exist and has focused on approximation methods to produce surrogate gradients. In this paper, (1) by applying the implicit function theorem to SNN at the discrete spike times, we prove that, albeit being non-differentiable in time, SNNs have well-defined gradients w.r.t. their weights, and (2) we propose a novel training algorithm, called \emph{forward propagation} (FP), that computes exact gradients for SNN. FP exploits the causality structure between the spikes and allows us to parallelize computation forward in time. It can be used with other algorithms that simulate the forward pass, and it also provides insights on why other related algorithms such as Hebbian learning and also recently-proposed surrogate gradient methods may perform well.
翻訳日:2022-10-30 11:55:16 公開日:2022-10-18
# 組込みシリコン有機系集積型ニューロモルフィックシステム

Embedded Silicon-Organic Integrated Neuromorphic System ( http://arxiv.org/abs/2210.12064v1 )

ライセンス: Link先を確認
Shengjie Zheng, Ling Liu, Junjie Yang, Jianwei Zhang, Tao Su, Bin Yue, Xiaojian Li(参考訳) 人工知能(AI)とロボティクスの開発はどちらも「科学とテクノロジーは人間指向」の信条に基づいており、どちらも人間の脳との効率的なコミュニケーションを実現する必要がある。 システム神経科学, コンピュータアーキテクチャ, 機能有機材料における多分野の研究に基づいて, ハードウェアにおける脳の動作原理と材料をシミュレートし, 脳にインスパイアされたインテリジェンス技術を開発し, ニューロモルフィックコンピューティング装置と基本材料の作成を実現した。 我々は, 神経回路, 有機神経回路, シリコン神経計算モジュールを構築するために, 神経電子デバイスの基礎材料として, 様々な有機高分子を用いて, 材料および形態の観点でニューロンとニューラルネットワークをシミュレーションした。 我々は,シリコン系フィールドプログラマブルゲートアレイ(fpga)のシミュレーションニューロンを用いた有機人工シナプスを,ニューラルネットワークの基本構成要素である有機人工ニューロンに集積し,後に解釈された神経回路に基づく生物学的ニューラルネットワークモデルを構築する。 最後に、これらの有機人工ニューロンに基づいて、神経組織と親和性があり、実際の生物学的ニューラルネットワークの情報と相互作用する神経形デバイスをさらに構築する方法についても論じる。

The development of artificial intelligence (AI) and robotics are both based on the tenet of "science and technology are people-oriented", and both need to achieve efficient communication with the human brain. Based on multi-disciplinary research in systems neuroscience, computer architecture, and functional organic materials, we proposed the concept of using AI to simulate the operating principles and materials of the brain in hardware to develop brain-inspired intelligence technology, and realized the preparation of neuromorphic computing devices and basic materials. We simulated neurons and neural networks in terms of material and morphology, using a variety of organic polymers as the base materials for neuroelectronic devices, for building neural interfaces as well as organic neural devices and silicon neural computational modules. We assemble organic artificial synapses with simulated neurons from silicon-based Field-Programmable Gate Array (FPGA) into organic artificial neurons, the basic components of neural networks, and later construct biological neural network models based on the interpreted neural circuits. Finally, we also discuss how to further build neuromorphic devices based on these organic artificial neurons, which have both a neural interface friendly to nervous tissue and interact with information from real biological neural networks.
翻訳日:2022-10-30 11:53:47 公開日:2022-10-18
# 深層学習技術を用いたクルド人手書き文字認識

Kurdish Handwritten Character Recognition using Deep Learning Techniques ( http://arxiv.org/abs/2210.13734v1 )

ライセンス: Link先を確認
Rebin M. Ahmed, Tarik A. Rashid, Polla Fattah, Abeer Alsadoon, Nebojsa Bacanin, Seyedali Mirjalili, S.Vimal, Amit Chhabra(参考訳) 手書き認識は画像処理とパターン認識の分野で活発かつ挑戦的な研究分野の一つである。 視覚障害の読み取り支援、銀行小切手の読み取りと処理の自動化、手書き文書の検索の容易化、構造的なテキスト形式への変換など、多くのアプリケーションがある。 さらに、英語、中国語、ペルシア語、その他多くの言語で手書き認識システムによって高い精度が記録されている。 しかしオフラインのクルド文字認識にはそのようなシステムは存在しない。 本稿では、ディープラーニング技術を用いてクルド語アルファベットの手書き文字を認識可能なモデルの設計と開発を行う。 クルド語 (Sorani) には34の文字があり、主にアラビア・ペルシャ文字を基調としたアルファベットが修正されている。 本研究では,手書き認識システムにおける模範的な性能を示す深層畳み込みニューラルネットワークモデルを適用した。 その後、4000万以上の画像を含む手書きのクルド文字のための包括的なデータセットが作成された。 生成されたデータセットは、分類と認識タスクのためのDeep Convolutional Neural Networkモデルのトレーニングに使用されている。 提案システムでは,実験結果の認識レベルが許容される。 テスト結果では精度が96%,トレーニング精度が97%であった。 実験結果から,提案したディープラーニングモデルの性能は良好であり,他の言語の手書き認識システムと同等であることが明らかとなった。

Handwriting recognition is one of the active and challenging areas of research in the field of image processing and pattern recognition. It has many applications that include: a reading aid for visual impairment, automated reading and processing for bank checks, making any handwritten document searchable, and converting them into structural text form, etc. Moreover, high accuracy rates have been recorded by handwriting recognition systems for English, Chinese Arabic, Persian, and many other languages. Yet there is no such system available for offline Kurdish handwriting recognition. In this paper, an attempt is made to design and develop a model that can recognize handwritten characters for Kurdish alphabets using deep learning techniques. Kurdish (Sorani) contains 34 characters and mainly employs an Arabic\Persian based script with modified alphabets. In this work, a Deep Convolutional Neural Network model is employed that has shown exemplary performance in handwriting recognition systems. Then, a comprehensive dataset was created for handwritten Kurdish characters, which contains more than 40 thousand images. The created dataset has been used for training the Deep Convolutional Neural Network model for classification and recognition tasks. In the proposed system, the experimental results show an acceptable recognition level. The testing results reported a 96% accuracy rate, and training accuracy reported a 97% accuracy rate. From the experimental results, it is clear that the proposed deep learning model is performing well and is comparable to the similar model of other languages' handwriting recognition systems.
翻訳日:2022-10-30 11:45:23 公開日:2022-10-18
# 算術サンプリング:大規模言語モデルのための並列ディバースデコーディング

Arithmetic Sampling: Parallel Diverse Decoding for Large Language Models ( http://arxiv.org/abs/2210.15458v1 )

ライセンス: Link先を確認
Luke Vilnis, Yury Zemlyanskiy, Patrick Murray, Alexandre Passos, Sumit Sanghai(参考訳) 大規模言語モデルの復号法は、しばしば出力の多様性と計算の並列性の間でトレードオフがある。 ビームサーチやガンベルトップkサンプリングのような手法はビームの各要素に対して異なる出力を保証できるが、並列化は容易ではない。 あるいは、温度サンプリングとその修正方法(トップkサンプリング、核サンプリング、典型的な復号化など)は恥ずかしく並列であるが、重複サンプルについては保証がない。 本稿では,大言語モデルによって暗黙的に定義された算術コードブックに従ってサンプリングを行うためのフレームワークを提案する。 我々は,WMT機械翻訳におけるアプローチの有効性を実証し,期待されるBLEUスコアと最大1ポイント増加するBLEUをオラクル実験で推定する際のばらつきを著しく低減した。

Decoding methods for large language models often trade-off between diversity of outputs and parallelism of computation. Methods such as beam search and Gumbel top-k sampling can guarantee a different output for each element of the beam, but are not easy to parallelize. Alternatively, methods such as temperature sampling and its modifications (top-k sampling, nucleus sampling, typical decoding, and others), are embarrassingly parallel, but have no guarantees about duplicate samples. We present a framework for sampling according to an arithmetic code book implicitly defined by a large language model, compatible with common sampling variations, with provable beam diversity under certain conditions, as well as being embarrassingly parallel and providing unbiased and consistent expectations from the original model. We demonstrate the effectiveness of our approach on WMT machine translation, showing substantially reduced variance when estimating expected BLEU score and up to 1 point increased BLEU in oracle experiments.
翻訳日:2022-10-30 11:44:46 公開日:2022-10-18
# JECC:インタラクティブフィクションから得られた常識推論タスク

JECC: Commonsense Reasoning Tasks Derived from Interactive Fictions ( http://arxiv.org/abs/2210.15456v1 )

ライセンス: Link先を確認
Mo Yu, Xiaoxiao Guo, Yufei Feng, Yi Gu, Xiaodan Zhu, Michael Greenspan, Murray Campbell, Chuang Gan(参考訳) commonsenseの推論は、私たちの物理的な世界について推定する人間の能力をシミュレートし、一般的なaiシステムを構築する上で重要な基礎となる。 本研究では,人間プレイヤーが多様かつ多様なコモンセンス推論を実証する際,人間のインタラクティブフィクション(IF)ゲームプレイスルーに基づく新しいコモンセンス推論データセットを提案する。 新しいデータセットは、様々な推論タイプの自然な混合を提供し、マルチホップ推論を必要とする。 さらに、IFゲームベースの建設手順は、以前のものよりもはるかに少ない人間の介入を必要とする。 実験によると、導入されたデータセットは、人間のエキスパートに比べて20%のパフォーマンスギャップがある以前の機械学習モデルに挑戦している。

Commonsense reasoning simulates the human ability to make presumptions about our physical world, and it is an essential cornerstone in building general AI systems. We propose a new commonsense reasoning dataset based on human's Interactive Fiction (IF) gameplay walkthroughs as human players demonstrate plentiful and diverse commonsense reasoning. The new dataset provides a natural mixture of various reasoning types and requires multi-hop reasoning. Moreover, the IF game-based construction procedure requires much less human interventions than previous ones. Experiments show that the introduced dataset is challenging to previous machine reading models with a significant 20% performance gap compared to human experts.
翻訳日:2022-10-30 11:43:50 公開日:2022-10-18
# マイトショット学習と微調整によるマグマ調整

Aligning MAGMA by Few-Shot Learning and Finetuning ( http://arxiv.org/abs/2210.14161v1 )

ライセンス: Link先を確認
Jean-Charles Layoun, Alexis Roger, and Irina Rish(参考訳) 視覚言語モデリングの目標は、モデルが言語理解と視覚入力を結びつけることである。 本稿では,アダプタベースファインタニング(MAGMA)による生成モデルのマルチモーダル拡張(Multimodal Augmentation of Generative Models)と呼ばれる視覚言語モデル(VLM)の評価と整合性について述べる。 MAGMAは画像キャプションと視覚的質問応答が可能なVLMである。 3つの異なるシナリオでアライメントを評価します。 まず、Hugging Faceが提供するチェックポイントを通して、MAGMAのアウト・オブ・ボックスアライメントを評価する。 そして、少数ショット学習が結果を改善するかどうかを計測する。 最後に,モデルをアライメントした例で微調整し,その挙動を評価する。

The goal of vision-language modeling is to allow models to tie language understanding with visual inputs. The aim of this paper is to evaluate and align the Visual Language Model (VLM) called Multimodal Augmentation of Generative Models through Adapter-based finetuning (MAGMA) with human values. MAGMA is a VLM that is capable of image captioning and visual question-answering. We will evaluate its alignment in three different scenarios. To begin, we assess MAGMA's out-of-the-box alignment through the checkpoint provided by Hugging Face. Then, we measure if few-shot learning manages to improve the results. Finally, we finetune the model on aligned examples and evaluate its behavior.
翻訳日:2022-10-30 11:43:20 公開日:2022-10-18
# 不規則なマルチモーダル電子健康記録モデルによる医療予測の改善

Improving Medical Predictions by Irregular Multimodal Electronic Health Records Modeling ( http://arxiv.org/abs/2210.12156v1 )

ライセンス: Link先を確認
Xinlu Zhang, Shiyang Li, Zhiyu Chen, Xifeng Yan, Linda Petzold(参考訳) 集中治療室(icus)の患者の健康状態は、不規則な時間間隔で、数値的な時系列と長い臨床記録からなる電子健康記録(ehrs)によって監視される。 あらゆるモダリティにおいてそのような不規則性に対処し、医療予測を改善するために多モーダル表現に不規則性を統合することは難しい問題である。 本稿では,(1)ゲーティング機構を介して学習補間埋め込みに手作りのインプット埋め込みを組み込んで不規則な時系列をモデル化すること,(2)多変量不規則な時系列として一連の臨床メモ表現をキャストすること,(3)時間的注意機構を介して不規則性を多モーダル表現に統合するための時間的ステップでインターリーブされた注意機構を融合させることにより,この問題に対処する。 我々の知る限りでは、マルチモーダルの不規則性を徹底的にモデル化し、マルチモーダル融合における時間的知識を考慮し、医療予測を改善するための最初の試みである。 2つの医療予測タスクの結果,提案手法は単一モードおよび多モード融合のシナリオにおいて最先端(sota)手法よりも優れており,マルチモーダル融合におけるモデリングの不規則性の有効性が示唆された。

Health conditions among patients in intensive care units (ICUs) are monitored via electronic health records (EHRs), composed of numerical time series and lengthy clinical note sequences, both taken at irregular time intervals. Dealing with such irregularity in every modality, and integrating irregularity into multimodal representations to improve medical predictions, is a challenging problem. In this paper, we address this problem by (1) modeling irregular time series by incorporating hand-crafted imputation embeddings into learned interpolation embeddings via a gating mechanism; (2) casting a series of clinical note representations as multivariate irregular time series and tackling irregularity via a time attention mechanism; and (3) fusing multimodalities with an interleaved attention mechanism across temporal steps to integrate irregularity into multimodal representations. To the best of our knowledge, this is the first work to thoroughly model irregularity in multimodalities and to take into account temporal knowledge in multimodal fusion, for improving medical predictions. The results on two medical prediction tasks show that our proposed methods outperform the state-of-the-art (SOTA) methods in both every single modality and multimodal fusion scenarios, illustrating the effectiveness of our methods and the value of modeling irregularity in multimodal fusion.
翻訳日:2022-10-30 11:42:54 公開日:2022-10-18
# 最適AdaBoost収束

Optimal AdaBoost Converges ( http://arxiv.org/abs/2210.07808v3 )

ライセンス: Link先を確認
Conor Snedeker(参考訳) 以下の研究は、adaboost機械学習アルゴリズムの分類器とマージンの収束特性に関する形式的証明のプレプリントコレクションである。 様々な数学や計算機科学の論文が、これらの収束特性の予想や特別な場合について書かれている。 さらに、アルゴリズムを取り巻く研究において、AdaBoostのマージンは顕著である。 本稿では、AdaBoostの分類器とマージンが数十年の研究と一致する値にどのように収束するかを示す。 この後,複合分類器に関連付けられた様々な量がどのように収束するかを示す。

The following work is a preprint collection of formal proofs regarding the convergence properties of the AdaBoost machine learning algorithm's classifier and margins. Various math and computer science papers have been written regarding conjectures and special cases of these convergence properties. Furthermore, the margins of AdaBoost feature prominently in the research surrounding the algorithm. At the zenith of this paper we present how AdaBoost's classifier and margins converge on a value that agrees with decades of research. After this, we show how various quantities associated with the combined classifier converge.
翻訳日:2022-10-23 20:17:27 公開日:2022-10-18
# ベイズ型ニューラルネットワーク認識の不確実性に基づく分散判別器

An out-of-distribution discriminator based on Bayesian neural network epistemic uncertainty ( http://arxiv.org/abs/2210.10780v1 )

ライセンス: Link先を確認
Ethan Ancell, Christopher Bennett, Bert Debusschere, Sapan Agarwal, Park Hays, T. Patrick Xiao(参考訳) ニューラルネットワークは予測能力を高めて機械学習の分野に革命をもたらした。 ニューラルネットワークの予測の改善に加えて,ニューラルネットワークなどの機械学習手法による推定では,信頼性の高い不確かさの定量化が同時に求められている。 ベイジアンニューラルネットワーク(bnns)は、不確かさを定量化する機能を組み込んだ重要なタイプのニューラルネットワークである。 本稿では,BNNにおける失語症およびてんかんの不確実性とその計算方法について論じる。 画像中の事象の振幅を識別することを目的とした画像のサンプルデータセットでは、トレーニングデータセットでよく表現された画像では認識の不確かさが低くなり、よく表現されていない画像では高い傾向が示されている。 BNNにおけるOoD検出能力に影響を及ぼす要因を示す様々な実験とともに、BNNてんかん不確実性を伴うOoD検出アルゴリズムを紹介した。 認識的不確実性を有するood検出能力は,gan(generative adversarial network)の識別ネットワークにおけるood検出に匹敵するネットワークアーキテクチャを有する。

Neural networks have revolutionized the field of machine learning with increased predictive capability. In addition to improving the predictions of neural networks, there is a simultaneous demand for reliable uncertainty quantification on estimates made by machine learning methods such as neural networks. Bayesian neural networks (BNNs) are an important type of neural network with built-in capability for quantifying uncertainty. This paper discusses aleatoric and epistemic uncertainty in BNNs and how they can be calculated. With an example dataset of images where the goal is to identify the amplitude of an event in the image, it is shown that epistemic uncertainty tends to be lower in images which are well-represented in the training dataset and tends to be high in images which are not well-represented. An algorithm for out-of-distribution (OoD) detection with BNN epistemic uncertainty is introduced along with various experiments demonstrating factors influencing the OoD detection capability in a BNN. The OoD detection capability with epistemic uncertainty is shown to be comparable to the OoD detection in the discriminator network of a generative adversarial network (GAN) with comparable network architecture.
翻訳日:2022-10-21 15:27:48 公開日:2022-10-18
# 実数値およびカテゴリー的特徴に基づく決定木の一般化特性

Generalization Properties of Decision Trees on Real-valued and Categorical Features ( http://arxiv.org/abs/2210.10781v1 )

ライセンス: Link先を確認
Jean-Samuel Leboeuf, Fr\'ed\'eric LeBlanc and Mario Marchand(参考訳) データ分割の観点から二分決定木を再検討する。 分割関数の概念を導入し,成長関数やvc次元と関連づける。 我々は3種類の特徴を考察する: 実数値、分類的順序、分類的名目で、それぞれ異なる分割規則を持つ。 各特徴型について、再帰的アプローチを用いて境界を(任意の固定構造の)一般決定木のクラスに拡張する前に、決定切り株のクラス分割関数を上界とする。 これらの新しい結果から、$$\ell$実数値関数の例でVC次元の正確な決定切り札を見つけることができ、これは、$2\ell \ge \binom{d}{\lfloor\frac{d}{2}\rfloor}$であるような最大整数$d$によって与えられる。 さらに、$L_T$ を持つ二分木構造の VC 次元が $\ell$ 実数値関数の例に残ることを示し、$O(L_T \log(L_T\ell))$ である。 最後に,これらの結果に基づくプルーニングアルゴリズムを詳述し,クロスバリデーションを必要としないという利点を生かして,コスト複雑度や誤差低減プルーニングアルゴリズムよりも優れた性能を示す。

We revisit binary decision trees from the perspective of partitions of the data. We introduce the notion of partitioning function, and we relate it to the growth function and to the VC dimension. We consider three types of features: real-valued, categorical ordinal and categorical nominal, with different split rules for each. For each feature type, we upper bound the partitioning function of the class of decision stumps before extending the bounds to the class of general decision tree (of any fixed structure) using a recursive approach. Using these new results, we are able to find the exact VC dimension of decision stumps on examples of $\ell$ real-valued features, which is given by the largest integer $d$ such that $2\ell \ge \binom{d}{\lfloor\frac{d}{2}\rfloor}$. Furthermore, we show that the VC dimension of a binary tree structure with $L_T$ leaves on examples of $\ell$ real-valued features is in $O(L_T \log(L_T\ell))$. Finally, we elaborate a pruning algorithm based on these results that performs better than the cost-complexity and reduced-error pruning algorithms on a number of data sets, with the advantage that no cross-validation is required.
翻訳日:2022-10-21 13:47:02 公開日:2022-10-18
# 乾燥地におけるセンチネル-1干渉観測による土壌水分の推定

Soil moisture estimation from Sentinel-1 interferometric observations over arid regions ( http://arxiv.org/abs/2210.10665v1 )

ライセンス: Link先を確認
Kleanthis Karamvasis, Vassilia Karathanassi(参考訳) 本研究では,insar(interferometric synthetic aperture radar)の時系列解析に基づいて,土壌水分 (ssm) を表面 (top 5 cm) に推定する手法を提案する。 InSARの時系列解析は5つの処理ステップからなる。 提案するワークフローの入力には,共登録のslc(single look complex)sarスタックと気象情報が必要である。 第1段階では、気象データを用いて氷・雪・無沈降sar画像を特定する。 第2のステップでは、分散散乱器(DS)の構成と位相抽出を行う(素地上)。 第3のステップでは、各DSに対して、干渉コヒーレンスに基づく表面土壌水分(SSM)レベルのSAR取得を順序付けする。 第4ステップでは、各DSに対してSSM変動によるコヒーレンスを算出する。 第5ステップでは、コヒーレンスと位相閉包情報を用いた解析干渉モデルの制約付き反転によってssmを推定する。 提案手法の実装は、www.github.com/kleok/INSAR4SMで利用可能なオープンソースのソフトウェアツールボックス(INSAR4SM)として提供される。 カリフォルニア/アリゾナの乾燥した地域での事例研究を行った。 提案するワークフローはsentinel-1(cバンド)vv偏極insar観測に適用した。 国際土壌水分ネットワーク (ISMN) のステーション (RMSE: 0.027 $m^3/m^3$ R: 0.88) と ERA5-Land の再解析モデルデータ (RMSE: 0.035 $m^3/m^3$ R: 0.71) から独立したSSM観測を行った。 提案手法は空間分解能(約250m)で正確なSSM推定を行うことができた。 提案手法の利点と限界に関する議論は,乾燥領域におけるssm推定における干渉型観測器の可能性を強調した。

We present a methodology based on interferometric synthetic aperture radar (InSAR) time series analysis that can provide surface (top 5 cm) soil moisture (SSM) estimations. The InSAR time series analysis consists of five processing steps. A co-registered Single Look Complex (SLC) SAR stack as well as meteorological information are required as input of the proposed workflow. In the first step, ice/snow-free and zero-precipitation SAR images are identified using meteorological data. In the second step, construction and phase extraction of distributed scatterers (DSs) (over bare land) is performed. In the third step, for each DS the ordering of surface soil moisture (SSM) levels of SAR acquisitions based on interferometric coherence is calculated. In the fourth step, for each DS the coherence due to SSM variations is calculated. In the fifth step, SSM is estimated by a constrained inversion of an analytical interferometric model using coherence and phase closure information. The implementation of the proposed approach is provided as an open-source software toolbox (INSAR4SM) available at www.github.com/kleok/INSAR4SM. A case study over an arid region in California/Arizona is presented. The proposed workflow was applied in Sentinel- 1 (C-band) VV-polarized InSAR observations. The estimated SSM results were assessed with independent SSM observations from a station of the International Soil Moisture Network (ISMN) (RMSE: 0.027 $m^3/m^3$ R: 0.88) and ERA5-Land reanalysis model data (RMSE: 0.035 $m^3/m^3$ R: 0.71). The proposed methodology was able to provide accurate SSM estimations at high spatial resolution (~250 m). A discussion of the benefits and the limitations of the proposed methodology highlighted the potential of interferometric observables for SSM estimation over arid regions.
翻訳日:2022-10-20 16:00:22 公開日:2022-10-18
# 説明可能なbilevel optimization: helsinki deblur challengeへの応用

Explainable bilevel optimization: an application to the Helsinki deblur challenge ( http://arxiv.org/abs/2210.10050v1 )

ライセンス: Link先を確認
Silvia Bonettini, Giorgia Franchini, Danilo Pezzi and Marco Prato(参考訳) 本稿では,パラメータを自動学習した高品質な再構成画像を提供するために,パラメトリック変分的手法を機械学習スキーム内にカプセル化する一般画像デブラリング問題の解に対する2レベル最適化手法を提案する。 変動下層と機械学習上層部の成分を特にヘルシンキ・デブラル・チャレンジ2021に選定し、ぼやけのレベルを増加させ、フォーカス外の写真から文字の配列を復元するよう要求する。 提案手法は,正規化最小二乗関数を強制するエッジ保存と二乗化の最小化に適用されるfista反復数を一定数とする。 変分モデルと最適化ステップを定義するパラメータは、多くのディープラーニングアプローチとは異なり、すべて正確で解釈可能な意味を持ち、類似度指数またはサポートベクトルマシン戦略によって学習される。 筆者らが提供したテスト画像に関する数値実験では,数百万のパラメータの最適化を必要とする深層学習に基づくアルゴリズムのいくつかに匹敵する,標準的な変分法と性能に対して,大きな効果を示した。

In this paper we present a bilevel optimization scheme for the solution of a general image deblurring problem, in which a parametric variational-like approach is encapsulated within a machine learning scheme to provide a high quality reconstructed image with automatically learned parameters. The ingredients of the variational lower level and the machine learning upper one are specifically chosen for the Helsinki Deblur Challenge 2021, in which sequences of letters are asked to be recovered from out-of-focus photographs with increasing levels of blur. Our proposed procedure for the reconstructed image consists in a fixed number of FISTA iterations applied to the minimization of an edge preserving and binarization enforcing regularized least-squares functional. The parameters defining the variational model and the optimization steps, which, unlike most deep learning approaches, all have a precise and interpretable meaning, are learned via either a similarity index or a support vector machine strategy. Numerical experiments on the test images provided by the challenge authors show significant gains with respect to a standard variational approach and performances comparable with those of some of the proposed deep learning based algorithms which require the optimization of millions of parameters.
翻訳日:2022-10-20 15:59:13 公開日:2022-10-18
# ラマン分光法とケモメトリックスの組み合わせ:spectrochimica acta, part a: molecular and bio molecular spectroscopy journalの最近の研究のレビュー

Combination of Raman spectroscopy and chemometrics: A review of recent studies published in the Spectrochimica Acta, Part A: Molecular and Biomolecular Spectroscopy Journal ( http://arxiv.org/abs/2210.10051v1 )

ライセンス: Link先を確認
Yulia Khristoforova, Lyudmila Bratchenko, Ivan Bratchenko(参考訳) ラマン分光法(英: raman spectroscopy)は、分子レベルでの試料の指紋検出能力のため、様々な分野の試料の非侵襲的分析に用いられる有望な技術である。 ケモメトリックス法は現在、試料のスペクトル指紋の記録と化学組成の違いをよりよく理解するために広く使われている。 本総説では,Raman Spectrochimica Acta, Part A: Molecular and Biomolecular Spectroscopy Journal に掲載された多くの写本について考察する。 57のレビュー原稿において, ケモメトリックスアルゴリズム, 統計モデルパラメータ, クロスバリデーションの利用, サンプルサイズ, および, 提案した分類および回帰モデルの性能について分析した。 我々は分類モデルを作成するための最善の戦略をまとめ、ケモメトリックス手法の適用に関して共通の欠点を強調した。 筆者らの推計によれば, 論文の約70%は, 利用方法の記載不足や分類モデルの欠点により, サポートや無効なデータを含む傾向がみられた。 これらの欠点は,(1)分類/回帰のための実験試料サイズが不十分で,信頼性の高い結果が得られること,(2)分類器/回帰性能の検証のためのクロス検証(あるいはテストセット)の欠如,(3)スペクトルデータのトレーニングとテスト/検証セットへの誤った分割,(4)分析したスペクトルデータ次元を減らすためのPC番号の不適切な選択などである。

Raman spectroscopy is a promising technique used for noninvasive analysis of samples in various fields of application due to its ability for fingerprint probing of samples at the molecular level. Chemometrics methods are widely used nowadays for better understanding of the recorded spectral fingerprints of samples and differences in their chemical composition. This review considers a number of manuscripts published in the Spectrochimica Acta, Part A: Molecular and Biomolecular Spectroscopy Journal that presented findings regarding the application of Raman spectroscopy in combination with chemometrics to study samples and their changes caused by different factors. In 57 reviewed manuscripts, we analyzed application of chemometrics algorithms, statistical modeling parameters, utilization of cross validation, sample sizes, as well as the performance of the proposed classification and regression model. We summarized the best strategies for creating classification models and highlighted some common drawbacks when it comes to the application of chemometrics techniques. According to our estimations, about 70% of the papers are likely to contain unsupported or invalid data due to insufficient description of the utilized methods or drawbacks of the proposed classification models. These drawbacks include: (1) insufficient experimental sample size for classification/regression to achieve significant and reliable results, (2) lack of cross validation (or a test set) for verification of the classifier/regression performance, (3) incorrect division of the spectral data into the training and the test/validation sets; (4) improper selection of the PC number to reduce the analyzed spectral data dimension.
翻訳日:2022-10-20 15:58:52 公開日:2022-10-18
# 誤報フィルターバブルに対するYouTubeの推奨アルゴリズムの検証

Auditing YouTube's Recommendation Algorithm for Misinformation Filter Bubbles ( http://arxiv.org/abs/2210.10085v1 )

ライセンス: Link先を確認
Ivan Srba, Robert Moro, Matus Tomlein, Branislav Pecher, Jakub Simko, Elena Stefancova, Michal Kompan, Andrea Hrckova, Juraj Podrouzek, Adrian Gavornik, Maria Bielikova(参考訳) 本稿では,ユーザが偽情報フィルタバブルにどれだけ早く侵入できるか,また「バブルを浸す」のに何が必要か,すなわちバブルの封筒を戻すために何が必要かを調べることを目的とした,youtube上で実施した監査研究の結果について述べる。 そこで我々は,事前にプログラムされたエージェント(YouTubeユーザとして活動する)が,偽情報の宣伝コンテンツを見て誤情報フィルタバブルを掘り下げる,靴下人形監査手法を採用した。 そして、バブルを破裂させ、誤った情報を流すコンテンツを見て、よりバランスのとれたレコメンデーションに到達しようとする。 私たちは、検索結果、ホームページの結果、視聴されたビデオのレコメンデーションを記録します。 全体で17,405本のユニークなビデオを録画し、その中の2,914本を誤報の存在について手動で注釈付けしました。 ラベル付きデータは、ビデオを0.82の精度で3つのクラス(プロモーティング、デバンキング、ニュートラル)に分類する機械学習モデルをトレーニングするために使用された。 トレーニングされたモデルを使用して、手動で注釈付けできない残りのビデオを分類します。 手動データと自動アノテートデータの両方を使用して,監査対象トピックの誤情報のバブルダイナミクスを観察した。 私たちのキーとなる発見は、フィルターバブルが一部の状況では現れないとしても、その場合、誤報を流すコンテンツ(話題によって異なるが)を見ることで、それらを破裂させることが可能であることです。 また,誤報拡散ビデオがビデオ宣伝後に見られると,誤報フィルタのバブル効果が突然減少し,推奨の強い文脈性を示す。 最後に,過去の類似研究と比較した場合,推奨された誤情報の量全体の改善はみられなかった。

In this paper, we present results of an auditing study performed over YouTube aimed at investigating how fast a user can get into a misinformation filter bubble, but also what it takes to "burst the bubble", i.e., revert the bubble enclosure. We employ a sock puppet audit methodology, in which pre-programmed agents (acting as YouTube users) delve into misinformation filter bubbles by watching misinformation promoting content. Then they try to burst the bubbles and reach more balanced recommendations by watching misinformation debunking content. We record search results, home page results, and recommendations for the watched videos. Overall, we recorded 17,405 unique videos, out of which we manually annotated 2,914 for the presence of misinformation. The labeled data was used to train a machine learning model classifying videos into three classes (promoting, debunking, neutral) with the accuracy of 0.82. We use the trained model to classify the remaining videos that would not be feasible to annotate manually. Using both the manually and automatically annotated data, we observe the misinformation bubble dynamics for a range of audited topics. Our key finding is that even though filter bubbles do not appear in some situations, when they do, it is possible to burst them by watching misinformation debunking content (albeit it manifests differently from topic to topic). We also observe a sudden decrease of misinformation filter bubble effect when misinformation debunking videos are watched after misinformation promoting videos, suggesting a strong contextuality of recommendations. Finally, when comparing our results with a previous similar study, we do not observe significant improvements in the overall quantity of recommended misinformation content.
翻訳日:2022-10-20 15:58:23 公開日:2022-10-18
# TEFL: 信頼できるゼロタッチネットワークスライシングのためのターボ説明可能なフェデレーションラーニング

TEFL: Turbo Explainable Federated Learning for 6G Trustworthy Zero-Touch Network Slicing ( http://arxiv.org/abs/2210.10147v1 )

ライセンス: Link先を確認
Swastika Roy, Hatim Chergui, and Christos Verikoukis(参考訳) 第6世代(6G)ネットワークは、様々な垂直ユースケースに関連する多数の共存スライスと異種スライスを知的にサポートすることを期待している。 このような状況は、エンドツーエンド(E2E)スライスにおけるAI駆動のゼロタッチ管理とオーケストレーション(MANO)を、SLA(stringent Service Level Agreements)の下で採用することを促す。 具体的には、実際のデプロイメントにおけるAIブラックボックスの信頼性は、テナントやインフラストラクチャプロバイダ、オペレータといったスライシングエコシステム内の相互作用するアクター間の透明性を構築するための、説明可能なAI(XAI)ツールによって達成できる。 本稿では,制約付き資源配分モデルと \emph{Explainer} 交換を閉ループ (CL) 方式で適用し,非独立分散型 (非IID) データセット下でのRAN-Edge セットアップにおいて,6G ネットワークスライスの透過的かつSLA 対応ゼロタッチサービス管理 (ZSM) を実現するための,特徴のソフトな属性と推論予測を行う,新しい反復的説明可能なフェデレーションラーニング (FL) 手法を提案する。 特に、実行時のfl最適化タスクに制約として含まれる、いわゆる帰属ベース \emph{confidence metric} による説明の忠実さを定量的に検証する。 この点において、Integrated-Gradient (IG) およびInput $\times$ Gradient および SHAP はターボ説明可能なFL (TEFL) の属性を生成するために使用され、異なる方法によるシミュレーション結果により、制約のないIntegrated-Gradient \emph{post-hoc} FL ベースラインよりも優位性が確認される。

Sixth-generation (6G) networks anticipate intelligently supporting a massive number of coexisting and heterogeneous slices associated with various vertical use cases. Such a context urges the adoption of artificial intelligence (AI)-driven zero-touch management and orchestration (MANO) of the end-to-end (E2E) slices under stringent service level agreements (SLAs). Specifically, the trustworthiness of the AI black-boxes in real deployment can be achieved by explainable AI (XAI) tools to build transparency between the interacting actors in the slicing ecosystem, such as tenants, infrastructure providers and operators. Inspired by the turbo principle, this paper presents a novel iterative explainable federated learning (FL) approach where a constrained resource allocation model and an \emph{explainer} exchange -- in a closed loop (CL) fashion -- soft attributions of the features as well as inference predictions to achieve a transparent and SLA-aware zero-touch service management (ZSM) of 6G network slices at RAN-Edge setup under non-independent identically distributed (non-IID) datasets. In particular, we quantitatively validate the faithfulness of the explanations via the so-called attribution-based \emph{confidence metric} that is included as a constraint in the run-time FL optimization task. In this respect, Integrated-Gradient (IG) as well as Input $\times$ Gradient and SHAP are used to generate the attributions for the turbo explainable FL (TEFL), wherefore simulation results under different methods confirm its superiority over an unconstrained Integrated-Gradient \emph{post-hoc} FL baseline.
翻訳日:2022-10-20 15:57:53 公開日:2022-10-18
# 因果回復による条件付き力学の推論

Inference in conditioned dynamics through causality restoration ( http://arxiv.org/abs/2210.10179v1 )

ライセンス: Link先を確認
Alfredo Braunstein, Giovanni Catania, Luca Dall'Asta, Matteo Mariani, Anna Paola Muntoni(参考訳) なぜなら、非条件の力学から独立サンプルを効率的に得ることは、通常は実現可能であるが、通常、ほとんどのサンプルは、課された条件を満たさないため、(重要なサンプリングの形で)破棄されなければならないからである。 条件付き分布から直接サンプリングすることは非自明であり、条件付きはダイナミクスの因果特性を壊し、最終的にサンプリング手順を効率的にする。 標準的な方法の1つはメトロポリス・モンテ・カルロ法であるが、この手順は通常は遅く、少数の統計的に独立なサンプルを得るためにはモンテ・カルロ法が非常に多く必要である。 本研究では,条件付き分布から独立したサンプルを生成する方法を提案する。 本手法は,条件付き分布を変動的に最適に記述する一般化力学モデルのパラメータを学習する。 結果は有効で無条件の動的モデルであり、そこから独立サンプルを自明に得ることができ、条件付き分布の因果関係を効果的に復元することができる。 その結果は2つある:一方、独立したサンプルを平均化することによって、条件付きダイナミクスから効率的にオブザーバブルを計算できる。 一方、本手法は、解釈が容易な効率的な無条件分布を与える。 この手法は柔軟で、どんな力学にも事実上適用できる。 本研究は, ジレスピー様のサンプラーを付与した大規模流行モデルに対する(不完全な)臨床検査からの流行リスクアセスメントの課題である。 本手法は, ソフトマージン法や平均場法など, 美術品の状態と好適に比較できることを示す。

Computing observables from conditioned dynamics is typically computationally hard, because, although obtaining independent samples efficiently from the unconditioned dynamics is usually feasible, generally most of the samples must be discarded (in a form of importance sampling) because they do not satisfy the imposed conditions. Sampling directly from the conditioned distribution is non-trivial, as conditioning breaks the causal properties of the dynamics which ultimately renders the sampling procedure efficient. One standard way of achieving it is through a Metropolis Monte-Carlo procedure, but this procedure is normally slow and a very large number of Monte-Carlo steps is needed to obtain a small number of statistically independent samples. In this work, we propose an alternative method to produce independent samples from a conditioned distribution. The method learns the parameters of a generalized dynamical model that optimally describe the conditioned distribution in a variational sense. The outcome is an effective, unconditioned, dynamical model, from which one can trivially obtain independent samples, effectively restoring causality of the conditioned distribution. The consequences are twofold: on the one hand, it allows us to efficiently compute observables from the conditioned dynamics by simply averaging over independent samples. On the other hand, the method gives an effective unconditioned distribution which is easier to interpret. The method is flexible and can be applied virtually to any dynamics. We discuss an important application of the method, namely the problem of epidemic risk assessment from (imperfect) clinical tests, for a large family of time-continuous epidemic models endowed with a Gillespie-like sampler. We show that the method compares favorably against the state of the art, including the soft-margin approach and mean-field methods.
翻訳日:2022-10-20 15:57:17 公開日:2022-10-18
# テンソル補完による高次元性能モデリング

High-Dimensional Performance Modeling via Tensor Completion ( http://arxiv.org/abs/2210.10184v1 )

ライセンス: Link先を確認
Edward Hutter and Edgar Solomonik(参考訳) パフォーマンスチューニング、ソフトウェア/ハードウェアの共同設計、ジョブスケジューリングは、アプリケーションパフォーマンスを予測するモデルに依存する多くのタスクの1つです。 アプリケーションの性能をモデル化するための低階テンソル分解法を提案し評価する。 テンソルを使用して、アプリケーションの入力と設定のドメインを識別する正規のグリッドを表現します。 グリッドセル内でマップされたアプリケーション実行時間は平均化され、テンソル要素によって表現される。 これらのテンソルの近似には,低ランクカノニカル・ポリディクス(CP)テンソル分解が有効であることを示す。 次に、観測ランタイムのスパースセットが与えられた場合のCP分解を最適化するためにテンソル補完を用いる。 我々は,P/Gモデルと教師付き学習モデルを6つのアプリケーションに対して検討し,P/Gモデルがモデルサイズに対して有意に精度が高いことを示す。 P/Gモデルの中で、正規グリッド(CPR)のCP分解は、高い精度とメモリ効率、最適化の高速化、ユーザ選択損失関数とドメイン分割による拡張性の向上を提供する。 cprモデルは、最大10キロバイトの最も正確な代替モデルと比較して平均予測誤差の2.18倍の幾何学的平均減少を達成している。

Performance tuning, software/hardware co-design, and job scheduling are among the many tasks that rely on models to predict application performance. We propose and evaluate low rank tensor decomposition for modeling application performance. We use tensors to represent regular grids that discretize the input and configuration domain of an application. Application execution times mapped within grid-cells are averaged and represented by tensor elements. We show that low-rank canonical-polyadic (CP) tensor decomposition is effective in approximating these tensors. We then employ tensor completion to optimize a CP decomposition given a sparse set of observed runtimes. We consider alternative piecewise/grid-based (P/G) and supervised learning models for six applications and demonstrate that P/G models are significantly more accurate relative to model size. Among P/G models, CP decomposition of regular grids (CPR) offers higher accuracy and memory-efficiency, faster optimization, and superior extensibility via user-selected loss functions and domain partitioning. CPR models achieve a 2.18x geometric mean decrease in mean prediction error relative to the most accurate alternative models of size $\le$10 kilobytes.
翻訳日:2022-10-20 15:56:46 公開日:2022-10-18
# クラスターディスクリプタによる実用的説明可能性の実現に向けて

Towards Practical Explainability with Cluster Descriptors ( http://arxiv.org/abs/2210.10662v1 )

ライセンス: Link先を確認
Xiaoyuan Liu, Ilya Tyagin, Hayato Ushijima-Mwesigwa, Indradeep Ghosh, Ilya Safro(参考訳) 機械学習の急速な発展により、その説明可能性の向上は重要な研究目標となっている。 本研究では,クラスタ記述子を調べることにより,クラスタをより説明しやすくする問題について検討する。 オブジェクトのセットに$s$、これらのオブジェクトのクラスタリングに$\pi$、クラスタリングアルゴリズムには参加していないタグのセット$t$が与えられる。 $s$のそれぞれのオブジェクトは$t$のサブセットに関連付けられる。 目標は、クラスタディスクリプタと呼ばれる各クラスタの代表的なタグセットを見つけることであり、これらのディスクリプタはペアで切り離され、すべてのディスクリプタの総サイズが最小になる。 一般に、この問題はNPハードである。 本稿では,説明可能性に寄与せず,クラスタ間を十分に区別しないタグが最適記述子に付加されないように,先行モデルを強化する新しい説明可能性モデルを提案する。 提案モデルは2次非制約二元最適化問題として定式化され、現代の最適化ハードウェアアクセラレーターの解法に適している。 本研究では,組合わせ最適化を高速化する専用ハードウェア,富士通デジタルアニーラ,実生活用twitterおよびpubmedデータセットを用いた説明可能性モデルの実現を実験的に実証する。

With the rapid development of machine learning, improving its explainability has become a crucial research goal. We study the problem of making the clusters more explainable by investigating the cluster descriptors. Given a set of objects $S$, a clustering of these objects $\pi$, and a set of tags $T$ that have not participated in the clustering algorithm. Each object in $S$ is associated with a subset of $T$. The goal is to find a representative set of tags for each cluster, referred to as the cluster descriptors, with the constraint that these descriptors we find are pairwise disjoint, and the total size of all the descriptors is minimized. In general, this problem is NP-hard. We propose a novel explainability model that reinforces the previous models in such a way that tags that do not contribute to explainability and do not sufficiently distinguish between clusters are not added to the optimal descriptors. The proposed model is formulated as a quadratic unconstrained binary optimization problem which makes it suitable for solving on modern optimization hardware accelerators. We experimentally demonstrate how a proposed explainability model can be solved on specialized hardware for accelerating combinatorial optimization, the Fujitsu Digital Annealer, and use real-life Twitter and PubMed datasets for use cases.
翻訳日:2022-10-20 15:50:22 公開日:2022-10-18
# BirdSounds Denoising:バードサウンドのためのディープビジュアルオーディオ

BirdSoundsDenoising: Deep Visual Audio Denoising for Bird Sounds ( http://arxiv.org/abs/2210.10196v1 )

ライセンス: Link先を確認
Youshan Zhang and Jialu Li(参考訳) 従来の学習法とディープラーニング法の両方を用いて、何十年にもわたって音声デノイジングが研究されてきた。 しかし、これらの手法は手作業で人工的なノイズを加えるか、音質を低くするかに制限されている。 これらの課題を克服するために,我々は大規模自然騒音鳥音声データセットを収集する。 本稿では,まず,画像分割問題に音声復調問題を変換し,DVAD(Deep visual audio denoising)モデルを提案する。 合計14,120枚のオーディオ画像を用いて,音声画像マスクツールを開発し,これらの画像のラベル付けに数発の一般化戦略を提案する。 実験結果から,提案モデルが最先端性能を実現することを示す。 また,本手法は,音声認識,音声分離,音声強調,雑音推定に容易に適用可能であることを示す。

Audio denoising has been explored for decades using both traditional and deep learning-based methods. However, these methods are still limited to either manually added artificial noise or lower denoised audio quality. To overcome these challenges, we collect a large-scale natural noise bird sound dataset. We are the first to transfer the audio denoising problem into an image segmentation problem and propose a deep visual audio denoising (DVAD) model. With a total of 14,120 audio images, we develop an audio ImageMask tool and propose to use a few-shot generalization strategy to label these images. Extensive experimental results demonstrate that the proposed model achieves state-of-the-art performance. We also show that our method can be easily generalized to speech denoising, audio separation, audio enhancement, and noise estimation.
翻訳日:2022-10-20 15:49:27 公開日:2022-10-18
# 視聴覚シーン分類のためのマルチソーストランスフォーマーアーキテクチャ

Multi-Source Transformer Architectures for Audiovisual Scene Classification ( http://arxiv.org/abs/2210.10212v1 )

ライセンス: Link先を確認
Wim Boes, Hugo Van hamme(参考訳) 本報告では,dcase 2021チャレンジのサブタスク1bに対して,視聴覚シーン分類に関するシステムについて詳述する。 基本的にはマルチソーストランスフォーマーで、聴覚と視覚の機能を組み合わせて予測を行う。 これらのモデルは,マクロ平均型クロスエントロピーと精度指標を用いて評価される。 マクロ平均マルチクラスクロスエントロピーでは,検証データに対して0.620のスコアが得られた。 これはベースラインシステム(0.658)のパフォーマンスより若干優れている。 精度尺度については、検証データ上で77.1\%のスコアを得たが、これはベースラインシステムで得られたパフォーマンスとほぼ同程度である(77.0\%)。

In this technical report, the systems we submitted for subtask 1B of the DCASE 2021 challenge, regarding audiovisual scene classification, are described in detail. They are essentially multi-source transformers employing a combination of auditory and visual features to make predictions. These models are evaluated utilizing the macro-averaged multi-class cross-entropy and accuracy metrics. In terms of the macro-averaged multi-class cross-entropy, our best model achieved a score of 0.620 on the validation data. This is slightly better than the performance of the baseline system (0.658). With regard to the accuracy measure, our best model achieved a score of 77.1\% on the validation data, which is about the same as the performance obtained by the baseline system (77.0\%).
翻訳日:2022-10-20 15:49:08 公開日:2022-10-18
# 頑健で効率的な感覚運動政策学習のための出力フィードバックチューブmpc誘導データ拡張

Output Feedback Tube MPC-Guided Data Augmentation for Robust, Efficient Sensorimotor Policy Learning ( http://arxiv.org/abs/2210.10127v1 )

ライセンス: Link先を確認
Andrea Tagliabue, Jonathan P. How(参考訳) 模倣学習(il)は、計算コストの高いモデルに基づくセンシングと制御アルゴリズムによるデモンストレーションから、計算効率のよいセンサモジュレータポリシを生成することができる。 しかし、一般的に使用されるilメソッドは、しばしばデータ非効率であり、大量のデモンストレーションの収集と、不確実性に対する堅牢性に制限されたポリシーの作成を必要とする。 本研究では,ILと出力フィードバック型ロバスト管モデル予測コントローラ(RTMPC)を組み合わせることで,ニューラルネットワークに基づくセンサモビリティポリシーを効率的に学習するデータ拡張戦略を提案する。 拡張データにより、ILに必要な計算時間とデモの数を減らすとともに、不確実性の検出と処理に堅牢性を提供します。 データ拡張プロセスの一環として環境の3次元メッシュを活用することで,航空機ロボットの軌道追従型ビジュモータポリシーを学習するタスクへの我々のアプローチを調整する。 提案手法は,従来のIL法と比較して,実演効率が2桁向上した1つの実演から,ロバストなビズモータポリシーを学習できることを数値的に示す。

Imitation learning (IL) can generate computationally efficient sensorimotor policies from demonstrations provided by computationally expensive model-based sensing and control algorithms. However, commonly employed IL methods are often data-inefficient, requiring the collection of a large number of demonstrations and producing policies with limited robustness to uncertainties. In this work, we combine IL with an output feedback robust tube model predictive controller (RTMPC) to co-generate demonstrations and a data augmentation strategy to efficiently learn neural network-based sensorimotor policies. Thanks to the augmented data, we reduce the computation time and the number of demonstrations needed by IL, while providing robustness to sensing and process uncertainty. We tailor our approach to the task of learning a trajectory tracking visuomotor policy for an aerial robot, leveraging a 3D mesh of the environment as part of the data augmentation process. We numerically demonstrate that our method can learn a robust visuomotor policy from a single demonstration--a two-orders of magnitude improvement in demonstration efficiency compared to existing IL methods.
翻訳日:2022-10-20 15:31:46 公開日:2022-10-18
# 都市内および都市間健康格差の要因を明らかにするグラフ注意ネットワーク

Graph Attention Networks Unveil Determinants of Intra- and Inter-city Health Disparity ( http://arxiv.org/abs/2210.10142v1 )

ライセンス: Link先を確認
Chenyue Liu (1), Chao Fan (2), Ali Mostafavi (1) ((1) Urban Resilience.AI Lab, Zachry Department of Civil and Environmental Engineering, Texas A&M University, College Station, United States, (2) Glenn Department of Civil Engineering, Clemson University, Clemson, South Carolina, United States)(参考訳) 都市における健康状態の変化に根ざした決定要因を理解することは、都市デザインと計画、および公衆衛生政策を伝える上で重要である。 複数の異質な都市の特徴は、都市や異なる都市の様々な地区で病気の流行を調節することができる。 本研究は, 肥満, 糖尿病, 癌, 心臓病の4つの疾患の頻度において, 社会デモグラフィー, 人口活動, モビリティ, 構築環境, およびその非非線形相互作用に関連する異種性の特徴について検討した。 大規模匿名モビリティデータから,人口活動,移動度,施設密度に関する特徴を得る。 これらの特徴はグラフアテンションネットワーク(GAT)モデルのトレーニングやテストに使われ、非線形特徴相互作用と近隣地域の空間的相互依存性をキャプチャする。 モデルは4つの病型にわたる5つの米国都市でテストしました。 その結果,GATモデルでは,地域住民の健康状態を上位5つの要因に基づいて予測できることがわかった。 以上の結果から, 人口活動と環境機能, 社会デポグラフィの特徴は, gatモデルが高精度でこれらの特徴を用いて健康状態を予測できる程度に, 近隣の健康状態を区別できることが判明した。 また, ある都市で訓練したモデルでは, 都市間の類似性や健康状態の相違を定量的に把握し, 高い精度で健康状態を予測できることを示した。 このモデルと調査結果は、都市設計者、プランナー、公衆衛生担当者にとって、重要な決定的特徴とその相互作用を考慮して、都市の健康格差をよりよく理解し改善するための新しいアプローチと洞察を提供する。

Understanding the determinants underlying variations in urban health status is important for informing urban design and planning, as well as public health policies. Multiple heterogeneous urban features could modulate the prevalence of diseases across different neighborhoods in cities and across different cities. This study examines heterogeneous features related to socio-demographics, population activity, mobility, and the built environment and their non-linear interactions to examine intra- and inter-city disparity in prevalence of four disease types: obesity, diabetes, cancer, and heart disease. Features related to population activity, mobility, and facility density are obtained from large-scale anonymized mobility data. These features are used in training and testing graph attention network (GAT) models to capture non-linear feature interactions as well as spatial interdependence among neighborhoods. We tested the models in five U.S. cities across the four disease types. The results show that the GAT model can predict the health status of people in neighborhoods based on the top five determinant features. The findings unveil that population activity and built-environment features along with socio-demographic features differentiate the health status of neighborhoods to such a great extent that a GAT model could predict the health status using these features with high accuracy. The results also show that the model trained on one city can predict health status in another city with high accuracy, allowing us to quantify the inter-city similarity and discrepancy in health status. The model and findings provide novel approaches and insights for urban designers, planners, and public health officials to better understand and improve health disparities in cities by considering the significant determinant features and their interactions.
翻訳日:2022-10-20 15:31:29 公開日:2022-10-18
# DAGの顆粒因果推論による遺伝子座制御転写の同定

Granger causal inference on DAGs identifies genomic loci regulating transcription ( http://arxiv.org/abs/2210.10168v1 )

ライセンス: Link先を確認
Rohit Singh, Alexander P. Wu, Bonnie Berger(参考訳) 力学系を一連の観測としてモデル化できる場合、グランガー因果関係は変数間の予測的相互作用を検出する強力なアプローチである。 しかし、従来のグランガー因果推論は、細胞分化軌跡のような線形列ではなく、動的を有向非巡回グラフ(DAG)として表現する必要がある領域において、有効性に制限されている。 本稿では,DAG構造系におけるGranger因果推論のために,タグ付きメッセージパッシングを備えたグラフニューラルネットワークに基づくフレームワークGrID-Netを提案する。 我々のモチベーション応用は、特定の遺伝子の調節を仲介するゲノム座を同定する単一細胞マルチモーダルデータの解析である。 我々の知る限り、GrID-Netはゲノム座間の時間的遅延と標的遺伝子の発現に対する下流の影響を考慮に入れた最初の単細胞解析ツールである。 我々はGrID-Netを同一細胞におけるプロファイルクロマチンアクセシビリティ(ATAC-seq)と遺伝子発現(RNA-seq)のマルチモーダル単細胞アッセイに応用し、制御遺伝子リンクを推定する既存の手法を劇的に上回り、最大71%の個体群遺伝学的推定値と一致した。 グリガー因果関係をdag構造力学系に拡張することにより,新しいドメインを解き明かして因果解析を行い,より具体的には,前例のない規模で細胞分化や複雑なヒト疾患に関連する遺伝子制御相互作用を解明する道を開く。

When a dynamical system can be modeled as a sequence of observations, Granger causality is a powerful approach for detecting predictive interactions between its variables. However, traditional Granger causal inference has limited utility in domains where the dynamics need to be represented as directed acyclic graphs (DAGs) rather than as a linear sequence, such as with cell differentiation trajectories. Here, we present GrID-Net, a framework based on graph neural networks with lagged message passing for Granger causal inference on DAG-structured systems. Our motivating application is the analysis of single-cell multimodal data to identify genomic loci that mediate the regulation of specific genes. To our knowledge, GrID-Net is the first single-cell analysis tool that accounts for the temporal lag between a genomic locus becoming accessible and its downstream effect on a target gene's expression. We applied GrID-Net on multimodal single-cell assays that profile chromatin accessibility (ATAC-seq) and gene expression (RNA-seq) in the same cell and show that it dramatically outperforms existing methods for inferring regulatory locus-gene links, achieving up to 71% greater agreement with independent population genetics-based estimates. By extending Granger causality to DAG-structured dynamical systems, our work unlocks new domains for causal analyses and, more specifically, opens a path towards elucidating gene regulatory interactions relevant to cellular differentiation and complex human diseases at unprecedented scale and resolution.
翻訳日:2022-10-20 15:30:59 公開日:2022-10-18
# ロバストポーズ推定のためのニューラルラジアンス場の並列インバージョン

Parallel Inversion of Neural Radiance Fields for Robust Pose Estimation ( http://arxiv.org/abs/2210.10108v1 )

ライセンス: Link先を確認
Yunzhi Lin, Thomas M\"uller, Jonathan Tremblay, Bowen Wen, Stephen Tyree, Alex Evans, Patricio A. Vela, Stan Birchfield(参考訳) 6-DoFターゲットポーズを推定するための高速ニューラルネットワーク場(NeRF)に基づく並列最適化手法を提案する。 観測対象の1枚のRGB画像から、高速NeRFモデルから描画された画素と観測画像中の画素との残差を最小化することにより、カメラの変換と回転を予測できる。 Instant Neural Graphics Primitivesには,運動量に基づくカメラの外部最適化手法が組み込まれている。 ポーズ推定タスクに並列モンテカルロサンプリングを導入することで,局所的ミニマを克服し,より広範囲な探索空間における効率を向上させる。 また,よりロバストな画素ベース損失関数を採用し,誤差を低減することの重要性を示す。 実験により,本手法は,合成ベンチマークと実世界のベンチマークの両方において,一般化と堅牢性を向上できることを示した。

We present a parallelized optimization method based on fast Neural Radiance Fields (NeRF) for estimating 6-DoF target poses. Given a single observed RGB image of the target, we can predict the translation and rotation of the camera by minimizing the residual between pixels rendered from a fast NeRF model and pixels in the observed image. We integrate a momentum-based camera extrinsic optimization procedure into Instant Neural Graphics Primitives, a recent exceptionally fast NeRF implementation. By introducing parallel Monte Carlo sampling into the pose estimation task, our method overcomes local minima and improves efficiency in a more extensive search space. We also show the importance of adopting a more robust pixel-based loss function to reduce error. Experiments demonstrate that our method can achieve improved generalization and robustness on both synthetic and real-world benchmarks.
翻訳日:2022-10-20 15:23:06 公開日:2022-10-18
# Trixi (複数形 Trixis)

Trixi the Librarian ( http://arxiv.org/abs/2210.10110v1 )

ライセンス: Link先を確認
Fabian Wieczorek, Shang-Ching Liu, Bj\"orn Sygo, Mykhailo Koshil(参考訳) 本稿では,pr-2 プラットフォームを用いて棚上の書籍を自動的にソートする3部システムを提案する。 本稿では,ディープラーニングモデルと従来のコンピュータビジョンに基づく多段階視覚パイプラインを用いて,書籍を十分に検出し,認識する手法について述べる。 さらに、moveitやbioikに基づくソリューションとともに、双方向ロボットを用いた本移転の難しさが解決されている。 実験の結果、本棚に3冊の本を並べ替えるのに十分なパフォーマンスが示されました。 それにもかかわらず、さらなる改善が議論されており、より堅牢な書籍認識とより汎用的な操作技術に繋がる可能性がある。

In this work, we present a three-part system that automatically sorts books on a shelf using the PR- 2 platform. The paper describes a methodology to sufficiently detect and recognize books using a multistep vision pipeline based on deep learning models as well as conventional computer vision. Furthermore, the difficulties of relocating books using a bi-manual robot along with solutions based on MoveIt and BioIK are being addressed. Experiments show that the performance is overall good enough to repeatedly sort three books on a shelf. Nevertheless, further improvements are being discussed, potentially leading to a more robust book recognition and more versatile manipulation techniques.
翻訳日:2022-10-20 15:22:52 公開日:2022-10-18
# 頭部計測のみによる初期軌道決定

Initial Orbit Determination from Only Heading Measurements ( http://arxiv.org/abs/2210.10120v1 )

ライセンス: Link先を確認
John A. Christian(参考訳) この研究は、方向測定のみから初期軌道決定(IOD)の問題を導入する。 このような問題は、光学カメラからの視光度測定を用いて宇宙船の軌道を推定する場合に実際に発生する。 問題幾何をレビューした後、軌道ホドグラフを記述するパラメータの反復的スキームの形で簡単な解が開発される。 数値的な結果は、低軌道上の宇宙船の例を示す。 本研究の主な目的は,新たなIOD問題の存在をコミュニティに伝えることであり,Hodographs と Head-only IOD の広範な研究を促進することである。

This work introduces the problem of initial orbit determination (IOD) from only heading measurements. Such a problem occurs in practice when estimating the orbit of a spacecraft using visual odometry measurements from an optical camera. After reviewing the problem geometry, a simple solution is developed in the form of an iterative scheme on the parameters describing the orbital hodograph. Numerical results are presented for an example spacecraft in low lunar orbit. The principal intent of this brief study is to communicate the existence of a new class of IOD problem to the community and to encourage the broader study of hodographs and heading-only IOD.
翻訳日:2022-10-20 15:22:41 公開日:2022-10-18
# 腎疾患における計算病理 : 包括的展望

Computational pathology in renal disease: a comprehensive perspective ( http://arxiv.org/abs/2210.10162v1 )

ライセンス: Link先を確認
Manuel Cossio(参考訳) 計算病理学はここ数年、診断病理学の様々なサブ専門分野を補完してきた分野である。 本稿では,腎学における様々な応用について概説する。 まず、異なる形式の画像生成の概要を提供する。 続けて、コンピュータビジョンモデルの最も頻繁な応用、異なる臨床応用の健全な特徴、遭遇したデータ保護に関する考察について述べる。 開発を終えるために、私はこれらのアプリケーションの解釈可能性を調べ、この領域の3次元について深く掘り下げる。

Computational pathology is a field that has complemented various subspecialties of diagnostic pathology over the last few years. In this article a brief analyzis the different applications in nephrology is developed. To begin, an overview of the different forms of image production is provided. To continue, the most frequent applications of computer vision models, the salient features of the different clinical applications, and the data protection considerations encountered are described. To finish the development, I delve into the interpretability of these applications, expanding in depth on the three dimensions of this area.
翻訳日:2022-10-20 15:22:33 公開日:2022-10-18
# なぜ人間と機械の区別が違うのか? 代理店の役割と経験

Why do people judge humans differently from machines? The role of agency and experience ( http://arxiv.org/abs/2210.10081v1 )

ライセンス: Link先を確認
Jingling Zhang, Jane Conway, C\'esar A. Hidalgo(参考訳) 人工知能を実用主義的道徳哲学と、知覚された意図を強調する道徳哲学を用いて判断することが知られている。 しかし、なぜ人間と機械は違うのか? 心理学は、人々は人間と機械のために異なる心の知覚モデルを持っているかもしれないことを示唆している。 ここでは,機械に対する認識を操り,より人間的な機械を判断するかどうかを探索するランダム化実験を行った。 機械に対する人々の判断は、機械がよりエージェンシー(例えば、計画する能力、行動する能力)を持っていると認識した場合、人間の判断とより似ているが、経験は多くない(例えば、感じる能力)。 本研究は,人間と機械を判断するための異なる道徳哲学の活用が,エージェントの知覚が顕著な役割を果たす心的知覚モデルの進展によって説明できることを示す。 これらの知見は、機械の判断が人間と機械の行動の判断の違いに関するさらなる研究を動機づける人間の判断とよりよく似たものとなることを示す証拠の本体に繋がる。

People are known to judge artificial intelligence using a utilitarian moral philosophy and humans using a moral philosophy emphasizing perceived intentions. But why do people judge humans and machines differently? Psychology suggests that people may have different mind perception models for humans and machines, and thus, will treat human-like robots more similarly to the way they treat humans. Here we present a randomized experiment where we manipulated people's perception of machines to explore whether people judge more human-like machines more similarly to the way they judge humans. We find that people's judgments of machines become more similar to that of humans when they perceive machines as having more agency (e.g. ability to plan, act), but not more experience (e.g. ability to feel). Our findings indicate that people's use of different moral philosophies to judge humans and machines can be explained by a progression of mind perception models where the perception of agency plays a prominent role. These findings add to the body of evidence suggesting that people's judgment of machines becomes more similar to that of humans motivating further work on differences in the judgment of human and machine actions.
翻訳日:2022-10-20 15:21:14 公開日:2022-10-18
# シャプリー値とマハラノビス距離を用いた多変量外れ説明

Multivariate outlier explanations using Shapley values and Mahalanobis distances ( http://arxiv.org/abs/2210.10063v1 )

ライセンス: Link先を確認
Marcus Mayrhofer, Peter Filzmoser(参考訳) 多変量外接性を説明する目的で、観測者の正方形マハラノビス距離を単一変数に由来する外接性寄与に分解できることを示した。 この分解は、説明可能なAIの文脈で人気になったゲーム理論からよく知られた概念であるShapley値を用いて得られる。 外れた説明に加えて、この概念はセルワイズアウトリーディングネスの最近の定式化にも関係しており、シャプリーの値は多変量データ構造が与えられた場合の「期待された」位置に関して、観測をアウトリーディングするための可変な貢献を得ることができる。 正方形のマハラノビス距離と組み合わせて、シャプリーの値は低い数値コストで計算でき、外れた解釈にさらに魅力的である。 シミュレーションと実世界のデータ例がこれらの概念の有用性を示している。

For the purpose of explaining multivariate outlyingness, it is shown that the squared Mahalanobis distance of an observation can be decomposed into outlyingness contributions originating from single variables. The decomposition is obtained using the Shapley value, a well-known concept from game theory that became popular in the context of Explainable AI. In addition to outlier explanation, this concept also relates to the recent formulation of cellwise outlyingness, where Shapley values can be employed to obtain variable contributions for outlying observations with respect to their "expected" position given the multivariate data structure. In combination with squared Mahalanobis distances, Shapley values can be calculated at a low numerical cost, making them even more attractive for outlier interpretation. Simulations and real-world data examples demonstrate the usefulness of these concepts.
翻訳日:2022-10-20 15:13:02 公開日:2022-10-18
# 単純で効果的な教師なし音声翻訳

Simple and Effective Unsupervised Speech Translation ( http://arxiv.org/abs/2210.10191v1 )

ライセンス: Link先を確認
Changhan Wang, Hirofumi Inaguma, Peng-Jen Chen, Ilia Kulikov, Yun Tang, Wei-Ning Hsu, Michael Auli, Juan Pino(参考訳) 音声タスクのモデルを訓練するためのラベル付きデータの量は、ほとんどの言語では限られているが、2つの異なる言語をカバーするラベル付きデータを必要とする音声翻訳では、データ不足が悪化している。 この問題に対処するために,教師なし音声認識,機械翻訳,音声合成の最近の進歩を活用してラベル付きデータなしで音声翻訳システムを構築するための,シンプルで効果的なアプローチをパイプラインアプローチ,あるいはエンドツーエンドの音声翻訳モデルのトレーニングのための擬似ラベルを生成する。 さらに、特に低リソース環境において、下流の教師なし音声認識の性能を向上させる事前訓練された音声モデルに対する教師なし領域適応手法を提案する。 実験により、教師なし音声テキスト翻訳は、Libri-Transベンチマークで3.2 BLEUで、CoVoST 2では、わずか2年前から5つのX-En方向の平均5.0 BLEUで、最高の教師なしエンドツーエンドモデル(事前学習なし)よりも優れています。 また, MuST-C および CVSS ベンチマークの競合結果についても報告する。

The amount of labeled data to train models for speech tasks is limited for most languages, however, the data scarcity is exacerbated for speech translation which requires labeled data covering two different languages. To address this issue, we study a simple and effective approach to build speech translation systems without labeled data by leveraging recent advances in unsupervised speech recognition, machine translation and speech synthesis, either in a pipeline approach, or to generate pseudo-labels for training end-to-end speech translation models. Furthermore, we present an unsupervised domain adaptation technique for pre-trained speech models which improves the performance of downstream unsupervised speech recognition, especially for low-resource settings. Experiments show that unsupervised speech-to-text translation outperforms the previous unsupervised state of the art by 3.2 BLEU on the Libri-Trans benchmark, on CoVoST 2, our best systems outperform the best supervised end-to-end models (without pre-training) from only two years ago by an average of 5.0 BLEU over five X-En directions. We also report competitive results on MuST-C and CVSS benchmarks.
翻訳日:2022-10-20 15:12:45 公開日:2022-10-18
# 深度コントラスト:マイニング材料分類のための3DPM画像による自己監督事前トレーニング

Depth Contrast: Self-Supervised Pretraining on 3DPM Images for Mining Material Classification ( http://arxiv.org/abs/2210.10633v1 )

ライセンス: Link先を確認
Prakash Chandra Chhipa, Richa Upadhyay, Rajkumar Saini, Lars Lindqvist, Richard Nordenskjold, Seiichi Uchida, and Marcus Liwicki(参考訳) 本研究では, コンベアベルト上のRGB画像とマイニング材料の深度マップを利用して, 3DPMセンサ(3次元粒子計測, 材料粒径分布推定)の画像にラベルを付けずに効率的な表現を学習する, 自己教師型表現学習手法を提案する。 センサ生成データに対する材料カテゴリの人的アノテーションは乏しく、コストがかかる。 現在,人間のアノテーションを使わずに表現学習を行ない,センサ生成データの利用は行っていない。 提案手法である深度コントラストは,深度マップとインダクティブ転送を活用し,3dpmデータセット上のラベルのない表現の自己教師あり学習を可能にする。 提案手法は,完全な教師付き学習環境において,imagenet転送学習性能よりも材料分類を上回り,0.73のf1スコアを達成する。 さらに、ラベルの20%のみを微調整に使用する半教師付き設定において、画像ネット転送学習性能を11%向上させ、f1スコアを0.55とする。 最後に,提案手法は線形評価における性能一般化の改善を示す。 提案手法の実装はgithubで公開されている。

This work presents a novel self-supervised representation learning method to learn efficient representations without labels on images from a 3DPM sensor (3-Dimensional Particle Measurement; estimates the particle size distribution of material) utilizing RGB images and depth maps of mining material on the conveyor belt. Human annotations for material categories on sensor-generated data are scarce and cost-intensive. Currently, representation learning without human annotations remains unexplored for mining materials and does not leverage on utilization of sensor-generated data. The proposed method, Depth Contrast, enables self-supervised learning of representations without labels on the 3DPM dataset by exploiting depth maps and inductive transfer. The proposed method outperforms material classification over ImageNet transfer learning performance in fully supervised learning settings and achieves an F1 score of 0.73. Further, The proposed method yields an F1 score of 0.65 with an 11% improvement over ImageNet transfer learning performance in a semi-supervised setting when only 20% of labels are used in fine-tuning. Finally, the Proposed method showcases improved performance generalization on linear evaluation. The implementation of proposed method is available on GitHub.
翻訳日:2022-10-20 14:56:45 公開日:2022-10-18
# 指静脈認識システムにおけるマスター静脈攻撃の解析

Analysis of Master Vein Attacks on Finger Vein Recognition Systems ( http://arxiv.org/abs/2210.10667v1 )

ライセンス: Link先を確認
Huy H. Nguyen, Trung-Nghia Le, Junichi Yamagishi, and Isao Echizen(参考訳) フィンガー静脈認識(FVR)システムは、特にATMで顧客の認証に使われている。 したがって,手作りのFVRシステムを使用する場合,特に対策を施さない場合には,様々な攻撃方法に対するロバスト性を測定することが不可欠である。 本稿では、fvrシステムでできる限り多くの身元を誤認できるように、静脈のような画像を作成するマスター静脈攻撃を紹介する最初の文献である。 本稿では,これらのシステムに対する攻撃に使用するマスタ静脈を生成する2つの方法を提案する。 一つは、提案する生成モデル(β-vaeモデルとwgan-gpモデルの多段階組み合わせ)を用いた潜在変数進化アルゴリズムの適応化である。 2つめは、攻撃的機械学習攻撃法を用いてcnnベースの強力な認識システムを攻撃する。 この2つの方法は容易に組み合わせて攻撃能力を高めることができる。 実験の結果,三浦の手作りfvrシステムに対して,提案手法単独で73.29%,88.79%の誤受率を達成した。 また,WGAN-GPモデルが生成した非ベイン型サンプルにより,94.21%の誤認率でミウラのシステムが容易に損なわれることを指摘した。 その結果,このようなシステムのロバスト性に対するアラームが高まり,マスター静脈発作は重要なセキュリティ対策であると考えられた。

Finger vein recognition (FVR) systems have been commercially used, especially in ATMs, for customer verification. Thus, it is essential to measure their robustness against various attack methods, especially when a hand-crafted FVR system is used without any countermeasure methods. In this paper, we are the first in the literature to introduce master vein attacks in which we craft a vein-looking image so that it can falsely match with as many identities as possible by the FVR systems. We present two methods for generating master veins for use in attacking these systems. The first uses an adaptation of the latent variable evolution algorithm with a proposed generative model (a multi-stage combination of beta-VAE and WGAN-GP models). The second uses an adversarial machine learning attack method to attack a strong surrogate CNN-based recognition system. The two methods can be easily combined to boost their attack ability. Experimental results demonstrated that the proposed methods alone and together achieved false acceptance rates up to 73.29% and 88.79%, respectively, against Miura's hand-crafted FVR system. We also point out that Miura's system is easily compromised by non-vein-looking samples generated by a WGAN-GP model with false acceptance rates up to 94.21%. The results raise the alarm about the robustness of such systems and suggest that master vein attacks should be considered an important security measure.
翻訳日:2022-10-20 14:56:24 公開日:2022-10-18
# 極多ラベル分類の不確かさ

Uncertainty in Extreme Multi-label Classification ( http://arxiv.org/abs/2210.10160v1 )

ライセンス: Link先を確認
Jyun-Yu Jiang, Wei-Cheng Chang, Jiong Zhong, Cho-Jui Hsieh, and Hsiang-Fu Yu(参考訳) 不確実性定量化は、意思決定のための信頼できる信頼性の高い機械学習モデルを得るために最も重要なタスクの1つである。 しかし、この領域におけるほとんどの研究は、小さなラベル空間の問題にのみ焦点を当てており、Webスケールの機械学習アプリケーションにおいてビッグデータの時代において不可欠なタスクであるeXtreme Multi-label Classification (XMC)を無視している。 さらに、巨大なラベル空間は、ノイズの多い検索結果や不確実性定量化のための難解な計算課題につながる可能性がある。 本稿では,確率的アンサンブルに基づく木系XMCモデルの一般的な不確実性定量化手法について検討する。 特に,XMCにおけるラベルレベルおよびインスタンスレベルの不確実性を解析し,ビームサーチに基づく一般的な近似フレームワークを提案する。 6つの大規模実世界のデータセットに関する実証研究によれば、このフレームワークは予測性能において単一のモデルを上回るだけでなく、ラベルの誤分類や分散検出のための強力な不確実性ベースのベースラインとしても機能し、大幅なスピードアップを実現しています。 さらに, 不確実な定量化を伴う深部XMCモデルに基づいて, より優れた最先端結果が得られる。

Uncertainty quantification is one of the most crucial tasks to obtain trustworthy and reliable machine learning models for decision making. However, most research in this domain has only focused on problems with small label spaces and ignored eXtreme Multi-label Classification (XMC), which is an essential task in the era of big data for web-scale machine learning applications. Moreover, enormous label spaces could also lead to noisy retrieval results and intractable computational challenges for uncertainty quantification. In this paper, we aim to investigate general uncertainty quantification approaches for tree-based XMC models with a probabilistic ensemble-based framework. In particular, we analyze label-level and instance-level uncertainty in XMC, and propose a general approximation framework based on beam search to efficiently estimate the uncertainty with a theoretical guarantee under long-tail XMC predictions. Empirical studies on six large-scale real-world datasets show that our framework not only outperforms single models in predictive performance, but also can serve as strong uncertainty-based baselines for label misclassification and out-of-distribution detection, with significant speedup. Besides, our framework can further yield better state-of-the-art results based on deep XMC models with uncertainty quantification.
翻訳日:2022-10-20 14:54:03 公開日:2022-10-18
# 造形のためのランドマークの強化とスタイル操作

Landmark Enforcement and Style Manipulation for Generative Morphing ( http://arxiv.org/abs/2210.10182v1 )

ライセンス: Link先を確認
Samuel Price, Sobhan Soleymani, Nasser M. Nasrabadi(参考訳) morphイメージは、複数の個人として提示することで顔認識システム(frs)を脅かす。 gans(generative adversarial network)を用いた形態生成はランドマークに基づく方法によって生じる空間的アーティファクトに影響されない高品質な形態形成をもたらすが、標準のganベースの形態形成法との同一性が明らかに失われる。 本稿では,この問題を解決するためにランドマーク法を導入し,新しいスタイルGAN形態生成手法を提案する。 本手法を考慮し,形態像のランドマークをボナfide面のランドマークの空間平均を表すために実施し,その後,形態像を用いて両方のボナfide面の幾何学的アイデンティティを継承する。 本モデルにおける潜在空間の探索は主成分分析 (pca) を用いて行われ, ボナfideの両顔のモーフィックな潜在表現に対する効果を強調し, 潜在領域平均化によるアイデンティティ損失問題に対処する。 さらに,この形態の高周波再構成を改善するために,StyleGAN2モデルの雑音入力のトレインビリティについて検討した。

Morph images threaten Facial Recognition Systems (FRS) by presenting as multiple individuals, allowing an adversary to swap identities with another subject. Morph generation using generative adversarial networks (GANs) results in high-quality morphs unaffected by the spatial artifacts caused by landmark-based methods, but there is an apparent loss in identity with standard GAN-based morphing methods. In this paper, we propose a novel StyleGAN morph generation technique by introducing a landmark enforcement method to resolve this issue. Considering this method, we aim to enforce the landmarks of the morph image to represent the spatial average of the landmarks of the bona fide faces and subsequently the morph images to inherit the geometric identity of both bona fide faces. Exploration of the latent space of our model is conducted using Principal Component Analysis (PCA) to accentuate the effect of both the bona fide faces on the morphed latent representation and address the identity loss issue with latent domain averaging. Additionally, to improve high frequency reconstruction in the morphs, we study the train-ability of the noise input for the StyleGAN2 model.
翻訳日:2022-10-20 14:39:32 公開日:2022-10-18
# 球面画像と表面の補間選択凸

Interpolated SelectionConv for Spherical Images and Surfaces ( http://arxiv.org/abs/2210.10123v1 )

ライセンス: Link先を確認
David Hart, Michael Whitney, Bryan Morse(参考訳) 球面(全方向)画像上での畳み込みニューラルネットワーク操作のための,新しい汎用的なフレームワークを提案する。 我々のアプローチは、表面を特定のサンプリング戦略に依存しない連結点のグラフとして表現する。 さらに、SelectionConvの補間バージョンを使用することで、既存の2D CNNとその重みを使いながら、球上で操作することができる。 本手法は既存のグラフ実装を活用できるため,高速かつ効率的に微調整できる。 また, この手法は, 位相的に非単純であっても, 任意の表面タイプに適用可能である。 本手法が3次元メッシュのスタイリングだけでなく,球面のスタイル伝達とセグメント化のタスクにおける有効性を示す。 様々な球面サンプリング戦略の性能に関する徹底的なアブレーション研究を行う。

We present a new and general framework for convolutional neural network operations on spherical (or omnidirectional) images. Our approach represents the surface as a graph of connected points that doesn't rely on a particular sampling strategy. Additionally, by using an interpolated version of SelectionConv, we can operate on the sphere while using existing 2D CNNs and their weights. Since our method leverages existing graph implementations, it is also fast and can be fine-tuned efficiently. Our method is also general enough to be applied to any surface type, even those that are topologically non-simple. We demonstrate the effectiveness of our technique on the tasks of style transfer and segmentation for spheres as well as stylization for 3D meshes. We provide a thorough ablation study of the performance of various spherical sampling strategies.
翻訳日:2022-10-20 14:27:57 公開日:2022-10-18
# PERI: 野生での感情認識を意識する部分

PERI: Part Aware Emotion Recognition In The Wild ( http://arxiv.org/abs/2210.10130v1 )

ライセンス: Link先を確認
Akshita Mittel and Shashank Tripathi(参考訳) 感情認識は、音声、視覚、テキストなど様々な入力に基づいて人の感情状態を解釈することを目的としている。 本稿では視覚的特徴を用いた感情認識に焦点を当てる。 表情と人の感情状態の相関性を活用するために、先駆的な手法は主に顔の特徴に依存する。 しかし、顔にはピクセル解像度がなく、隠蔽やぼやけによるアーチファクトが含まれているため、混雑したシーンのような自然の制約のないシナリオでは、顔の特徴は信頼できないことが多い。 これを解決するために、ワイルドな感情認識では、周囲のシーンコンテキストと同様に、全身の人間作物を利用する。 感情認識にボディーポーズを使用する場合、このような方法は、顔の表情が、可能であれば提供される可能性に気付かない。 したがって,本論文の目的は2つある。 まず,身体のポーズと顔のランドマークを両立させる方法であるperを実証する。 身体ポーズと顔のランドマークの両方から生成されたマスクを用いて入力画像からキー領域を抽出し,部分認識空間(PAS)画像を作成する。 これにより、いつでも顔のコンテキストに加えて、身体のポーズを活用できます。 次に、pasイメージから推論するために、コンテキスト注入(cont-in)ブロックを導入する。 これらのブロックは、部分固有の情報に参加し、感情認識ネットワークの中間的特徴に渡す。 提案手法は概念的に単純であり,既存の感情認識手法にも適用できる。 野生のEMOTICデータセットで公開されている結果について報告する。 既存の手法と比較して、PERIは優れたパフォーマンスを達成し、感情カテゴリーのmAPを大幅に改善し、Valence、Arousal、Dominanceエラーを減少させる。 重要なことに,本手法は,顔が完全に見えている画像と,顔がぼやけている画像の両方のパフォーマンスを向上させる。

Emotion recognition aims to interpret the emotional states of a person based on various inputs including audio, visual, and textual cues. This paper focuses on emotion recognition using visual features. To leverage the correlation between facial expression and the emotional state of a person, pioneering methods rely primarily on facial features. However, facial features are often unreliable in natural unconstrained scenarios, such as in crowded scenes, as the face lacks pixel resolution and contains artifacts due to occlusion and blur. To address this, in the wild emotion recognition exploits full-body person crops as well as the surrounding scene context. In a bid to use body pose for emotion recognition, such methods fail to realize the potential that facial expressions, when available, offer. Thus, the aim of this paper is two-fold. First, we demonstrate our method, PERI, to leverage both body pose and facial landmarks. We create part aware spatial (PAS) images by extracting key regions from the input image using a mask generated from both body pose and facial landmarks. This allows us to exploit body pose in addition to facial context whenever available. Second, to reason from the PAS images, we introduce context infusion (Cont-In) blocks. These blocks attend to part-specific information, and pass them onto the intermediate features of an emotion recognition network. Our approach is conceptually simple and can be applied to any existing emotion recognition method. We provide our results on the publicly available in the wild EMOTIC dataset. Compared to existing methods, PERI achieves superior performance and leads to significant improvements in the mAP of emotion categories, while decreasing Valence, Arousal and Dominance errors. Importantly, we observe that our method improves performance in both images with fully visible faces as well as in images with occluded or blurred faces.
翻訳日:2022-10-20 14:27:47 公開日:2022-10-18
# 逐次バッチ交代訓練による3次元物体検出における領域適応

Domain Adaptation in 3D Object Detection with Gradual Batch Alternation Training ( http://arxiv.org/abs/2210.10180v1 )

ライセンス: Link先を確認
Mrigank Rochan, Xingxin Chen, Alaap Grandhi, Eduardo R. Corral-Soto, Bingbing Liu(参考訳) lidarに基づく3次元物体検出における領域適応の問題を考える。 本研究では,大規模ラベル付きソースドメインから不十分なラベル付きターゲットドメインに適応可能な,段階的バッチ交代と呼ばれる,単純かつ効果的なトレーニング戦略を提案する。 そのアイデアは、ソースとターゲットドメインデータからのサンプルのバッチを別の方法でトレーニングを開始することですが、トレーニングが進むにつれて、徐々にソースドメインデータの量を削減します。 このように、モデルは徐々にターゲットドメインに移行し、最終的にはより適応します。 once, pandaset, waymo, nuscenesという4つのベンチマーク自律運転データセットにおける3dオブジェクト検出のためのドメイン適応実験は、先行技術や強力なベースラインよりも大きなパフォーマンス向上を示している。

We consider the problem of domain adaptation in LiDAR-based 3D object detection. Towards this, we propose a simple yet effective training strategy called Gradual Batch Alternation that can adapt from a large labeled source domain to an insufficiently labeled target domain. The idea is to initiate the training with the batch of samples from the source and target domain data in an alternate fashion, but then gradually reduce the amount of the source domain data over time as the training progresses. This way the model slowly shifts towards the target domain and eventually better adapt to it. The domain adaptation experiments for 3D object detection on four benchmark autonomous driving datasets, namely ONCE, PandaSet, Waymo, and nuScenes, demonstrate significant performance gains over prior arts and strong baselines.
翻訳日:2022-10-20 14:27:21 公開日:2022-10-18
# アリババ、中国WMT2022の受注-品質評価業務

Alibaba-Translate China's Submission for WMT 2022 Quality Estimation Shared Task ( http://arxiv.org/abs/2210.10049v1 )

ライセンス: Link先を確認
Keqin Bao, Yu Wan, Dayiheng Liu, Baosong Yang, Wenqiang Lei, Xiangnan He, Derek F.Wong, Jun Xie(参考訳) 本稿では,UniTE(Uniified Translation Evaluation)と呼ばれる品質評価共有タスクにおいて,文レベルのMQMベンチマークを提案する。 具体的には、トレーニング中に3種類の入力形式と事前学習された言語モデルを組み合わせたUniTEのフレームワークを用いる。 まず、擬似ラベル付きデータの例を継続事前学習フェーズに適用する。 特に,事前学習と微調整のギャップを減らすために,データプルーニングとランキングに基づくスコア正規化戦略を用いる。 微調整フェーズでは,過去数年間のwmtコンペティションから得られた直接評価(da)と多次元品質指標(mqm)データを利用する。 最後に、ソースのみの評価結果を収集し、それぞれXLM-RとInfoXLMを持つ2つのUniTEモデルによって生成された予測をアンサンブルする。 その結果,我々のモデルは多言語・英語・ロシア語設定で第1位,英語・ドイツ語・中国語設定で第2位に達し,今年の品質評価競争では比較的高い成績を示した。

In this paper, we present our submission to the sentence-level MQM benchmark at Quality Estimation Shared Task, named UniTE (Unified Translation Evaluation). Specifically, our systems employ the framework of UniTE, which combined three types of input formats during training with a pre-trained language model. First, we apply the pseudo-labeled data examples for the continuously pre-training phase. Notably, to reduce the gap between pre-training and fine-tuning, we use data pruning and a ranking-based score normalization strategy. For the fine-tuning phase, we use both Direct Assessment (DA) and Multidimensional Quality Metrics (MQM) data from past years' WMT competitions. Finally, we collect the source-only evaluation results, and ensemble the predictions generated by two UniTE models, whose backbones are XLM-R and InfoXLM, respectively. Results show that our models reach 1st overall ranking in the Multilingual and English-Russian settings, and 2nd overall ranking in English-German and Chinese-English settings, showing relatively strong performances in this year's quality estimation competition.
翻訳日:2022-10-20 14:02:10 公開日:2022-10-18
# 自然言語処理のためのアクティブラーニングに関する調査

A Survey of Active Learning for Natural Language Processing ( http://arxiv.org/abs/2210.10109v1 )

ライセンス: Link先を確認
Zhisong Zhang, Emma Strubell, Eduard Hovy(参考訳) 本研究では,自然言語処理(NLP)におけるアクティブラーニング(AL)の応用について調査する。 クエリ戦略の詳細な分類に加えて,ALをNLP問題に適用する上で重要な側面についても検討する。 これには、構造化予測タスクのためのAL、アノテーションコスト、モデル学習(特にディープニューラルネットワークモデル)、ALの開始と停止が含まれる。 最後に、関連するトピックと今後の方向性について議論する。

In this work, we provide a survey of active learning (AL) for its applications in natural language processing (NLP). In addition to a fine-grained categorization of query strategies, we also investigate several other important aspects of applying AL to NLP problems. These include AL for structured prediction tasks, annotation cost, model learning (especially with deep neural models), and starting and stopping AL. Finally, we conclude with a discussion of related topics and future directions.
翻訳日:2022-10-20 14:01:51 公開日:2022-10-18
# 有用な隣人:地理的特徴の発音で隣人を活用する

Helpful Neighbors: Leveraging Neighbors in Geographic Feature Pronunciation ( http://arxiv.org/abs/2210.10200v1 )

ライセンス: Link先を確認
Llion Jones, Richard Sproat, Haruko Ishikawa, Alexander Gutkin(参考訳) もしニューヨークでHouston Mercer Dog Runという地名を見たら、どうやって発音したらいいのか? ニューヨークではヒューストンが「ハウ・ストン」と発音され、テキサス・シティに似ていないと仮定すると、「ハウ・ストン」はドッグ・パークの名前でも使われていると推測できる。 本稿では,特定の特徴の発音を推測するために,隣接する名前の発音を学習する新しいアーキテクチャを提案する。 日本語の地名に応用して,Googleマップにおける誤り訂正の検索と提案のためのモデルの有用性を示す。 構造的に類似した問題に対するこのアプローチの有用性を示すために、我々はまた、全く異なるタスクへの応用について報告する: 比較歴史言語学におけるコグネート反射予測。 コードのバージョンがオープンソース化された(https://github.com/google-research/google-research/tree/master/cognate_inpaint_neighbors)。

If one sees the place name Houston Mercer Dog Run in New York, how does one know how to pronounce it? Assuming one knows that Houston in New York is pronounced "how-ston" and not like the Texas city, then one can probably guess that "how-ston" is also used in the name of the dog park. We present a novel architecture that learns to use the pronunciations of neighboring names in order to guess the pronunciation of a given target feature. Applied to Japanese place names, we demonstrate the utility of the model to finding and proposing corrections for errors in Google Maps. To demonstrate the utility of this approach to structurally similar problems, we also report on an application to a totally different task: Cognate reflex prediction in comparative historical linguistics. A version of the code has been open-sourced (https://github.com/google-research/google-research/tree/master/cognate_inpaint_neighbors).
翻訳日:2022-10-20 14:01:44 公開日:2022-10-18
# 対向学習による親密な学習

Proximal Learning With Opponent-Learning Awareness ( http://arxiv.org/abs/2210.10125v1 )

ライセンス: Link先を確認
Stephen Zhao, Chris Lu, Roger Baker Grosse, Jakob Nicolaus Foerster(参考訳) Learning With Opponent-Learning Awareness (LOLA) (Foerster et al. [2018a]) は、通常、部分的に競合する環境で相互性に基づく協調学習を行うマルチエージェント強化学習アルゴリズムである。 しかし、LOLAは、更新ルールがポリシーパラメータ化に敏感であることもあって、ニューラルネットワークによってパラメータ化されるより複雑なポリシー空間でそのような振る舞いを学ばないことが多い。 この問題は、相手の方針が不明で観測結果から推測されなければならない相手のモデリング環境では特に顕著であり、振る舞いに等価な相手ポリシーが等価でない更新をもたらすため、LOLAは不特定である。 この欠点に対処するため、我々はLOLAを近似演算子として再解釈し、その近似定式化を直接使用する新しいアルゴリズムであるPOLAを導出する。 LOLAとは異なり、POLA更新はパラメータ化不変であり、近位目的が一意の最適性を持つ場合、行動等価なポリシーは行動等価な更新をもたらす。 次に,いくつかの部分競合環境において関数近似と対向モデルを用いて評価する理想pola更新の実用的近似を提案する。 このことは、POLAがLOLAよりも確実に相互性に基づく協力を実現することを実証的に示している。

Learning With Opponent-Learning Awareness (LOLA) (Foerster et al. [2018a]) is a multi-agent reinforcement learning algorithm that typically learns reciprocity-based cooperation in partially competitive environments. However, LOLA often fails to learn such behaviour on more complex policy spaces parameterized by neural networks, partly because the update rule is sensitive to the policy parameterization. This problem is especially pronounced in the opponent modeling setting, where the opponent's policy is unknown and must be inferred from observations; in such settings, LOLA is ill-specified because behaviorally equivalent opponent policies can result in non-equivalent updates. To address this shortcoming, we reinterpret LOLA as approximating a proximal operator, and then derive a new algorithm, proximal LOLA (POLA), which uses the proximal formulation directly. Unlike LOLA, the POLA updates are parameterization invariant, in the sense that when the proximal objective has a unique optimum, behaviorally equivalent policies result in behaviorally equivalent updates. We then present practical approximations to the ideal POLA update, which we evaluate in several partially competitive environments with function approximation and opponent modeling. This empirically demonstrates that POLA achieves reciprocity-based cooperation more reliably than LOLA.
翻訳日:2022-10-20 13:44:53 公開日:2022-10-18
# クリックスルー率予測のためのディープマルチ表現モデル

Deep Multi-Representation Model for Click-Through Rate Prediction ( http://arxiv.org/abs/2210.10664v1 )

ライセンス: Link先を確認
Shereen Elsayed and Lars Schmidt-Thieme(参考訳) クリックスルー率予測(ctr)はレコメンダシステムにおいて重要なタスクであり、過去数年間でかなりの注目を集めた。 最近の研究の主な目的は、ディープニューラルネットワーク(dnn)、クロスネット、トランスフォーマーブロックなど、さまざまなコンポーネントを使用して低機能および高機能インタラクションをマイニングすることで、有意義で強力な表現を得ることである。 本研究では,DNNとマルチヘッド自己注意という2つの強力な特徴表現学習コンポーネントを併用して学習するDeep Multi-Representation Model(DeepMR)を提案する。 さらにdeepmrは、新しい残差をdnnへのゼロ初期化(rezero)接続と、優れた入力表現を学習するためのマルチヘッド・セルフアテンションコンポーネントと統合する。 3つの実世界のデータセットの実験により、提案モデルがクリックスルー率予測のタスクにおいて、すべての最先端モデルを著しく上回っていることが示された。

Click-Through Rate prediction (CTR) is a crucial task in recommender systems, and it gained considerable attention in the past few years. The primary purpose of recent research emphasizes obtaining meaningful and powerful representations through mining low and high feature interactions using various components such as Deep Neural Networks (DNN), CrossNets, or transformer blocks. In this work, we propose the Deep Multi-Representation model (DeepMR) that jointly trains a mixture of two powerful feature representation learning components, namely DNNs and multi-head self-attentions. Furthermore, DeepMR integrates the novel residual with zero initialization (ReZero) connections to the DNN and the multi-head self-attention components for learning superior input representations. Experiments on three real-world datasets show that the proposed model significantly outperforms all state-of-the-art models in the task of click-through rate prediction.
翻訳日:2022-10-20 13:43:09 公開日:2022-10-18
# 非パラメトリック量子回帰:非クラージング制約と等角予測

Nonparametric Quantile Regression: Non-Crossing Constraints and Conformal Prediction ( http://arxiv.org/abs/2210.10161v1 )

ライセンス: Link先を確認
Wenlu Tang and Guohao Shen and Yuanyuan Lin and Jian Huang(参考訳) 本稿では,線形単位ペナルティ関数を補正したディープニューラルネットワークを用いた非パラメトリック量子回帰法を提案する。 このペナルティ関数は、多次元非パラメトリック量子量的回帰において非交差制約を強制するために計算的に実現可能である。 提案する非パラメトリック量的回帰関数推定器の過剰リスクに対する非漸近上界を定式化する。 我々の誤差境界はホルダー類に対する最適最小収束率を達成し、誤差境界のプレファクタは指数関数ではなく予測子の次元に多項式的に依存する。 提案する非交差陰極化深量子化回帰に基づいて,不均質性に完全適応した共形予測区間を構築する。 提案する予測間隔は妥当な条件下での妥当性と正確性において良好な特性を有することが示された。 また,提案した非交叉共形予測間隔と理論的にオラクル予測間隔との差について,非漸近上界を導出する。 本手法の有効性を実証するためにシミュレーション実験と実データ例を含む数値実験を行った。

We propose a nonparametric quantile regression method using deep neural networks with a rectified linear unit penalty function to avoid quantile crossing. This penalty function is computationally feasible for enforcing non-crossing constraints in multi-dimensional nonparametric quantile regression. We establish non-asymptotic upper bounds for the excess risk of the proposed nonparametric quantile regression function estimators. Our error bounds achieve optimal minimax rate of convergence for the Holder class, and the prefactors of the error bounds depend polynomially on the dimension of the predictor, instead of exponentially. Based on the proposed non-crossing penalized deep quantile regression, we construct conformal prediction intervals that are fully adaptive to heterogeneity. The proposed prediction interval is shown to have good properties in terms of validity and accuracy under reasonable conditions. We also derive non-asymptotic upper bounds for the difference of the lengths between the proposed non-crossing conformal prediction interval and the theoretically oracle prediction interval. Numerical experiments including simulation studies and a real data example are conducted to demonstrate the effectiveness of the proposed method.
翻訳日:2022-10-20 13:42:50 公開日:2022-10-18
# 転送不能な例

Transferable Unlearnable Examples ( http://arxiv.org/abs/2210.10114v1 )

ライセンス: Link先を確認
Jie Ren, Han Xu, Yuxuan Wan, Xingjun Ma, Lichao Sun, Jiliang Tang(参考訳) 個人データをオンラインで公開する人が増えるにつれて、不正なデータの利用が深刻な懸念となっている。 第三者が許可なくデータをトレーニングすることを防ぐために、不可解な戦略が導入された。 公開前にユーザーのデータに摂動を追加し、乱れたデータセットでトレーニングされたモデルを無効にすることを目的としている。 これらの摂動は、特定のトレーニング設定とターゲットデータセットのために生成される。 しかし、他のトレーニング設定やデータセットで使用すると、その影響は大幅に減少する。 この問題に対処するために、線形分離性を高めて、学習不能な効果を他のトレーニング設定やデータセットに伝達することを目的とした、クラスワイズ・セパビリティ・差別(CSD)に基づく新しい学習不能戦略を提案する。 大規模な実験は、トレーニング設定とデータセット間で提案された非学習不可能な例の転送可能性を示す。

With more people publishing their personal data online, unauthorized data usage has become a serious concern. The unlearnable strategies have been introduced to prevent third parties from training on the data without permission. They add perturbations to the users' data before publishing, which aims to make the models trained on the perturbed published dataset invalidated. These perturbations have been generated for a specific training setting and a target dataset. However, their unlearnable effects significantly decrease when used in other training settings and datasets. To tackle this issue, we propose a novel unlearnable strategy based on Classwise Separability Discriminant (CSD), which aims to better transfer the unlearnable effects to other training settings and datasets by enhancing the linear separability. Extensive experiments demonstrate the transferability of the proposed unlearnable examples across training settings and datasets.
翻訳日:2022-10-20 13:25:27 公開日:2022-10-18
# サンプル品質のための階層的画像vaesの最適化

Optimizing Hierarchical Image VAEs for Sample Quality ( http://arxiv.org/abs/2210.10205v1 )

ライセンス: Link先を確認
Eric Luhman, Troy Luhman(参考訳) 階層的変分オートエンコーダ(VAE)は画像モデリングタスクにおいて大きな密度推定を達成しているが、以前のサンプルは類似のログライクなモデルよりも説得力に欠ける傾向にある。 我々は、画像の知覚不能な詳細を過大に強調する学習表現にこれを特徴づける。 そこで本研究では,各潜伏群における減量量を制御するKL重み付け手法を導入し,ガウス出力層を用いて学習目標のシャープネスを低減した。 画像の多様性を忠実さと引き換えに,階層型VAEの分類自由誘導戦略も導入する。 我々はこれらの手法の有効性を実験で実証する。 コードはhttps://github.com/tcl9876/visual-vaeで入手できる。

While hierarchical variational autoencoders (VAEs) have achieved great density estimation on image modeling tasks, samples from their prior tend to look less convincing than models with similar log-likelihood. We attribute this to learned representations that over-emphasize compressing imperceptible details of the image. To address this, we introduce a KL-reweighting strategy to control the amount of infor mation in each latent group, and employ a Gaussian output layer to reduce sharpness in the learning objective. To trade off image diversity for fidelity, we additionally introduce a classifier-free guidance strategy for hierarchical VAEs. We demonstrate the effectiveness of these techniques in our experiments. Code is available at https://github.com/tcl9876/visual-vae.
翻訳日:2022-10-20 13:25:14 公開日:2022-10-18
# 段階的適応による最適トランスポートを用いたカリキュラム強化学習

Curriculum Reinforcement Learning using Optimal Transport via Gradual Domain Adaptation ( http://arxiv.org/abs/2210.10195v1 )

ライセンス: Link先を確認
Peide Huang, Mengdi Xu, Jiacheng Zhu, Laixi Shi, Fei Fang, Ding Zhao(参考訳) CRL(Curriculum Reinforcement Learning)は、簡単なタスクから始まり、徐々に難しいタスクへと学習する一連のタスクを作成することを目的としている。 本研究では、ソース(補助的)とターゲットタスク分布の補間としてCRLをフレーミングするという考え方に焦点を当てる。 既存の研究は、このアイデアの大きな可能性を示しているが、タスク分布間の移動を形式的に定量化し生成する方法は、まだ不明である。 半教師付き学習における段階的ドメイン適応の洞察に触発されて、CRLのタスク分散シフトを小さなシフトに分解することで、自然なカリキュラムを作成する。 GRADIENTは,タスク間の距離の調整による最適輸送問題としてCRLを定式化する。 具体的には、ソース分布とターゲット分布の間の測地線補間(すなわち、wasserstein barycenter)としてタスク分布列を生成する。 既存の手法と異なり, タスクに依存した文脈距離メトリックを考慮し, 連続的および離散的コンテキスト設定において非パラメトリック分布を処理できる。 さらに, グラデーションによって, 一定の条件下で, カリキュラムの次の段階をスムーズに移行できることを理論的に示す。 移動作業や操作作業において広範な実験を行い,提案したGRADIENTが学習効率と漸近的性能の点で,ベースラインよりも高い性能を達成することを示す。

Curriculum Reinforcement Learning (CRL) aims to create a sequence of tasks, starting from easy ones and gradually learning towards difficult tasks. In this work, we focus on the idea of framing CRL as interpolations between a source (auxiliary) and a target task distribution. Although existing studies have shown the great potential of this idea, it remains unclear how to formally quantify and generate the movement between task distributions. Inspired by the insights from gradual domain adaptation in semi-supervised learning, we create a natural curriculum by breaking down the potentially large task distributional shift in CRL into smaller shifts. We propose GRADIENT, which formulates CRL as an optimal transport problem with a tailored distance metric between tasks. Specifically, we generate a sequence of task distributions as a geodesic interpolation (i.e., Wasserstein barycenter) between the source and target distributions. Different from many existing methods, our algorithm considers a task-dependent contextual distance metric and is capable of handling nonparametric distributions in both continuous and discrete context settings. In addition, we theoretically show that GRADIENT enables smooth transfer between subsequent stages in the curriculum under certain conditions. We conduct extensive experiments in locomotion and manipulation tasks and show that our proposed GRADIENT achieves higher performance than baselines in terms of learning efficiency and asymptotic performance.
翻訳日:2022-10-20 13:07:44 公開日:2022-10-18
# MedCLIP: 障害のない医療画像とテキストからのコントラスト学習

MedCLIP: Contrastive Learning from Unpaired Medical Images and Text ( http://arxiv.org/abs/2210.10163v1 )

ライセンス: Link先を確認
Zifeng Wang, Zhenbang Wu, Dinesh Agarwal, Jimeng Sun(参考訳) CLIPのような既存の視覚テキストのコントラスト学習は、ペア化されたイメージとキャプションの埋め込みを他のものを押し離しながらマッチングすることを目的としている。 しかし、医療用画像テキストデータセットは、インターネットの一般的な画像やキャプションよりも桁違いに小さい。 さらに、以前の方法では多くの偽陰性、すなわち別の患者の画像や報告はおそらく同じ意味を持つが、誤って否定として扱われる。 本稿では,マルチモーダルコントラスト学習のための画像とテキストを分離し,使用可能なトレーニングデータを低コストで組合せ等でスケールアップする。 また,逆学習における偽陰性を排除するために,医療知識に基づく意味的マッチング損失に置き換えることを提案する。 MedCLIPは, ゼロショット予測, 教師付き分類, 画像テキスト検索において, 最先端の手法より優れていることが証明された。 驚いたことに、20Kの事前学習データだけで、MedCLIPは最先端の手法(約200Kデータ)に勝っている。 私たちのコードはhttps://github.com/RyanWangZf/MedCLIPで利用可能です。

Existing vision-text contrastive learning like CLIP aims to match the paired image and caption embeddings while pushing others apart, which improves representation transferability and supports zero-shot prediction. However, medical image-text datasets are orders of magnitude below the general images and captions from the internet. Moreover, previous methods encounter many false negatives, i.e., images and reports from separate patients probably carry the same semantics but are wrongly treated as negatives. In this paper, we decouple images and texts for multimodal contrastive learning thus scaling the usable training data in a combinatorial magnitude with low cost. We also propose to replace the InfoNCE loss with semantic matching loss based on medical knowledge to eliminate false negatives in contrastive learning. We prove that MedCLIP is a simple yet effective framework: it outperforms state-of-the-art methods on zero-shot prediction, supervised classification, and image-text retrieval. Surprisingly, we observe that with only 20K pre-training data, MedCLIP wins over the state-of-the-art method (using around 200K data). Our code is available at https://github.com/RyanWangZf/MedCLIP.
翻訳日:2022-10-20 13:00:44 公開日:2022-10-18
# 外部知識の視覚的質問応答に対するエンティティ中心の密閉通路検索

Entity-Focused Dense Passage Retrieval for Outside-Knowledge Visual Question Answering ( http://arxiv.org/abs/2210.10176v1 )

ライセンス: Link先を確認
Jialin Wu and Raymond J. Mooney(参考訳) ほとんどの外部知識ビジュアル質問回答(OK-VQA)システムは、2段階のフレームワークを使用して、まず視覚的質問から外部知識を抽出し、検索したコンテンツに基づいて回答を予測する。 しかし、回収された知識はしばしば不十分である。 検索はしばしばあまりに一般的であり、質問に答えるために必要な特定の知識をカバーできない。 また、自然に利用できる監督(パスが正しい回答を含むかどうか)は弱く、質問の関連性を保証しない。 これらの問題に対処するために、トレーニング中のより強力な監視を提供し、より具体的な知識を得るための質問関連エンティティを認識するEntity-Focused Retrieval (EnFoRe)モデルを提案する。 実験の結果,現在最大の外部知識付きVQAデータセットであるOK-VQAでは,EnFoReモデルの方が優れた検索性能が得られることがわかった。 また,得られた知識を最先端VQAモデルと組み合わせ,OK-VQA上での新たな最先端性能を実現する。

Most Outside-Knowledge Visual Question Answering (OK-VQA) systems employ a two-stage framework that first retrieves external knowledge given the visual question and then predicts the answer based on the retrieved content. However, the retrieved knowledge is often inadequate. Retrievals are frequently too general and fail to cover specific knowledge needed to answer the question. Also, the naturally available supervision (whether the passage contains the correct answer) is weak and does not guarantee question relevancy. To address these issues, we propose an Entity-Focused Retrieval (EnFoRe) model that provides stronger supervision during training and recognizes question-relevant entities to help retrieve more specific knowledge. Experiments show that our EnFoRe model achieves superior retrieval performance on OK-VQA, the currently largest outside-knowledge VQA dataset. We also combine the retrieved knowledge with state-of-the-art VQA models, and achieve a new state-of-the-art performance on OK-VQA.
翻訳日:2022-10-20 13:00:22 公開日:2022-10-18
# 貯留層計算のキャッチ22

A Catch-22 of Reservoir Computing ( http://arxiv.org/abs/2210.10211v1 )

ライセンス: Link先を確認
Yuanzhao Zhang and Sean P. Cornelius(参考訳) Reservoir Computing (RC) は非線形力学系のデータ駆動予測のためのシンプルで効率的なモデルフリーフレームワークである。 近年、NGRC(Next Generation Reservoir Computing)がRCの特に魅力的な変種として登場している。 貯水池から読み出し層へ非線形性を変えることで、NGRCはデータが少なくなり、最適化のためのハイパーパラメータも少なくなり、アトラクションの流域の予測のような困難なタスクに適している。 本稿では,磁気振り子とクラモト振動子を結合したマルチテーブルシステムを用いて,ngrcモデルの性能が読み出し非線形性の選択に極めて敏感であることを示す。 特に、元の方程式から厳密な非線形性を導入することで、単一の軌道で訓練されたngrcは、ほぼ完全な精度で擬似フラクタル盆地を予測できる。 しかし、正確な非線形性に関する小さな不確実性でさえ、NGRCを完全に破壊し、予測精度は偶然に劣らない。 これによりNGRCのキャッチ22が生成され、予測されるシステムの重要な部分(すなわちその非線形性)が既に知られている限り、有用な予測ができない可能性がある。 その結果,複雑な力学系を学習する上で,データ駆動方式が直面する課題が浮き彫りになった。

Reservoir Computing (RC) is a simple and efficient model-free framework for data-driven predictions of nonlinear dynamical systems. Recently, Next Generation Reservoir Computing (NGRC) has emerged as an especially attractive variant of RC. By shifting the nonlinearity from the reservoir to the readout layer, NGRC requires less data and has fewer hyperparameters to optimize, making it suitable for challenging tasks such as predicting basins of attraction. Here, using paradigmatic multistable systems including magnetic pendulums and coupled Kuramoto oscillators, we show that the performance of NGRC models can be extremely sensitive to the choice of readout nonlinearity. In particular, by incorporating the exact nonlinearity from the original equations, NGRC trained on a single trajectory can predict pseudo-fractal basins with almost perfect accuracy. However, even a small uncertainty on the exact nonlinearity can completely break NGRC, rendering the prediction accuracy no better than chance. This creates a catch-22 for NGRC since it may not be able to make useful predictions unless a key part of the system being predicted (i.e., its nonlinearity) is already known. Our results highlight the challenges faced by data-driven methods in learning complex dynamical systems.
翻訳日:2022-10-20 13:00:05 公開日:2022-10-18
# StyleGANで顔認識を高めるには?

How to Boost Face Recognition with StyleGAN? ( http://arxiv.org/abs/2210.10090v1 )

ライセンス: Link先を確認
Artem Sevastopolsky, Yury Malkov, Nikita Durasov, Luisa Verdoliva, Matthias Nie{\ss}ner(参考訳) 最先端の顔認識システムは大量のラベル付きトレーニングデータを必要とする。 顔認識アプリケーションにおけるプライバシの優先順位を考えると、データはセレブのウェブクロールに限定されており、民族の歪んだ分布や限られた数のアイデンティティなどの問題がある。 一方で、業界における自己監督型革命は、関連する技術の顔認識への適応に関する研究を動機付けている。 最も一般的な実践的手法の1つは、アイデンティティを保ちながら、高解像度の高忠実度モデル(例えばstyleganのような)から引き出されたサンプルによるデータセットの強化である。 styleganのエンコーダを微調整したシンプルなアプローチは、最先端の顔認識を改善し、合成された顔のアイデンティティのトレーニングよりも優れたパフォーマンスを示す。 また,africanfaceset-5m (500万の異なる人々のイメージ) と asianfaceset-3m (3300万の異なる人々のイメージ) を用いた大規模無ラベルデータセットを収集し,それぞれの事前学習がそれぞれの民族認識(他も)を改善し,すべてのラベル付きデータセットを組み合わせることで,最大のパフォーマンス向上をもたらすことを示した。 私たちの自己管理戦略は、限られたラベル付きトレーニングデータでもっとも有用であり、よりカスタマイズされた顔認識タスクやプライバシー上の懸念に直面した場合に有用です。 評価は標準のRFWデータセットと新しい大規模RB-WebFaceベンチマークに基づいて行われる。

State-of-the-art face recognition systems require huge amounts of labeled training data. Given the priority of privacy in face recognition applications, the data is limited to celebrity web crawls, which have issues such as skewed distributions of ethnicities and limited numbers of identities. On the other hand, the self-supervised revolution in the industry motivates research on adaptation of the related techniques to facial recognition. One of the most popular practical tricks is to augment the dataset by the samples drawn from the high-resolution high-fidelity models (e.g. StyleGAN-like), while preserving the identity. We show that a simple approach based on fine-tuning an encoder for StyleGAN allows to improve upon the state-of-the-art facial recognition and performs better compared to training on synthetic face identities. We also collect large-scale unlabeled datasets with controllable ethnic constitution -- AfricanFaceSet-5M (5 million images of different people) and AsianFaceSet-3M (3 million images of different people) and we show that pretraining on each of them improves recognition of the respective ethnicities (as well as also others), while combining all unlabeled datasets results in the biggest performance increase. Our self-supervised strategy is the most useful with limited amounts of labeled training data, which can be beneficial for more tailored face recognition tasks and when facing privacy concerns. Evaluation is provided based on a standard RFW dataset and a new large-scale RB-WebFace benchmark.
翻訳日:2022-10-20 12:58:38 公開日:2022-10-18
# クラスレベル信頼に基づく半教師付き学習

Class-Level Confidence Based 3D Semi-Supervised Learning ( http://arxiv.org/abs/2210.10138v1 )

ライセンス: Link先を確認
Zhimin Chen, Longlong Jing, Liang Yang, Bing Li(参考訳) 近年の最先端手法であるFlexMatchは、学習状態を正しく推定することが半教師付き学習(SSL)において重要であることを最初に実証した。 しかし、flexmatchによって提案された推定法は、不均衡データを考慮していないため、3次元半教師付き学習の一般的な場合である。 この問題に対処するため,ラベル付きデータクラスレベルの信頼度が3次元不均衡データセットの学習状況を表すことを実証した。 そこで本研究では,新しいクラスレベルの信頼度に基づく3D SSL法を提案する。 まず、ラベルのないデータ、特に低学習ステータスクラスを利用するための動的しきい値付け戦略を提案する。 次に、各クラスのサンプリング確率を動的に変化させるハイラーニングステータスクラスへの偏りを回避するために、再サンプリング戦略を考案する。 3次元SSLタスクにおける本手法の有効性を示すために,3次元SSL分類および検出タスクについて広範な実験を行った。 提案手法は,全データセットの3次元SSL分類および検出タスクにおいて,最先端の手法よりも優れている。

Recent state-of-the-art method FlexMatch firstly demonstrated that correctly estimating learning status is crucial for semi-supervised learning (SSL). However, the estimation method proposed by FlexMatch does not take into account imbalanced data, which is the common case for 3D semi-supervised learning. To address this problem, we practically demonstrate that unlabeled data class-level confidence can represent the learning status in the 3D imbalanced dataset. Based on this finding, we present a novel class-level confidence based 3D SSL method. Firstly, a dynamic thresholding strategy is proposed to utilize more unlabeled data, especially for low learning status classes. Then, a re-sampling strategy is designed to avoid biasing toward high learning status classes, which dynamically changes the sampling probability of each class. To show the effectiveness of our method in 3D SSL tasks, we conduct extensive experiments on 3D SSL classification and detection tasks. Our method significantly outperforms state-of-the-art counterparts for both 3D SSL classification and detection tasks in all datasets.
翻訳日:2022-10-20 12:58:13 公開日:2022-10-18
# 改良されたドメイン一般化のためのソース内スタイル拡張

Intra-Source Style Augmentation for Improved Domain Generalization ( http://arxiv.org/abs/2210.10175v1 )

ライセンス: Link先を確認
Yumeng Li, Dan Zhang, Margret Keuper, Anna Khoreva(参考訳) ドメインシフトに関する一般化は、自律運転のようなアプリケーションに頻繁に現れるように、ディープラーニングモデルにとって残る大きな課題の1つである。 そこで本研究では,セマンティクスセグメンテーションにおけるドメイン一般化を改善するために,ソース内スタイル拡張 (issa) 手法を提案する。 提案手法は,StyleGAN2インバージョンのためのマスク付きノイズエンコーダに基づく。 モデルはノイズ予測によって意味的レイアウトを保存するイメージを忠実に再構築することを学ぶ。 推定ノイズのランダムマスキングにより,画像のセマンティックレイアウトに影響を与えることなく,グローバルな外観を変化させることができる。 提案したマスク付きノイズエンコーダを用いてトレーニングセットのスタイルと内容の組み合わせをランダムにすることで、ISSAはトレーニングデータの多様性を効果的に向上し、スプリアス相関を低減する。 その結果,異なるデータシフト,すなわち地理的な場所の変化,悪天候,昼夜の運転シーンセマンティックセマンティックセグメンテーションにおいて,最大12.4\%のmIoUの改善が達成された。 ISSAはモデルに依存しず、CNNやTransformerで簡単に適用できる。 また、他の領域一般化手法、例えば最近の最先端ソリューションであるRobustNetをCityscapesのmIoUをDark Z\"urichに$3\%改善している。

The generalization with respect to domain shifts, as they frequently appear in applications such as autonomous driving, is one of the remaining big challenges for deep learning models. Therefore, we propose an intra-source style augmentation (ISSA) method to improve domain generalization in semantic segmentation. Our method is based on a novel masked noise encoder for StyleGAN2 inversion. The model learns to faithfully reconstruct the image preserving its semantic layout through noise prediction. Random masking of the estimated noise enables the style mixing capability of our model, i.e. it allows to alter the global appearance without affecting the semantic layout of an image. Using the proposed masked noise encoder to randomize style and content combinations in the training set, ISSA effectively increases the diversity of training data and reduces spurious correlation. As a result, we achieve up to $12.4\%$ mIoU improvements on driving-scene semantic segmentation under different types of data shifts, i.e., changing geographic locations, adverse weather conditions, and day to night. ISSA is model-agnostic and straightforwardly applicable with CNNs and Transformers. It is also complementary to other domain generalization techniques, e.g., it improves the recent state-of-the-art solution RobustNet by $3\%$ mIoU in Cityscapes to Dark Z\"urich.
翻訳日:2022-10-20 12:43:12 公開日:2022-10-18
# 配向・一様性・相関による原型コントラスト学習の再考

Rethinking Prototypical Contrastive Learning through Alignment, Uniformity and Correlation ( http://arxiv.org/abs/2210.10194v1 )

ライセンス: Link先を確認
Shentong Mo, Zhun Sun, Chao Li(参考訳) コントラスト型自己教師学習(CSL)は,強い意味情報を必要とする下流タスクの有意義な表現を学習するために導入された。 しかし、プロトタイプ正規化を積極的に行う損失(例えば、ProtoNCE損失)でCSLを最適化するには、埋め込み空間における例の「凝集」を引き起こす可能性がある。 つまり、原型内におけるサンプルの多様性は崩壊し、その原型が他のものとよく分離されるような簡単な解になる。 先行研究に動機づけられ,アライメント,一様性,相関(pauc)を通じて原型表現を学習することでこの現象を緩和する。 具体的には,(1)正の原型から埋め込みを抽出するアライメント損失,(2)原型レベルの特徴を均一に分配する均一性損失,(3)原型レベルの特徴間の多様性と識別性を増大させる相関損失を補正する。 そこで本手法の有効性を実証するために,様々なベンチマーク実験を行い,本手法の有効性を実証する。 特に線形プローブを用いたダウンストリーム処理において,提案手法は,imagenet-100データセットとimagenet-1kデータセットの2.96%,imagenet-1kデータセットの2.66%をバッチサイズとエポック設定で上回っている。

Contrastive self-supervised learning (CSL) with a prototypical regularization has been introduced in learning meaningful representations for downstream tasks that require strong semantic information. However, to optimize CSL with a loss that performs the prototypical regularization aggressively, e.g., the ProtoNCE loss, might cause the "coagulation" of examples in the embedding space. That is, the intra-prototype diversity of samples collapses to trivial solutions for their prototype being well-separated from others. Motivated by previous works, we propose to mitigate this phenomenon by learning Prototypical representation through Alignment, Uniformity and Correlation (PAUC). Specifically, the ordinary ProtoNCE loss is revised with: (1) an alignment loss that pulls embeddings from positive prototypes together; (2) a uniformity loss that distributes the prototypical level features uniformly; (3) a correlation loss that increases the diversity and discriminability between prototypical level features. We conduct extensive experiments on various benchmarks where the results demonstrate the effectiveness of our method in improving the quality of prototypical contrastive representations. Particularly, in the classification down-stream tasks with linear probes, our proposed method outperforms the state-of-the-art instance-wise and prototypical contrastive learning methods on the ImageNet-100 dataset by 2.96% and the ImageNet-1K dataset by 2.46% under the same settings of batch size and epochs.
翻訳日:2022-10-20 12:42:49 公開日:2022-10-18
# ELASTIC:適応型シンボリックコンパイラによる数値推論

ELASTIC: Numerical Reasoning with Adaptive Symbolic Compiler ( http://arxiv.org/abs/2210.10105v1 )

ライセンス: Link先を確認
Jiaxin Zhang, Yashar Moshfeghi(参考訳) テキスト上での数値推論は人工知能(AI)の難しい課題であり、読解と数値推論能力を必要とする。 従来のアプローチでは、推論プロセスを表現するために数値推論プログラムを使用する。 しかし、ほとんどの作品は数値推論プログラムの重要な構成要素である演算子やオペランドの生成を分離していないため、複雑なタスクでそのようなプログラムを生成する能力は限られている。 本稿では,Reasoning Manager, Operator Generator, Operands Generator, および Memory Register の4つのモジュールからなるRoBERTa をエンコーダとして構成した adapTive symbolIc Compiler (ELASTIC) モデルを用いたnumEricaL reASoningを提案する。 複雑な推論を行う場合、弾力性は堅牢である。 また、包含するオペランドの数を気にせずに多様な演算子の拡張をサポートすることにより、ドメインに依存しない。 実験により、ELASTICはFinQAデータセットで68.96と65.21の実行精度とプログラム精度、MathQAデータセットで83.00のプログラム精度を達成した。

Numerical reasoning over text is a challenging task of Artificial Intelligence (AI), requiring reading comprehension and numerical reasoning abilities. Previous approaches use numerical reasoning programs to represent the reasoning process. However, most works do not separate the generation of operators and operands, which are key components of a numerical reasoning program, thus limiting their ability to generate such programs for complicated tasks. In this paper, we introduce the numEricaL reASoning with adapTive symbolIc Compiler (ELASTIC) model, which is constituted of the RoBERTa as the Encoder and a Compiler with four modules: Reasoning Manager, Operator Generator, Operands Generator, and Memory Register. ELASTIC is robust when conducting complicated reasoning. Also, it is domain agnostic by supporting the expansion of diverse operators without caring about the number of operands it contains. Experiments show that ELASTIC achieves 68.96 and 65.21 of execution accuracy and program accuracy on the FinQA dataset and 83.00 program accuracy on the MathQA dataset, outperforming previous state-of-the-art models significantly.
翻訳日:2022-10-20 12:40:47 公開日:2022-10-18
# 知識グラフを付加したトランスフォーマによるクロスドメインアスペクト抽出

Cross-Domain Aspect Extraction using Transformers Augmented with Knowledge Graphs ( http://arxiv.org/abs/2210.10144v1 )

ライセンス: Link先を確認
Phillip Howard, Arden Ma, Vasudev Lal, Ana Paula Simoes, Daniel Korat, Oren Pereg, Moshe Wasserblat, Gadi Singer(参考訳) アスペクト項の抽出は、テキストのきめ細かい感情分析における重要なステップである。 このタスクの既存のアプローチは、トレーニングとテストデータが同じドメインのものである場合、印象的な結果をもたらします。 しかし、これらの手法は、テストデータのドメインがトレーニングデータと異なるクロスドメイン設定に適用すると、パフォーマンスが大幅に低下することを示している。 この拡張性と堅牢性の欠如に対処するため,アスペクト項の識別に関連する情報を含むドメイン固有の知識グラフを自動構築する手法を提案する。 本稿では,これらの知識グラフから情報をトランスフォーマタモデルに注入する手法について紹介する。 本手法を用いて,クロスドメインアスペクト項抽出のためのベンチマークデータセットの最先端性能を実証し,トランスフォーマーに利用可能な外部知識の量がモデル性能に与える影響について検討する。

The extraction of aspect terms is a critical step in fine-grained sentiment analysis of text. Existing approaches for this task have yielded impressive results when the training and testing data are from the same domain. However, these methods show a drastic decrease in performance when applied to cross-domain settings where the domain of the testing data differs from that of the training data. To address this lack of extensibility and robustness, we propose a novel approach for automatically constructing domain-specific knowledge graphs that contain information relevant to the identification of aspect terms. We introduce a methodology for injecting information from these knowledge graphs into Transformer models, including two alternative mechanisms for knowledge insertion: via query enrichment and via manipulation of attention patterns. We demonstrate state-of-the-art performance on benchmark datasets for cross-domain aspect term extraction using our approach and investigate how the amount of external knowledge available to the Transformer impacts model performance.
翻訳日:2022-10-20 12:40:23 公開日:2022-10-18
# 出版科学分野への引用の欠落の検出と分析

Detecting and analyzing missing citations to published scientific entities ( http://arxiv.org/abs/2210.10073v1 )

ライセンス: Link先を確認
Jialiang Lin, Yao Yu, Jiaxin Song, Xiaodong Shi(参考訳) 優れた引用は、知識の蓄積を可能にし、学術的整合性を維持するため、学術著作において非常に重要である。 しかし、適切に引用することは容易ではない。 刊行された科学機関にとって、成長を続ける学術出版物や用語の過度に精通した出版物は、容易に引用の欠落につながる。 このような状況に対処するため,我々は,従来の研究者による同文の学術論文と文内引用の共起に基づくCRPSE(Citation Recommendation for Published Scientific Entity)を特別に設計する。 実験の結果, 学術論文の推薦に本手法の有効性が示された。 我々はさらに,2020年の著名なコンピュータサイエンスカンファレンスで発表された論文の中で,紛失した引用に関する統計分析を行う。 12,278の論文で、コンピュータ科学と数学に関する475の論文が引用を欠いていることが判明した。 引用なしで言及される多くの実体は、よく受け入れられた研究結果である。 中央集学的に、これらの出版物に引用の欠如を示唆する論文が8年前に出版されたが、これは出版物が広く受け入れられた概念へと発展するための時間枠と考えられる。 刊行された科学機関に対しては,学術標準で要求される資料の正確かつ完全な引用を訴える。

Proper citation is of great importance in academic writing for it enables knowledge accumulation and maintains academic integrity. However, citing properly is not an easy task. For published scientific entities, the ever-growing academic publications and over-familiarity of terms easily lead to missing citations. To deal with this situation, we design a special method Citation Recommendation for Published Scientific Entity (CRPSE) based on the cooccurrences between published scientific entities and in-text citations in the same sentences from previous researchers. Experimental outcomes show the effectiveness of our method in recommending the source papers for published scientific entities. We further conduct a statistical analysis on missing citations among papers published in prestigious computer science conferences in 2020. In the 12,278 papers collected, 475 published scientific entities of computer science and mathematics are found to have missing citations. Many entities mentioned without citations are found to be well-accepted research results. On a median basis, the papers proposing these published scientific entities with missing citations were published 8 years ago, which can be considered the time frame for a published scientific entity to develop into a well-accepted concept. For published scientific entities, we appeal for accurate and full citation of their source papers as required by academic standards.
翻訳日:2022-10-20 12:33:27 公開日:2022-10-18
# 確率的再パラメータ化による離散・混合空間上のベイズ最適化

Bayesian Optimization over Discrete and Mixed Spaces via Probabilistic Reparameterization ( http://arxiv.org/abs/2210.10199v1 )

ライセンス: Link先を確認
Samuel Daulton, Xingchen Wan, David Eriksson, Maximilian Balandat, Michael A. Osborne, Eytan Bakshy(参考訳) 離散的(そして潜在的に連続的な)設計パラメータの高価なブラックボックス関数を最適化することは、科学や工学の応用においてユビキタスな問題である。 ベイズ最適化 (BO) は確率的サロゲートモデルと取得関数 (AF) を利用して将来的な設計を選定し, 評価に有効である。 しかし、混合または高心性離散探索空間上でのAFの最大化は、標準勾配に基づく手法を直接使用したり、検索空間の全ての点でAFを評価することは、計算的に禁止される。 この問題に対処するために,確率的再パラメータ化(PR)を提案する。 離散パラメータを含む探索空間上でのAFを直接最適化するのではなく、連続パラメータで定義される確率分布上でのAFの期待を最大化する。 適切な再パラメータ化の下では、確率的目的を最大化するBOポリシーはAFを最大化するBOポリシーと同じであり、したがってPRは基盤となるAFを用いたBOポリシーと同じ後悔の限界を享受する。 さらに,提案手法は,確率的目標とその勾配の両方のスケーラブルで偏りのない推定器を用いて,勾配上昇下の確率的目標の定常点に確実に収束する。 したがって、出発点数や勾配ステップが増加するにつれて、我々のアプローチはAFの最大値(よく使われるBO後悔境界に対する必要条件)を回復する。 提案手法を実証的に検証し,幅広い実世界のアプリケーションに対して最先端の最適化性能を示す。 PRは最近の作業と補完的であり、複数の目的とブラックボックス制約を持った設定に自然に一般化します。

Optimizing expensive-to-evaluate black-box functions of discrete (and potentially continuous) design parameters is a ubiquitous problem in scientific and engineering applications. Bayesian optimization (BO) is a popular, sample-efficient method that leverages a probabilistic surrogate model and an acquisition function (AF) to select promising designs to evaluate. However, maximizing the AF over mixed or high-cardinality discrete search spaces is challenging standard gradient-based methods cannot be used directly or evaluating the AF at every point in the search space would be computationally prohibitive. To address this issue, we propose using probabilistic reparameterization (PR). Instead of directly optimizing the AF over the search space containing discrete parameters, we instead maximize the expectation of the AF over a probability distribution defined by continuous parameters. We prove that under suitable reparameterizations, the BO policy that maximizes the probabilistic objective is the same as that which maximizes the AF, and therefore, PR enjoys the same regret bounds as the original BO policy using the underlying AF. Moreover, our approach provably converges to a stationary point of the probabilistic objective under gradient ascent using scalable, unbiased estimators of both the probabilistic objective and its gradient. Therefore, as the number of starting points and gradient steps increase, our approach will recover of a maximizer of the AF (an often-neglected requisite for commonly used BO regret bounds). We validate our approach empirically and demonstrate state-of-the-art optimization performance on a wide range of real-world applications. PR is complementary to (and benefits) recent work and naturally generalizes to settings with multiple objectives and black-box constraints.
翻訳日:2022-10-20 12:32:21 公開日:2022-10-18
# ニューロンネットワークの最適化と一般化

Optimisation & Generalisation in Networks of Neurons ( http://arxiv.org/abs/2210.10101v1 )

ライセンス: Link先を確認
Jeremy Bernstein(参考訳) この論文の目的は、ニューラルネットワークにおける学習の最適化と一般化の理論的基礎を開発することである。 最適化に関して、アーキテクチャ依存一階最適化アルゴリズムを導出するための新しい理論的枠組みが提案されている。 このアプローチは、損失関数の"機能的メジャー化"と、神経アーキテクチャへの明示的な依存をエンコードする"アーキテクチャ的摂動境界"を組み合わせることで機能する。 このフレームワークは、学習問題にまたがるハイパーパラメータを転送する最適化手法をもたらす。 一般化では、ネットワークのアンサンブルと個々のネットワーク間の新しい対応が提案されている。 ネットワーク幅と正規化マージンが大きくなるにつれて、特定のトレーニングセットを補間するネットワークの空間は「ベイズ点マシン」として知られる集約ベイズ法に集中する、と論じられている。 この対応は、PAC-ベイジアン一般化定理を個々のネットワークに転送する経路を提供する。 より広義には、データよりもはるかに多くのパラメータを持つネットワークにおける正規化の役割について、新たな視点を示す。

The goal of this thesis is to develop the optimisation and generalisation theoretic foundations of learning in artificial neural networks. On optimisation, a new theoretical framework is proposed for deriving architecture-dependent first-order optimisation algorithms. The approach works by combining a "functional majorisation" of the loss function with "architectural perturbation bounds" that encode an explicit dependence on neural architecture. The framework yields optimisation methods that transfer hyperparameters across learning problems. On generalisation, a new correspondence is proposed between ensembles of networks and individual networks. It is argued that, as network width and normalised margin are taken large, the space of networks that interpolate a particular training set concentrates on an aggregated Bayesian method known as a "Bayes point machine". This correspondence provides a route for transferring PAC-Bayesian generalisation theorems over to individual networks. More broadly, the correspondence presents a fresh perspective on the role of regularisation in networks with vastly more parameters than data.
翻訳日:2022-10-20 12:31:16 公開日:2022-10-18
# 連続学習のための排他的スーパーマスクサブネットワーク訓練

Exclusive Supermask Subnetwork Training for Continual Learning ( http://arxiv.org/abs/2210.10209v1 )

ライセンス: Link先を確認
Prateek Yadav, Mohit Bansal(参考訳) 継続学習(CL)手法は主に、新しいタスクに転送可能な破滅的な忘れと学習表現を避けることに焦点を当てている。 最近、wortsman et al. (2020) はランダムに初期化された固定されたベースネットワーク(モデル)を使い、新しいタスクごとにスーパーマスクを見つけ、各重みを選択的に保持または削除してサブネットワークを生成するclメソッド supsup を提案した。 ネットワークの重みが更新されないため、忘れることを防ぐ。 忘れることはないが、固定重みが表現力を制限するため、スーパーマスクの性能は準最適である。 さらに、新しいタスクが学習された場合、モデル内に知識の蓄積や転送は行われない。 そこで我々はExSSNeT(Exclusive Supermask SubNEtwork Training)を提案する。 これにより、後続のタスクによる共有重みへの相反する更新が回避され、パフォーマンスが向上し、忘れてしまっている。 さらに,新しいタスクマスクを動的に初期化するKNNベースの知識伝達(KKT)モジュールを提案する。 ExSSNeTはテキスト分類と視覚タスクの両方においてSupSupや他の強力な手法よりも優れ、忘れることを防ぐ。 さらに、ExSSNeTはモデルパラメータの2-10%を活性化するスパースマスクに対して特に有利であり、SupSupよりも平均8.3%改善した。 さらに、ExSSNeTは、多数のタスク(100)にスケールし、我々のKKTモジュールは、全体的なパフォーマンスを改善しながら、新しいタスクをより早く学習するのに役立つ。 私たちのコードはhttps://github.com/prateeky2806/exessnetで利用可能です。

Continual Learning (CL) methods mainly focus on avoiding catastrophic forgetting and learning representations that are transferable to new tasks. Recently, Wortsman et al. (2020) proposed a CL method, SupSup, which uses a randomly initialized, fixed base network (model) and finds a supermask for each new task that selectively keeps or removes each weight to produce a subnetwork. They prevent forgetting as the network weights are not being updated. Although there is no forgetting, the performance of the supermask is sub-optimal because fixed weights restrict its representational power. Furthermore, there is no accumulation or transfer of knowledge inside the model when new tasks are learned. Hence, we propose ExSSNeT (Exclusive Supermask SubNEtwork Training), which performs exclusive and non-overlapping subnetwork weight training. This avoids conflicting updates to the shared weights by subsequent tasks to improve performance while still preventing forgetting. Furthermore, we propose a novel KNN-based Knowledge Transfer (KKT) module that dynamically initializes a new task's mask based on previous tasks for improving knowledge transfer. We demonstrate that ExSSNeT outperforms SupSup and other strong previous methods on both text classification and vision tasks while preventing forgetting. Moreover, ExSSNeT is particularly advantageous for sparse masks that activate 2-10% of the model parameters, resulting in an average improvement of 8.3% over SupSup. Additionally, ExSSNeT scales to a large number of tasks (100), and our KKT module helps to learn new tasks faster while improving overall performance. Our code is available at https://github.com/prateeky2806/exessnet
翻訳日:2022-10-20 12:23:54 公開日:2022-10-18
# ATMと情報支払い端末のネットワーク構築のための最適化モデルに関する研究

Research of an optimization model for servicing a network of ATMs and information payment terminals ( http://arxiv.org/abs/2210.09927v1 )

ライセンス: Link先を確認
G.A. Nigmatulin, O.B. Chaganova(参考訳) 現金の需要は着実に増加しており、銀行決済端末のネットワークの拡大に寄与している。 決済端末におけるキャッシュの量を最適化するためには、サービス費用を最小限に抑え、ネットワークに過剰な資金がないことを保証する必要がある。 本研究の目的は、決済端末ネットワークにおける現金管理システムを構築することである。 本稿は、端末にロードされる資金の最適量を決定する問題と、解放された資金を投資することで追加の収入を得ることができる効果的な収集頻度の解決について論じる。 本稿では,3つの指数スムースメントモデル,長期記憶を持つリカレントニューラルネットワーク,特異スペクトル解析モデルを用いて,ATMにおける日替金の予測結果を提示する。 これらの予測モデルにより、精度と完全性で十分なレベルの正確な予測が得られる。 キャッシュ引き出し予測の結果は、個別の最適制御モデルの構築に利用され、支払い端末に資金を追加するための最適スケジュールの開発に使用された。 提案モデルの有効性と信頼性は従来のBaumol-Tobin在庫管理モデルよりも高いことが証明された。3つのATMの時系列で検証された場合、離散最適制御モデルは資金の枯渇を許さず、従来のモデルよりも平均30%高い収入を得られる。

The steadily high demand for cash contributes to the expansion of the network of Bank payment terminals. To optimize the amount of cash in payment terminals, it is necessary to minimize the cost of servicing them and ensure that there are no excess funds in the network. The purpose of this work is to create a cash management system in the network of payment terminals. The article discusses the solution to the problem of determining the optimal amount of funds to be loaded into the terminals, and the effective frequency of collection, which allows to get additional income by investing the released funds. The paper presents the results of predicting daily cash withdrawals at ATMs using a triple exponential smoothing model, a recurrent neural network with long short-term memory, and a model of singular spectrum analysis. These forecasting models allowed us to obtain a sufficient level of correct forecasts with good accuracy and completeness. The results of forecasting cash withdrawals were used to build a discrete optimal control model, which was used to develop an optimal schedule for adding funds to the payment terminal. It is proved that the efficiency and reliability of the proposed model is higher than that of the classical Baumol-Tobin inventory management model: when tested on the time series of three ATMs, the discrete optimal control model did not allow exhaustion of funds and allowed to earn on average 30% more than the classical model.
翻訳日:2022-10-19 16:21:15 公開日:2022-10-18
# 共有臨床音声記録における再同定の危険性

Risk of re-identification for shared clinical speech recordings ( http://arxiv.org/abs/2210.09975v1 )

ライセンス: Link先を確認
Daniela A. Wiepert, Bradley A. Malin, Joseph R. Duffy, Rene L. Utianski, John L. Stricker, David T. Jones, and Hugo Botha(参考訳) 大規模でキュレートされたデータセットは、医療における音声ベースのツールを活用するために必要です。 これらは製造にコストがかかり、データ共有への関心が高まる。 音声が話者(例えば音声プリント)を識別できるため、録音を共有することはプライバシーの懸念を引き起こす。 話者認識システムを用いて、人口統計やメタデータによらず、音声記録の再識別リスクを検討する。 リスクは、相手が考慮しなければならない比較数、すなわち探索空間と逆関係であることを示す。 小さな検索スペースではリスクが高いが、検索スペースが大きくなると減少する(precision >0.85$ for $<1*10^{6}$ comparisons, $precision <0.5$ for $>3*10^{6}$ comparisons)。 次に,音声記録の性質が再識別のリスクに影響を与え,非接続音声(母音延長など)の識別が困難であることを示す。 以上の結果から,話者認識システムは特定の状況下での参加者の再識別に有効であることが示唆された。

Large, curated datasets are required to leverage speech-based tools in healthcare. These are costly to produce, resulting in increased interest in data sharing. As speech can potentially identify speakers (i.e., voiceprints), sharing recordings raises privacy concerns. We examine the re-identification risk for speech recordings, without reference to demographic or metadata, using a state-of-the-art speaker recognition system. We demonstrate that the risk is inversely related to the number of comparisons an adversary must consider, i.e., the search space. Risk is high for a small search space but drops as the search space grows ($precision >0.85$ for $<1*10^{6}$ comparisons, $precision <0.5$ for $>3*10^{6}$ comparisons). Next, we show that the nature of a speech recording influences re-identification risk, with non-connected speech (e.g., vowel prolongation) being harder to identify. Our findings suggest that speaker recognition systems can be used to re-identify participants in specific circumstances, but in practice, the re-identification risk appears low.
翻訳日:2022-10-19 16:20:52 公開日:2022-10-18
# SVLDL:選択変数ラベル分布学習による話者年齢推定の改善

SVLDL: Improved Speaker Age Estimation Using Selective Variance Label Distribution Learning ( http://arxiv.org/abs/2210.09524v1 )

ライセンス: Link先を確認
Zuheng Kang, Jianzong Wang, Junqing Peng, Jing Xiao(参考訳) 一つのスピーチから年齢を推定することは、古典的な挑戦的なトピックである。 ラベル分布学習(ldl)は隣接する識別不能年齢を表すことができるが、各発話に対する年齢推定の不確かさは人によって異なり、年齢分布のばらつきが異なる。 そこで本研究では, 年齢分布のばらつきを適応させるために, 選択的分散ラベル分布学習(svldl)法を提案する。 さらに、wavlmを音声特徴抽出器として使用し、性認識の補助タスクを追加し、さらなる性能向上を図る。 損失関数に対して, 年齢推定のロバスト性を高め, 適合年齢分布の質を向上させるための2つの手法を適用した。 大規模な実験により、NIST SRE08-10と実世界のデータセットのあらゆる面において最先端のパフォーマンスが達成された。

Estimating age from a single speech is a classic and challenging topic. Although Label Distribution Learning (LDL) can represent adjacent indistinguishable ages well, the uncertainty of the age estimate for each utterance varies from person to person, i.e., the variance of the age distribution is different. To address this issue, we propose selective variance label distribution learning (SVLDL) method to adapt the variance of different age distributions. Furthermore, the model uses WavLM as the speech feature extractor and adds the auxiliary task of gender recognition to further improve the performance. Two tricks are applied on the loss function to enhance the robustness of the age estimation and improve the quality of the fitted age distribution. Extensive experiments show that the model achieves state-of-the-art performance on all aspects of the NIST SRE08-10 and a real-world datasets.
翻訳日:2022-10-19 16:18:14 公開日:2022-10-18
# DCASE 2022タスク4における音事象検出変換器のハイブリッドシステムとフレームワイズモデル

A Hybrid System of Sound Event Detection Transformer and Frame-wise Model for DCASE 2022 Task 4 ( http://arxiv.org/abs/2210.09529v1 )

ライセンス: Link先を確認
Yiming Li, Zhifang Guo, Zhirong Ye, Xiangdong Wang, Hong Liu, Yueliang Qian, Rui Tao, Long Yan, Kazushige Ouchi(参考訳) 本稿では,DCASE 2022 Task4のシステムについて詳述する。 このシステムは2つのかなり異なるモデル、SEDT(End-to-end Sound Event Detection Transformer)とMetric Learning and Focal Loss CNN(MLFL-CNN)を組み合わせている。 前者はイベントレベルの表現を学び、音のイベントカテゴリと境界を直接予測するイベントワイズモデルであり、後者は広く採用されているフレーム分類スキームに基づいており、各フレームはイベントカテゴリに分類され、イベントバウンダリはしきい値処理や平滑化といった後処理によって得られる。 SEDTでは、ラベルなしデータを用いた自己教師付き事前学習を適用し、オンライン教師を用いて、指数移動平均(EMA)戦略を用いて生徒モデルから更新され、弱いラベル付きデータやラベルなしデータに対する信頼できる擬似ラベルを生成する。 フレームワイドモデルでは、DCASE 2021タスク4のICT-TOSHIBAシステムを使用する。 実験の結果,ハイブリッドシステムは個々のモデルを大きく上回り,外部データ無しで0.420のpsds1と0.783のpsds2を達成した。 コードはhttps://github.com/965694547/Hybrid-system-of-frame-wise-model-and-SEDTで公開されている。

In this paper, we describe in detail our system for DCASE 2022 Task4. The system combines two considerably different models: an end-to-end Sound Event Detection Transformer (SEDT) and a frame-wise model, Metric Learning and Focal Loss CNN (MLFL-CNN). The former is an event-wise model which learns event-level representations and predicts sound event categories and boundaries directly, while the latter is based on the widely adopted frame-classification scheme, under which each frame is classified into event categories and event boundaries are obtained by post-processing such as thresholding and smoothing. For SEDT, self-supervised pre-training using unlabeled data is applied, and semi-supervised learning is adopted by using an online teacher, which is updated from the student model using the Exponential Moving Average (EMA) strategy and generates reliable pseudo labels for weakly-labeled and unlabeled data. For the frame-wise model, the ICT-TOSHIBA system of DCASE 2021 Task 4 is used. Experimental results show that the hybrid system considerably outperforms either individual model and achieves psds1 of 0.420 and psds2 of 0.783 on the validation set without external data. The code is available at https://github.com/965694547/Hybrid-system-of-frame-wise-model-and-SEDT.
翻訳日:2022-10-19 16:17:59 公開日:2022-10-18
# 物理インフォームドニューラルネットワークを用いた構造化メッシュ生成法の改良

An Improved Structured Mesh Generation Method Based on Physics-informed Neural Networks ( http://arxiv.org/abs/2210.09546v1 )

ライセンス: Link先を確認
Xinhai Chen, Jie Liu, Junjun Yan, Zhichao Wang, Chunye Gong(参考訳) 数値シミュレーションが必要な多くの分野において、メッシュ生成は依然として重要な技術である。 数値アルゴリズムがより効率的になり、コンピュータがより強力になるにつれて、メッシュ生成に費やされる時間の割合が高くなる。 本稿では,改良された構造化メッシュ生成手法を提案する。 この方法は、物理インフォームドニューラルネットワークに関連する大域的最適化問題としてメッシュ問題を定式化する。 メッシュは、物理的境界制約のある偏微分方程式をインテリジェントに解いて得られる。 ニューラルネットワークの予測精度を向上させるために,新たな補助線戦略と,メッシュ処理時の効率的なネットワークモデルを提案する。 戦略はまず、まず前提真理データを提供するために事前補助線を使用し、次にこれらのデータを使用して損失項を構築し、その後の訓練の収束をよりよく制約する。 実験の結果,提案手法は有効かつ堅牢であることが示唆された。 計算領域から物理領域へのマッピング(変換)を正確に近似し、高速で高品質な構造化メッシュ生成を可能にする。

Mesh generation remains a key technology in many areas where numerical simulations are required. As numerical algorithms become more efficient and computers become more powerful, the percentage of time devoted to mesh generation becomes higher. In this paper, we present an improved structured mesh generation method. The method formulates the meshing problem as a global optimization problem related to a physics-informed neural network. The mesh is obtained by intelligently solving the physical boundary-constrained partial differential equations. To improve the prediction accuracy of the neural network, we also introduce a novel auxiliary line strategy and an efficient network model during meshing. The strategy first employs a priori auxiliary lines to provide ground truth data and then uses these data to construct a loss term to better constrain the convergence of the subsequent training. The experimental results indicate that the proposed method is effective and robust. It can accurately approximate the mapping (transformation) from the computational domain to the physical domain and enable fast high-quality structured mesh generation.
翻訳日:2022-10-19 16:17:32 公開日:2022-10-18
# Split-KalmanNet:SLAMのためのロバストモデルに基づくディープラーニングアプローチ

Split-KalmanNet: A Robust Model-Based Deep Learning Approach for SLAM ( http://arxiv.org/abs/2210.09636v1 )

ライセンス: Link先を確認
Geon Choi, Jeonghun Park, Nir Shlezinger, Yonina C. Eldar, Namyoon Lee(参考訳) 同時ローカライゼーション・マッピング (slam) は未知の環境の地図を構築し、地図上の移動エージェントの位置を同時にローカライズする手法である。 拡張カルマンフィルタ(EKF)は、移動剤の運動と測定モデルに依存するオンラインSLAMの低複雑性解として広く採用されている。 しかし、実際にはこれらのモデルに関する正確な情報を取得することは非常に困難であり、モデルミスマッチ効果はSLAMの大幅な性能低下を引き起こす。 本稿では、最近提案されたKalmanNetに触発されて、オンラインSLAM(Split-KalmanNet)にディープラーニングの力を利用した堅牢なEKFアルゴリズムを提案する。 Split-KalmanNetの鍵となる考え方は、測定関数のヤコビ行列と2つのリカレントニューラルネットワーク(RNN)を用いてカルマンゲインを計算することである。 2つのRNNは、先行状態推定のための共分散行列とデータからイノベーションを独立に学習する。 カルマンゲインの計算における分割構造は、状態と測定モデルのミスマッチ効果を独立に補償することができる。 Split-KalmanNet は従来の EKF や最先端の KalmanNet アルゴリズムよりも,様々なモデルミスマッチシナリオで優れていた。

Simultaneous localization and mapping (SLAM) is a method that constructs a map of an unknown environment and localizes the position of a moving agent on the map simultaneously. Extended Kalman filter (EKF) has been widely adopted as a low complexity solution for online SLAM, which relies on a motion and measurement model of the moving agent. In practice, however, acquiring precise information about these models is very challenging, and the model mismatch effect causes severe performance loss in SLAM. In this paper, inspired by the recently proposed KalmanNet, we present a robust EKF algorithm using the power of deep learning for online SLAM, referred to as Split-KalmanNet. The key idea of Split-KalmanNet is to compute the Kalman gain using the Jacobian matrix of a measurement function and two recurrent neural networks (RNNs). The two RNNs independently learn the covariance matrices for a prior state estimate and the innovation from data. The proposed split structure in the computation of the Kalman gain allows to compensate for state and measurement model mismatch effects independently. Numerical simulation results verify that Split-KalmanNet outperforms the traditional EKF and the state-of-the-art KalmanNet algorithm in various model mismatch scenarios.
翻訳日:2022-10-19 16:17:18 公開日:2022-10-18
# 生成モデルの不確実性推定

Generative models uncertainty estimation ( http://arxiv.org/abs/2210.09767v1 )

ライセンス: Link先を確認
Lucio Anderlini, Constantine Chimpoesh, Nikita Kazeev and Agata Shishigina(参考訳) 近年,多種多様な高エネルギー物理検出器に対して生成モデルに基づく完全パラメトリック高速シミュレーション手法が提案されている。 その性質上、データ駆動モデルの品質は、データが不足している位相空間の領域で劣化する。 機械学習モデルは物理原理から分析が難しいため、一般的に使用されるテスト手順はデータ駆動で行われ、そのような領域では確実に使用できない。 本研究では,データ駆動キャリブレーション手法とともに,トレーニングフェーズ空間領域内外における生成モデルの不確かさを推定する3つの手法を提案する。 また,LHCb RICH高速シミュレーションにおける提案手法の検証を行った。

In recent years fully-parametric fast simulation methods based on generative models have been proposed for a variety of high-energy physics detectors. By their nature, the quality of data-driven models degrades in the regions of the phase space where the data are sparse. Since machine-learning models are hard to analyse from the physical principles, the commonly used testing procedures are performed in a data-driven way and can't be reliably used in such regions. In our work we propose three methods to estimate the uncertainty of generative models inside and outside of the training phase space region, along with data-driven calibration techniques. A test of the proposed methods on the LHCb RICH fast simulation is also presented.
翻訳日:2022-10-19 16:16:56 公開日:2022-10-18
# 機械学習最適化ペロブスカイトナノプレート合成

Machine-Learning-Optimized Perovskite Nanoplatelet Synthesis ( http://arxiv.org/abs/2210.09783v1 )

ライセンス: Link先を確認
Carola Lampe, Ioannis Kouroudis, Milan Harth, Stefan Martin, Alessio Gagliardi, Alexander S. Urban(参考訳) 再生可能エネルギーと効率的な装置の需要が急速に増大するにつれ、新しい(ナノ)物質を発見・最適化する必要性が高まっている。 これは非常に面倒なプロセスであり、しばしば試行錯誤に大きく依存する。 機械学習は強力な代替手段として最近登場したが、ほとんどのアプローチでは大量のデータポイント、すなわち合成を必要とする。 ここでは,3つの機械学習モデルとベイズ最適化を融合し,約200個の全合成を用いてCsPbBr3ナノプレート(NPL)の品質を劇的に向上させることができる。 このアルゴリズムは、前駆体比に基づいて、npl分散のpl放出最大値を予測することができ、従来は観測できなかった7mlおよび8mlnplとなる。 ヒューリスティックな知識により、このアルゴリズムは他のナノ結晶合成にも容易に適用でき、興味深い組成を同定し、その品質を迅速に向上するのに役立つ。

With the demand for renewable energy and efficient devices rapidly increasing, a need arises to find and optimize novel (nano)materials. This can be an extremely tedious process, often relying significantly on trial and error. Machine learning has emerged recently as a powerful alternative; however, most approaches require a substantial amount of data points, i.e., syntheses. Here, we merge three machine-learning models with Bayesian Optimization and are able to dramatically improve the quality of CsPbBr3 nanoplatelets (NPLs) using only approximately 200 total syntheses. The algorithm can predict the resulting PL emission maxima of the NPL dispersions based on the precursor ratios, which lead to previously unobtainable 7 and 8 ML NPLs. Aided by heuristic knowledge, the algorithm should be easily applicable to other nanocrystal syntheses and significantly help to identify interesting compositions and rapidly improve their quality.
翻訳日:2022-10-19 16:16:47 公開日:2022-10-18
# クラスタ分析の活用によるゲームプレイ体験の理解と支援設計

Leveraging Cluster Analysis to Understand Educational Game Player Experiences and Support Design ( http://arxiv.org/abs/2210.09911v1 )

ライセンス: Link先を確認
Luke Swanson, David Gagnon, Jennifer Scianna, John McCloskey, Nicholas Spevacek, Stefan Slater, Erik Harpstead(参考訳) 教育ゲームデザイナーが観客のプレイスタイルや体験を理解する能力は、ゲーム設計を改善する上で不可欠なツールである。 ゲームは大規模なプレイヤーテストを受けるため、デザイナーはプレイヤーとゲームの相互作用のパターンを分類する安価な自動化手法を必要とする。 本稿では,小規模の教育用ゲームスタジオで使用可能な,データクラスタリングのためのベストプラクティスを用いた,簡易かつ再利用可能なプロセスを提案する。 本手法は,リアルタイム戦略ゲームの解析,ゲームテレメトリデータの処理,ゲーム内アクション,受信したフィードバック,ゲームを通しての進捗状況に基づいて,プレイヤーのカテゴリを決定する。 これらのクラスターの解釈分析は、ゲームの設計者に実行可能な洞察をもたらす。

The ability for an educational game designer to understand their audience's play styles and resulting experience is an essential tool for improving their game's design. As a game is subjected to large-scale player testing, the designers require inexpensive, automated methods for categorizing patterns of player-game interactions. In this paper we present a simple, reusable process using best practices for data clustering, feasible for use within a small educational game studio. We utilize the method to analyze a real-time strategy game, processing game telemetry data to determine categories of players based on their in-game actions, the feedback they received, and their progress through the game. An interpretive analysis of these clusters results in actionable insights for the game's designers.
翻訳日:2022-10-19 16:16:32 公開日:2022-10-18
# DPIS: 重要サンプリングによる微分プライベートSGDの強化メカニズム

DPIS: An Enhanced Mechanism for Differentially Private SGD with Importance Sampling ( http://arxiv.org/abs/2210.09634v1 )

ライセンス: Link先を確認
Jianxin Wei, Ergute Bao, Xiaokui Xiao, Yin Yang(参考訳) 今日では、差分プライバシ(DP)がプライバシ保護の標準として広く受け入れられており、ディープラーニング(DNN)は機械学習において大きな成功を収めている。 これら2つのテクニックの組み合わせ、すなわちディープラーニングと差分プライバシーの組み合わせは、医療記録などの機密データで訓練された高ユーティリティモデルのプライバシー保護を約束する。 この目的のための古典的なメカニズムはDP-SGDであり、これはDNNトレーニングによく使用される確率勾配降下(SGD)オプティマイザの微分プライベートバージョンである。 その後のアプローチは、ノイズ減衰スケジュール、モデルアーキテクチャ、機能工学、ハイパーパラメータチューニングなど、モデルトレーニングプロセスの様々な側面を改善した。 しかし、SGDオプティマイザにおけるDP強化のコアメカニズムは、従来のDP-SGDアルゴリズム以来変わらず、DP準拠の機械学習ソリューションの性能を制限する基本的な障壁となっている。 そこで本研究では,dp-sgdのコアオプティマイザのドロップイン代替として使用可能な,差分プライベートなsgdトレーニングのための新しいメカニズムであるdpiを提案する。 本研究の主目的は,各SGDイテレーションの重要サンプリング(IS)をミニバッチ選択に適用することであり,DPを満たすために必要とされるサンプリング分散とランダムノイズの量の両方を削減する。 isをdp-sgdの複雑な数学的機械に統合することは極めて非自明である。 DPISは、新しいメカニズム設計、きめ細かいプライバシー分析、効率の向上、適応的な勾配クリッピング最適化を通じてこの問題に対処する。 MNIST、FMNIST、CIFAR-10、IMDbの4つのベンチマークデータセットに対する大規模な実験は、差分プライバシーを持つディープラーニングのための既存のソリューションよりもDPISの方が優れた効果を示した。

Nowadays, differential privacy (DP) has become a well-accepted standard for privacy protection, and deep neural networks (DNN) have been immensely successful in machine learning. The combination of these two techniques, i.e., deep learning with differential privacy, promises the privacy-preserving release of high-utility models trained with sensitive data such as medical records. A classic mechanism for this purpose is DP-SGD, which is a differentially private version of the stochastic gradient descent (SGD) optimizer commonly used for DNN training. Subsequent approaches have improved various aspects of the model training process, including noise decay schedule, model architecture, feature engineering, and hyperparameter tuning. However, the core mechanism for enforcing DP in the SGD optimizer remains unchanged ever since the original DP-SGD algorithm, which has increasingly become a fundamental barrier limiting the performance of DP-compliant machine learning solutions. Motivated by this, we propose DPIS, a novel mechanism for differentially private SGD training that can be used as a drop-in replacement of the core optimizer of DP-SGD, with consistent and significant accuracy gains over the latter. The main idea is to employ importance sampling (IS) in each SGD iteration for mini-batch selection, which reduces both sampling variance and the amount of random noise injected to the gradients that is required to satisfy DP. Integrating IS into the complex mathematical machinery of DP-SGD is highly non-trivial. DPIS addresses the challenge through novel mechanism designs, fine-grained privacy analysis, efficiency enhancements, and an adaptive gradient clipping optimization. Extensive experiments on four benchmark datasets, namely MNIST, FMNIST, CIFAR-10 and IMDb, demonstrate the superior effectiveness of DPIS over existing solutions for deep learning with differential privacy.
翻訳日:2022-10-19 16:10:37 公開日:2022-10-18
# クラスタリングのカテゴリデータ:ソフト丸めkモード

Clustering Categorical Data: Soft Rounding k-modes ( http://arxiv.org/abs/2210.09640v1 )

ライセンス: Link先を確認
Surya Teja Gavva, Karthik C. S., and Sharath Punna(参考訳) 過去30年間、研究者は分類データ分析のための様々なクラスタリングツールを徹底的に研究してきた。 様々なクラスタリングアルゴリズムの提案にもかかわらず、古典的なkモードアルゴリズムは分類データの教師なし学習に広く使われている。 意外なことに、我々の最初の洞察は、自然生成ブロックモデルにおいて、k-modesアルゴリズムは幅広いパラメータに対して性能が低いことである。 我々は,k-modesアルゴリズム(softmodes)のソフトラウンド変種を提案し,理論的にk-modesアルゴリズムの欠点に対処することを証明し,この問題を解決した。 最後に、SoftModesが合成データセットと実世界のデータセットの両方でうまく動作することを実証的に検証する。

Over the last three decades, researchers have intensively explored various clustering tools for categorical data analysis. Despite the proposal of various clustering algorithms, the classical k-modes algorithm remains a popular choice for unsupervised learning of categorical data. Surprisingly, our first insight is that in a natural generative block model, the k-modes algorithm performs poorly for a large range of parameters. We remedy this issue by proposing a soft rounding variant of the k-modes algorithm (SoftModes) and theoretically prove that our variant addresses the drawbacks of the k-modes algorithm in the generative model. Finally, we empirically verify that SoftModes performs well on both synthetic and real-world datasets.
翻訳日:2022-10-19 16:10:01 公開日:2022-10-18
# Staay-ON-the-Ridge:非凸ノンコンケーブゲームにおける局所ミニマックス平衡への保証収束

STay-ON-the-Ridge: Guaranteed Convergence to Local Minimax Equilibrium in Nonconvex-Nonconcave Games ( http://arxiv.org/abs/2210.09769v1 )

ライセンス: Link先を確認
Constantinos Daskalakis, Noah Golowich, Stratis Skoulakis and Manolis Zampetakis(参考訳) 非凸非凸目的のMin-max最適化問題は、対向訓練やその他のマルチエージェント学習設定において重要な応用を見出した。 しかし、非凸-非凹面条件における(局所的な概念である) min-max 平衡に収束することが保証される勾配降下法は存在しない。 すべての既知の方法に対して、それらが収束から一点まで異なる他の望ましくない振る舞いを循環または示すという比較的単純な目的が存在する。 唯一知られている収束は、初期化が局所 min-max 平衡~\cite{wang2019solving} に非常に近いという強い仮定の下で成り立つ。 さらに、前述の課題は単に理論的な好奇性だけではない。 既知のすべてのメソッドは、単純な設定であっても、実際には不安定である。 滑らかな非凸非凸目的に対して局所min-max平衡に収束することが保証される最初の方法を提案する。 本手法は二階法であり, 探索容易な初期点で初期化される限り, 限界サイクルを回避できる。 本手法の定義と収束解析はどちらも,問題のトポロジカルな性質によって動機付けられている。 特に,本手法は,局所的な min-max 平衡の集合からのイテレート距離や目的の射影勾配などのポテンシャル関数を減少させるように設計されていないが,サイクルの回避を保証し,その収束を示唆する位相特性を満たすように設計されている。

Min-max optimization problems involving nonconvex-nonconcave objectives have found important applications in adversarial training and other multi-agent learning settings. Yet, no known gradient descent-based method is guaranteed to converge to (even local notions of) min-max equilibrium in the nonconvex-nonconcave setting. For all known methods, there exist relatively simple objectives for which they cycle or exhibit other undesirable behavior different from converging to a point, let alone to some game-theoretically meaningful one~\cite{flokas2019poincare,hsieh2021limits}. The only known convergence guarantees hold under the strong assumption that the initialization is very close to a local min-max equilibrium~\cite{wang2019solving}. Moreover, the afore-described challenges are not just theoretical curiosities. All known methods are unstable in practice, even in simple settings. We propose the first method that is guaranteed to converge to a local min-max equilibrium for smooth nonconvex-nonconcave objectives. Our method is second-order and provably escapes limit cycles as long as it is initialized at an easy-to-find initial point. Both the definition of our method and its convergence analysis are motivated by the topological nature of the problem. In particular, our method is not designed to decrease some potential function, such as the distance of its iterate from the set of local min-max equilibria or the projected gradient of the objective, but is designed to satisfy a topological property that guarantees the avoidance of cycles and implies its convergence.
翻訳日:2022-10-19 16:09:49 公開日:2022-10-18
# 化学精度密度汎関数理論のためのランダム位相近似による一般化多体分散補正

Generalized Many-Body Dispersion Correction through Random-phase Approximation for Chemically Accurate Density Functional Theory ( http://arxiv.org/abs/2210.09784v1 )

ライセンス: Link先を確認
Pier Paolo Poier, Louis Lagard\`ere, Jean-Philip Piquemal(参考訳) 我々は最近提案する深層学習支援多体分散(dnn-mbd)モデルを一般化ランダム位相近似(rpa)形式を用いて四極子偏光率(q)項に拡張し、双極子を超えてファンデルワールスの貢献を含むことを可能にする。 得られたdnn-mbdqモデルは、導入された四重極偏光度が双極子から再帰的に取り出され、tkatchenko-scheffler法によってモデル化されるため、ab initio由来の量のみに依存する。 伝達可能で効率的な深層神経ネットワーク(dnn)は分子体積に原子を与え、単一の範囲分離パラメータは密度汎関数理論(dft)にモデルを結合するために用いられる。 無視可能なコストで計算できるので、DNN-MBDQ アプローチは PBE/PBE0 や B86bPBE (dispersionless) のような DFT 関数と結合することができる。 dnn-mbq-pbe/pbe0は、他の分散補正モデルと比較して高い精度を示す化学精度に達し、特に、我々の双極子のみのアプローチに比べて誤差が25%近く低下し、他の補正されたスキームと比較して50%近く向上する近平衡範囲において、高い精度を示す。

We extend our recently proposed Deep Learning-aided many-body dispersion (DNN-MBD) model to quadrupole polarizability (Q) terms using a generalized Random Phase Approximation (RPA) formalism enabling to include van der Waals contributions beyond dipole. The resulting DNN-MBDQ model only relies on ab initio-derived quantities as the introduced quadrupole polarizabilities are recursively retrieved from dipole ones, in turn modelled via the Tkatchenko-Scheffler method. A transferable and efficient deep-neuronal network (DNN) provides atom in molecule volumes, while a single range-separation parameter is used to couple the model to Density Functional Theory (DFT). Since it can be computed at negligible cost, the DNN-MBDQ approach can be coupled with DFT functionals such as as PBE/PBE0 or B86bPBE(dispersionless). DNN-MBQ-PBE/PBE0 reaches chemical accuracy exhibiting superior accuracy compared to other dispersion-corrected models, especially at near-equilibrium ranges where errors are lowered by nearly 25% compared to our dipole-only approach while gains reach nearly 50% compared to other corrected schemes.
翻訳日:2022-10-19 16:09:23 公開日:2022-10-18
# グラフニューラルネットワークによるパリティゲームにおける勝利領域予測(拡張抽象)

Predicting Winning Regions in Parity Games via Graph Neural Networks (Extended Abstract) ( http://arxiv.org/abs/2210.09924v1 )

ライセンス: Link先を確認
Tobias Hecking and Alexander Weinert(参考訳) パリティゲームの解決は、リアクティブプログラム検証と合成における多くの応用のための主要な構成要素である。 実際にパリティゲームを解決するための効率的なアプローチは存在するが、いずれも多項式最悪の実行時複雑性を持たない。 グラフニューラルネットワークを用いてパリティゲームの勝利領域を決定するための不完全なアプローチを提案する。 ランダムに生成した900個のパリティゲームに対する評価は,本手法が実際に有効であることを示す。 さらに、データセット内のゲームのうち60%の勝利領域を正確に決定し、残りのゲームでは小さなエラーしか発生しない。

Solving parity games is a major building block for numerous applications in reactive program verification and synthesis. While there exist efficient approaches to solving parity games in practice, none of these have a polynomial worst-case runtime complexity. We present a incomplete approach to determining the winning regions of parity games via graph neural networks. Our evaluation on 900 randomly generated parity games shows that this approach is efficient in practice. It moreover correctly determines the winning regions of ~60% of the games in our data set and only incurs minor errors in the remaining ones.
翻訳日:2022-10-19 16:08:57 公開日:2022-10-18
# 機能ベース相対ナビゲーションアプリケーションのためのfpgaハードウェアアクセラレーション

FPGA Hardware Acceleration for Feature-Based Relative Navigation Applications ( http://arxiv.org/abs/2210.09481v1 )

ライセンス: Link先を確認
Ramchander Rao Bhaskara, Manoranjan Majji(参考訳) 2点雲間の剛性変換の推定は、視覚に基づく相対航法において計算的に難しい問題である。 本稿では,ポイントクラウドと画像登録アルゴリズムを活用したリアルタイムナビゲーションソリューションを目標とし,電力と資源制約されたポーズ推定のための高性能アビオニクスを開発した。 FPGA(Field-Programmable Gate Array)をベースとした組込みアーキテクチャは,各点集合に対応する画像特徴によって支援された,点雲間の相対的なポーズ推定を高速化する。 アルゴリズムレベルでは、ポーズ推定法は相対的な姿勢と翻訳推定のための最適線形姿勢・翻訳推定器(OLTAE)の適応である。 アーキテクチャレベルでは、提案する組込みソリューションは、高速状態推定のためにベアメタルハードウェア上のoltae計算を評価するハードウェア/ソフトウェア共同設計である。 OLTAEアルゴリズムの有限精度FPGA評価とMATLABの倍精度評価を比較し,性能解析と誤差定量化を行う。 提案する有限精度oltae加速器の実装結果から,fpgaに基づくポーズ推定の計算性能は7%以下となり,計算精度が向上した。

Estimation of rigid transformation between two point clouds is a computationally challenging problem in vision-based relative navigation. Targeting a real-time navigation solution utilizing point-cloud and image registration algorithms, this paper develops high-performance avionics for power and resource constrained pose estimation framework. A Field-Programmable Gate Array (FPGA) based embedded architecture is developed to accelerate estimation of relative pose between the point-clouds, aided by image features that correspond to the individual point sets. At algorithmic level, the pose estimation method is an adaptation of Optimal Linear Attitude and Translation Estimator (OLTAE) for relative attitude and translation estimation. At the architecture level, the proposed embedded solution is a hardware/software co-design that evaluates the OLTAE computations on the bare-metal hardware for high-speed state estimation. The finite precision FPGA evaluation of the OLTAE algorithm is compared with a double-precision evaluation on MATLAB for performance analysis and error quantification. Implementation results of the proposed finite-precision OLTAE accelerator demonstrate the high-performance compute capabilities of the FPGA-based pose estimation while offering relative numerical errors below 7%.
翻訳日:2022-10-19 16:08:32 公開日:2022-10-18
# 末梢神経における軸索の空間配置の定量化のための新しい統計的手法

A novel statistical methodology for quantifying the spatial arrangements of axons in peripheral nerves ( http://arxiv.org/abs/2210.09554v1 )

ライセンス: Link先を確認
Abida Sanjana Shemonti, Emanuele Plebani, Natalia P. Biscola, Deborah M. Jaffey, Leif A. Havton, Janet R. Keast, Alex Pothen, M. Murat Dundar, Terry L. Powley, Bartek Rajwa(参考訳) 末梢神経の神経解剖学の理解は、その機能と神経調節ツールや戦略の発達についてより深く理解するために必要である。 生体物理モデルでは、末梢神経における髄質軸索と髄質軸索の複雑な空間配置はランダムであると考えられているが、実際には軸索組織は不均一で異方性である。 現在の定量的神経解剖学的手法は、軸索の数と、面積や直径などの軸索の形態的特徴の観点から末梢神経を解析する。 本研究では, 軸索とシンクホーン距離の空間配置を記述するために, 空間統計と点過程モデルを用いて, 種々の迷走神経と骨盤間断面積におけるこれらの配置の類似性を計算した。 高度に修正されたu-netアーキテクチャに基づく高スループット深層学習システムを用いて,分割された高分解能tem画像を用いた。 本研究は,最適輸送問題に対する解から得られる指標を用いて,空間的点パターン間の類似性を定量化する新規かつ革新的な手法を示す。 また,末梢神経構造の定量的解析のための一般化パイプラインを提案する。 以上の結果から,男性と女性,骨盤と腹腔内迷走神経の類似性について検討した。

A thorough understanding of the neuroanatomy of peripheral nerves is required for a better insight into their function and the development of neuromodulation tools and strategies. In biophysical modeling, it is commonly assumed that the complex spatial arrangement of myelinated and unmyelinated axons in peripheral nerves is random, however, in reality the axonal organization is inhomogeneous and anisotropic. Present quantitative neuroanatomy methods analyze peripheral nerves in terms of the number of axons and the morphometric characteristics of the axons, such as area and diameter. In this study, we employed spatial statistics and point process models to describe the spatial arrangement of axons and Sinkhorn distances to compute the similarities between these arrangements (in terms of first- and second-order statistics) in various vagus and pelvic nerve cross-sections. We utilized high-resolution TEM images that have been segmented using a custom-built high-throughput deep learning system based on a highly modified U-Net architecture. Our findings show a novel and innovative approach to quantifying similarities between spatial point patterns using metrics derived from the solution to the optimal transport problem. We also present a generalizable pipeline for quantitative analysis of peripheral nerve architecture. Our data demonstrate differences between male- and female-originating samples and similarities between the pelvic and abdominal vagus nerves.
翻訳日:2022-10-19 16:08:14 公開日:2022-10-18
# 永続ホモロジーのための$k$-Meansクラスタリング

$k$-Means Clustering for Persistent Homology ( http://arxiv.org/abs/2210.10003v1 )

ライセンス: Link先を確認
Prudence Leung, Yueqi Cao, Anthea Monod(参考訳) 永続ホモロジー(Persistent homology)は、データセット内のトポロジ的特徴の寿命を永続化ダイアグラムとして要約するトポロジ的データ解析の基本的な方法論である。 しかしながら、その広範な実装、特に統計方法論や機械学習アルゴリズムにおける大きな課題は、半開区間の多重集合としての永続化ダイアグラムの形式である。 本稿では,持続性図の組込みや永続化図自体の一般化を永続性尺度として扱う,$k$-meansクラスタリングについて包括的に検討する。 また,クラスタ化性能は,より複雑な表現にもかかわらず,ベクトル化表現をはるかに上回っていることを示す。 さらに,永続図空間上のアルゴリズムの収束を証明し,karush-kuhn-tuckerフレームワークにおける最適化問題に対する解の理論的性質を確立する。

Persistent homology is a fundamental methodology from topological data analysis that summarizes the lifetimes of topological features within a dataset as a persistence diagram; it has recently gained much popularity from its myriad successful applications to many domains. However, a significant challenge to its widespread implementation, especially in statistical methodology and machine learning algorithms, is the format of the persistence diagram as a multiset of half-open intervals. In this paper, we comprehensively study $k$-means clustering where the input is various embeddings of persistence diagrams, as well as persistence diagrams themselves and their generalizations as persistence measures. We show that the clustering performance directly on persistence diagrams and measures far outperform their vectorized representations, despite their more complex representations. Moreover, we prove convergence of the algorithm on persistence diagram space and establish theoretical properties of the solution to the optimization problem in the Karush--Kuhn--Tucker framework.
翻訳日:2022-10-19 16:00:48 公開日:2022-10-18
# 毒殺防止の公平な分類を目指して

Towards Fair Classification against Poisoning Attacks ( http://arxiv.org/abs/2210.09503v1 )

ライセンス: Link先を確認
Han Xu, Xiaorui Liu, Yuxuan Wan, Jiliang Tang(参考訳) 公正分類は、異なる機密グループ間の平等(処理または予測品質)を達成するために分類モデルを強調することを目的としている。 しかし、公正な分類は、訓練された分類器のパフォーマンスを操作するために悪意ある訓練サンプルを故意に挿入する中毒攻撃の危険にさらされる可能性がある。 本研究では,攻撃者がトレーニングデータに少量のサンプルを挿入し,任意の機密属性と他の予測機能を持つ中毒シナリオについて検討する。 比較的訓練された分類器は、最も効果的な防御(本来は従来の分類タスクを守るために提案された)を適用した場合でも、このような中毒攻撃に対して非常に脆弱であることを示す。 公正な分類課題を守るための対策として,従来の防犯手法に適合する汎用的かつ理論的に保証された枠組みを提案する。 広範な実験により,提案手法が代表的なベースライン法よりも精度と公平性において優れたロバスト性が得られることを確認した。

Fair classification aims to stress the classification models to achieve the equality (treatment or prediction quality) among different sensitive groups. However, fair classification can be under the risk of poisoning attacks that deliberately insert malicious training samples to manipulate the trained classifiers' performance. In this work, we study the poisoning scenario where the attacker can insert a small fraction of samples into training data, with arbitrary sensitive attributes as well as other predictive features. We demonstrate that the fairly trained classifiers can be greatly vulnerable to such poisoning attacks, with much worse accuracy & fairness trade-off, even when we apply some of the most effective defenses (originally proposed to defend traditional classification tasks). As countermeasures to defend fair classification tasks, we propose a general and theoretically guaranteed framework which accommodates traditional defense methods to fair classification against poisoning attacks. Through extensive experiments, the results validate that the proposed defense framework obtains better robustness in terms of accuracy and fairness than representative baseline methods.
翻訳日:2022-10-19 15:59:32 公開日:2022-10-18
# 教師なしGNNによるグラフ異常検出

Graph Anomaly Detection with Unsupervised GNNs ( http://arxiv.org/abs/2210.09535v1 )

ライセンス: Link先を確認
Lingxiao Zhao, Saurabh Sawlani, Arvind Srinivasan, Leman Akoglu(参考訳) グラフベースの異常検出は現実世界で多くのアプリケーションを見つける。 このように、ディープラーニングとグラフニューラルネットワーク(gnns)の進歩により、最近深層検出モデルに移行した話題に関する広範な文献が存在する。 以前の作業の大部分は、単一のグラフ内のノード/エッジ/サブグラフ異常の検出に重点を置いており、グラフデータベースにおけるグラフレベルの異常検出に関する作業ははるかに少ない。 本研究の目的は,(1)GNNに基づくエンドツーエンドのグラフレベルの異常検出モデルであるGLAMを設計すること,(2)ラベルの欠如が原因で,教師なしモデル選択に重点を置くこと,そして,特に多数のハイパーパラメータを持つディープNNベースモデルにおいて重要な2つのギャップを埋めることである。 さらに,これまで検討されなかった分布異常の検出を目的とした,mmd-poolingと呼ばれるグラフレベルの埋め込みのための新たなプーリング戦略を提案する。 実世界の15のデータセットに関する広範囲な実験を通じて (i)GLAMはノードレベルと2段階(すなわちエンドツーエンドではない)ベースラインを上回り、 (ii)モデル選択は、性能のばらつきが大きい候補のうち、期待値(平均値)よりもはるかに効果的なモデルを選ぶ。

Graph-based anomaly detection finds numerous applications in the real-world. Thus, there exists extensive literature on the topic that has recently shifted toward deep detection models due to advances in deep learning and graph neural networks (GNNs). A vast majority of prior work focuses on detecting node/edge/subgraph anomalies within a single graph, with much less work on graph-level anomaly detection in a graph database. This work aims to fill two gaps in the literature: We (1) design GLAM, an end-to-end graph-level anomaly detection model based on GNNs, and (2) focus on unsupervised model selection, which is notoriously hard due to lack of any labels, yet especially critical for deep NN based models with a long list of hyper-parameters. Further, we propose a new pooling strategy for graph-level embedding, called MMD-pooling, that is geared toward detecting distribution anomalies which has not been considered before. Through extensive experiments on 15 real-world datasets, we show that (i) GLAM outperforms node-level and two-stage (i.e. not end-to-end) baselines, and (ii) model selection picks a significantly more effective model than expectation (i.e. average) -- without using any labels -- among candidates with otherwise large variation in performance.
翻訳日:2022-10-19 15:59:15 公開日:2022-10-18
# マルウェア分類のための新しい特徴表現

A Novel Feature Representation for Malware Classification ( http://arxiv.org/abs/2210.09580v1 )

ライセンス: Link先を確認
John Musgrave, Temesguen Messay-Kebede, David Kapp, Anca Ralescu(参考訳) 本研究では,マルウェア分類に使用できる悪意あるプログラムの特徴表現について紹介した。 我々はボトムアップアプローチで機能を構築する方法を示し、コンポーネントの観点から悪意のあるプログラムと良質なプログラムの重複を分析した。 また,本手法はtf-idf機能と比較して,データ移動を記述可能な特徴分解能が向上することを示した。

In this study we have presented a novel feature representation for malicious programs that can be used for malware classification. We have shown how to construct the features in a bottom-up approach, and analyzed the overlap of malicious and benign programs in terms of their components. We have shown that our method of analysis offers an increase in feature resolution that is descriptive of data movement in comparison to tf-idf features.
翻訳日:2022-10-19 15:58:57 公開日:2022-10-18
# ODEは歩くことを学習する: クラウドダイナミクスのためのODE-Netベースのデータ駆動モデリング

ODEs learn to walk: ODE-Net based data-driven modeling for crowd dynamics ( http://arxiv.org/abs/2210.09602v1 )

ライセンス: Link先を確認
Chen Cheng and Jinglai Li(参考訳) 歩行者の行動を予測することは、現実世界の様々な問題にとって非常に重要である。 観測データから数学的モデルを学ぶことを目的としたデータ駆動モデリングは、そのようなシステムの正確な予測を可能にするモデルを構築するための有望なツールである。 本研究では,クラウド・ダイナミックスの連続時間モデル構築のためのODE-Netフレームワークに基づくデータ駆動型モデリング手法を提案する。 本稿では,これらの問題にODE-Net法を適用する際の課題について論じるとともに,これらの課題をODE-Netフレームワークにソーシャルフォースの概念を組み込むことで解決することを提案する。 最後に,提案手法の性能を示すための応用例を示す。

Predicting the behaviors of pedestrian crowds is of critical importance for a variety of real-world problems. Data driven modeling, which aims to learn the mathematical models from observed data, is a promising tool to construct models that can make accurate predictions of such systems. In this work, we present a data-driven modeling approach based on the ODE-Net framework, for constructing continuous-time models of crowd dynamics. We discuss some challenging issues in applying the ODE-Net method to such problems, which are primarily associated with the dimensionality of the underlying crowd system, and we propose to address these issues by incorporating the social-force concept in the ODE-Net framework. Finally application examples are provided to demonstrate the performance of the proposed method.
翻訳日:2022-10-19 15:58:51 公開日:2022-10-18
# FLECS-CGD:圧縮および圧縮による2次学習フレームワーク

FLECS-CGD: A Federated Learning Second-Order Framework via Compression and Sketching with Compressed Gradient Differences ( http://arxiv.org/abs/2210.09626v1 )

ライセンス: Link先を確認
Artem Agafonov, Brahim Erraji, and Martin Tak\'a\v{c}(参考訳) 最近の論文 FLECS (Agafonov et al, FLECS: A Federated Learning Second-Order Framework via Compression and Sketching) では、フェデレートラーニング問題に対する2次フレームワーク FLECS が提案されている。 スケッチしたヘッセンの圧縮を利用して通信コストを低くする。 しかし、FLECSの主なボトルネックは圧縮のない勾配通信である。 本稿では, FLECS-CGD (FLECS with Compressed Gradient differences) と呼ばれる圧縮勾配差によるFLECSの修正を提案し, 確率的最適化に適用する。 収束保証は、強い凸と非凸のケースで提供される。 実験は提案手法の実用的利点を示す。

In the recent paper FLECS (Agafonov et al, FLECS: A Federated Learning Second-Order Framework via Compression and Sketching), the second-order framework FLECS was proposed for the Federated Learning problem. This method utilize compression of sketched Hessians to make communication costs low. However, the main bottleneck of FLECS is gradient communication without compression. In this paper, we propose the modification of FLECS with compressed gradient differences, which we call FLECS-CGD (FLECS with Compressed Gradient Differences) and make it applicable for stochastic optimization. Convergence guarantees are provided in strongly convex and nonconvex cases. Experiments show the practical benefit of proposed approach.
翻訳日:2022-10-19 15:58:37 公開日:2022-10-18
# ビデオ異常検出のための時空間型コンテキストフュージョン

Spatio-Temporal-based Context Fusion for Video Anomaly Detection ( http://arxiv.org/abs/2210.09572v1 )

ライセンス: Link先を確認
Chao Hu, Weibin Qiu, Weijie Wu and Liqiang Zhu(参考訳) ビデオ異常検出はビデオ内の異常な事象を検出することを目的としており、主な対象は人や車両などの対象物である。 ビデオデータの各ターゲットは、豊富な時空間情報を有する。 既存の手法のほとんどは時間的文脈のみに焦点を当てており、異常検出における空間的文脈の役割を無視している。 空間コンテキスト情報は、検出対象と周辺対象との関係を表す。 異常検出は理にかなっている。 そこで,目的とする時空間的コンテキスト融合に基づく映像異常検出アルゴリズムを提案する。 まず、ビデオフレーム内のターゲットを対象検出ネットワークを介して抽出し、背景干渉を低減する。 そして、2つの隣接するフレームの光フローマップを算出する。 動画フレーム内の複数のターゲットを用いて、空間的コンテキストを同時に構築し、ターゲットの外観と動きの特徴を再エンコードし、最後に、時空間の2ストリームネットワークを介して上記の特徴を再構築し、再構成誤差を用いて異常スコアを表現している。 このアルゴリズムは、UCSDped2 と Avenue のデータセットでそれぞれ 98.5% と 86.3% のフレームレベル AUC を達成する。 UCSDped2データセットでは、時空間ストリームネットワークと比較して、時空間ストリームネットワークはフレームを5.1%と0.3%改善する。 空間文脈符号化を用いてフレームレベルのAUCを1%向上させ,その有効性を検証した。

Video anomaly detection aims to discover abnormal events in videos, and the principal objects are target objects such as people and vehicles. Each target in the video data has rich spatio-temporal context information. Most existing methods only focus on the temporal context, ignoring the role of the spatial context in anomaly detection. The spatial context information represents the relationship between the detection target and surrounding targets. Anomaly detection makes a lot of sense. To this end, a video anomaly detection algorithm based on target spatio-temporal context fusion is proposed. Firstly, the target in the video frame is extracted through the target detection network to reduce background interference. Then the optical flow map of two adjacent frames is calculated. Motion features are used multiple targets in the video frame to construct spatial context simultaneously, re-encoding the target appearance and motion features, and finally reconstructing the above features through the spatio-temporal dual-stream network, and using the reconstruction error to represent the abnormal score. The algorithm achieves frame-level AUCs of 98.5% and 86.3% on the UCSDped2 and Avenue datasets, respectively. On the UCSDped2 dataset, the spatio-temporal dual-stream network improves frames by 5.1% and 0.3%, respectively, compared to the temporal and spatial stream networks. After using spatial context encoding, the frame-level AUC is enhanced by 1%, which verifies the method's effectiveness.
翻訳日:2022-10-19 15:52:21 公開日:2022-10-18
# 知覚型マルチエクスプロイア融合

Perceptual Multi-Exposure Fusion ( http://arxiv.org/abs/2210.09604v1 )

ライセンス: Link先を確認
Xiaoning Liu(参考訳) 高ダイナミックレンジ(HDR)シーンシューティングの需要が高まっているため、マルチ露光画像融合(MEF)技術は増加傾向にある。 近年では、詳細化に基づくマルチスケール露光融合アプローチにより、ハイライトやシャドウの詳細の改善が進んでいる。 しかし、そのような方法のほとんどは計算コストがかかりすぎてモバイルデバイスにデプロイできない。 本稿では,細かなシャドウ/ハイライトの詳細を確実にするだけでなく,詳細化手法よりも複雑さの低い知覚的マルチ露光融合法を提案する。 本研究では, ディテールエンハンスメント成分の代わりに, 3つの古典的露出指標の潜在的な欠陥を分析し, 適応的ウェルエクスポースネス (awe) とカラー画像の勾配 (3-d 勾配) の2つを改善した。 YCbCr色空間で設計されたAWEは、様々な露光画像の違いを考慮する。 細部を抽出するために3次元勾配を用いる。 静的なシーンに適した大規模マルチ露光ベンチマークデータセットを構築し,全画面に167の画像シーケンスを含む。 構築したデータセットの実験では,提案手法が既存の8つの最先端手法を視覚的およびMEF-SSIM値で上回ることを示した。 さらに,本手法は,現在の画像強調技術の改善を図り,明度の高い細部を確保できる。

As an ever-increasing demand for high dynamic range (HDR) scene shooting, multi-exposure image fusion (MEF) technology has abounded. In recent years, multi-scale exposure fusion approaches based on detail-enhancement have led the way for improvement in highlight and shadow details. Most of such methods, however, are too computationally expensive to be deployed on mobile devices. This paper presents a perceptual multi-exposure fusion method that not just ensures fine shadow/highlight details but with lower complexity than detailenhanced methods. We analyze the potential defects of three classical exposure measures in lieu of using detail-enhancement component and improve two of them, namely adaptive Wellexposedness (AWE) and the gradient of color images (3-D gradient). AWE designed in YCbCr color space considers the difference between varying exposure images. 3-D gradient is employed to extract fine details. We build a large-scale multiexposure benchmark dataset suitable for static scenes, which contains 167 image sequences all told. Experiments on the constructed dataset demonstrate that the proposed method exceeds existing eight state-of-the-art approaches in terms of visually and MEF-SSIM value. Moreover, our approach can achieve a better improvement for current image enhancement techniques, ensuring fine detail in bright light.
翻訳日:2022-10-19 15:52:00 公開日:2022-10-18
# 分類分野におけるポイントクラウドデータ処理のための3次元スケーラブル量子畳み込みニューラルネットワーク

3D Scalable Quantum Convolutional Neural Networks for Point Cloud Data Processing in Classification Applications ( http://arxiv.org/abs/2210.09728v1 )

ライセンス: Link先を確認
Hankyul Baek, Won Joon Yun, and Joongheon Kim(参考訳) ノイズの多い中間スケール量子(NISQ)時代の始まりとして、量子ニューラルネットワーク(QNN)が、古典的ニューラルネットワークでは解決できないいくつかの特定の問題の解決策として最近登場した。 さらに、量子畳み込みニューラルネットワーク(QCNN)は、QNNとは対照的に高次元ベクトル入力を処理できるため、CNNの量子変換である。 しかし、量子コンピューティングの性質から、QCNNをスケールアップして、不毛な高原によって十分な数の特徴を抽出することは困難である。 分類アプリケーションにおけるポイントクラウドデータ処理のための3DスケーラブルQCNN(sQCNN-3D)を提案する。 さらに,SQCNN-3D上には,量子コンピューティングの忠実度を用いて,量子ビット数に制限のある特徴を多様化するための逆忠実度トレーニング(RF-Train)も考慮されている。 データ集約的な性能評価は,提案アルゴリズムが望ましい性能を達成することを検証する。

With the beginning of the noisy intermediate-scale quantum (NISQ) era, a quantum neural network (QNN) has recently emerged as a solution for several specific problems that classical neural networks cannot solve. Moreover, a quantum convolutional neural network (QCNN) is the quantum-version of CNN because it can process high-dimensional vector inputs in contrast to QNN. However, due to the nature of quantum computing, it is difficult to scale up the QCNN to extract a sufficient number of features due to barren plateaus. Motivated by this, a novel 3D scalable QCNN (sQCNN-3D) is proposed for point cloud data processing in classification applications. Furthermore, reverse fidelity training (RF-Train) is additionally considered on top of sQCNN-3D for diversifying features with a limited number of qubits using the fidelity of quantum computing. Our data-intensive performance evaluation verifies that the proposed algorithm achieves desired performance.
翻訳日:2022-10-19 15:51:39 公開日:2022-10-18
# ラベル伝搬によるクロスドメイン適応型無人航空機のリアルタイムマルチモーダルセマンティクス融合

Real-Time Multi-Modal Semantic Fusion on Unmanned Aerial Vehicles with Label Propagation for Cross-Domain Adaptation ( http://arxiv.org/abs/2210.09739v1 )

ライセンス: Link先を確認
Simon Bultmann, Jan Quenzel, Sven Behnke(参考訳) 複数の補完センサーを装備した無人航空機(UAV)は、高速な自律的または遠隔操作型セマンティックシーン分析(例えば災害調査)に極めて有益である。 本稿では,複数センサモードのリアルタイムなセマンティック推論と融合のためのUAVシステムを提案する。 LiDARスキャンとRGBイメージのセマンティックセグメンテーション、およびRGBとサーマルイメージのオブジェクト検出は、軽量CNNアーキテクチャと組み込み推論アクセラレータを使用してUAVコンピュータ上でオンラインで実行される。 我々は,複数のセンサモードからのセマンティック情報が3次元点雲と画像分割マスクを増大させ,同中心のセマンティックマップを生成する。 セマンティックマップ上のラベルの伝搬は、クロスモダリティとクロスドメイン監視によるセンサ固有の適応を可能にする。 我々のシステムは、$\approx$9 Hzの強化セマンティックイメージとポイントクラウドを提供する。 都市環境および災害現場における実環境実験における統合システムの評価を行った。

Unmanned aerial vehicles (UAVs) equipped with multiple complementary sensors have tremendous potential for fast autonomous or remote-controlled semantic scene analysis, e.g., for disaster examination. Here, we propose a UAV system for real-time semantic inference and fusion of multiple sensor modalities. Semantic segmentation of LiDAR scans and RGB images, as well as object detection on RGB and thermal images, run online onboard the UAV computer using lightweight CNN architectures and embedded inference accelerators. We follow a late fusion approach where semantic information from multiple sensor modalities augments 3D point clouds and image segmentation masks while also generating an allocentric semantic map. Label propagation on the semantic map allows for sensor-specific adaptation with cross-modality and cross-domain supervision. Our system provides augmented semantic images and point clouds with $\approx$ 9 Hz. We evaluate the integrated system in real-world experiments in an urban environment and at a disaster test site.
翻訳日:2022-10-19 15:51:21 公開日:2022-10-18
# 長期視覚定位のためのリアルタイム融合フレームワーク

A Real-Time Fusion Framework for Long-term Visual Localization ( http://arxiv.org/abs/2210.09757v1 )

ライセンス: Link先を確認
Yuchen Yang, Xudong Zhang, Shuang Gao, Jixiang Wan, Yishan Ping, Yuyue Liu, Jijunnan Li, Yandong Guo(参考訳) 視覚のローカライゼーションは、6自由度 (6dof) のポーズをイメージ機能でレグレッションする基本的なタスクであり、多くのロボティクスアプリケーションで高精度なローカライゼーション要求を提供する。 動きのぼやけ、照明の変化、環境の変化といった変性条件は、このタスクにおいて大きな課題となる。 逐次情報や慣性測定ユニット(IMU)の入力などの追加情報との融合は、そのような問題を大いに助けた。 本稿では、グローバルおよびローカルなポーズ推定を融合して、精度と効率性を実現する効率的なクライアントサーバのビジュアルローカライゼーションアーキテクチャを提案する。 マッピングにおける幾何学的ヒントや、測定品質を改善するためにグローバルなポーズ回帰モジュールが含まれる。 計算複雑性と精度を活用するために、疎結合の融合ポリシーが採用されている。 典型的なオープンソースベンチマークである4SeasonsとOpenLORISで評価を行う。 定量的な結果は、我々のフレームワークが、他の最先端の視覚的ローカライゼーションソリューションと競合する性能を持っていることを証明している。

Visual localization is a fundamental task that regresses the 6 Degree Of Freedom (6DoF) poses with image features in order to serve the high precision localization requests in many robotics applications. Degenerate conditions like motion blur, illumination changes and environment variations place great challenges in this task. Fusion with additional information, such as sequential information and Inertial Measurement Unit (IMU) inputs, would greatly assist such problems. In this paper, we present an efficient client-server visual localization architecture that fuses global and local pose estimations to realize promising precision and efficiency. We include additional geometry hints in mapping and global pose regressing modules to improve the measurement quality. A loosely coupled fusion policy is adopted to leverage the computation complexity and accuracy. We conduct the evaluations on two typical open-source benchmarks, 4Seasons and OpenLORIS. Quantitative results prove that our framework has competitive performance with respect to other state-of-the-art visual localization solutions.
翻訳日:2022-10-19 15:51:04 公開日:2022-10-18
# スマートフォンを用いたオンザゴ反射率変換イメージング

On-the-go Reflectance Transformation Imaging with Ordinary Smartphones ( http://arxiv.org/abs/2210.09821v1 )

ライセンス: Link先を確認
Mara Pistellato and Filippo Bergamasco(参考訳) 反射率変換イメージング(rti)は、異なる光条件下で物体をキャプチャすることでピクセル単位の反射率情報を復元できる一般的な技術である。 これは後に表面の詳細を明らかにし、対話的に主題を照らすために用いられる。 しかし、そのようなプロセスは通常、複数の場所から光の方向を回復するために専用のハードウェアのセットアップを必要とする。 本稿では,通常の2台のスマートフォンで動画を録画することで,新たなRTI手法を提案する。 1つの装置のフラッシュledライトは被写体を照らし、もう1つは反射率を捉える。 カメラレンズの近傍にリードが取り付けられているため、被写体を取り囲む被写体マーカーを観察しながら照明装置を自由に移動させることで、数千枚の画像の光方向を推測することができる。 このようなデータを扱うために,主成分分析(PCA)により圧縮された極めてコンパクトな反射率分布データから,任意の光方向の物体の外観を再構成するニューラルリライトモデルを提案する。 実験により,提案手法は,専用ハードウェアのセットアップを含む最先端のアプローチよりも優れたRTIモデルにより,現場で容易に実行可能であることが示された。

Reflectance Transformation Imaging (RTI) is a popular technique that allows the recovery of per-pixel reflectance information by capturing an object under different light conditions. This can be later used to reveal surface details and interactively relight the subject. Such process, however, typically requires dedicated hardware setups to recover the light direction from multiple locations, making the process tedious when performed outside the lab. We propose a novel RTI method that can be carried out by recording videos with two ordinary smartphones. The flash led-light of one device is used to illuminate the subject while the other captures the reflectance. Since the led is mounted close to the camera lenses, we can infer the light direction for thousands of images by freely moving the illuminating device while observing a fiducial marker surrounding the subject. To deal with such amount of data, we propose a neural relighting model that reconstructs object appearance for arbitrary light directions from extremely compact reflectance distribution data compressed via Principal Components Analysis (PCA). Experiments shows that the proposed technique can be easily performed on the field with a resulting RTI model that can outperform state-of-the-art approaches involving dedicated hardware setups.
翻訳日:2022-10-19 15:50:47 公開日:2022-10-18
# BIOWISH:ウェアラブル慣性センサを用いた生体認証による心臓活動の検出

BIOWISH: Biometric Recognition using Wearable Inertial Sensors detecting Heart Activity ( http://arxiv.org/abs/2210.09843v1 )

ライセンス: Link先を確認
Emanuele Maiorana, Chiara Romano, Emiliano Schena, and Carlo Massaroni(参考訳) ウェアラブルデバイスは、身体活動や健康関連パラメータを監視する能力を利用してデプロイできる幅広いアプリケーションによって、ますます利用されている。 それらの使用法は、記録された特徴の特異性を利用して識別識別子を生成する生体認証を行うために最近提案されている。 この研究の多くは、心活動から導かれる信号について検討しており、主に電気的測定による胸部心電図、または光胸腺撮影を用いた光学的記録を用いて検出している。 本稿では,ウェアラブル慣性センサを用いた生体計測による心臓活動検出手法(BIOWISH)を提案する。 より詳しくは, 筋電図, ジャイロ心電図を用いて得られた機械的測定を応用し, 人を認識する可能性について検討する。 トランスファー学習とシャムトレーニングに依拠するディープラーニング技術を含むいくつかの特徴抽出器と分類器は、考慮された信号から特徴的な特徴を導出し、正当な主題と虚偽の主題を区別するために用いられる。 異なる活動を行う被験者から取得した取得を含むマルチセッションデータベースを用いて、検証システムをシミュレートする実験を行う。 得られた結果から,ウェアラブル慣性センサで収集した胸部振動の測定から得られた識別子を用いて,短時間記録においても高い認識性能を保証できることが確認された。

Wearable devices are increasingly used, thanks to the wide set of applications that can be deployed exploiting their ability to monitor physical activity and health-related parameters. Their usage has been recently proposed to perform biometric recognition, leveraging on the uniqueness of the recorded traits to generate discriminative identifiers. Most of the studies conducted on this topic have considered signals derived from cardiac activity, detecting it mainly using electrical measurements thorugh electrocardiography, or optical recordings employing photoplethysmography. In this paper we instead propose a BIOmetric recognition approach using Wearable Inertial Sensors detecting Heart activity (BIOWISH). In more detail, we investigate the feasibility of exploiting mechanical measurements obtained through seismocardiography and gyrocardiography to recognize a person. Several feature extractors and classifiers, including deep learning techniques relying on transfer learning and siamese training, are employed to derive distinctive characteristics from the considered signals, and differentiate between legitimate and impostor subjects. An multi-session database, comprising acquisitions taken from subjects performing different activities, is employed to perform experimental tests simulating a verification system. The obtained results testify that identifiers derived from measurements of chest vibrations, collected by wearable inertial sensors, could be employed to guarantee high recognition performance, even when considering short-time recordings.
翻訳日:2022-10-19 15:50:23 公開日:2022-10-18
# 小児科領域における自動計画を用いた社会支援ロボット

A Socially Assistive Robot using Automated Planning in a Paediatric Clinical Setting ( http://arxiv.org/abs/2210.09753v1 )

ライセンス: Link先を確認
Alan Lindsay, Andres Ramirez-Duque, Ronald P.A. Petrick, Mary Ellen Foster(参考訳) 本研究は,小児の苦痛と苦痛を伴う医療処置に対処するソーシャルロボットを臨床現場で開発するためのプロジェクトである。 提案手法では,ロボットが人間と対話する際に使用する物理的,知覚的,社会的行動を含む計画を生成するために,行動選択のコアコンポーネントとして自動計画を用いる。 本システムの重要な機能は,小児患者の情緒的状態に応じてロボットの行動が適応することである。 ロボットは、子ども、親/介護者、医療専門家との適切なかつ安全な対話が不可欠である、身体的および社会的環境において動作しなければならない。 本稿では,本システムについて述べるとともに,シナリオの重要な課題について考察し,その対処方法について述べる。

We present an ongoing project that aims to develop a social robot to help children cope with painful and distressing medical procedures in a clinical setting. Our approach uses automated planning as a core component for action selection in order to generate plans that include physical, sensory, and social actions for the robot to use when interacting with humans. A key capability of our system is that the robot's behaviour adapts based on the affective state of the child patient. The robot must operate in a challenging physical and social environment where appropriate and safe interaction with children, parents/caregivers, and healthcare professionals is crucial. In this paper, we present our system, examine some of the key challenges of the scenario, and describe how they are addressed by our system.
翻訳日:2022-10-19 15:49:43 公開日:2022-10-18
# マルチタスク政策訓練による簡易な創発的行動表現

Simple Emergent Action Representations from Multi-Task Policy Training ( http://arxiv.org/abs/2210.09566v1 )

ライセンス: Link先を確認
Pu Hua, Yubei Chen, Huazhe Xu(参考訳) 深層強化学習における高次元空間(例えば画像観察やモータトルク)における低レベルの感覚信号と運動信号は、下流のタスクを直接理解または活用するために複雑である。 感覚表現は広く研究されているが、運動スキルを形成する行動の表現はまだ探索中である。 本研究では,マルチタスクポリシネットワークが入力状態とタスク埋め込みとして取り込むと,タスク埋め込みに基づく空間が出現し,適度な制約を伴う有意義なアクション表現を含むことを発見した。 この空間内では、補間または構成された埋め込みは、エージェントに意味のあるアクションシーケンスを実行するよう指示する高レベルインターフェースとして機能する。 実験結果から, 提案した行動表現は, 動作内補間および動作間合成に限定的あるいは無学習で有効であるだけでなく, ムジョコ・ロコモーション・タスクにおいて, 強いベースラインに対するタスク適応の優れた能力を示す。 このエビデンスにより、学習行動表現は効率的で適応可能で構成可能なRLへの有望な方向であり、抽象的な行動計画と運動信号空間の理解の基礎を形成する。 匿名プロジェクトページ: https://sites.google.com/view/emergent-action-representation/

Low-level sensory and motor signals in the high-dimensional spaces (e.g., image observations or motor torques) in deep reinforcement learning are complicated to understand or harness for downstream tasks directly. While sensory representations have been widely studied, the representations of actions that form motor skills are yet under exploration. In this work, we find that when a multi-task policy network takes as input states and task embeddings, a space based on the task embeddings emerges to contain meaningful action representations with moderate constraints. Within this space, interpolated or composed embeddings can serve as a high-level interface to instruct the agent to perform meaningful action sequences. Empirical results not only show that the proposed action representations have efficacy for intra-action interpolation and inter-action composition with limited or no learning, but also demonstrate their superior ability in task adaptation to strong baselines in Mujoco locomotion tasks. The evidence elucidates that learning action representations is a promising direction toward efficient, adaptable, and composable RL, forming the basis of abstract action planning and the understanding of motor signal space. Anonymous project page: https://sites.google.com/view/emergent-action-representation/
翻訳日:2022-10-19 15:43:22 公開日:2022-10-18
# Nirdizati: 高度な予測プロセス監視ツールキット

Nirdizati: an Advanced Predictive Process Monitoring Toolkit ( http://arxiv.org/abs/2210.09688v1 )

ライセンス: Link先を確認
Williams Rizzi, Chiara Di Francescomarino, Chiara Ghidini, Fabrizio Maria Maggi(参考訳) 予測プロセスモニタリングはプロセスマイニングの一分野であり、イベントログに記録された過去のプロセス実行を使用して、ビジネスプロセスの継続的な実行がどのように発展するかを予測することを目的としている。 この分野における最近の出版物の流れは、研究者や利用者が最も適した技術を分析し、比較し、選択できるツールの必要性を示している。 Nirdizatiは、ユーザが予測モデルを構築し、比較し、分析し、説明するための専用のツールである。 最先端のアプローチの豊富なセットを提供することで、nirdizatiはbpm研究者と実践者に対して、予測プロセスのモニタリング技術を調査し比較するための有用な柔軟な手段を提供します。 本稿では,モジュール性とスケーラビリティを向上させるために開発されたアーキテクチャとともに,現在のNirdizatiについて述べる。 nirdizatiの特徴は、信頼できる予測プロセス監視モデルを構築するために、パイプライン全体の研究者や実践者をサポートする能力を強化している。

Predictive Process Monitoring is a field of Process Mining that aims at predicting how an ongoing execution of a business process will develop in the future using past process executions recorded in event logs. The recent stream of publications in this field shows the need for tools able to support researchers and users in analyzing, comparing and selecting the techniques that are the most suitable for them. Nirdizati is a dedicated tool for supporting users in building, comparing, analyzing, and explaining predictive models that can then be used to perform predictions on the future of an ongoing case. By providing a rich set of different state-of-the-art approaches, Nirdizati offers BPM researchers and practitioners a useful and flexible instrument for investigating and comparing Predictive Process Monitoring techniques. In this paper, we present the current version of Nirdizati, together with its architecture which has been developed to improve its modularity and scalability. The features of Nirdizati enrich its capability to support researchers and practitioners within the entire pipeline for constructing reliable Predictive Process Monitoring models.
翻訳日:2022-10-19 15:43:01 公開日:2022-10-18
# 成分レベルの予後・健康管理(phm)のための深部散乱スペクトルゲルマンネスと故障検出・診断

Deep Scattering Spectrum germaneness to Fault Detection and Diagnosis for Component-level Prognostics and Health Management (PHM) ( http://arxiv.org/abs/2210.09837v1 )

ライセンス: Link先を確認
Ali Rohan(参考訳) 予後・健康管理システム(PHM)の故障検出・診断において、ほとんどの手法は機械学習(ML)または深層学習(DL)を用いて、いくつかの特徴を事前に抽出する(MLの場合)か、フィルタを使用して、重要な分類タスクを実行する(DLの場合)自律的に特徴を抽出する(DLの場合)。 特に、電流、振動、または音響放射信号が主要な情報源である産業用ロボットの故障検出および診断において、異なるレベルで圧縮された情報を持つ構成要素に信号をマッピングできる特徴領域は、典型的なmlおよびdlベースのフレームワークの複雑さとサイズを減らすことができる。 ディープ散乱スペクトル(英: deep scattering spectrum、dss)は、ウェーブレット変換(wt)アナロジーを用いて、信号の様々な時間領域と周波数領域で符号化された情報を分離抽出する戦略の一つである。 その結果,本研究の焦点は,産業用ロボットの機械的構成要素に対するDSSの故障検出とデイグナシスとの関連性を検討することである。 複数の産業用ロボットと異なる機械故障を用いて,入力信号から抽出した低分散特徴を用いて故障を分類する手法を構築した。 提案手法は実用試験台に実装され, 99.7%, 88.1%の分類精度を有する単純・複雑分類問題に対して, 断層検出および診断において良好な性能を示した。

In fault detection and diagnosis of prognostics and health management (PHM) systems, most of the methodologies utilize machine learning (ML) or deep learning (DL) through which either some features are extracted beforehand (in the case of ML) or filters are used to extract features autonomously (in case of DL) to perform the critical classification task. Particularly in the fault detection and diagnosis of industrial robots where electric current, vibration or acoustic emissions signals are the primary sources of information, a feature domain that can map the signals into their constituent components with compressed information at different levels can reduce the complexities and size of typical ML and DL-based frameworks. The Deep Scattering Spectrum (DSS) is one of the strategies that use the Wavelet Transform (WT) analogy to separate and extract the information encoded in a signal's various temporal and frequency domains. As a result, the focus of this work is on the study of the DSS's relevance to fault detection and daignosis for mechanical components of industrail robots. We used multiple industrial robots and distinct mechanical faults to build an approach for classifying the faults using low-variance features extracted from the input signals. The presented approach was implemented on the practical test benches and demonstrated satisfactory performance in fault detection and diagnosis for simple and complex classification problems with a classification accuracy of 99.7% and 88.1%, respectively.
翻訳日:2022-10-19 15:42:42 公開日:2022-10-18
# サイバー詐欺対策のための制御可能なフェイク文書

Controllable Fake Document Infilling for Cyber Deception ( http://arxiv.org/abs/2210.09917v1 )

ライセンス: Link先を確認
Yibo Hu, Yu Lin, Erick Skorupa Parolin, Latifur Khan, Kevin Hamlen(参考訳) サイバー・デセプションにおける最近の研究は、正しい情報を識別する必要がある敵にコストを課すために、重要な文書の複数の偽バージョンを生成して悪意のある侵入を防止する方法を研究する。 しかし、既存のアプローチは文脈に依存しないため、サブ最適出力と未検証出力が生じる。 そこで我々は,FDI(Fake Document Infilling)という新しいコンテキスト認識モデルを提案し,この問題を制御可能なマスク-then-infillプロシージャに変換する。 FDIマスクは文書内の様々な長さの重要概念を隠蔽し、それ以前のコンテキストと将来のコンテキストの両方を考慮して現実的だが偽の代替品を埋める。 技術文書やニュース記事を総合的に評価する。 その結果、FDIは、重要な情報や敵を欺くために、適度な修正を施した信頼性の高い偽物を生成する上で、ベースラインよりも優れていた。

Recent works in cyber deception study how to deter malicious intrusion by generating multiple fake versions of a critical document to impose costs on adversaries who need to identify the correct information. However, existing approaches are context-agnostic, resulting in sub-optimal and unvaried outputs. We propose a novel context-aware model, Fake Document Infilling (FDI), by converting the problem to a controllable mask-then-infill procedure. FDI masks important concepts of varied lengths in the document, then infills a realistic but fake alternative considering both the previous and future contexts. We conduct comprehensive evaluations on technical documents and news stories. Results show that FDI outperforms the baselines in generating highly believable fakes with moderate modification to protect critical information and deceive adversaries.
翻訳日:2022-10-19 15:42:16 公開日:2022-10-18
# CTC音声認識モデルのパーソナライズ

Personalization of CTC Speech Recognition Models ( http://arxiv.org/abs/2210.09510v1 )

ライセンス: Link先を確認
Saket Dingliwal, Monica Sunkara, Srikanth Ronanki, Jeff Farris, Katrin Kirchhoff, Sravan Bodapati(参考訳) 接続性時間分類(CTC)を用いたエンドツーエンド音声認識モデルは近年普及している。 これらのモデルでは、非自己回帰CTCデコーダはその速度と単純さのために推論時にしばしば使用される。 しかし、これらのモデルは、将来の予測に影響を与えるために過去の時間ステップからの出力トークンを阻止する条件付き独立仮定のため、パーソナライズが難しい。 そこで本研究では,まず,レア・ロングテール・アウト・オブ・ボキャブラリ(OOV)単語のリストに注意を払ってエンコーダをバイアスし,デコード中に動的ブースティングと電話アライメントネットワークを用いてサブワード予測をバイアスする手法を提案する。 我々は、オープンソースのVoxPopuliおよび社内医療データセットに対するアプローチを評価し、強力なCTCベースライン上でのドメイン固有のレアワードに対するF1スコアの60%改善を示す。

End-to-end speech recognition models trained using joint Connectionist Temporal Classification (CTC)-Attention loss have gained popularity recently. In these models, a non-autoregressive CTC decoder is often used at inference time due to its speed and simplicity. However, such models are hard to personalize because of their conditional independence assumption that prevents output tokens from previous time steps to influence future predictions. To tackle this, we propose a novel two-way approach that first biases the encoder with attention over a predefined list of rare long-tail and out-of-vocabulary (OOV) words and then uses dynamic boosting and phone alignment network during decoding to further bias the subword predictions. We evaluate our approach on open-source VoxPopuli and in-house medical datasets to showcase a 60% improvement in F1 score on domain-specific rare words over a strong CTC baseline.
翻訳日:2022-10-19 15:42:04 公開日:2022-10-18
# ゼロショット音声翻訳が可能な離散的クロスモーダルアライメント

Discrete Cross-Modal Alignment Enables Zero-Shot Speech Translation ( http://arxiv.org/abs/2210.09556v1 )

ライセンス: Link先を確認
Chen Wang, Yuchen Liu, Boxing Chen, Jiajun Zhang, Wei Luo, Zhongqiang Huang, Chengqing Zong(参考訳) エンドツーエンド音声翻訳(ST)は、中間転写を生成することなく、ソース言語音声を対象言語テキストに翻訳することを目的としている。 しかし、エンドツーエンドメソッドのトレーニングは並列stデータに依存しており、取得が困難で費用がかかる。 幸いなことに、自動音声認識(ASR)と機械翻訳(MT)のための教師付きデータは通常よりアクセスしやすく、ゼロショット音声翻訳が潜在的な方向となる。 既存のゼロショット法は、音声とテキストの2つのモダリティを共有意味空間に整合させることに失敗し、教師付きST法に比べてパフォーマンスが大幅に低下する。 ゼロショットSTを実現するために,音声とテキストの両方のモダリティに適合する離散語彙空間を共用した,離散的クロスモーダルアライメント(DCMA)手法を提案する。 具体的には、ベクトル量子化モジュールを導入し、音声とテキストの連続表現を有限の仮想トークン集合に離散化し、ASRデータを用いて対応する音声とテキストを共有コードブック内の同じ仮想トークンにマッピングする。 このように、ソース言語音声は、ソース言語テキストと同じ意味空間に埋め込むことができ、MTモジュールでターゲット言語テキストに変換することができる。 複数の言語対の実験により、我々のゼロショットST法はSOTAを大幅に改善し、また、強い教師付きSTベースラインと同等のパフォーマーでさえも改善することが示された。

End-to-end Speech Translation (ST) aims at translating the source language speech into target language text without generating the intermediate transcriptions. However, the training of end-to-end methods relies on parallel ST data, which are difficult and expensive to obtain. Fortunately, the supervised data for automatic speech recognition (ASR) and machine translation (MT) are usually more accessible, making zero-shot speech translation a potential direction. Existing zero-shot methods fail to align the two modalities of speech and text into a shared semantic space, resulting in much worse performance compared to the supervised ST methods. In order to enable zero-shot ST, we propose a novel Discrete Cross-Modal Alignment (DCMA) method that employs a shared discrete vocabulary space to accommodate and match both modalities of speech and text. Specifically, we introduce a vector quantization module to discretize the continuous representations of speech and text into a finite set of virtual tokens, and use ASR data to map corresponding speech and text to the same virtual token in a shared codebook. This way, source language speech can be embedded in the same semantic space as the source language text, which can be then transformed into target language text with an MT module. Experiments on multiple language pairs demonstrate that our zero-shot ST method significantly improves the SOTA, and even performers on par with the strong supervised ST baselines.
翻訳日:2022-10-19 15:41:49 公開日:2022-10-18
# 関数レベルコード表現のためのソフトラベルコントラスト事前学習

Soft-Labeled Contrastive Pre-training for Function-level Code Representation ( http://arxiv.org/abs/2210.09597v1 )

ライセンス: Link先を確認
Xiaonan Li, Daya Guo, Yeyun Gong, Yun Lin, Yelong Shen, Xipeng Qiu, Daxin Jiang, Weizhu Chen and Nan Duan(参考訳) コードコントラストプレトレーニングは、最近、コード関連のタスクで著しい進歩を遂げた。 本稿では,2つの正のサンプル構成法を用いて,関数レベルの \textbf{code} \textbf{r} 表現を学ぶための,\textbf{s}oftラベル付きコントラスト事前学習フレームワークである \textbf{scoder} を提案する。 大規模コードコーパスにおけるコード間の関連性を考慮すると、ソフトラベル付きコントラスト付き事前学習は反復的逆行法によりきめ細かなソフトラベルを取得し、それらを用いてより良いコード表現を学ぶことができる。 正のサンプル構成は、対照的な事前学習の鍵である。 以前の作業では、変数リネームのような変換ベースのメソッドを使用して、意味的に等しい正のコードを生成する。 しかし、通常は生成したコードに非常に類似した表面的形状が生じるため、コードセマンティクスの代わりに表面的なコード構造にフォーカスするようにモデルを誤解させる。 SCodeRがコードからセマンティック情報をキャプチャすることを奨励するために、コードコメントと抽象構文サブツリーを使用して、ポジティブなサンプルを構築する。 7つのデータセット上で4つのコード関連タスクを実験する。 実験結果から,SCodeRはこれらすべてに対して新たな最先端性能を実現し,提案手法の有効性を示した。

Code contrastive pre-training has recently achieved significant progress on code-related tasks. In this paper, we present \textbf{SCodeR}, a \textbf{S}oft-labeled contrastive pre-training framework with two positive sample construction methods to learn functional-level \textbf{Code} \textbf{R}epresentation. Considering the relevance between codes in a large-scale code corpus, the soft-labeled contrastive pre-training can obtain fine-grained soft-labels through an iterative adversarial manner and use them to learn better code representation. The positive sample construction is another key for contrastive pre-training. Previous works use transformation-based methods like variable renaming to generate semantically equal positive codes. However, they usually result in the generated code with a highly similar surface form, and thus mislead the model to focus on superficial code structure instead of code semantics. To encourage SCodeR to capture semantic information from the code, we utilize code comments and abstract syntax sub-trees of the code to build positive samples. We conduct experiments on four code-related tasks over seven datasets. Extensive experimental results show that SCodeR achieves new state-of-the-art performance on all of them, which illustrates the effectiveness of the proposed pre-training method.
翻訳日:2022-10-19 15:41:24 公開日:2022-10-18
# Maestro-U:ゼロ教師付き音声ASRにおける共同音声テキスト表現学習の活用

Maestro-U: Leveraging joint speech-text representation learning for zero supervised speech ASR ( http://arxiv.org/abs/2210.10027v1 )

ライセンス: Link先を確認
Zhehuai Chen, Ankur Bapna, Andrew Rosenberg, Yu Zhang, Bhuvana Ramabhadran, Pedro Moreno, Nanxin Chen(参考訳) asr(state-of-the-art automated speech recognition)モデルの訓練は通常、かなりの量の書き起こし音声を必要とする。 本研究では、モーダルマッチングされた共同音声とテキストモデルを用いて、教師付き(手書きの)音声を使わずに大規模な多言語ASRモデルを訓練できることを実証する。 本稿では,多言語,ゼロ教師付き言語,実世界設定における共同学習音声とテキスト表現の利用について検討し,対象言語における未ラベル言語とテキストのみを用いて,ASRがカバーする言語群を拡張した。 FLEURSデータセットを使用して、102ドルの言語をカバーするタスクを定義します。 まず,音声表現とバイトレベルのテキスト表現と言語埋め込みを併用することにより,教師付き音声のない言語における文字誤り率(CER)を,相対的に53\%の64.8\%から30.8\%に劇的に削減できることを示す。 第2に,韓国語のサブセットを用いて,文法的重複に制限がある場合でも,教師付き音声言語からの知識伝達を促進できることを示す。 全体として、maestro-u は oracle のパフォーマンスのギャップを 68.5\% 削減し、19 言語の cer を 15\% 以下にする。

Training state-of-the-art Automated Speech Recognition (ASR) models typically requires a substantial amount of transcribed speech. In this work, we demonstrate that a modality-matched joint speech and text model can be leveraged to train a massively multilingual ASR model without any supervised (manually transcribed) speech for some languages. This paper explores the use of jointly learnt speech and text representations in a massively multilingual, zero supervised speech, real-world setting to expand the set of languages covered by ASR with only unlabeled speech and text in the target languages. Using the FLEURS dataset, we define the task to cover $102$ languages, where transcribed speech is available in $52$ of these languages and can be used to improve end-to-end ASR quality on the remaining $50$. First, we show that by combining speech representations with byte-level text representations and use of language embeddings, we can dramatically reduce the Character Error Rate (CER) on languages with no supervised speech from 64.8\% to 30.8\%, a relative reduction of 53\%. Second, using a subset of South Asian languages we show that Maestro-U can promote knowledge transfer from languages with supervised speech even when there is limited to no graphemic overlap. Overall, Maestro-U closes the gap to oracle performance by 68.5\% relative and reduces the CER of 19 languages below 15\%.
翻訳日:2022-10-19 15:41:03 公開日:2022-10-18
# アンチサイメトリDGN:ディープグラフネットワークのための安定アーキテクチャ

Anti-Symmetric DGN: a stable architecture for Deep Graph Networks ( http://arxiv.org/abs/2210.09789v1 )

ライセンス: Link先を確認
Alessio Gravina, Davide Bacciu, Claudio Gallicchio(参考訳) ディープグラフネットワーク(dgns)は現在、ノード間の適応型メッセージパッシングスキームの実装効率と能力により、グラフから学習する研究の現場を支配している。 しかしながら、DGNは通常、ノード間の長期的な依存関係を伝播し保存する能力に制限されている。 予測問題は、効果的に解決するために異なる、おそらく大きなradiiの相互作用をキャプチャする必要があるため、その効果は低下する。 本研究では, 常微分方程式のレンズを用いて, 安定かつ非散逸的なDGN設計のためのフレームワークであるアンチサイメトリディープグラフネットワーク(A-DGN)を提案する。 我々は,本手法が安定かつ非散逸性であることを理論的に証明し,ノード間の長距離情報を保存し,訓練中に勾配の消失や爆発は起こらないという2つの重要な結果を得た。 提案手法をいくつかのグラフベンチマークで実証的に検証し、A-DGNが性能向上に寄与し、数十のレイヤが使用されている場合でも効果的に学習できることを示した。

Deep Graph Networks (DGNs) currently dominate the research landscape of learning from graphs, due to their efficiency and ability to implement an adaptive message-passing scheme between the nodes. However, DGNs are typically limited in their ability to propagate and preserve long-term dependencies between nodes, \ie they suffer from the over-squashing phenomena. This reduces their effectiveness, since predictive problems may require to capture interactions at different, and possibly large, radii in order to be effectively solved. In this work, we present Anti-Symmetric Deep Graph Networks (A-DGNs), a framework for stable and non-dissipative DGN design, conceived through the lens of ordinary differential equations. We give theoretical proof that our method is stable and non-dissipative, leading to two key results: long-range information between nodes is preserved, and no gradient vanishing or explosion occurs in training. We empirically validate the proposed approach on several graph benchmarks, showing that A-DGN yields to improved performance and enables to learn effectively even when dozens of layers are used.
翻訳日:2022-10-19 15:35:14 公開日:2022-10-18
# グラフ畳み込みの表現力 : ニューラルタンジェントカーネル解析

Representation Power of Graph Convolutions : Neural Tangent Kernel Analysis ( http://arxiv.org/abs/2210.09809v1 )

ライセンス: Link先を確認
Mahalakshmi Sabanayagam, Pascal Esser, Debarghya Ghoshdastidar(参考訳) グラフニューラルネットワーク(GNN)の基本原理は、グラフ畳み込みを用いて隣接するノードを集約することで、データの構造情報を利用することである。 したがって,ネットワーク性能への影響を理解することが重要である。 グラフラプラシアンに基づく畳み込みは、随伴行列 $a$ の対称正規化($d^{-1/2}ad^{-1/2}$ と定義される)において支配的な選択として現れ、最も広く採用されており、ここでは$d$ が次数行列である。 しかし、いくつかの実験的な研究により、行正規化$D^{-1}A$はノード分類においてそれより優れていることが示されている。 GNNの普及にもかかわらず、これらの畳み込み作用素の表現力に関する厳密な理論的研究は行われておらず、この振る舞いを説明することができる。 本研究では,グラフニューラルタンジェントカーネルを用いた半教師付きノード分類におけるグラフ畳み込みの影響を理論的に解析する。 Degree Corrected Stochastic Block Modelでは、次のように証明します。 i) 行正規化は、下層のクラス構造を他の畳み込みよりもよく保存する。 (II) 過度なスムース化によりネットワーク深さが低下するが、クラス情報の損失は行の正規化において最も遅い。 (iii)スキップ接続は、無限の深さでもクラス情報を保持し、過剰なスムーシングをなくす。 実データから理論的な結果が得られた。

The fundamental principle of Graph Neural Networks (GNNs) is to exploit the structural information of the data by aggregating the neighboring nodes using a graph convolution. Therefore, understanding its influence on the network performance is crucial. Convolutions based on graph Laplacian have emerged as the dominant choice with the symmetric normalization of the adjacency matrix $A$, defined as $D^{-1/2}AD^{-1/2}$, being the most widely adopted one, where $D$ is the degree matrix. However, some empirical studies show that row normalization $D^{-1}A$ outperforms it in node classification. Despite the widespread use of GNNs, there is no rigorous theoretical study on the representation power of these convolution operators, that could explain this behavior. In this work, we analyze the influence of the graph convolutions theoretically using Graph Neural Tangent Kernel in a semi-supervised node classification setting. Under a Degree Corrected Stochastic Block Model, we prove that: (i) row normalization preserves the underlying class structure better than other convolutions; (ii) performance degrades with network depth due to over-smoothing, but the loss in class information is the slowest in row normalization; (iii) skip connections retain the class information even at infinite depth, thereby eliminating over-smoothing. We finally validate our theoretical findings on real datasets.
翻訳日:2022-10-19 15:34:54 公開日:2022-10-18
# コントラスト学習による普遍的隠れ単調傾向推定

Universal hidden monotonic trend estimation with contrastive learning ( http://arxiv.org/abs/2210.09817v1 )

ライセンス: Link先を確認
Edouard Pineau, S\'ebastien Razakarivony, Mauricio Gonzalez and Anthony Schrapffer(参考訳) 本稿では,時系列データから基礎となる単調傾向因子を抽出するための普遍的手法について述べる。 標準の単調傾向検出法であるmann-kendall testに関するアプローチを提案し,cte (con contrastive trend estimation) と呼ぶ。 CTE法は時間的データに基づく隠れた傾向を識別し,モノトニックな傾向の同定に使用される標準仮定を回避する。 特にCTEは、任意の種類の時間データ(ベクトル、画像、グラフ、時系列など)を入力として取り込むことができる。 最終的に、さまざまな種類のデータや問題に関するいくつかの実験を通して、CTE手法の関心を述べる。

In this paper, we describe a universal method for extracting the underlying monotonic trend factor from time series data. We propose an approach related to the Mann-Kendall test, a standard monotonic trend detection method and call it contrastive trend estimation (CTE). We show that the CTE method identifies any hidden trend underlying temporal data while avoiding the standard assumptions used for monotonic trend identification. In particular, CTE can take any type of temporal data (vector, images, graphs, time series, etc.) as input. We finally illustrate the interest of our CTE method through several experiments on different types of data and problems.
翻訳日:2022-10-19 15:34:31 公開日:2022-10-18
# ニューラルタンジェントカーネルによる深部アンサンブルの予測変数の識別

Disentangling the Predictive Variance of Deep Ensembles through the Neural Tangent Kernel ( http://arxiv.org/abs/2210.09818v1 )

ライセンス: Link先を確認
Seijin Kobayashi, Pau Vilimelis Aceituno, Johannes von Oswald(参考訳) 不慣れな入力を識別(out-of-distribution(OOD)検出)することは、意思決定プロセスの重要な特性である。 単純かつ実証的に検証された手法は、異なるニューラルネットワーク上の予測の分散が入力の不確実性の代わりに働く深いアンサンブルに基づいている。 それでも、深いアンサンブルの不確実性推定のパフォーマンスにつながる誘導バイアスの理論的理解は欠落している。 本研究は,その挙動を説明するために,単純な線形訓練系で動作する層幅の大きい深層アンサンブルについて検討し,勾配降下で訓練された関数を神経接核で記述する。 2つのノイズ源を同定し、それぞれ初期化時の予測偏差に顕著な帰納バイアスを誘導する。 さらに,両ノイズ源が玩具モデルにおける非線形深部アンサンブルの予測分散や,訓練後の現実的な設定に影響を及ぼすことを示す。 最後に,これらのノイズ源の一部を除去し,有意な変化を生じさせる実用的な方法を提案し,訓練された深層アンサンブルにおけるood検出を改善する。

Identifying unfamiliar inputs, also known as out-of-distribution (OOD) detection, is a crucial property of any decision making process. A simple and empirically validated technique is based on deep ensembles where the variance of predictions over different neural networks acts as a substitute for input uncertainty. Nevertheless, a theoretical understanding of the inductive biases leading to the performance of deep ensemble's uncertainty estimation is missing. To improve our description of their behavior, we study deep ensembles with large layer widths operating in simplified linear training regimes, in which the functions trained with gradient descent can be described by the neural tangent kernel. We identify two sources of noise, each inducing a distinct inductive bias in the predictive variance at initialization. We further show theoretically and empirically that both noise sources affect the predictive variance of non-linear deep ensembles in toy models and realistic settings after training. Finally, we propose practical ways to eliminate part of these noise sources leading to significant changes and improved OOD detection in trained deep ensembles.
翻訳日:2022-10-19 15:34:20 公開日:2022-10-18
# コントラスト学習による画像データセットの教師なし可視化

Unsupervised visualization of image datasets using contrastive learning ( http://arxiv.org/abs/2210.09879v1 )

ライセンス: Link先を確認
Jan Niklas B\"ohm and Philipp Berens and Dmitry Kobak(参考訳) t-SNE や UMAP などの近接グラフに基づく可視化手法は高次元データの可視化に広く用いられている。 しかし、これらのアプローチは、最も近い隣人が意味のあるものである場合にのみ有意義な結果をもたらす。 ピクセル空間で表現される画像はそうではない、なぜならピクセル空間における距離は、しばしば我々の類似感を捉えておらず、したがって隣人は意味的に近接しないからである。 この問題は、simclrのような対照的な学習に基づく自己教師付きアプローチによって回避できるが、これらの手法は可視化に適した二次元埋め込みを生成しない。 本稿では,画像データの教師なし可視化のための新しい手法t-SimCNEを提案する。 t-simcneは、コントラスト学習と隣接埋め込みのアイデアを結合し、高次元のピクセル空間から2次元へのパラメトリックマッピングを訓練する。 得られた2次元埋め込みは、最先端の高次元SimCLR表現に匹敵する分類精度を実現し、セマンティックな関係を忠実に捉えていることを示す。 t-SimCNEを用いて,CIFAR-10とCIFAR-100データセットの情報視覚化を行い,クラスタ構造を充実させ,アーティファクトやアウトリーの強調を行う。

Visualization methods based on the nearest neighbor graph, such as t-SNE or UMAP, are widely used for visualizing high-dimensional data. Yet, these approaches only produce meaningful results if the nearest neighbors themselves are meaningful. For images represented in pixel space this is not the case, as distances in pixel space are often not capturing our sense of similarity and therefore neighbors are not semantically close. This problem can be circumvented by self-supervised approaches based on contrastive learning, such as SimCLR, relying on data augmentation to generate implicit neighbors, but these methods do not produce two-dimensional embeddings suitable for visualization. Here, we present a new method, called t-SimCNE, for unsupervised visualization of image data. T-SimCNE combines ideas from contrastive learning and neighbor embeddings, and trains a parametric mapping from the high-dimensional pixel space into two dimensions. We show that the resulting 2D embeddings achieve classification accuracy comparable to the state-of-the-art high-dimensional SimCLR representations, thus faithfully capturing semantic relationships. Using t-SimCNE, we obtain informative visualizations of the CIFAR-10 and CIFAR-100 datasets, showing rich cluster structure and highlighting artifacts and outliers.
翻訳日:2022-10-19 15:34:02 公開日:2022-10-18
# MASS:マルチ属性選択抑制

MaSS: Multi-attribute Selective Suppression ( http://arxiv.org/abs/2210.09904v1 )

ライセンス: Link先を確認
Chun-Fu Chen, Shaohan Hu, Zhonghao Shi, Prateek Gulati, Bill Moriarty, Marco Pistoia, Vincenzo Piuri, Pierangela Samarati(参考訳) 最近の機械学習技術の急速な進歩は、格納されている量とリッチコンテンツの両方の観点から、今日の利用可能なデータの膨大な豊かさに大きく依存している。 例えば、画像や音声などの生体データは、年齢、性別、感情、起源といった人々の属性を明らかにするのに対して、位置/動きデータは、人々の活動レベル、移動モード、生活習慣を推測するために用いられる。 このような技術的進歩によって実現される新しいサービスやアプリケーションとともに、これらのデータの使用を規制し、人々のプライバシーと権利を保護する様々な政府政策が設けられている。 その結果、データ所有者は、単純なデータ難読化(画像中の人の顔をぼかすなど)やデータを完全に保持することを選択し、データ品質の悪化を招き、データの潜在的な有用性を著しく制限する。 データの有用性を最大限に保ちながら、データ所有者にきめ細かな制御を与える高度なメカニズムを目指して、下流機械学習タスクを保存しつつ、選択された属性セットを同時に抑制する、正確に標的としたデータ手術を行う一般的なフレームワークであるマルチ属性選択抑圧(MASS)を提案する。 MASSは2組のネットワーク間の対戦ゲームを通じてデータ修飾器を学習し、一方は選択属性を抑えることを目的としており、他方は一般的なコントラスト損失と明示的な分類指標によって残りの属性の保持を保証する。 提案手法は,顔画像,音声音声,ビデオクリップなどの異なる領域の複数のデータセットを用いて広範に評価し,他のダウンストリームMLタスクにおけるデータのユーザビリティに悪影響を及ぼすことなく,MASSの一般化性とターゲット属性の抑制能力の有望な結果を得た。

The recent rapid advances in machine learning technologies largely depend on the vast richness of data available today, in terms of both the quantity and the rich content contained within. For example, biometric data such as images and voices could reveal people's attributes like age, gender, sentiment, and origin, whereas location/motion data could be used to infer people's activity levels, transportation modes, and life habits. Along with the new services and applications enabled by such technological advances, various governmental policies are put in place to regulate such data usage and protect people's privacy and rights. As a result, data owners often opt for simple data obfuscation (e.g., blur people's faces in images) or withholding data altogether, which leads to severe data quality degradation and greatly limits the data's potential utility. Aiming for a sophisticated mechanism which gives data owners fine-grained control while retaining the maximal degree of data utility, we propose Multi-attribute Selective Suppression, or MaSS, a general framework for performing precisely targeted data surgery to simultaneously suppress any selected set of attributes while preserving the rest for downstream machine learning tasks. MaSS learns a data modifier through adversarial games between two sets of networks, where one is aimed at suppressing selected attributes, and the other ensures the retention of the rest of the attributes via general contrastive loss as well as explicit classification metrics. We carried out an extensive evaluation of our proposed method using multiple datasets from different domains including facial images, voice audio, and video clips, and obtained promising results in MaSS' generalizability and capability of suppressing targeted attributes without negatively affecting the data's usability in other downstream ML tasks.
翻訳日:2022-10-19 15:33:41 公開日:2022-10-18
# タスク特化メタ蒸留によるコンパクトモデルのFew-Shot学習

Few-Shot Learning of Compact Models via Task-Specific Meta Distillation ( http://arxiv.org/abs/2210.09922v1 )

ライセンス: Link先を確認
Yong Wu, Shekhor Chanda, Mehrdad Hosseinzadeh, Zhi Liu, Yang Wang(参考訳) コンパクトモデルの少数ショット学習における新しい問題を考える。 メタ学習は、数発の学習で一般的なアプローチである。 メタ学習におけるこれまでの作業は、通常、メタトレーニング中のモデルアーキテクチャが最終配置に使用されるモデルアーキテクチャと同じであると仮定する。 本稿では,この基本的な仮定に挑戦する。 最終的なデプロイメントには、モデルを小さくする必要があります。 しかし、小さなモデルは通常、新しいタスクに効果的に適応するのに十分な能力を持っていません。 通常、メタトレーニングはサーバー上で実行されるので、平均的に大規模なデータセットとメタトレーニング時の広範な計算能力にアクセスできます。 本稿では,大規模教員モデルと小学生モデルという2つのメタラーニングモデルを同時に学習するタスク特化メタ蒸留法を提案する。 これら2つのモデルはメタトレーニング中に共同で学習される。 メタテスト中に新しいタスクが与えられた場合、まず教師モデルは、このタスクに適応し、適応された教師モデルは、学生モデルの適応を導くために使用される。 適応した学生モデルは最終配置に使用される。 モデル非依存メタラーニング(MAML)を用いた画像分類において,本手法の有効性を示す。 提案手法は,いくつかのベンチマークデータセットにおいて,他の手法よりも優れている。

We consider a new problem of few-shot learning of compact models. Meta-learning is a popular approach for few-shot learning. Previous work in meta-learning typically assumes that the model architecture during meta-training is the same as the model architecture used for final deployment. In this paper, we challenge this basic assumption. For final deployment, we often need the model to be small. But small models usually do not have enough capacity to effectively adapt to new tasks. In the mean time, we often have access to the large dataset and extensive computing power during meta-training since meta-training is typically performed on a server. In this paper, we propose task-specific meta distillation that simultaneously learns two models in meta-learning: a large teacher model and a small student model. These two models are jointly learned during meta-training. Given a new task during meta-testing, the teacher model is first adapted to this task, then the adapted teacher model is used to guide the adaptation of the student model. The adapted student model is used for final deployment. We demonstrate the effectiveness of our approach in few-shot image classification using model-agnostic meta-learning (MAML). Our proposed method outperforms other alternatives on several benchmark datasets.
翻訳日:2022-10-19 15:33:08 公開日:2022-10-18
# 項目応答理論に基づく木組モデルの大域的説明

Global Explanation of Tree-Ensembles Models Based on Item Response Theory ( http://arxiv.org/abs/2210.09933v1 )

ライセンス: Link先を確認
Jos\'e Ribeiro, Lucas Cardoso, Ra\'issa Silva, Vitor Cirilo, N\'ikolas Carneiro and Ronnie Alves(参考訳) 説明可能な人工知能 - XAIはブラックボックスモデル、すなわち予測の限定的な自己説明を提供するモデルを研究・開発することを目的としている。 近年、XAI研究者は、これらのモデルがどのように特定の予測を行うかを説明するため、提案を形式化し、新しい尺度を策定している。 これまでの研究では、モデル(データセットとアルゴリズム)の複雑さが、XAI測度Ciu、Dalex、Eli5、Lofo、Shap、Skaterのグローバルな説明にどのように影響するかという証拠が見つかっており、モデルの複雑さを基盤とする新しいXAI測度を開発する余地があることが示唆されている。 そこで本研究では,アイテム応答理論(IRT)の特性を用いて,ツリーアンサンブルモデルの説明が可能なeXirtという項目応答理論に基づく説明可能な尺度を提案する。 この目的のために、40の異なるデータセットと2つの異なるアルゴリズム(ランサムフォレストとグラディエントブースティング)を使用してベンチマークが作成され、既知のXAI測度と測定eXirtの1つのデータ純度ランクと1つのランクで6つの異なる説明可能性ランクを生成した。 以上の結果から,exirtは他の手法と異なるランクを示しており,提案手法は,より説明が難しいモデルや簡単なモデルに対して,未検討のツリーセンブルモデルのグローバルな説明を生成できることが示されている。

Explainable Artificial Intelligence - XAI is aimed at studying and developing techniques to explain black box models, that is, models that provide limited self-explanation of their predictions. In recent years, XAI researchers have been formalizing proposals and developing new measures to explain how these models make specific predictions. In previous studies, evidence has been found on how model (dataset and algorithm) complexity affects global explanations generated by XAI measures Ciu, Dalex, Eli5, Lofo, Shap and Skater, suggesting that there is room for the development of a new XAI measure that builds on the complexity of the model. Thus, this research proposes a measure called Explainable based on Item Response Theory - eXirt, which is capable of explaining tree-ensemble models by using the properties of Item Response Theory (IRT). For this purpose, a benchmark was created using 40 different datasets and 2 different algorithms (Random Forest and Gradient Boosting), thus generating 6 different explainability ranks using known XAI measures along with 1 data purity rank and 1 rank of the measure eXirt, amounting to 8 global ranks for each model, i.e., 640 ranks altogether. The results show that eXirt displayed different ranks than those of the other measures, which demonstrates that the advocated methodology generates global explanations of tree-ensemble models that have not yet been explored, either for the more difficult models to explain or even the easier ones.
翻訳日:2022-10-19 15:32:51 公開日:2022-10-18
# 弱教師付き分散論理変分オートエンコーダによる配電共振

Out of Distribution Reasoning by Weakly-Supervised Disentangled Logic Variational Autoencoder ( http://arxiv.org/abs/2210.09959v1 )

ライセンス: Link先を確認
Zahra Rahiminasab, Michael Yuhas and Arvind Easwaran(参考訳) 機械学習モデルによって生成された結果の安全性を確保するためには、アウト・オブ・ディストリビューション(OOD)検出、すなわちトレーニングセットとは異なる分布から得られたテストサンプルの発見、およびそのようなサンプルの推論(OOD推論)が必要である。 近年,変分オートエンコーダ(VAE)の潜時空間におけるOOD検出の有望な結果が報告されている。 しかし、VAEは絡み合うことなくOOD推論を行うことはできない。 ディスタングルメントは、OODの生成因子(例えば画像データの雨)と、それらが符号化される潜伏変数の間の一対多のマッピングを保証する。 以前の文献では、既知のおよび独立した生成因子を持つ単純なデータセットの弱い教師付き不連続に焦点が当てられていた。 実際には、carlaのような複雑なデータセットでは、弱い監督による完全な乱れを達成することは不可能であり、未知で抽象的な生成要因がある。 その結果、複雑なデータセットを推論するために、部分的に歪んだVAEを学習するOOD推論フレームワークを提案する。 我々のフレームワークは,観測された生成因子に基づくデータの分割,非絡み合いルールを満たす論理テンソルネットワークとしてのVAEのトレーニング,実行時のOOD推論という3つのステップから構成される。 このアプローチをcarlaデータセット上で評価し,その結果を3つの最先端手法と比較した。 我々のフレームワークは, 絡み合いやエンドツーエンドのOOD推論において, これらの手法よりも優れていた。

Out-of-distribution (OOD) detection, i.e., finding test samples derived from a different distribution than the training set, as well as reasoning about such samples (OOD reasoning), are necessary to ensure the safety of results generated by machine learning models. Recently there have been promising results for OOD detection in the latent space of variational autoencoders (VAEs). However, without disentanglement, VAEs cannot perform OOD reasoning. Disentanglement ensures a one- to-many mapping between generative factors of OOD (e.g., rain in image data) and the latent variables to which they are encoded. Although previous literature has focused on weakly-supervised disentanglement on simple datasets with known and independent generative factors. In practice, achieving full disentanglement through weak supervision is impossible for complex datasets, such as Carla, with unknown and abstract generative factors. As a result, we propose an OOD reasoning framework that learns a partially disentangled VAE to reason about complex datasets. Our framework consists of three steps: partitioning data based on observed generative factors, training a VAE as a logic tensor network that satisfies disentanglement rules, and run-time OOD reasoning. We evaluate our approach on the Carla dataset and compare the results against three state-of-the-art methods. We found that our framework outperformed these methods in terms of disentanglement and end-to-end OOD reasoning.
翻訳日:2022-10-19 15:32:21 公開日:2022-10-18
# テスト時間適応のためのハード・共役擬似ラベルによるgd理解に向けて

Towards Understanding GD with Hard and Conjugate Pseudo-labels for Test-Time Adaptation ( http://arxiv.org/abs/2210.10019v1 )

ライセンス: Link先を確認
Jun-Kun Wang and Andre Wibisono(参考訳) 新しいドメインのラベルのないテストサンプルだけがテスト時にアクセス可能であることを考慮し、分散シフト下でモデルが新しいドメインに適応する必要がある設定を考える。 関連する研究のほとんどで一般的な考え方は、未ラベルテストサンプルのための擬ラベルを構築し、擬ラベルを持つ損失関数に勾配降下(GD)を適用することである。 近年,Goyal et al. (2022) は,テスト時に自己学習を行うための新しい擬似ラベルである共役ラベルを提案する。 彼らは経験的に、共役ラベルが多くのドメイン適応ベンチマークで擬似ラベルの他の方法よりも優れていることを示している。 しかし、共役ラベルを持つgdがテスト時適応のための良い分類器を学習することを示すことは確かである。 本研究では,二項分類問題に対して,GDを硬く共役なラベルで理論的に理解することを目的とする。 正方形損失の場合、共役ラベルを持つgdはガウスモデルの下でテスト0-1の損失を最小化する解に収束するが、ハード擬似ラベルを持つgdはこのタスクでは失敗する。 また、更新のために異なる損失関数の下で分析します。 実験結果から,gdがハードラベルや共役ラベルといつ,なぜテスト時間適応に働くのか,その理解に着目した。

We consider a setting that a model needs to adapt to a new domain under distribution shifts, given that only unlabeled test samples from the new domain are accessible at test time. A common idea in most of the related works is constructing pseudo-labels for the unlabeled test samples and applying gradient descent (GD) to a loss function with the pseudo-labels. Recently, Goyal et al. (2022) propose conjugate labels, which is a new kind of pseudo-labels for self-training at test time. They empirically show that the conjugate label outperforms other ways of pseudo-labeling on many domain adaptation benchmarks. However, provably showing that GD with conjugate labels learns a good classifier for test-time adaptation remains open. In this work, we aim at theoretically understanding GD with hard and conjugate labels for a binary classification problem. We show that for square loss, GD with conjugate labels converges to a solution that minimizes the testing 0-1 loss under a Gaussian model, while GD with hard pseudo-labels fails in this task. We also analyze them under different loss functions for the update. Our results shed lights on understanding when and why GD with hard labels or conjugate labels works in test-time adaptation.
翻訳日:2022-10-19 15:31:58 公開日:2022-10-18
# MIRACLの作成: 言語連続体における多言語情報検索

Making a MIRACL: Multilingual Information Retrieval Across a Continuum of Languages ( http://arxiv.org/abs/2210.09984v1 )

ライセンス: Link先を確認
Xinyu Zhang, Nandan Thakur, Odunayo Ogundepo, Ehsan Kamalloo, David Alfonso-Hermelo, Xiaoguang Li, Qun Liu, Mehdi Rezagholizadeh, Jimmy Lin(参考訳) miracl(multilingual information retrieval across a continuum of languages)は、私たちがwsdm 2023 cup challengeのために構築した多言語データセットで、世界中の30億以上のネイティブスピーカーを包含する18の言語を対象としたアドホックな検索にフォーカスしています。 これらの言語は多種多様で、多くの異なる言語族が起源であり、研究者が典型的に高リソースと低リソース言語と特徴づけるものを含む、様々な利用可能なリソースと関連付けられている。 我々のデータセットは,クエリとコーパスが同一言語であるモノリンガル検索モデルの作成と評価を支援するように設計されている。 この18の言語で、wikipedia上で7万5000のクエリに対して700万以上の高品質な妥当性判断を収集し、すべての評価は、私たちのチームによって雇われたネイティブスピーカーによって行われました。 私たちの目標は、世界中の多様な人々、特に伝統的に保存されていない人々に対する情報アクセス能力を高めるために、言語連続体における検索を改善する研究を促進することです。 本稿では,コミュニティと共有するデータセットとベースラインについて概説する。 MIRACLのウェブサイトはhttp://miracl.ai/.comで公開されている。

MIRACL (Multilingual Information Retrieval Across a Continuum of Languages) is a multilingual dataset we have built for the WSDM 2023 Cup challenge that focuses on ad hoc retrieval across 18 different languages, which collectively encompass over three billion native speakers around the world. These languages have diverse typologies, originate from many different language families, and are associated with varying amounts of available resources -- including what researchers typically characterize as high-resource as well as low-resource languages. Our dataset is designed to support the creation and evaluation of models for monolingual retrieval, where the queries and the corpora are in the same language. In total, we have gathered over 700k high-quality relevance judgments for around 77k queries over Wikipedia in these 18 languages, where all assessments have been performed by native speakers hired by our team. Our goal is to spur research that will improve retrieval across a continuum of languages, thus enhancing information access capabilities for diverse populations around the world, particularly those that have been traditionally underserved. This overview paper describes the dataset and baselines that we share with the community. The MIRACL website is live at http://miracl.ai/.
翻訳日:2022-10-19 15:26:45 公開日:2022-10-18
# ビデオコンテンツレビュー改善のためのヒューマンmlコラボレーションフレームワーク

A Human-ML Collaboration Framework for Improving Video Content Reviews ( http://arxiv.org/abs/2210.09500v1 )

ライセンス: Link先を確認
Meghana Deodhar, Xiao Ma, Yixin Cai, Alex Koes, Alex Beutel, Jilin Chen(参考訳) ビデオコンテンツモデレーションドメインにおける動画内分類学的ヒューマンアノテーションのローカライズの問題に対処し,オンラインビデオプラットフォームにおけるコミュニティガイドラインなど,細かなポリシーに違反するビデオセグメントの特定を目標としている。 高品質な人間のラベル付けは、コンテンツモデレーションの実施に不可欠である。 これは、情報の過負荷の問題のため、難しい。レートは、比較的長いビデオに対するレビュー期間内で、あいまいな定義による粒度のポリシー違反の大きな分類を適用する必要がある。 我々の重要な貢献は、この設定における人間の意思決定の質と効率を最大化することを目的とした、新しいヒューマンマシンラーニング(ML)コラボレーションフレームワークである。 ヒトの検証/修正セグメントラベルは、モデルをさらに洗練し、人間-MLの肯定的なフィードバックループを生成するのに役立つ。 実験では、人間のビデオモデレーション決定品質の向上と、同様のレビュー期間内に提出されたより細かいアノテーションによる効率の向上が示され、ヒント生成モデルの5~8%のauc改善が可能となった。

We deal with the problem of localized in-video taxonomic human annotation in the video content moderation domain, where the goal is to identify video segments that violate granular policies, e.g., community guidelines on an online video platform. High quality human labeling is critical for enforcement in content moderation. This is challenging due to the problem of information overload - raters need to apply a large taxonomy of granular policy violations with ambiguous definitions, within a limited review duration to relatively long videos. Our key contribution is a novel human-machine learning (ML) collaboration framework aimed at maximizing the quality and efficiency of human decisions in this setting - human labels are used to train segment-level models, the predictions of which are displayed as "hints" to human raters, indicating probable regions of the video with specific policy violations. The human verified/corrected segment labels can help refine the model further, hence creating a human-ML positive feedback loop. Experiments show improved human video moderation decision quality, and efficiency through more granular annotations submitted within a similar review duration, which enable a 5-8% AUC improvement in the hint generation models.
翻訳日:2022-10-19 15:26:10 公開日:2022-10-18
# K平均アルゴリズムにおける初期クラスタ中心選択の強化手法

An enhanced method of initial cluster center selection for K-means algorithm ( http://arxiv.org/abs/2210.09507v1 )

ライセンス: Link先を確認
Zillur Rahman, Md. Sabir Hossain, Mohammad Hasan, Ahmed Imteaj(参考訳) クラスタリングは、さまざまなアプリケーションや分析に適用可能なデータセットからパターンを見つけるために広く使われているテクニックの1つです。 最もポピュラーでシンプルなクラスタリングアルゴリズムであるk-meansは、適切に初期化されていない場合、ローカルミニマに閉じ込められ、このアルゴリズムの初期化はランダムに行われる。 本稿では,K-meansアルゴリズムの初期クラスタ選択を改善する新しい手法を提案する。 このアルゴリズムは、最終クラスタが特徴空間内の分離群であるため、初期セントロイドが互いに十分に分離されなければならないという事実に基づいている。 Convex Hullアルゴリズムは、最初の2つのセントロイドの計算を容易にし、残りの2つは、以前選択された中心からの距離に応じて選択される。 クラスタ毎の1つの中心の選択を保証するために、最も近い隣の手法を用いる。 提案アルゴリズムのロバスト性を確認するために,実世界のデータセットをいくつか検討する。 iris, letter, ruspiniのデータでは7.33%, 7.90%, 0%のクラスタリングエラーしか得られなかった。 その結果,提案手法は,クラスタ数が2より多い場合の計算を高速化することで,従来のK手法よりも優れていることがわかった。

Clustering is one of the widely used techniques to find out patterns from a dataset that can be applied in different applications or analyses. K-means, the most popular and simple clustering algorithm, might get trapped into local minima if not properly initialized and the initialization of this algorithm is done randomly. In this paper, we propose a novel approach to improve initial cluster selection for K-means algorithm. This algorithm is based on the fact that the initial centroids must be well separated from each other since the final clusters are separated groups in feature space. The Convex Hull algorithm facilitates the computing of the first two centroids and the remaining ones are selected according to the distance from previously selected centers. To ensure the selection of one center per cluster, we use the nearest neighbor technique. To check the robustness of our proposed algorithm, we consider several real-world datasets. We obtained only 7.33%, 7.90%, and 0% clustering error in Iris, Letter, and Ruspini data respectively which proves better performance than other existing systems. The results indicate that our proposed method outperforms the conventional K means approach by accelerating the computation when the number of clusters is greater than 2.
翻訳日:2022-10-19 15:25:36 公開日:2022-10-18
# プログレッシブ圧縮型GNN

A Practical, Progressively-Expressive GNN ( http://arxiv.org/abs/2210.09521v1 )

ライセンス: Link先を確認
Lingxiao Zhao, Louis H\"artel, Neil Shah, Leman Akoglu(参考訳) 近年,メッセージパッシングニューラルネットワーク(MPNN)がグラフニューラルネットワーク(GNN)の主流となっている。 しかし、MPNNには顕著な制限があり、すなわち、グラフ同型テストのフレームワークにおいてグラフを区別する1次元のWeisfeiler-Leman (1-WL)テストと同じくらい強力である。 この目的のために、研究者はより表現力のあるGNNを開発するためにk-WL階層からインスピレーションを得ている。 しかし、現在の k-WL 等価 GNN は k の小さい値に対しても実用的ではない。 同時に、グラフ学習タスクにおいて高度に表現力のあるモデルを持たずに大きな実験的な成功をおさめ、k-WLのような表現力の粗い支配者による表現力の追跡は、実際的なタスクでは不要な場合が多いことを示唆している。 表現性と複雑さのトレードオフを真に理解するために、よりきめ細かい定規を欲しがる。 k, c)(<=)-setwl階層をk-wl階層から大きく縮小し、ノードのk-タプルから<=kノードが誘導された元のグラフの<=c接続されたコンポーネント上で定義される集合へと移行させることにより、最初に提案する。 我々は、k-WLに関して、このモデルに有利な理論的結果を示し、(k, c)(<=)-SETGNNを用いて、(k, c)(<=)-SETWLと同じくらい表現的である。 我々のモデルは実践的かつ漸進的に表現され、k と c でパワーが増大する。 我々は,いくつかのベンチマークデータセットで有効性を実証し,実用グラフに適用可能な実行時およびメモリ使用量を用いて,最先端の結果を複数達成した。 実装はhttps://github.com/LingxiaoShawn/KCSetGNNで公開しています。

Message passing neural networks (MPNNs) have become a dominant flavor of graph neural networks (GNNs) in recent years. Yet, MPNNs come with notable limitations; namely, they are at most as powerful as the 1-dimensional Weisfeiler-Leman (1-WL) test in distinguishing graphs in a graph isomorphism testing frame-work. To this end, researchers have drawn inspiration from the k-WL hierarchy to develop more expressive GNNs. However, current k-WL-equivalent GNNs are not practical for even small values of k, as k-WL becomes combinatorially more complex as k grows. At the same time, several works have found great empirical success in graph learning tasks without highly expressive models, implying that chasing expressiveness with a coarse-grained ruler of expressivity like k-WL is often unneeded in practical tasks. To truly understand the expressiveness-complexity tradeoff, one desires a more fine-grained ruler, which can more gradually increase expressiveness. Our work puts forth such a proposal: Namely, we first propose the (k, c)(<=)-SETWL hierarchy with greatly reduced complexity from k-WL, achieved by moving from k-tuples of nodes to sets with <=k nodes defined over <=c connected components in the induced original graph. We show favorable theoretical results for this model in relation to k-WL, and concretize it via (k, c)(<=)-SETGNN, which is as expressive as (k, c)(<=)-SETWL. Our model is practical and progressively-expressive, increasing in power with k and c. We demonstrate effectiveness on several benchmark datasets, achieving several state-of-the-art results with runtime and memory usage applicable to practical graphs. We open source our implementation at https://github.com/LingxiaoShawn/KCSetGNN.
翻訳日:2022-10-19 15:25:06 公開日:2022-10-18
# 家計負荷曲線クラスタリングのための動的時間ワープによる集約的階層クラスタリング

Agglomerative Hierarchical Clustering with Dynamic Time Warping for Household Load Curve Clustering ( http://arxiv.org/abs/2210.09523v1 )

ライセンス: Link先を確認
Fadi AlMahamid, Katarina Grolinger(参考訳) エネルギー会社は、批判的な期間に需要を減らすために消費者にインセンティブを提供することにより、電力需要と供給に合致する様々な需要対応(dr)プログラムをしばしば実施している。 従来のクラスタリングアルゴリズムは、標準距離測定を使用して、2つのポイント間の距離を見つける。 k-means、k-medoids、gaussian mixed modelなどのクラスタリングアルゴリズムによって生成された結果は、クラスタリングパラメータや初期クラスタに依存する。 これとは対照的に,本手法では,AHC(Agglomerative Hierarchical Clustering)とDTW(Dynamic Time Warping)を組み合わせて,家庭の日常負荷曲線を消費パターンに基づいて分類する。 DTWは2つの負荷曲線の最適アライメントを求めるが、AHCは現実的な初期クラスタセンターを提供する。 本稿では,K-means,K-medoids,GMMといった他のクラスタリングアルゴリズムと比較し,DTWを用いたAHCが他のクラスタリングアルゴリズムより優れ,より少ないクラスタを必要とすることを示す。

Energy companies often implement various demand response (DR) programs to better match electricity demand and supply by offering the consumers incentives to reduce their demand during critical periods. Classifying clients according to their consumption patterns enables targeting specific groups of consumers for DR. Traditional clustering algorithms use standard distance measurement to find the distance between two points. The results produced by clustering algorithms such as K-means, K-medoids, and Gaussian Mixture Models depend on the clustering parameters or initial clusters. In contrast, our methodology uses a shape-based approach that combines Agglomerative Hierarchical Clustering (AHC) with Dynamic Time Warping (DTW) to classify residential households' daily load curves based on their consumption patterns. While DTW seeks the optimal alignment between two load curves, AHC provides a realistic initial clusters center. In this paper, we compare the results with other clustering algorithms such as K-means, K-medoids, and GMM using different distance measures, and we show that AHC using DTW outperformed other clustering algorithms and needed fewer clusters.
翻訳日:2022-10-19 15:24:31 公開日:2022-10-18
# すべての毒物が等しく作られるわけではない:データ中毒に対する堅牢なトレーニング

Not All Poisons are Created Equal: Robust Training against Data Poisoning ( http://arxiv.org/abs/2210.09671v1 )

ライセンス: Link先を確認
Yu Yang, Tian Yu Liu, Baharan Mirzasoleiman(参考訳) データ中毒は、トレーニングデータに悪意ある工芸サンプルを注入することで、テスト時間対象のサンプルを誤分類する。 既存の防御は特定の標的攻撃に対してのみ有効であり、一般化性能を著しく低下させるか、あるいは標準的なディープラーニングパイプラインでは禁止される。 本研究では,様々なデータ中毒攻撃の成功率を大幅に削減し,モデルの性能を理論的に保証する効率的な防御機構を提案する。 ターゲット攻撃は、ランダムに選択されたトレーニングデータのサブセットに有界摂動を加えることで、ターゲットの勾配や表現にマッチする。 ご覧の通りです (i)有界摂動下では、標的に十分近い勾配を持ち、攻撃を成功させるように最適化できるのは、数種類の毒素のみである。 (ii)このような有効な毒物は、元のクラスから離れ、勾配空間で単離される。 (iii) トレーニング中の低濃度勾配領域の低下例を効果的に除去し, フルデータでのトレーニングと類似したトレーニングダイナミクスを保証できる。 提案手法は,グラデーションマッチングやブルズアイポリトープなど,最先端の標的攻撃の成功率を著しく低下させ,大規模データセットに容易にスケールできることを示す。

Data poisoning causes misclassification of test time target examples by injecting maliciously crafted samples in the training data. Existing defenses are often effective only against a specific type of targeted attack, significantly degrade the generalization performance, or are prohibitive for standard deep learning pipelines. In this work, we propose an efficient defense mechanism that significantly reduces the success rate of various data poisoning attacks, and provides theoretical guarantees for the performance of the model. Targeted attacks work by adding bounded perturbations to a randomly selected subset of training data to match the targets' gradient or representation. We show that: (i) under bounded perturbations, only a number of poisons can be optimized to have a gradient that is close enough to that of the target and make the attack successful; (ii) such effective poisons move away from their original class and get isolated in the gradient space; (iii) dropping examples in low-density gradient regions during training can successfully eliminate the effective poisons, and guarantees similar training dynamics to that of training on full data. Our extensive experiments show that our method significantly decreases the success rate of state-of-the-art targeted attacks, including Gradient Matching and Bullseye Polytope, and easily scales to large datasets.
翻訳日:2022-10-19 15:24:09 公開日:2022-10-18
# イベントストリームの予測のためのクラスタリングに基づく集約

Clustering-based Aggregations for Prediction in Event Streams ( http://arxiv.org/abs/2210.09738v1 )

ライセンス: Link先を確認
Yorick Spenrath and Marwan Hassani and Boudewijn F. Van Dongen(参考訳) 買い物客の行動を予測することは、買い物客の期待消費やスーパーマーケットの総転売など、小売業者にとって貴重な情報を提供する。 個々のレベルで予測を行う能力は有用であり、スーパーマーケットがターゲットマーケティングを正確に行うことができる。 しかし,買い物客の予想数や多様な行動を考えると,個々のレベルの正確な予測は困難である。 この問題は買い物客の振る舞いだけでなく、請求書がいつ支払われるかを予測するといった様々なビジネスプロセスにも発生する。 本稿では,このトレードオフに着目したフレームワークであるCAPiESについて述べる。 同時に多数のエンティティを予測することによって、予測精度は向上するが、個々のエンティティについてはあまり語れないので、有用性の潜在的なコストで予測できる。 CAPiESはオンライン環境で開発され、予測モデルを継続的に更新し、時間とともに新しい予測を行う。 実世界の2つのシナリオにおける実験評価におけるトレードオフの存在を示す。1万以上の買い物客を持つスーパーマーケットと、171万以上の請求書を持つペイントファクトリーである。

Predicting the behaviour of shoppers provides valuable information for retailers, such as the expected spend of a shopper or the total turnover of a supermarket. The ability to make predictions on an individual level is useful, as it allows supermarkets to accurately perform targeted marketing. However, given the expected number of shoppers and their diverse behaviours, making accurate predictions on an individual level is difficult. This problem does not only arise in shopper behaviour, but also in various business processes, such as predicting when an invoice will be paid. In this paper we present CAPiES, a framework that focuses on this trade-off in an online setting. By making predictions on a larger number of entities at a time, we improve the predictive accuracy but at the potential cost of usefulness since we can say less about the individual entities. CAPiES is developed in an online setting, where we continuously update the prediction model and make new predictions over time. We show the existence of the trade-off in an experimental evaluation in two real-world scenarios: a supermarket with over 160 000 shoppers and a paint factory with over 171 000 invoices.
翻訳日:2022-10-19 15:23:48 公開日:2022-10-18
# Pareto Manifold Learning:シングルタスクモデルのアンサンブルを通じて複数のタスクに取り組む

Pareto Manifold Learning: Tackling multiple tasks via ensembles of single-task models ( http://arxiv.org/abs/2210.09759v1 )

ライセンス: Link先を確認
Nikolaos Dimitriadis, Pascal Frossard, Fran\c{c}ois Fleuret(参考訳) マルチタスク学習では、タスクは、最適化の軌跡を共通のソリューションに導くのではなく、互いに達成したパフォーマンスを競い合い、制限することができる。 すべてのタスクに最適なソリューションが存在しないことが多いため、実践者はタスクのパフォーマンス間のトレードオフをバランスさせ、Paretoの意味において最適性に頼る。 現在のマルチタスク学習手法は、機能的多様性のこの側面を完全に無視し、最適化スキームによって事前に定義されたパレートフロントで1つのソリューションを生成するか、あるいは多様だが離散的なソリューションを生成する。 本稿では、パレート部分空間、すなわち、複数の最適汎関数解が存在する重み部分空間が存在すると仮定する。 このようなパラメータ化を発見し,1回のトレーニング実行で連続的なparetoフロントを生成する,重み空間におけるセンシング手法であるpareto manifold learningを提案する。 提案手法は,画像分類から表型データセット,シーン理解まで多種多様なマルチタスク学習ベンチマークを用いて検証し,パレート多様体学習が最先端アルゴリズムよりも優れていることを示す。

In Multi-Task Learning, tasks may compete and limit the performance achieved on each other rather than guiding the optimization trajectory to a common solution, superior to its single-task counterparts. There is often not a single solution that is optimal for all tasks, leading practitioners to balance tradeoffs between tasks' performance, and to resort to optimality in the Pareto sense. Current Multi-Task Learning methodologies either completely neglect this aspect of functional diversity, and produce one solution in the Pareto Front predefined by their optimization schemes, or produce diverse but discrete solutions, each requiring a separate training run. In this paper, we conjecture that there exist Pareto Subspaces, i.e., weight subspaces where multiple optimal functional solutions lie. We propose Pareto Manifold Learning, an ensembling method in weight space that is able to discover such a parameterization and produces a continuous Pareto Front in a single training run, allowing practitioners to modulate the performance on each task during inference on the fly. We validate the proposed method on a diverse set of multi-task learning benchmarks, ranging from image classification to tabular datasets and scene understanding, and show that Pareto Manifold Learning outperforms state-of-the-art algorithms.
翻訳日:2022-10-19 15:23:28 公開日:2022-10-18
# DAGAD:グラフ異常検出のためのデータ拡張

DAGAD: Data Augmentation for Graph Anomaly Detection ( http://arxiv.org/abs/2210.09766v1 )

ライセンス: Link先を確認
Fanzhen Liu, Xiaoxiao Ma, Jia Wu, Jian Yang, Shan Xue, Amin Beheshti, Chuan Zhou, Hao Peng, Quan Z. Sheng, Charu C. Aggarwal(参考訳) 本稿では,グラフ構造化インスタンスの多数を占める良性ノードと異なる動作の異常ノードを識別することを目的とする。 学術と産業の両方から注目が集まっているが、既存の研究はグラフデータから情報的異常な振る舞いを学ぶ際に2つの重大な問題に悩まされている。 ひとつは、異常が微妙な異常な振る舞いと、それらに関する背景知識が不足しているため、異常なサンプル不足を引き起こすため、通常は捕獲が困難であることだ。 一方、実世界のグラフのオブジェクトの圧倒的多数は正常であり、クラス不均衡の問題も引き起こしている。 このギャップを埋めるために,3つの特別設計モジュールを備えた属性グラフのための新しいデータ拡張ベースのグラフ異常検出(DAGAD)フレームワークを考案した。 1) グラフニューラルネットワークエンコーダを用いて表現を学習する情報融合モジュール 2) 生成されたサンプルでトレーニングセットを肥大させるグラフデータ拡張モジュール 3)少数派(非正規派)と多数派(正規派)の分布を識別する不均衡調整学習モジュール。 3つのデータセットに関する一連の実験は、dagadが様々な多目的メトリクスに関する10の最先端のベースライン検出器よりも優れていることを証明し、提案するモジュールの強度を検証する広範なアブレーション研究を行った。

Graph anomaly detection in this paper aims to distinguish abnormal nodes that behave differently from the benign ones accounting for the majority of graph-structured instances. Receiving increasing attention from both academia and industry, yet existing research on this task still suffers from two critical issues when learning informative anomalous behavior from graph data. For one thing, anomalies are usually hard to capture because of their subtle abnormal behavior and the shortage of background knowledge about them, which causes severe anomalous sample scarcity. Meanwhile, the overwhelming majority of objects in real-world graphs are normal, bringing the class imbalance problem as well. To bridge the gaps, this paper devises a novel Data Augmentation-based Graph Anomaly Detection (DAGAD) framework for attributed graphs, equipped with three specially designed modules: 1) an information fusion module employing graph neural network encoders to learn representations, 2) a graph data augmentation module that fertilizes the training set with generated samples, and 3) an imbalance-tailored learning module to discriminate the distributions of the minority (anomalous) and majority (normal) classes. A series of experiments on three datasets prove that DAGAD outperforms ten state-of-the-art baseline detectors concerning various mostly-used metrics, together with an extensive ablation study validating the strength of our proposed modules.
翻訳日:2022-10-19 15:23:05 公開日:2022-10-18
# sequenceとcircle: パッチ間の関係を探求する

Sequence and Circle: Exploring the Relationship Between Patches ( http://arxiv.org/abs/2210.09871v1 )

ライセンス: Link先を確認
Zhengyang Yu, Jochen Triesch(参考訳) 視覚変換器(ViT)は様々な視覚タスクにおいて最先端の結果を得た。 学習可能な位置埋め込み(PE)機構を使用して、各イメージパッチの位置を符号化する。 しかし,この学習可能なPEが本当に必要か,どのようなメリットがあるのかは現時点では不明である。 本稿では,空間配置に関する事前知識を活かした個々のパッチの位置を符号化する2つの方法を提案する。 1つは順序関係埋め込み (sre) と呼ばれ、もう1つは円関係埋め込み (cre) と呼ばれる。 このうち、SREはすべてのパッチを順に考慮し、隣接するパッチは同じ間隔を持つ。 CREは中央パッチを円の中心とみなし、残りのパッチと中央の距離を4つの地区の原理に基づいて測定している。 異なる半径を持つ複数の同心円は異なるパッチを組み合わせる。 最後に、これらの2つの関係を3つの古典的なViTで実装し、4つの一般的なデータセットでテストした。 実験により、sre と cre は同じ性能を達成しながらランダム学習可能なパラメータを減らすために pe を置換できることが示されている。 SRE や CRE と PE を組み合わせることで,PE の使用よりもパフォーマンスが向上する。

The vision transformer (ViT) has achieved state-of-the-art results in various vision tasks. It utilizes a learnable position embedding (PE) mechanism to encode the location of each image patch. However, it is presently unclear if this learnable PE is really necessary and what its benefits are. This paper explores two alternative ways of encoding the location of individual patches that exploit prior knowledge about their spatial arrangement. One is called the sequence relationship embedding (SRE), and the other is called the circle relationship embedding(CRE). Among them, the SRE considers all patches to be in order, and adjacent patches have the same interval distance. The CRE considers the central patch as the center of the circle and measures the distance of the remaining patches from the center based on the four neighborhoods principle. Multiple concentric circles with different radii combine different patches. Finally, we implemented these two relations on three classic ViTs and tested them on four popular datasets. Experiments show that SRE and CRE can replace PE to reduce the random learnable parameters while achieving the same performance. Combining SRE or CRE with PE gets better performance than only using PE.
翻訳日:2022-10-19 15:17:30 公開日:2022-10-18
# SA-DNet:非剛性変形に対応するオンデマンドセマンティックオブジェクト登録ネットワーク

SA-DNet: A on-demand semantic object registration network adapting to non-rigid deformation ( http://arxiv.org/abs/2210.09900v1 )

ライセンス: Link先を確認
Housheng Xie and Junhui Qiu and Yang Yang and Yukuan Zhang(参考訳) 赤外線と可視画像の融合前の必須処理ステップとして、画像登録の性能は、2つの画像が正確な空間位置で融合可能かどうかを決定する。 実際のシナリオでは、様々な撮像装置は視点の変化やショット間の時間ギャップを生じさせ、赤外線と可視画像において大きな非剛性空間的関係を生じさせる可能性がある。 多数の特徴点が一致しても、登録精度は不適切であり、画像融合やその他の視覚課題の結果に影響を与える可能性がある。 この問題を解決するために,意味認識モジュール (SAM) とHOL-Deepハイブリッドマッチングモジュール (HDM) を設計することにより,特徴マッチングプロセスを関心領域 (sROI) に限定することを目的としたセマンティック・アウェア・オン・デマンド登録ネットワーク (SA-DNet) を提案する。 TPSを利用して、sROIの対応する特徴点に基づいて赤外線および可視画像を変換した後、画像融合モジュール(IFM)を用いて登録画像を融合し、完全に機能的な登録・融合ネットワークを実現する。 さらに、異なる要求に対して、この種のアプローチにより、必要に応じて機能マッチングのためのセマンティックオブジェクトを選択でき、特定の要求に基づいてタスク固有の登録を達成できます。 非剛性歪みに対するSA-DNetのロバスト性を実証するために、SA-DNetと5つの最先端赤外線および可視像特徴マッチング法を比較し、実験結果により、画像中の非剛性歪みの存在に適応し、意味的によく登録された画像を提供することを示す。

As an essential processing step before the fusing of infrared and visible images, the performance of image registration determines whether the two images can be fused at correct spatial position. In the actual scenario, the varied imaging devices may lead to a change in perspective or time gap between shots, making significant non-rigid spatial relationship in infrared and visible images. Even if a large number of feature points are matched, the registration accuracy may still be inadequate, affecting the result of image fusion and other vision tasks. To alleviate this problem, we propose a Semantic-Aware on-Demand registration network (SA-DNet), which mainly purpose is to confine the feature matching process to the semantic region of interest (sROI) by designing semantic-aware module (SAM) and HOL-Deep hybrid matching module (HDM). After utilizing TPS to transform infrared and visible images based on the corresponding feature points in sROI, the registered images are fused using image fusion module (IFM) to achieve a fully functional registration and fusion network. Moreover, we point out that for different demands, this type of approach allows us to select semantic objects for feature matching as needed and accomplishes task-specific registration based on specific requirements. To demonstrate the robustness of SA-DNet for non-rigid distortions, we conduct extensive experiments by comparing SA-DNet with five state-of-the-art infrared and visible image feature matching methods, and the experimental results show that our method adapts better to the presence of non-rigid distortions in the images and provides semantically well-registered images.
翻訳日:2022-10-19 15:17:14 公開日:2022-10-18
# 幾何学的プリミティブの移動によるゼロショット点雲分割

Zero-shot Point Cloud Segmentation by Transferring Geometric Primitives ( http://arxiv.org/abs/2210.09923v1 )

ライセンス: Link先を確認
Runnan Chen, Xinge Zhu, Nenglun Chen, Wei Li, Yuexin Ma, Ruigang Yang, Wenping Wang(参考訳) 本稿では,訓練中にクラスラベルが使用できないトランスダクティブゼロショットポイントクラウドセマンティクスセグメンテーションについて検討する。 実際、3Dの幾何学的要素は、3Dオブジェクトタイプを推論するために必須の手段である。 2つのカテゴリが類似の幾何学的プリミティブを共有している場合、それらは同様の意味表現を持つ。 そこで本研究では,既見および未見のカテゴリのオブジェクトで共有される幾何学的プリミティブを学習するための新しい枠組みを提案する。 具体的には、学習可能なプロトタイプのグループは、バックプロパゲーションを通じて幾何学的プリミティブを自動的にエンコードする。 すると、ポイント視覚表現は、その特徴とプロトタイプの類似性ベクトルとして定式化され、見知らぬカテゴリと見えないカテゴリの両方に対する意味的手がかりを意味する。 さらに、複数の幾何学的プリミティブからなる3次元オブジェクトを考慮し、視覚表現のきめ細かいマッチングのための混合分散埋め込みとして意味表現を定式化する。 最後に,幾何学的プリミティブを効果的に学習し,誤分類問題を緩和するために,視覚表現と意味表現を整合させる新しい未知認識情報損失を提案する。 その結果、意味表現によって導かれるネットワークは、幾何学的プリミティブで表現された新しいオブジェクトを認識する。 広範な実験により,hou(harmonic mean-intersection-over-union)では,s3dis,scannet,semantickittiデータセットでは17.8%,30.4%,9.2%の改善がみられた。 コードはリリースされる。

We investigate transductive zero-shot point cloud semantic segmentation in this paper, where unseen class labels are unavailable during training. Actually, the 3D geometric elements are essential cues to reason the 3D object type. If two categories share similar geometric primitives, they also have similar semantic representations. Based on this consideration, we propose a novel framework to learn the geometric primitives shared in seen and unseen categories' objects, where the learned geometric primitives are served for transferring knowledge from seen to unseen categories. Specifically, a group of learnable prototypes automatically encode geometric primitives via back-propagation. Then, the point visual representation is formulated as the similarity vector of its feature to the prototypes, which implies semantic cues for both seen and unseen categories. Besides, considering a 3D object composed of multiple geometric primitives, we formulate the semantic representation as a mixture-distributed embedding for the fine-grained match of visual representation. In the end, to effectively learn the geometric primitives and alleviate the misclassification issue, we propose a novel unknown-aware infoNCE loss to align the visual and semantic representation. As a result, guided by semantic representations, the network recognizes the novel object represented with geometric primitives. Extensive experiments show that our method significantly outperforms other state-of-the-art methods in the harmonic mean-intersection-over-union (hIoU), with the improvement of 17.8%, 30.4% and 9.2% on S3DIS, ScanNet and SemanticKITTI datasets, respectively. Codes will be released.
翻訳日:2022-10-19 15:16:41 公開日:2022-10-18
# 3dポイントクラウドセマンティクスセグメンテーションのための数適応プロトタイプ学習

Number-Adaptive Prototype Learning for 3D Point Cloud Semantic Segmentation ( http://arxiv.org/abs/2210.09948v1 )

ライセンス: Link先を確認
Yangheng Zhao, Jun Wang, Xiaolong Li, Yue Hu, Ce Zhang, Yanfeng Wang, and Siheng Chen(参考訳) 3Dポイントクラウドセマンティックセグメンテーションは3Dシーン理解の基本課題の一つであり、メタバースアプリケーションで広く利用されている。 最近の多くの3d意味セマンティクスセグメンテーション手法は、各セマンティクスクラスの単一のプロトタイプ(分類子重み)を学習し、最寄りのプロトタイプに従って3dポイントを分類する。 しかし、各クラスの1つのプロトタイプだけを学ぶことは、クラス内の高分散パターンを記述するモデルの能力を制限する。 本稿では,各クラスの1つのプロトタイプを学習する代わりに,意味クラス内の異なる点パターンを動的に記述するために,適応型プロトタイプを使用する方法を提案する。 視覚変換器の強力な能力により,ポイントクラウドセマンティックセグメンテーションのための数適応プロトタイプ学習(NAPL)モデルを設計する。 NAPLモデルをトレーニングするために,モデルが各クラスに対して適応的にプロトタイプを作成可能な,シンプルで効果的なプロトタイプドロップアウトトレーニング戦略を提案する。 SemanticKITTIデータセットを用いた実験結果から,本手法は,ポイントワイド分類パラダイムに基づくベースラインモデルよりも2.3% mIoUの改善を実現することが示された。

3D point cloud semantic segmentation is one of the fundamental tasks for 3D scene understanding and has been widely used in the metaverse applications. Many recent 3D semantic segmentation methods learn a single prototype (classifier weights) for each semantic class, and classify 3D points according to their nearest prototype. However, learning only one prototype for each class limits the model's ability to describe the high variance patterns within a class. Instead of learning a single prototype for each class, in this paper, we propose to use an adaptive number of prototypes to dynamically describe the different point patterns within a semantic class. With the powerful capability of vision transformer, we design a Number-Adaptive Prototype Learning (NAPL) model for point cloud semantic segmentation. To train our NAPL model, we propose a simple yet effective prototype dropout training strategy, which enables our model to adaptively produce prototypes for each class. The experimental results on SemanticKITTI dataset demonstrate that our method achieves 2.3% mIoU improvement over the baseline model based on the point-wise classification paradigm.
翻訳日:2022-10-19 15:16:08 公開日:2022-10-18
# 夜間デハゼエンハンスメント

Nighttime Dehaze-Enhancement ( http://arxiv.org/abs/2210.09962v1 )

ライセンス: Link先を確認
Harshan Baskar, Anirudh S Chakravarthy, Prateek Garg, Divyam Goel, Abhijith S Raj, Kshitij Kumar, Lakshya, Ravichandra Parvatham, V Sushant, Bijay Kumar Rout(参考訳) 本稿では,新しいコンピュータビジョンタスクであるnighttime dehaze-enhancementを提案する。 この課題はデハジングと明度向上を共同で行うことを目的としている。 私たちの仕事は、夜間のデヘイジングとは根本的に異なります -- 私たちの目標は、共同してシーンをデヘイジングし、強化することであり、夜間のデヘイジングは、夜間の設定でシーンをデヘイジングすることを目的としています。 この課題のさらなる研究を容易にするために,我々は2061シーンの夜間ハズされた4122画像と2061地上真理画像からなるrespond-$\beta$ nightデータセットという新しいベンチマークデータセットをリリースした。 また,NDENet(Nighttime Dehaze-Enhancement Network)というネットワークも提案する。 提案手法をベンチマークで評価し,SSIMが0.8962,PSNRが26.25であった。 また,本手法の有効性を示すために,ベンチマークのベースラインネットワークとの比較を行った。 夜間の脱湿は特に自律的なナビゲーションアプリケーションにとって重要な課題であり、我々の研究が新たなフロンティアを開拓することを期待している。 私たちのデータセットとコードは、論文の受理時に公開されます。

In this paper, we introduce a new computer vision task called nighttime dehaze-enhancement. This task aims to jointly perform dehazing and lightness enhancement. Our task fundamentally differs from nighttime dehazing -- our goal is to jointly dehaze and enhance scenes, while nighttime dehazing aims to dehaze scenes under a nighttime setting. In order to facilitate further research on this task, we release a new benchmark dataset called Reside-$\beta$ Night dataset, consisting of 4122 nighttime hazed images from 2061 scenes and 2061 ground truth images. Moreover, we also propose a new network called NDENet (Nighttime Dehaze-Enhancement Network), which jointly performs dehazing and low-light enhancement in an end-to-end manner. We evaluate our method on the proposed benchmark and achieve SSIM of 0.8962 and PSNR of 26.25. We also compare our network with other baseline networks on our benchmark to demonstrate the effectiveness of our approach. We believe that nighttime dehaze-enhancement is an essential task particularly for autonomous navigation applications, and hope that our work will open up new frontiers in research. Our dataset and code will be made publicly available upon acceptance of our paper.
翻訳日:2022-10-19 15:15:47 公開日:2022-10-18
# イメージセグメンテーションのための大津型微分進化法

Otsu based Differential Evolution Method for Image Segmentation ( http://arxiv.org/abs/2210.10005v1 )

ライセンス: Link先を確認
Afreen Shaikh, Sharmila Botcha and Murali Krishna(参考訳) 本稿では,衛星画像セグメンテーションのためのOtsuを用いた微分進化法を提案し,大津が提案した目的関数を用いて,修正人工ビーコロニー最適化(MABC),人工ビーコロニー最適化(ABC),遺伝的アルゴリズム(GA),粒子群最適化(PSO)の4つの方法と比較した。 提案するdeアルゴリズムとotsuアルゴリズムのセグメンテーションは,他の手法で得られた結果に近い入力画像を効果的に高精度にセグメンテーションできることを示す。 提案したDEおよびOtsuアルゴリズムでは、適合関数変数を渡す代わりに、Otsuアルゴリズムの入力値のしきい値を得た後、全画像がDEアルゴリズムへの入力として渡される。 画像分割結果は、適合変数を学習する代わりに、画像について学習した後に得られる。 検討した他のセグメンテーション法と比較して,deアルゴリズムとotsuアルゴリズムは,計算時間の最小化による有望な結果をもたらす。

This paper proposes an OTSU based differential evolution method for satellite image segmentation and compares it with four other methods such as Modified Artificial Bee Colony Optimizer (MABC), Artificial Bee Colony (ABC), Genetic Algorithm (GA), and Particle Swarm Optimization (PSO) using the objective function proposed by Otsu for optimal multilevel thresholding. The experiments conducted and their results illustrate that our proposed DE and OTSU algorithm segmentation can effectively and precisely segment the input image, close to results obtained by the other methods. In the proposed DE and OTSU algorithm, instead of passing the fitness function variables, the entire image is passed as an input to the DE algorithm after obtaining the threshold values for the input number of levels in the OTSU algorithm. The image segmentation results are obtained after learning about the image instead of learning about the fitness variables. In comparison to other segmentation methods examined, the proposed DE and OTSU algorithm yields promising results with minimized computational time compared to some algorithms.
翻訳日:2022-10-19 15:15:23 公開日:2022-10-18
# ARAH:Articulated Human SDFsのアニメーションボリュームレンダリング

ARAH: Animatable Volume Rendering of Articulated Human SDFs ( http://arxiv.org/abs/2210.10036v1 )

ライセンス: Link先を確認
Shaofei Wang and Katja Schwarz and Andreas Geiger and Siyu Tang(参考訳) 異なるレンダリングで人体モデルを組み合わせることで、多視点RGBビデオのスパースセットから、服を着た人間のアニマタブルなアバターが利用可能になった。 最先端のアプローチはニューラルラジアンス場(NeRF)で現実的な外観を実現するが、推論幾何は幾何学的制約の欠如により詳細を欠いていることが多い。 さらに、観測空間から標準空間への写像が、目に見えないポーズに忠実に一般化しないため、分布外ポーズにおけるアバターのアニメーションはまだ不可能である。 本研究は,これらの欠点に対処し,分布外ポーズをうまく一般化した詳細な形状の,アニマタブルな衣服付きアバターを作成するモデルを提案する。 詳細な幾何学を実現するために,明瞭な表面表現とボリュームレンダリングを組み合わせる。 一般化のために,線面交叉探索と対応探索を同時に行う結合根探索アルゴリズムを提案する。 提案アルゴリズムは,未知のポーズをよく一般化しながら,効率的な点サンプリングと正確な点正準化を実現する。 提案するパイプラインは,多視点RGBビデオのスパースセットから高品質なポーズ依存幾何と外観を持つ布張りアバターを生成することができることを示す。 本手法は,少数のトレーニングポーズ以上の分布ポーズによく一般化したアニマタブルなアバターを作成しながら,幾何学的・外観的再構成における最先端のパフォーマンスを実現する。

Combining human body models with differentiable rendering has recently enabled animatable avatars of clothed humans from sparse sets of multi-view RGB videos. While state-of-the-art approaches achieve realistic appearance with neural radiance fields (NeRF), the inferred geometry often lacks detail due to missing geometric constraints. Further, animating avatars in out-of-distribution poses is not yet possible because the mapping from observation space to canonical space does not generalize faithfully to unseen poses. In this work, we address these shortcomings and propose a model to create animatable clothed human avatars with detailed geometry that generalize well to out-of-distribution poses. To achieve detailed geometry, we combine an articulated implicit surface representation with volume rendering. For generalization, we propose a novel joint root-finding algorithm for simultaneous ray-surface intersection search and correspondence search. Our algorithm enables efficient point sampling and accurate point canonicalization while generalizing well to unseen poses. We demonstrate that our proposed pipeline can generate clothed avatars with high-quality pose-dependent geometry and appearance from a sparse set of multi-view RGB videos. Our method achieves state-of-the-art performance on geometry and appearance reconstruction while creating animatable avatars that generalize well to out-of-distribution poses beyond the small number of training poses.
翻訳日:2022-10-19 15:15:04 公開日:2022-10-18
# 集積検出を改善する三層プラグイン

A Tri-Layer Plugin to Improve Occluded Detection ( http://arxiv.org/abs/2210.10046v1 )

ライセンス: Link先を確認
Guanqi Zhan, Weidi Xie, Andrew Zisserman(参考訳) 隠された物体を検出することは、まだ最先端の物体検出器にとって難しい課題である。 本研究の目的は、そのような物体の検出を改善し、近代的な物体検出器の全体的な性能を向上させることである。 この目的のために,(1) 部分閉塞物体のリコールを改善するため, 2段物体検出器の頭部検出のための単純な「プラグイン」モジュールを提案する。 モジュールは、ターゲットオブジェクト、オクルーダー、オクラデーのセグメンテーションマスクの三層を予測し、それによってターゲットオブジェクトのマスクをより正確に予測することができる。 2)既存のオブジェクト検出とインスタンスセグメンテーショントレーニングデータセットのアモーダル補完を用いて,モジュールのトレーニングデータを生成するスケーラブルなパイプラインを提案し,オクルージョン関係を確立する。 3) また, 部分オクルードおよび分離オブジェクトのリコール性能を測定するためのcoco評価データセットを構築した。 (4)2段検出器に挿入されたプラグインモジュールは,検出ヘッドを微調整するだけで性能を大幅に向上でき,アーキテクチャ全体を微調整すればさらに改善できることを示す。 COCOは、Swin-TまたはSwin-Sのバックボーンを持つMask R-CNNと、Swin-Bのバックボーンを持つCascade Mask R-CNNに対して報告されている。

Detecting occluded objects still remains a challenge for state-of-the-art object detectors. The objective of this work is to improve the detection for such objects, and thereby improve the overall performance of a modern object detector. To this end we make the following four contributions: (1) We propose a simple 'plugin' module for the detection head of two-stage object detectors to improve the recall of partially occluded objects. The module predicts a tri-layer of segmentation masks for the target object, the occluder and the occludee, and by doing so is able to better predict the mask of the target object. (2) We propose a scalable pipeline for generating training data for the module by using amodal completion of existing object detection and instance segmentation training datasets to establish occlusion relationships. (3) We also establish a COCO evaluation dataset to measure the recall performance of partially occluded and separated objects. (4) We show that the plugin module inserted into a two-stage detector can boost the performance significantly, by only fine-tuning the detection head, and with additional improvements if the entire architecture is fine-tuned. COCO results are reported for Mask R-CNN with Swin-T or Swin-S backbones, and Cascade Mask R-CNN with a Swin-B backbone.
翻訳日:2022-10-19 15:14:42 公開日:2022-10-18
# Web of Scienceにおける知識テキストの包括的分析--4つの科学的領域を事例として

A Comprehensive Analysis of Acknowledgement Texts in Web of Science: a case study on four scientific domains ( http://arxiv.org/abs/2210.09716v1 )

ライセンス: Link先を確認
Nina Smirnova and Philipp Mayr(参考訳) acknowledgmentsの分析は特に興味深い。acknowledgmentsは資金に関する情報を提供するだけでなく、著者シップと研究者のコラボレーションパターンへの隠れた貢献、研究が行われた状況、学術研究の具体的な側面を明らかにすることもできる。 本研究の焦点は,web of science (wos) コアコレクションに索引づけられた認識テキストの大規模なサンプルの分析である。 2014年から2019年にかけて、社会科学、経済学、海洋学、計算機科学の4つの異なる分野の「アーティクル」と「レビュー」の記録が英語の科学雑誌に掲載された。 認定された6種類の実体,すなわち資金提供機関,助成番号,個人,大学,企業,雑種を名前付きエンティティ認識タグ(ner)を用いて抽出し,検討した。 その結果,WoSにおける資金調達情報の索引付けは不完全であった。 自動抽出されたエンティティの解析により,異なる科学的領域間の異なるタイプのエンティティの分布の差異と異なるパターンが明らかになった。 認識された実体と科学的領域と認識された実体と実体タイプとの間に強い関連が認められた。 引用数と認識された実体数との間には無視できる相関関係がみられた。 一般に、認識文中の単語数は、承認された資金組織、大学、個人、雑多な団体の数と正の相関関係にある。 同時に、文数の多い認識テキストには、個人や雑多なカテゴリーがより多く認識されている。

Analysis of acknowledgments is particularly interesting as acknowledgments may give information not only about funding, but they are also able to reveal hidden contributions to authorship and the researcher's collaboration patterns, context in which research was conducted, and specific aspects of the academic work. The focus of the present research is the analysis of a large sample of acknowledgement texts indexed in the Web of Science (WoS) Core Collection. Record types 'article' and 'review' from four different scientific domains, namely social sciences, economics, oceanography and computer science, published from 2014 to 2019 in a scientific journal in English were considered. Six types of acknowledged entities, i.e., funding agency, grant number, individuals, university, corporation and miscellaneous, were extracted from the acknowledgement texts using a Named Entity Recognition (NER) tagger and subsequently examined. A general analysis of the acknowledgement texts showed that indexing of funding information in WoS is incomplete. The analysis of the automatically extracted entities revealed differences and distinct patterns in the distribution of acknowledged entities of different types between different scientific domains. A strong association was found between acknowledged entity and scientific domain and acknowledged entity and entity type. Only negligible correlation was found between the number of citations and the number of acknowledged entities. Generally, the number of words in the acknowledgement texts positively correlates with the number of acknowledged funding organizations, universities, individuals and miscellaneous entities. At the same time, acknowledgement texts with the larger number of sentences have more acknowledged individuals and miscellaneous categories.
翻訳日:2022-10-19 15:14:11 公開日:2022-10-18
# ATCON:ビジョンモデルのための注意一貫性

ATCON: Attention Consistency for Vision Models ( http://arxiv.org/abs/2210.09705v1 )

ライセンス: Link先を確認
Ali Mirzazadeh, Florian Dubost, Maxwell Pike, Krish Maniar, Max Zuo, Christopher Lee-Messer, Daniel Rubin(参考訳) attention-or attribution-maps method はモデル入力の領域を識別するために設計された手法である。 しかし、異なる注意マップ手法は入力の異なる領域をハイライトし、時には予測に矛盾する説明をする。 この効果は、トレーニングセットが小さいと悪化する。 これは、モデルが誤った表現を学習したか、注意マップ法がモデルの表現を正確に推定しなかったことを示している。 本研究では,アテンションマップの一貫性を最適化し,分類性能とアテンションマップの質を向上させるための教師なし微調整手法を提案する。 本稿では,入力マスキング技術に依存する2つの最先端注意計算手法であるGrad-CAMとGuid Backpropagationの実装を提案する。 また,Ablation studyにおいてGrad-CAMおよびIntegrated Gradientsについて検討した。 本研究のために集約・キュレーションされた病院患者の連続映像記録におけるイベント検出について,本手法を独自のデータセットで評価した。 正当性検査として,PASCAL VOCとSVHNについても提案手法の評価を行った。 提案手法では,ビデオデータセットのベースライン上でのF1スコアの6.6ポイント,PASCAL上でのF1スコアの2.9ポイント,Grad-CAM上での平均インターセクションの1.8ポイント,PASCAL上での弱い教師付き検出を行う。 これらの注意マップの改善は、臨床医が視覚モデルの予測を理解し、機械学習システムを臨床医療に展開しやすくするのに役立つかもしれない。 私たちは以下のリポジトリで、この記事のコードの一部を公開しています。

Attention--or attribution--maps methods are methods designed to highlight regions of the model's input that were discriminative for its predictions. However, different attention maps methods can highlight different regions of the input, with sometimes contradictory explanations for a prediction. This effect is exacerbated when the training set is small. This indicates that either the model learned incorrect representations or that the attention maps methods did not accurately estimate the model's representations. We propose an unsupervised fine-tuning method that optimizes the consistency of attention maps and show that it improves both classification performance and the quality of attention maps. We propose an implementation for two state-of-the-art attention computation methods, Grad-CAM and Guided Backpropagation, which relies on an input masking technique. We also show results on Grad-CAM and Integrated Gradients in an ablation study. We evaluate this method on our own dataset of event detection in continuous video recordings of hospital patients aggregated and curated for this work. As a sanity check, we also evaluate the proposed method on PASCAL VOC and SVHN. With the proposed method, with small training sets, we achieve a 6.6 points lift of F1 score over the baselines on our video dataset, a 2.9 point lift of F1 score on PASCAL, and a 1.8 points lift of mean Intersection over Union over Grad-CAM for weakly supervised detection on PASCAL. Those improved attention maps may help clinicians better understand vision model predictions and ease the deployment of machine learning systems into clinical care. We share part of the code for this article at the following repository: https://github.com/alimirzazadeh/SemisupervisedAttention.
翻訳日:2022-10-19 15:08:37 公開日:2022-10-18
# リモートセンシングにおける次元化手法の解析と合成のためのダッシュボード

A Dashboard to Analysis and Synthesis of Dimensionality Reduction Methods in Remote Sensing ( http://arxiv.org/abs/2210.09743v1 )

ライセンス: Link先を確認
Elkebir Sarhrouni, Ahmed Hammouch and Driss Aboutajdine(参考訳) hyperspectral images (hsi) 分類は高技術なリモートセンシングソフトウェアである。 目的はテーママップを再現することである。 hsiは、関連する領域のバンド(または単に画像)として、100以上の超スペクトル測度を含む。 近隣の周波数で撮影される。 残念なことに、一部のバンドは冗長な特徴であり、他のバンドは騒々しく測定され、特徴の高次元は分類精度を悪くした。 問題なのは、地域項目を分類する良いバンドを見つける方法だ。 いくつかの方法は、相互情報(MI)と閾値を用いて、冗長性を処理することなく、関連する画像を選択する。 他の者は冗長性を制御し回避する。 しかし、デメンタリティの削減、時には選択、その他は何の関係も持たないラッパーメソッドとして処理する。 ここでは,使用中のすべてのスキームに関する調査を行い,評価と改善を行った後,ユーザによる仮説的な機能選択と抽出ソフトウェアの分析を支援するダッシュボードを合成する。

Hyperspectral images (HSI) classification is a high technical remote sensing software. The purpose is to reproduce a thematic map . The HSI contains more than a hundred hyperspectral measures, as bands (or simply images), of the concerned region. They are taken at neighbors frequencies. Unfortunately, some bands are redundant features, others are noisily measured, and the high dimensionality of features made classification accuracy poor. The problematic is how to find the good bands to classify the regions items. Some methods use Mutual Information (MI) and thresholding, to select relevant images, without processing redundancy. Others control and avoid redundancy. But they process the dimensionality reduction, some times as selection, other times as wrapper methods without any relationship . Here , we introduce a survey on all scheme used, and after critics and improvement, we synthesize a dashboard, that helps user to analyze an hypothesize features selection and extraction softwares.
翻訳日:2022-10-19 15:08:03 公開日:2022-10-18
# Eigen-Patch Super-Resolution and Matcher Fusionによる極低解像度アイリス認識

Very Low-Resolution Iris Recognition Via Eigen-Patch Super-Resolution and Matcher Fusion ( http://arxiv.org/abs/2210.09765v1 )

ライセンス: Link先を確認
Fernando Alonso-Fernandez, Reuben A. Farrugia, Josef Bigun(参考訳) 虹彩認識の現在の研究は、よりリラックスした取得条件の実現に向けて進んでいる。 これは取得した画像の品質に影響を与え、低解像度が主な問題である。 本稿では,局所像パッチの固有変換に基づく虹彩画像再構成のための超解像アルゴリズムの評価を行う。 各パッチは別々に再構成され、ローカル情報を保存することにより、画像の質が向上する。 コントラストの強化は再現性を向上させるのに用いられ、マーカ融合は虹彩認識性能を改善するために採用されている。 1,872枚の近赤外虹彩画像のデータベースを用いてシステムを検証する。 提案手法は, バイリニア補間法やビキューブ補間法, 特に低分解能での補間法よりも優れており, 2つの系の融合により, 画像サイズが13x13までのダウンサンプリング係数に対して, eerを5%以下に押し上げている。

Current research in iris recognition is moving towards enabling more relaxed acquisition conditions. This has effects on the quality of acquired images, with low resolution being a predominant issue. Here, we evaluate a super-resolution algorithm used to reconstruct iris images based on Eigen-transformation of local image patches. Each patch is reconstructed separately, allowing better quality of enhanced images by preserving local information. Contrast enhancement is used to improve the reconstruction quality, while matcher fusion has been adopted to improve iris recognition performance. We validate the system using a database of 1,872 near-infrared iris images. The presented approach is superior to bilinear or bicubic interpolation, especially at lower resolutions, and the fusion of the two systems pushes the EER to below 5% for down-sampling factors up to a image size of only 13x13.
翻訳日:2022-10-19 15:07:47 公開日:2022-10-18
# SAFE特徴を用いたマルチスケール近視認識

Compact multi-scale periocular recognition using SAFE features ( http://arxiv.org/abs/2210.09778v1 )

ライセンス: Link先を確認
Fernando Alonso-Fernandez, Anna Mikaelyan, Josef Bigun(参考訳) 本稿では,画像キー点周辺に様々な対称曲線族が存在することをエンコードした特徴拡張記述子(safe)による対称性評価に基づく骨幹認識のための新しいアプローチを提案する。 特徴抽出のための単一のキーポイントとしてsclera centerを使用し、この一意な視点に集中するオブジェクトのようなアイデンティティ特性を強調しています。 示されるように、そのような判別特性は、対称曲線の縮小集合で符号化することができる。 実験は、デジタルカメラで撮影された近眼画像のデータベースで行われます。 提案システムでは, 基準的特徴に対してテストを行い, 特徴ベクトルをかなり小さくして, 最高性能を達成している(単一キーポイントの使用による)。 テストされた全てのシステムは、取得距離と性能のほぼ一定の相関を示しており、エンローメントとテスト画像が同じ距離で撮影されない場合にもうまく対応できる。 利用可能なシステム間の融合実験も提供される。

In this paper, we present a new approach for periocular recognition based on the Symmetry Assessment by Feature Expansion (SAFE) descriptor, which encodes the presence of various symmetric curve families around image key points. We use the sclera center as single key point for feature extraction, highlighting the object-like identity properties that concentrates to this unique point of the eye. As it is demonstrated, such discriminative properties can be encoded with a reduced set of symmetric curves. Experiments are done with a database of periocular images captured with a digital camera. We test our system against reference periocular features, achieving top performance with a considerably smaller feature vector (given by the use of a single key point). All the systems tested also show a nearly steady correlation between acquisition distance and performance, and they are also able to cope well when enrolment and test images are not captured at the same distance. Fusion experiments among the available systems are also provided.
翻訳日:2022-10-19 15:07:31 公開日:2022-10-18
# ビデオオブジェクトセグメンテーションのための階層的伝播における特徴の分離

Decoupling Features in Hierarchical Propagation for Video Object Segmentation ( http://arxiv.org/abs/2210.09782v1 )

ライセンス: Link先を確認
Zongxin Yang, Yi Yang(参考訳) 本稿では,半教師付きビデオオブジェクトセグメンテーション(vos)のための,より効果的な階層的伝播手法の開発に着目する。 最近開発されたAOT(Associating Objects with Transformers)アプローチは、視覚トランスフォーマーに基づいて、VOSに階層的伝播を導入し、有望な結果を示した。 階層的伝播は、過去のフレームから現在のフレームへ徐々に情報を伝達し、現在のフレームの特徴をオブジェクトに依存しないものからオブジェクト固有のものに伝達することができる。 しかし、オブジェクト固有の情報の増加は、必然的に、深い伝播層においてオブジェクトに依存しない視覚的情報を失うことになる。 このような問題の解決と、視覚的埋め込みの学習を容易にするために、階層的伝播におけるデカップリング特徴(DeAOT)を提案する。 第一に、deaotは2つの独立したブランチでそれらを処理することによって、オブジェクト非依存およびオブジェクト固有の埋め込みの階層的伝播を分離する。 次に,二重分岐伝播による付加計算を補うために,階層的伝播,すなわち,単頭注意で慎重に設計されたゲート伝搬モジュールを構築するための効率的なモジュールを提案する。 大規模な実験により、DeAOTは精度と効率の両方でAOTを著しく上回ることがわかった。 YouTube-VOSでは、22.4fpsで86.0%、53.4fpsで82.0%を達成することができる。 テスト時間拡張がなければ、YouTube-VOS (86.2%)、DAVIS 2017 (86.2%)、DAVIS 2016 (92.9%)、VOT 2020 (0.622)の4つのベンチマークで、新しい最先端のパフォーマンスを達成する。 プロジェクトページ: https://github.com/z-x-yang/AOT.com

This paper focuses on developing a more effective method of hierarchical propagation for semi-supervised Video Object Segmentation (VOS). Based on vision transformers, the recently-developed Associating Objects with Transformers (AOT) approach introduces hierarchical propagation into VOS and has shown promising results. The hierarchical propagation can gradually propagate information from past frames to the current frame and transfer the current frame feature from object-agnostic to object-specific. However, the increase of object-specific information will inevitably lead to the loss of object-agnostic visual information in deep propagation layers. To solve such a problem and further facilitate the learning of visual embeddings, this paper proposes a Decoupling Features in Hierarchical Propagation (DeAOT) approach. Firstly, DeAOT decouples the hierarchical propagation of object-agnostic and object-specific embeddings by handling them in two independent branches. Secondly, to compensate for the additional computation from dual-branch propagation, we propose an efficient module for constructing hierarchical propagation, i.e., Gated Propagation Module, which is carefully designed with single-head attention. Extensive experiments show that DeAOT significantly outperforms AOT in both accuracy and efficiency. On YouTube-VOS, DeAOT can achieve 86.0% at 22.4fps and 82.0% at 53.4fps. Without test-time augmentations, we achieve new state-of-the-art performance on four benchmarks, i.e., YouTube-VOS (86.2%), DAVIS 2017 (86.2%), DAVIS 2016 (92.9%), and VOT 2020 (0.622). Project page: https://github.com/z-x-yang/AOT.
翻訳日:2022-10-19 15:07:18 公開日:2022-10-18
# インセプションベースのクラウドカウンタ - 正確性を維持しながら高速に

Inception-Based Crowd Counting -- Being Fast while Remaining Accurate ( http://arxiv.org/abs/2210.09796v1 )

ライセンス: Link先を確認
Yiming Ma(参考訳) 最近のCNNベースのアルゴリズムは、様々なヘッドスケールの問題に対処するために設計された構造のおかげで、画像から群衆をカウントする異常な能力を示している。 しかし、これらの複雑なアーキテクチャは計算の複雑さを大きく増加させ、リアルタイムな推定は意味をなさない。 そこで本研究では,Inception-V3に基づく新しい手法を提案し,計算量を削減する。 提案手法は,最初の5つの開始ブロックとCANで設計したコンテキストモジュールを利用して,異なる受容領域の特徴を抽出し,コンテキスト認識を実現する。 これら2つの戦略が採用されれば、モデルの堅牢性も向上する。 実験の結果、ICCは最大で85.3%の計算を減らし、24.4%のパフォーマンス損失を減らした。 この高効率は、公共の安全を守るために監視システムにおける群衆カウントモデルの導入に大きく寄与する。 コードはhttps://github.com/yimingma/crowdcounting-iccで利用可能になる予定で、事前トレーニング済みのデータセットは監視の観点からさまざまなシーンで構成されており、オープンソース化される予定である。

Recent sophisticated CNN-based algorithms have demonstrated their extraordinary ability to automate counting crowds from images, thanks to their structures which are designed to address the issue of various head scales. However, these complicated architectures also increase computational complexity enormously, making real-time estimation implausible. Thus, in this paper, a new method, based on Inception-V3, is proposed to reduce the amount of computation. This proposed approach (ICC), exploits the first five inception blocks and the contextual module designed in CAN to extract features at different receptive fields, thereby being context-aware. The employment of these two different strategies can also increase the model's robustness. Experiments show that ICC can at best reduce 85.3 percent calculations with 24.4 percent performance loss. This high efficiency contributes significantly to the deployment of crowd counting models in surveillance systems to guard the public safety. The code will be available at https://github.com/YIMINGMA/CrowdCounting-ICC,and its pre-trained weights on the Crowd Counting dataset, which comprises a large variety of scenes from surveillance perspectives, will also open-sourced.
翻訳日:2022-10-19 15:06:49 公開日:2022-10-18
# スクレイプ、カット、ペースト、学習: パーセルロジスティックスに適用した自動データセット生成

Scrape, Cut, Paste and Learn: Automated Dataset Generation Applied to Parcel Logistics ( http://arxiv.org/abs/2210.09814v1 )

ライセンス: Link先を確認
Alexander Naumann and Felix Hertlein and Benchun Zhou and Laura D\"orr and Kai Furmans(参考訳) コンピュータビジョンにおける最先端のアプローチは、十分に大きなトレーニングデータセットに大きく依存している。 現実世界のアプリケーションの場合、そのようなデータセットを取得するのは面倒な作業である。 本稿では,全自動パイプラインを用いて,サンプル分割のための合成データセットを4ステップで生成する。 既存の作業とは対照的に、パイプラインはデータ取得から最終データセットまでのすべてのステップをカバーしています。 まず、人気のある画像検索エンジンから興味のあるオブジェクトの画像をスクレイピングし、テキストベースのクエリのみに依存するため、結果データにはさまざまな画像が含まれる。 したがって、第2ステップとして画像選択が必要である。 イメージスクレイピングとセレクションのこのアプローチは、この目的のために公開または作成されなければならない現実世界のドメイン固有データセットの必要性を緩和する。 我々は、オブジェクトに依存しない背景除去モデルを用いて、画像選択のための3つの異なる方法を比較する。 第3のステップでは、任意の背景上の興味対象と気晴らし対象のランダムな配置を生成する。 最後に、画像の合成は、4つの異なるブレンディング方法を用いてオブジェクトをペーストすることで行われる。 本稿では,パセルセグメンテーションを考慮したデータセット生成手法のケーススタディを提案する。 評価のために、自動的に注釈付けされたパーセル写真のデータセットを作成しました。 1) 実際のテスト画像(mask ap 86.2) への転送を成功させるデータセット生成パイプライン, (2) 人間の直感とは対照的に,非常に正確な画像選択プロセスは重要ではなく,より広いカテゴリ定義がドメインギャップの橋渡しに役立ち,(3) ブレンディングメソッドの使用は単純なコピー&ペーストに比べて有益である。 スクレーピング、画像合成、トレーニングのための完全なコードをhttps://a-nau.github.io/parcel2dで公開しました。

State-of-the-art approaches in computer vision heavily rely on sufficiently large training datasets. For real-world applications, obtaining such a dataset is usually a tedious task. In this paper, we present a fully automated pipeline to generate a synthetic dataset for instance segmentation in four steps. In contrast to existing work, our pipeline covers every step from data acquisition to the final dataset. We first scrape images for the objects of interest from popular image search engines and since we rely only on text-based queries the resulting data comprises a wide variety of images. Hence, image selection is necessary as a second step. This approach of image scraping and selection relaxes the need for a real-world domain-specific dataset that must be either publicly available or created for this purpose. We employ an object-agnostic background removal model and compare three different methods for image selection: Object-agnostic pre-processing, manual image selection and CNN-based image selection. In the third step, we generate random arrangements of the object of interest and distractors on arbitrary backgrounds. Finally, the composition of the images is done by pasting the objects using four different blending methods. We present a case study for our dataset generation approach by considering parcel segmentation. For the evaluation we created a dataset of parcel photos that were annotated automatically. We find that (1) our dataset generation pipeline allows a successful transfer to real test images (Mask AP 86.2), (2) a very accurate image selection process - in contrast to human intuition - is not crucial and a broader category definition can help to bridge the domain gap, (3) the usage of blending methods is beneficial compared to simple copy-and-paste. We made our full code for scraping, image composition and training publicly available at https://a-nau.github.io/parcel2d.
翻訳日:2022-10-19 15:06:30 公開日:2022-10-18
# ハイブリッドCNN変換器と非局所クロスモーダルアテンションに基づくマルチモーダル画像融合

Multimodal Image Fusion based on Hybrid CNN-Transformer and Non-local Cross-modal Attention ( http://arxiv.org/abs/2210.09847v1 )

ライセンス: Link先を確認
Yu Yuan and Jiaqi Wu and Zhongliang Jing and Henry Leung and Han Pan(参考訳) 異種センサーによって撮影された画像の融合は、情報を豊かにし、画像の質を向上させるのに役立つ。 本稿では,畳み込みエンコーダとトランスベースのデコーダを組み合わせた,マルチモーダル画像を融合するハイブリッドモデルを提案する。 エンコーダでは、複数のソースイメージの局所的および大域的依存関係をキャプチャするために、非局所的クロスモーダル注意ブロックが提案されている。 分岐融合モジュールは、2つの枝の特徴を適応的に融合させるように設計されている。 提案するネットワークの再構成能力を向上させるために,線形複雑度を有するトランスモジュールをデコーダに組み込む。 定量的・質的実験により, 既存の核融合モデルと比較し, 提案手法の有効性を実証した。 私たちの仕事のソースコードはhttps://github.com/pandayuanyu/hcfusionで閲覧できます。

The fusion of images taken by heterogeneous sensors helps to enrich the information and improve the quality of imaging. In this article, we present a hybrid model consisting of a convolutional encoder and a Transformer-based decoder to fuse multimodal images. In the encoder, a non-local cross-modal attention block is proposed to capture both local and global dependencies of multiple source images. A branch fusion module is designed to adaptively fuse the features of the two branches. We embed a Transformer module with linear complexity in the decoder to enhance the reconstruction capability of the proposed network. Qualitative and quantitative experiments demonstrate the effectiveness of the proposed method by comparing it with existing state-of-the-art fusion models. The source code of our work is available at https://github.com/pandayuanyu/HCFusion.
翻訳日:2022-10-19 15:05:11 公開日:2022-10-18
# 同時学習によるオートエンコーダによる半教師付きドメイン適応

Semi-Supervised Domain Adaptation with Auto-Encoder via Simultaneous Learning ( http://arxiv.org/abs/2210.09486v1 )

ライセンス: Link先を確認
Md Mahmudur Rahman, Rameswar Panda, Mohammad Arif Ul Alam(参考訳) 本稿では,新しいオートエンコーダベースドメイン適応モデルと,最先端ドメイン適応モデルよりも安定した改善を提供する同時学習スキームを組み合わせた,新しい半教師付きドメイン適応フレームワークを提案する。 本フレームワークは,MDD損失目的関数を最適に修正した単一グラフ上で,新たな同時学習方式を用いて,ソースとターゲットの両方の自動エンコーダを訓練することにより,強力な分布マッチング特性を有する。 さらに、ソースドメインからターゲットドメインへの整列領域不変特徴空間の移動による半教師付き分類手法を設計する。 3つのデータセットを用いて評価し,本フレームワークが,ソースとターゲット特徴空間(差分)間の脆弱収束(逆)と弱分布整合(差分)の両問題を,極めて少ない繰り返しを必要とする適応の「高速」で効果的に解けることを示す。

We present a new semi-supervised domain adaptation framework that combines a novel auto-encoder-based domain adaptation model with a simultaneous learning scheme providing stable improvements over state-of-the-art domain adaptation models. Our framework holds strong distribution matching property by training both source and target auto-encoders using a novel simultaneous learning scheme on a single graph with an optimally modified MMD loss objective function. Additionally, we design a semi-supervised classification approach by transferring the aligned domain invariant feature spaces from source domain to the target domain. We evaluate on three datasets and show proof that our framework can effectively solve both fragile convergence (adversarial) and weak distribution matching problems between source and target feature space (discrepancy) with a high `speed' of adaptation requiring a very low number of iterations.
翻訳日:2022-10-19 14:59:34 公開日:2022-10-18
# Google Universal Image Embeddingコンペティション、第5位に

5th Place Solution to Kaggle Google Universal Image Embedding Competition ( http://arxiv.org/abs/2210.09495v1 )

ライセンス: Link先を確認
Noriaki Ota, Shingo Yokoi, Shinsuke Yamaoka(参考訳) 本稿では,2022年のGoogle Universal Image Embedding Competitionで5位にランクインしたソリューションを提案する。 我々はopenclipリポジトリからのCLIPのViT-Hビジュアルエンコーダをバックボーンとして使用し、ArcFaceを使用してBatchNormalizationとLinear Layerからなるヘッドモデルをトレーニングする。 使用されたデータセットはproducts10k、gldv2、gpr1200、food101のサブセットである。 また、画像の一部にTTAを適用することでスコアも向上する。 この方法により、一般大衆でのスコア0.684、プライベートリーダーボードでのスコア0.688を得る。 私たちのコードは利用可能です。 https://github.com/riron1206/kaggle-Google-Universal-Image-Embedding-Competition-5th-Place-Solution

In this paper, we present our solution, which placed 5th in the kaggle Google Universal Image Embedding Competition in 2022. We use the ViT-H visual encoder of CLIP from the openclip repository as a backbone and train a head model composed of BatchNormalization and Linear layers using ArcFace. The dataset used was a subset of products10K, GLDv2, GPR1200, and Food101. And applying TTA for part of images also improves the score. With this method, we achieve a score of 0.684 on the public and 0.688 on the private leaderboard. Our code is available. https://github.com/riron1206/kaggle-Google-Universal-Image-Embedding-Competition-5th-Place-Solution
翻訳日:2022-10-19 14:59:17 公開日:2022-10-18
# 雑草認識強化のための深層データ拡張:拡散確率モデルと伝達学習に基づくアプローチ

Deep Data Augmentation for Weed Recognition Enhancement: A Diffusion Probabilistic Model and Transfer Learning Based Approach ( http://arxiv.org/abs/2210.09509v1 )

ライセンス: Link先を確認
Dong Chen, Xinda Qi, Yu Zheng, Yuzhen Lu, Zhaojian Li(参考訳) 雑草管理は多くの近代農業で重要な役割を担っている。 従来の雑草防除法は主に化学除草剤や除草剤に依存しており、費用がかからず、環境に優しい、あるいは食品の安全性と人間の健康を脅かすことさえある。 近年,機械ビジョンシステムを用いた自動/ロボット除草は,精密かつ個別化された雑草処理の可能性とともに研究の注目を集めている。 しかし、堅牢で効果的な雑草識別システムを開発するには、大規模でラベル付き雑草画像データセットが必要であるが、しばしば入手が困難で高価である。 この問題に対処するために,gans(generative adversarial network)などのデータ拡張手法が,農業用途に高度に現実的なイメージを生成するために検討されている。 しかし、いくつかの進歩にもかかわらず、これらのアプローチは訓練が複雑で、画像の細かい詳細を保存できないことが多い。 本稿では,拡散確率モデル(拡散モデルとも呼ばれる)を用いて,転送学習に基づく高品質な合成雑草画像を生成する最初の研究について述べる。 総合的な実験結果から,本手法は標準雑草データセットであるコットンウィードid15において,サンプル忠実度と多様性,最高fidスコアのトレードオフを表現し,最先端のganモデルに一貫して優れることが示された。 さらに、合成雑草画像による拡張データセットは、雑草分類タスクのための4つのディープラーニング(DL)モデルにおけるモデルパフォーマンスを向上させることができる。 さらに,実画像の10%と合成雑草画像の90%でトレーニングされたコットン雑草15データセットのdlモデルは94%以上の精度を達成し,得られた雑草試料の高品質さを示した。 この研究のコードはhttps://github.com/DongChen06/DMWeeds.comで公開されている。

Weed management plays an important role in many modern agricultural applications. Conventional weed control methods mainly rely on chemical herbicides or hand weeding, which are often cost-ineffective, environmentally unfriendly, or even posing a threat to food safety and human health. Recently, automated/robotic weeding using machine vision systems has seen increased research attention with its potential for precise and individualized weed treatment. However, dedicated, large-scale, and labeled weed image datasets are required to develop robust and effective weed identification systems but they are often difficult and expensive to obtain. To address this issue, data augmentation approaches, such as generative adversarial networks (GANs), have been explored to generate highly realistic images for agricultural applications. Yet, despite some progress, those approaches are often complicated to train or have difficulties preserving fine details in images. In this paper, we present the first work of applying diffusion probabilistic models (also known as diffusion models) to generate high-quality synthetic weed images based on transfer learning. Comprehensive experimental results show that the developed approach consistently outperforms several state-of-the-art GAN models, representing the best trade-off between sample fidelity and diversity and highest FID score on a common weed dataset, CottonWeedID15. In addition, the expanding dataset with synthetic weed images can apparently boost model performance on four deep learning (DL) models for the weed classification tasks. Furthermore, the DL models trained on CottonWeedID15 dataset with only 10% of real images and 90% of synthetic weed images achieve a testing accuracy of over 94%, showing high-quality of the generated weed samples. The codes of this study are made publicly available at https://github.com/DongChen06/DMWeeds.
翻訳日:2022-10-19 14:59:03 公開日:2022-10-18
# 言語を使って見えないドメインに拡張する

Using Language to Extend to Unseen Domains ( http://arxiv.org/abs/2210.09520v1 )

ライセンス: Link先を確認
Lisa Dunlap, Clara Mohri, Devin Guillory, Han Zhang, Trevor Darrell, Joseph E. Gonzalez, Aditi Raghunanthan, Anja Rohrbach(参考訳) ビジョンモデルがデプロイ時に遭遇する可能性のあるすべてのドメインのトレーニングデータを集めることは、費用がかかる。 代わりに、訓練領域(例えば「鳥の写真」)と拡張したいがデータを持たない領域(例えば「鳥の絵」)がいかに堅牢性を向上させるかを考える。 共同画像と言語埋め込み空間を備えたマルチモーダルモデルを用いて、LADSは、タスク関連情報を保存しながら、トレーニング領域から各未確認テスト領域への画像埋め込みの変換を学習する。 未確認テストドメインからのイメージを一切使用せずに、トレーニングドメインと未確認テストドメインの両方を含む拡張ドメイン上で、LADSは、ドメイン適応とデータセットバイアスをターゲットとする4つのベンチマークのスイートに対して、標準的な微調整とアンサンブルアプローチより優れていることを示す。

It is expensive to collect training data for every possible domain that a vision model may encounter when deployed. We instead consider how simply verbalizing the training domain (e.g. "photos of birds") as well as domains we want to extend to but do not have data for (e.g. "paintings of birds") can improve robustness. Using a multimodal model with a joint image and language embedding space, our method LADS learns a transformation of the image embeddings from the training domain to each unseen test domain, while preserving task relevant information. Without using any images from the unseen test domain, we show that over the extended domain containing both training and unseen test domains, LADS outperforms standard fine-tuning and ensemble approaches over a suite of four benchmarks targeting domain adaptation and dataset bias
翻訳日:2022-10-19 14:58:31 公開日:2022-10-18
# FedForgery: 残留フェデレーション学習による汎用顔偽造検出

FedForgery: Generalized Face Forgery Detection with Residual Federated Learning ( http://arxiv.org/abs/2210.09563v1 )

ライセンス: Link先を確認
Decheng Liu, Zhan Dang, Chunlei Peng, Yu Zheng, Shuang Li, Nannan Wang, Xinbo Gao(参考訳) 画像生成モデルの分野でのディープラーニングの継続的な発展に伴い、多数の鮮明な偽造顔がインターネット上で生成され、普及している。 これらの高美的な人工物は社会保障への脅威に成長する可能性がある。 既存の顔偽造検出手法は、取得した公開共有データや集中型データを直接利用してトレーニングを行うが、現実のシナリオでは個人データが集中的に共有できない場合、個人のプライバシーやセキュリティの問題を無視している。 さらに、多種多様なアーティファクトタイプによる異なる分布は、偽造検出タスクにさらに悪影響を及ぼす。 そこで本稿では,フェースフォージェリー検出(FedForgery)のための一般化された残差フェデレーション学習を提案する。 設計された変分オートエンコーダは、ロバストな識別的残余特徴マップを学習し、偽造顔(多様または未知のアーティファクト型)を検出することを目的としている。 さらに、汎用学習戦略を導入し、複数の局所分散デバイスと協調的に訓練された分散検出モデルを構築し、表現一般化をさらに促進する。 顔偽造検出データセットの公開実験は、提案したFedForgeryの優れた性能を示す。 デザインされた新しい顔偽造検出プロトコルとソースコードは一般公開される予定である。

With the continuous development of deep learning in the field of image generation models, a large number of vivid forged faces have been generated and spread on the Internet. These high-authenticity artifacts could grow into a threat to society security. Existing face forgery detection methods directly utilize the obtained public shared or centralized data for training but ignore the personal privacy and security issues when personal data couldn't be centralizedly shared in real-world scenarios. Additionally, different distributions caused by diverse artifact types would further bring adverse influences on the forgery detection task. To solve the mentioned problems, the paper proposes a novel generalized residual Federated learning for face Forgery detection (FedForgery). The designed variational autoencoder aims to learn robust discriminative residual feature maps to detect forgery faces (with diverse or even unknown artifact types). Furthermore, the general federated learning strategy is introduced to construct distributed detection model trained collaboratively with multiple local decentralized devices, which could further boost the representation generalization. Experiments conducted on publicly available face forgery detection datasets prove the superior performance of the proposed FedForgery. The designed novel generalized face forgery detection protocols and source code would be publicly available.
翻訳日:2022-10-19 14:58:15 公開日:2022-10-18
# 3次元物体検出のための均質なマルチモーダル特徴融合と相互作用

Homogeneous Multi-modal Feature Fusion and Interaction for 3D Object Detection ( http://arxiv.org/abs/2210.09615v1 )

ライセンス: Link先を確認
Xin Li, Botian Shi, Yuenan Hou, Xingjiao Wu, Tianlong Ma, Yikang Li, Liang He(参考訳) マルチモーダル3dオブジェクト検出は、自動運転における活発な研究テーマである。 それでも、スパース3D点と密度の強い2Dピクセルの間のクロスモーダルな特徴融合を探索するのは簡単ではない。 最近のアプローチでは、画像特徴と2次元画像平面に投影される点雲の特徴を融合させるか、スパース点雲と高密度画像画素を組み合わせる。 これらの融合アプローチは、しばしば深刻な情報損失に悩まされ、結果として準最適性能を引き起こす。 これらの問題に対処するため,カメラ機能をlidar 3d空間に変換することにより,投影的情報損失を回避するため,点雲と画像の均質構造を構築する。 本稿では,3次元物体検出のための均質な多モード特徴融合・相互作用法(HMFI)を提案する。 具体的には,まず画像ボクセルリフトモジュール(IVLM)を設計し,2次元画像特徴を3次元空間に引き上げ,同種画像ボクセル特徴を生成する。 次に,自己注意型クエリフュージョン機構(QFM)を導入し,各領域の画像特徴とボキシ化点雲の特徴を融合する。 次に,同種点クラウドと画像ボクセル表現における同一オブジェクトからのセマンティック情報の一貫性を強制するボクセル特徴相互作用モジュール(VFIM)を提案する。 kitti と waymo open データセットについて広範な実験を行い,提案する hmfi は最先端のマルチモーダル手法よりも優れた性能を実現する。 特に、KITTIベンチマークでサイクリストの3D検出を行う場合、HMFIは公開されたすべてのアルゴリズムを大きなマージンで上回る。

Multi-modal 3D object detection has been an active research topic in autonomous driving. Nevertheless, it is non-trivial to explore the cross-modal feature fusion between sparse 3D points and dense 2D pixels. Recent approaches either fuse the image features with the point cloud features that are projected onto the 2D image plane or combine the sparse point cloud with dense image pixels. These fusion approaches often suffer from severe information loss, thus causing sub-optimal performance. To address these problems, we construct the homogeneous structure between the point cloud and images to avoid projective information loss by transforming the camera features into the LiDAR 3D space. In this paper, we propose a homogeneous multi-modal feature fusion and interaction method (HMFI) for 3D object detection. Specifically, we first design an image voxel lifter module (IVLM) to lift 2D image features into the 3D space and generate homogeneous image voxel features. Then, we fuse the voxelized point cloud features with the image features from different regions by introducing the self-attention based query fusion mechanism (QFM). Next, we propose a voxel feature interaction module (VFIM) to enforce the consistency of semantic information from identical objects in the homogeneous point cloud and image voxel representations, which can provide object-level alignment guidance for cross-modal feature fusion and strengthen the discriminative ability in complex backgrounds. We conduct extensive experiments on the KITTI and Waymo Open Dataset, and the proposed HMFI achieves better performance compared with the state-of-the-art multi-modal methods. Particularly, for the 3D detection of cyclist on the KITTI benchmark, HMFI surpasses all the published algorithms by a large margin.
翻訳日:2022-10-19 14:57:53 公開日:2022-10-18
# 深層学習法による様々な角度の照明条件における物体認識

Object Recognition in Different Lighting Conditions at Various Angles by Deep Learning Method ( http://arxiv.org/abs/2210.09618v1 )

ライセンス: Link先を確認
Imran Khan Mirani, Chen Tianhua, Malak Abid Ali Khan, Syed Muhammad Aamir, Waseef Menhaj(参考訳) 既存のコンピュータビジョンとオブジェクト検出手法はニューラルネットワークとディープラーニングに強く依存している。 この活発な研究領域は、自律走行、航空写真、保護、監視などの用途に利用されている。 未来的物体検出法は、その位置を正確に特定するために、物体の上に描かれた長方形の境界ボックスに依存する。 しかし、現代の物体認識アルゴリズムは、照明、咬合、視角、カメラの回転といった複数の要因やコストに対して脆弱である。 したがって、ディープラーニングに基づく物体認識は、認識速度と互換性のある外部干渉を著しく増加させる。 本研究では、畳み込みニューラルネットワーク(CNN)を用いてアイテムを認識し、ニューラルネットワークはエンドツーエンド、スパース関係、および共有重みの利点を有する。 本稿では,検出ボックスの位置に基づいて,さまざまなオブジェクトの名称を分類することを目的とする。 その代わり、異なる距離で、異なる信頼度で認識結果を得ることができる。 本研究により,認識によるモデルの精度は,主に物体の比率とサンプル数に左右されることがわかった。 カメラ上のオブジェクトの比率が小さいと、認識精度が向上し、サンプル数がはるかに少ない場合には、認識精度が向上します。 この流行は、より安価な物体認識システムを設計することが時間を必要とする世界経済に大きな影響を与える。

Existing computer vision and object detection methods strongly rely on neural networks and deep learning. This active research area is used for applications such as autonomous driving, aerial photography, protection, and monitoring. Futuristic object detection methods rely on rectangular, boundary boxes drawn over an object to accurately locate its location. The modern object recognition algorithms, however, are vulnerable to multiple factors, such as illumination, occlusion, viewing angle, or camera rotation as well as cost. Therefore, deep learning-based object recognition will significantly increase the recognition speed and compatible external interference. In this study, we use convolutional neural networks (CNN) to recognize items, the neural networks have the advantages of end-to-end, sparse relation, and sharing weights. This article aims to classify the name of the various object based on the position of an object's detected box. Instead, under different distances, we can get recognition results with different confidence. Through this study, we find that this model's accuracy through recognition is mainly influenced by the proportion of objects and the number of samples. When we have a small proportion of an object on camera, then we get higher recognition accuracy; if we have a much small number of samples, we can get greater accuracy in recognition. The epidemic has a great impact on the world economy where designing a cheaper object recognition system is the need of time.
翻訳日:2022-10-19 14:57:22 公開日:2022-10-18
# uvo challenge 2022の1位ソリューション

1st Place Solutions for the UVO Challenge 2022 ( http://arxiv.org/abs/2210.09629v1 )

ライセンス: Link先を確認
Jiajun Zhang and Boyu Chen and Zhilong Ji and Jinfeng Bai and Zonghai Hu(参考訳) 本稿では,この課題に対するアプローチについて述べる。 最後のチャンピオンと同じ2段階のスキーム、すなわち、最初に検出し、その後にセグメンテーションを採用しました。 より強力な検出器とセグメンタを別々に訓練しました。 また,学生教師フレームワークとエンドツーエンドトランスフォーマーに基づくオブジェクト検出に基づいて,テストセット上で擬似ラベルトレーニングを行う。 この手法は、2nd Unidentified Video Objects (UVO) チャレンジで第1位となり、制限されたデータフレームトラックでそれぞれ46.8、64.7、32.2のAR@100を達成する。

This paper describes the approach we have taken in the challenge. We still adopted the two-stage scheme same as the last champion, that is, detection first and segmentation followed. We trained more powerful detector and segmentor separately. Besides, we also perform pseudo-label training on the test set, based on student-teacher framework and end-to-end transformer based object detection. The method ranks first on the 2nd Unidentified Video Objects (UVO) challenge, achieving AR@100 of 46.8, 64.7 and 32.2 in the limited data frame track, unlimited data frame track and video track respectively.
翻訳日:2022-10-19 14:57:04 公開日:2022-10-18
# ロバスト単眼深度推定のための階層正規化

Hierarchical Normalization for Robust Monocular Depth Estimation ( http://arxiv.org/abs/2210.09670v1 )

ライセンス: Link先を確認
Chi Zhang, Wei Yin, Zhibin Wang, Gang Yu, Bin Fu, Chunhua Shen(参考訳) 本稿では,ディープニューラルネットワークを用いた単眼深度推定について述べる。 データセットの様々なソースを用いた深部単分子推定モデルのトレーニングを可能にするため、最先端の手法では画像レベルの正規化戦略を採用してアフィン不変深度表現を生成する。 しかし,画像レベルの正規化による学習は,画像中の画素表現と,シーンの構造などの大域的統計量との関係を主に重視する一方で,きめ細かい深度差は見過ごされる可能性がある。 本稿では,空間情報と深度分布に基づいて,階層的に深度表現を正規化する,新しいマルチスケール深度正規化手法を提案する。 全体像レベルでのみ適用される従来の正規化戦略と比較して,提案手法は細粒度を効果的に保存し,精度を向上させることができる。 深度領域と空間領域における階層的正規化コンテキストを定義する2つの戦略を提案する。 提案手法は,従来の正規化手法を著しく上回っており,ゼロショット転送ベンチマークデータセットを5つに設定した。

In this paper, we address monocular depth estimation with deep neural networks. To enable training of deep monocular estimation models with various sources of datasets, state-of-the-art methods adopt image-level normalization strategies to generate affine-invariant depth representations. However, learning with image-level normalization mainly emphasizes the relations of pixel representations with the global statistic in the images, such as the structure of the scene, while the fine-grained depth difference may be overlooked. In this paper, we propose a novel multi-scale depth normalization method that hierarchically normalizes the depth representations based on spatial information and depth distributions. Compared with previous normalization strategies applied only at the holistic image level, the proposed hierarchical normalization can effectively preserve the fine-grained details and improve accuracy. We present two strategies that define the hierarchical normalization contexts in the depth domain and the spatial domain, respectively. Our extensive experiments show that the proposed normalization strategy remarkably outperforms previous normalization methods, and we set new state-of-the-art on five zero-shot transfer benchmark datasets.
翻訳日:2022-10-19 14:56:51 公開日:2022-10-18
# 放射線診断における弱いラベルを用いた移動学習 : グリオーマ変化検出への応用

Transfer learning with weak labels from radiology reports: application to glioma change detection ( http://arxiv.org/abs/2210.09698v1 )

ライセンス: Link先を確認
Tommaso Di Noto, Meritxell Bach Cuadra, Chirine Atat, Eduardo Gamito Teiga, Monika Hegi, Andreas Hottinger, Patric Hagmann, Jonas Richiardi(参考訳) 大規模な注釈付きデータセットの作成は、放射線学におけるディープラーニングモデルの開発において大きなボトルネックとなる。 これを解決するために,弱いラベル(不正確だが高速に生成するアノテーション)と移動学習(TL)の併用を提案する。 具体的には、ソースドメインとターゲットドメインが同一であるインダクティブTLを探索するが、ラベルシフトによってタスクが異なる: ターゲットラベルは3人の放射線学者によって手動で作成され、ソース弱いラベルはテキストラジオロジーレポートから自動的に生成される。 我々は知識伝達をハイパーパラメータ最適化として捉え、関連する作業で頻繁に発生するヒューリスティックな選択を避ける。 低容量VGGと高容量SEResNeXtを比較し,モデルサイズとTLの関係を検討した。 1693 T2-weighted magnetic resonance imaging difference mapを183例から抽出し,腫瘍の進展に応じて安定あるいは不安定に分類した。 弱ラベル付けにより3倍以上のデータセットサイズが増加し、VGG分類結果が75%から82%に改善された(p=0.04)。 スクラッチからの混合トレーニングは、微調整や特徴抽出よりも高いパフォーマンスをもたらした。 一般化可能性を評価するため,オープンデータセット(BraTS-2015:15,51の差分マップ)で推論を行い,最大76%のAUCに到達した。 その結果, 医用画像の問題点は, コンピュータビジョン問題に関して, より小さなモデルと異なるTL戦略の恩恵を受ける可能性が示唆され, レポート生成弱ラベルはモデルの性能向上に有効であることが示唆された。 コード、社内データセット、BraTSラベルがリリースされている。

Creating large annotated datasets represents a major bottleneck for the development of deep learning models in radiology. To overcome this, we propose a combined use of weak labels (imprecise, but fast-to-create annotations) and Transfer Learning (TL). Specifically, we explore inductive TL, where source and target domains are identical, but tasks are different due to a label shift: our target labels are created manually by three radiologists, whereas the source weak labels are generated automatically from textual radiology reports. We frame knowledge transfer as hyperparameter optimization, thus avoiding heuristic choices that are frequent in related works. We investigate the relationship between model size and TL, comparing a low-capacity VGG with a higher-capacity SEResNeXt. The task that we address is change detection in follow-up glioma imaging: we extracted 1693 T2-weighted magnetic resonance imaging difference maps from 183 patients, and classified them into stable or unstable according to tumor evolution. Weak labeling allowed us to increase dataset size more than 3-fold, and improve VGG classification results from 75% to 82% Area Under the ROC Curve (AUC) (p=0.04). Mixed training from scratch led to higher performance than fine-tuning or feature extraction. To assess generalizability, we also ran inference on an open dataset (BraTS-2015: 15 patients, 51 difference maps), reaching up to 76% AUC. Overall, results suggest that medical imaging problems may benefit from smaller models and different TL strategies with respect to computer vision problems, and that report-generated weak labels are effective in improving model performances. Code, in-house dataset and BraTS labels are released.
翻訳日:2022-10-19 14:56:33 公開日:2022-10-18
# 低リソースパート・オブ・スパイチ・タギングのためのグラフベース多言語ラベル伝搬

Graph-Based Multilingual Label Propagation for Low-Resource Part-of-Speech Tagging ( http://arxiv.org/abs/2210.09840v1 )

ライセンス: Link先を確認
Ayyoob Imani, Silvia Severini, Masoud Jalili Sabet, Fran\c{c}ois Yvon, Hinrich Sch\"utze(参考訳) POS(Part-of-Speech)タグはNLPパイプラインの重要なコンポーネントであるが、多くの低リソース言語ではトレーニング用のラベル付きデータがない。 このようなシナリオでPOSタグをトレーニングするための確立された方法は、高リソース言語からの転送によってラベル付きトレーニングセットを作成することである。 本稿では,複数の高リソースソースから低リソースターゲット言語へラベルを転送する新しい手法を提案する。 POSタグプロジェクションをグラフベースのラベル伝搬として定式化する。 複数の言語で文を翻訳すると、単語をノードとして、アライメントリンクをエッジとして、すべての言語ペアの単語をアライメントしてグラフを作成する。 次に、トランス層を付加したグラフニューラルネットワークを用いて、ソースからターゲットへのノードラベルの伝搬を行う。 我々は,多様な言語に対してPOSタグをトレーニングするためのトレーニングセットを作成していることを示す。 拡張文脈埋め込みと組み合わせることで、低リソース言語の教師なしPOSタグ付けのための新しい最先端技術を実現する。

Part-of-Speech (POS) tagging is an important component of the NLP pipeline, but many low-resource languages lack labeled data for training. An established method for training a POS tagger in such a scenario is to create a labeled training set by transferring from high-resource languages. In this paper, we propose a novel method for transferring labels from multiple high-resource source to low-resource target languages. We formalize POS tag projection as graph-based label propagation. Given translations of a sentence in multiple languages, we create a graph with words as nodes and alignment links as edges by aligning words for all language pairs. We then propagate node labels from source to target using a Graph Neural Network augmented with transformer layers. We show that our propagation creates training sets that allow us to train POS taggers for a diverse set of languages. When combined with enhanced contextualized embeddings, our method achieves a new state-of-the-art for unsupervised POS tagging of low-resource languages.
翻訳日:2022-10-19 14:50:29 公開日:2022-10-18
# 抽象対話要約の分類:シナリオ,アプローチ,今後の方向性

Taxonomy of Abstractive Dialogue Summarization: Scenarios, Approaches and Future Directions ( http://arxiv.org/abs/2210.09894v1 )

ライセンス: Link先を確認
Qi Jia, Siyu Ren, Yizhu Liu, Kenny Q. Zhu(参考訳) 抽象的対話要約は、2つ以上の対話者間の対話において、健全な情報をカバーする簡潔で流動的な要約を生成する。 近年,ソーシャルコミュニケーションプラットフォームが大規模に出現し,効率的な対話情報理解と消化の緊急要件が求められていることから,注目を集めている。 従来の文書要約におけるニュースや記事とは違って、対話は異なる言語スタイルや形式、散在する情報、柔軟な談話構造、不明瞭な話題境界など、ユニークな特徴と追加の課題をもたらす。 本調査は,シナリオから評価へのアプローチまで,抽象対話要約のための既存の作業に関する包括的調査を提供する。 タスクを入力対話の種類、すなわちオープンドメインとタスク指向の2つのカテゴリに分類し、既存のテクニックの分類を3つの方向、すなわち対話機能の注入、補助的なトレーニングタスクの設計、追加データの使用に分類する。 その後、シナリオとテクニックの傾向を要約し、広範囲に活用された特徴と異なるシナリオの相関関係に関する深い洞察とともに述べる。 これらの分析に基づいて、より制御され複雑なシナリオ、技術的な革新と比較、特別なドメインで利用可能なデータセットなど、今後の方向性を推奨する。

Abstractive dialogue summarization is to generate a concise and fluent summary covering the salient information in a dialogue among two or more interlocutors. It has attracted great attention in recent years based on the massive emergence of social communication platforms and an urgent requirement for efficient dialogue information understanding and digestion. Different from news or articles in traditional document summarization, dialogues bring unique characteristics and additional challenges, including different language styles and formats, scattered information, flexible discourse structures and unclear topic boundaries. This survey provides a comprehensive investigation on existing work for abstractive dialogue summarization from scenarios, approaches to evaluations. It categorizes the task into two broad categories according to the type of input dialogues, i.e., open-domain and task-oriented, and presents a taxonomy of existing techniques in three directions, namely, injecting dialogue features, designing auxiliary training tasks and using additional data.A list of datasets under different scenarios and widely-accepted evaluation metrics are summarized for completeness. After that, the trends of scenarios and techniques are summarized, together with deep insights on correlations between extensively exploited features and different scenarios. Based on these analyses, we recommend future directions including more controlled and complicated scenarios, technical innovations and comparisons, publicly available datasets in special domains, etc.
翻訳日:2022-10-19 14:50:14 公開日:2022-10-18
# 科学をシンプルにする:科学論文の要約のためのコーパス

Making Science Simple: Corpora for the Lay Summarisation of Scientific Literature ( http://arxiv.org/abs/2210.09932v1 )

ライセンス: Link先を確認
Tomas Goldsack, Zhihao Zhang, Chenghua Lin, Carolina Scarton(参考訳) layの要約は、与えられたテキストをまとめて要約し、単純化することを目的としている。 layの要約のための自動的アプローチは、科学文献へのアクセスを広げる上で重要な価値をもたらし、研究結果に関して学際的な知識共有と公衆の理解の両立を可能にする。 しかし、現在のこのタスクのコーパスはサイズとスコープが限られており、広く適用可能なデータ駆動アプローチの開発を妨げている。 これらの問題を是正するために,本論文はPLOS(大規模)とeLife(大規模)の2つの新しいレイ・サマリゼーション・データセットを提示し,それぞれが専門家が作成したレイ・サマリとともにバイオメディカル・ジャーナル記事を含む。 私たちは、さまざまなアプリケーションのニーズをサポートするために活用できるデータセット間の可読性と抽象性の異なるレベルを強調し、レイサマリーの徹底的な特徴付けを提供します。 最後に、主流の要約アプローチを使用してデータセットをベンチマークし、ドメインエキスパートと手動で評価を行い、その有用性を実証し、このタスクの重要な課題に光を当てる。

Lay summarisation aims to jointly summarise and simplify a given text, thus making its content more comprehensible to non-experts. Automatic approaches for lay summarisation can provide significant value in broadening access to scientific literature, enabling a greater degree of both interdisciplinary knowledge sharing and public understanding when it comes to research findings. However, current corpora for this task are limited in their size and scope, hindering the development of broadly applicable data-driven approaches. Aiming to rectify these issues, we present two novel lay summarisation datasets, PLOS (large-scale) and eLife (medium-scale), each of which contains biomedical journal articles alongside expert-written lay summaries. We provide a thorough characterisation of our lay summaries, highlighting differing levels of readability and abstractiveness between datasets that can be leveraged to support the needs of different applications. Finally, we benchmark our datasets using mainstream summarisation approaches and perform a manual evaluation with domain experts, demonstrating their utility and casting light on the key challenges of this task.
翻訳日:2022-10-19 14:49:52 公開日:2022-10-18
# ゼロショット言語間伝達学習の簡便かつ効果的な改善法

A Simple and Effective Method to Improve Zero-Shot Cross-Lingual Transfer Learning ( http://arxiv.org/abs/2210.09934v1 )

ライセンス: Link先を確認
Kunbo Ding, Weijie Liu, Yuejian Fang, Weiquan Mao, Zhe Zhao, Tao Zhu, Haoyan Liu, Rong Tian, Yiren Chen(参考訳) 既存のゼロショット言語間転送法は並列コーパスやバイリンガル辞書に依存しており、低リソース言語では高価で実用的ではない。 これらの依存から切り離すために、研究者は英語のみのリソースで多言語モデルを訓練し、低リソース言語に移行した。 しかし、その効果は異なる言語の埋め込みクラスタ間のギャップによって制限される。 この問題に対処するために,英語の埋め込みを意味的損失なく仮想多言語埋め込みに転送するEmbedding-Push, Attention-Pull, Robustのターゲットを提案する。 mBERT と XLM-R の実験結果から,この手法はゼロショットのクロスランガルテキスト分類タスクにおいて,従来よりも大幅に優れ,多言語アライメントが向上することを示した。

Existing zero-shot cross-lingual transfer methods rely on parallel corpora or bilingual dictionaries, which are expensive and impractical for low-resource languages. To disengage from these dependencies, researchers have explored training multilingual models on English-only resources and transferring them to low-resource languages. However, its effect is limited by the gap between embedding clusters of different languages. To address this issue, we propose Embedding-Push, Attention-Pull, and Robust targets to transfer English embeddings to virtual multilingual embeddings without semantic loss, thereby improving cross-lingual transferability. Experimental results on mBERT and XLM-R demonstrate that our method significantly outperforms previous works on the zero-shot cross-lingual text classification task and can obtain a better multilingual alignment.
翻訳日:2022-10-19 14:49:31 公開日:2022-10-18
# アラビア変圧器モデルのポストホック解析

Post-hoc analysis of Arabic transformer models ( http://arxiv.org/abs/2210.09990v1 )

ライセンス: Link先を確認
Ahmed Abdelali and Nadir Durrani and Fahim Dalvi and Hassan Sajjad(参考訳) アラビア語はセム語であり、多くの方言で広く話されている。 事前訓練された言語モデルの成功を踏まえ、アラビア語とその方言で訓練された多くのトランスフォーマーモデルが浮上した。 下流のNLPタスクに関しては,これらのモデルが本質的に評価されているが,内部表現を解析・比較する作業は行われていない。 アラビア語の異なる方言で訓練されたトランスフォーマーモデルにおいて,言語情報がどのようにエンコードされているかを調べる。 アラビア語の異なる方言に対する形態的タグ付けタスクと方言識別タスクを用いて、モデル上で層とニューロン分析を行う。 私たちの分析は、次のような興味深い発見を啓蒙する。 一 下層及び中層で語形態学を学ぶこと。 二 統語的依存関係が上位層で主に捕捉されているとき。 三 語彙の重複が大きいにもかかわらず、MSAベースのモデルは、アラビア語方言のニュアンスを捉えない。 四 埋め込み層内のニューロンは自然界において多義的であるのに対し、中層内のニューロンは特定の性質に排他的であること。

Arabic is a Semitic language which is widely spoken with many dialects. Given the success of pre-trained language models, many transformer models trained on Arabic and its dialects have surfaced. While there have been an extrinsic evaluation of these models with respect to downstream NLP tasks, no work has been carried out to analyze and compare their internal representations. We probe how linguistic information is encoded in the transformer models, trained on different Arabic dialects. We perform a layer and neuron analysis on the models using morphological tagging tasks for different dialects of Arabic and a dialectal identification task. Our analysis enlightens interesting findings such as: i) word morphology is learned at the lower and middle layers, ii) while syntactic dependencies are predominantly captured at the higher layers, iii) despite a large overlap in their vocabulary, the MSA-based models fail to capture the nuances of Arabic dialects, iv) we found that neurons in embedding layers are polysemous in nature, while the neurons in middle layers are exclusive to specific properties
翻訳日:2022-10-19 14:49:15 公開日:2022-10-18
# HiSMatch: 歴史的構造マッチングに基づく時間的知識グラフ推論

HiSMatch: Historical Structure Matching based Temporal Knowledge Graph Reasoning ( http://arxiv.org/abs/2210.09708v1 )

ライセンス: Link先を確認
Zixuan Li, Zhongni Hou, Saiping Guan, Xiaolong Jin, Weihua Peng, Long Bai, Yajuan Lyu, Wei Li, Jiafeng Guo, Xueqi Cheng(参考訳) テンポラル知識グラフ (TKG) は、動的事実を記述するために (\emph{subject}, \emph{relation}, \emph{object}, \emph{timestamp}) という形の四重項を用いる、それぞれのタイムスタンプを持つKGの列である。 TKG推論は (\emph{query entity}, \emph{query relation}, \emph{? 未来についてのemph{future timestamp})。 これは実際には、クエリと候補エンティティの履歴構造に基づくマッチングタスクであり、異なるタイムスタンプにおけるエンティティの振る舞いの傾向を反映している。 さらに、最近のkgはすべてのエンティティのバックグラウンド知識を提供しており、マッチングにも役立ちます。 そこで本稿では, {\displaystyle \textbf{Hi}storical \textbf{S}tructure \textbf{Match}ing (\textbf{HiSMatch}) モデルを提案する。 クエリと候補エンティティの履歴構造に含まれる意味情報をキャプチャするために、2つの構造エンコーダを適用する。 さらに、モデルに背景知識を統合するために、別のエンコーダを採用する。 6つのベンチマークデータセットでのTKG推論実験は、提案されたHiSMatchモデルの大幅な改善を示し、最先端のベースラインと比較して最大5.6倍の性能改善が達成された。

A Temporal Knowledge Graph (TKG) is a sequence of KGs with respective timestamps, which adopts quadruples in the form of (\emph{subject}, \emph{relation}, \emph{object}, \emph{timestamp}) to describe dynamic facts. TKG reasoning has facilitated many real-world applications via answering such queries as (\emph{query entity}, \emph{query relation}, \emph{?}, \emph{future timestamp}) about future. This is actually a matching task between a query and candidate entities based on their historical structures, which reflect behavioral trends of the entities at different timestamps. In addition, recent KGs provide background knowledge of all the entities, which is also helpful for the matching. Thus, in this paper, we propose the \textbf{Hi}storical \textbf{S}tructure \textbf{Match}ing (\textbf{HiSMatch}) model. It applies two structure encoders to capture the semantic information contained in the historical structures of the query and candidate entities. Besides, it adopts another encoder to integrate the background knowledge into the model. TKG reasoning experiments on six benchmark datasets demonstrate the significant improvement of the proposed HiSMatch model, with up to 5.6\% performance improvement in MRR, compared to the state-of-the-art baselines.
翻訳日:2022-10-19 14:49:01 公開日:2022-10-18
# 抽象・推論コーパスのグラフ・制約・探索

Graphs, Constraints, and Search for the Abstraction and Reasoning Corpus ( http://arxiv.org/abs/2210.09880v1 )

ライセンス: Link先を確認
Yudong Xu, Elias B. Khalil, Scott Sanner(参考訳) ARC(Abstraction and Reasoning Corpus)は、汎用人工知能アルゴリズムのパフォーマンスをベンチマークすることを目的としている。 ARCは広範な一般化と少数ショットの学習に重点を置いているため、純粋な機械学習を使って解決することは不可能である。 より有望なアプローチは、適切に設計されたドメイン特化言語(DSL)内でプログラム合成を実行することである。 しかし、これらもあまり成功しなかった。 本稿では、まずグラフを用いて画像を表現し、次に抽象グラフ空間に基づくdslで正しいプログラムを検索する新しいオブジェクト中心フレームワークである、graph abstracts(arga)を用いた抽象推論を提案する。 この組合せ探索の複雑さは、制約獲得、状態ハッシュ、およびタブサーチによって解決される。 大規模な実験は、ARCの複雑なタスクにもっと効率的に取り組み、正確で理解しやすいプログラムを生成するというARGAの可能性を実証している。

The Abstraction and Reasoning Corpus (ARC) aims at benchmarking the performance of general artificial intelligence algorithms. The ARC's focus on broad generalization and few-shot learning has made it impossible to solve using pure machine learning. A more promising approach has been to perform program synthesis within an appropriately designed Domain Specific Language (DSL). However, these too have seen limited success. We propose Abstract Reasoning with Graph Abstractions (ARGA), a new object-centric framework that first represents images using graphs and then performs a search for a correct program in a DSL that is based on the abstracted graph space. The complexity of this combinatorial search is tamed through the use of constraint acquisition, state hashing, and Tabu search. An extensive set of experiments demonstrates the promise of ARGA in tackling some of the complicated tasks of the ARC rather efficiently, producing programs that are correct and easy to understand.
翻訳日:2022-10-19 14:48:33 公開日:2022-10-18
# 多変量時系列によるインターネットマッシュアップによる最適イベントモニタリング

Optimal Event Monitoring through Internet Mashup over Multivariate Time Series ( http://arxiv.org/abs/2210.09992v1 )

ライセンス: Link先を確認
Chun-Kit Ngan, Alexander Brodsky(参考訳) 本稿では, モデル定義, クエリ, パラメータ学習, モデル評価, データ監視, 決定レコメンデーション, および Web ポータルのサービスをサポートする Web-Mashup Application Service Framework for Multivariate Time Series Analytics (MTSA) を提案する。 このフレームワークは、ドメイン知識ベースと形式学習ベースのアプローチの長所を兼ね備えており、多変量時系列よりも一般的な問題のクラスとして設計されている。 より具体的には、目的関数が特定の時点に関係なく最適な決定パラメータから最大化または最小化されるようなこのタイプの問題を解決するために、一般ハイブリッドモデルであるmtsaパラメータ推定(mtsa-parameter estimation)を特定する。 このモデルでは、グローバル制約や監視制約など、複数のタイプの制約を含めることも可能です。 さらに,mtsaデータモデルと問合せ言語を拡張して,学習,監視,レコメンデーションといったサービスにおけるこのタイプの問題をサポートする。 最後に,提案するフレームワーク,モデル,言語を実証するための実践例として,大学キャンパスマイクログリッドの実験ケーススタディを行った。

We propose a Web-Mashup Application Service Framework for Multivariate Time Series Analytics (MTSA) that supports the services of model definitions, querying, parameter learning, model evaluations, data monitoring, decision recommendations, and web portals. This framework maintains the advantage of combining the strengths of both the domain-knowledge-based and the formal-learning-based approaches and is designed for a more general class of problems over multivariate time series. More specifically, we identify a general-hybrid-based model, MTSA-Parameter Estimation, to solve this class of problems in which the objective function is maximized or minimized from the optimal decision parameters regardless of particular time points. This model also allows domain experts to include multiple types of constraints, e.g., global constraints and monitoring constraints. We further extend the MTSA data model and query language to support this class of problems for the services of learning, monitoring, and recommendation. At the end, we conduct an experimental case study for a university campus microgrid as a practical example to demonstrate our proposed framework, models, and language.
翻訳日:2022-10-19 14:48:20 公開日:2022-10-18
# 超伝導光電子ループニューロンの現象モデル

Phenomenological Model of Superconducting Optoelectronic Loop Neurons ( http://arxiv.org/abs/2210.09976v1 )

ライセンス: Link先を確認
Jeffrey M. Shainline, Bryce A. Primavera, and Saeed Khan(参考訳) 超伝導光電子ループニューロン(英: superconducting optoelectronic loop neurons)は、大規模人工認知のためのネットワークを誘導する回路の一種である。 これらの回路は、単光子検出器、ジョセフソン接合、トランスフォーマーを含む超伝導成分を使用して神経形態的機能を達成する。 これまで、ループニューロンの全てのシミュレーションは第一原理回路解析を用いてシナプス、デンドライト、ニューロンの挙動をモデル化してきた。 これらの回路モデルは計算効率が悪く、ループニューロンと他の複雑なシステムとの関係が不透明である。 本稿では,回路の完全等式を使わずに,関連するシナプス,樹状,神経回路の現象論的レベルでの挙動を捉えるモデリングフレームワークを提案する。 このコンパクトモデルにおいて、各デンドライトは単一の非線形リーク積分子常微分方程式に従うことが発見され、一方、ニューロンは閾値要素を持つデンドライトと、耐火物期間を確立するための追加のフィードバック機構としてモデル化される。 シナプスはデンドライトに結合した単光子検出器としてモデル化され、単光子検出器の応答は閉形式表現に従う。 回路シミュレーションに対する現象論的モデルの精度を定量化し,1万分の1の精度を維持しつつ計算時間を1万倍に削減できることを見出した。 モデルの使用をいくつかの基本的な例で示す。 計算効率のネット増加は、大規模ネットワークの将来のシミュレーションを可能にし、この定式化は、応用数学、計算神経科学、スピングラスのような物理システムにおける大規模な研究と接続する。

Superconducting optoelectronic loop neurons are a class of circuits potentially conducive to networks for large-scale artificial cognition. These circuits employ superconducting components including single-photon detectors, Josephson junctions, and transformers to achieve neuromorphic functions. To date, all simulations of loop neurons have used first-principles circuit analysis to model the behavior of synapses, dendrites, and neurons. These circuit models are computationally inefficient and leave opaque the relationship between loop neurons and other complex systems. Here we introduce a modeling framework that captures the behavior of the relevant synaptic, dendritic, and neuronal circuits at a phenomenological level without resorting to full circuit equations. Within this compact model, each dendrite is discovered to obey a single nonlinear leaky-integrator ordinary differential equation, while a neuron is modeled as a dendrite with a thresholding element and an additional feedback mechanism for establishing a refractory period. A synapse is modeled as a single-photon detector coupled to a dendrite, where the response of the single-photon detector follows a closed-form expression. We quantify the accuracy of the phenomenological model relative to circuit simulations and find that the approach reduces computational time by a factor of ten thousand while maintaining accuracy of one part in ten thousand. We demonstrate the use of the model with several basic examples. The net increase in computational efficiency enables future simulation of large networks, while the formulation provides a connection to a large body of work in applied mathematics, computational neuroscience, and physical systems such as spin glasses.
翻訳日:2022-10-19 14:48:00 公開日:2022-10-18
# 要約 workbench: テキスト要約モデルのアプリケーションと評価の統合

Summary Workbench: Unifying Application and Evaluation of Text Summarization Models ( http://arxiv.org/abs/2210.09587v1 )

ライセンス: Link先を確認
Shahbaz Syed, Dominik Schwabe, Martin Potthast(参考訳) 本稿では,テキスト要約モデルの開発と評価ツールであるサマリワークベンチを提案する。 新しいモデルと評価基準は、dockerベースのプラグインとして簡単に統合でき、任意の入力に対するサマリーの品質を調べ、さまざまな評価尺度を使って評価することができる。 複数の測度を組み合わせた視覚分析は、モデルの強みと弱みに関する洞察を与える。 このツールは \url{https://tldr.demo.webis.de} でホストされ、プライベートリソースのローカルデプロイメントもサポートする。

This paper presents Summary Workbench, a new tool for developing and evaluating text summarization models. New models and evaluation measures can be easily integrated as Docker-based plugins, allowing to examine the quality of their summaries against any input and to evaluate them using various evaluation measures. Visual analyses combining multiple measures provide insights into the models' strengths and weaknesses. The tool is hosted at \url{https://tldr.demo.webis.de} and also supports local deployment for private resources.
翻訳日:2022-10-19 14:40:47 公開日:2022-10-18
# 多言語タスクにおける学習と推論のための翻訳アーティファクトとの相乗効果

Synergy with Translation Artifacts for Training and Inference in Multilingual Tasks ( http://arxiv.org/abs/2210.09588v1 )

ライセンス: Link先を確認
Jaehoon Oh, Jongwoo Ko, and Se-Young Yun(参考訳) 1) 学習対象言語データから対象言語データを生成すること,(2) 推論対象言語データからソース言語データを生成することである。 しかし、以前の作品では両訳の同時使用は検討されていない。 本稿では,これらを組み合わせることで,様々な多言語文分類タスクにおける結果の相乗効果を示す。 翻訳者によってスタイリングされた翻訳アーティファクトがパフォーマンス向上の主要な要因であることを実証的に見出した。 この分析に基づいて、翻訳アーティファクトを考慮したSupConとMixUpの2つのトレーニング手法を採用する。 さらに,supcon と mixup を併用し,性能を向上した言語間微調整アルゴリズムである musc を提案する。 私たちのコードはhttps://github.com/jongwooko/muscで利用可能です。

Translation has played a crucial role in improving the performance on multilingual tasks: (1) to generate the target language data from the source language data for training and (2) to generate the source language data from the target language data for inference. However, prior works have not considered the use of both translations simultaneously. This paper shows that combining them can synergize the results on various multilingual sentence classification tasks. We empirically find that translation artifacts stylized by translators are the main factor of the performance gain. Based on this analysis, we adopt two training methods, SupCon and MixUp, considering translation artifacts. Furthermore, we propose a cross-lingual fine-tuning algorithm called MUSC, which uses SupCon and MixUp jointly and improves the performance. Our code is available at https://github.com/jongwooko/MUSC.
翻訳日:2022-10-19 14:40:39 公開日:2022-10-18
# 遠隔監視型超微細エンティティタイピングの低騒音化

Denoising Enhanced Distantly Supervised Ultrafine Entity Typing ( http://arxiv.org/abs/2210.09599v1 )

ライセンス: Link先を確認
Yue Zhang, Hongliang Fei, Ping Li(参考訳) 近年, 遠方教師付き(ds)超微細エンティティタイピングの課題が注目されている。 しかし、dsデータはノイズが多く、精度が低く、リコールが低く、ラベルの誤りがしばしば発生する。 本稿では,雑音化機能を有する超微細エンティティ型付けモデルを提案する。 具体的には,入力コンテキストと雑音タイプラベル上で未知のラベリングノイズ分布を推定するノイズモデルを構築する。 ノイズモデルにより、推定ノイズを入力から減じることで、より信頼できるラベルを復元することができる。 さらに,バイエンコーダアーキテクチャを採用したエンティティ型付けモデルを提案する。 最後に、ノイズモデルとエンティティ型付けモデルを反復的に訓練して互いに強化する。 我々は,Ultra-Fineエンティティ型付けデータセットとOntoNotesデータセットについて広範な実験を行い,本手法が他のベースライン手法よりも優れていることを示す。

Recently, the task of distantly supervised (DS) ultra-fine entity typing has received significant attention. However, DS data is noisy and often suffers from missing or wrong labeling issues resulting in low precision and low recall. This paper proposes a novel ultra-fine entity typing model with denoising capability. Specifically, we build a noise model to estimate the unknown labeling noise distribution over input contexts and noisy type labels. With the noise model, more trustworthy labels can be recovered by subtracting the estimated noise from the input. Furthermore, we propose an entity typing model, which adopts a bi-encoder architecture, is trained on the denoised data. Finally, the noise model and entity typing model are trained iteratively to enhance each other. We conduct extensive experiments on the Ultra-Fine entity typing dataset as well as OntoNotes dataset and demonstrate that our approach significantly outperforms other baseline methods.
翻訳日:2022-10-19 14:40:25 公開日:2022-10-18
# TencentによるWMT22大規模アフリカ言語用多言語機械翻訳システム

Tencent's Multilingual Machine Translation System for WMT22 Large-Scale African Languages ( http://arxiv.org/abs/2210.09644v1 )

ライセンス: Link先を確認
Wenxiang Jiao, Zhaopeng Tu, Jiarui Li, Wenxuan Wang, Jen-tse Huang, Shuming Shi(参考訳) 本稿では,テンセントのWMT22における多言語機械翻訳システムについて述べる。 主催者が提供するデータと事前学習されたモデルのみを許可する$\mathbf{constrained}$ translationトラックに参加しました。 この課題は、評価すべき言語ペアのトレーニングデータの欠如、データの不均衡による言語ペアの不均一な最適化、多言語性の呪いといった3つの問題によって困難である。 これらの問題に対処するために,我々は多言語ニューラルマシン翻訳(mnmt)モデルを開発するために,データ拡張,分散的ロバストな最適化,言語ファミリーグルーピングを採用する。 我々の応募は自動評価指標の点からブラインドテストセットで$\mathbf{1st\ place}$を受賞した。 コード、モデル、詳細な競合結果がhttps://github.com/wxjiao/wmt2022-large-scale-africanで確認できる。

This paper describes Tencent's multilingual machine translation systems for the WMT22 shared task on Large-Scale Machine Translation Evaluation for African Languages. We participated in the $\mathbf{constrained}$ translation track in which only the data and pretrained models provided by the organizer are allowed. The task is challenging due to three problems, including the absence of training data for some to-be-evaluated language pairs, the uneven optimization of language pairs caused by data imbalance, and the curse of multilinguality. To address these problems, we adopt data augmentation, distributionally robust optimization, and language family grouping, respectively, to develop our multilingual neural machine translation (MNMT) models. Our submissions won the $\mathbf{1st\ place}$ on the blind test sets in terms of the automatic evaluation metrics. Codes, models, and detailed competition results are available at https://github.com/wxjiao/WMT2022-Large-Scale-African.
翻訳日:2022-10-19 14:40:12 公開日:2022-10-18
# ROSE: 事前学習言語モデルのロバスト選択微調整

ROSE: Robust Selective Fine-tuning for Pre-trained Language Models ( http://arxiv.org/abs/2210.09658v1 )

ライセンス: Link先を確認
Lan Jiang, Hao Zhou, Yankai Lin, Peng Li, Jie Zhou, Rui Jiang(参考訳) 大規模言語モデルは優れた性能を発揮しているが、様々な敵の攻撃に苦しむ。 多数の防御方法が提案されている。 しかし、冗長な攻撃検索スペースと様々な種類の攻撃に対して防御できないため、依然として制限されている。 本稿では、この問題に対処するために、新しい微調整手法である \textbf{RO}bust \textbf{SE}letive fine-tuning (\textbf{ROSE})を提案する。 ROSEは、トレーニング済みのモデルを下流タスクに適応させる際に選択的更新を行い、パラメータの重要で不正な更新をフィルタリングする。 具体的には,ターゲットロバストパラメータを選択するための一階と二階のローズという2つの戦略を提案する。 実験の結果, ROSE は様々な下流 NLP タスクにおいて, 対向的ロバスト性を大幅に向上し, アンサンブル法は上記の2つの変種を超えていることがわかった。 さらに、ROSEを既存の微調整手法に簡単に組み込むことで、敵の堅牢性をさらに向上することができる。 実験による解析により,ROSEは微調整中に不安定な急激な更新を排除し,従来の方法よりも平坦で広い最適解をもたらすことが確認された。 コードは \url{https://github.com/jiangllan/rose} で入手できる。

Even though the large-scale language models have achieved excellent performances, they suffer from various adversarial attacks. A large body of defense methods has been proposed. However, they are still limited due to redundant attack search spaces and the inability to defend against various types of attacks. In this work, we present a novel fine-tuning approach called \textbf{RO}bust \textbf{SE}letive fine-tuning (\textbf{ROSE}) to address this issue. ROSE conducts selective updates when adapting pre-trained models to downstream tasks, filtering out invaluable and unrobust updates of parameters. Specifically, we propose two strategies: the first-order and second-order ROSE for selecting target robust parameters. The experimental results show that ROSE achieves significant improvements in adversarial robustness on various downstream NLP tasks, and the ensemble method even surpasses both variants above. Furthermore, ROSE can be easily incorporated into existing fine-tuning methods to improve their adversarial robustness further. The empirical analysis confirms that ROSE eliminates unrobust spurious updates during fine-tuning, leading to solutions corresponding to flatter and wider optima than the conventional method. Code is available at \url{https://github.com/jiangllan/ROSE}.
翻訳日:2022-10-19 14:39:57 公開日:2022-10-18
# アリババ、中国のWMT2022買収提案を検討-関係者

Alibaba-Translate China's Submission for WMT 2022 Metrics Shared Task ( http://arxiv.org/abs/2210.09683v1 )

ライセンス: Link先を確認
Yu Wan, Keqin Bao, Dayiheng Liu, Baosong Yang, Derek F. Wong, Lidia S. Chao, Wenqiang Lei, Jun Xie(参考訳) 本稿では,wmt 2022 metrics shared task への提案について述べる。 我々は、ソースのみ、参照のみ、およびソース参照結合の評価シナリオを1つのモデルに統合するunite(unified translation evaluation)というコア概念に基づいてシステムを構築した。 具体的には,モデルプリトレーニングフェーズにおいて,擬似ラベルデータ例を連続プリトレーニングユニットに適用した。 特に,事前学習と微調整のギャップを減らすために,データトリミングとランキングベースのスコア正規化戦略を用いる。 微調整の段階では、過去のWMTコンペティションの直接評価(DA)と多次元品質メトリクス(MQM)のデータの両方を使用します。 特に,事前学習された言語モデルバックボーンの異なるモデルからの結果を収集し,関連する翻訳方向に対して異なるセンシング戦略を用いる。

In this report, we present our submission to the WMT 2022 Metrics Shared Task. We build our system based on the core idea of UNITE (Unified Translation Evaluation), which unifies source-only, reference-only, and source-reference-combined evaluation scenarios into one single model. Specifically, during the model pre-training phase, we first apply the pseudo-labeled data examples to continuously pre-train UNITE. Notably, to reduce the gap between pre-training and fine-tuning, we use data cropping and a ranking-based score normalization strategy. During the fine-tuning phase, we use both Direct Assessment (DA) and Multidimensional Quality Metrics (MQM) data from past years' WMT competitions. Specially, we collect the results from models with different pre-trained language model backbones, and use different ensembling strategies for involved translation directions.
翻訳日:2022-10-19 14:39:31 公開日:2022-10-18
# unsegmented inputのための同時翻訳:スライディングウィンドウアプローチ

Simultaneous Translation for Unsegmented Input: A Sliding Window Approach ( http://arxiv.org/abs/2210.09754v1 )

ライセンス: Link先を確認
Sukanta Sen and Ond\v{r}ej Bojar and Barry Haddow(参考訳) 音声言語翻訳(slt)へのカスケードアプローチでは、asrの出力は、典型的にはテキストで訓練されるため、mtに渡される前に句読化され、文に分割される。 しかし、asrシステムによる文末句読点の低さによる誤ったセグメンテーションは、特に入力が連続的に更新される同時(オンライン)設定において、翻訳品質の低下につながる。 自動セグメンテーションの影響を低減するため,自動セグメンタに頼ることなく,生のASR出力(オンラインまたはオフライン)を変換するスライディングウィンドウ手法を提案する。 元の学習データから抽出した並列ウィンドウ(並列文の代わりに)を用いて翻訳モデルを訓練する。 テスト時には、ウィンドウレベルで翻訳を行い、最終的な翻訳を生成する単純なアプローチで翻訳されたウィンドウに結合します。 従来のasr-segmenterパイプラインよりも1.3-2.0 bleu点が改善され,固定長ウィンドウではベースライン再翻訳方式のオンラインsltシステムに比べてflickerが大幅に削減された。

In the cascaded approach to spoken language translation (SLT), the ASR output is typically punctuated and segmented into sentences before being passed to MT, since the latter is typically trained on written text. However, erroneous segmentation, due to poor sentence-final punctuation by the ASR system, leads to degradation in translation quality, especially in the simultaneous (online) setting where the input is continuously updated. To reduce the influence of automatic segmentation, we present a sliding window approach to translate raw ASR outputs (online or offline) without needing to rely on an automatic segmenter. We train translation models using parallel windows (instead of parallel sentences) extracted from the original training data. At test time, we translate at the window level and join the translated windows using a simple approach to generate the final translation. Experiments on English-to-German and English-to-Czech show that our approach improves 1.3--2.0 BLEU points over the usual ASR-segmenter pipeline, and the fixed-length window considerably reduces flicker compared to a baseline retranslation-based online SLT system.
翻訳日:2022-10-19 14:39:16 公開日:2022-10-18
# Case 2021 Task 1におけるイベントグラフ: イベント抽出に対する一般的なグラフベースのアプローチ

EventGraph at CASE 2021 Task 1: A General Graph-based Approach to Protest Event Extraction ( http://arxiv.org/abs/2210.09770v1 )

ライセンス: Link先を確認
Huiling You, David Samuel, Samia Touileb, and Lilja {\O}vrelid(参考訳) 本稿では,2022年版CASE 2021共有タスク1のサブタスク4について述べる。 EventGraphシステムは、エンドツーエンドのグラフベースのセマンティックパーザを、Protest Event extractのタスク、より具体的にはイベントトリガと引数抽出のサブタスク4に適合させる。 我々は,イベントを"ラベルエッジ"あるいは"ノード中心"グラフとしてエンコードして,さまざまなグラフを実験する。 ノード中心(node-centric)アプローチは、タスクの3つの言語(英語、スペイン語、ポルトガル語)において、全体として最高の結果をもたらす。 EventGraphは英語とポルトガル語で3位、スペイン語では4位である。 私たちのコードは、https://github.com/huiling-y/eventgraph_at_caseで利用可能です。

This paper presents our submission to the 2022 edition of the CASE 2021 shared task 1, subtask 4. The EventGraph system adapts an end-to-end, graph-based semantic parser to the task of Protest Event Extraction and more specifically subtask 4 on event trigger and argument extraction. We experiment with various graphs, encoding the events as either "labeled-edge" or "node-centric" graphs. We show that the "node-centric" approach yields best results overall, performing well across the three languages of the task, namely English, Spanish, and Portuguese. EventGraph is ranked 3rd for English and Portuguese, and 4th for Spanish. Our code is available at: https://github.com/huiling-y/eventgraph_at_case
翻訳日:2022-10-19 14:38:53 公開日:2022-10-18
# 感性分析のための感性認識語と文レベルの事前学習

Sentiment-Aware Word and Sentence Level Pre-training for Sentiment Analysis ( http://arxiv.org/abs/2210.09803v1 )

ライセンス: Link先を確認
Shuai Fan, Chen Lin, Haonan Li, Zhenghao Lin, Jinsong Su, Hang Zhang, Yeyun Gong, Jian Guo, Nan Duan(参考訳) 既存の事前訓練された言語表現モデル(PLM)は、感情分析タスクにおいて、文章レベルの情報に基づいて単語レベルから感情情報をキャプチャする。 本稿では,単語レベルと文レベルの事前学習タスクを組み合わせた,感情認識型事前学習言語モデルsentiwspを提案する。 単語レベルの事前学習タスクは、感情語に関するplmの知識を強化するために、ジェネレータ・判別フレームワークを介して、置換された感情語を検出する。 文レベルの事前学習タスクは、類似した文を否定的なサンプルとして、比較学習フレームワークを介して識別者をさらに強化し、文中の感情をエンコードする。 実験結果から,SentiWSPは様々な文レベルおよびアスペクトレベルの感情分類ベンチマークにおいて,新たな最先端性能を実現することが示された。 私たちはコードとモデルをhttps://github.com/XMUDM/SentiWSP.comで公開しました。

Most existing pre-trained language representation models (PLMs) are sub-optimal in sentiment analysis tasks, as they capture the sentiment information from word-level while under-considering sentence-level information. In this paper, we propose SentiWSP, a novel Sentiment-aware pre-trained language model with combined Word-level and Sentence-level Pre-training tasks. The word level pre-training task detects replaced sentiment words, via a generator-discriminator framework, to enhance the PLM's knowledge about sentiment words. The sentence level pre-training task further strengthens the discriminator via a contrastive learning framework, with similar sentences as negative samples, to encode sentiments in a sentence. Extensive experimental results show that SentiWSP achieves new state-of-the-art performance on various sentence-level and aspect-level sentiment classification benchmarks. We have made our code and model publicly available at https://github.com/XMUDM/SentiWSP.
翻訳日:2022-10-19 14:38:41 公開日:2022-10-18
# マルチドメインニューラルマシン翻訳のためのドメイン固有サブネットワーク

Domain Specific Sub-network for Multi-Domain Neural Machine Translation ( http://arxiv.org/abs/2210.09805v1 )

ライセンス: Link先を確認
Amr Hendy, Mohamed Abdelghaffar, Mohamed Afify and Ahmed Y. Tawfik(参考訳) 本稿ではドメイン特化サブネットワーク(DoSS)について述べる。 プルーニングによって得られたマスクのセットを使用して、各ドメインのサブネットワークを定義し、ドメインデータのサブネットワークパラメータを微調整する。 これにより、各ドメイン上のネットワーク全体を微調整するのに比べて、パラメータの数が大幅に削減される。 また,ドメイン毎にマスクをユニークなものにする方法を提案し,未発見領域の一般化を大幅に改善することを示した。 提案手法は,ドイツ語と英語の機械翻訳実験において,マルチドメイン(医療,技術,宗教)データに対する継続訓練の強いベースラインを1.47 bleuポイントで上回っている。 新たなドメイン(法律)に関するDoSSのトレーニングも継続し、マルチドメイン(医療、技術、宗教、法律)のベースラインを1.22BLEUポイント上回っている。

This paper presents Domain-Specific Sub-network (DoSS). It uses a set of masks obtained through pruning to define a sub-network for each domain and finetunes the sub-network parameters on domain data. This performs very closely and drastically reduces the number of parameters compared to finetuning the whole network on each domain. Also a method to make masks unique per domain is proposed and shown to greatly improve the generalization to unseen domains. In our experiments on German to English machine translation the proposed method outperforms the strong baseline of continue training on multi-domain (medical, tech and religion) data by 1.47 BLEU points. Also continue training DoSS on new domain (legal) outperforms the multi-domain (medical, tech, religion, legal) baseline by 1.52 BLEU points.
翻訳日:2022-10-19 14:38:25 公開日:2022-10-18
# GPT-3の新規英語名詞の解釈における体系性

Systematicity in GPT-3's Interpretation of Novel English Noun Compounds ( http://arxiv.org/abs/2210.09492v1 )

ライセンス: Link先を確認
Siyan Li, Riley Carlson, Christopher Potts(参考訳) Levin et al. (2019) は、新しい英語の名詞の解釈(例: stew skillet)が完全に構成的ではないが、修飾子と頭が人工物か天然種かによって非常に予測可能であることを示した。 大規模言語モデル GPT-3 は同じ解釈原理で管理されているか? この問題に対処するために、まずLevinらの実験データをGPT-3世代と比較し、高い類似性を見出した。 しかし、この証拠は、レヴィンらの理論のより抽象的な概念圏よりも、特定の語彙項目のみを推論するgpt3と一致している。 より深く探究するために、関連する概念的推論を必要とするプロンプトを構築する。 ここでは、GPT-3が個々の語彙項目以上の推論をしているという証拠は見つからない。 これらの結果は,大規模言語モデルが潜時的により深い理論を符号化するかどうかを評価する際に,低レベルの分布正則性を制御することの重要性を強調した。

Levin et al. (2019) show experimentally that the interpretations of novel English noun compounds (e.g., stew skillet), while not fully compositional, are highly predictable based on whether the modifier and head refer to artifacts or natural kinds. Is the large language model GPT-3 governed by the same interpretive principles? To address this question, we first compare Levin et al.'s experimental data with GPT-3 generations, finding a high degree of similarity. However, this evidence is consistent with GPT3 reasoning only about specific lexical items rather than the more abstract conceptual categories of Levin et al.'s theory. To probe more deeply, we construct prompts that require the relevant kind of conceptual reasoning. Here, we fail to find convincing evidence that GPT-3 is reasoning about more than just individual lexical items. These results highlight the importance of controlling for low-level distributional regularities when assessing whether a large language model latently encodes a deeper theory.
翻訳日:2022-10-19 14:31:32 公開日:2022-10-18
# 機能エクストラクタの単純化によるニューラル談話解析モデルのオーバーフィット防止

Less is More: Simplifying Feature Extractors Prevents Overfitting for Neural Discourse Parsing Models ( http://arxiv.org/abs/2210.09537v1 )

ライセンス: Link先を確認
Ming Li, Sijing Yu, Ruihong Huang(参考訳) 複雑な特徴抽出器はテキスト表現構築に広く用いられている。 しかしながら、これらの複雑な特徴抽出器は、特にトレーニングデータセットが小さい場合には、深刻な過剰フィッティング問題を引き起こす可能性がある。 そこで本研究では,追加特徴抽出器を除去し,事前学習された言語モデルを活用した自己照査機構のみを活用し,過剰充足問題を解決することを提案する。 3つの共通談話解析タスク(News Discourse Profiling, Rhetorical Structure Theory based Discourse Parsing, Penn Discourse Treebank based Discourse Parsing)の実験は、近年の事前学習言語モデルを用いて、単純化された特徴抽出器がより一般化し、システム性能が同等あるいはさらに向上したことを示す。 単純化された特徴抽出器は、学習可能なパラメータが少なく、処理時間も少ない。 コードはリリースされ、このシンプルで効果的なモデルは将来の研究のベースラインとして役立ちます。

Complex feature extractors are widely employed for text representation building. However, these complex feature extractors can lead to severe overfitting problems especially when the training datasets are small, which is especially the case for several discourse parsing tasks. Thus, we propose to remove additional feature extractors and only utilize self-attention mechanism to exploit pretrained neural language models in order to mitigate the overfitting problem. Experiments on three common discourse parsing tasks (News Discourse Profiling, Rhetorical Structure Theory based Discourse Parsing and Penn Discourse Treebank based Discourse Parsing) show that powered by recent pretrained language models, our simplied feature extractors obtain better generalizabilities and meanwhile achieve comparable or even better system performance. The simplified feature extractors have fewer learnable parameters and less processing time. Codes will be released and this simple yet effective model can serve as a better baseline for future research.
翻訳日:2022-10-19 14:31:14 公開日:2022-10-18
# テクスト的観点からのクロスモーダルセマンティクスアライメント能力の探索

Probing Cross-modal Semantics Alignment Capability from the Textual Perspective ( http://arxiv.org/abs/2210.09550v1 )

ライセンス: Link先を確認
Zheng Ma, Shi Zong, Mianzhi Pan, Jianbing Zhang, Shujian Huang, Xinyu Dai and Jiajun Chen(参考訳) 近年,視覚と言語事前学習(vlp)モデルが,様々な下位処理において最先端の成果を上げている。 クロスモーダルセマンティクスの調整は、VLPモデルの本質的な能力の1つとされている。 しかしながら、VLPモデルにおけるアライメントの内部動作機構についてはまだ不明である。 本稿では,画像キャプションに基づく新しい探索手法を提案し,まず,VLPモデルの相互モーダルなセマンティクスアライメントを実証的に研究する。 提案手法は,VLPモデルに画像キャプチャペアが与えられた場合,2つのモーダルがどの程度うまく一致しているかを示すスコアを与える。 したがって、これらの文を分析することで、異なるモダリティの整合性やVLPモデルでのアライメントの正確さが明らかになる。 UNITER, ROSITA, ViLBERT, CLIP, LXMERT を含む5つのVLPモデルに適用し, これらのモデルでガイドされたキャプションの包括的解析を行った。 以上の結果から,VLPモデルは,(1)大域的意味論を軽視しながら,単に視覚的単語とオブジェクトの一致にのみ焦点を合わせること,(2)文文パターンの固定化を優先すること,(3)より視覚的な単語を付加したキャプションを画像に合わせること,などが示唆された。 これらの結果から,VLPモデルはいまだに相互モーダルなセマンティクスアライメントの弱点があり,新たなVLPモデルの設計において研究者の注意を惹きつけることが期待できる。

In recent years, vision and language pre-training (VLP) models have advanced the state-of-the-art results in a variety of cross-modal downstream tasks. Aligning cross-modal semantics is claimed to be one of the essential capabilities of VLP models. However, it still remains unclear about the inner working mechanism of alignment in VLP models. In this paper, we propose a new probing method that is based on image captioning to first empirically study the cross-modal semantics alignment of VLP models. Our probing method is built upon the fact that given an image-caption pair, the VLP models will give a score, indicating how well two modalities are aligned; maximizing such scores will generate sentences that VLP models believe are of good alignment. Analyzing these sentences thus will reveal in what way different modalities are aligned and how well these alignments are in VLP models. We apply our probing method to five popular VLP models, including UNITER, ROSITA, ViLBERT, CLIP, and LXMERT, and provide a comprehensive analysis of the generated captions guided by these models. Our results show that VLP models (1) focus more on just aligning objects with visual words, while neglecting global semantics; (2) prefer fixed sentence patterns, thus ignoring more important textual information including fluency and grammar; and (3) deem the captions with more visual words are better aligned with images. These findings indicate that VLP models still have weaknesses in cross-modal semantics alignment and we hope this work will draw researchers' attention to such problems when designing a new VLP model.
翻訳日:2022-10-19 14:30:53 公開日:2022-10-18
# DisCup: 制御可能なテキスト生成のための差別的協調型プロンプトチューニング

DisCup: Discriminator Cooperative Unlikelihood Prompt-tuning for Controllable Text Generation ( http://arxiv.org/abs/2210.09551v1 )

ライセンス: Link先を確認
Hanqing Zhang and Dawei Song(参考訳) 非常に大きなCasual Language Models (CLMs) を用いたプロンプト学習は、属性制御可能なテキスト生成(CTG)に有望であることが示されている。 しかしながら、バニラプロンプトチューニングは、制御属性を超えたトレーニングコーパス特性を模倣しがちであり、一般化能力に乏しい。 さらに、異なる属性間の関係を捉えることができなくなり、さらに制御性能が制限される。 本稿では,識別器の属性知識を活かして制御プロンプトを最適化し,凍結したCLMを操り,属性固有のテキストを生成する,新しいCTG手法であるDisCupを提案する。 具体的には、複数のテキストを生成可能な凍結型CLMモデルを用いて、まず、コンテキストに基づいて次のトークン候補を生成し、トークンの多様性を確実に予測する。 次に,属性識別器を用いて候補から希望/望ましくないトークンを選択し,属性間知識を提供する。 最後に、上記の2つの特徴を、プロンプトチューニングの異なる目的によって橋渡しする。 広範な実験結果から、discupは10個の仮想トークンのみに依存しながら、効率的で高品質なテキスト生成を維持しながら、新たな最先端の制御性能を達成できることが示されている。

Prompt learning with immensely large Casual Language Models (CLMs) has been shown promising for attribute-controllable text generation (CTG). However, vanilla prompt tuning tends to imitate training corpus characteristics beyond the control attributes, resulting in a poor generalization ability. Moreover, it is less able to capture the relationship between different attributes, further limiting the control performance. In this paper, we propose a new CTG approach, namely DisCup, which incorporates the attribute knowledge of discriminator to optimize the control-prompts, steering a frozen CLM to produce attribute-specific texts. Specifically, the frozen CLM model, capable of producing multitudinous texts, is first used to generate the next-token candidates based on the context, so as to ensure the diversity of tokens to be predicted. Then, we leverage an attribute-discriminator to select desired/undesired tokens from those candidates, providing the inter-attribute knowledge. Finally, we bridge the above two traits by an unlikelihood objective for prompt-tuning. Extensive experimental results show that DisCup can achieve a new state-of-the-art control performance while maintaining an efficient and high-quality text generation, only relying on around 10 virtual tokens.
翻訳日:2022-10-19 14:30:21 公開日:2022-10-18
# ツリーオートエンコーダを用いたデータ駆動談話構造の教師なし推論

Unsupervised Inference of Data-Driven Discourse Structures using a Tree Auto-Encoder ( http://arxiv.org/abs/2210.09559v1 )

ライセンス: Link先を確認
Patrick Huber and Giuseppe Carenini(参考訳) 多くのダウンストリームタスクや実世界のアプリケーションにおいて、堅牢で一般的な談話構造の必要性が高まっているため、現在の高品質で高品質な談話ツリーの欠如は深刻な欠点となっている。 この制約を緩和するために,潜在木誘導フレームワークを自動エンコーディング目的に拡張することにより,タスクに依存しない教師なし方式で木構造を生成する新しい手法を提案する。 提案手法は,構文解析,談話解析などの木構造的目的に適用可能である。 しかし,談話木を生成するのが特に困難であるため,当初はタスク固有モデルを補完し,より大きく多様な談話木バンクを生成する手法を開発した。

With a growing need for robust and general discourse structures in many downstream tasks and real-world applications, the current lack of high-quality, high-quantity discourse trees poses a severe shortcoming. In order the alleviate this limitation, we propose a new strategy to generate tree structures in a task-agnostic, unsupervised fashion by extending a latent tree induction framework with an auto-encoding objective. The proposed approach can be applied to any tree-structured objective, such as syntactic parsing, discourse parsing and others. However, due to the especially difficult annotation process to generate discourse trees, we initially develop such method to complement task-specific models in generating much larger and more diverse discourse treebanks.
翻訳日:2022-10-19 14:29:57 公開日:2022-10-18
# 勾配強調によるドメイン非依存教師付き談話解析に向けて

Towards Domain-Independent Supervised Discourse Parsing Through Gradient Boosting ( http://arxiv.org/abs/2210.09565v1 )

ライセンス: Link先を確認
Patrick Huber and Giuseppe Carenini(参考訳) 談話分析と談話解析は自然言語処理(NLP)分野における多くの重要な問題に多大な影響を与えている。 談話アノテーションがモデルの性能と解釈性に直接影響することを考えると、任意の文書から言論構造を堅牢に抽出することは、nlpの計算モデルをさらに改善するための重要な課題である。 この目的のために,対話構文解析におけるドメイン適応問題に直接取り組む新しい教師付きパラダイムを提案する。 具体的には,勾配ブースティングフレームワークを導入することで,弱い分類器の段階的モデルを通じて,ドメイン依存を緩和するように設計された,最初の完全教師付き談話パーサを導入する。

Discourse analysis and discourse parsing have shown great impact on many important problems in the field of Natural Language Processing (NLP). Given the direct impact of discourse annotations on model performance and interpretability, robustly extracting discourse structures from arbitrary documents is a key task to further improve computational models in NLP. To this end, we present a new, supervised paradigm directly tackling the domain adaptation issue in discourse parsing. Specifically, we introduce the first fully supervised discourse parser designed to alleviate the domain dependency through a staged model of weak classifiers by introducing the gradient boosting framework.
翻訳日:2022-10-19 14:29:45 公開日:2022-10-18
# NADI 2022:3番目のナンスアラビア語方言識別タスク

NADI 2022: The Third Nuanced Arabic Dialect Identification Shared Task ( http://arxiv.org/abs/2210.09582v1 )

ライセンス: Link先を確認
Muhammad Abdul-Mageed, Chiyu Zhang, AbdelRahim Elmadany, Houda Bouamor, Nizar Habash(参考訳) 第3回Nuanced Arabic Dialect Identification Shared Task (NADI 2022)の報告を行った。 NADIは、アラビア語の方言を含むアラビア語のNLPの進行を目標としている。 モデルとアプローチの有意義な比較が可能な標準化されたコンテキストにおいて、多様なデータセットとモデリングの機会を提供する。 NADI 2022は両方の方言識別を標的とした(Subtask) 1)および方言感情分析(サブタスク) 2)国レベルで。 共有タスクに登録された41のチームのうち、21チームが実際に参加している(有効な応募は105名)。 そのうち19チームがsubtask 1に参加し、10がsubtask 2に参加した。 優勝チームはサブタスク1では27.06 f1、サブタスク2ではf1=75.16を達成した。 参加チームが採用する手法を説明し,nadiの展望を示す。

We describe findings of the third Nuanced Arabic Dialect Identification Shared Task (NADI 2022). NADI aims at advancing state of the art Arabic NLP, including on Arabic dialects. It does so by affording diverse datasets and modeling opportunities in a standardized context where meaningful comparisons between models and approaches are possible. NADI 2022 targeted both dialect identification (Subtask 1) and dialectal sentiment analysis (Subtask 2) at the country level. A total of 41 unique teams registered for the shared task, of whom 21 teams have actually participated (with 105 valid submissions). Among these, 19 teams participated in Subtask 1 and 10 participated in Subtask 2. The winning team achieved 27.06 F1 on Subtask 1 and F1=75.16 on Subtask 2, reflecting that the two subtasks remain challenging and motivating future work in this area. We describe methods employed by participating teams and offer an outlook for NADI.
翻訳日:2022-10-19 14:29:34 公開日:2022-10-18
# データ不足を克服する糖尿病網膜症解析フレームワークの開発のための小技

Bag of Tricks for Developing Diabetic Retinopathy Analysis Framework to Overcome Data Scarcity ( http://arxiv.org/abs/2210.09558v1 )

ライセンス: Link先を確認
Gitaek Kwon, Eunjin Kim, Sunho Kim, Seongwon Bak, Minsung Kim, Jaeyoung Kim(参考訳) 近年,超広帯域光コヒーレンス断層撮影(uw-octa)を用いた糖尿病網膜症スクリーニング(dr)が初期のdrの徴候の検出に用いられているが,データ収集の難しさや公共データセットの欠如から,uw-octa画像を用いた深層学習型dr解析システムの開発は容易ではない。 現実的な制約により、小さなデータセットでトレーニングされたモデルはサブパーのパフォーマンスを得ることができる。 したがって、眼科医がモデルの誤った判断を混乱させるのを助けるために、モデルはデータ不足の設定でも堅牢であるべきである。 そこで本研究では, 病変分割, 画像品質評価, および dr grading を含む dr 解析タスクに関する包括的実証研究を行う。 各タスクに対して,アンサンブル学習,データ強化,半教師付き学習を活用した堅牢な学習手法を導入する。 さらに,不確実な擬似ラベルをモデルの信頼度スコアに基づいて除外し,ノイズのある擬似ラベルの負の効果を低減する信頼性の高い擬似ラベルを提案する。 提案手法を応用し,糖尿病網膜症解析チャレンジで第1位を獲得した。

Recently, diabetic retinopathy (DR) screening utilizing ultra-wide optical coherence tomography angiography (UW-OCTA) has been used in clinical practices to detect signs of early DR. However, developing a deep learning-based DR analysis system using UW-OCTA images is not trivial due to the difficulty of data collection and the absence of public datasets. By realistic constraints, a model trained on small datasets may obtain sub-par performance. Therefore, to help ophthalmologists be less confused about models' incorrect decisions, the models should be robust even in data scarcity settings. To address the above practical challenging, we present a comprehensive empirical study for DR analysis tasks, including lesion segmentation, image quality assessment, and DR grading. For each task, we introduce a robust training scheme by leveraging ensemble learning, data augmentation, and semi-supervised learning. Furthermore, we propose reliable pseudo labeling that excludes uncertain pseudo-labels based on the model's confidence scores to reduce the negative effect of noisy pseudo-labels. By exploiting the proposed approaches, we achieved 1st place in the Diabetic Retinopathy Analysis Challenge.
翻訳日:2022-10-19 14:23:24 公開日:2022-10-18
# ViTCoD:Dedicated AlgorithmとAccelerator Co-Designによるビジョントランスフォーマー高速化

ViTCoD: Vision Transformer Acceleration via Dedicated Algorithm and Accelerator Co-Design ( http://arxiv.org/abs/2210.09573v1 )

ライセンス: Link先を確認
Haoran You, Zhanyi Sun, Huihong Shi, Zhongzhi Yu, Yang Zhao, Yongan Zhang, Chaojian Li, Baopu Li, Yingyan Lin(参考訳) ビジョントランスフォーマー(ViT)は、様々なビジョンタスクにおいて最先端のパフォーマンスを達成した。 しかし、ViTsの自己保持モジュールは依然として大きなボトルネックであり、達成可能なハードウェア効率を制限している。 一方、既存のnlpトランスフォーマー専用の加速器はvitには最適ではない。 これは、ViT と NLP 変換器の間には大きな違いがあるためである: ViT は比較的固定数の入力トークンを持ち、その注意マップは固定されたスパースパターンであっても最大90%までプルーニングできる;一方 NLP 変換器は、様々な数のトークンの入力シーケンスを処理し、各入力に対して、適切な間隔を達成するために、動的スパースパターンのオンザフライ予測に依存する必要がある(例: >=50%)。 そこで本研究では,ViTの高速化を目的とした,ViTCoDと呼ばれる専用アルゴリズムとアクセラレータ共設計フレームワークを提案する。 具体的には、アルゴリズムレベルでは、vitcod prunes and polarize the attention map to have denser or sparser fixed pattern for regularizing two level of workloads without hurts accuracy, much reduced the attention computations with easeing the remaining dominant data movement; そしてさらに、軽量で学習可能なオートエンコーダモジュールを統合して、低コストな計算のために、支配的な高コストデータ移動を取引できるようにする。 ハードウェアレベルでは,高密度/スパーサ負荷とエンコーダ/デコーダエンジンを併用してハードウェア利用を促進させる専用アクセラレータを開発した。 大規模な実験とアブレーション研究により、ViTCoDは最大235.3x, 142.9x, 86.0x, 10.1x, 6.8xのスピードアップをCPU、EdgeGPU、GPU、および先進的なトランスフォーマーアクセラレータSpAttenとSangerでそれぞれ90%の間隔で達成している。

Vision Transformers (ViTs) have achieved state-of-the-art performance on various vision tasks. However, ViTs' self-attention module is still arguably a major bottleneck, limiting their achievable hardware efficiency. Meanwhile, existing accelerators dedicated to NLP Transformers are not optimal for ViTs. This is because there is a large difference between ViTs and NLP Transformers: ViTs have a relatively fixed number of input tokens, whose attention maps can be pruned by up to 90% even with fixed sparse patterns; while NLP Transformers need to handle input sequences of varying numbers of tokens and rely on on-the-fly predictions of dynamic sparse attention patterns for each input to achieve a decent sparsity (e.g., >=50%). To this end, we propose a dedicated algorithm and accelerator co-design framework dubbed ViTCoD for accelerating ViTs. Specifically, on the algorithm level, ViTCoD prunes and polarizes the attention maps to have either denser or sparser fixed patterns for regularizing two levels of workloads without hurting the accuracy, largely reducing the attention computations while leaving room for alleviating the remaining dominant data movements; on top of that, we further integrate a lightweight and learnable auto-encoder module to enable trading the dominant high-cost data movements for lower-cost computations. On the hardware level, we develop a dedicated accelerator to simultaneously coordinate the enforced denser/sparser workloads and encoder/decoder engines for boosted hardware utilization. Extensive experiments and ablation studies validate that ViTCoD largely reduces the dominant data movement costs, achieving speedups of up to 235.3x, 142.9x, 86.0x, 10.1x, and 6.8x over general computing platforms CPUs, EdgeGPUs, GPUs, and prior-art Transformer accelerators SpAtten and Sanger under an attention sparsity of 90%, respectively.
翻訳日:2022-10-19 14:23:03 公開日:2022-10-18
# ピラミッド制約ネットワークによる眼底画像の分解不変強調

Degradation-invariant Enhancement of Fundus Images via Pyramid Constraint Network ( http://arxiv.org/abs/2210.09606v1 )

ライセンス: Link先を確認
Haofeng Liu, Heng Li, Huazhu Fu, Ruoxiu Xiao, Yunshu Gao, Yan Hu, Jiang Liu(参考訳) 経済的かつ効率的な眼底画像撮影法として,網膜眼底画像が臨床眼底検査に広く採用されている。 残念ながら、眼底画像は画像干渉による品質劣化に悩まされ、誤診につながることが多い。 最先端の手法が達成した印象的な向上性能にもかかわらず、臨床シナリオには課題が残っている。 本稿では, 眼底画像強調の臨床的展開を促進するため, 臨床データの需要を軽減し, 安定的に未知データを高める分解不変強調ネットワーク (pce-net) を開発するためのピラミッド制約を提案する。 まず、高品質の画像はランダムに分解され、同じコンテンツ(SeqLC)を共有する低品質の画像列を形成する。 次に、拡張のためのマルチレベル入力として、個々の低画質画像をラプラシアピラミッド特徴(LPF)に分解する。 その後、PCE-Netを強制して劣化不変モデルを学ぶために、シーケンスのための特徴ピラミッド制約(FPC)を導入する。 強化とセグメント化の評価基準の下で広範囲な実験が行われている。 PCE-Netの有効性を最先端法とアブレーション法と比較した。 この研究のソースコードはhttps://github.com/HeverLaw/PCENet-Image-Enhancementで公開されている。

As an economical and efficient fundus imaging modality, retinal fundus images have been widely adopted in clinical fundus examination. Unfortunately, fundus images often suffer from quality degradation caused by imaging interferences, leading to misdiagnosis. Despite impressive enhancement performances that state-of-the-art methods have achieved, challenges remain in clinical scenarios. For boosting the clinical deployment of fundus image enhancement, this paper proposes the pyramid constraint to develop a degradation-invariant enhancement network (PCE-Net), which mitigates the demand for clinical data and stably enhances unknown data. Firstly, high-quality images are randomly degraded to form sequences of low-quality ones sharing the same content (SeqLCs). Then individual low-quality images are decomposed to Laplacian pyramid features (LPF) as the multi-level input for the enhancement. Subsequently, a feature pyramid constraint (FPC) for the sequence is introduced to enforce the PCE-Net to learn a degradation-invariant model. Extensive experiments have been conducted under the evaluation metrics of enhancement and segmentation. The effectiveness of the PCE-Net was demonstrated in comparison with state-of-the-art methods and the ablation study. The source code of this study is publicly available at https://github.com/HeverLaw/PCENet-Image-Enhancement.
翻訳日:2022-10-19 14:22:22 公開日:2022-10-18
# WaGI : ウェーブレットに基づく高頻度画像保存のためのGANインバージョン

WaGI : Wavelet-based GAN Inversion for Preserving High-frequency Image Details ( http://arxiv.org/abs/2210.09655v1 )

ライセンス: Link先を確認
Seung-Jun Moon, Chaewon Kim, Gyeong-Moon Park(参考訳) 最近のGANインバージョンモデルは、ジェネレータチューニングや機能混合など、様々な方法で画像固有の詳細を保存することに重点を置いている。 これらは、内在的な低レート潜時反転と比較して詳細を保存するのに役立つが、高い周波数特性を正確に維持することができない。 本稿では,既存のGANインバージョンモデルが構造面と訓練面の両方に固有の制約があり,高周波特性の微妙な再構成を妨げていることを指摘する。 特に,GANインバージョンにおける損失項,すなわちL2は,主に低周波特性の再構成に偏っていることを示す。 この問題を解決するために,新しいウェーブレットベース損失項と新たに提案されたウェーブレット融合方式を用いて,周波数特性を明示的に処理できる新しいGANインバージョンモデルWaGIを提案する。 我々の知る限り、WAGIは周波数領域におけるGAN反転を解釈する最初の試みである。 従来のGANインバージョンモデルと比較して,WAGIはインバージョンと編集の両方において優れた結果を示す。 特に、WAGIは編集シナリオにおいても、画像の高周波特性を強く保存する。 レビューの後、トレーニング済みのモデルでコードをリリースします。

Recent GAN inversion models focus on preserving image-specific details through various methods, e.g., generator tuning or feature mixing. While those are helpful for preserving details compared to a naiive low-rate latent inversion, they still fail to maintain high-frequency features precisely. In this paper, we point out that the existing GAN inversion models have inherent limitations in both structural and training aspects, which preclude the delicate reconstruction of high-frequency features. Especially, we prove that the widely-used loss term in GAN inversion, i.e., L2, is biased to reconstruct low-frequency features mainly. To overcome this problem, we propose a novel GAN inversion model, coined WaGI, which enables to handle high-frequency features explicitly, by using a novel wavelet-based loss term and a newly proposed wavelet fusion scheme. To the best of our knowledge, WaGI is the first attempt to interpret GAN inversion in the frequency domain. We demonstrate that WaGI shows outstanding results on both inversion and editing, compared to the existing state-of-the-art GAN inversion models. Especially, WaGI robustly preserves high-frequency features of images even in the editing scenario. We will release our code with the pre-trained model after the review.
翻訳日:2022-10-19 14:22:04 公開日:2022-10-18
# 視聴者の気持ちはどうだろう? 映像シナリオによる幸福度の推定

How Would The Viewer Feel? Estimating Wellbeing From Video Scenarios ( http://arxiv.org/abs/2210.10039v1 )

ライセンス: Link先を確認
Mantas Mazeika, Eric Tang, Andy Zou, Steven Basart, Jun Shern Chan, Dawn Song, David Forsyth, Jacob Steinhardt, Dan Hendrycks(参考訳) 近年、ディープニューラルネットワークは、ビデオ内のオブジェクトやアクティビティを認識する能力がますます強くなっている。 しかし、映像理解が現実世界のアプリケーションで広く使われるようになるにつれて、ビデオの内容だけでなく、視聴者の幸福感や感情状態にどのように影響するかを理解する人間中心のシステムを開発することが重要視される。 そこで本研究では,6万本以上の映像を手作業でアノテートし,感情的反応と主観的幸福度を判断する2つの大規模データセットを提案する。 ビデオ認知共感(VCE)データセットには、きめ細かい感情応答の分布に関するアノテーションが含まれており、モデルが感情状態の詳細な理解を得ることができる。 Video to Valence(V2V)データセットには、ビデオ間の相対的な快適性のアノテーションが含まれている。 実験では、主にアクションを認識し、オブジェクトの輪郭を見つけるために訓練されたビデオモデルを、人間の好みやビデオの感情的内容を理解するために再利用する方法を示す。 改善の余地はあるものの、幸福感や感情的な反応を予測することは、最先端のモデルにとって地平線上にある。 当社のデータセットは、commonsenseビデオ理解と人間の好み学習の交差点におけるさらなる進歩を促進できることを願っています。

In recent years, deep neural networks have demonstrated increasingly strong abilities to recognize objects and activities in videos. However, as video understanding becomes widely used in real-world applications, a key consideration is developing human-centric systems that understand not only the content of the video but also how it would affect the wellbeing and emotional state of viewers. To facilitate research in this setting, we introduce two large-scale datasets with over 60,000 videos manually annotated for emotional response and subjective wellbeing. The Video Cognitive Empathy (VCE) dataset contains annotations for distributions of fine-grained emotional responses, allowing models to gain a detailed understanding of affective states. The Video to Valence (V2V) dataset contains annotations of relative pleasantness between videos, which enables predicting a continuous spectrum of wellbeing. In experiments, we show how video models that are primarily trained to recognize actions and find contours of objects can be repurposed to understand human preferences and the emotional content of videos. Although there is room for improvement, predicting wellbeing and emotional response is on the horizon for state-of-the-art models. We hope our datasets can help foster further advances at the intersection of commonsense video understanding and human preference learning.
翻訳日:2022-10-19 14:21:42 公開日:2022-10-18
# 大規模MIMOシステムにおけるフェデレーション学習のためのランダム直交化

Random Orthogonalization for Federated Learning in Massive MIMO Systems ( http://arxiv.org/abs/2210.09881v1 )

ライセンス: Link先を確認
Xizixiang Wei, Cong Shen, Jing Yang, H. Vincent Poor(参考訳) 大規模マルチインプットおよびマルチアウトプット(MIMO)無線システムにおける連系学習(FL)のための,ランダム直交化と呼ばれる新しい通信設計を提案する。 ランダム直交化の重要な特徴は、FLの密結合と、チャネル硬化と良好な伝播というMIMOの2つの特徴である。 その結果、FLのアップリンクフェーズに送信側チャネル状態情報(CSI)を必要とせず、自然対空モデルアグリゲーションを実現することができ、受信機でのチャネル推定オーバーヘッドを著しく低減することができる。 我々は、この原理をダウンリンク通信フェーズに拡張し、FLの簡易かつ高効率なモデル放送法を開発する。 また、チャネル硬化や良好な伝搬に依存しないアップリンクおよびダウンリンクFL通信のための拡張されたランダム直交化設計を提案することで、MIMOの仮定を緩和する。 コミュニケーションと機械学習のパフォーマンスの両方について理論的解析を行う。 特に、収束率、クライアント数、アンテナ数との間に明確な関係が確立される。 大規模MIMOにおけるFLのランダム直交化の有効性と効率を実験的に検証した。

We propose a novel communication design, termed random orthogonalization, for federated learning (FL) in a massive multiple-input and multiple-output (MIMO) wireless system. The key novelty of random orthogonalization comes from the tight coupling of FL and two unique characteristics of massive MIMO -- channel hardening and favorable propagation. As a result, random orthogonalization can achieve natural over-the-air model aggregation without requiring transmitter side channel state information (CSI) for the uplink phase of FL, while significantly reducing the channel estimation overhead at the receiver. We extend this principle to the downlink communication phase and develop a simple but highly effective model broadcast method for FL. We also relax the massive MIMO assumption by proposing an enhanced random orthogonalization design for both uplink and downlink FL communications, that does not rely on channel hardening or favorable propagation. Theoretical analyses with respect to both communication and machine learning performance are carried out. In particular, an explicit relationship among the convergence rate, the number of clients, and the number of antennas is established. Experimental results validate the effectiveness and efficiency of random orthogonalization for FL in massive MIMO.
翻訳日:2022-10-19 14:21:20 公開日:2022-10-18
# マスアートノイズによる単一ニューロン学習のためのSQ下界

SQ Lower Bounds for Learning Single Neurons with Massart Noise ( http://arxiv.org/abs/2210.09949v1 )

ライセンス: Link先を確認
Ilias Diakonikolas, Daniel M. Kane, Lisheng Ren, Yuxin Sun(参考訳) 我々は,Massartノイズの存在下で単一ニューロンを学習するPACの問題について検討した。 具体的には、既知の活性化関数 $f: \mathbb{r} \to \mathbb{r}$ に対して、学習者はラベル付き例 $(\mathbf{x}, y) \in \mathbb{r}^d \times \mathbb{r}$ へのアクセスを与える。 学習者の目標は、仮説 $h: \mathbb{R}^d \to \mathbb{R}$ を小さな正方形損失で出力することである。 ReLUを含む様々なアクティベーション関数に対して、この学習問題に対して超多項式統計クエリ(SQ)の下位境界を確立する。 より詳しくは、任意の定数係数内で最適な誤差を近似できる効率的なSQアルゴリズムが存在しないことを証明する。 我々の主な技術的貢献は、Booleanハイパーキューブ上の$\{ \pm 1\}$-weight Massartハーフスペースを学ぶための新しいSQハード構成である。

We study the problem of PAC learning a single neuron in the presence of Massart noise. Specifically, for a known activation function $f: \mathbb{R} \to \mathbb{R}$, the learner is given access to labeled examples $(\mathbf{x}, y) \in \mathbb{R}^d \times \mathbb{R}$, where the marginal distribution of $\mathbf{x}$ is arbitrary and the corresponding label $y$ is a Massart corruption of $f(\langle \mathbf{w}, \mathbf{x} \rangle)$. The goal of the learner is to output a hypothesis $h: \mathbb{R}^d \to \mathbb{R}$ with small squared loss. For a range of activation functions, including ReLUs, we establish super-polynomial Statistical Query (SQ) lower bounds for this learning problem. In more detail, we prove that no efficient SQ algorithm can approximate the optimal error within any constant factor. Our main technical contribution is a novel SQ-hard construction for learning $\{ \pm 1\}$-weight Massart halfspaces on the Boolean hypercube that is interesting on its own right.
翻訳日:2022-10-19 14:20:59 公開日:2022-10-18
# ウィキペディア概念を用いたノイズテキストの能動的情報検索に向けて

Towards Proactive Information Retrieval in Noisy Text with Wikipedia Concepts ( http://arxiv.org/abs/2210.09877v1 )

ライセンス: Link先を確認
Tabish Ahmed and Sahan Bulathwela(参考訳) ユーザ履歴から有用な情報を抽出して情報ニーズを明確に理解することは,積極的な情報検索システムの重要な特徴である。 情報と関連性の理解に関して、wikipediaは知的システムに必要な背景知識を提供することができる。 本研究は,wikipedia の概念を用いたクエリの文脈の活用によって,雑音の多いテキストに対する積極的な情報検索を改善する方法について検討する。 関連モデルとウィキペディアトピックを関連付けるためにエンティティリンクを使用する2つのモデルを定式化する。 ポッドキャストセグメント検索タスクに関する実験により,ウィキペディアの概念に関連性の明確なシグナルがあることが示され,ランキングモデルにより精度が向上することが示された。 また、クエリの背景コンテキストをWikifyingすることで、クエリの意味を曖昧にし、さらにプロアクティブな情報検索を支援することができる。

Extracting useful information from the user history to clearly understand informational needs is a crucial feature of a proactive information retrieval system. Regarding understanding information and relevance, Wikipedia can provide the background knowledge that an intelligent system needs. This work explores how exploiting the context of a query using Wikipedia concepts can improve proactive information retrieval on noisy text. We formulate two models that use entity linking to associate Wikipedia topics with the relevance model. Our experiments around a podcast segment retrieval task demonstrate that there is a clear signal of relevance in Wikipedia concepts while a ranking model can improve precision by incorporating them. We also find Wikifying the background context of a query can help disambiguate the meaning of the query, further helping proactive information retrieval.
翻訳日:2022-10-19 14:15:49 公開日:2022-10-18
# MMGA:グラフアライメントによるマルチモーダル学習

MMGA: Multimodal Learning with Graph Alignment ( http://arxiv.org/abs/2210.09946v1 )

ライセンス: Link先を確認
Xuan Yang, Yang Yang(参考訳) マルチモーダル事前学習は、モダリティ障壁を分解し、個々のモダリティを情報と相互に拡張し、表現学習において大きな進歩をもたらす。 しかしながら、グラフモダリティは、非常に一般的で重要なデータ形式であり、非正規性のため、他のモダリティと容易に相互作用できない。 本稿では,グラフ(ソーシャルネットワーク),画像,テキストからの情報を取り込んでユーザ表現学習を促進するためのマルチモーダル事前学習フレームワークmmga(multimodal learning with graph alignment)を提案する。 mmgaでは、画像とテキストのエンコーダを最適化するためにグラフモダリティから自己スーパービジョンを追加し、画像とテキストモダリティの情報を用いてグラフエンコーダ学習をガイドする多段階グラフアライメント機構が提案されている。 Instagramからクロールしたデータセットの実験を行います。 実験の結果,MMGAはデータセット上で良好に動作し,ファン予測タスクの性能が向上することがわかった。 われわれのデータセットは、グラフ付き初のソーシャルメディアマルチモーダルデータセットであり、将来の研究を促進するために200万の投稿に基づいて特定のトピックをラベル付けした6万人のユーザーからなる。

Multimodal pre-training breaks down the modality barriers and allows the individual modalities to be mutually augmented with information, resulting in significant advances in representation learning. However, graph modality, as a very general and important form of data, cannot be easily interacted with other modalities because of its non-regular nature. In this paper, we propose MMGA (Multimodal learning with Graph Alignment), a novel multimodal pre-training framework to incorporate information from graph (social network), image and text modalities on social media to enhance user representation learning. In MMGA, a multi-step graph alignment mechanism is proposed to add the self-supervision from graph modality to optimize the image and text encoders, while using the information from the image and text modalities to guide the graph encoder learning. We conduct experiments on the dataset crawled from Instagram. The experimental results show that MMGA works well on the dataset and improves the fans prediction task's performance. We release our dataset, the first social media multimodal dataset with graph, of 60,000 users labeled with specific topics based on 2 million posts to facilitate future research.
翻訳日:2022-10-19 14:15:34 公開日:2022-10-18
# Covariate と Target シフトに対する正規化最小二乗の重み付け補正

Importance Weighting Correction of Regularized Least-Squares for Covariate and Target Shifts ( http://arxiv.org/abs/2210.09709v1 )

ライセンス: Link先を確認
Davit Gogolashvili(参考訳) 現実世界の多くの問題では、トレーニングデータとテストデータは異なる分布を持つ。 この状況は一般にデータセットシフトと呼ばれる。 文献でよく考慮されるデータセットシフトの最も一般的な設定は {\em covariate shift } と {\em target shift} である。 重要重み付け(IW)補正は、データセットシフトの下で学習シナリオに存在するバイアスを修正する普遍的な方法である。 IW補正はさまざまなデータセットシフトシナリオで同じように機能するのか? 共変量および目標シフトの下での重み付き核リッジ回帰(w-krr)の一般化特性を調べることにより、iwが有界でモデルが wellspecificified である場合を除き、答えは負であることが分かる。 後者の場合、最小値の最適値は、重み付けされたカーネルリッジ回帰(IW-KRR)によって、共変量および目標シフトシナリオの両方で達成される。 iwの有界性条件を少し緩和すると、iw-krrは目標シフトの最適速度を達成し、共変量シフトの速度は遅くなることを示した。 モデル不特定の場合, 共変量シフト時のW-KRRの性能は, 代替再重み付け関数を設計することによって著しく向上することを示した。 不特定シナリオと明確に特定されたシナリオの区別は、目標シフト中の学習問題において重要でないように思われる。

In many real world problems, the training data and test data have different distributions. This situation is commonly referred as a dataset shift. The most common settings for dataset shift often considered in the literature are {\em covariate shift } and {\em target shift}. Importance weighting (IW) correction is a universal method for correcting the bias present in learning scenarios under dataset shift. The question one may ask is: does IW correction work equally well for different dataset shift scenarios? By investigating the generalization properties of the weighted kernel ridge regression (W-KRR) under covariate and target shifts we show that the answer is negative, except when IW is bounded and the model is wellspecified. In the latter cases, a minimax optimal rates are achieved by importance weighted kernel ridge regression (IW-KRR) in both, covariate and target shift scenarios. Slightly relaxing the boundedness condition of the IW we show that the IW-KRR still achieves the optimal rates under target shift while leading to slower rates for covariate shift. In the case of the model misspecification we show that the performance of the W-KRR under covariate shift could be substantially increased by designing an alternative reweighting function. The distinction between misspecified and wellspecified scenarios does not seem to be crucial in the learning problems under target shift.
翻訳日:2022-10-19 14:14:03 公開日:2022-10-18
# unbounded memoryを用いたオンライン凸最適化

Online Convex Optimization with Unbounded Memory ( http://arxiv.org/abs/2210.09903v1 )

ライセンス: Link先を確認
Raunak Kumar, Sarah Dean, and Robert D. Kleinberg(参考訳) online convex optimization(oco)は、オンライン学習において広く使われているフレームワークである。 各ラウンドにおいて、学習者はある凸セットで決定を選択し、敵は凸損失関数を選択し、学習者は選択した決定に関連する損失に苦しむ。 しかし、多くのモチベーションのあるアプリケーションでは、学習者の喪失は、現在の決定だけでなく、その時点までの決定の歴史全体にも依存する。 OCOフレームワークとその既存の一般化は、これを達成できない。 本稿では,OCOフレームワークの一般化である ``Online Convex Optimization with Unbounded Memory'' を紹介する。 我々は,現在の損失に対する過去の決定の最大影響を定量化するメモリ容量$p$,$h_p$の概念を導入する。 我々は、o(\sqrt{h_1 t})$ policy regret bound とより強い$o(\sqrt{h_p t})$ policy regret bound を軽い追加仮定で証明する。 これらの境界は、時間軸 $t$ に依存する点において最適である。 提案手法は,オンライン型高性能予測とオンライン線形制御を含む様々なオンライン学習問題に対して,後悔の限度を導出し,既存の後悔の限度導出を単純化することにより,幅広い適用性を示す。

Online convex optimization (OCO) is a widely used framework in online learning. In each round, the learner chooses a decision in some convex set and an adversary chooses a convex loss function, and then the learner suffers the loss associated with their chosen decision. However, in many of the motivating applications the loss of the learner depends not only on the current decision but on the entire history of decisions until that point. The OCO framework and existing generalizations thereof fail to capture this. In this work we introduce a generalization of the OCO framework, ``Online Convex Optimization with Unbounded Memory'', that captures long-term dependence on past decisions. We introduce the notion of $p$-effective memory capacity, $H_p$, that quantifies the maximum influence of past decisions on current losses. We prove a $O(\sqrt{H_1 T})$ policy regret bound and a stronger $O(\sqrt{H_p T})$ policy regret bound under mild additional assumptions. These bounds are optimal in terms of their dependence on the time horizon $T$. We show the broad applicability of our framework by using it to derive regret bounds, and to simplify existing regret bound derivations, for a variety of online learning problems including an online variant of performative prediction and online linear control.
翻訳日:2022-10-19 14:13:39 公開日:2022-10-18
# シングルタイムスケールアクター批判の有限時間解析

Finite-time analysis of single-timescale actor-critic ( http://arxiv.org/abs/2210.09921v1 )

ライセンス: Link先を確認
Xuyang Chen, Lin Zhao(参考訳) アクター批判的手法の実証的な成功にもかかわらず、その有限時間収束は依然として最も実践的な形態では理解されていない。 特に、シングルタイムのアクター批判の分析は、高度に不正確な批評家推定と、反復による複雑なエラー伝播のダイナミクスにより、重大な課題を呈している。 既存のシングル・タイム・スケールの俳優・批評家の分析は、単純なサンプリングや表表の設定にのみ焦点をあてている。 我々は,連続状態空間におけるより実用的なオンライン・シングルタイム・アクタ-クリティックアルゴリズムを考える。 オンラインシングルタイムのアクター批判法は、標準仮定の下でのサンプル複雑性を$\widetilde{\mathcal{O}}(\epsilon^{-2})$$で、サンプリング時に$\mathcal{O}(\epsilon^{-2})$でさらに改善できる$\epsilon$-approximate 定常点を見つけることが保証されていることを証明している。 本研究では,アクターと批評家間のエラー伝達を体系的に評価・制御する新しいフレームワークを開発した。 我々の知る限り、これはオンライン・シングル・タイム・アクタ・クリティック法における最初の有限時間解析である。 総じて,最も実践的な設定を考慮し,より弱い仮定を要求できるという点で,既存のアクタ批判の分析文献と比較した。

Despite the great empirical success of actor-critic methods, its finite-time convergence is still poorly understood in its most practical form. In particular, the analysis of single-timescale actor-critic presents significant challenges due to the highly inaccurate critic estimation and the complex error propagation dynamics over iterations. Existing works on analyzing single-timescale actor-critic only focus on the i.i.d. sampling or tabular setting for simplicity, which is rarely the case in practical applications. We consider the more practical online single-timescale actor-critic algorithm on continuous state space, where the critic is updated with a single Markovian sample per actor step. We prove that the online single-timescale actor-critic method is guaranteed to find an $\epsilon$-approximate stationary point with $\widetilde{\mathcal{O}}(\epsilon^{-2})$ sample complexity under standard assumptions, which can be further improved to $\mathcal{O}(\epsilon^{-2})$ under i.i.d. sampling. Our analysis develops a novel framework that evaluates and controls the error propagation between actor and critic in a systematic way. To our knowledge, this is the first finite-time analysis for online single-timescale actor-critic method. Overall, our results compare favorably to the existing literature on analyzing actor-critic in terms of considering the most practical settings and requiring weaker assumptions.
翻訳日:2022-10-19 14:13:19 公開日:2022-10-18
# 微分プライベート拡散モデル

Differentially Private Diffusion Models ( http://arxiv.org/abs/2210.09929v1 )

ライセンス: Link先を確認
Tim Dockhorn, Tianshi Cao, Arash Vahdat, Karsten Kreis(参考訳) 現代の機械学習モデルは、ますます大きなトレーニングデータセットに依存しているが、データはプライバシーに敏感なドメインに限定されることが多い。 機密データに対して差分プライバシー(DP)でトレーニングされた生成モデルは、この課題を回避し、代わりに合成データへのアクセスを提供する。 しかし、DP生成モデルの訓練は、DPを強制する訓練に注入されるノイズのため、非常に難しい。 本稿では,深部生成モデルの新たなクラスである拡散モデル(dms)を活用し,微分プライベート勾配降下(dp-sgd)を用いたプライバシーを強制する差分プライベート拡散モデル(dpdms)を提案する。 DP-SGDがDPDMのトレーニングに適している理由を考察し、DMパラメータ化とサンプリングアルゴリズムを徹底的に検討し、DPDMの重要成分であることが判明した。 さらに,DP設定に適したDM訓練目標の簡易かつ強力な修正であるノイズ多重度を提案し,性能を向上する。 我々は,広範に使用されている画像生成ベンチマークにおける新しいDPDMの有効性を検証し,最先端(SOTA)の性能を大きなマージンで達成する。 例えば、mnist では sota fid を 48.4 から 5.01 に改善し、プライバシ設定 dp-$(\varepsilon{=}10, \delta{=}10^{-5})$ の下流分類精度を 83.2% から 98.1% に改善する。 さらに、標準ベンチマークでは、dpdm生成合成データで訓練された分類器はタスク固有のdp-sgd訓練された分類器と同等の性能を発揮する。 プロジェクトページとコード:https://nv-tlabs.github.io/DPDM。

While modern machine learning models rely on increasingly large training datasets, data is often limited in privacy-sensitive domains. Generative models trained with differential privacy (DP) on sensitive data can sidestep this challenge, providing access to synthetic data instead. However, training DP generative models is highly challenging due to the noise injected into training to enforce DP. We propose to leverage diffusion models (DMs), an emerging class of deep generative models, and introduce Differentially Private Diffusion Models (DPDMs), which enforce privacy using differentially private stochastic gradient descent (DP-SGD). We motivate why DP-SGD is well suited for training DPDMs, and thoroughly investigate the DM parameterization and the sampling algorithm, which turn out to be crucial ingredients in DPDMs. Furthermore, we propose noise multiplicity, a simple yet powerful modification of the DM training objective tailored to the DP setting to boost performance. We validate our novel DPDMs on widely-used image generation benchmarks and achieve state-of-the-art (SOTA) performance by large margins. For example, on MNIST we improve the SOTA FID from 48.4 to 5.01 and downstream classification accuracy from 83.2% to 98.1% for the privacy setting DP-$(\varepsilon{=}10, \delta{=}10^{-5})$. Moreover, on standard benchmarks, classifiers trained on DPDM-generated synthetic data perform on par with task-specific DP-SGD-trained classifiers, which has not been demonstrated before for DP generative models. Project page and code: https://nv-tlabs.github.io/DPDM.
翻訳日:2022-10-19 14:12:49 公開日:2022-10-18
# 置換同変量子ニューラルネットワークの理論的保証

Theoretical Guarantees for Permutation-Equivariant Quantum Neural Networks ( http://arxiv.org/abs/2210.09974v1 )

ライセンス: Link先を確認
Louis Schatzki, Martin Larocca, Frederic Sauvage, M. Cerezo(参考訳) 量子機械学習モデルの大きな約束にもかかわらず、その潜在能力を解き放つ前に克服しなければならない課題がいくつかある。 例えば、量子ニューラルネットワーク(qnn)に基づくモデルは、トレーニング環境において、局所的な極小と不毛の高原に苦しむ可能性がある。 近年、幾何量子機械学習(GQML)の新たな分野が、これらの問題の潜在的な解決策として浮上している。 GQMLのキーとなる洞察は、同変QNNのようなアーキテクチャを設計し、問題の対称性を符号化すべきであるということである。 ここでは、置換対称性(つまり対称性の群$S_n$)の問題に焦点を当て、$S_n$-equivariant QNNを構築する方法を示す。 我々は,それらの性能の分析研究を行い,不毛高原に苦しめられず,過小パラメータ化に至らず,少量のデータから十分に一般化できることを示した。 この結果を検証するために,グラフ状態分類タスクの数値シミュレーションを行う。 我々の研究は、同変QNNに対する最初の理論的保証を提供し、GQMLの極端なパワーとポテンシャルを示している。

Despite the great promise of quantum machine learning models, there are several challenges one must overcome before unlocking their full potential. For instance, models based on quantum neural networks (QNNs) can suffer from excessive local minima and barren plateaus in their training landscapes. Recently, the nascent field of geometric quantum machine learning (GQML) has emerged as a potential solution to some of those issues. The key insight of GQML is that one should design architectures, such as equivariant QNNs, encoding the symmetries of the problem at hand. Here, we focus on problems with permutation symmetry (i.e., the group of symmetry $S_n$), and show how to build $S_n$-equivariant QNNs. We provide an analytical study of their performance, proving that they do not suffer from barren plateaus, quickly reach overparametrization, and can generalize well from small amounts of data. To verify our results, we perform numerical simulations for a graph state classification task. Our work provides the first theoretical guarantees for equivariant QNNs, thus indicating the extreme power and potential of GQML.
翻訳日:2022-10-19 14:12:13 公開日:2022-10-18
# RibSeg v2: Rib Labelingと解剖学的中心線抽出のための大規模ベンチマーク

RibSeg v2: A Large-scale Benchmark for Rib Labeling and Anatomical Centerline Extraction ( http://arxiv.org/abs/2210.09309v1 )

ライセンス: Link先を確認
Liang Jin, Shixuan Gu, Donglai Wei, Kaiming Kuang, Hanspeter Pfister, Bingbing Ni, Jiancheng Yang, Ming Li(参考訳) 各種臨床応用において, 自動リブラベリングと解剖学的中心線抽出が必須条件である。 以前の研究では、コミュニティにアクセスできない社内データセットを使用するか、リブラベルの臨床的意義を無視したリブセグメンテーションにフォーカスする。 これらの問題に対処するため、バイナリリブセグメンテーションタスクの以前のデータセット(RibSeg)を、660個のCTスキャン(15,466個の個々のリブ)と、リブラベリングや解剖学的中心線抽出の専門家が手作業で検査したアノテーションで、RibSeg v2という包括的なベンチマークに拡張しました。 RibSeg v2に基づいて,リブラベリングのための深層学習に基づく手法と,中心線抽出のための骨格化に基づく手法を含むパイプラインを開発する。 計算効率を向上させるため,CTスキャンのスパース点クラウド表現を提案し,標準密度のボクセルグリッドと比較した。 さらに,各タスクの課題に対処するため,評価指標の設計と分析を行う。 私たちのデータセット、コード、モデルは、https://github.com/m3dv/ribsegでオープンリサーチを容易にするためにオンラインで利用可能です。

Automatic rib labeling and anatomical centerline extraction are common prerequisites for various clinical applications. Prior studies either use in-house datasets that are inaccessible to communities, or focus on rib segmentation that neglects the clinical significance of rib labeling. To address these issues, we extend our prior dataset (RibSeg) on the binary rib segmentation task to a comprehensive benchmark, named RibSeg v2, with 660 CT scans (15,466 individual ribs in total) and annotations manually inspected by experts for rib labeling and anatomical centerline extraction. Based on the RibSeg v2, we develop a pipeline including deep learning-based methods for rib labeling, and a skeletonization-based method for centerline extraction. To improve computational efficiency, we propose a sparse point cloud representation of CT scans and compare it with standard dense voxel grids. Moreover, we design and analyze evaluation metrics to address the key challenges of each task. Our dataset, code, and model are available online to facilitate open research at https://github.com/M3DV/RibSeg
翻訳日:2022-10-19 14:11:55 公開日:2022-10-18
# 微調整言語モデルにおけるバックドアの緩和

Fine-mixing: Mitigating Backdoors in Fine-tuned Language Models ( http://arxiv.org/abs/2210.09545v1 )

ライセンス: Link先を確認
Zhiyuan Zhang, Lingjuan Lyu, Xingjun Ma, Chenguang Wang, Xu Sun(参考訳) ディープニューラルネットワーク(DNN)は、バックドア攻撃に弱いことが知られている。 自然言語処理(NLP)では、DNNは、有毒なサンプルを持つ大規模事前学習言語モデル(PLM)の微調整プロセス中にバックドアされることが多い。 PLMのクリーンウェイトは容易に利用できるが、既存の手法では、NLPモデルをバックドア攻撃から守る際に、この情報を無視している。 本研究では,事前学習された(未調整の)重みを活用し,微調整言語モデルのバックドアを緩和するための第一歩を踏み出す。 具体的には,(1)バックドアウエイト(有毒データに微調整された)とプリトレーニングウエイト(プリトレーニングウエイト)を混合し,その混合ウエイトをクリーンデータの小さなサブセットに微調整する2段階の微調整技術,(2)ワード埋め込みに存在する潜在的なバックドアを緩和する埋め込み浄化(e-pur)技術という2つの相補的手法を用いて,クリーン事前トレーニングウエイトを活用する。 3つの単文感情分類タスクと2つの文ペア分類タスクにおいて、ファインミキシングと典型的なバックドア緩和手法を比較し、すべてのシナリオにおいてベースラインをかなり上回ることを示す。 E-PUR法は既存の緩和法にも有効であることを示す。 我々の研究は、バックドア攻撃に対するセキュアな微調整NLPモデルのための、シンプルだが強力なベースライン防御を確立する。

Deep Neural Networks (DNNs) are known to be vulnerable to backdoor attacks. In Natural Language Processing (NLP), DNNs are often backdoored during the fine-tuning process of a large-scale Pre-trained Language Model (PLM) with poisoned samples. Although the clean weights of PLMs are readily available, existing methods have ignored this information in defending NLP models against backdoor attacks. In this work, we take the first step to exploit the pre-trained (unfine-tuned) weights to mitigate backdoors in fine-tuned language models. Specifically, we leverage the clean pre-trained weights via two complementary techniques: (1) a two-step Fine-mixing technique, which first mixes the backdoored weights (fine-tuned on poisoned data) with the pre-trained weights, then fine-tunes the mixed weights on a small subset of clean data; (2) an Embedding Purification (E-PUR) technique, which mitigates potential backdoors existing in the word embeddings. We compare Fine-mixing with typical backdoor mitigation methods on three single-sentence sentiment classification tasks and two sentence-pair classification tasks and show that it outperforms the baselines by a considerable margin in all scenarios. We also show that our E-PUR method can benefit existing mitigation methods. Our work establishes a simple but strong baseline defense for secure fine-tuned NLP models against backdoor attacks.
翻訳日:2022-10-19 14:05:53 公開日:2022-10-18
# 単語アナロジーテストにおける予測情報の内容について

On the Information Content of Predictions in Word Analogy Tests ( http://arxiv.org/abs/2210.09972v1 )

ライセンス: Link先を確認
Jugurta Montalv\~ao(参考訳) アナログテストにおけるアナログの実際の関連性を定量化する手法が提案されている。 このアプローチの主な構成要素は、補償バイアスを伴うエントロピー推定も得るソフト精度推定器である。 事前学習したGloVe 300-Dベクターと2つの公開アナログテストセットで得られた実験結果から、情報内容の観点から、類似性テストにおける類似性よりも近接ヒントの方がずっと関連があることが示されている。 したがって、簡単な単語埋め込みモデルを用いて、アナログが1ビット程度の情報を持ち、実験的に相関していると予測する。

An approach is proposed to quantify, in bits of information, the actual relevance of analogies in analogy tests. The main component of this approach is a softaccuracy estimator that also yields entropy estimates with compensated biases. Experimental results obtained with pre-trained GloVe 300-D vectors and two public analogy test sets show that proximity hints are much more relevant than analogies in analogy tests, from an information content perspective. Accordingly, a simple word embedding model is used to predict that analogies carry about one bit of information, which is experimentally corroborated.
翻訳日:2022-10-19 14:05:27 公開日:2022-10-18
# 最小限のスーパービジョンでFacebookのワクチンキャンペーンを理解する

Understanding COVID-19 Vaccine Campaign on Facebook using Minimal Supervision ( http://arxiv.org/abs/2210.10031v1 )

ライセンス: Link先を確認
Tunazzina Islam, Dan Goldwasser(参考訳) 何十億というインターネットユーザーが情報や意見を共有しているソーシャルメディアの時代において、パンデミックのネガティブな影響は物理的な世界に限らない。 これは不完全、偏見、誤った情報の急増を引き起こし、インフォデミックとしても知られる。 この世界的インフォデミックは、パニック、ワクチンの行き詰まり、社会的な反応の断片化によって、パンデミックを制御する手段を脅かしている。 Facebookのようなプラットフォームは、広告主がメッセージを使って異なる層をターゲットにし、コンテンツに応じてインフォデミック問題を緩和または悪化させるのに役立つ。 本稿では、広告テーマと道徳的基礎を識別し、コビッドワクチンに関連するFacebook上のメッセージを理解するための最小限のマルチタスク学習フレームワークを提案する。 さらに,ソーシャルメディア上でのワクチンキャンペーンのメッセージ戦略について,よりニュアンス的な分析を行い,政策立案者がパンデミック対策についてより良い決定を下せるようにした。

In the age of social media, where billions of internet users share information and opinions, the negative impact of pandemics is not limited to the physical world. It provokes a surge of incomplete, biased, and incorrect information, also known as an infodemic. This global infodemic jeopardizes measures to control the pandemic by creating panic, vaccine hesitancy, and fragmented social response. Platforms like Facebook allow advertisers to adapt their messaging to target different demographics and help alleviate or exacerbate the infodemic problem depending on their content. In this paper, we propose a minimally supervised multi-task learning framework for understanding messaging on Facebook related to the covid vaccine by identifying ad themes and moral foundations. Furthermore, we perform a more nuanced thematic analysis of messaging tactics of vaccine campaigns on social media so that policymakers can make better decisions on pandemic control.
翻訳日:2022-10-19 14:05:16 公開日:2022-10-18
# 自律運転計画のための階層型モデルに基づく模倣学習

Hierarchical Model-Based Imitation Learning for Planning in Autonomous Driving ( http://arxiv.org/abs/2210.09539v1 )

ライセンス: Link先を確認
Eli Bronstein, Mark Palatucci, Dominik Notz, Brandyn White, Alex Kuefler, Yiren Lu, Supratik Paul, Payam Nikdel, Paul Mougin, Hongge Chen, Justin Fu, Austin Abrams, Punit Shah, Evan Racah, Benjamin Frenkel, Shimon Whiteson, Dragomir Anguelov(参考訳) 都市密集型自動運転の課題に対するモデルベース生成逆相似学習(MGAIL)の大規模適用を実証した。 任意のゴールルートへの一般化を可能にするために階層モデルを用いて標準mgailを拡張し,対話型エージェントを用いたクローズドループ評価フレームワークを用いて性能を測定する。 私たちは、サンフランシスコで10万マイル以上を走行する実車から収集された専門家の軌跡からのポリシーをトレーニングし、ゼロショットでも堅牢に走行できるステアブルなポリシーを示し、現実の運転では起こらなかった新しい目標を持つ合成シナリオに一般化します。 また,クローズドループmgail損失とオープンループ動作クローン損失を混合することの重要性を実証し,専門家のパフォーマンスに対する最善の方針を示す。 私たちは、平均シナリオと挑戦シナリオの両方で模倣モデルを評価し、それが軌道計画に成功する前にどのように役立つかを示します。

We demonstrate the first large-scale application of model-based generative adversarial imitation learning (MGAIL) to the task of dense urban self-driving. We augment standard MGAIL using a hierarchical model to enable generalization to arbitrary goal routes, and measure performance using a closed-loop evaluation framework with simulated interactive agents. We train policies from expert trajectories collected from real vehicles driving over 100,000 miles in San Francisco, and demonstrate a steerable policy that can navigate robustly even in a zero-shot setting, generalizing to synthetic scenarios with novel goals that never occurred in real-world driving. We also demonstrate the importance of mixing closed-loop MGAIL losses with open-loop behavior cloning losses, and show our best policy approaches the performance of the expert. We evaluate our imitative model in both average and challenging scenarios, and show how it can serve as a useful prior to plan successful trajectories.
翻訳日:2022-10-19 14:04:33 公開日:2022-10-18
# Hidet: ディープラーニングテンソルプログラムのためのタスクマッピングプログラミングパラダイム

Hidet: Task Mapping Programming Paradigm for Deep Learning Tensor Programs ( http://arxiv.org/abs/2210.09603v1 )

ライセンス: Link先を確認
Yaoyao Ding, Cody Hao Yu, Bojian Zheng, Yizhi Liu, Yida Wang, Gennady Pekhimenko(参考訳) 近年,ディープラーニングモデルがクラウドサービスとエッジデバイスの両方で広く採用されているため,ディープラーニングモデル推論のレイテンシは,効率的なモデル提供を実現する上で重要である。 しかし、現代のアクセラレーター(例えばnvidia gpuやgoogle tpus)の複雑さと急速に増加するオペレータの数のために、ディープラーニングオペレーター向けの効率的なテンソルプログラムを開発することは困難である。 Apache TVMのようなディープラーニングコンパイラは、宣言型スケジューリングプリミティブを採用して、テンソルプログラムの開発バーを低くする。 しかし、この手法は、最先端のテンソルプログラム最適化(ダブルバッファリングなど)をカバーするには不十分であることを示す。 本稿では,スケジューリングプロセスをテンソルプログラムに組込み,タスクマッピングと呼ばれる専用マッピングを用いて,テンソルプログラム内での計算代入と順序付けを定義することを提案する。 この新しいアプローチは、開発者がより細かい粒度(例えばプログラム文レベルの最適化)でテンソルプログラムを操作できるようにすることにより、表現可能な最適化を大幅に強化する。 提案手法をタスクマッピング指向プログラミングパラダイムと呼ぶ。 提案するパラダイムでは,deep learning compiler - hidetを実装した。 最新の畳み込みモデルとトランスフォーマーモデルに関する大規模な実験により、Hitletは最先端のDNN推論フレームワーク、ONNX Runtime、コンパイラ、TVMとスケジューラのAutoTVMとAnsorを搭載したTVMを、豊富な最適化で最大1.48倍(平均1.22倍)上回った。 また、チューニング時間をautotvmとansorと比較して20倍と11倍に短縮する。

As deep learning models nowadays are widely adopted by both cloud services and edge devices, the latency of deep learning model inferences becomes crucial to provide efficient model serving. However, it is challenging to develop efficient tensor programs for deep learning operators due to the high complexity of modern accelerators (e.g., NVIDIA GPUs and Google TPUs) and the rapidly growing number of operators. Deep learning compilers, such as Apache TVM, adopt declarative scheduling primitives to lower the bar of developing tensor programs. However, we show that this approach is insufficient to cover state-of-the-art tensor program optimizations (e.g., double buffering). In this paper, we propose to embed the scheduling process into tensor programs and use dedicated mappings, called task mappings, to define the computation assignment and ordering directly in the tensor programs. This new approach greatly enriches the expressible optimizations by allowing developers to manipulate tensor programs at a much finer granularity (e.g., allowing program statement-level optimizations). We call the proposed method the task-mapping-oriented programming paradigm. With the proposed paradigm, we implement a deep learning compiler - Hidet. Extensive experiments on modern convolution and transformer models show that Hidet outperforms state-of-the-art DNN inference framework, ONNX Runtime, and compiler, TVM equipped with scheduler AutoTVM and Ansor, by up to 1.48x (1.22x on average) with enriched optimizations. It also reduces the tuning time by 20x and 11x compared with AutoTVM and Ansor, respectively.
翻訳日:2022-10-19 14:04:17 公開日:2022-10-18
# エネルギー損失によるラベルリークに対するスプリット学習のレジリエント化

Making Split Learning Resilient to Label Leakage by Potential Energy Loss ( http://arxiv.org/abs/2210.09617v1 )

ライセンス: Link先を確認
Fei Zheng, Chaochao Chen, Binhui Yao, Xiaolin Zheng(参考訳) 実践的なプライバシー保護学習手法として、スプリットラーニングはアカデミックや業界で注目を集めている。 しかし、中間結果がトレーニングや推論中に共有されるため、セキュリティは常に疑問視されている。 本稿では、トレーニングされた分割モデルによって生じるプライバシー漏洩問題、すなわち、攻撃者がラベル付きサンプルを使ってボトムモデルを微調整し、非常に優れたパフォーマンスを得ることができることに焦点を当てる。 このようなプライバシリークを防止するため,同じクラスの出力を決定境界に向けてプッシュすることで,ボトムモデルの出力をより「複雑」な分布にするための潜在的なエネルギー損失を提案する。 そのため, ボトムモデルにラベル付きサンプルがいくつか漏れただけで微調整を行う場合, 敵は大きな一般化誤差を被る。 実験結果から,本手法は攻撃者の微調整精度を著しく低下させ,スプリットモデルのラベルリークに対する耐性を高めた。

As a practical privacy-preserving learning method, split learning has drawn much attention in academia and industry. However, its security is constantly being questioned since the intermediate results are shared during training and inference. In this paper, we focus on the privacy leakage problem caused by the trained split model, i.e., the attacker can use a few labeled samples to fine-tune the bottom model, and gets quite good performance. To prevent such kind of privacy leakage, we propose the potential energy loss to make the output of the bottom model become a more `complicated' distribution, by pushing outputs of the same class towards the decision boundary. Therefore, the adversary suffers a large generalization error when fine-tuning the bottom model with only a few leaked labeled samples. Experiment results show that our method significantly lowers the attacker's fine-tuning accuracy, making the split model more resilient to label leakage.
翻訳日:2022-10-19 14:03:48 公開日:2022-10-18
# 運動プリミティブを用いた深部ブラックボックス強化学習

Deep Black-Box Reinforcement Learning with Movement Primitives ( http://arxiv.org/abs/2210.09622v1 )

ライセンス: Link先を確認
Fabian Otto, Onur Celik, Hongyi Zhou, Hanna Ziesche, Ngo Anh Vien, Gerhard Neumann(参考訳) Episode-based reinforcement learning (ERL)アルゴリズムは強化学習(RL)をブラックボックス最適化問題として扱い、コンテキストと呼ばれるタスク記述子に対して、制御器のパラメータベクトル(しばしば移動プリミティブとして表現される)を選択することを学習する。 ERLはステップベースのRLと比較していくつかの異なる利点がある。 滑らかな制御軌道を生成し、非マルコフ報酬の定義を処理でき、パラメータ空間の探索はスパース報酬設定の解決に適している。 しかし, 移動原始パラメータの高次元性は, 深部RL法の有効利用を妨げている。 本稿では,深部ERLのための新しいアルゴリズムを提案する。 これは、政治的に成功したディープRLアルゴリズムである、異なる信頼領域層に基づいている。 これらのレイヤは、凸最適化を用いて各状態に対して正確に解決されたポリシー更新のための信頼領域を特定でき、ERLに必要な高精度なポリシー学習を可能にする。 複雑なロボット制御タスクにおいて,ERLアルゴリズムと最先端のステップベースアルゴリズムを比較した。 そこで,様々な報酬定式化法,スパース法,非マルコフ法について検討した。 ステップベースのアルゴリズムは密度の高い報酬に対してのみうまく機能するが、ERLはスパースや非マルコフの報酬に対して良好に機能する。 さらに, sparse と non-markovian rewards が望ましい動作を定義するのに適していることが示され, ステップベースの rl と比較してかなり高い品質のポリシーを得ることができた。

\Episode-based reinforcement learning (ERL) algorithms treat reinforcement learning (RL) as a black-box optimization problem where we learn to select a parameter vector of a controller, often represented as a movement primitive, for a given task descriptor called a context. ERL offers several distinct benefits in comparison to step-based RL. It generates smooth control trajectories, can handle non-Markovian reward definitions, and the resulting exploration in parameter space is well suited for solving sparse reward settings. Yet, the high dimensionality of the movement primitive parameters has so far hampered the effective use of deep RL methods. In this paper, we present a new algorithm for deep ERL. It is based on differentiable trust region layers, a successful on-policy deep RL algorithm. These layers allow us to specify trust regions for the policy update that are solved exactly for each state using convex optimization, which enables policies learning with the high precision required for the ERL. We compare our ERL algorithm to state-of-the-art step-based algorithms in many complex simulated robotic control tasks. In doing so, we investigate different reward formulations - dense, sparse, and non-Markovian. While step-based algorithms perform well only on dense rewards, ERL performs favorably on sparse and non-Markovian rewards. Moreover, our results show that the sparse and the non-Markovian rewards are also often better suited to define the desired behavior, allowing us to obtain considerably higher quality policies compared to step-based RL.
翻訳日:2022-10-19 14:03:31 公開日:2022-10-18
# rpm:多エージェント強化学習のための一般化行動

RPM: Generalizable Behaviors for Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2210.09646v1 )

ライセンス: Link先を確認
Wei Qiu, Xiao Ma, Bo An, Svetlana Obraztsova, Shuicheng Yan, Zhongwen Xu(参考訳) 近年のマルチエージェント強化学習(MARL)の進歩にもかかわらず、MARLエージェントはトレーニング環境に容易に適合し、他のエージェントが異なる振る舞いをする評価シナリオでは不十分である。 したがって、MARLエージェントの一般化可能なポリシーは必要であるが、主に複雑なマルチエージェント相互作用のために困難である。 本研究では,マルコフゲームにおける問題をモデル化し,MARLポリシーを高い一般化性で訓練するための多様なマルチエージェントトラジェクトリを収集する簡易かつ効果的な方法であるランキングポリシーメモリ(RPM)を提案する。 RPMの主な考え方は、ポリシーのルックアップメモリを維持することです。 特に、トレーニングエピソードリターン、すなわちトレーニング環境におけるエージェントのリターンをランク付けすることで、さまざまなレベルの行動を取得しようと試み、エピソードが開始されると、学習エージェントは行動ポリシーとしてRPMからポリシーを選択することができる。 この革新的なセルフプレイトレーニングフレームワークは、エージェントの過去のポリシーを活用し、トレーニングデータにおけるマルチエージェントインタラクションの多様性を保証する。 marlアルゴリズム上にrpmを実装し,融解鍋に関する広範囲な実験を行った。 RPMにより、マルチエージェントの一般化評価シナリオや与えられたタスクにおいて、MARLエージェントが未確認エージェントと対話することができ、平均402%のパフォーマンスが大幅に向上することが示されている。

Despite the recent advancement in multi-agent reinforcement learning (MARL), the MARL agents easily overfit the training environment and perform poorly in the evaluation scenarios where other agents behave differently. Obtaining generalizable policies for MARL agents is thus necessary but challenging mainly due to complex multi-agent interactions. In this work, we model the problem with Markov Games and propose a simple yet effective method, ranked policy memory (RPM), to collect diverse multi-agent trajectories for training MARL policies with good generalizability. The main idea of RPM is to maintain a look-up memory of policies. In particular, we try to acquire various levels of behaviors by saving policies via ranking the training episode return, i.e., the episode return of agents in the training environment; when an episode starts, the learning agent can then choose a policy from the RPM as the behavior policy. This innovative self-play training framework leverages agents' past policies and guarantees the diversity of multi-agent interaction in the training data. We implement RPM on top of MARL algorithms and conduct extensive experiments on Melting Pot. It has been demonstrated that RPM enables MARL agents to interact with unseen agents in multi-agent generalization evaluation scenarios and complete given tasks, and it significantly boosts the performance up to 402% on average.
翻訳日:2022-10-19 14:03:06 公開日:2022-10-18
# Swinv2-Imagen:テキスト・画像生成のための階層型視覚変換器拡散モデル

Swinv2-Imagen: Hierarchical Vision Transformer Diffusion Models for Text-to-Image Generation ( http://arxiv.org/abs/2210.09549v1 )

ライセンス: Link先を確認
Ruijun Li, Weihua Li, Yi Yang, Hanyu Wei, Jianhua Jiang and Quan Bai(参考訳) 近年,画像生成における新たな研究機会として,テキストと画像の合成タスクにおいて,拡散モデルが顕著に機能することが証明されている。 GoogleのImagenはこの研究トレンドに従い、DALLE2をテキスト・画像生成の最良のモデルとして上回っている。 しかし、Imagenは単にテキスト処理にT5言語モデルを使用するだけで、テキストの意味情報を確実に学習することはできない。 さらに、画像処理では、imagenによって利用される効率的なunetが最適ではない。 そこで本稿では,階層的視覚トランスフォーマーに基づくテキスト・画像拡散モデル swinv2-imagen と意味的レイアウトを組み込んだシーングラフを提案する。 提案モデルでは, 実体と関係の特徴ベクトルを抽出し, 拡散モデルに関与し, 生成画像の品質を効果的に向上させる。 さらに、CNNの畳み込み操作に起因する問題に対処できるSwinv2-Unetという、Swin-TransformerベースのUNetアーキテクチャも導入しています。 MSCOCO, CUB, MM-CelebA-HQの3つの実世界のデータセットを用いて, 提案モデルの性能評価実験を行った。 実験の結果,提案したSwinv2-Imagenモデルは,いくつかの最先端手法よりも優れていた。

Recently, diffusion models have been proven to perform remarkably well in text-to-image synthesis tasks in a number of studies, immediately presenting new study opportunities for image generation. Google's Imagen follows this research trend and outperforms DALLE2 as the best model for text-to-image generation. However, Imagen merely uses a T5 language model for text processing, which cannot ensure learning the semantic information of the text. Furthermore, the Efficient UNet leveraged by Imagen is not the best choice in image processing. To address these issues, we propose the Swinv2-Imagen, a novel text-to-image diffusion model based on a Hierarchical Visual Transformer and a Scene Graph incorporating a semantic layout. In the proposed model, the feature vectors of entities and relationships are extracted and involved in the diffusion model, effectively improving the quality of generated images. On top of that, we also introduce a Swin-Transformer-based UNet architecture, called Swinv2-Unet, which can address the problems stemming from the CNN convolution operations. Extensive experiments are conducted to evaluate the performance of the proposed model by using three real-world datasets, i.e., MSCOCO, CUB and MM-CelebA-HQ. The experimental results show that the proposed Swinv2-Imagen model outperforms several popular state-of-the-art methods.
翻訳日:2022-10-19 13:56:01 公開日:2022-10-18
# コントラスト誘導拡散過程による対向ロバスト性の向上

Improving Adversarial Robustness by Contrastive Guided Diffusion Process ( http://arxiv.org/abs/2210.09643v1 )

ライセンス: Link先を確認
Yidong Ouyang, Liyan Xie, Guang Cheng(参考訳) 標準的な分類タスクに比べてロバストな学習にはトレーニングサンプルの量が大幅に多いため、合成データ生成は分類タスクの敵対的ロバスト性を改善するための新たなツールになっている。 様々な深層生成モデルの中で,拡散モデルにより高品質な合成画像が生成され,対向性の向上に優れた性能を発揮することが示されている。 しかし、拡散型法は通常、他の生成モデルと比較してデータ生成が遅い。 近年, 異なる加速法が提案されているが, 下流タスクにおいて生成したデータのサンプル効率を改善する方法の研究も重要である。 本稿では,まず合成分布の最適性条件を解析し,非自明なロバストな精度を実現する。 生成データ間の識別性の向上は, 対向的ロバスト性の向上に不可欠であることを示す。 そこで本研究では,データ生成における拡散モデルを導出するコントラスト的拡散過程(Contrastive-Guided Diffusion Process, Contrastive-DP)を提案する。 シミュレーションを用いて理論的結果を検証し,画像データセット上でのコントラストDPの性能を示す。

Synthetic data generation has become an emerging tool to help improve the adversarial robustness in classification tasks since robust learning requires a significantly larger amount of training samples compared with standard classification tasks. Among various deep generative models, the diffusion model has been shown to produce high-quality synthetic images and has achieved good performance in improving the adversarial robustness. However, diffusion-type methods are typically slow in data generation as compared with other generative models. Although different acceleration techniques have been proposed recently, it is also of great importance to study how to improve the sample efficiency of generated data for the downstream task. In this paper, we first analyze the optimality condition of synthetic distribution for achieving non-trivial robust accuracy. We show that enhancing the distinguishability among the generated data is critical for improving adversarial robustness. Thus, we propose the Contrastive-Guided Diffusion Process (Contrastive-DP), which adopts the contrastive loss to guide the diffusion model in data generation. We verify our theoretical results using simulations and demonstrate the good performance of Contrastive-DP on image datasets.
翻訳日:2022-10-19 13:55:39 公開日:2022-10-18
# 分類器の微調整:温度との相関

Fine-tune your Classifier: Finding Correlations With Temperature ( http://arxiv.org/abs/2210.09715v1 )

ライセンス: Link先を確認
Benjamin Chamand, Olivier Risser-Maroix, Camille Kurtz, Philippe Joly, Nicolas Lom\'enie(参考訳) 温度は、分類やメトリック学習など、ニューラルネットワークを含む様々なタスクで広く使用されるハイパーパラメータであり、その選択はモデル性能に直接影響を与える可能性がある。 既存の作品の多くは、最適な値を見つけるためにいくつかの実行を必要とするハイパーパラメータ最適化手法を用いてその値を選択する。 本研究では,データ集合を,温度のデフォルト値を与えるヒューリスティクスを構築することができる表現に基づいて計算される統計の集合として記述し,分類タスクにおける温度の影響を分析することを提案する。 抽出された統計値と観測された最適温度の相関について検討した。 この100以上の異なるデータセットと特徴抽出器の組み合わせに関する予備的研究は、温度に関する一般的なヒューリスティックの構築に有望な結果を示している。

Temperature is a widely used hyperparameter in various tasks involving neural networks, such as classification or metric learning, whose choice can have a direct impact on the model performance. Most of existing works select its value using hyperparameter optimization methods requiring several runs to find the optimal value. We propose to analyze the impact of temperature on classification tasks by describing a dataset as a set of statistics computed on representations on which we can build a heuristic giving us a default value of temperature. We study the correlation between these extracted statistics and the observed optimal temperatures. This preliminary study on more than a hundred combinations of different datasets and features extractors highlights promising results towards the construction of a general heuristic for temperature.
翻訳日:2022-10-19 13:55:22 公開日:2022-10-18
# 視覚表現の効率的かつ効果的な自己教師付き学習を目指して

Towards Efficient and Effective Self-Supervised Learning of Visual Representations ( http://arxiv.org/abs/2210.09866v1 )

ライセンス: Link先を確認
Sravanti Addepalli, Kaushal Bhogale, Priyam Dey, R.Venkatesh Babu(参考訳) 自己スーパービジョン(self-supervision)は、手作りのプリテキストタスクからインスタンス類似性に基づくアプローチへの最近のパラダイムシフトの後、視覚的表現学習の広範な方法として浮上した。 ほとんどの最先端の手法は、与えられた画像の様々な拡張の類似性を強制する一方で、異なる表現を明確にするために対照的なアプローチを使う方法もある。 これらのアプローチは確かに有望な方向を示しているが、教師付きアプローチと比較して、はるかに多くのトレーニングイテレーションが必要になる。 本研究では,これらの手法が緩やかに収束する理由を考察し,より高速に収束し,表現学習にも有用な補助タスクを用いてそれらを強化することを提案する。 提案手法は回転予測のタスクを利用して既存の最先端手法の効率を向上させる。 本研究では,複数のデータセット,特に低いトレーニング期間において,提案手法を用いた性能の大幅な向上を示す。

Self-supervision has emerged as a propitious method for visual representation learning after the recent paradigm shift from handcrafted pretext tasks to instance-similarity based approaches. Most state-of-the-art methods enforce similarity between various augmentations of a given image, while some methods additionally use contrastive approaches to explicitly ensure diverse representations. While these approaches have indeed shown promising direction, they require a significantly larger number of training iterations when compared to the supervised counterparts. In this work, we explore reasons for the slow convergence of these methods, and further propose to strengthen them using well-posed auxiliary tasks that converge significantly faster, and are also useful for representation learning. The proposed method utilizes the task of rotation prediction to improve the efficiency of existing state-of-the-art methods. We demonstrate significant gains in performance using the proposed method on multiple datasets, specifically for lower training epochs.
翻訳日:2022-10-19 13:55:11 公開日:2022-10-18
# MotionDeltaCNN:移動カメラ映像におけるフレーム差のスパースCNN推論

MotionDeltaCNN: Sparse CNN Inference of Frame Differences in Moving Camera Videos ( http://arxiv.org/abs/2210.09887v1 )

ライセンス: Link先を確認
Mathias Parger, Chengcheng Tang, Christopher D. Twigg, Cem Keskin, Robert Wang, Markus Steinberger(参考訳) ビデオ入力に対する畳み込みニューラルネットワークの推論は計算コストが高く、メモリ帯域幅の要求が高い。 最近の研究者たちは、大きく変化したピクセルだけを処理することで、今後のフレームを処理するコストを削減できた。 スパース畳み込みを用いることで、フレーム差の間隔を現在の推論デバイス上のスピードアップに変換することができる。 しかし、以前の仕事は静止カメラに頼っていた。 移動カメラは、メモリオーバーヘッドを増大させることなく、将来のフレームのカメラ外在を知らずに、既に処理済みの領域を効率的に融合して更新率を最小化するための新しい課題を新たにもたらす。 本研究では,移動カメラと可変解像度入力をサポートするCNNフレームワークであるMotionDeltaCNNを提案する。 本稿では,メモリフットプリントを増加させずに,新たに現れた領域と前処理された領域をシームレスに融合できる球形バッファを提案する。 本評価は,移動カメラ入力のサポートを明示的に追加することにより,過去の作業を大幅に上回ることを示す。

Convolutional neural network inference on video input is computationally expensive and has high memory bandwidth requirements. Recently, researchers managed to reduce the cost of processing upcoming frames by only processing pixels that changed significantly. Using sparse convolutions, the sparsity of frame differences can be translated to speedups on current inference devices. However, previous work was relying on static cameras. Moving cameras add new challenges in how to fuse newly unveiled image regions with already processed regions efficiently to minimize the update rate - without increasing memory overhead and without knowing the camera extrinsics of future frames. In this work, we propose MotionDeltaCNN, a CNN framework that supports moving cameras and variable resolution input. We propose a spherical buffer which enables seamless fusion of newly unveiled regions and previously processed regions - without increasing the memory footprint. Our evaluations show that we outperform previous work significantly by explicitly adding support for moving camera input.
翻訳日:2022-10-19 13:54:56 公開日:2022-10-18
# 計算病理組織学における分布異常検出の不確かさ推定

Uncertainty estimation for out-of-distribution detection in computational histopathology ( http://arxiv.org/abs/2210.09909v1 )

ライセンス: Link先を確認
Lea Goetz(参考訳) 計算病理学のアルゴリズムは、現在、ヒトを様々なタスクで上回っているが、現在まで臨床での自動診断には使われていない。 アルゴリズムがそのようなハイステイクな意思決定に関与する前に、"彼らが知らないときに知る"必要がある、すなわち予測の不確実性を予測する必要がある。 これにより、人間の病理学者に誤った予測を遅らせ、安全性を高めることができる。 本稿では,臨床病理組織学的データに基づくいくつかの不確実性推定手法の予測性能と校正について検討する。 距離認識の不確実性推定手法は,モンテカルロドロップアウトやディープアンサンブルといった一般的な手法よりも優れていることを示す。 しかし,全ての不確実性推定法において,新しい試料の予測性能と校正が低下するのを観察した。 また,不確実性しきい値を用いた分布外サンプルの選択的予測も検討した。 我々は,このアプローチの限界を実証し,今後の研究分野を提案する。

In computational histopathology algorithms now outperform humans on a range of tasks, but to date none are employed for automated diagnoses in the clinic. Before algorithms can be involved in such high-stakes decisions they need to "know when they don't know", i.e., they need to estimate their predictive uncertainty. This allows them to defer potentially erroneous predictions to a human pathologist, thus increasing their safety. Here, we evaluate the predictive performance and calibration of several uncertainty estimation methods on clinical histopathology data. We show that a distance-aware uncertainty estimation method outperforms commonly used approaches, such as Monte Carlo dropout and deep ensembles. However, we observe a drop in predictive performance and calibration on novel samples across all uncertainty estimation methods tested. We also investigate the use of uncertainty thresholding to reject out-of-distribution samples for selective prediction. We demonstrate the limitations of this approach and suggest areas for future research.
翻訳日:2022-10-19 13:54:39 公開日:2022-10-18
# Dense FixMatch:ピクセルワイド予測タスクのための簡易半教師付き学習法

Dense FixMatch: a simple semi-supervised learning method for pixel-wise prediction tasks ( http://arxiv.org/abs/2210.09919v1 )

ライセンス: Link先を確認
Miquel Mart\'i i Rabad\'an, Alessandro Pieropan, Hossein Azizpour and Atsuto Maki(参考訳) Dense FixMatchは、擬似ラベルと強いデータ拡張による整合性正規化を組み合わせた高密度・構造化予測タスクのオンライン半教師付き学習法である。 擬似ラベルにマッチング演算を付加することにより,画像分類以外の半教師付き学習問題に対するフィクスマッチの適用を可能にする。 これにより、幾何学的変換を含むデータ拡張パイプラインの強みを引き続き活用することができます。 ラベル付きデータの比率が異なる都市景観とパスカルvocの半教師付き意味セグメンテーションで評価し,設計選択とハイパーパラメータを省略した。 密接なフィクスマッチはラベル付きデータのみを使用した教師付き学習に比べて大幅に改善され、ラベル付きサンプルの1/4でパフォーマンスが向上する。

We propose Dense FixMatch, a simple method for online semi-supervised learning of dense and structured prediction tasks combining pseudo-labeling and consistency regularization via strong data augmentation. We enable the application of FixMatch in semi-supervised learning problems beyond image classification by adding a matching operation on the pseudo-labels. This allows us to still use the full strength of data augmentation pipelines, including geometric transformations. We evaluate it on semi-supervised semantic segmentation on Cityscapes and Pascal VOC with different percentages of labeled data and ablate design choices and hyper-parameters. Dense FixMatch significantly improves results compared to supervised learning using only labeled data, approaching its performance with 1/4 of the labeled samples.
翻訳日:2022-10-19 13:54:26 公開日:2022-10-18
# 視覚言語モデルにおける知覚的グループ化

Perceptual Grouping in Vision-Language Models ( http://arxiv.org/abs/2210.09996v1 )

ライセンス: Link先を確認
Kanchana Ranasinghe, Brandon McKinzie, Sachin Ravi, Yinfei Yang, Alexander Toshev, Jonathon Shlens(参考訳) ゼロショット画像認識の最近の進歩は、視覚言語モデルが自然言語句で任意に探索される可能性のある高い意味情報で汎用的な視覚表現を学ぶことを示唆している。 しかし、画像を理解することは、画像内のコンテンツが何であるかを理解するだけでなく、そのコンテンツがどこにあるかを理解することにある。 本研究では,物体の位置を視覚言語モデルで理解し,画像の視覚的関連部分をグループ化する方法について検討する。 本稿では,コントラスト損失と大規模 web ベースデータに基づく現代的ビジョンと言語表現学習モデルについて述べる。 本稿では,意味情報と空間情報の両方を一意に学習するモデルとして,最小限の修正を提案する。 我々はこの性能を、ゼロショット画像認識、教師なしボトムアップ、トップダウンセマンティックセグメンテーション、ロバストネス解析の観点から測定する。 得られたモデルが教師なしセグメンテーション(unsupervised segmentation)の観点で最先端の結果を達成し、学習された表現が視覚モデルの因果行動を研究するために設計されたデータセットにおいて、突発的な相関に一意に堅牢であることを示す。

Recent advances in zero-shot image recognition suggest that vision-language models learn generic visual representations with a high degree of semantic information that may be arbitrarily probed with natural language phrases. Understanding an image, however, is not just about understanding what content resides within an image, but importantly, where that content resides. In this work we examine how well vision-language models are able to understand where objects reside within an image and group together visually related parts of the imagery. We demonstrate how contemporary vision and language representation learning models based on contrastive losses and large web-based data capture limited object localization information. We propose a minimal set of modifications that results in models that uniquely learn both semantic and spatial information. We measure this performance in terms of zero-shot image recognition, unsupervised bottom-up and top-down semantic segmentations, as well as robustness analyses. We find that the resulting model achieves state-of-the-art results in terms of unsupervised segmentation, and demonstrate that the learned representations are uniquely robust to spurious correlations in datasets designed to probe the causal behavior of vision models.
翻訳日:2022-10-19 13:54:11 公開日:2022-10-18
# CNT (Conditioning on Noisy Targets): トップダウンフィードバックの活用のための新しいアルゴリズム

CNT (Conditioning on Noisy Targets): A new Algorithm for Leveraging Top-Down Feedback ( http://arxiv.org/abs/2210.09505v1 )

ライセンス: Link先を確認
Alexia Jolicoeur-Martineau, Alex Lamb, Vikas Verma, Aniket Didolkar(参考訳) 本研究では,CNT(Conditioning on Noisy Targets)と呼ばれる教師あり学習のための新しい正規化器を提案する。 このアプローチは、無作為なノイズレベル(小音から大音まで)で、ターゲット(例えば、模倣学習や分類におけるラベルの動作)のノイズバージョンでモデルを条件付けることで成り立っている。 推定時には、ターゲットを知らないので、ノイズの多いターゲットの代わりにノイズだけをネットワークで実行します。 CNTはノイズラベルを通じてヒントを提供する(ノイズが少なくて、真のターゲットをより容易に推測できる)。 主な利点は2つある。 1)トップダウンフィードバックにより、モデルはよりシンプルで消化しやすいサブプロブレムに集中できる。 2) タスクをスクラッチから解くことを学ぶのではなく、まず簡単な例(ノイズが少ない)を習得し、より難しい例(ノイズが多い)に向かってゆっくりと進みます。

We propose a novel regularizer for supervised learning called Conditioning on Noisy Targets (CNT). This approach consists in conditioning the model on a noisy version of the target(s) (e.g., actions in imitation learning or labels in classification) at a random noise level (from small to large noise). At inference time, since we do not know the target, we run the network with only noise in place of the noisy target. CNT provides hints through the noisy label (with less noise, we can more easily infer the true target). This give two main benefits: 1) the top-down feedback allows the model to focus on simpler and more digestible sub-problems and 2) rather than learning to solve the task from scratch, the model will first learn to master easy examples (with less noise), while slowly progressing toward harder examples (with more noise).
翻訳日:2022-10-19 13:47:54 公開日:2022-10-18
# 複素数と制約に対する一貫性のあるマルチクラスアルゴリズム

Consistent Multiclass Algorithms for Complex Metrics and Constraints ( http://arxiv.org/abs/2210.09695v1 )

ライセンス: Link先を確認
Harikrishna Narasimhan, Harish G. Ramaswamy, Shiv Kumar Tavker, Drona Khurana, Praneeth Netrapalli, Shivani Agarwal(参考訳) 複雑な性能指標と制約を持つマルチクラス学習のための一貫したアルゴリズムを提案し、そこでは目的と制約を混乱行列の任意の関数で定義する。 この設定には、マルチクラスg-meanやmicro f1-measureのような多くの一般的なパフォーマンス指標や、分類器の精度やリコールの制約、より最近のフェアネスの不一致の尺度が含まれる。 このような複雑な設計目標に対する一貫したアルゴリズムを設計するための一般的な枠組みとして、学習問題を現実的な混乱行列の集合に対する最適化問題と見なす。 性能指標と制約の異なる仮定の下でフレームワークの複数のインスタンス化を提供し、それぞれの場合において最適な(実現可能な)分類器への収束率を示します。 様々な多クラス分類と公正制約問題の実験により、我々のアルゴリズムは最先端のベースラインと良好に比較できることを示した。

We present consistent algorithms for multiclass learning with complex performance metrics and constraints, where the objective and constraint are defined by arbitrary functions of the confusion matrix. This setting includes many common performance metrics such as the multiclass G-mean and micro F1-measure, and constraints such as those on the classifier's precision and recall and more recent measures of fairness discrepancy. We give a general framework for designing consistent algorithms for such complex design goals by viewing the learning problem as an optimization problem over the set of feasible confusion matrices. We provide multiple instantiations of our framework under different assumptions on the performance metrics and constraints, and in each case show rates of convergence to the optimal (feasible) classifier (and this asymptotic consistency). Experiments on a variety of multiclass classification and fairness-constrained problems show that our algorithms compare favorably to the state-of-the-art baselines.
翻訳日:2022-10-19 13:47:37 公開日:2022-10-18
# アフィンモデル変換による伝達学習

Transfer learning with affine model transformation ( http://arxiv.org/abs/2210.09745v1 )

ライセンス: Link先を確認
Shunya Minami, Kenji Fukumizu, Yoshihiro Hayashi, Ryo Yoshida(参考訳) supervised transfer learning (tl) は、限られたデータを扱う場合の機械学習の予測能力を高める可能性があるため、多くの注目を集めている。 従来のシナリオでは、対象ドメインから与えられたソースモデルとサンプルのセットを使用して、ドメイン間の差異をモデル化し、推定する。 例えば、ソースドメインとターゲットドメインの間に機能的な関係がある場合、ターゲットサンプルを使用して、ソースモデルをターゲットに移動するドメイン固有の要素のみを学習する。 しかし、そのようなドメイン間のシフトをモデル化し、推定する一般的な手法は、あまり研究されていない。 本研究では,ドメインシフトとドメイン固有因子を同時に,かつ個別に推定するTLフレームワークを提案する。 領域変換関数の整合性と可逆性を仮定すると、クロスドメインシフトを表現するのに最適な関数群を導出する。 新たに派生した変換関数のクラスは、生成的ディープラーニングで広く使われているアフィン結合層を用いた可逆ニューラルネットワークと同じ形を取る。 提案手法は,ニューラルネットワークを用いた特徴抽出に基づく最も一般的なtl手続きを含む,幅広い既存手法を包含することを示す。 また,一般化誤差の収束率など,提案手法の理論的特性を明らかにし,いくつかのケーススタディを通して,ドメイン固有因子を個別にモデル化し,推定することの実際的利点を実証する。

Supervised transfer learning (TL) has received considerable attention because of its potential to boost the predictive power of machine learning in cases with limited data. In a conventional scenario, cross-domain differences are modeled and estimated using a given set of source models and samples from a target domain. For example, if there is a functional relationship between source and target domains, only domain-specific factors are additionally learned using target samples to shift the source models to the target. However, the general methodology for modeling and estimating such cross-domain shifts has been less studied. This study presents a TL framework that simultaneously and separately estimates domain shifts and domain-specific factors using given target samples. Assuming consistency and invertibility of the domain transformation functions, we derive an optimal family of functions to represent the cross-domain shift. The newly derived class of transformation functions takes the same form as invertible neural networks using affine coupling layers, which are widely used in generative deep learning. We show that the proposed method encompasses a wide range of existing methods, including the most common TL procedure based on feature extraction using neural networks. We also clarify the theoretical properties of the proposed method, such as the convergence rate of the generalization error, and demonstrate the practical benefits of separately modeling and estimating domain-specific factors through several case studies.
翻訳日:2022-10-19 13:47:21 公開日:2022-10-18
# 局所化レベルセットの確率を用いたモードベースクラスタリングのためのタグ付き$k$-Distance

Bagged $k$-Distance for Mode-Based Clustering Using the Probability of Localized Level Sets ( http://arxiv.org/abs/2210.09786v1 )

ライセンス: Link先を確認
Hanyuan Hang(参考訳) 本稿では,グローバルしきい値の変動密度に対して,すべてのクラスタを探索できる, \textit{probability of localized level sets} (\textit{plls}) と呼ばれる新しい測定法を提示することにより,モードベースクラスタリングのための \textit{bagged $k$- distance for mode-based clustering} (\textit{bdmbc}) というアンサンブル学習アルゴリズムを提案する。 理論的には、バッグ付き$k$- distance、サブサンプルサイズ$s$、バグングラウンドが$b$、最も近い隣人が$k_l$でローカライズされたレベルセットに対して、bdmbcはモード推定に最適な収束率を達成することができる。 比較的小さな$B$の場合、サブサンプルサイズ$s$は、各バッグラウンドでのトレーニングデータ$n$の回数よりもはるかに小さくなり、近隣の$k_D$の数を同時に削減できることがわかった。 さらに, ハウスドルフ距離の観点で pll のレベル集合推定のための最適収束結果を確立し, bdmbc が様々な密度の局所化レベル集合を見つけることができ, 局所的適応性が期待できることを示した。 実用面では,BDMBCのモード推定とレベルセット推定の有効性を実証的に検証する数値実験を行い,提案アルゴリズムの有望な精度と効率性を示す。

In this paper, we propose an ensemble learning algorithm named \textit{bagged $k$-distance for mode-based clustering} (\textit{BDMBC}) by putting forward a new measurement called the \textit{probability of localized level sets} (\textit{PLLS}), which enables us to find all clusters for varying densities with a global threshold. On the theoretical side, we show that with a properly chosen number of nearest neighbors $k_D$ in the bagged $k$-distance, the sub-sample size $s$, the bagging rounds $B$, and the number of nearest neighbors $k_L$ for the localized level sets, BDMBC can achieve optimal convergence rates for mode estimation. It turns out that with a relatively small $B$, the sub-sample size $s$ can be much smaller than the number of training data $n$ at each bagging round, and the number of nearest neighbors $k_D$ can be reduced simultaneously. Moreover, we establish optimal convergence results for the level set estimation of the PLLS in terms of Hausdorff distance, which reveals that BDMBC can find localized level sets for varying densities and thus enjoys local adaptivity. On the practical side, we conduct numerical experiments to empirically verify the effectiveness of BDMBC for mode estimation and level set estimation, which demonstrates the promising accuracy and efficiency of our proposed algorithm.
翻訳日:2022-10-19 13:46:58 公開日:2022-10-18
# 複素共起とe積分の測度論的確率

Measure-Theoretic Probability of Complex Co-occurrence and E-Integral ( http://arxiv.org/abs/2210.09913v1 )

ライセンス: Link先を確認
Jian-Yong Wang and Han Yu(参考訳) 複雑な高次元共起データは、個別にインデックス付けされたアラル単位やランドスケープに基づくメカニズムの研究領域の連続的なインデックス付けされた位置において、物理的、生物学的、社会的なプロセスと相互作用する複雑なシステムから、ますます人気が高まっている。 複雑な共起をモデル化し、予測し、解釈することは、様々な現実世界の現代的な応用における統計学と機械学習の根本的な問題である。 データスパースネスの固有の挑戦のための厳密な測度理論の基礎を開発するために、集合関数の一般的な設定で定義することで、共起の確率と条件確率を導入する。 データスパースネスは確率論的モデリングと統計的推論における共起の推論に固有の主な課題である。 E積分と呼ばれる自然積分のクラスの振る舞いは、共起の条件付き確率に基づいて研究される。 e-積分の性質に関する結果を示す。 本稿では, 基本測度理論の概念としてのE積分が, 現代の高次元共起データ問題に現われる共起データの固有問題に対する確率論の発展へのWhittle (1992) と Pollard (2001) が好む期待汎関数的アプローチの出発点となり, 複雑な高次元共起データ科学におけるより洗練された研究への扉を開く, 新たな測度理論フレームワークを提供する。

Complex high-dimensional co-occurrence data are increasingly popular from a complex system of interacting physical, biological and social processes in discretely indexed modifiable areal units or continuously indexed locations of a study region for landscape-based mechanism. Modeling, predicting and interpreting complex co-occurrences are very general and fundamental problems of statistical and machine learning in a broad variety of real-world modern applications. Probability and conditional probability of co-occurrence are introduced by being defined in a general setting with set functions to develop a rigorous measure-theoretic foundation for the inherent challenge of data sparseness. The data sparseness is a main challenge inherent to probabilistic modeling and reasoning of co-occurrence in statistical inference. The behavior of a class of natural integrals called E-integrals is investigated based on the defined conditional probability of co-occurrence. The results on the properties of E-integral are presented. The paper offers a novel measure-theoretic framework where E-integral as a basic measure-theoretic concept can be the starting point for the expectation functional approach preferred by Whittle (1992) and Pollard (2001) to the development of probability theory for the inherent challenge of co-occurrences emerging in modern high-dimensional co-occurrence data problems and opens the doors to more sophisticated and interesting research in complex high-dimensional co-occurrence data science.
翻訳日:2022-10-19 13:46:28 公開日:2022-10-18
# 表現学習による現実世界の一般化

Generalizing in the Real World with Representation Learning ( http://arxiv.org/abs/2210.09925v1 )

ライセンス: Link先を確認
Tegan Maharaj(参考訳) 機械学習(ML)は、一連のデータ例に基づいて、パフォーマンスの最適化として経験からコンピュータを学習させるという問題を定式化する。 これは事前に指定された振る舞い(例えばハードコードされたルール)を要求することとは対照的である。 この問題の形式化は、翻訳、音声認識、自動運転車、薬物発見など、現実世界に大きな影響を与える多くのアプリケーションにおいて大きな進歩をもたらした。 しかし、この形式主義の実践的なインスタンス化は、例えばデータが独立で同一の分散である、という多くの仮定を下している。 そして、このような短期間で大きな進歩を遂げる中で、この分野は比較的少数の問題設定に焦点を当てた多くの規範とアドホック標準を開発してきた。 MLの応用、特に人工知能(AI)システムにおいて、現実世界で広く普及するにつれて、これらの仮定、規範、問題設定、そしてデファクトスタンダードとなった手法を批判的に検証する必要がある。 確率的勾配降下で訓練されたディープネットワークが、どのようにして一般化できるのか、なぜ失敗したのか、どのように分散データを処理するのか、については、まだ多くのことが分かっていない。 この論文では、深いネットの一般化をよりよく理解し、仮定や問題設定が現実の世界に一般化できないいくつかの方法を特定し、実際にそれらの失敗に対処する方法を提案します。

Machine learning (ML) formalizes the problem of getting computers to learn from experience as optimization of performance according to some metric(s) on a set of data examples. This is in contrast to requiring behaviour specified in advance (e.g. by hard-coded rules). Formalization of this problem has enabled great progress in many applications with large real-world impact, including translation, speech recognition, self-driving cars, and drug discovery. But practical instantiations of this formalism make many assumptions - for example, that data are i.i.d.: independent and identically distributed - whose soundness is seldom investigated. And in making great progress in such a short time, the field has developed many norms and ad-hoc standards, focused on a relatively small range of problem settings. As applications of ML, particularly in artificial intelligence (AI) systems, become more pervasive in the real world, we need to critically examine these assumptions, norms, and problem settings, as well as the methods that have become de-facto standards. There is much we still do not understand about how and why deep networks trained with stochastic gradient descent are able to generalize as well as they do, why they fail when they do, and how they will perform on out-of-distribution data. In this thesis I cover some of my work towards better understanding deep net generalization, identify several ways assumptions and problem settings fail to generalize to the real world, and propose ways to address those failures in practice.
翻訳日:2022-10-19 13:45:59 公開日:2022-10-18
# 局所平滑化ガウス過程回帰

Locally Smoothed Gaussian Process Regression ( http://arxiv.org/abs/2210.09998v1 )

ライセンス: Link先を確認
Davit Gogolashvili, Bogdan Kozyrskiy, Maurizio Filippone(参考訳) 我々はガウス過程回帰(GPR)を加速する新しい枠組みを開発する。 特に,各データポイントにおけるローカライズ・カーネルを,遠く離れた他のデータポイントからの貢献を低く評価し,そのようなローカライズ・オペレーションの適用によるgprモデルを導出する。 一連の実験を通して,提案手法の完全GPR, その他の局所モデル, 深いガウス過程と比較して, 競合性能を実証する。 これらの性能は, ローカライズ操作によって誘導されるグラムマトリックスのスパーシフィケーション効果により, 標準グローバルgprと比較して相当なスピードアップで得られる。

We develop a novel framework to accelerate Gaussian process regression (GPR). In particular, we consider localization kernels at each data point to down-weigh the contributions from other data points that are far away, and we derive the GPR model stemming from the application of such localization operation. Through a set of experiments, we demonstrate the competitive performance of the proposed approach compared to full GPR, other localized models, and deep Gaussian processes. Crucially, these performances are obtained with considerable speedups compared to standard global GPR due to the sparsification effect of the Gram matrix induced by the localization operation.
翻訳日:2022-10-19 13:45:35 公開日:2022-10-18
# unpacking reward shaping: サンプル複雑性に対する報酬エンジニアリングのメリットを理解する

Unpacking Reward Shaping: Understanding the Benefits of Reward Engineering on Sample Complexity ( http://arxiv.org/abs/2210.09579v1 )

ライセンス: Link先を確認
Abhishek Gupta, Aldo Pacchiano, Yuexiang Zhai, Sham M. Kakade, Sergey Levine(参考訳) 強化学習は、ハイレベルな報酬仕様から行動を学ぶための自動化されたフレームワークを提供するが、実際には、報酬関数の選択は良い結果に不可欠である。 このタイプの'reward-shapeping'の考え方は文献でしばしば議論され、しばしば実用的応用において重要な部分となっているが、報酬シェーピングの選択がサンプルの複雑さにどのように利益をもたらすかについての形式的な特徴は比較的少ない。 本研究では,新奇性に基づく探索の枠組みを構築し,RLに形状の報酬を組み込むための簡単なスキームと,特定の報酬形成の選択が試料効率を向上することを示す分析ツールを提供する。 我々は,これらの成果が重要と期待される問題のクラスを特徴付け,文献の実用的アルゴリズムとどのように結びつくかを示す。 これらの結果が実験評価において実際に有効であることを確認し,漸近的性能を維持しつつ強化学習の複雑さを著しく改善するメカニズムについて考察した。

Reinforcement learning provides an automated framework for learning behaviors from high-level reward specifications, but in practice the choice of reward function can be crucial for good results -- while in principle the reward only needs to specify what the task is, in reality practitioners often need to design more detailed rewards that provide the agent with some hints about how the task should be completed. The idea of this type of ``reward-shaping'' has been often discussed in the literature, and is often a critical part of practical applications, but there is relatively little formal characterization of how the choice of reward shaping can yield benefits in sample complexity. In this work, we build on the framework of novelty-based exploration to provide a simple scheme for incorporating shaped rewards into RL along with an analysis tool to show that particular choices of reward shaping provably improve sample efficiency. We characterize the class of problems where these gains are expected to be significant and show how this can be connected to practical algorithms in the literature. We confirm that these results hold in practice in an experimental evaluation, providing an insight into the mechanisms through which reward shaping can significantly improve the complexity of reinforcement learning while retaining asymptotic performance.
翻訳日:2022-10-19 13:39:26 公開日:2022-10-18
# サンプル効率的な模倣学習の計画

Planning for Sample Efficient Imitation Learning ( http://arxiv.org/abs/2210.09598v1 )

ライセンス: Link先を確認
Zhao-Heng Yin, Weirui Ye, Qifeng Chen, Yang Gao(参考訳) 模倣学習(imitation learning)は、報酬設計問題や探索困難性といった強化学習に関する多くの実用的な問題から解放された、有望な政策学習アルゴリズムのクラスである。 しかし、現在の模倣アルゴリズムは、高い性能と高環境サンプル効率を同時に達成するのに苦労している。 行動クローニング(bc)は環境内相互作用を必要としないが、その性能を損なう共変量シフト問題に苦しむ。 Adversarial Imitation Learning (AIL)は、模倣学習を分布マッチング問題に変換する。 いくつかのタスクではパフォーマンスが向上するが、環境内相互作用が多数必要である。 近年RLにおけるEfficientZeroの成功に触発されて,高環境試料効率と性能を同時に達成できる計画型模倣学習法であるEfficientImitate (EI)を提案する。 この論文におけるアルゴリズム的貢献は2つある。 まず AIL を MCTS ベースの RL に拡張する。 第二に、一見互換性のない2種類の模倣アルゴリズム(BCとAIL)は、我々のフレームワークの下で自然に統一され、両方の利点を享受できることを示す。 我々は、ステートベースのDeepMind Control Suiteだけでなく、以前の多くの研究で非常に困難な画像バージョンにもベンチマークを行った。 実験結果から,EIは性能と試料効率の両立を図った。 EIは、状態ベースのタスクと画像ベースのタスクの限定的なサンプル設定でパフォーマンスが4倍向上し、以前のメソッドが少量のインタラクションで失敗するHumanoidのような課題を解決することができる。 私たちのコードはhttps://github.com/zhaohengyin/EfficientImitateで利用可能です。

Imitation learning is a class of promising policy learning algorithms that is free from many practical issues with reinforcement learning, such as the reward design issue and the exploration hardness. However, the current imitation algorithm struggles to achieve both high performance and high in-environment sample efficiency simultaneously. Behavioral Cloning (BC) does not need in-environment interactions, but it suffers from the covariate shift problem which harms its performance. Adversarial Imitation Learning (AIL) turns imitation learning into a distribution matching problem. It can achieve better performance on some tasks but it requires a large number of in-environment interactions. Inspired by the recent success of EfficientZero in RL, we propose EfficientImitate (EI), a planning-based imitation learning method that can achieve high in-environment sample efficiency and performance simultaneously. Our algorithmic contribution in this paper is two-fold. First, we extend AIL into the MCTS-based RL. Second, we show the seemingly incompatible two classes of imitation algorithms (BC and AIL) can be naturally unified under our framework, enjoying the benefits of both. We benchmark our method not only on the state-based DeepMind Control Suite, but also on the image version which many previous works find highly challenging. Experimental results show that EI achieves state-of-the-art results in performance and sample efficiency. EI shows over 4x gain in performance in the limited sample setting on state-based and image-based tasks and can solve challenging problems like Humanoid, where previous methods fail with small amount of interactions. Our code is available at https://github.com/zhaohengyin/EfficientImitate.
翻訳日:2022-10-19 13:39:05 公開日:2022-10-18
# SA-MLP:GNNから構造認識型MLPへのグラフ知識の蒸留

SA-MLP: Distilling Graph Knowledge from GNNs into Structure-Aware MLP ( http://arxiv.org/abs/2210.09609v1 )

ライセンス: Link先を確認
Jie Chen, Shouzhen Chen, Mingyuan Bai, Junbin Gao, Junping Zhang, Jian Pu(参考訳) メッセージパッシングメカニズムは、グラフニューラルネットワーク(GNN)が様々なノード分類タスクで顕著な結果を得るのに役立つ。 それでも、再帰的なノードのフェッチとメッセージパスの集約は、大規模グラフにGNNをデプロイする際の推論遅延を引き起こす。 予測加速の1つの有望な方向は、GNNをメッセージパスなしの学生多層パーセプトロン(MLP)に蒸留することである。 しかし、MLP学生は、構造入力の欠如により構造知識を完全に習得することができず、不均一かつ帰納的なシナリオでは性能が劣る。 そこで我々は,低レイテンシかつ解釈可能な方法でMLP様の学生に構造情報を注入する。 具体的には、まず、メッセージパッシングなしで特徴と構造の両方を符号化する構造対応MLP(Structure-Aware MLP)の学生を設計する。 そして,構造情報に対するMLPの学習能力を高めるため,構造混合型知識蒸留戦略を導入する。 さらに, 2段階蒸留による潜在構造埋め込み近似手法をインダクティブ・シナリオのために設計する。 帰納的および帰納的両方の条件下での8つのベンチマークデータセットの大規模な実験により、我々のSA-MLPは教師のGNNを一貫して上回り、MPPとして高速な推論を維持できることが示された。 私たちの作業のソースコードはhttps://github.com/JC-202/SA-MLP.comで確認できます。

The message-passing mechanism helps Graph Neural Networks (GNNs) achieve remarkable results on various node classification tasks. Nevertheless, the recursive nodes fetching and aggregation in message-passing cause inference latency when deploying GNNs to large-scale graphs. One promising inference acceleration direction is to distill the GNNs into message-passing-free student multi-layer perceptrons (MLPs). However, the MLP student cannot fully learn the structure knowledge due to the lack of structure inputs, which causes inferior performance in the heterophily and inductive scenarios. To address this, we intend to inject structure information into MLP-like students in low-latency and interpretable ways. Specifically, we first design a Structure-Aware MLP (SA-MLP) student that encodes both features and structures without message-passing. Then, we introduce a novel structure-mixing knowledge distillation strategy to enhance the learning ability of MLPs for structure information. Furthermore, we design a latent structure embedding approximation technique with two-stage distillation for inductive scenarios. Extensive experiments on eight benchmark datasets under both transductive and inductive settings show that our SA-MLP can consistently outperform the teacher GNNs, while maintaining faster inference as MLPs. The source code of our work can be found in https://github.com/JC-202/SA-MLP.
翻訳日:2022-10-19 13:38:35 公開日:2022-10-18
# 知識蒸留が転校学習に及ぼす影響について

On effects of Knowledge Distillation on Transfer Learning ( http://arxiv.org/abs/2210.09668v1 )

ライセンス: Link先を確認
Sushil Thapa(参考訳) 知識蒸留は、大きな「教師」ネットワークからより小さな「学生」ネットワークに知識を伝達し、教師をエミュレートして生徒のパフォーマンスを向上させることを目的とした、一般的な機械学習技術である。 近年, 性能フロンティアを複数の問題やベンチマークで推し進める新しい蒸留技術が著しく進歩している。 報告された研究の大部分は、特定の問題に対する最先端の成果を達成することに焦点を当てている。 しかし、特定のトレーニングシナリオにおいて、プロセスとプロセスがどのように振る舞うかを理解する上で大きなギャップがあった。 同様に、転送学習(TL)は、異なるが関連する問題から学んだ表現を再利用することで、限られたデータセット上でニューラルネットワークを高速にトレーニングする効果的な手法である。 その効果と人気にもかかわらず、転校学習における知識蒸留の研究はあまり行われていない。 本稿では,知識蒸留と伝達学習を組み合わせたTL+KDと呼ぶ機械学習アーキテクチャを提案し,画像分類領域におけるTL+KDとTLとの定量的・定性的な比較を示す。 そこで本研究では,教師ネットワークの指導と知識を微調整中に活用することにより,学生ネットワークを改良し,精度などの検証性能を向上できることを示す。 我々は,モデルの検証性能の向上を,単に精度スコア以上の様々な指標を用いて特徴付け,入力劣化などのシナリオにおける検証性能について検討する。

Knowledge distillation is a popular machine learning technique that aims to transfer knowledge from a large 'teacher' network to a smaller 'student' network and improve the student's performance by training it to emulate the teacher. In recent years, there has been significant progress in novel distillation techniques that push performance frontiers across multiple problems and benchmarks. Most of the reported work focuses on achieving state-of-the-art results on the specific problem. However, there has been a significant gap in understanding the process and how it behaves under certain training scenarios. Similarly, transfer learning (TL) is an effective technique in training neural networks on a limited dataset faster by reusing representations learned from a different but related problem. Despite its effectiveness and popularity, there has not been much exploration of knowledge distillation on transfer learning. In this thesis, we propose a machine learning architecture we call TL+KD that combines knowledge distillation with transfer learning; we then present a quantitative and qualitative comparison of TL+KD with TL in the domain of image classification. Through this work, we show that using guidance and knowledge from a larger teacher network during fine-tuning, we can improve the student network to achieve better validation performances like accuracy. We characterize the improvement in the validation performance of the model using a variety of metrics beyond just accuracy scores, and study its performance in scenarios such as input degradation.
翻訳日:2022-10-19 13:38:10 公開日:2022-10-18
# TFAD:時間周波数解析を用いた分解時系列異常検出アーキテクチャ

TFAD: A Decomposition Time Series Anomaly Detection Architecture with Time-Frequency Analysis ( http://arxiv.org/abs/2210.09693v1 )

ライセンス: Link先を確認
Chaoli Zhang and Tian Zhou and Qingsong Wen and Liang Sun(参考訳) 時系列異常検出は、複雑な時間的依存と限られたラベルデータのために難しい問題である。 従来のモデルとディープモデルの両方を含むいくつかのアルゴリズムが提案されているが、そのほとんどは時間領域モデリングに重点を置いており、時系列データの周波数領域の情報を十分に活用していない。 本稿では,時間領域と周波数領域の両方を性能改善のために活用するために,時系列解析に基づく時系列異常検出モデル(tfad)を提案する。 さらに,設計した時間周波数アーキテクチャに時系列分解とデータ拡張機構を組み込むことにより,性能と解釈能力のさらなる向上を図る。 広範に使用されているベンチマークデータセットの実証研究により,一変量および多変量時系列異常検出タスクにおける最先端性能が得られた。 コードはhttps://github.com/DAMO-DI-ML/CIKM22-TFADで提供されている。

Time series anomaly detection is a challenging problem due to the complex temporal dependencies and the limited label data. Although some algorithms including both traditional and deep models have been proposed, most of them mainly focus on time-domain modeling, and do not fully utilize the information in the frequency domain of the time series data. In this paper, we propose a Time-Frequency analysis based time series Anomaly Detection model, or TFAD for short, to exploit both time and frequency domains for performance improvement. Besides, we incorporate time series decomposition and data augmentation mechanisms in the designed time-frequency architecture to further boost the abilities of performance and interpretability. Empirical studies on widely used benchmark datasets show that our approach obtains state-of-the-art performance in univariate and multivariate time series anomaly detection tasks. Code is provided at https://github.com/DAMO-DI-ML/CIKM22-TFAD.
翻訳日:2022-10-19 13:37:47 公開日:2022-10-18
# 長い道のりだ! 地球系の変動に応用したエコー状態ネットワークの階層的関連性伝播

It's a long way! Layer-wise Relevance Propagation for Echo State Networks applied to Earth System Variability ( http://arxiv.org/abs/2210.09958v1 )

ライセンス: Link先を確認
Marco Landt-Hayen, Peer Kr\"oger, Martin Claus, Willi Rath(参考訳) ニューラルネットワーク(ANN)は多くの難しい問題(画像分類、音声認識、時系列予測など)に対して強力な手法として知られている。 しかし、これらのモデルはブラックボックスの結果を生み出す傾向があり、解釈が難しいことが多い。 lrp(layer-wise associated propagation)は、anモデルの結論をどのように理解し、モデルが何を学んだのかを理解するために広く使われている手法である。 ここでは,リカレントニューラルネットワークの一種として,エコー状態ネットワーク(esns)に着目した。 ESNは訓練が容易で、少数のトレーニング可能なパラメータしか必要としないが、それでもブラックボックスモデルである。 ブラックボックスを開くために,LSP を ESN に適用する方法を示す。 また,esnを時系列予測だけでなく,画像分類にも利用できることを示す。esnモデルは,海面温度異常からel nino southern oscillation (enso) を検出する。 ENSOは実はよく知られた問題であり、これまで広く議論されてきた。 しかし,この単純な問題を用いて,lrpがesnの可溶性を大幅に向上させることを示す。

Artificial neural networks (ANNs) are known to be powerful methods for many hard problems (e.g. image classification, speech recognition or time series prediction). However, these models tend to produce black-box results and are often difficult to interpret. Layer-wise relevance propagation (LRP) is a widely used technique to understand how ANN models come to their conclusion and to understand what a model has learned. Here, we focus on Echo State Networks (ESNs) as a certain type of recurrent neural networks, also known as reservoir computing. ESNs are easy to train and only require a small number of trainable parameters, but are still black-box models. We show how LRP can be applied to ESNs in order to open the black-box. We also show how ESNs can be used not only for time series prediction but also for image classification: Our ESN model serves as a detector for El Nino Southern Oscillation (ENSO) from sea surface temperature anomalies. ENSO is actually a well-known problem and has been extensively discussed before. But here we use this simple problem to demonstrate how LRP can significantly enhance the explainablility of ESNs.
翻訳日:2022-10-19 13:37:34 公開日:2022-10-18
# 強化学習における一般化のための価値関数学習の再考

Rethinking Value Function Learning for Generalization in Reinforcement Learning ( http://arxiv.org/abs/2210.09960v1 )

ライセンス: Link先を確認
Seungyong Moon, JunYeong Lee, Hyun Oh Song(参考訳) 本研究では,複数の訓練環境におけるrlエージェントの訓練問題に着目し,観察的一般化性能の向上を図る。 従来の手法では、分離されたネットワークアーキテクチャを用いてポリシーと価値のネットワークを個別に最適化し、干渉を回避し、より正確な値関数を得る。 複数の環境設定における価値ネットワークは、従来の単一環境設定よりもトレーニングデータの過度な適合を最適化し難い。 さらに,より優れたトレーニングとテスト性能を実現するためには,バリューネットワークの適切な正規化が必要である。 そこで本稿では,共有ネットワークアーキテクチャを用いて実装可能なポリシネットワークよりもトレーニングデータの多い値ネットワークを最適化することにより,価値推定を暗黙的にペナルティ化する,遅延臨界ポリシー勾配(DCPG)を提案する。 さらに,価値ネットワークと協調して最適化できる単一判別器を用いて,環境の前方および逆のダイナミクスを学習する簡易な自己教師ありタスクを提案する。 提案アルゴリズムはProcgen Benchmarkにおける観測一般化性能と試料効率を大幅に改善する。

We focus on the problem of training RL agents on multiple training environments to improve observational generalization performance. In prior methods, policy and value networks are separately optimized using a disjoint network architecture to avoid interference and obtain a more accurate value function. We identify that the value network in the multiple-environment setting is more challenging to optimize and prone to overfitting training data than in the conventional single-environment setting. In addition, we find that appropriate regularization of the value network is required for better training and test performance. To this end, we propose Delayed-Critic Policy Gradient (DCPG), which implicitly penalizes the value estimates by optimizing the value network less frequently with more training data than the policy network, which can be implemented using a shared network architecture. Furthermore, we introduce a simple self-supervised task that learns the forward and inverse dynamics of environments using a single discriminator, which can be jointly optimized with the value network. Our proposed algorithms significantly improve observational generalization performance and sample efficiency in the Procgen Benchmark.
翻訳日:2022-10-19 13:37:19 公開日:2022-10-18
# ビジョンペーパー:移動解析における解釈型・ロバスト型機械学習の因果推論

Vision Paper: Causal Inference for Interpretable and Robust Machine Learning in Mobility Analysis ( http://arxiv.org/abs/2210.10010v1 )

ライセンス: Link先を確認
Yanan Xin, Natasa Tagasovska, Fernando Perez-Cruz, Martin Raubal(参考訳) 人工知能(AI)は私たちの生活の多くの領域に革命をもたらしており、新しい技術進歩の時代を導いている。 特に、輸送部門は、aiの進歩とインテリジェントな輸送システムの発展の恩恵を受けるだろう。 インテリジェントな輸送システムを構築するには、人工知能とモビリティ分析の複雑な組み合わせが必要である。 過去数年間、高度なディープニューラルネットワークを用いた輸送アプリケーションの開発が急速に進んでいる。 しかし、このような深層ニューラルネットワークの解釈は困難であり、堅牢性が欠如しているため、実際にはaiアルゴリズムの展開が遅くなる。 ユーザビリティを向上させるために、解釈可能で堅牢な機械学習手法の開発に研究努力が注がれており、その中でも因果推論アプローチが近年、解釈可能で行動可能な情報を提供するにつれて、注目を集めている。 さらに,モビリティデータ解析の特定の要件を満たさない画像データやシーケンシャルデータに対して,これらの手法のほとんどが開発されている。 このビジョンペーパーは、解釈可能性とロバスト性を必要とするディープラーニングに基づくモビリティ分析における研究課題を強調し、機械学習手法の解釈可能性とロバスト性を改善するために因果推論を用いた最近の発展を要約し、モビリティ解析に適した因果対応機械学習モデルを開発する機会を強調している。 この研究の方向性により、輸送分野のAIはより解釈可能で信頼性が高くなり、より安全で効率的で持続可能な未来の輸送システムに寄与する。

Artificial intelligence (AI) is revolutionizing many areas of our lives, leading a new era of technological advancement. Particularly, the transportation sector would benefit from the progress in AI and advance the development of intelligent transportation systems. Building intelligent transportation systems requires an intricate combination of artificial intelligence and mobility analysis. The past few years have seen rapid development in transportation applications using advanced deep neural networks. However, such deep neural networks are difficult to interpret and lack robustness, which slows the deployment of these AI-powered algorithms in practice. To improve their usability, increasing research efforts have been devoted to developing interpretable and robust machine learning methods, among which the causal inference approach recently gained traction as it provides interpretable and actionable information. Moreover, most of these methods are developed for image or sequential data which do not satisfy specific requirements of mobility data analysis. This vision paper emphasizes research challenges in deep learning-based mobility analysis that require interpretability and robustness, summarizes recent developments in using causal inference for improving the interpretability and robustness of machine learning methods, and highlights opportunities in developing causally-enabled machine learning models tailored for mobility analysis. This research direction will make AI in the transportation sector more interpretable and reliable, thus contributing to safer, more efficient, and more sustainable future transportation systems.
翻訳日:2022-10-19 13:37:00 公開日:2022-10-18
# エッジ特徴を持つグラフ注意のための分類閾値について

On Classification Thresholds for Graph Attention with Edge Features ( http://arxiv.org/abs/2210.10014v1 )

ライセンス: Link先を確認
Kimon Fountoulakis, Dake He, Silvio Lattanzi, Bryan Perozzi, Anton Tsitsulin, Shenghao Yang(参考訳) 近年,グラフ上での予測タスクのためのグラフニューラルネットワークが出現している。 支配的なアーキテクチャの1つは、重み付けされたエッジ機能を使って予測できるため、グラフの注意力である。 本稿では,古典的分類課題におけるグラフ注意ネットワークとノードの正確なラベル付け能力について理論的,実験的に分析する。 具体的には,古典的文脈確率ブロックモデル(csbm)におけるグラフ注目の性能について検討する。 CSBMでは、ノードとエッジの特徴は確率ブロックモデルからガウスとエッジの混合から得られる。 注意係数を決定するためにランダムエッジ特徴を入力とする一般グラフアテンション機構を考察する。 第一に, エッジの特徴がうるさい場合, 注意係数の大部分が一定均一であることを示す2つのケースについて検討した。 これにより、完全なノード分類を達成するための単純なグラフ畳み込みよりも、エッジ機能によるグラフの注意が優れていることを証明できます。 第2に,エッジ機能がクリーンなグラフである場合,エッジ間を区別できるため,従来のグラフ畳み込みよりもグラフの注目度が向上することを示す。

The recent years we have seen the rise of graph neural networks for prediction tasks on graphs. One of the dominant architectures is graph attention due to its ability to make predictions using weighted edge features and not only node features. In this paper we analyze, theoretically and empirically, graph attention networks and their ability of correctly labelling nodes in a classic classification task. More specifically, we study the performance of graph attention on the classic contextual stochastic block model (CSBM). In CSBM the nodes and edge features are obtained from a mixture of Gaussians and the edges from a stochastic block model. We consider a general graph attention mechanism that takes random edge features as input to determine the attention coefficients. We study two cases, in the first one, when the edge features are noisy, we prove that the majority of the attention coefficients are up to a constant uniform. This allows us to prove that graph attention with edge features is not better than simple graph convolution for achieving perfect node classification. Second, we prove that when the edge features are clean graph attention can distinguish intra- from inter-edges and this makes graph attention better than classic graph convolution.
翻訳日:2022-10-19 13:36:36 公開日:2022-10-18
# IF-GAN - 情報フィードバックによる新しいジェネレータアーキテクチャ

IF-GAN: A Novel Generator Architecture with Information Feedback ( http://arxiv.org/abs/2210.09638v1 )

ライセンス: Link先を確認
Seung Park, Yong-Goo Shin(参考訳) 本稿では,新しい情報フィードバックシステムを有する画像生成のための代替生成システムを提案する。 提案手法は, 潜伏空間がジェネレータ内の特徴空間に一方的に影響を及ぼす従来の手法とは対照的に, 情報交換による特徴空間だけでなく, 潜伏空間も訓練する。 この目的のために,情報フィードバックブロック (IF) と呼ばれる新しいモジュールを導入し,潜在空間と特徴空間を共同で更新する。 提案手法の優位性を示すため,LSUNとFFHQのサブセットを含む様々なデータセットについて広範な実験を行った。 実験の結果,提案手法はFrechet Inception distance (FID), kernel Inception distance (KID), Precision and Recall (P&R)を用いて画像生成性能を劇的に向上させることができることがわかった。

This paper presents an alternative generator architecture for image generation, having a novel information feedback system. Contrary to conventional methods in which the latent space unilaterally affects the feature space in the generator, the proposed method trains not only the feature space but also the latent one by interchanging their information. To this end, we introduce a novel module, called information feedback (IF) block, which jointly updates the latent and feature spaces. To show the superiority of the proposed method, we present extensive experiments on various datasets including subsets of LSUN and FFHQ. Experimental results reveal that the proposed method can dramatically improve the image generation performance, in terms of Frechet inception distance (FID), kernel inception distance (KID), and Precision and Recall (P & R).
翻訳日:2022-10-19 13:29:39 公開日:2022-10-18
# HUMANISE:3次元シーンにおける言語条件のヒューマンモーション生成

HUMANISE: Language-conditioned Human Motion Generation in 3D Scenes ( http://arxiv.org/abs/2210.09729v1 )

ライセンス: Link先を確認
Zan Wang, Yixin Chen, Tengyu Liu, Yixin Zhu, Wei Liang, Siyuan Huang(参考訳) HSI(Human-Scene Interaction)の既存のデータセットの平凡な特徴から、3Dシーンにおける多様なシーン認識と目標指向のヒューマンモーションを生成することは依然として難しい。 このギャップを埋めるために,人間の動き列を様々な3次元屋内シーンと整合させることにより,大規模で意味に富んだ合成hsiデータセットを提案する。 私たちは、アライメントされた動きに、アクションとシーン内のユニークな相互作用するオブジェクトを記述した言語記述を自動で注釈付けします。 これにより、humaniseは3dシーンで新しい世代のタスク、言語条件付きヒューマンモーション生成を可能にする。 提案課題は,3次元シーン,人間の動き,自然言語の同時モデリングを必要とするため,課題である。 そこで本研究では,特定の対象と相互作用する望ましい動作の3次元ヒューマンモーションを生成できる,新たなシーン・言語条件付き生成モデルを提案する。 実験により,我々のモデルは3次元シーンにおいて多様かつ意味的に一貫した人間の動きを生成できることを示した。

Learning to generate diverse scene-aware and goal-oriented human motions in 3D scenes remains challenging due to the mediocre characteristics of the existing datasets on Human-Scene Interaction (HSI); they only have limited scale/quality and lack semantics. To fill in the gap, we propose a large-scale and semantic-rich synthetic HSI dataset, denoted as HUMANISE, by aligning the captured human motion sequences with various 3D indoor scenes. We automatically annotate the aligned motions with language descriptions that depict the action and the unique interacting objects in the scene; e.g., sit on the armchair near the desk. HUMANISE thus enables a new generation task, language-conditioned human motion generation in 3D scenes. The proposed task is challenging as it requires joint modeling of the 3D scene, human motion, and natural language. To tackle this task, we present a novel scene-and-language conditioned generative model that can produce 3D human motions of the desirable action interacting with the specified objects. Our experiments demonstrate that our model generates diverse and semantically consistent human motions in 3D scenes.
翻訳日:2022-10-19 13:29:23 公開日:2022-10-18
# HistoStarGAN : 腎病理組織における正常化・転移・不変分画の統一的アプローチ

HistoStarGAN: A Unified Approach to Stain Normalisation, Stain Transfer and Stain Invariant Segmentation in Renal Histopathology ( http://arxiv.org/abs/2210.09798v1 )

ライセンス: Link先を確認
Jelica Vasiljevi\'c, Friedrich Feuerhake, C\'edric Wemmert, Thomas Lampert(参考訳) 仮想染色は計算病理学において有望な研究領域であり、アノテーションの欠如やドメインシフトに対する感受性といったディープラーニングベースのソリューションを適用する際の重要な制限を緩和する大きな可能性を秘めている。 しかし、文献では、仮想染色のアプローチの大半は特定の染色または染色の組み合わせのために訓練されており、見えない染色への拡張には追加のデータと訓練が必要である。 本稿では,複数の染色,染色正規化,染色不変セグメンテーション間の染色転送を行う一元的なフレームワークであるhistostarganを提案する。 提案法では, 多数の未発見の染色に対して, 多様な染色移動と正確な染色不変セグメンテーションを行うため, 提案法を一般化する能力を示す。 さらに、事前学習されたHistoStar-GANモデルは、完全に注釈付けされた合成画像データを使用することで、ディープラーニングベースのアルゴリズムのトレーニングを改善する合成データジェネレータとして機能する。 自然画像の応用に触発された我々のアプローチの能力と顕微鏡領域の潜在的なリスクを説明するため、腎病理のための完全に注釈付き人工画像データセットであるKidneyArtPathologyを作成した。

Virtual stain transfer is a promising area of research in Computational Pathology, which has a great potential to alleviate important limitations when applying deeplearningbased solutions such as lack of annotations and sensitivity to a domain shift. However, in the literature, the majority of virtual staining approaches are trained for a specific staining or stain combination, and their extension to unseen stainings requires the acquisition of additional data and training. In this paper, we propose HistoStarGAN, a unified framework that performs stain transfer between multiple stainings, stain normalisation and stain invariant segmentation, all in one inference of the model. We demonstrate the generalisation abilities of the proposed solution to perform diverse stain transfer and accurate stain invariant segmentation over numerous unseen stainings, which is the first such demonstration in the field. Moreover, the pre-trained HistoStar-GAN model can serve as a synthetic data generator, which paves the way for the use of fully annotated synthetic image data to improve the training of deep learning-based algorithms. To illustrate the capabilities of our approach, as well as the potential risks in the microscopy domain, inspired by applications in natural images, we generated KidneyArtPathology, a fully annotated artificial image dataset for renal pathology.
翻訳日:2022-10-19 13:29:03 公開日:2022-10-18
# DRC2022のチームフロー:音声対話における旅行先推薦作業のためのパイプラインシステム

Team Flow at DRC2022: Pipeline System for Travel Destination Recommendation Task in Spoken Dialogue ( http://arxiv.org/abs/2210.09518v1 )

ライセンス: Link先を確認
Ryu Hirai, Atsumoto Ohashi, Ao Guo, Hideki Shiroma, Xulin Zhou, Yukihiko Tone, Shinya Iizuka, Ryuichiro Higashinaka(参考訳) 対話システムの対話性を改善するため,対話ロボットコンペティション(DRC2022)が開催された。 チームのひとつとして、4つのモジュールを含むパイプライン構造を備えた対話システムを構築しました。 自然言語理解(NLU)と自然言語生成(NLG)モジュールはGPT-2ベースのモデルであり、対話状態追跡(DST)とポリシーモジュールは手作りのルールに基づいて設計された。 大会の予備戦の後,NLUのトレーニング例の低変量と,使用方針による推奨の失敗が,システムの性能の限界の主な原因であることが判明した。

To improve the interactive capabilities of a dialogue system, e.g., to adapt to different customers, the Dialogue Robot Competition (DRC2022) was held. As one of the teams, we built a dialogue system with a pipeline structure containing four modules. The natural language understanding (NLU) and natural language generation (NLG) modules were GPT-2 based models, and the dialogue state tracking (DST) and policy modules were designed on the basis of hand-crafted rules. After the preliminary round of the competition, we found that the low variation in training examples for the NLU and failed recommendation due to the policy used were probably the main reasons for the limited performance of the system.
翻訳日:2022-10-19 13:28:40 公開日:2022-10-18
# CEIP:強化学習における明示的事前と暗黙的事前の併用と実証

CEIP: Combining Explicit and Implicit Priors for Reinforcement Learning with Demonstrations ( http://arxiv.org/abs/2210.09496v1 )

ライセンス: Link先を確認
Kai Yan, Alexander G. Schwing, Yu-Xiong Wang(参考訳) 強化学習は密集した報酬設定で広く利用されているが、少ない報酬で自律エージェントを訓練することは依然として困難である。 この困難に対処するために、事前の作業はタスク固有のデモンストレーションだけでなく、タスクに依存しないデモを使う場合に有望な結果を示している。 ほとんどの場合、利用可能なデモは暗黙の事前に蒸留され、通常1つのディープネットで表現される。 クエリ可能なデータベースの形式における明示的な優先順位付けも、結果の奨励につながることが示されている。 利用可能なデモの利点をよりよくするために,CEIP (Explicit and Implicit Priors) を組み合わせる手法を開発した。 CEIPは複数の暗黙の先行を並列に正規化することで単一の複雑な先行を形成する。 さらにceipは、暗黙の事前条件に効果的な明示的な検索とプッシュフォワード機構を使用する。 3つの挑戦的な環境では,高度な最先端技術を改善するためのCEIP法が提案されている。

Although reinforcement learning has found widespread use in dense reward settings, training autonomous agents with sparse rewards remains challenging. To address this difficulty, prior work has shown promising results when using not only task-specific demonstrations but also task-agnostic albeit somewhat related demonstrations. In most cases, the available demonstrations are distilled into an implicit prior, commonly represented via a single deep net. Explicit priors in the form of a database that can be queried have also been shown to lead to encouraging results. To better benefit from available demonstrations, we develop a method to Combine Explicit and Implicit Priors (CEIP). CEIP exploits multiple implicit priors in the form of normalizing flows in parallel to form a single complex prior. Moreover, CEIP uses an effective explicit retrieval and push-forward mechanism to condition the implicit priors. In three challenging environments, we find the proposed CEIP method to improve upon sophisticated state-of-the-art techniques.
翻訳日:2022-10-19 13:27:52 公開日:2022-10-18
# スマートホーム・アクティビティ・ラーニングにおける異種ドメイン適応の実現

Enabling Heterogeneous Domain Adaptation in Multi-inhabitants Smart Home Activity Learning ( http://arxiv.org/abs/2210.09499v1 )

ライセンス: Link先を確認
Md Mahmudur Rahman, Mahta Mousavi, Peri Tarr, Mohammad Arif Ul Alam(参考訳) リモートヘルスモニタリング研究において,センサベースアクティビティ学習の領域適応が極めて重要である。 しかし、多くのドメイン適応アルゴリズムは、ターゲット領域の不均一性(実際には常に存在する)の存在下で適応を動作させるのに失敗し、複数の住民の存在は、半監督的かつ目に見えない活動学習タスクに対して不満足な結果をもたらす一般化性を劇的に妨げている。 本稿では,対象領域の不均質性の存在下で半教師付きドメイン適応を可能にする新しい深層オートエンコーダモデルである \emph{aeda} を提案し,それを統合することにより,任意の均質な深層ドメイン適応アーキテクチャへの不均質性を強化する手法を提案する。 利用可能な2つの人的活動データセット(ウェアラブルおよび周囲のスマートホーム)から作成した8つのドメインの18の異なる異種・多国籍のユースケースに関する実験的評価の結果, \emph{AEDA} が(max。 12.8\%と8.9\%の周囲のスマートホームとウェアラブルの改善は、見知らぬ活動学習のための既存のドメイン適応技術よりも優れている。

Domain adaptation for sensor-based activity learning is of utmost importance in remote health monitoring research. However, many domain adaptation algorithms suffer with failure to operate adaptation in presence of target domain heterogeneity (which is always present in reality) and presence of multiple inhabitants dramatically hinders their generalizability producing unsatisfactory results for semi-supervised and unseen activity learning tasks. We propose \emph{AEDA}, a novel deep auto-encoder-based model to enable semi-supervised domain adaptation in the existence of target domain heterogeneity and how to incorporate it to empower heterogeneity to any homogeneous deep domain adaptation architecture for cross-domain activity learning. Experimental evaluation on 18 different heterogeneous and multi-inhabitants use-cases of 8 different domains created from 2 publicly available human activity datasets (wearable and ambient smart homes) shows that \emph{AEDA} outperforms (max. 12.8\% and 8.9\% improvements for ambient smart home and wearables) over existing domain adaptation techniques for both seen and unseen activity learning in a heterogeneous setting.
翻訳日:2022-10-19 13:27:36 公開日:2022-10-18
# 後ろにペアが残らない:正規化トリプルト目的によるメトリック学習の改善

No Pairs Left Behind: Improving Metric Learning with Regularized Triplet Objective ( http://arxiv.org/abs/2210.09506v1 )

ライセンス: Link先を確認
A. Ali Heydari, Naghmeh Rezaei, Daniel J. McDuff, Javier L. Prieto(参考訳) サンプルマイニングやオーバーヘッドコストを伴わずにメートル法学習を改善する三重項目的関数の新たな定式化を提案する。 提案手法は, アンカー負距離に対して, 三重項中の正試料と負試料との距離を明示的に調整することを目的としている。 最初の検証として,我々の手法(No Pairs Left Behind [NPLB])が標準ベンチマークデータセット上での従来の3重項客観的な定式化を改善することを示す。 実世界の複雑なデータに対するNPLBの有効性と可能性を示すため、我々は大規模医療データセット(UK Biobank)へのアプローチを評価し、我々のモデルによって得られた埋め込みが、テストされた下流タスクにおける他のすべての現在の表現よりも大幅に優れていることを示した。 さらに,モデル非依存な1時間健康リスク定義を提供し,学習表現と組み合わせて使用すると,被検者の将来的健康合併症の予測精度が向上する。 以上の結果から,nplbは,既存の深層メトリック学習モデルを改善するための単純かつ効果的なフレームワークであり,特に生物領域や医療領域において,より複雑なアプリケーションにおけるメトリック学習の潜在的意義を示している。

We propose a novel formulation of the triplet objective function that improves metric learning without additional sample mining or overhead costs. Our approach aims to explicitly regularize the distance between the positive and negative samples in a triplet with respect to the anchor-negative distance. As an initial validation, we show that our method (called No Pairs Left Behind [NPLB]) improves upon the traditional and current state-of-the-art triplet objective formulations on standard benchmark datasets. To show the effectiveness and potentials of NPLB on real-world complex data, we evaluate our approach on a large-scale healthcare dataset (UK Biobank), demonstrating that the embeddings learned by our model significantly outperform all other current representations on tested downstream tasks. Additionally, we provide a new model-agnostic single-time health risk definition that, when used in tandem with the learned representations, achieves the most accurate prediction of subjects' future health complications. Our results indicate that NPLB is a simple, yet effective framework for improving existing deep metric learning models, showcasing the potential implications of metric learning in more complex applications, especially in the biological and healthcare domains.
翻訳日:2022-10-19 13:27:17 公開日:2022-10-18
# 経験的テキスト表現からの意味的特徴を用いたテキスト包含認識

Textual Entailment Recognition with Semantic Features from Empirical Text Representation ( http://arxiv.org/abs/2210.09723v1 )

ライセンス: Link先を確認
Md Atabuzzaman, Md Shajalal, Maksuda Bilkis Baby, Md Rezaul Karim(参考訳) テキスト内包認識は、自然言語理解(NLU)タスクの1つである。 文の意味を理解することは、自然言語処理(NLP)技術を適用する前に必須条件である。 テキストが仮説を包含するのは、仮説の真の価値がテキストに従う場合に限る。 古典的アプローチは一般的に、単語埋め込みから各単語の特徴値を使って文を表現する。 本稿では,テキストと仮説のテクスト関係を識別する新しい手法を提案し,経験的閾値に基づく意味的テキスト表現に着目した新しい意味的特徴を導入する。 文-韻律ペア間の意味的包含関係を識別できる,要素方向のマンハッタン距離ベクトルに基づく特徴を用いる。 ベンチマークエンテーメント分類(SICK-RTE)データセットについていくつかの実験を行った。 我々は、意味的特徴と語彙的特徴の両方を適用した機械学習(ML)アルゴリズムをトレーニングし、テキストと仮説のペアをエンテーメント、中立、矛盾として分類する。 我々の経験的文章表現技術は、古典的テキストよりも効率的であることが判明したテキストや仮説の意味情報を豊かにする。 最後に,本手法は,文章の係り受け分類タスクにおける文の意味を理解する上で,既知の手法を大幅に上回っている。

Textual entailment recognition is one of the basic natural language understanding(NLU) tasks. Understanding the meaning of sentences is a prerequisite before applying any natural language processing(NLP) techniques to automatically recognize the textual entailment. A text entails a hypothesis if and only if the true value of the hypothesis follows the text. Classical approaches generally utilize the feature value of each word from word embedding to represent the sentences. In this paper, we propose a novel approach to identifying the textual entailment relationship between text and hypothesis, thereby introducing a new semantic feature focusing on empirical threshold-based semantic text representation. We employ an element-wise Manhattan distance vector-based feature that can identify the semantic entailment relationship between the text-hypothesis pair. We carried out several experiments on a benchmark entailment classification(SICK-RTE) dataset. We train several machine learning(ML) algorithms applying both semantic and lexical features to classify the text-hypothesis pair as entailment, neutral, or contradiction. Our empirical sentence representation technique enriches the semantic information of the texts and hypotheses found to be more efficient than the classical ones. In the end, our approach significantly outperforms known methods in understanding the meaning of the sentences for the textual entailment classification task.
翻訳日:2022-10-19 13:20:13 公開日:2022-10-18
# 抽象的意味表現による多言語文埋め込みの再構築

Retrofitting Multilingual Sentence Embeddings with Abstract Meaning Representation ( http://arxiv.org/abs/2210.09773v1 )

ライセンス: Link先を確認
Deng Cai and Xin Li and Jackie Chun-Sing Ho and Lidong Bing and Wai Lam(参考訳) 本稿では,抽象的意味表現(AMR)を用いて,既存の多言語文の埋め込みを改善する新しい手法を提案する。 原文入力と比較すると、AMRは文の中核概念と関係を明確かつ曖昧に表す構造的意味表現である。 また、さまざまな表現や言語の表面のバリエーションを減らすのにも役立ちます。 意味的類似性を測定する能力のみを評価するほとんどの先行研究とは異なり、既存の多言語文埋め込みと、異なる下流アプリケーションにおける5つの転送タスクの集合を含む改良されたバージョンについて徹底的に評価する。 実験結果から,多言語文をAMRで埋め込むと,意味的テキストの類似性と伝達タスクの両方において,最先端の性能が向上することがわかった。 コードベースと評価スクリプトは \url{https://github.com/jcyk/MSE-AMR} で確認できます。

We introduce a new method to improve existing multilingual sentence embeddings with Abstract Meaning Representation (AMR). Compared with the original textual input, AMR is a structured semantic representation that presents the core concepts and relations in a sentence explicitly and unambiguously. It also helps reduce surface variations across different expressions and languages. Unlike most prior work that only evaluates the ability to measure semantic similarity, we present a thorough evaluation of existing multilingual sentence embeddings and our improved versions, which include a collection of five transfer tasks in different downstream applications. Experiment results show that retrofitting multilingual sentence embeddings with AMR leads to better state-of-the-art performance on both semantic textual similarity and transfer tasks. Our codebase and evaluation scripts can be found at \url{https://github.com/jcyk/MSE-AMR}.
翻訳日:2022-10-19 13:19:52 公開日:2022-10-18
# SafeText: 言語モデルにおける物理的安全性のベンチマーク

SafeText: A Benchmark for Exploring Physical Safety in Language Models ( http://arxiv.org/abs/2210.10045v1 )

ライセンス: Link先を確認
Sharon Levy, Emily Allaway, Melanie Subbiah, Lydia Chilton, Desmond Patton, Kathleen McKeown, William Yang Wang(参考訳) 安全なテキストを構成するものを理解することは、自然言語処理において重要な問題であり、しばしば有害で安全でないと見なされるモデルのデプロイを防ぐことができる。 あまり研究されていないこの種の安全性の1つは、明確に暴力的ではなく、物理的危害につながると理解するために追加のコモンセンス知識を必要とするテキストである。 私たちは最初のベンチマークデータセットであるsafetextを作成しました。 SafeTextを用いて、テキスト生成やコモンセンス推論タスクのために設計された様々なモデルのコモンセンス物理安全性を実証的に研究する。 最先端の大規模言語モデルは、安全でないテキストの生成に影響を受けやすく、安全でないアドバイスを拒否するのも困難である。 その結果、我々は、リリース前のモデルにおける安全性のさらなる研究とコモンセンス物理安全性の評価について議論した。

Understanding what constitutes safe text is an important issue in natural language processing and can often prevent the deployment of models deemed harmful and unsafe. One such type of safety that has been scarcely studied is commonsense physical safety, i.e. text that is not explicitly violent and requires additional commonsense knowledge to comprehend that it leads to physical harm. We create the first benchmark dataset, SafeText, comprising real-life scenarios with paired safe and physically unsafe pieces of advice. We utilize SafeText to empirically study commonsense physical safety across various models designed for text generation and commonsense reasoning tasks. We find that state-of-the-art large language models are susceptible to the generation of unsafe text and have difficulty rejecting unsafe advice. As a result, we argue for further studies of safety and the assessment of commonsense physical safety in models before release.
翻訳日:2022-10-19 13:19:37 公開日:2022-10-18
# ULN:未仕様の視覚・言語ナビゲーションを目指して

ULN: Towards Underspecified Vision-and-Language Navigation ( http://arxiv.org/abs/2210.10020v1 )

ライセンス: Link先を確認
Weixi Feng, Tsu-Jui Fu, Yujie Lu, William Yang Wang(参考訳) VLN(Vision-and-Language Navigation)は、言語命令を用いて標的位置へ移動するエンボディエージェントを誘導するタスクである。 大幅な性能向上にもかかわらず、粒度の細かい命令が広く使われることは、現実のより実践的な言語的なバリエーションを特徴づけることに失敗する。 このギャップを埋めるために、新しい設定、すなわち、Underified Vision-and-Language Navigation (ULN)と関連する評価データセットを導入する。 ULNは、より現実的で一般的な設定である、純粋にきめ細かな粒度や粗い粒度ではなく、マルチレベルの不特定命令を用いてエージェントを評価する。 ULNへの第一歩として,分類モジュール,ナビゲーションエージェント,エクスプロイテーション・ツー・探索(E2E)モジュールで構成されるVLNフレームワークを提案する。 具体的には,エージェントが最小限のパラメータでマルチレベル命令をグラウンドする粒度特定サブネットワーク(gss)を学習することを提案する。 そして,我々のE2Eモジュールは,不確実性を推定し,さらに成功率を向上させるために多段階の探索を行う。 実験の結果、既存のvlnモデルは、マルチレベル言語に弱いことが判明した。 我々のフレームワークはより堅牢で、ULNのベースラインを全レベルの相対成功率で約10%上回る。

Vision-and-Language Navigation (VLN) is a task to guide an embodied agent moving to a target position using language instructions. Despite the significant performance improvement, the wide use of fine-grained instructions fails to characterize more practical linguistic variations in reality. To fill in this gap, we introduce a new setting, namely Underspecified vision-and-Language Navigation (ULN), and associated evaluation datasets. ULN evaluates agents using multi-level underspecified instructions instead of purely fine-grained or coarse-grained, which is a more realistic and general setting. As a primary step toward ULN, we propose a VLN framework that consists of a classification module, a navigation agent, and an Exploitation-to-Exploration (E2E) module. Specifically, we propose to learn Granularity Specific Sub-networks (GSS) for the agent to ground multi-level instructions with minimal additional parameters. Then, our E2E module estimates grounding uncertainty and conducts multi-step lookahead exploration to improve the success rate further. Experimental results show that existing VLN models are still brittle to multi-level language underspecification. Our framework is more robust and outperforms the baselines on ULN by ~10% relative success rate across all levels.
翻訳日:2022-10-19 13:19:23 公開日:2022-10-18
# ニューラルシークエンスモデルを用いた視線追跡に基づく読解障害のない中国語読解者の分類

Eye-tracking based classification of Mandarin Chinese readers with and without dyslexia using neural sequence models ( http://arxiv.org/abs/2210.09819v1 )

ライセンス: Link先を確認
Patrick Haller, Andreas S\"auberli, Sarah Elisabeth Kiener, Jinger Pan, Ming Yan, Lena J\"ager(参考訳) 眼球運動は読書における認知過程を反映していることが知られており、心理学的読解研究により、失読症の有無によって眼球運動パターンが異なることが示されている。 近年,支援ベクターマシン(svms)を用いた眼球運動に基づく読字障害のある読者の分類が試みられている。 しかし これらのアプローチは (i) 参加者が読み取るすべての単語を平均する高度に集約された特徴に基づいており、眼球運動の逐次的性質を無視している。 (二) 言語刺激と読取者の眼球運動との相互作用を考慮しない。 本研究は,文全体にわたる特徴を集約することなく,刺激全体の眼球運動を処理する2つの簡単なシーケンスモデルを提案する。 さらに,文脈的単語埋め込みと手作業による言語特徴抽出の2つの方法で言語刺激をモデルに組み込む。 モデルは、失読症児と無症候児の眼球運動を含む中国語のデータセットで評価される。 私たちの結果は (i)中国語などの書体でも、シークエンスモデルは視線系列のディフレキシアを分類し、最先端のパフォーマンスに到達することができる。 (ii)言語刺激を組み込むことは分類性能の向上に寄与しない。

Eye movements are known to reflect cognitive processes in reading, and psychological reading research has shown that eye gaze patterns differ between readers with and without dyslexia. In recent years, researchers have attempted to classify readers with dyslexia based on their eye movements using Support Vector Machines (SVMs). However, these approaches (i) are based on highly aggregated features averaged over all words read by a participant, thus disregarding the sequential nature of the eye movements, and (ii) do not consider the linguistic stimulus and its interaction with the reader's eye movements. In the present work, we propose two simple sequence models that process eye movements on the entire stimulus without the need of aggregating features across the sentence. Additionally, we incorporate the linguistic stimulus into the model in two ways -- contextualized word embeddings and manually extracted linguistic features. The models are evaluated on a Mandarin Chinese dataset containing eye movements from children with and without dyslexia. Our results show that (i) even for a logographic script such as Chinese, sequence models are able to classify dyslexia on eye gaze sequences, reaching state-of-the-art performance, and (ii) incorporating the linguistic stimulus does not help to improve classification performance.
翻訳日:2022-10-19 13:19:03 公開日:2022-10-18
# 線形ガードネスとその意味

Linear Guardedness and its Implications ( http://arxiv.org/abs/2210.10012v1 )

ライセンス: Link先を確認
Shauli Ravfogel, Yoav Goldberg, Ryan Cotterell(参考訳) 神経表現における概念識別に関するこれまでの研究は、線形概念部分空間とその中性化に焦点を当ててきた。 本研究では,表現から与えられた概念を直接予測できない線形ガードネスの概念を定式化し,その意味について検討する。 二項の場合、中和された概念は追加の線形層によっては回復できないことを示す。 しかし、以前の研究で暗黙的に論じられたことと異なり、マルチクラスソフトマックス分類器は間接的に概念を復元するために構築できる。 したがって、線形ガード性は線形分類器が中和された概念を使わないことを保証せず、線形情報除去法の理論的限界に光を当てる。

Previous work on concept identification in neural representations has focused on linear concept subspaces and their neutralization. In this work, we formulate the notion of linear guardedness -- the inability to directly predict a given concept from the representation -- and study its implications. We show that, in the binary case, the neutralized concept cannot be recovered by an additional linear layer. However, we point out that -- contrary to what was implicitly argued in previous works -- multiclass softmax classifiers can be constructed that indirectly recover the concept. Thus, linear guardedness does not guarantee that linear classifiers do not utilize the neutralized concepts, shedding light on theoretical limitations of linear information removal methods.
翻訳日:2022-10-19 13:18:42 公開日:2022-10-18
# The Tail Wagging the Dog: Dataset Construction Biases of Social Bias Benchmarks

The Tail Wagging the Dog: Dataset Construction Biases of Social Bias Benchmarks ( http://arxiv.org/abs/2210.10040v1 )

ライセンス: Link先を確認
Nikil Roashan Selvam, Sunipa Dev, Daniel Khashabi, Tushar Khot, Kai-Wei Chang(参考訳) 特定の言語モデルにおける問題のある社会バイアスの忠実な指標として,社会バイアスベンチマークから得られたスコアをどの程度信頼できるか? 本研究では,人間の眼では識別できないようなデータセット構築中の選択から生じる非社会バイアスと,社会バイアスを対比することで,この問題を考察する。 そこで我々は,社会的バイアスの本質を維持する無害な修正(言い換えやランダムサンプリングなど)に基づいて,与えられたベンチマークに対する様々な代替構成を実証的にシミュレートする。 2つの有名な社会バイアスベンチマーク(winogender と biasnli)では、これらの浅い修正が様々なモデルにまたがるバイアスの程度に驚くべき影響を与えることが観察されている。 こうした厄介な観察が、より堅牢な社会的偏見を動機づけることを願っている。

How reliably can we trust the scores obtained from social bias benchmarks as faithful indicators of problematic social biases in a given language model? In this work, we study this question by contrasting social biases with non-social biases stemming from choices made during dataset construction that might not even be discernible to the human eye. To do so, we empirically simulate various alternative constructions for a given benchmark based on innocuous modifications (such as paraphrasing or random-sampling) that maintain the essence of their social bias. On two well-known social bias benchmarks (Winogender and BiasNLI) we observe that these shallow modifications have a surprising effect on the resulting degree of bias across various models. We hope these troubling observations motivate more robust measures of social biases.
翻訳日:2022-10-19 13:18:33 公開日:2022-10-18
# 顔認識における公平性のためのアーキテクチャとハイパーパラメータの重要性について

On the Importance of Architectures and Hyperparameters for Fairness in Face Recognition ( http://arxiv.org/abs/2210.09943v1 )

ライセンス: Link先を確認
Rhea Sukthanker, Samuel Dooley, John P. Dickerson, Colin White, Frank Hutter, Micah Goldblum(参考訳) 顔認識システムは、監視やデータベースマッチングのような敏感で影響力のあるタスクのために、政府機関や請負業者によって世界中に展開されている。 広く使われているにもかかわらず、これらのシステムは、性別や人種など、様々な社会デマグラフィー次元に偏見を示すことが知られている。 それでも、前処理、トレーニング、後処理方法を提案する一連の作業は、これらのギャップを閉じることはできなかった。 ここでは、ニューラルネットワークのアーキテクチャとハイパーパラメータの両方がバイアスを減らすのに役立ちます。 まず、アーキテクチャの影響を大規模に分析し、いくつかの共通フェアネス指標に対するハイパーパラメータのトレーニングを行い、高い精度のアーキテクチャを選択するという暗黙の慣習がフェアネスに最適であることを示す。 我々の発見に動機づけられ、我々はハイパーパラメーターの探索と共同でフェアネスを探索する最初のニューラルアーキテクチャーを実行した。 パレートが他の全ての競合アーキテクチャを精度と公平性で支配する一連のモデルを出力する。 さらに,これらのモデルが,類似した保護属性を持つ他の顔認識データセットによく変換されることを示す。 私たちはコードと生の結果ファイルを公開し、研究者や実践者が私たちの公正度指標を彼らの選択のバイアス尺度に置き換えられるようにします。

Face recognition systems are deployed across the world by government agencies and contractors for sensitive and impactful tasks, such as surveillance and database matching. Despite their widespread use, these systems are known to exhibit bias across a range of sociodemographic dimensions, such as gender and race. Nonetheless, an array of works proposing pre-processing, training, and post-processing methods have failed to close these gaps. Here, we take a very different approach to this problem, identifying that both architectures and hyperparameters of neural networks are instrumental in reducing bias. We first run a large-scale analysis of the impact of architectures and training hyperparameters on several common fairness metrics and show that the implicit convention of choosing high-accuracy architectures may be suboptimal for fairness. Motivated by our findings, we run the first neural architecture search for fairness, jointly with a search for hyperparameters. We output a suite of models which Pareto-dominate all other competitive architectures in terms of accuracy and fairness. Furthermore, we show that these models transfer well to other face recognition datasets with similar and distinct protected attributes. We release our code and raw result files so that researchers and practitioners can replace our fairness metrics with a bias measure of their choice.
翻訳日:2022-10-19 13:12:14 公開日:2022-10-18
# 遊びから政策へ:不正確なロボットデータから条件行動生成

From Play to Policy: Conditional Behavior Generation from Uncurated Robot Data ( http://arxiv.org/abs/2210.10047v1 )

ライセンス: Link先を確認
Zichen Jeff Cui, Yibin Wang, Nur Muhammad (Mahi) Shafiullah, Lerrel Pinto(参考訳) オフラインデータからの大規模シーケンスモデリングは、自然言語と画像生成のパフォーマンス向上に繋がったが、そのようなアイデアをロボティクスに直接翻訳することは困難だった。 この理由の1つは、未解決のロボットのデモデータ、すなわち、経験のない人間のデモ参加者から収集されたプレイデータはしばしば騒がしく、多様性があり、分布的にマルチモーダルである。 これにより、そのようなデータからタスク中心の振る舞いを抽出することは、難しい生成モデリング問題となる。 本研究では,動作変換器のマルチモーダル生成能力と将来の目標仕様を組み合わせた条件付き動作変換器(C-BeT)を提案する。 シミュレーションされたベンチマークタスクのスイートでは、C-BeTは、プレイデータから平均45.7%の学習で最先端の作業を改善する。 さらに,タスクラベルや報奨情報を持たずに,純粋に遊びデータから実世界のロボットに有用なタスク中心の動作を学習できることを初めて実証する。 ロボットビデオはプロジェクトのWebサイトでよく見られる。

While large-scale sequence modeling from offline data has led to impressive performance gains in natural language and image generation, directly translating such ideas to robotics has been challenging. One critical reason for this is that uncurated robot demonstration data, i.e. play data, collected from non-expert human demonstrators are often noisy, diverse, and distributionally multi-modal. This makes extracting useful, task-centric behaviors from such data a difficult generative modeling problem. In this work, we present Conditional Behavior Transformers (C-BeT), a method that combines the multi-modal generation ability of Behavior Transformer with future-conditioned goal specification. On a suite of simulated benchmark tasks, we find that C-BeT improves upon prior state-of-the-art work in learning from play data by an average of 45.7%. Further, we demonstrate for the first time that useful task-centric behaviors can be learned on a real-world robot purely from play data without any task labels or reward information. Robot videos are best viewed on our project website: https://play-to-policy.github.io
翻訳日:2022-10-19 13:11:50 公開日:2022-10-18
# 大規模摂動境界に対する逆行訓練のスケーリング

Scaling Adversarial Training to Large Perturbation Bounds ( http://arxiv.org/abs/2210.09852v1 )

ライセンス: Link先を確認
Sravanti Addepalli, Samyak Jain, Gaurang Sriramanan, R.Venkatesh Babu(参考訳) Deep Neural Networks to Adversarial Attacksの脆弱性は、堅牢なモデル構築に向けた研究を加速させている。 ほとんどの敵訓練アルゴリズムは、Lpノルム境界内で制約された攻撃を防御することを目的としているが、現実の敵はそのような制約によって制限されない。 本研究は,人間(あるいはオラクル)の予測を変えることなく,知覚可能な摂動に対して,より大きな境界内で敵の堅牢性を達成することを目的としている。 oracleの予測を覆すイメージと、それではないイメージの存在は、敵対的ロバスト性にとって困難な設定である。 敵防御アルゴリズムの理想的目標を知覚的限界を超えて議論し、既存の訓練アルゴリズムをより高い摂動限界にネイティブに拡張することの欠点をさらに強調する。 これらの欠点を克服するために,我々は,新たな防御的 oracle-aligned adversarial training (oa-at) を提案する。 提案手法は,既存の防御(AWP, TRADES, PGD-AT)を標準境界(8/255)で上回りながら,大きなエプシロン境界(CIFAR-10のL-inf境界16/255など)における最先端性能を実現する。

The vulnerability of Deep Neural Networks to Adversarial Attacks has fuelled research towards building robust models. While most Adversarial Training algorithms aim at defending attacks constrained within low magnitude Lp norm bounds, real-world adversaries are not limited by such constraints. In this work, we aim to achieve adversarial robustness within larger bounds, against perturbations that may be perceptible, but do not change human (or Oracle) prediction. The presence of images that flip Oracle predictions and those that do not makes this a challenging setting for adversarial robustness. We discuss the ideal goals of an adversarial defense algorithm beyond perceptual limits, and further highlight the shortcomings of naively extending existing training algorithms to higher perturbation bounds. In order to overcome these shortcomings, we propose a novel defense, Oracle-Aligned Adversarial Training (OA-AT), to align the predictions of the network with that of an Oracle during adversarial training. The proposed approach achieves state-of-the-art performance at large epsilon bounds (such as an L-inf bound of 16/255 on CIFAR-10) while outperforming existing defenses (AWP, TRADES, PGD-AT) at standard bounds (8/255) as well.
翻訳日:2022-10-19 13:11:34 公開日:2022-10-18
# オブジェクトポーザとアクティブラーニングによるバーチャルリアリティ:空中マニピュレーション機能を備えたテレプレゼンスロボットの実現

Virtual Reality via Object Poses and Active Learning: Realizing Telepresence Robots with Aerial Manipulation Capabilities ( http://arxiv.org/abs/2210.09678v1 )

ライセンス: Link先を確認
Jongseok Lee, Ribin Balachandran, Konstantin Kondak, Andre Coelho, Marco De Stefano, Matthias Humt, Jianxiang Feng, Tamim Asfour, Rudolph Triebel(参考訳) 本稿では,動的・非構造環境下での空中操作を進展させる新しいテレプレゼンスシステムを提案する。 提案システムは触覚デバイスだけでなく,ロボットのワークスペースをリアルタイムに3D表示し,遠隔操作者への触覚誘導を行う仮想現実(VR)インターフェースも備えている。 これを実現するために、複数のセンサー、すなわちLiDAR、カメラ、IMUが使用される。 得られたセンサデータの処理には、未知の測地と未知の測地の両方の産業オブジェクトに対して、ポーズ推定パイプラインが考案される。 さらに,深層ニューラルネットワーク(dnn)に基づく物体検出に依存するパイプラインコンポーネントのサンプル効率を向上させるために,アクティブな学習パイプラインを提案する。 これらのアルゴリズムはすべて、産業シナリオにおける知覚タスクの実行中に遭遇するさまざまな課題に対処する。 実験では,提案するパイプラインを検証するため,排他的アブレーション実験を行った。 方法論的に、これらの結果は一般的にアルゴリズムの失敗と不確実性(検査)に対する認識が、遭遇した問題にどのように対処できるかを示唆している。 さらに, 航空操作能力向上のための総合システムの有効性を評価するために, 野外実験を行った。 特に, 昼夜, 春から冬, ユーザと場所の異なる飛行キャンペーンにおいて, dlrケーブルによる空中マニピュレータ (sam) を用いた70以上の頑健なピック・アンド・プレース, フォース・アプリケーション, peg-in-hole タスクを実演した。 その結果,今後の産業応用において提案するシステムの実現可能性を示す。

This article presents a novel telepresence system for advancing aerial manipulation in dynamic and unstructured environments. The proposed system not only features a haptic device, but also a virtual reality (VR) interface that provides real-time 3D displays of the robot's workspace as well as a haptic guidance to its remotely located operator. To realize this, multiple sensors namely a LiDAR, cameras and IMUs are utilized. For processing of the acquired sensory data, pose estimation pipelines are devised for industrial objects of both known and unknown geometries. We further propose an active learning pipeline in order to increase the sample efficiency of a pipeline component that relies on Deep Neural Networks (DNNs) based object detection. All these algorithms jointly address various challenges encountered during the execution of perception tasks in industrial scenarios. In the experiments, exhaustive ablation studies are provided to validate the proposed pipelines. Methodologically, these results commonly suggest how an awareness of the algorithms' own failures and uncertainty ("introspection") can be used tackle the encountered problems. Moreover, outdoor experiments are conducted to evaluate the effectiveness of the overall system in enhancing aerial manipulation capabilities. In particular, with flight campaigns over days and nights, from spring to winter, and with different users and locations, we demonstrate over 70 robust executions of pick-and-place, force application and peg-in-hole tasks with the DLR cable-Suspended Aerial Manipulator (SAM). As a result, we show the viability of the proposed system in future industrial applications.
翻訳日:2022-10-19 13:10:45 公開日:2022-10-18
# 深層体制御 : 操作と移動の統一政策を学ぶ

Deep Whole-Body Control: Learning a Unified Policy for Manipulation and Locomotion ( http://arxiv.org/abs/2210.10044v1 )

ライセンス: Link先を確認
Zipeng Fu, Xuxin Cheng, Deepak Pathak(参考訳) 装着されたアームは、車輪付きまたは追跡済みのロボットには不可能であるいくつかの移動操作タスクに脚付きロボットの適用性を大幅に向上させることができる。 このような脚付きマニピュレータの標準的な階層制御パイプラインは、コントローラを操作とロコモーションのものに分離する。 しかし、これは効果がない。 腕と脚の調整をサポートするために膨大なエンジニアリングが必要であり、エラーは不自然な動きを引き起こすモジュールをまたいで伝播する。 また、四肢間の強い運動シナジーの証拠が与えられれば、生物学的には不可能である。 本研究では,強化学習を用いて脚部マニピュレータの全身制御のための統一的な方針を学ぶことを提案する。 我々は,高DoF制御のためのSim2Realギャップを橋渡しする正規化オンライン適応法と,身体システム全体のトレーニング中に局所的なミニマを克服するために,アクション空間における因果依存性を利用したアドバンテージ・ミキシングを提案する。 また、低コストの脚型マニピュレータのためのシンプルな設計を示し、我々の統一ポリシーがいくつかのタスク設定で動的かつアジャイルな振る舞いを実証できることを見出します。 ビデオはhttps://maniploco.github.ioにある。

An attached arm can significantly increase the applicability of legged robots to several mobile manipulation tasks that are not possible for the wheeled or tracked counterparts. The standard hierarchical control pipeline for such legged manipulators is to decouple the controller into that of manipulation and locomotion. However, this is ineffective. It requires immense engineering to support coordination between the arm and legs, and error can propagate across modules causing non-smooth unnatural motions. It is also biological implausible given evidence for strong motor synergies across limbs. In this work, we propose to learn a unified policy for whole-body control of a legged manipulator using reinforcement learning. We propose Regularized Online Adaptation to bridge the Sim2Real gap for high-DoF control, and Advantage Mixing exploiting the causal dependency in the action space to overcome local minima during training the whole-body system. We also present a simple design for a low-cost legged manipulator, and find that our unified policy can demonstrate dynamic and agile behaviors across several task setups. Videos are at https://maniploco.github.io
翻訳日:2022-10-19 13:10:21 公開日:2022-10-18
# 階層的品質多様性を有するロボットのオンライン損傷回復

Online Damage Recovery for Physical Robots with Hierarchical Quality-Diversity ( http://arxiv.org/abs/2210.09918v1 )

ライセンス: Link先を確認
Maxime Allard, Sim\'on C. Smith, Konstantinos Chatzilygeroudis, Bryan Lim, Antoine Cully(参考訳) 現実世界の環境では、ロボットは損傷に対して弾力性を持ち、予期せぬシナリオに堅牢でなければならない。 品質多様性(QD)アルゴリズムは、さまざまな学習スキルを活用することで、ロボットを数秒で損傷に適応させるのに成功している。 高いスキルの多様性は、新しいタスクを解決できる可能性のある選択肢が増えるため、新しい状況を克服するロボットが成功する可能性を高めるが、複数のスキルの大規模な行動の多様性を見つけて保存することは、しばしば計算の複雑さを増加させる。 さらに、大きなスキル空間におけるロボット計画は、スキルの増加とともに生じる追加の課題である。 階層構造は、スキルをプリミティブなスキルに分解することで、この検索とストレージの複雑さを軽減するのに役立つ。 本稿では,階層的行動レパートリーを用いて多様なスキルを学習し,それらを活用してロボットを物理的世界に迅速に適応させる階層的試行錯誤アルゴリズムを提案する。 階層的なスキルの分解により、ロボットはより複雑な振る舞いを学習し、レパートリーの学習を学習しやすくする。 ヘキサポッドロボットを用いた実験では,シミュレーション時の動作が20%少なく,物理世界での動作が43%少ないmazeナビゲーションタスクが,最善のベースラインよりも難しいシナリオで解決され,完全な障害が78%少ないことが示されている。

In real-world environments, robots need to be resilient to damages and robust to unforeseen scenarios. Quality-Diversity (QD) algorithms have been successfully used to make robots adapt to damages in seconds by leveraging a diverse set of learned skills. A high diversity of skills increases the chances of a robot to succeed at overcoming new situations since there are more potential alternatives to solve a new task.However, finding and storing a large behavioural diversity of multiple skills often leads to an increase in computational complexity. Furthermore, robot planning in a large skill space is an additional challenge that arises with an increased number of skills. Hierarchical structures can help reducing this search and storage complexity by breaking down skills into primitive skills. In this paper, we introduce the Hierarchical Trial and Error algorithm, which uses a hierarchical behavioural repertoire to learn diverse skills and leverages them to make the robot adapt quickly in the physical world. We show that the hierarchical decomposition of skills enables the robot to learn more complex behaviours while keeping the learning of the repertoire tractable. Experiments with a hexapod robot show that our method solves a maze navigation tasks with 20% less actions in simulation, and 43% less actions in the physical world, for the most challenging scenarios than the best baselines while having 78% less complete failures.
翻訳日:2022-10-19 13:04:34 公開日:2022-10-18
# ビデオ分類のための転送学習:複数ドメイン上のビデオスウィン変換器

Transfer-learning for video classification: Video Swin Transformer on multiple domains ( http://arxiv.org/abs/2210.09969v1 )

ライセンス: Link先を確認
Daniel Oliveira, David Martins de Matos(参考訳) コンピュータビジョンコミュニティは、画像とビデオの両方のタスクのために畳み込みベースのアーキテクチャから純粋なトランスフォーマーアーキテクチャにシフトしている。 これらのタスクのために0からトランスフォーマーをトレーニングするには、通常、大量のデータと計算リソースが必要です。 Video Swin Transformer (VST) は、ビデオ分類のために開発された純粋なトランスフォーマーモデルであり、複数のデータセットの精度と効率を向上する。 本稿では、VSTがドメイン外設定で十分に使えるように一般化されているかを理解することを目的とする。 本研究では,FCVIDとSomethingという2つの大規模データセット上でのVSTの性能について,Kinetics-400の転送学習手法を用いて検討した。 次に、結果を分解して、VSTが最も失敗する場所と、移行学習アプローチが実行可能なシナリオを理解する。 実験の結果,FCVIDでは,データセットの最先端に匹敵するモデル全体をトレーニングすることなく85%のTop-1精度を示し,Somethingでは21%の精度を示した。 また, モデルの設計選択の結果と考えられるビデオ長が大きくなると, VSTの性能は平均で低下することを示した。 結果から,VSTは,対象クラスがモデルのトレーニングに使用するクラスと同じタイプである場合に,再トレーニングすることなく,ドメイン外のビデオの分類を十分に行うことができると結論付けた。 Kinetics-400 から FCVID への移行学習を行ったところ,ほとんどのデータセットが対象としていた。 一方、クラスが同じ型ではない場合、トランスファーラーニングアプローチ後の精度が低くなることが期待される。 この効果は,クラスが主にオブジェクトを表すkinetics-400から,クラスがほとんどアクションを表す何かに転送学習を行ったときに観察した。

The computer vision community has seen a shift from convolutional-based to pure transformer architectures for both image and video tasks. Training a transformer from zero for these tasks usually requires a lot of data and computational resources. Video Swin Transformer (VST) is a pure-transformer model developed for video classification which achieves state-of-the-art results in accuracy and efficiency on several datasets. In this paper, we aim to understand if VST generalizes well enough to be used in an out-of-domain setting. We study the performance of VST on two large-scale datasets, namely FCVID and Something-Something using a transfer learning approach from Kinetics-400, which requires around 4x less memory than training from scratch. We then break down the results to understand where VST fails the most and in which scenarios the transfer-learning approach is viable. Our experiments show an 85\% top-1 accuracy on FCVID without retraining the whole model which is equal to the state-of-the-art for the dataset and a 21\% accuracy on Something-Something. The experiments also suggest that the performance of the VST decreases on average when the video duration increases which seems to be a consequence of a design choice of the model. From the results, we conclude that VST generalizes well enough to classify out-of-domain videos without retraining when the target classes are from the same type as the classes used to train the model. We observed this effect when we performed transfer-learning from Kinetics-400 to FCVID, where most datasets target mostly objects. On the other hand, if the classes are not from the same type, then the accuracy after the transfer-learning approach is expected to be poor. We observed this effect when we performed transfer-learning from Kinetics-400, where the classes represent mostly objects, to Something-Something, where the classes represent mostly actions.
翻訳日:2022-10-19 13:03:46 公開日:2022-10-18
# RAPO:バイリンガル語彙誘導のための適応的ランク付けパラダイム

RAPO: An Adaptive Ranking Paradigm for Bilingual Lexicon Induction ( http://arxiv.org/abs/2210.09926v1 )

ライセンス: Link先を確認
Zhoujin Tian, Chaozhuo Li, Shuo Ren, Zhiqiang Zuo, Zengxuan Wen, Xinyue Hu, Xiao Han, Haizhen Huang, Denvy Deng, Qi Zhang, Xing Xie(参考訳) バイリンガル語彙誘導は、独立に訓練された単語を2つの言語に埋め込むことで単語翻訳を誘導する。 既存のアプローチでは、正の候補と負の候補の相対的な順序を区別する識別能力が低い一方で、一致したペア内の単語間の距離を最小化することに重点を置いている。 さらに、マッピング関数は全単語でグローバルに共有され、その性能は異なる言語の分布の偏差によって妨げられる可能性がある。 本研究では,単語ごとのパーソナライズされたマッピング関数を学習するためのランキング指向誘導モデルRAPOを提案する。 RAPOは単一の単語の特徴と言語間同型を同時に持つメリットを享受することができる。 リッチリソース言語とローリソース言語の両方を含む公開データセットの広範な実験結果から,提案手法が優れていることが示された。 我々のコードは \url{https://github.com/Jlfj345wf/RAPO} で公開されている。

Bilingual lexicon induction induces the word translations by aligning independently trained word embeddings in two languages. Existing approaches generally focus on minimizing the distances between words in the aligned pairs, while suffering from low discriminative capability to distinguish the relative orders between positive and negative candidates. In addition, the mapping function is globally shared by all words, whose performance might be hindered by the deviations in the distributions of different languages. In this work, we propose a novel ranking-oriented induction model RAPO to learn personalized mapping function for each word. RAPO is capable of enjoying the merits from the unique characteristics of a single word and the cross-language isomorphism simultaneously. Extensive experimental results on public datasets including both rich-resource and low-resource languages demonstrate the superiority of our proposal. Our code is publicly available in \url{https://github.com/Jlfj345wf/RAPO}.
翻訳日:2022-10-19 13:02:26 公開日:2022-10-18
# トランスファー学習における事前学習言語モデルの隠れ状態可変性が計算量削減を導く

Hidden State Variability of Pretrained Language Models Can Guide Computation Reduction for Transfer Learning ( http://arxiv.org/abs/2210.10041v1 )

ライセンス: Link先を確認
Shuo Xie, Jiahao Qiu, Ankita Pasad, Li Du, Qing Qu and Hongyuan Mei(参考訳) トレーニング済みの言語モデルを転送する際、一般的なアプローチでは、タスク固有の分類器をトップ層にアタッチして、トレーニング済みのすべてのレイヤに適応する。 我々は,どの層に適応すべきか,どの層に分類器を置くべきかを,タスク固有の選択が可能であるかどうかを検討する。 目標は、パフォーマンスを犠牲にすることなく、転送学習方法(微調整やアダプタチューニングなど)の計算コストを削減することである。 タスク固有のコーパスを与えられた隠れ状態の可変性に基づいて階層を選択することを提案する。 隠された状態のクラス内変数が、クラス間変数と比較して低い場合、すでにある層は ' well-specialized' である。 私たちの可変性メトリクスは計算が安く、トレーニングやハイパーパラメータチューニングは不要です。 データ不均衡とデータの不足に対して堅牢である。 glueベンチマークの広範な実験により、私たちの測定値に基づいたレイヤの選択は、同じ数のトップレイヤを使用するよりも大幅にパフォーマンスが向上し、言語モデル全体の微調整やアダプタチューニングのパフォーマンスにマッチすることが多いことが分かりました。

While transferring a pretrained language model, common approaches conventionally attach their task-specific classifiers to the top layer and adapt all the pretrained layers. We investigate whether one could make a task-specific selection on which subset of the layers to adapt and where to place the classifier. The goal is to reduce the computation cost of transfer learning methods (e.g. fine-tuning or adapter-tuning) without sacrificing its performance. We propose to select layers based on the variability of their hidden states given a task-specific corpus. We say a layer is already ``well-specialized'' in a task if the within-class variability of its hidden states is low relative to the between-class variability. Our variability metric is cheap to compute and doesn't need any training or hyperparameter tuning. It is robust to data imbalance and data scarcity. Extensive experiments on the GLUE benchmark demonstrate that selecting layers based on our metric can yield significantly stronger performance than using the same number of top layers and often match the performance of fine-tuning or adapter-tuning the entire language model.
翻訳日:2022-10-19 13:02:11 公開日:2022-10-18
# コンケーブ報酬を伴うコンテクストバンディットと公正ランキングへの応用

Contextual bandits with concave rewards, and an application to fair ranking ( http://arxiv.org/abs/2210.09957v1 )

ライセンス: Link先を確認
Virginie Do, Elvis Dohmatob, Matteo Pirotta, Alessandro Lazaric and Nicolas Usunier(参考訳) cbcr(concave rewards)は、既知のconcave objective関数によって報酬間の所望のトレードオフが定義され、その報酬ベクトルが観測された確率的文脈に依存する多目的バンディット問題である。 我々は, cbcrに対する後悔を, ポリシー空間の制約なく解消する最初のアルゴリズムを提案するが, 先行研究は有限方針空間や表表現に限定された。 我々の解は、全ての確率的ポリシーにまたがる期待される報酬の凸集合に対する最適化アルゴリズムとしてCBCRアルゴリズムの幾何学的解釈に基づいている。 制約付き凸最適化におけるFrank-Wolfe解析に基づいて,スカラー・逆バンディット問題に対するCBCRの後悔から,新たな減少を導出した。 非組合せ動作の場合, 線形および一般報酬関数を持つCBCRのアルゴリズムを得るために, 減量処理をオフザシェルフで適用する方法を述べる。 推薦の公平さに動機づけられたcbcrの特別な場合として,ランキングと公平さを意識した目的について述べる。

We consider Contextual Bandits with Concave Rewards (CBCR), a multi-objective bandit problem where the desired trade-off between the rewards is defined by a known concave objective function, and the reward vector depends on an observed stochastic context. We present the first algorithm with provably vanishing regret for CBCR without restrictions on the policy space, whereas prior works were restricted to finite policy spaces or tabular representations. Our solution is based on a geometric interpretation of CBCR algorithms as optimization algorithms over the convex set of expected rewards spanned by all stochastic policies. Building on Frank-Wolfe analyses in constrained convex optimization, we derive a novel reduction from the CBCR regret to the regret of a scalar-reward bandit problem. We illustrate how to apply the reduction off-the-shelf to obtain algorithms for CBCR with both linear and general reward functions, in the case of non-combinatorial actions. Motivated by fairness in recommendation, we describe a special case of CBCR with rankings and fairness-aware objectives, leading to the first algorithm with regret guarantees for contextual combinatorial bandits with fairness of exposure.
翻訳日:2022-10-19 13:01:52 公開日:2022-10-18
# 一般サム確率ゲームのnash平衡学習のための分散政策勾配

Decentralized Policy Gradient for Nash Equilibria Learning of General-sum Stochastic Games ( http://arxiv.org/abs/2210.07651v2 )

ライセンス: Link先を確認
Yan Chen and Tao Li(参考訳) 遷移確率密度関数が未知な一般確率ゲームにおけるナッシュ平衡学習について検討する。 エージェントは現在の環境状態において行動し、その共同行動は環境状態の遷移と即時報酬に影響を与える。 各エージェントは、環境状態とその即時報酬のみを観察し、他人の行動や即時報酬について不明である。 重み付き漸近的ナッシュ均衡の概念を確率1および確率で導入する。 正確な擬似勾配を持つ場合、ナッシュ平衡と変分不等式の問題の等価性による2ループアルゴリズムを設計する。 外ループでは、構成された変分不等式を解決するために、内部ループに1つの呼び出し外勾配アルゴリズムを用いて、近似パラメータを更新し、構築された強い単調変分不等式を逐次更新する。 関連するMinty変分不等式が解を持つならば、設計アルゴリズムはk^{1/2}-重み付けされた漸近的ナッシュ平衡に収束する。 さらに、未知の擬似勾配の場合、擬似勾配のG(PO)MDP勾配推定器がモンテカルロシミュレーションによって提供される分散化アルゴリズムを提案する。 k^{1/4}-重み付き漸近ナッシュ平衡への確率の収束が達成される。

We study Nash equilibria learning of a general-sum stochastic game with an unknown transition probability density function. Agents take actions at the current environment state and their joint action influences the transition of the environment state and their immediate rewards. Each agent only observes the environment state and its own immediate reward and is unknown about the actions or immediate rewards of others. We introduce the concepts of weighted asymptotic Nash equilibrium with probability 1 and in probability. For the case with exact pseudo gradients, we design a two-loop algorithm by the equivalence of Nash equilibrium and variational inequality problems. In the outer loop, we sequentially update a constructed strongly monotone variational inequality by updating a proximal parameter while employing a single-call extra-gradient algorithm in the inner loop for solving the constructed variational inequality. We show that if the associated Minty variational inequality has a solution, then the designed algorithm converges to the k^{1/2}-weighted asymptotic Nash equilibrium. Further, for the case with unknown pseudo gradients, we propose a decentralized algorithm, where the G(PO)MDP gradient estimator of the pseudo gradient is provided by Monte-Carlo simulations. The convergence to the k^{1/4} -weighted asymptotic Nash equilibrium in probability is achieved.
翻訳日:2022-10-19 10:50:22 公開日:2022-10-18
# ToupleGDD: 深層強化学習による影響最大化の詳細な解法

ToupleGDD: A Fine-Designed Solution of Influence Maximization by Deep Reinforcement Learning ( http://arxiv.org/abs/2210.07500v2 )

ライセンス: Link先を確認
Tiantian Chen, Siwen Yan, Jianxiong Guo, Weili Wu(参考訳) オンラインソーシャルプラットフォームはますます普及し、ソーシャルネットワーク上の情報の普及は、業界や学術界の注目を集めている。 ネットワークに最大影響を与えるノードの小さなサブセットを選択することを目指して、影響最大化(im)の問題が広く研究されている。 シードセットが与えられた影響を計算するのは#Pハードであるため、ヒューリスティックおよび近似アルゴリズムを含む最先端の手法は、理論的保証、時間効率、一般化などの大きな困難に直面している。 これにより、大規模ネットワークやより複雑なアプリケーションに適応できない。 人工知能やその他の分野におけるDeep Reinforcement Learning(DRL)の最近の成果により、組合せ最適化の問題を解決するためにDRLを活用することに多くの研究が注がれている。 本稿では,ネットワーク埋め込みのための3つの結合グラフニューラルネットワークとパラメータ学習のための二重深度Q-networksを組み合わせた,新しいエンドツーエンドDRLフレームワークであるToupleGDDを提案する。 従来のDRLによるIM問題を解決する努力は、ネットワーク全体のサブグラフ上でモデルをトレーニングし、グラフ全体のパフォーマンスをテストすることで、異なるネットワーク間でモデルのパフォーマンスが不安定になる。 しかし,本モデルでは,ランダムに生成したいくつかのグラフをトレーニングし,全く異なるネットワーク上でテストし,最先端の手法に非常に近い結果を得ることができる。 さらに,我々のモデルは小さな予算で訓練され,テスト中の様々な大予算でうまく動作し,強力な一般化能力を示す。 最後に,合成および現実的なデータセットについて拡張実験を行い,実験結果からモデルの有効性と優越性が証明された。

Online social platforms have become more and more popular, and the dissemination of information on social networks has attracted wide attention of the industries and academia. Aiming at selecting a small subset of nodes with maximum influence on networks, the Influence Maximization (IM) problem has been extensively studied. Since it is #P-hard to compute the influence spread given a seed set, the state-of-art methods, including heuristic and approximation algorithms, faced with great difficulties such as theoretical guarantee, time efficiency, generalization, etc. This makes it unable to adapt to large-scale networks and more complex applications. With the latest achievements of Deep Reinforcement Learning (DRL) in artificial intelligence and other fields, a lot of works has focused on exploiting DRL to solve the combinatorial optimization problems. Inspired by this, we propose a novel end-to-end DRL framework, ToupleGDD, to address the IM problem in this paper, which incorporates three coupled graph neural networks for network embedding and double deep Q-networks for parameters learning. Previous efforts to solve the IM problem with DRL trained their models on the subgraph of the whole network, and then tested their performance on the whole graph, which makes the performance of their models unstable among different networks. However, our model is trained on several small randomly generated graphs and tested on completely different networks, and can obtain results that are very close to the state-of-the-art methods. In addition, our model is trained with a small budget, and it can perform well under various large budgets in the test, showing strong generalization ability. Finally, we conduct entensive experiments on synthetic and realistic datasets, and the experimental results prove the effectiveness and superiority of our model.
翻訳日:2022-10-19 10:50:01 公開日:2022-10-18
# 歌声ニューラルボーコーダの階層的拡散モデル

Hierarchical Diffusion Models for Singing Voice Neural Vocoder ( http://arxiv.org/abs/2210.07508v2 )

ライセンス: Link先を確認
Naoya Takahashi, Mayank Kumar, Singh, Yuki Mitsufuji(参考訳) 最近の深層生成モデルの進歩により、音声領域におけるニューラルボコーダの品質が向上した。 しかし、ピッチ、ラウドネス、発音の表現が多種多様であるため、高品質な歌声の生成は依然として困難である。 本研究では,音声ニューラルボコーダの歌唱における階層的拡散モデルを提案する。 提案手法は, 異なるサンプリングレートで動作する複数の拡散モデルで構成され, 最低サンプリングレートのモデルでは, ピッチなどの正確な低周波成分の生成に重点を置いており, サンプルレートの低いデータと音響特性に基づいて, より高いサンプリングレートで波形を段階的に生成する。 実験結果から,提案手法は複数の歌手に対して高品質な歌唱音声を生成でき,計算コストも同等である。

Recent progress in deep generative models has improved the quality of neural vocoders in speech domain. However, generating a high-quality singing voice remains challenging due to a wider variety of musical expressions in pitch, loudness, and pronunciations. In this work, we propose a hierarchical diffusion model for singing voice neural vocoders. The proposed method consists of multiple diffusion models operating in different sampling rates; the model at the lowest sampling rate focuses on generating accurate low-frequency components such as pitch, and other models progressively generate the waveform at higher sampling rates on the basis of the data at the lower sampling rate and acoustic features. Experimental results show that the proposed method produces high-quality singing voices for multiple singers, outperforming state-of-the-art neural vocoders with a similar range of computational costs.
翻訳日:2022-10-19 10:49:32 公開日:2022-10-18
# 機械学習アルゴリズムを用いた関節リウマチ患者の薬物効果予測

Prediction of drug effectiveness in rheumatoid arthritis patients based on machine learning algorithms ( http://arxiv.org/abs/2210.08016v2 )

ライセンス: Link先を確認
Shengjia Chen, Nikunj Gupta, Woodward B. Galbraith, Valay Shah, Jacopo Cirrone(参考訳) 関節リウマチ(ra)は、患者の免疫系が誤って自身の組織を標的にした場合に生じる自己免疫疾患である。 機械学習(ML)は、患者の電子健康記録(EHR)のパターンを識別し、患者の結果を改善する最良の臨床治療を予測する可能性がある。 本研究は2つの主な目標を持つ薬物応答予測(drp)フレームワークを導入した。 1)表型臨床データから情報を抽出するデータ処理パイプラインを設計し、機能的使用のために前処理し、 2)RA患者の薬物に対する反応を予測し,分類モデルの性能を評価する。 そこで本研究では,欧州関節リウマチ学会(Eular)基準に基づく新たな2段階MLフレームワークを提案し,その有効性をモデル化する。 425例のRA患者から得られたデータを用いて,本モデルを開発した。 評価には、同じデータソースから124人の患者(30%)のサブセットを使用した。 テストセットの評価において、二段階のDRPは二項分類のための他のエンドツーエンドの分類モデルよりも分類精度が向上する。 提案手法は, 抗TNF治療に反応しない群を同定し, EHR情報に基づく臨床診断を支援するための完全なパイプラインを提供する。

Rheumatoid arthritis (RA) is an autoimmune condition caused when patients' immune system mistakenly targets their own tissue. Machine learning (ML) has the potential to identify patterns in patient electronic health records (EHR) to forecast the best clinical treatment to improve patient outcomes. This study introduced a Drug Response Prediction (DRP) framework with two main goals: 1) design a data processing pipeline to extract information from tabular clinical data, and then preprocess it for functional use, and 2) predict RA patient's responses to drugs and evaluate classification models' performance. We propose a novel two-stage ML framework based on European Alliance of Associations for Rheumatology (EULAR) criteria cutoffs to model drug effectiveness. Our model Stacked-Ensemble DRP was developed and cross-validated using data from 425 RA patients. The evaluation used a subset of 124 patients (30%) from the same data source. In the evaluation of the test set, two-stage DRP leads to improved classification accuracy over other end-to-end classification models for binary classification. Our proposed method provides a complete pipeline to predict disease activity scores and identify the group that does not respond well to anti-TNF treatments, thus showing promise in supporting clinical decisions based on EHR information.
翻訳日:2022-10-19 10:49:16 公開日:2022-10-18
# 離散ランダム性を持つプログラムの自動微分

Automatic Differentiation of Programs with Discrete Randomness ( http://arxiv.org/abs/2210.08572v2 )

ライセンス: Link先を確認
Gaurav Arya, Moritz Schauer, Frank Sch\"afer, Chris Rackauckas(参考訳) 従来のプログラムの微分を演算する新しいプログラムを構築する技術である自動微分 (AD) は、勾配に基づく最適化によって得られる性能の向上により、科学計算やディープラーニングを通じて広く普及している。 しかし、ADシステムはパラメータに連続的な依存を持つプログラムのサブセットに制限されている。 確率$p$の確率でコインを反転させるような分布パラメータによって制御される離散確率的挙動を持つプログラムは、結果(頭と尾)とパラメータ(p$)の接続が根本的に離散的であるため、これらのシステムに挑戦する。 本稿では,本プログラムの期待値の導出となるプログラムを生成するための,新しい再パラメータ化に基づく手法を提案する。 本稿では,この手法が従来のAD機構と同じくらい自動化された非バイアス・低分散推定器を実現する方法を紹介する。 離散時間マルコフ連鎖の偏りのない前方モードad,conwayのgame of lifeのようなエージェントベースのモデル,粒子フィルタの偏りのない逆モードadを示す。 私たちのコードはhttps://github.com/gaurav-arya/stochasticad.jlで入手できる。

Automatic differentiation (AD), a technique for constructing new programs which compute the derivative of an original program, has become ubiquitous throughout scientific computing and deep learning due to the improved performance afforded by gradient-based optimization. However, AD systems have been restricted to the subset of programs that have a continuous dependence on parameters. Programs that have discrete stochastic behaviors governed by distribution parameters, such as flipping a coin with probability $p$ of being heads, pose a challenge to these systems because the connection between the result (heads vs tails) and the parameters ($p$) is fundamentally discrete. In this paper we develop a new reparameterization-based methodology that allows for generating programs whose expectation is the derivative of the expectation of the original program. We showcase how this method gives an unbiased and low-variance estimator which is as automated as traditional AD mechanisms. We demonstrate unbiased forward-mode AD of discrete-time Markov chains, agent-based models such as Conway's Game of Life, and unbiased reverse-mode AD of a particle filter. Our code is available at https://github.com/gaurav-arya/StochasticAD.jl.
翻訳日:2022-10-19 10:48:59 公開日:2022-10-18
# ジョイント多言語知識グラフの完成とアライメント

Joint Multilingual Knowledge Graph Completion and Alignment ( http://arxiv.org/abs/2210.08922v2 )

ライセンス: Link先を確認
Vinh Tong, Dat Quoc Nguyen, Trung Thanh Huynh, Tam Thanh Nguyen, Quoc Viet Hung Nguyen and Mathias Niepert(参考訳) 知識グラフ(KG)のアライメントと完了は通常、2つの独立したタスクとして扱われる。 最近の研究は、多言語KGと共通の実体と関係のアライメントのような複数のKGからの実体と関係のアライメントを活用しているが、多言語KGコンプリート(MKGC)が多言語KGアライメント(MKGA)の作成を支援する方法の深い理解はまだ限られている。 構造的不整合(MKGAモデルの主な課題)がKG完備化手法によって緩和されるという観測により,我々は知識グラフの連立完備化と整合化のための新しいモデルを提案する。 提案モデルでは,KGの完成とアライメントを共同で達成する2つのコンポーネントを組み合わせる。 これら2つのコンポーネントは,マルチホップ近傍構造を実体と関係表現にエンコードする関係対応グラフニューラルネットワークを用いている。 また,提案する。 (i)完成からの情報をアライメント成分に組み込む構造的不整合低減機構、 (ii)アライメント種子の伸長及び三重移動機構により、kgsアライメント中にアライメント種子と三重項を伸長する。 公開多言語ベンチマークを用いた大規模実験により,提案モデルが既存の競合ベースラインを上回り,mkgcとmkgaのタスクで新たな最先端結果を得た。 私たちはこのモデルの実装をhttps://github.com/vinhsuhi/jmacで公開しています。

Knowledge graph (KG) alignment and completion are usually treated as two independent tasks. While recent work has leveraged entity and relation alignments from multiple KGs, such as alignments between multilingual KGs with common entities and relations, a deeper understanding of the ways in which multilingual KG completion (MKGC) can aid the creation of multilingual KG alignments (MKGA) is still limited. Motivated by the observation that structural inconsistencies -- the main challenge for MKGA models -- can be mitigated through KG completion methods, we propose a novel model for jointly completing and aligning knowledge graphs. The proposed model combines two components that jointly accomplish KG completion and alignment. These two components employ relation-aware graph neural networks that we propose to encode multi-hop neighborhood structures into entity and relation representations. Moreover, we also propose (i) a structural inconsistency reduction mechanism to incorporate information from the completion into the alignment component, and (ii) an alignment seed enlargement and triple transferring mechanism to enlarge alignment seeds and transfer triples during KGs alignment. Extensive experiments on a public multilingual benchmark show that our proposed model outperforms existing competitive baselines, obtaining new state-of-the-art results on both MKGC and MKGA tasks. We publicly release the implementation of our model at https://github.com/vinhsuhi/JMAC
翻訳日:2022-10-19 10:46:09 公開日:2022-10-18
# PointNeuron: 幾何学と点雲のトポロジー学習による3次元ニューロン再構成

PointNeuron: 3D Neuron Reconstruction via Geometry and Topology Learning of Point Clouds ( http://arxiv.org/abs/2210.08305v2 )

ライセンス: Link先を確認
Runkai Zhao, Heng Wang, Chaoyi Zhang, Weidong Cai(参考訳) 3次元顕微鏡画像からのデジタルニューロン再構築は、脳のコネクトロミクスとニューロン形態の研究に欠かせない技術である。 既存の再構成フレームワークでは、トレーシングアルゴリズムを適用する前に、畳み込みベースのセグメンテーションネットワークを使用して、ノイズの多い背景からニューロンを分割する。 追跡結果は、原画像の品質とセグメンテーション精度に敏感である。 本稿では,3次元ニューロン再構成のための新しい枠組みを提案する。 私たちの重要なアイデアは、点雲の幾何学的表現力を使って、ニューロンの内部構造情報をより深く探求することです。 提案するフレームワークでは,1つのグラフ畳み込みネットワークを用いてニューラルスケルトン点を予測し,もう1つはこれらの点の接続性を生成する。 予測点座標,半径,接続の解釈により,最終的にターゲットSWCファイルを生成する。 bigneuronプロジェクトからjanelia-flyデータセットで評価した結果,本フレームワークが競合ニューロンの再構成性能を発揮できることが確認された。 ポイントクラウドの幾何およびトポロジー学習は,心臓表面再構成などの3次元医用画像解析にさらに有用である。 私たちのコードはhttps://github.com/RunkaiZhao/PointNeuron.comで利用可能です。

Digital neuron reconstruction from 3D microscopy images is an essential technique for investigating brain connectomics and neuron morphology. Existing reconstruction frameworks use convolution-based segmentation networks to partition the neuron from noisy backgrounds before applying the tracing algorithm. The tracing results are sensitive to the raw image quality and segmentation accuracy. In this paper, we propose a novel framework for 3D neuron reconstruction. Our key idea is to use the geometric representation power of the point cloud to better explore the intrinsic structural information of neurons. Our proposed framework adopts one graph convolutional network to predict the neural skeleton points and another one to produce the connectivity of these points. We finally generate the target SWC file through the interpretation of the predicted point coordinates, radius, and connections. Evaluated on the Janelia-Fly dataset from the BigNeuron project, we show that our framework achieves competitive neuron reconstruction performance. Our geometry and topology learning of point clouds could further benefit 3D medical image analysis, such as cardiac surface reconstruction. Our code is available at https://github.com/RunkaiZhao/PointNeuron.
翻訳日:2022-10-19 10:45:43 公開日:2022-10-18
# 10ビットのビデオ: 効率とプライバシーのためのビデオQA

Video in 10 Bits: Few-Bit VideoQA for Efficiency and Privacy ( http://arxiv.org/abs/2210.08391v2 )

ライセンス: Link先を確認
Shiyuan Huang, Robinson Piramuthu, Shih-Fu Chang, Gunnar A. Sigurdsson(参考訳) Video Question Answering (VideoQA)では、ビデオに関する一般的な質問に答えるには、その視覚的情報が必要である。 しかし、ビデオQAタスクとは関係なく、ビデオには冗長な情報が含まれることが多い。 例えば、タスクが"ビデオの中で誰かが笑っているか"のような質問に答えるだけなら、他のすべての情報は破棄できる。 本稿では,ビデオ情報の少ないビット(例えば10ビット)でビデオqaを実現することを目的とした,新たな数ビットビデオqa問題を導入することで,ビデオqaを行うために必要なビット数について検討する。 この問題を解決するために,タスク固有の特徴圧縮手法を提案する。 具体的には、タスク固有の小さな機能を10ビット以内で抽出することを学ぶビデオQAモデルにFeatComp(FeatComp)を挿入し、ある種の疑問に答えるのに最適である。 我々はMPEG4エンコードされたビデオよりも10,000倍以上のストレージ効率と,通常の浮動小数点関数よりも1,000倍のストレージ効率を実証した。 最後に、学習した小さな特徴を解析し、タスク固有の情報の大半を排除できることを実証し、どのような情報が保存されているかを視覚化するビットアクティベーションマップを導入する。 これにより、マシンラーニングコミュニティに影響を与える可能性のある機能インバージョン技術に対して、k匿名性と堅牢性を提供することによって、データのプライバシリスクが低減される。

In Video Question Answering (VideoQA), answering general questions about a video requires its visual information. Yet, video often contains redundant information irrelevant to the VideoQA task. For example, if the task is only to answer questions similar to "Is someone laughing in the video?", then all other information can be discarded. This paper investigates how many bits are really needed from the video in order to do VideoQA by introducing a novel Few-Bit VideoQA problem, where the goal is to accomplish VideoQA with few bits of video information (e.g., 10 bits). We propose a simple yet effective task-specific feature compression approach to solve this problem. Specifically, we insert a lightweight Feature Compression Module (FeatComp) into a VideoQA model which learns to extract task-specific tiny features as little as 10 bits, which are optimal for answering certain types of questions. We demonstrate more than 100,000-fold storage efficiency over MPEG4-encoded videos and 1,000-fold over regular floating point features, with just 2.0-6.6% absolute loss in accuracy, which is a surprising and novel finding. Finally, we analyze what the learned tiny features capture and demonstrate that they have eliminated most of the non-task-specific information, and introduce a Bit Activation Map to visualize what information is being stored. This decreases the privacy risk of data by providing k-anonymity and robustness to feature-inversion techniques, which can influence the machine learning community, allowing us to store data with privacy guarantees while still performing the task effectively.
翻訳日:2022-10-19 10:45:25 公開日:2022-10-18
# カメラインクリメンタルな人物認識のための共同塑性学習

Joint Plasticity Learning for Camera Incremental Person Re-Identification ( http://arxiv.org/abs/2210.08710v2 )

ライセンス: Link先を確認
Zexian Yang, Dayan Wu, Bo Li, Weiping Wang(参考訳) 近年,個人再識別のための漸進的学習が注目されている。 しかし、既存の研究は、カメラが固定され、新しいデータが以前のクラスからクラス非結合であると強く仮定している。 本稿では,CIP-ReID(Camera Incremental person ReID)という,より実践的なタスクに焦点をあてる。 CIP-ReIDは、新たにインストールされたカメラのデータのみから学習したものを忘れずに、情報表現を継続的に学習するReIDモデルを必要とする。 新しいデータは、プライバシー問題のために古いデータにアクセスせずに、新しいカメラでローカルに監視されるだけであり、以前のカメラで見られた人物も含む可能性があるため、これは難しい。 この問題に対処するため,JPL-ReIDという非例ベースのフレームワークを提案する。 JPL-ReIDは、先代のカメラで提示された人物を見つけるために、最初は単発の検出器を採用している。 学習表現を維持するため、jpl-reidは以前のトレーニングデータがない類似性蒸留戦略を利用する。 同時に、JPL-ReIDは、新しい知識を学習し、共同塑性学習目標を用いて一般化能力を向上させることができる。 2つのデータセットを総合的に実験した結果,提案手法は比較手法を著しく上回っており,優れた結果が得られることがわかった。

Recently, incremental learning for person re-identification receives increasing attention, which is considered a more practical setting in real-world applications. However, the existing works make the strong assumption that the cameras are fixed and the new-emerging data is class-disjoint from previous classes. In this paper, we focus on a new and more practical task, namely Camera Incremental person ReID (CIP-ReID). CIP-ReID requires ReID models to continuously learn informative representations without forgetting the previously learned ones only through the data from newly installed cameras. This is challenging as the new data only have local supervision in new cameras with no access to the old data due to privacy issues, and they may also contain persons seen by previous cameras. To address this problem, we propose a non-exemplar-based framework, named JPL-ReID. JPL-ReID first adopts a one-vs-all detector to discover persons who have been presented in previous cameras. To maintain learned representations, JPL-ReID utilizes a similarity distillation strategy with no previous training data available. Simultaneously, JPL-ReID is capable of learning new knowledge to improve the generalization ability using a Joint Plasticity Learning objective. The comprehensive experimental results on two datasets demonstrate that our proposed method significantly outperforms the comparative methods and can achieve state-of-the-art results with remarkable advantages.
翻訳日:2022-10-19 10:44:57 公開日:2022-10-18
# EISeg:PaddlePaddleをベースとした効率的なインタラクティブセグメンテーションツール

EISeg: An Efficient Interactive Segmentation Tool based on PaddlePaddle ( http://arxiv.org/abs/2210.08788v2 )

ライセンス: Link先を確認
Yuying Hao and Yi Liu and Yizhou Chen and Lin Han and Juncai Peng and Shiyu Tang and Guowei Chen and Zewu Wu and Zeyu Chen and Baohua Lai(参考訳) 近年、ディープラーニングの急速な発展により、ニューラルネットワークに基づく画像とビデオのセグメンテーション手法が大きな進歩を遂げている。 しかし,このようなモデルの可能性を最大限に発揮するためには,高品質な注釈画像が必要となる。 現在、多くのオープンソースイメージセグメンテーションソフトウェアは、退屈で時間がかかる手動アノテーションに大きく依存している。 本稿では,画像分割アノテーションの効率を劇的に向上し,数クリックで高精度なセグメント化マスクを生成できる,効率的な対話型セグメント化アノテーションツールeisegを紹介する。 また,遠隔センシング,医用画像,産業品質検査,人間のセグメンテーション,映像セグメンテーションのための時間的認識モデルなど,様々なドメイン固有モデルを提供する。 アルゴリズムとユーザインターフェースのソースコードは、https://github.com/PaddlePaddle/PaddleSeg.com/。

In recent years, the rapid development of deep learning has brought great advancements to image and video segmentation methods based on neural networks. However, to unleash the full potential of such models, large numbers of high-quality annotated images are necessary for model training. Currently, many widely used open-source image segmentation software relies heavily on manual annotation which is tedious and time-consuming. In this work, we introduce EISeg, an Efficient Interactive SEGmentation annotation tool that can drastically improve image segmentation annotation efficiency, generating highly accurate segmentation masks with only a few clicks. We also provide various domain-specific models for remote sensing, medical imaging, industrial quality inspections, human segmentation, and temporal aware models for video segmentation. The source code for our algorithm and user interface are available at: https://github.com/PaddlePaddle/PaddleSeg.
翻訳日:2022-10-19 10:44:34 公開日:2022-10-18
# HyperDomainNet: 生成逆ネットワークのためのユニバーサルドメイン適応

HyperDomainNet: Universal Domain Adaptation for Generative Adversarial Networks ( http://arxiv.org/abs/2210.08884v2 )

ライセンス: Link先を確認
Aibek Alanov, Vadim Titov, Dmitry Vetrov(参考訳) GANのドメイン適応フレームワークは、非常に限られたトレーニングデータにおいて、現代GANのトレーニングを成功させる主要なアプローチとして、近年大きな進歩を遂げている。 本研究では,生成器を微調整するための非常にコンパクトなパラメータ空間を提案することにより,この枠組みを著しく改善する。 対象領域に適応するために,3000万重量のstylegan2の代わりに6万次元ベクトルのみを最適化する新しいドメイン変調手法を提案する。 このパラメータ化を最先端のドメイン適応法に適用し,全パラメータ空間とほぼ同一の表現性を示す。 さらに, 微調整発電機の多様性を著しく向上させる新しい正規化損失を提案する。 最適化パラメータ空間の大きさの縮小に触発されて、ganのマルチドメイン適応の問題、すなわち、同じモデルが入力クエリに応じて複数のドメインに適応できる場合の設定について検討する。 我々は,対象領域に対してパラメータ化を予測するハイパーネットワークであるhyperdomainnetを提案する。 実験により、複数のドメインを一度に学習し、未知のドメインにも一般化できることを確認した。 ソースコードはhttps://github.com/MACderRu/HyperDomainNetで確認できる。

Domain adaptation framework of GANs has achieved great progress in recent years as a main successful approach of training contemporary GANs in the case of very limited training data. In this work, we significantly improve this framework by proposing an extremely compact parameter space for fine-tuning the generator. We introduce a novel domain-modulation technique that allows to optimize only 6 thousand-dimensional vector instead of 30 million weights of StyleGAN2 to adapt to a target domain. We apply this parameterization to the state-of-art domain adaptation methods and show that it has almost the same expressiveness as the full parameter space. Additionally, we propose a new regularization loss that considerably enhances the diversity of the fine-tuned generator. Inspired by the reduction in the size of the optimizing parameter space we consider the problem of multi-domain adaptation of GANs, i.e. setting when the same model can adapt to several domains depending on the input query. We propose the HyperDomainNet that is a hypernetwork that predicts our parameterization given the target domain. We empirically confirm that it can successfully learn a number of domains at once and may even generalize to unseen domains. Source code can be found at https://github.com/MACderRu/HyperDomainNet
翻訳日:2022-10-19 10:44:21 公開日:2022-10-18
# ニューラルネットワーク学習のためのデータ効率向上

Data-Efficient Augmentation for Training Neural Networks ( http://arxiv.org/abs/2210.08363v2 )

ライセンス: Link先を確認
Tian Yu Liu and Baharan Mirzasoleiman(参考訳) データ拡張は、多くのディープラーニングアプリケーションで最先端のパフォーマンスを達成するために不可欠である。 しかし、最も効果的な拡張技術は、中規模のデータセットでも計算的に禁止される。 そこで本研究では,拡張されたデータポイントのサブセットを選択するための厳密な手法を提案する。 まず,加法摂動としてモデル化されたデータ拡張は,ネットワークジャコビアンのより小さな特異値を相対的に拡大・摂動することで学習と一般化を改善し,その顕著な方向を維持していることを示す。 これにより、過剰フィッティングが防止され、情報を学ぶのが難しくなる。 そこで本研究では,学習データの小さな部分集合を反復的に抽出するフレームワークを提案する。 本手法により得られた拡張部分集合に対する確率勾配勾配は、完全に拡張されたデータと同様のトレーニングダイナミクスを持つことを示す。 実験により, CIFAR10では6.3倍, SVHNでは2.2倍の高速化を実現し, 各種サブセットサイズでベースラインを最大10%上回る性能を示した。 同様に、TinyImageNetとImageNetでは、ベースラインを最大8%上回り、様々なサブセットサイズで最大3.3倍のスピードアップを実現しています。 最後に、我々のCIFAR10のバージョンで、50%のサブセットのトレーニングと強化を行い、完全なデータセットを使用してラベルノイズがさらに優れていた。

Data augmentation is essential to achieve state-of-the-art performance in many deep learning applications. However, the most effective augmentation techniques become computationally prohibitive for even medium-sized datasets. To address this, we propose a rigorous technique to select subsets of data points that when augmented, closely capture the training dynamics of full data augmentation. We first show that data augmentation, modeled as additive perturbations, improves learning and generalization by relatively enlarging and perturbing the smaller singular values of the network Jacobian, while preserving its prominent directions. This prevents overfitting and enhances learning the harder to learn information. Then, we propose a framework to iteratively extract small subsets of training data that when augmented, closely capture the alignment of the fully augmented Jacobian with labels/residuals. We prove that stochastic gradient descent applied to the augmented subsets found by our approach has similar training dynamics to that of fully augmented data. Our experiments demonstrate that our method achieves 6.3x speedup on CIFAR10 and 2.2x speedup on SVHN, and outperforms the baselines by up to 10% across various subset sizes. Similarly, on TinyImageNet and ImageNet, our method beats the baselines by up to 8%, while achieving up to 3.3x speedup across various subset sizes. Finally, training on and augmenting 50% subsets using our method on a version of CIFAR10 corrupted with label noise even outperforms using the full dataset.
翻訳日:2022-10-19 10:44:00 公開日:2022-10-18
# NOCaL:オドメトリーとカメライントロニクスの校正自由半教師付き学習

NOCaL: Calibration-Free Semi-Supervised Learning of Odometry and Camera Intrinsics ( http://arxiv.org/abs/2210.07435v2 )

ライセンス: Link先を確認
Ryan Griffiths, Jack Naylor, Donald G. Dansereau(参考訳) ロボティクスに利益をもたらすような、数多くの新しいイメージング技術があります。 しかし、モデルやキャリブレーション、低レベルの処理の必要性は、採用にとって重要な障壁となっている。 本研究は,従来見られなかったカメラをキャリブレーションなしで解釈できる半教師あり学習アーキテクチャである光場を用いたNOCaL,ニューラルオドメトリー,校正について述べる。 NOCaLはカメラパラメータ、相対的なポーズ、シーンの外観を推定する。 既存の多数のカメラやシーンで事前トレーニングされたシーンレンダリングハイパーネットワークを採用しており、小規模の教師付きトレーニングセットを使用して、未公開のカメラに適応してメトリクススケールを強制する。 従来のカメラを用いて,NOCaLを描画・撮像し,キャリブレーションのないオドメトリーと新しいビュー合成を示す。 この研究は、一般的なカメラジオメトリと新興イメージング技術の解釈を自動化するための重要なステップである。

There are a multitude of emerging imaging technologies that could benefit robotics. However the need for bespoke models, calibration and low-level processing represents a key barrier to their adoption. In this work we present NOCaL, Neural odometry and Calibration using Light fields, a semi-supervised learning architecture capable of interpreting previously unseen cameras without calibration. NOCaL learns to estimate camera parameters, relative pose, and scene appearance. It employs a scene-rendering hypernetwork pretrained on a large number of existing cameras and scenes, and adapts to previously unseen cameras using a small supervised training set to enforce metric scale. We demonstrate NOCaL on rendered and captured imagery using conventional cameras, demonstrating calibration-free odometry and novel view synthesis. This work represents a key step toward automating the interpretation of general camera geometries and emerging imaging technologies.
翻訳日:2022-10-19 10:43:36 公開日:2022-10-18
# エッジデバイスにおける超軽量映像情報のためのデータモデルサーキットトライデザイン

Data-Model-Circuit Tri-Design for Ultra-Light Video Intelligence on Edge Devices ( http://arxiv.org/abs/2210.08578v2 )

ライセンス: Link先を確認
Yimeng Zhang, Akshay Karkal Kamath, Qiucheng Wu, Zhiwen Fan, Wuyang Chen, Zhangyang Wang, Shiyu Chang, Sijia Liu, Cong Hao(参考訳) 本稿では,HDビデオストリーム上での高スループット,低コスト,高精度なマルチオブジェクト追跡(MOT)のためのデータモデル・ハードウエアトリデザインフレームワークを提案する。 まず,超軽量な映像インテリジェンスを実現するために,大規模な映像データの複雑さを軽減するために,時間的フレームフィルタリングと空間的サリエンシ強調手法を提案する。 第2に,ハードウェアフレンドリーなモデル圧縮手法を設計するために,構造認識重みのスパーシティを利用する。 第3に,データとモデルの複雑性低減を支援することで,高エネルギー効率でリアルタイム性能を実現することを目的とした,スパーシティ認識,スケーラブル,低消費電力アクセラレーション設計を提案する。 既存の作業とは違って、現実のmotモデル実装のためのソフトウェア/ハードウェアの協調最適化に向けてしっかりとした一歩を踏み出します。 現状のMOTベースラインと比較して、我々の三設計アプローチは12.5倍の遅延低減、20.9倍のフレームレート改善、5.83倍の低消費電力、9.78倍のエネルギー効率を実現でき、精度は低下しない。

In this paper, we propose a data-model-hardware tri-design framework for high-throughput, low-cost, and high-accuracy multi-object tracking (MOT) on High-Definition (HD) video stream. First, to enable ultra-light video intelligence, we propose temporal frame-filtering and spatial saliency-focusing approaches to reduce the complexity of massive video data. Second, we exploit structure-aware weight sparsity to design a hardware-friendly model compression method. Third, assisted with data and model complexity reduction, we propose a sparsity-aware, scalable, and low-power accelerator design, aiming to deliver real-time performance with high energy efficiency. Different from existing works, we make a solid step towards the synergized software/hardware co-optimization for realistic MOT model implementation. Compared to the state-of-the-art MOT baseline, our tri-design approach can achieve 12.5x latency reduction, 20.9x effective frame rate improvement, 5.83x lower power, and 9.78x better energy efficiency, without much accuracy drop.
翻訳日:2022-10-19 10:43:19 公開日:2022-10-18
# ペデストリアンの協調知覚の安全性評価のための高忠実度シミュレーションフレームワーク

A High Fidelity Simulation Framework for Potential Safety Benefits Estimation of Cooperative Pedestrian Perception ( http://arxiv.org/abs/2210.08731v2 )

ライセンス: Link先を確認
Longrui Chen, Yan Zhang, Wenjie Jiang, Jiangtao Gong, Jiahao Shen, Mengdi Chu, Chuxuan Li, Yifeng Pan, Yifeng Shi, Nairui Luo, Xu Gao, Jirui Yuan, Guyue Zhou, Yaqin Zhang(参考訳) 本稿では,車両対インフラ(v2i)歩行者安全戦略の潜在的安全性を推定する高忠実度シミュレーションフレームワークを提案する。 本シミュレータは、環境条件、交通条件、歩行者特性を同時にシミュレーションすることにより、ループ内の協調認識アルゴリズムをサポートすることができる。 また,本フレームワークに適用したベネフィット推定モデルでは,リスクコンフリクト(非クラッシュ状態)と歩行者の重症度(クラッシュ状態)の両方を体系的に定量化することができる。 この論文では、中国の混雑した都市交差点のデジタル双生児を製作する実験を行った。 その結果,v2i歩行者安全戦略の安全性評価に有効であることがわかった。

This paper proposes a high-fidelity simulation framework that can estimate the potential safety benefits of vehicle-to-infrastructure (V2I) pedestrian safety strategies. This simulator can support cooperative perception algorithms in the loop by simulating the environmental conditions, traffic conditions, and pedestrian characteristics at the same time. Besides, the benefit estimation model applied in our framework can systematically quantify both the risk conflict (non-crash condition) and the severity of the pedestrian's injuries (crash condition). An experiment was conducted in this paper that built a digital twin of a crowded urban intersection in China. The result shows that our framework is efficient for safety benefit estimation of V2I pedestrian safety strategies.
翻訳日:2022-10-19 10:42:58 公開日:2022-10-18
# 産業異常検出のための非対称学生教師ネットワーク

Asymmetric Student-Teacher Networks for Industrial Anomaly Detection ( http://arxiv.org/abs/2210.07829v2 )

ライセンス: Link先を確認
Marco Rudolph, Tom Wehrbein, Bodo Rosenhahn, Bastian Wandt(参考訳) 工業的欠陥検出は一般に異常検出(ad)法で対処され、異常発生の可能性に関する不完全なデータが得られない。 この研究は、ADに対する学生-教師のアプローチの既知の問題を発見し、欠陥のないトレーニング例で同じ出力を生成するために、2つのニューラルネットワークをトレーニングするソリューションを提案する。 学生-教師ネットワークの中核的な仮定は、トレーニングに欠席しているため、両方のネットワークの出力間の距離が異常に対して大きいことである。 しかし, 従来の手法では, 生徒と教師のアーキテクチャの類似性に悩まされ, 異常な距離が望ましくないほど小さい。 そこで本稿では,非対称な学生教師ネットワーク(AST)を提案する。 我々は,教師としての密度推定のための正規化フローと,学生としての従来のフィードフォワードネットワークを訓練して,異常の広い距離をトリガーする:正規化フローの単射性は,異常データに対する教師出力のばらつきを強制する。 トレーニングディストリビューション以外では、学生は根本的に異なるアーキテクチャのため、この相違を模倣することはできない。 我々のASTネットワークは,従来の研究で異常検出に用いた正規化流による誤推定確率を補正する。 rgbおよび3dデータにおける画像レベルの異常検出に関して,mvtec adとmvtec 3d-adの2つの関連する欠陥検出データセットについて,最新の結果が得られた。

Industrial defect detection is commonly addressed with anomaly detection (AD) methods where no or only incomplete data of potentially occurring defects is available. This work discovers previously unknown problems of student-teacher approaches for AD and proposes a solution, where two neural networks are trained to produce the same output for the defect-free training examples. The core assumption of student-teacher networks is that the distance between the outputs of both networks is larger for anomalies since they are absent in training. However, previous methods suffer from the similarity of student and teacher architecture, such that the distance is undesirably small for anomalies. For this reason, we propose asymmetric student-teacher networks (AST). We train a normalizing flow for density estimation as a teacher and a conventional feed-forward network as a student to trigger large distances for anomalies: The bijectivity of the normalizing flow enforces a divergence of teacher outputs for anomalies compared to normal data. Outside the training distribution the student cannot imitate this divergence due to its fundamentally different architecture. Our AST network compensates for wrongly estimated likelihoods by a normalizing flow, which was alternatively used for anomaly detection in previous work. We show that our method produces state-of-the-art results on the two currently most relevant defect detection datasets MVTec AD and MVTec 3D-AD regarding image-level anomaly detection on RGB and 3D data.
翻訳日:2022-10-19 10:37:02 公開日:2022-10-18
# 強化多ドメイン対話システムのためのGPTアーキテクチャとゴール状態追跡を用いた生成ユーザシミュレータ

A Generative User Simulator with GPT-based Architecture and Goal State Tracking for Reinforced Multi-Domain Dialog Systems ( http://arxiv.org/abs/2210.08692v2 )

ライセンス: Link先を確認
Hong Liu, Yucheng Cai, Zhijian Ou, Yi Huang, Junlan Feng(参考訳) タスク指向対話システム(DS)の強化学習(RL)のためのユーザシミュレータ(US)の構築がますます注目されてきているが、それでもいくつかの根本的な課題に直面している。 まず、事前訓練された言語モデルを用いて、例えばGPT-2ベースのUSを設計し、最近進歩したGPT-2ベースのDSに追いつき、相互作用できるかどうかは不明である。 第2に、米国における重要な要素は、ユーザ目標を効果的に組み込んで追跡できることであるが、目標状態の追跡を柔軟に統合し、マルチドメインのためのエンドツーエンドのトレーニング可能なUSを開発する方法は、依然として課題である。 本稿では,GPT-2をベースとした汎用ユーザシミュレータ(GUS)と,上記の2つの課題に対処するための目標状態追跡を提案する。 multiwoz2.1に関する広範な実験が行われた。 従来のアジェンダベースユーザシミュレータ (ABUS) と他のアブレーションシミュレータ (ABUS) を用いて, RL を用いて異なるDSを訓練し, クロスモデル評価, コーパスベース評価, 人的評価を行う。 GUSは3つの評価課題すべてにおいて優れた結果を得る。

Building user simulators (USs) for reinforcement learning (RL) of task-oriented dialog systems (DSs) has gained more and more attention, which, however, still faces several fundamental challenges. First, it is unclear whether we can leverage pretrained language models to design, for example, GPT-2 based USs, to catch up and interact with the recently advanced GPT-2 based DSs. Second, an important ingredient in a US is that the user goal can be effectively incorporated and tracked; but how to flexibly integrate goal state tracking and develop an end-to-end trainable US for multi-domains has remained to be a challenge. In this work, we propose a generative user simulator (GUS) with GPT-2 based architecture and goal state tracking towards addressing the above two challenges. Extensive experiments are conducted on MultiWOZ2.1. Different DSs are trained via RL with GUS, the classic agenda-based user simulator (ABUS) and other ablation simulators respectively, and are compared for cross-model evaluation, corpus-based evaluation and human evaluation. The GUS achieves superior results in all three evaluation tasks.
翻訳日:2022-10-19 10:36:36 公開日:2022-10-18
# 多様体の観点から見た可換性と絡み合い

Commutativity and Disentanglement from the Manifold Perspective ( http://arxiv.org/abs/2210.07857v2 )

ライセンス: Link先を確認
Frank Qiu(参考訳) 本稿では, 多様体の観点からの非絡合を解釈し, 自然にそれが不絡合に必要かつ十分な条件を導出する方法を追究する。 その過程で, 生成モデルの圧縮・解離に技術的結果がどう影響するかを示すとともに, 可換性の実践的および理論的意義についても論じる。 最後に, 不等角化に対する関連するアプローチと, 多様体的観点からの不等角化に対する我々の見解との関係について考察した。

In this paper, we interpret disentanglement from the manifold perspective and trace how it naturally leads to a necessary and sufficient condition for disentanglement: the disentangled factors must commute with each other. Along the way, we show how some technical results have consequences for the compression and disentanglement of generative models, and we also discuss the practical and theoretical implications of commutativity. Finally, we conclude with a discussion of related approaches to disentanglement and how they relate to our view of disentanglement from the manifold perspective.
翻訳日:2022-10-19 10:36:14 公開日:2022-10-18
# 視覚変換器の可視化:ニューロンが何を伝え、どのようにニューロンが働くか

Vision Transformer Visualization: What Neurons Tell and How Neurons Behave? ( http://arxiv.org/abs/2210.07646v2 )

ライセンス: Link先を確認
Van-Anh Nguyen, Khanh Pham Dinh, Long Tung Vuong, Thanh-Toan Do, Quan Hung Tran, Dinh Phung, Trung Le(参考訳) 近年,視覚トランスフォーマー (vit) がコンピュータビジョンの様々なタスクに応用されている。 しかし、なぜ働くのか、どのように振る舞うかといった重要な疑問はほとんど不明である。 本稿では,ニューロンに伝達される情報やvitの層に埋め込まれた特徴を可視化する効果的な可視化手法を提案する。 提案手法は,入力画像における局所的およびグローバル的情報の可視化と,複数のレベルでの潜在的特徴埋め込みに着目し,ViTの計算過程から逸脱する。 レベル0でのインプットと埋め込みの可視化は、ViTが画像閉塞やパッチシャッフルに対して一般的に堅牢である理由、あるいはCNNとは異なり、レベル0の埋め込みは、すでに豊富なセマンティックディテールを持っていることなど、興味深い結果を示している。 次に,有効な可視化を行うための厳密なフレームワークを開発し,vitsフィルタの効果と,オブジェクトパッチに対するグループ化/クラスタ化動作を公開する。 最後に,提案手法のメリットを質的かつ定量的に示すために,実データセットに関する総合的な実験を行った。 https://github.com/byM1902/ViT_visualization

Recently vision transformers (ViT) have been applied successfully for various tasks in computer vision. However, important questions such as why they work or how they behave still remain largely unknown. In this paper, we propose an effective visualization technique, to assist us in exposing the information carried in neurons and feature embeddings across the ViT's layers. Our approach departs from the computational process of ViTs with a focus on visualizing the local and global information in input images and the latent feature embeddings at multiple levels. Visualizations at the input and embeddings at level 0 reveal interesting findings such as providing support as to why ViTs are rather generally robust to image occlusions and patch shuffling; or unlike CNNs, level 0 embeddings already carry rich semantic details. Next, we develop a rigorous framework to perform effective visualizations across layers, exposing the effects of ViTs filters and grouping/clustering behaviors to object patches. Finally, we provide comprehensive experiments on real datasets to qualitatively and quantitatively demonstrate the merit of our proposed methods as well as our findings. https://github.com/byM1902/ViT_visualization
翻訳日:2022-10-19 10:36:04 公開日:2022-10-18
# 特徴ベースコーディネートネットワークを用いたMRIのスケール非依存的超解像

Scale-Agnostic Super-Resolution in MRI using Feature-Based Coordinate Networks ( http://arxiv.org/abs/2210.08676v2 )

ライセンス: Link先を確認
Dave Van Veen, Rogier van der Sluijs, Batu Ozturkler, Arjun Desai, Christian Bluethgen, Robert D. Boutin, Marc H. Willis, Gordon Wetzstein, David Lindell, Shreyas Vasanawala, John Pauly, Akshay S. Chaudhari(参考訳) mriにおける超解像処理に座標ネットワークデコーダを用いることを提案する。 座標ネットワークの連続信号表現は、このアプローチをスケールに依存しない、すなわち連続的なスケールをトレーニングし、任意の解像度でクエリすることができる。 本質的にノイズの多いデータに対してスーパーレゾリューションを行うのが難しいため,複数のデノイジング戦略の下でネットワークの動作解析を行う。 最後に,本手法を標準畳み込みデコーダと比較し,定量的測定と,新たに開発した医療画像のwebベース評価ツールであるvoxelで実施した放射線学的検討の両方を用いて検討した。

We propose using a coordinate network decoder for the task of super-resolution in MRI. The continuous signal representation of coordinate networks enables this approach to be scale-agnostic, i.e. one can train over a continuous range of scales and subsequently query at arbitrary resolutions. Due to the difficulty of performing super-resolution on inherently noisy data, we analyze network behavior under multiple denoising strategies. Lastly we compare this method to a standard convolutional decoder using both quantitative metrics and a radiologist study implemented in Voxel, our newly developed tool for web-based evaluation of medical images.
翻訳日:2022-10-19 10:35:44 公開日:2022-10-18
# CramNet:ロバスト3次元物体検出のための光拘束クロスアテンションを用いたカメラレーダ融合

CramNet: Camera-Radar Fusion with Ray-Constrained Cross-Attention for Robust 3D Object Detection ( http://arxiv.org/abs/2210.09267v2 )

ライセンス: Link先を確認
Jyh-Jing Hwang and Henrik Kretzschmar and Joshua Manela and Sean Rafferty and Nicholas Armstrong-Crews and Tiffany Chen and Dragomir Anguelov(参考訳) ロバストな3Dオブジェクト検出は安全な自動運転に不可欠である。 カメラとレーダーセンサーは相補的な情報を捉え、異なる環境条件下でうまく機能するため、相乗効果がある。 しかし、カメラとレーダーデータの融合は困難であり、各センサーは垂直軸に沿った情報を欠いているため、カメラの深さが不明であり、レーダーの高度が不明である。 本研究では,カメラとレーダからのセンサ読み出しを3次元空間に融合する効率的な手法として,カメラとレーダーのマッチングネットワークcranchnetを提案する。 レーダ範囲の測定をカメラ深度予測の精度向上に活用するために,カメラ特徴とレーダ特徴との幾何学的対応の曖昧さを解消する新手法を提案する。 本手法は,カメラやレーダセンサが突然車両に故障した場合でも,ロバストな3d物体検出を実現するセンサモダリティドロップアウトによるトレーニングをサポートする。 我々は,レーダー電波画像を提供する数少ない大規模データセットであるradiation datasetに関する広範囲な実験を通じて,核融合手法の有効性を実証する。 本手法は,Waymo Open Dataset上でのモノクロ3Dオブジェクト検出において,カメラのみによる競合性能を実現する。

Robust 3D object detection is critical for safe autonomous driving. Camera and radar sensors are synergistic as they capture complementary information and work well under different environmental conditions. Fusing camera and radar data is challenging, however, as each of the sensors lacks information along a perpendicular axis, that is, depth is unknown to camera and elevation is unknown to radar. We propose the camera-radar matching network CramNet, an efficient approach to fuse the sensor readings from camera and radar in a joint 3D space. To leverage radar range measurements for better camera depth predictions, we propose a novel ray-constrained cross-attention mechanism that resolves the ambiguity in the geometric correspondences between camera features and radar features. Our method supports training with sensor modality dropout, which leads to robust 3D object detection, even when a camera or radar sensor suddenly malfunctions on a vehicle. We demonstrate the effectiveness of our fusion approach through extensive experiments on the RADIATE dataset, one of the few large-scale datasets that provide radar radio frequency imagery. A camera-only variant of our method achieves competitive performance in monocular 3D object detection on the Waymo Open Dataset.
翻訳日:2022-10-19 10:35:32 公開日:2022-10-18
# コミュニティ検出におけるインプシットモデル,潜伏圧縮,内在バイアス,安価なランチ

Implicit models, latent compression, intrinsic biases, and cheap lunches in community detection ( http://arxiv.org/abs/2210.09186v2 )

ライセンス: Link先を確認
Tiago P. Peixoto, Alec Kirkley(参考訳) ネットワークをノードのクラスタに分割して大規模構造を要約することを目的としたコミュニティ検出のタスクは、さまざまな目的を持った多くの競合するアルゴリズムの開発を生み出した。 いくつかのコミュニティ検出手法は予測的であり、確率的生成モデルを通じてクラスタリングの目的を明示的に導出するが、他の手法は記述的であり、特定のアプリケーションによって動機づけられた目的に従ってネットワークを分割する。 本稿では,コミュニティ検出対象,推論対象,記述対象と,それに対応する暗黙的ネットワーク生成モデルとを関連付ける。 これにより、任意の目的の下でネットワークとその分割の記述長を計算し、異なるアルゴリズムのパフォーマンスを「基底真理」ラベルなしで比較するための原則的尺度を提供する。 提案手法は,任意のアルゴリズムに最適なコミュニティ検出問題の事例にもアクセス可能であり,この方法では,一般的な記述手法における固有のバイアスを明らかにし,過度に適合する傾向を説明する。 本フレームワークを用いて,500以上の構造的多様な経験的ネットワークのコーパスと,人工ネットワーク上でのコミュニティ検出手法を比較した。 より表現力のあるコミュニティ検出手法は、より特殊なアルゴリズムが最適に動作する少数の状況において、性能を低下させることなく、構造化データインスタンス上で一貫して優れた圧縮性能を示す。 本研究の結果は,非構造化データインスタンスに限定されているため,概念的にも現実的にも,コミュニティ検出における「無料ランチ」定理の意義を損なうものである。

The task of community detection, which aims to partition a network into clusters of nodes to summarize its large-scale structure, has spawned the development of many competing algorithms with varying objectives. Some community detection methods are inferential, explicitly deriving the clustering objective through a probabilistic generative model, while other methods are descriptive, dividing a network according to an objective motivated by a particular application, making it challenging to compare these methods on the same scale. Here we present a solution to this problem that associates any community detection objective, inferential or descriptive, with its corresponding implicit network generative model. This allows us to compute the description length of a network and its partition under arbitrary objectives, providing a principled measure to compare the performance of different algorithms without the need for "ground truth" labels. Our approach also gives access to instances of the community detection problem that are optimal to any given algorithm, and in this way reveals intrinsic biases in popular descriptive methods, explaining their tendency to overfit. Using our framework, we compare a number of community detection methods on artificial networks, and on a corpus of over 500 structurally diverse empirical networks. We find that more expressive community detection methods exhibit consistently superior compression performance on structured data instances, without having degraded performance on a minority of situations where more specialized algorithms perform optimally. Our results undermine the implications of the "no free lunch" theorem for community detection, both conceptually and in practice, since it is confined to unstructured data instances, unlike relevant community detection problems which are structured by requirement.
翻訳日:2022-10-19 10:35:11 公開日:2022-10-18
# ニューラルネットワーク出力層の分布に基づく分類の信頼度推定

Confidence estimation of classification based on the distribution of the neural network output layer ( http://arxiv.org/abs/2210.07745v2 )

ライセンス: Link先を確認
Abdel Aziz Taha, Leonhard Hennig, Petr Knoth(参考訳) 実世界の予測モデルの適用を妨げる最も一般的な問題の1つは、一般化の欠如である: ベンチマークで測定されたモデルの正確さは、例えば、実ビジネスの設定において、将来のデータで繰り返される。 予測モデルの信頼性を推定する手法は、比較的少ない。 本稿では,ニューラルネットワークの分類モデルを用いて,このモデルによって生成された特定の予測の不確かさを推定する手法を提案する。 さらに、モデルと信頼レベルが与えられた場合、このモデルによって生成された予測を2つのサブセットに分離する閾値を計算し、そのうちの1つは与えられた信頼レベルを満たす方法を提案する。 他の手法とは対照的に、提案手法は、共通のニューラルネットワークの出力ロジット層上に構築するだけであるため、既存のニューラルネットワークの変更を必要としない。 特に、この方法は、この予測に対応するロジット値の分布に基づいて、特定の予測の信頼性を推定する。 提案手法は, webスクレイピングなどの知識抽出プロセスにおいて,リコールコストの精度を最大化する予測部分集合を同定する手法である。 この手法は, 関係抽出, 名前付きエンティティ認識, 画像分類などの様々なタスクにおいて, 精度の大幅な向上を示すために試験されてきた。

One of the most common problems preventing the application of prediction models in the real world is lack of generalization: The accuracy of models, measured in the benchmark does repeat itself on future data, e.g. in the settings of real business. There is relatively little methods exist that estimate the confidence of prediction models. In this paper, we propose novel methods that, given a neural network classification model, estimate uncertainty of particular predictions generated by this model. Furthermore, we propose a method that, given a model and a confidence level, calculates a threshold that separates prediction generated by this model into two subsets, one of them meets the given confidence level. In contrast to other methods, the proposed methods do not require any changes on existing neural networks, because they simply build on the output logit layer of a common neural network. In particular, the methods infer the confidence of a particular prediction based on the distribution of the logit values corresponding to this prediction. The proposed methods constitute a tool that is recommended for filtering predictions in the process of knowledge extraction, e.g. based on web scrapping, where predictions subsets are identified that maximize the precision on cost of the recall, which is less important due to the availability of data. The method has been tested on different tasks including relation extraction, named entity recognition and image classification to show the significant increase of accuracy achieved.
翻訳日:2022-10-19 10:34:43 公開日:2022-10-18
# udヘブライ語木バンクとクロスドメイン解析の第2波

A Second Wave of UD Hebrew Treebanking and Cross-Domain Parsing ( http://arxiv.org/abs/2210.07873v2 )

ライセンス: Link先を確認
Amir Zeldes, Nick Howell, Noam Ordan and Yifat Ben Moshe(参考訳) セグメンテーション、タグ付け、構文解析などの基礎的ヘブライNLPタスクは、ヘブライツリーバンク(HTB, Sima'an et al. 2001)の様々なバージョンに依存している。 しかし、シングルソースのnewswireコーパスであるhtbのデータは現在30年以上経っており、web上の同時代のヘブライ語の多くの側面をカバーしていない。 本稿では,ヘブライ語ウィキペディアから選択したさまざまなトピックから,自由なヘブライ語のUDツリーバンクを提案する。 コーパスの導入とアノテーションの品質評価に加えて、成長した(Guillaume, 2021)に基づいて自動検証ツールをデプロイし、ヘブライ語で最初のクロスドメイン解析実験を行った。 我々は、最新の言語モデリングと既存のトランスフォーマーベースのアプローチの漸進的な改善を組み合わせて、UD NLPタスクにおける新しい最先端(SOTA)結果を得る。 私たちはまた、新しいコーパスから、ud htbマッチングアノテーションスキームのアップデートを新しいバージョンでリリースします。

Foundational Hebrew NLP tasks such as segmentation, tagging and parsing, have relied to date on various versions of the Hebrew Treebank (HTB, Sima'an et al. 2001). However, the data in HTB, a single-source newswire corpus, is now over 30 years old, and does not cover many aspects of contemporary Hebrew on the web. This paper presents a new, freely available UD treebank of Hebrew stratified from a range of topics selected from Hebrew Wikipedia. In addition to introducing the corpus and evaluating the quality of its annotations, we deploy automatic validation tools based on grew (Guillaume, 2021), and conduct the first cross domain parsing experiments in Hebrew. We obtain new state-of-the-art (SOTA) results on UD NLP tasks, using a combination of the latest language modelling and some incremental improvements to existing transformer based approaches. We also release a new version of the UD HTB matching annotation scheme updates from our new corpus.
翻訳日:2022-10-19 10:34:21 公開日:2022-10-18
# 複数選択視点による自然言語理解のためのゼロショット学習者

Zero-Shot Learners for Natural Language Understanding via a Unified Multiple Choice Perspective ( http://arxiv.org/abs/2210.08590v2 )

ライセンス: Link先を確認
Ping Yang, Junjie Wang, Ruyi Gan, Xinyu Zhu, Lin Zhang, Ziwei Wu, Xinyu Gao, Jiaxing Zhang, Tetsuya Sakai(参考訳) 本稿では,ゼロショット学習者のための新しいパラダイムを提案する。形式非依存であり,テキスト分類,共通意味推論,コリファレンス解決,感情分析など,言語タスクの一覧に適用可能な形式である。 ゼロショット学習は、与えられたタスクでモデルをトレーニングすることを目的としており、追加のトレーニングなしで新しい学習タスクに対処できる。 提案手法では,ゼロショット学習をマルチチョイスタスクに変換し,flanなどの大規模生成モデルにおける問題を回避する。 モデルに一般化能力を加えるだけでなく、パラメータの数を大幅に削減する。 私たちの方法は、効率的なトレーニングとデプロイメントのメリットを共有します。 提案手法は,いくつかのベンチマークで最先端のパフォーマンスを示し,自然言語推論やテキスト分類などのタスクで十分な結果が得られる。 我々のモデルは、数十億のパラメータを持つ最先端モデルよりも大幅に小さい235万のパラメータでこの成功を達成する。 コードと事前訓練されたモデルはhttps://github.com/IDEA-CCNL/Fengshenbang-LM で公開されている。

We propose a new paradigm for zero-shot learners that is format agnostic, i.e., it is compatible with any format and applicable to a list of language tasks, such as text classification, commonsense reasoning, coreference resolution, and sentiment analysis. Zero-shot learning aims to train a model on a given task such that it can address new learning tasks without any additional training. Our approach converts zero-shot learning into multiple-choice tasks, avoiding problems in commonly used large-scale generative models such as FLAN. It not only adds generalization ability to models but also significantly reduces the number of parameters. Our method shares the merits of efficient training and deployment. Our approach shows state-of-the-art performance on several benchmarks and produces satisfactory results on tasks such as natural language inference and text classification. Our model achieves this success with only 235M parameters, which is substantially smaller than state-of-the-art models with billions of parameters. The code and pre-trained models are available at https://github.com/IDEA-CCNL/Fengshenbang-LM .
翻訳日:2022-10-19 10:34:04 公開日:2022-10-18