このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20221017となっている論文です。

PDF登録状況(公開日: 20221017)

TitleAuthorsAbstract論文公表日・翻訳日
# ネーターの定理による熱量子多体系の力収支

Force balance in thermal quantum many-body systems from Noether's theorem ( http://arxiv.org/abs/2208.00473v2 )

ライセンス: Link先を確認
Sophie Hermann and Matthias Schmidt(参考訳) 空間的に不均一な量子多体系の自由エネルギーの不変性の結果に対処する。 空間的変形とそれに対応する局所的なモーメント変化からなるシステムの特定の位置依存的変換を考える。 この作用素変換は正準であり、したがって系の基底ヒルベルト空間上のユニタリ変換と同値である。 結果として、自由エネルギーは変換の下で不変量である。 ネーターの不変変分定理は、局所的に解決された平衡一体力のバランスであることを示す正確な和則を導出することができる。 均質シフトの特別な場合、和則は平均的な大域外力は熱平衡で消失することを示す。

We address the consequences of invariance properties of the free energy of spatially inhomogeneous quantum many-body systems. We consider a specific position-dependent transformation of the system that consists of a spatial deformation and a corresponding locally resolved change of momenta. This operator transformation is canonical and hence equivalent to a unitary transformation on the underlying Hilbert space of the system. As a consequence, the free energy is an invariant under the transformation. Noether's theorem for invariant variations then allows to derive an exact sum rule, which we show to be the locally resolved equilibrium one-body force balance. For the special case of homogeneous shifting, the sum rule states that the average global external force vanishes in thermal equilibrium.
翻訳日:2023-02-02 21:29:27 公開日:2022-10-17
# 量子コンピュータにおける周期平面電子構造計算

Periodic Plane-Wave Electronic Structure Calculations on Quantum Computers ( http://arxiv.org/abs/2208.04444v2 )

ライセンス: Link先を確認
Duo Song, Nicholas P. Bauman, Guen Prawiroatmodjo, Bo Peng, Cassandra Granade, Kevin M. Rosso, Guang Hao Low, Martin Roetteler, Karol Kowalski, Eric J. Bylaska(参考訳) 平面波による第2量子化ハミルトニアンの仮想空間の定義方法として、MicrosoftのAzure Quantumサービスを通じてアクセスされたQuantinuumのイオントラップ量子コンピュータ上のフル構成相互作用(FCI)シミュレーションと変分量子固有解器(VQE)回路を用いて、周期的な1電子積分と2電子積分が開発された。 この研究は、小さなペアのCIハミルトニアンから軌道を最適化することで仮想空間が生成される新しい種類のアルゴリズムの周期系の拡張である。 この拡張では、最初のブリルアンゾーンの積分は自動的に2電子積分に組み込まれる。 これらの手順により、わずかな軌道しか持たない仮想空間を導出することができ、かなりの量の相関関係を捉えることができた。 本書の焦点は、平面波基底集合で計算された小分子と、画像を含む大きな周期単位セルの$\Gamma$-pointでのシミュレーションと、周期単位セルで計算された平面波基底集合の結果を比較することである。 このアプローチの結果は,LiH分子の周期的結果と周期的結果との良好な一致が得られることから,有望であった。 量子H1-1量子コンピュータ上で行われたシミュレーションは驚くほど優れたエネルギーを発生させ、1COVOハミルトニアンのFCI値を11ミリハート (6.9 kcal/mol) 以内に再現し、ノイズを補正した。

A procedure for defining virtual spaces, and the periodic one-electron and two-electron integrals, for plane-wave second quantized Hamiltonians has been developed and demonstrated using full configuration interaction (FCI) simulations and variational quantum eigensolver (VQE) circuits on Quantinuum's ion trap quantum computers accessed through Microsoft's Azure Quantum service. This work is an extension to periodic systems of a new class of algorithms in which the virtual spaces were generated by optimizing orbitals from small pairwise CI Hamiltonians, which we term as correlation optimized virtual orbitals with the abbreviation COVOs. In this extension, the integration of the first Brillouin zone is automatically incorporated into the two-electron integrals. With these procedures we have been able to derive virtual spaces, containing only a few orbitals, that were able to capture a significant amount of correlation. The focus in this manuscript is on comparing the simulations of small molecules calculated with plane-wave basis sets with large periodic unit cells at the $\Gamma$-point, including images, to results for plane-wave basis sets with aperiodic unit cells. The results for this approach were promising as we were able to obtain good agreement between periodic and aperiodic results for an LiH molecule. Simulations performed on the Quantinuum H1-1 quantum computer were able to produce surprisingly good energies, reproducing the FCI values for the 1 COVO Hamiltonian to within 11 milliHartree (6.9 kcal/mol), when corrected for noise.
翻訳日:2023-02-01 21:33:46 公開日:2022-10-17
# 駆動システムにおける合成ホール効果のための結合層構築

Coupled Layer Construction for Synthetic Hall Effects in Driven Systems ( http://arxiv.org/abs/2208.06419v2 )

ライセンス: Link先を確認
David M. Long, Philip J. D. Crowley, Anushya Chandran(参考訳) 準周期駆動フェルミオン系は平衡では実現されない位相相をサポートすることができる。 フェルミオンはバルクに局在するが、エッジでの量子化されたエネルギー電流をサポートする。 これらの相は抽象的な分類によって発見され、微視的なモデルはほとんど存在しない。 空間次元が$d\in\{1,2\}$の位相の強結合モデルに対する結合層構築法を開発し、任意の非共振駆動周波数を$D$とする。 これらのモデルは、定常状態における合成2次元および4次元量子ホール効果に関連する量子化応答を示す。 $(d+D) = (1+2)$の位相図の数値的研究 (i)鋭い位相遷移によって分離された強靭な位相及び自明な位相 (二)移行時のドライブ間の電荷の拡散及び半整数のエネルギー電流 (iii)弱い相互作用が導入された後も存在する長寿命のトポロジカルエネルギー電流。

Quasiperiodically driven fermionic systems can support topological phases not realized in equilibrium. The fermions are localized in the bulk, but support quantized energy currents at the edge. These phases were discovered through an abstract classification, and few microscopic models exist. We develop a coupled layer construction for tight-binding models of these phases in $d\in\{1,2\}$ spatial dimensions, with any number of incommensurate drive frequencies $D$. The models exhibit quantized responses associated with synthetic two- and four-dimensional quantum Hall effects in the steady state. A numerical study of the phase diagram for $(d+D) = (1+2)$ shows: (i) robust topological and trivial phases separated by a sharp phase transition; (ii) charge diffusion and a half-integer energy current between the drives at the transition; and (iii) a long-lived topological energy current which remains present when weak interactions are introduced.
翻訳日:2023-01-31 08:26:59 公開日:2022-10-17
# 未知のqubit-ユニタリ演算を決定的かつ正確に反転させる

Reversing unknown qubit-unitary operation, deterministically and exactly ( http://arxiv.org/abs/2209.02907v2 )

ライセンス: Link先を確認
Satoshi Yoshida, Akihito Soeda, Mio Murao(参考訳) 我々は、クローズドキュービットシステムの時間反転をシミュレートする未知のキュービットユニタリ演算をリバースするための決定論的かつ厳密なプロトコルを報告する。 普遍的な決定論的完全ユニタリ変換に関する既知のno-go結果を避けるために、量子回路モデル内で未知のユニタリ操作を変換するプロトコルの最も一般的なクラスを検討し、入力ユニタリ操作をシーケンスで複数回呼び、呼び出しの間に固定された量子回路を挿入する。 提案プロトコルでは、入力量子単位演算は逆演算を達成するために4回呼び出される。 対応するChoi行列を$\mathrm{SU}(2)\times \mathrm{SU}(2)$対称性で導出することにより、qubit-unitary inversion Protocolを提案する。 また、任意の次元に対する決定論的完全ユニタリ反転プロトコルを探索するための半定値プログラミング(SDP)を提案する。 チェ行列上の$\mathrm{SU}(d)\times \mathrm{SU}(d)$対称性を利用することで、可能な全てのプロトコルを表す大きな探索空間を減らす方法を示し、ユニタリ演算の高階量子変換を解析するための有用なツールを提供する。

We report a deterministic and exact protocol to reverse any unknown qubit-unitary operation, which simulates the time inversion of a closed qubit system. To avoid known no-go results on universal deterministic exact unitary inversion, we consider the most general class of protocols transforming unknown unitary operations within the quantum circuit model, where the input unitary operation is called multiple times in sequence and fixed quantum circuits are inserted between the calls. In the proposed protocol, the input qubit-unitary operation is called four times to achieve the inverse operation. We present the qubit-unitary inversion protocol by deriving the corresponding Choi matrix with the $\mathrm{SU}(2)\times \mathrm{SU}(2)$ symmetry. We also present the semidefinite programming (SDP) for searching a deterministic exact unitary inversion protocol for an arbitrary dimension. By utilizing the $\mathrm{SU}(d)\times \mathrm{SU}(d)$ symmetry on the Choi matrix, we show a method to reduce the large search space representing all possible protocols, which provides a useful tool for analyzing higher-order quantum transformations for unitary operations.
翻訳日:2023-01-27 16:00:42 公開日:2022-10-17
# 時間領域アナログ量子シミュレーションによる分子ビブロニックスペクトルの予測

Predicting molecular vibronic spectra using time-domain analog quantum simulation ( http://arxiv.org/abs/2209.06558v2 )

ライセンス: Link先を確認
Ryan J. MacDonell, Tomas Navickas, Tim F. Wohlers-Reichel, Christophe H. Valahu, Arjun D. Rao, Maverick J. Millican, Michael A. Currington, Michael J. Biercuk, Ting Rei Tan, Cornelius Hempel and Ivan Kassal(参考訳) 分光法は分子世界の最も正確なプローブの一つである。 しかし、電子と核の自由度の絡み合いがあるため、分子スペクトルを正確に予測することは計算的に困難である。 量子コンピュータはこの計算コストを削減することを約束しているが、既存の量子アプローチは個々の固有状態からの信号の組み合わせに依存している。 本稿では,時間領域でのシミュレーションを行い,スケーラブルな分子スペクトルのアナログ量子シミュレーション手法を提案する。 我々のアプローチは、従来のモデルよりも複雑な分子モデルを扱い、近似を少なくし、最小のオーバーヘッドで開量子系に拡張できる。 本稿では,分子スペクトルの時間領域シミュレーションの根底にある問題を,トラップイオン量子シミュレータで利用可能な自由度と制御場に直接マッピングする。 我々は,本アルゴリズムをトラップイオンデバイス上で実験的に実証し,固有電子度と運動度の両方の自由度を利用して,SO$_2$の単一モードビブロニック光電子スペクトルに対して優れた定量的一致を示した。

Spectroscopy is one of the most accurate probes of the molecular world. However, predicting molecular spectra accurately is computationally difficult because of the presence of entanglement between electronic and nuclear degrees of freedom. Although quantum computers promise to reduce this computational cost, existing quantum approaches rely on combining signals from individual eigenstates, an approach that is difficult to scale because the number of eigenstates grows exponentially with molecule size. Here, we introduce a method for scalable analog quantum simulation of molecular spectroscopy, by performing simulations in the time domain. Our approach can treat more complicated molecular models than previous ones, requires fewer approximations, and can be extended to open quantum systems with minimal overhead. We present a direct mapping of the underlying problem of time-domain simulation of molecular spectra to the degrees of freedom and control fields available in a trapped-ion quantum simulator. We experimentally demonstrate our algorithm on a trapped-ion device, exploiting both intrinsic electronic and motional degrees of freedom, showing excellent quantitative agreement for a single-mode vibronic photoelectron spectrum of SO$_2$.
翻訳日:2023-01-26 16:58:46 公開日:2022-10-17
# 非相反性を用いたホットプロパゲーティングモードの高純度絡み合わせ

High-purity Entanglement of Hot Propagating Modes using Nonreciprocity ( http://arxiv.org/abs/2209.06847v2 )

ライセンス: Link先を確認
Lindsay Orr, Saeed A. Khan, Nils Buchholz, Shlomi Kotler, A. Metelmann(参考訳) 分散量子情報処理と通信プロトコルは、高純度伝播モード間の絡み合いを生成する能力を要求する。 しかし、熱揺らぎは、特に高周波(rf)信号に関連する低周波モードにおいて、エンタングル状態の忠実性と純度を著しく制限することができる。 ここでは、熱ゆらぎに対して頑健な伝播モードの連続可変絡み付けを行うための資源として非相互性を提案する。 冷水貯留層を利用することで、低周波モードと高周波モードとの標準的な2モードスクイーズ相互作用において相反性の対称性を壊し、熱揺らぎの再構成により高純度な飛行絡み状態の発生を可能にすることを示す。 本手法はガウス対相互作用のみを必要とするため,パラメトリック回路QEDの実装に最適である。

Distributed quantum information processing and communication protocols demand the ability to generate entanglement among propagating modes of high purity. However, thermal fluctuations can severely limit the fidelity and purity of propagating entangled states, especially for low frequency modes relevant for radio-frequency (RF) signals. Here we propose nonreciprocity as a resource to render continuous-variable entanglement of propagating modes robust against thermal fluctuations. By utilizing a cold engineered reservoir we break the symmetry of reciprocity in a standard two-mode squeezing interaction between a low and a high frequency mode, and show that the re-routing of the thermal fluctuations allows the generation of flying entangled states with high purity. Our approach requires only pairwise Gaussian interactions and is thus ideal for parametric circuit QED implementations.
翻訳日:2023-01-26 16:52:14 公開日:2022-10-17
# 量子コンピュータのための物理インフォームドニューラルネットワークについて

On Physics-Informed Neural Networks for Quantum Computers ( http://arxiv.org/abs/2209.14754v2 )

ライセンス: Link先を確認
Stefano Markidis(参考訳) 物理情報ニューラルネットワーク(PINN)は、偏微分方程式の解からデータ同化タスクまで、科学計算問題を解決する強力なツールとして登場した。 PINNを使用する利点の1つは、CPUとアクセラレータなどのコプロセッサの併用による機械学習計算フレームワークの利用を利用して、最大限のパフォーマンスを実現することである。 本稿では,量子処理ユニット(qpu)コプロセッサを用いてピンの設計,実装,性能について検討する。 連続変数(cv)量子計算フレームワークを用いて,1次元ポアソン問題を解くための単純な量子ピンを設計した。 我々は、異なるオプティマイザ、PINN残差定式化、量子ニューラルネットワーク深度が量子PINN精度に与える影響について論じる。 量子PINNの場合のトレーニングランドスケープのオプティマイザ探索は従来のPINNほど効果的ではなく、SGD(Stochastic Gradient Descent)オプティマイザは適応性と高次オプティマイザより優れていた。 最後に,量子ピンと古典ピンの方法とアルゴリズムの違いを強調し,量子ピン開発における今後の研究課題について概説する。

Physics-Informed Neural Networks (PINN) emerged as a powerful tool for solving scientific computing problems, ranging from the solution of Partial Differential Equations to data assimilation tasks. One of the advantages of using PINN is to leverage the usage of Machine Learning computational frameworks relying on the combined usage of CPUs and co-processors, such as accelerators, to achieve maximum performance. This work investigates the design, implementation, and performance of PINNs, using the Quantum Processing Unit (QPU) co-processor. We design a simple Quantum PINN to solve the one-dimensional Poisson problem using a Continuous Variable (CV) quantum computing framework. We discuss the impact of different optimizers, PINN residual formulation, and quantum neural network depth on the quantum PINN accuracy. We show that the optimizer exploration of the training landscape in the case of quantum PINN is not as effective as in classical PINN, and basic Stochastic Gradient Descent (SGD) optimizers outperform adaptive and high-order optimizers. Finally, we highlight the difference in methods and algorithms between quantum and classical PINNs and outline future research challenges for quantum PINN development.
翻訳日:2023-01-24 19:18:53 公開日:2022-10-17
# 無秩序ポテンシャルにおける2次元ハバードモデルの遅い半古典力学

Slow semiclassical dynamics of a two-dimensional Hubbard model in disorder-free potentials ( http://arxiv.org/abs/2210.01082v2 )

ライセンス: Link先を確認
Aleksander Kaczmarek, Adam S. Sajna(参考訳) 傾きおよび調和ポテンシャルにおけるハバードモデルのクエンチダイナミクスを半古典的図の中で論じる。 フェルミイオン切断ウィグナー近似(ftwa)を応用し、電荷とスピンの自由度に対する不均衡のダイナミクスを分析し、その時間発展を1次元格子内の厳密なシミュレーションと比較する。 電荷またはスピン密度波からのクエンチを考える。 調和およびスピン依存線形ポテンシャルの導入は、fTWAを長期間にわたって十分に検証することを示した。 このようなfTWAの改良は、電荷チャネルとスピンチャネルの量子フィッシャー情報の観点からの高次相関に対しても得られる。 これにより、より大きなシステムサイズのダイナミクスを議論し、最近導入されたStark多体ローカライゼーションと議論を結びつけることができます。 特に,有限2次元系に注目し,中間線形ポテンシャル強度において,高調波ポテンシャルと傾きのスピン依存性が加われば,無秩序系のそれと類似した可微分力学が得られることを示した。 さらに,高調波ポテンシャルの特定の値について,実空間におけるエルゴード領域と非エルゴード領域の位相分離を観測した。 後者の事実は、高調波閉じ込めを容易に行うことができる超低温原子実験において特に重要であり、異なる格子位置での緩和時間に大きな変化をもたらす。

The quench dynamics of the Hubbard model in tilted and harmonic potentials is discussed within the semiclassical picture. Applying the fermionic truncated Wigner approximation (fTWA), the dynamics of imbalances for charge and spin degrees of freedom is analyzed and its time evolution is compared with the exact simulations in one-dimensional lattice. Quench from charge or spin density wave is considered. We show that introduction of harmonic and spin-dependent linear potentials sufficiently validates fTWA for longer times. Such an improvement of fTWA is also obtained for the higher order correlations in terms of quantum Fisher information for charge and spin channels. This allows us to discuss the dynamics of larger system sizes and connect our discussion to the recently introduced Stark many-body localization. In particular, we focus on a finite two-dimensional system and show that at intermediate linear potential strength, the addition of a harmonic potential and spin dependence of the tilt, results in subdiffusive dynamics, similar to that of disordered systems. Moreover, for specific values of harmonic potential, we observed phase separation of ergodic and non-ergodic regions in real space. The latter fact is especially important for ultracold atom experiments in which harmonic confinement can be easily imposed, causing a significant change in relaxation times for different lattice locations.
翻訳日:2023-01-24 00:37:16 公開日:2022-10-17
# 光子の重力自己相互作用における量子重力のシグネチャ

Signatures of Quantum Gravity in the Gravitational Self-Interaction of Photons ( http://arxiv.org/abs/2210.02803v2 )

ライセンス: Link先を確認
Zain Mehdi, Joseph J. Hope, and Simon A. Haine(参考訳) 共振器内の光子の重力自己相互作用を用いた量子重力の相対論的テストを提案する。 この相互作用は、古典的な重力理論では再生できない光の量子状態において、多くの量子重力シグネチャをもたらすことを実証する。 量子パラメータ推定理論を用いてこれらの効果を厳密に評価し,それらのシグネチャを最適に抽出する簡易な測定手法について考察する。 重要なことに、提案された試験は重力を媒介するスピンに敏感であり、重力の量子的性質を理解するための新たな道を提供する。

We propose relativistic tests of quantum gravity using the gravitational self-interaction of photons in a cavity. We demonstrate that this interaction results in a number of quantum gravitational signatures in the quantum state of the light that cannot be reproduced by any classical theory of gravity. We rigorously assess these effects using quantum parameter estimation theory, and discuss simple measurement schemes that optimally extract their signatures. Crucially, the proposed tests are sensitive to the spin of mediating gravitons, thus providing a new avenue for understanding the quantum nature of gravity.
翻訳日:2023-01-23 15:00:56 公開日:2022-10-17
# ヒルベルト空間幾何の制約不等式と効率的な量子計算

Constraint Inequalities from Hilbert Space Geometry & Efficient Quantum Computation ( http://arxiv.org/abs/2210.07390v2 )

ライセンス: Link先を確認
Chinonso Onah(参考訳) 与えられた量子系の任意のパラメータを記述する有用な関係は、対応するヒルベルト空間のベクトルに課される単純な物理的制約から導かれる。 これはよく知られており、通常、大次元ヒルベルト空間を関連する部分空間に分割し、ヒルベルト空間内の点を物理的可観測の期待値に関連付けることで進行する。 この注記の目的は極めて控えめである。 この手順を述べるとともに、量子場の量子シミュレーションと、ノイズ中間スケール量子(NISQ)デバイス上で多くの身体量子システムと相互作用するために必要な考慮事項を並列に述べる。 我々は、これらのアイデアが有用な量子コンピューティングの関連部分を指摘した。 この研究は密度行列形式論で進み、参考文献に見られる資料のレビューである。 我々は、これらのアイデアを使ってパラメータ化量子回路をガイドし、改善する方法を提案することで、文献を豊かにする。

Useful relations describing arbitrary parameters of given quantum systems can be derived from simple physical constraints imposed on the vectors in the corresponding Hilbert space. This is well known and it usually proceeds by partitioning the large dimensional Hilbert space into relevant sub spaces and relating points in the Hilbert space to the expectation values of physical observables. The aim of this note is quite modest. We describe the procedure and point out that this parallels the necessary considerations that make Quantum Simulation of quantum fields and interacting many body quantum systems on Noisy Intermediate Scale Quantum (NISQ) devices possible. We conclude by pointing out relevant parts of Quantum Computing where these ideas could be useful. This work proceeds in density matrix formalism and is a review of materials found in references. We enrich the literature by suggesting how to use these ideas to guide and improve parameterized quantum circuits.
翻訳日:2023-01-22 16:47:00 公開日:2022-10-17
# 高速連続可変測定デバイス非依存量子鍵分布

High-rate continuous-variable measurement-device-independent quantum key distribution ( http://arxiv.org/abs/2210.07576v2 )

ライセンス: Link先を確認
Adnan A.E. Hajomer, Huy Q. Nguyen, and Tobias Gehring(参考訳) 周波数・光位相ロックなしで5MBaudのシンボルレートで秘密鍵を生成できる連続可変計測デバイス非依存量子鍵分布の最初の実験を報告する。 これは偏光ベースの90度光ハイブリッドとよく設計されたdspパイプラインに基づく新しいリレー構造を用いて実現されている。

We report the first experiment of continuous-variable measurement-device-independent quantum key distribution that enables secret key generation at a symbol rate of 5 MBaud without frequency and optical phase locking. This is achieved by using a new relay structure based on a polarization-based 90-degree optical hybrid and a well-designed DSP pipeline.
翻訳日:2023-01-22 14:28:48 公開日:2022-10-17
# 誤差緩和による量子アニール

Quantum annealing with error mitigation ( http://arxiv.org/abs/2210.08862v1 )

ライセンス: Link先を確認
Yuta Shingu, Tetsuro Nikuni, Shiro Kawabata, and Yuichiro Matsuzaki(参考訳) 量子アニール(QA)は、ハミルトニアン問題の基底状態エネルギーを計算する効率的な方法の1つである。 ノイズがなければ、QAは断熱条件が満たされた場合、基底状態エネルギーを正確に推定することができる。 しかし、実際の物理的実装では、システムはデコヒーレンスに悩まされる。 一方で、ノイズの多い中間規模量子(NISQ)計算の研究に多くの努力が払われている。 NISQの実用的な計算では、ノイズ効果を取り除くために多くの誤差緩和法が考案されている。 本稿では,二状態浄化法と組み合わせたQA戦略を提案し,デコヒーレンスの影響を抑える。 本プロトコルは,従来のダイナミクス,単一量子射影測定,第1のダイナミクスの逆写像に対応するハミルトン力学,測定結果の処理の4つの部分から構成される。 重要なことは、我々のプロトコルは2ビットゲートなしで動作するため、実用的なQA用に設計されたデバイスに適している。 また,提案手法が従来のデコヒーレンス下のqaよりも正確な地中エネルギーの推定に繋がることを示す数値計算も提供する。

Quantum annealing (QA) is one of the efficient methods to calculate the ground-state energy of a problem Hamiltonian. In the absence of noise, QA can accurately estimate the ground-state energy if the adiabatic condition is satisfied. However, in actual physical implementation, systems suffer from decoherence. On the other hand, much effort has been paid into the noisy intermediate-scale quantum (NISQ) computation research. For practical NISQ computation, many error mitigation (EM) methods have been devised to remove noise effects. In this paper, we propose a QA strategy combined with the EM method called dual-state purification to suppress the effects of decoherence. Our protocol consists of four parts; the conventional dynamics, single-qubit projective measurements, Hamiltonian dynamics corresponding to an inverse map of the first dynamics, and post-processing of measurement results. Importantly, our protocol works without two-qubit gates, and so our protocol is suitable for the devices designed for practical QA. We also provide numerical calculations to show that our protocol leads to a more accurate estimation of the ground energy than the conventional QA under decoherence.
翻訳日:2023-01-22 07:18:16 公開日:2022-10-17
# クーロン電位による対の速度に及ぼす宇宙弦の影響

Influence of a cosmic string on the rate of pairs produced by the Coulomb potential ( http://arxiv.org/abs/2210.08827v1 )

ライセンス: Link先を確認
B. Belbaki, A. Bounames(参考訳) 本研究では、外部電界のクーロンポテンシャルによる粒子生成現象を、静的宇宙弦の重力場の存在下で研究する。 そのため、一般化されたクライン・ゴルドン方程式とディラック方程式が解かれ、ボゴリューボフ変換を用いて生成粒子の確率と数密度を計算する。 次に、クーロンポテンシャルによって生成されるペアの速度に対する宇宙弦の影響について論じる。 大統一理論(gut)宇宙弦では、クーロンポテンシャル核電荷が$z\geq206$、スピン1/2粒子が$z\geq275$であればスピンレス粒子の生成が可能である。

We study particle creation phenomenon by the Coulomb potential of an external electric field in the presence of a gravitational field of a static cosmic string. For that, the generalized Klein-Gordon and Dirac equations are solved, and by using the Bogoliubov transformation we calculate the probability and the number density of created particles. Then, we discuss the influence of the cosmic string on the rate of pairs produced by the Coulomb potential. For the grand unified theory (GUT) cosmic string, the production of spinless particles is possible if the Coulomb potential nucleus charge $Z\geq206$, and for spin-1/2 particles if $Z\geq275$.
翻訳日:2023-01-22 07:18:00 公開日:2022-10-17
# 準静的誤差に対するロバスト性を考慮したRydbergエンタングゲートのプロトコル

Protocols for Rydberg entangling gates featuring robustness against quasi-static errors ( http://arxiv.org/abs/2210.08824v1 )

ライセンス: Link先を確認
Charles Fromonteil, Dolev Bluvstein, Hannes Pichler(参考訳) 我々は、Rydbergブロック機構に基づく中性原子量子ビットのゲートをエンタングするための新しいプロトコル群を紹介する。 これらのプロトコルは、Rydberg励起周波数と共鳴する一連の大域レーザーパルスを通じて制御相ゲートを実現する。 これらのプロトコルをrabi周波数のキャリブレーション誤差やショットツーショットレーザー強度変動に対するロバスト性について解析し,様々な忠実度尺度でロバスト性を示すことを示した。 さらに,原子運動誘起ドップラーシフトに頑健化するため,これらのプロトコルの適応についても検討する。

We introduce a novel family of protocols for entangling gates for neutral atom qubits based on the Rydberg blockade mechanism. These protocols realize controlled-phase gates through a series of global laser pulses that are on resonance with the Rydberg excitation frequency. We analyze these protocols with respect to their robustness against calibration errors of the Rabi frequency or shot-to-shot laser intensity fluctuations, and show that they display robustness in various fidelity measures. In addition, we discuss adaptations of these protocols in order to make them robust to atomic-motion-induced Doppler shifts as well.
翻訳日:2023-01-22 07:17:48 公開日:2022-10-17
# 非平衡貯水池における量子電池

Quantum battery in nonequilibrium reservoirs ( http://arxiv.org/abs/2210.08775v1 )

ライセンス: Link先を確認
Zhihai Wang, Hongwei Yu, and Jin Wang(参考訳) 本研究では, ノンキルブリウムボソンやフェルミオン貯水池に結合した2レベル充電器と電池を浸漬する量子電池システムについて検討する。 レッドフィールド・マスター方程式に基づいて、電荷への外部駆動によって誘導されるエネルギースペクトルの変化を考察する。 充電器とバッテリが同じ遷移周波数を有し、共振で充電器が駆動されると、リウビリアンギャップの閉鎖によって不安定が生じる。 その結果、電池の効率は充電器電池システムの初期状態に依存し、ある種の絡み合った初期状態は効率を高めることができる。 非共振駆動系では、ボソンおよびフェルミオン貯水池の補償機構により量子電池の効率を最適化することができる。 本研究は,Nonqulibriumオープンシステムにおける量子電池の設計と最適化に有用である。

We investigate a quantum battery system in which the coupled two-level charger and battery are immersed in nonequilbrium boson or fermion reservoirs. Based on the Redfield master equation, we consider the change of the energy spectrum induced by the external driving to the charger. When the charger and the battery possess the same transition frequency and the charger is driven in resonance, a bistability can emerge with the closure of the Liouvillian gap. As a result, the efficiency of the battery depends on the initial state of the charger-battery system, and certain types of entangled initial states can enhance the efficiency. In the non-resonance driving regime, the efficiency of the quantum battery can be optimized by the compensation mechanism for both the boson and fermion reservoirs. Our investigation is helpful to the design and optimization of quantum battery in the nonequlibrium open system.
翻訳日:2023-01-22 07:16:45 公開日:2022-10-17
# 原子核の線形応答に対する量子アルゴリズム

A Quantum Algorithm for the Linear Response of Nuclei ( http://arxiv.org/abs/2210.08757v1 )

ライセンス: Link先を確認
Abhishek, Nifeeya Singh, Pooja Siwach, P. Arumugam(参考訳) 我々は、原子核の小さな外部電磁摂動に対する応答を得るために量子アルゴリズムを提案する。 システムのハミルトニアンは調和振動子によって提示され、ユニタリ(lcu)ベースの線形結合法を用いて量子コンピュータ上のハミルトニアンをシミュレートする。 ハミルトニアンシミュレーションの出力は、SWAPテストアルゴリズムによる双極子応答の計算に利用される。 量子アルゴリズムを用いて計算した応答関数の結果を実験データと比較し、良好な一致を与える。 本稿では,Sn領域とPb領域の実験データとを相関させるために,$^{120}$Snおよび$^{208}$Pbの結果を示すとともに,従来の線形応答理論を用いて得られた結果と比較する。

We present a quantum algorithm to obtain the response of the atomic nucleus to a small external electromagnetic perturbation. The Hamiltonian of the system is presented by a harmonic oscillator, and the linear combination of unitaries (LCU) based method is utilized to simulate the Hamiltonian on the quantum computer. The output of the Hamiltonian simulation is utilized in calculating the dipole response with the SWAP test algorithm. The results of the response function computed using the quantum algorithm are compared with the experimental data and provide a good agreement. We show the results for $^{120}$Sn and $^{208}$Pb to corroborate with the experimental data in Sn and Pb region and also compare the results with those obtained using the conventional linear response theory.
翻訳日:2023-01-22 07:16:31 公開日:2022-10-17
# OpenQAOA - QAOAのためのSDK

OpenQAOA -- An SDK for QAOA ( http://arxiv.org/abs/2210.08695v1 )

ライセンス: Link先を確認
Vishal Sharma, Nur Shahidee Bin Saharan, Shao-Hen Chiew, Ezequiel Ignacio Rodr\'iguez Chiacchio, Leonardo Disilvestro, Tommaso Federico Demarie, Ewan Munro(参考訳) 我々は,Python のマルチバックエンドソフトウェア開発キット OpenQAOA を導入し,Nuisy Intermediate-Scale Quantum (NISQ) デバイスとシミュレータ上でQuantum Approximate Optimisation Algorithm (QAOA) を作成し,カスタマイズし,実行する。 OpenQAOAはQAOAワークフローの作成を容易にし、変分量子アルゴリズムを実装するというより退屈で反復的な側面を取り除く。 異なるバックエンド間の回路生成、ansatzパラメータ、最適化ループ、結果のフォーマット、再帰的なqaoaのようなqaoaの拡張といったタスクを標準化し、自動化する。 OpenQAOAは、QAOAの研究を簡素化し、強化するために設計されており、アルゴリズムとそのバリエーションを実験し、デプロイするための堅牢で一貫したフレームワークを提供する。 重要なのは、数百から数千キュービット規模のqaoa計算を可能にするツールの提供に重点が置かれていることだ。

We introduce OpenQAOA, a Python open-source multi-backend Software Development Kit to create, customise, and execute the Quantum Approximate Optimisation Algorithm (QAOA) on Noisy Intermediate-Scale Quantum (NISQ) devices and simulators. OpenQAOA facilitates the creation of QAOA workflows, removing the more tedious and repetitive aspects of implementing variational quantum algorithms. It standardises and automates tasks such as circuit creation across different backends, ansatz parametrisation, the optimisation loop, the formatting of results, and extensions of QAOA such as Recursive QAOA. OpenQAOA is designed to simplify and enhance research on QAOA, providing a robust and consistent framework for experimentation with, and deployment of, the algorithm and its variations. Importantly, a heavy emphasis is placed on the provision of tools to enable QAOA computations at the scale of hundreds or thousands of qubits.
翻訳日:2023-01-22 07:15:43 公開日:2022-10-17
# 量子局所ハミルトニアンの製品状態近似アルゴリズムの改良

Improved Product-state Approximation Algorithms for Quantum Local Hamiltonians ( http://arxiv.org/abs/2210.08680v1 )

ライセンス: Link先を確認
Thiago Bergamaschi(参考訳) 量子局所ハミルトニアンの基底状態エネルギーと自由エネルギーは量子多体物理学の基本的な量であるが、一般にそれらを推定するのはqma困難である。 本稿では,量子k$局所ハミルトニアンのある種の族において,これらの量の古典的加法誤差積状態近似を求める新しい手法を開発した。 すなわち、密度が低いか、閾値が低いか、固定マイナーを除いたスパースグラフ上で定義され、Brand\~ao と Harrow と Gharibian と Kempe と Bansal 、 Bravyi と Terhal によって研究された方法とシステムに基づいて構築される。 主な技術貢献は2つある。 まず,局所ハミルトニアンの積状態近似と組合せグラフ特性検定との関係について考察する。 我々は、フリーズやカンナンなどを基にした、k$-local hamiltonianのための一連の弱いszemer\'edi regularity lemmasを開発した。 それらは定常時間サンプリングアルゴリズムを開発し、アロン、デ・ラ・ベガ、カンナン、カルピンスキーによる古典的な結果に類似した局所ハミルトニアン問題の ‘vertex sample complexity’ を特徴付ける。 第二に、Brand\~ao と Harrow による情報理論的積状態近似技術に基づいて、その結果を自由エネルギーと非対称グラフ設定に拡張する。 この構造を利用して、低温における自由エネルギーに対するアルゴリズムの族と、スパースグラフ族に対する新しいアルゴリズムを定義する。

The ground state energy and the free energy of Quantum Local Hamiltonians are fundamental quantities in quantum many-body physics, however, it is QMA-Hard to estimate them in general. In this paper, we develop new techniques to find classical, additive error product-state approximations for these quantities on certain families of Quantum $k$-Local Hamiltonians. Namely, those which are either dense, have low threshold rank, or are defined on a sparse graph that excludes a fixed minor, building on the methods and the systems studied by Brand\~ao and Harrow, Gharibian and Kempe, and Bansal, Bravyi and Terhal. We present two main technical contributions. First, we discuss a connection between product-state approximations of local Hamiltonians and combinatorial graph property testing. We develop a series of weak Szemer\'edi regularity lemmas for $k$-local Hamiltonians, built on those of Frieze and Kannan and others. We use them to develop constant time sampling algorithms, and to characterize the `vertex sample complexity' of the Local Hamiltonian problem, in an analog to a classical result by Alon, de la Vega, Kannan and Karpinski. Second, we build on the information-theoretic product-state approximation techniques by Brand\~ao and Harrow, extending their results to the free energy and to an asymmetric graph setting. We leverage this structure to define families of algorithms for the free energy at low temperatures, and new algorithms for certain sparse graph families.
翻訳日:2023-01-22 07:15:24 公開日:2022-10-17
# 最小弦回転に対する量子分割と克服に関する一考察

A Note on Quantum Divide and Conquer for Minimal String Rotation ( http://arxiv.org/abs/2210.09149v1 )

ライセンス: Link先を確認
Qisheng Wang(参考訳) 語彙的に最小の弦の回転は、最近量子コンピューティングにおいて多くの注目を集めている文字列処理の基本的な問題である。 準最適量子アルゴリズムはその開発中に提案され、量子分割や征服のような新しいアイデアが導入された。 本稿では,量子クエリの複雑さをさらに研究する。 1. 関数問題に対して、そのクエリ複雑性は$\sqrt{n} \cdot 2^{O\left(\sqrt{\log n}\right)}$と示され、最近の結果である$\sqrt{n} \cdot 2^{\left(\log n\right)^{1/2+\varepsilon}}$をAkmal and Jin (2022)により改善する。 2. 決定問題の場合、クエリの複雑さは$O\left(\sqrt{n \log^3 n \log \log n}\right)$であり、Childsらによる$O\left(\sqrt{n \log^5 n}\right)$の最近の結果を改善する(2022)。 このノートの目的は、量子アルゴリズム、特に分割・結合構造を持つ人のために使用できる、プリプロセッシングやレベルワイズ最適化のような有用なアルゴリズムトリックを指摘することである。

Lexicographically minimal string rotation is a fundamental problem on string processing that has recently attracted a lot of attention in quantum computing. Near-optimal quantum algorithms have been proposed during its development, with new ideas such as quantum divide and conquer introduced. In this note, we further study its quantum query complexity. Slightly improved quantum algorithms by divide and conquer are proposed: 1. For the function problem, its query complexity is shown to be $\sqrt{n} \cdot 2^{O\left(\sqrt{\log n}\right)}$, improving the recent result of $\sqrt{n} \cdot 2^{\left(\log n\right)^{1/2+\varepsilon}}$ by Akmal and Jin (2022). 2. For the decision problem, its query complexity is shown to be $O\left(\sqrt{n \log^3 n \log \log n}\right)$, improving the recent result of $O\left(\sqrt{n \log^5 n}\right)$ by Childs et al. (2022). The purpose of this note is to point out some useful algorithmic tricks, e.g., preprocessing and level-wise optimization, that can be used to improve quantum algorithms, especially for those with a divide-and-conquer structure.
翻訳日:2023-01-22 07:09:51 公開日:2022-10-17
# 最適高速ハミルトニアン進化からのブロッホ球上のクビット測地学

Qubit Geodesics on the Bloch Sphere from Optimal-Speed Hamiltonian Evolutions ( http://arxiv.org/abs/2210.09142v1 )

ライセンス: Link先を確認
Carlo Cafaro, Paul M. Alsing(参考訳) 測地線パスは、適切な計量によって特徴づけられる曲線空間に関する関連する情報を含む。 例えば、一般相対性理論では、測地学は直線の概念を曲線時空まで拡張する。 量子進化の幾何学において、測地線経路は、統計学的に識別可能な状態の最大数が最小となる2つの純粋量子状態を結ぶ最小の統計長さの経路と見なされる。 本稿では,単一量子ビット量子状態の量子進化から生じる軌道の明示的な測地線解析について述べる。 この進化はエルミート・ハミルトン作用素によって支配され、与えられた初期状態と最終状態の間の最も速いユニタリ進化を達成する。 さらに、光線空間の測地線を最小長の経路として見ることに加えて、単位幾何効率と幾何位相の消滅の観点から経路の測地性を検証する。 最後に、我々の分析に基づいて、混合量子状態におけるオープン量子システムのための量子進化の幾何学へ移行する主なハードルを簡潔に論じる。

Geodesic paths incorporate relevant information about the curved space being characterized by a proper metric. In general relativity, for instance, geodesics extend the concept of straight lines to curved spacetime. In the geometry of quantum evolutions, instead, a geodesic path is viewed as a path of minimal statistical length connecting two pure quantum states along which the maximal number of statistically distinguishable states is minimum. In this paper, we present an explicit geodesic analysis of the trajectories that emerge from the quantum evolution of a single-qubit quantum state. The evolution is governed by an Hermitian Hamiltonian operator that achieves the fastest possible unitary evolution between given initial and final pure states. Furthermore, in addition to viewing geodesics in ray space as paths of minimal length, we also verify the geodesicity of paths in terms of unit geometric efficiency and vanishing geometric phase. Finally, based on our analysis, we briefly address the main hurdles in moving to the geometry of quantum evolutions for open quantum systems in mixed quantum states.
翻訳日:2023-01-22 07:09:24 公開日:2022-10-17
# 光物質相互作用を用いたフォトニックフェルミアークの表面状態の探索と利用

Probing and harnessing photonic Fermi arc surface states using light-matter interactions ( http://arxiv.org/abs/2210.09073v1 )

ライセンス: Link先を確認
I\~naki Garc\'ia-Elcano, Jaime Merino, Jorge Bravo-Abad and Alejandro Gonz\'alez-Tudela(参考訳) フェルミ弧(fermi arcs)、すなわち、位相的なワイル点をつなぐ表面状態は、ワイル物理学の位相的側面のパラダイム的顕現を表す。 本稿では、これらの状態のフォトニックな相似性に基づく光物質界面について検討し、他の設定では類似しない現象につながることを証明した。 まず,システム境界に結合した1つまたは複数のエミッタの自発的崩壊を研究することにより,フェルミ弧の撮像方法を示す。 第2に,フェルミ弧表面状態が強固な量子リンクとして作用できることを実証する。 そのため、これらのモードによって経験される負の屈折をシステムのヒンジで活用する。 この機構により、循環性フォトニック電流が生成され、再生の発生に応じて2つの異なる状態が生じる。 再生がない状態では、表面状態は散逸性キラル量子チャネルとして振る舞うため、例えば完全量子状態転移が可能である。 リバイバルの存在下では、効果的なオフ共鳴キャビティが誘導され、コヒーレントなエミッタカップリングが発生し、最大に絡み合うことができる。 その基本的な関心に加えて、我々の発見はより堅牢な量子技術の設計のためにフォトニックなフェルミアーク光物質界面がもたらす可能性を示している。

Fermi arcs, i.e., surface states connecting topologically-distinct Weyl points, represent a paradigmatic manifestation of the topological aspects of Weyl physics. Here, we investigate a light-matter interface based on the photonic counterpart of these states and we prove that it can lead to phenomena with no analogue in other setups. First, we show how to image the Fermi arcs by studying the spontaneous decay of one or many emitters coupled to the system's border. Second, we demonstrate that the Fermi arc surface states can act as a robust quantum link. To do that we exploit the negative refraction experienced by these modes at the hinges of the system. Thanks to this mechanism a circulatory photonic current is created which, depending on the occurrence of revivals, yields two distinct regimes. In the absence of revivals, the surface states behave as a dissipative chiral quantum channel enabling, e.g., perfect quantum state transfer. In the presence of revivals, an effective off-resonant cavity is induced, which leads to coherent emitter couplings that can entangle them maximally. In addition to their fundamental interest, our findings evidence the potential offered by the photonic Fermi arc light-matter interfaces for the design of more robust quantum technologies.
翻訳日:2023-01-22 07:08:48 公開日:2022-10-17
# 原子スピンコヒーレンスを増強した超感度原子コマグネトメータ

Ultrasensitive atomic comagnetometer with enhanced nuclear spin coherence ( http://arxiv.org/abs/2210.09027v1 )

ライセンス: Link先を確認
Kai Wei, Tian Zhao, Xiujie Fang, Zitong Xu, Chang Liu, Qian Cao, Arne Wickenbrock, Yanhui Hu, Wei Ji, Dmitry Budker(参考訳) スピン系における高エネルギー分解能の達成は、アルカリ-希ガスコマグネトロンが最高のセンサである、基礎物理学の研究と精密測定にとって重要である。 これらの装置では, 過分極核スピンの緩和を司るフェルミ接触相互作用場の勾配, 新たな緩和機構が発見された。 本稿では,核スピン過分極と横コヒーレンス時間の10倍増加を最適なハイブリッド光ポンピングで示し,スピン分布の精密制御について報告する。 自己補償系において、我々の$^{21}$Ne-Rb-Kコマグネトメーターは、周波数範囲が0.2 Hzから1.0 Hzの超高慣性回転感度を3\times 10^{-8}$\,rad/s/Hz$^{1/2}$で達成し、これは3.1\times 10^{-23}$\,eV/Hz$^{1/2}$のエネルギー分解能に相当する。 このコマグネトメータを用いて陽子と中性子のスピンが関与する異種スピン依存相互作用を探索する。 予測された感度は、以前の実験と天体物理学の限界を4桁以上超える。

Achieving high energy resolution in spin systems is important for fundamental physics research and precision measurements, with alkali-noble-gas comagnetometers being among the best available sensors. We found a new relaxation mechanism in such devices, the gradient of the Fermi-contact-interaction field that dominates the relaxation of hyperpolarized nuclear spins. We report on precise control over spin distribution, demonstrating a tenfold increase of nuclear spin hyperpolarization and transverse coherence time with optimal hybrid optical pumping. Operating in the self-compensation regime, our $^{21}$Ne-Rb-K comagnetometer achieves an ultrahigh inertial rotation sensitivity of $3\times10^{-8}$\,rad/s/Hz$^{1/2}$ in the frequency range from 0.2 to 1.0 Hz, which is equivalent to the energy resolution of $3.1\times 10^{-23}$\,eV/Hz$^{1/2}$. We propose to use this comagnetometer to search for exotic spin-dependent interactions involving proton and neutron spins. The projected sensitivity surpasses the previous experimental and astrophysical limits by more than four orders of magnitude.
翻訳日:2023-01-22 07:08:05 公開日:2022-10-17
# 変分ツールボックスによる非エルミート基底状態探索アルゴリズム

A non-Hermitian Ground State Searching Algorithm Enhanced by Variational Toolbox ( http://arxiv.org/abs/2210.09007v1 )

ライセンス: Link先を確認
Yu-Qin Chen, Shi-Xin Zhang, Chang-Yu Hsieh, and Shengyu Zhang(参考訳) 与えられたハミルトニアンの基底状態の準備は、量子化学、計算材料モデリング、組合せ最適化において非常に重要な量子計算タスクである。 我々は、ハミルトンシミュレーション技術を用いて、散逸性非エルミートハミルトニアン量子力学をシミュレートし、ターゲットハミルトニアンの基底状態を効率的に回復するアプローチを検討する。 提案手法は,アンシラキュービットを所望の状態に繰り返し投影することでエネルギー移動を促進し,システムキュービット上で有効な非エルミートハミルトン発展を実現する。 ノイズの多い中間スケール量子(NISQ)および早期耐故障性の時代において、この手法をより親しみやすくするために、非エルミタン射影アルゴリズムと変分モジュール拡張や変分状態記録を含む複数の変分ガジェットを組み合わせることにより、必要な回路深さを低減し、選択後の指数関数的に消滅する成功確率を回避する。 我々は,非エルミート変分法と純変分法-QAOAを比較し,3SAT問題の解法と逆場イジングモデルのための基底状態を作成する。 数値的な証拠によって示されるように、非ヘルミット変分アルゴリズムは量子資源効率の向上とともにqaoaを収束速度で上回っている。

Ground-state preparation for a given Hamiltonian is a common quantum-computing task of great importance and has relevant applications in quantum chemistry, computational material modeling, and combinatorial optimization. We consider an approach to simulate dissipative non-Hermitian Hamiltonian quantum dynamics using Hamiltonian simulation techniques to efficiently recover the ground state of a target Hamiltonian. The proposed method facilitates the energy transfer by repeatedly projecting ancilla qubits to the desired state, rendering the effective non-Hermitian Hamiltonian evolution on the system qubits. To make the method more resource friendly in the noisy intermediate-scale quantum (NISQ) and early fault-tolerant era, we combine the non-Hermitian projection algorithm with multiple variational gadgets, including variational module enhancement and variational state recording, to reduce the required circuit depth and avoid the exponentially vanishing success probability for post-selections. We compare our method, the non-Hermitian-variational algorithm, with a pure variational method -- QAOA for solving the 3-SAT problem and preparing the ground state for the transverse-field Ising model. As demonstrated by numerical evidence, the non-Hermitian-variational algorithm outperforms QAOA in convergence speed with improved quantum resource efficiency.
翻訳日:2023-01-22 07:07:41 公開日:2022-10-17
# 量子鍵分布におけるオフロード後処理の安全性について

On the Security of Offloading Post-Processing for Quantum Key Distribution ( http://arxiv.org/abs/2210.08977v1 )

ライセンス: Link先を確認
Thomas Loruenser, Stephan Krenn, Christoph Pacher, and Bernhard Schrenk(参考訳) qkd(quantum key distribution)は、約40年間にわたって研究され、現在商用アプリケーションへと向かっている。 しかしながら、qkdの特有な性質と物理的制約のため、大規模な技術展開は困難である。 中でも、QKDは後処理フェーズで計算集約されており、デバイスは複雑で電力が空いているため、特定のアプリケーションシナリオで問題が発生する。 本研究では,QKD後処理スタックの計算集約部分を,信頼できないハードウェアに安全な方法でオフロードする可能性について検討する。 離散変数QKDの誤り訂正を単一の信頼できないサーバに確実にオフロードし、遠隔連続変数QKDには同じ方法が適用できないことを示す。 さらに,マルチサーバプロトコルが誤り訂正やプライバシの増幅に利用される可能性を分析する。 外部サーバにオフロードできない場合であっても、デバイス上の信頼できないハードウェアコンポーネントに計算を委譲することができれば、デバイスメーカのコストと認証作業を改善することができる。

Quantum key distribution (QKD) has been researched for almost four decades and is currently making its way to commercial applications. However, deployment of the technology at scale is challenging, because of the very particular nature of QKD and its physical limitations. Among others, QKD is computationally intensive in the post-processing phase and devices are therefore complex and power hungry, which leads to problems in certain application scenarios. In this work we study the possibility to offload computationally intensive parts in the QKD post-processing stack in a secure way to untrusted hardware. We show how error correction can be securely offloaded for discrete-variable QKD to a single untrusted server and that the same method cannot be used for long distance continuous-variable QKD. Furthermore, we analyze possibilities for multi-server protocols to be used for error correction and privacy amplification. Even in cases where it is not possible to offload to an external server, being able to delegate computation to untrusted hardware components on the device could improve the cost and certification effort for device manufacturers.
翻訳日:2023-01-22 07:07:15 公開日:2022-10-17
# 化学反応経路を正確にシミュレートするためのモジュラー量子古典的枠組み

A modular quantum-classical framework for simulating chemical reaction pathways accurately ( http://arxiv.org/abs/2210.08930v1 )

ライセンス: Link先を確認
Nirmal M R, Shampa Sarkar, Manoj Nambiar, Sriram Goverapet Srinivasan(参考訳) 量子古典ハイブリッドコンピューティングアーキテクチャを用いて、小分子とそのポテンシャルエネルギー表面の基底状態エネルギーを正確にシミュレーションするために、近年多くの進歩がなされている。 これらの単点エネルギー計算は量子ハードウェア上での量子化学シミュレーションにとって重要なマイルストーンであるが、同様の重要な応用は様々な化学変換の反応経路を正確に追跡することである。 このような計算は、分子の核座標に関するエネルギー勾配の計算や分子配置の摂動歪みによって、平衡または最低エネルギー分子幾何学の正確な決定を必要とする。 本研究では,様々な分子反応の化学反応経路を正確にシミュレートする,モジュラー量子古典ハイブリッドフレームワークを提案する。 我々は、小さな有機分子の異性化経路を正確に追跡することで、我々の枠組みを実証する。 この枠組みは、薬品や化学産業の他の「活性」分子の研究に容易に応用できる。

A lot of progress has been made in recent times for simulating accurately the ground state energy of small molecules and their potential energy surface, using quantum-classical hybrid computing architecture. While these single point energy calculations are a significant milestone for quantum chemistry simulation on quantum hardware, a similarly important application is to trace accurately the reaction pathway of various chemical transformations. Such computations require accurate determination of the equilibrium or lowest energy molecular geometry, either by computing energy gradients with respect to the molecule's nuclear coordinates or perturbative distortion of the molecular configuration. In this work, we present a modular quantum-classical hybrid framework, to accurately simulate chemical reaction pathway of various kinds of molecular reactions. We demonstrate our framework by accurately tracing the isomerization pathway for small organic molecules. This framework can now be readily applied to study other 'active' molecules from the pharma and chemical industries.
翻訳日:2023-01-22 07:06:37 公開日:2022-10-17
# 量子独立性に基づく代数構造 : 理論と応用

Algebraic structures underlying quantum independences : Theory and Applications ( http://arxiv.org/abs/2210.09264v1 )

ライセンス: Link先を確認
Raphael Chetrite, Frederic Patras(参考訳) この調査は、量子確率に対する2つのアプローチを、より物理的に、量子力学から直接、そしてもう1つの代数的アプローチで調整する意志から得られた。 第2の先導的なアイデアは、いくつかの分野のアプリケーションに共同で導入する統一された図面を提供することだ。 最後に, 様々な非可換確率論における累積多項式やウィック多項式といった概念を扱うために, 群法や双代数法を用いた様々な結果を示す機会を得る。

The present survey results from the will to reconcile two approaches to quantum probabilities: one rather physical and coming directly from quantum mechanics, the other more algebraic. The second leading idea is to provide a unified picture introducing jointly to several fields of applications, many of which are probably not all familiar (at leat at the same time and in the form we use to present them) to the readers. Lastly, we take the opportunity to present various results obtained recently that use group and bialgebra techniques to handle notions such as cumulants or Wick polynomials in the various noncommutative probability theories.
翻訳日:2023-01-22 07:00:31 公開日:2022-10-17
# 散逸性ペアリング相互作用:量子不安定性、トポロジカル光、ボリュームロー絡み

Dissipative Pairing Interactions: Quantum Instabilities, Topological Light, and Volume-Law Entanglement ( http://arxiv.org/abs/2210.09252v1 )

ライセンス: Link先を確認
Andrew Pocklington, Yu-Xin Wang, Aashish A. Clerk(参考訳) 散逸的(または非エルミート的)なペアリング相互作用から生じるボソニックな動的不安定性の種類を分析した。 驚くべきことに、完全に安定な散逸性ペアリング相互作用は、単純なホッピングやビームスプリッター相互作用(安定)と組み合わせて不安定性を生成することができる。 さらに、そのような状況下での散逸定常状態は、不安定なしきい値(標準パラメトリック不安定性と明確な区別)まで完全に純粋なままである。 これらのペアリングによる不安定性はまた、波動関数の局在に対する非常に顕著な感度を示す。 これは、位相的バンド構造を有するフォトニック(またはより一般的なボソニック)格子のエッジモードを選択的に配置し、絡み合うための単純かつ強力な方法を提供する。 基礎となる散逸的なペアリング相互作用は実験的にリソースフレンドリであり、既存の格子に単一の局所的な相互作用を追加する必要があり、超伝導回路を含む多くの既存プラットフォームと互換性がある。

We analyze an unusual class of bosonic dynamical instabilities that arise from dissipative (or non-Hermitian) pairing interactions. We show that, surprisingly, a completely stable dissipative pairing interaction can be combined with simple hopping or beam-splitter interactions (also stable) to generate instabilities. Further, we find that the dissipative steady state in such a situation remains completely pure up until the instability threshold (in clear distinction from standard parametric instabilities). These pairing-induced instabilities also exhibit an extremely pronounced sensitivity to wavefunction localization. This provides a simple yet powerful method for selectively populating and entangling edge modes of photonic (or more general bosonic) lattices having a topological bandstructure. The underlying dissipative pairing interaction is experimentally resource-friendly, requiring the addition of a single additional localized interaction to an existing lattice, and is compatible with a number of existing platforms, including superconducting circuits.
翻訳日:2023-01-22 07:00:20 公開日:2022-10-17
# 普遍フォトニック量子コンピュータのためのコンパイラ

A compiler for universal photonic quantum computers ( http://arxiv.org/abs/2210.09251v1 )

ライセンス: Link先を確認
Felix Zilk (1) and Korbinian Staudacher (2) and Tobias Guggemos (1) and Karl F\"urlinger (2) and Dieter Kranzlm\"uller (3) and Philip Walther (1) ((1) Christian Doppler Laboratory for Photonic Quantum Computer, Faculty of Physics, University of Vienna, Vienna, Austria (2) MNM-Team, Ludwig-Maximilians-Universit\"at (LMU), Munich, Germany (3) MNM-Team, Leibniz Supercomputing Centre (LRZ), Garching, Germany)(参考訳) 光子は量子情報の天然資源であり、この10年で高品質な光子生成と検出が大幅に進歩した。 さらに、フォトニック量子ビットは操作が容易で、特に密封された環境を必要としないため、量子コンピューティングの魅力的なプラットフォームとなっている。 片道モデルでは、光子に基づく普遍的かつ大規模量子コンピュータのビジョンが実現可能となる。 一方向コンピューティングでは、入力状態は初期製品状態ではなく、いわゆるクラスタ状態である。 クラスタ状態の個々の量子ビットとその時間順序に関する一連の測定は、フィードフォワード手順とともに実行すべき量子回路を決定する。 本稿では,QASM回路を計測グラフ (m-graph) というグラフ表現に変換するパイプラインを提案する。 さらに,実験的な離散変数フォトニックプラットフォーム上での実行を評価する前に,zx計算を用いてグラフを最適化する。

Photons are a natural resource in quantum information, and the last decade showed significant progress in high-quality single photon generation and detection. Furthermore, photonic qubits are easy to manipulate and do not require particularly strongly sealed environments, making them an appealing platform for quantum computing. With the one-way model, the vision of a universal and large-scale quantum computer based on photonics becomes feasible. In one-way computing, the input state is not an initial product state, but a so-called cluster state. A series of measurements on the cluster state's individual qubits and their temporal order, together with a feed-forward procedure, determine the quantum circuit to be executed. We propose a pipeline to convert a QASM circuit into a graph representation named measurement-graph (m-graph), that can be directly translated to hardware instructions on an optical one-way quantum computer. In addition, we optimize the graph using ZX-Calculus before evaluating the execution on an experimental discrete variable photonic platform.
翻訳日:2023-01-22 07:00:01 公開日:2022-10-17
# アルゴンのマルチサイドバンドウサギ

Multi-Sideband RABBIT in Argon ( http://arxiv.org/abs/2210.09244v1 )

ライセンス: Link先を確認
D Bharti, H Srinivas, F Shobeiry, K R Hamilton, R Moshammer, T Pfeifer, K Bartschat, A Harth(参考訳) 2光子遷移(RABBIT)の干渉によるアト秒ビート再構成の3側バンド(3-SB)修正に関する共同実験および理論的研究を報告する。 3SB RABBIT スキームは連続体における異なる順序の遷移間の干渉による位相を調査できるようにする。 さらに、この手法の強みは、隣り合う2つのハーモニクスによって形成された特定のSB基から抽出されたRABBIT相を比較することにより、ハーモニクスのチャープとは独立に原子相のみに焦点を当てる能力である。 我々は、角度積分測定から抽出した3つのSBの位相と対応する時間遅延が、光子電子エネルギーの増加と類似していることを検証する。 3つのSBのRABBIT相の角度依存性の変化は、個々の角運動量チャネルに付随する異なるウィグナーおよび連続連続結合相から生じる。 この依存の質的な説明は、従属性規則を呼び出すことによって試みられる。 実験データとR行列からの予測(クローズカップリング)と時間依存計算との比較は,観測された傾向の質的一致を示す。

We report a joint experimental and theoretical study of a three-sideband (3-SB) modification of the "reconstruction of attosecond beating by interference of two-photon transitions" (RABBIT) setup. The 3-SB RABBIT scheme makes it possible to investigate phases resulting from interference between transitions of different orders in the continuum. Furthermore, the strength of this method is its ability to focus on the atomic phases only, independent of a chirp in the harmonics, by comparing the RABBIT phases extracted from specific SB groups formed by two adjacent harmonics. We verify earlier predictions that the phases and the corresponding time delays in the three SBs extracted from angle-integrated measurements become similar with increasing photon electron energy. A variation in the angle dependence of the RABBIT phases in the three SBs results from the distinct Wigner and continuum-continuum coupling phases associated with the individual angular momentum channels. A qualitative explanation of this dependence is attempted by invoking a propensity rule. Comparison between the experimental data and predictions from an R-matrix (close-coupling) with time dependence calculation shows qualitative agreement in the observed trends.
翻訳日:2023-01-22 06:59:45 公開日:2022-10-17
# キラル導波路における光の非古典状態の生成

Creation of non-classical states of light in a chiral waveguide ( http://arxiv.org/abs/2210.09216v1 )

ライセンス: Link先を確認
Kevin Kleinbeck, Hannes Busche, Nina Stiesdal, Sebastian Hofferberth, Klaus M{\o}lmer and Hans Peter B\"uchler(参考訳) 単純な量子系から古典的でない光の状態と古典的資源を作り出すことは難しい問題である。 コヒーレントドライブ下でのキラルエミッタが非古典的な光子状態を生成する方法を示す。 本分析では,送信光場内の特定の時間モードを選択し,関連するモードとカイラルエミッタを結合したマスター方程式を導出する。 我々は、モードの状態がウィグナー関数によって特徴づけられ、系からの放出が主に数光子付加コヒーレント状態の混合を生成することを示す。 これらの非古典的状態は実験的にアクセス可能であり、量子メトロロジーへの応用を示す。

Creating non-classical states of light from simple quantum systems together with classical resources is a challenging problem. We show how chiral emitters under a coherent drive can generate non-classical photon states. For our analysis, we select a specific temporal mode in the transmitted light field, resulting in a coupled master equation for the relevant mode and the chiral emitters. We characterise the mode's state by its Wigner function and show that the emission from the system predominantly produces mixtures of few-photon-added coherent states. We argue that these non-classical states are experimentally accessible and show their application for quantum metrology.
翻訳日:2023-01-22 06:59:29 公開日:2022-10-17
# IBM量子コンピュータにおけるロバストディジタル最適制御

Robust digital optimal control on IBM quantum computers ( http://arxiv.org/abs/2210.09212v1 )

ライセンス: Link先を確認
Meri Harutyunyan, Frederic Holweck, Dominique Sugny, and Stephane Guerin(参考訳) パルス整形デバイスが正確な量子最適制御を生成する能力は、量子技術の発展に強い制限を与える。 このような制約に適応したロバストなディジタル制御プロセスの設計手法を提案し,実証する。 このデジタルパルスが、その連続時間パルスからどれだけ得ることができるかを示す。 パルスパラメータが限られた数であっても、顕著な効率を達成することができる。 我々は,IBMの量子コンピュータ上で1量子ビットのプロトコルを実験的に実装し,時間T = 382 nsで最適なロバスト転送を実現する。

The ability of pulse-shaping devices to generate accurately quantum optimal control is a strong limitation to the development of quantum technologies. We propose and demonstrate a systematic procedure to design robust digital control processes adapted to such experimental constraints. We show to what extent this digital pulse can be obtained from its continuous-time counterpart. A remarkable efficiency can be achieved even for a limited number of pulse parameters. We experimentally implement the protocols on IBM quantum computers for a single qubit, obtaining an optimal robust transfer in a time T = 382 ns.
翻訳日:2023-01-22 06:59:18 公開日:2022-10-17
# 近似量子コンパイルにおけるバレン高原の脱出

Escaping barren plateaus in approximate quantum compiling ( http://arxiv.org/abs/2210.09191v1 )

ライセンス: Link先を確認
Niall F. Robertson, Albert Akhriev, Jiri Vala and Sergiy Zhuk(参考訳) 量子コンパイルは、量子アルゴリズムを高レベルの抽象化で実際のハードウェア上の量子回路として実装に翻訳する方法を提供する。 量子コンパイルの1つのアプローチは、パラメータ化された回路を設計し、パラメータ化された回路と興味のあるターゲット回路の間の距離を最小化するパラメータを見つけるために最適化の技法を用いることである。 有望ではあるが、そのようなアプローチは一般に不規則な台地の障害物、すなわち勾配が消えるパラメータ空間の広い領域に通じる。 いわゆる量子支援量子コンパイルに焦点を当てた最近の研究は、特定の場合において勾配を誘導する新しい技術を開発した。 ここでは,古典的支援による量子計算に適用可能な関連手法を開発・実装する。 近似状態準備と近似回路準備の両方を検討し,いずれの場合においても本研究で開発された手法による収束性を大幅に向上できることを示す。

Quantum compilation provides a method to translate quantum algorithms at a high level of abstraction into their implementations as quantum circuits on real hardware. One approach to quantum compiling is to design a parameterised circuit and to use techniques from optimisation to find the parameters that minimise the distance between the parameterised circuit and the target circuit of interest. While promising, such an approach typically runs into the obstacle of barren plateaus - i.e. large regions of parameter space in which the gradient vanishes. A number of recent works focusing on so-called quantum assisted quantum compiling have developed new techniques to induce gradients in some particular cases. Here we develop and implement a set of related techniques such that they can be applied to classically assisted quantum compiling. We consider both approximate state preparation and approximate circuit preparation and show that, in both cases, we can significantly improve convergence with the approach developed in this work.
翻訳日:2023-01-22 06:58:43 公開日:2022-10-17
# 種数$g \geq 2$の表面上のKitaev honeycombモデル

The Kitaev honeycomb model on surfaces of genus $g \geq 2$ ( http://arxiv.org/abs/2210.09180v1 )

ライセンス: Link先を確認
John Brennan and Ji\v{r}\'i Vala(参考訳) 任意の高次種表面上のキタエフハニカム格子モデルの構築について述べる。 まず、jordan-wigner fermionizationに基づくモデルの厳密な解を $g = 2$ の曲面に一般化し、これを基本加群として、解を任意の種の格子に拡張する。 本手法は, 最大$g = 6$ の格子上のアーベル二重化 $\mathbb{z}_2$ 相と非アーベルイジング位相相の両方において, モデルの基底状態を計算することで実証する。 いずれの位相相においても,系が期待される基底状態の縮退を検証し,さらにアベリア相におけるフェルミオンパリティの役割を解明する。

We present a construction of the Kitaev honeycomb lattice model on an arbitrary higher genus surface. We first generalize the exact solution of the model based on the Jordan-Wigner fermionization to a surface with genus $g = 2$, and then use this as a basic module to extend the solution to lattices of arbitrary genus. We demonstrate our method by calculating the ground states of the model in both the Abelian doubled $\mathbb{Z}_2$ phase and the non-Abelian Ising topological phase on lattices with the genus up to $g = 6$. We verify the expected ground state degeneracy of the system in both topological phases and further illuminate the role of fermionic parity in the Abelian phase.
翻訳日:2023-01-22 06:58:30 公開日:2022-10-17
# 新型コロナウイルスワクチン関連ソーシャルメディアデータの微調整感情分析:比較研究

Fine-tuned Sentiment Analysis of COVID-19 Vaccine-Related Social Media Data: Comparative Study ( http://arxiv.org/abs/2211.15407v1 )

ライセンス: Link先を確認
Chad A Melton, Brianna M White, Robert L Davis, Robert A Bednarczyk, Arash Shaban-Nejad(参考訳) 本研究では、2020年1月1日から2022年3月1日までの2つのソーシャルメディアプラットフォーム、RedditとTwitterで表現された新型コロナウイルスワクチンに関する公衆の感情を調査し比較した。 このタスクを達成するために、約950万のツイートと7万のRedditコメントの感情を予測する微調整されたDistilRoBERTaモデルを作成しました。 モデルを微調整するために、チームは3600ツイートの感情を手動でラベル付けし、バックトランスレーションの方法でデータセットを拡張しました。 ソーシャルメディアプラットフォーム毎のテキスト感情は、PythonとHuggingfaceの感情分析パイプラインを使用して、微調整されたモデルで分類された。 その結果、Twitter上で表現される平均感情はポジティブよりもネガティブ(52%)であり、Redditで表現される感情はネガティブ(53%)よりもポジティブ(53%)であることがわかった。 これらのソーシャルメディアプラットフォーム間で平均的な感情は異なることが判明したが、パンデミックの間、主要なワクチン関連開発で共有された感情に関する同様の行動を示した。 ソーシャルメディアプラットフォームで実証された同様の感情共有の傾向を考えると、TwitterとRedditは、公衆衛生当局がワクチンの信頼性を強化し、誤情報と戦うために利用できる貴重なデータソースであり続けている。 誤情報の拡散は、様々な心理的・精神社会的リスク(不安、恐怖など)をもたらすため、公共の視点と共有の虚偽に対する態度を理解することは急務である。 デジタルリテラシー、健康情報検索行動、精密健康促進を促進する住民の感情に合わせた総合的な教育配信システムは、そのような誤情報を明らかにするのに役立つ。

This study investigated and compared public sentiment related to COVID-19 vaccines expressed on two popular social media platforms, Reddit and Twitter, harvested from January 1, 2020, to March 1, 2022. To accomplish this task, we created a fine-tuned DistilRoBERTa model to predict sentiments of approximately 9.5 million Tweets and 70 thousand Reddit comments. To fine-tune our model, our team manually labeled the sentiment of 3600 Tweets and then augmented our dataset by the method of back-translation. Text sentiment for each social media platform was then classified with our fine-tuned model using Python and the Huggingface sentiment analysis pipeline. Our results determined that the average sentiment expressed on Twitter was more negative (52% positive) than positive and the sentiment expressed on Reddit was more positive than negative (53% positive). Though average sentiment was found to vary between these social media platforms, both displayed similar behavior related to sentiment shared at key vaccine-related developments during the pandemic. Considering this similar trend in shared sentiment demonstrated across social media platforms, Twitter and Reddit continue to be valuable data sources that public health officials can utilize to strengthen vaccine confidence and combat misinformation. As the spread of misinformation poses a range of psychological and psychosocial risks (anxiety, fear, etc.), there is an urgency in understanding the public perspective and attitude toward shared falsities. Comprehensive educational delivery systems tailored to the population's expressed sentiments that facilitate digital literacy, health information-seeking behavior, and precision health promotion could aid in clarifying such misinformation.
翻訳日:2023-01-22 06:51:11 公開日:2022-10-17
# 純粋に生成した有限相関状態に対する量子状態相互情報の減衰

Decay of quantum conditional mutual information for purely generated finitely correlated states ( http://arxiv.org/abs/2210.09387v1 )

ライセンス: Link先を確認
Pavel Svetlichnyy and T.A.B. Kennedy(参考訳) 量子状態回復と量子条件相互情報(QCMI)の接続は、1次元量子スピン鎖の純粋に生成される有限相関状態(pgFCS)のクラスに対して研究される。 鎖をバッファ領域によって分離された2つのサブシステムに分割すると、pgFCS は近似量子マルコフ連鎖であり、より強く、トレース距離において量子マルコフ連鎖によって近似され、バッファサイズが指数関数的に小さいことが示される。 このことは、(1) 局所的に崩壊した状態は、バッファシステム上の量子チャネルの作用によりほぼ復元でき、(2) QCMI はバッファ領域のサイズで指数関数的に小さくなることを意味する。 qcmiの指数的減衰速度の境界と量子回復チャネルの例を示す。

The connection between quantum state recovery and quantum conditional mutual information (QCMI) is studied for the class of purely generated finitely correlated states (pgFCS) of one-dimensional quantum spin chains. For a tripartition of the chain into two subsystems separated by a buffer region, it is shown that a pgFCS is an approximate quantum Markov chain, and stronger, may be approximated by a quantum Markov chain in trace distance, with an error exponentially small in the buffer size. This implies that, (1) a locally corrupted state can be approximately recovered by action of a quantum channel on the buffer system, and (2) QCMI is exponentially small in the size of the buffer region. Bounds on the exponential decay rate of QCMI and examples of quantum recovery channels are presented.
翻訳日:2023-01-22 06:50:22 公開日:2022-10-17
# 量子デバイスの自己一貫性雑音特性

Self-consistent noise characterization of quantum devices ( http://arxiv.org/abs/2210.09370v1 )

ライセンス: Link先を確認
Won Kyu Calvin Sun and Paola Cappellaro(参考訳) 量子系に影響を及ぼす環境の特徴化と理解は、その物理的性質を解明し、より良い量子デバイスを設計する上で重要である。 我々は,単純な予測ノイズモデルに単一量子ビットの劣化を引き起こす量子環境の低減手法を開発した。 量子ノイズスペクトロスコピーに触発された我々のアプローチは、様々な量子ビット力学の下で観測された全てのデコヒーレンスと互換性のある「自己整合」な古典的ノイズスペクトルを定義することである。 ナノスケールの空間分解能で、ダイヤモンド中の2つの電子スピンが経験するノイズを特徴付けることによって、我々のアプローチのパワーと限界を実証する。 本研究は,既存のノイズスペクトル法の限界を克服し,基礎となる環境を正確に特徴付けるための予測モデルを見つけることの重要性を強調した。 我々の研究をマルチキュービットシステムに拡張することで、複雑な環境の空間分解された量子センシングと量子デバイスの特徴、特に量子誤り訂正の実用的な実現に欠かせない量子ビット間の相関ノイズを特定することができる。

Characterizing and understanding the environment affecting quantum systems is critical to elucidate its physical properties and engineer better quantum devices. We develop an approach to reduce the quantum environment causing single-qubit dephasing to a simple yet predictive noise model. Our approach, inspired by quantum noise spectroscopy, is to define a "self-consistent" classical noise spectrum, that is, compatible with all observed decoherence under various qubit dynamics. We demonstrate the power and limits of our approach by characterizing, with nanoscale spatial resolution, the noise experienced by two electronic spins in diamond that, despite their proximity, surprisingly reveal the presence of a complex quantum spin environment, both classically-reducible and not. Our results overcome the limitations of existing noise spectroscopy methods, and highlight the importance of finding predictive models to accurately characterize the underlying environment. Extending our work to multiqubit systems would enable spatially-resolved quantum sensing of complex environments and quantum device characterization, notably to identify correlated noise between qubits, which is crucial for practical realization of quantum error correction.
翻訳日:2023-01-22 06:50:08 公開日:2022-10-17
# 量子回路マッピングのための最適サブアーキテクチャについて

On Optimal Subarchitectures for Quantum Circuit Mapping ( http://arxiv.org/abs/2210.09321v1 )

ライセンス: Link先を確認
Tom Peham, Lukas Burgholzer and Robert Wille(参考訳) 最先端の量子コンピュータで実行できる低レベル記述に高レベル量子回路をコンパイルすることは、量子コンピューティングのソフトウェアスタックの重要な部分である。 あるデバイスに量子回路をコンパイルする1つのステップは量子回路マッピングである。 量子回路マッピングにおける探索空間は量子ビット数で指数関数的に増加するため、このプロセスでできる限りデバイスの物理的量子ビットの数を考えることが望ましい。 以前の研究は、回路で使用されるキュービットの数だけからなる量子コンピュータのサブアーキテクチャのみを考えるのに十分であると予想していた。 本稿では、この予想を反論し、アーキテクチャの大きい部分を考慮するとマッピングの問題に対するより良い解決策が得られるかどうかを判断するための基準を確立する。 厳密な解析を通じて、最小サイズのサブアーキテクチャを決定すること、すなわち、ある量子回路の最適なマッピング解を失うことなく物理的な量子ビットを取り除くことは、非常に難しい問題であることを示した。 最適性基準の緩和に基づき、実用的な量子回路の最適性を維持した緩和された考察を導入する。 最終的には、効率的な量子回路マッピングソリューションの基礎を提供するサブアーキテクチャの最適化に近い集合を計算するための2つの方法が導かれる。 我々は、IBM、Google、Rigettiによる最先端量子コンピュータに対するこの新しい手法の利点を実証する。

Compiling a high-level quantum circuit down to a low-level description that can be executed on state-of-the-art quantum computers is a crucial part of the software stack for quantum computing. One step in compiling a quantum circuit to some device is quantum circuit mapping, where the circuit is transformed such that it complies with the architecture's limited qubit connectivity. Because the search space in quantum circuit mapping grows exponentially in the number of qubits, it is desirable to consider as few of the device's physical qubits as possible in the process. Previous work conjectured that it suffices to consider only subarchitectures of a quantum computer composed of as many qubits as used in the circuit. In this work, we refute this conjecture and establish criteria for judging whether considering larger parts of the architecture might yield better solutions to the mapping problem. Through rigorous analysis, we show that determining subarchitectures that are of minimal size, i.e., of which no physical qubit can be removed without losing the optimal mapping solution for some quantum circuit, is a very hard problem. Based on a relaxation of the criteria for optimality, we introduce a relaxed consideration that still maintains optimality for practically relevant quantum circuits. Eventually, this results in two methods for computing near-optimal sets of subarchitectures$\unicode{x2014}$providing the basis for efficient quantum circuit mapping solutions. We demonstrate the benefits of this novel method for state-of-the-art quantum computers by IBM, Google and Rigetti.
翻訳日:2023-01-22 06:49:48 公開日:2022-10-17
# クビット安定化符号における移動非アベリア素数のグラフゲージ理論

Graph gauge theory of mobile non-Abelian anyons in a qubit stabilizer code ( http://arxiv.org/abs/2210.09282v1 )

ライセンス: Link先を確認
Yuri D. Lensky, Kostyantyn Kechedzhi, Igor Aleiner, and Eun-Ah Kim(参考訳) 安定化符号は、量子情報の非局所符号化と処理を可能にする。 安定化曲面符号の変形は、新しくて非自明な幾何学をもたらし、特に射影イジング非可換アノンとして知られる長い後続物体の出現に繋がる。 このようなオンのブレイディングは、位相量子計算の重要な要素である。 我々は,非アベリアの異種体の編曲,操作,読解のための効果的なユニタリプロトコルの構築と,その絡み合った状態の調製のための,単純かつ体系的なアプローチを提案する。 曲面コードを次数2, 3, 4の頂点を持つより一般的なグラフに一般化する。 このアプローチは、そのようなグラフ上で定義される安定化符号を、2つの創発ゲージ場に対して荷電されたマヨラナフェルミオンのモデルにマッピングすることに基づいている。 1つのゲージ場は物理磁場に似ている。 もう一方は非可換なアノニオン統計の出現に責任を持ち、純粋に幾何学的起源を持つ。 この分野は、ディマー被覆の統計理論においてカステレイン方向として知られるグラフ上の向き付けの規則を割り当てることから生じる。 グラフ上の各3次頂点は、この「カスティーリン」体のフラックスを持ち、非アベリア随伴体をホストする。 このアプローチでは、実験的に関連するすべての作用素は局所性、ユニタリティ、ゲージ不変性によってあいまいに固定される。 非アベリア統計の検証実験において,本手法の有効性について述べる。

Stabilizer codes allow for non-local encoding and processing of quantum information. Deformations of stabilizer surface codes introduce new and non-trivial geometry, in particular leading to emergence of long sought after objects known as projective Ising non-Abelian anyons. Braiding of such anyons is a key ingredient of topological quantum computation. We suggest a simple and systematic approach to construct effective unitary protocols for braiding, manipulation and readout of non-Abelian anyons and preparation of their entangled states. We generalize the surface code to a more generic graph with vertices of degree 2, 3 and 4. Our approach is based on the mapping of the stabilizer code defined on such a graph onto a model of Majorana fermions charged with respect to two emergent gauge fields. One gauge field is akin to the physical magnetic field. The other one is responsible for emergence of the non-Abelian anyonic statistics and has a purely geometric origin. This field arises from assigning certain rules of orientation on the graph known as the Kasteleyn orientation in the statistical theory of dimer coverings. Each 3-degree vertex on the graph carries the flux of this "Kasteleyn" field and hosts a non-Abelian anyon. In our approach all the experimentally relevant operators are unambiguously fixed by locality, unitarity and gauge invariance. We illustrate the power of our method by making specific prescriptions for experiments verifying the non-Abelian statistics.
翻訳日:2023-01-22 06:49:09 公開日:2022-10-17
# 開量子システムにおける非コヒーレンス、絡み合いネガティビティと回路複雑性

Decoherence, Entanglement Negativity and Circuit Complexity for Open Quantum System ( http://arxiv.org/abs/2210.09268v1 )

ライセンス: Link先を確認
Arpan Bhattacharyya, Tanvir Hanif, S. Shajidul Haque, Arpon Paul(参考訳) 本稿では, 2つの開量子系における飽和時間スケールの複雑性, 線形エントロピー, 絡み合いネガティビティを比較する。 最初のモデルは結合調和振動子で、振動子の1つを風呂として扱う。 2つ目はカルデイラ・レゲットモデルの一種で、1次元自由スカラー場を浴場として考える。 これらの開量子系を用いて、精製の複雑さと演算子状態マッピングの複雑さが常に完全に混合状態に飽和していることを発見した。 より明確には、両方のタイプの複雑性に対する飽和時間スケールは、線形エントロピーに対する飽和時間スケールよりも小さい。 これに加えて、線形エントロピーとエンタングルメント負性率の飽和時間スケールはカルデイラ・レゲットモデルと同じ順序であることがわかった。

In this paper, we compare the saturation time scales for complexity, linear entropy and entanglement negativity for two open quantum systems. Our first model is a coupled harmonic oscillator, where we treat one of the oscillators as the bath. The second one is a type of Caldeira Leggett model, where we consider a one-dimensional free scalar field as the bath. Using these open quantum systems, we discovered that both the complexity of purification and the complexity from operator state mapping is always saturated for a completely mixed state. More explicitly, the saturation time scale for both types of complexity is smaller than the saturation time scale for linear entropy. On top of this, we found that the saturation time scale for linear entropy and entanglement negativity is of the same order for the Caldeira Leggett model.
翻訳日:2023-01-22 06:48:34 公開日:2022-10-17
# アダムとアダグラードの簡単な収束証明

A Simple Convergence Proof of Adam and Adagrad ( http://arxiv.org/abs/2003.02395v3 )

ライセンス: Link先を確認
Alexandre D\'efossez, L\'eon Bottou, Francis Bach, Nicolas Usunier(参考訳) 有界勾配を持つ滑らかな(非凸な)対象関数に適用した場合、Adam と Adagrad の適応最適化アルゴリズムの両方をカバーする単純な収束の証明を与える。 予測において、軌道上で平均される客観的勾配の2乗ノルムは、問題の定数、オプティマイザのパラメータ、次元 $d$、反復の総数 $n$ で明示された上限を持つ。 この境界は任意に小さくすることができ、右超パラメータでは、adam は同じ収束率である $o(d\ln(n)/\sqrt{n})$ で収束することが示される。 しかし、デフォルトのパラメータで使われる場合、Adamは収束せず、定常的なステップサイズSGDと同じように、初期化点からAdagradより早く離れて、実際の成功を説明するかもしれない。 最後に,非凸adam と adagrad の以前の収束境界のうち,重球運動量減衰率 $\beta_1$ に対する最も強い依存度を求め,$o((1-\beta_1)^{-3})$ から $o((1-\beta_1)^{-1})$ に改善した。

We provide a simple proof of convergence covering both the Adam and Adagrad adaptive optimization algorithms when applied to smooth (possibly non-convex) objective functions with bounded gradients. We show that in expectation, the squared norm of the objective gradient averaged over the trajectory has an upper-bound which is explicit in the constants of the problem, parameters of the optimizer, the dimension $d$, and the total number of iterations $N$. This bound can be made arbitrarily small, and with the right hyper-parameters, Adam can be shown to converge with the same rate of convergence $O(d\ln(N)/\sqrt{N})$. When used with the default parameters, Adam doesn't converge, however, and just like constant step-size SGD, it moves away from the initialization point faster than Adagrad, which might explain its practical success. Finally, we obtain the tightest dependency on the heavy ball momentum decay rate $\beta_1$ among all previous convergence bounds for non-convex Adam and Adagrad, improving from $O((1-\beta_1)^{-3})$ to $O((1-\beta_1)^{-1})$.
翻訳日:2022-12-26 06:24:34 公開日:2022-10-17
# 混合正則化について

On Mixup Regularization ( http://arxiv.org/abs/2006.06049v3 )

ライセンス: Link先を確認
Luigi Carratino, Moustapha Ciss\'e, Rodolphe Jenatton, Jean-Philippe Vert(参考訳) Mixupは、トレーニングポイントとラベルの凸組み合わせとして新しい例を作成するデータ拡張テクニックである。 この単純な手法は、異なる設定や応用において多くの最先端モデルの精度を向上させることを実証的に示しているが、この経験的成功の背景にある理由は未だよく分かっていない。 本稿では,その正規化効果を明らかにすることにより,ミックスアップの理論的な基礎を説明するための重要な一歩を踏み出す。 本研究では,データ変換と変換データのランダムな摂動を組み合わせることにより,ミックスアップを標準経験的リスク最小化推定器と解釈できることを示す。 我々はこの新しい解釈から2つの重要な洞察を得る。 まず、データ変換は、テスト時にmixupでトレーニングされたモデルが変換されたデータにも適用されるべきであることを示唆している。 次に,ミックスアップの新しい解釈のランダムな摂動がラベル平滑化や推定子のリプシッツ定数の低減を含む複数の既知の正規化スキームを誘導することを示す。 これらのスキームは相乗的に相互に作用し、過剰な適合と過信の予測を防ぐ自己調整と効果的な正規化効果をもたらす。 我々は、理論分析を結論を支持する実験と調和させる。

Mixup is a data augmentation technique that creates new examples as convex combinations of training points and labels. This simple technique has empirically shown to improve the accuracy of many state-of-the-art models in different settings and applications, but the reasons behind this empirical success remain poorly understood. In this paper we take a substantial step in explaining the theoretical foundations of Mixup, by clarifying its regularization effects. We show that Mixup can be interpreted as standard empirical risk minimization estimator subject to a combination of data transformation and random perturbation of the transformed data. We gain two core insights from this new interpretation. First, the data transformation suggests that, at test time, a model trained with Mixup should also be applied to transformed data, a one-line change in code that we show empirically to improve both accuracy and calibration of the prediction. Second, we show how the random perturbation of the new interpretation of Mixup induces multiple known regularization schemes, including label smoothing and reduction of the Lipschitz constant of the estimator. These schemes interact synergistically with each other, resulting in a self calibrated and effective regularization effect that prevents overfitting and overconfident predictions. We corroborate our theoretical analysis with experiments that support our conclusions.
翻訳日:2022-11-23 04:47:49 公開日:2022-10-17
# コントラスト型視聴覚マスクオートエンコーダ

Contrastive Audio-Visual Masked Autoencoder ( http://arxiv.org/abs/2210.07839v2 )

ライセンス: Link先を確認
Yuan Gong, Andrew Rouditchenko, Alexander H. Liu, David Harwath, Leonid Karlinsky, Hilde Kuehne, James Glass(参考訳) 本稿では,最新のMasked Auto-Encoder(MAE)モデルを単一モーダルからオーディオ視覚多目的へ拡張する。 次に, コントラスト学習とマスキングデータモデリングを組み合わせることで, 協調学習と協調学習を実現するコントラスト音声視覚マスク自動エンコーダ (cav-mae) を提案する。 実験の結果, 音声-視覚対応学習の目的は, モデルが音声-視覚検索タスクを実行できるだけでなく, モデルがより優れた関節表現を学習するのに役立つことがわかった。 その結果、VGGSoundでは、完全自己教師付きCAV-MAEが65.9%の新しいSOTA精度を実現し、オーディオ-視覚イベント分類タスクにおけるAudioSetの教師付き事前訓練モデルに匹敵する結果となった。

In this paper, we first extend the recent Masked Auto-Encoder (MAE) model from a single modality to audio-visual multi-modalities. Subsequently, we propose the Contrastive Audio-Visual Masked Auto-Encoder (CAV-MAE) by combining contrastive learning and masked data modeling, two major self-supervised learning frameworks, to learn a joint and coordinated audio-visual representation. Our experiments show that the contrastive audio-visual correspondence learning objective not only enables the model to perform audio-visual retrieval tasks, but also helps the model learn a better joint representation. As a result, our fully self-supervised pretrained CAV-MAE achieves a new SOTA accuracy of 65.9% on VGGSound, and is comparable with the previous best supervised pretrained model on AudioSet in the audio-visual event classification task.
翻訳日:2022-10-23 20:42:37 公開日:2022-10-17
# 多施設医療センターにおけるAIを用いた胸部X線読影支援の日常的活用

Routine Usage of AI-based Chest X-ray Reading Support in a Multi-site Medical Supply Center ( http://arxiv.org/abs/2210.10779v1 )

ライセンス: Link先を確認
Karsten Ridder, Alexander Preuhs, Axel Mertins, Clemens Joerger(参考訳) 研究課題: 臨床業務における胸部X線読影のためのAIサポートの確立と, 臨床医や放射線技師にとってのメリットについて検討する。 臨床医の24時間サポートは可能か? 2. 発見: 所定の構造(ドイツのMVZ Uhlenbrock & Partner)にChest X線用のAIソリューションをインストールした。 10ヶ所の臨床現場で実用性, 性能, 便益を示すことができた。 3.意味:胸部x線画像の評価のための市販のaiソリューションは、複雑な環境での放射線科医や臨床研究員の24/7に役立つ。 本システムは, 放射線技師や臨床同僚が重要な決定を下す上で, 利用者によらず, 医療機関や病院で, 画像データを作成するX線システムタイプによらず, 堅牢に機能する。

Research question: How can we establish an AI support for reading of chest X-rays in clinical routine and which benefits emerge for the clinicians and radiologists. Can it perform 24/7 support for practicing clinicians? 2. Findings: We installed an AI solution for Chest X-ray in a given structure (MVZ Uhlenbrock & Partner, Germany). We could demonstrate the practicability, performance, and benefits in 10 connected clinical sites. 3. Meaning: A commercially available AI solution for the evaluation of Chest X-ray images is able to help radiologists and clinical colleagues 24/7 in a complex environment. The system performs in a robust manner, supporting radiologists and clinical colleagues in their important decisions, in practises and hospitals regardless of the user and X-ray system type producing the image-data.
翻訳日:2022-10-21 14:14:24 公開日:2022-10-17
# グラフニューラルネットワークを用いたマルチエージェントナビゲーションのための学習制御許容度モデル

Learning Control Admissibility Models with Graph Neural Networks for Multi-Agent Navigation ( http://arxiv.org/abs/2210.09378v1 )

ライセンス: Link先を確認
Chenning Yu, Hongzhan Yu and Sicun Gao(参考訳) 継続的ドメインにおける深い強化学習は、各ステップにおける最適な選択に理想的に集中するアクション上の状態と分布をマッピングする学習制御ポリシーに焦点を当てる。 多エージェントナビゲーション問題では、最適な動作はエージェントの密度に大きく依存する。 これらの相互作用パターンは、そのような密度に関して指数関数的に成長し、学習に基づく手法の一般化が困難になる。 そこで本研究では,学習目標を最適行動の予測から許容行動のセットの予測に切り替える手法を提案し,制御許容性モデル (cams) と呼ぶ。 我々は,グラフニューラルネットワークを用いてCAMを設計し,標準モデルフリー設定でCAMを最適化するトレーニング手法を開発した。 マルチエージェントナビゲーション環境における提案手法の評価を行った。 CAMモデルは少数のエージェントしか持たない環境で訓練でき、数百のエージェントで密集した環境に展開するために容易に構成でき、最先端の手法よりも優れた性能を実現することができる。

Deep reinforcement learning in continuous domains focuses on learning control policies that map states to distributions over actions that ideally concentrate on the optimal choices in each step. In multi-agent navigation problems, the optimal actions depend heavily on the agents' density. Their interaction patterns grow exponentially with respect to such density, making it hard for learning-based methods to generalize. We propose to switch the learning objectives from predicting the optimal actions to predicting sets of admissible actions, which we call control admissibility models (CAMs), such that they can be easily composed and used for online inference for an arbitrary number of agents. We design CAMs using graph neural networks and develop training methods that optimize the CAMs in the standard model-free setting, with the additional benefit of eliminating the need for reward engineering typically required to balance collision avoidance and goal-reaching requirements. We evaluate the proposed approach in multi-agent navigation environments. We show that the CAM models can be trained in environments with only a few agents and be easily composed for deployment in dense environments with hundreds of agents, achieving better performance than state-of-the-art methods.
翻訳日:2022-10-20 15:32:41 公開日:2022-10-17
# 自律型人工知能の現状と展望

Review of the state of the art in autonomous artificial intelligence ( http://arxiv.org/abs/2210.10659v1 )

ライセンス: Link先を確認
Petar Radanliev, David De Roure(参考訳) 本稿では、最先端のアルゴリズムに基づく自律人工知能(AI)の新しい設計を提案し、AutoAIと呼ばれる新しい自律AIシステムについて述べる。 この手法は、NEFD(new and emerging source of data)を使用する自己改善アルゴリズムに基づく設計の組み立てに使用される。 本論文の目的は,新しいAutoAIアルゴリズムの設計を概念化することである。 この概念的アプローチは、新しく改良されたアルゴリズムの構築に利用される。 本論文は,既存の文献から得られた知見を統合し,(1)AIアルゴリズムの教育と訓練のための新しいデータソースと,(2)AIアルゴリズムが新しい改良アルゴリズムをトレーニングするための自動化ツールを使用できるように,AutoAI設計を進化させる。 このアプローチはAIアルゴリズムの最先端を超えており、自律的アルゴリズムが自己最適化と自己適応を可能にし、より高いレベルで自己調達を可能にする設計を提案する。

This article presents a new design for autonomous artificial intelligence (AI), based on the state-of-the-art algorithms, and describes a new autonomous AI system called AutoAI. The methodology is used to assemble the design founded on self-improved algorithms that use new and emerging sources of data (NEFD). The objective of the article is to conceptualise the design of a novel AutoAI algorithm. The conceptual approach is used to advance into building new and improved algorithms. The article integrates and consolidates the findings from existing literature and advances the AutoAI design into (1) using new and emerging sources of data for teaching and training AI algorithms and (2) enabling AI algorithms to use automated tools for training new and improved algorithms. This approach is going beyond the state-of-the-art in AI algorithms and suggests a design that enables autonomous algorithms to self-optimise and self-adapt, and on a higher level, be capable to self-procreate.
翻訳日:2022-10-20 13:43:25 公開日:2022-10-17
# 教師向けリアルタイム教室ゲームダッシュボードに関するパイロット研究

A Pilot Study on Teacher-Facing Real-Time Classroom Game Dashboards ( http://arxiv.org/abs/2210.09427v1 )

ライセンス: Link先を確認
Luke Swanson, David Gagnon, Jennifer Scianna(参考訳) 教育ゲームは現代の教室で人気の教育ツールである。 しかし,ゲームプレイを支援する教師のための補完ツールの開発は欠落している。 本稿では,教師向けリアルタイムゲームデータダッシュボードの参加型設計プロセスの結果について述べる。 この2段階のプロセスには、このようなツールに対する教師の要求を抽出するワークショップと、ダッシュボードプロトタイプのパイロットスタディが含まれていました。 ゲーム後調査およびインタビューデータを分析し,共同設計,実現可能性,有効性の証拠から教師の体験を理解する。 その結果, 参加型デザインは, 実クラスゲームプレイセッションのコンテキストにおいて, 教師にとって有用かつ有用なツールであることがわかった。 我々は,教室に展開するゲームの有効性を向上させるためのデータ駆動型教師ツールの継続的な開発を提唱する。

Educational games are an increasingly popular teaching tool in modern classrooms. However, the development of complementary tools for teachers facilitating classroom gameplay is lacking. We present the results of a participatory design process for a teacher-facing, real-time game data dashboard. This two-phase process included a workshop to elicit teachers' requirements for such a tool, and a pilot study of our dashboard prototype. We analyze post-gameplay survey and interview data to understand teachers' experiences with the tool in terms of evidence of co-design, feasibility, and effectiveness. Our results indicate the participatory design yielded a tool both useful for and usable by teachers within the context of a real class gameplay session. We advocate for the continued development of data-driven teacher tools to improve the effectiveness of games deployed in the classroom.
翻訳日:2022-10-19 16:19:07 公開日:2022-10-17
# バートはできるのか? BERT言語モデルに基づく制御領域ネットワーク侵入検知システム

CAN-BERT do it? Controller Area Network Intrusion Detection System based on BERT Language Model ( http://arxiv.org/abs/2210.09439v1 )

ライセンス: Link先を確認
Natasha Alkhatib, Maria Mushtaq, Hadi Ghauch, Jean-Luc Danger(参考訳) 高度な顧客機能の増加により、電子制御ユニット(ECU)は現代の自動車システムに統合されつつある。 しかし、車載ネットワークと外部ネットワークとの間の高い接続性は、車載ネットワークプロトコルの脆弱性を悪用できるハッカーの道を開く。 これらのプロトコルの中で、最も広く使われている車載ネットワーク技術として知られるController Area Network(CAN)は、暗号化と認証機構が欠如しており、分散ECUによる通信の安全性が低い。 本稿では,多くの自然言語処理タスクを改善するための変換器(BERT)による双方向エンコーダ表現の卓越した性能に着想を得て,CANバスプロトコルに対するサイバー攻撃を検出する深層学習ベースのネットワーク侵入検知システムである「CAN-BERT」を提案する。 Car Hacking: Attack \& Defense Challenge 2020"データセットの実験結果は、‘CAN-BERT’が最先端のアプローチを上回っていることを示している。 また、車内侵入を0.8msから3msのCANIDシーケンス長でリアルタイムに識別できるだけでなく、F1スコアの0.81から0.99で様々なサイバー攻撃を検出することもできる。

Due to the rising number of sophisticated customer functionalities, electronic control units (ECUs) are increasingly integrated into modern automotive systems. However, the high connectivity between the in-vehicle and the external networks paves the way for hackers who could exploit in-vehicle network protocols' vulnerabilities. Among these protocols, the Controller Area Network (CAN), known as the most widely used in-vehicle networking technology, lacks encryption and authentication mechanisms, making the communications delivered by distributed ECUs insecure. Inspired by the outstanding performance of bidirectional encoder representations from transformers (BERT) for improving many natural language processing tasks, we propose in this paper ``CAN-BERT", a deep learning based network intrusion detection system, to detect cyber attacks on CAN bus protocol. We show that the BERT model can learn the sequence of arbitration identifiers (IDs) in the CAN bus for anomaly detection using the ``masked language model" unsupervised training objective. The experimental results on the ``Car Hacking: Attack \& Defense Challenge 2020" dataset show that ``CAN-BERT" outperforms state-of-the-art approaches. In addition to being able to identify in-vehicle intrusions in real-time within 0.8 ms to 3 ms w.r.t CAN ID sequence length, it can also detect a wide variety of cyberattacks with an F1-score of between 0.81 and 0.99.
翻訳日:2022-10-19 16:18:57 公開日:2022-10-17
# モダリティとビュー分析によるリアルタイムドライバモニタリングシステム

Real-Time Driver Monitoring Systems through Modality and View Analysis ( http://arxiv.org/abs/2210.09441v1 )

ライセンス: Link先を確認
Yiming Ma, Victor Sanchez, Soodeh Nikan, Devesh Upadhyay, Bhushan Atote, Tanaya Guha(参考訳) 運転者の気晴らしは交通事故の主な原因として知られている。 監視システムは、非自動運転関連の活動を検出し、リスクを軽減することができるが、適用するには正確かつ効率的でなければならない。 残念なことに、最先端の手法は、連続するフレームが非常に類似したクロスビューおよびマルチモーダルビデオを活用するため、レイテンシを無視しながら精度を優先する。 そこで本研究では,映像フレーム間の時間的関係を無視し,ドライブの動作検出における各センシングモダリティの重要性を検討することにより,時間効率の高い検出モデルを求める。 実験が示すのは 1)提案アルゴリズムはリアルタイムであり,ビデオベースモデルと比較して計算量を大幅に削減した類似性能(97.5\% AUC-PR)を実現することができる。 2) 赤外チャネルを持つトップビューは他のどの単一のモダリティよりも情報的です。 さらに,テストセットを手動でアノテートすることで,DADデータセットを強化し,マルチクラス化を実現する。 また,視覚センサタイプとその配置が各クラスの予測に及ぼす影響を徹底的に解析した。 コードと新しいラベルがリリースされます。

Driver distractions are known to be the dominant cause of road accidents. While monitoring systems can detect non-driving-related activities and facilitate reducing the risks, they must be accurate and efficient to be applicable. Unfortunately, state-of-the-art methods prioritize accuracy while ignoring latency because they leverage cross-view and multimodal videos in which consecutive frames are highly similar. Thus, in this paper, we pursue time-effective detection models by neglecting the temporal relation between video frames and investigate the importance of each sensing modality in detecting drives' activities. Experiments demonstrate that 1) our proposed algorithms are real-time and can achieve similar performances (97.5\% AUC-PR) with significantly reduced computation compared with video-based models; 2) the top view with the infrared channel is more informative than any other single modality. Furthermore, we enhance the DAD dataset by manually annotating its test set to enable multiclassification. We also thoroughly analyze the influence of visual sensor types and their placements on the prediction of each class. The code and the new labels will be released.
翻訳日:2022-10-19 16:08:47 公開日:2022-10-17
# TorchDIVA: オープンソースの機械学習ライブラリ上に構築された音声生成の拡張可能な計算モデル

TorchDIVA: An Extensible Computational Model of Speech Production built on an Open-Source Machine Learning Library ( http://arxiv.org/abs/2210.09334v1 )

ライセンス: Link先を確認
Sean Kinahan, Julie Liss, Visar Berisha(参考訳) DIVAモデルは音声運動制御の計算モデルであり、音声生成に関与する脳領域のシミュレーションと人間の声道モデルを組み合わせたものである。 モデルは現在、Matlab Simulinkで実装されているが、Pythonで音声技術の研究が行われているため、これは理想的ではない。 これは、DIVAと簡単に統合できないPythonエコシステムで自由に利用できる、豊富な機械学習ツールが存在することを意味する。 PyTorchテンソルを用いたPythonでのDIVAの完全な再構築であるTorchDIVAを提案する。 DIVAソースコードはMatlabからPythonへ直接変換され、組み込みのSimulinkシグナルブロックはゼロから実装された。 実装後、各モジュールの精度を系統的ブロック・バイ・ブロック検証により評価した。 トーチディバモデルでは、元のディヴァモデルと密接に一致する出力を生成でき、両者の差は無視できる。 また,研究プラットフォームとしてのTorchDIVAの拡張性を示す。 TorchDIVAにおける音声品質の向上は、DiffWaveと呼ばれる既存のPyTorch生成ボコーダとの統合によって達成される。 人間の音声波形を訓練し, トーチディバ音声生成の条件とした。 その結果,DiffWave強調出力の音声品質指標はベースラインと比較して改善した。 この拡張は、オリジナルのMatlab実装で達成することは困難か不可能であった。 この概念実証は、TorchDIVAが研究コミュニティにもたらす価値を示している。 研究者は、新しい実装をhttps://github.com/skinahan/DIVA_PyTorchでダウンロードできる。

The DIVA model is a computational model of speech motor control that combines a simulation of the brain regions responsible for speech production with a model of the human vocal tract. The model is currently implemented in Matlab Simulink; however, this is less than ideal as most of the development in speech technology research is done in Python. This means there is a wealth of machine learning tools which are freely available in the Python ecosystem that cannot be easily integrated with DIVA. We present TorchDIVA, a full rebuild of DIVA in Python using PyTorch tensors. DIVA source code was directly translated from Matlab to Python, and built-in Simulink signal blocks were implemented from scratch. After implementation, the accuracy of each module was evaluated via systematic block-by-block validation. The TorchDIVA model is shown to produce outputs that closely match those of the original DIVA model, with a negligible difference between the two. We additionally present an example of the extensibility of TorchDIVA as a research platform. Speech quality enhancement in TorchDIVA is achieved through an integration with an existing PyTorch generative vocoder called DiffWave. A modified DiffWave mel-spectrum upsampler was trained on human speech waveforms and conditioned on the TorchDIVA speech production. The results indicate improved speech quality metrics in the DiffWave-enhanced output as compared to the baseline. This enhancement would have been difficult or impossible to accomplish in the original Matlab implementation. This proof-of-concept demonstrates the value TorchDIVA will bring to the research community. Researchers can download the new implementation at: https://github.com/skinahan/DIVA_PyTorch
翻訳日:2022-10-19 16:07:53 公開日:2022-10-17
# 記憶を反映する情報尺度

Measures of Information Reflect Memorization ( http://arxiv.org/abs/2210.09404v1 )

ライセンス: Link先を確認
Rachit Bansal, Danish Pruthi, Yonatan Belinkov(参考訳) ニューラルネットワークは、ターゲットラベルと共存するスプリアスアーティファクト(あるいはショートカット)を活用し、ヒューリスティックな記憶を示すことで知られている。 一方で、トレーニングサンプルを記憶するネットワークが示されており、サンプルレベルの記憶化が行われている。 このような記憶化は、トレーニング分布を超えたネットワークの一般化を妨げる。 このような記憶の検出は困難であり、しばしば研究者が調整されたテストセットをキュレートする必要がある。 この研究では、異なるニューロンの活性化パターンの多様性がモデル一般化と記憶の反映であると仮定し、その後に示す。 我々は、情報理論的な測定によって神経活性化の多様性を定量化し、いくつかの自然言語や視覚タスクにまたがる実験における仮説を支持する。 重要な点は,ラベルなしの分布例で計算された神経アクティベーションについても,情報組織が2つの記憶形態を指していることである。 最後に,本研究のモデル選択問題に対する有用性を示す。 この作業に関連するコードとその他のリソースはhttps://linktr.ee/InformationMeasures.orgで公開されている。

Neural networks are known to exploit spurious artifacts (or shortcuts) that co-occur with a target label, exhibiting heuristic memorization. On the other hand, networks have been shown to memorize training examples, resulting in example-level memorization. These kinds of memorization impede generalization of networks beyond their training distributions. Detecting such memorization could be challenging, often requiring researchers to curate tailored test sets. In this work, we hypothesize -- and subsequently show -- that the diversity in the activation patterns of different neurons is reflective of model generalization and memorization. We quantify the diversity in the neural activations through information-theoretic measures and find support for our hypothesis on experiments spanning several natural language and vision tasks. Importantly, we discover that information organization points to the two forms of memorization, even for neural activations computed on unlabeled in-distribution examples. Lastly, we demonstrate the utility of our findings for the problem of model selection. The associated code and other resources for this work are available at https://linktr.ee/InformationMeasures .
翻訳日:2022-10-19 16:07:30 公開日:2022-10-17
# 確率論的逆行攻撃・逆行訓練

Probabilistic Categorical Adversarial Attack & Adversarial Training ( http://arxiv.org/abs/2210.09364v1 )

ライセンス: Link先を確認
Penghei He, Han Xu, Jie Ren, Yuxuan Wan, Zitao Liu, Jiliang Tang(参考訳) 敵対的な例の存在は、人々が安全クリティカルなタスクにディープニューラルネットワーク(DNN)を適用することに大きな懸念をもたらします。 しかし, カテゴリデータを用いた逆例の生成は重要な問題であるが, 広範囲にわたる探索が欠如している。 従来確立された手法では,攻撃を成功させるのに非常に時間がかかる,欲求検索手法が利用されていた。 これはまた、カテゴリデータに対する敵の訓練や潜在的な防御の開発を制限する。 そこで本研究では, 離散最適化問題を, 投影勾配降下によって効率的に解くことのできる連続問題に移す確率的カテゴリー的逆襲攻撃 (pcaa) を提案する。 本稿では,その最適性と時間的複雑さを理論的に解析し,現在の強欲攻撃に対する大きな優位性を示す。 さらに,本攻撃に基づいて,効率的な対向訓練フレームワークを提案する。 包括的実証研究を通じて,提案する攻撃・防御アルゴリズムの有効性を正当化する。

The existence of adversarial examples brings huge concern for people to apply Deep Neural Networks (DNNs) in safety-critical tasks. However, how to generate adversarial examples with categorical data is an important problem but lack of extensive exploration. Previously established methods leverage greedy search method, which can be very time-consuming to conduct successful attack. This also limits the development of adversarial training and potential defenses for categorical data. To tackle this problem, we propose Probabilistic Categorical Adversarial Attack (PCAA), which transfers the discrete optimization problem to a continuous problem that can be solved efficiently by Projected Gradient Descent. In our paper, we theoretically analyze its optimality and time complexity to demonstrate its significant advantage over current greedy based attacks. Moreover, based on our attack, we propose an efficient adversarial training framework. Through a comprehensive empirical study, we justify the effectiveness of our proposed attack and defense algorithms.
翻訳日:2022-10-19 16:00:29 公開日:2022-10-17
# 系統レベル電力負荷予測のための確率予測法

Probabilistic Forecasting Methods for System-Level Electricity Load Forecasting ( http://arxiv.org/abs/2210.09399v1 )

ライセンス: Link先を確認
Philipp Giese(参考訳) 負荷予測はエネルギーセキュリティの不可欠な部分となっている。 このような予測で考えられる様々な影響要因のため、これらのパラメータを様々な方法でシステムに統合しようとする幅広いモデルも存在する。 確率的負荷予測モデルの重要性が高まっているため、この分析では異なるアプローチが示される。 焦点は短期部門と異なるモデルに焦点を当てている。 その後、長期セクターの別のモデルが提示される。 そして、提示したモデルは相互に関連づけられ、利点とデメリットを参照して検討される。 その後, 論文の相互比較性に着目して分析を行う。 最後に,文献のさらなる発展に関する展望について述べる。

Load forecasts have become an integral part of energy security. Due to the various influencing factors that can be considered in such a forecast, there is also a wide range of models that attempt to integrate these parameters into a system in various ways. Due to the growing importance of probabilistic load forecast models, different approaches are presented in this analysis. The focus is on different models from the short-term sector. After that, another model from the long-term sector is presented. Then, the presented models are put in relation to each other and examined with reference to advantages and disadvantages. Afterwards, the presented papers are analyzed with focus on their comparability to each other. Finally, an outlook on further areas of development in the literature will be discussed.
翻訳日:2022-10-19 16:00:15 公開日:2022-10-17
# 混合型データ上での逆例生成に向けて

Towards Generating Adversarial Examples on Mixed-type Data ( http://arxiv.org/abs/2210.09405v1 )

ライセンス: Link先を確認
Han Xu, Menghai Pan, Zhimeng Jiang, Huiyuan Chen, Xiaoting Li, Mahashweta Das, Hao Yang(参考訳) 敵攻撃(あるいは敵の例)の存在は、機械学習(ML)モデルの安全性の問題に大きな懸念をもたらす。 金融予測、不正検出、異常検出など、多くの安全クリティカルなMLタスクにおいて、データサンプルは通常混合型であり、同時に多くの数値的およびカテゴリー的特徴を含んでいる。 しかし,混合型データを用いて逆例を生成する方法はほとんど研究されていない。 本稿では,混合型データにおいて,逆行例を効果的に生成できる攻撃アルゴリズムm-attackを提案する。 M-Attackをベースとした攻撃者は、与えられたデータサンプルの数値的特徴と分類的特徴の両方をわずかに摂動させることで、ターゲットの分類モデルの予測を誤解させようとする。 さらに重要なことは、設計された正規化を追加することで、生成された敵の例が潜在的な検出モデルを避けることができることです。 広範囲にわたる実証研究を通じて,攻撃手法の有効性と有効性を検証し,提案した攻撃に対する既存分類モデルの堅牢性を評価する。 実験結果は,実世界のアプリケーションにおける機械学習モデルに対する逆例の生成の可能性を強調した。

The existence of adversarial attacks (or adversarial examples) brings huge concern about the machine learning (ML) model's safety issues. For many safety-critical ML tasks, such as financial forecasting, fraudulent detection, and anomaly detection, the data samples are usually mixed-type, which contain plenty of numerical and categorical features at the same time. However, how to generate adversarial examples with mixed-type data is still seldom studied. In this paper, we propose a novel attack algorithm M-Attack, which can effectively generate adversarial examples in mixed-type data. Based on M-Attack, attackers can attempt to mislead the targeted classification model's prediction, by only slightly perturbing both the numerical and categorical features in the given data samples. More importantly, by adding designed regularizations, our generated adversarial examples can evade potential detection models, which makes the attack indeed insidious. Through extensive empirical studies, we validate the effectiveness and efficiency of our attack method and evaluate the robustness of existing classification models against our proposed attack. The experimental results highlight the feasibility of generating adversarial examples toward machine learning models in real-world applications.
翻訳日:2022-10-19 16:00:08 公開日:2022-10-17
# 凸q学習のための十分な探索

Sufficient Exploration for Convex Q-learning ( http://arxiv.org/abs/2210.09409v1 )

ライセンス: Link先を確認
Fan Lu, Prashant Mehta, Sean Meyn and Gergely Neu(参考訳) 近年,より効率的かつ解析に適した強化学習の新たな定式化を見つけるための総合的な研究が試みられている。 本稿では,マンヌの最適制御を線形プログラミング(LP)で定式化する手法について述べる。 原始版はロジスティックQラーニングと呼ばれ、二重版は凸Qラーニングである。 本論文は,橋梁を架けながら,後者に着目したものである。 主な貢献は次のとおりである。 (i)凸q-ラーニングの双対は正確にはマンネのlpやロジスティックq-ラーニングのバージョンではなく、過剰フィッティングを避けるために正規化の必要性を示す同様の構造を持つ。 (ii)QラーニングLPに対する有界解に対して十分な条件が得られる。 (iii)連続時間モデルに基づくサンプルデータシステムに対処する際の数値的課題を明らかにする。 この課題は状態依存サンプリングによって解決される。 この理論はOpenAIのジムの例に応用されている。 コンベックスQ学習は,LQR問題などの標準的なQ学習が分岐する場合に成功している。

In recent years there has been a collective research effort to find new formulations of reinforcement learning that are simultaneously more efficient and more amenable to analysis. This paper concerns one approach that builds on the linear programming (LP) formulation of optimal control of Manne. A primal version is called logistic Q-learning, and a dual variant is convex Q-learning. This paper focuses on the latter, while building bridges with the former. The main contributions follow: (i) The dual of convex Q-learning is not precisely Manne's LP or a version of logistic Q-learning, but has similar structure that reveals the need for regularization to avoid over-fitting. (ii) A sufficient condition is obtained for a bounded solution to the Q-learning LP. (iii) Simulation studies reveal numerical challenges when addressing sampled-data systems based on a continuous time model. The challenge is addressed using state-dependent sampling. The theory is illustrated with applications to examples from OpenAI gym. It is shown that convex Q-learning is successful in cases where standard Q-learning diverges, such as the LQR problem.
翻訳日:2022-10-19 15:59:49 公開日:2022-10-17
# morig氏:ポイントクラウドからのキャラクタメッシュのモーションアウェアリグ

Morig: Motion-aware rigging of character meshes from point clouds ( http://arxiv.org/abs/2210.09463v1 )

ライセンス: Link先を確認
Zhan Xu, Yang Zhou, Li Yi, Evangelos Kalogerakis(参考訳) 単一視点のクラウドストリームによって駆動されるキャラクタメッシュを自動的にリグする手法であるMoRigを提案する。 また, 捕獲した点雲の動きに応じて3次元メッシュをアニメーションすることができる。 MoRigのニューラルネットワークは、ポイントクラウドからのモーションキューを、パフォーマンスキャラクタの明瞭な部分に関する情報に符号化する。 これらのモーションアウェア機能は、入力メッシュに適した骨格リグの推論を導くもので、ポイントクラウドモーションに基づいてアニメーションされる。 本手法は, ヒューマノイド, 四足歩行, 玩具など多彩な特徴をリグおよびアニメーション化することができる。 ポイントクラウド内のオクルードされた領域と、入力メッシュとキャプチャされたキャラクタの間の部分のミスマッチを説明する。 モーションキューを無視する他のリグアプローチと比較して、MoRigはより正確なリグを生成し、キャプチャされた文字から動きを再ターゲットするのに適している。

We present MoRig, a method that automatically rigs character meshes driven by single-view point cloud streams capturing the motion of performing characters. Our method is also able to animate the 3D meshes according to the captured point cloud motion. MoRig's neural network encodes motion cues from the point clouds into features that are informative about the articulated parts of the performing character. These motion-aware features guide the inference of an appropriate skeletal rig for the input mesh, which is then animated based on the point cloud motion. Our method can rig and animate diverse characters, including humanoids, quadrupeds, and toys with varying articulation. It accounts for occluded regions in the point clouds and mismatches in the part proportions between the input mesh and captured character. Compared to other rigging approaches that ignore motion cues, MoRig produces more accurate rigs, well-suited for re-targeting motion from captured characters.
翻訳日:2022-10-19 15:52:38 公開日:2022-10-17
# ダイナミクス強化ニューラル物体の微分物理シミュレーション

Differentiable Physics Simulation of Dynamics-Augmented Neural Objects ( http://arxiv.org/abs/2210.09420v1 )

ライセンス: Link先を確認
Simon Le Cleac'h, Hong-Xing Yu, Michelle Guo, Taylor A. Howell, Ruohan Gao, Jiajun Wu, Zachary Manchester, Mac Schwager(参考訳) 深層ネットワークとしてパラメータ化された連続密度場としてそれらの幾何学を表現する物体の動きをシミュレートするための微分可能なパイプラインを提案する。 これにはNeural Radiance Fields(NeRF)やその他の関連するモデルが含まれる。 密度場から、その質量、質量の中心、慣性行列を含む物体の力学特性を推定する。 次に, 衝突によって生じる通常の力と摩擦力を計算するための密度場に基づく異種接触モデルを提案する。 これによりロボットは、動いている物体の静止画像やビデオから視覚的かつ動的に正確な物体モデルを構築することができる。 その結果生まれたDynamics-Augmented Neural Objects (DANO) は、既存の差別化可能なシミュレーションエンジンであるDojoでシミュレートされ、球体、平面、URDFとして指定されたロボットなど、他の標準的なシミュレーションオブジェクトと相互作用する。 ロボットは、このシミュレーションを使って神経オブジェクトの把握と操作を最適化したり、勾配に基づく実シミュレーション転送によって神経オブジェクトモデルを改善することができる。 本研究では,石けんの摩擦係数を,石けんがテーブルの上を滑る実際の映像から学習するパイプラインを実演する。 我々はまた、合成データからパンダロボットアームとの相互作用を通じて、スタンフォード・バニーの摩擦と質量の係数を学習し、パンダアームのシミュレーションにおける軌道を最適化し、バニーを目標地点まで押し出す。

We present a differentiable pipeline for simulating the motion of objects that represent their geometry as a continuous density field parameterized as a deep network. This includes Neural Radiance Fields (NeRFs), and other related models. From the density field, we estimate the dynamical properties of the object, including its mass, center of mass, and inertia matrix. We then introduce a differentiable contact model based on the density field for computing normal and friction forces resulting from collisions. This allows a robot to autonomously build object models that are visually and dynamically accurate from still images and videos of objects in motion. The resulting Dynamics-Augmented Neural Objects (DANOs) are simulated with an existing differentiable simulation engine, Dojo, interacting with other standard simulation objects, such as spheres, planes, and robots specified as URDFs. A robot can use this simulation to optimize grasps and manipulation trajectories of neural objects, or to improve the neural object models through gradient-based real-to-simulation transfer. We demonstrate the pipeline to learn the coefficient of friction of a bar of soap from a real video of the soap sliding on a table. We also learn the coefficient of friction and mass of a Stanford bunny through interactions with a Panda robot arm from synthetic data, and we optimize trajectories in simulation for the Panda arm to push the bunny to a goal location.
翻訳日:2022-10-19 15:44:10 公開日:2022-10-17
# 敵対的かつ安全な質問生成

Adversarial and Safely Scaled Question Generation ( http://arxiv.org/abs/2210.09467v1 )

ライセンス: Link先を確認
Sreehari Sankar, Zhihang Dong(参考訳) 質問生成は、特に大規模言語モデルの出現によって、最近多くの研究関心を集めている。 それ自体は「よい」や「悪い」を何にするかという満場一致の理解がないため、質問生成は「あいまい」と見なすことができる。 本稿では,2つの基本的な問題に並列に対処する。一方,質問生成と回答のアプリケーションは,基礎的な真理ラベリングを伴わずに大量のテキストに適用する必要がある,スケーリング問題の解決を試みる。 この問題を解決するための一般的なアプローチは、ダウンサンプリングまたは要約である。 しかし、これらのアプローチには誤報の重大なリスクがある。 一方,誤情報問題に関しては,多くの公共機関が提供するコンテンツの精度をはるかに高めているため,この「安全」問題を解決しようと試みている。 我々は,質問生成の安全性問題にスケールで対処するための敵対的アプローチを導入する。 具体的には,生成する可能性のある不可解な質問を特に排除し,生成する回答の品質をさらに向上させる質問応答システムを設計した。 私たちは、どんなテキストでも使える、プロダクション対応で簡単にプラグイン可能なパイプラインを構築しています。 その結果,168名を対象にした調査によれば,抽象的アプローチによって生じる質的質問数の6倍以上を生成でき,品質が44%高いという認識が得られた。

Question generation has recently gained a lot of research interest, especially with the advent of large language models. In and of itself, question generation can be considered 'AI-hard', as there is a lack of unanimously agreed sense of what makes a question 'good' or 'bad'. In this paper, we tackle two fundamental problems in parallel: on one hand, we try to solve the scaling problem, where question-generation and answering applications have to be applied to a massive amount of text without ground truth labeling. The usual approach to solve this problem is to either downsample or summarize. However, there are critical risks of misinformation with these approaches. On the other hand, and related to the misinformation problem, we try to solve the 'safety' problem, as many public institutions rely on a much higher level of accuracy for the content they provide. We introduce an adversarial approach to tackle the question generation safety problem with scale. Specifically, we designed a question-answering system that specifically prunes out unanswerable questions that may be generated, and further increases the quality of the answers that are generated. We build a production-ready, easily-plugged pipeline that can be used on any given body of text, that is scalable and immune from generating any hate speech, profanity, or misinformation. Based on the results, we are able to generate more than six times the number of quality questions generated by the abstractive approach, with a perceived quality being 44% higher, according to a survey of 168 participants.
翻訳日:2022-10-19 15:43:46 公開日:2022-10-17
# AMPNet: グラフニューラルネットワークのメッセージパッシングとしての注意

AMPNet: Attention as Message Passing for Graph Neural Networks ( http://arxiv.org/abs/2210.09475v1 )

ライセンス: Link先を確認
S. A. Rizvi, N. Nguyen, H. Lyu, B. Christensen, J. O. Caro, E. Zappala, M. Brbic, R. M. Dhodapkar, D. V. Dijk(参考訳) ノード間の機能レベルの相互作用は、グラフ構造化データの複雑な相互作用を理解する上で重要な情報をもたらす。 しかし、現在の解釈技術は、異なるノード間の機能レベルのインタラクションをキャプチャする能力に制限がある。 本研究では,グラフ構造化データ内の異なる空間位置間の特徴レベルの相互作用を明らかにするための汎用グラフニューラルネットワーク(GNN)アーキテクチャであるAMPNetを提案する。 本フレームワークでは,異なるノード間の特徴的相互作用に基づいてメッセージのコンテキスト化を行う。 AMPNetを複数のベンチマークおよび実世界のデータセットで評価し,機能的相互作用に基づくノード状態の循環パターンの復元能力をテストするために,サイクリックセルオートマトンに基づく合成ベンチマークを開発した。 また、トレーニング中のサブグラフサンプリングやノード機能ダウンサンプリングなど、大規模グラフに対するアーキテクチャのスケーラビリティに対処するいくつかの方法を提案する。

Feature-level interactions between nodes can carry crucial information for understanding complex interactions in graph-structured data. Current interpretability techniques, however, are limited in their ability to capture feature-level interactions between different nodes. In this work, we propose AMPNet, a general Graph Neural Network (GNN) architecture for uncovering feature-level interactions between different spatial locations within graph-structured data. Our framework applies a multiheaded attention operation during message-passing to contextualize messages based on the feature interactions between different nodes. We evaluate AMPNet on several benchmark and real-world datasets, and develop a synthetic benchmark based on cyclic cellular automata to test the ability of our framework to recover cyclic patterns in node states based on feature-interactions. We also propose several methods for addressing the scalability of our architecture to large graphs, including subgraph sampling during training and node feature downsampling.
翻訳日:2022-10-19 15:26:24 公開日:2022-10-17
# 法文における多粒性引数マイニング

Multi-granularity Argument Mining in Legal Texts ( http://arxiv.org/abs/2210.09472v1 )

ライセンス: Link先を確認
Huihui Xu and Kevin Ashley(参考訳) 本稿では,複数レベルの粒度を用いた法的議論マイニングについて検討する。 論証マイニングは通常、文分類問題として概念化されている。 本研究では,議論マイニングをトークンレベル(単語レベル)の分類問題として捉えた。 トークンの分類にはLongformerモデルを使用します。 その結果、トークンレベルのテキスト分類は、文章レベルのテキスト分類よりも正確に、特定の法的議論要素を識別することを示した。 トークンレベルの分類はまた、法的なテキストを分析し、大量の入力データを処理する際にモデルが何に焦点を当てているかについてのさらなる洞察を得るための柔軟性を提供する。

In this paper, we explore legal argument mining using multiple levels of granularity. Argument mining has usually been conceptualized as a sentence classification problem. In this work, we conceptualize argument mining as a token-level (i.e., word-level) classification problem. We use a Longformer model to classify the tokens. Results show that token-level text classification identifies certain legal argument elements more accurately than sentence-level text classification. Token-level classification also provides greater flexibility to analyze legal texts and to gain more insight into what the model focuses on when processing a large amount of input data.
翻訳日:2022-10-19 15:14:18 公開日:2022-10-17
# 年齢変化型顔認識が顔年齢合成を満たす場合--マルチタスク学習フレームワークと新しいベンチマーク

When Age-Invariant Face Recognition Meets Face Age Synthesis: A Multi-Task Learning Framework and A New Benchmark ( http://arxiv.org/abs/2210.09835v1 )

ライセンス: Link先を確認
Zhizhong Huang and Junping Zhang and Hongming Shan(参考訳) 顔認識における年齢変動の影響を最小限に抑えるため、年齢不変顔認識(AIFR)は、同一性関連特徴と年齢関連特徴との相関を最小化し、識別関連識別特徴を抽出する一方、顔年齢合成(FAS)は、異なる年齢グループ内の顔を同一グループに変換することにより年齢変動を解消する。 しかし、AIFRはモデル解釈のための視覚的な結果を欠き、FASはアーチファクトによる下流認識を妥協する。 そこで本稿では,MTLFaceと呼ばれる2つのタスクを協調的に処理する統合型マルチタスクフレームワークを提案する。 具体的には,顔の特徴を空間的に制約された2つの非相関成分—アイデンティティと年齢関連特徴—に分解するための注意に基づく特徴分解を提案する。 グループレベルのFASを実現する従来のワンホット符号化とは異なり、重み付け戦略により合成顔の年齢スムーズ性を向上するIDレベルのFASを実現するための新しいID条件モジュールを提案する。 提案するマルチタスクフレームワークの恩恵を受け、fasの高品質な合成顔を利用して、新しい選択的微調整戦略によりaifrをさらに高めます。 さらに、AIFRとFASの両方を前進させるために、年齢と性別のアノテーションを備えた大規模な顔データセットを収集し、リリースします。 5つのベンチマーククロスエイジデータセットの大規模な実験結果から、MTLFaceはAIFRとFASの両方で優れたパフォーマンスが得られることが示された。 さらに2つの一般的な顔認識データセット上でMTLFaceを検証し、野生の顔認識における競合性能を得る。 コードはhttp://hzzone.github.io/mtlfaceで入手できる。

To minimize the impact of age variation on face recognition, age-invariant face recognition (AIFR) extracts identity-related discriminative features by minimizing the correlation between identity- and age-related features while face age synthesis (FAS) eliminates age variation by converting the faces in different age groups to the same group. However, AIFR lacks visual results for model interpretation and FAS compromises downstream recognition due to artifacts. Therefore, we propose a unified, multi-task framework to jointly handle these two tasks, termed MTLFace, which can learn the age-invariant identity-related representation for face recognition while achieving pleasing face synthesis for model interpretation. Specifically, we propose an attention-based feature decomposition to decompose the mixed face features into two uncorrelated components -- identity- and age-related features -- in a spatially constrained way. Unlike the conventional one-hot encoding that achieves group-level FAS, we propose a novel identity conditional module to achieve identity-level FAS, which can improve the age smoothness of synthesized faces through a weight-sharing strategy. Benefiting from the proposed multi-task framework, we then leverage those high-quality synthesized faces from FAS to further boost AIFR via a novel selective fine-tuning strategy. Furthermore, to advance both AIFR and FAS, we collect and release a large cross-age face dataset with age and gender annotations, and a new benchmark specifically designed for tracing long-missing children. Extensive experimental results on five benchmark cross-age datasets demonstrate that MTLFace yields superior performance for both AIFR and FAS. We further validate MTLFace on two popular general face recognition datasets, obtaining competitive performance on face recognition in the wild. Code is available at http://hzzone.github.io/MTLFace.
翻訳日:2022-10-19 15:06:00 公開日:2022-10-17
# 点雲登録のためのオーバーラップ誘導ガウス混合モデル

Overlap-guided Gaussian Mixture Models for Point Cloud Registration ( http://arxiv.org/abs/2210.09836v1 )

ライセンス: Link先を確認
Guofeng Mei, Fabio Poiesi, Cristiano Saltori, Jian Zhang, Elisa Ricci, Nicu Sebe(参考訳) 確率的3Dポイントクラウド登録法は、ノイズ、アウトレーヤ、密度変動を克服する競合性能を示した。 しかし、部分重複の場合のポイントクラウドペアの登録は依然として課題である。 本稿では,一致したガウス混合モデル(GMM)パラメータから最適変換を演算する,重複誘導確率登録手法を提案する。 2つのガウス混合を整合させる問題として登録問題を再構成し、対応する2つの混合混合物間の統計的不一致測度を最小化する。 重なり領域を検出できるトランスベースの検出モジュールを導入し、この検出モジュールによって計算された重なりスコアを導いてgmmsを用いて入力点雲を表現する。 実験により, 合成および実世界のデータセットに部分重なり, 密度の異なる点群を扱う場合, 最先端手法よりも高い登録精度と効率が得られた。 https://github.com/gfmei/ogmm

Probabilistic 3D point cloud registration methods have shown competitive performance in overcoming noise, outliers, and density variations. However, registering point cloud pairs in the case of partial overlap is still a challenge. This paper proposes a novel overlap-guided probabilistic registration approach that computes the optimal transformation from matched Gaussian Mixture Model (GMM) parameters. We reformulate the registration problem as the problem of aligning two Gaussian mixtures such that a statistical discrepancy measure between the two corresponding mixtures is minimized. We introduce a Transformer-based detection module to detect overlapping regions, and represent the input point clouds using GMMs by guiding their alignment through overlap scores computed by this detection module. Experiments show that our method achieves superior registration accuracy and efficiency than state-of-the-art methods when handling point clouds with partial overlap and different densities on synthetic and real-world datasets. https://github.com/gfmei/ogmm
翻訳日:2022-10-19 15:05:27 公開日:2022-10-17
# トークンマージ:あなたのvitですが、より速く

Token Merging: Your ViT But Faster ( http://arxiv.org/abs/2210.09461v1 )

ライセンス: Link先を確認
Daniel Bolya, Cheng-Yang Fu, Xiaoliang Dai, Peizhao Zhang, Christoph Feichtenhofer, Judy Hoffman(参考訳) Token Merging(ToMe)は、既存のViTモデルのスループットをトレーニングなしで向上するシンプルな方法である。 tomeは、より正確でありながらプラニングと同じくらい高速で軽量なマッチングアルゴリズムを使用して、変圧器の類似トークンを徐々に組み合わせている。 ToMeは、画像上の最先端のViT-L @ 512とViT-H @ 518のスループットを2倍、ビデオ上のViT-Lのスループットを0.2-0.3%の精度で2倍にすることができる。 ToMeはトレーニング中に簡単に適用でき、ビデオのMAE微調整の練習速度を最大2倍に向上できる。 ToMeによるトレーニングはさらに精度低下を最小化し、オーディオ上のVT-Bのスループットは0.4%のmAPダウンで2倍になる。 定性的には、tomeはオブジェクトの一部をひとつのトークンにマージする。 全体的に、tomeの精度とスピードは、画像、ビデオ、オーディオの最先端技術と競合する。

We introduce Token Merging (ToMe), a simple method to increase the throughput of existing ViT models without needing to train. ToMe gradually combines similar tokens in a transformer using a general and light-weight matching algorithm that is as fast as pruning while being more accurate. Off-the-shelf, ToMe can 2x the throughput of state-of-the-art ViT-L @ 512 and ViT-H @ 518 models on images and 2.2x the throughput of ViT-L on video with only a 0.2-0.3% accuracy drop in each case. ToMe can also easily be applied during training, improving in practice training speed up to 2x for MAE fine-tuning on video. Training with ToMe further minimizes accuracy drop, leading to 2x the throughput of ViT-B on audio for only a 0.4% mAP drop. Qualitatively, we find that ToMe merges object parts into one token, even over multiple frames of video. Overall, ToMe's accuracy and speed are competitive with state-of-the-art on images, video, and audio.
翻訳日:2022-10-19 14:47:35 公開日:2022-10-17
# CrossRE:関係抽出のためのクロスドメインデータセット

CrossRE: A Cross-Domain Dataset for Relation Extraction ( http://arxiv.org/abs/2210.09345v1 )

ライセンス: Link先を確認
Elisa Bassignana and Barbara Plank(参考訳) 関係抽出(RE)は注目されているが、現在のRE評価はドメイン内の評価設定に限られている。 reシステムがいかに困難だが現実的な分散評価設定に適しているかは、ほとんど知られていない。 このギャップに対処するため,我々は6つの異なるテキストドメインで構成され,複数ラベルアノテーションを含むre用の新しいフリーで利用可能なクロスドメインベンチマークであるcrossreを提案する。 もうひとつのイノベーションは、アノテーション中に収集されたメタデータをリリースして、難しいインスタンスの説明やフラグを含めることです。 関係分類のための最先端モデルを用いて経験的評価を行う。 メタデータにより、最先端のモデルに新たな光を放つことができるので、難しいケースの影響を包括的に分析し、モデルと人間のアノテーションの間に相関関係を見出す。 全体として、我々はクロスドメインREの難しさを強調している。 私たちはこの方向の研究を促進するためにデータセットをリリースします。

Relation Extraction (RE) has attracted increasing attention, but current RE evaluation is limited to in-domain evaluation setups. Little is known on how well a RE system fares in challenging, but realistic out-of-distribution evaluation setups. To address this gap, we propose CrossRE, a new, freely-available cross-domain benchmark for RE, which comprises six distinct text domains and includes multi-label annotations. An additional innovation is that we release meta-data collected during annotation, to include explanations and flags of difficult instances. We provide an empirical evaluation with a state-of-the-art model for relation classification. As the meta-data enables us to shed new light on the state-of-the-art model, we provide a comprehensive analysis on the impact of difficult cases and find correlations between model and human annotations. Overall, our empirical investigation highlights the difficulty of cross-domain RE. We release our dataset, to spur more research in this direction.
翻訳日:2022-10-19 14:32:25 公開日:2022-10-17
# 予測統計正規化による低リソースクロスリンガル構文解析の改善

Improving Low-Resource Cross-lingual Parsing with Expected Statistic Regularization ( http://arxiv.org/abs/2210.09428v1 )

ライセンス: Link先を確認
Thomas Effland and Michael Collins(参考訳) 低次マルチタスク構造統計を利用して、低リソースデータセット上の半教師付き学習のためのモデル分布を形作る新しい正規化手法である予測統計正規化(ESR)を提案する。 本研究では,構文解析のための言語間移動(POSタグ付けとラベル付き依存性解析)の文脈でESRについて検討し,モデル行動に係わるいくつかの低次統計関数を提示する。 実験により,ESRを用いて5つの異なる対象言語を教師なしで転送する統計を評価した結果,POSとLASの双方を精度よく推定すると,POSを+7.0,LASを+8.5で改善する統計が得られた。 また,ESRを用いた半教師付き移動学習曲線実験により,ラベルデータ量が少ない場合の強い言語間移動+微調整ベースラインよりも有意な利得が得られることを示した。 これらの結果から,ESRは言語間解析のためのモデル-トランスファーアプローチにおいて,有望かつ補完的なアプローチであることが示された。

We present Expected Statistic Regularization (ESR), a novel regularization technique that utilizes low-order multi-task structural statistics to shape model distributions for semi-supervised learning on low-resource datasets. We study ESR in the context of cross-lingual transfer for syntactic analysis (POS tagging and labeled dependency parsing) and present several classes of low-order statistic functions that bear on model behavior. Experimentally, we evaluate the proposed statistics with ESR for unsupervised transfer on 5 diverse target languages and show that all statistics, when estimated accurately, yield improvements to both POS and LAS, with the best statistic improving POS by +7.0 and LAS by +8.5 on average. We also present semi-supervised transfer and learning curve experiments that show ESR provides significant gains over strong cross-lingual-transfer-plus-fine-tuning baselines for modest amounts of label data. These results indicate that ESR is a promising and complementary approach to model-transfer approaches for cross-lingual parsing.
翻訳日:2022-10-19 14:32:10 公開日:2022-10-17
# 状態空間モデルによる歌詞の感情ダイナミクスのモデル化

Modelling Emotion Dynamics in Song Lyrics with State Space Models ( http://arxiv.org/abs/2210.09434v1 )

ライセンス: Link先を確認
Yingjin Song and Daniel Beck(参考訳) 音楽感情認識におけるほとんどの以前の作品は、歌全体のシングルまたは数曲の曲レベルのレーベルを想定している。 歌の中で異なる感情が変化することは知られているが、この設定の注釈付きデータは入手が困難である。 本研究では,歌の歌詞における感情の動態を,歌レベルの監督を伴わずに予測する手法を提案する。 我々は各曲を時系列としてフレーム化してステートスペースモデル(SSM)を用い、文レベルの感情予測器と期待最大化(EM)手順を組み合わせて完全な感情力学を生成する。 提案手法を適用すれば,注釈付き曲を必要とせずに文レベルベースラインの性能を常に向上し,限られた訓練データシナリオに最適であることを示す。 ケーススタディによるさらなる分析は,本手法の利点を示しつつ,限界を示し,今後の方向性を示唆する。

Most previous work in music emotion recognition assumes a single or a few song-level labels for the whole song. While it is known that different emotions can vary in intensity within a song, annotated data for this setup is scarce and difficult to obtain. In this work, we propose a method to predict emotion dynamics in song lyrics without song-level supervision. We frame each song as a time series and employ a State Space Model (SSM), combining a sentence-level emotion predictor with an Expectation-Maximization (EM) procedure to generate the full emotion dynamics. Our experiments show that applying our method consistently improves the performance of sentence-level baselines without requiring any annotated songs, making it ideal for limited training data scenarios. Further analysis through case studies shows the benefits of our method while also indicating the limitations and pointing to future directions.
翻訳日:2022-10-19 14:31:47 公開日:2022-10-17
# CT Scan Imaging におけるトランスファーラーニングによるCOVID-19と肺炎の分類

A Transfer Learning Based Approach for Classification of COVID-19 and Pneumonia in CT Scan Imaging ( http://arxiv.org/abs/2210.09403v1 )

ライセンス: Link先を確認
Gargi Desai, Nelly Elsayed, Zag Elsayed, Murat Ozer(参考訳) 世界は依然として新型コロナウイルスの感染拡大に圧倒されている。 2021年11月時点で2億5000万人以上が感染し、219カ国や地域に影響している。 深層学習法をCTスキャン画像に用いたCOVID-19の検出は、医療専門家や意思決定当局の支援や患者への重要な支援に重要な役割を果たす可能性がある。 畳み込みニューラルネットワークは大規模画像認識の分野で広く利用されている。 現在、新型コロナウイルスを診断するためのRT-PCRの方法は、時間がかかり、普遍的に制限されている。 本研究は, 新型コロナウイルス患者, 細菌性肺炎, ウイルス性肺炎, 健康(正常例)を分類する深層学習に基づくアプローチを提案する。 本稿では,inception-resnet-v2ニューラルネットワークによるデータ分類にdeep transfer learningを用いた。 提案手法は,異なる地域,特に農村地域,発展地域において容易に実装・利用できるように,実装コストを削減すべく,意図的に簡略化されている。

The world is still overwhelmed by the spread of the COVID-19 virus. With over 250 Million infected cases as of November 2021 and affecting 219 countries and territories, the world remains in the pandemic period. Detecting COVID-19 using the deep learning method on CT scan images can play a vital role in assisting medical professionals and decision authorities in controlling the spread of the disease and providing essential support for patients. The convolution neural network is widely used in the field of large-scale image recognition. The current method of RT-PCR to diagnose COVID-19 is time-consuming and universally limited. This research aims to propose a deep learning-based approach to classify COVID-19 pneumonia patients, bacterial pneumonia, viral pneumonia, and healthy (normal cases). This paper used deep transfer learning to classify the data via Inception-ResNet-V2 neural network architecture. The proposed model has been intentionally simplified to reduce the implementation cost so that it can be easily implemented and used in different geographical areas, especially rural and developing regions.
翻訳日:2022-10-19 14:23:57 公開日:2022-10-17
# UniTune:単一画像上の画像生成モデルを微調整したテキスト駆動画像編集

UniTune: Text-Driven Image Editing by Fine Tuning an Image Generation Model on a Single Image ( http://arxiv.org/abs/2210.09477v1 )

ライセンス: Link先を確認
Dani Valevski, Matan Kalman, Yossi Matias, Yaniv Leviathan(参考訳) 本稿では,汎用テキスト編集のための簡易かつ新規な方法であるunituneを提案する。 unituneは任意の画像とテキスト編集記述を入力として取得し、入力画像に対する高い意味と視覚的忠実性を維持しながら編集を実行する。 UniTuneは、アート指向のための直感的なインターフェースであるテキストを使用し、マスクやスケッチなどの追加入力を必要としない。 提案手法の核心は,パラメータの選択が適切であれば,単一の画像上で大きなテキストから画像への拡散モデルを微調整できるという観察である。 私たちはImagenをテキスト・画像モデルとして使用しましたが、UniTuneは他の大規模モデルとも連携することを期待しています。 本手法をさまざまなユースケースでテストし,その適用性を示す。

We present UniTune, a simple and novel method for general text-driven image editing. UniTune gets as input an arbitrary image and a textual edit description, and carries out the edit while maintaining high semantic and visual fidelity to the input image. UniTune uses text, an intuitive interface for art-direction, and does not require additional inputs, like masks or sketches. At the core of our method is the observation that with the right choice of parameters, we can fine-tune a large text-to-image diffusion model on a single image, encouraging the model to maintain fidelity to the input image while still allowing expressive manipulations. We used Imagen as our text-to-image model, but we expect UniTune to work with other large-scale models as well. We test our method in a range of different use cases, and demonstrate its wide applicability.
翻訳日:2022-10-19 14:23:39 公開日:2022-10-17
# 低音源Hate音声検出のための隣り合わせの最適移動による知識伝達

Transferring Knowledge via Neighborhood-Aware Optimal Transport for Low-Resource Hate Speech Detection ( http://arxiv.org/abs/2210.09340v1 )

ライセンス: Link先を確認
Tulika Bose, Irina Illina, Dominique Fohr(参考訳) オンラインプラットフォーム上でのヘイトフルコンテンツの増加は、教師付き分類タスクとして一般的に定式化された自動ヘイトスピーチ検出への注目を高めている。 最先端のディープラーニングベースのアプローチは通常、トレーニングに相当量のラベル付きリソースを必要とする。 しかし、ヘイトスピーチリソースのアノテートは高価で時間がかかり、アノテーターにとって有害であることが多い。 これにより、既存のラベル付きリソースからの知識を低リソースのヘイトスピーチコーパスに転送し、システム性能を向上させる必要性が強まる。 このため、近隣のフレームワークが有効であることが示されている。 しかし、柔軟性は限られている。 本稿では,資源豊富なコーパスから取得した近傍の相対的近接を柔軟にモデル化し,転送量の学習を可能にする新しい学習戦略を提案する。 特に,データ埋め込み空間の幾何学を活用できる Optimal Transport に周辺情報を組み込む。 隣人の結合埋め込みとラベル分布を整合させることにより,低リソースシナリオにおいて,公に利用可能な異なるヘイトスピーチコーパス上で,強力なベースラインよりも大幅に改善することを示す。

The concerning rise of hateful content on online platforms has increased the attention towards automatic hate speech detection, commonly formulated as a supervised classification task. State-of-the-art deep learning-based approaches usually require a substantial amount of labeled resources for training. However, annotating hate speech resources is expensive, time-consuming, and often harmful to the annotators. This creates a pressing need to transfer knowledge from the existing labeled resources to low-resource hate speech corpora with the goal of improving system performance. For this, neighborhood-based frameworks have been shown to be effective. However, they have limited flexibility. In our paper, we propose a novel training strategy that allows flexible modeling of the relative proximity of neighbors retrieved from a resource-rich corpus to learn the amount of transfer. In particular, we incorporate neighborhood information with Optimal Transport, which permits exploiting the geometry of the data embedding space. By aligning the joint embedding and label distributions of neighbors, we demonstrate substantial improvements over strong baselines, in low-resource scenarios, on different publicly available hate speech corpora.
翻訳日:2022-10-19 14:20:33 公開日:2022-10-17
# 加速パーセプトロン等について

On Accelerated Perceptrons and Beyond ( http://arxiv.org/abs/2210.09371v1 )

ライセンス: Link先を確認
Guanghui Wang, Rafael Hanashiro, Etash Guha, Jacob Abernethy(参考訳) rosenblattの古典的なパーセプトロンアルゴリズムは、クラスがいくつかのマージン$\gamma > 0$で区切られると仮定して、n$の線形分離可能なデータポイントを正しく分類する線形しきい値関数を見つけるのに使うことができる。 基本的な結果として、パーセプトロンは$\omega(1/\gamma^{2})$ 反復後に収束する。 この速度を2乗因子で改善した最近の研究はいくつかあり、より洗練されたアルゴリズムで$\omega(\sqrt{\log n}/\gamma)$となった。 本稿では,これらの既存の結果を一つの枠組みで統一し,これら全てを現代の加速技術を用いて,楽観的なオンライン学習を通じて,min-max問題解決のレンズを通して説明できることを示す。 次に,提案フレームワークが,標準のパーセプトロン設定を超えた一連の問題に対する結果の改善につながることを示す。 具体的には a) 限界の極大化問題に対しては,その最新結果をo(\log t/t^2)$ から$o(1/t^2)$ に改善する。ただし$t$ はイテレーション数である。 b) 古典的ネステロフ加速度勾配降下法(nag)アルゴリズムの暗黙的バイアス特性を同定する最初の結果を示し,nagが$o(1/t^2)$レートでマージンを最大化できることを示す。 c) 古典的な$p$-ノルムパーセプトロン問題に対して、$\Omega(\sqrt{(p-1)\log n}/\gamma)$収束率のアルゴリズムを提供する一方、既存のアルゴリズムは$\Omega({(p-1)}/\gamma^2)$収束率のアルゴリズムを提供する。

The classical Perceptron algorithm of Rosenblatt can be used to find a linear threshold function to correctly classify $n$ linearly separable data points, assuming the classes are separated by some margin $\gamma > 0$. A foundational result is that Perceptron converges after $\Omega(1/\gamma^{2})$ iterations. There have been several recent works that managed to improve this rate by a quadratic factor, to $\Omega(\sqrt{\log n}/\gamma)$, with more sophisticated algorithms. In this paper, we unify these existing results under one framework by showing that they can all be described through the lens of solving min-max problems using modern acceleration techniques, mainly through optimistic online learning. We then show that the proposed framework also lead to improved results for a series of problems beyond the standard Perceptron setting. Specifically, a) For the margin maximization problem, we improve the state-of-the-art result from $O(\log t/t^2)$ to $O(1/t^2)$, where $t$ is the number of iterations; b) We provide the first result on identifying the implicit bias property of the classical Nesterov's accelerated gradient descent (NAG) algorithm, and show NAG can maximize the margin with an $O(1/t^2)$ rate; c) For the classical $p$-norm Perceptron problem, we provide an algorithm with $\Omega(\sqrt{(p-1)\log n}/\gamma)$ convergence rate, while existing algorithms suffer the $\Omega({(p-1)}/\gamma^2)$ convergence rate.
翻訳日:2022-10-19 14:15:12 公開日:2022-10-17
# 非凸ミニマックス問題に対する超勾配および楽観勾配法の厳密な解析

Tight Analysis of Extra-gradient and Optimistic Gradient Methods For Nonconvex Minimax Problems ( http://arxiv.org/abs/2210.09382v1 )

ライセンス: Link先を確認
Pouria Mahdavinia, Yuyang Deng, Haochuan Li, Mehrdad Mahdavi(参考訳) 楽観的勾配降下法(ogda)と凸凸ミニマックス問題の超勾配法(eg)の確立された収束理論にもかかわらず、非凸設定におけるこれらの方法の理論的保証についてはほとんど知られていない。 このギャップを埋めるために,本論文では, 単呼外勾配法のレンズによる統一解析を提供することにより, 非凸凹(NC-SC)および非凸凹(NC-C)設定下でのOGDA法とEG法の収束を初めて確立する。 さらに,GDA/OGDA/EGの収束度を低くし,分析の厳密性に光を当てる。 理論的結果を支持する実験も行います。 我々は,GAN(Generative Adversarial Networks)やロバストニューラルネットワークトレーニングなど,複雑な非凸ミニマックスの問題を解くためのOGDA法とEG法の理論的理解を進めていくと信じている。

Despite the established convergence theory of Optimistic Gradient Descent Ascent (OGDA) and Extragradient (EG) methods for the convex-concave minimax problems, little is known about the theoretical guarantees of these methods in nonconvex settings. To bridge this gap, for the first time, this paper establishes the convergence of OGDA and EG methods under the nonconvex-strongly-concave (NC-SC) and nonconvex-concave (NC-C) settings by providing a unified analysis through the lens of single-call extra-gradient methods. We further establish lower bounds on the convergence of GDA/OGDA/EG, shedding light on the tightness of our analysis. We also conduct experiments supporting our theoretical results. We believe our results will advance the theoretical understanding of OGDA and EG methods for solving complicated nonconvex minimax real-world problems, e.g., Generative Adversarial Networks (GANs) or robust neural networks training.
翻訳日:2022-10-19 14:14:36 公開日:2022-10-17
# deepfakeテキスト検出: 限界と機会

Deepfake Text Detection: Limitations and Opportunities ( http://arxiv.org/abs/2210.09421v1 )

ライセンス: Link先を確認
Jiameng Pu, Zain Sarwar, Sifat Muhammad Abdullah, Abdullah Rehman, Yoonjin Kim, Parantapa Bhattacharya, Mobin Javed, Bimal Viswanath(参考訳) 最近の言語生成モデルの進歩により、説得力のある合成テキストやディープフェイクテキストの作成が可能になった。 以前の研究は、コンテンツ消費者を誤解させるためにディープフェイクテキストを誤用する可能性を実証した。 そのため,人間と機械生成テキストの区別作業であるディープフェイクテキスト検出がますます重要になっている。 ディープフェイクのテキスト検出にはいくつかの防御策が提案されている。 しかし、現実の応用性についての理解は欠如している。 本稿では,Transformerベースのツールを用いた4つのオンラインサービスからディープフェイクテキストを収集し,野生のコンテンツに対する防衛の一般化能力を評価する。 我々は、いくつかの低コストの敵攻撃を開発し、適応攻撃に対する既存の防御の堅牢性について検討する。 評価シナリオでは,従来の要求性能と比較して,多くの防御効果が著しく低下していることが判明した。 本評価は,テキスト内容のセマンティック情報へのタップが,ディープフェイクテキスト検出方式の堅牢性と一般化性能を向上させるための有望なアプローチであることを示す。

Recent advances in generative models for language have enabled the creation of convincing synthetic text or deepfake text. Prior work has demonstrated the potential for misuse of deepfake text to mislead content consumers. Therefore, deepfake text detection, the task of discriminating between human and machine-generated text, is becoming increasingly critical. Several defenses have been proposed for deepfake text detection. However, we lack a thorough understanding of their real-world applicability. In this paper, we collect deepfake text from 4 online services powered by Transformer-based tools to evaluate the generalization ability of the defenses on content in the wild. We develop several low-cost adversarial attacks, and investigate the robustness of existing defenses against an adaptive attacker. We find that many defenses show significant degradation in performance under our evaluation scenarios compared to their original claimed performance. Our evaluation shows that tapping into the semantic information in the text content is a promising approach for improving the robustness and generalization performance of deepfake text detection schemes.
翻訳日:2022-10-19 14:06:09 公開日:2022-10-17
# 自己観察による心の学習理論 : 意図の爆発的理解

Robot Learning Theory of Mind through Self-Observation: Exploiting the Intentions-Beliefs Synergy ( http://arxiv.org/abs/2210.09435v1 )

ライセンス: Link先を確認
Francesca Bianco and Dimitri Ognibene(参考訳) 人間の感覚システムが限界に達する複雑な環境では、私たちの行動は、私たちの周りの世界の状態に関する私たちの信念に強く左右される。 他人の信念、意図、精神状態にアクセスすることは、自然の文脈においてより効果的な社会的相互作用を可能にする。 しかし、これらの変数は直接観測できない。 心の理論(tom: theory of mind)は、他のエージェントの信念、意図、精神状態全般を識別する能力であり、人間の社会的相互作用の重要な特徴であり、ロボティクスコミュニティの関心を集めている。 近年、TOMを学習できる新しいモデルが導入されている。 本稿では,意図や目標などの低レベル精神状態を予測する学習と,信念などの高レベル精神状態に寄与する学習の相乗効果を示す。 信念の学習は、部分的に観察可能な環境で自己の判断と信念推定過程を観察し、単純なフィードフォワードディープラーニングモデルを用いて行われると仮定すると、他者の意図や行動を予測するために学習すると、信念の帰属が行動や意図の予測と同時に学習されると、より速く正確な予測が得られる。 異なる意思決定プロセスでエージェントを観察しても学習性能が向上し,信念駆動行動のチャンクを観察する場合には高い値を示す。 我々は,新しい自然環境と課題において,人間パートナーを自律的に理解し支援できるような,将来的な適応型社会ロボットの設計に,我々のアーキテクチャ的アプローチが関連することを示唆する。

In complex environments, where the human sensory system reaches its limits, our behaviour is strongly driven by our beliefs about the state of the world around us. Accessing others' beliefs, intentions, or mental states in general, could thus allow for more effective social interactions in natural contexts. Yet these variables are not directly observable. Theory of Mind (TOM), the ability to attribute to other agents' beliefs, intentions, or mental states in general, is a crucial feature of human social interaction and has become of interest to the robotics community. Recently, new models that are able to learn TOM have been introduced. In this paper, we show the synergy between learning to predict low-level mental states, such as intentions and goals, and attributing high-level ones, such as beliefs. Assuming that learning of beliefs can take place by observing own decision and beliefs estimation processes in partially observable environments and using a simple feed-forward deep learning model, we show that when learning to predict others' intentions and actions, faster and more accurate predictions can be acquired if beliefs attribution is learnt simultaneously with action and intentions prediction. We show that the learning performance improves even when observing agents with a different decision process and is higher when observing beliefs-driven chunks of behaviour. We propose that our architectural approach can be relevant for the design of future adaptive social robots that should be able to autonomously understand and assist human partners in novel natural environments and tasks.
翻訳日:2022-10-19 14:05:00 公開日:2022-10-17
# 不均衡データによる学習におけるCNNの脆弱性理解

Understanding CNN Fragility When Learning With Imbalanced Data ( http://arxiv.org/abs/2210.09465v1 )

ライセンス: Link先を確認
Damien Dablain, Kristen N. Jacobson, Colin Bellinger, Mark Roberts and Nitesh Chawla(参考訳) 畳み込みニューラルネットワーク(cnns)は、不均衡な画像データで印象的な結果を得たが、少数クラスへの一般化は依然として困難であり、その決定は解釈が難しい。 これらの問題はCNNが改善を必要とするマイノリティクラスに一般化する手法がブラックボックスにラップされているため関連している。 不均衡なデータに関するcnnの決定を裏付けるために、私たちは彼らの潜在機能に焦点を当てます。 CNNはモデルパラメータのトレーニングセットから学んだパターン知識を組み込むが、この知識の効果は特徴と分類の埋め込み(FEとCE)に含まれる。 これらの埋め込みは訓練されたモデルから抽出することができ、そのグローバルなクラス特性(例えば、周波数、大きさ、アイデンティティ)を解析することができる。 マイノリティクラスに一般化するニューラルネットワークの能力に関する重要な情報は、クラスtop-k ceとfeに存在する。 cnn はカテゴリーごとのクラス top-k ce の限られた数を学習し、その数と大きさは、同じクラスが均衡しているか不均衡であるかによって変化する。 これは、CNNが固有のクラス機能を学んだのか、あるいは単にサンプリングされたクラス分布に存在することが頻繁に発生するのか、という疑問を呼び起こします。 また、潜在クラスの多様性はクラス例の数と同じくらい重要であると仮定し、再サンプリングとコストに敏感なメソッドにとって重要な意味を持つ。 これらの手法は一般にモデルの重み、クラス番号、マージンを再バランスすることに焦点を当てている。 また、トップKの潜在機能の大きさがトレーニングセットと一致しない場合、CNNがデータをテストするのが困難であることを示す。 実験では3つの画像データセットと2つのコスト感受性アルゴリズムを用いて不均衡学習を行った。

Convolutional neural networks (CNNs) have achieved impressive results on imbalanced image data, but they still have difficulty generalizing to minority classes and their decisions are difficult to interpret. These problems are related because the method by which CNNs generalize to minority classes, which requires improvement, is wrapped in a blackbox. To demystify CNN decisions on imbalanced data, we focus on their latent features. Although CNNs embed the pattern knowledge learned from a training set in model parameters, the effect of this knowledge is contained in feature and classification embeddings (FE and CE). These embeddings can be extracted from a trained model and their global, class properties (e.g., frequency, magnitude and identity) can be analyzed. We find that important information regarding the ability of a neural network to generalize to minority classes resides in the class top-K CE and FE. We show that a CNN learns a limited number of class top-K CE per category, and that their number and magnitudes vary based on whether the same class is balanced or imbalanced. This calls into question whether a CNN has learned intrinsic class features, or merely frequently occurring ones that happen to exist in the sampled class distribution. We also hypothesize that latent class diversity is as important as the number of class examples, which has important implications for re-sampling and cost-sensitive methods. These methods generally focus on rebalancing model weights, class numbers and margins; instead of diversifying class latent features through augmentation. We also demonstrate that a CNN has difficulty generalizing to test data if the magnitude of its top-K latent features do not match the training set. We use three popular image datasets and two cost-sensitive algorithms commonly employed in imbalanced learning for our experiments.
翻訳日:2022-10-19 13:56:50 公開日:2022-10-17
# 密度形状対応のための異方性多スケールグラフ畳み込みネットワーク

Anisotropic Multi-Scale Graph Convolutional Network for Dense Shape Correspondence ( http://arxiv.org/abs/2210.09466v1 )

ライセンス: Link先を確認
Mohammad Farazi, Wenhui Zhu, Zhangsihao Yang, Yalin Wang(参考訳) 本稿では,コンピュータビジョンとグラフィックスにおけるキー形状解析応用である3次元密度形状対応について検討する。 本稿では,u-netモデルを一次ノード特徴抽出モジュールとして,幾何的に有意かつ離散化非依存の特徴を学習する,新しいハイブリッド幾何深層学習モデルを提案する。 多様なフィルタを作成するために、異方性ウェーブレット基底フィルタを用い、異なる方向と帯域通過の両方に敏感である。 このフィルタセットは、従来のグラフニューラルネットワークの過剰動作を克服する。 モデルの性能をさらに向上させるため、我々は、全接続層の前に最終層にある機能マップを摂動させる機能を追加し、ネットワーク全体により識別的な特徴を学ぶことを強いる。 得られた対応マップは、平均測地誤差と3Dメッシュにおける離散化に対する優れたロバスト性に基づいて、ベンチマークデータセットの最先端性能を示す。 このアプローチは,密形状対応研究の新しい洞察と実践的解決策を提供する。

This paper studies 3D dense shape correspondence, a key shape analysis application in computer vision and graphics. We introduce a novel hybrid geometric deep learning-based model that learns geometrically meaningful and discretization-independent features with a U-Net model as the primary node feature extraction module, followed by a successive spectral-based graph convolutional network. To create a diverse set of filters, we use anisotropic wavelet basis filters, being sensitive to both different directions and band-passes. This filter set overcomes the over-smoothing behavior of conventional graph neural networks. To further improve the model's performance, we add a function that perturbs the feature maps in the last layer ahead of fully connected layers, forcing the network to learn more discriminative features overall. The resulting correspondence maps show state-of-the-art performance on the benchmark datasets based on average geodesic errors and superior robustness to discretization in 3D meshes. Our approach provides new insights and practical solutions to the dense shape correspondence research.
翻訳日:2022-10-19 13:56:19 公開日:2022-10-17
# 等価モデルの普遍性と対称性の学習可能性とのトレードオフ

A tradeoff between universality of equivariant models and learnability of symmetries ( http://arxiv.org/abs/2210.09444v1 )

ライセンス: Link先を確認
Vasco Portilheiro(参考訳) 関数学習の文脈では、ある条件下では、同変関数からなるアンザッツを用いて対称性と同変関数を同時に学習することは不可能である。 この文を形式化するために、群と半群に対する近似の概念を慎重に研究する。 我々は,「線形同変」ネットワークと呼ばれるもの,および群畳み込みネットワークという,非可算結果の条件を満たすかどうかについて,ニューラルネットワークの特定のファミリーを分析した。 線形同変ネットワークについてよく言えることがあり、理論的に有用である。 実用面では、グループ畳み込みニューラルネットワークの解析により、よく知られた ‘convolution is all you need''' の定理を非一様空間に一般化することができる。 グループ畳み込みとセミグループ畳み込みの間にも重要な違いがある。

We prove an impossibility result, which in the context of function learning says the following: under certain conditions, it is impossible to simultaneously learn symmetries and functions equivariant under them using an ansatz consisting of equivariant functions. To formalize this statement, we carefully study notions of approximation for groups and semigroups. We analyze certain families of neural networks for whether they satisfy the conditions of the impossibility result: what we call ``linearly equivariant'' networks, and group-convolutional networks. A lot can be said precisely about linearly equivariant networks, making them theoretically useful. On the practical side, our analysis of group-convolutional neural networks allows us generalize the well-known ``convolution is all you need'' theorem to non-homogeneous spaces. We additionally find an important difference between group convolution and semigroup convolution.
翻訳日:2022-10-19 13:48:06 公開日:2022-10-17
# 音楽に対する感性同調反応

Affective Idiosyncratic Responses to Music ( http://arxiv.org/abs/2210.09396v1 )

ライセンス: Link先を確認
Sky CH-Wang, Evan Li, Oliver Li, Smaranda Muresan, Zhou Yu(参考訳) 音楽に対する感情的な反応は極めて個人的なものである。 音楽に対する聴取者の感情的反応の制御において、慣用的要因が重要な役割を果たすという意見の一致にもかかわらず、これらの変数の限界効果を正確に測定することは困難である。 このギャップに対処するため,中国社会音楽プラットフォーム上での403万以上のリスナーコメントから音楽に対する感情応答を測定する計算手法を開発した。 音楽心理学の体系的・準因果解析による研究に基づいて, 聴取者の感情反応を促進する音楽的, 言語的, 文脈的, 人口的, 精神的健康的影響を検証した。 最後に、w\v{a}ng-y\``i-y\'unとして知られる社会現象に動機づけられ、プラットフォーム利用者の自己開示、彼らが受ける社会的サポート、および開示者ユーザ活動の顕著な違いの要因が特定される。

Affective responses to music are highly personal. Despite consensus that idiosyncratic factors play a key role in regulating how listeners emotionally respond to music, precisely measuring the marginal effects of these variables has proved challenging. To address this gap, we develop computational methods to measure affective responses to music from over 403M listener comments on a Chinese social music platform. Building on studies from music psychology in systematic and quasi-causal analyses, we test for musical, lyrical, contextual, demographic, and mental health effects that drive listener affective responses. Finally, motivated by the social phenomenon known as w\v{a}ng-y\`i-y\'un, we identify influencing factors of platform user self-disclosures, the social support they receive, and notable differences in discloser user activity.
翻訳日:2022-10-19 13:45:25 公開日:2022-10-17
# 野生における表情認識のための多様な特徴表現の学習

Learning Diversified Feature Representations for Facial Expression Recognition in the Wild ( http://arxiv.org/abs/2210.09381v1 )

ライセンス: Link先を確認
Negar Heidari, Alexandros Iosifidis(参考訳) 深層ニューラルネットワークによって抽出される特徴の多様性は、モデルの一般化能力の向上と、異なる学習タスクのパフォーマンス向上に重要である。 現実のシナリオにおいて、オクルード画像から識別的および情報的特徴を抽出するという課題がこの地域に存在するため、野生の表情認識は近年注目を集めている。 本稿では,cnn層から抽出される特徴を多角化するためのメカニズムを提案し,識別的特徴の学習におけるモデル能力を向上させる。 提案手法の有効性を評価するため,この機構を2つの最先端モデルに組み込む。 (i)注意に基づくモデルにおける局所的・グローバル的特徴の多様化 (2)異なる学習者が抽出した特徴をアンサンブルモデルで多様化させる。 AffectNet,FER+,RAF-DBの3つのよく知られた表情認識実験の結果,RAF-DBの89.99%,FER+の89.34%,AffectNetデータセットの60.02%の競争精度を達成し,本手法の有効性を示した。

Diversity of the features extracted by deep neural networks is important for enhancing the model generalization ability and accordingly its performance in different learning tasks. Facial expression recognition in the wild has attracted interest in recent years due to the challenges existing in this area for extracting discriminative and informative features from occluded images in real-world scenarios. In this paper, we propose a mechanism to diversify the features extracted by CNN layers of state-of-the-art facial expression recognition architectures for enhancing the model capacity in learning discriminative features. To evaluate the effectiveness of the proposed approach, we incorporate this mechanism in two state-of-the-art models to (i) diversify local/global features in an attention-based model and (ii) diversify features extracted by different learners in an ensemble-based model. Experimental results on three well-known facial expression recognition in-the-wild datasets, AffectNet, FER+, and RAF-DB, show the effectiveness of our method, achieving the state-of-the-art performance of 89.99% on RAF-DB, 89.34% on FER+ and the competitive accuracy of 60.02% on AffectNet dataset.
翻訳日:2022-10-19 13:45:08 公開日:2022-10-17
# 適応型オラクル効率のオンライン学習

Adaptive Oracle-Efficient Online Learning ( http://arxiv.org/abs/2210.09385v1 )

ライセンス: Link先を確認
Guanghui Wang, Zihao Hu, Vidya Muthukumar, Jacob Abernethy(参考訳) オンライン学習と意思決定のための古典的なアルゴリズムは、最適な性能保証を達成する利点があるが、大規模に実装すると計算の複雑さが制限される。 より最近の高度な手法は、オラクル効率のよい手法と呼ばれ、オフラインの最適化オラクルにディスパッチすることでこの問題に対処し、指数関数的に大きい(あるいは無限の)決定空間を探索し、どのデータセット上で最高の結果を得たかを選択できる。 しかし、計算可能性の利点にもかかわらず、オラクルの効率的なアルゴリズムは1つの大きな制限を示している。 本稿では,この2つの友好的シナリオについて考察する。 (a)「小さな損失」問題、及び (b)IDデータ。 本研究は, 近似性(Dud\'{i}k et al., [2020] によって提供される十分条件に精神的に関係している)と呼ばれる, 小空間環境に順応し, オラクル効率のよい探索型リーダアルゴリズムを設計するための新しい枠組みを提供する。 我々は、オンラインオークションや、近似可能性を保持するトランスダクティブオンライン分類を含む、現実世界の一連の設定を識別する。 また,このアルゴリズムを iid データセットに拡張し,oracle 効率のよい設定にバインドした "両世界のベスト" を確立する。

The classical algorithms for online learning and decision-making have the benefit of achieving the optimal performance guarantees, but suffer from computational complexity limitations when implemented at scale. More recent sophisticated techniques, which we refer to as oracle-efficient methods, address this problem by dispatching to an offline optimization oracle that can search through an exponentially-large (or even infinite) space of decisions and select that which performed the best on any dataset. But despite the benefits of computational feasibility, oracle-efficient algorithms exhibit one major limitation: while performing well in worst-case settings, they do not adapt well to friendly environments. In this paper we consider two such friendly scenarios, (a) "small-loss" problems and (b) IID data. We provide a new framework for designing follow-the-perturbed-leader algorithms that are oracle-efficient and adapt well to the small-loss environment, under a particular condition which we call approximability (which is spiritually related to sufficient conditions provided by Dud\'{i}k et al., [2020]). We identify a series of real-world settings, including online auctions and transductive online classification, for which approximability holds. We also extend the algorithm to an IID data setting and establish a "best-of-both-worlds" bound in the oracle-efficient setting.
翻訳日:2022-10-19 13:36:16 公開日:2022-10-17
# Dense Spatio-Temporal Position Encoding によるトラックターゲット

Track Targets by Dense Spatio-Temporal Position Encoding ( http://arxiv.org/abs/2210.09455v1 )

ライセンス: Link先を確認
Jinkun Cao, Hao Wu, Kris Kitani(参考訳) 本研究では,トランスフォーマーを用いたビデオにおけるターゲット追跡のためのターゲット位置をエンコードする新しいパラダイムを提案する。 提案するパラダイムであるDense Spatio-Temporal(DST)位置エンコーディングは,画素単位の高密度な方法で時空間位置情報を符号化する。 提供された位置エンコーディングは、2つのバウンディングボックス内のオブジェクトを比較することにより、外観マッチングを超えたフレーム間のターゲットを関連付ける位置情報を提供する。 提案手法は,典型的なトランスフォーマー位置符号化と比較して,投影された特徴ベクトルの代わりに2次元CNN特徴量に適用し,位置情報の喪失を回避する。 さらに、設計されたDST符号化は、単一フレームオブジェクトの位置と、フレーム間の軌道の位置の進化を均一に表現することができる。 DSTエンコーディングと統合して、トランスフォーマーに基づくマルチオブジェクト追跡モデルを構築する。 モデルは、ビデオクリップを入力として、クリップ内のターゲットアソシエーションを実行する。 また、既存のトラジェクトリと新しいフレームからのオブジェクトを関連付けることで、オンライン推論を行うこともできる。 ビデオ多目的追跡(MOT)と多目的追跡・セグメンテーション(MOTS)データセットの実験は、提案したDST位置符号化の有効性を示す。

In this work, we propose a novel paradigm to encode the position of targets for target tracking in videos using transformers. The proposed paradigm, Dense Spatio-Temporal (DST) position encoding, encodes spatio-temporal position information in a pixel-wise dense fashion. The provided position encoding provides location information to associate targets across frames beyond appearance matching by comparing objects in two bounding boxes. Compared to the typical transformer positional encoding, our proposed encoding is applied to the 2D CNN features instead of the projected feature vectors to avoid losing positional information. Moreover, the designed DST encoding can represent the location of a single-frame object and the evolution of the location of the trajectory among frames uniformly. Integrated with the DST encoding, we build a transformer-based multi-object tracking model. The model takes a video clip as input and conducts the target association in the clip. It can also perform online inference by associating existing trajectories with objects from the new-coming frames. Experiments on video multi-object tracking (MOT) and multi-object tracking and segmentation (MOTS) datasets demonstrate the effectiveness of the proposed DST position encoding.
翻訳日:2022-10-19 13:29:58 公開日:2022-10-17
# 後向きモデルによる少数のデモのロバストな模倣

Robust Imitation of a Few Demonstrations with a Backwards Model ( http://arxiv.org/abs/2210.09337v1 )

ライセンス: Link先を確認
Jung Yeon Park, Lawson L.S. Wong(参考訳) 専門家のデモの振る舞いのクローニングは、強化学習よりもサンプル効率のよい方法で、最適なポリシーの学習をスピードアップする。 しかし、この政策はデモデータ以外では見当たらない状態に対して十分に外挿することはできず、共変量シフト(デモから外れるエージェント)を生成し、エラーを複合する。 そこで本研究では,実演の周辺にアトラクション領域を拡げて,実演された演目に戻る方法をエージェントが学習できるようにすることで,この問題に取り組む。 我々は,生成後向きダイナミクスモデルを訓練し,実演中の状態から短時間の軌跡を生成する。 デモンストレーションとモデルロールアウトの両方を模倣することで、エージェントはデモされたパスとこれらのパスに戻る方法を学ぶ。 最適またはほぼ最適のデモンストレーションでは、学習されたポリシーは、より広いアトラクション領域を持つ偏差に対して最適かつ堅牢である。 連続制御領域では,実演データでは見当たらない異なる初期状態から出発する際のロバスト性を評価する。 本手法と他の模倣学習ベースラインはトレーニング分布における初期状態の課題をうまく解決できるが,本手法は初期状態の異なる場合にかなり頑健性を示す。

Behavior cloning of expert demonstrations can speed up learning optimal policies in a more sample-efficient way over reinforcement learning. However, the policy cannot extrapolate well to unseen states outside of the demonstration data, creating covariate shift (agent drifting away from demonstrations) and compounding errors. In this work, we tackle this issue by extending the region of attraction around the demonstrations so that the agent can learn how to get back onto the demonstrated trajectories if it veers off-course. We train a generative backwards dynamics model and generate short imagined trajectories from states in the demonstrations. By imitating both demonstrations and these model rollouts, the agent learns the demonstrated paths and how to get back onto these paths. With optimal or near-optimal demonstrations, the learned policy will be both optimal and robust to deviations, with a wider region of attraction. On continuous control domains, we evaluate the robustness when starting from different initial states unseen in the demonstration data. While both our method and other imitation learning baselines can successfully solve the tasks for initial states in the training distribution, our method exhibits considerably more robustness to different initial states.
翻訳日:2022-10-19 13:28:27 公開日:2022-10-17
# レビュー:発電機なしの再生再生による破滅的予測の軽減

Review Learning: Alleviating Catastrophic Forgetting with Generative Replay without Generator ( http://arxiv.org/abs/2210.09394v1 )

ライセンス: Link先を確認
Jaesung Yoo, Sunghyuk Choi, Ye Seul Yang, Suhyeon Kim, Jieun Choi, Dongkyeong Lim, Yaeji Lim, Hyung Joon Joo, Dae Jung Kim, Rae Woong Park, Hyeong-Jin Yoon, Kwangsoo Kim(参考訳) ディープラーニングモデルが異なるデータセット上で順次トレーニングされると、過去のデータから得られた知識を忘れてしまう。 転送学習(TL)に基づくプライバシー保護深層学習(PPDL)アプリケーションでは,多様なデータセット上でのディープラーニングモデルの性能が低下する。 そこで本研究では,個別生成器を必要としない生成・再生型連続学習手法であるreview learning (rl)を提案する。 過去のデータセットから得られた知識をレビューするために、ディープラーニングモデルのシナプス重みに記憶されたメモリからデータサンプルを生成する。 PPDL実験によりRLの性能を検証した。 3種類の電子健康記録データを用いてシミュレーションと実世界の医療施設実験を行った。 実世界の実験では、受信機操作曲線下のグローバル面積は rl の 0.710 と tl の 0.655 であった。 したがって、RLは以前に学んだ知識を維持するのに非常に効果的であった。

When a deep learning model is sequentially trained on different datasets, it forgets the knowledge acquired from previous data, a phenomenon known as catastrophic forgetting. It deteriorates performance of the deep learning model on diverse datasets, which is critical in privacy-preserving deep learning (PPDL) applications based on transfer learning (TL). To overcome this, we propose review learning (RL), a generative-replay-based continual learning technique that does not require a separate generator. Data samples are generated from the memory stored within the synaptic weights of the deep learning model which are used to review knowledge acquired from previous datasets. The performance of RL was validated through PPDL experiments. Simulations and real-world medical multi-institutional experiments were conducted using three types of binary classification electronic health record data. In the real-world experiments, the global area under the receiver operating curve was 0.710 for RL and 0.655 for TL. Thus, RL was highly effective in retaining previously learned knowledge.
翻訳日:2022-10-19 13:28:08 公開日:2022-10-17
# ボツネックアダプターを用いた低資源制約下におけるがん診断

Using Bottleneck Adapters to Identify Cancer in Clinical Notes under Low-Resource Constraints ( http://arxiv.org/abs/2210.09440v1 )

ライセンス: Link先を確認
Omid Rohanian, Hannah Jauncey, Mohammadmahdi Nouriborji, Bronner P. Gon\c{c}alves, Christiana Kartsonaki, ISARIC Clinical Characterisation Group, Laura Merson, David Clifton(参考訳) 臨床健康記録に記録された情報を処理することは、バイオメディカルNLPの研究の活発な領域である。 本研究では, 臨床ノートを含むデータセット上で, 単純なrnnからbiobertなどの特殊なトランスフォーマーまで, サンプルが癌関連であるか否かを示すアノテーション群とともに, 幅広い機械学習手法を評価した。 さらに,NLP からの効率的な微調整手法,すなわちボトルネックアダプタと即時チューニングを用いて,モデルを特殊タスクに適応させる。 評価の結果,凍結したBERTモデルを自然言語で事前学習し,ボトルネックアダプタを用いて微調整することで,BioBERTモデルを完全に微調整するなど,他の手法よりも優れていることがわかった。 この結果から,ラベル付きデータや処理能力に制限のある低リソース環境におけるボトルネックアダプタの使用は,バイオメディカルテキストマイニングにおいて有効な戦略である可能性が示唆された。 実験で使用されたコードはhttps://github.com/omidrohanian/bottleneck-adaptersで利用可能になる。

Processing information locked within clinical health records is a challenging task that remains an active area of research in biomedical NLP. In this work, we evaluate a broad set of machine learning techniques ranging from simple RNNs to specialised transformers such as BioBERT on a dataset containing clinical notes along with a set of annotations indicating whether a sample is cancer-related or not. Furthermore, we specifically employ efficient fine-tuning methods from NLP, namely, bottleneck adapters and prompt tuning, to adapt the models to our specialised task. Our evaluations suggest that fine-tuning a frozen BERT model pre-trained on natural language and with bottleneck adapters outperforms all other strategies, including full fine-tuning of the specialised BioBERT model. Based on our findings, we suggest that using bottleneck adapters in low-resource situations with limited access to labelled data or processing capacity could be a viable strategy in biomedical text mining. The code used in the experiments are going to be made available at https://github.com/omidrohanian/bottleneck-adapters.
翻訳日:2022-10-19 13:20:42 公開日:2022-10-17
# 対話要約のための非ダイアログ要約の活用

Leveraging Non-dialogue Summaries for Dialogue Summarization ( http://arxiv.org/abs/2210.09474v1 )

ライセンス: Link先を確認
Seongmin Park, Dongchan Shin, Jihwa Lee(参考訳) 学術における多種多様な対話要約データセットの欠如を軽減するため,非対話要約データを用いて対話要約システムを強化する手法を提案する。 文書要約データペアに変換を適用し,対話要約に適したトレーニングデータを作成する。 提案した変換は、ソーステキストへの忠実性の改善など、非対話データセットの望ましい特性も保持する。 我々は、我々のアプローチを検証するために、英語と韓国語の両方で広範な実験を行います。 ROUGEでは、対話要約サンプルが多くなるにつれて絶対的な利得がもたらされるが、訓練のための非対話データを利用することで、ゼロおよび少数ショット設定における要約性能が大幅に向上し、訓練体制全体の忠実性を高める。

To mitigate the lack of diverse dialogue summarization datasets in academia, we present methods to utilize non-dialogue summarization data for enhancing dialogue summarization systems. We apply transformations to document summarization data pairs to create training data that better befit dialogue summarization. The suggested transformations also retain desirable properties of non-dialogue datasets, such as improved faithfulness to the source text. We conduct extensive experiments across both English and Korean to verify our approach. Although absolute gains in ROUGE naturally plateau as more dialogue summarization samples are introduced, utilizing non-dialogue data for training significantly improves summarization performance in zero- and few-shot settings and enhances faithfulness across all training regimes.
翻訳日:2022-10-19 13:20:26 公開日:2022-10-17
# Google Universal Image Embeddingの6位

6th Place Solution to Google Universal Image Embedding ( http://arxiv.org/abs/2210.09377v1 )

ライセンス: Link先を確認
S. Gkelios, A. Kastellos and S. Chatzichristofis(参考訳) 本稿では,google universal image embedded competition on kaggleの第6位について述べる。 私たちのアプローチは、自然言語の監視から視覚表現を学ぶために使用される強力な事前学習モデルであるCLIPアーキテクチャに基づいている。 また,SubCenter ArcFace損失を動的マージンで利用して,クラス分離性と埋め込みの独特なパワーを向上した。 最後に、テストのセットカテゴリとリーダボードのフィードバックに基づいて、さまざまなデータセットが作成されている。 トランスファー学習を強化するためのトレーニングスキームを慎重に作成することにより、当社の応募はプライベートリーダーボードで0.685を獲得しました。

This paper presents the 6th place solution to the Google Universal Image Embedding competition on Kaggle. Our approach is based on the CLIP architecture, a powerful pre-trained model used to learn visual representation from natural language supervision. We also utilized the SubCenter ArcFace loss with dynamic margins to improve the distinctive power of class separability and embeddings. Finally, a diverse dataset has been created based on the test's set categories and the leaderboard's feedback. By carefully crafting a training scheme to enhance transfer learning, our submission scored 0.685 on the private leaderboard.
翻訳日:2022-10-19 13:18:17 公開日:2022-10-17
# テスト時間適応性向上のための非対称学習型二重分類器による非一般化パターンの学習

Learning Less Generalizable Patterns with an Asymmetrically Trained Double Classifier for Better Test-Time Adaptation ( http://arxiv.org/abs/2210.09834v1 )

ライセンス: Link先を確認
Thomas Duboudin (imagine), Emmanuel Dellandr\'ea, Corentin Abgrall, Gilles H\'enaff, Liming Chen(参考訳) 深層ニューラルネットワークは、特にトレーニング中に単一のデータドメインしか利用できない場合、トレーニング分布の外では一般化できないことが多い。 テスト時間適応は、この設定で奨励的な結果をもたらすが、さらなる改善を達成するためには、これらのアプローチは、より多様なパターンのセットを学ぶことを目的としたトレーニング手順修正と組み合わせるべきである。 実際、テスト時間適応法は通常、ショートカット学習現象のために限られた表現に頼る必要があり、利用可能な予測パターンのサブセットは標準訓練で学習される。 本稿ではまず,既存のトレーニング時間戦略と単純な適応法であるテスト時間バッチ正規化の組み合わせが,pacsベンチマーク上でのみテスト時間適応を常に改善するとは限らないことを示す。 さらに、office-homeの実験では、テスト時のバッチ正規化の有無に関わらず、標準トレーニングによって改善されるトレーニングタイムメソッドがごくわずかであることが示されている。 そこで本研究では,一対の分類器と一対のショートカットパターン回避損失を用いて,二次分類器の一般化能力の低下によるショートカット学習行動の軽減を図り,サンプル固有のパターンの学習を促進するショートカットパターン回避損失を新たに導入する。 一次分類器は普通に訓練され、自然とより複雑で一般化しにくい特徴の両方を学習する。 提案手法は両ベンチマークの最先端結果を改善し,テスト時間バッチ正規化に最も有効であることを示す。

Deep neural networks often fail to generalize outside of their training distribution, in particular when only a single data domain is available during training. While test-time adaptation has yielded encouraging results in this setting, we argue that, to reach further improvements, these approaches should be combined with training procedure modifications aiming to learn a more diverse set of patterns. Indeed, test-time adaptation methods usually have to rely on a limited representation because of the shortcut learning phenomenon: only a subset of the available predictive patterns is learned with standard training. In this paper, we first show that the combined use of existing training-time strategies, and test-time batch normalization, a simple adaptation method, does not always improve upon the test-time adaptation alone on the PACS benchmark. Furthermore, experiments on Office-Home show that very few training-time methods improve upon standard training, with or without test-time batch normalization. We therefore propose a novel approach using a pair of classifiers and a shortcut patterns avoidance loss that mitigates the shortcut learning behavior by reducing the generalization ability of the secondary classifier, using the additional shortcut patterns avoidance loss that encourages the learning of samples specific patterns. The primary classifier is trained normally, resulting in the learning of both the natural and the more complex, less generalizable, features. Our experiments show that our method improves upon the state-of-the-art results on both benchmarks and benefits the most to test-time batch normalization.
翻訳日:2022-10-19 13:12:46 公開日:2022-10-17
# BARTの簡易化のための混合時間下界

A Mixing Time Lower Bound for a Simplified Version of BART ( http://arxiv.org/abs/2210.09352v1 )

ライセンス: Link先を確認
Omer Ronen, Theo Saarinen, Yan Shuo Tan, James Duncan and Bin Yu(参考訳) Bayesian Additive Regression Trees (BART) はベイズ的な非パラメトリック回帰アルゴリズムである。 後部は決定木の総和上の分布であり、後部から近似サンプルを平均化して予測を行う。 強い予測性能と不確実性対策を提供する能力の組み合わせにより、BARTは社会科学、バイオ統計学、因果推論で一般的に使用されるようになった。 バートはマルコフ連鎖モンテカルロ(mcmc)を使って、木の総和のパラメータ化された空間上で近似的な後方サンプルを得るが、鎖の混合が遅いことがしばしば観察されている。 本稿では,BARTの簡易版における混合時間に関する第1の下位値として,総和を1木に減らし,MCMC提案分布の可能な移動のサブセットを使用する。 混合時間の低い境界は、データポイントの数とともに指数関数的に増加する。 混合時間とデータ点数との新たな接続に触発されて,BART上で厳密なシミュレーションを行う。 我々は,BARTの混合時間がデータ点数とともに増加することを定性的に示す。 単純化されたBARTの遅い混合時間は、単純化されたBARTアルゴリズムの異なる実行と、文学においてBARTに類似した大きな変動が知られていることを示唆している。 この大きな変動は、BART MCMCサンプルから得られたモデル、予測、後続間隔の安定性の欠如をもたらす可能性がある。 我々の低い境界とシミュレーションは、データポイントの数で連鎖の数を増やすことを示唆している。

Bayesian Additive Regression Trees (BART) is a popular Bayesian non-parametric regression algorithm. The posterior is a distribution over sums of decision trees, and predictions are made by averaging approximate samples from the posterior. The combination of strong predictive performance and the ability to provide uncertainty measures has led BART to be commonly used in the social sciences, biostatistics, and causal inference. BART uses Markov Chain Monte Carlo (MCMC) to obtain approximate posterior samples over a parameterized space of sums of trees, but it has often been observed that the chains are slow to mix. In this paper, we provide the first lower bound on the mixing time for a simplified version of BART in which we reduce the sum to a single tree and use a subset of the possible moves for the MCMC proposal distribution. Our lower bound for the mixing time grows exponentially with the number of data points. Inspired by this new connection between the mixing time and the number of data points, we perform rigorous simulations on BART. We show qualitatively that BART's mixing time increases with the number of data points. The slow mixing time of the simplified BART suggests a large variation between different runs of the simplified BART algorithm and a similar large variation is known for BART in the literature. This large variation could result in a lack of stability in the models, predictions, and posterior intervals obtained from the BART MCMC samples. Our lower bound and simulations suggest increasing the number of chains with the number of data points.
翻訳日:2022-10-19 13:11:10 公開日:2022-10-17
# 人工知能と人工知能のギャップを埋める:人間のような知性のための10の命令フレームワーク

Bridging the Gap between Artificial Intelligence and Artificial General Intelligence: A Ten Commandment Framework for Human-Like Intelligence ( http://arxiv.org/abs/2210.09366v1 )

ライセンス: Link先を確認
Ananta Nair and Farnoush Banaei-Kashani(参考訳) 人工知能の分野は爆発的な成長と指数関数的な成功を遂げている。 開発の最終フェーズでは、さまざまなドメインにわたるさまざまな難しい問題を解決するためのディープラーニング能力が紹介された。 これらのネットワークの多くは、トレーニングされたドメインの専門家になることで、人間のベンチマークを満たし、超えました。 人工知能の成功はその失敗を覆い隠し始めているが、現在の人工知能ツールを、人間が持つ非常に一般的な学習者から切り離すものはほとんどない。 本稿では,人間の知性が体系的かつ階層的に構築される10の戒律を特定する。 これらの命令は、高次の認知と知性の出現に繋がる重要な要素として、まとめて機能すると考えています。 本稿では, これら10つの命令を格納できる計算フレームワークについて論じ, ニューロモルフィックアプローチに触発された, より賢く説明可能な, 一般化可能な人工システムの開発につながる可能性のある, 新たなアーキテクチャ変更を提案する。

The field of artificial intelligence has seen explosive growth and exponential success. The last phase of development showcased deep learnings ability to solve a variety of difficult problems across a multitude of domains. Many of these networks met and exceeded human benchmarks by becoming experts in the domains in which they are trained. Though the successes of artificial intelligence have begun to overshadow its failures, there is still much that separates current artificial intelligence tools from becoming the exceptional general learners that humans are. In this paper, we identify the ten commandments upon which human intelligence is systematically and hierarchically built. We believe these commandments work collectively to serve as the essential ingredients that lead to the emergence of higher-order cognition and intelligence. This paper discusses a computational framework that could house these ten commandments and suggests new architectural modifications that could lead to the development of smarter, more explainable, and generalizable artificial systems inspired by a neuromorphic approach.
翻訳日:2022-10-19 13:10:01 公開日:2022-10-17
# potrika: バングラ語で8つのトピックと5つの属性を持つ生とバランスのとれた新聞データセット

Potrika: Raw and Balanced Newspaper Datasets in the Bangla Language with Eight Topics and Five Attributes ( http://arxiv.org/abs/2210.09389v1 )

ライセンス: Link先を確認
Istiak Ahmad, Fahad AlQurashi, Rashid Mehmood(参考訳) 知識は人間と科学の発展の中心である。 自然言語処理(nlp)は知識の自動分析と生成を可能にする。 データは重要なNLPと機械学習の要素である。 オープンデータセットの不足は、機械学習とディープラーニングの研究でよく知られた問題である。 これは、英語や他の主要世界の言語におけるテキストNLPデータセットの場合、ほとんど同じである。 バングラ語では、状況はさらに難しく、NLP研究のための大規模なデータセットの数は事実上ゼロである。 ここでは,バングラデシュの6つの人気オンラインニュースポータル(jugantor, jaijaidin, ittefaq, kaler kontho, inqilab, somoyer alo)から,2014~2020年の期間にnlp調査用にキュレートされた,バングラデシュの単一ラベルニュース記事textual datasetについて紹介する。 記事は8つのカテゴリー(全国、スポーツ、国際、エンターテイメント、経済、教育、政治、科学)に分類され、5つの属性(ニュース記事、カテゴリー、見出し、出版日、新聞の出典)を提供している。 生のデータセットには185.51万語と1257万文が含まれ、664,880のニュース記事に含まれている。 さらに,NLP増強手法を用いて,8つのニュースカテゴリーのそれぞれに320,000のニュース記事と4万の記事からなる生(不均衡)データセットを作成した。 Potrikaは、幅広いNLP研究に適したデータセット(生とバランス)の両方を含んでいる。 これまでのところ、私たちの知る限りでは、potrikaはニュース分類のための最大かつ最も広範なデータセットです。

Knowledge is central to human and scientific developments. Natural Language Processing (NLP) allows automated analysis and creation of knowledge. Data is a crucial NLP and machine learning ingredient. The scarcity of open datasets is a well-known problem in machine and deep learning research. This is very much the case for textual NLP datasets in English and other major world languages. For the Bangla language, the situation is even more challenging and the number of large datasets for NLP research is practically nil. We hereby present Potrika, a large single-label Bangla news article textual dataset curated for NLP research from six popular online news portals in Bangladesh (Jugantor, Jaijaidin, Ittefaq, Kaler Kontho, Inqilab, and Somoyer Alo) for the period 2014-2020. The articles are classified into eight distinct categories (National, Sports, International, Entertainment, Economy, Education, Politics, and Science \& Technology) providing five attributes (News Article, Category, Headline, Publication Date, and Newspaper Source). The raw dataset contains 185.51 million words and 12.57 million sentences contained in 664,880 news articles. Moreover, using NLP augmentation techniques, we create from the raw (unbalanced) dataset another (balanced) dataset comprising 320,000 news articles with 40,000 articles in each of the eight news categories. Potrika contains both the datasets (raw and balanced) to suit a wide range of NLP research. By far, to the best of our knowledge, Potrika is the largest and the most extensive dataset for news classification.
翻訳日:2022-10-19 13:09:43 公開日:2022-10-17
# 深層学習型集団インテリジェンスモデルによる網膜血管損傷の早期診断

Early Diagnosis of Retinal Blood Vessel Damage via Deep Learning-Powered Collective Intelligence Models ( http://arxiv.org/abs/2210.09449v1 )

ライセンス: Link先を確認
Pranjal Bhardwaj, Prajjwal Gupta, Thejineaswar Guhan and Kathiravan Srinivasan(参考訳) 糖尿病性網膜症などの網膜疾患の早期診断は多くの研究者の注目を集めている。 畳み込みニューラルネットワークの導入によるディープラーニングは、分類やセグメンテーションといった画像関連タスクに対する顕著なソリューションとなっている。 画像分類のほとんどのタスクは、imagenetデータセット上で事前トレーニングおよび評価されたディープcnnによって処理される。 しかし、これらのモデルは必ずしも他のデータセットで最高の結果に変換するとは限らない。 ヒューリスティックに基づいてニューラルネットワークをスクラッチから手作業で設計することは、多数のハイパーパラメータが存在するため、最適なモデルにはつながりません。 本稿では,粒子群最適化 (PSO) とアリコロニー最適化 (ACO) の2つの自然に着想を得たスワムアルゴリズムを用いて,基礎画像の重大度クラスへの分類を行う。 swarmアルゴリズムのパワーは、畳み込み層、プール層、正規化層の様々な組み合わせを探索するために使われ、タスクに最適なモデルを提供する。 TDCN-PSOはイメージネットモデルや既存の文献より優れており、TDCN-ACOはより高速なアーキテクチャ検索を実現する。 最高のTDCNモデルは90.3%、AUC ROCは0.956、Cohen Kappaは0.967である。 その結果,提案するtdcnモデルが優れた性能を示すことが示された。

Early diagnosis of retinal diseases such as diabetic retinopathy has had the attention of many researchers. Deep learning through the introduction of convolutional neural networks has become a prominent solution for image-related tasks such as classification and segmentation. Most tasks in image classification are handled by deep CNNs pretrained and evaluated on imagenet dataset. However, these models do not always translate to the best result on other datasets. Devising a neural network manually from scratch based on heuristics may not lead to an optimal model as there are numerous hyperparameters in play. In this paper, we use two nature-inspired swarm algorithms: particle swarm optimization (PSO) and ant colony optimization (ACO) to obtain TDCN models to perform classification of fundus images into severity classes. The power of swarm algorithms is used to search for various combinations of convolutional, pooling, and normalization layers to provide the best model for the task. It is observed that TDCN-PSO outperforms imagenet models and existing literature, while TDCN-ACO achieves faster architecture search. The best TDCN model achieves an accuracy of 90.3%, AUC ROC of 0.956, and a Cohen kappa score of 0.967. The results were compared with the previous studies to show that the proposed TDCN models exhibit superior performance.
翻訳日:2022-10-19 13:04:08 公開日:2022-10-17
# 双方向言語知識グラフ事前学習

Deep Bidirectional Language-Knowledge Graph Pretraining ( http://arxiv.org/abs/2210.09338v1 )

ライセンス: Link先を確認
Michihiro Yasunaga, Antoine Bosselut, Hongyu Ren, Xikun Zhang, Christopher D Manning, Percy Liang, Jure Leskovec(参考訳) テキスト上で言語モデル(LM)を事前学習することは、様々な下流のNLPタスクに役立つことが示されている。 最近の研究は、知識グラフ(KG)がテキストデータを補完し、構造化された背景知識を提供し、推論に有用な足場を提供することを示している。 しかし、これらの作品は、テキストとkgの完全な結合表現を得る可能性を制限し、スケールでの2つのモダリティの深い融合を学ぶために事前訓練されていない。 本稿では,テキストとKGを大規模に融合した言語知識基盤モデルを事前学習するための自己指導型アプローチであるDRAGONを提案する。 具体的には、入力としてテキストセグメントと関連するKGサブグラフのペアを取り、両モードから情報を双方向に融合する。 我々は,2つの自己教師型推論タスク,マスキング言語モデリング,KGリンク予測を統合することで,このモデルを事前学習する。 DRAGONは、一般的な領域とバイオメディカル領域にわたる質問応答を含む様々な下流タスクにおいて、既存のLMとLM+KGモデルよりパフォーマンスが良く、平均で+5%の絶対ゲインがある。 特に、DRAGONは、言語と知識に関する複雑な推論(長いコンテキストや多段階の推論に関する質問の+10%以上)と低リソースのQA(OBQAとRiddleSenseの+8%以上)における顕著なパフォーマンスと、様々なBioNLPタスクにおける最先端の成果を実現している。 私たちのコードとトレーニングされたモデルはhttps://github.com/michiyasunaga/dragon.comで利用可能です。

Pretraining a language model (LM) on text has been shown to help various downstream NLP tasks. Recent works show that a knowledge graph (KG) can complement text data, offering structured background knowledge that provides a useful scaffold for reasoning. However, these works are not pretrained to learn a deep fusion of the two modalities at scale, limiting the potential to acquire fully joint representations of text and KG. Here we propose DRAGON (Deep Bidirectional Language-Knowledge Graph Pretraining), a self-supervised approach to pretraining a deeply joint language-knowledge foundation model from text and KG at scale. Specifically, our model takes pairs of text segments and relevant KG subgraphs as input and bidirectionally fuses information from both modalities. We pretrain this model by unifying two self-supervised reasoning tasks, masked language modeling and KG link prediction. DRAGON outperforms existing LM and LM+KG models on diverse downstream tasks including question answering across general and biomedical domains, with +5% absolute gain on average. In particular, DRAGON achieves notable performance on complex reasoning about language and knowledge (+10% on questions involving long contexts or multi-step reasoning) and low-resource QA (+8% on OBQA and RiddleSense), and new state-of-the-art results on various BioNLP tasks. Our code and trained models are available at https://github.com/michiyasunaga/dragon.
翻訳日:2022-10-19 13:02:54 公開日:2022-10-17
# 変形スケールトランスポーション・コンボリューション

Deformably-Scaled Transposed Convolution ( http://arxiv.org/abs/2210.09446v1 )

ライセンス: Link先を確認
Stefano B. Blumberg, Daniele Rav\'i, Mou-Cheng Xu, Matteo Figini, Iasonas Kokkinos, Daniel C. Alexander(参考訳) 変換畳み込みは高解像度の出力を生成するために重要であるが、畳み込み層に比べてほとんど注目されていない。 本研究では,変換された畳み込みを再検討し,画像に情報を選択的に配置し,画像が合成される「ストローク幅」を選択することができる新しいレイヤを導入する。 これには,まず,畳み込み結果が配置された位置にオフセットを回帰する,次に学習可能な近傍にオフセットウェイトロケーションをブロードキャストする,次に,コンパクトパラメトリゼーションを用いてウェイトの共有とオフセットの制限を行う,という3つのアイデアを導入する。 本報告では,アップサンプリング演算子を新しいレイヤに置換するだけで,インスタンスセグメンテーション,オブジェクト検出,セマンティックセグメンテーション,生成画像モデリング,3次元磁気共鳴画像強調といったタスクを多種多様なタスクで実現できることを示す。 私たちの新しいレイヤは、2Dおよび3Dアップサンプリングオペレータのドロップイン代替として使用することができ、コードは公開されます。

Transposed convolution is crucial for generating high-resolution outputs, yet has received little attention compared to convolution layers. In this work we revisit transposed convolution and introduce a novel layer that allows us to place information in the image selectively and choose the `stroke breadth' at which the image is synthesized, whilst incurring a small additional parameter cost. For this we introduce three ideas: firstly, we regress offsets to the positions where the transpose convolution results are placed; secondly we broadcast the offset weight locations over a learnable neighborhood; and thirdly we use a compact parametrization to share weights and restrict offsets. We show that simply substituting upsampling operators with our novel layer produces substantial improvements across tasks as diverse as instance segmentation, object detection, semantic segmentation, generative image modeling, and 3D magnetic resonance image enhancement, while outperforming all existing variants of transposed convolutions. Our novel layer can be used as a drop-in replacement for 2D and 3D upsampling operators and the code will be publicly available.
翻訳日:2022-10-19 13:01:30 公開日:2022-10-17
# 反復型自己更新型コントラスト学習による複数インスタンス学習

Multiple Instance Learning via Iterative Self-Paced Supervised Contrastive Learning ( http://arxiv.org/abs/2210.09452v1 )

ライセンス: Link先を確認
Kangning Liu, Weicheng Zhu, Yiqiu Shen, Sheng Liu, Narges Razavian, Krzysztof J. Geras, Carlos Fernandez-Granda(参考訳) バッグレベルのラベルのみが利用可能な個々のインスタンスの表現を学習することは、複数のインスタンス学習(mil)において基本的な課題である。 最近の研究は、2つの異なるランダム選択されたインスタンスに対応する表現を分割することを学ぶコントラッシブ自己教師学習(CSSL)を用いて有望な結果を示している。 残念ながら、医用画像分類のような現実世界のアプリケーションでは、しばしばクラス不均衡があり、ランダムに選択されたインスタンスは、ほとんど同じ多数派に属するため、csslがクラス間の違いを学ぶことを妨げる。 この問題に対処するため,本研究では,バッグレベルのラベルから派生したインスタンスレベルの擬似ラベルを活用することで,学習表現を改善する新しいフレームワークであるIterative Self-paced Supervised Convistive Learning for MIL Representations (ItS2CLR)を提案する。 このフレームワークは、擬似ラベルの精度を確保するために、新しい自己ペースのサンプリング戦略を採用している。 我々は,3つの医療データセット上でItS2CLRを評価し,インスタンスレベルの擬似ラベルと表現の質を改善し,バッグレベルの精度とインスタンスレベルの精度の両方で既存のMILメソッドより優れていることを示す。

Learning representations for individual instances when only bag-level labels are available is a fundamental challenge in multiple instance learning (MIL). Recent works have shown promising results using contrastive self-supervised learning (CSSL), which learns to push apart representations corresponding to two different randomly-selected instances. Unfortunately, in real-world applications such as medical image classification, there is often class imbalance, so randomly-selected instances mostly belong to the same majority class, which precludes CSSL from learning inter-class differences. To address this issue, we propose a novel framework, Iterative Self-paced Supervised Contrastive Learning for MIL Representations (ItS2CLR), which improves the learned representation by exploiting instance-level pseudo labels derived from the bag-level labels. The framework employs a novel self-paced sampling strategy to ensure the accuracy of pseudo labels. We evaluate ItS2CLR on three medical datasets, showing that it improves the quality of instance-level pseudo labels and representations, and outperforms existing MIL methods in terms of both bag and instance level accuracy.
翻訳日:2022-10-19 13:01:03 公開日:2022-10-17
# 効率的なNASのための拡張可能プロキシ

Extensible Proxy for Efficient NAS ( http://arxiv.org/abs/2210.09459v1 )

ライセンス: Link先を確認
Yuhong Li, Jiajie Li, Cong Han, Pan Li, Jinjun Xiong, Deming Chen(参考訳) ニューラルアーキテクチャサーチ(NAS)は、ディープニューラルネットワーク(DNN)を設計するAutoMLの最近のトレンドにおいて、事実上のアプローチになっている。 さらに、NASの要求される計算問題に対処するために、効率よく、あるいは、ほぼゼロコストのNASプロキシが提案されている。 プロキシから得られた値は、下流タスクにおけるアーキテクチャパフォーマンスの予測と見なされる。 しかし、2つの重大な欠点は、効率的なnasプロキシの使用の延長を妨げる。 1)効率的なプロキシは様々な検索空間に適応しない。 2) 効率的なプロキシはマルチモーダリティ下流タスクには拡張できない。 本研究は, 自己監督型, 少数ショットトレーニング(バックプロパゲーションの10イテレーション)を利用した拡張可能なプロキシ(Eproxy)を設計し, ほぼゼロのコストを発生させる。 Eproxyを効率的にする鍵となるコンポーネントは、制約不能な畳み込み層と呼ばれるバリア層であり、最適化空間に非線形性を加えて、Eproxyが初期のアーキテクチャのパフォーマンスを識別できるようにする。 さらに、異なるダウンストリームタスク/検索空間に適応させるために、ターゲットタスク上の少数のベンチマークアーキテクチャでEproxyの最適化されたトレーニング設定を見つけるために、離散プロキシ探索(DPS)を提案する。 Eproxy+DPSとEproxy+DPSの両方の有効性を確認した。 コードはhttps://github.com/leeyeehoo/GenNAS-Zeroで入手できる。

Neural Architecture Search (NAS) has become a de facto approach in the recent trend of AutoML to design deep neural networks (DNNs). Efficient or near-zero-cost NAS proxies are further proposed to address the demanding computational issues of NAS, where each candidate architecture network only requires one iteration of backpropagation. The values obtained from the proxies are considered the predictions of architecture performance on downstream tasks. However, two significant drawbacks hinder the extended usage of Efficient NAS proxies. (1) Efficient proxies are not adaptive to various search spaces. (2) Efficient proxies are not extensible to multi-modality downstream tasks. Based on the observations, we design a Extensible proxy (Eproxy) that utilizes self-supervised, few-shot training (i.e., 10 iterations of backpropagation) which yields near-zero costs. The key component that makes Eproxy efficient is an untrainable convolution layer termed barrier layer that add the non-linearities to the optimization spaces so that the Eproxy can discriminate the performance of architectures in the early stage. Furthermore, to make Eproxy adaptive to different downstream tasks/search spaces, we propose a Discrete Proxy Search (DPS) to find the optimized training settings for Eproxy with only handful of benchmarked architectures on the target tasks. Our extensive experiments confirm the effectiveness of both Eproxy and Eproxy+DPS. Code is available at https://github.com/leeyeehoo/GenNAS-Zero.
翻訳日:2022-10-19 13:00:41 公開日:2022-10-17
# オンデバイス音声認識のためのサブ8ビット量子化:正規化フリーアプローチ

Sub-8-bit quantization for on-device speech recognition: a regularization-free approach ( http://arxiv.org/abs/2210.09188v1 )

ライセンス: Link先を確認
Kai Zhen, Martin Radfar, Hieu Duy Nguyen, Grant P. Strimel, Nathan Susanj, Athanasios Mouchtaris(参考訳) オンデバイス自動音声認識(ASR)では、量子化対応訓練(QAT)がユビキタスであり、モデル予測性能と効率のトレードオフを実現する。 既存のQAT法の中で大きな欠点は、量子化セントロイドを予め決めて固定する必要があることである。 この制限を克服するために、ミューロー制約空間に自己調整可能なセントロイドを持つ正規化フリーの「ソフト・トゥ・ハード」圧縮機構を導入し、よりシンプルで多用途な量子化方式、General Quantizer (GQ) を提案する。 リカレントニューラルネットワークトランスデューサ(RNN-T)とコンバータアーキテクチャをLibriSpeechとde-identified Far-fieldデータセットの両方に適用し、ASRタスクにGQを適用する。 精度の低下なしに、GQ は RNN-T と Conformer の両方を sub-8-bit に圧縮でき、いくつかの RNN-T 層では高速で正確な推論のために 1-bit に圧縮できる。 物理デバイスベンチマークによる8ビットQATと比較して,30.73%のメモリフットプリントと31.75%のレイテンシ削減が観察された。

For on-device automatic speech recognition (ASR), quantization aware training (QAT) is ubiquitous to achieve the trade-off between model predictive performance and efficiency. Among existing QAT methods, one major drawback is that the quantization centroids have to be predetermined and fixed. To overcome this limitation, we introduce a regularization-free, "soft-to-hard" compression mechanism with self-adjustable centroids in a mu-Law constrained space, resulting in a simpler yet more versatile quantization scheme, called General Quantizer (GQ). We apply GQ to ASR tasks using Recurrent Neural Network Transducer (RNN-T) and Conformer architectures on both LibriSpeech and de-identified far-field datasets. Without accuracy degradation, GQ can compress both RNN-T and Conformer into sub-8-bit, and for some RNN-T layers, to 1-bit for fast and accurate inference. We observe a 30.73% memory footprint saving and 31.75% user-perceived latency reduction compared to 8-bit QAT via physical device benchmarking.
翻訳日:2022-10-18 22:15:31 公開日:2022-10-17
# グラフニューラルネットワークを用いた教師なし最適潮流

Unsupervised Optimal Power Flow Using Graph Neural Networks ( http://arxiv.org/abs/2210.09277v1 )

ライセンス: Link先を確認
Damian Owerko, Fernando Gama, Alejandro Ribeiro(参考訳) 最適電力フロー(OPF)は、需要を最小限のコストで満たすために発電機に電力を割り当てる重要な最適化問題である。 この問題を正確に解くことは、一般の場合では計算不可能である。 本研究では,グラフ信号処理と機械学習を活用することを提案する。 具体的には、グラフニューラルネットワークを用いて、要求される電力と対応するアロケーションとの間の非線形パラメトリゼーションを学習する。 私たちは教師なしの方法でソリューションを学び、コストを直接最小化する。 格子の電気的制約を考慮に入れ,微分可能で,当初不可能な点に作用する新しいバリア法を提案する。 我々は,この教師なし学習コンテキストにおけるgnnの使用が,計算効率を保ちながら標準解法に匹敵する解を導いてくれることをシミュレーションにより示す。

Optimal power flow (OPF) is a critical optimization problem that allocates power to the generators in order to satisfy the demand at a minimum cost. Solving this problem exactly is computationally infeasible in the general case. In this work, we propose to leverage graph signal processing and machine learning. More specifically, we use a graph neural network to learn a nonlinear parametrization between the power demanded and the corresponding allocation. We learn the solution in an unsupervised manner, minimizing the cost directly. In order to take into account the electrical constraints of the grid, we propose a novel barrier method that is differentiable and works on initially infeasible points. We show through simulations that the use of GNNs in this unsupervised learning context leads to solutions comparable to standard solvers while being computationally efficient and avoiding constraint violations most of the time.
翻訳日:2022-10-18 22:15:08 公開日:2022-10-17
# ISEE.U:予測不可能なターゲットによる分散オンラインアクティブターゲットローカライゼーション

ISEE.U: Distributed online active target localization with unpredictable targets ( http://arxiv.org/abs/2210.09107v1 )

ライセンス: Link先を確認
Miguel Vasques, Claudia Soares, Jo\~ao Gomes(参考訳) 本稿では, 各ノードにおける分散, 単純, 高速な計算によって定義されるオンライン能動学習アルゴリズムを用いて, 目標位置の推定を調整するパラメータがなく, 集中型最大分布推定器に期待して, 漸近的に同じ位置にあることを示す。 ISEE.Uは各エージェントに対してノイズの多い距離を取り、ローカライズ精度を最大化する制御を見つける。 特定のターゲットダイナミクスを想定していないため,予測不能なターゲットに対してロバストな手法である。 各エージェントは、Fisher Information Matrixの局所推定により、全体的な目標位置精度を最大化する制御を計算する。 提案手法を,目標運動が所定の軌道に従わない場合と,本手法が1つの中央CPU上で動作している場合の計算時間をx100より短縮した場合とを比較した。

This paper addresses target localization with an online active learning algorithm defined by distributed, simple and fast computations at each node, with no parameters to tune and where the estimate of the target position at each agent is asymptotically equal in expectation to the centralized maximum-likelihood estimator. ISEE.U takes noisy distances at each agent and finds a control that maximizes localization accuracy. We do not assume specific target dynamics and, thus, our method is robust when facing unpredictable targets. Each agent computes the control that maximizes overall target position accuracy via a local estimate of the Fisher Information Matrix. We compared the proposed method with a state of the art algorithm outperforming it when the target movements do not follow a prescribed trajectory, with x100 less computation time, even when our method is running in one central CPU.
翻訳日:2022-10-18 22:14:20 公開日:2022-10-17
# pdeモデルのためのデータ駆動ジョイントインバージョン

Data-Driven Joint Inversions for PDE Models ( http://arxiv.org/abs/2210.09228v1 )

ライセンス: Link先を確認
Kui Ren, Lu Zhang(参考訳) 観測データから偏微分方程式における複数の物理係数を同時に再構成する作業は、応用においてユビキタスである。 そこで本研究では,未知係数の追加データを補足した統合逆変換問題に対するデータ駆動型およびモデルベース反復再構築フレームワークを提案する。 提案手法は補足データをPDEモデルと組み合わせて,データ駆動モデリングプロセスとモデルに基づく再構築手順を一致させる。 2つの典型的なモデル逆問題に対する連立反転結果に対する学習の不確実性の影響を特徴づける。 データ駆動モデルを用いて物理モデルの結合反転を改善する可能性を示す数値的な証拠が提供される。

The task of simultaneously reconstructing multiple physical coefficients in partial differential equations from observed data is ubiquitous in applications. In this work, we propose an integrated data-driven and model-based iterative reconstruction framework for such joint inversion problems where additional data on the unknown coefficients are supplemented for better reconstructions. Our method couples the supplementary data with the PDE model to make the data-driven modeling process consistent with the model-based reconstruction procedure. We characterize the impact of learning uncertainty on the joint inversion results for two typical model inverse problems. Numerical evidences are provided to demonstrate the feasibility of using data-driven models to improve joint inversion of physical models.
翻訳日:2022-10-18 22:14:02 公開日:2022-10-17
# 一般確率ゲームにおける政策勾配法のナッシュ平衡への収束について

On the convergence of policy gradient methods to Nash equilibria in general stochastic games ( http://arxiv.org/abs/2210.08857v1 )

ライセンス: Link先を確認
Angeliki Giannou and Kyriakos Lotidis and Panayotis Mertikopoulos and Emmanouil-Vasileios Vlatakis-Gkaragkounis(参考訳) 確率ゲームで学ぶことは、互いの戦略的な決定に加えて、プレイヤーはゲーム自体が時間とともに進化するという事実と、おそらく非常に複雑な方法で競合するため、非常に難しい問題である。 このため、一般的な学習アルゴリズム(ポリシー勾配やその変種など)の収束特性は、特定のゲームのクラス(ポテンシャルゲームや2プレイヤーゲーム、ゼロサムゲームなど)を除いては理解されていない。 そこで本研究では,2次定常状態(SOS)であるナッシュ均衡政策に対する政策勾配法の長期的挙動を,最適化に使用される充足条件のタイプに類似した意味で検討する。 最初の結果は、SOSのポリシーは高い確率で局所的に引き寄せられていることを示し、この方法のステップサイズが適切に選択された場合、REINFORCEアルゴリズムによって得られる勾配推定によるポリシー勾配軌跡が$\mathcal{O}(1/\sqrt{n})$距離2乗収束率を達成することを示す。 その後、決定論的nashポリシーのクラスに特化することで、このレートが劇的に改善できることを示し、実際、ポリシー勾配法は、その場合の有限個のイテレーション内に収束する。

Learning in stochastic games is a notoriously difficult problem because, in addition to each other's strategic decisions, the players must also contend with the fact that the game itself evolves over time, possibly in a very complicated manner. Because of this, the convergence properties of popular learning algorithms - like policy gradient and its variants - are poorly understood, except in specific classes of games (such as potential or two-player, zero-sum games). In view of this, we examine the long-run behavior of policy gradient methods with respect to Nash equilibrium policies that are second-order stationary (SOS) in a sense similar to the type of sufficiency conditions used in optimization. Our first result is that SOS policies are locally attracting with high probability, and we show that policy gradient trajectories with gradient estimates provided by the REINFORCE algorithm achieve an $\mathcal{O}(1/\sqrt{n})$ distance-squared convergence rate if the method's step-size is chosen appropriately. Subsequently, specializing to the class of deterministic Nash policies, we show that this rate can be improved dramatically and, in fact, policy gradient methods converge within a finite number of iterations in that case.
翻訳日:2022-10-18 22:08:48 公開日:2022-10-17
# ユニタリ変換に基づく一般化近似メッセージパッシング

A Unitary Transform Based Generalized Approximate Message Passing ( http://arxiv.org/abs/2210.08861v1 )

ライセンス: Link先を確認
Jiang Zhu and Xiangming Meng and Xupeng Lei and Qinghua Guo(参考訳) 一般化線形モデル (glm) により得られた一般非線形測定値から未知の信号 ${\mathbf x}\in {\mathbb r}^n$ を回復する問題、すなわち $f(\cdot)$ が成分的非線形関数であるような場合、${\mathbf y}= f\left({\mathbf a}{\mathbf x}+{\mathbf w}\right)$ を考える。 ユニタリ変換近似メッセージパッシング (uamp) と期待伝播 (expectation propagation) に基づいて, 一般計測行列 $\bf{a}$, 特に高相関行列に対してユニタリ変換に基づく一般化近似メッセージパッシング (guamp) アルゴリズムを提案する。 量子化された圧縮センシング実験の結果、GUAMPは相関行列$\bf{A}$で最先端のGAMPとGVAMPを著しく上回ることを示した。

We consider the problem of recovering an unknown signal ${\mathbf x}\in {\mathbb R}^n$ from general nonlinear measurements obtained through a generalized linear model (GLM), i.e., ${\mathbf y}= f\left({\mathbf A}{\mathbf x}+{\mathbf w}\right)$, where $f(\cdot)$ is a componentwise nonlinear function. Based on the unitary transform approximate message passing (UAMP) and expectation propagation, a unitary transform based generalized approximate message passing (GUAMP) algorithm is proposed for general measurement matrices $\bf{A}$, in particular highly correlated matrices. Experimental results on quantized compressed sensing demonstrate that the proposed GUAMP significantly outperforms state-of-the-art GAMP and GVAMP under correlated matrices $\bf{A}$.
翻訳日:2022-10-18 22:08:25 公開日:2022-10-17
# 部分ネスト情報構造を持つ分散線形二次レギュレータ学習のためのレギュレット境界

Regret Bounds for Learning Decentralized Linear Quadratic Regulator with Partially Nested Information Structure ( http://arxiv.org/abs/2210.08886v1 )

ライセンス: Link先を確認
Lintao Ye, Ming Chi, Vijay Gupta(参考訳) システムモデルが未知の事前条件である場合,部分ネスト情報制約の下で分散線形二次制御系を学習する問題について検討する。 本研究では,単一のシステム軌道からの新しいデータサンプルが利用可能になるにつれて,制御ポリシーを適応的に設計するオンライン学習アルゴリズムを提案する。 アルゴリズム設計では、状態フィードバックコントローラの外乱フィードバック表現と、オンライン凸最適化とメモリと遅延フィードバックを組み合わせた。 我々のオンラインアルゴリズムは、所望の情報制約を満たすコントローラを生成し、期待された後悔を享受し、時間軸の$T$で$\sqrt{T}$にスケールすることを示す。

We study the problem of learning decentralized linear quadratic regulator under a partially nested information constraint, when the system model is unknown a priori. We propose an online learning algorithm that adaptively designs a control policy as new data samples from a single system trajectory become available. Our algorithm design uses a disturbance-feedback representation of state-feedback controllers coupled with online convex optimization with memory and delayed feedback. We show that our online algorithm yields a controller that satisfies the desired information constraint and enjoys an expected regret that scales as $\sqrt{T}$ with the time horizon $T$.
翻訳日:2022-10-18 22:07:50 公開日:2022-10-17
# 拡散スケーリングを伴う双曲系に対する漸近保存ニューラルネットワーク

Asymptotic-Preserving Neural Networks for hyperbolic systems with diffusive scaling ( http://arxiv.org/abs/2210.09081v1 )

ライセンス: Link先を確認
Giulia Bertaglia(参考訳) 機械学習技術の急速な進歩と科学データの利用の深化により、データ駆動型アプローチは科学全体で徐々に普及し始め、社会の多くの領域に直接的な影響を与える強力なツールであることが証明された後、科学手法の根本的な変化を引き起こした。 それでも、複雑なマルチスケールシステムのダイナミクスを解析しようとすると、学習プロセス中に一貫した適用を必要とするシステム内の縮小モデルや単純化モデルにつながる小さなスケールが存在するため、標準ディープニューラルネットワーク(DNN)や標準物理情報ニューラルネットワーク(PINN)の使用は誤った推論と予測につながる可能性がある。 本章では,双曲線モデルのための漸近保存ニューラルネットワーク(apnns)の開発で得られた最近の結果を踏まえて,これらの問題に対処する。 いくつかの数値実験は、標準的なDNNやPINNと比較して、APNNが問題の大きさに関して、特に、ほとんど情報や散らばった情報しか得られないシナリオを解析する場合に、かなり良い結果をもたらすことを示す。

With the rapid advance of Machine Learning techniques and the deep increment of availability of scientific data, data-driven approaches have started to become progressively popular across science, causing a fundamental shift in the scientific method after proving to be powerful tools with a direct impact in many areas of society. Nevertheless, when attempting to analyze the dynamics of complex multiscale systems, the usage of standard Deep Neural Networks (DNNs) and even standard Physics-Informed Neural Networks (PINNs) may lead to incorrect inferences and predictions, due to the presence of small scales leading to reduced or simplified models in the system that have to be applied consistently during the learning process. In this Chapter, we will address these issues in light of recent results obtained in the development of Asymptotic-Preserving Neural Networks (APNNs) for hyperbolic models with diffusive scaling. Several numerical tests show how APNNs provide considerably better results with respect to the different scales of the problem when compared with standard DNNs and PINNs, especially when analyzing scenarios in which only little and scattered information is available.
翻訳日:2022-10-18 22:07:34 公開日:2022-10-17
# 2つの考え方 - 連合学習におけるバックドア攻撃の改善を期待する

Thinking Two Moves Ahead: Anticipating Other Users Improves Backdoor Attacks in Federated Learning ( http://arxiv.org/abs/2210.09305v1 )

ライセンス: Link先を確認
Yuxin Wen, Jonas Geiping, Liam Fowl, Hossein Souri, Rama Chellappa, Micah Goldblum, Tom Goldstein(参考訳) フェデレーション学習は、個々のユーザがトレーニングデータやモデル更新を直接制御できるため、特にモデル中毒やバックドア攻撃の影響を受けやすい。 同時に、個々のユーザーの攻撃力が制限されるのは、その更新が他の多くのユーザーの攻撃によって急速に排除されるからだ。 既存の攻撃は、他のユーザーの将来の振る舞いを考慮せず、多くのシーケンシャルな更新を必要とし、その影響はすぐに消される。 我々は,他のクライアントの行動を含む,フェデレートされた学習パイプライン全体の予測と説明を行う攻撃を提案し,コミュニティ更新が複数回行われた後もバックドアが迅速かつ持続可能であることを保証した。 この新たな攻撃は、ランダムにサンプリングされた少数のラウンドにしか寄与しない現実的なシナリオにおいて有効であり、画像分類、次の単語予測、感情分析に対する攻撃を示す。

Federated learning is particularly susceptible to model poisoning and backdoor attacks because individual users have direct control over the training data and model updates. At the same time, the attack power of an individual user is limited because their updates are quickly drowned out by those of many other users. Existing attacks do not account for future behaviors of other users, and thus require many sequential updates and their effects are quickly erased. We propose an attack that anticipates and accounts for the entire federated learning pipeline, including behaviors of other clients, and ensures that backdoors are effective quickly and persist even after multiple rounds of community updates. We show that this new attack is effective in realistic scenarios where the attacker only contributes to a small fraction of randomly sampled rounds and demonstrate this attack on image classification, next-word prediction, and sentiment analysis.
翻訳日:2022-10-18 22:01:31 公開日:2022-10-17
# ミラー降下による位相検索

Provable Phase Retrieval with Mirror Descent ( http://arxiv.org/abs/2210.09248v1 )

ライセンス: Link先を確認
Jean-Jacques Godeme, Jalal Fadili, Xavier Buet, Myriam Zerrad, Michel Lequime and Claude Amra(参考訳) 本稿では, 実ベクトルを$m$の線形測定値から復元することによる位相探索の問題点について考察する。 本稿では,ブラグマン分岐に基づくミラー降下(ブレグマン勾配降下)アルゴリズムを提案する。これにより,非凸位相探索目的の勾配に対する古典的なグローバルリプシッツ連続性要件を最小化することができる。 鏡面下降を2つのランダムな測定に応用する: \iid Standard Gaussian と Coded Diffraction Patterns (CDP) による多重構造イルミネーションにより得られる。 ガウスの場合、測定値が$m$で十分大きい場合、ほとんどすべての初期化子に対して高い確率で、アルゴリズムは元のベクトルを大域的な符号変化まで復元する。 どちらの測定においても、ミラー降下は次元に依存しない収束率を持つ局所線形収束挙動を示す。 その結果, 精密光学系における画像再構成への応用を含め, 様々な数値実験が得られた。

In this paper, we consider the problem of phase retrieval, which consists of recovering an $n$-dimensional real vector from the magnitude of its $m$ linear measurements. We propose a mirror descent (or Bregman gradient descent) algorithm based on a wisely chosen Bregman divergence, hence allowing to remove the classical global Lipschitz continuity requirement on the gradient of the non-convex phase retrieval objective to be minimized. We apply the mirror descent for two random measurements: the \iid standard Gaussian and those obtained by multiple structured illuminations through Coded Diffraction Patterns (CDP). For the Gaussian case, we show that when the number of measurements $m$ is large enough, then with high probability, for almost all initializers, the algorithm recovers the original vector up to a global sign change. For both measurements, the mirror descent exhibits a local linear convergence behaviour with a dimension-independent convergence rate. Our theoretical results are finally illustrated with various numerical experiments, including an application to the reconstruction of images in precision optics.
翻訳日:2022-10-18 22:00:44 公開日:2022-10-17
# 深層学習支援ラプラスに基づく疫学システムに対するベイズ推論

Deep Learning Aided Laplace Based Bayesian Inference for Epidemiological Systems ( http://arxiv.org/abs/2210.08865v1 )

ライセンス: Link先を確認
Wai Meng Kwok (1), Sarat Chandra Dass (1), George Streftaris (2) ((1) Heriot-Watt University Malaysia, (2) Heriot-Watt University Edinburgh)(参考訳) パラメータ推定と関連する不確実性定量化は、しばしば非線形である常微分方程式(ODE)モデルによって特徴づけられる力学系において重要な問題である。 典型的には、そのようなモデルは解析的に難解な軌跡を持ち、同様に難解な確率と後方分布をもたらす。 シミュレーション手法によるODEシステムのベイズ推定は、計算力と収束の遅いコストで高精度な推論を行うために数値近似を必要とする。 同時に、Artificial Neural Networks (ANN) は、近似的だがトラクタブルな可能性と後部分布を構築するために使用できるトラクタビリティを提供する。 本稿では,Laplace に基づくベイズ推定と ANN アーキテクチャを組み合わせて,未知の初期値とシステムパラメータの関数として ODE 軌道への近似を求めるハイブリッド手法を提案する。 ode軌道とラプラス近似を微調整するために,コロケーショングリッドとカスタム損失関数の適切な選択を提案する。 本手法の有効性は,非分析的ソリューションを用いた疫学システム,SIR(Susceptible-Infectious-Demoved)モデルを用いて実証された。 提案手法の新規性と魅力には, (i) ODEに基づく動的システムのためのANNアーキテクチャを用いたベイズ推論の新しい展開 (ii)ベンチマークマルコフ連鎖モンテカルロ法の収束問題を回避して計算速度の速い後方推定を行うこと。 これらの2つの特徴は、従来のベイズ計算法に代わる正確な方法として開発手法を確立し、計算コストを向上した。

Parameter estimation and associated uncertainty quantification is an important problem in dynamical systems characterized by ordinary differential equation (ODE) models that are often nonlinear. Typically, such models have analytically intractable trajectories which result in likelihoods and posterior distributions that are similarly intractable. Bayesian inference for ODE systems via simulation methods require numerical approximations to produce inference with high accuracy at a cost of heavy computational power and slow convergence. At the same time, Artificial Neural Networks (ANN) offer tractability that can be utilized to construct an approximate but tractable likelihood and posterior distribution. In this paper we propose a hybrid approach, where Laplace-based Bayesian inference is combined with an ANN architecture for obtaining approximations to the ODE trajectories as a function of the unknown initial values and system parameters. Suitable choices of a collocation grid and customized loss functions are proposed to fine tune the ODE trajectories and Laplace approximation. The effectiveness of our proposed methods is demonstrated using an epidemiological system with non-analytical solutions, the Susceptible-Infectious-Removed (SIR) model for infectious diseases, based on simulated and real-life influenza datasets. The novelty and attractiveness of our proposed approach include (i) a new development of Bayesian inference using ANN architectures for ODE based dynamical systems, and (ii) a computationally fast posterior inference by avoiding convergence issues of benchmark Markov Chain Monte Carlo methods. These two features establish the developed approach as an accurate alternative to traditional Bayesian computational methods, with improved computational cost.
翻訳日:2022-10-18 22:00:26 公開日:2022-10-17
# ゼロ知識証明による信頼できないDNN推論のスケールアップ

Scaling up Trustless DNN Inference with Zero-Knowledge Proofs ( http://arxiv.org/abs/2210.08674v1 )

ライセンス: Link先を確認
Daniel Kang, Tatsunori Hashimoto, Ion Stoica, Yi Sun(参考訳) MLモデルは能力と精度が向上し、デプロイメントの複雑さも増している。 MLモデル消費者は、ML-as-a-service(MLaaS)パラダイムでMLモデルを提供するために、サービスプロバイダに目を向けている。 モデルコンシューマは、悪意のあるサービスプロバイダや怠け者、バグの多いサービスプロバイダに対して、正しい予測が提供されたことをどうやって検証できるのか? 本研究では,MLモデル推論を非インタラクティブに検証する,最初の実用的なImageNet-scale法を提案する。 そのため,zk-snarks (zero-knowledge succinct non-interactive argument of knowledge) では,ゼロ知識証明の形式である。 ZK-SNARKはMLモデルの実行を非対話的に検証し、標準の暗号ハードネス仮定でのみ検証する。 特に、フル解像度のImageNetモデルに対して有効な推論のZK-SNARK証明を初めて提供し、79\%のトップ5精度を実現した。 さらに、これらのZK-SNARKを使用して、MLaaS予測の検証、MLaaSモデルの精度の検証、信頼できない検索のためのMLモデルの使用など、さまざまなシナリオでMLモデル実行を検証するプロトコルを設計する。 この結果から,ZK-SNARKはMLモデル推論を実用的なものにすることを約束していることがわかった。

As ML models have increased in capabilities and accuracy, so has the complexity of their deployments. Increasingly, ML model consumers are turning to service providers to serve the ML models in the ML-as-a-service (MLaaS) paradigm. As MLaaS proliferates, a critical requirement emerges: how can model consumers verify that the correct predictions were served, in the face of malicious, lazy, or buggy service providers? In this work, we present the first practical ImageNet-scale method to verify ML model inference non-interactively, i.e., after the inference has been done. To do so, we leverage recent developments in ZK-SNARKs (zero-knowledge succinct non-interactive argument of knowledge), a form of zero-knowledge proofs. ZK-SNARKs allows us to verify ML model execution non-interactively and with only standard cryptographic hardness assumptions. In particular, we provide the first ZK-SNARK proof of valid inference for a full resolution ImageNet model, achieving 79\% top-5 accuracy. We further use these ZK-SNARKs to design protocols to verify ML model execution in a variety of scenarios, including for verifying MLaaS predictions, verifying MLaaS model accuracy, and using ML models for trustless retrieval. Together, our results show that ZK-SNARKs have the promise to make verified ML model inference practical.
翻訳日:2022-10-18 21:52:33 公開日:2022-10-17
# de novo分子設計のためのトランスベース生成モデル

A Transformer-based Generative Model for De Novo Molecular Design ( http://arxiv.org/abs/2210.08749v1 )

ライセンス: Link先を確認
Wenlu Wang, Ye Wang, Honggang Zhao and Simone Sciabola(参考訳) 深層学習は、薬物発見のための目に見えない構造を生成する新しい方法として、多くの注目を集めている。 de novoターゲット特異的分子設計のためのトランスベース深層モデルを提案する。 提案法では, 薬物様化合物と標的特異的化合物の両方を生成できる。 後者は、ターゲット毎に異なるキーとマルチヘッドアテンションの値を実行することで生成される。 SMILES文字列の生成が指定されたターゲットに対して条件付きであることを許容する。 サンプル化合物は、主に実際のターゲット特異的データの化学空間を占有し、また新規化合物のかなりの割合をカバーしている。

Deep learning draws a lot of attention as a new way of generating unseen structures for drug discovery. We propose a Transformer-based deep model for de novo target-specific molecular design. The proposed method is capable of generating both drug-like compounds and target-specific compounds. The latter are generated by enforcing different keys and values of the multi-head attention for each target. We allow the generation of SMILES strings to be conditional on the specified target. The sampled compounds largely occupy the real target-specific data's chemical space and also cover a significant fraction of novel compounds.
翻訳日:2022-10-18 21:52:06 公開日:2022-10-17
# 等価翻訳を伴うタンパク質の配列と構造共設計

Protein Sequence and Structure Co-Design with Equivariant Translation ( http://arxiv.org/abs/2210.08761v1 )

ライセンス: Link先を確認
Chence Shi, Chuanrui Wang, Jiarui Lu, Bozitao Zhong, Jian Tang(参考訳) タンパク質はすべての生物に必須の機能を持つ高分子である。 特定の構造と所望の機能を持つ新規タンパク質の設計は、バイオエンジニアリングの分野で長年の課題であった。 既存のアプローチは、自己回帰モデルまたは拡散モデルを用いて、タンパク質配列と構造の両方を生成する。 本稿では,タンパク質配列と構造をランダム初期化から所望の状態へと反復的に翻訳する,タンパク質配列と構造共設計が可能な新しい手法を提案する。 我々のモデルは、幾何学的制約と文脈特徴からの相互作用を推論する三角法対応エンコーダと、タンパク質配列と構造を相互に翻訳するロト翻訳同変デコーダからなる。 特に、すべてのタンパク質アミノ酸は翻訳ステップごとに1ショットで更新され、推論プロセスが大幅に加速される。 複数のタスクにまたがる実験結果から,我々のモデルは従来の最先端のベースラインを大きなマージンで上回り,配列と構造の両方について高い忠実度を持つタンパク質を設計できることがわかった。

Proteins are macromolecules that perform essential functions in all living organisms. Designing novel proteins with specific structures and desired functions has been a long-standing challenge in the field of bioengineering. Existing approaches generate both protein sequence and structure using either autoregressive models or diffusion models, both of which suffer from high inference costs. In this paper, we propose a new approach capable of protein sequence and structure co-design, which iteratively translates both protein sequence and structure into the desired state from random initialization, based on context features given a priori. Our model consists of a trigonometry-aware encoder that reasons geometrical constraints and interactions from context features, and a roto-translation equivariant decoder that translates protein sequence and structure interdependently. Notably, all protein amino acids are updated in one shot in each translation step, which significantly accelerates the inference process. Experimental results across multiple tasks show that our model outperforms previous state-of-the-art baselines by a large margin, and is able to design proteins of high fidelity as regards both sequence and structure, with running time orders of magnitude less than sampling-based methods.
翻訳日:2022-10-18 21:51:58 公開日:2022-10-17
# 確率的個人的・公正な学習

Stochastic Differentially Private and Fair Learning ( http://arxiv.org/abs/2210.08781v1 )

ライセンス: Link先を確認
Andrew Lowy, Devansh Gupta, Meisam Razaviyayn(参考訳) 機械学習モデルは、高度な意思決定システムでますます使われている。 このようなアプリケーションでは、これらのモデルが特定の人種、性別、年齢といった特定の人口集団に対して差別されることがある。 これらのアプリケーションにおけるもうひとつの大きな懸念は、ユーザのプライバシ侵害である。 差別問題を緩和するために公正な学習アルゴリズムが開発されているが、これらのアルゴリズムは個人の健康や財務記録などの機密情報を漏洩することができる。 ディファレンシャルプライバシ(DP)の概念を利用することで、従来はプライベートかつフェアな学習アルゴリズムの開発を目標としていた。 しかし、dpフェアラーニングのための既存のアルゴリズムは、収束を保証されないか、アルゴリズムの各イテレーションで全データのバッチを必要とする。 本稿では,収束が保証されるフェアラーニングのための最初の確率的微分プライベートアルゴリズムを提案する。 ここで「確率的」という用語は、各イテレーションでデータのミニバッチ(すなわち確率的最適化)が使われても提案アルゴリズムが収束するという事実を指す。 われわれのフレームワークは、人口的平等や等化確率など、さまざまな公平性の概念を許容できるほど柔軟である。 さらに,本アルゴリズムは,複数の(非バイナリ)感度属性を持つ非バイナリ分類タスクに適用可能である。 収束解析の副産物として,非凸強凸min-max問題を解くdpアルゴリズムに対する最初の実用的保証を提供する。 数値実験により,提案アルゴリズムは最先端のベースラインよりも高い性能を示し,非バイナリターゲット/感度特性の大規模問題に適用可能であることが示された。

Machine learning models are increasingly used in high-stakes decision-making systems. In such applications, a major concern is that these models sometimes discriminate against certain demographic groups such as individuals with certain race, gender, or age. Another major concern in these applications is the violation of the privacy of users. While fair learning algorithms have been developed to mitigate discrimination issues, these algorithms can still leak sensitive information, such as individuals' health or financial records. Utilizing the notion of differential privacy (DP), prior works aimed at developing learning algorithms that are both private and fair. However, existing algorithms for DP fair learning are either not guaranteed to converge or require full batch of data in each iteration of the algorithm to converge. In this paper, we provide the first stochastic differentially private algorithm for fair learning that is guaranteed to converge. Here, the term "stochastic" refers to the fact that our proposed algorithm converges even when minibatches of data are used at each iteration (i.e. stochastic optimization). Our framework is flexible enough to permit different fairness notions, including demographic parity and equalized odds. In addition, our algorithm can be applied to non-binary classification tasks with multiple (non-binary) sensitive attributes. As a byproduct of our convergence analysis, we provide the first utility guarantee for a DP algorithm for solving nonconvex-strongly concave min-max problems. Our numerical experiments show that the proposed algorithm consistently offers significant performance gains over the state-of-the-art baselines, and can be applied to larger scale problems with non-binary target/sensitive attributes.
翻訳日:2022-10-18 21:51:37 公開日:2022-10-17
# あなたはどのように「トロール」していますか。 オンラインソーシャルネットワークにおけるトロール行動の測定と検出

How "troll" are you? Measuring and detecting troll behavior in online social networks ( http://arxiv.org/abs/2210.08786v1 )

ライセンス: Link先を確認
Fatima Ezzeddine and Luca Luceri and Omran Ayoub and Ihab Sbeity and Gianluca Nogara and Emilio Ferrara and Silvia Giordano(参考訳) 偽情報操作で国家が支援するトロルが検出されることは、研究コミュニティにとって未解決かつ重要な課題であり、オンラインの領域を超えている。 本稿では,2つのステップからなるトロルアカウントの検出手法を提案する。 最初のステップは、トロールアカウントまたはオーガニックユーザアカウントに属するアカウントのオンラインアクティビティの軌跡を分類することを目的としている。 第2のステップでは、分類された軌跡を利用してメトリック、すなわち「トロールスコア」を計算し、アカウントがトロルのように振る舞う程度を定量化します。 実験の結果,本手法は,aucの99%近くでアカウントの軌跡を識別し,aucの97%でトロルとオーガニックユーザを分類した。 最後に、提案手法がさまざまな状況(例えば、Covid-19に関する議論)と一般的な誤動作ユーザに一般化できるかどうかを評価し、今後の取り組みでさらに拡張されるであろう有望な結果を示す。

The detection of state-sponsored trolls acting in misinformation operations is an unsolved and critical challenge for the research community, with repercussions that go beyond the online realm. In this paper, we propose a novel approach for the detection of troll accounts, which consists of two steps. The first step aims at classifying trajectories of accounts' online activities as belonging to either a troll account or to an organic user account. In the second step, we exploit the classified trajectories to compute a metric, namely "troll score", which allows us to quantify the extent to which an account behaves like a troll. Experimental results show that our approach identifies accounts' trajectories with an AUC close to 99% and, accordingly, classify trolls and organic users with an AUC of 97%. Finally, we evaluate whether the proposed solution can be generalized to different contexts (e.g., discussions about Covid-19) and generic misbehaving users, showing promising results that will be further expanded in our future endeavors.
翻訳日:2022-10-18 21:51:13 公開日:2022-10-17
# 多面体記述によるクラスター説明

Cluster Explanation via Polyhedral Descriptions ( http://arxiv.org/abs/2210.08798v1 )

ライセンス: Link先を確認
Connor Lawless, Oktay Gunluk(参考訳) クラスタリングは教師なしの学習問題であり、競合しないデータポイントを同様の機能を持つグループに分割することを目的としている。 従来のクラスタリングアルゴリズムは、グループ割り当ての解釈可能性ではなく、精度に重点を置いたグループに対する限定的な洞察を提供する。 これにより、クラスタリングのための説明可能な機械学習に関する最近の作業が促進された。 本稿では、データセットとそのクラスタへの分割が与えられた場合、そのタスクはクラスタを説明することであるクラスタ記述問題に焦点を当てる。 本稿では,各クラスタのまわりにポリヘドラを配置し,結果として生じるポリヘドラの複雑さを最小化してクラスタを説明する手法を提案する。 本稿では,クラスタ記述問題を整数プログラムとして定式化し,多面体構築に使用可能な指数関数的な半空間候補を探索するための列生成手法を提案する。 大規模なデータセットを扱うために,まず,より小さなデータポイント群を形成し,次にグループ化されたデータを取り巻くポリヘドラを構築する,新たなグループ化方式を導入する。 artクラスタ記述アルゴリズムの状況と比較すると,提案手法は,記述精度を向上させた競合解釈性を実現することができる。

Clustering is an unsupervised learning problem that aims to partition unlabelled data points into groups with similar features. Traditional clustering algorithms provide limited insight into the groups they find as their main focus is accuracy and not the interpretability of the group assignments. This has spurred a recent line of work on explainable machine learning for clustering. In this paper we focus on the cluster description problem where, given a dataset and its partition into clusters, the task is to explain the clusters. We introduce a new approach to explain clusters by constructing polyhedra around each cluster while minimizing either the complexity of the resulting polyhedra or the number of features used in the description. We formulate the cluster description problem as an integer program and present a column generation approach to search over an exponential number of candidate half-spaces that can be used to build the polyhedra. To deal with large datasets, we introduce a novel grouping scheme that first forms smaller groups of data points and then builds the polyhedra around the grouped data, a strategy which out-performs simply sub-sampling data. Compared to state of the art cluster description algorithms, our approach is able to achieve competitive interpretability with improved description accuracy.
翻訳日:2022-10-18 21:50:56 公開日:2022-10-17
# CS-MLGCN : マルチプレックスネットワークにおけるコミュニティ検索のための多重グラフ畳み込みネットワーク

CS-MLGCN : Multiplex Graph Convolutional Networks for Community Search in Multiplex Networks ( http://arxiv.org/abs/2210.08811v1 )

ライセンス: Link先を確認
Ali Behrouz, Farnoosh Hashemi(参考訳) コミュニティ検索(community search, cs)は、ネットワーク科学における基本的なタスクのひとつであり、幅広いアプリケーションでパーソナライズされたコミュニティを見つける能力から、多くの注目を集めている。 問合せノードが与えられた場合、csは問合せノードを含む密結合部分グラフを探し出す。 既存のアプローチのほとんどは、ネットワークの単一のビューを定義するノード間の単一のタイプの近接性を持つネットワークを研究する。 しかし、生物学的、社会的、輸送ネットワークのような多くのアプリケーションでは、オブジェクト間の相互作用は複数の側面にまたがり、多重ネットワークと呼ばれる複数のビューを持つネットワークを生み出す。 マルチプレックスネットワークにおける既存のcsアプローチでは,事前定義されたサブグラフパターンを採用してコミュニティをモデル化している。 本稿では,マルチプレックスネットワークにおけるクエリ駆動グラフ畳み込みネットワークcs-mlgcnを提案する。 cs-mlgcnはまず、局所的なクエリ依存構造とグローバルグラフ埋め込みをそれぞれの近接型に結合し、次に注意機構を使用して異なる種類の関係に関する情報を取り込む。 地上コミュニティを用いた実世界のグラフ実験は、我々が獲得したソリューションの品質とモデルの効率を検証します。

Community Search (CS) is one of the fundamental tasks in network science and has attracted much attention due to its ability to discover personalized communities with a wide range of applications. Given any query nodes, CS seeks to find a densely connected subgraph containing query nodes. Most existing approaches usually study networks with a single type of proximity between nodes, which defines a single view of a network. However, in many applications such as biological, social, and transportation networks, interactions between objects span multiple aspects, yielding networks with multiple views, called multiplex networks. Existing CS approaches in multiplex networks adopt pre-defined subgraph patterns to model the communities, which cannot find communities that do not have such pre-defined patterns in real-world networks. In this paper, we propose a query-driven graph convolutional network in multiplex networks, CS-MLGCN, that can capture flexible community structures by learning from the ground-truth communities in a data-driven fashion. CS-MLGCN first combines the local query-dependent structure and global graph embedding in each type of proximity and then uses an attention mechanism to incorporate information on different types of relations. Experiments on real-world graphs with ground-truth communities validate the quality of the solutions we obtain and the efficiency of our model.
翻訳日:2022-10-18 21:50:39 公開日:2022-10-17
# オンラインマルチプレイヤーゲームにおける属性推論攻撃 : Dota2を事例として

Attribute Inference Attacks in Online Multiplayer Video Games: a Case Study on Dota2 ( http://arxiv.org/abs/2210.09028v1 )

ライセンス: Link先を確認
Pier Paolo Tricomi, Lisa Facciolo, Giovanni Apruzzese, Mauro Conti(参考訳) dota2プレーヤーの7000万人以上が、ゲーム内データを自由にアクセスできることをご存知ですか? もしそのようなデータが悪意ある方法で使われたら? 本稿は,このような問題を最初に調査する。 ビデオゲームの普及に触発され,Dota2コンテキストにおける属性推論攻撃(AIA)に対する最初の脅威モデルを提案する。 攻撃者がDota2エコシステムの豊富な公開データを利用して、プレイヤーの個人情報を推測する(そしてなぜ)のかを説明する。 AIAの有効性に関する具体的証拠が欠如しているため、実証的に現実への影響を証明し評価する。 26k以上の対戦にまたがる$\sim$500 Dota2プレーヤーの広範な調査を行うことで、プレイヤーのDota2アクティビティと実生活の間に相関が存在するかどうかを検証する。 そして、そのようなリンクを見つけた後($p\! <\! 0.01ドルと$\rho>0.3$)は倫理的に多様なAIAを行う。 我々は、機械学習の能力を活用して、ゲーム内データを公開することにより、調査の回答者の実際の属性を推測する。 その結果,ドメインの専門知識を応用すれば,AIAの精度は最大98%,精度は90%以上に達することがわかった。 この論文は、ゲーム界全体に影響を与える可能性のある、微妙だが具体的な脅威に対するアラームを提起する。 我々はdota2の開発者に警告した。

Did you know that over 70 million of Dota2 players have their in-game data freely accessible? What if such data is used in malicious ways? This paper is the first to investigate such a problem. Motivated by the widespread popularity of video games, we propose the first threat model for Attribute Inference Attacks (AIA) in the Dota2 context. We explain how (and why) attackers can exploit the abundant public data in the Dota2 ecosystem to infer private information about its players. Due to lack of concrete evidence on the efficacy of our AIA, we empirically prove and assess their impact in reality. By conducting an extensive survey on $\sim$500 Dota2 players spanning over 26k matches, we verify whether a correlation exists between a player's Dota2 activity and their real-life. Then, after finding such a link ($p\!<\!0.01$ and $\rho>0.3$), we ethically perform diverse AIA. We leverage the capabilities of machine learning to infer real-life attributes of the respondents of our survey by using their publicly available in-game data. Our results show that, by applying domain expertise, some AIA can reach up to 98% precision and over 90% accuracy. This paper hence raises the alarm on a subtle, but concrete threat that can potentially affect the entire competitive gaming landscape. We alerted the developers of Dota2.
翻訳日:2022-10-18 21:50:15 公開日:2022-10-17
# 変分自由エネルギー最小化によるベイズニューラルネットワークの原理的プルーニング

Principled Pruning of Bayesian Neural Networks through Variational Free Energy Minimization ( http://arxiv.org/abs/2210.09134v1 )

ライセンス: Link先を確認
Jim Beckers, Bart van Erp, Ziyue Zhao, Kirill Kondrashov and Bert de Vries(参考訳) ベイズモデル還元は、これらのサブモデルを再評価することなく、モデルのネストした全てのサブモデルのパフォーマンスを比較するための効率的なアプローチを提供する。 これまでベイズモデルの減少は主に計算神経科学のコミュニティで適用されてきた。 本稿では,変分自由エネルギー最小化に基づくベイズニューラルネットワークの原理的プルーニングを行うためにベイズモデル削減を定式化し,適用する。 この新しいパラメータプルーニング方式は、信号処理コミュニティで使われている多くの最先端プルーニング手法の欠点を解決する。 提案手法は、明確な停止基準を持ち、トレーニング中に使用されるのと同じ目的を最小化する。 これらの理論的利点に次いで,本実験は,最先端プルーニング方式と比較して,モデル性能がよいことを示す。

Bayesian model reduction provides an efficient approach for comparing the performance of all nested sub-models of a model, without re-evaluating any of these sub-models. Until now, Bayesian model reduction has been applied mainly in the computational neuroscience community. In this paper, we formulate and apply Bayesian model reduction to perform principled pruning of Bayesian neural networks, based on variational free energy minimization. This novel parameter pruning scheme solves the shortcomings of many current state-of-the-art pruning methods that are used by the signal processing community. The proposed approach has a clear stopping criterion and minimizes the same objective that is used during training. Next to these theoretical benefits, our experiments indicate better model performance in comparison to state-of-the-art pruning schemes.
翻訳日:2022-10-18 21:49:54 公開日:2022-10-17
# オンポリシー模倣学習によるモデル予測制御

Model Predictive Control via On-Policy Imitation Learning ( http://arxiv.org/abs/2210.09206v1 )

ライセンス: Link先を確認
Kwangjun Ahn, Zakaria Mhammedi, Horia Mania, Zhang-Wei Hong, Ali Jadbabaie(参考訳) 本稿では,強化学習(rl)文学における近年の注目点である模倣学習の急速な進歩を活用して,制約付き線形システムのためのデータ駆動モデル予測制御(mpc)のための新しいサンプル複雑性結果と性能保証を開発する。 最も単純な形式では、模倣学習は専門家からサンプルを問い合わせて専門家の方針を学ぼうとするアプローチである。 データ駆動型MPCへの最近のアプローチでは、ビヘイビアクローンとして知られる最も単純な模倣学習を用いて、閉ループMPCシステムの軌道をオンラインサンプリングすることで、MPCの性能を模倣するコントローラを学習している。 しかし、振る舞いのクローニングはデータ効率が悪く分布シフトに苦しむことが知られている手法である。 代替案として,ross et al. (2010) が提案したオンポリシー模倣学習法であるフォワードトレーニングアルゴリズムの変種を開発した。 提案手法では,制約付き線形mpcの構造を用い,明示的mpc解の特性を用いて最適性能を達成するために必要なオンラインmpc軌道数を理論的に拘束する。 その結果をシミュレーションにより検証し,mpcに適用した場合,フォワードトレーニングアルゴリズムが行動クローニングよりも優れていることを示す。

In this paper, we leverage the rapid advances in imitation learning, a topic of intense recent focus in the Reinforcement Learning (RL) literature, to develop new sample complexity results and performance guarantees for data-driven Model Predictive Control (MPC) for constrained linear systems. In its simplest form, imitation learning is an approach that tries to learn an expert policy by querying samples from an expert. Recent approaches to data-driven MPC have used the simplest form of imitation learning known as behavior cloning to learn controllers that mimic the performance of MPC by online sampling of the trajectories of the closed-loop MPC system. Behavior cloning, however, is a method that is known to be data inefficient and suffer from distribution shifts. As an alternative, we develop a variant of the forward training algorithm which is an on-policy imitation learning method proposed by Ross et al. (2010). Our algorithm uses the structure of constrained linear MPC, and our analysis uses the properties of the explicit MPC solution to theoretically bound the number of online MPC trajectories needed to achieve optimal performance. We validate our results through simulations and show that the forward training algorithm is indeed superior to behavior cloning when applied to MPC.
翻訳日:2022-10-18 21:49:43 公開日:2022-10-17
# 幾何ディスクリプタのマッチングによる多用途行動の推定

Inferring Versatile Behavior from Demonstrations by Matching Geometric Descriptors ( http://arxiv.org/abs/2210.08121v1 )

ライセンス: Link先を確認
Niklas Freymuth, Nicolas Schreiber, Philipp Becker, Aleksander Taranovic, Gerhard Neumann(参考訳) 人間は直感的にタスクを多目的に解決し、軌道に基づく計画や個々のステップの行動を変える。 したがって、彼らは簡単に一般化し、新しく変化する環境に適応できる。 現在の模倣学習アルゴリズムは、ユニモーダルな専門家によるデモンストレーションのみを考慮し、状態に基づく設定で行動することが多いため、多用途なデモンストレーションの場合、人間の行動を模倣することが困難である。 代わりに、移動プリミティブの混合と分布マッチングの目的を組み合わせることで、専門家の行動と汎用性にマッチする多目的行動を学ぶ。 新たなタスク構成への一般化を容易にするため、エージェントとエキスパートの軌道分布を直接一致させるのではなく、見当たらないタスク構成に一般化した簡潔な幾何学的記述子で作業する。 本手法は,多彩な人間の実演を用いて,様々なロボットタスクにおいて実験的に検証し,状態動作設定と軌道に基づく設定で模倣学習アルゴリズムと比較する。 幾何学的記述子は,新しいタスク構成への一般化に大きく寄与し,分布マッチングの目的と組み合わせることが,多目的行動の表現と再現に不可欠であることがわかった。

Humans intuitively solve tasks in versatile ways, varying their behavior in terms of trajectory-based planning and for individual steps. Thus, they can easily generalize and adapt to new and changing environments. Current Imitation Learning algorithms often only consider unimodal expert demonstrations and act in a state-action-based setting, making it difficult for them to imitate human behavior in case of versatile demonstrations. Instead, we combine a mixture of movement primitives with a distribution matching objective to learn versatile behaviors that match the expert's behavior and versatility. To facilitate generalization to novel task configurations, we do not directly match the agent's and expert's trajectory distributions but rather work with concise geometric descriptors which generalize well to unseen task configurations. We empirically validate our method on various robot tasks using versatile human demonstrations and compare to imitation learning algorithms in a state-action setting as well as a trajectory-based setting. We find that the geometric descriptors greatly help in generalizing to new task configurations and that combining them with our distribution-matching objective is crucial for representing and reproducing versatile behavior.
翻訳日:2022-10-18 21:34:12 公開日:2022-10-17
# 有界合理的エージェントの意思決定

Decision-Making Among Bounded Rational Agents ( http://arxiv.org/abs/2210.08672v1 )

ライセンス: Link先を確認
Junhong Xu, Durgakant Pushp, Kai Yin, Lantao Liu(参考訳) ロボットが他の知的エージェント(例えば、他のロボットや人間)と同じ作業空間を共有する場合、指定されたタスクを遂行しながら、隣のエージェントの振る舞いを推論できなければならない。 実際、しばしば、エージェントは計算資源が限られているため、完全に合理的な振る舞いを示さない。 したがって、最適なエージェントの振る舞いを予測するのは望ましくない(計算資源の禁止を要求するため)し、望ましくない(予測が間違っているためかもしれない)。 この観察により,完全有理性エージェントの仮定を排除し,情報理論の観点から有理性の概念をゲーム理論の枠組みに取り入れることを提案する。 これにより、ロボットは他のエージェントの準最適動作を推論し、計算制約の下で行動することができる。 具体的には、有界有理性は、名目と最適化確率ポリシーのKL分割として表されるエージェントの情報処理能力を直接モデル化し、有界最適ポリシーへの解決策は効率的な重要サンプリングアプローチによって得ることができる。 マルチロボットナビゲーションタスクにおけるシミュレーションと実世界の両方の実験を用いて、ロボットが他のエージェントの理性的な振る舞いの異なるレベルを推論し、その計算制約の下で合理的な戦略を計算できることを実証した。

When robots share the same workspace with other intelligent agents (e.g., other robots or humans), they must be able to reason about the behaviors of their neighboring agents while accomplishing the designated tasks. In practice, frequently, agents do not exhibit absolutely rational behavior due to their limited computational resources. Thus, predicting the optimal agent behaviors is undesirable (because it demands prohibitive computational resources) and undesirable (because the prediction may be wrong). Motivated by this observation, we remove the assumption of perfectly rational agents and propose incorporating the concept of bounded rationality from an information-theoretic view into the game-theoretic framework. This allows the robots to reason other agents' sub-optimal behaviors and act accordingly under their computational constraints. Specifically, bounded rationality directly models the agent's information processing ability, which is represented as the KL-divergence between nominal and optimized stochastic policies, and the solution to the bounded-optimal policy can be obtained by an efficient importance sampling approach. Using both simulated and real-world experiments in multi-robot navigation tasks, we demonstrate that the resulting framework allows the robots to reason about different levels of rational behaviors of other agents and compute a reasonable strategy under its computational constraint.
翻訳日:2022-10-18 21:26:15 公開日:2022-10-17
# ペデストリアンの協調知覚の安全性評価のための高忠実度シミュレーションフレームワーク

A High Fidelity Simulation Framework for Potential Safety Benefits Estimation of Cooperative Pedestrian Perception ( http://arxiv.org/abs/2210.08731v1 )

ライセンス: Link先を確認
Yan Zhang, Longrui Chen, Wenjie Jiang, Jiangtao Gong, Jiahao Shen, Mengdi Chu, Chuxuan Li, Yifeng Pan, Yifeng Shi, Nairui Luo, Xu Gao, Jirui Yuan, Guyue Zhou, Yaqin Zhang(参考訳) 本稿では,車両対インフラ(v2i)歩行者安全戦略の潜在的安全性を推定する高忠実度シミュレーションフレームワークを提案する。 本シミュレータは、環境条件、交通条件、歩行者特性を同時にシミュレーションすることにより、ループ内の協調認識アルゴリズムをサポートすることができる。 また,本フレームワークに適用したベネフィット推定モデルでは,リスクコンフリクト(非クラッシュ状態)と歩行者の重症度(クラッシュ状態)の両方を体系的に定量化することができる。 この論文では、中国の混雑した都市交差点のデジタル双生児を製作する実験を行った。 その結果,v2i歩行者安全戦略の安全性評価に有効であることがわかった。

This paper proposes a high-fidelity simulation framework that can estimate the potential safety benefits of vehicle-to-infrastructure (V2I) pedestrian safety strategies. This simulator can support cooperative perception algorithms in the loop by simulating the environmental conditions, traffic conditions, and pedestrian characteristics at the same time. Besides, the benefit estimation model applied in our framework can systematically quantify both the risk conflict (non-crash condition) and the severity of the pedestrian's injuries (crash condition). An experiment was conducted in this paper that built a digital twin of a crowded urban intersection in China. The result shows that our framework is efficient for safety benefit estimation of V2I pedestrian safety strategies.
翻訳日:2022-10-18 21:25:52 公開日:2022-10-17
# 明示的推論による人間-ロボット共同作業のロバスト計画

Robust Planning for Human-Robot Joint Tasks with Explicit Reasoning on Human Mental State ( http://arxiv.org/abs/2210.08879v1 )

ライセンス: Link先を確認
Anthony Favier, Shashank Shekhar, Rachid Alami(参考訳) 我々は,人間ロボットチームが達成するための既知の目的を持った共有タスクを与えられる,人間対応タスク計画問題を考える。 近年のアプローチでは、ロボットが両方のエージェント(共有された)タスクを計画する独立した合理的エージェントのチームとしてそれをモデル化している。 しかし、ロボットは人間が人工エージェントのように管理できないことを知っており、人間の決定、行動、反応をエミュレートし、予測する。 従来のアプローチに基づいて,実行時の可観測性規約をモデル化し,使用するための新しいアプローチについて述べる。 要約すると、このモデリングは状況アセスメントに基づいており、我々のアプローチは個々のエージェントの信念の進化を捉え、実際に起こる信念の多様性を予測するのに役立つ。 信念の一致が必要かどうかを判断し、コミュニケーションによって達成する。 これらの変更はソルバの性能を改善する。 (a)コミュニケーションを効果的に利用し (b)より現実的で困難な問題に対して堅牢である。

We consider the human-aware task planning problem where a human-robot team is given a shared task with a known objective to achieve. Recent approaches tackle it by modeling it as a team of independent, rational agents, where the robot plans for both agents' (shared) tasks. However, the robot knows that humans cannot be administered like artificial agents, so it emulates and predicts the human's decisions, actions, and reactions. Based on earlier approaches, we describe a novel approach to solve such problems, which models and uses execution-time observability conventions. Abstractly, this modeling is based on situation assessment, which helps our approach capture the evolution of individual agents' beliefs and anticipate belief divergences that arise in practice. It decides if and when belief alignment is needed and achieves it with communication. These changes improve the solver's performance: (a) communication is effectively used, and (b) robust for more realistic and challenging problems.
翻訳日:2022-10-18 21:25:39 公開日:2022-10-17
# 機械学習を用いた電力グリッドモデルの静的特徴から動的安定性を予測する

Predicting Dynamic Stability from Static Features in Power Grid Models using Machine Learning ( http://arxiv.org/abs/2210.09266v1 )

ライセンス: Link先を確認
Maurizio Titz, Franz Kaiser, Johannes Kruse, Dirk Witthaut(参考訳) 電力の信頼できる供給は我々の社会にとって不可欠だ。 送電線障害は、グリッドを相互に非同期なフラグメントに分割する可能性があるため、電力グリッドの安定性に対する最大の脅威の一つである。 既存のシミュレーションモデルを補完するシステムの安定性を評価する新しい概念的手法が必要である。 本稿では,ネットワーク科学指標と機械学習モデルを組み合わせて,非同期事象のリスクを予測する手法を提案する。 ネットワークサイエンスは、その冗長性や中心性といった伝送線路の本質的特性の指標を提供する。 機械学習モデルは固有の特徴選択を実行し、ネットワークの堅牢性と脆弱性を決定する重要な要因を明らかにする。 ケーススタディでは、複数の合成テストグリッドのシミュレーションデータを用いて、そのようなモデルを訓練し、テストする。 統合モデルでは,すべてのデータセットを平均化した場合の平均精度が0.996ドルを超えるライン障害後のデシンクロナイゼーションイベントを予測できることがわかった。 異なるデータセット間の学習転送は、予測性能のわずかな損失で一般的に可能である。 以上の結果から, 電力網の非同期化は, 極めて高い静的ラインローディングを発生させることなく, ネットワークがフローを再ロードする能力を定量化する, 少数のネットワークメトリクスによって制御されていることが示唆された。

A reliable supply with electric power is vital for our society. Transmission line failures are among the biggest threats for power grid stability as they may lead to a splitting of the grid into mutual asynchronous fragments. New conceptual methods are needed to assess system stability that complement existing simulation models. In this article we propose a combination of network science metrics and machine learning models to predict the risk of desynchronisation events. Network science provides metrics for essential properties of transmission lines such as their redundancy or centrality. Machine learning models perform inherent feature selection and thus reveal key factors that determine network robustness and vulnerability. As a case study, we train and test such models on simulated data from several synthetic test grids. We find that the integrated models are capable of predicting desynchronisation events after line failures with an average precision greater than $0.996$ when averaging over all data sets. Learning transfer between different data sets is generally possible, at a slight loss of prediction performance. Our results suggest that power grid desynchronisation is essentially governed by only a few network metrics that quantify the networks ability to reroute flow without creating exceedingly high static line loadings.
翻訳日:2022-10-18 21:25:11 公開日:2022-10-17
# マークスマンバックドア:任意のターゲットクラスによるバックドア攻撃

Marksman Backdoor: Backdoor Attacks with Arbitrary Target Class ( http://arxiv.org/abs/2210.09194v1 )

ライセンス: Link先を確認
Khoa D. Doan, Yingjie Lao, Ping Li(参考訳) 近年、機械学習モデルはバックドア攻撃に対して脆弱であることが示されている。 このような攻撃の下で、敵は訓練されたモデルにステルスなバックドアを埋め込み、妥協したモデルは通常クリーンな入力で振る舞うが、引き金で悪意ある構築された入力に対する敵の制御に従って分類される。 これらの既存の攻撃は、非常に効果的であるが、敵の能力は限られている: 入力が与えられた場合、これらの攻撃は、モデルが単一の事前定義されたまたはターゲットクラスに誤分類されるだけである。 対照的に,本論文では,マークスマン(Marksman)という,より強力なペイロードを持つ新たなバックドア攻撃を利用して,モデルが推論中に入力を誤って分類するターゲットクラスを任意に選択することができる。 この目的を達成するために、我々は、トリガー関数をクラス条件生成モデルとして表現し、制約付き最適化フレームワークでバックドアを注入することを提案し、そこで、トリガー関数は、任意のターゲットクラスを任意に攻撃し、同時に生成したバックドアをトレーニングされたモデルに埋め込みながら、最適なトリガーパターンを生成することを学習する。 学習されたトリガ生成関数が推論中、敵は任意のバックドア攻撃対象クラスを指定でき、モデルがターゲットクラスに向かって分類される適切なトリガが生成される。 提案フレームワークは,MNIST, CIFAR10, GTSRB, TinyImageNetなど,複数のベンチマークデータセットにおいてクリーンデータ性能を維持しつつ,高い攻撃性能を実現することを実証的に示す。 提案されたマークスマンバックドア攻撃は、当初1つのターゲットクラスでバックドア攻撃用に設計された既存のバックドア防御をバイパスすることもできます。 我々の研究は、実践におけるバックドア攻撃の広範なリスクを理解するための重要な一歩を踏み出した。

In recent years, machine learning models have been shown to be vulnerable to backdoor attacks. Under such attacks, an adversary embeds a stealthy backdoor into the trained model such that the compromised models will behave normally on clean inputs but will misclassify according to the adversary's control on maliciously constructed input with a trigger. While these existing attacks are very effective, the adversary's capability is limited: given an input, these attacks can only cause the model to misclassify toward a single pre-defined or target class. In contrast, this paper exploits a novel backdoor attack with a much more powerful payload, denoted as Marksman, where the adversary can arbitrarily choose which target class the model will misclassify given any input during inference. To achieve this goal, we propose to represent the trigger function as a class-conditional generative model and to inject the backdoor in a constrained optimization framework, where the trigger function learns to generate an optimal trigger pattern to attack any target class at will while simultaneously embedding this generative backdoor into the trained model. Given the learned trigger-generation function, during inference, the adversary can specify an arbitrary backdoor attack target class, and an appropriate trigger causing the model to classify toward this target class is created accordingly. We show empirically that the proposed framework achieves high attack performance while preserving the clean-data performance in several benchmark datasets, including MNIST, CIFAR10, GTSRB, and TinyImageNet. The proposed Marksman backdoor attack can also easily bypass existing backdoor defenses that were originally designed against backdoor attacks with a single target class. Our work takes another significant step toward understanding the extensive risks of backdoor attacks in practice.
翻訳日:2022-10-18 21:17:46 公開日:2022-10-17
# 神経接触場:触覚による外因性接触の追跡

Neural Contact Fields: Tracking Extrinsic Contact with Tactile Sensing ( http://arxiv.org/abs/2210.09297v1 )

ライセンス: Link先を確認
Carolina Higuera, Siyuan Dong, Byron Boots, and Mustafa Mukadam(参考訳) 本稿では,物体と環境との接触を追跡する問題に対処するために,ニューラルネットワークと触覚センシングを組み合わせたニューラルコンタクトフィールドを提案する。 外部との接触がどこで起きているかを知ることは、下流操作作業を容易にするためにアクティブに制御できるメソッドへの第一歩である。 環境接触をローカライズするための以前の作業は、通常接触タイプ(例えば点や線)を想定し、接触/非接触遷移をキャプチャせず、基本的な幾何学的な形状の物体でのみ動作する。 ニューラルコンタクトフィールドは、接触タイプを仮定することなく、任意のマルチモーダルな外部接触を追跡できる最初の方法である。 我々の重要な洞察は、物体形状の潜在空間における任意の3次元点の接触確率を推定することであり、外部接触による局所的な動きを感知する視覚に基づく触覚入力が与えられる。 実験の結果,ニューラルコンタクトフィールドは接触の形状を仮定することなく複数の接触パッチを局所化することができ,未知の環境構成で未知の形状を持つ既知の物体の接触/非接触遷移を捉えることができることがわかった。 また, 神経接触野に加えて, ycb-extrinsic contact dataset of simulated extrinsic contact interaction も公開し, この領域におけるさらなる研究を可能にした。 プロジェクトリポジトリ: https://github.com/carolinahiguera/ncf

We present Neural Contact Fields, a method that brings together neural fields and tactile sensing to address the problem of tracking extrinsic contact between object and environment. Knowing where the external contact occurs is a first step towards methods that can actively control it in facilitating downstream manipulation tasks. Prior work for localizing environmental contacts typically assume a contact type (e.g. point or line), does not capture contact/no-contact transitions, and only works with basic geometric-shaped objects. Neural Contact Fields are the first method that can track arbitrary multi-modal extrinsic contacts without making any assumptions about the contact type. Our key insight is to estimate the probability of contact for any 3D point in the latent space of object shapes, given vision-based tactile inputs that sense the local motion resulting from the external contact. In experiments, we find that Neural Contact Fields are able to localize multiple contact patches without making any assumptions about the geometry of the contact, and capture contact/no-contact transitions for known categories of objects with unseen shapes in unseen environment configurations. In addition to Neural Contact Fields, we also release our YCB-Extrinsic-Contact dataset of simulated extrinsic contact interactions to enable further research in this area. Project repository: https://github.com/carolinahiguera/NCF
翻訳日:2022-10-18 21:16:56 公開日:2022-10-17
# 物体検出のための深層学習システムを再訓練するには,何個の放射線写真が必要か?

How many radiographs are needed to re-train a deep learning system for object detection? ( http://arxiv.org/abs/2210.08734v1 )

ライセンス: Link先を確認
Raniere Silva, Khizar Hayat, Christopher M Riggs, Michael Doube(参考訳) 背景: コンピュータビジョンにおける物体検出は、深層畳み込みニューラルネットワークの進歩の恩恵を受けており、例えば、膝関節または椎間板の周りに箱を付けてラジオグラフに注釈を付けることができる。 深層学習は、画像の1%未満の)小さな画像を検出することができるか? 深層学習モデルの再トレーニングには、どのくらいのラジオグラフが必要か? 方法】手根骨の近位列,手根骨の遠位列,副手根骨,第1手根骨(現在),中手根骨(中手根II,III,IV)と,左右手根骨75の396個のX線像を左右手根骨の近位側斜視(DMPLO)投射に注記した。 ラジオグラフィーとアノテーションは、YOLOv5sから移行学習を用いて作成したモデルのクロスバリデーションを1対1で残すために使用されるセットに分割された。 結果: 96ラジオグラフ以上の精度で訓練されたモデルでは, 初回手根骨を含む0.95以上をリコール, マップし, 32エポックのトレーニングを行った。 最良のモデルは、他の骨と比較して最初の手根骨を検出するために2倍のエポックを必要とした。 結論: ディープラーニングに基づくアートオブジェクト検出モデルのフリーかつオープンソースな状態は、100のラジオグラフによるコンピュータビジョンアプリケーションで再訓練することができ、精度、リコール、マップが0.95を超える。

Background: Object detection in radiograph computer vision has largely benefited from progress in deep convolutional neural networks and can, for example, annotate a radiograph with a box around a knee joint or intervertebral disc. Is deep learning capable of detect small (less than 1% of the image) in radiographs? And how many radiographs do we need use when re-training a deep learning model? Methods: We annotated 396 radiographs of left and right carpi dorsal 75 medial to palmarolateral oblique (DMPLO) projection with the location of radius, proximal row of carpal bones, distal row of carpal bones, accessory carpal bone, first carpal bone (if present), and metacarpus (metacarpal II, III, and IV). The radiographs and respective annotations were splited into sets that were used to leave-one-out cross-validation of models created using transfer learn from YOLOv5s. Results: Models trained using 96 radiographs or more achieved precision, recall and mAP above 0.95, including for the first carpal bone, when trained for 32 epochs. The best model needed the double of epochs to learn to detect the first carpal bone compared with the other bones. Conclusions: Free and open source state of the art object detection models based on deep learning can be re-trained for radiograph computer vision applications with 100 radiographs and achieved precision, recall and mAP above 0.95.
翻訳日:2022-10-18 21:08:20 公開日:2022-10-17
# 物体の仮想画像の横断拡大を求めることで、薄いレンズの焦点距離を決定するためのスマートフォンカメラの使用

Use of a smartphone camera to determine the focal length of a thin lens by finding the transverse magnification of the virtual image of an object ( http://arxiv.org/abs/2210.08751v1 )

ライセンス: Link先を確認
Sanjoy Kumar Pal, Soumen Sarkar, Surajit Chakrabarti(参考訳) 本研究では,スマートフォンのカメラで物体の仮想画像を撮影することにより,凹レンズの焦点距離を決定する。 同様に、レンズから焦点距離内に保持する物体の仮想画像を形成することにより、凸レンズの焦点距離を判定した。 スマートフォンで写真を撮影すると、インターネットから自由に利用できるソフトウェアにより、画素内のカメラのセンサ上の画像の横幅を読み取ることができる。 カメラの2つの位置からカメラの視線に沿って距離を隔てて仮想画像の写真を撮影することにより、仮想画像の横幅を判定した。 このことから、レンズの焦点距離は、レンズから横幅と物体の距離を知ることができる。

In this work we have determined the focal length of a concave lens by photographing the virtual image of an object by a smartphone camera. We have similarly determined the focal length of a convex lens by forming a virtual image of an object keeping it within the focal distance from the lens. When a photograph is taken by a smartphone, the transverse width of the image on the sensor of the camera in pixels can be read off by software available freely from the internet. By taking a photograph of the virtual image from two positions of the camera separated by a distance along the line of sight of the camera, we have determined the transverse width of the virtual image. From this we find the focal lengths of the lenses knowing the transverse width and the distance of the object from the lenses.
翻訳日:2022-10-18 21:07:46 公開日:2022-10-17
# ITSRN++: 連続画面コンテンツ画像スーパーリゾリューションのためのより強く、より優れたインシシデントトランスフォーマーネットワーク

ITSRN++: Stronger and Better Implicit Transformer Network for Continuous Screen Content Image Super-Resolution ( http://arxiv.org/abs/2210.08812v1 )

ライセンス: Link先を確認
Sheng Shen, Huanjing Yue, Jingyu Yang, Kun Li(参考訳) 近年,オンライン画面共有と遠隔協調が普及している。 しかし、送信中に画面の内容がダウンサンプリングされて圧縮される場合があり、大きな画面に表示したり、受信側を詳細に観察するためにズームインしたりできる。 そのため、強力なスクリーンコンテンツ画像(SCI)超解像(SR)法の開発が求められている。 重みの共有アップサンプラー(デコンボリューションやピクセルシャッフルなど)は、ハサミの鋭いエッジや薄いエッジに有害であり、固定サイズのアップサンプラーは様々な大きさのスクリーンにフィットすることができない。 そこで本研究では,連続SCI SR( ITSRN++)のための暗黙トランスフォーマネットワークを提案する。 具体的には,連続画素の特徴を生成するために,周期非線形関数を介して離散空間の画素特徴を変調するアップサンプラーとして変調ベースのトランスを提案する。 抽出した特徴量を高めるため,特徴抽出バックボーンとして,コンボリューションとアテンションブランチを並列に利用する改良されたトランスフォーマーを提案する。 さらに,大規模なSCI2Kデータセットを構築し,SCI SRの研究を容易にする。 9つのデータセットに対する実験結果から,提案手法はSCI SR(x3 SRでは0.74dBのSwinIR性能)の最先端性能を実現し,自然画像SRにも有効であることが示された。 私たちのコードとデータセットは、この作業が受け入れられるとリリースされます。

Nowadays, online screen sharing and remote cooperation are becoming ubiquitous. However, the screen content may be downsampled and compressed during transmission, while it may be displayed on large screens or the users would zoom in for detail observation at the receiver side. Therefore, developing a strong and effective screen content image (SCI) super-resolution (SR) method is demanded. We observe that the weight-sharing upsampler (such as deconvolution or pixel shuffle) could be harmful to sharp and thin edges in SCIs, and the fixed scale upsampler makes it inflexible to fit screens with various sizes. To solve this problem, we propose an implicit transformer network for continuous SCI SR (termed as ITSRN++). Specifically, we propose a modulation based transformer as the upsampler, which modulates the pixel features in discrete space via a periodic nonlinear function to generate features for continuous pixels. To enhance the extracted features, we further propose an enhanced transformer as the feature extraction backbone, where convolution and attention branches are utilized parallelly. Besides, we construct a large scale SCI2K dataset to facilitate the research on SCI SR. Experimental results on nine datasets demonstrate that the proposed method achieves state-of-the-art performance for SCI SR (outperforming SwinIR by 0.74 dB for x3 SR) and also works well for natural image SR. Our codes and dataset will be released upon the acceptance of this work.
翻訳日:2022-10-18 21:07:34 公開日:2022-10-17
# 血管指向型フィルタリングネットワークによる脳血管セグメンテーション

Cerebrovascular Segmentation via Vessel Oriented Filtering Network ( http://arxiv.org/abs/2210.08868v1 )

ライセンス: Link先を確認
Zhanqiang Guo and Yao Luan and Jianjiang Feng and Wangsheng Lu and Yin Yin and Guangming Yang and Jie Zhou(参考訳) 磁気共鳴血管造影(MRA)とCT(Computed Tomography Angiography)の正確な脳血管分画は脳血管病理の診断と治療において非常に重要である。 血管の複雑さとトポロジー変動のため、血管ネットワークの完全かつ正確なセグメント化は依然として課題である。 本稿では,畳み込みニューラルネットワークにドメイン知識を組み込んだVessel Oriented Filtering Network (VOF-Net)を提案する。 血管配向場に応じた血管指向性フィルタの設計を行い, 向き推定ネットワークにより求めた。 指向性フィルタリングによって抽出された特徴をセグメント化ネットワークに注入し、血管が細い、湾曲した管状構造であることの事前情報を利用する。 CTAとMRAのデータセットによる実験結果から,本手法は血管のセグメンテーションに有効であり,特定の血管フィルターを埋め込むことでセグメンテーション性能が向上することが示された。

Accurate cerebrovascular segmentation from Magnetic Resonance Angiography (MRA) and Computed Tomography Angiography (CTA) is of great significance in diagnosis and treatment of cerebrovascular pathology. Due to the complexity and topology variability of blood vessels, complete and accurate segmentation of vascular network is still a challenge. In this paper, we proposed a Vessel Oriented Filtering Network (VOF-Net) which embeds domain knowledge into the convolutional neural network. We design oriented filters for blood vessels according to vessel orientation field, which is obtained by orientation estimation network. Features extracted by oriented filtering are injected into segmentation network, so as to make use of the prior information that the blood vessels are slender and curved tubular structure. Experimental results on datasets of CTA and MRA show that the proposed method is effective for vessel segmentation, and embedding the specific vascular filter improves the segmentation performance.
翻訳日:2022-10-18 21:07:04 公開日:2022-10-17
# 線密度融合を用いたエゴモーションからのイベントベースステレオ深さ推定

Event-based Stereo Depth Estimation from Ego-motion using Ray Density Fusion ( http://arxiv.org/abs/2210.08927v1 )

ライセンス: Link先を確認
Suman Ghosh and Guillermo Gallego(参考訳) イベントカメラは、人間の網膜を模倣するバイオインスパイアされたセンサーで、シーンの明るさの変化に反応する。 マイクロ秒の解像度で非同期スパイクベースの出力を生成し、高ダイナミックレンジ、低モーションのぼかし、電力効率といった従来のカメラよりも利点がある。 ほとんどのイベントベースのステレオ手法は、カメラの高時間分解能と、カメラ間のイベントの同時性を利用して一致を確立し、深さを推定する。 これとは対照的に,バックプロジェクションされたレイ密度を用いて,ステレオイベントカメラの奥行き推定を明示的なデータ結合を伴わずに行う方法の検討を行い,エゴセントリックで記録したヘッドマウントカメラデータの有効性を示す。 コードとビデオはhttps://github.com/tub-rip/dvs_mcemvsで入手できる。

Event cameras are bio-inspired sensors that mimic the human retina by responding to brightness changes in the scene. They generate asynchronous spike-based outputs at microsecond resolution, providing advantages over traditional cameras like high dynamic range, low motion blur and power efficiency. Most event-based stereo methods attempt to exploit the high temporal resolution of the camera and the simultaneity of events across cameras to establish matches and estimate depth. By contrast, this work investigates how to estimate depth from stereo event cameras without explicit data association by fusing back-projected ray densities, and demonstrates its effectiveness on head-mounted camera data, which is recorded in an egocentric fashion. Code and video are available at https://github.com/tub-rip/dvs_mcemvs
翻訳日:2022-10-18 21:06:50 公開日:2022-10-17
# 意味的ロボットナビゲーションのためのDense and Context-aware Cost Mapsの予測

Predicting Dense and Context-aware Cost Maps for Semantic Robot Navigation ( http://arxiv.org/abs/2210.08952v1 )

ライセンス: Link先を確認
Yash Goel, Narunas Vaskevicius, Luigi Palmieri, Nived Chebrolu and Cyrill Stachniss(参考訳) 目標が意味ラベルで指定される未知環境(例えば、ソファを見つける)におけるオブジェクト目標ナビゲーションのタスクについて検討する。 このようなナビゲーションタスクは、様々な設定で意味的コンテキストを理解する必要があるため、特に難しい。 従来の作業の多くは、個別のアクションポリシーを前提としてこの問題に取り組み、一方、我々は、現実のアプリケーションに近づいた継続的制御によるアプローチを提示します。 本稿では,暗黙的に意味的文脈を含む密集したコストマップを予測し,ロボットを意味的目標に向けて導くディープニューラルネットワークアーキテクチャと損失関数を提案する。 また、コストマップ予測のためのセマンティックなヒントを提供するために、アーキテクチャに中間レベルの視覚表現を融合する新しい方法を提案する。 推定コストマップはサンプリングベースモデル予測コントローラ(MPC)によって、連続したロボット動作を生成するために使用される。 予備実験により, ネットワークが生成したコストマップはMPCに適しており, エージェントをベースラインアプローチよりも効率的にセマンティックゴールへ誘導できることが示唆された。 また,成功率を7ポイント向上させることで,ナビゲーションにおける中水準表現の重要性も示唆した。

We investigate the task of object goal navigation in unknown environments where the target is specified by a semantic label (e.g. find a couch). Such a navigation task is especially challenging as it requires understanding of semantic context in diverse settings. Most of the prior work tackles this problem under the assumption of a discrete action policy whereas we present an approach with continuous control which brings it closer to real world applications. We propose a deep neural network architecture and loss function to predict dense cost maps that implicitly contain semantic context and guide the robot towards the semantic goal. We also present a novel way of fusing mid-level visual representations in our architecture to provide additional semantic cues for cost map prediction. The estimated cost maps are then used by a sampling-based model predictive controller (MPC) for generating continuous robot actions. The preliminary experiments suggest that the cost maps generated by our network are suitable for the MPC and can guide the agent to the semantic goal more efficiently than a baseline approach. The results also indicate the importance of mid-level representations for navigation by improving the success rate by 7 percentage points.
翻訳日:2022-10-18 21:06:33 公開日:2022-10-17
# sar画像セマンティクスセグメンテーションのための不均一特徴蒸留ネットワーク

Heterogeneous Feature Distillation Network for SAR Image Semantic Segmentation ( http://arxiv.org/abs/2210.08988v1 )

ライセンス: Link先を確認
Gao Mengyu and Dong Qiulei(参考訳) SAR(Synthetic Aperture Radar)画像のセマンティックセグメンテーションは、SARのオールタイムおよびオールウェザーイメージング能力により、リモートセンシングコミュニティにおいて近年注目を集めている。 しかし、スペックルノイズやレイオーバーはSAR画像に必然的に関与するため、SAR画像はEO(Electro-Optical)画像よりもセグメント化が難しい。 そこで本研究では,sar-segmentation modelのトレーニングを支援するためにeo機能を導入する方法について検討し,sar-segmentation student modelが事前学習したeo-segmentation teacher modelから知識を得るhfd-netと呼ばれる,sarイメージのセグメント化のための異種特徴蒸留ネットワークを提案する。 提案するhfd-netでは, 生徒モデルと教師モデルの両方が同一のアーキテクチャを用いるが, パラメータ構成が異なるため, 教師モデルから生徒モデルへの潜在eo特徴の伝達とsar画像分割のための学生モデルの能力向上のために, 異種特徴蒸留モデルが検討されている。 さらに,不均質な特徴アライメントモジュールを探索し,生徒モデルと教師モデルのそれぞれにセグメンテーションのためのマルチスケールな特徴を集約する。 2つの公開データセットの広範な実験結果から、hfd-netは7つの最先端sar画像セマンティクスセグメンテーション法よりも優れていることが示されている。

Semantic segmentation for SAR (Synthetic Aperture Radar) images has attracted increasing attention in the remote sensing community recently, due to SAR's all-time and all-weather imaging capability. However, SAR images are generally more difficult to be segmented than their EO (Electro-Optical) counterparts, since speckle noises and layovers are inevitably involved in SAR images. To address this problem, we investigate how to introduce EO features to assist the training of a SAR-segmentation model, and propose a heterogeneous feature distillation network for segmenting SAR images, called HFD-Net, where a SAR-segmentation student model gains knowledge from a pre-trained EO-segmentation teacher model. In the proposed HFD-Net, both the student and teacher models employ an identical architecture but different parameter configurations, and a heterogeneous feature distillation model is explored for transferring latent EO features from the teacher model to the student model and then enhancing the ability of the student model for SAR image segmentation. In addition, a heterogeneous feature alignment module is explored to aggregate multi-scale features for segmentation in each of the student model and teacher model. Extensive experimental results on two public datasets demonstrate that the proposed HFD-Net outperforms seven state-of-the-art SAR image semantic segmentation methods.
翻訳日:2022-10-18 21:06:15 公開日:2022-10-17
# 照射した環状u-10zr金属燃料のキャラクタリゼーションインサイトと定量化

Advanced Characterization-Informed Framework and Quantitative Insight to Irradiated Annular U-10Zr Metallic Fuels ( http://arxiv.org/abs/2210.09104v1 )

ライセンス: Link先を確認
Fei Xu, Lu Cai, Daniele Salvato, Fidelma Dilemma, Luca Capriotti, Tiankai Yao(参考訳) u-10zrベースの金属核燃料は、次世代のナトリウム冷却高速炉にとって有望な燃料候補であり、アイダホ国立研究所の研究経験は1960年代までさかのぼる。 アイダホ国立研究所の研究者は、技術規模での燃料性能に関するかなりの経験と知識を蓄積している。 高度なキャラクタリゼーションの限界と適切なデータ解析ツールの欠如により、燃料の微細構造進化と照射時の特性劣化の機械的理解が妨げられた。 本稿では, 先進照射後試験法により得られた領域知識と相まって, 分裂ガス気泡および細孔に関する前例のない定量的知見と, 高度試験炉で照射された環状燃料中のランタニド分布について述べる。 研究では、Zrを含む二次相が存在することを確認し、熱勾配に沿った7つのミクロ構造の定量比を生成する。 さらに,U-10Zr先進燃料の2試料に対する分裂ガス気泡の分布を定量的に比較した。 その結果, 2つの先進試料の約67,000個の分裂ガス気泡に基づいて, 連結気泡によるランタニド輸送の評価が可能となった。

U-10Zr-based metallic nuclear fuel is a promising fuel candidate for next-generation sodium-cooled fast reactors.The research experience of the Idaho National Laboratory for this type of fuel dates back to the 1960s. Idaho National Laboratory researchers have accumulated a considerable amount of experience and knowledge regarding fuel performance at the engineering scale. The limitation of advanced characterization and lack of proper data analysis tools prevented a mechanistic understanding of fuel microstructure evolution and properties degradation during irradiation. This paper proposed a new workflow, coupled with domain knowledge obtained by advanced post-irradiation examination methods, to provide unprecedented and quantified insights into the fission gas bubbles and pores, and lanthanide distribution in an annular fuel irradiated in the Advanced Test Reactor. In the study, researchers identify and confirm that the Zr-bearing secondary phases exist and generate the quantitative ratios of seven microstructures along the thermal gradient. Moreover, the distributions of fission gas bubbles on two samples of U-10Zr advanced fuels were quantitatively compared. Conclusive findings were obtained and allowed for evaluation of the lanthanide transportation through connected bubbles based on approximately 67,000 fission gas bubbles of the two advanced samples.
翻訳日:2022-10-18 21:05:25 公開日:2022-10-17
# 映像同期用ゲートリカレントユニット

Gated Recurrent Unit for Video Denoising ( http://arxiv.org/abs/2210.09135v1 )

ライセンス: Link先を確認
Kai Guo, Seungwon Choi and Jongseong Choi(参考訳) 現在のビデオデノイジング法では、畳み込みニューラルネットワーク(cnn)を設計したり、時間的デノイジングと時間的デノイジングを結合して基本リカレントニューラルネットワーク(rnn)を生成する。 しかし,gru(gated recurrent unit)機構をビデオデノイジングに適用する作業はまだ行われていない。 本稿では,gruに基づく新しい映像デノイジングモデル,すなわち gru-vd を提案する。 まず、リセットゲートを用いて、前のフレーム出力における現在のフレームに関連する内容をマークする。 その後、隠れたアクティベーションは、マークされた関連コンテンツの助けを借りて、初期空間-時空間の切り離しとして機能する。 最後に、更新ゲートは、前のフレーム出力で初期復号結果を再帰的に融合させ、さらに精度を高める。 様々な光条件を適応的に処理するために、現在のフレームのノイズ標準偏差もこれら3つのモジュールに供給される。 重み付き損失は、初期脱離と最終融合を同時に規制するために採用される。 実験の結果,gru-vdネットワークは,芸術の状態を客観的・主観的に達成できるだけでなく,実映像で満足できる主観的品質が得られることがわかった。

Current video denoising methods perform temporal fusion by designing convolutional neural networks (CNN) or combine spatial denoising with temporal fusion into basic recurrent neural networks (RNNs). However, there have not yet been works which adapt gated recurrent unit (GRU) mechanisms for video denoising. In this letter, we propose a new video denoising model based on GRU, namely GRU-VD. First, the reset gate is employed to mark the content related to the current frame in the previous frame output. Then the hidden activation works as an initial spatial-temporal denoising with the help from the marked relevant content. Finally, the update gate recursively fuses the initial denoised result with previous frame output to further increase accuracy. To handle various light conditions adaptively, the noise standard deviation of the current frame is also fed to these three modules. A weighted loss is adopted to regulate initial denoising and final fusion at the same time. The experimental results show that the GRU-VD network not only can achieve better quality than state of the arts objectively and subjectively, but also can obtain satisfied subjective quality on real video.
翻訳日:2022-10-18 21:05:05 公開日:2022-10-17
# PCGen:LiDARシミュレーションのためのポイントクラウドジェネレータ

PCGen: Point Cloud Generator for LiDAR Simulation ( http://arxiv.org/abs/2210.08738v1 )

ライセンス: Link先を確認
Chenqi Li, Yuan Ren, Bingbing Liu(参考訳) データはLiDAR認識システムの基本構成要素である。 残念なことに、現実世界のデータ収集とアノテーションは非常に費用がかかる。 近年,実データに基づくlidarシミュレータは,グラフィックスエンジンを用いた手法に比べてスケーラビリティや忠実度が高いため,実データを補完する大きな可能性を秘めている。 シミュレーションが現実世界にデプロイされる前に、2つの欠点に対処する必要がある。 まず, 既存の手法では, 3次元再構成誤差と純粋形状に基づくレイキャスティング法により, 実測点雲よりもノイズが多く, 完全となるデータを生成する。 第二に、物体検出のシミュレーションは、車のような硬い物体のみに焦点を当てるが、歩行者のようなVRUは重要な道路参加者である。 第1の課題に取り組むために,fpaレイキャストとサロゲートモデルレイドロップを提案する。 FPAは、再構成ノイズを考慮して、点雲座標とセンサ特徴の両方のシミュレーションを可能にする。 レイワイズ・サロゲート・レイドロップモデルは、LiDARのレーザー受信機の物理的特性を模倣し、シミュレーションされた点が実際のLiDARによって記録されるかどうかを決定する。 最小限のトレーニングデータで、surrogateモデルは異なるジオグラフィックとシーンに一般化でき、レイキャストされたクラウドとリアルポイントクラウドの間のドメインギャップを閉じることができる。 変形可能なVRUシミュレーションのシミュレーションに取り組むために、SMPLデータセットを用いて歩行者シミュレーションベースラインを提供し、CADと再構成オブジェクト間の領域ギャップを比較する。 その結果,シミュレーションデータによって訓練された物体検出モデルは,実際のデータ学習モデルと同じような結果が得られることがわかった。

Data is a fundamental building block for LiDAR perception systems. Unfortunately, real-world data collection and annotation is extremely costly & laborious. Recently, real data based LiDAR simulators have shown tremendous potential to complement real data, due to their scalability and high-fidelity compared to graphics engine based methods. Before simulation can be deployed in the real-world, two shortcomings need to be addressed. First, existing methods usually generate data which are more noisy and complete than the real point clouds, due to 3D reconstruction error and pure geometry-based raycasting method. Second, prior works on simulation for object detection focus solely on rigid objects, like cars, but VRUs, like pedestrians, are important road participants. To tackle the first challenge, we propose FPA raycasting and surrogate model raydrop. FPA enables the simulation of both point cloud coordinates and sensor features, while taking into account reconstruction noise. The ray-wise surrogate raydrop model mimics the physical properties of LiDAR's laser receiver to determine whether a simulated point would be recorded by a real LiDAR. With minimal training data, the surrogate model can generalize to different geographies and scenes, closing the domain gap between raycasted and real point clouds. To tackle the simulation of deformable VRU simulation, we employ SMPL dataset to provide a pedestrian simulation baseline and compare the domain gap between CAD and reconstructed objects. Applying our pipeline to perform novel sensor synthesis, results show that object detection models trained by simulation data can achieve similar result as the real data trained model.
翻訳日:2022-10-18 20:50:11 公開日:2022-10-17
# 長期CVaR基準によるリスク感度マルコフ決定過程

Risk-Sensitive Markov Decision Processes with Long-Run CVaR Criterion ( http://arxiv.org/abs/2210.08740v1 )

ライセンス: Link先を確認
Li Xia, Peter W. Glynn(参考訳) CVaR(Conditional Value at Risk)は、金融において広く用いられるリスク指標である。 しかし、CVaRを動的に最適化することは、標準的なマルコフ決定プロセス(MDP)ではないため困難であり、動的プログラミングの原理は失敗する。 本稿では、感度に基づく最適化の観点から、長時間のCVaR基準による無限水平離散時間MDPについて検討する。 疑似CVaR測度を導入することにより、長周期CVaRの差分を2つのポリシーで定量化するCVaR差分式を導出する。 決定論的政策の最適性は導かれる。 CVaR のベルマン局所最適性方程式は,局所最適政策に必要な条件であり,大域的最適政策にのみ必要な条件である。 より感度の高い情報を提供するためにCVaR誘導体式も導出される。 次に,混合ポリシー空間における局所オプティマに収束するcvarを効率的に最適化するポリシ反復型アルゴリズムを開発した。 さらに,平均CVaR最適化やCVaRの最大化など,いくつかの拡張についても論じる。 最後に,ポートフォリオ管理に関する数値実験を行い,その主な成果を示す。 我々の研究は、感度の観点からcvarの動的最適化に光を当てるかもしれない。

CVaR (Conditional Value at Risk) is a risk metric widely used in finance. However, dynamically optimizing CVaR is difficult since it is not a standard Markov decision process (MDP) and the principle of dynamic programming fails. In this paper, we study the infinite-horizon discrete-time MDP with a long-run CVaR criterion, from the view of sensitivity-based optimization. By introducing a pseudo CVaR metric, we derive a CVaR difference formula which quantifies the difference of long-run CVaR under any two policies. The optimality of deterministic policies is derived. We obtain a so-called Bellman local optimality equation for CVaR, which is a necessary and sufficient condition for local optimal policies and only necessary for global optimal policies. A CVaR derivative formula is also derived for providing more sensitivity information. Then we develop a policy iteration type algorithm to efficiently optimize CVaR, which is shown to converge to local optima in the mixed policy space. We further discuss some extensions including the mean-CVaR optimization and the maximization of CVaR. Finally, we conduct numerical experiments relating to portfolio management to demonstrate the main results. Our work may shed light on dynamically optimizing CVaR from a sensitivity viewpoint.
翻訳日:2022-10-18 20:49:46 公開日:2022-10-17
# グラフニューラルネットワークを用いたサンプリング型動作計画における衝突チェックの低減

Reducing Collision Checking for Sampling-Based Motion Planning Using Graph Neural Networks ( http://arxiv.org/abs/2210.08864v1 )

ライセンス: Link先を確認
Chenning Yu and Sicun Gao(参考訳) サンプリングベースのモーションプランニングは、ロボット工学において連続的な構成空間における経路を見つけるための一般的なアプローチである。 障害物との衝突をチェックすることが、このプロセスの主要な計算ボトルネックである。 本稿では,経路探索と経路平滑化を行うグラフニューラルネットワーク(GNN)を訓練することにより,衝突チェックの低減と移動計画の高速化を実現する学習手法を提案する。 ランダムな幾何グラフ(RGG)がバッチサンプリングから生成されると、経路探索成分は衝突のないエッジを反復予測して探索を優先順位付けする。 経路平滑化成分は、探索段階から得られた経路を最適化する。 この方法は、バッチサンプリングを通じてRGGから幾何学的パターンをキャプチャし、目に見えない環境に最適化するGNNの利点がある。 実験結果から,高次元動作計画課題における衝突チェックを著しく低減し,全体の計画効率を向上させることができることがわかった。

Sampling-based motion planning is a popular approach in robotics for finding paths in continuous configuration spaces. Checking collision with obstacles is the major computational bottleneck in this process. We propose new learning-based methods for reducing collision checking to accelerate motion planning by training graph neural networks (GNNs) that perform path exploration and path smoothing. Given random geometric graphs (RGGs) generated from batch sampling, the path exploration component iteratively predicts collision-free edges to prioritize their exploration. The path smoothing component then optimizes paths obtained from the exploration stage. The methods benefit from the ability of GNNs of capturing geometric patterns from RGGs through batch sampling and generalize better to unseen environments. Experimental results show that the learned components can significantly reduce collision checking and improve overall planning efficiency in challenging high-dimensional motion planning tasks.
翻訳日:2022-10-18 20:49:27 公開日:2022-10-17
# 空間、時間、相互作用:自動走行のための軌道データセットにおけるコーナーケースの分類法

Space, Time, and Interaction: A Taxonomy of Corner Cases in Trajectory Datasets for Automated Driving ( http://arxiv.org/abs/2210.08885v1 )

ライセンス: Link先を確認
Kevin R\"osch, Florian Heidecker, Julian Truetsch, Kamil Kowol, Clemens Schicktanz, Maarten Bieshaar, Bernhard Sick, Christoph Stiller(参考訳) 軌道データ解析は、高度に自動化された運転に必要な要素である。 これらのデータを用いて開発された複雑なモデルは、他の道路利用者の動きや行動パターンを予測する。 これらの予測 - 道路の進路、(交通)ルール、および他の道路利用者とのインタラクションのような追加のコンテキスト情報 - に基づいて、高度自動化された車両(hav)は、a地点からb地点に移動するなど、そのタスクを確実かつ安全に実行できなければなりません。 しかし、異常な軌跡が生じた場合、いわゆる軌道角の場合、人間の運転手は通常うまく対処できるが、HAVはすぐにトラブルに陥る。 本研究で提示する軌跡コーナーケースの定義では,手前の作業に関して異常な軌跡の関連性を検討する。 これに基づいて、異なる軌道コーナーケースの分類も提示する。 コーナーケースを分類学に分類することは、例を示し、原因と必要なデータソースによって行われる。 機械学習(ML)モデルとコーナーケース原因の複雑さを説明するために,分類の基礎となる一般的な処理チェーンを提案する。

Trajectory data analysis is an essential component for highly automated driving. Complex models developed with these data predict other road users' movement and behavior patterns. Based on these predictions - and additional contextual information such as the course of the road, (traffic) rules, and interaction with other road users - the highly automated vehicle (HAV) must be able to reliably and safely perform the task assigned to it, e.g., moving from point A to B. Ideally, the HAV moves safely through its environment, just as we would expect a human driver to do. However, if unusual trajectories occur, so-called trajectory corner cases, a human driver can usually cope well, but an HAV can quickly get into trouble. In the definition of trajectory corner cases, which we provide in this work, we will consider the relevance of unusual trajectories with respect to the task at hand. Based on this, we will also present a taxonomy of different trajectory corner cases. The categorization of corner cases into the taxonomy will be shown with examples and is done by cause and required data sources. To illustrate the complexity between the machine learning (ML) model and the corner case cause, we present a general processing chain underlying the taxonomy.
翻訳日:2022-10-18 20:49:13 公開日:2022-10-17
# 接触と把持生成による物体の学習

Learning Object Affordance with Contact and Grasp Generation ( http://arxiv.org/abs/2210.09245v1 )

ライセンス: Link先を確認
Haoming Li, Xinzhuo Lin, Yang Zhou, Xiang Li, Jiming Chen and Qi Ye(参考訳) オブジェクトアフォーアンスを理解することは、より良く、より堅牢なロボットハンドリングを設計するのに役立ちます。 コンピュータビジョンコミュニティにおける既存の作業は、オブジェクトの獲得可能なポーズの分布とオブジェクト間のマッピングを学習することにより、その問題をブラックボックスとして扱う、つかみポーズ生成問題としてオブジェクト余裕理解を定式化する。 一方, ロボットコミュニティでは, 接触地図で表される物価を推定することが重要であり, 可能な物価の位置の定位は, 行動把握の計画に役立てることができる。 本稿では,対象物価理解を接触とつかみポーズの生成の両方として定式化する。 学習課題をブラックボックス戦略ではなく,次の2段階に分類する:(1) マルチモーダルな接触生成を可能にすることにより,まず接触マップを推論する; (2) 把握ポーズが完全に制約されていると仮定すると,接触マップから把握ポーズへの1対1のマッピングを学習する。 さらに,中間接触からの侵入認識部分最適化を提案する。 局所的および大域的最適化を組み合わせることで、侵入を示す生成された把持の部分的ポーズを洗練する。 2つの公開データセットに対する広範囲な検証は、様々なメトリクスの把握生成に関する最先端の手法よりも優れていることを示す。

Understanding object affordance can help in designing better and more robust robotic grasping. Existing work in the computer vision community formulates the object affordance understanding as a grasping pose generation problem, which treats the problem as a black box by learning a mapping between objects and the distributions of possible grasping poses for the objects. On the other hand, in the robotics community, estimating object affordance represented by contact maps is of the most importance as localizing the positions of the possible affordance can help the planning of grasping actions. In this paper, we propose to formulate the object affordance understanding as both contacts and grasp poses generation. we factorize the learning task into two sequential stages, rather than the black-box strategy: (1) we first reason the contact maps by allowing multi-modal contact generation; (2) assuming that grasping poses are fully constrained given contact maps, we learn a one-to-one mapping from the contact maps to the grasping poses. Further, we propose a penetration-aware partial optimization from the intermediate contacts. It combines local and global optimization for the refinement of the partial poses of the generated grasps exhibiting penetration. Extensive validations on two public datasets show our method outperforms state-of-the-art methods regarding grasp generation on various metrics.
翻訳日:2022-10-18 20:48:53 公開日:2022-10-17
# エンドツーエンド音声認識における言語非依存コード切り換え

Language-agnostic Code-Switching in End-To-End Speech Recognition ( http://arxiv.org/abs/2210.08992v1 )

ライセンス: Link先を確認
Enes Yavuz Ugan, Christian Huber, Juan Hussain and Alexander Waibel(参考訳) Code-Switching (CS)は、異なる言語の単語やフレーズを交互に使用する現象である。 今日のニューラルエンド・ツー・エンド(E2E)モデルは、自動音声認識(ASR)タスクで最先端のパフォーマンスを提供するが、これらのシステムが非常にデータ集約的であることは一般的に知られている。 しかし、書き起こされ、整列されたCS音声のみが利用可能である。 この問題を克服し、cs音声の書き起こしが可能な多言語システムを訓練するために、異なるソース言語の音声と対応するラベルを結合した、シンプルで効果的なデータ拡張を提案する。 このトレーニングデータを使用することで,CS音声の書き起こし精度が向上し,多言語モデル上での性能も向上する。 その結果,5,03\% WER のトレーニング中に見つからない文間言語スイッチにおいて,この拡張手法によりモデルの性能が向上する可能性が示唆された。

Code-Switching (CS) is referred to the phenomenon of alternately using words and phrases from different languages. While today's neural end-to-end (E2E) models deliver state-of-the-art performances on the task of automatic speech recognition (ASR) it is commonly known that these systems are very data-intensive. However, there is only a few transcribed and aligned CS speech available. To overcome this problem and train multilingual systems which can transcribe CS speech, we propose a simple yet effective data augmentation in which audio and corresponding labels of different source languages are concatenated. By using this training data, our E2E model improves on transcribing CS speech and improves performance over the multilingual model, as well. The results show that this augmentation technique can even improve the model's performance on inter-sentential language switches not seen during training by 5,03\% WER.
翻訳日:2022-10-18 20:48:13 公開日:2022-10-17
# bayesian priorsを用いた正規化データプログラミング

Regularized Data Programming with Bayesian Priors ( http://arxiv.org/abs/2210.08677v1 )

ライセンス: Link先を確認
Jacqueline R. M. A. Maasch, Hao Zhang, Qian Yang, Fei Wang, Volodymyr Kuleshov(参考訳) 手動データラベリングのコストは教師あり学習において大きな障害となる。 データプログラミング(dp)は、ユーザー定義プログラムラベリング関数(lfs)の出力を教師なし学習によって調整する、データセット作成をトレーニングするための弱い教師付きソリューションを提供する。 しかし、DPは、低データのコンテキストを含むいくつかのシナリオで、過度な多数決を上回りません。 本研究は,DP目標を正規化項で拡張することにより,教師なし学習の失敗を緩和する古典DPのベイズ拡張を導入する。 正規化学習はベイズモデルにおける最大後方推定によって達成される。 その結果, 正則化dpは, 最大確率と多数決に対する性能向上, 解釈可能性の向上, 低データ環境の性能向上に寄与することが示唆された。

The cost of manual data labeling can be a significant obstacle in supervised learning. Data programming (DP) offers a weakly supervised solution for training dataset creation, wherein the outputs of user-defined programmatic labeling functions (LFs) are reconciled through unsupervised learning. However, DP can fail to outperform an unweighted majority vote in some scenarios, including low-data contexts. This work introduces a Bayesian extension of classical DP that mitigates failures of unsupervised learning by augmenting the DP objective with regularization terms. Regularized learning is achieved through maximum a posteriori estimation in the Bayesian model. Results suggest that regularized DP improves performance relative to maximum likelihood and majority voting, confers greater interpretability, and bolsters performance in low-data regimes.
翻訳日:2022-10-18 20:33:13 公開日:2022-10-17
# 最初からの連続擬似ラベル

Continuous Pseudo-Labeling from the Start ( http://arxiv.org/abs/2210.08711v1 )

ライセンス: Link先を確認
Dan Berrebbi, Ronan Collobert, Samy Bengio, Navdeep Jaitly, Tatiana Likhomanenko(参考訳) 自己学習(ST)や擬似ラベル付けは、最近、ラベルなしデータの活用の成功により、自動音声認識(ASR)コミュニティに大きな関心を喚起している。 訓練されたモデルから擬似ラベル(PL)を反復的に再生し、新しいモデルを訓練する従来の半教師あり学習手法とは異なり、最近の最先端の手法では、訓練中のモデルのごく最近のバージョンを使用してPLを生成する「連続的な訓練」が行われる。 それでもこれらのアプローチは、モデルがラベル付きデータだけでトレーニングされる初期教師付き学習フェーズを使用してSTをブートストラップすることに依存している。 これは低リソース設定でラベル付きデータセットに過剰フィッティングする可能性があり、トレーニング開始時のstはオーバーフィッティングを削減すべきであると考えています。 本稿では,ASRにおける学習過程におけるPLの進化を動的に制御することで,これを実現できることを示す。 私たちの知る限りでは、トレーニングの開始当初からPLを生成する可能性を示す最初の研究である。 一般化しないモデルを退化させる不安定性を回避する2つの手法を用いてこれを実現できる。 まず、PLのオンライン変更を利用してPLのキャッシュのメンバシップを制御し、一般化を改善するカリキュラムを通じてPLの進化を制御する。 第二に、予測分布から書き起こしをサンプリングすることで、最高の書き起こしだけでなく、さらに訓練を安定させることが分かる。 これらの手法により、我々のSTモデルは外部言語モデルなしで以前の作業と一致します。

Self-training (ST), or pseudo-labeling has sparked significant interest in the automatic speech recognition (ASR) community recently because of its success in harnessing unlabeled data. Unlike prior semi-supervised learning approaches that relied on iteratively regenerating pseudo-labels (PLs) from a trained model and using them to train a new model, recent state-of-the-art methods perform `continuous training' where PLs are generated using a very recent version of the model being trained. Nevertheless, these approaches still rely on bootstrapping the ST using an initial supervised learning phase where the model is trained on labeled data alone. We believe this has the potential for over-fitting to the labeled dataset in low resource settings and that ST from the start of training should reduce over-fitting. In this paper we show how we can do this by dynamically controlling the evolution of PLs during the training process in ASR. To the best of our knowledge, this is the first study that shows the feasibility of generating PLs from the very start of the training. We are able to achieve this using two techniques that avoid instabilities which lead to degenerate models that do not generalize. Firstly, we control the evolution of PLs through a curriculum that uses the online changes in PLs to control the membership of the cache of PLs and improve generalization. Secondly, we find that by sampling transcriptions from the predictive distribution, rather than only using the best transcription, we can stabilize training further. With these techniques, our ST models match prior works without an external language model.
翻訳日:2022-10-18 20:32:59 公開日:2022-10-17
# フレキシブルコンテキストスコープによるグラフコントラスト学習の統一

Unifying Graph Contrastive Learning with Flexible Contextual Scopes ( http://arxiv.org/abs/2210.08792v1 )

ライセンス: Link先を確認
Yizhen Zheng, Yu Zheng, Xiaofei Zhou, Chen Gong, Vincent CS Lee, Shirui Pan(参考訳) グラフコントラスト学習(gcl)は、グラフ表現学習のためのラベル情報への依存を軽減する効果的な学習パラダイムとして最近登場した。 gclの中核は、その文脈範囲(例えば、グラフ全体または1-hop近傍)から要約された、ノードの表現とその文脈表現(すなわち、類似した意味情報を持つ対応するインスタンス)の間の相互情報を最大化することである。 このスキームは、GCL訓練のための貴重な自己超越信号を排除する。 しかしながら、既存のGCLメソッドは、異なるデータセットに対して適切なコンテキストスコープを選択し、バイアスのあるコントラスト性を構築する際の非能力や不便さといった制限に悩まされている。 上記の問題に対処するために,フレキシブルコンテキストスコープを用いたグラフコントラスト学習(略称UGCL)という,シンプルな自己教師型学習手法を提案する。 本アルゴリズムは,隣接行列のパワーを制御して,可変コンテキストスコープによる柔軟な文脈表現を構築する。 さらに,コントラスト性が連結コンポーネント内に構築され,文脈表現のバイアスを軽減することを保証する。 局所的および文脈的スコープの表現に基づいて、UGCLはグラフ表現学習のための非常に単純な対照的な損失関数を最適化する。 基本的に、UGCLのアーキテクチャは既存のGCLメソッドを統合するための一般的なフレームワークと見なすことができる。 自己教師付きグラフ表現学習ベースラインと比較して,8つのベンチマークデータセットのうち6つにおいて,集中的な実験を行い,新たな最先端性能を達成した。 私たちのコードはオープンソースです。

Graph contrastive learning (GCL) has recently emerged as an effective learning paradigm to alleviate the reliance on labelling information for graph representation learning. The core of GCL is to maximise the mutual information between the representation of a node and its contextual representation (i.e., the corresponding instance with similar semantic information) summarised from the contextual scope (e.g., the whole graph or 1-hop neighbourhood). This scheme distils valuable self-supervision signals for GCL training. However, existing GCL methods still suffer from limitations, such as the incapacity or inconvenience in choosing a suitable contextual scope for different datasets and building biased contrastiveness. To address aforementioned problems, we present a simple self-supervised learning method termed Unifying Graph Contrastive Learning with Flexible Contextual Scopes (UGCL for short). Our algorithm builds flexible contextual representations with tunable contextual scopes by controlling the power of an adjacency matrix. Additionally, our method ensures contrastiveness is built within connected components to reduce the bias of contextual representations. Based on representations from both local and contextual scopes, UGCL optimises a very simple contrastive loss function for graph representation learning. Essentially, the architecture of UGCL can be considered as a general framework to unify existing GCL methods. We have conducted intensive experiments and achieved new state-of-the-art performance in six out of eight benchmark datasets compared with self-supervised graph representation learning baselines. Our code has been open-sourced.
翻訳日:2022-10-18 20:32:16 公開日:2022-10-17
# tegdet: 時間発展グラフを用いた異常検出のための拡張可能なpythonライブラリ

tegdet: An extensible Python Library for Anomaly Detection using Time-Evolving Graphs ( http://arxiv.org/abs/2210.08847v1 )

ライセンス: Link先を確認
Simona Bernardi, Jos\'e Merseguer and Ra\'ul Javierre(参考訳) 本稿では,教師なし学習における異常検出のためのPythonライブラリを提案する。 ライブラリの入力は、与えられた現象の観察を表す不定の時系列である。 すると、これは異常なエポック、すなわち観測が基底線分布の与えられたパーセンタイルの上にある時間間隔を、相似性計量によって定義できる。 異常検出に時間進化グラフを使用すると、ライブラリはデータ間の依存関係から得られる貴重な情報を利用する。 現在、ライブラリは28の異なる異種メトリクスを実装しており、新しいメトリクスで簡単に拡張できるように設計されている。 APIを通じて、ライブラリは異常検出を実行するための完全な機能を公開する。 要約すると、私たちの知る限りでは、このライブラリが公開されている唯一のライブラリであり、動的グラフに基づいて、他の最先端の異常検出技術で拡張することができる。 本実験では,アルゴリズムの実行時間と実装手法の精度について有望な結果を示す。 さらに,検出器のパラメータを設定し,その性能と予測精度を向上させるためのガイドラインを提供する。

This paper presents a new Python library for anomaly detection in unsupervised learning approaches. The input for the library is a univariate time series representing observations of a given phenomenon. Then, it can identify anomalous epochs, i.e., time intervals where the observations are above a given percentile of a baseline distribution, defined by a dissimilarity metric. Using time-evolving graphs for the anomaly detection, the library leverages valuable information given by the inter-dependencies among data. Currently, the library implements 28 different dissimilarity metrics, and it has been designed to be easily extended with new ones. Through an API, the library exposes a complete functionality to carry out the anomaly detection. Summarizing, to the best of our knowledge, this library is the only one publicly available, that based on dynamic graphs, can be extended with other state-of-the-art anomaly detection techniques. Our experimentation shows promising results regarding the execution times of the algorithms and the accuracy of the implemented techniques. Additionally, the paper provides guidelines for setting the parameters of the detectors to improve their performance and prediction accuracy.
翻訳日:2022-10-18 20:31:53 公開日:2022-10-17
# Classifier(-free) Guidanceによるメタラーニング

Meta-Learning via Classifier(-free) Guidance ( http://arxiv.org/abs/2210.08942v1 )

ライセンス: Link先を確認
Elvis Nava, Seijin Kobayashi, Yifei Yin, Robert K. Katzschmann, Benjamin F. Grewe(参考訳) 最先端のメタ学習技術は、人間が卓越した環境である見えないタスクへのゼロショット適応を最適化しない。 それとは対照的に、メタ学習アルゴリズムはハイパーパラメータとウェイト初期化を学習する。 本研究では、生成モデルと言語条件の画像合成の最近の進歩からインスピレーションを得て、自然言語指導によるゼロショット性能向上のためのメタラーニング手法を提案する。 我々は,メタラーニング問題をマルチモーダルな生成モデル問題として再キャストすることで,その課題を与えられたニューラルネットワークの重み付けとその自然言語記述を等価なマルチモーダルなタスク表現として検討する。 まず、ニューラルネットワークの重みを生成するために、無条件生成型ハイパーネットワークモデルをトレーニングし、次に、自然言語のタスク記述を前提として、ハイパーネットワークの潜在空間を横断して、ゼロショットで高性能なタスク適応型重みを見つける第2の"ガイダンス"モデルを訓練する。 我々は,「ハイパークリップ」に基づく分類器指導と条件付きハイパーネットワーク潜在拡散モデル(hyperldm)の2つの代替手法を検討した。 最後に,マルチモーダルなメタ学習設定を反映して構築したMeta-VQAデータセットにおいて,ゼロショット学習実験による既存のメタ学習手法よりも優れていることを示す。

State-of-the-art meta-learning techniques do not optimize for zero-shot adaptation to unseen tasks, a setting in which humans excel. On the contrary, meta-learning algorithms learn hyperparameters and weight initializations that explicitly optimize for few-shot learning performance. In this work, we take inspiration from recent advances in generative modeling and language-conditioned image synthesis to propose meta-learning techniques that use natural language guidance to achieve higher zero-shot performance compared to the state-of-the-art. We do so by recasting the meta-learning problem as a multi-modal generative modeling problem: given a task, we consider its adapted neural network weights and its natural language description as equivalent multi-modal task representations. We first train an unconditional generative hypernetwork model to produce neural network weights; then we train a second "guidance" model that, given a natural language task description, traverses the hypernetwork latent space to find high-performance task-adapted weights in a zero-shot manner. We explore two alternative approaches for latent space guidance: "HyperCLIP"-based classifier guidance and a conditional Hypernetwork Latent Diffusion Model ("HyperLDM"), which we show to benefit from the classifier-free guidance technique common in image generation. Finally, we demonstrate that our approaches outperform existing meta-learning methods with zero-shot learning experiments on our Meta-VQA dataset, which we specifically constructed to reflect the multi-modal meta-learning setting.
翻訳日:2022-10-18 20:31:36 公開日:2022-10-17
# ニューラルネットワークilpアーキテクチャにおけるスケーラブル学習のためのソルバフリーフレームワーク

A Solver-Free Framework for Scalable Learning in Neural ILP Architectures ( http://arxiv.org/abs/2210.09082v1 )

ライセンス: Link先を確認
Yatin Nandwani, Rishabh Ranjan, Mausam and Parag Singla(参考訳) 最近、ニューラルネットワークモデル内に整数線形プログラミング(ilp)層を持つアーキテクチャを設計することに焦点が当てられている(本論文ではneural ilpと呼ばれる)。 ニューラルilpアーキテクチャは、データ駆動制約学習を必要とする純粋推論タスクや、知覚(ニューラル)と推論(ilp)の両方を必要とするタスクに適している。 ニューラルICPのエンドツーエンドトレーニングのための最近のSOTAアプローチでは、ミニバッチ内の各トレーニングデータポイントに対する基礎となるICPソルバへの呼び出しにより、ICPブラックボックス(Paulus et al. 2021)の勾配を明示的に定義している。 そこで本研究では,ICPソルバをトレーニング時にまったく呼び出さない,解決不能な代替トレーニング戦略を提案する。 ニューラル ilp は訓練可能な超平面群(ilp のコストと制約のために)を持ち、ポリヘドロンを表す。 私たちのキーとなる考え方は、トレーニング損失は、最後のポリヘドロンが正(全ての制約が満たされた)と負(少なくとも1つの制約違反または最適コスト値)をソフトマージンの定式化によって分離することを強制すべきであるということです。 正の例がトレーニングデータの一部として提供される一方で、負のサンプルを生成するための新しい手法を考案する。 私たちのソリューションは平等と不平等の制約を扱うのに十分柔軟です。 ILPの制約を学習するシンボリックと知覚の両方に関する実験は、我々のアプローチが純粋に神経ベースラインやその他の問題解決者ベースのトレーニングを必要とする最先端モデルよりも優れたパフォーマンスとスケールを持つことを示している。 特に,9 x 9 のシンボルと視覚的スドクにおいて,他のニューラル ILP ソルバではスケールできない優れた性能が得られる。

There is a recent focus on designing architectures that have an Integer Linear Programming (ILP) layer within a neural model (referred to as Neural ILP in this paper). Neural ILP architectures are suitable for pure reasoning tasks that require data-driven constraint learning or for tasks requiring both perception (neural) and reasoning (ILP). A recent SOTA approach for end-to-end training of Neural ILP explicitly defines gradients through the ILP black box (Paulus et al. 2021) - this trains extremely slowly, owing to a call to the underlying ILP solver for every training data point in a minibatch. In response, we present an alternative training strategy that is solver-free, i.e., does not call the ILP solver at all at training time. Neural ILP has a set of trainable hyperplanes (for cost and constraints in ILP), together representing a polyhedron. Our key idea is that the training loss should impose that the final polyhedron separates the positives (all constraints satisfied) from the negatives (at least one violated constraint or a suboptimal cost value), via a soft-margin formulation. While positive example(s) are provided as part of the training data, we devise novel techniques for generating negative samples. Our solution is flexible enough to handle equality as well as inequality constraints. Experiments on several problems, both perceptual as well as symbolic, which require learning the constraints of an ILP, show that our approach has superior performance and scales much better compared to purely neural baselines and other state-of-the-art models that require solver-based training. In particular, we are able to obtain excellent performance in 9 x 9 symbolic and visual sudoku, to which the other Neural ILP solver is not able to scale.
翻訳日:2022-10-18 20:31:09 公開日:2022-10-17
# 検証可能で証明可能なマシンアンラーニング

Verifiable and Provably Secure Machine Unlearning ( http://arxiv.org/abs/2210.09126v1 )

ライセンス: Link先を確認
Thorsten Eisenhofer, Doreen Riepel, Varun Chandrasekaran, Esha Ghosh, Olga Ohrimenko, Nicolas Papernot(参考訳) 機械学習は、トレーニング後の機械学習モデルのトレーニングデータセットからポイントを削除することを目的としている。 多くの機械学習手法が提案されているが、いずれもユーザーが未学習の手順を監査し、そのデータが実際に未学習であることを検証できるものではない。 これを解決するために、検証可能なマシンアンラーニングのセキュリティを正式にキャプチャする最初の暗号フレームワークを定義する。 我々のフレームワークは一般的に異なるアプローチに当てはまるが、その利点はおそらく、学習しないという標準的なアプローチのインスタンス化によって示される。 暗号化プロトコルでは、まずモデルがデータセットから$d$でトレーニングされたという証明をサーバが計算します。 ユーザデータポイントが$d$になると、サーバは未学習の証明を計算し、$d \notin D$を示す。 我々はsnarkとmerkle木を用いて,データ更新とアンラーニングの証明を得るプロトコルを実現する。 暗号の仮定に基づいて、我々のインスタンス化が安全であることの正式なゲームベースの証明を提示する。 最後に,線形回帰,ロジスティック回帰,ニューラルネットワークにおけるアンラーニングのための構成の実用性を検証する。

Machine unlearning aims to remove points from the training dataset of a machine learning model after training; for example when a user requests their data to be deleted. While many machine unlearning methods have been proposed, none of them enable users to audit the unlearning procedure and verify that their data was indeed unlearned. To address this, we define the first cryptographic framework to formally capture the security of verifiable machine unlearning. While our framework is generally applicable to different approaches, its advantages are perhaps best illustrated by our instantiation for the canonical approach to unlearning: retraining the model without the data to be unlearned. In our cryptographic protocol, the server first computes a proof that the model was trained on a dataset~$D$. Given a user data point $d$, the server then computes a proof of unlearning that shows that $d \notin D$. We realize our protocol using a SNARK and Merkle trees to obtain proofs of update and unlearning on the data. Based on cryptographic assumptions, we then present a formal game-based proof that our instantiation is secure. Finally, we validate the practicality of our constructions for unlearning in linear regression, logistic regression, and neural networks.
翻訳日:2022-10-18 20:30:34 公開日:2022-10-17
# PartIME: ディープニューラルネットワークによる時間とともにスケーラブルで並列な処理

PARTIME: Scalable and Parallel Processing Over Time with Deep Neural Networks ( http://arxiv.org/abs/2210.09147v1 )

ライセンス: Link先を確認
Enrico Meloni, Lapo Faggi, Simone Marullo, Alessandro Betti, Matteo Tiezzi, Marco Gori, Stefano Melacci(参考訳) 本稿では,Pythonで書かれたPyTorchをベースとしたソフトウェアライブラリであるPartialIMEについて述べる。 既存のライブラリは、サンプルがバッチ化されていると仮定して、データレベルの並列性を利用するように設計されている。 異なることにPartialIMEは、ストリームから利用可能になった時点で、各データサンプルの処理を開始する。 partimeはフィードフォワードのマルチレイヤネットワークを実装したコードをラップし、グラフィック処理ユニット(gpu)など複数のデバイスにレイヤ単位で処理を分散する。 パイプラインベースの計算スキームのおかげで、partimeはデバイスが並列に計算を実行することができる。 推論時には、デバイス数に関して理論的に線形なスケーリング能力が得られる。 学習段階では、partimeはストリームデータの非i.i.d.特性を、効率的な勾配計算のために時間とともにスムーズに進化しているサンプルで活用することができる。 実験は、オンライン学習におけるpartimeと従来の非並列ニューラル計算を比較し、最大8nvidia gpuで操作を分散し、デバイス数でほぼ線形な大幅な高速化を示し、データ転送オーバーヘッドの影響を軽減するために行われる。

In this paper, we present PARTIME, a software library written in Python and based on PyTorch, designed specifically to speed up neural networks whenever data is continuously streamed over time, for both learning and inference. Existing libraries are designed to exploit data-level parallelism, assuming that samples are batched, a condition that is not naturally met in applications that are based on streamed data. Differently, PARTIME starts processing each data sample at the time in which it becomes available from the stream. PARTIME wraps the code that implements a feed-forward multi-layer network and it distributes the layer-wise processing among multiple devices, such as Graphics Processing Units (GPUs). Thanks to its pipeline-based computational scheme, PARTIME allows the devices to perform computations in parallel. At inference time this results in scaling capabilities that are theoretically linear with respect to the number of devices. During the learning stage, PARTIME can leverage the non-i.i.d. nature of the streamed data with samples that are smoothly evolving over time for efficient gradient computations. Experiments are performed in order to empirically compare PARTIME with classic non-parallel neural computations in online learning, distributing operations on up to 8 NVIDIA GPUs, showing significant speedups that are almost linear in the number of devices, mitigating the impact of the data transfer overhead.
翻訳日:2022-10-18 20:30:16 公開日:2022-10-17
# データリバランスによるオフライン強化学習の促進

Boosting Offline Reinforcement Learning via Data Rebalancing ( http://arxiv.org/abs/2210.09241v1 )

ライセンス: Link先を確認
Yang Yue, Bingyi Kang, Xiao Ma, Zhongwen Xu, Gao Huang, Shuicheng Yan(参考訳) オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって課題が解決される。 この問題に対処するため、既存の研究は主に、学習したポリシーを行動ポリシーに近いように明示的にまたは暗黙的に制約する洗練されたアルゴリズムの設計に焦点を当てている。 この制約は、優れた行動だけでなく、学習されたポリシーのパフォーマンス上限を制限する劣った行動にも適用される。 2つの分布の密度を整列させる代わりに、サポートの整列は緩やかな制約を与えると同時に、配布外アクションを回避できる。 そこで本研究では,データセットの再サンプリングによる分散サポートの維持を考慮し,オフラインRLアルゴリズムを簡易かつ効果的に向上させる手法を提案する。 より具体的には、古いデータセットの各トランジッションをエピソディックリターンに従って再サンプリングすることで、より優れた行動ポリシーを構築する。 ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。 大規模な実験により、ReDはオフラインのRL性能を高めるのに有効であり、長い尾の分類における分離戦略に直交することを示した。 新しい最先端技術はD4RLベンチマークで達成される。

Offline reinforcement learning (RL) is challenged by the distributional shift between learning policies and datasets. To address this problem, existing works mainly focus on designing sophisticated algorithms to explicitly or implicitly constrain the learned policy to be close to the behavior policy. The constraint applies not only to well-performing actions but also to inferior ones, which limits the performance upper bound of the learned policy. Instead of aligning the densities of two distributions, aligning the supports gives a relaxed constraint while still being able to avoid out-of-distribution actions. Therefore, we propose a simple yet effective method to boost offline RL algorithms based on the observation that resampling a dataset keeps the distribution support unchanged. More specifically, we construct a better behavior policy by resampling each transition in an old dataset according to its episodic return. We dub our method ReD (Return-based Data Rebalance), which can be implemented with less than 10 lines of code change and adds negligible running time. Extensive experiments demonstrate that ReD is effective at boosting offline RL performance and orthogonal to decoupling strategies in long-tailed classification. New state-of-the-arts are achieved on the D4RL benchmark.
翻訳日:2022-10-18 20:29:52 公開日:2022-10-17
# モデルに基づく強化学習のための深部宇宙モデルの不確かさについて

On Uncertainty in Deep State Space Models for Model-Based Reinforcement Learning ( http://arxiv.org/abs/2210.09256v1 )

ライセンス: Link先を確認
Philipp Becker, Gerhard Neumann(参考訳) Recurrent State Space Models (RSSMs) のような改善された状態空間モデルは、モデルベース強化学習(RL)の最近の進歩の鍵となる要素である。 しかし、その実証的な成功にもかかわらず、基礎となる設計選択の多くはよく理解されていない。 RSSMは最適下推定方式を用いており、この推定を用いて訓練されたモデルは、基底真理系のアレター的不確実性を過大評価していることを示す。 この過大評価はrssmsを暗黙的に規則化し、モデルベースのrlを成功させる。 この暗黙の正則化は認識論的不確かさを明示的にモデル化するのと同じ機能性を満たしていると仮定する。 しかし、オクルージョンの処理や観察の欠如、異なる周波数でのセンサーのモダリティの融合など、正確な推定を行う場合には、過大評価のアレタリック不確実性も性能を損なう可能性がある。 さらに、暗黙の正規化は推論スキームの副作用であり、RSSMの分析や改善を困難にする厳密で原則化された定式化の結果ではない。 そこで本研究では,適応的再帰カルマンネットワーク (VRKN) と呼ばれる,アレタリックおよびてんかんの不確かさをモデル化するための,よく理解されたコンポーネントに基づく代替手法を提案する。 このアプローチはカルマンの更新を使って潜在空間における正確な平滑化推論を行い、モンテカルロのドロップアウトによって認識の不確かさをモデル化する。 カルマンの更新により、vrknは時間ステップごとに異なる数の観測を行い、紛失した観測やセンサー融合の問題を自然に処理できる。 実験の結果,RSSMの代わりにVRKNを用いることで,アレータリック不確実性を適切に把握し,決定論的基準ベンチマークで一致させるタスクの性能が向上することがわかった。

Improved state space models, such as Recurrent State Space Models (RSSMs), are a key factor behind recent advances in model-based reinforcement learning (RL). Yet, despite their empirical success, many of the underlying design choices are not well understood. We show that RSSMs use a suboptimal inference scheme and that models trained using this inference overestimate the aleatoric uncertainty of the ground truth system. We find this overestimation implicitly regularizes RSSMs and allows them to succeed in model-based RL. We postulate that this implicit regularization fulfills the same functionality as explicitly modeling epistemic uncertainty, which is crucial for many other model-based RL approaches. Yet, overestimating aleatoric uncertainty can also impair performance in cases where accurately estimating it matters, e.g., when we have to deal with occlusions, missing observations, or fusing sensor modalities at different frequencies. Moreover, the implicit regularization is a side-effect of the inference scheme and not the result of a rigorous, principled formulation, which renders analyzing or improving RSSMs difficult. Thus, we propose an alternative approach building on well-understood components for modeling aleatoric and epistemic uncertainty, dubbed Variational Recurrent Kalman Network (VRKN). This approach uses Kalman updates for exact smoothing inference in a latent space and Monte Carlo Dropout to model epistemic uncertainty. Due to the Kalman updates, the VRKN can naturally handle missing observations or sensor fusion problems with varying numbers of observations per time step. Our experiments show that using the VRKN instead of the RSSM improves performance in tasks where appropriately capturing aleatoric uncertainty is crucial while matching it in the deterministic standard benchmarks.
翻訳日:2022-10-18 20:29:31 公開日:2022-10-17
# 音声からの関係抽出に向けて

Towards Relation Extraction From Speech ( http://arxiv.org/abs/2210.08759v1 )

ライセンス: Link先を確認
Tongtong Wu, Guitao Wang, Jinming Zhao, Zhaoran Liu, Guilin Qi, Yuan-Fang Li, Gholamreza Haffari(参考訳) 関係抽出は通常、構造化されていないテキストからエンティティ間の意味的関係を抽出することを目的としている。 関係抽出のための最も重要なデータソースの1つは、インタビューや対話といった音声言語である。 しかし, 自動音声認識(ASR)で導入された誤り伝搬は, 関係抽出において無視されており, エンドツーエンドの関係抽出法はほとんど検討されていない。 本稿では,新たな聴取情報抽出タスク,すなわち音声関係抽出を提案する。 テキスト対音声システムによる音声関係抽出のための学習データセットを構築し,ネイティブ英語話者とのクラウドソーシングによるテストデータセットを構築する。 そこで本研究では,asrモジュールを用いたテキストベース抽出を行うパイプラインアプローチと,提案するエンコーダ・デコーダモデルによるエンド2エンドアプローチ,すなわち speechre という2つのアプローチによる音声関係抽出について検討した。 我々は,音声関係抽出における課題を識別するための包括的実験を行い,今後の探索に光を当てる可能性がある。 コードとデータをhttps://github.com/wutong8023/speechreで共有しています。

Relation extraction typically aims to extract semantic relationships between entities from the unstructured text. One of the most essential data sources for relation extraction is the spoken language, such as interviews and dialogues. However, the error propagation introduced in automatic speech recognition (ASR) has been ignored in relation extraction, and the end-to-end speech-based relation extraction method has been rarely explored. In this paper, we propose a new listening information extraction task, i.e., speech relation extraction. We construct the training dataset for speech relation extraction via text-to-speech systems, and we construct the testing dataset via crowd-sourcing with native English speakers. We explore speech relation extraction via two approaches: the pipeline approach conducting text-based extraction with a pretrained ASR module, and the end2end approach via a new proposed encoder-decoder model, or what we called SpeechRE. We conduct comprehensive experiments to distinguish the challenges in speech relation extraction, which may shed light on future explorations. We share the code and data on https://github.com/wutong8023/SpeechRE.
翻訳日:2022-10-18 20:04:50 公開日:2022-10-17
# MoSE: マルチモーダルな知識グラフ補完のためのモダリティ分割とアンサンブル

MoSE: Modality Split and Ensemble for Multimodal Knowledge Graph Completion ( http://arxiv.org/abs/2210.08821v1 )

ライセンス: Link先を確認
Yu Zhao, Xiangrui Cai, Yike Wu, Haiwei Zhang, Ying Zhang, Guoqing Zhao, Ning Jiang(参考訳) マルチモーダル知識グラフ補完(MKGC)は、MKGの欠落したエンティティを予測することを目的としている。 以前の作品は通常、モダリティ間の関係表現を共有する。 これは訓練中のモダリティ間の相互干渉をもたらす、なぜなら一対の実体に対して、あるモダリティとの関係はおそらく他のモダリティとの関係と矛盾するからである。 さらに、共有関係表現に基づく統一的な予測を行うことは、MKGCタスクに対する重要性が異なる一方で、異なるモードでの入力を等しく扱う。 本稿では,MKGCのためのモダリティ分割表現学習およびアンサンブル推論フレームワークであるMoSEを提案する。 具体的には、トレーニング段階では、単一のモダリティ共有ではなく、各モダリティに対するモダリティとスプリットの関係埋め込みを学習し、モダリティ干渉を緩和する。 これらの埋め込みに基づいて、まずまずモーダリティ分割予測を行い、次に様々なアンサンブル法を用いて様々な重み付けを行い、モーダリティの重要性を動的にモデル化する。 3つのKGデータセットの実験結果は、MoSEが最先端のMKGC法より優れていることを示している。 コードはhttps://github.com/OreOZhao/MoSE4MKGCで公開されている。

Multimodal knowledge graph completion (MKGC) aims to predict missing entities in MKGs. Previous works usually share relation representation across modalities. This results in mutual interference between modalities during training, since for a pair of entities, the relation from one modality probably contradicts that from another modality. Furthermore, making a unified prediction based on the shared relation representation treats the input in different modalities equally, while their importance to the MKGC task should be different. In this paper, we propose MoSE, a Modality Split representation learning and Ensemble inference framework for MKGC. Specifically, in the training phase, we learn modality-split relation embeddings for each modality instead of a single modality-shared one, which alleviates the modality interference. Based on these embeddings, in the inference phase, we first make modality-split predictions and then exploit various ensemble methods to combine the predictions with different weights, which models the modality importance dynamically. Experimental results on three KG datasets show that MoSE outperforms state-of-the-art MKGC methods. Codes are available at https://github.com/OreOZhao/MoSE4MKGC.
翻訳日:2022-10-18 20:04:31 公開日:2022-10-17
# 近読時間を短縮するトランスフォーマー言語モデルを用いたゼロショット分類社会政治テキスト

Zero-Shot Ranking Socio-Political Texts with Transformer Language Models to Reduce Close Reading Time ( http://arxiv.org/abs/2210.09179v1 )

ライセンス: Link先を確認
Kiymet Akdemir and Ali H\"urriyeto\u{g}lu(参考訳) 分類問題を包含問題としてアプローチし、ゼロショットランキングを社会政治テキストに適用する。 上位にランク付けされた文書は肯定的に分類された文書と見なすことができ、情報抽出プロセスの精読時間を短縮できる。 我々はTransformer Language Models を用いて、細分化確率を取得し、異なるタイプのクエリを調べる。 DeBERTaはRoBERTaよりも平均精度の高いスコアを達成でき、クラスラベルの宣言形式をクエリとして使用すると、クラスラベルの辞書定義よりも優れる。 我々は, どれだけのリコールをしたいかによって, ランク付けされた文書の一定割合を取ることで, 密読時間を短縮できることを示す。 しかし,本研究の結果は,話題が広まるにつれて読まれるべき文書の割合が増加することを示している。

We approach the classification problem as an entailment problem and apply zero-shot ranking to socio-political texts. Documents that are ranked at the top can be considered positively classified documents and this reduces the close reading time for the information extraction process. We use Transformer Language Models to get the entailment probabilities and investigate different types of queries. We find that DeBERTa achieves higher mean average precision scores than RoBERTa and when declarative form of the class label is used as a query, it outperforms dictionary definition of the class label. We show that one can reduce the close reading time by taking some percentage of the ranked documents that the percentage depends on how much recall they want to achieve. However, our findings also show that percentage of the documents that should be read increases as the topic gets broader.
翻訳日:2022-10-18 20:04:11 公開日:2022-10-17
# 視聴覚および自己報告型パーソナリティ認識のためのディープラーニングモデルのオープンソースベンチマーク

An Open-source Benchmark of Deep Learning Models for Audio-visual Apparent and Self-reported Personality Recognition ( http://arxiv.org/abs/2210.09138v1 )

ライセンス: Link先を確認
Rongfan Liao, Siyang Song and Hatice Gunes(参考訳) 人格は人間の内外の状態を理解するために不可欠である。 既存のパーソナリティコンピューティングのアプローチの大部分は、複雑でデータセット固有の前処理ステップとモデルトレーニングのトリックに苦しむ。 一貫性のある実験的な設定の標準ベンチマークがないため、これらのパーソナリティコンピューティングモデルの実際の性能を適切に比較することは不可能であり、再現も困難である。 本稿では,既存の8つのパーソナリティ・コンピューティングモデル(例えば,音声,視覚,音声視覚)と7つの標準ディープラーニングモデルについて,自己報告と明らかなパーソナリティ認識タスクの両方で公正かつ一貫した評価を行うための,最初の再現可能な音声・視覚ベンチマークフレームワークを提案する。 本研究は,2つの公開データセット(ChaLearn First Impression)と自己報告型パーソナリティ(UDIVA)データセット(UDIVA))において,その性格特性をモデル化する能力を示すため,すべてのベンチマークモデルを包括的に調査する。 実験結果は以下の通りである。 (i)ほとんどのベンチマークされたディープラーニングモデルによる顔行動から推定される明らかな性格特性は、自己報告されたものよりも信頼性が高い。 (II)視覚モデルは、人格認識における音声モデルよりも優れたパフォーマンスをしばしば達成し、 (三)非言語行動は人格特性の予測に異なる貢献をする。 コードをhttps://github.com/liaorongfan/DeepPersonality で公開しています。

Personality is crucial for understanding human internal and external states. The majority of existing personality computing approaches suffer from complex and dataset-specific pre-processing steps and model training tricks. In the absence of a standardized benchmark with consistent experimental settings, it is not only impossible to fairly compare the real performances of these personality computing models but also makes them difficult to be reproduced. In this paper, we present the first reproducible audio-visual benchmarking framework to provide a fair and consistent evaluation of eight existing personality computing models (e.g., audio, visual and audio-visual) and seven standard deep learning models on both self-reported and apparent personality recognition tasks. We conduct a comprehensive investigation into all the benchmarked models to demonstrate their capabilities in modelling personality traits on two publicly available datasets, audio-visual apparent personality (ChaLearn First Impression) and self-reported personality (UDIVA) datasets. The experimental results conclude: (i) apparent personality traits, inferred from facial behaviours by most benchmarked deep learning models, show more reliability than self-reported ones; (ii) visual models frequently achieved superior performances than audio models on personality recognition; and (iii) non-verbal behaviours contribute differently in predicting different personality traits. We make the code publicly available at https://github.com/liaorongfan/DeepPersonality .
翻訳日:2022-10-18 19:56:17 公開日:2022-10-17
# 2次元アルファマスクによる3次元メッシュのプルーニングによるトポロジー微細化

Pruning-based Topology Refinement of 3D Mesh using a 2D Alpha Mask ( http://arxiv.org/abs/2210.09148v1 )

ライセンス: Link先を確認
Ga\"etan Landreau and Mohamed Tamaazousti(参考訳) 画像ベースの3D再構成は、コンピュータビジョンとグラフィックスの最新の改良により、ここ数年で驚くほどの成果を上げている。 幾何学とトポロジーは、3Dメッシュ構造を扱う場合の基本概念である。 しかし、最新の問題は3dメッシュベースのレコンストラクションの文献に残ることが多い。 実際、3次元球面メッシュ上のバーテックスの初等的な変位は、その形状にのみ影響を与え、位相構造を不変に固定する。 幾何やトポロジを更新する試みはほとんどないが、顔や縁を決定づけるためには、コストのかかる3Dグラウンドトルースに頼らなければならない。 本稿では,2dアルファマスクとカメラのポーズ情報に大きく依存する顔のプルーニング戦略を通じて,任意の3dメッシュのトポロジーを洗練することを目的とした手法を提案する。 我々のソリューションは、それぞれの顔を2次元のソフトマップとしてレンダリングする微分可能なレンダラーを活用する。 そのピクセル強度は、そのような顔によってレンダリングプロセス中にカバーされる確率を反映している。 利用可能な2次元ソフトマスクに基づき、任意の視点で不正確なレンダリングされた顔をすべて素早くハイライトすることができる。 我々のモジュールは3Dメッシュを生成するネットワークに非依存であるため、任意の自己監督型イメージベース(合成または自然な)3D再構成パイプラインに簡単に接続して、非球面トポロジーで複雑なメッシュを得ることができる。

Image-based 3D reconstruction has increasingly stunning results over the past few years with the latest improvements in computer vision and graphics. Geometry and topology are two fundamental concepts when dealing with 3D mesh structures. But the latest often remains a side issue in the 3D mesh-based reconstruction literature. Indeed, performing per-vertex elementary displacements over a 3D sphere mesh only impacts its geometry and leaves the topological structure unchanged and fixed. Whereas few attempts propose to update the geometry and the topology, all need to lean on costly 3D ground-truth to determine the faces/edges to prune. We present in this work a method that aims to refine the topology of any 3D mesh through a face-pruning strategy that extensively relies upon 2D alpha masks and camera pose information. Our solution leverages a differentiable renderer that renders each face as a 2D soft map. Its pixel intensity reflects the probability of being covered during the rendering process by such a face. Based on the 2D soft-masks available, our method is thus able to quickly highlight all the incorrectly rendered faces for a given viewpoint. Because our module is agnostic to the network that produces the 3D mesh, it can be easily plugged into any self-supervised image-based (either synthetic or natural) 3D reconstruction pipeline to get complex meshes with a non-spherical topology.
翻訳日:2022-10-18 19:55:51 公開日:2022-10-17
# 画素アライメント非パラメトリックハンドメッシュ再構成

Pixel-Aligned Non-parametric Hand Mesh Reconstruction ( http://arxiv.org/abs/2210.09198v1 )

ライセンス: Link先を確認
Shijian Jiang, Guwen Han, Danhang Tang, Yang Zhou, Xiang Li, Jiming Chen, Qi Ye(参考訳) 非パラメトリックメッシュの再構築は、最近、3dハンドとボディアプリケーションで著しい進歩を示している。 これらの方法では、メッシュ頂点とエッジがニューラルネットワークで可視化され、2D画像ピクセルと3Dメッシュ頂点との直接マッピングが確立できる。 本稿では,このマッピングをシンプルでコンパクトなアーキテクチャで確立し,活用することを目指す。 ネットワークはこれらの考慮のもとに設計されています 1) メッシュデコーダで捉えたエンコーダから局所的な2次元画像特徴と3次元幾何学的特徴の両方を集約すること。 2) 階層的なマルチスケール情報を最大限活用するために,デコード層に沿って粗いメッシュをデコードする。 具体的には,マルチスケール特徴マップを構築する2次元特徴抽出器,3次元から2次元投影による局所2次元特徴を3次元頂点に変換する特徴マッピングモジュール,グラフ畳み込みと自己接続を組み合わせたメッシュデコーダの3段階からなる,ハンドメッシュリカバリタスクのためのエンドツーエンドパイプラインを提案する。 デコーダはピクセルの局所的な画像特徴と頂点の幾何学的特徴の両方を集約する。 また、マルチスケール情報を活用するために、メッシュ頂点を粗い方法で強化する。 ローカル接続を利用してメッシュデコーダを設計することにより、パブリックなFreiHANDデータセット上での手メッシュ再構築を実現する。

Non-parametric mesh reconstruction has recently shown significant progress in 3D hand and body applications. In these methods, mesh vertices and edges are visible to neural networks, enabling the possibility to establish a direct mapping between 2D image pixels and 3D mesh vertices. In this paper, we seek to establish and exploit this mapping with a simple and compact architecture. The network is designed with these considerations: 1) aggregating both local 2D image features from the encoder and 3D geometric features captured in the mesh decoder; 2) decoding coarse-to-fine meshes along the decoding layers to make the best use of the hierarchical multi-scale information. Specifically, we propose an end-to-end pipeline for hand mesh recovery tasks which consists of three phases: a 2D feature extractor constructing multi-scale feature maps, a feature mapping module transforming local 2D image features to 3D vertex features via 3D-to-2D projection, and a mesh decoder combining the graph convolution and self-attention to reconstruct mesh. The decoder aggregate both local image features in pixels and geometric features in vertices. It also regresses the mesh vertices in a coarse-to-fine manner, which can leverage multi-scale information. By exploiting the local connection and designing the mesh decoder, Our approach achieves state-of-the-art for hand mesh reconstruction on the public FreiHAND dataset.
翻訳日:2022-10-18 19:55:29 公開日:2022-10-17
# ArtFacePoints: 絵画や印刷物における高精細な顔のランドマーク検出

ArtFacePoints: High-resolution Facial Landmark Detection in Paintings and Prints ( http://arxiv.org/abs/2210.09204v1 )

ライセンス: Link先を確認
Aline Sindel, Andreas Maier and Vincent Christlein(参考訳) 顔のランドマーク検出は、アートワークにおける類似性分析において、同一または類似したアーティストの肖像画を比較する上で重要な役割を果たす。 顔のランドマークでは、絵画や印刷物などさまざまなジャンルの肖像画が、制御ポイントベースの画像登録によって自動的に整列される。 絵画や印刷物の高解像度画像における顔のランドマーク検出のためのディープラーニングに基づく手法を提案する。 粗いランドマーク予測のためのグローバルネットワークと、予測されたグローバルランドマーク座標に基づいて自動的に決定される目、鼻、口の領域の正確なランドマーク洗練のための複数のリージョンネットワークにタスクを分割する。 人工的に拡張した顔ランドマークアートデータセットを作成し、芸術的スタイル転送と幾何学的ランドマークシフトを行いました。 提案手法は,一般の低解像度アートワークデータセットと競合する手法と比較し,高精細なアートワークデータセットに対して,内面ランドマークを高精度に検出することを示す。

Facial landmark detection plays an important role for the similarity analysis in artworks to compare portraits of the same or similar artists. With facial landmarks, portraits of different genres, such as paintings and prints, can be automatically aligned using control-point-based image registration. We propose a deep-learning-based method for facial landmark detection in high-resolution images of paintings and prints. It divides the task into a global network for coarse landmark prediction and multiple region networks for precise landmark refinement in regions of the eyes, nose, and mouth that are automatically determined based on the predicted global landmark coordinates. We created a synthetically augmented facial landmark art dataset including artistic style transfer and geometric landmark shifts. Our method demonstrates an accurate detection of the inner facial landmarks for our high-resolution dataset of artworks while being comparable for a public low-resolution artwork dataset in comparison to competing methods.
翻訳日:2022-10-18 19:55:05 公開日:2022-10-17
# 一般物体スポッティング用サッケード視覚変圧器

A Saccaded Visual Transformer for General Object Spotting ( http://arxiv.org/abs/2210.09220v1 )

ライセンス: Link先を確認
Willem.T.Pye, David.A.Sinclair(参考訳) 本稿では,視覚トランスフォーマー方式パッチ分類器と局所的注意点を併用した新しい組み合わせを提案する。 ネットワークがラベル付きオブジェクトのセンタロイドへの正規化距離を推定するように訓練したクラスメンバシップ確率誤差を最小化する最適化関数ではなく、オブジェクトモデルのトレーニングのための新しい最適化パラダイムも提示される。 このアプローチは、モデルに直接超国家的不変度を構築し、勾配上昇による高速なサケード探索により、対象のセントロイドを見つけることができる。 その結果得られた視覚変換器は人間の顔に示される。

This paper presents the novel combination of a visual transformer style patch classifier with saccaded local attention. A novel optimisation paradigm for training object models is also presented, rather than the optimisation function minimising class membership probability error the network is trained to estimate the normalised distance to the centroid of labelled objects. This approach builds a degree of transnational invariance directly into the model and allows fast saccaded search with gradient ascent to find object centroids. The resulting saccaded visual transformer is demonstrated on human faces.
翻訳日:2022-10-18 19:54:50 公開日:2022-10-17
# Imagic:拡散モデルを用いたテキストベースの実画像編集

Imagic: Text-Based Real Image Editing with Diffusion Models ( http://arxiv.org/abs/2210.09276v1 )

ライセンス: Link先を確認
Bahjat Kawar, Shiran Zada, Oran Lang, Omer Tov, Huiwen Chang, Tali Dekel, Inbar Mosseri, Michal Irani(参考訳) 近年,テキスト条件付き画像編集が注目されている。 しかしながら、ほとんどのメソッドは特定の編集タイプ(オブジェクトオーバーレイやスタイル転送など)に制限されているか、合成生成画像に適用されているか、あるいは共通のオブジェクトの複数の入力イメージを必要とする。 本稿では,本論文で初めて,複雑なテキストガイド付き意味編集を1つの実画像に適用できることを実証する。 例えば、イメージ内の1つまたは複数のオブジェクトの姿勢や構成を、元の特性を維持しながら変更することができる。 我々の方法は、立っている犬を座らせたりジャンプさせたり、鳥が羽を広げたりできる。 -- ユーザが提供した1つの高解像度自然画像内。 従来の作業とは対照的に,提案手法では1つの入力画像と1つのターゲットテキスト(所望の編集)のみを必要とする。 実際の画像上で動作し、追加の入力を必要としない(画像マスクやオブジェクトの追加ビューなど)。 本手法は「イマジック」と呼ばれ,事前学習したテキスト・画像拡散モデルを活用する。 入力画像とターゲットテキストの両方に整合したテキスト埋め込みを生成し、拡散モデルを微調整して画像固有の外観をキャプチャする。 我々は,様々な領域から入力された多数の入力に対して,提案手法の品質と汎用性を実証し,単一の統一フレームワーク内で,高品質で複雑なセマンティック画像編集の多様さを示す。

Text-conditioned image editing has recently attracted considerable interest. However, most methods are currently either limited to specific editing types (e.g., object overlay, style transfer), or apply to synthetically generated images, or require multiple input images of a common object. In this paper we demonstrate, for the very first time, the ability to apply complex (e.g., non-rigid) text-guided semantic edits to a single real image. For example, we can change the posture and composition of one or multiple objects inside an image, while preserving its original characteristics. Our method can make a standing dog sit down or jump, cause a bird to spread its wings, etc. -- each within its single high-resolution natural image provided by the user. Contrary to previous work, our proposed method requires only a single input image and a target text (the desired edit). It operates on real images, and does not require any additional inputs (such as image masks or additional views of the object). Our method, which we call "Imagic", leverages a pre-trained text-to-image diffusion model for this task. It produces a text embedding that aligns with both the input image and the target text, while fine-tuning the diffusion model to capture the image-specific appearance. We demonstrate the quality and versatility of our method on numerous inputs from various domains, showcasing a plethora of high quality complex semantic image edits, all within a single unified framework.
翻訳日:2022-10-18 19:54:40 公開日:2022-10-17
# 言語イメージ事前学習と非コントラスト学習

Non-Contrastive Learning Meets Language-Image Pre-Training ( http://arxiv.org/abs/2210.09304v1 )

ライセンス: Link先を確認
Jinghao Zhou, Li Dong, Zhe Gan, Lijuan Wang, Furu Wei(参考訳) コントラスト型言語画像事前学習(clip)は、画像とテキストを整合させるデファクト標準として機能する。 それでも、Webcrawledデータの画像とテキストの緩やかな相関は、対照的な客観的データを非効率にし、大規模なトレーニングバッチサイズを切望する。 本研究では,非コントラスト型言語画像事前学習(nCLIP)の有効性について検討し,視覚的自己監督モデルに現れる優れた特性が出現するかどうかを考察する。 我々は,ゼロショット認識下で十分に過小評価しながら,非矛盾目的のヌーリシェス表現学習を経験的に観察する。 そこで本研究では,CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し,機能セマンティクスの強化にNCLIPがCLIPを支援することを示す。 2つの目的の相乗効果によって、xclipは、ゼロショット転送と表現学習の両方において優れたパフォーマンスを両世界のベストを享受できる。 システム評価は,ゼロショット分類,ドメイン外分類,検索,視覚表現学習,テキスト表現学習など,さまざまな下流タスクにまたがって実施され,一貫した性能向上を示し,xclipの有効性を検証する。

Contrastive language-image pre-training (CLIP) serves as a de-facto standard to align images and texts. Nonetheless, the loose correlation between images and texts of web-crawled data renders the contrastive objective data inefficient and craving for a large training batch size. In this work, we explore the validity of non-contrastive language-image pre-training (nCLIP), and study whether nice properties exhibited in visual self-supervised models can emerge. We empirically observe that the non-contrastive objective nourishes representation learning while sufficiently underperforming under zero-shot recognition. Based on the above study, we further introduce xCLIP, a multi-tasking framework combining CLIP and nCLIP, and show that nCLIP aids CLIP in enhancing feature semantics. The synergy between two objectives lets xCLIP enjoy the best of both worlds: superior performance in both zero-shot transfer and representation learning. Systematic evaluation is conducted spanning a wide variety of downstream tasks including zero-shot classification, out-of-domain classification, retrieval, visual representation learning, and textual representation learning, showcasing a consistent performance gain and validating the effectiveness of xCLIP.
翻訳日:2022-10-18 19:54:11 公開日:2022-10-17
# 自然シーン画像検索のための局所意味概念と視覚単語の袋とのギャップの橋渡し

Bridging the Gap between Local Semantic Concepts and Bag of Visual Words for Natural Scene Image Retrieval ( http://arxiv.org/abs/2210.08875v1 )

ライセンス: Link先を確認
Yousef Alqasrawi(参考訳) 本稿では,自然シーンの意味に基づく画像検索の問題に対処する。 典型的なコンテンツベース画像検索システムは、データセット内のクエリ画像と画像を低レベルの特徴の集合として扱い、クエリ画像の特徴と画像データセット内の画像の特徴との類似性に基づいてランク付けされた画像のリストを取得する。 しかし,検索された検索画像の上位ランク画像は,検索画像と類似度が高く,セマンティックギャップとして知られるユーザのセマンティック解釈の観点からは,クエリ画像とは異なる場合がある。 そこで本研究では,視覚的単語の袋と局所的意味概念の分布を用いて,自然シーンの検索を行う方法について検討する。 本研究は,自然シーン画像に表現された意味情報を画像検索に表現するために異なる手法を用いる効率性について検討する。 自然・都市シーン画像検索のための視覚単語モデルと意味情報の利用効率について,広範な実験を行った。

This paper addresses the problem of semantic-based image retrieval of natural scenes. A typical content-based image retrieval system deals with the query image and images in the dataset as a collection of low-level features and retrieves a ranked list of images based on the similarities between features of the query image and features of images in the image dataset. However, top ranked images in the retrieved list, which have high similarities to the query image, may be different from the query image in terms of the semantic interpretation of the user which is known as the semantic gap. In order to reduce the semantic gap, this paper investigates how natural scene retrieval can be performed using the bag of visual word model and the distribution of local semantic concepts. The paper studies the efficiency of using different approaches for representing the semantic information, depicted in natural scene images, for image retrieval. An extensive experimental work has been conducted to study the efficiency of using semantic information as well as the bag of visual words model for natural and urban scene image retrieval.
翻訳日:2022-10-18 19:48:28 公開日:2022-10-17
# HyperDomainNet: 生成逆ネットワークのためのユニバーサルドメイン適応

HyperDomainNet: Universal Domain Adaptation for Generative Adversarial Networks ( http://arxiv.org/abs/2210.08884v1 )

ライセンス: Link先を確認
Aibek Alanov, Vadim Titov, Dmitry Vetrov(参考訳) GANのドメイン適応フレームワークは、非常に限られたトレーニングデータにおいて、現代GANのトレーニングを成功させる主要なアプローチとして、近年大きな進歩を遂げている。 本研究では,生成器を微調整するための非常にコンパクトなパラメータ空間を提案することにより,この枠組みを著しく改善する。 対象領域に適応するために,3000万重量のstylegan2の代わりに6万次元ベクトルのみを最適化する新しいドメイン変調手法を提案する。 このパラメータ化を最先端のドメイン適応法に適用し,全パラメータ空間とほぼ同一の表現性を示す。 さらに, 微調整発電機の多様性を著しく向上させる新しい正規化損失を提案する。 最適化パラメータ空間の大きさの縮小に触発されて、ganのマルチドメイン適応の問題、すなわち、同じモデルが入力クエリに応じて複数のドメインに適応できる場合の設定について検討する。 我々は,対象領域に対してパラメータ化を予測するハイパーネットワークであるhyperdomainnetを提案する。 実験により、複数のドメインを一度に学習し、未知のドメインにも一般化できることを確認した。 ソースコードはhttps://github.com/MACderRu/HyperDomainNetで確認できる。

Domain adaptation framework of GANs has achieved great progress in recent years as a main successful approach of training contemporary GANs in the case of very limited training data. In this work, we significantly improve this framework by proposing an extremely compact parameter space for fine-tuning the generator. We introduce a novel domain-modulation technique that allows to optimize only 6 thousand-dimensional vector instead of 30 million weights of StyleGAN2 to adapt to a target domain. We apply this parameterization to the state-of-art domain adaptation methods and show that it has almost the same expressiveness as the full parameter space. Additionally, we propose a new regularization loss that considerably enhances the diversity of the fine-tuned generator. Inspired by the reduction in the size of the optimizing parameter space we consider the problem of multi-domain adaptation of GANs, i.e. setting when the same model can adapt to several domains depending on the input query. We propose the HyperDomainNet that is a hypernetwork that predicts our parameterization given the target domain. We empirically confirm that it can successfully learn a number of domains at once and may even generalize to unseen domains. Source code can be found at https://github.com/MACderRu/HyperDomainNet
翻訳日:2022-10-18 19:48:11 公開日:2022-10-17
# 知識グラフを用いたコントラスト言語画像事前学習

Contrastive Language-Image Pre-Training with Knowledge Graphs ( http://arxiv.org/abs/2210.08901v1 )

ライセンス: Link先を確認
Xuran Pan, Tianzhu Ye, Dongchen Han, Shiji Song, Gao Huang(参考訳) 近年,マルチモーダル表現を統一形式で抽出し,下流タスクに転送する際の有望なパフォーマンスを実現する大規模事前学習フレームワークの開発が急速に進んでいる。 それにもかかわらず、既存のアプローチは主に単純な画像とテキストのペアによる事前学習に重点を置いている。 本稿では,CLIPモデルに意味情報を注入する知識ベース事前学習フレームワークであるKnowledge-CLIPを提案する。 事前学習プロセスに知識に基づく目標を導入し,さまざまなタイプの知識グラフをトレーニングデータとして活用することにより,視覚表現と言語表現をより高い品質で意味的に調整し,シナリオとモダリティをまたいだ推論能力を向上させる。 様々な視覚言語によるダウンストリームタスクに対する大規模な実験は、元のCLIPや競合ベースラインと比較して知識CLIPの有効性を示している。

Recent years have witnessed the fast development of large-scale pre-training frameworks that can extract multi-modal representations in a unified form and achieve promising performances when transferred to downstream tasks. Nevertheless, existing approaches mainly focus on pre-training with simple image-text pairs, while neglecting the semantic connections between concepts from different modalities. In this paper, we propose a knowledge-based pre-training framework, dubbed Knowledge-CLIP, which injects semantic information into the widely used CLIP model. Through introducing knowledge-based objectives in the pre-training process and utilizing different types of knowledge graphs as training data, our model can semantically align the representations in vision and language with higher quality, and enhance the reasoning ability across scenarios and modalities. Extensive experiments on various vision-language downstream tasks demonstrate the effectiveness of Knowledge-CLIP compared with the original CLIP and competitive baselines.
翻訳日:2022-10-18 19:47:50 公開日:2022-10-17
# 画像文検索のためのクロスモーダル・セマンティック・インタグメンテーション

Cross-modal Semantic Enhanced Interaction for Image-Sentence Retrieval ( http://arxiv.org/abs/2210.08908v1 )

ライセンス: Link先を確認
Xuri Ge, Fuhai Chen, Songpei Xu, Fuxiang Tao, Joemon M. Jose(参考訳) 画像文検索はマルチメディアやコンピュータビジョンの分野で広く研究されている。 重要な問題は、視覚とテキストの表現を共同で学習し、それらの類似性を正確に見積もることである。 この目的のために、メインストリームスキーマは、オブジェクトワードに基づく注意力を用いて、それらの関連度スコアを算出し、それらの対話表現を注意力で洗練するが、文中の述語と一致するオブジェクト間関係におけるオブジェクト表現の文脈を無視する。 本稿では,オブジェクトと単語間のモーダル意味論を関連付けたイメージ・センス検索のためのクロスモーダルセマンティクス強化インタラクション手法cmseiを提案する。 特に,オブジェクトの空間位置とシーングラフの明示的な関係によって導かれるオブジェクトの意味表現を強化するために,モーダル内空間グラフと意味グラフに基づく推論を最初に設計する。 次に、視覚的およびテキスト的意味表現を、モーダル間対話的注意とクロスモーダルアライメントによって共同で洗練する。 オブジェクトのコンテキストとテキストのコンテキストを関連付けるために,クロスレベルなオブジェクト文と単語画像に基づく対話的注意による視覚的意味表現をさらに洗練する。 7つの標準評価指標による実験結果から,提案したCMSEIは,MS-COCOおよびFlickr30Kベンチマークにおける最先端および代替手法よりも優れていた。

Image-sentence retrieval has attracted extensive research attention in multimedia and computer vision due to its promising application. The key issue lies in jointly learning the visual and textual representation to accurately estimate their similarity. To this end, the mainstream schema adopts an object-word based attention to calculate their relevance scores and refine their interactive representations with the attention features, which, however, neglects the context of the object representation on the inter-object relationship that matches the predicates in sentences. In this paper, we propose a Cross-modal Semantic Enhanced Interaction method, termed CMSEI for image-sentence retrieval, which correlates the intra- and inter-modal semantics between objects and words. In particular, we first design the intra-modal spatial and semantic graphs based reasoning to enhance the semantic representations of objects guided by the explicit relationships of the objects' spatial positions and their scene graph. Then the visual and textual semantic representations are refined jointly via the inter-modal interactive attention and the cross-modal alignment. To correlate the context of objects with the textual context, we further refine the visual semantic representation via the cross-level object-sentence and word-image based interactive attention. Experimental results on seven standard evaluation metrics show that the proposed CMSEI outperforms the state-of-the-art and the alternative approaches on MS-COCO and Flickr30K benchmarks.
翻訳日:2022-10-18 19:47:34 公開日:2022-10-17
# ディープネットワーク圧縮のための連続畳み込み近似

Approximating Continuous Convolutions for Deep Network Compression ( http://arxiv.org/abs/2210.08951v1 )

ライセンス: Link先を確認
Theo W. Costain, Victor Adrian Prisacariu(参考訳) 本稿では畳み込みニューラルネットワークの層を圧縮する新しい手法であるApproxConvを提案する。 空間上のパラメトリ関数の連続畳み込みとして従来の離散畳み込みを補正し、関数近似を用いてcnnフィルタの基本構造を従来の演算よりも少ないパラメータで捉える。 本手法は,少量の微調整を必要とする訓練済みCNN層のサイズを削減できる。 提案手法では,既存の深層ネットワークモデルを半分に圧縮できるが,精度は1.86%に留まる。 さらに,本手法は量子化などの他の圧縮手法と互換性があり,モデルサイズをさらに削減できることを示す。

We present ApproxConv, a novel method for compressing the layers of a convolutional neural network. Reframing conventional discrete convolution as continuous convolution of parametrised functions over space, we use functional approximations to capture the essential structures of CNN filters with fewer parameters than conventional operations. Our method is able to reduce the size of trained CNN layers requiring only a small amount of fine-tuning. We show that our method is able to compress existing deep network models by half whilst losing only 1.86% accuracy. Further, we demonstrate that our method is compatible with other compression methods like quantisation allowing for further reductions in model size.
翻訳日:2022-10-18 19:47:07 公開日:2022-10-17
# 対称強調コントラスト損失を伴う弱教師付き顔命名法

Weakly Supervised Face Naming with Symmetry-Enhanced Contrastive Loss ( http://arxiv.org/abs/2210.08957v1 )

ライセンス: Link先を確認
Tingyu Qu, Tinne Tuytelaars, Marie-Francine Moens(参考訳) つまり、画像とキャプションが与えられたとき、キャプションに現れる名前で画像中の顔にラベルを付ける。 過去のアプローチでは,画像の集合と各キャプションに対する不確実性の推論によって,名前と顔の関連性を学習してきたが,ニューラルネットワーク設定におけるアライメントの学習には適切な損失関数に依存し,SECLAとSECLA-Bを提案する。 seclaは対称強調型コントラスト学習に基づくアライメントモデルであり、弱い教師付きで対応する顔と名前の類似度スコアを効果的に最大化することができる。 モデルのバリエーションであるSECLA-Bは、人間がしているように名前と顔を調整すること、すなわち、簡単なケースから難しいケースまでを学ぶことで、SECLAのパフォーマンスをさらに向上させる。 より具体的には、secla-bは2段階の学習フレームワークを適用する: (1) イメージキャプチャペアごとに、いくつかの名前と顔を持つ簡単なサブセットでモデルをトレーニングする。 2)新しいアライメントを忘れたり学習したりするのを防ぐために,追加損失を伴うブートストラップ戦略を用いた簡単なケースから,既知の名前と顔のペアを活用すること。 野生のデータセットのラベル付き顔とセレブのデータセットの両方について最先端の結果を得る。 さらに,本手法は他のマルチモーダルニュース理解タスクにも適用できると考えている。

We revisit the weakly supervised cross-modal face-name alignment task; that is, given an image and a caption, we label the faces in the image with the names occurring in the caption. Whereas past approaches have learned the latent alignment between names and faces by uncertainty reasoning over a set of images and their respective captions, in this paper, we rely on appropriate loss functions to learn the alignments in a neural network setting and propose SECLA and SECLA-B. SECLA is a Symmetry-Enhanced Contrastive Learning-based Alignment model that can effectively maximize the similarity scores between corresponding faces and names in a weakly supervised fashion. A variation of the model, SECLA-B, learns to align names and faces as humans do, that is, learning from easy to hard cases to further increase the performance of SECLA. More specifically, SECLA-B applies a two-stage learning framework: (1) Training the model on an easy subset with a few names and faces in each image-caption pair. (2) Leveraging the known pairs of names and faces from the easy cases using a bootstrapping strategy with additional loss to prevent forgetting and learning new alignments at the same time. We achieve state-of-the-art results for both the augmented Labeled Faces in the Wild dataset and the Celebrity Together dataset. In addition, we believe that our methods can be adapted to other multimodal news understanding tasks.
翻訳日:2022-10-18 19:46:56 公開日:2022-10-17
# グローバル知識によるオブジェクト検出器の蒸留

Distilling Object Detectors With Global Knowledge ( http://arxiv.org/abs/2210.09022v1 )

ライセンス: Link先を確認
Sanli Tang, Zhongyu Zhang, Zhanzhan Cheng, Jing Lu, Yunlu Xu, Yi Niu and Fan He(参考訳) 知識蒸留は、面倒な教師を模倣する軽量の学生モデルを学ぶ。 既存の方法は、知識を各インスタンスの特徴またはそれらの関係とみなし、それは教師モデルからのみインスタンスレベルの知識である、すなわちローカルな知識である。 しかし、実験的な研究では、局所的な知識はオブジェクト検出タスクにおいて、特にぼやけた、遮蔽された、あるいは小さなインスタンスにおいて、かなりノイズが多いことが示されている。 したがって、より本質的なアプローチは、教師と生徒検出器の2つの特徴空間、すなわち大域的知識における共通基底ベクトル群の例の表現を測定することである。 そして、蒸留アルゴリズムを空間アライメントとして適用することができる。 この目的のために、2つの特徴空間において、プロトタイプと呼ばれる共通基底ベクトルを見つけるために、新しいプロトタイプ生成モジュール(PGM)を提案する。 次に、2つの特徴空間における表現の相違を測定することにより、プロトタイプに基づいて大域的知識を構築するために頑健な蒸留モジュール(RDM)を適用する。 PASCALおよびCOCOデータセット上でのFaster-RCNNおよびRetinaNetを用いた実験により,本手法は,教師モデルの性能を超越した種々のバックボーンを用いた物体検出器の蒸留において,最高の性能を達成できることを示した。 また,既存の手法とグローバル知識を組み合わせることで,さらなる改善が期待できることを示す。 コードはhttps://github.com/hikvision-research/davar-lab-ml。

Knowledge distillation learns a lightweight student model that mimics a cumbersome teacher. Existing methods regard the knowledge as the feature of each instance or their relations, which is the instance-level knowledge only from the teacher model, i.e., the local knowledge. However, the empirical studies show that the local knowledge is much noisy in object detection tasks, especially on the blurred, occluded, or small instances. Thus, a more intrinsic approach is to measure the representations of instances w.r.t. a group of common basis vectors in the two feature spaces of the teacher and the student detectors, i.e., global knowledge. Then, the distilling algorithm can be applied as space alignment. To this end, a novel prototype generation module (PGM) is proposed to find the common basis vectors, dubbed prototypes, in the two feature spaces. Then, a robust distilling module (RDM) is applied to construct the global knowledge based on the prototypes and filtrate noisy global and local knowledge by measuring the discrepancy of the representations in two feature spaces. Experiments with Faster-RCNN and RetinaNet on PASCAL and COCO datasets show that our method achieves the best performance for distilling object detectors with various backbones, which even surpasses the performance of the teacher model. We also show that the existing methods can be easily combined with global knowledge and obtain further improvement. Code is available: https://github.com/hikvision-research/DAVAR-Lab-ML.
翻訳日:2022-10-18 19:46:29 公開日:2022-10-17
# 局所意味概念と視覚単語の空間的バグを用いた自然シーン画像アノテーション

Natural Scene Image Annotation Using Local Semantic Concepts and Spatial Bag of Visual Words ( http://arxiv.org/abs/2210.09045v1 )

ライセンス: Link先を確認
Yousef Alqasrawi(参考訳) 多くのコンピュータビジョンタスクにおいて、関心点位置で計算された局所不変特徴に基づく画像モデリングに視覚単語袋(BOW)モデルが標準選択となっている。 画像特徴ベクトルから生成された視覚語彙は、画像アノテーションシステムの性能を向上させるために識別可能な視覚単語を生成することが期待されている。 画像の注釈付けにBOWモデルを採用するほとんどの技術は、識別的な視覚語彙を構築するために画像カテゴリから抽出できる好ましい情報を減らした。 そこで本稿では,事前に定義された語彙から,自然シーン画像に局所的な意味ラベルを付加する詳細なフレームワークを提案する。 このフレームワークは、自然な場面では、中間的な意味概念が局所的なキーポイントと関連付けられると仮定する仮説に基づいている。 この仮説に基づいて、画像領域をBOWモデルで効率的に表現し、SVMのような機械学習アプローチを用いて意味アノテーションで画像領域をラベル付けすることができる。 本研究の目的は,画像の全体から生成する代わりに,画像から視覚語彙を生成することの意義を,意味ラベルを付加した注釈付き画像領域の性能に対処することである。 BOWに基づくアプローチとベースライン手法は、SVMとKNNの分類器を用いて、自然シーンの6カテゴリのデータセットで広く評価されている。 以上の結果から,BOWモデルを用いて画像領域の意味情報を表現し,ラベル付き画像領域の自動アノテートを行う可能性が示唆された。

The use of bag of visual words (BOW) model for modelling images based on local invariant features computed at interest point locations has become a standard choice for many computer vision tasks. Visual vocabularies generated from image feature vectors are expected to produce visual words that are discriminative to improve the performance of image annotation systems. Most techniques that adopt the BOW model in annotating images declined favorable information that can be mined from image categories to build discriminative visual vocabularies. To this end, this paper introduces a detailed framework for automatically annotating natural scene images with local semantic labels from a predefined vocabulary. The framework is based on a hypothesis that assumes that, in natural scenes, intermediate semantic concepts are correlated with the local keypoints. Based on this hypothesis, image regions can be efficiently represented by BOW model and using a machine learning approach, such as SVM, to label image regions with semantic annotations. Another objective of this paper is to address the implications of generating visual vocabularies from image halves, instead of producing them from the whole image, on the performance of annotating image regions with semantic labels. All BOW-based approaches as well as baseline methods have been extensively evaluated on 6-categories dataset of natural scenes using the SVM and KNN classifiers. The reported results have shown the plausibility of using the BOW model to represent the semantic information of image regions and thus to automatically annotate image regions with labels.
翻訳日:2022-10-18 19:46:03 公開日:2022-10-17
# あらゆる場所で注意:スキップ注意を伴う単眼深度予測

Attention Attention Everywhere: Monocular Depth Prediction with Skip Attention ( http://arxiv.org/abs/2210.09071v1 )

ライセンス: Link先を確認
Ashutosh Agarwal and Chetan Arora(参考訳) 単眼深度推定(MDE)は、1枚のRGB画像から画素幅の深さを予測することを目的とする。 畳み込みモデルと最近の注目モデルの両方では、グローバルコンテキストとピクセルレベルの解像度の同時要求のため、エンコーダデコーダベースのアーキテクチャが有用であることが判明した。 通常、スキップ接続モジュールはエンコーダとデコーダの機能を融合するために使用される。 多数のコンピュータビジョン問題における注意力の利点に着想を得て,エンコーダとデコーダの特徴の融合を注意力ベースで提案する。 我々は、MDEを画素クエリ改善問題として、粗いレベルのエンコーダ機能を用いてピクセルレベルのクエリを初期化し、提案したSkip Attention Module (SAM)により高解像度に洗練する。 連続深度範囲を離散化するビン中心上の順序回帰として予測問題を定式化し、画素クエリを用いてビンを最も粗いレベルで予測するビン中心予測器(BCP)モジュールを導入する。 画像適応的な深度ビンニングの利点とは別に,提案設計は,地上の真理から直接監督することで,初期画素クエリへの深度埋め込みを改善することを支援する。 2つの標準データセットであるNYUV2とKITTIの大規模な実験により、我々のアーキテクチャは、SUNRGBDデータセットの9.4%の改善とともに、それぞれ最先端の5.3%と3.9%を上回っていることが示された。 コードはhttps://github.com/ashutosh1807/PixelFormer.gitで入手できる。

Monocular Depth Estimation (MDE) aims to predict pixel-wise depth given a single RGB image. For both, the convolutional as well as the recent attention-based models, encoder-decoder-based architectures have been found to be useful due to the simultaneous requirement of global context and pixel-level resolution. Typically, a skip connection module is used to fuse the encoder and decoder features, which comprises of feature map concatenation followed by a convolution operation. Inspired by the demonstrated benefits of attention in a multitude of computer vision problems, we propose an attention-based fusion of encoder and decoder features. We pose MDE as a pixel query refinement problem, where coarsest-level encoder features are used to initialize pixel-level queries, which are then refined to higher resolutions by the proposed Skip Attention Module (SAM). We formulate the prediction problem as ordinal regression over the bin centers that discretize the continuous depth range and introduce a Bin Center Predictor (BCP) module that predicts bins at the coarsest level using pixel queries. Apart from the benefit of image adaptive depth binning, the proposed design helps learn improved depth embedding in initial pixel queries via direct supervision from the ground truth. Extensive experiments on the two canonical datasets, NYUV2 and KITTI, show that our architecture outperforms the state-of-the-art by 5.3% and 3.9%, respectively, along with an improved generalization performance by 9.4% on the SUNRGBD dataset. Code is available at https://github.com/ashutosh1807/PixelFormer.git.
翻訳日:2022-10-18 19:45:40 公開日:2022-10-17
# カットスプライシングデータ拡張:医療画像セグメンテーションのための新しい技術

Cutting-Splicing data augmentation: A novel technology for medical image segmentation ( http://arxiv.org/abs/2210.09099v1 )

ライセンス: Link先を確認
Lianting Hu, Huiying Liang, Jiajie Tang, Xin Li, Li Huang, Long Lu(参考訳) 背景: 医用画像は、自然画像よりも取得や注釈が難しいため、医療用画像分割タスクでしばしば使用されるデータ拡張技術が実現される。 医用セグメンテーションで使用されるほとんどのデータ拡張技術は、もともと自然画像上で開発されたもので、医用画像全体のレイアウトが標準で固定されているという特徴を考慮に入れていない。 方法: 医用画像の特徴に基づいて, 医用画像分割のための新しいデータ拡張技術であるカットスプライシングデータ拡張法(cs-da法)を開発した。 CS-DAは、異なる位置成分を異なる元の医療画像から新しい画像にスプライシングすることでデータセットを強化する。 医用画像の特徴は、元の画像と同一のレイアウトと類似した外観の新たな画像となる。 従来のデータ拡張技術と比較すると、CS-DAはよりシンプルで堅牢である。 また、cs-daは、新たに作成された画像にノイズやフェイク情報を一切導入しない。 結果: cs-daの特性を調べるために、8つの多様なデータセットで多くの実験が行われている。 サンプルサイズが小さいトレーニングデータセットでは、CS-DAはセグメンテーションモデルの性能を効果的に向上させることができる。 従来のデータ拡張技術と共にcs-daを使用する場合、セグメンテーションモデルの性能がさらに向上し、cs-daと古典データ拡張とを別々に改善することができる。 また,部品数,切断ラインの位置,スプライシング法がCS-DA性能に及ぼす影響についても検討した。 結論: 実験におけるCS-DAの優れた性能は,CS-DAの有効性を確認し,小サンプル分割タスクに新たなデータ拡張アイデアを提供する。

Background: Medical images are more difficult to acquire and annotate than natural images, which results in data augmentation technologies often being used in medical image segmentation tasks. Most data augmentation technologies used in medical segmentation were originally developed on natural images and do not take into account the characteristic that the overall layout of medical images is standard and fixed. Methods: Based on the characteristics of medical images, we developed the cutting-splicing data augmentation (CS-DA) method, a novel data augmentation technology for medical image segmentation. CS-DA augments the dataset by splicing different position components cut from different original medical images into a new image. The characteristics of the medical image result in the new image having the same layout as and similar appearance to the original image. Compared with classical data augmentation technologies, CS-DA is simpler and more robust. Moreover, CS-DA does not introduce any noise or fake information into the newly created image. Results: To explore the properties of CS-DA, many experiments are conducted on eight diverse datasets. On the training dataset with the small sample size, CS-DA can effectively increase the performance of the segmentation model. When CS-DA is used together with classical data augmentation technologies, the performance of the segmentation model can be further improved and is much better than that of CS-DA and classical data augmentation separately. We also explored the influence of the number of components, the position of the cutting line, and the splicing method on the CS-DA performance. Conclusions: The excellent performance of CS-DA in the experiment has confirmed the effectiveness of CS-DA, and provides a new data augmentation idea for the small sample segmentation task.
翻訳日:2022-10-18 19:44:55 公開日:2022-10-17
# 入射ニューラル表現のための信号処理

Signal Processing for Implicit Neural Representations ( http://arxiv.org/abs/2210.08772v1 )

ライセンス: Link先を確認
Dejia Xu, Peihao Wang, Yifan Jiang, Zhiwen Fan, Zhangyang Wang(参考訳) Inlicit Neural Representation (INR)は、多層パーセプトロンを介して連続したマルチメディアデータを符号化する。 多くのアプリケーションが成功したにもかかわらず、信号がニューラルネットワークの潜在パラメータによって表現されるため、INRの編集と処理は困難である。 既存の作業は、離散化されたインスタンスの処理を通じてそのような連続表現を操作し、INRのコンパクト性と連続性を破壊する。 本研究では、明示的な復号化なしにINRを直接修正する方法について、パイロット研究を示す。 我々は、INSP-Netと呼ばれる暗黙的なニューラルネットワーク処理ネットワークをINR上の微分演算子を介して提案することで、この問題に答える。 我々の重要な洞察は、ニューラルネットワークの空間的勾配は解析的に計算でき、変換に不変であるが、数学的には任意の連続畳み込みフィルタは高階微分作用素の線形結合によって一様に近似できることを示している。 この2つのノブを用いて、INSP-Netは信号処理演算子をINRの高階微分に対応する計算グラフの重み付け合成としてインスタンス化し、重み付けパラメータをデータ駆動学習できる。 提案したINSP-Netに基づいて,INSP-ConvNetと呼ばれる暗黙的に動作する最初の畳み込みニューラルネットワーク(CNN)を構築する。 insp-net と insp-convnet の表現性を検証し,低レベル画像および幾何処理カーネル(ぼやけ,ぼやけ,ぼやけ,デノイジング,インパインティング,スムース化など)を適合させるとともに,画像分類などの暗黙の分野における高レベルタスクについても検証した。

Implicit Neural Representations (INRs) encoding continuous multi-media data via multi-layer perceptrons has shown undebatable promise in various computer vision tasks. Despite many successful applications, editing and processing an INR remains intractable as signals are represented by latent parameters of a neural network. Existing works manipulate such continuous representations via processing on their discretized instance, which breaks down the compactness and continuous nature of INR. In this work, we present a pilot study on the question: how to directly modify an INR without explicit decoding? We answer this question by proposing an implicit neural signal processing network, dubbed INSP-Net, via differential operators on INR. Our key insight is that spatial gradients of neural networks can be computed analytically and are invariant to translation, while mathematically we show that any continuous convolution filter can be uniformly approximated by a linear combination of high-order differential operators. With these two knobs, INSP-Net instantiates the signal processing operator as a weighted composition of computational graphs corresponding to the high-order derivatives of INRs, where the weighting parameters can be data-driven learned. Based on our proposed INSP-Net, we further build the first Convolutional Neural Network (CNN) that implicitly runs on INRs, named INSP-ConvNet. Our experiments validate the expressiveness of INSP-Net and INSP-ConvNet in fitting low-level image and geometry processing kernels (e.g. blurring, deblurring, denoising, inpainting, and smoothening) as well as for high-level tasks on implicit fields such as image classification.
翻訳日:2022-10-18 19:39:17 公開日:2022-10-17
# プラグイン・アンド・プレイ型VQA:ゼロショット型VQA

Plug-and-Play VQA: Zero-shot VQA by Conjoining Large Pretrained Models with Zero Training ( http://arxiv.org/abs/2210.08773v1 )

ライセンス: Link先を確認
Anthony Meng Huat Tiong, Junnan Li, Boyang Li, Silvio Savarese, Steven C.H. Hoi(参考訳) 視覚的質問応答(VQA)は、視覚と言語推論の目印であり、ゼロショット設定下での課題である。 ゼロショットVQAのためのモジュラーフレームワークであるPlug-and-Play VQA(PNP-VQA)を提案する。 PNP-VQAは、視覚モダリティに対する事前訓練言語モデル(PLM)の相当な適応を必要とする既存のほとんどの作品とは対照的に、PLMのさらなる訓練は必要としない。 代わりに、事前学習されたモデルを結合する中間表現として、自然言語とネットワーク解釈を用いることを提案する。 まず質問誘導画像キャプションを生成し,そのキャプションを質問応答のコンテキストとしてPLMに渡す。 PNP-VQAは、エンドツーエンドのトレーニングベースラインを越えて、ゼロショットVQAv2とGQAの最先端結果を達成する。 11Bパラメータでは、VQAv2で80BパラメータのFlamingoモデルよりも8.5%優れていた。 738M PLMパラメータを持つPNP-VQAは、740M PLMパラメータを持つFewVLMよりもGQAが9.1%向上した。 コードはhttps://github.com/salesforce/lavis/tree/main/projects/pnp-vqaでリリース

Visual question answering (VQA) is a hallmark of vision and language reasoning and a challenging task under the zero-shot setting. We propose Plug-and-Play VQA (PNP-VQA), a modular framework for zero-shot VQA. In contrast to most existing works, which require substantial adaptation of pretrained language models (PLMs) for the vision modality, PNP-VQA requires no additional training of the PLMs. Instead, we propose to use natural language and network interpretation as an intermediate representation that glues pretrained models together. We first generate question-guided informative image captions, and pass the captions to a PLM as context for question answering. Surpassing end-to-end trained baselines, PNP-VQA achieves state-of-the-art results on zero-shot VQAv2 and GQA. With 11B parameters, it outperforms the 80B-parameter Flamingo model by 8.5% on VQAv2. With 738M PLM parameters, PNP-VQA achieves an improvement of 9.1% on GQA over FewVLM with 740M PLM parameters. Code is released at https://github.com/salesforce/LAVIS/tree/main/projects/pnp-vqa
翻訳日:2022-10-18 19:38:45 公開日:2022-10-17
# きめ細かい視覚分類のための層間注意ネットワーク

Cross-layer Attention Network for Fine-grained Visual Categorization ( http://arxiv.org/abs/2210.08784v1 )

ライセンス: Link先を確認
Ranran Huang, Yu Wang, Huazhong Yang(参考訳) 微妙な局所化詳細のための識別表現の学習は、きめ細かい視覚分類(FGVC)において重要な役割を果たす。 従来の注目に基づく研究と比較して、我々の研究は関心のある部分領域を明示的に定義・ローカライズするのではなく、ネットワークの異なる段階の補完特性を活用し、提案したクロスレイヤー注意ネットワーク(CLAN)による中層特徴マップと上位特徴マップの相互改善機構を構築する。 具体的には、CLANは、 1)中間特徴写像のグローバルコンテキスト情報を上位特徴写像の助けを借りて拡張し、中間特徴写像の表現力を向上させるクロスレイヤコンテキスト注意(CLCA)モジュール。 2)クロスレイヤー空間注意モジュール(CLSA)は,中層特徴マップにおける局所的注意を生かして,最上位特徴マップにおける局所的特徴領域の特徴抽出を促進する。 CUB-200-2011,Stanford Cars,FGVC-Aircraftの3つの粒度認識データセットに対して,本手法の有効性を実証した。 我々のアプローチを理解するためにアブレーション研究と可視化が提供される。 CUB-200-2011,Stanford Cars,FGVC-Aircraftの3つの粒度認識データセットに対して,本手法の有効性を実証した。

Learning discriminative representations for subtle localized details plays a significant role in Fine-grained Visual Categorization (FGVC). Compared to previous attention-based works, our work does not explicitly define or localize the part regions of interest; instead, we leverage the complementary properties of different stages of the network, and build a mutual refinement mechanism between the mid-level feature maps and the top-level feature map by our proposed Cross-layer Attention Network (CLAN). Specifically, CLAN is composed of 1) the Cross-layer Context Attention (CLCA) module, which enhances the global context information in the intermediate feature maps with the help of the top-level feature map, thereby improving the expressive power of the middle layers, and 2) the Cross-layer Spatial Attention (CLSA) module, which takes advantage of the local attention in the mid-level feature maps to boost the feature extraction of local regions at the top-level feature maps. Experimental results show our approach achieves state-of-the-art on three publicly available fine-grained recognition datasets (CUB-200-2011, Stanford Cars and FGVC-Aircraft). Ablation studies and visualizations are provided to understand our approach. Experimental results show our approach achieves state-of-the-art on three publicly available fine-grained recognition datasets (CUB-200-2011, Stanford Cars and FGVC-Aircraft).
翻訳日:2022-10-18 19:38:27 公開日:2022-10-17
# EISeg:PaddlePaddleをベースとした効果的なインタラクティブセグメンテーションアノテーションツール

EISeg: An Efficient Interactive Segmentation Annotation Tool based on PaddlePaddle ( http://arxiv.org/abs/2210.08788v1 )

ライセンス: Link先を確認
Yuying Hao and Yi Liu and Yizhou Chen and Lin Han and Juncai Peng and Shiyu Tang and Guowei Chen and Zewu Wu and Zeyu Chen and Baohua Lai(参考訳) 近年、ディープラーニングの急速な発展により、ニューラルネットワークに基づく画像とビデオのセグメンテーション手法が大きな進歩を遂げている。 しかし,このようなモデルの可能性を最大限に発揮するためには,高品質な注釈画像が必要となる。 現在、多くのオープンソースイメージセグメンテーションソフトウェアは、退屈で時間がかかる手動アノテーションに大きく依存している。 本稿では,画像分割アノテーションの効率を劇的に向上し,数クリックで高精度なセグメント化マスクを生成できる,効率的な対話型セグメント化アノテーションツールeisegを紹介する。 また,遠隔センシング,医用画像,産業品質検査,人間のセグメンテーション,映像セグメンテーションのための時間的認識モデルなど,様々なドメイン固有モデルを提供する。 私たちのアルゴリズムとユーザインターフェースのソースコードは、PaddleSegで利用可能です。

In recent years, the rapid development of deep learning has brought great advancements to image and video segmentation methods based on neural networks. However, to unleash the full potential of such models, large numbers of high-quality annotated images are necessary for model training. Currently, many widely used open-source image segmentation software relies heavily on manual annotation which is tedious and time-consuming. In this work, we introduce EISeg, an efficient interactive segmentation annotation tool that can drastically improve image segmentation annotation efficiency, generating highly accurate segmentation masks with only a few clicks. We also provide various domain-specific models for remote sensing, medical imaging, industrial quality inspections, human segmentation, and temporal aware models for video segmentation. The source code for our algorithm and user interface are available at PaddleSeg: https://github.com/PaddlePaddle/PaddleSeg.
翻訳日:2022-10-18 19:37:54 公開日:2022-10-17
# ディエンスコントラスト表現のアライメント・均一性と性能の相関

Correlation between Alignment-Uniformity and Performance of Dense Contrastive Representations ( http://arxiv.org/abs/2210.08819v1 )

ライセンス: Link先を確認
Jong Hak Moon, Wonjae Kim, and Edward Choi(参考訳) 近年,濃密なコントラスト学習は,インスタンスレベルのコントラスト学習に比べ,密密な予測タスクにおいて優れた性能を示している。 その優越性にもかかわらず、高密度のコントラスト表現の性質はまだ慎重に研究されていない。 そこで,新しい複雑な手法を提案するのではなく,標準cnnと素直な特徴マッチングスキームを用いて,高密度コントラスト学習の理論概念を分析する。 超球面上のアライメントのレンズと均一性によるインスタンスレベルのコントラスト表現の特性の解析に着想を得て、高密度のコントラスト表現に対して同じレンズを用いて、その未探索特性を解析する。 正の高密度特徴対を構築する際の基本原理を発見し,その妥当性を実証的に証明した。 また,アライメントと一様性と下流のパフォーマンスとの相関を要約した新しいスカラーメトリックも導入した。 本手法を用いて, 単目的・多目的データセット間の相関関係や線形評価, 密度予測タスクなど, 厳密に学習されたコントラスト表現の様々な側面について検討する。 ソースコードは、https://github.com/SuperSupermoon/DenseCL-analysisで公開されている。

Recently, dense contrastive learning has shown superior performance on dense prediction tasks compared to instance-level contrastive learning. Despite its supremacy, the properties of dense contrastive representations have not yet been carefully studied. Therefore, we analyze the theoretical ideas of dense contrastive learning using a standard CNN and straightforward feature matching scheme rather than propose a new complex method. Inspired by the analysis of the properties of instance-level contrastive representations through the lens of alignment and uniformity on the hypersphere, we employ and extend the same lens for the dense contrastive representations to analyze their underexplored properties. We discover the core principle in constructing a positive pair of dense features and empirically proved its validity. Also, we introduces a new scalar metric that summarizes the correlation between alignment-and-uniformity and downstream performance. Using this metric, we study various facets of densely learned contrastive representations such as how the correlation changes over single- and multi-object datasets or linear evaluation and dense prediction tasks. The source code is publicly available at: https://github.com/SuperSupermoon/DenseCL-analysis
翻訳日:2022-10-18 19:37:42 公開日:2022-10-17
# 機能のスケーリングとシフト: 効率的なモデルチューニングのための新しいベースライン

Scaling & Shifting Your Features: A New Baseline for Efficient Model Tuning ( http://arxiv.org/abs/2210.08823v1 )

ライセンス: Link先を確認
Dongze Lian, Daquan Zhou, Jiashi Feng, Xinchao Wang(参考訳) 既存の微調整方法は、効率的ではない事前訓練されたモデルの全てのパラメータ(フル微調整)をチューニングするか、完全な微調整と比較してかなりの精度低下を被る最後の線形層(リニアプロビング)のみをチューニングするかのどちらかである。 本稿では,事前学習モデルによって抽出された深部特徴をスケール・シフトするだけで完全な微調整性能が得られることを示す,ssfと呼ばれる新しいパラメータ効率の良い微調整手法を提案する。 このようにして、SSFは他のパラメータ効率の良い微調整アプローチよりもはるかに優れており、微調整可能なパラメータは少ない。 さらに、トレーニングおよび推論段階で余分なパラメータと計算コストを導入する既存のパラメータ効率の高い微調整方法(AdapterやVPTなど)とは異なり、SSFはトレーニング段階でのみ学習可能なパラメータを追加し、これらの追加パラメータは推論フェーズにおける再パラメータ化によって元のトレーニング済みモデルの重みにマージすることができる。 提案するssfでは,fgvcおよびvtab-1kの性能改善率を,フルチューニングに比べて2.46% (90.72%対88.54%) と11.48% (73.10%対65.57%) とした。 また、さまざまなモデルファミリ(CNN、Transformer、MLP)とデータセットで大量の実験を行う。 その結果,26種類の画像分類データセットと3種類のロバスト性と分散性データセットがssfの有効性を示した。 コードはhttps://github.com/dongzelian/SSFで入手できる。

Existing fine-tuning methods either tune all parameters of the pre-trained model (full fine-tuning), which is not efficient, or only tune the last linear layer (linear probing), which suffers a significant accuracy drop compared to the full fine-tuning. In this paper, we propose a new parameter-efficient fine-tuning method termed as SSF, representing that researchers only need to Scale and Shift the deep Features extracted by a pre-trained model to catch up with the performance of full fine-tuning. In this way, SSF also surprisingly outperforms other parameter-efficient fine-tuning approaches even with a smaller number of tunable parameters. Furthermore, different from some existing parameter-efficient fine-tuning methods (e.g., Adapter or VPT) that introduce the extra parameters and computational cost in the training and inference stages, SSF only adds learnable parameters during the training stage, and these additional parameters can be merged into the original pre-trained model weights via re-parameterization in the inference phase. With the proposed SSF, our model obtains 2.46% (90.72% vs. 88.54%) and 11.48% (73.10% vs. 65.57%) performance improvement on FGVC and VTAB-1k in terms of Top-1 accuracy compared to the full fine-tuning but only fine-tuning about 0.3M parameters. We also conduct amounts of experiments in various model families (CNNs, Transformers, and MLPs) and datasets. Results on 26 image classification datasets in total and 3 robustness & out-of-distribution datasets show the effectiveness of SSF. Code is available at https://github.com/dongzelian/SSF.
翻訳日:2022-10-18 19:37:23 公開日:2022-10-17
# 画像とクリーンでノイズの多いラベルの関係のブートストラップ

Bootstrapping the Relationship Between Images and Their Clean and Noisy Labels ( http://arxiv.org/abs/2210.08826v1 )

ライセンス: Link先を確認
Brandon Smart and Gustavo Carneiro(参考訳) 最新のノイズラベル学習手法の多くは、トレーニング中にサンプルのクリーンラベルを推定し、元のノイズラベルを破棄する学習メカニズムに依存している。 しかし、このアプローチは、インスタンス依存のラベルノイズ問題を扱う際に有用であることが示されている画像、ノイズラベル、クリーンラベルの関係の学習を妨げている。 さらに、この関係を学ぶための方法は、トレーニングのために蒸留や多面モデルと同様に、きれいにアノテートされたデータのサブセットを必要とする。 本稿では,クリーンラベル付きデータのサブセットを必要とせず,クリーンラベルとノイズラベルの関係を学習するための簡易モデルに基づく新しい学習アルゴリズムを提案する。 我々のアルゴリズムは以下の3段階のプロセスに従う。 1) 自己監督型事前訓練に続いて,訓練セットのサブセットのクリーンラベルを確実に予測するために,分類器の早期訓練を行う。 2) ステージ(1) からのクリーンセットを用いて, 画像, 雑音ラベル, クリーンラベルの関係をブートストラップし, 半教師学習による残りのトレーニングセットの効果的なリラベリングを行う。 この関係を学習することにより、非対称およびインスタンス依存のラベルノイズ問題において最先端の性能を実現する。

Many state-of-the-art noisy-label learning methods rely on learning mechanisms that estimate the samples' clean labels during training and discard their original noisy labels. However, this approach prevents the learning of the relationship between images, noisy labels and clean labels, which has been shown to be useful when dealing with instance-dependent label noise problems. Furthermore, methods that do aim to learn this relationship require cleanly annotated subsets of data, as well as distillation or multi-faceted models for training. In this paper, we propose a new training algorithm that relies on a simple model to learn the relationship between clean and noisy labels without the need for a cleanly labelled subset of data. Our algorithm follows a 3-stage process, namely: 1) self-supervised pre-training followed by an early-stopping training of the classifier to confidently predict clean labels for a subset of the training set; 2) use the clean set from stage (1) to bootstrap the relationship between images, noisy labels and clean labels, which we exploit for effective relabelling of the remaining training set using semi-supervised learning; and 3) supervised training of the classifier with all relabelled samples from stage (2). By learning this relationship, we achieve state-of-the-art performance in asymmetric and instance-dependent label noise problems.
翻訳日:2022-10-18 19:36:50 公開日:2022-10-17
# MSDS:手書き検証のための大規模中国語署名とToken Digit文字列データセット

MSDS: A Large-Scale Chinese Signature and Token Digit String Dataset for Handwriting Verification ( http://arxiv.org/abs/2210.08836v1 )

ライセンス: Link先を確認
Peirong Zhang, Jiajia Jiang, Yuliang Liu, Lianwen Jin(参考訳) オンライン手書き認証は最近大きな進歩を遂げているが、データセットの小規模化やバイオメトリックメディアの制限などにより、検証性能は依然として実際の使用に及ばない。 そこで本稿では,402名によるmsds-chsとmsds-tds(token digit string)の2つのサブセットからなる,マルチモーダルシグネチャとディジット文字列(msds)と呼ばれる新しい手書き検証ベンチマークデータセットを提案する。 MSDS-ChSは手書きの中国署名で構成されており、私たちの知る限り、既存のオンラインデータセットの少なくとも8倍の、手書き検証用の中国署名データセットとしては最大である。 一方、MSDS-TDSは手書きのToken Digit Strings、すなわち、まだ探索されていないユーザの実際の電話番号で構成されている。 また,MSDS-ChSとMSDS-TDSについて,それぞれ異なる基線を持つ実験を行った。 驚いたことに、MSDS-TDSの最先端手法の検証性能は、手書きのToken Digit Stringが手書きの中国語署名よりも効果的なバイオメトリックであることを示すMSDS-ChSよりも一般的に優れている。 これは、新しい生体特性を探求するきっかけとなる有望な発見です。 MSDSデータセットはhttps://github.com/HCIILAB/MSDSで公開されている。

Although online handwriting verification has made great progress recently, the verification performances are still far behind the real usage owing to the small scale of the datasets as well as the limited biometric mediums. Therefore, this paper proposes a new handwriting verification benchmark dataset named Multimodal Signature and Digit String (MSDS), which consists of two subsets: MSDS-ChS (Chinese Signatures) and MSDS-TDS (Token Digit Strings), contributed by 402 users, with 20 genuine samples and 20 skilled forgeries per user per subset. MSDS-ChS consists of handwritten Chinese signatures, which, to the best of our knowledge, is the largest publicly available Chinese signature dataset for handwriting verification, at least eight times larger than existing online datasets. Meanwhile, MSDS-TDS consists of handwritten Token Digit Strings, i.e, the actual phone numbers of users, which have not been explored yet. Extensive experiments with different baselines are respectively conducted for MSDS-ChS and MSDS-TDS. Surprisingly, verification performances of state-of-the-art methods on MSDS-TDS are generally better than those on MSDS-ChS, which indicates that the handwritten Token Digit String could be a more effective biometric than handwritten Chinese signature. This is a promising discovery that could inspire us to explore new biometric traits. The MSDS dataset is available at https://github.com/HCIILAB/MSDS.
翻訳日:2022-10-18 19:36:27 公開日:2022-10-17
# TIVE: ビデオインスタンスのセグメンテーションエラーを識別するためのツールボックス

TIVE: A Toolbox for Identifying Video Instance Segmentation Errors ( http://arxiv.org/abs/2210.08856v1 )

ライセンス: Link先を確認
Wenhe Jia, Lu Yang, Zilong Jia, Wenyi Zhao, Yilin Zhou, Qing Song(参考訳) 最初の提案以来、ビデオインスタンスセグメンテーション(vis)タスクは、パフォーマンスを高めるためにアーキテクチャモデリングに多くの研究者が注力してきた。 オンラインやオフラインのパラダイムにおいて大きな進歩はあったが、モデルエラーを特定し、メソッド間の相違を区別する手段は依然として不十分であり、また、様々な時間長のオブジェクトインスタンスを認識する際のモデルの性能を正しく反映するアプローチは、ほとんど利用できない。 さらに重要なことに、タスクによって要求される基本的なモデル能力として、空間分割と時間的関連は、評価と相互作用のメカニズムの両方において未熟である。 本稿では,ビデオインスタンスのセグメンテーションエラーを識別するツールボックスであるTIVEを紹介する。 出力予測ファイルを直接操作することで、tiveは分離されたエラータイプを定義し、モデル文字を識別するために各タイプのmapに対するダメージを重み付けする。 空間的時間的次元における局所的品質を分解することにより、空間的セグメンテーションと時間的関連に関するモデルの潜在的な欠点を明らかにすることができる。 TIVEはまた、実アプリケーションに対する例時間長のmAPを報告することもできる。 ツールボックスによる広範な実験を行い,空間的セグメンテーションと時間的関連が相互にどのように影響するかを明らかにした。 我々は、TIVEの分析が研究者により多くの洞察を与え、ビデオインスタンスのセグメンテーションのためのより意味のある探索を促進するようコミュニティに促すことを期待する。 提案されたツールボックスはhttps://github.com/wenhe-jia/tiveで利用可能である。

Since first proposed, Video Instance Segmentation(VIS) task has attracted vast researchers' focus on architecture modeling to boost performance. Though great advances achieved in online and offline paradigms, there are still insufficient means to identify model errors and distinguish discrepancies between methods, as well approaches that correctly reflect models' performance in recognizing object instances of various temporal lengths remain barely available. More importantly, as the fundamental model abilities demanded by the task, spatial segmentation and temporal association are still understudied in both evaluation and interaction mechanisms. In this paper, we introduce TIVE, a Toolbox for Identifying Video instance segmentation Errors. By directly operating output prediction files, TIVE defines isolated error types and weights each type's damage to mAP, for the purpose of distinguishing model characters. By decomposing localization quality in spatial-temporal dimensions, model's potential drawbacks on spatial segmentation and temporal association can be revealed. TIVE can also report mAP over instance temporal length for real applications. We conduct extensive experiments by the toolbox to further illustrate how spatial segmentation and temporal association affect each other. We expect the analysis of TIVE can give the researchers more insights, guiding the community to promote more meaningful explorations for video instance segmentation. The proposed toolbox is available at https://github.com/wenhe-jia/TIVE.
翻訳日:2022-10-18 19:36:01 公開日:2022-10-17
# 西洋美術における人体表現の自動分析

Automatic Analysis of Human Body Representations in Western Art ( http://arxiv.org/abs/2210.08860v1 )

ライセンス: Link先を確認
Shu Zhao (1), Alm{\i}la Akda\u{g} Salah (1), Albert Ali Salah (1 and 2) ((1) Utrecht University, (2) Bo\u{g}azi\c{c}i University)(参考訳) 古典絵画や近代絵画で人体が描かれる様子は、美術史的分析に関係している。 それぞれのアーティストは特定のテーマと関心を持ち、異なるポーズが他のアーティストよりも多用される。 本稿では,絵画における人物のポーズや表現を解析するためのコンピュータビジョンパイプラインを提案する。 具体的には,2つのポーズ推定手法(openpose と densepose をそれぞれ組み合わせ,咬合問題と遠近法問題に対処する手法を導入する。 正常化のために、検出されたポーズと輪郭をレオナルド・ダ・ヴィンチのヴィトルヴィアン・マン(Vitruvian Man)にマッピングする。 絵画の集合における関節の明瞭化を図示する可視化手法を提案する。 ポーズの階層的なクラスタリングと組み合わせることで,アーティストが使用する一般的で珍しいポーズを明らかにする。 このアプローチは、絵画における人体の純粋な骨格に基づく分析よりも改善される。

The way the human body is depicted in classical and modern paintings is relevant for art historical analyses. Each artist has certain themes and concerns, resulting in different poses being used more heavily than others. In this paper, we propose a computer vision pipeline to analyse human pose and representations in paintings, which can be used for specific artists or periods. Specifically, we combine two pose estimation approaches (OpenPose and DensePose, respectively) and introduce methods to deal with occlusion and perspective issues. For normalisation, we map the detected poses and contours to Leonardo da Vinci's Vitruvian Man, the classical depiction of body proportions. We propose a visualisation approach for illustrating the articulation of joints in a set of paintings. Combined with a hierarchical clustering of poses, our approach reveals common and uncommon poses used by artists. Our approach improves over purely skeleton based analyses of human body in paintings.
翻訳日:2022-10-18 19:35:34 公開日:2022-10-17
# カメラインクリメンタルな人物認識のための共同塑性学習

Joint Plasticity Learning for Camera Incremental Person Re-Identification ( http://arxiv.org/abs/2210.08710v1 )

ライセンス: Link先を確認
Zexian Yang, Dayan wu, Bo Li, Weiping Wang(参考訳) 近年,個人再識別のための漸進的学習が注目されている。 しかし、既存の研究は、カメラが固定され、新しいデータが以前のクラスからクラス非結合であると強く仮定している。 本稿では,CIP-ReID(Camera Incremental person ReID)という,より実践的なタスクに焦点をあてる。 CIP-ReIDは、新たにインストールされたカメラのデータのみから学習したものを忘れずに、情報表現を継続的に学習するReIDモデルを必要とする。 新しいデータは、プライバシー問題のために古いデータにアクセスせずに、新しいカメラでローカルに監視されるだけであり、以前のカメラで見られた人物も含む可能性があるため、これは難しい。 この問題に対処するため,JPL-ReIDという非例ベースのフレームワークを提案する。 JPL-ReIDは、先代のカメラで提示された人物を見つけるために、最初は単発の検出器を採用している。 学習表現を維持するため、jpl-reidは以前のトレーニングデータがない類似性蒸留戦略を利用する。 同時に、JPL-ReIDは、新しい知識を学習し、共同塑性学習目標を用いて一般化能力を向上させることができる。 2つのデータセットを総合的に実験した結果,提案手法は比較手法を著しく上回っており,優れた結果が得られることがわかった。

Recently, incremental learning for person re-identification receives increasing attention, which is considered a more practical setting in real-world applications. However, the existing works make the strong assumption that the cameras are fixed and the new-emerging data is class-disjoint from previous classes. In this paper, we focus on a new and more practical task, namely Camera Incremental person ReID (CIP-ReID). CIP-ReID requires ReID models to continuously learn informative representations without forgetting the previously learned ones only through the data from newly installed cameras. This is challenging as the new data only have local supervision in new cameras with no access to the old data due to privacy issues, and they may also contain persons seen by previous cameras. To address this problem, we propose a non-exemplar-based framework, named JPL-ReID. JPL-ReID first adopts a one-vs-all detector to discover persons who have been presented in previous cameras. To maintain learned representations, JPL-ReID utilizes a similarity distillation strategy with no previous training data available. Simultaneously, JPL-ReID is capable of learning new knowledge to improve the generalization ability using a Joint Plasticity Learning objective. The comprehensive experimental results on two datasets demonstrate that our proposed method significantly outperforms the comparative methods and can achieve state-of-the-art results with remarkable advantages.
翻訳日:2022-10-18 19:29:27 公開日:2022-10-17
# ビデオコーパスモーメント検索のための選択的クエリ誘導デバイアスネットワーク

Selective Query-guided Debiasing Network for Video Corpus Moment Retrieval ( http://arxiv.org/abs/2210.08714v1 )

ライセンス: Link先を確認
Sunjae Yoon, Ji Woo Hong, Eunseop Yoon, Dahyun Kim, Junyeong Kim, Hee Suk Yoon, and Chang D. Yoo(参考訳) ビデオモーメント検索(VMR)は、あるテキストクエリに関連する未編集ビデオのターゲットモーメントをローカライズすることを目的としている。 既存の検索システムは、検索バイアスをショートカットとして依存する傾向があるため、クエリとビデオ間のマルチモーダルなインタラクションを十分に学習できていない。 この検索バイアスは、クエリーとモーメント間の頻繁な共起パターンを学習することに由来するもので、クエリーで参照されるオブジェクト(例えば鉛筆)を、ビデオにしばしば現れるモーメント(例えば鉛筆で書くシーン)と急激な相関関係を持ち、バイアスのあるモーメント予測に収束する。 近年のデバイアス手法では,この検索バイアスの除去に焦点が当てられているが,バイアスド予測が有効なクエリが多いため,バイアスド予測が保存されることがある。 この検索バイアスを共用するために,(1)クエリのオブジェクトに内在するバイアスモーメントを意図的に解明するバイアスモーメント検索と,(2)クエリの意味によって選択的にデバイアスを行う選択的クエリガイドデバイアス検索という2つの特徴を組み込んだ選択的クエリガイドデバイアスネットワーク(squidnet)を提案する。 3つのモーメント検索ベンチマーク(TVR, ActivityNet, DiDeMo)の実験結果から, SQuiDNetの有効性が示され, 質的解析により解釈性が向上した。

Video moment retrieval (VMR) aims to localize target moments in untrimmed videos pertinent to a given textual query. Existing retrieval systems tend to rely on retrieval bias as a shortcut and thus, fail to sufficiently learn multi-modal interactions between query and video. This retrieval bias stems from learning frequent co-occurrence patterns between query and moments, which spuriously correlate objects (e.g., a pencil) referred in the query with moments (e.g., scene of writing with a pencil) where the objects frequently appear in the video, such that they converge into biased moment predictions. Although recent debiasing methods have focused on removing this retrieval bias, we argue that these biased predictions sometimes should be preserved because there are many queries where biased predictions are rather helpful. To conjugate this retrieval bias, we propose a Selective Query-guided Debiasing network (SQuiDNet), which incorporates the following two main properties: (1) Biased Moment Retrieval that intentionally uncovers the biased moments inherent in objects of the query and (2) Selective Query-guided Debiasing that performs selective debiasing guided by the meaning of the query. Our experimental results on three moment retrieval benchmarks (i.e., TVR, ActivityNet, DiDeMo) show the effectiveness of SQuiDNet and qualitative analysis shows improved interpretability.
翻訳日:2022-10-18 19:29:03 公開日:2022-10-17
# reaffpn: 回転同変注意特徴融合ピラミッドネットワークによる空中物体検出

ReAFFPN: Rotation-equivariant Attention Feature Fusion Pyramid Networks for Aerial Object Detection ( http://arxiv.org/abs/2210.08715v1 )

ライセンス: Link先を確認
Chongyu Sun, Yang Xu, Zebin Wu, Zhihui Wei(参考訳) 本稿では,reaffpnという空中物体検出のための回転同変注意型融合ピラミッドネットワークを提案する。 ReAFFPNは、セマンティック性とスケールの不連続性に苦しむ隣接層間の回転同変特性の融合の効果を改善することを目的としている。 回転同変畳み込みの特異性のため、一般的な方法は、ネットワークの回転同値性を確保しながら、元の効果を達成できない。 この問題を解決するために,チャネルアテンションの生成と回転同値の維持の両方が可能な,回転同変チャネルアテンションを新たに設計する。 次に、新しいチャネルアテンション関数をIterative Attentional Feature Fusion (iAFF)モジュールに組み込んで、回転同変アテンショナル・フィーチャー・フュージョンを実現する。 実験の結果,reaffpnは回転同変特性融合能力が向上し,回転同変畳み込みネットワークの精度が大幅に向上した。

This paper proposes a Rotation-equivariant Attention Feature Fusion Pyramid Networks for Aerial Object Detection named ReAFFPN. ReAFFPN aims at improving the effect of rotation-equivariant features fusion between adjacent layers which suffers from the semantic and scale discontinuity. Due to the particularity of rotational equivariant convolution, general methods are unable to achieve their original effect while ensuring rotation equivariance of the network. To solve this problem, we design a new Rotation-equivariant Channel Attention which has the ability to both generate channel attention and keep rotation equivariance. Then we embed a new channel attention function into Iterative Attentional Feature Fusion (iAFF) module to realize Rotation-equivariant Attention Feature Fusion. Experimental results demonstrate that ReAFFPN achieves a better rotation-equivariant feature fusion ability and significantly improve the accuracy of the Rotation-equivariant Convolutional Networks.
翻訳日:2022-10-18 19:28:35 公開日:2022-10-17
# 歴史から見る人間の軌道予測

Forecasting Human Trajectory from Scene History ( http://arxiv.org/abs/2210.08732v1 )

ライセンス: Link先を確認
Mancheng Meng, Ziyan Wu, Terrence Chen, Xiran Cai, Xiang Sean Zhou, Fan Yang, Dinggang Shen(参考訳) 人の将来の軌跡を予測することは、人間の動きのランダム性と主観性のため、依然として困難な問題である。 しかしながら、制約付きシナリオにおける人間の移動パターンは、シナリオ制限と人/人/人/対象の対話性のため、通常一定の数の正規性に合致する。 したがって、このシナリオにおける個々の人物は、その規則の1つに従うべきである。 言い換えれば、その人のその後の軌道は、おそらく他の人によって移動された。 この仮説に基づき,暗黙の場面の正則性から学習し,将来の軌跡を予測することを提案する。 本来は、人々の過去のダイナミクスと、シーンの環境、シーンの歴史から派生した、規則性(Regularities)と呼んでいる。 シーン履歴情報を歴史的グループ軌跡と個々人のインタラクションの2つのタイプに分類する。 これら2種類の情報を軌道予測に活用するために,シーン履歴を簡易かつ効果的な手法で活用する,新たな枠組みであるシーン履歴抽出ネットワーク(shenet)を提案する。 特に, 将来の経路候補として代表群軌道を抽出する群軌道バンクモジュールと, 個々の過去の軌道とその周囲との相互作用をモデル化して軌道修正を行うクロスモーダル相互作用モジュールである。 また,人間の運動のランダム性や主観性から生じる地道軌道の不確実性を軽減するため,トレーニングプロセスや評価指標に滑らかさを含めることを提案する。 提案手法の有効性を検証するために,提案フレームワークであるeth, ucy,および新たな挑戦的ベンチマークデータセットpavの有効性を検証するために,広範な評価を行い,最先端手法と比較して優れた性能を示す。

Predicting the future trajectory of a person remains a challenging problem, due to randomness and subjectivity of human movement. However, the moving patterns of human in a constrained scenario typically conform to a limited number of regularities to a certain extent, because of the scenario restrictions and person-person or person-object interactivity. Thus, an individual person in this scenario should follow one of the regularities as well. In other words, a person's subsequent trajectory has likely been traveled by others. Based on this hypothesis, we propose to forecast a person's future trajectory by learning from the implicit scene regularities. We call the regularities, inherently derived from the past dynamics of the people and the environment in the scene, scene history. We categorize scene history information into two types: historical group trajectory and individual-surroundings interaction. To exploit these two types of information for trajectory prediction, we propose a novel framework Scene History Excavating Network (SHENet), where the scene history is leveraged in a simple yet effective approach. In particular, we design two components: the group trajectory bank module to extract representative group trajectories as the candidate for future path, and the cross-modal interaction module to model the interaction between individual past trajectory and its surroundings for trajectory refinement. In addition, to mitigate the uncertainty in ground-truth trajectory, caused by the aforementioned randomness and subjectivity of human movement, we propose to include smoothness into the training process and evaluation metrics. We conduct extensive evaluations to validate the efficacy of our proposed framework on ETH, UCY, as well as a new, challenging benchmark dataset PAV, demonstrating superior performance compared to state-of-the-art methods.
翻訳日:2022-10-18 19:28:19 公開日:2022-10-17
# Google Universal Image Embedding Competition 2022のランナーアップソリューション

Runner-Up Solution to Google Universal Image Embedding Competition 2022 ( http://arxiv.org/abs/2210.08735v1 )

ライセンス: Link先を確認
Xiaolong Huang, QianKun Li(参考訳) 画像表現はコンピュータビジョンアプリケーションの重要な構成要素である。 本稿では,ECCV2022インスタンスレベルの認識ワークショップの一部であるGoogle Universal Image Embedding Competitionの2番目のソリューションを提案する。 この競合を解くために、インスタンスレベルのきめ細かい画像分類法を用いる。 データの構築と処理、モデル構造、トレーニング戦略に重点を置いています。 最後に、ソリューションは公開リーダーボードで0.713、プライベートリーダーボードで0.709だった。

Image representations are a critical building block of computer vision applications. This paper presents the 2nd place solution to the Google Universal Image Embedding Competition, which is part of the ECCV2022 instance-level recognition workshops. We use the instance-level fine-grained image classification method to complete this competition. We focus on data building and processing, model structure, and training strategies. Finally, the solution scored 0.713 on the public leaderboard and 0.709 on the private leaderboard.
翻訳日:2022-10-18 19:27:52 公開日:2022-10-17
# レーン相関を細分化した行方向ライダー車線検出ネットワーク

Row-wise LiDAR Lane Detection Network with Lane Correlation Refinement ( http://arxiv.org/abs/2210.08745v1 )

ライセンス: Link先を確認
Dong-Hee Paek, Kevin Tirta Wijaya, Seung-Hyun Kong(参考訳) レーン検出は自動運転において最も重要な機能の一つである。 近年,rgbカメラ画像を用いた深層学習型レーン検出ネットワークが有望な性能を示している。 しかし、カメラベースの手法は本質的には、照明の悪さやダズリングといった悪質な照明条件に弱い。 カメラとは異なり、LiDARセンサーは照明条件に耐性がある。 本研究では,行方向検出手法を用いた2段lidarレーン検出ネットワークを提案する。 第1段階のネットワークは、グローバル機能コリレータバックボーンと行方向検出ヘッドを介してレーン提案を生成する。 一方、第2段階ネットワークは、レーン提案周辺のローカル機能間の注意に基づくメカニズムを介して、第1段階ネットワークの特徴マップを洗練し、新しいレーン提案のセットを出力する。 K-Laneデータセットの実験結果から,提案したネットワークは,GFLOPを30%削減したF1スコアで最先端のネットワークを進展させることが示された。 さらに,2段目のネットワークは特に車線閉塞に対して堅牢であり,混み合った環境での運転において,提案するネットワークの堅牢性を示す。

Lane detection is one of the most important functions for autonomous driving. In recent years, deep learning-based lane detection networks with RGB camera images have shown promising performance. However, camera-based methods are inherently vulnerable to adverse lighting conditions such as poor or dazzling lighting. Unlike camera, LiDAR sensor is robust to the lighting conditions. In this work, we propose a novel two-stage LiDAR lane detection network with row-wise detection approach. The first-stage network produces lane proposals through a global feature correlator backbone and a row-wise detection head. Meanwhile, the second-stage network refines the feature map of the first-stage network via attention-based mechanism between the local features around the lane proposals, and outputs a set of new lane proposals. Experimental results on the K-Lane dataset show that the proposed network advances the state-of-the-art in terms of F1-score with 30% less GFLOPs. In addition, the second-stage network is found to be especially robust to lane occlusions, thus, demonstrating the robustness of the proposed network for driving in crowded environments.
翻訳日:2022-10-18 19:27:45 公開日:2022-10-17
# 自律運転における非一貫性物体検出のための双曲教師

Dual-Curriculum Teacher for Domain-Inconsistent Object Detection in Autonomous Driving ( http://arxiv.org/abs/2210.08748v1 )

ライセンス: Link先を確認
Longhui Yu, Yifan Zhang, Lanqing Hong, Fei Chen, Zhenguo Li(参考訳) 自動運転車の物体検出は近年注目を集めており、ラベル付きデータは高価であることが多いが、ラベル付きデータは簡単に収集できるため、この分野の半教師付き学習の研究が求められている。 既存の半教師付きオブジェクト検出(SSOD)法は通常、ラベル付きおよびラベルなしのデータは同じデータ分布から来ていると仮定する。 しかし、自動運転では、通常、データは異なる気象条件や1日の異なる時間など、異なるシナリオから収集される。 そこで本研究では,新しい領域不整合性SSOD問題について検討する。 それは、(1)データ分散の不一致、(2)クラス分散シフト、(2)既存のssodメソッドが不正確な擬似ラベルに苦しむこと、およびモデル性能を損なうこと、の2つの異なるドメイン間の分散シフトを含む。 この問題に対処するため,Dual-Curriculum Teacher (DucTeacher) という新しい手法を提案する。 具体的には、2つのカリキュラム、すなわち、(1)ドメイン進化カリキュラムは、ドメイン間の類似度を推定することにより、データから徐々に学習し、データ分散の不一致を処理し、(2)分散マッチングカリキュラムは、各ラベルなしドメインのクラス分布を推定し、クラス分散シフトを処理しようとする。 このようにして、DucTeacherはバイアス付き擬似ラベルを校正し、ドメイン一貫性のないSSOD問題を効果的に処理できる。 DucTeacherは、最大規模の公用半教師付き自動運転データセットであるSODA10Mと、広く使用されているSSODベンチマークであるCOCOに対して、その利点を示している。 実験により、DucTeacherは2.2mAP改善のSODA10Mと0.8mAP改善のCOCOで新しい最先端性能を実現することが示された。

Object detection for autonomous vehicles has received increasing attention in recent years, where labeled data are often expensive while unlabeled data can be collected readily, calling for research on semi-supervised learning for this area. Existing semi-supervised object detection (SSOD) methods usually assume that the labeled and unlabeled data come from the same data distribution. In autonomous driving, however, data are usually collected from different scenarios, such as different weather conditions or different times in a day. Motivated by this, we study a novel but challenging domain inconsistent SSOD problem. It involves two kinds of distribution shifts among different domains, including (1) data distribution discrepancy, and (2) class distribution shifts, making existing SSOD methods suffer from inaccurate pseudo-labels and hurting model performance. To address this problem, we propose a novel method, namely Dual-Curriculum Teacher (DucTeacher). Specifically, DucTeacher consists of two curriculums, i.e., (1) domain evolving curriculum seeks to learn from the data progressively to handle data distribution discrepancy by estimating the similarity between domains, and (2) distribution matching curriculum seeks to estimate the class distribution for each unlabeled domain to handle class distribution shifts. In this way, DucTeacher can calibrate biased pseudo-labels and handle the domain-inconsistent SSOD problem effectively. DucTeacher shows its advantages on SODA10M, the largest public semi-supervised autonomous driving dataset, and COCO, a widely used SSOD benchmark. Experiments show that DucTeacher achieves new state-of-the-art performance on SODA10M with 2.2 mAP improvement and on COCO with 0.8 mAP improvement.
翻訳日:2022-10-18 19:27:30 公開日:2022-10-17
# Nパッド : 隣接画素による産業異常検出

N-pad : Neighboring Pixel-based Industrial Anomaly Detection ( http://arxiv.org/abs/2210.08768v1 )

ライセンス: Link先を確認
JunKyu Jang, Eugene Hwang, Sung-Hyuk Park(参考訳) 工業製品の画像の欠陥の特定は品質管理の強化とメンテナンスコストの削減に重要な課題となっている。 近年の研究では,事前学習したネットワークを用いて名目表現を学習する産業的異常検出モデルが開発された。 本稿では,各画素の相対的な位置情報を活用するために,対象画素の近傍を含む一級学習環境において,異常検出とセグメンテーションを行う新しい方法である‘textit{\textbf{N-pad}}を提案する。 モデルアーキテクチャ内では、隣接画素と対象画素の特徴を用いて画素単位の名目分布を推定し、限界的不一致を許容する。 さらに、名目特徴の集合からの遠心体を代表的名目集合として同定する。 従って、目標画素と推定分布または遠心集合との間のマハラノビス距離とユークリッド距離とに基づいて、異常スコアを推定する。 その結果, mvtec-adでは, 異常検出はauroc 99.37, 異常セグメンテーションは98.75となり, 次のベストパフォーマンスモデルと比較して誤差を34\%低減した。 様々な環境での実験は、モデルをさらに検証します。

Identifying defects in the images of industrial products has been an important task to enhance quality control and reduce maintenance costs. In recent studies, industrial anomaly detection models were developed using pre-trained networks to learn nominal representations. To employ the relative positional information of each pixel, we present \textit{\textbf{N-pad}}, a novel method for anomaly detection and segmentation in a one-class learning setting that includes the neighborhood of the target pixel for model training and evaluation. Within the model architecture, pixel-wise nominal distributions are estimated by using the features of neighboring pixels with the target pixel to allow possible marginal misalignment. Moreover, the centroids from clusters of nominal features are identified as a representative nominal set. Accordingly, anomaly scores are inferred based on the Mahalanobis distances and Euclidean distances between the target pixel and the estimated distributions or the centroid set, respectively. Thus, we have achieved state-of-the-art performance in MVTec-AD with AUROC of 99.37 for anomaly detection and 98.75 for anomaly segmentation, reducing the error by 34\% compared to the next best performing model. Experiments in various settings further validate our model.
翻訳日:2022-10-18 19:26:58 公開日:2022-10-17
# 会話における感情認識のための教師付きプロトタイプコントラスト学習

Supervised Prototypical Contrastive Learning for Emotion Recognition in Conversation ( http://arxiv.org/abs/2210.08713v1 )

ライセンス: Link先を確認
Xiaohui Song, Longtao Huang, Hui Xue, Songlin Hu(参考訳) 会話の中で感情を捉えることは、現代の対話システムにおいて重要な役割を果たす。 しかし、感情と意味の弱い相関は、会話における感情認識(ERC)に多くの課題をもたらす。 意味的に類似した発話であっても、感情は文脈や話者によって異なる。 本稿では,ERCタスクに対するSPCL(Supervised Prototypeal Contrastive Learning)損失を提案する。 プロトタイプネットワークを利用することで、SPCLは対照的な学習を通じて不均衡な分類問題を解くことを目標とし、大きなバッチサイズを必要としない。 一方,授業間距離に基づく難易度測定関数を設計し,極端なサンプルの影響を軽減するためのカリキュラム学習を導入する。 3つのベンチマークで最新の結果を得た。 さらに,提案するSPCLとカリキュラム学習戦略の有効性を実証するための分析実験を行った。 コードをhttps://github.com/caskcsg/SPCLでリリースします。

Capturing emotions within a conversation plays an essential role in modern dialogue systems. However, the weak correlation between emotions and semantics brings many challenges to emotion recognition in conversation (ERC). Even semantically similar utterances, the emotion may vary drastically depending on contexts or speakers. In this paper, we propose a Supervised Prototypical Contrastive Learning (SPCL) loss for the ERC task. Leveraging the Prototypical Network, the SPCL targets at solving the imbalanced classification problem through contrastive learning and does not require a large batch size. Meanwhile, we design a difficulty measure function based on the distance between classes and introduce curriculum learning to alleviate the impact of extreme samples. We achieve state-of-the-art results on three widely used benchmarks. Further, we conduct analytical experiments to demonstrate the effectiveness of our proposed SPCL and curriculum learning strategy. We release the code at https://github.com/caskcsg/SPCL.
翻訳日:2022-10-18 18:53:54 公開日:2022-10-17
# web 検索のための効率的かつ効率的なクエリアウェアスニペット抽出

Effective and Efficient Query-aware Snippet Extraction for Web Search ( http://arxiv.org/abs/2210.08809v1 )

ライセンス: Link先を確認
Jingwei Yi, Fangzhao Wu, Chuhan Wu, Xiaolong Huang, Binxing Jiao, Guangzhong Sun, Xing Xie(参考訳) クエリ対応のWebページスニペット抽出は、ユーザがクリックする前に返されるWebページの内容をよりよく理解するために、検索エンジンで広く使用されている。 重要ではあるが、ほとんど研究されていない。 本稿では,入力クエリの文脈において,webページコンテンツを最も要約可能な文を選択することを目的とした,deepqseという,クエリアウェアなwebページスニペット抽出手法を提案する。 deepqseは、まず各文の問合せ認識文表現を学習し、問合せと文間のきめ細かな関連性を捉え、次にスニペット抽出のための文書認識クエリ・センス関係表現を学習する。 クエリと各文はDeepQSEで共同でモデル化されているため、オンライン推論は遅くなる可能性がある。 そこで,我々はさらに,deepqseの性能に影響を与えることなく,deepqseの推論速度を著しく向上させることのできる,効率的なdeepqseバージョンである efficient-deepqseを提案する。 Efficient-DeepQSEの基本的な考え方は、クエリ対応スニペット抽出タスクを、文表現をキャッシュ可能な粗粒度候補文選択ステージと、詳細な関連性モデリングステージの2段階に分解することである。 実世界の2つのデータセットによる実験は,本手法の有効性と有効性を検証する。

Query-aware webpage snippet extraction is widely used in search engines to help users better understand the content of the returned webpages before clicking. Although important, it is very rarely studied. In this paper, we propose an effective query-aware webpage snippet extraction method named DeepQSE, aiming to select a few sentences which can best summarize the webpage content in the context of input query. DeepQSE first learns query-aware sentence representations for each sentence to capture the fine-grained relevance between query and sentence, and then learns document-aware query-sentence relevance representations for snippet extraction. Since the query and each sentence are jointly modeled in DeepQSE, its online inference may be slow. Thus, we further propose an efficient version of DeepQSE, named Efficient-DeepQSE, which can significantly improve the inference speed of DeepQSE without affecting its performance. The core idea of Efficient-DeepQSE is to decompose the query-aware snippet extraction task into two stages, i.e., a coarse-grained candidate sentence selection stage where sentence representations can be cached, and a fine-grained relevance modeling stage. Experiments on two real-world datasets validate the effectiveness and efficiency of our methods.
翻訳日:2022-10-18 18:53:42 公開日:2022-10-17
# 因果関係の確率:観測データの役割

Probabilities of Causation: Role of Observational Data ( http://arxiv.org/abs/2210.08874v1 )

ライセンス: Link先を確認
Ang Li, Judea Pearl(参考訳) 因果関係の確率は現代の意思決定において重要な役割を果たす。 パールは、因果関係の3つの二分確率、必要性と満足の確率(PNS)、満足の確率(PS)、必要の確率(PN)を定義した。 これらの確率は、実験データと観測データを組み合わせて天とパールによって境界付けられた。 しかし、観測データは実際には必ずしも利用できないため、ティアンとパールズ・セオレムは純粋な実験データを用いて有効ではあるが有効でない境界を提供した。 本稿では,境界値の品質向上を図る上で,観測データに価値がある条件について論じる。 より具体的には、観測分布が観測可能な間隔で均一に分布することを仮定して、境界の期待値の改善を定義する。 さらに,li と pearl で定義される単位選択問題に対して,提案定理を適用した。

Probabilities of causation play a crucial role in modern decision-making. Pearl defined three binary probabilities of causation, the probability of necessity and sufficiency (PNS), the probability of sufficiency (PS), and the probability of necessity (PN). These probabilities were then bounded by Tian and Pearl using a combination of experimental and observational data. However, observational data are not always available in practice; in such a case, Tian and Pearl's Theorem provided valid but less effective bounds using pure experimental data. In this paper, we discuss the conditions that observational data are worth considering to improve the quality of the bounds. More specifically, we defined the expected improvement of the bounds by assuming the observational distributions are uniformly distributed on their feasible interval. We further applied the proposed theorems to the unit selection problem defined by Li and Pearl.
翻訳日:2022-10-18 18:53:18 公開日:2022-10-17
# A.I.ロバストネス : 技術的課題と機会に関する人間中心の視点

A.I. Robustness: a Human-Centered Perspective on Technological Challenges and Opportunities ( http://arxiv.org/abs/2210.08906v1 )

ライセンス: Link先を確認
Andrea Tocchetti, Lorenzo Corti, Agathe Balayn, Mireia Yurrita, Philip Lippmann, Marco Brambilla, and Jie Yang(参考訳) 人工知能(AI)システムの優れたパフォーマンスにもかかわらず、その堅牢性はいまだ解明されておらず、大規模な採用を妨げる重要な問題となっている。 ロバストネスはAIの多くの領域で研究されてきたが、ドメインとコンテキストの異なる解釈で研究されている。 本研究は,最近の進歩を体系的に調査し,aiの堅牢性に関する概念の調和した用語を提供する。 基本的・応用的な観点から、文献を整理・記述するために3つの分類法を導入する。 1) 機械学習パイプラインの異なるフェーズにおける方法とアプローチによる堅牢性。 2) 特定のモデルアーキテクチャ、タスク、システムに対する堅牢性に加えて、 3)堅牢性評価手法及び洞察、特に他の信頼性特性とのトレードオフ 最後に,研究のギャップと機会を特定し,議論し,この分野の展望を示す。 我々は、AIの堅牢性を評価し、強化する上で、人間の中心的な役割を強調し、人間が提供できる必要な知識を考慮し、よりよい理解の実践と将来的な支援ツールの開発の必要性について議論する。

Despite the impressive performance of Artificial Intelligence (AI) systems, their robustness remains elusive and constitutes a key issue that impedes large-scale adoption. Robustness has been studied in many domains of AI, yet with different interpretations across domains and contexts. In this work, we systematically survey the recent progress to provide a reconciled terminology of concepts around AI robustness. We introduce three taxonomies to organize and describe the literature both from a fundamental and applied point of view: 1) robustness by methods and approaches in different phases of the machine learning pipeline; 2) robustness for specific model architectures, tasks, and systems; and in addition, 3) robustness assessment methodologies and insights, particularly the trade-offs with other trustworthiness properties. Finally, we identify and discuss research gaps and opportunities and give an outlook on the field. We highlight the central role of humans in evaluating and enhancing AI robustness, considering the necessary knowledge humans can provide, and discuss the need for better understanding practices and developing supportive tools in the future.
翻訳日:2022-10-18 18:53:03 公開日:2022-10-17
# ポリシーネットワーク情報を利用した動的ニューラルネットワークに対する新しいメンバーシップ推論攻撃

A Novel Membership Inference Attack against Dynamic Neural Networks by Utilizing Policy Networks Information ( http://arxiv.org/abs/2210.08956v1 )

ライセンス: Link先を確認
Pan Li, Peizhuo Lv, Shenchen Zhu, Ruigang Liang, Kai Chen,(参考訳) 従来の静的ディープニューラルネットワーク(DNN)とは異なり、動的ニューラルネットワーク(NN)は、その構造やパラメータを異なる入力に調整し、精度と計算効率を保証する。 一方、最近は深層学習における新たな研究分野となっている。 従来の静的DNNは、モデルをトレーニングするために特定のポイントを使用していたかどうかを推測することを目的とした、メンバシップ推論攻撃(MIA)に弱いが、そのような攻撃が動的NNに与える影響についてはほとんど分かっていない。 本稿では,動的NNのユニークなポリシーネットワーク機構を活用し,メンバシップ推論の有効性を高めるために,新しいMI攻撃を提案する。 我々は、CIFAR-10, CIFAR-100, STL-10, GTSRBの4つの主流画像分類タスクにおいて、2つの動的NN(GaterNet, BlockDrop)を用いて広範な実験を行った。 評価結果は,制御フロー情報がMIAを著しく促進することを示す。 バックボーンファインタニングと情報融合に基づいて,中間情報を用いたベースライン攻撃や従来の攻撃よりも優れた結果が得られる。

Unlike traditional static deep neural networks (DNNs), dynamic neural networks (NNs) adjust their structures or parameters to different inputs to guarantee accuracy and computational efficiency. Meanwhile, it has been an emerging research area in deep learning recently. Although traditional static DNNs are vulnerable to the membership inference attack (MIA) , which aims to infer whether a particular point was used to train the model, little is known about how such an attack performs on the dynamic NNs. In this paper, we propose a novel MI attack against dynamic NNs, leveraging the unique policy networks mechanism of dynamic NNs to increase the effectiveness of membership inference. We conducted extensive experiments using two dynamic NNs, i.e., GaterNet, BlockDrop, on four mainstream image classification tasks, i.e., CIFAR-10, CIFAR-100, STL-10, and GTSRB. The evaluation results demonstrate that the control-flow information can significantly promote the MIA. Based on backbone-finetuning and information-fusion, our method achieves better results than baseline attack and traditional attack using intermediate information.
翻訳日:2022-10-18 18:52:48 公開日:2022-10-17
# 解釈型学習と推論のための人間の姿勢の記号表現

A Symbolic Representation of Human Posture for Interpretable Learning and Reasoning ( http://arxiv.org/abs/2210.08998v1 )

ライセンス: Link先を確認
Richard G. Freedman, Joseph B. Mueller, Jack Ladwig, Steven Johnston, Helen Wauck, Ruta Wheelock, Hayley Borck(参考訳) 物理的な空間やアプリケーションで人間と対話するロボットは、通常、カメラや赤外線のような視覚センサーから得られる姿勢について考える必要がある。 人工知能と機械学習アルゴリズムは、これらのセンサーからの情報を何らかのシンボリック抽象化の後に使用し、後者は通常、観測された値の範囲を分割して連続した信号データを識別する。 これらの表現は精度やタスク完了に関して様々なアルゴリズムで有効であるが、基礎となるモデルはほとんど解釈できないため、要求する人にその出力を説明するのが難しくなっている。 機械に親しみやすいセンサ値に注目するのではなく、より人間に親しみやすい言葉で人間の姿勢を記述する質的空間推論アプローチを導入する。 本稿では,2段階の細部における記号表現の導出と,その予備的利用について検討する。

Robots that interact with humans in a physical space or application need to think about the person's posture, which typically comes from visual sensors like cameras and infra-red. Artificial intelligence and machine learning algorithms use information from these sensors either directly or after some level of symbolic abstraction, and the latter usually partitions the range of observed values to discretize the continuous signal data. Although these representations have been effective in a variety of algorithms with respect to accuracy and task completion, the underlying models are rarely interpretable, which also makes their outputs more difficult to explain to people who request them. Instead of focusing on the possible sensor values that are familiar to a machine, we introduce a qualitative spatial reasoning approach that describes the human posture in terms that are more familiar to people. This paper explores the derivation of our symbolic representation at two levels of detail and its preliminary use as features for interpretable activity recognition.
翻訳日:2022-10-18 18:52:30 公開日:2022-10-17
# 頑健な言語モデルのための擬似OOD訓練

Pseudo-OOD training for robust language models ( http://arxiv.org/abs/2210.09132v1 )

ライセンス: Link先を確認
Dhanasekar Sundararaman, Nikhil Mehta, Lawrence Carin(参考訳) 事前訓練された大規模深層モデルは、多くの下流自然言語処理(NLP)タスクにとって重要なトピックとして注目されているが、そのようなモデルは、アウト・オブ・ディストリビューション(OOD)入力に対して信頼できない予測を行うことが多い。 したがって、OOD検出は、あらゆる産業規模のアプリケーションに対する信頼性の高い機械学習モデルの鍵となるコンポーネントである。 一般的なアプローチでは、訓練段階で追加のoodサンプルへのアクセスを想定することが多いが、前もって異常分布が不明であることが多い。 そこで我々は,in-distribution(ind)データを用いて疑似oodサンプルを生成するpope(posthoc pseudo-ood regularization)というポストホックフレームワークを提案する。 このモデルは、INDとOODデータの埋め込みを分離する新たな正規化損失を導入して微調整され、テスト中のOOD予測タスクに大きな改善をもたらす。 我々は3つの実世界の対話システムに関するフレームワークを広範囲に評価し,新たなood検出を実現する。

While pre-trained large-scale deep models have garnered attention as an important topic for many downstream natural language processing (NLP) tasks, such models often make unreliable predictions on out-of-distribution (OOD) inputs. As such, OOD detection is a key component of a reliable machine-learning model for any industry-scale application. Common approaches often assume access to additional OOD samples during the training stage, however, outlier distribution is often unknown in advance. Instead, we propose a post hoc framework called POORE - POsthoc pseudo-Ood REgularization, that generates pseudo-OOD samples using in-distribution (IND) data. The model is fine-tuned by introducing a new regularization loss that separates the embeddings of IND and OOD data, which leads to significant gains on the OOD prediction task during testing. We extensively evaluate our framework on three real-world dialogue systems, achieving new state-of-the-art in OOD detection.
翻訳日:2022-10-18 18:44:30 公開日:2022-10-17
# gpt-3の信頼性向上

Prompting GPT-3 To Be Reliable ( http://arxiv.org/abs/2210.09150v1 )

ライセンス: Link先を確認
Chenglei Si, Zhe Gan, Zhengyuan Yang, Shuohang Wang, Jianfeng Wang, Jordan Boyd-Graber, Lijuan Wang(参考訳) 大きな言語モデル(LLM)は、数発のプロンプトによって印象的な能力を示す。 OpenAI GPT-3のような商用APIは、現実世界の言語アプリケーションでの使用をさらに増やしている。 しかし、既存の研究は標準ベンチマークにおけるモデルの精度に重点を置いており、その信頼性は無視されている。 信頼性は広くあいまいに定義された用語であるが、この研究は信頼性を一般化可能性、公平性、校正性、事実性という4つの側面に分解する。 これら4つの側面においてGPT-3の信頼性を示すためのシンプルで効果的なプロンプトを確立する。 1)ドメイン外を一般化する。 2)社会バイアスを減らすために人口分布のバランスをとる。 3)言語モデル確率の校正,及び 4) LLMの知識を更新する。 適切なプロンプトを用いることで、GPT-3はこれら全ての面において、より小規模な教師付きモデルよりも優れた性能を発揮する。 将来の分析を容易にするために、すべての処理されたデータセット、評価スクリプト、モデル予測をリリースします。 我々の発見は、LSMの信頼性に関する新たな洞察を隠蔽するだけでなく、より重要なことは、実践者がGPT-3のような大きな言語モデルをより確実に活用するのに役立てることができるということです。

Large language models (LLMs) show impressive abilities via few-shot prompting. Commercialized APIs such as OpenAI GPT-3 further increase their use in real-world language applications. However, existing research focuses on models' accuracy on standard benchmarks and largely ignores their reliability, which is crucial for avoiding catastrophic real-world harms. While reliability is a broad and vaguely defined term, this work decomposes reliability into four facets: generalizability, fairness, calibration, and factuality. We establish simple and effective prompts to demonstrate GPT-3's reliability in these four aspects: 1) generalize out-of-domain, 2) balance demographic distribution to reduce social biases, 3) calibrate language model probabilities, and 4) update the LLM's knowledge. We find that by employing appropriate prompts, GPT-3 outperforms smaller-scale supervised models by large margins on all these facets. We release all processed datasets, evaluation scripts, and model predictions to facilitate future analysis. Our findings not only shed new insights on the reliability of prompting LLMs, but more importantly, our prompting strategies can help practitioners more reliably use large language models like GPT-3.
翻訳日:2022-10-18 18:44:12 公開日:2022-10-17
# KPI-EDGAR:財務文書からの関係抽出のための新しいデータセットと対応指標

KPI-EDGAR: A Novel Dataset and Accompanying Metric for Relation Extraction from Financial Documents ( http://arxiv.org/abs/2210.09163v1 )

ライセンス: Link先を確認
Tobias Deu{\ss}er, Syed Musharraf Ali, Lars Hillebrand, Desiana Nurchalifah, Basil Jacob, Christian Bauckhage, Rafet Sifa(参考訳) 我々は,電子データ収集・分析・検索システム(EDGAR)にアップロードされた財務報告に基づいて,共同名称のエンティティ認識・関係抽出構築のための新しいデータセットであるKPI-EDGARを紹介し,その主な目的は,財務文書からキーパフォーマンス指標(KPI)を抽出し,それらの数値や他の属性にリンクすることである。 さらに、今後の研究をベンチマークするための4つのベースラインも提供します。 さらに、従来のf1スコアに単語レベルの重み付けスキームを組み込むことにより、この領域における関係のエンティティ対の固有ファジィ境界をより良くモデル化し、抽出プロセスの成功を測定する新しい方法を提案する。

We introduce KPI-EDGAR, a novel dataset for Joint Named Entity Recognition and Relation Extraction building on financial reports uploaded to the Electronic Data Gathering, Analysis, and Retrieval (EDGAR) system, where the main objective is to extract Key Performance Indicators (KPIs) from financial documents and link them to their numerical values and other attributes. We further provide four accompanying baselines for benchmarking potential future research. Additionally, we propose a new way of measuring the success of said extraction process by incorporating a word-level weighting scheme into the conventional F1 score to better model the inherently fuzzy borders of the entity pairs of a relation in this domain.
翻訳日:2022-10-18 18:43:57 公開日:2022-10-17
# どうやってそこに着くの? 英語過去時制インフレクションの認知モデルとしてのトランスフォーマーニューラルネットワークの評価

How do we get there? Evaluating transformer neural networks as cognitive models for English past tense inflection ( http://arxiv.org/abs/2210.09167v1 )

ライセンス: Link先を確認
Xiaomeng Ma and Lingyu Gao(参考訳) ニューラルネットワークが人間のような言語の準規則性を把握できるかどうか、議論が続いている。 典型的な準正則性タスクである英語の過去時制インフレクションにおいて、ニューラルネットワークモデルは、最も頻繁なパターンを一般化するためにのみ学習し、正規パターンではなく、正規パターンと不規則パターンの抽象的なカテゴリを学ぶことができず、人間のパフォーマンスと異なることを長年批判されてきた。 本研究では,異なる設定の変圧器モデルのセットをトレーニングし,その動作について検討する。 モデルでは, 正規動詞の認識精度が向上し, 不規則動詞の精度も向上した。 レギュラーモデルの性能はタイプ周波数と比に大きく影響されるが、トークンの頻度と比率には影響せず、逆もまた不規則である。 正規化と不規則化の異なる振る舞いは、モデルが動詞の規則性についてある程度の記号的学習を持っていることを示唆している。 さらに、モデルは名詞動詞の人間の行動と弱い相関関係にある。 トランスフォーマーモデルは動詞の規則性の抽象的なカテゴリーについてある程度の学習レベルを示すが、その性能は人間のデータにうまく適合せず、良い認知モデルではない可能性がある。

There is an ongoing debate on whether neural networks can grasp the quasi-regularities in languages like humans. In a typical quasi-regularity task, English past tense inflections, the neural network model has long been criticized that it learns only to generalize the most frequent pattern, but not the regular pattern, thus can not learn the abstract categories of regular and irregular and is dissimilar to human performance. In this work, we train a set of transformer models with different settings to examine their behavior on this task. The models achieved high accuracy on unseen regular verbs and some accuracy on unseen irregular verbs. The models' performance on the regulars is heavily affected by type frequency and ratio but not token frequency and ratio, and vice versa for the irregulars. The different behaviors on the regulars and irregulars suggest that the models have some degree of symbolic learning on the regularity of the verbs. In addition, the models are weakly correlated with human behavior on nonce verbs. Although the transformer model exhibits some level of learning on the abstract category of verb regularity, its performance does not fit human data well, suggesting that it might not be a good cognitive model.
翻訳日:2022-10-18 18:43:44 公開日:2022-10-17
# ゼロショットクロスタスク一般化のためのラベルなしデータによる学習命令

Learning Instructions with Unlabeled Data for Zero-Shot Cross-Task Generalization ( http://arxiv.org/abs/2210.09175v1 )

ライセンス: Link先を確認
Yuxian Gu, Pei Ke, Xiaoyan Zhu, Minlie Huang(参考訳) ゼロショットクロスタスク一般化のためのヒューマンインストラクションから学習する言語モデルを訓練することは、NLPコミュニティで注目を集めている。 近年,人間の手作業で記述された膨大なタスク群に対して,事前学習した言語モデルを微調整する命令チューニング(it)が,未熟なタスクの指導学習に有効であることが示されている。 しかし、ITは、その一般化を制限する大量の人手によるサンプルに依存している。 ラベル付きデータとは異なり、ラベル付きデータはしばしば巨大で安価である。 本研究では、ラベルのないデータでITをどのように改善できるかを検討する。 私たちはまず、ラベル付きデータ、命令、トレーニングタスクの数に対するITパフォーマンスのトレンドを経験的に調査します。 トレーニング命令数を拡大することが重要であり,ラベル付きデータの不足により,命令を過小に利用することが可能である。 次に,ラベルなし平文からの擬似ラベルデータを構築することにより,命令の利点を生かしたラベルなしデータ拡張命令チューニング(udit)を提案する。 タスクやデータセットのさまざまなシナリオにおいて,UDITの有効性を示すための広範な実験を行う。 また,udit の重要な要因を包括的に分析し,ラベルなしのデータを用いてその改善方法を検討する。 コードはhttps://github.com/thu-coai/uditで公開されている。

Training language models to learn from human instructions for zero-shot cross-task generalization has attracted much attention in NLP communities. Recently, instruction tuning (IT), which fine-tunes a pre-trained language model on a massive collection of tasks described via human-craft instructions, has been shown effective in instruction learning for unseen tasks. However, IT relies on a large amount of human-annotated samples, which restricts its generalization. Unlike labeled data, unlabeled data are often massive and cheap to obtain. In this work, we study how IT can be improved with unlabeled data. We first empirically explore the IT performance trends versus the number of labeled data, instructions, and training tasks. We find it critical to enlarge the number of training instructions, and the instructions can be underutilized due to the scarcity of labeled data. Then, we propose Unlabeled Data Augmented Instruction Tuning (UDIT) to take better advantage of the instructions during IT by constructing pseudo-labeled data from unlabeled plain texts. We conduct extensive experiments to show UDIT's effectiveness in various scenarios of tasks and datasets. We also comprehensively analyze the key factors of UDIT to investigate how to better improve IT with unlabeled data. The code is publicly available at https://github.com/thu-coai/UDIT.
翻訳日:2022-10-18 18:43:22 公開日:2022-10-17
# HCL-TAT:タスク適応閾値を用いたFew-shotイベント検出のためのハイブリッドコントラスト学習手法

HCL-TAT: A Hybrid Contrastive Learning Method for Few-shot Event Detection with Task-Adaptive Threshold ( http://arxiv.org/abs/2210.08806v1 )

ライセンス: Link先を確認
Ruihan Zhang, Wei Wei, Xian-Ling Mao, Rui Fang, Dangyang Chen(参考訳) 教師付き学習環境下での従来のイベント検出モデルは、十分なアノテーションがないため、新たに出現したイベントタイプへの転送が不可能である。 一般的に適応された解決策は、まずトリガーを識別し、次に数ショットの学習パラダイムを通じて分類タスクを変換する識別-then-classify方式に従うことである。 しかし、これらの手法はいまだに期待をはるかに下回っている。 (i)低リソースシナリオにおける識別表現の学習不足、及び (二)トリガーと非トリガーの学習表現の重複による誤識別の引き金となる。 そこで本研究では,タスク適応型閾値(HCLTAT)を用いたハイブリッド・コントラスト学習手法を提案する。この手法により,2視点のコントラスト損失(サポート型およびプロトタイプ型クエリ)による識別的表現学習が可能となり,トリガの誤識別を緩和するための適応しきい値が考案される。 ベンチマークデータセットFewEventの大規模な実験は、我々の手法が最先端技術よりも優れた結果を得るために優れていることを実証している。 この論文のすべてのコードとデータは、オンラインで公開されている。

Conventional event detection models under supervised learning settings suffer from the inability of transfer to newly-emerged event types owing to lack of sufficient annotations. A commonly-adapted solution is to follow a identify-then-classify manner, which first identifies the triggers and then converts the classification task via a few-shot learning paradigm. However, these methods still fall far short of expectations due to: (i) insufficient learning of discriminative representations in low-resource scenarios, and (ii) trigger misidentification caused by the overlap of the learned representations of triggers and non-triggers. To address the problems, in this paper, we propose a novel Hybrid Contrastive Learning method with a Task-Adaptive Threshold (abbreviated as HCLTAT), which enables discriminative representation learning with a two-view contrastive loss (support-support and prototype-query), and devises a easily-adapted threshold to alleviate misidentification of triggers. Extensive experiments on the benchmark dataset FewEvent demonstrate the superiority of our method to achieve better results compared to the state-of-the-arts. All the code and data of this paper will be available for online public access.
翻訳日:2022-10-18 18:36:04 公開日:2022-10-17
# ロバストk-Nearest-Neighbor機械翻訳に向けて

Towards Robust k-Nearest-Neighbor Machine Translation ( http://arxiv.org/abs/2210.08808v1 )

ライセンス: Link先を確認
Hui Jiang, Ziyao Lu, Fandong Meng, Chulun Zhou, Jie Zhou, Degen Huang and Jinsong Su(参考訳) 近年,k-Nearest-Neighbor Machine Translation (kNN-MT)がNMTの重要な研究方向となっている。 その主なアイデアは、NMTモデルを更新することなく翻訳を変更するために、追加のデータストアから有用なキーと値のペアを取得することである。 しかし, 得られた雑音対はモデル性能を劇的に低下させる。 本稿では,NMTモデルの予測を十分に活用しないことから,予備研究を行い,この問題が生じることを確かめる。 ノイズの影響を軽減するため,頑健なトレーニングを伴う信頼性向上kNN-MTモデルを提案する。 具体的には,kNN-MTの2つの重要な成分であるkNN分布と補間重みのモデリングを改良するために,NMTの信頼性を導入する。 一方, 2種類の摂動を抽出したペアに注入し, 頑健なトレーニングを行った。 4つのベンチマークデータセットにおける実験結果は、現在のkn-mtモデルよりも大幅に改善されるだけでなく、ロバスト性も向上していることを示している。 私たちのコードはhttps://github.com/deeplearnxmu/robust-knn-mtで利用可能です。

k-Nearest-Neighbor Machine Translation (kNN-MT) becomes an important research direction of NMT in recent years. Its main idea is to retrieve useful key-value pairs from an additional datastore to modify translations without updating the NMT model. However, the underlying retrieved noisy pairs will dramatically deteriorate the model performance. In this paper, we conduct a preliminary study and find that this problem results from not fully exploiting the prediction of the NMT model. To alleviate the impact of noise, we propose a confidence-enhanced kNN-MT model with robust training. Concretely, we introduce the NMT confidence to refine the modeling of two important components of kNN-MT: kNN distribution and the interpolation weight. Meanwhile we inject two types of perturbations into the retrieved pairs for robust training. Experimental results on four benchmark datasets demonstrate that our model not only achieves significant improvements over current kNN-MT models, but also exhibits better robustness. Our code is available at https://github.com/DeepLearnXMU/Robust-knn-mt.
翻訳日:2022-10-18 18:35:44 公開日:2022-10-17
# pacific: 財務における表データとテキストデータによる積極的な対話型質問応答に向けて

PACIFIC: Towards Proactive Conversational Question Answering over Tabular and Textual Data in Finance ( http://arxiv.org/abs/2210.08817v1 )

ライセンス: Link先を確認
Yang Deng, Wenqiang Lei, Wenxuan Zhang, Wai Lam, Tat-Seng Chua(参考訳) 金融のハイブリッドコンテキスト上での会話型質問応答(CQA)を容易にするために,PACIFICという新しいデータセットを提案する。 既存のCQAデータセットと比較して、PACIFICには3つの重要な特徴がある。 (i)プロラクティビティ (ii)数値推論、及び (iii)表とテキストのハイブリッドコンテキスト。 新しいタスクは、明確化質問生成とcqaを組み合わせたproactive conversational question answering(pcqa)を研究するために定義されます。 さらに,PCQAにおける入力と出力のハイブリッド形式をSeq2Seq問題に適応させる新しい手法,UniPCQAを提案する。 UniPCQAはPCQAのすべてのサブタスクに対してマルチタスク学習を行い、トップ$kのサンプルSeq2Seq出力をクロスバリデーションすることで、マルチタスク学習におけるエラー伝搬問題を緩和するための単純なアンサンブル戦略を取り入れている。 我々はPACIFICデータセットを広範なベースラインでベンチマークし、PCQAの各サブタスクについて包括的な評価を行う。

To facilitate conversational question answering (CQA) over hybrid contexts in finance, we present a new dataset, named PACIFIC. Compared with existing CQA datasets, PACIFIC exhibits three key features: (i) proactivity, (ii) numerical reasoning, and (iii) hybrid context of tables and text. A new task is defined accordingly to study Proactive Conversational Question Answering (PCQA), which combines clarification question generation and CQA. In addition, we propose a novel method, namely UniPCQA, to adapt a hybrid format of input and output content in PCQA into the Seq2Seq problem, including the reformulation of the numerical reasoning process as code generation. UniPCQA performs multi-task learning over all sub-tasks in PCQA and incorporates a simple ensemble strategy to alleviate the error propagation issue in the multi-task learning by cross-validating top-$k$ sampled Seq2Seq outputs. We benchmark the PACIFIC dataset with extensive baselines and provide comprehensive evaluations on each sub-task of PCQA.
翻訳日:2022-10-18 18:35:27 公開日:2022-10-17
# エネルギーベース学習によるドメイン外インテント検出における信頼度分布の分離

Disentangling Confidence Score Distribution for Out-of-Domain Intent Detection with Energy-Based Learning ( http://arxiv.org/abs/2210.08830v1 )

ライセンス: Link先を確認
Yanan Wu, Zhiyuan Zeng, Keqing He, Yutao Mou, Pei Wang, Yuanmeng Yan, Weiran Xu(参考訳) タスク指向のダイアログシステムでは、ユーザクエリからドメイン外(ood)や未知のインテントを検出することが不可欠です。 従来のソフトマックスベースの信頼度スコアは、自信過剰の問題に影響を受けやすい。 本稿では,OODサンプルのエネルギースコアがINDサンプルよりも高いOODを検出するための,シンプルだが強力なエネルギーベーススコア関数を提案する。 さらに、ラベル付きOODサンプルの小さなセットを考慮し、OODサンプルとINDを明確に区別するために、教師付きOOD検出のためのエネルギーベースマージン目標を導入する。 本手法の総合実験と解析は,INDおよびOODデータの信頼度分布のアンタングル化に有効であることを示す。 コードは \url{https://github.com/pris-nlp/emnlp2022-energy_for_ood/} で利用可能である。 }

Detecting Out-of-Domain (OOD) or unknown intents from user queries is essential in a task-oriented dialog system. Traditional softmax-based confidence scores are susceptible to the overconfidence issue. In this paper, we propose a simple but strong energy-based score function to detect OOD where the energy scores of OOD samples are higher than IND samples. Further, given a small set of labeled OOD samples, we introduce an energy-based margin objective for supervised OOD detection to explicitly distinguish OOD samples from INDs. Comprehensive experiments and analysis prove our method helps disentangle confidence score distributions of IND and OOD data.\footnote{Our code is available at \url{https://github.com/pris-nlp/EMNLP2022-energy_for_OOD/}.}
翻訳日:2022-10-18 18:35:07 公開日:2022-10-17
# PeerDA:スパン識別タスクにおけるピア関係のモデル化によるデータ拡張

PeerDA: Data Augmentation via Modeling Peer Relation for Span Identification Tasks ( http://arxiv.org/abs/2210.08855v1 )

ライセンス: Link先を確認
Weiwen Xu, Xin Li, Yang Deng, Lidong Bing, Wai Lam(参考訳) Span Identification (SpanID)は、テキストスパンの検出と分類を目的としたNLPタスクのファミリーである。 Different from previous works that merely leverage Subordinate (\textsc{Sub}) relation about \textit{if a span is an instance of a certain category} to train SpanID models, we explore Peer (\textsc{Pr}) relation, which indicates that \textit{the two spans are two different instances from the same category sharing similar features}, and propose a novel \textbf{Peer} \textbf{D}ata \textbf{A}ugmentation (PeerDA) approach to treat span-span pairs with the \textsc{Pr} relation as a kind of augmented training data. PeerDAには2つの独特な利点がある。(1)トレーニングデータを増やすために、textsc{Pr}関係を持つスパンとスパンのペアが多数存在する。 2) 拡張データは,SpanIDモデルを押してスパンのセマンティクスをより活用することにより,表面スパンカテゴリマッピングへの過度な適合を防止することができる。 7つのドメインにわたる4つのspanidタスクにわたる10のデータセットの実験結果は、peerdaの有効性を示しています。 そのうち7つは最先端の結果である。

Span Identification (SpanID) is a family of NLP tasks that aims to detect and classify text spans. Different from previous works that merely leverage Subordinate (\textsc{Sub}) relation about \textit{if a span is an instance of a certain category} to train SpanID models, we explore Peer (\textsc{Pr}) relation, which indicates that \textit{the two spans are two different instances from the same category sharing similar features}, and propose a novel \textbf{Peer} \textbf{D}ata \textbf{A}ugmentation (PeerDA) approach to treat span-span pairs with the \textsc{Pr} relation as a kind of augmented training data. PeerDA has two unique advantages: (1) There are a large number of span-span pairs with the \textsc{Pr} relation for augmenting the training data. (2) The augmented data can prevent over-fitting to the superficial span-category mapping by pushing SpanID models to leverage more on spans' semantics. Experimental results on ten datasets over four diverse SpanID tasks across seven domains demonstrate the effectiveness of PeerDA. Notably, seven of them achieve state-of-the-art results.
翻訳日:2022-10-18 18:34:54 公開日:2022-10-17
# タスク指向対話システムのための半教師付き知識接地事前学習

Semi-Supervised Knowledge-Grounded Pre-training for Task-Oriented Dialog Systems ( http://arxiv.org/abs/2210.08873v1 )

ライセンス: Link先を確認
Weihao Zeng, Keqing He, Zechen Wang, Dayuan Fu, Guanting Dong, Ruotong Geng, Pei Wang, Jingang Wang, Chaobo Sun, Wei Wu, Weiran Xu(参考訳) ニューラルアプローチの最近の進歩は、ユーザーが目標を達成するのを助けるタスク指向対話(TOD)システムを大幅に改善している。 しかし、そのようなシステムは実用的なシナリオでは利用できないコストのかかるラベル付きダイアログに依存している。 本稿では,大規模な実世界の中国TODデータセットであるMobileCS上に半教師あり強化されたTODシステムを構築するための最初の課題である,SereTOD 2022チャレンジのトラック2のモデルを提案する。 対話履歴とローカルkbを入力として定式化し,システム応答を予測するための知識接地ダイアログモデルを構築した。 またラベル付きデータとラベルなしデータの両方で半教師付き事前学習を行う。 特にBLEU(+7.64)とSuccess(+13.6\%)が第2位より高い場合には,自動評価とヒューマンインタラクションの両方において第1位を達成する。

Recent advances in neural approaches greatly improve task-oriented dialogue (TOD) systems which assist users to accomplish their goals. However, such systems rely on costly manually labeled dialogs which are not available in practical scenarios. In this paper, we present our models for Track 2 of the SereTOD 2022 challenge, which is the first challenge of building semi-supervised and reinforced TOD systems on a large-scale real-world Chinese TOD dataset MobileCS. We build a knowledge-grounded dialog model to formulate dialog history and local KB as input and predict the system response. And we perform semi-supervised pre-training both on the labeled and unlabeled data. Our system achieves the first place both in the automatic evaluation and human interaction, especially with higher BLEU (+7.64) and Success (+13.6\%) than the second place.
翻訳日:2022-10-18 18:34:37 公開日:2022-10-17
# 隣人を見る:OODインテント発見のためのK-Nearest Neighbor Contrastive Learning Framework

Watch the Neighbors: A Unified K-Nearest Neighbor Contrastive Learning Framework for OOD Intent Discovery ( http://arxiv.org/abs/2210.08909v1 )

ライセンス: Link先を確認
Yutao Mou, Keqing He, Pei Wang, Yanan Wu, Jingang Wang, Wei Wu, Weiran Xu(参考訳) タスク指向対話システムにおける新しいスキル開発には,out-of-domain(ood)インテントの発見が重要である。 主な課題は、事前ドメイン内(IND)知識をOODクラスタリングに転送する方法と、OOD表現とクラスタ割り当てを共同で学習する方法である。 従来の手法はドメイン内オーバーフィッティングの問題に悩まされており、表現学習とクラスタリングの目的の間には自然なギャップがある。 本稿では,OODの意図を発見するために,K-nearest近傍のコントラスト学習フレームワークを提案する。 具体的には,ind事前学習段階において,クラス内多様性を維持しつつクラス間識別特徴を学習し,ドメイン内オーバーフィッティング問題を緩和するkcl目標を提案する。 OODクラスタリングの段階では,クラスタリングと表現学習のギャップを埋める真の負のサンプルをマイニングすることで,コンパクトクラスタを形成するKCC手法を提案する。 3つのベンチマークデータセットの大規模な実験により、我々の手法は最先端の手法よりも大幅に改善されていることが示された。

Discovering out-of-domain (OOD) intent is important for developing new skills in task-oriented dialogue systems. The key challenges lie in how to transfer prior in-domain (IND) knowledge to OOD clustering, as well as jointly learn OOD representations and cluster assignments. Previous methods suffer from in-domain overfitting problem, and there is a natural gap between representation learning and clustering objectives. In this paper, we propose a unified K-nearest neighbor contrastive learning framework to discover OOD intents. Specifically, for IND pre-training stage, we propose a KCL objective to learn inter-class discriminative features, while maintaining intra-class diversity, which alleviates the in-domain overfitting problem. For OOD clustering stage, we propose a KCC method to form compact clusters by mining true hard negative samples, which bridges the gap between clustering and representation learning. Extensive experiments on three benchmark datasets show that our method achieves substantial improvements over the state-of-the-art methods.
翻訳日:2022-10-18 18:34:21 公開日:2022-10-17
# mars: エンドツーエンドタスク指向ダイアログのための意味論的コントラスト学習

Mars: Semantic-aware Contrastive Learning for End-to-End Task-Oriented Dialog ( http://arxiv.org/abs/2210.08917v1 )

ライセンス: Link先を確認
Haipeng Sun, Junwei Bao, Youzheng Wu, Xiaodong He(参考訳) 従来のエンドツーエンドのタスク指向ダイアログシステムは、システム応答を生成する前に、まずダイアログコンテキストをダイアログ状態とアクション状態に変換する。 本稿ではまず,ダイアログ/アクション状態と生成システム応答の関係を実証的に検討する。 実験により,システム応答性能はダイアログの状態や動作状態の質に大きく影響していることが示された。 これらの結果から,対話コンテキストと対話/動作状態の関係モデリングの強化は,生成した応答品質をさらに向上させる対話状態と動作状態の品質向上に有用であることが示唆された。 そこで本稿では,対話コンテキストと対話/行動状態の関係をモデル化する,意味認識型コントラスト学習戦略を備えたエンドツーエンドのタスク指向対話システムであるMarsを提案する。 実験の結果,提案した火星はMultiWOZ 2.0,CamRest676,CrossWOZの最先端性能を達成できた。

Traditional end-to-end task-oriented dialog systems first convert dialog context into dialog state and action state, before generating the system response. In this paper, we first empirically investigate the relationship between dialog/action state and generated system response. The empirical exploration shows that the system response performance is significantly affected by the quality of dialog state and action state. Based on these findings, we argue that enhancing the relationship modeling between dialog context and dialog/action state is beneficial to improving the quality of the dialog state and action state, which further improves the generated response quality. Therefore, we propose Mars, an end-to-end task-oriented dialog system with semantic-aware contrastive learning strategies to model the relationship between dialog context and dialog/action state. Empirical results show our proposed Mars achieves state-of-the-art performance on the MultiWOZ 2.0, CamRest676, and CrossWOZ.
翻訳日:2022-10-18 18:34:04 公開日:2022-10-17
# ジョイント多言語知識グラフの完成とアライメント

Joint Multilingual Knowledge Graph Completion and Alignment ( http://arxiv.org/abs/2210.08922v1 )

ライセンス: Link先を確認
Vinh Tong, Dat Quoc Nguyen, Trung Thanh Huynh, Thanh Tam Nguyen, Nguyen Quoc Viet Hung, Mathias Niepert(参考訳) 知識グラフ(KG)のアライメントと完了は通常、2つの独立したタスクとして扱われる。 最近の研究は、多言語KGと共通の実体と関係のアライメントのような複数のKGからの実体と関係のアライメントを活用しているが、多言語KGコンプリート(MKGC)が多言語KGアライメント(MKGA)の作成を支援する方法の深い理解はまだ限られている。 構造的不整合(MKGAモデルの主な課題)がKG完備化手法によって緩和されるという観測により,我々は知識グラフの連立完備化と整合化のための新しいモデルを提案する。 提案モデルでは,KGの完成とアライメントを共同で達成する2つのコンポーネントを組み合わせる。 これら2つのコンポーネントは,マルチホップ近傍構造を実体と関係表現にエンコードする関係対応グラフニューラルネットワークを用いている。 また,提案する。 (i)完成からの情報をアライメント成分に組み込む構造的不整合低減機構、 (ii)アライメント種子の伸長及び三重移動機構により、kgsアライメント中にアライメント種子と三重項を伸長する。 公開多言語ベンチマークを用いた大規模実験により,提案モデルが既存の競合ベースラインを上回り,mkgcとmkgaのタスクで新たな最先端結果を得た。

Knowledge graph (KG) alignment and completion are usually treated as two independent tasks. While recent work has leveraged entity and relation alignments from multiple KGs, such as alignments between multilingual KGs with common entities and relations, a deeper understanding of the ways in which multilingual KG completion (MKGC) can aid the creation of multilingual KG alignments (MKGA) is still limited. Motivated by the observation that structural inconsistencies -- the main challenge for MKGA models -- can be mitigated through KG completion methods, we propose a novel model for jointly completing and aligning knowledge graphs. The proposed model combines two components that jointly accomplish KG completion and alignment. These two components employ relation-aware graph neural networks that we propose to encode multi-hop neighborhood structures into entity and relation representations. Moreover, we also propose (i) a structural inconsistency reduction mechanism to incorporate information from the completion into the alignment component, and (ii) an alignment seed enlargement and triple transferring mechanism to enlarge alignment seeds and transfer triples during KGs alignment. Extensive experiments on a public multilingual benchmark show that our proposed model outperforms existing competitive baselines, obtaining new state-of-the-art results on both MKGC and MKGA tasks.
翻訳日:2022-10-18 18:33:35 公開日:2022-10-17
# spanproto: 2段階のスパンベースのプロトタイプネットワーク

SpanProto: A Two-stage Span-based Prototypical Network for Few-shot Named Entity Recognition ( http://arxiv.org/abs/2210.09049v1 )

ライセンス: Link先を確認
Jianing Wang, Chengyu Wang, Chuanqi Tan, Minghui Qiu, Songfang Huang, Jun Huang, Ming Gao(参考訳) 名前付きエンティティ認識(NER)は、アノテーション付きデータが少ない名前付きエンティティを識別することを目的としている。 以前の方法では、エンティティ境界の情報を無視し、必然的に巨大な非エンティティトークンによってパフォーマンスが影響を受けるトークン単位での分類に基づいてこの問題を解決する。 そこで本研究では,スパン抽出と参照分類を含む2段階アプローチにより,数発のNERに対処するセミナルスパンベースプロトタイプネットワーク(SpanProto)を提案する。 スパン抽出の段階では、逐次タグを大域境界行列に変換し、モデルが明示的な境界情報に集中できるようにする。 分類に言及するために、原型学習を活用してラベル付きスパンのセマンティック表現をキャプチャし、新しいクラスエンティティへの適応性を向上する。 モデル性能をさらに向上させるために,スパン抽出器が生成した偽陽性を現在のエピソードセットにラベル付けせずに分離し,マージンベース損失を提示して各プロトタイプ領域から分離する。 複数のベンチマーク実験により、我々のモデルは大きなマージンで強いベースラインを上回ります。

Few-shot Named Entity Recognition (NER) aims to identify named entities with very little annotated data. Previous methods solve this problem based on token-wise classification, which ignores the information of entity boundaries, and inevitably the performance is affected by the massive non-entity tokens. To this end, we propose a seminal span-based prototypical network (SpanProto) that tackles few-shot NER via a two-stage approach, including span extraction and mention classification. In the span extraction stage, we transform the sequential tags into a global boundary matrix, enabling the model to focus on the explicit boundary information. For mention classification, we leverage prototypical learning to capture the semantic representations for each labeled span and make the model better adapt to novel-class entities. To further improve the model performance, we split out the false positives generated by the span extractor but not labeled in the current episode set, and then present a margin-based loss to separate them from each prototype region. Experiments over multiple benchmarks demonstrate that our model outperforms strong baselines by a large margin.
翻訳日:2022-10-18 18:33:09 公開日:2022-10-17
# ConReader: 契約条項抽出のための契約における不適切な関係を探る

ConReader: Exploring Implicit Relations in Contracts for Contract Clause Extraction ( http://arxiv.org/abs/2210.08697v1 )

ライセンス: Link先を確認
Weiwen Xu, Yang Deng, Wenqiang Lei, Wenlong Zhao, Tat-Seng Chua, and Wai Lam(参考訳) 法律契約における暗黙の関係をモデル化し,契約条項の自動抽出(CCE)について検討する。 既存のCCEメソッドは主に契約をプレーンテキストとして扱い、高い複雑さの契約を理解する上で大きな障壁となる。 本研究ではまず,契約の複雑性問題を包括的に分析し,契約に共通する3つの暗黙の関係を抽出する。 1) 遠節の相関を捉えた長距離文脈関係 2 重要な用語とその対応する定義との関係をとらえる項-定義関係 3)同じタイプの節間の類似性をキャプチャする類似クロース関係。 次に、上記の3つの関係を利用して、より優れたコントラクト理解とCCEの改善を実現するための新しいフレームワークであるConReaderを提案する。 実験結果から、ConReaderは予測をより解釈しやすくし、従来の設定とゼロショット設定の両方で2つのCCEタスクで新しい最先端のタスクを実現する。

We study automatic Contract Clause Extraction (CCE) by modeling implicit relations in legal contracts. Existing CCE methods mostly treat contracts as plain text, creating a substantial barrier to understanding contracts of high complexity. In this work, we first comprehensively analyze the complexity issues of contracts and distill out three implicit relations commonly found in contracts, namely, 1) Long-range Context Relation that captures the correlations of distant clauses; 2) Term-Definition Relation that captures the relation between important terms with their corresponding definitions; and 3) Similar Clause Relation that captures the similarities between clauses of the same type. Then we propose a novel framework ConReader to exploit the above three relations for better contract understanding and improving CCE. Experimental results show that ConReader makes the prediction more interpretable and achieves new state-of-the-art on two CCE tasks in both conventional and zero-shot settings.
翻訳日:2022-10-18 18:25:27 公開日:2022-10-17
# Tencent AI Lab -hanghai Jiao Tong University Low-Resource Translation System for the WMT22 Translation Task

Tencent AI Lab - Shanghai Jiao Tong University Low-Resource Translation System for the WMT22 Translation Task ( http://arxiv.org/abs/2210.08742v1 )

ライセンス: Link先を確認
Zhiwei He, Xing Wang, Zhaopeng Tu, Shuming Shi, Rui Wang(参考訳) 本稿では, Tencent AI Lab - Shanghai Jiao Tong University (TAL-SJTU) Low-Resource Translation system for the WMT22 shared taskについて述べる。 我々は、英語$\Leftrightarrow$Livonianの一般翻訳タスクに参加している。 本システムは,M2M100を対象言語に適応させる新しい手法を用いて構築した。 1) クロスモデル単語埋め込みアライメント: 言語間単語埋め込みアライメントにヒントを得て, 事前学習した単語埋め込みをM2M100に転送し, リヴォニア語をサポートする。 2)言語適応戦略:エストニア語とラトビア語を多言語翻訳訓練の補助言語として活用し,英語・リヴォニア語に適応する。 3)データ拡張:英語-リヴォニア語の並列データを拡大するために、エストニア語とラトビア語をピボット言語として疑似パラレルデータを構築する。 (4) 微調整: 利用可能なすべてのデータを最大限に活用するために、バリデーションセットとオンラインバックトランスレーションでモデルを微調整し、パフォーマンスをさらに向上させます。 モデル評価では,(1)先行研究はUnicode正規化の不整合によるリヴォニア語の翻訳性能を過小評価しており,最大14.9BLEUスコアの差が生じる可能性がある。 2) 標準検証セットに加えて, モデル評価にラウンドトリップBLEUも採用している。 最終的に、我々の制約のないシステムは、リヴォニアンの英語のBLEUスコア17.0と30.4を達成する。

This paper describes Tencent AI Lab - Shanghai Jiao Tong University (TAL-SJTU) Low-Resource Translation systems for the WMT22 shared task. We participate in the general translation task on English$\Leftrightarrow$Livonian. Our system is based on M2M100 with novel techniques that adapt it to the target language pair. (1) Cross-model word embedding alignment: inspired by cross-lingual word embedding alignment, we successfully transfer a pre-trained word embedding to M2M100, enabling it to support Livonian. (2) Gradual adaptation strategy: we exploit Estonian and Latvian as auxiliary languages for many-to-many translation training and then adapt to English-Livonian. (3) Data augmentation: to enlarge the parallel data for English-Livonian, we construct pseudo-parallel data with Estonian and Latvian as pivot languages. (4) Fine-tuning: to make the most of all available data, we fine-tune the model with the validation set and online back-translation, further boosting the performance. In model evaluation: (1) We find that previous work underestimated the translation performance of Livonian due to inconsistent Unicode normalization, which may cause a discrepancy of up to 14.9 BLEU score. (2) In addition to the standard validation set, we also employ round-trip BLEU to evaluate the models, which we find more appropriate for this task. Finally, our unconstrained system achieves BLEU scores of 17.0 and 30.4 for English to/from Livonian.
翻訳日:2022-10-18 18:25:14 公開日:2022-10-17
# 要約候補の融合に向けて

Towards Summary Candidates Fusion ( http://arxiv.org/abs/2210.08779v1 )

ライセンス: Link先を確認
Mathieu Ravaut, Shafiq Joty, Nancy F. Chen(参考訳) sequence-to-sequence deep neural models fine-tuned for abstractive summarizationは、十分な人間のアノテーションでデータセット上で優れたパフォーマンスを達成することができる。 しかし、トップビームサーチ出力とオラクルビームとの間には広いギャップがあり、それらが完全なポテンシャルに到達していないことが示されている。 近年,より優れた要約候補を選択するための手法が提案されている。 しかし、このような方法は第1段階の候補が捉えた概要品質の側面によって制限される。 この制限を回避するために,いくつかの要約候補を融合して新しい抽象的第2段階要約を生成する,第2段階抽象要約の新しいパラダイムであるsummafusionを提案する。 本手法は,複数の要約データセットでよく機能し,融解サマリーのROUGEスコアと定性の両方を改善した。 fuseの候補がもっと悪い場合、例えば、新しい最先端設定をするときのような、特に良いことです。 コードとチェックポイントはhttps://github.com/ntunlp/SummaFusion/.comで公開します。

Sequence-to-sequence deep neural models fine-tuned for abstractive summarization can achieve great performance on datasets with enough human annotations. Yet, it has been shown that they have not reached their full potential, with a wide gap between the top beam search output and the oracle beam. Recently, re-ranking methods have been proposed, to learn to select a better summary candidate. However, such methods are limited by the summary quality aspects captured by the first-stage candidates. To bypass this limitation, we propose a new paradigm in second-stage abstractive summarization called SummaFusion that fuses several summary candidates to produce a novel abstractive second-stage summary. Our method works well on several summarization datasets, improving both the ROUGE scores and qualitative properties of fused summaries. It is especially good when the candidates to fuse are worse, such as in the few-shot setup where we set a new state-of-the-art. We will make our code and checkpoints available at https://github.com/ntunlp/SummaFusion/.
翻訳日:2022-10-18 18:24:45 公開日:2022-10-17
# トピック・グラウンド対話のための潜在変数付きトピック選択モデル

Sequential Topic Selection Model with Latent Variable for Topic-Grounded Dialogue ( http://arxiv.org/abs/2210.08801v1 )

ライセンス: Link先を確認
Xiaofei Wen, Wei Wei and Xian-Ling Mao(参考訳) 近年,過去の文脈と与えられたトピックシーケンスを通じて,より優れた応答を得られるように次のトピックを予測できることが注目されている。 しかし、既存のトピック予測ソリューションのほとんどは、現在の会話に関連のあるトピック遷移を含む可能性のある他のトピック誘導型会話を活用することなく、現在の会話とそれに対応するトピックシーケンスのみに焦点を当て、次の会話トピックを予測する。 そこで本稿では,全会話におけるトピック遷移を微妙に活用し,トピック遷移後のモデル化と,現在の会話に対する応答生成を導くための新しいアプローチであるシーケンシャル・グローバル・トピック・アテンション(sgta)を提案する。 具体的には,多変量スキューノルマル分布をハイブリッドカーネル関数でモデル化した潜在空間を導入し,グローバルレベル情報をシーケンスレベル情報と柔軟に統合し,分布サンプリング結果に基づいてトピックを予測する。 また,応答生成タスクを最適化するために,予測トピックの二次的選択に,トピックを意識した事前選択手法も活用した。 大規模な実験により、我々のモデルは予測および生成タスクの競争ベースラインを上回っていることが示された。

Recently, topic-grounded dialogue system has attracted significant attention due to its effectiveness in predicting the next topic to yield better responses via the historical context and given topic sequence. However, almost all existing topic prediction solutions focus on only the current conversation and corresponding topic sequence to predict the next conversation topic, without exploiting other topic-guided conversations which may contain relevant topic-transitions to current conversation. To address the problem, in this paper we propose a novel approach, named Sequential Global Topic Attention (SGTA) to exploit topic transition over all conversations in a subtle way for better modeling post-to-response topic-transition and guiding the response generation to the current conversation. Specifically, we introduce a latent space modeled as a Multivariate Skew-Normal distribution with hybrid kernel functions to flexibly integrate the global-level information with sequence-level information, and predict the topic based on the distribution sampling results. We also leverage a topic-aware prior-posterior approach for secondary selection of predicted topics, which is utilized to optimize the response generation task. Extensive experiments demonstrate that our model outperforms competitive baselines on prediction and generation tasks.
翻訳日:2022-10-18 18:24:28 公開日:2022-10-17
# AIM 2022がInstagramフィルタ除去に挑戦:方法と結果

AIM 2022 Challenge on Instagram Filter Removal: Methods and Results ( http://arxiv.org/abs/2210.08997v1 )

ライセンス: Link先を確認
Furkan K{\i}nl{\i}, Sami Mente\c{s}, Bar{\i}\c{s} \"Ozcan, Furkan K{\i}ra\c{c}, Radu Timofte, Yi Zuo, Zitao Wang, Xiaowen Zhang, Yu Zhu, Chenghua Li, Cong Leng, Jian Cheng, Shuai Liu, Chaoyu Feng, Furui Bai, Xiaotao Wang, Lei Lei, Tianzhi Ma, Zihan Gao, Wenxin He, Woon-Ha Yeo, Wang-Taek Oh, Young-Il Kim, Han-Cheol Ryu, Gang He, Shaoyi Long, S. M. A. Sharif, Rizwan Ali Naqvi, Sungjun Kim, Guisik Kim, Seohyeon Lee, Sabari Nathan, Priya Kansal(参考訳) 本稿では,Instagramフィルタ除去におけるAIM 2022チャレンジの方法と結果を紹介する。 ソーシャルメディアフィルタは連続した非線形操作によって画像を変換し、元のコンテンツの特徴マップを別の領域に補間する。 これにより、最近のディープラーニング戦略全体のパフォーマンスが低下する。 この課題の主な目標は、コンテンツを保存しながら、フィルタが与えた影響を緩和するリアルで視覚的に妥当な画像を作成することである。 提案手法は,元の画像に対してPSNR値でランク付けされる。 ベースラインとしてこのタスクに関する2つの先行研究があり、チャレンジの最終段階では合計9つのチームが競い合っています。 本報告では,提案手法の質的結果と課題に対するベンチマークを比較した。

This paper introduces the methods and the results of AIM 2022 challenge on Instagram Filter Removal. Social media filters transform the images by consecutive non-linear operations, and the feature maps of the original content may be interpolated into a different domain. This reduces the overall performance of the recent deep learning strategies. The main goal of this challenge is to produce realistic and visually plausible images where the impact of the filters applied is mitigated while preserving the content. The proposed solutions are ranked in terms of the PSNR value with respect to the original images. There are two prior studies on this task as the baseline, and a total of 9 teams have competed in the final phase of the challenge. The comparison of qualitative results of the proposed solutions and the benchmark for the challenge are presented in this report.
翻訳日:2022-10-18 18:09:19 公開日:2022-10-17
# リバーススタイル転送による画像信号プロセッサの反転

Reversing Image Signal Processors by Reverse Style Transferring ( http://arxiv.org/abs/2210.09074v1 )

ライセンス: Link先を確認
Furkan K{\i}nl{\i}, Bar{\i}\c{s} \"Ozcan, Furkan K{\i}ra\c{c}(参考訳) RAW画像データセットは、低レベルの視界における逆問題に対する標準RGB画像データセットよりも適しているが、文献では一般的ではない。 sRGBイメージをRAWフォーマットにマッピングすることに注力する研究もいくつかある。 srgbからrawフォーマットへのマッピングは、タスクが不適切な反転問題であるため、リバーススタイル転送の関連ドメインとなる可能性がある。 本研究では,ISP操作をエンド・ツー・エンドの学習パイプラインのスタイルファクタとしてモデル化することは可能か? そこで本研究では,適応的特徴正規化の助けを借りてISP操作を逆転させる新しいアーキテクチャ,すなわちRTT-ISP-Netを提案する。 この問題をリバーススタイル転送として定式化し、主に以前の作業で使用されるプラクティスに従っています。 提案アーキテクチャによるAIM Reversed ISPチャレンジにも参加しています。 結果から,破壊的あるいは修正的要因をスタイルとしてモデル化するという考え方は依然として有効であるが,このような課題ではさらなる改善が必要となる。

RAW image datasets are more suitable than the standard RGB image datasets for the ill-posed inverse problems in low-level vision, but not common in the literature. There are also a few studies to focus on mapping sRGB images to RAW format. Mapping from sRGB to RAW format could be a relevant domain for reverse style transferring since the task is an ill-posed reversing problem. In this study, we seek an answer to the question: Can the ISP operations be modeled as the style factor in an end-to-end learning pipeline? To investigate this idea, we propose a novel architecture, namely RST-ISP-Net, for learning to reverse the ISP operations with the help of adaptive feature normalization. We formulate this problem as a reverse style transferring and mostly follow the practice used in the prior work. We have participated in the AIM Reversed ISP challenge with our proposed architecture. Results indicate that the idea of modeling disruptive or modifying factors as style is still valid, but further improvements are required to be competitive in such a challenge.
翻訳日:2022-10-18 18:09:08 公開日:2022-10-17
# CramNet:ロバスト3次元物体検出のための光拘束クロスアテンションを用いたカメラレーダ融合

CramNet: Camera-Radar Fusion with Ray-Constrained Cross-Attention for Robust 3D Object Detection ( http://arxiv.org/abs/2210.09267v1 )

ライセンス: Link先を確認
Jyh-Jing Hwang and Henrik Kretzschmar and Joshua Manela and Sean Rafferty and Nicholas Armstrong-Crews and Tiffany Chen and Dragomir Anguelov(参考訳) ロバストな3Dオブジェクト検出は安全な自動運転に不可欠である。 カメラとレーダーセンサーは相補的な情報を捉え、異なる環境条件下でうまく機能するため、相乗効果がある。 しかし、カメラとレーダーデータの融合は困難であり、各センサーは垂直軸に沿った情報を欠いているため、カメラの深さが不明であり、レーダーの高度が不明である。 本研究では,カメラとレーダからのセンサ読み出しを3次元空間に融合する効率的な手法として,カメラとレーダーのマッチングネットワークcranchnetを提案する。 レーダ範囲の測定をカメラ深度予測の精度向上に活用するために,カメラ特徴とレーダ特徴との幾何学的対応の曖昧さを解消する新手法を提案する。 センサモダリティドロップアウトによるトレーニングをサポートし,カメラやレーダセンサが突然車両に故障した場合においても頑健な3dオブジェクト検出を実現する。 我々は,レーダー電波画像を提供する数少ない大規模データセットであるradiation datasetに関する広範囲な実験を通じて,核融合手法の有効性を実証する。 本手法は,Waymo Open Dataset上でのモノクル3D〜オブジェクト検出において,カメラのみによる競合性能を実現する。

Robust 3D object detection is critical for safe autonomous driving. Camera and radar sensors are synergistic as they capture complementary information and work well under different environmental conditions. Fusing camera and radar data is challenging, however, as each of the sensors lacks information along a perpendicular axis, that is, depth is unknown to camera and elevation is unknown to radar. We propose the camera-radar matching network CramNet, an efficient approach to fuse the sensor readings from camera and radar in a joint 3D space. To leverage radar range measurements for better camera depth predictions, we propose a novel ray-constrained cross-attention mechanism that resolves the ambiguity in the geometric correspondences between camera features and radar features. Our method supports training with sensor modality dropout, which leads to robust 3D~object detection, even when a camera or radar sensor suddenly malfunctions on a vehicle. We demonstrate the effectiveness of our fusion approach through extensive experiments on the RADIATE dataset, one of the few large-scale datasets that provide radar radio frequency imagery. A camera-only variant of our method achieves competitive performance in monocular 3D~object detection on the Waymo Open Dataset.
翻訳日:2022-10-18 18:08:36 公開日:2022-10-17
# コミュニティ検出におけるインプシットモデル,潜伏圧縮,内在バイアス,安価なランチ

Implicit models, latent compression, intrinsic biases, and cheap lunches in community detection ( http://arxiv.org/abs/2210.09186v1 )

ライセンス: Link先を確認
Tiago P. Peixoto, Alec Kirkley(参考訳) ネットワークをノードのクラスタに分割して大規模構造を要約することを目的としたコミュニティ検出のタスクは、さまざまな目的を持った多くの競合するアルゴリズムの開発を生み出した。 いくつかのコミュニティ検出手法は予測的であり、確率的生成モデルを通じてクラスタリングの目的を明示的に導出するが、他の手法は記述的であり、特定のアプリケーションによって動機づけられた目的に従ってネットワークを分割する。 本稿では,コミュニティ検出対象,推論対象,記述対象と,それに対応する暗黙的ネットワーク生成モデルとを関連付ける。 これにより、任意の目的の下でネットワークとその分割の記述長を計算し、異なるアルゴリズムのパフォーマンスを「基底真理」ラベルなしで比較するための原則的尺度を提供する。 提案手法は,任意のアルゴリズムに最適なコミュニティ検出問題の事例にもアクセス可能であり,この方法では,一般的な記述手法における固有のバイアスを明らかにし,過度に適合する傾向を説明する。 本フレームワークを用いて,500以上の構造的多様な経験的ネットワークのコーパスと,人工ネットワーク上でのコミュニティ検出手法を比較した。 より表現力のあるコミュニティ検出手法は、より特殊なアルゴリズムが最適に動作する少数の状況において、性能を低下させることなく、構造化データインスタンス上で一貫して優れた圧縮性能を示す。 本研究の結果は,非構造化データインスタンスに限定されているため,概念的にも現実的にも,コミュニティ検出における「無料ランチ」定理の意義を損なうものである。

The task of community detection, which aims to partition a network into clusters of nodes to summarize its large-scale structure, has spawned the development of many competing algorithms with varying objectives. Some community detection methods are inferential, explicitly deriving the clustering objective through a probabilistic generative model, while other methods are descriptive, dividing a network according to an objective motivated by a particular application, making it challenging to compare these methods on the same scale. Here we present a solution to this problem that associates any community detection objective, inferential or descriptive, with its corresponding implicit network generative model. This allows us to compute the description length of a network and its partition under arbitrary objectives, providing a principled measure to compare the performance of different algorithms without the need for "ground truth" labels. Our approach also gives access to instances of the community detection problem that are optimal to any given algorithm, and in this way reveals intrinsic biases in popular descriptive methods, explaining their tendency to overfit. Using our framework, we compare a number of community detection methods on artificial networks, and on a corpus of over 500 structurally diverse empirical networks. We find that more expressive community detection methods exhibit consistently superior compression performance on structured data instances, without having degraded performance on a minority of situations where more specialized algorithms perform optimally. Our results undermine the implications of the "no free lunch" theorem for community detection, both conceptually and in practice, since it is confined to unstructured data instances, unlike relevant community detection problems which are structured by requirement.
翻訳日:2022-10-18 18:07:28 公開日:2022-10-17
# チームゲーム」による軌道予測の再検討

Rethinking Trajectory Prediction via "Team Game" ( http://arxiv.org/abs/2210.08793v1 )

ライセンス: Link先を確認
Zikai Wei, Xinge Zhu, Bo Dai, Dahua Lin(参考訳) 複数エージェントの設定、例えばチームゲームにおける軌道を正確に予測するには、エージェント間の相互作用を効果的にモデル化することが重要である。 この目的のために多くの手法が開発されているが、既存の手法はディープネットアーキテクチャの一部としてこれらの相互作用を暗黙的にモデル化している。 しかし、現実の世界では、個人がグループを形成する場合や、同じグループの個人同士の相互作用が著しく異なるパターンに従う場合など、複数のレベルで相互作用が存在することが多い。 本稿では,対話型階層型潜在空間を介し,対話型グループコンセンサスの概念を明示的に導入する,マルチエージェント軌道予測の新しい定式化について述べる。 この定式化により、グループレベルと個人レベルの相互作用を共同で捉えることが可能となり、複雑なダイナミクスのモデリング能力が大幅に向上する。 チームスポーツと歩行者の2つのマルチエージェント設定において,提案手法は既存手法と比較して常に優れた性能を発揮する。

To accurately predict trajectories in multi-agent settings, e.g. team games, it is important to effectively model the interactions among agents. Whereas a number of methods have been developed for this purpose, existing methods implicitly model these interactions as part of the deep net architecture. However, in the real world, interactions often exist at multiple levels, e.g. individuals may form groups, where interactions among groups and those among the individuals in the same group often follow significantly different patterns. In this paper, we present a novel formulation for multi-agent trajectory prediction, which explicitly introduces the concept of interactive group consensus via an interactive hierarchical latent space. This formulation allows group-level and individual-level interactions to be captured jointly, thus substantially improving the capability of modeling complex dynamics. On two multi-agent settings, i.e. team sports and pedestrians, the proposed framework consistently achieves superior performance compared to existing methods.
翻訳日:2022-10-18 17:57:37 公開日:2022-10-17
# Merlin HugeCTR: GPUアクセラレーションによるレコメンダシステムのトレーニングと推論

Merlin HugeCTR: GPU-accelerated Recommender System Training and Inference ( http://arxiv.org/abs/2210.08803v1 )

ライセンス: Link先を確認
Joey Wang, Yingcan Wei, Minseok Lee, Matthias Langer, Fan Yu, Jie Liu, Alex Liu, Daniel Abel, Gems Guo, Jianbing Dong, Jerry Shi and Kunlun Li(参考訳) 本稿では,Merlin HugeCTRを紹介する。 Merlin HugeCTRは、クリックスルーレート推定のためのオープンソースのGPUアクセラレーション統合フレームワークである。 トレーニングと推論の両方を最適化し、モデル並列埋め込みとデータ並列ニューラルネットワークによる大規模モデルのトレーニングを可能にする。 特に、Merlin HugeCTRは高性能GPU埋め込みキャッシュと階層型ストレージアーキテクチャを組み合わせることで、オンラインモデル推論タスクの埋め込みの低レイテンシ検索を実現する。 MLPerf v1.0 DLRMモデルトレーニングベンチマークでは、Merlin HugeCTRは4x4ソケットCPUノード(4x4x28コア)上のPyTorch上の1つのDGX A100 (8x A100)上で最大24.6倍のスピードアップを達成する。 Merlin HugeCTRはまた、トレーニングをさらに加速するためにマルチノード環境を利用することもできる。 2021年末以降、Merlin HugeCTRは階層型パラメータサーバ(HPS)も備えており、NVIDIA Tritonサーバフレームワークによるデプロイメントをサポートし、GPUの計算能力を高速レコメンデーションモデル推論に活用している。 このHPSを使用すると、Merlin HugeCTRユーザはCPUベースライン実装よりも一般的な推奨モデルに対して5~62倍のスピードアップ(バッチサイズ依存)を達成することができる。

In this talk, we introduce Merlin HugeCTR. Merlin HugeCTR is an open source, GPU-accelerated integration framework for click-through rate estimation. It optimizes both training and inference, whilst enabling model training at scale with model-parallel embeddings and data-parallel neural networks. In particular, Merlin HugeCTR combines a high-performance GPU embedding cache with an hierarchical storage architecture, to realize low-latency retrieval of embeddings for online model inference tasks. In the MLPerf v1.0 DLRM model training benchmark, Merlin HugeCTR achieves a speedup of up to 24.6x on a single DGX A100 (8x A100) over PyTorch on 4x4-socket CPU nodes (4x4x28 cores). Merlin HugeCTR can also take advantage of multi-node environments to accelerate training even further. Since late 2021, Merlin HugeCTR additionally features a hierarchical parameter server (HPS) and supports deployment via the NVIDIA Triton server framework, to leverage the computational capabilities of GPUs for high-speed recommendation model inference. Using this HPS, Merlin HugeCTR users can achieve a 5~62x speedup (batch size dependent) for popular recommendation models over CPU baseline implementations, and dramatically reduce their end-to-end inference latency.
翻訳日:2022-10-18 17:51:27 公開日:2022-10-17
# 大規模Deep RecommendationモデルのためのGPU特化推論パラメータサーバ

A GPU-specialized Inference Parameter Server for Large-Scale Deep Recommendation Models ( http://arxiv.org/abs/2210.08804v1 )

ライセンス: Link先を確認
Yingcan Wei, Matthias Langer, Fan Yu, Minseok Lee, Kingsley Liu, Jerry Shi and Joey Wang(参考訳) 推薦システムは、ニュースフィード、ソーシャルネットワーク、eコマース、検索など、様々なモダンなアプリやWebサービスにとって非常に重要である。 ピーク予測精度を達成するため、現代のレコメンデーションモデルは、ディープラーニングとテラバイト規模の埋め込みテーブルを組み合わせて、基礎となるデータのきめ細かい表現を得る。 従来の推論サービスアーキテクチャでは、モデル全体を独立したサーバにデプロイする必要があります。 本稿では,オンラインレコメンデーションシステムの興味深く,挑戦的な推論領域について考察する。 本稿では,ハイパフォーマンスGPU埋め込みキャッシュと階層型ストレージアーキテクチャを組み合わせた,業界主導の分散レコメンデーション推論フレームワークであるHugeCTR階層パラメータサーバ(HPS)を提案し,オンラインモデル推論タスクに対する埋め込みの低レイテンシ検索を実現する。 中でもHPSは,(1)冗長な階層ストレージシステム,(2)NVIDIA GPUへの並列埋め込みを高速化する新しい高帯域キャッシュ,(3)オンライントレーニングサポート,(4)既存の大規模レコメンデーションワークフローへの統合を容易にする軽量APIを備えている。 その能力を実証するために、合成工学と公開データセットの両方を用いて広範な研究を行う。 我々はHPSが、一般的なレコメンデーションモデルのためのCPUベースライン実装よりも5~62倍のスピードアップ(バッチサイズに依存している)を達成することで、エンドツーエンドの推論遅延を大幅に削減できることを示した。 マルチGPU同時配置により、HPSは推論QPSを大幅に増加させることができる。

Recommendation systems are of crucial importance for a variety of modern apps and web services, such as news feeds, social networks, e-commerce, search, etc. To achieve peak prediction accuracy, modern recommendation models combine deep learning with terabyte-scale embedding tables to obtain a fine-grained representation of the underlying data. Traditional inference serving architectures require deploying the whole model to standalone servers, which is infeasible at such massive scale. In this paper, we provide insights into the intriguing and challenging inference domain of online recommendation systems. We propose the HugeCTR Hierarchical Parameter Server (HPS), an industry-leading distributed recommendation inference framework, that combines a high-performance GPU embedding cache with an hierarchical storage architecture, to realize low-latency retrieval of embeddings for online model inference tasks. Among other things, HPS features (1) a redundant hierarchical storage system, (2) a novel high-bandwidth cache to accelerate parallel embedding lookup on NVIDIA GPUs, (3) online training support and (4) light-weight APIs for easy integration into existing large-scale recommendation workflows. To demonstrate its capabilities, we conduct extensive studies using both synthetically engineered and public datasets. We show that our HPS can dramatically reduce end-to-end inference latency, achieving 5~62x speedup (depending on the batch size) over CPU baseline implementations for popular recommendation models. Through multi-GPU concurrent deployment, the HPS can also greatly increase the inference QPS.
翻訳日:2022-10-18 17:51:03 公開日:2022-10-17
# ptde:マルチエージェント強化学習のための蒸留処理によるパーソナライズトレーニング

PTDE: Personalized Training with Distillated Execution for Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2210.08872v1 )

ライセンス: Link先を確認
Yiqun Chen, Hangyu Mao, Tianle Zhang, Shiguang Wu, Bin Zhang, Jianye Hao, Dong Li, Bin Wang, Hongxing Chang(参考訳) 分散実行による集中訓練(CTDE)は多エージェント強化学習において非常に一般的なパラダイムである。 その主な特徴の1つは、グローバルな情報を最大限に活用して、q$-functionや一元的な批判から学ぶことだ。 本稿では,グローバルな情報を活用して,より優れた個別のQ$関数や個人アクターを直接学習する方法について検討する。 我々は,同一のグローバル情報をすべてのエージェントに無差別に適用しても良好なパフォーマンスには十分ではないことを見出し,より優れたパフォーマンスのためにエージェント固有のグローバル情報を得るために,各エージェントのグローバル情報を指定することを提案する。 さらに,エージェント固有のグローバル情報を分散実行時に使用するエージェントのローカル情報に抽出し,性能の低下を伴わずに処理を行う。 我々はこの新たなパラダイムをPTDE(Personalized Training with Distillated Execution)と呼ぶ。 PTDEは、多くの最先端のアルゴリズムと簡単に組み合わせて、パフォーマンスをさらに向上させることができ、SMACとGoogle Research Footballのシナリオで検証される。

Centralized Training with Decentralized Execution (CTDE) has been a very popular paradigm for multi-agent reinforcement learning. One of its main features is making full use of the global information to learn a better joint $Q$-function or centralized critic. In this paper, we in turn explore how to leverage the global information to directly learn a better individual $Q$-function or individual actor. We find that applying the same global information to all agents indiscriminately is not enough for good performance, and thus propose to specify the global information for each agent to obtain agent-specific global information for better performance. Furthermore, we distill such agent-specific global information into the agent's local information, which is used during decentralized execution without too much performance degradation. We call this new paradigm Personalized Training with Distillated Execution (PTDE). PTDE can be easily combined with many state-of-the-art algorithms to further improve their performance, which is verified in both SMAC and Google Research Football scenarios.
翻訳日:2022-10-18 17:50:36 公開日:2022-10-17
# ターボチャージソリューションの概念:ニューラル平衡解を用いたNE、CE、CCEの解法

Turbocharging Solution Concepts: Solving NEs, CEs and CCEs with Neural Equilibrium Solvers ( http://arxiv.org/abs/2210.09257v1 )

ライセンス: Link先を確認
Luke Marris, Ian Gemp, Thomas Anthony, Andrea Tacchetti, Siqi Liu, Karl Tuyls(参考訳) Nash Equilibria、Correlated Equilibria、Coarse Correlated Equilibriaといったソリューション概念は多くのマルチエージェント機械学習アルゴリズムに有用なコンポーネントである。 残念なことに、通常の形式のゲームを解くには、収束するのに制限的または非決定論的時間が必要であり、失敗する可能性がある。 本稿では, 固定形状, 購買速度, 決定論の全てのゲーム空間を近似的に解くために, ニューラルネットワークアーキテクチャを用いたニューラル平衡解法を提案する。 我々は,相対エントロピーを最小化したり,福祉を最大化するような一意的に平衡を選択できる柔軟な平衡選択フレームワークを定義する。 ネットワークは教師付きトレーニングデータを生成することなくトレーニングされる。 我々は大きなゲームに目覚ましいゼロショット一般化を示す。 このようなネットワークは、多くの可能なマルチエージェントアルゴリズムの強力なコンポーネントであると主張する。

Solution concepts such as Nash Equilibria, Correlated Equilibria, and Coarse Correlated Equilibria are useful components for many multiagent machine learning algorithms. Unfortunately, solving a normal-form game could take prohibitive or non-deterministic time to converge, and could fail. We introduce the Neural Equilibrium Solver which utilizes a special equivariant neural network architecture to approximately solve the space of all games of fixed shape, buying speed and determinism. We define a flexible equilibrium selection framework, that is capable of uniquely selecting an equilibrium that minimizes relative entropy, or maximizes welfare. The network is trained without needing to generate any supervised training data. We show remarkable zero-shot generalization to larger games. We argue that such a network is a powerful component for many possible multiagent algorithms.
翻訳日:2022-10-18 17:50:03 公開日:2022-10-17
# テレビ番組のマルチカメラ編集のための時間・文脈変換器

Temporal and Contextual Transformer for Multi-Camera Editing of TV Shows ( http://arxiv.org/abs/2210.08737v1 )

ライセンス: Link先を確認
Anyi Rao, Xuekun Jiang, Sichen Wang, Yuwei Guo, Zihao Liu, Bo Dai, Long Pang, Xiaoyu Wu, Dahua Lin, Libiao Jin(参考訳) 複数のカメラの中から適切なカメラビューを選択する能力は、テレビ番組の配信において重要な役割を果たす。 しかし、高品質なトレーニングデータがないため、統計的パターンを把握し、インテリジェントな処理を適用するのは難しい。 この問題を解決するために,我々はまず,コンサート,スポーツゲーム,ガラショー,コンテストを含む4つの異なるシナリオを用いて,この設定の新たなベンチマークを収集し,それぞれのシナリオに異なるカメラで記録された6つの同期トラックが含まれている。 14時間編集されたビデオにコントリビュートする88時間生ビデオが含まれている。 さらに,このベンチマークに基づいて,過去の写真やその他の視点からの手がかりを活用し,ショット遷移決定を行い,どの視点を使用するかを予測する新しい手法を提案する。 大規模な実験により,提案手法は,提案したマルチカメラ編集ベンチマークにおける既存手法よりも優れていた。

The ability to choose an appropriate camera view among multiple cameras plays a vital role in TV shows delivery. But it is hard to figure out the statistical pattern and apply intelligent processing due to the lack of high-quality training data. To solve this issue, we first collect a novel benchmark on this setting with four diverse scenarios including concerts, sports games, gala shows, and contests, where each scenario contains 6 synchronized tracks recorded by different cameras. It contains 88-hour raw videos that contribute to the 14-hour edited videos. Based on this benchmark, we further propose a new approach temporal and contextual transformer that utilizes clues from historical shots and other views to make shot transition decisions and predict which view to be used. Extensive experiments show that our method outperforms existing methods on the proposed multi-camera editing benchmark.
翻訳日:2022-10-18 17:42:41 公開日:2022-10-17
# GeoThermalCloud: 地熱資源探査のための機械学習

GeoThermalCloud: Machine Learning for Geothermal Resource Exploration ( http://arxiv.org/abs/2210.08685v1 )

ライセンス: Link先を確認
Maruti K. Mudunuru, Velimir V. Vesselinov, Bulbul Ahmmed(参考訳) 本稿では,pfa応用に向けた新しい地熱探査手法を提案する。 我々の方法論は、オープンソースのMLフレームワークGeoThermalCloud \url{https://github.com/SmartTensors/GeoThermalCloud.jl}を通じて提供されます。 GeoThermalCloudは、SmartTensors AIプラットフォーム \url{https://github.com/SmartTensors}で利用可能な、教師なし、教師付き、物理インフォームされたMLメソッドのシリーズを使用している。 ここでは、SmartTensors AIプラットフォームで利用可能なNMF$k$と呼ばれる教師なしMLアルゴリズムを用いて、提示された分析を行う。 我々のMLアルゴリズムは、情報的な決定を下すのに役立つ新しい現象、隠れパターン、メカニズムの発見を容易にする。 さらに、GeoThermalCloudは収集されたPFAデータを強化し、地熱資源を表す署名を発見する。 GeoThermalCloudを通じて、盲点系を効率的に発見するのに必要な地熱地帯データの隠れたパターンを特定できる。 従来のPFAで見落とされがちな地殻地熱のシグネチャはGeoThermalCloudを用いて抽出され、ML強化PFAの提供のために対象物質の専門家によって分析される。 我々はML手法を米国内の様々なオープンソース地熱データセットに適用した(これらの一部は過去のPFAの成果によって収集されている)。 その結果、これらの領域内のリソースタイプに関する貴重な洞察が得られます。 このMLによって強化されたワークフローにより、GeoThermalCloudは地熱地域社会にとって、既存のデータセットを改善し、地熱探査中にしばしば気づかない貴重な情報を抽出する魅力的な存在となっている。

This paper presents a novel ML-based methodology for geothermal exploration towards PFA applications. Our methodology is provided through our open-source ML framework, GeoThermalCloud \url{https://github.com/SmartTensors/GeoThermalCloud.jl}. The GeoThermalCloud uses a series of unsupervised, supervised, and physics-informed ML methods available in SmartTensors AI platform \url{https://github.com/SmartTensors}. Here, the presented analyses are performed using our unsupervised ML algorithm called NMF$k$, which is available in the SmartTensors AI platform. Our ML algorithm facilitates the discovery of new phenomena, hidden patterns, and mechanisms that helps us to make informed decisions. Moreover, the GeoThermalCloud enhances the collected PFA data and discovers signatures representative of geothermal resources. Through GeoThermalCloud, we could identify hidden patterns in the geothermal field data needed to discover blind systems efficiently. Crucial geothermal signatures often overlooked in traditional PFA are extracted using the GeoThermalCloud and analyzed by the subject matter experts to provide ML-enhanced PFA, which is informative for efficient exploration. We applied our ML methodology to various open-source geothermal datasets within the U.S. (some of these are collected by past PFA work). The results provide valuable insights into resource types within those regions. This ML-enhanced workflow makes the GeoThermalCloud attractive for the geothermal community to improve existing datasets and extract valuable information often unnoticed during geothermal exploration.
翻訳日:2022-10-18 17:39:51 公開日:2022-10-17
# 自己監督型視覚変換器と弱ラベルを用いた病理画像分類

Histopathological Image Classification based on Self-Supervised Vision Transformer and Weak Labels ( http://arxiv.org/abs/2210.09021v1 )

ライセンス: Link先を確認
Ahmet Gokberk Gul, Oezdemir Cetin, Christoph Reich, Tim Prangemeier, Nadine Flinner, Heinz Koeppl(参考訳) Whole Slide Image (WSI) 解析は、組織サンプルのがんの診断を容易にする強力な方法である。 この診断の自動化は様々な問題を引き起こし、特に大きな画像解像度と限定的なアノテーションによって引き起こされる。 WSIは一般的に100Kx100Kピクセルの解像度を示す。 ピクセルレベルでのWSIの癌領域のアノテーションは、労働集約的であり、高いレベルの専門知識を必要とする。 複数インスタンス学習(MIL)は、高価なピクセルレベルのアノテーションの必要性を軽減する。 milでは、病理学者ががん組織を含むかどうかに関する情報を提供するスライドレベルラベルで学習を行う。 本稿では,スライドレベルのアノテーションに基づく癌領域の分類と局所化のための新しい手法であるself-vit-milを提案する。 Self-ViT-MILは、ラベルに頼らずにリッチな特徴表現を学習するために、セルフ教師付き設定で事前訓練される。 最近のViTアーキテクチャは、Self-ViT-MILの機能抽出器を構築している。 がん領域のローカライズには、グローバルな注目を集めるMILアグリゲータが使用される。 我々の知る限りでは、MILベースのWSI分析タスクに自己監督型ViTを導入する最初のアプローチである。 一般的なCamelyon16データセットにアプローチの有効性を示す。 Self-ViT-MILは、曲線(AUC)の精度と面積の観点から、最先端のMILベースのアプローチを超越している。

Whole Slide Image (WSI) analysis is a powerful method to facilitate the diagnosis of cancer in tissue samples. Automating this diagnosis poses various issues, most notably caused by the immense image resolution and limited annotations. WSIs commonly exhibit resolutions of 100Kx100K pixels. Annotating cancerous areas in WSIs on the pixel level is prohibitively labor-intensive and requires a high level of expert knowledge. Multiple instance learning (MIL) alleviates the need for expensive pixel-level annotations. In MIL, learning is performed on slide-level labels, in which a pathologist provides information about whether a slide includes cancerous tissue. Here, we propose Self-ViT-MIL, a novel approach for classifying and localizing cancerous areas based on slide-level annotations, eliminating the need for pixel-wise annotated training data. Self-ViT- MIL is pre-trained in a self-supervised setting to learn rich feature representation without relying on any labels. The recent Vision Transformer (ViT) architecture builds the feature extractor of Self-ViT-MIL. For localizing cancerous regions, a MIL aggregator with global attention is utilized. To the best of our knowledge, Self-ViT- MIL is the first approach to introduce self-supervised ViTs in MIL-based WSI analysis tasks. We showcase the effectiveness of our approach on the common Camelyon16 dataset. Self-ViT-MIL surpasses existing state-of-the-art MIL-based approaches in terms of accuracy and area under the curve (AUC).
翻訳日:2022-10-18 17:33:46 公開日:2022-10-17
# マルチエージェント自動機械学習

Multi-Agent Automated Machine Learning ( http://arxiv.org/abs/2210.09084v1 )

ライセンス: Link先を確認
Zhaozhi Wang, Kefan Su, Jian Zhang, Huizhu Jia, Qixiang Ye, Xiaodong Xie, and Zongqing Lu(参考訳) 本稿では,自動機械学習(AutoML)におけるモジュールの協調最適化を効果的に行うことを目的としたマルチエージェント自動機械学習(MA2ML)を提案する。 MA2MLは、データ拡張(AUG)、ニューラルアーキテクチャサーチ(NAS)、ハイパーパラメータ(HPO)などの各機械学習モジュールをエージェントとして、最終的なパフォーマンスを報酬として、マルチエージェント強化学習問題を定式化する。 MA2MLはモジュール間の協力を強化するために各エージェントにクレジットを明示的に割り当て、検索効率を向上させるために政治外の学習を取り入れている。 理論的には、MA2MLは関節最適化の単調な改善を保証する。 大規模な実験により、MA2MLは計算コストの制約の下でImageNetの最先端のトップ-1精度(例えば、FLOPが600M/800M未満の$79.7\%/80.5\%)を得ることが示された。 広範なアブレーション研究は、ma2mlの信用割当とオフポリシー学習の利点を検証する。

In this paper, we propose multi-agent automated machine learning (MA2ML) with the aim to effectively handle joint optimization of modules in automated machine learning (AutoML). MA2ML takes each machine learning module, such as data augmentation (AUG), neural architecture search (NAS), or hyper-parameters (HPO), as an agent and the final performance as the reward, to formulate a multi-agent reinforcement learning problem. MA2ML explicitly assigns credit to each agent according to its marginal contribution to enhance cooperation among modules, and incorporates off-policy learning to improve search efficiency. Theoretically, MA2ML guarantees monotonic improvement of joint optimization. Extensive experiments show that MA2ML yields the state-of-the-art top-1 accuracy on ImageNet under constraints of computational cost, e.g., $79.7\%/80.5\%$ with FLOPs fewer than 600M/800M. Extensive ablation studies verify the benefits of credit assignment and off-policy learning of MA2ML.
翻訳日:2022-10-18 17:33:25 公開日:2022-10-17
# オートホワイトバランス補正のスタイルとしてのシーン照明のモデル化

Modeling the Lighting in Scenes as Style for Auto White-Balance Correction ( http://arxiv.org/abs/2210.09090v1 )

ライセンス: Link先を確認
Furkan K{\i}nl{\i}, Do\u{g}a Y{\i}lmaz, Bar{\i}\c{s} \"Ozcan, Furkan K{\i}ra\c{c}(参考訳) スタイルは、特徴空間の形成方法によって異なる概念(絵画スタイル、髪型、テクスチャ、色、フィルターなど)を指すこともある。 そこで本研究では,単一照明シーンにおける照明をスタイルの概念として解釈する新しいアイデアを提案する。 そこで本研究では,単光・混光シーンの照明をスタイルファクタとしてモデル化するオートホワイトバランス(awb)方式を提案する。 我々のAWB法は照明推定ステップを必要としないが、異なるWB設定で画像の重み付けマップを生成するためのネットワーク学習を含んでいる。 提案ネットワークは,マルチヘッドスタイル抽出モジュールによってシーンから抽出されたスタイル情報を利用する。 これらの重み付けマップとシーンを混合した後、AWB補正が完了する。 単一および混合照度データセットを用いた実験により,最近の研究と比較して,提案手法が有望な補正結果が得られることを示す。 これは、複数の照明を施したシーンの照明がスタイルの概念によってモデル化できることを示している。 ソースコードとトレーニングされたモデルはhttps://github.com/birdortyedi/lighting-as-style-awb-correctionで入手できる。

Style may refer to different concepts (e.g. painting style, hairstyle, texture, color, filter, etc.) depending on how the feature space is formed. In this work, we propose a novel idea of interpreting the lighting in the single- and multi-illuminant scenes as the concept of style. To verify this idea, we introduce an enhanced auto white-balance (AWB) method that models the lighting in single- and mixed-illuminant scenes as the style factor. Our AWB method does not require any illumination estimation step, yet contains a network learning to generate the weighting maps of the images with different WB settings. Proposed network utilizes the style information, extracted from the scene by a multi-head style extraction module. AWB correction is completed after blending these weighting maps and the scene. Experiments on single- and mixed-illuminant datasets demonstrate that our proposed method achieves promising correction results when compared to the recent works. This shows that the lighting in the scenes with multiple illuminations can be modeled by the concept of style. Source code and trained models are available on https://github.com/birdortyedi/lighting-as-style-awb-correction.
翻訳日:2022-10-18 17:33:05 公開日:2022-10-17
# Face Pasting Attack(英語)

Face Pasting Attack ( http://arxiv.org/abs/2210.09153v1 )

ライセンス: Link先を確認
Niklas Bunzel, Lukas Graner(参考訳) Cujo AIとAdversa AIはMLSecの顔認識チャレンジを主催した。 目標は、攻撃対象のブラックボックス顔認識モデルを攻撃することであった。 モデルは、目標クラスの自信とステルス性スコアを返した。 攻撃が成功するためには、ターゲットクラスはすべてのクラスの中で最も信頼され、ステルスネスは少なくとも0.5である必要がある。 私たちのアプローチでは、ターゲットの顔をソースイメージに貼り付けます。 位置、スケーリング、ローテーション、透明性属性を活用することで、3位に到達しました。 当社のアプローチでは,攻撃1回当たりのクエリ数が最終スコアで約200,攻撃成功で最低で約7.7であった。 コードはhttps://github.com/bunni90/FacePastingAttackで入手できる。

Cujo AI and Adversa AI hosted the MLSec face recognition challenge. The goal was to attack a black box face recognition model with targeted attacks. The model returned the confidence of the target class and a stealthiness score. For an attack to be considered successful the target class has to have the highest confidence among all classes and the stealthiness has to be at least 0.5. In our approach we paste the face of a target into a source image. By utilizing position, scaling, rotation and transparency attributes we reached 3rd place. Our approach took approximately 200 queries per attack for the final highest score and about ~7.7 queries minimum for a successful attack. The code is available at https://github.com/bunni90/ FacePastingAttack
翻訳日:2022-10-18 17:32:48 公開日:2022-10-17
# SGRAM:抽象的意味表現によるシーングラフ解析の改善

SGRAM: Improving Scene Graph Parsing via Abstract Meaning Representation ( http://arxiv.org/abs/2210.08675v1 )

ライセンス: Link先を確認
Woo Suk Choi, Yu-Jung Heo and Byoung-Tak Zhang(参考訳) シーングラフは、画像やテキストからグラフの形としてモデル化できる構造化された意味表現である。 画像ベースのシーングラフ生成研究は近年まで活発に行われてきたが,テキストベースのシーングラフ生成研究は行われていない。 本稿では,視覚シーンのテキスト記述からシーングラフを解析する問題に焦点を当てる。 中心となる考え方は、主に以前の研究で使われている依存性解析の代わりに抽象的意味表現(AMR)を使用することである。 amrは自然言語のグラフに基づく意味的形式論であり、文中のすべての単語に対する依存関係を考える依存解析とは対照的に、文中の単語の概念を抽象化する。 この目的のために,抽象的意味表現,SGRAM (Scene GRaph parsing via Abstract Meaning representation) を利用した,シンプルで効果的な2段階のシーングラフ解析フレームワークを設計する。 1)画像のテキスト記述をAMRグラフ(Text-to-AMR)に変換する 2) AMRグラフをトランスフォーマーベース言語モデルに符号化してシーングラフ(AMR-to-SG)を生成する。 実験結果から,本フレームワークが生成するシーングラフは,依存性解析に基づくモデルよりも11.61\%,事前学習したトランスフォーマー言語モデルを用いて前回のモデルより3.78\%上回ることがわかった。 さらに,シーングラフのダウンストリームタスクの一つである画像検索タスクにsgramを適用し,このフレームワークが生成するシーングラフの有効性を確認した。

Scene graph is structured semantic representation that can be modeled as a form of graph from images and texts. Image-based scene graph generation research has been actively conducted until recently, whereas text-based scene graph generation research has not. In this paper, we focus on the problem of scene graph parsing from textual description of a visual scene. The core idea is to use abstract meaning representation (AMR) instead of the dependency parsing mainly used in previous studies. AMR is a graph-based semantic formalism of natural language which abstracts concepts of words in a sentence contrary to the dependency parsing which considers dependency relationships on all words in a sentence. To this end, we design a simple yet effective two-stage scene graph parsing framework utilizing abstract meaning representation, SGRAM (Scene GRaph parsing via Abstract Meaning representation): 1) transforming a textual description of an image into an AMR graph (Text-to-AMR) and 2) encoding the AMR graph into a Transformer-based language model to generate a scene graph (AMR-to-SG). Experimental results show the scene graphs generated by our framework outperforms the dependency parsing-based model by 11.61\% and the previous state-of-the-art model using a pre-trained Transformer language model by 3.78\%. Furthermore, we apply SGRAM to image retrieval task which is one of downstream tasks for scene graph, and confirm the effectiveness of scene graphs generated by our framework.
翻訳日:2022-10-18 17:24:05 公開日:2022-10-17
# 特徴ベースコーディネートネットワークを用いたMRIのスケール非依存的超解像

Scale-Agnostic Super-Resolution in MRI using Feature-Based Coordinate Networks ( http://arxiv.org/abs/2210.08676v1 )

ライセンス: Link先を確認
Dave Van Veen, Rogier van der Sluijs, Batu Ozturkler, Arjun Desai, Christian Bluethgen, Robert D. Boutin, Marc H. Willis, Gordon Wetzstein, David Lindell, Shreyas Vasanawala, John Pauly, Akshay S. Chaudhari(参考訳) mriにおける超解像処理に座標ネットワークデコーダを用いることを提案する。 座標ネットワークの連続信号表現は、このアプローチをスケールに依存しない、すなわち連続的なスケールをトレーニングし、任意の解像度でクエリすることができる。 本質的にノイズの多いデータに対してスーパーレゾリューションを行うのが難しいため,複数のデノイジング戦略の下でネットワークの動作解析を行う。 最後に,本手法を標準畳み込みデコーダと比較し,定量的測定と,新たに開発した医療画像のwebベース評価ツールであるvoxelで実施した放射線学的検討の両方を用いて検討した。

We propose using a coordinate network decoder for the task of super-resolution in MRI. The continuous signal representation of coordinate networks enables this approach to be scale-agnostic, i.e. one can train over a continuous range of scales and subsequently query at arbitrary resolutions. Due to the difficulty of performing super-resolution on inherently noisy data, we analyze network behavior under multiple denoising strategies. Lastly we compare this method to a standard convolutional decoder using both quantitative metrics and a radiologist study implemented in Voxel, our newly developed tool for web-based evaluation of medical images.
翻訳日:2022-10-18 17:23:39 公開日:2022-10-17
# ODG-Q:オンラインドメイン一般化によるロバスト量子化

ODG-Q: Robust Quantization via Online Domain Generalization ( http://arxiv.org/abs/2210.08701v1 )

ライセンス: Link先を確認
Chaofan Tao, Ngai Wong(参考訳) 低ビット幅へのニューラルネットワークの量子化は、リソース制限エッジハードウェア上のモデル展開において重要である。 量子化ネットワークはモデルサイズとメモリフットプリントが小さいが、敵の攻撃に対して脆弱である。 しかし,量子化ネットワークのロバスト性やトレーニング効率に関する研究は少ない。 そこで本研究では,オンラインドメイン一般化問題であるODG-Qを,トレーニング中に低コストで多様な逆データを生成する手法を提案する。 ODG-Qは、様々な敵の攻撃に対して、既存の作業よりも一貫して優れています。 例えば、cifar-10データセットでは、odg-qは5つの一般的なホワイトボックス攻撃で平均49.2%改善され、5つの一般的なブラックボックス攻撃で平均21.7%改善されている。 私たちの知る限りでは、この研究はimagenet上で量子化ニューラルネットワークとバイナリニューラルネットワークの両方をトレーニングし、異なる攻撃下で一貫して堅牢性を向上させる最初の作業です。 また,攻撃データに対するモデルリスクの限界を考慮した odg-q の理論的知見を提供する。

Quantizing neural networks to low-bitwidth is important for model deployment on resource-limited edge hardware. Although a quantized network has a smaller model size and memory footprint, it is fragile to adversarial attacks. However, few methods study the robustness and training efficiency of quantized networks. To this end, we propose a new method by recasting robust quantization as an online domain generalization problem, termed ODG-Q, which generates diverse adversarial data at a low cost during training. ODG-Q consistently outperforms existing works against various adversarial attacks. For example, on CIFAR-10 dataset, ODG-Q achieves 49.2% average improvements under five common white-box attacks and 21.7% average improvements under five common black-box attacks, with a training cost similar to that of natural training (viz. without adversaries). To our best knowledge, this work is the first work that trains both quantized and binary neural networks on ImageNet that consistently improve robustness under different attacks. We also provide a theoretical insight of ODG-Q that accounts for the bound of model risk on attacked data.
翻訳日:2022-10-18 17:23:27 公開日:2022-10-17
# データ駆動型短期海氷地域予測

Data-Driven Short-Term Daily Operational Sea Ice Regional Forecasting ( http://arxiv.org/abs/2210.08877v1 )

ライセンス: Link先を確認
Timofey Grigoryev, Polina Verezemskaya, Mikhail Krinitskiy, Nikita Anikin, Alexander Gavrikov, Ilya Trofimov, Nikita Balabin, Aleksei Shpilman, Andrei Eremchenko, Sergey Gulev, Evgeny Burnaev, Vladimir Vanovskiy(参考訳) 地球温暖化により北極は海洋活動に利用でき、安全のために信頼性の高い海氷予測が要求された。 海洋氷の数値モデルは非常に計算量が多いが、比較的軽量なmlベースの手法はより効率的である。 多くの研究は、北極における海氷濃度を予測する古典的なアプローチとともに、異なる深層学習モデルを利用してきた。 しかし、日々の運用予測に注目して、運用に必要なデータのリアルタイム可用性を検討することはわずかである。 本研究は,このギャップを埋め,今後10日間の海氷予測のために2つの体制で訓練されたU-Netモデルの性能を検討することを目的とする。 このディープラーニングモデルは,気象データの追加と複数リージョンでのトレーニングによって,単純なベースラインをかなりのマージンで上回ることができ,その品質を向上できることを示す。 実用的な結果として,バレンツ海,ラブラドール海,ラプテフ海地域での海氷予測を行う高速で柔軟なツールを構築した。

Global warming made the Arctic available for marine operations and created demand for reliable operational sea ice forecasts to make them safe. While ocean-ice numerical models are highly computationally intensive, relatively lightweight ML-based methods may be more efficient in this task. Many works have exploited different deep learning models alongside classical approaches for predicting sea ice concentration in the Arctic. However, only a few focus on daily operational forecasts and consider the real-time availability of data they need for operation. In this work, we aim to close this gap and investigate the performance of the U-Net model trained in two regimes for predicting sea ice for up to the next 10 days. We show that this deep learning model can outperform simple baselines by a significant margin and improve its quality by using additional weather data and training on multiple regions, ensuring its generalization abilities. As a practical outcome, we build a fast and flexible tool that produces operational sea ice forecasts in the Barents Sea, the Labrador Sea, and the Laptev Sea regions.
翻訳日:2022-10-18 17:23:07 公開日:2022-10-17
# FST格子を用いたMMIトレーニングに関する一考察

A Treatise On FST Lattice Based MMI Training ( http://arxiv.org/abs/2210.08918v1 )

ライセンス: Link先を確認
Adnan Haider, Tim Ng, Zhen Huang, Xingyu Na and Antti Veikko Rosti(参考訳) 最大相互情報(MMI)は、音声認識音響モデルのシーケンスレベルの訓練のための2つのデファクト手法の1つである。 本稿では、標準有限状態トランスデューサ(FST)格子に基づくMMIトレーニングフレームワークの設計実装によって引き起こされる暗黙的なモデリング決定を分離し、特定し、前進させることを目的とする。 本論文は, 予め選択した数値計算器のアライメントを維持する必要性を特に検討し, フライでのFST分母格子の決定の重要性を高める。 ハエのFST格子決定式を用いた効果は、仮説レベルでの識別を保証するために数学的に示され、18K時間マンダリンデータセットと2.8K時間英語データセットの深部CNNモデルのトレーニングを通じて実証的に示される。 アシスタントタスクとディクテーションタスクでは、標準的なFST格子に基づくアプローチよりも2.3-4.6%の相対的なWER削減(WERR)を実現している。

Maximum mutual information (MMI) has become one of the two de facto methods for sequence-level training of speech recognition acoustic models. This paper aims to isolate, identify and bring forward the implicit modelling decisions induced by the design implementation of standard finite state transducer (FST) lattice based MMI training framework. The paper particularly investigates the necessity to maintain a preselected numerator alignment and raises the importance of determinizing FST denominator lattices on the fly. The efficacy of employing on the fly FST lattice determinization is mathematically shown to guarantee discrimination at the hypothesis level and is empirically shown through training deep CNN models on a 18K hours Mandarin dataset and on a 2.8K hours English dataset. On assistant and dictation tasks, the approach achieves between 2.3-4.6% relative WER reduction (WERR) over the standard FST lattice based approach.
翻訳日:2022-10-18 17:22:52 公開日:2022-10-17
# DE-CROP:事前学習型分類器のデータ効率保証ロバスト性

DE-CROP: Data-efficient Certified Robustness for Pretrained Classifiers ( http://arxiv.org/abs/2210.08929v1 )

ライセンス: Link先を確認
Gaurav Kumar Nayak, Ruchit Rawal, Anirban Chakraborty(参考訳) ランダム化平滑化を用いた認証防御は、l2攻撃に対するディープニューラルネットワークの堅牢性を保証するための一般的なテクニックである。 既存の作業では、トレーニングデータ全体のカスタムデノイザネットワークをトレーニングすることで、事前訓練された非ロバストモデルを確実に確保するためにこの技術を使用している。 しかしながら、トレーニングセットへのアクセスは、高い送信コストやプロプライエタリなデータの性質といった制約のために、少数のデータサンプルに限定される可能性がある。 そこで,本研究では,「少数のトレーニングサンプルを用いて事前学習したモデルの堅牢性を認証する方法」という新しい問題を定式化する。 限られたサンプルで既存の技術を直接使用してカスタムデノイザーをトレーニングすることは、認証が不十分であることを観察する。 これを解決するために,提案手法 (DE-CROP) は,各トレーニングサンプルに対応するクラス境界および補間サンプルを生成し,事前学習した分類器の特徴空間の多様性を確保する。 生成したサンプルの消音出力と分類器のロジット空間における元のトレーニングサンプルとの類似性を最大化することでデノイザーを訓練する。 また、ドメイン判別器と最大平均偏差を用いて分布レベルマッチングを行い、さらなる利益を得る。 ホワイトボックスのセットアップでは、複数のベンチマークデータセットのベースラインを大きく改善し、挑戦的なブラックボックスのセットアップでも同様のパフォーマンスを報告します。

Certified defense using randomized smoothing is a popular technique to provide robustness guarantees for deep neural networks against l2 adversarial attacks. Existing works use this technique to provably secure a pretrained non-robust model by training a custom denoiser network on entire training data. However, access to the training set may be restricted to a handful of data samples due to constraints such as high transmission cost and the proprietary nature of the data. Thus, we formulate a novel problem of "how to certify the robustness of pretrained models using only a few training samples". We observe that training the custom denoiser directly using the existing techniques on limited samples yields poor certification. To overcome this, our proposed approach (DE-CROP) generates class-boundary and interpolated samples corresponding to each training sample, ensuring high diversity in the feature space of the pretrained classifier. We train the denoiser by maximizing the similarity between the denoised output of the generated sample and the original training sample in the classifier's logit space. We also perform distribution level matching using domain discriminator and maximum mean discrepancy that yields further benefit. In white box setup, we obtain significant improvements over the baseline on multiple benchmark datasets and also report similar performance under the challenging black box setup.
翻訳日:2022-10-18 17:22:38 公開日:2022-10-17
# ビジュアルディベート

Visual Debates ( http://arxiv.org/abs/2210.09015v1 )

ライセンス: Link先を確認
Avinash Kori, Ben Glocker, Francesca Toni(参考訳) 特定のトピックについて異なる視点を得る自然な方法は、参加者が議論し、そのトピックに反対する議論を行うことである。 本稿では,マルチプレイヤーシーケンシャルゼロサムゲームとしてモデル化することで,特定の予測を行うための分類器の推論を理解するための新しい議論フレームワークを提案する。 プレイヤーは、他のプレイヤーの反論に対して自身の議論を調整することで、ユーティリティーを最大化する。 我々のフレームワークの対照的な性質は、対戦相手が見逃した推論の軌跡を拾い上げることで、プレイヤーに多様な議論を行うよう促す。 したがって、我々のフレームワークは、なぜ分類者が特定の予測をしたのかという疑問に答える。 プレイヤーが分類者の決定に異議を唱えたり反対したりすることで。 提案された構成では、質問と分類器の潜在知識が与えられた場合、どちらのエージェントも、分類器の決定を支持するか、矛盾する引数の提案を順番に行う;ここでの議論は、連続分類器の離散された潜在空間から特定の特徴の選択に対応する。 議論の終わりまでに、我々は支援的かつマニピュレーション的な特徴の集合を収集し、分類器の内部的推論を記述する説明として機能する。 主観的検証のための幾何学的SHAPEおよびMNISTデータセットに対する視覚的議論と高解像度AFHQデータセットについて示す。 さらなる調査のために、我々のフレームワークは \url{https://github.com/koriavinash1/VisualDebates} で利用可能です。

The natural way of obtaining different perspectives on any given topic is by conducting a debate, where participants argue for and against the topic. Here, we propose a novel debate framework for understanding the classifier's reasoning for making a particular prediction by modelling it as a multiplayer sequential zero-sum game. The players aim to maximise their utilities by adjusting their arguments with respect to other players' counterarguments. The contrastive nature of our framework encourages players to put forward diverse arguments, picking up the reasoning trails missed by their opponents. Thus, our framework answers the question: why did the classifier make a certain prediction?, by allowing players to argue for and against the classifier's decision. In the proposed setup, given the question and the classifier's latent knowledge, both agents take turns in proposing arguments to support or contradict the classifier's decision; arguments here correspond to the selection of specific features from the discretised latent space of the continuous classifier. By the end of the debate, we collect sets of supportive and manipulative features, serving as an explanation depicting the internal reasoning of the classifier. We demonstrate our Visual Debates on the geometric SHAPE and MNIST datasets for subjective validation, followed by the high-resolution AFHQ dataset. For further investigation, our framework is available at \url{https://github.com/koriavinash1/VisualDebates}.
翻訳日:2022-10-18 17:21:58 公開日:2022-10-17
# 効率的な不確実性推定のためのパッケージアンサンブル

Packed-Ensembles for Efficient Uncertainty Estimation ( http://arxiv.org/abs/2210.09184v1 )

ライセンス: Link先を確認
Olivier Laurent, Adrien Lafage, Enzo Tartaglione, Geoffrey Daniel, Jean-Marc Martinez, Andrei Bursuc and Gianni Franchi(参考訳) ディープアンサンブル(de)は、精度、キャリブレーション、不確実性推定、分散検出といった重要な指標において優れたパフォーマンスを達成する、顕著なアプローチである。 しかし、現実のシステムのハードウェア上の制限は、より小さなアンサンブルと低いキャパシティネットワークに制約され、性能と特性が著しく低下する。 符号化空間の寸法を慎重に調整し,軽量な構造化アンサンブルを設計・訓練する戦略であるPacked-Ensembles (PE)を紹介した。 我々は、グループ化された畳み込みを利用してアンサンブルを単一の共通バックボーンとフォワードパスに並列化し、トレーニングと推論速度を改善する。 PEは単一の標準ニューラルネットワークのメモリ予算の下で動作するように設計されている。 広範な研究を通じて、peはdeの特性、例えば多様性を忠実に保存し、その性能を精度、キャリブレーション、分散検出、分散シフトに対するロバスト性の観点から一致させることを示した。

Deep Ensembles (DE) are a prominent approach achieving excellent performance on key metrics such as accuracy, calibration, uncertainty estimation, and out-of-distribution detection. However, hardware limitations of real-world systems constrain to smaller ensembles and lower capacity networks, significantly deteriorating their performance and properties. We introduce Packed-Ensembles (PE), a strategy to design and train lightweight structured ensembles by carefully modulating the dimension of their encoding space. We leverage grouped convolutions to parallelize the ensemble into a single common backbone and forward pass to improve training and inference speeds. PE is designed to work under the memory budget of a single standard neural network. Through extensive studies we show that PE faithfully preserve the properties of DE, e.g., diversity, and match their performance in terms of accuracy, calibration, out-of-distribution detection and robustness to distribution shift.
翻訳日:2022-10-18 17:15:53 公開日:2022-10-17
# 分子の条件付き神経プロセス

Conditional Neural Processes for Molecules ( http://arxiv.org/abs/2210.09211v1 )

ライセンス: Link先を確認
Miguel Garcia-Ortegon, Andreas Bender and Sergio Bacallado(参考訳) ニューラルプロセス(英: Neural Process, NP)は、ガウス過程(英語版) (GP) に類似した特性を持つ伝達学習のモデルである。 それらは同じ入力空間で多くの関連する関数をほとんど観測しないデータモデリングに長けており、gpsが要求するベイズ更新よりも計算コストがはるかに低い変動目標を最小化することで訓練される。 これまで、NPのほとんどの研究は、現実的な伝達学習タスクを代表していない低次元データセットに焦点を当ててきた。 薬物発見は、多くの化学的性質や機能からなるデータセットによって特徴づけられる応用分野の一つであり、わずかに観察されているが、分子入力の共有特徴や表現に依存している。 本稿では,MLモデルのベンチマークのためのドッキングスコアのデータセットであるDOCKSTRINGに対して,条件付きニューラルプロセス(CNP)を適用する。 cnpは、qsarモデルに共通する教師付き学習ベースラインと、ニューラルネットワークレグレッタの事前トレーニングと改良に基づくトランスファー学習の代替モデルと比較して、数少ない学習タスクにおいて競争力を示す。 我々は,CNPの確率的性質を示すベイズ最適化実験を行い,不確実な定量化におけるモデルの欠点について議論する。

Neural processes (NPs) are models for transfer learning with properties reminiscent of Gaussian Processes (GPs). They are adept at modelling data consisting of few observations of many related functions on the same input space and are trained by minimizing a variational objective, which is computationally much less expensive than the Bayesian updating required by GPs. So far, most studies of NPs have focused on low-dimensional datasets which are not representative of realistic transfer learning tasks. Drug discovery is one application area that is characterized by datasets consisting of many chemical properties or functions which are sparsely observed, yet depend on shared features or representations of the molecular inputs. This paper applies the conditional neural process (CNP) to DOCKSTRING, a dataset of docking scores for benchmarking ML models. CNPs show competitive performance in few-shot learning tasks relative to supervised learning baselines common in QSAR modelling, as well as an alternative model for transfer learning based on pre-training and refining neural network regressors. We present a Bayesian optimization experiment which showcases the probabilistic nature of CNPs and discuss shortcomings of the model in uncertainty quantification.
翻訳日:2022-10-18 17:15:32 公開日:2022-10-17
# 確率パス問題の統一アルゴリズム

A Unified Algorithm for Stochastic Path Problems ( http://arxiv.org/abs/2210.09255v1 )

ライセンス: Link先を確認
Christoph Dann, Chen-Yu Wei, Julian Zimmert(参考訳) 確率経路問題における強化学習について検討した。 これらの問題の目標は、エージェントが終端状態に到達するまで、期待される報酬の総和を最大化することである。 簡単な楽観的アルゴリズムを解析することにより,この問題に対する最初の後悔の保証を提供する。 我々の後悔の束縛は、すべての非肯定的な報酬を伴う確率的短大経路(ssp)の、よく研究された特別な場合の最もよく知られた結果と一致する。 SSPの場合、報酬のスケールがB_\star$である場合の適応手順を示す。 我々は適応の代償がないことを示し、我々の後悔は既知の$B_\star$と一致している。 また,全ての報酬が非負である確率的最長経路(SLP)の特殊症例に対するスケール適応法も提案する。 しかし、SSPとは異なり、適応には避けられない価格があることが低い境界を通して示される。

We study reinforcement learning in stochastic path (SP) problems. The goal in these problems is to maximize the expected sum of rewards until the agent reaches a terminal state. We provide the first regret guarantees in this general problem by analyzing a simple optimistic algorithm. Our regret bound matches the best known results for the well-studied special case of stochastic shortest path (SSP) with all non-positive rewards. For SSP, we present an adaptation procedure for the case when the scale of rewards $B_\star$ is unknown. We show that there is no price for adaptation, and our regret bound matches that with a known $B_\star$. We also provide a scale adaptation procedure for the special case of stochastic longest paths (SLP) where all rewards are non-negative. However, unlike in SSP, we show through a lower bound that there is an unavoidable price for adaptation.
翻訳日:2022-10-18 17:15:12 公開日:2022-10-17
# 家庭内レバレッジ時系列予測のための時間空間依存型深層学習モデル(TSEN)

Temporal-Spatial dependencies ENhanced deep learning model (TSEN) for household leverage series forecasting ( http://arxiv.org/abs/2210.08668v1 )

ライセンス: Link先を確認
Hu Yang, Yi Huang, Haijun Wang, Yu Chen(参考訳) 金融時系列予測のための正確な予測モデルのための時間的パターンと空間的パターンの両方を解析することは、時間的空間的ダイナミクスの複雑な性質により困難である:異なる場所からの時系列は、しばしば異なるパターンを持つ。 深層学習の応用に触発されて,中国における家庭利用予測の課題を解決するための新しいモデルを提案する。 提案手法は,複数のRNN層とアテンション層から構成される。各RNN層は,多変量外生系列を持つ特定の系列の時間パターンを自動的に学習し,アテンション層は空間相関重みを学習し,同時にグローバル表現を得る。 その結果,新しい手法は家庭の時間空間的ダイナミクスをうまく捉え,より正確で確実な予測結果が得られることがわかった。 さらにシミュレーションにより,正確な予測結果を得るためにはクラスタリングと相関系列の選択が必要であることが示された。

Analyzing both temporal and spatial patterns for an accurate forecasting model for financial time series forecasting is a challenge due to the complex nature of temporal-spatial dynamics: time series from different locations often have distinct patterns; and for the same time series, patterns may vary as time goes by. Inspired by the successful applications of deep learning, we propose a new model to resolve the issues of forecasting household leverage in China. Our solution consists of multiple RNN-based layers and an attention layer: each RNN-based layer automatically learns the temporal pattern of a specific series with multivariate exogenous series, and then the attention layer learns the spatial correlative weight and obtains the global representations simultaneously. The results show that the new approach can capture the temporal-spatial dynamics of household leverage well and get more accurate and solid predictive results. More, the simulation also studies show that clustering and choosing correlative series are necessary to obtain accurate forecasting results.
翻訳日:2022-10-18 17:06:36 公開日:2022-10-17
# RbX:地域別予測モデルの説明

RbX: Region-based explanations of prediction models ( http://arxiv.org/abs/2210.08721v1 )

ライセンス: Link先を確認
Ismael Lemhadri, Harrison H. Li, and Trevor Hastie(参考訳) 本稿では,クエリアクセスのみを用いたブラックボックス予測モデルからスカラー出力の局所的な説明を生成するための,領域ベース説明(RbX)を提案する。 RbXは、ある目標点における予測に近似した特徴空間の領域を近似する凸ポリトープを構築するための欲求アルゴリズムに基づいている。 この領域は、機能のスケールではなく、予測のスケールでユーザによって完全に指定されます。 このポリトープの幾何学、特にポリトープから逃れるために必要な各座標の変化は、各特徴に対する予測の局所的な感度を定量化する。 これらの「景観距離」は、地域的重要性によって特徴をランク付けするために標準化される。 RbXは「スパーシティ公理(sparsity axiom)」を満たすことが保証されており、予測モデルに入らない特徴は重要視されない。 同時に、実データ例と合成実験では、rbxが既存の方法よりもローカルに関係のある全ての特徴をより容易に検出できることを示す。

We introduce region-based explanations (RbX), a novel, model-agnostic method to generate local explanations of scalar outputs from a black-box prediction model using only query access. RbX is based on a greedy algorithm for building a convex polytope that approximates a region of feature space where model predictions are close to the prediction at some target point. This region is fully specified by the user on the scale of the predictions, rather than on the scale of the features. The geometry of this polytope - specifically the change in each coordinate necessary to escape the polytope - quantifies the local sensitivity of the predictions to each of the features. These "escape distances" can then be standardized to rank the features by local importance. RbX is guaranteed to satisfy a "sparsity axiom," which requires that features which do not enter into the prediction model are assigned zero importance. At the same time, real data examples and synthetic experiments show how RbX can more readily detect all locally relevant features than existing methods.
翻訳日:2022-10-18 17:06:17 公開日:2022-10-17
# 創薬のための産業規模の連携学習

Industry-Scale Orchestrated Federated Learning for Drug Discovery ( http://arxiv.org/abs/2210.08871v1 )

ライセンス: Link先を確認
Martijn Oldenhof, Gergely \'Acs, Bal\'azs Pej\'o, Ansgar Schuffenhauer, Nicholas Holway, No\'e Sturm, Arne Dieckmann, Oliver Fortmeier, Eric Boniface, Cl\'ement Mayer, Arnaud Gohier, Peter Schmidtke, Ritsuya Niwayama, Dieter Kopecky, Lewis Mervin, Prakash Chandra Rathi, Lukas Friedrich, Andr\'as Formanek, Peter Antal, Jordon Rahaman, Adam Zalewski, Ezron Oluoch, Manuel St\"o{\ss}el, Michal Van\v{c}o, David Endico, Fabien Gelus, Tha\"is de Boisfoss\'e, Adrien Darbier, Ashley Nicollet, Matthieu Blotti\`ere, Maria Telenczuk, Van Tien Nguyen, Thibaud Martinez, Camille Boillet, Kelvin Moutet, Alexandre Picosson, Aur\'elien Gasser, Inal Djafar, \'Ad\'am Arany, Jaak Simm, Yves Moreau, Ola Engkvist, Hugo Ceulemans, Camille Marini, Mathieu Galtier(参考訳) 医薬品発見にフェデレートラーニングを適用するため,欧州イノベーティブ・メディカルズ・イニシアチブ (IMI) プロジェクト MELLODDY (grant n{\deg}831472) の文脈で新しいプラットフォームを開発した。 私たちの知る限り、MELLODDYプラットフォームは、個々のパートナーの機密データを共有することなく、医薬品発見のためのグローバルなフェデレーションモデルの作成を可能にする、最初の業界規模のプラットフォームでした。 フェデレーションモデルは、各トレーニングイテレーションに続く暗号的かつセキュアな方法で、すべてのコントリビュートパートナの勾配を集約することで、プラットフォーム上でトレーニングされた。 このプラットフォームは、プライベートサブネットでKubernetesクラスタを実行するAmazon Web Services(AWS)マルチアカウントアーキテクチャ上にデプロイされた。 組織的には、異なるパートナーの役割はプラットフォーム上の異なる権利と権限として体系化され、分散された方法で管理された。 MELLODDYプラットフォームは、共同論文に記載された新しい科学的発見を生み出した。

To apply federated learning to drug discovery we developed a novel platform in the context of European Innovative Medicines Initiative (IMI) project MELLODDY (grant n{\deg}831472), which was comprised of 10 pharmaceutical companies, academic research labs, large industrial companies and startups. To the best of our knowledge, The MELLODDY platform was the first industry-scale platform to enable the creation of a global federated model for drug discovery without sharing the confidential data sets of the individual partners. The federated model was trained on the platform by aggregating the gradients of all contributing partners in a cryptographic, secure way following each training iteration. The platform was deployed on an Amazon Web Services (AWS) multi-account architecture running Kubernetes clusters in private subnets. Organisationally, the roles of the different partners were codified as different rights and permissions on the platform and administrated in a decentralized way. The MELLODDY platform generated new scientific discoveries which are described in a companion paper.
翻訳日:2022-10-18 17:06:00 公開日:2022-10-17
# Forget Unlearning: マシンラーニングにおける真のデータ削除に向けて

Forget Unlearning: Towards True Data-Deletion in Machine Learning ( http://arxiv.org/abs/2210.08911v1 )

ライセンス: Link先を確認
Rishav Chourasia, Neil Shah, Reza Shokri(参考訳) 学習モデルから削除されたレコードの情報を削除する手法として、アンラーニングが登場した。 しかし、トレーニングセットにおけるデータポイントの元々の存在によって生じた影響は、認定アンラーニングアルゴリズムの実行後にも検出できる(その結果、敵によって再構築される可能性がある)。 したがって、時間とともにモデルリリースのダイナミクスや適応的敵が存在するという現実的な仮定の下で、未学習はデータ削除と同等ではなく、「忘れられる権利」を保証していないことを示す。 次に、より堅牢なデータ削除保証を提案し、真のデータ削除を保証するために差分プライバシーを満たす必要があることを示す。 そこで本研究では,オンライン環境において,ノイズ勾配降下アルゴリズムに基づく高精度,計算効率,セキュアなデータ削除機械学習アルゴリズムを提案する。

Unlearning has emerged as a technique to efficiently erase information of deleted records from learned models. We show, however, that the influence created by the original presence of a data point in the training set can still be detected after running certified unlearning algorithms (which can result in its reconstruction by an adversary). Thus, under realistic assumptions about the dynamics of model releases over time and in the presence of adaptive adversaries, we show that unlearning is not equivalent to data deletion and does not guarantee the "right to be forgotten." We then propose a more robust data-deletion guarantee and show that it is necessary to satisfy differential privacy to ensure true data deletion. Under our notion, we propose an accurate, computationally efficient, and secure data-deletion machine learning algorithm in the online setting based on noisy gradient descent algorithm.
翻訳日:2022-10-18 17:05:40 公開日:2022-10-17
# 隠れた連続時間半マルコフ連鎖に対する前方後進状態推論

Forward-Backward Latent State Inference for Hidden Continuous-Time semi-Markov Chains ( http://arxiv.org/abs/2210.09058v1 )

ライセンス: Link先を確認
Nicolai Engelmann, Heinz Koeppl(参考訳) 隠れ半マルコフモデル(hsmm)は広く使われているが、離散的かつ均一な時間グリッドに制限されている。 したがって、連続時間現象からしばしば不規則に空間化された離散事象データを説明するのに適していない。 HSMMで使用される非サンプリング型潜時状態推論は、潜時半マルコフ連鎖(CTSMC)に一般化可能であることを示す。 観測可能性に応じた積分微分前方および後方の方程式を定式化し,ベイズ後縁の精密積分式と後方経路推定のためのスケーラブルなビタビ型アルゴリズムを導入する。 提案方程式はよく知られた数値法を用いて効率的に解ける。 実用ツールとして可変ステップHSMMを導入する。 我々は,従来のHSMMと比較して,潜在状態推定シナリオにおけるアプローチを評価する。

Hidden semi-Markov Models (HSMM's) - while broadly in use - are restricted to a discrete and uniform time grid. They are thus not well suited to explain often irregularly spaced discrete event data from continuous-time phenomena. We show that non-sampling-based latent state inference used in HSMM's can be generalized to latent Continuous-Time semi-Markov Chains (CTSMC's). We formulate integro-differential forward and backward equations adjusted to the observation likelihood and introduce an exact integral equation for the Bayesian posterior marginals and a scalable Viterbi-type algorithm for posterior path estimates. The presented equations can be efficiently solved using well-known numerical methods. As a practical tool, variable-step HSMM's are introduced. We evaluate our approaches in latent state inference scenarios in comparison to classical HSMM's.
翻訳日:2022-10-18 17:05:06 公開日:2022-10-17
# ベイジアンニューラルネットワークのためのデータサブサンプリング

Data Subsampling for Bayesian Neural Networks ( http://arxiv.org/abs/2210.09141v1 )

ライセンス: Link先を確認
Eiji Kawasaki, Markus Holzmann(参考訳) マルコフ連鎖モンテカルロ(mcmc)アルゴリズムは大規模データセットではうまくスケールしないため、ニューラルネットワークの後方サンプリングが困難になる。 本稿では,ベイズ推論の文脈において,可能性評価を小さなミニバッチに限定できるmetropolis hastingsアルゴリズムの一般化を適用する。 ミニバッチ上でのトレーニング損失関数の分散によって決定されるいわゆる「ノイズペナルティ」の計算を必要とするため、このデータサブサンプリング戦略をペナルティベイズニューラルネットワーク(PBNN)と呼ぶ。 損失関数の分散は受け入れ確率を単純に減少させるため、mcmc上での実装は単純である。 他のサンプルと比較すると、PBNNは与えられたミニバッチサイズに対して優れた予測性能を示す。 ミニバッチのサイズを変えることで、予測分布の自然なキャリブレーションが可能になり、オーバーフィッティングに対する組込み保護を提供する。 PBNNは、複数の分散デバイスにデータセットが分散されている場合に、フェデレート学習の典型として特に適していると考えています。

Markov Chain Monte Carlo (MCMC) algorithms do not scale well for large datasets leading to difficulties in Neural Network posterior sampling. In this paper, we apply a generalization of the Metropolis Hastings algorithm that allows us to restrict the evaluation of the likelihood to small mini-batches in a Bayesian inference context. Since it requires the computation of a so-called "noise penalty" determined by the variance of the training loss function over the mini-batches, we refer to this data subsampling strategy as Penalty Bayesian Neural Networks - PBNNs. Its implementation on top of MCMC is straightforward, as the variance of the loss function merely reduces the acceptance probability. Comparing to other samplers, we empirically show that PBNN achieves good predictive performance for a given mini-batch size. Varying the size of the mini-batches enables a natural calibration of the predictive distribution and provides an inbuilt protection against overfitting. We expect PBNN to be particularly suited for cases when data sets are distributed across multiple decentralized devices as typical in federated learning.
翻訳日:2022-10-18 17:04:53 公開日:2022-10-17
# スライスワッサースタイン距離の統計・ロバスト性・計算保証

Statistical, Robustness, and Computational Guarantees for Sliced Wasserstein Distances ( http://arxiv.org/abs/2210.09160v1 )

ライセンス: Link先を確認
Sloan Nietert, Ritwik Sadhu, Ziv Goldfeld, and Kengo Kato(参考訳) スライスされたワッサーシュタイン距離は古典的なワッサーシュタイン距離の性質を保ちながら、高次元での計算と推定によりスケーラブルである。 この作業の目標は、このスケーラビリティを3つの重要な側面から定量化することです。 一 経験的収束率 (ii)データ汚染に対する堅牢性 (iii)効率的な計算方法。 経験的収束のために、人口分布の対数共空性(log-concavity)を条件として、定数の次元への明示的に依存した高速速度を導出する。 ロバストネスについては,最小限の最適,次元自由なロバスト推定リスクを特徴付けるとともに,ロバストスライスされた1-ワッサーシュタイン推定とロバスト平均推定の等価性を示す。 これにより、統計的およびアルゴリズム的保証を、スライスされた1-wasserstein設定に引き上げることができる。 計算の面では、平均スライス距離のモンテカルロ推定器を解析し、より大きな次元が数値積分誤差のより高速な収束をもたらすことを証明した。 最大スライス距離については、形式的保証なしに、実際に頻繁に使用される下位勾配に基づく局所最適化アルゴリズムに焦点をあて、それに束縛された$o(\epsilon^{-4})$計算複雑性を確立する。 この理論を数値実験により検証し,拡張性問題に関する包括的定量的な考察を行った。

Sliced Wasserstein distances preserve properties of classic Wasserstein distances while being more scalable for computation and estimation in high dimensions. The goal of this work is to quantify this scalability from three key aspects: (i) empirical convergence rates; (ii) robustness to data contamination; and (iii) efficient computational methods. For empirical convergence, we derive fast rates with explicit dependence of constants on dimension, subject to log-concavity of the population distributions. For robustness, we characterize minimax optimal, dimension-free robust estimation risks, and show an equivalence between robust sliced 1-Wasserstein estimation and robust mean estimation. This enables lifting statistical and algorithmic guarantees available for the latter to the sliced 1-Wasserstein setting. Moving on to computational aspects, we analyze the Monte Carlo estimator for the average-sliced distance, demonstrating that larger dimension can result in faster convergence of the numerical integration error. For the max-sliced distance, we focus on a subgradient-based local optimization algorithm that is frequently used in practice, albeit without formal guarantees, and establish an $O(\epsilon^{-4})$ computational complexity bound for it. Our theory is validated by numerical experiments, which altogether provide a comprehensive quantitative account of the scalability question.
翻訳日:2022-10-18 17:04:35 公開日:2022-10-17
# 予測点依存基底関数をもつ大規模空間上の高速ガウス過程予測

Fast Gaussian Process Predictions on Large Geospatial Fields with Prediction-Point Dependent Basis Functions ( http://arxiv.org/abs/2210.09168v1 )

ライセンス: Link先を確認
Frida Marie Viset, Rudy Helmons and Manon Kok(参考訳) 小規模の変動を持つ大規模地理空間場で高速にgp予測を行うためには,計測値n$とフィールドサイズに依存しない計算複雑性が重要である。 この設定では、$m$基底関数を用いたGP近似は$\mathcal{O}(Nm^2+m^3)$計算を必要とする。 有限サポート基底関数を使用すると、1回のトレーニングコストが$O(N)$の後に、1つの予測を実行するために必要な計算数が$\mathcal{O}(m^3)$に削減される。 所要基底関数$m$の数が空間的変動の大きさに対してフィールドのサイズに比例して大きくなるにつれて、予測コストはフィールドサイズの増加とともに増加する。 そこで本研究では,学習システムのサブセットがシステムの訓練されたサブセットであるという特性を利用して,各予測点を中心にしたm'\ll m$有限サポート基底関数の局所サブセットのみを使用することにより,予測を行う。 提案した近似は,1回のトレーニングコストが$\mathcal{O}(N)$の後に,各予測を実行するために$\mathcal{O}(m'^3)$演算を必要とする。 我々は,本手法が最先端手法の予測誤差と一致し,より高速な予測を行うことを示すとともに,共役勾配解法を用いて,$\mathcal{O}(m^3)$から$\mathcal{O}(m\log(m))$への予測コストを下げる最先端近似との比較を行った。 最後に,我々のアプローチが,数百万の基底関数と数千万の計測値を用いて,グローバルバスメトリデータセット上で高速に予測できることを実証する。

In order to perform GP predictions fast in large geospatial fields with small-scale variations, a computational complexity that is independent of the number of measurements $N$ and the size of the field is crucial. In this setting, GP approximations using $m$ basis functions requires $\mathcal{O}(Nm^2+m^3)$ computations. Using finite-support basis functions reduces the required number of computations to perform a single prediction to $\mathcal{O}(m^3)$, after a one-time training cost of $O(N)$. The prediction cost increases with increasing field size, as the number of required basis functions $m$ grows with the size of the field relative to the size of the spatial variations. To prevent the prediction speed from depending on field size, we propose leveraging the property that a subset of the trained system is a trained subset of the system to use only a local subset of $m'\ll m$ finite-support basis functions centered around each prediction point to perform predictions. Our proposed approximation requires $\mathcal{O}(m'^3)$ operations to perform each prediction after a one-time training cost of $\mathcal{O}(N)$. We show on real-life spatial data that our approach matches the prediction error of state-of-the-art methods and that it performs faster predictions, also compared to state-of-the-art approximations that lower the prediction cost of $\mathcal{O}(m^3)$ to $\mathcal{O}(m\log(m))$ using a conjugate gradient solver. Finally, we demonstrate that our approach can perform fast predictions on a global bathymetry dataset using millions of basis functions and tens of millions of measurements on a laptop computer.
翻訳日:2022-10-18 17:04:09 公開日:2022-10-17
# グラフニューラルネットワークの試験時間トレーニング

Test-Time Training for Graph Neural Networks ( http://arxiv.org/abs/2210.08813v1 )

ライセンス: Link先を確認
Yiqi Wang, Chaozhuo Li, Wei Jin, Rui Li, Jianan Zhao, Jiliang Tang, Xing Xie(参考訳) グラフニューラルネットワーク(GNN)は,グラフ分類タスクにおいて大きく進歩している。 しかし、トレーニングセットとテストセットの間には、しばしばパフォーマンスのギャップがある。 このようなギャップを埋めるため,本研究では,グラフ分類タスクのモデル一般化能力を高めるため,GNNの初となるテスト時トレーニングフレームワークを導入する。 特に,各テストグラフサンプルに対するgnnモデルを調整するために,自己教師付き学習を用いた新しいテスト時間トレーニング戦略を設計する。 ベンチマークデータセットに関する実験は、特にトレーニングセットとテストセットの間に分散シフトがある場合、提案フレームワークの有効性を実証した。 また,提案するグラフテストタイムトレーニングフレームワーク(gt3)の設計の合理性についてより深く理解するために,探索的研究と理論的解析を行った。

Graph Neural Networks (GNNs) have made tremendous progress in the graph classification task. However, a performance gap between the training set and the test set has often been noticed. To bridge such gap, in this work we introduce the first test-time training framework for GNNs to enhance the model generalization capacity for the graph classification task. In particular, we design a novel test-time training strategy with self-supervised learning to adjust the GNN model for each test graph sample. Experiments on the benchmark datasets have demonstrated the effectiveness of the proposed framework, especially when there are distribution shifts between training set and test set. We have also conducted exploratory studies and theoretical analysis to gain deeper understandings on the rationality of the design of the proposed graph test time training framework (GT3).
翻訳日:2022-10-18 16:57:54 公開日:2022-10-17
# 1回だけ生きる:シングルライフ強化学習

You Only Live Once: Single-Life Reinforcement Learning ( http://arxiv.org/abs/2210.08863v1 )

ライセンス: Link先を確認
Annie S. Chen, Archit Sharma, Sergey Levine, Chelsea Finn(参考訳) 強化学習アルゴリズムは、通常、スクラッチから始まるタスクを繰り返し、自律的に完了できるパフォーマンスポリシーを学ぶように設計されている。 しかし、現実の多くの状況では、そのタスクを繰り返し実行できるポリシーを学ぶことではなく、単一のトライアルで一度だけ新しいタスクを成功させることが目的である。 例えば、倒れた建物からアイテムを回収するタスクをこなした災害救助ロボットを想像してみてください。 このオブジェクトを1回のテストタイムトライアルで取得し、未知の障害に取り組む一方で、災害前に建物に持っている知識を活用しなければならない。 我々はこの問題をslrl(single-life reinforcement learning, 単寿命強化学習)と呼び、エージェントは何らかの新しさに対抗しながら、その経験を生かして、1つのエピソードでタスクを完了させなければならない。 slrlは、未知の状況に自律的に適応することの難しさを研究するための自然な設定を提供しており、標準的なエピソジック強化学習のために設計されたアルゴリズムは、この設定で分散状態から回復するのに苦労することがしばしばある。 そこで本研究では,エージェントの事前経験を新たな状況におけるガイダンスとして活用する分布マッチング戦略を用いて,Q$-weighted adversarial Learning (QWALE) というアルゴリズムを提案する。 複数の単寿命連続制御問題に対する実験により, 分布マッチング式に基づく手法は, 新規な状態からより迅速に回復できるため, 20~60%高い成功率を示した。

Reinforcement learning algorithms are typically designed to learn a performant policy that can repeatedly and autonomously complete a task, usually starting from scratch. However, in many real-world situations, the goal might not be to learn a policy that can do the task repeatedly, but simply to perform a new task successfully once in a single trial. For example, imagine a disaster relief robot tasked with retrieving an item from a fallen building, where it cannot get direct supervision from humans. It must retrieve this object within one test-time trial, and must do so while tackling unknown obstacles, though it may leverage knowledge it has of the building before the disaster. We formalize this problem setting, which we call single-life reinforcement learning (SLRL), where an agent must complete a task within a single episode without interventions, utilizing its prior experience while contending with some form of novelty. SLRL provides a natural setting to study the challenge of autonomously adapting to unfamiliar situations, and we find that algorithms designed for standard episodic reinforcement learning often struggle to recover from out-of-distribution states in this setting. Motivated by this observation, we propose an algorithm, $Q$-weighted adversarial learning (QWALE), which employs a distribution matching strategy that leverages the agent's prior experience as guidance in novel situations. Our experiments on several single-life continuous control problems indicate that methods based on our distribution matching formulation are 20-60% more successful because they can more quickly recover from novel states.
翻訳日:2022-10-18 16:57:43 公開日:2022-10-17
# Flipped Classroom: 時系列予測のための効果的な教育

Flipped Classroom: Effective Teaching for Time Series Forecasting ( http://arxiv.org/abs/2210.08959v1 )

ライセンス: Link先を確認
Philipp Teutsch and Patrick M\"ader(参考訳) LSTMとGRUに基づくシーケンス・ツー・シーケンス・モデルは、最先端の性能に達する時系列データを予測するための最も一般的な選択肢である。 しかし、そのようなモデルのトレーニングは繊細です。 この文脈における2つの一般的なトレーニング戦略は、教師強制(TF)とフリーランニング(FR)である。 TFはモデルを高速に収束させるのに役立つが、トレーニングと推論フェーズの相違による露出バイアスの問題を引き起こす可能性がある。 FRはそれを避けるのに役立つが、トレーニングを遅く不安定にする傾向があるため、必ずしもより良い結果をもたらすとは限らない。 スケジュールサンプリングは、両方の世界からベストを選び、それをカリキュラム学習(cl)戦略に組み合わせることで、これらの問題に取り組む最初のアプローチだった。 スケジュールサンプリングはFRとTFに代わる説得力のある代替品であると思われるが、たとえパラメータ化されても、スケジュールサンプリングは時系列予測に適用した場合の訓練の早期終了につながる可能性がある。 上記のアプローチの問題を緩和するため、トレーニングとトレーニングのイテレーションスケールに沿ってCL戦略を定式化します。 いくつかの新しいカリキュラムを提案し、その性能を2つの実験セットで体系的に評価する。 実験では,著名なカオスシステムから生成された6つのデータセットを用いた。 確率的反復尺度のカリキュラムを新たに提案したトレーニングスケールカリキュラムは,従来のトレーニング戦略を一貫して上回り,FRやTFのトレーニングよりも最大81%向上した。 いくつかのデータセットでは、トレーニングイテレーションの数も減っています。 新しいカリキュラムで訓練された全てのモデルが予測安定性を向上し、予測水平線が長くなることを観察した。

Sequence-to-sequence models based on LSTM and GRU are a most popular choice for forecasting time series data reaching state-of-the-art performance. Training such models can be delicate though. The two most common training strategies within this context are teacher forcing (TF) and free running (FR). TF can be used to help the model to converge faster but may provoke an exposure bias issue due to a discrepancy between training and inference phase. FR helps to avoid this but does not necessarily lead to better results, since it tends to make the training slow and unstable instead. Scheduled sampling was the first approach tackling these issues by picking the best from both worlds and combining it into a curriculum learning (CL) strategy. Although scheduled sampling seems to be a convincing alternative to FR and TF, we found that, even if parametrized carefully, scheduled sampling may lead to premature termination of the training when applied for time series forecasting. To mitigate the problems of the above approaches we formalize CL strategies along the training as well as the training iteration scale. We propose several new curricula, and systematically evaluate their performance in two experimental sets. For our experiments, we utilize six datasets generated from prominent chaotic systems. We found that the newly proposed increasing training scale curricula with a probabilistic iteration scale curriculum consistently outperforms previous training strategies yielding an NRMSE improvement of up to 81% over FR or TF training. For some datasets we additionally observe a reduced number of training iterations. We observed that all models trained with the new curricula yield higher prediction stability allowing for longer prediction horizons.
翻訳日:2022-10-18 16:57:18 公開日:2022-10-17
# クラウドサービスのコスト削減を目的としたビデオストリーミングビュー予測のための機械学習技術

Machine Learning Technique Predicting Video Streaming Views to Reduce Cost of Cloud Services ( http://arxiv.org/abs/2210.09078v1 )

ライセンス: Link先を確認
Mahmoud Darwich(参考訳) ビデオストリームはオンライントラフィックの最も高い部分を占めていた。 ビデオの複数のバージョンがユーザーのデバイス仕様に適合するように作成される。 クラウドストレージでは、レポジトリ内で頻繁にアクセスされるビデオストリームのすべてのバージョンを長期にわたって保持することは、ビデオストリーミングプロバイダが支払うかなりのコストを課す。 一般的には、ビデオの人気は一定時間ごとに変化するため、ビデオが受信したビューの数を減少させることができるため、ビデオはリポジトリから削除される必要がある。 そこで本稿では,リポジトリ内の各ビデオストリームの人気を次の期間に予測する手法を提案する。 一方,ビデオの人気予測を利用してストレージコストを計算し,クラウドリポジトリからビデオが保存されるか削除されるかを決定するアルゴリズムを提案する。 実験の結果、すべてのビデオストリームの保存と比較してクラウドサービスのコストが15%削減された。

Video streams tremendously occupied the highest portion of online traffic. Multiple versions of a video are created to fit the user's device specifications. In cloud storage, Keeping all versions of frequently accessed video streams in the repository for the long term imposes a significant cost paid by video streaming providers. Generally, the popularity of a video changes each period of time, which means the number of views received by a video could be dropped, thus, the video must be deleted from the repository. Therefore, in this paper, we develop a method that predicts the popularity of each video stream in the repository in the next period. On the other hand, we propose an algorithm that utilizes the predicted popularity of a video to compute the storage cost, and then it decides whether the video will be kept or deleted from the cloud repository. The experiment results show a cost reduction of the cloud services by 15% compared to keeping all video streams.
翻訳日:2022-10-18 16:56:32 公開日:2022-10-17
# 自然言語システムにおける隠密な安全でないテキストの緩和

Mitigating Covertly Unsafe Text within Natural Language Systems ( http://arxiv.org/abs/2210.09306v1 )

ライセンス: Link先を確認
Alex Mei, Anisha Kabir, Sharon Levy, Melanie Subbiah, Emily Allaway, John Judge, Desmond Patton, Bruce Bimber, Kathleen McKeown, William Yang Wang(参考訳) インテリジェントテクノロジーの大きな問題は、テキストの安全性にある。制御されていないシステムは、怪我や致命的な結果につながるユーザへのレコメンデーションを生成する可能性があるからだ。 しかし、物理的危害を引き起こす可能性のある生成文の明示性の度合いは様々である。 本稿では,身体的危害につながる可能性のあるテキストのタイプを識別し,特に未発見のカテゴリを確立する。 そして,このカテゴリをシステムの情報に関してさらに分解し,各サブカテゴリにおけるテキスト生成を緩和するためのソリューションについて議論する。 究極的には、物理的な危害を引き起こす隠密な安全でない言語の問題を定義し、この微妙で危険な問題は利害関係者や規制当局によって優先される必要があると主張している。 我々は、将来の研究者にこの問題に取り組むよう促し、スマートシステムにおける安全性を改善するための緩和戦略を強調する。

An increasingly prevalent problem for intelligent technologies is text safety, as uncontrolled systems may generate recommendations to their users that lead to injury or life-threatening consequences. However, the degree of explicitness of a generated statement that can cause physical harm varies. In this paper, we distinguish types of text that can lead to physical harm and establish one particularly underexplored category: covertly unsafe text. Then, we further break down this category with respect to the system's information and discuss solutions to mitigate the generation of text in each of these subcategories. Ultimately, our work defines the problem of covertly unsafe language that causes physical harm and argues that this subtle yet dangerous issue needs to be prioritized by stakeholders and regulators. We highlight mitigation strategies to inspire future researchers to tackle this challenging problem and help improve safety within smart systems.
翻訳日:2022-10-18 16:56:19 公開日:2022-10-17
# betatcvaeにおける全相関のスペルを破る

Break The Spell Of Total Correlation In betaTCVAE ( http://arxiv.org/abs/2210.08794v1 )

ライセンス: Link先を確認
Zihao Chen, Qiang Li, Bing Guo, and Yan Shen(参考訳) 本稿では,全相関分解の動機に基づいて,βTCVAEにおける全相関のスペルを破る手法を提案する。 相関関係の反復的分解経路を提案し, モデルキャパシティ割り当ての観点から, VAEの表現学習能力について説明する。 新たに開発された目的関数は、潜在変数次元を結合分布に結合させ、余剰分布の独立分布制約を緩和し、より操作可能な事前分布を持つ潜在変数を生み出す。 新しいモデルにより、vaeはパラメータのキャパシティを調整でき、依存データと独立データの特徴を柔軟に分割できる。 様々なデータセットに対する実験結果から,モデル容量と潜伏変数群のサイズとの間には,「V」形状の最良のELBO軌道と呼ばれる興味深い相関関係が示された。 追加実験により,提案手法は適切なパラメータのキャパシティ割り当てを伴い,より良いアンタングル化性能が得られることを示した。 最後に, 相互情報との相関関係を推定する限界を設計し, 推定偏差の発生源を同定する実験を行った。

This paper proposes a way to break the spell of total correlation in betaTCVAE based on the motivation of the total correlation decomposition. An iterative decomposition path of total correlation is proposed, and an explanation for representation learning ability of VAE from the perspective of model capacity allocation. Newly developed objective function combines latent variable dimensions into joint distribution while relieving independent distribution constraint of the marginal distribution in combination, leading to latent variables with a more manipulable prior distribution. The novel model enables VAE to adjust the parameter capacity to divide dependent and independent data features flexibly. Experimental results on various datasets show an interesting relevance between model capacity and the latent variable grouping size, called the "V"-shaped best ELBO trajectory. Additional experiments demonstrate that the proposed method obtains better disentanglement performance with reasonable parameter capacity allocation. Finally, we design experiments to show the limitations of estimating total correlation with mutual information, identifying its source of estimation deviation.
翻訳日:2022-10-18 16:46:13 公開日:2022-10-17
# モデル解釈可能性を超えて--コントラスト的テクスト説明の忠実性と敵対的ロバスト性について

Beyond Model Interpretability: On the Faithfulness and Adversarial Robustness of Contrastive Textual Explanations ( http://arxiv.org/abs/2210.08902v1 )

ライセンス: Link先を確認
Julia El Zini, and Mariette Awad(参考訳) 対照的な説明法は透明性を超え、説明の対照的な側面に対処する。 このような説明は、分類者の判断に悪影響を及ぼすシナリオに実行可能な変更を提供するための魅力的な選択肢として現れている。 しかし、テキストデータへの拡張は未調査であり、脆弱性や制限についてはほとんど調査されていない。 本研究は、説明の忠実さに触発された新たな評価手法の基盤を築き、テキストの反事実を動機付けている。 そこで本研究では, 近接性, 接続性, 安定性の3つの指標をテキストデータに拡張し, 提案した指標に基づいて2つのコントラスト法, POLYJUICE と MiCE をベンチマークした。 感情分析データを用いた実験では, 両モデルとも, 対物関係の関連性は明らかでない。 より興味深いことに、生成したコントラストテキストは、反ファクト検索における潜在表現の重要性を強調するPOLYJUICEによりより達成可能である。 最後に,テキストリコース法において,最初の意味的敵意攻撃を行う。 その結果、PolyJUICEの堅牢性と、潜在入力表現が堅牢性と信頼性に果たす役割が示された。

Contrastive explanation methods go beyond transparency and address the contrastive aspect of explanations. Such explanations are emerging as an attractive option to provide actionable change to scenarios adversely impacted by classifiers' decisions. However, their extension to textual data is under-explored and there is little investigation on their vulnerabilities and limitations. This work motivates textual counterfactuals by laying the ground for a novel evaluation scheme inspired by the faithfulness of explanations. Accordingly, we extend the computation of three metrics, proximity,connectedness and stability, to textual data and we benchmark two successful contrastive methods, POLYJUICE and MiCE, on our suggested metrics. Experiments on sentiment analysis data show that the connectedness of counterfactuals to their original counterparts is not obvious in both models. More interestingly, the generated contrastive texts are more attainable with POLYJUICE which highlights the significance of latent representations in counterfactual search. Finally, we perform the first semantic adversarial attack on textual recourse methods. The results demonstrate the robustness of POLYJUICE and the role that latent input representations play in robustness and reliability.
翻訳日:2022-10-18 16:40:27 公開日:2022-10-17
# 予測公平性の体系的評価

Systematic Evaluation of Predictive Fairness ( http://arxiv.org/abs/2210.08758v1 )

ライセンス: Link先を確認
Xudong Han, Aili Shen, Trevor Cohn, Timothy Baldwin, Lea Frermann(参考訳) 偏りのあるデータセットのトレーニングにおけるバイアスの軽減は、重要なオープン問題である。 いくつかの手法が提案されているが、非常に狭いデータ条件を考えると、典型的な評価方法は非常に限られている。 例えば、ターゲットクラスの不均衡とステレオタイプの影響は未検討である。 このギャップに対処するために,バイナリ分類(twitterの感情),マルチクラス分類(プロフェッション予測),回帰(評価予測)など,複数のタスクにわたるさまざまなデバイアス手法のパフォーマンスについて検討した。 広範囲な実験を通じて,データ条件が相対的モデル性能に強い影響を与えること,また,公平性研究における現在の実践と同様に,標準データセットのみを評価する場合の方法の有効性について一般的な結論が示されないこと,等を見いだす。

Mitigating bias in training on biased datasets is an important open problem. Several techniques have been proposed, however the typical evaluation regime is very limited, considering very narrow data conditions. For instance, the effect of target class imbalance and stereotyping is under-studied. To address this gap, we examine the performance of various debiasing methods across multiple tasks, spanning binary classification (Twitter sentiment), multi-class classification (profession prediction), and regression (valence prediction). Through extensive experimentation, we find that data conditions have a strong influence on relative model performance, and that general conclusions cannot be drawn about method efficacy when evaluating only on standard datasets, as is current practice in fairness research.
翻訳日:2022-10-18 16:31:02 公開日:2022-10-17
# diffusionq: 拡散モデルを用いたシーケンスからシーケンスへのテキスト生成

DiffuSeq: Sequence to Sequence Text Generation with Diffusion Models ( http://arxiv.org/abs/2210.08933v1 )

ライセンス: Link先を確認
Shansan Gong and Mukai Li and Jiangtao Feng and Zhiyong Wu and LingPeng Kong(参考訳) 近年,拡散モデルが生成モデルの新しいパラダイムとして出現している。 視覚や音声などの連続的な信号を用いたドメインの成功にもかかわらず、テキストの離散的な性質のため、自然言語への拡散モデルの適用は困難である。 DiffuSeqはSeq2Seq(Seq2Seq)テキスト生成タスク用に設計された拡散モデルである。 幅広いseq2seqタスクに対する広範囲な評価を行った結果,dvidenceqは,事前学習された言語モデルに基づいた最先端モデルを含む,確立された6つのベースラインと同等あるいはそれ以上のパフォーマンスを達成していることがわかった。 品質以外にも、DiffuSeqの興味深い性質は、多くのSeq2Seqタスクで望まれる世代間の多様性が高いことである。 さらに、DiffuSeqと自己回帰/非自己回帰モデルとの関係を明らかにする理論的解析を含む。 理論解析と経験的証拠を組み合わせることで,複雑な条件付き言語生成タスクにおける拡散モデルの可能性を示す。

Recently, diffusion models have emerged as a new paradigm for generative models. Despite the success in domains using continuous signals such as vision and audio, adapting diffusion models to natural language is difficult due to the discrete nature of text. We tackle this challenge by proposing DiffuSeq: a diffusion model designed for sequence-to-sequence (Seq2Seq) text generation tasks. Upon extensive evaluation over a wide range of Seq2Seq tasks, we find DiffuSeq achieving comparable or even better performance than six established baselines, including a state-of-the-art model that is based on pre-trained language models. Apart from quality, an intriguing property of DiffuSeq is its high diversity during generation, which is desired in many Seq2Seq tasks. We further include a theoretical analysis revealing the connection between DiffuSeq and autoregressive/non-autoregressive models. Bringing together theoretical analysis and empirical evidence, we demonstrate the great potential of diffusion models in complex conditional language generation tasks.
翻訳日:2022-10-18 16:30:50 公開日:2022-10-17
# TabT5によるテーブル・ツー・テキスト生成と事前学習

Table-To-Text generation and pre-training with TabT5 ( http://arxiv.org/abs/2210.09162v1 )

ライセンス: Link先を確認
Ewa Andrejczuk, Julian Martin Eisenschlos, Francesco Piccinno, Syrine Krichene, Yasemin Altun(参考訳) エンコーダのみのトランスモデルは、TAPAS(Herzig et al., 2020)のように、異なるテーブル理解タスクにうまく適用されている。 これらのアーキテクチャの大きな制限は、細胞選択やエンターメント検出のような分類のようなタスクに制約されていることである。 本稿では,テーブルとテキスト入力に基づいて自然言語テキストを生成するエンコーダデコーダモデルTABT5を提案する。 TABT5はデコーダコンポーネントを組み込むことでエンコーダのみの制限を克服し、テーブル固有の埋め込みと事前学習で入力構造を利用する。 TABT5は、シーケンス精度が15%向上したスプレッドシート公式の予測、シーケンス精度が2.5%上昇したQA、BLEUが2.5%上昇したデータ・トゥ・テキスト生成など、いくつかの領域で新たな最先端結果を達成する。

Encoder-only transformer models have been successfully applied to different table understanding tasks, as in TAPAS (Herzig et al., 2020). A major limitation of these architectures is that they are constrained to classification-like tasks such as cell selection or entailment detection. We present TABT5, an encoder-decoder model that generates natural language text based on tables and textual inputs. TABT5 overcomes the encoder-only limitation by incorporating a decoder component and leverages the input structure with table specific embeddings and pre-training. TABT5 achieves new state-of-the-art results on several domains, including spreadsheet formula prediction with a 15% increase in sequence accuracy, QA with a 2.5% increase in sequence accuracy and data-to-text generation with a 2.5% increase in BLEU.
翻訳日:2022-10-18 16:30:32 公開日:2022-10-17
# 差分進化に基づく二重対向カモフラージュ:ヒト眼と物体検出器の摂食

Differential Evolution based Dual Adversarial Camouflage: Fooling Human Eyes and Object Detectors ( http://arxiv.org/abs/2210.08870v1 )

ライセンス: Link先を確認
Jialiang Sun(参考訳) 近年の研究では、ディープニューラルネットワーク(DNN)ベースの物体検出器が、画像に摂動を加える形で敵の攻撃に弱いことが示されており、物体検出器の誤った出力につながっている。 現在の既存の作品のほとんどは、物体検出器を騙すために摂動画像を生成することに焦点を当てている。 生成した敵の例自体は一定の自然性を維持することができるが、そのほとんどは人間の目で容易に観察できるため、現実世界でのさらなる応用は制限される。 この問題を軽減するために,人間の目と物体検出器を同時に騙す2段階からなる差動進化に基づく二重対向カモフラージュ法(DE_DAC)を提案する。 具体的には、対象物の表面上でレンダリング可能なカモフラージュテクスチャの取得を試みる。 第1段階では,グローバルなテクスチャを最適化し,レンダリング対象とシーン画像との差を最小限に抑え,人間の目が識別しにくくする。 第2段階では,局所的なテクスチャを最適化するために3つの損失関数を設計した。 さらに,攻撃対象のほぼ最適領域を探索する微分進化アルゴリズムを導入し,特定の攻撃領域制限下での対向性能を向上させる。 また,環境に適応可能な適応型D_DACの性能についても検討した。 実験により, 提案手法は, 複数の特定のシーンや対象物の下で, 人間の目と物体検出装置との良好なトレードオフが得られることを示した。

Recent studies reveal that deep neural network (DNN) based object detectors are vulnerable to adversarial attacks in the form of adding the perturbation to the images, leading to the wrong output of object detectors. Most current existing works focus on generating perturbed images, also called adversarial examples, to fool object detectors. Though the generated adversarial examples themselves can remain a certain naturalness, most of them can still be easily observed by human eyes, which limits their further application in the real world. To alleviate this problem, we propose a differential evolution based dual adversarial camouflage (DE_DAC) method, composed of two stages to fool human eyes and object detectors simultaneously. Specifically, we try to obtain the camouflage texture, which can be rendered over the surface of the object. In the first stage, we optimize the global texture to minimize the discrepancy between the rendered object and the scene images, making human eyes difficult to distinguish. In the second stage, we design three loss functions to optimize the local texture, making object detectors ineffective. In addition, we introduce the differential evolution algorithm to search for the near-optimal areas of the object to attack, improving the adversarial performance under certain attack area limitations. Besides, we also study the performance of adaptive DE_DAC, which can be adapted to the environment. Experiments show that our proposed method could obtain a good trade-off between the fooling human eyes and object detectors under multiple specific scenes and objects.
翻訳日:2022-10-18 16:29:29 公開日:2022-10-17
# s$^3$-nerf:単一視点下での陰影と影からの神経反射場

S$^3$-NeRF: Neural Reflectance Field from Shading and Shadow under a Single Viewpoint ( http://arxiv.org/abs/2210.08936v1 )

ライセンス: Link先を確認
Wenqi Yang, Guanying Chen, Chaofeng Chen, Zhenfang Chen, Kwan-Yee K. Wong(参考訳) 本稿では,異なる点灯下で撮影された単一視点画像を用いて,ニューラルシーン表現を学習する多視点シーン再構築の「二重問題」に対処する。 2.5次元シーン表現(すなわち可視面の通常/深さマップ)のみを復元できる既存の単一視点法とは異なり、本手法はシーンの3次元形状とbrdfを表現するためにニューラルネットワークの反射場を学習する。 本手法は,多視点フォトコンシスタンスに頼る代わりに,情報に富んだ2つの単眼的手がかり(シェーディングとシャドー)を活用し,シーン形状を推定する。 複数の難易度データセットを用いた実験により,単視点画像からシーンの可視部分と不可視部分の両方を含む3次元形状を復元できることが確認された。 ニューラルリフレクタンス場表現により,本手法は深度不連続性に対して頑健である。 novel-view synthesisやrelightingといったアプリケーションをサポートする。 コードとモデルはhttps://ywq.github.io/s3nerfで確認できます。

In this paper, we address the "dual problem" of multi-view scene reconstruction in which we utilize single-view images captured under different point lights to learn a neural scene representation. Different from existing single-view methods which can only recover a 2.5D scene representation (i.e., a normal / depth map for the visible surface), our method learns a neural reflectance field to represent the 3D geometry and BRDFs of a scene. Instead of relying on multi-view photo-consistency, our method exploits two information-rich monocular cues, namely shading and shadow, to infer scene geometry. Experiments on multiple challenging datasets show that our method is capable of recovering 3D geometry, including both visible and invisible parts, of a scene from single-view images. Thanks to the neural reflectance field representation, our method is robust to depth discontinuities. It supports applications like novel-view synthesis and relighting. Our code and model can be found at https://ywq.github.io/s3nerf.
翻訳日:2022-10-18 16:29:02 公開日:2022-10-17
# 火星ローバー画像におけるコントラスト学習の改善

Improving Contrastive Learning on Visually Homogeneous Mars Rover Images ( http://arxiv.org/abs/2210.09234v1 )

ライセンス: Link先を確認
Isaac Ronald Ward and Charles Moore and Kai Pak and Jingdao Chen and Edwin Goh(参考訳) コントラスト学習は、トレーニングラベルを必要としないにもかかわらず、教師あり学習よりも優れたパフォーマンスを示している。 我々は、マーズ・ローバーズ・キュリオシティとパーセナンスとマーズ・リコネッサンス・オービターから収集された数十万枚の未ラベル火星地形画像に対して、対照的な学習がいかに適用できるかを探求する。 手動アノテーションは労働集約的であり、広範囲のドメイン知識を必要とするため、火星画像の大多数はラベル付けされていないため、このような手法は魅力的である。 しかし、対照的な学習は、任意の一対の異なる画像は、異なる意味的内容を含むと仮定する。 これは火星の画像データセットにとって問題であり、2組の火星画像は、惑星の表面の視覚的多様性が欠如しているため、意味的に似ている可能性がずっと高い。 イメージのペアが視覚的コントラスト(実際にはそうでない場合)であると仮定すると、結果として負のペアが生まれ、トレーニングのパフォーマンスに影響を与えます。 本研究では,この問題を解決するための2つのアプローチを提案する。 1)marsデータセット上の教師なし深層クラスタリングステップは、類似のセマンティックコンテンツを含む画像のクラスタを識別し、トレーニング中に偽陰性エラーを訂正する。 2) トレーニングデータセット全体の視覚的多様性を高めるために、異なるドメインのデータを混合するシンプルなアプローチ。 どちらのケースも偽陰対の速度を減少させ、対照的なトレーニング中にモデルが誤ってペナル化される頻度を最小化する。 これらの修正されたアプローチは、完全に教師なしのエンドツーエンドのままである。 その性能を評価するために,これらの対比的に学習された特徴に基づいてクラス予測を生成するように訓練された単一の線形層を追加し,教師付きモデルと比較して性能が向上することを示す。

Contrastive learning has recently demonstrated superior performance to supervised learning, despite requiring no training labels. We explore how contrastive learning can be applied to hundreds of thousands of unlabeled Mars terrain images, collected from the Mars rovers Curiosity and Perseverance, and from the Mars Reconnaissance Orbiter. Such methods are appealing since the vast majority of Mars images are unlabeled as manual annotation is labor intensive and requires extensive domain knowledge. Contrastive learning, however, assumes that any given pair of distinct images contain distinct semantic content. This is an issue for Mars image datasets, as any two pairs of Mars images are far more likely to be semantically similar due to the lack of visual diversity on the planet's surface. Making the assumption that pairs of images will be in visual contrast - when they are in fact not - results in pairs that are falsely considered as negatives, impacting training performance. In this study, we propose two approaches to resolve this: 1) an unsupervised deep clustering step on the Mars datasets, which identifies clusters of images containing similar semantic content and corrects false negative errors during training, and 2) a simple approach which mixes data from different domains to increase visual diversity of the total training dataset. Both cases reduce the rate of false negative pairs, thus minimizing the rate in which the model is incorrectly penalized during contrastive training. These modified approaches remain fully unsupervised end-to-end. To evaluate their performance, we add a single linear layer trained to generate class predictions based on these contrastively-learned features and demonstrate increased performance compared to supervised models; observing an improvement in classification accuracy of 3.06% using only 10% of the labeled data.
翻訳日:2022-10-18 16:28:43 公開日:2022-10-17
# アップデートして! 長期会話における記憶管理

Keep Me Updated! Memory Management in Long-term Conversations ( http://arxiv.org/abs/2210.08750v1 )

ライセンス: Link先を確認
Sanghwan Bae, Donghyun Kwak, Soyoung Kang, Min Young Lee, Sungdong Kim, Yuin Jeong, Hyeri Kim, Sang-Woo Lee, Woomyoung Park and Nako Sung(参考訳) 過去から重要な情報を思い出し、現在まで話し続けることは、長期的な会話において不可欠である。 しかし、以前の文献では記憶された情報が古くなった場合については扱っていないため、後の会話で混乱が生じる可能性がある。 この問題に対処するため,複数のセッションを通じて会話しながら,ボットがユーザに関する情報を追跡・収集する,新たなタスクと,それに対応するメモリ管理データセットを長期会話で提示する。 より正確で解釈可能なメモリをサポートするために、キー情報の非構造化テキスト記述としてメモリを表現し、無効または冗長な情報を選択的に排除するメモリ管理の新しいメカニズムを提案する。 実験結果から,本手法は,記憶メモリに係わるベースラインを,特に後続セッションにおいて大きな性能差を伴って,係合性や人的性において変化しないことを示す。

Remembering important information from the past and continuing to talk about it in the present are crucial in long-term conversations. However, previous literature does not deal with cases where the memorized information is outdated, which may cause confusion in later conversations. To address this issue, we present a novel task and a corresponding dataset of memory management in long-term conversations, in which bots keep track of and bring up the latest information about users while conversing through multiple sessions. In order to support more precise and interpretable memory, we represent memory as unstructured text descriptions of key information and propose a new mechanism of memory management that selectively eliminates invalidated or redundant information. Experimental results show that our approach outperforms the baselines that leave the stored memory unchanged in terms of engagingness and humanness, with larger performance gap especially in the later sessions.
翻訳日:2022-10-18 16:22:12 公開日:2022-10-17
# ReasonChainQA: 説明可能なエビデンスチェーンを用いたテキストベース複合質問回答

ReasonChainQA: Text-based Complex Question Answering with Explainable Evidence Chains ( http://arxiv.org/abs/2210.08763v1 )

ライセンス: Link先を確認
Minjun Zhu, Yixuan Weng, Shizhu He, Kang Liu, Jun Zhao(参考訳) 証拠に関する推論能力は質問応答(QA)において注目されている。 近年,自然言語データベース (NLDB) は, 構造化された表現ではなく, 文的エビデンスを用いた知識ベースで複雑なQAを行い, テキスト的エビデンスの柔軟性と豊かさから多くの注目を集めている。 しかし、既存のテキストベースの複雑な質問応答データセットは明確な推論プロセスを提供していない。 したがって、説明的および明示的なエビデンスチェーンを持つベンチマーク \textbf{reasonchainqa} を示す。 ReasonChainQAは、回答生成とエビデンス連鎖抽出という2つのサブタスクで構成され、深さの異なるマルチホップ質問の多様性、12の推論タイプ、78の関係を含んでいる。 複雑な質問に答えるための高品質なテキスト証拠を得る。 教師なし検索に関する追加実験は、ReasonChainQAの重要性を十分に示している。 データセットとコードは、受け入れられ次第公開される予定だ。

The ability of reasoning over evidence has received increasing attention in question answering (QA). Recently, natural language database (NLDB) conducts complex QA in knowledge base with textual evidences rather than structured representations, this task attracts a lot of attention because of the flexibility and richness of textual evidence. However, existing text-based complex question answering datasets fail to provide explicit reasoning process, while it's important for retrieval effectiveness and reasoning interpretability. Therefore, we present a benchmark \textbf{ReasonChainQA} with explanatory and explicit evidence chains. ReasonChainQA consists of two subtasks: answer generation and evidence chains extraction, it also contains higher diversity for multi-hop questions with varying depths, 12 reasoning types and 78 relations. To obtain high-quality textual evidences for answering complex question. Additional experiment on supervised and unsupervised retrieval fully indicates the significance of ReasonChainQA. Dataset and codes will be made publicly available upon accepted.
翻訳日:2022-10-18 16:21:56 公開日:2022-10-17
# nlg自動評価指標における社会的バイアス

Social Biases in Automatic Evaluation Metrics for NLG ( http://arxiv.org/abs/2210.08859v1 )

ライセンス: Link先を確認
Mingqi Gao, Xiaojun Wan(参考訳) 多くの研究は、NLPにおける特定の下流タスクのための単語埋め込み、言語モデル、モデルが社会的偏見、特に性バイアスを引き起こすことを示した。 近年,これらの手法がテキスト生成のための自動評価指標に徐々に応用されている。 本稿では,評価指標における社会的バイアスを定量化し,モデルに基づく自動評価指標にも社会的バイアスが広く存在していることを発見するための,単語埋め込み関連テスト(weat)と文埋め込み関連テスト(seat)に基づく評価手法を提案する。 さらに,画像キャプションやテキスト要約タスクにおけるジェンダーバイアスの影響を探究するために,性別対応のメタ評価データセットを構築した。 その結果, 評価における性中立的基準が与えられた場合, モデルに基づく評価指標は男性仮説に好意的な傾向を示し, 評価指標と人的判断との相関性は, 性交換後の変化が大きいことが示唆された。

Many studies have revealed that word embeddings, language models, and models for specific downstream tasks in NLP are prone to social biases, especially gender bias. Recently these techniques have been gradually applied to automatic evaluation metrics for text generation. In the paper, we propose an evaluation method based on Word Embeddings Association Test (WEAT) and Sentence Embeddings Association Test (SEAT) to quantify social biases in evaluation metrics and discover that social biases are also widely present in some model-based automatic evaluation metrics. Moreover, we construct gender-swapped meta-evaluation datasets to explore the potential impact of gender bias in image caption and text summarization tasks. Results show that given gender-neutral references in the evaluation, model-based evaluation metrics may show a preference for the male hypothesis, and the performance of them, i.e. the correlation between evaluation metrics and human judgments, usually has more significant variation after gender swapping.
翻訳日:2022-10-18 16:21:40 公開日:2022-10-17
# BIG-Benchタスクの整合性とチェーン・オブ・サードが解決できるかどうか

Challenging BIG-Bench Tasks and Whether Chain-of-Thought Can Solve Them ( http://arxiv.org/abs/2210.09261v1 )

ライセンス: Link先を確認
Mirac Suzgun, Nathan Scales, Nathanael Sch\"arli, Sebastian Gehrmann, Yi Tay, Hyung Won Chung, Aakanksha Chowdhery, Quoc V. Le, Ed H. Chi, Denny Zhou, Jason Wei(参考訳) BIG-Bench (Srivastava et al., 2022)は、現在の言語モデルの能力を超えると思われるタスクに焦点を当てた多様な評価スイートである。 BIG-Benchの論文で最高のモデルは、BIG-Benchのタスクの65%に対して、数発のプロンプトによって報告された人為的な結果を上回っている。 しかし、言語モデルでは、平均的な人為的なパフォーマンスに欠けるタスクはどんなものなのでしょうか。 本稿では,BIG-Bench Hard (BBH) と呼ばれる,BIG-Benchタスクに挑戦する23のスイートに焦点を当てる。 これらは、以前の言語モデルの評価が平均的な人格を上回らなかったタスクである。 BBHタスクへのチェーン・オブ・シント(CoT)の適用により、PaLMは23タスクのうち10タスクにおいて平均的な人間レータ性能を上回り、Codex(code-davinci-002)は23タスクのうち17タスクにおいて平均的な人間レータ性能を上回ります。 BBHの多くのタスクは多段階の推論を必要とするため、BIG-Bench評価(Srivastava et al., 2022)で行われているように、CoTプロンプトを使わずに数発のプロンプトを行う。 さらに, BBH上でのCoTとモデルスケールの相互作用について検討し, スケーリング曲線が平坦な複数のBBHタスクにおいて, CoTが創発的なタスク性能を実現することを確認した。

BIG-Bench (Srivastava et al., 2022) is a diverse evaluation suite that focuses on tasks believed to be beyond the capabilities of current language models. Language models have already made good progress on this benchmark, with the best model in the BIG-Bench paper outperforming average reported human-rater results on 65% of the BIG-Bench tasks via few-shot prompting. But on what tasks do language models fall short of average human-rater performance, and are those tasks actually unsolvable by current language models? In this work, we focus on a suite of 23 challenging BIG-Bench tasks which we call BIG-Bench Hard (BBH). These are the task for which prior language model evaluations did not outperform the average human-rater. We find that applying chain-of-thought (CoT) prompting to BBH tasks enables PaLM to surpass the average human-rater performance on 10 of the 23 tasks, and Codex (code-davinci-002) to surpass the average human-rater performance on 17 of the 23 tasks. Since many tasks in BBH require multi-step reasoning, few-shot prompting without CoT, as done in the BIG-Bench evaluations (Srivastava et al., 2022), substantially underestimates the best performance and capabilities of language models, which is better captured via CoT prompting. As further analysis, we explore the interaction between CoT and model scale on BBH, finding that CoT enables emergent task performance on several BBH tasks with otherwise flat scaling curves.
翻訳日:2022-10-18 16:21:24 公開日:2022-10-17
# ビジョンランゲージ事前学習:基礎,最近の進歩,将来の動向

Vision-Language Pre-training: Basics, Recent Advances, and Future Trends ( http://arxiv.org/abs/2210.09263v1 )

ライセンス: Link先を確認
Zhe Gan, Linjie Li, Chunyuan Li, Lijuan Wang, Zicheng Liu, Jianfeng Gao(参考訳) 本稿では,過去数年間に開発されたマルチモーダルインテリジェンスのための視覚言語事前学習(VLP)手法について検討する。 画像キャプション,画像テキスト検索,視覚的質問応答,視覚的接地といった画像テキストタスクのVLP,(オープンセット)画像分類,オブジェクト検出,セグメンテーションといったコアコンピュータビジョンタスクのVLP,ビデオキャプション,ビデオテキスト検索,ビデオ質問応答といったビデオテキストタスクのVLP,という3つのカテゴリに分類した。 それぞれのカテゴリについて,最先端手法の包括的レビューを行い,特定のシステムとモデルをケーススタディとして使用して,現在直面している進歩と課題について議論する。 また,各カテゴリにおいて,大規模基盤モデル,統合モデリング,テキスト内数発学習,知識,堅牢性,コンピュータビジョンなど,研究コミュニティで積極的に探求されている先進的なトピックについて論じる。

This paper surveys vision-language pre-training (VLP) methods for multimodal intelligence that have been developed in the last few years. We group these approaches into three categories: ($i$) VLP for image-text tasks, such as image captioning, image-text retrieval, visual question answering, and visual grounding; ($ii$) VLP for core computer vision tasks, such as (open-set) image classification, object detection, and segmentation; and ($iii$) VLP for video-text tasks, such as video captioning, video-text retrieval, and video question answering. For each category, we present a comprehensive review of state-of-the-art methods, and discuss the progress that has been made and challenges still being faced, using specific systems and models as case studies. In addition, for each category, we discuss advanced topics being actively explored in the research community, such as big foundation models, unified modeling, in-context few-shot learning, knowledge, robustness, and computer vision in the wild, to name a few.
翻訳日:2022-10-18 16:19:35 公開日:2022-10-17
# Mach-Zehnder干渉計を用いた光マトリックス乗算器のデータ駆動モデリング

Data-driven Modeling of Mach-Zehnder Interferometer-based Optical Matrix Multipliers ( http://arxiv.org/abs/2210.09171v1 )

ライセンス: Link先を確認
Ali Cem, Siqi Yan, Yunhong Ding, Darko Zibar, Francesco Da Ros(参考訳) フォトニック集積回路は、光信号が特に行列乗算の実装に適しているため、電子回路よりも高速でエネルギー効率が高い可能性を持つ光ニューラルネットワークの開発を促進する。 しかし、光マトリックス乗算のためのフォトニックチップの正確なプログラミングは難しい課題である。 本稿では,光学行列乗算器のオフライントレーニングのための簡易解析モデルとデータ駆動モデルについて述べる。 3-by-3行列乗算を実装したマッハ・ツェーダー干渉計メッシュを用いた試作チップから得られた実験データを用いてモデルを訓練し,評価した。 ニューラルネットワークベースのモデルは、予測エラーの観点から単純な物理モデルよりも優れている。 さらに、ニューラルネットワークモデルは、Cバンドをカバーする最大100個の周波数チャネルの行列重みのスペクトル変動を予測することもできる。 光行列乗算のためのチップのプログラミングにニューラルネットワークモデルを使用すると、複数の機械学習タスクのパフォーマンスが向上する。

Photonic integrated circuits are facilitating the development of optical neural networks, which have the potential to be both faster and more energy efficient than their electronic counterparts since optical signals are especially well-suited for implementing matrix multiplications. However, accurate programming of photonic chips for optical matrix multiplication remains a difficult challenge. Here, we describe both simple analytical models and data-driven models for offline training of optical matrix multipliers. We train and evaluate the models using experimental data obtained from a fabricated chip featuring a Mach-Zehnder interferometer mesh implementing 3-by-3 matrix multiplication. The neural network-based models outperform the simple physics-based models in terms of prediction error. Furthermore, the neural network models are also able to predict the spectral variations in the matrix weights for up to 100 frequency channels covering the C-band. The use of neural network models for programming the chip for optical matrix multiplication yields increased performance on multiple machine learning tasks.
翻訳日:2022-10-18 16:19:12 公開日:2022-10-17
# 強化多ドメイン対話システムのためのGPTアーキテクチャとゴール状態追跡を用いた生成ユーザシミュレータ

A Generative User Simulator with GPT-based Architecture and Goal State Tracking for Reinforced Multi-Domain Dialog Systems ( http://arxiv.org/abs/2210.08692v1 )

ライセンス: Link先を確認
Hong Liu, Yucheng Cai, Zhijian Ou, Yi Huang, Junlan Feng(参考訳) タスク指向対話システム(DS)の強化学習(RL)のためのユーザシミュレータ(US)の構築がますます注目されてきているが、それでもいくつかの根本的な課題に直面している。 まず、事前訓練された言語モデルを用いて、例えばGPT-2ベースのUSを設計し、最近進歩したGPT-2ベースのDSに追いつき、相互作用できるかどうかは不明である。 第2に、米国における重要な要素は、ユーザ目標を効果的に組み込んで追跡できることであるが、目標状態の追跡を柔軟に統合し、マルチドメインのためのエンドツーエンドのトレーニング可能なUSを開発する方法は、依然として課題である。 本稿では,GPT-2をベースとした汎用ユーザシミュレータ(GUS)と,上記の2つの課題に対処するための目標状態追跡を提案する。 multiwoz2.1に関する広範な実験が行われた。 従来のアジェンダベースユーザシミュレータ (ABUS) と他のアブレーションシミュレータ (ABUS) を用いて, RL を用いて異なるDSを訓練し, クロスモデル評価, コーパスベース評価, 人的評価を行う。 GUSは3つの評価課題すべてにおいて優れた結果を得る。

Building user simulators (USs) for reinforcement learning (RL) of task-oriented dialog systems (DSs) has gained more and more attention, which, however, still faces several fundamental challenges. First, it is unclear whether we can leverage pretrained language models to design, for example, GPT-2 based USs, to catch up and interact with the recently advanced GPT-2 based DSs. Second, an important ingredient in a US is that the user goal can be effectively incorporated and tracked; but how to flexibly integrate goal state tracking and develop an end-to-end trainable US for multi-domains has remained to be a challenge. In this work, we propose a generative user simulator (GUS) with GPT-2 based architecture and goal state tracking towards addressing the above two challenges. Extensive experiments are conducted on MultiWOZ2.1. Different DSs are trained via RL with GUS, the classic agenda-based user simulator (ABUS) and other ablation simulators respectively, and are compared for cross-model evaluation, corpus-based evaluation and human evaluation. The GUS achieves superior results in all three evaluation tasks.
翻訳日:2022-10-18 16:11:10 公開日:2022-10-17
# 異なるラベリングレベルを持つ文書レベル関係抽出のための統一正無ラベル学習フレームワーク

A Unified Positive-Unlabeled Learning Framework for Document-Level Relation Extraction with Different Levels of Labeling ( http://arxiv.org/abs/2210.08709v1 )

ライセンス: Link先を確認
Ye Wang, Xinxin Liu, Wenxin Hu, Tao Zhang(参考訳) 文書レベルの関係抽出(re)は、複数の文間のエンティティ間の関係を識別することを目的としている。 従来は文書レベルのREに重点を置いていた。 しかし、現実のシナリオでは、ドキュメントレベルのREにおけるエンティティペアの数は、エンティティの数と2次的に増加するため、ドキュメント内のすべての関係を完全にラベル付けるのは高価で難しい。 共通不完全ラベリング問題を解くため,我々は統一正のラベル付き学習フレームワーク,shift and squared ranking loss positive-unlabeled (ssr-pu) 学習を提案する。 文書レベルのREで初めて、肯定的未ラベル(PU)学習を使用します。 データセットのラベル付きデータがラベルなしデータの事前シフトにつながる可能性があることを考慮し、トレーニングデータの事前シフトの下でPU学習を導入する。 また,none-classスコアを適応しきい値として使用し,二乗ランキング損失を提案し,マルチラベルランキング指標とのベイズ的一貫性を証明した。 実験の結果,提案手法は,不完全ラベリングにより,前のベースラインに対して約14F1点の改善を達成できた。 さらに、従来の最先端の成果を、完全に監督された設定と極めてラベルのない設定の両方で上回っている。

Document-level relation extraction (RE) aims to identify relations between entities across multiple sentences. Most previous methods focused on document-level RE under full supervision. However, in real-world scenario, it is expensive and difficult to completely label all relations in a document because the number of entity pairs in document-level RE grows quadratically with the number of entities. To solve the common incomplete labeling problem, we propose a unified positive-unlabeled learning framework - shift and squared ranking loss positive-unlabeled (SSR-PU) learning. We use positive-unlabeled (PU) learning on document-level RE for the first time. Considering that labeled data of a dataset may lead to prior shift of unlabeled data, we introduce a PU learning under prior shift of training data. Also, using none-class score as an adaptive threshold, we propose squared ranking loss and prove its Bayesian consistency with multi-label ranking metrics. Extensive experiments demonstrate that our method achieves an improvement of about 14 F1 points relative to the previous baseline with incomplete labeling. In addition, it outperforms previous state-of-the-art results under both fully supervised and extremely unlabeled settings as well.
翻訳日:2022-10-18 16:10:33 公開日:2022-10-17
# Confound-leakage: 漏洩による機械学習リードのコンファウンド除去

Confound-leakage: Confound Removal in Machine Learning Leads to Leakage ( http://arxiv.org/abs/2210.09232v1 )

ライセンス: Link先を確認
Sami Hamdan and Bradley C. Love and Georg G. von Polier and Susanne Weis and Holger Schwender and Simon B. Eickhoff and Kaustubh R. Patil(参考訳) データ分析への機械学習(ML)アプローチは、疫学や医学など多くの分野で広く採用されている。 これらのアプローチを適用するには、まず、MLを適用する前に線形回帰によってそれらの分散を特徴的に取り除かなければならない。 ここでは、この共通手法を用いて、MLモデルから除去バイアスを導出し、誤った結果を導出する。 具体的には、この共通デコンウンディングアプローチは、後に非線形MLアプローチを適用すると、ヌル効果や適度効果がほぼ完璧な予測に増幅されるような情報を漏らすことができる。 我々は,このような共起現象のメカニズムを特定し,評価し,その悪影響を緩和するための実践的指導を行う。 抑うつを伴う注意欠陥多動性障害(adhd)の予測に正確性が過大評価される臨床データセットを分析し,confound-leakageの重要性を実証した。 この結果から,MLワークフローの実装とデプロイ,および標準的なコンファウンド除去アプローチの "na\" 使用に対する注意が示唆された。

Machine learning (ML) approaches to data analysis are now widely adopted in many fields including epidemiology and medicine. To apply these approaches, confounds must first be removed as is commonly done by featurewise removal of their variance by linear regression before applying ML. Here, we show this common approach to confound removal biases ML models, leading to misleading results. Specifically, this common deconfounding approach can leak information such that what are null or moderate effects become amplified to near-perfect prediction when nonlinear ML approaches are subsequently applied. We identify and evaluate possible mechanisms for such confound-leakage and provide practical guidance to mitigate its negative impact. We demonstrate the real-world importance of confound-leakage by analyzing a clinical dataset where accuracy is overestimated for predicting attention deficit hyperactivity disorder (ADHD) with depression as a confound. Our results have wide-reaching implications for implementation and deployment of ML workflows and beg caution against na\"ive use of standard confound removal approaches.
翻訳日:2022-10-18 16:05:02 公開日:2022-10-17
# bi-level optimized query slot attentionを用いた教師なしオブジェクト指向学習

Unsupervised Object-Centric Learning with Bi-Level Optimized Query Slot Attention ( http://arxiv.org/abs/2210.08990v1 )

ライセンス: Link先を確認
Baoxiong Jia, Yu Liu, Siyuan Huang(参考訳) 複雑な自然の風景を有意義なオブジェクト中心の抽象に分解する能力は、人間の知覚と推論の核心にある。 教師なしオブジェクト中心学習の最近の頂点において、スロットアテンションモジュールは単純で効果的な設計で重要な役割を担い、多くの強力な変種を育ててきた。 しかし、これらの手法は、監督なしでの訓練が極めて困難であり、特に複雑な自然シーンにおいて、対象の概念が曖昧である。 本稿では,(1)学習可能なクエリでSlot-Attentionモジュールを初期化し,(2)バイレベル最適化でモデルを最適化することで,これらの問題を解決することを提案する。 我々のモデルであるバイレベル最適化クエリスロット注意は、バニラSlot-Attention上で単純なコード調整を行うことで、教師なし画像のセグメンテーションと再構成において、合成および複雑な実世界のデータセットに対して、最先端の結果を得られる。 設計の必要性と有効性を検証するために、徹底的なアブレーション研究を行う。 さらに,本モデルは,概念バインディングやゼロショット学習に優れた可能性を示す。 私たちの取り組みがスロットベースのモデルの設計と学習のための単一場所を提供し、オブジェクト中心の学習においてより困難なタスクの道を開くことを期待しています。 実装はhttps://github.com/wall-facer-liuyu/bo-qsaで公開しています。

The ability to decompose complex natural scenes into meaningful object-centric abstractions lies at the core of human perception and reasoning. In the recent culmination of unsupervised object-centric learning, the Slot-Attention module has played an important role with its simple yet effective design and fostered many powerful variants. These methods, however, have been exceedingly difficult to train without supervision and are ambiguous in the notion of object, especially for complex natural scenes. In this paper, we propose to address these issues by (1) initializing Slot-Attention modules with learnable queries and (2) optimizing the model with bi-level optimization. With simple code adjustments on the vanilla Slot-Attention, our model, Bi-level Optimized Query Slot Attention, achieves state-of-the-art results on both synthetic and complex real-world datasets in unsupervised image segmentation and reconstruction, outperforming previous baselines by a large margin (~10%). We provide thorough ablative studies to validate the necessity and effectiveness of our design. Additionally, our model exhibits excellent potential for concept binding and zero-shot learning. We hope our effort could provide a single home for the design and learning of slot-based models and pave the way for more challenging tasks in object-centric learning. Our implementation is publicly available at https://github.com/Wall-Facer-liuyu/BO-QSA.
翻訳日:2022-10-18 16:03:14 公開日:2022-10-17
# 畳み込みデコーダネットワークの周波数表現における欠陥

Defects of Convolutional Decoder Networks in Frequency Representation ( http://arxiv.org/abs/2210.09020v1 )

ライセンス: Link先を確認
Ling Tang, Wen Shen, Zhanpeng Zhou, Yuefeng Chen, Quanshi Zhang(参考訳) 本稿では,入力サンプルの周波数成分の異なる表現能力を考慮して,逐次畳み込みデコーダネットワークの表現ボトルネックを示す。 我々はデコーダネットワークの中間層において特徴写像の各チャネルに離散フーリエ変換を行う。 そして,このような中間層スペクトル写像の前方伝播の規則を導入し,畳み込み層を通した特徴写像の前方伝播と等価であることを示す。 その結果,スペクトルマップの各周波数成分は他の周波数成分とは独立に前方に伝播することがわかった。 さらに,特徴スペクトルの表現には2つのボトルネックがある。 まず,畳み込み動作,ゼロパディング動作,その他一連の設定によって,畳み込みデコーダネットワークが高周波成分を弱める可能性が高くなることを示す。 第二に、アップサンプリング動作は特定の周波数で強い信号が繰り返し現れる特徴スペクトルを生成することを証明している。

In this paper, we prove representation bottlenecks of a cascaded convolutional decoder network, considering the capacity of representing different frequency components of an input sample. We conduct the discrete Fourier transform on each channel of the feature map in an intermediate layer of the decoder network. Then, we introduce the rule of the forward propagation of such intermediate-layer spectrum maps, which is equivalent to the forward propagation of feature maps through a convolutional layer. Based on this, we find that each frequency component in the spectrum map is forward propagated independently with other frequency components. Furthermore, we prove two bottlenecks in representing feature spectrums. First, we prove that the convolution operation, the zero-padding operation, and a set of other settings all make a convolutional decoder network more likely to weaken high-frequency components. Second, we prove that the upsampling operation generates a feature spectrum, in which strong signals repetitively appears at certain frequencies.
翻訳日:2022-10-18 16:02:49 公開日:2022-10-17
# zood: アウト・オブ・ディストリビューション・ジェネライゼーションのためのモデル動物園

ZooD: Exploiting Model Zoo for Out-of-Distribution Generalization ( http://arxiv.org/abs/2210.09236v1 )

ライセンス: Link先を確認
Qishi Dong, Awais Muhammad, Fengwei Zhou, Chuanlong Xie, Tianyang Hu, Yongxin Yang, Sung-Ho Bae, Zhenguo Li(参考訳) 近年の大規模事前学習の進歩は、複数の訓練領域を微調整した後、起こりうる未確認領域でうまく機能することを目的として、OoD(Out-of-Distribution)の一般化を改善するために、大量の事前学習モデル(PTM)を活用する大きな可能性を示している。 しかし、PTMのすべての組み合わせを微調整することは計算的に禁止され、正確な選択はOoDタスクのデータ分散シフトに対処する必要があるため、PTMの動物園を最大限に活用することは困難である。 本研究では,PTMのランク付けと特徴選択によるアンサンブルのためのパラダイムであるZooDを提案する。 提案手法は,PTMが抽出した特徴のクラス間識別性とドメイン間安定性を,各ドメイン間の相互検証により定量化する。 上位Kランクのモデルは、対象のOoDタスクに集約される。 モデルアンサンブルによる雑音の蓄積を避けるため,情報的特徴量を選択するための効率的な変分emアルゴリズムを提案する。 様々なOoDタスクのための35のモデルからなる多様なモデル動物園において、我々のパラダイムを評価する。 (i)モデルランキングは、従来の方法よりも微調整ランキングと相関が良く、ブルートフォース微調整よりも最大9859倍速い。 (ii)特徴選択によるモデルアンサンブル後のood一般化は最先端手法よりも優れており、最も挑戦的なタスクドメインネットの精度は46.5\%から50.6\%に向上する。 さらに,7つのoodデータセット上での35ptmsの微調整結果を提供し,モデル動物園とood一般化の研究を支援する。 コードはhttps://gitee.com/mindspore/models/tree/master/research/cv/zoodで入手できる。

Recent advances on large-scale pre-training have shown great potentials of leveraging a large set of Pre-Trained Models (PTMs) for improving Out-of-Distribution (OoD) generalization, for which the goal is to perform well on possible unseen domains after fine-tuning on multiple training domains. However, maximally exploiting a zoo of PTMs is challenging since fine-tuning all possible combinations of PTMs is computationally prohibitive while accurate selection of PTMs requires tackling the possible data distribution shift for OoD tasks. In this work, we propose ZooD, a paradigm for PTMs ranking and ensemble with feature selection. Our proposed metric ranks PTMs by quantifying inter-class discriminability and inter-domain stability of the features extracted by the PTMs in a leave-one-domain-out cross-validation manner. The top-K ranked models are then aggregated for the target OoD task. To avoid accumulating noise induced by model ensemble, we propose an efficient variational EM algorithm to select informative features. We evaluate our paradigm on a diverse model zoo consisting of 35 models for various OoD tasks and demonstrate: (i) model ranking is better correlated with fine-tuning ranking than previous methods and up to 9859x faster than brute-force fine-tuning; (ii) OoD generalization after model ensemble with feature selection outperforms the state-of-the-art methods and the accuracy on most challenging task DomainNet is improved from 46.5\% to 50.6\%. Furthermore, we provide the fine-tuning results of 35 PTMs on 7 OoD datasets, hoping to help the research of model zoo and OoD generalization. Code will be available at https://gitee.com/mindspore/models/tree/master/research/cv/zood.
翻訳日:2022-10-18 16:02:05 公開日:2022-10-17
# Sparse Kronecker Product Decomposition:画像回帰における信号領域検出の一般的なフレームワーク

Sparse Kronecker Product Decomposition: A General Framework of Signal Region Detection in Image Regression ( http://arxiv.org/abs/2210.09128v1 )

ライセンス: Link先を確認
Sanyou Wu, Long Feng(参考訳) 本稿では,高分解能・高次画像回帰問題における信号領域検出のための最初のFrequentistフレームワークを提案する。 近年,画像データとスカラー・オン・イメージ・レグレッションの研究が盛んに行われている。 しかし、これらのトピックに関する既存の研究は結果予測に重点を置いているが、画像領域検出の研究は比較的限られている。 本稿では,Sparse Kronecker Product Decomposition (SKPD) というフレームワークを開発し,この問題に対処する。 SKPDフレームワークは、行列(例えば、2Dグレースケール画像)と(高階テンソル(例えば、2Dカラー画像、脳MRI/fMRIデータ)の両方で画像データを表すという意味で一般的なものである。 さらに,多くのベイズ的手法と異なり,高分解能画像問題に対する計算スケーラブルな手法である。 具体的には、我々のフレームワークには、 1) 1期SKPD 2) 複数長期SKPD,及び 3)非線形SKPD。 非凸最適化問題を提案し、一項および複数項のSKPDを推定し、非凸最適化のための経路追従アルゴリズムを開発する。 経路追従アルゴリズムの計算解は、最適化が非凸であるにもかかわらず、特に選択された初期化で真実に収束することが保証される。 さらに、領域検出一貫性は、一項および複数項のSKPDによって保証される。 非線形SKPDは、浅い畳み込みニューラルネットワーク(CNN)、特に1つの畳み込み層と1つの完全連結層を持つCNNに高結合である。 skpdsの有効性は、イギリスバイオバンクデータベースの脳画像データによって検証される。

This paper aims to present the first Frequentist framework on signal region detection in high-resolution and high-order image regression problems. Image data and scalar-on-image regression are intensively studied in recent years. However, most existing studies on such topics focused on outcome prediction, while the research on image region detection is rather limited, even though the latter is often more important. In this paper, we develop a general framework named Sparse Kronecker Product Decomposition (SKPD) to tackle this issue. The SKPD framework is general in the sense that it works for both matrices (e.g., 2D grayscale images) and (high-order) tensors (e.g., 2D colored images, brain MRI/fMRI data) represented image data. Moreover, unlike many Bayesian approaches, our framework is computationally scalable for high-resolution image problems. Specifically, our framework includes: 1) the one-term SKPD; 2) the multi-term SKPD; and 3) the nonlinear SKPD. We propose nonconvex optimization problems to estimate the one-term and multi-term SKPDs and develop path-following algorithms for the nonconvex optimization. The computed solutions of the path-following algorithm are guaranteed to converge to the truth with a particularly chosen initialization even though the optimization is nonconvex. Moreover, the region detection consistency could also be guaranteed by the one-term and multi-term SKPD. The nonlinear SKPD is highly connected to shallow convolutional neural networks (CNN), particular to CNN with one convolutional layer and one fully connected layer. Effectiveness of SKPDs is validated by real brain imaging data in the UK Biobank database.
翻訳日:2022-10-18 16:01:33 公開日:2022-10-17
# テキスト生成のための教師強制リワード機能

Teacher Forcing Recovers Reward Functions for Text Generation ( http://arxiv.org/abs/2210.08708v1 )

ライセンス: Link先を確認
Yongchang Hao, Yuxin Liu, Lili Mou(参考訳) 強化学習(RL)は、露出バイアス問題を緩和したり、非並列データセットを利用するためにテキスト生成に広く用いられている。 報酬関数はRLトレーニングを成功させる上で重要な役割を果たす。 しかしながら、以前の報酬関数は通常タスク固有でスパースであり、RLの使用を制限する。 本研究では,教師強制で訓練されたモデルから直接ステップワイズ報酬関数を導出するタスク非依存の手法を提案する。 さらに,非並列データセットのrlトレーニングをインセンティブ報酬関数で安定化するための簡単な修正を提案する。 実験の結果,本手法は複数のテキスト生成タスクにおける自己学習および報酬回帰手法よりも優れており,報酬機能の有効性が確認できた。

Reinforcement learning (RL) has been widely used in text generation to alleviate the exposure bias issue or to utilize non-parallel datasets. The reward function plays an important role in making RL training successful. However, previous reward functions are typically task-specific and sparse, restricting the use of RL. In our work, we propose a task-agnostic approach that derives a step-wise reward function directly from a model trained with teacher forcing. We additionally propose a simple modification to stabilize the RL training on non-parallel datasets with our induced reward function. Empirical results show that our method outperforms self-training and reward regression methods on several text generation tasks, confirming the effectiveness of our reward function.
翻訳日:2022-10-18 15:55:09 公開日:2022-10-17
# ポストホック研究と改訂によるテキスト生成

Attributed Text Generation via Post-hoc Research and Revision ( http://arxiv.org/abs/2210.08726v1 )

ライセンス: Link先を確認
Luyu Gao, Zhuyun Dai, Panupong Pasupat, Anthony Chen, Arun Tejasvi Chaganty, Yicheng Fan, Vincent Y. Zhao, Ni Lao, Hongrae Lee, Da-Cheng Juan, Kelvin Guu(参考訳) 言語モデル(LM)は、少人数の学習、質問応答、推論、ダイアログなど、多くのタスクに優れています。 しかし、時にはサポートされないコンテンツや誤解を招くこともある。 ほとんどのLMには外部の証拠に寄与する機構が組み込まれていないため、ユーザはアウトプットが信頼できるかどうかを容易に判断できない。 近年の次世代モデルの強大な優位性を保ちつつ貢献を可能にするため, RARR(Retrofit Attribution using Research and Revision)を提案する。 1)任意のテキスト生成モデルの出力に対する属性を自動的に発見し、 2) 元の出力を可能な限り保存しながら、出力を修正サポートコンテンツにポスト編集する。 様々な生成タスクにおける最先端のLMの出力に適用すると、RARRは元の入力を以前検討した編集モデルよりもはるかに大きく保ちながら、属性を著しく改善することがわかった。 さらに、RARRの実装には、少数のトレーニング例、大規模な言語モデル、標準的なWeb検索が必要である。

Language models (LMs) now excel at many tasks such as few-shot learning, question answering, reasoning, and dialog. However, they sometimes generate unsupported or misleading content. A user cannot easily determine whether their outputs are trustworthy or not, because most LMs do not have any built-in mechanism for attribution to external evidence. To enable attribution while still preserving all the powerful advantages of recent generation models, we propose RARR (Retrofit Attribution using Research and Revision), a system that 1) automatically finds attribution for the output of any text generation model and 2) post-edits the output to fix unsupported content while preserving the original output as much as possible. When applied to the output of several state-of-the-art LMs on a diverse set of generation tasks, we find that RARR significantly improves attribution while otherwise preserving the original input to a much greater degree than previously explored edit models. Furthermore, the implementation of RARR requires only a handful of training examples, a large language model, and standard web search.
翻訳日:2022-10-18 15:54:58 公開日:2022-10-17
# MCP:マルチレベルコントラストサンプリングによる個人化チャットボットの自己指導型事前学習

MCP: Self-supervised Pre-training for Personalized Chatbots with Multi-level Contrastive Sampling ( http://arxiv.org/abs/2210.08753v1 )

ライセンス: Link先を確認
Zhaoheng Huang, Zhicheng Dou, Yutao Zhu and Zhengyi Ma(参考訳) パーソナライズされたチャットボットは、チャットボットを本物のユーザーのように振る舞う一貫したパーソナリティで囲み込み、さらにパーソナルアシスタントとして振る舞うことに焦点を当てている。 これまでの研究は、パーソナライズされたチャットボットを構築するために、ユーザの対話履歴から暗黙のユーザプロファイルを生成することを模索してきた。 しかしながら、これらの研究はモデル全体のトレーニングに応答生成損失のみを使用するため、データのスパーシティの問題に苦しむ傾向にある。 さらに、ユーザの対話履歴間の相関や融合を無視しながら、最終的な応答の品質を過度に強調し、粗いデータ表現とパフォーマンス劣化につながる。 これらの課題に対処するために,個人化されたチャットボットのための対話履歴からより良い表現を抽出するための自己教師付き学習フレームワーク MCP を提案する。 具体的には、ユーザのダイアログ履歴に隠された教師付き信号を活用するために対比サンプリング法を適用し、モデルの強化のために事前学習サンプルを生成する。 ユーザ対話履歴,すなわち応答ペア,シーケンス拡張ペア,ユーザペアの3種類のコントラストペアに基づいて,事前学習タスクを設計する。 我々は、発話エンコーダと履歴エンコーダを比較対象に向けて事前訓練し、これらの事前学習エンコーダを用いて、パーソナライズされた応答生成を行う。 2つの実世界のデータセットに対する実験結果から,提案したモデルMPPは既存手法と比較して大幅に改善された。

Personalized chatbots focus on endowing the chatbots with a consistent personality to behave like real users and further act as personal assistants. Previous studies have explored generating implicit user profiles from the user's dialogue history for building personalized chatbots. However, these studies only use the response generation loss to train the entire model, thus it is prone to suffer from the problem of data sparsity. Besides, they overemphasize the final generated response's quality while ignoring the correlations and fusions between the user's dialogue history, leading to rough data representations and performance degradation. To tackle these problems, we propose a self-supervised learning framework MCP for capturing better representations from users' dialogue history for personalized chatbots. Specifically, we apply contrastive sampling methods to leverage the supervised signals hidden in user dialog history, and generate the pre-training samples for enhancing the model. We design three pre-training tasks based on three types of contrastive pairs from user dialogue history, namely response pairs, sequence augmentation pairs, and user pairs. We pre-train the utterance encoder and the history encoder towards the contrastive objectives and use these pre-trained encoders for generating user profiles while personalized response generation. Experimental results on two real-world datasets show a significant improvement in our proposed model MCP compared with the existing methods.
翻訳日:2022-10-18 15:54:39 公開日:2022-10-17
# 人間選好からの報酬学習のためのシンボル誘導後遺症前兆

Symbol Guided Hindsight Priors for Reward Learning from Human Preferences ( http://arxiv.org/abs/2210.09151v1 )

ライセンス: Link先を確認
Mudit Verma and Katherine Metcalf(参考訳) 強化学習(RL)エージェントに対する報酬の特定は困難である。 嗜好に基づくRL(PbRL)は、一連の軌道上のフィードバックから報酬を推測することでこれらの課題を軽減する。 しかし、PbRLの有効性は、目標報酬の構造を確実に回復するために必要なフィードバック量によって制限される。 本稿では,報酬関数の構造と選好フィードバックを報酬学習プロセスに組み込んだprior over rewards(prior)フレームワークを提案する。 報酬学習の目的にソフトな制約を課すことは、半分のフィードバックの量を減らし、全体の報酬回復を改善する。 さらに,事前の計算に抽象的な状態空間を用いることで,報酬学習とエージェントのパフォーマンスがさらに向上することを示す。

Specifying rewards for reinforcement learned (RL) agents is challenging. Preference-based RL (PbRL) mitigates these challenges by inferring a reward from feedback over sets of trajectories. However, the effectiveness of PbRL is limited by the amount of feedback needed to reliably recover the structure of the target reward. We present the PRIor Over Rewards (PRIOR) framework, which incorporates priors about the structure of the reward function and the preference feedback into the reward learning process. Imposing these priors as soft constraints on the reward learning objective reduces the amount of feedback required by half and improves overall reward recovery. Additionally, we demonstrate that using an abstract state space for the computation of the priors further improves the reward learning and the agent's performance.
翻訳日:2022-10-18 15:54:11 公開日:2022-10-17
# 時間的概念ドリフトがモデル説明に及ぼす影響について

On the Impact of Temporal Concept Drift on Model Explanations ( http://arxiv.org/abs/2210.09197v1 )

ライセンス: Link先を確認
Zhixue Zhao, George Chrysostomou, Kalina Bontcheva, Nikolaos Aletras(参考訳) 自然言語処理におけるモデル予測の表現忠実度は、トレーニングデータ(同期設定)と同じ時間分布から保持されたデータに基づいて評価される。 モデルの性能は時間的変動(すなわち時間的概念のドリフト)によって劣化することが多いが、現在、対象データの時間間隔がモデルのトレーニングに使用されるデータ(すなわち非同期設定)と異なる場合、その説明の忠実さがどの程度影響するかは分かっていない。 そこで本研究では,8つの特徴属性法と3つの選択列予測モデルから抽出したモデル説明に対する時間変動の影響について検討した。 私たちの実験は (i)特徴帰属法における時間的変動(例えば、その方法によって減少または増加)では不完全性は一致せず、データセット間で最も堅牢な忠実性スコアを示す注意に基づく方法。 (ii)select-then-predictモデルは主に非同期設定で頑健であり、予測性能の低下は少ない。 最後に、FRESH(select-and-predict model)とSufficiency/comprehensiveness(post-hoc method)の測定において、特徴属性法は相反する振る舞いを示し、ポストホックな説明の忠実さを評価するためにより堅牢なメトリクスが必要であることを示唆している。

Explanation faithfulness of model predictions in natural language processing is typically evaluated on held-out data from the same temporal distribution as the training data (i.e. synchronous settings). While model performance often deteriorates due to temporal variation (i.e. temporal concept drift), it is currently unknown how explanation faithfulness is impacted when the time span of the target data is different from the data used to train the model (i.e. asynchronous settings). For this purpose, we examine the impact of temporal variation on model explanations extracted by eight feature attribution methods and three select-then-predict models across six text classification tasks. Our experiments show that (i)faithfulness is not consistent under temporal variations across feature attribution methods (e.g. it decreases or increases depending on the method), with an attention-based method demonstrating the most robust faithfulness scores across datasets; and (ii) select-then-predict models are mostly robust in asynchronous settings with only small degradation in predictive performance. Finally, feature attribution methods show conflicting behavior when used in FRESH (i.e. a select-and-predict model) and for measuring sufficiency/comprehensiveness (i.e. as post-hoc methods), suggesting that we need more robust metrics to evaluate post-hoc explanation faithfulness.
翻訳日:2022-10-18 15:53:57 公開日:2022-10-17
# 長いシーケンスモデリングで畳み込みモデルはなぜ素晴らしいのか?

What Makes Convolutional Models Great on Long Sequence Modeling? ( http://arxiv.org/abs/2210.09298v1 )

ライセンス: Link先を確認
Yuhong Li, Tianle Cai, Yi Zhang, Deming Chen, Debadeepta Dey(参考訳) 畳み込みモデルは複数の領域で広く使われている。 しかし、既存のモデルのほとんどは局所的な畳み込みしか使用せず、モデルが長距離依存を効率的に処理できない。 注意は、グローバルな情報を集約することでこの問題を克服するが、計算複雑性をシーケンス長に二乗化させる。 最近、Gu et al。 2021年] 状態空間モデルに触発された s4 というモデルを提案しました S4は、カーネルサイズが入力シーケンス長に等しい大域的畳み込みモデルとして効率的に実装することができる。 s4 はトランスフォーマーよりも長いシーケンスをモデル化でき、いくつかの長距離タスクで sota を大きく上回る。 実証的な成功にもかかわらず、S4は関与している。 高度なパラメータ化と初期化スキームが必要です。 その結果、s4は直感的ではなく、使いにくい。 ここでは、S4をデミスティフィケートし、グローバルな畳み込みモデルとしてS4の成功に寄与する基本原則を抽出することを目的とする。 我々は、畳み込みカーネルの構造に注目し、効率的なグローバル畳み込みモデルを構成するのに十分な2つの重要な、直感的な原則を特定します。 1) 畳み込み核のパラメータ化は, パラメータ数をシーケンス長でサブリニアにスケールするという意味で効率的である必要がある。 2) 核は、近接する近傍との畳み込みの重みがより遠方の重みよりも大きいような減衰構造を満たす必要がある。 この2つの原理に基づき,構造化グローバル畳み込み (structured global convolution, sgconv) と呼ばれる単純かつ効果的な畳み込みモデルを提案する。 SGConvはいくつかのタスクに対して強い経験的パフォーマンスを示す。 1) sgconv は高速で長距離アリーナと音声コマンドデータセットで s4 を超える。 2)SGConvを標準言語とビジョンモデルにプラグインすると,効率と性能が向上する可能性が示された。

Convolutional models have been widely used in multiple domains. However, most existing models only use local convolution, making the model unable to handle long-range dependency efficiently. Attention overcomes this problem by aggregating global information but also makes the computational complexity quadratic to the sequence length. Recently, Gu et al. [2021] proposed a model called S4 inspired by the state space model. S4 can be efficiently implemented as a global convolutional model whose kernel size equals the input sequence length. S4 can model much longer sequences than Transformers and achieve significant gains over SoTA on several long-range tasks. Despite its empirical success, S4 is involved. It requires sophisticated parameterization and initialization schemes. As a result, S4 is less intuitive and hard to use. Here we aim to demystify S4 and extract basic principles that contribute to the success of S4 as a global convolutional model. We focus on the structure of the convolution kernel and identify two critical but intuitive principles enjoyed by S4 that are sufficient to make up an effective global convolutional model: 1) The parameterization of the convolutional kernel needs to be efficient in the sense that the number of parameters should scale sub-linearly with sequence length. 2) The kernel needs to satisfy a decaying structure that the weights for convolving with closer neighbors are larger than the more distant ones. Based on the two principles, we propose a simple yet effective convolutional model called Structured Global Convolution (SGConv). SGConv exhibits strong empirical performance over several tasks: 1) With faster speed, SGConv surpasses S4 on Long Range Arena and Speech Command datasets. 2) When plugging SGConv into standard language and vision models, it shows the potential to improve both efficiency and performance.
翻訳日:2022-10-18 15:46:03 公開日:2022-10-17
# nish:新しい負の刺激によるハイブリッド活性化機能

Nish: A Novel Negative Stimulated Hybrid Activation Function ( http://arxiv.org/abs/2210.09083v1 )

ライセンス: Link先を確認
Yildiray Anaguna and Sahin Isik(参考訳) アクティベーション機能は、ニューラルネットワークの性能と安定性において重要な役割を果たす。 本研究では,Nigative Stimulated Hybrid Activation Function (Nish)と呼ばれる新しい非単調活性化関数を提案する。 これは、0より大きい値に対するRectified Linear Unit (ReLU)関数や、0より小さい値に対する正準正弦関数のように振る舞う。 提案関数はシグモイド波と正弦波を包含し、従来のReLU活性化に対する新しいダイナミクスを可能にする。 我々は、よく確立されたアーキテクチャの異なる組み合わせに対するNishの頑健さと、最近提案された様々なよく知られたベンチマークを用いたアクティベーション関数を評価する。 その結果,mishアクティベーション関数により求めた精度は,mishアクティベーションによって計算された重みの組を用いた場合よりも若干高いことがわかった。

Activation functions play a crucial role in the performance and stability of neural networks. In this study, we propose a novel non-monotonic activation function is called Negative Stimulated Hybrid Activation Function (Nish). It behaves like a Rectified Linear Unit (ReLU) function for values greater than zero, and a sinus-sigmoidal function for values less than zero. The proposed function incorporates the sigmoid and sine wave, allowing new dynamics over traditional ReLU activations. We evaluate robustness of the Nish for different combinations of well-established architectures as well as recently proposed activation functions using on various well-known benchmarks. The results indicate that the accuracy rates obtained by the proposed activation function are slightly higher than those obtained using the set of weights calculated by Mish activation.
翻訳日:2022-10-18 15:45:38 公開日:2022-10-17
# Efference Copiesによる自己指導型学習

Self-Supervised Learning Through Efference Copies ( http://arxiv.org/abs/2210.09224v1 )

ライセンス: Link先を確認
Franz Scherr, Qinghai Guo, Timoleon Moraitis(参考訳) 自己教師付き学習(SSL)メソッドは、機械学習(ML)の膨大なデータを活用することを目的としている。 生物学的第一原理に基づくSSLフレームワークは、さまざまなSSLメソッドを統一し、脳内の学習を解明し、MLを改善する可能性がある。 sslは、各トレーニングデータポイントを1対のビューに変換し、このペアリングの知識をポジティブな(すなわち非矛盾的な)自己スーパーバイザリーサインとして使用し、潜在的に無関係な(コントラスト的な)ネガティブな例に対抗します。 本稿では,このタイプの自己スーパービジョンが神経科学の概念であるEfference Copy(EC)の不完全な実装であることを示す。 具体的には、脳はエフェクション、すなわち運動コマンドを通して環境を変換するが、単にSSLサイン以上の完全なコマンドのECに自身を送信する。 さらに、その作用表現は自我中心である可能性が高い。 このような原則的な基盤から、私たちはSimCLR、BYOL、RelicといったSSLメソッドを、共通の理論的枠組み、すなわち、自己スーパービジョン・スルー・エfference Copies (S-TEC)の下で正式に回復し、拡張します。 経験的に、S-TECはクラス内の表現とクラス間の表現を有意に再構成する。 これは、画像分類、セグメンテーション、オブジェクト検出、オーディオにおける最近の強力なSSLベースラインの改善として現れている。 これらの結果は、脳の運動の感覚表現に対するテスト可能なポジティブな影響を仮定する。

Self-supervised learning (SSL) methods aim to exploit the abundance of unlabelled data for machine learning (ML), however the underlying principles are often method-specific. An SSL framework derived from biological first principles of embodied learning could unify the various SSL methods, help elucidate learning in the brain, and possibly improve ML. SSL commonly transforms each training datapoint into a pair of views, uses the knowledge of this pairing as a positive (i.e. non-contrastive) self-supervisory sign, and potentially opposes it to unrelated, (i.e. contrastive) negative examples. Here, we show that this type of self-supervision is an incomplete implementation of a concept from neuroscience, the Efference Copy (EC). Specifically, the brain also transforms the environment through efference, i.e. motor commands, however it sends to itself an EC of the full commands, i.e. more than a mere SSL sign. In addition, its action representations are likely egocentric. From such a principled foundation we formally recover and extend SSL methods such as SimCLR, BYOL, and ReLIC under a common theoretical framework, i.e. Self-supervision Through Efference Copies (S-TEC). Empirically, S-TEC restructures meaningfully the within- and between-class representations. This manifests as improvement in recent strong SSL baselines in image classification, segmentation, object detection, and in audio. These results hypothesize a testable positive influence from the brain's motor outputs onto its sensory representations.
翻訳日:2022-10-18 15:44:59 公開日:2022-10-17
# リレーショナルマクロ状態理論は、人工知能をマクロとデザインマイクロを学ぶために導く

A Relational Macrostate Theory Guides Artificial Intelligence to Learn Macro and Design Micro ( http://arxiv.org/abs/2210.07374v2 )

ライセンス: Link先を確認
Yanbo Zhang and Sara Imari Walker(参考訳) 複素系の高双対性、非線形性、創発的性質は、より単純な物理系で成功しているのと同じ方法で一般法則を特定することに挑戦する。 アンダーソンの独創的な著作"why more is different"において、彼は基礎となるマイクロスケールの法則の対称性をマクロスケールパターンがいかに創発的に破壊するかを指摘した。 しかし、これらの大規模で創発的なパターンが、マイクロスケールルールの対称性を保持する必要があることは、あまり認識されていない。 本稿では、2つの相互予測観測の対称性からマクロステートを定義する新しい関係マクロステート理論(RMT)を導入し、マイクロからマクロへのマッピング中にどの対称性が保存されているかを特定する機械学習アーキテクチャであるマクロネットを開発する。 この枠組みを用いて、単純な調和発振器の単純さからチューリング不安定性のより複雑な空間パターニング特性まで、システムの複雑さをまたいでマクロ状態がいかに識別できるかを示す。 さらに、我々のフレームワークが、与えられたマクロスケール特性と一貫性のあるマイクロステートの逆設計にどのように使えるかを示す。 チューリングパターンでは、与えられたマクロスケール空間パターニングの仕様でマイクロステートを設計でき、これらのパターンを最も制御するパラメータを特定することができる。 マイクロからマクロへのマッピングにおける対称性の保存からマクロプロパティがいかに出現するかの一般的な理論を示すことによって、システム内のマクロステートをシンプルから複雑に識別するための統一的なアプローチを可能にする機械学習フレームワークを提供し、与えられたマクロプロパティと一致する新しい例の設計を可能にする。

The high dimesionality, non-linearity and emergent properties of complex systems pose a challenge to identifying general laws in the same manner that has been so successful in simpler physical systems. In the seminal work of Anderson on why more is different he pointed to how emergent, macroscale patterns break symmetries of the underlying microscale laws. Yet, less recognized is that these large scale, emergent patterns must also retain some symmetries of the microscale rules. Here we introduce a new, relational macrostate theory (RMT) that defines macrostates in terms of symmetries between two mutually predictive observations, and develop a machine learning architecture, MacroNet, that identifies which symmetries are preserved during the mapping from micro-to-macro. Using this framework, we show how macrostates can be identifed across systems ranging in complexity from the simplicity of the simple harmonic oscillator to the much more complex spatial patterning characteristic of Turing instabilities. Furthermore, we show how our framework can be used for the inverse design of microstates consistent with a given macroscale property - in Turing patterns this allows us to design microstates with a given specification of macroscale spatial patterning, and to identify which parameters most control these patterns. By demonstrating a general theory for how macroscale properties emerge from conservation of symmetries in the mapping from micro-to-macro, we provide a machine learning framework that allows a unified approach to identifying macrostates in systems from the simple to complex, and allows the design of new examples consistent with a given macroscale property.
翻訳日:2022-10-18 13:33:50 公開日:2022-10-17
# NICOとGrowd-When-Required Networksでオブジェクトを自律的に取得する学習

Learning to Autonomously Reach Objects with NICO and Grow-When-Required Networks ( http://arxiv.org/abs/2210.07851v2 )

ライセンス: Link先を確認
Nima Rahrakhshan, Matthias Kerzel, Philipp Allgeuer, Nicolas Duczek, Stefan Wermter(参考訳) 物体に手を伸ばす行為は、ロボットエージェントにとって基本だが複雑な技術であり、高度な振動制御と協調を必要とする。 動的環境を考慮すると、新しい状況に自律的に適応できるロボットが望まれる。 本稿では,物体到達作業におけるNICO(Neuro-Inspired Companion)プラットフォーム上での視覚的協調を自律的に学習するための開発ロボティクス手法を提案する。 ロボットは環境と相互作用し、ヘビアン学習に基づいて運動指令と時間的に相関した感覚知覚の関係を学習する。 複数のGWR(Grow-When-Required)ネットワークは、まず視線を視覚刺激に向け、次に腕の運動制御を学習し、最後に目の協調を使って物体に到達する方法を学ぶことによって、より複雑な運動行動を学ぶために使用される。 提案手法の適応性を示すため,nicoの体における予期せぬ機械的変化をモデルが対処できることを実証した。 提案手法の評価では,ヒューマノイドロボットNICOが76%の成功率で物体に到達できることが示されている。

The act of reaching for an object is a fundamental yet complex skill for a robotic agent, requiring a high degree of visuomotor control and coordination. In consideration of dynamic environments, a robot capable of autonomously adapting to novel situations is desired. In this paper, a developmental robotics approach is used to autonomously learn visuomotor coordination on the NICO (Neuro-Inspired COmpanion) platform, for the task of object reaching. The robot interacts with its environment and learns associations between motor commands and temporally correlated sensory perceptions based on Hebbian learning. Multiple Grow-When-Required (GWR) networks are used to learn increasingly more complex motoric behaviors, by first learning how to direct the gaze towards a visual stimulus, followed by learning motor control of the arm, and finally learning how to reach for an object using eye-hand coordination. We demonstrate that the model is able to deal with an unforeseen mechanical change in the NICO's body, showing the adaptability of the proposed approach. In evaluations of our approach, we show that the humanoid robot NICO is able to reach objects with a 76% success rate.
翻訳日:2022-10-18 13:33:21 公開日:2022-10-17
# 10年って何? 時間を通して顔を変える

What's in a Decade? Transforming Faces Through Time ( http://arxiv.org/abs/2210.06642v2 )

ライセンス: Link先を確認
Eric Ming Chen, Jin Sun, Apoorv Khandelwal, Dani Lischinski, Noah Snavely, Hadar Averbuch-Elor(参考訳) 10年でどうやって人を視覚的に特徴づけることができるのか? 本研究では,1880年代から現在に至るまでの10年ごとに1000枚以上の肖像画画像を含む時系列データセットを用いて,顔の組み立てを行う。 新しいデータセットを使って、時間をかけて肖像画を再合成する枠組みを提示し、ある10年間に撮影されたポートレートが、他の数十年で撮影されたものであることを想像した。 私たちのフレームワークは、入力ポートレートのアイデンティティを維持しながら、10年ごとに異なる髪型や化粧を区別する微妙な変化を明らかにする、デケードごとのジェネレータのファミリーを最適化します。 本手法は,最新の画像から画像への翻訳手法や属性ベース,言語ガイド付きポートレート編集モデルと比較して,時系列のポートレートの合成に有効であることを示す。 私たちのコードとデータはhttps://facesthroughtime.github.ioで入手できる。

How can one visually characterize people in a decade? In this work, we assemble the Faces Through Time dataset, which contains over a thousand portrait images from each decade, spanning the 1880s to the present day. Using our new dataset, we present a framework for resynthesizing portrait images across time, imagining how a portrait taken during a particular decade might have looked like, had it been taken in other decades. Our framework optimizes a family of per-decade generators that reveal subtle changes that differentiate decade--such as different hairstyles or makeup--while maintaining the identity of the input portrait. Experiments show that our method is more effective in resynthesizing portraits across time compared to state-of-the-art image-to-image translation methods, as well as attribute-based and language-guided portrait editing models. Our code and data will be available at https://facesthroughtime.github.io
翻訳日:2022-10-18 13:32:58 公開日:2022-10-17
# トランスフォーマーを用いた広範囲mriアーチファクト除去

Wide Range MRI Artifact Removal with Transformers ( http://arxiv.org/abs/2210.07976v2 )

ライセンス: Link先を確認
Lennart Alexander Van der Goten, Kevin Smith(参考訳) 磁気共鳴スキャンの成果は、放射線医とコンピュータ支援診断システムにとって深刻な課題である。 最も一般的には、人工物は患者の動きによって引き起こされるが、ノイズパターンのようなデバイス固有の異常も引き起こされる。 ソースを無視すると、アーティファクトはスキャンを役に立たないだけでなく、もし気付かなかったら誤診断を誘発する可能性がある。 例えば、アーティファクトは腫瘍または他の異常としてマスクレードすることがある。 レトロスペクティブアーティファクト修正(RAC)は、スキャン済みのアーティファクトの除去に関するものである。 本研究では,ネイティブレゾリューションmr画像から得られた8種類のアーティファクトを遡及的に除去する手法を提案する。 特定のアーティファクトの存在や位置に関する知識は想定されておらず、システムは設計上、複数のアーティファクトの相互作用を解き放つことができる。 本手法は,swainトランスで一般化された\emph{window-centered}アプローチを一般化した,新しいボリュームトランスベースニューラルネットワークの設計により実現されている。 Swinと違って私たちの方法は (i)ネイティブのボリューム (ii)分類ではなく、密集した予測課題に特化し、 (iii)ウィンドウ間の情報交換を可能にするために、新規でよりグローバルな機構を用いる。 実験の結果,ResNet,V-Net,MobileNet-v2,DenseNet,CycleGAN,BicycleGANで得られたものよりも,再現性がかなり高いことがわかった。 さらに,本モデルから再構成した画像は,標準的な頭蓋骨切断法であるFSL BETの精度を向上させることを示す。

Artifacts on magnetic resonance scans are a serious challenge for both radiologists and computer-aided diagnosis systems. Most commonly, artifacts are caused by motion of the patients, but can also arise from device-specific abnormalities such as noise patterns. Irrespective of the source, artifacts can not only render a scan useless, but can potentially induce misdiagnoses if left unnoticed. For instance, an artifact may masquerade as a tumor or other abnormality. Retrospective artifact correction (RAC) is concerned with removing artifacts after the scan has already been taken. In this work, we propose a method capable of retrospectively removing eight common artifacts found in native-resolution MR imagery. Knowledge of the presence or location of a specific artifact is not assumed and the system is, by design, capable of undoing interactions of multiple artifacts. Our method is realized through the design of a novel volumetric transformer-based neural network that generalizes a \emph{window-centered} approach popularized by the Swin transformer. Unlike Swin, our method is (i) natively volumetric, (ii) geared towards dense prediction tasks instead of classification, and (iii), uses a novel and more global mechanism to enable information exchange between windows. Our experiments show that our reconstructions are considerably better than those attained by ResNet, V-Net, MobileNet-v2, DenseNet, CycleGAN and BicycleGAN. Moreover, we show that the reconstructed images from our model improves the accuracy of FSL BET, a standard skull-stripping method typically applied in diagnostic workflows.
翻訳日:2022-10-18 13:32:43 公開日:2022-10-17
# 不均一クライアントを用いたフェデレーションベストアーム識別

Federated Best Arm Identification with Heterogeneous Clients ( http://arxiv.org/abs/2210.07780v2 )

ライセンス: Link先を確認
Zhirui Chen, P. N. Karthik, Vincent Y. F. Tan, and Yeow Meng Chee(参考訳) 本研究は,各クライアントが腕の部分集合にアクセスでき,各アームが独立してガウス観測を行う場合に,中央サーバと複数のクライアントで連携した多腕バンディット設定における最適なアーム識別について検討する。 任意のタイミングで腕から得られる報酬は、腕にアクセスする全てのクライアントに対して、この時点で発生した観測の平均として定義される。 最終目標は、各クライアントの最高のアーム(平均報酬が最も大きい腕)を最小の停止時間で識別することであり、エラー確率の上限(すなわち、"em fixed-confidence regime})である。 各クライアントの最適なアームを見つけるために、期待される時間の成長率に低いバウンダリを提供する。 さらに,最善のアームを求める推定時間上の上限が乗算定数まで下限と一致するアルゴリズムであれば,任意の2連続する通信時間インスタントの比率は有界でなければならず,その結果は独立利害関係であることを示す。 次に、最も優れた武器を見つけるのに必要な通信ラウンドの期待数に基づいて、最初の既知の下限を提供する。 指数関数時間でのみ通信し、期待時間上の漸近上界を導出し、最良アームと期待される通信ラウンド数を求める、よく知られた「emトラックアンドストップ」戦略に基づく新しいアルゴリズムを提案する。

We study best arm identification in a federated multi-armed bandit setting with a central server and multiple clients, when each client has access to a {\em subset} of arms and each arm yields independent Gaussian observations. The {\em reward} from an arm at any given time is defined as the average of the observations generated at this time across all the clients that have access to the arm. The end goal is to identify the best arm (the arm with the largest mean reward) of each client with the least expected stopping time, subject to an upper bound on the error probability (i.e., the {\em fixed-confidence regime}). We provide a lower bound on the growth rate of the expected time to find the best arm of each client. Furthermore, we show that for any algorithm whose upper bound on the expected time to find the best arms matches with the lower bound up to a multiplicative constant, the ratio of any two consecutive communication time instants must be bounded, a result that is of independent interest. We then provide the first-known lower bound on the expected number of {\em communication rounds} required to find the best arms. We propose a novel algorithm based on the well-known {\em Track-and-Stop} strategy that communicates only at exponential time instants, and derive asymptotic upper bounds on its expected time to find the best arms and the expected number of communication rounds, where the asymptotics is one of vanishing error probabilities.
翻訳日:2022-10-18 13:32:16 公開日:2022-10-17
# 論理規則推論を用いた自己説明深部モデル

Self-explaining deep models with logic rule reasoning ( http://arxiv.org/abs/2210.07024v2 )

ライセンス: Link先を確認
Seungeon Lee, Xiting Wang, Sungwon Han, Xiaoyuan Yi, Xing Xie, Meeyoung Cha(参考訳) 本稿では,自己説明機能を与えられた深層モデルに統合し,高い予測性能と人間の精度を両立するフレームワークであるselorを提案する。 人間の正確さ(human precision)とは、モデルが予測する理由に人間が同意する程度を指す。 人間の精度はユーザーの信頼に影響を与え、ユーザーはモデルと密接に連携することができる。 論理規則の説明は自然に人間の正確さを、優れた予測性能に必要な表現力で満たしていることを示す。 次に、深いモデルが論理ルールで予測と説明を可能にする方法を説明します。 本手法は,事前定義された論理規則セットや人間のアノテーションを必要とせず,広く使用されている深層学習モジュールを用いて効率的に,容易に学習することができる。 広範な実験により,深層学習モデルの性能を維持しつつ,他の手法よりも人間の決定論理に近い説明を与えることが示された。

We present SELOR, a framework for integrating self-explaining capabilities into a given deep model to achieve both high prediction performance and human precision. By "human precision", we refer to the degree to which humans agree with the reasons models provide for their predictions. Human precision affects user trust and allows users to collaborate closely with the model. We demonstrate that logic rule explanations naturally satisfy human precision with the expressive power required for good predictive performance. We then illustrate how to enable a deep model to predict and explain with logic rules. Our method does not require predefined logic rule sets or human annotations and can be learned efficiently and easily with widely-used deep learning modules in a differentiable way. Extensive experiments show that our method gives explanations closer to human decision logic than other methods while maintaining the performance of deep learning models.
翻訳日:2022-10-18 13:28:48 公開日:2022-10-17
# 固有リワードマッチングを用いたスキルベース強化学習

Skill-Based Reinforcement Learning with Intrinsic Reward Matching ( http://arxiv.org/abs/2210.07426v2 )

ライセンス: Link先を確認
Ademi Adeniji, Amber Xie, Pieter Abbeel(参考訳) 教師なしのスキル発見は、自律的な行動プリミティブ獲得において有望であるが、タスク非依存のスキル事前学習と下流のタスク対応の微調整の間には、大きな方法論的な切り離しがある。 我々は本質的報酬マッチング(irm)を示し、これらの2つの学習フェーズを$\textit{skill discriminator}$で統一する。 従来のアプローチでは、適切なスキルを実証的に決定するために、しばしば高価な環境のロールアウトに頼っている。 しかしながら、タスクの最も簡潔で完全な記述は報酬関数自身であり、スキル学習手法はスキルポリシーに対応する識別器を介して$\textit{intrinsic}$報酬関数を学ぶ。 そこで本研究では,環境サンプルを使わずに,固有および下流タスクの報酬を$\textit{match}$に設定し,未検出タスクの最適スキルを判定し,サンプル効率を向上させる手法を提案する。 さらに、IRMをシーケンススキルに一般化し、より複雑な長距離タスクを解く。 IRMは、教師なし強化学習ベンチマークにおける従来のスキル選択手法と競合し、テーブルトップ操作タスクにおいて、より効果的に事前訓練されたスキルを活用できることを実証する。

While unsupervised skill discovery has shown promise in autonomously acquiring behavioral primitives, there is still a large methodological disconnect between task-agnostic skill pretraining and downstream, task-aware finetuning. We present Intrinsic Reward Matching (IRM), which unifies these two phases of learning via the $\textit{skill discriminator}$, a pretraining model component often discarded during finetuning. Conventional approaches finetune pretrained agents directly at the policy level, often relying on expensive environment rollouts to empirically determine the optimal skill. However, often the most concise yet complete description of a task is the reward function itself, and skill learning methods learn an $\textit{intrinsic}$ reward function via the discriminator that corresponds to the skill policy. We propose to leverage the skill discriminator to $\textit{match}$ the intrinsic and downstream task rewards and determine the optimal skill for an unseen task without environment samples, consequently finetuning with greater sample-efficiency. Furthermore, we generalize IRM to sequence skills and solve more complex, long-horizon tasks. We demonstrate that IRM is competitive with previous skill selection methods on the Unsupervised Reinforcement Learning Benchmark and enables us to utilize pretrained skills far more effectively on challenging tabletop manipulation tasks.
翻訳日:2022-10-18 13:28:36 公開日:2022-10-17
# hoechstgan: 生成性adversarial networkを用いた仮想リンパ球染色

HoechstGAN: Virtual Lymphocyte Staining Using Generative Adversarial Networks ( http://arxiv.org/abs/2210.06909v2 )

ライセンス: Link先を確認
Georg W\"olflein, In Hwa Um, David J Harrison, Ognjen Arandjelovi\'c(参考訳) 特定の種類の免疫細胞の存在と密度は、がんに対する患者の免疫応答を理解する上で重要である。 しかし、T細胞サブタイプを特定するのに必要な免疫蛍光染色は高価であり、時間がかかり、臨床環境ではほとんど行われない。 そこで本研究では,cd3とcd8を併用したフェヒスト画像(安価で広く普及している)を実質的に染色し,細胞性腎細胞癌におけるt細胞亜型を同定する枠組みを提案する。 提案手法は両課題を共同で学習し,各課題から有益な情報を相互に組み込むネットワークにインセンティブを与える。 我々は,仮想染色品質を定量化するための新しい指標を考案し,本手法の評価に使用する。

The presence and density of specific types of immune cells are important to understand a patient's immune response to cancer. However, immunofluorescence staining required to identify T cell subtypes is expensive, time-consuming, and rarely performed in clinical settings. We present a framework to virtually stain Hoechst images (which are cheap and widespread) with both CD3 and CD8 to identify T cell subtypes in clear cell renal cell carcinoma using generative adversarial networks. Our proposed method jointly learns both staining tasks, incentivising the network to incorporate mutually beneficial information from each task. We devise a novel metric to quantify the virtual staining quality, and use it to evaluate our method.
翻訳日:2022-10-18 13:28:09 公開日:2022-10-17
# PDEBENCH:科学機械学習のベンチマーク

PDEBENCH: An Extensive Benchmark for Scientific Machine Learning ( http://arxiv.org/abs/2210.07182v2 )

ライセンス: Link先を確認
Makoto Takamoto, Timothy Praditia, Raphael Leiteritz, Dan MacKinlay, Francesco Alesiani, Dirk Pfl\"uger, Mathias Niepert(参考訳) 機械学習に基づく物理システムのモデリングは近年、関心が高まっている。 印象的な進歩にもかかわらず、使い易いが挑戦的で幅広い問題を代表する科学mlのベンチマークはまだ欠落している。 偏微分方程式(pdes)に基づく時間依存シミュレーションタスクのベンチマークスイートであるpdebenchを提案する。 PDEBenchはコードとデータの両方で構成され、古典的な数値シミュレーションと機械学習ベースラインの両方に対して、新しい機械学習モデルのパフォーマンスをベンチマークする。 Our proposed set of benchmark problems contribute the following unique features: (1) A much wider range of PDEs compared to existing benchmarks, ranging from relatively common examples to more realistic and difficult problems; (2) much larger ready-to-use datasets compared to prior work, comprising multiple simulation runs across a larger number of initial and boundary conditions and PDE parameters; (3) more extensible source codes with user-friendly APIs for data generation and baseline results with popular machine learning models (FNO, U-Net, PINN, Gradient-Based Inverse Method). PDEBenchは、標準化されたAPIを使用してベンチマークを自由に拡張し、新しいモデルのパフォーマンスを既存のベースラインメソッドと比較することを可能にする。 また,Scientific MLの文脈における学習方法のより包括的な理解を目的とした,新たな評価指標を提案する。 これらのメトリクスを使って、最近のMLメソッドで難しいタスクを特定し、これらのタスクをコミュニティの将来的な課題として提案します。 コードはhttps://github.com/pdebench/pdebenchで入手できる。

Machine learning-based modeling of physical systems has experienced increased interest in recent years. Despite some impressive progress, there is still a lack of benchmarks for Scientific ML that are easy to use but still challenging and representative of a wide range of problems. We introduce PDEBench, a benchmark suite of time-dependent simulation tasks based on Partial Differential Equations (PDEs). PDEBench comprises both code and data to benchmark the performance of novel machine learning models against both classical numerical simulations and machine learning baselines. Our proposed set of benchmark problems contribute the following unique features: (1) A much wider range of PDEs compared to existing benchmarks, ranging from relatively common examples to more realistic and difficult problems; (2) much larger ready-to-use datasets compared to prior work, comprising multiple simulation runs across a larger number of initial and boundary conditions and PDE parameters; (3) more extensible source codes with user-friendly APIs for data generation and baseline results with popular machine learning models (FNO, U-Net, PINN, Gradient-Based Inverse Method). PDEBench allows researchers to extend the benchmark freely for their own purposes using a standardized API and to compare the performance of new models to existing baseline methods. We also propose new evaluation metrics with the aim to provide a more holistic understanding of learning methods in the context of Scientific ML. With those metrics we identify tasks which are challenging for recent ML methods and propose these tasks as future challenges for the community. The code is available at https://github.com/pdebench/PDEBench.
翻訳日:2022-10-18 13:27:55 公開日:2022-10-17
# ポーズ最適化による3次元GANインバージョン

3D GAN Inversion with Pose Optimization ( http://arxiv.org/abs/2210.07301v2 )

ライセンス: Link先を確認
Jaehoon Ko, Kyusun Cho, Daewon Choi, Kwangrok Ryoo, Seungryong Kim(参考訳) 近年のNeRFベースの3D対応GANの品質向上により、これらの3D対応GANの潜在空間に画像を投影することは、2D GANインバージョンよりも自然な優位性を持つ。 しかし、カメラポーズと潜時コードの両方を同時に最適化し、所定の画像を再構成する必要があるため、3D GANインバージョンプロセスにおいて、明示的な視点制御が主な障害となる。 3D対応のGANの潜伏空間を探索するほとんどの作品は、地平線のカメラ視点や変形可能な3Dモデルに依存しているため、適用性が制限される。 本研究では,カメラ視点と遅延コードとを同時に推論し,マルチビューで一貫したセマンティック画像編集を可能にする一般化可能な3D GANインバージョン手法を提案する。 提案手法の鍵となるのは、事前学習した推定器を利用して、NeRFパラメータから算出した画素幅の深さを利用して、画像の再構成を改善することである。 定量的および定性的に画像再構成と編集に関する広範な実験を行い, 2次元ganによる編集結果と比較し, 3次元ganの潜在空間を利用する利点を実証した。 さらなる結果と可視化はhttps://3dgan-inversion.github.ioで見ることができる。

With the recent advances in NeRF-based 3D aware GANs quality, projecting an image into the latent space of these 3D-aware GANs has a natural advantage over 2D GAN inversion: not only does it allow multi-view consistent editing of the projected image, but it also enables 3D reconstruction and novel view synthesis when given only a single image. However, the explicit viewpoint control acts as a main hindrance in the 3D GAN inversion process, as both camera pose and latent code have to be optimized simultaneously to reconstruct the given image. Most works that explore the latent space of the 3D-aware GANs rely on ground-truth camera viewpoint or deformable 3D model, thus limiting their applicability. In this work, we introduce a generalizable 3D GAN inversion method that infers camera viewpoint and latent code simultaneously to enable multi-view consistent semantic image editing. The key to our approach is to leverage pre-trained estimators for better initialization and utilize the pixel-wise depth calculated from NeRF parameters to better reconstruct the given image. We conduct extensive experiments on image reconstruction and editing both quantitatively and qualitatively, and further compare our results with 2D GAN-based editing to demonstrate the advantages of utilizing the latent space of 3D GANs. Additional results and visualizations are available at https://3dgan-inversion.github.io .
翻訳日:2022-10-18 13:27:01 公開日:2022-10-17
# 入出力ニューラル表現の試験時間学習による制御可能なスタイル伝達

Controllable Style Transfer via Test-time Training of Implicit Neural Representation ( http://arxiv.org/abs/2210.07762v2 )

ライセンス: Link先を確認
Sunwoo Kim and Youngjo Min and Younghun Jung and Seungryong Kim(参考訳) そこで本研究では,テスト時間トレーニングによるスタイライズアウトプットをピクセル単位で制御する,暗黙的ニューラルネットワーク表現に基づく制御可能なスタイル転送フレームワークを提案する。 集中的な学習を必要とする不安定な収束や学習に基づく手法に悩まされる従来の画像最適化手法とは異なり、ニューラルネットワークをテスト期間中に最適化するモデル最適化フレームワークを、スタイル伝達のための明示的な損失関数を用いて提案する。 inrベースのモデルの柔軟性のおかげで、テストタイムを一度トレーニングした後、フレームワークはスタイライゼーションされた画像をピクセル単位で正確に制御でき、さらなる最適化やトレーニングなしに画像解像度を自由に調整できます。 いくつかの応用例を示す。

We propose a controllable style transfer framework based on Implicit Neural Representation that pixel-wisely controls the stylized output via test-time training. Unlike traditional image optimization methods that often suffer from unstable convergence and learning-based methods that require intensive training and have limited generalization ability, we present a model optimization framework that optimizes the neural networks during test-time with explicit loss functions for style transfer. After being test-time trained once, thanks to the flexibility of the INR-based model, our framework can precisely control the stylized images in a pixel-wise manner and freely adjust image resolution without further optimization or training. We demonstrate several applications.
翻訳日:2022-10-18 13:26:37 公開日:2022-10-17
# SAILOR: InsightsによるAnchorの遅延オブジェクト表現へのスケーリング

SAILOR: Scaling Anchors via Insights into Latent Object Representation ( http://arxiv.org/abs/2210.07811v2 )

ライセンス: Link先を確認
Du\v{s}an Mali\'c, Christian Fruhwirth-Reisinger, Horst Possegger, Horst Bischof(参考訳) LiDAR 3Dオブジェクト検出モデルは、必然的にトレーニングデータセットに偏っている。 検出器は、ターゲットデータセット、特にオブジェクトサイズに対して、このバイアスを明らかに示します。 しかし、オブジェクトのサイズは、例えば、異なるラベル付けポリシーや地理的位置のために、ドメイン間で大きく異なる。 最先端の教師なしドメイン適応は、オブジェクトサイズバイアスを克服するためにアウトソースメソッドにアプローチする。 メインストリームのサイズ適応アプローチは、元の教師なしの仮定と矛盾するターゲットドメイン統計を利用する。 我々の新しいアンカーキャリブレーション法はこの制限に対処する。 ソースデータに基づいて訓練されたモデルを考えると、最適なターゲットアンカーを教師なしの方法で推定する。 ターゲットドメインのアンカーサイズを変更することで、必然的にノイズを発生させたり、価値のあるオブジェクトの手がかりを取り除いたりします。 アンカーサイズで摂動する潜在オブジェクト表現は、最適なターゲットアンカーの下でのみ学習されたソース特徴に最も近い。 この観測をアンカーサイズ最適化に活用する。 実験の結果,再トレーニングなしでは,最先端の弱教師付きサイズ適応手法と比較しても,競争的な結果が得られることがわかった。 さらに,アンカーキャリブレーションを既存の手法と組み合わせることで,完全に教師なしにすることが可能である。

LiDAR 3D object detection models are inevitably biased towards their training dataset. The detector clearly exhibits this bias when employed on a target dataset, particularly towards object sizes. However, object sizes vary heavily between domains due to, for instance, different labeling policies or geographical locations. State-of-the-art unsupervised domain adaptation approaches outsource methods to overcome the object size bias. Mainstream size adaptation approaches exploit target domain statistics, contradicting the original unsupervised assumption. Our novel unsupervised anchor calibration method addresses this limitation. Given a model trained on the source data, we estimate the optimal target anchors in a completely unsupervised manner. The main idea stems from an intuitive observation: by varying the anchor sizes for the target domain, we inevitably introduce noise or even remove valuable object cues. The latent object representation, perturbed by the anchor size, is closest to the learned source features only under the optimal target anchors. We leverage this observation for anchor size optimization. Our experimental results show that, without any retraining, we achieve competitive results even compared to state-of-the-art weakly-supervised size adaptation approaches. In addition, our anchor calibration can be combined with such existing methods, making them completely unsupervised.
翻訳日:2022-10-18 13:26:25 公開日:2022-10-17
# すべてを編集する1つのモデル:セマンティック変調による自由形式のテキスト駆動画像操作

One Model to Edit Them All: Free-Form Text-Driven Image Manipulation with Semantic Modulations ( http://arxiv.org/abs/2210.07883v2 )

ライセンス: Link先を確認
Yiming Zhu and Hongyu Liu and Yibing Song and ziyang Yuan and Xintong Han and Chun Yuan and Qifeng Chen and Jue Wang(参考訳) フリーフォームテキストプロンプトは、画像操作中の意図を便利に記述できる。 StyleGAN[21]の視覚的潜伏空間とCLIP[34]のテキスト埋め込み空間に基づいて、テキスト駆動属性操作のためにこれらの2つの潜伏空間をマップする方法に焦点を当てる。 現在、これらの2つの空間間の潜在マッピングは経験的に設計され、各操作モデルが1つの固定テキストプロンプトのみを処理できることを定めている。 本稿では,自由形式クリップ (ffclip) という手法を提案し,1つの操作モデルが自由形式テキストプロンプトを処理するように,自動潜在マッピングを確立することを目的とした。 FFCLIPは, セマンティックアライメントとインジェクションを含むモジュールである。 セマンティックアライメントは、クロスアテンション機構を備えた線形変換による自動潜時マッピングを実行する。 アライメントの後、テキストプロンプトからのセマンティクスをスタイルガン潜在空間に注入する。 1種類の画像(例えば「人間の肖像画」)に対して、1つのFFCLIPモデルは自由形式のテキストプロンプトを扱うために学習することができる。 一方,各学習テキストプロンプトは単一の意味的意味しか含まないが,ffclipでは複数の意味的意味を持つテキストプロンプトを画像操作に活用できる。 実験では, FFCLIPを3種類の画像(「人像」, 「車」, 「車」, 「車」)で評価した。 視覚的および数値的な結果は、FFCLIPが意味的に正確で視覚的にリアルなイメージを効果的に生成することを示している。 プロジェクトページ:https://github.com/KumapowerLIU/FFCLIP

Free-form text prompts allow users to describe their intentions during image manipulation conveniently. Based on the visual latent space of StyleGAN[21] and text embedding space of CLIP[34], studies focus on how to map these two latent spaces for text-driven attribute manipulations. Currently, the latent mapping between these two spaces is empirically designed and confines that each manipulation model can only handle one fixed text prompt. In this paper, we propose a method named Free-Form CLIP (FFCLIP), aiming to establish an automatic latent mapping so that one manipulation model handles free-form text prompts. Our FFCLIP has a cross-modality semantic modulation module containing semantic alignment and injection. The semantic alignment performs the automatic latent mapping via linear transformations with a cross attention mechanism. After alignment, we inject semantics from text prompt embeddings to the StyleGAN latent space. For one type of image (e.g., `human portrait'), one FFCLIP model can be learned to handle free-form text prompts. Meanwhile, we observe that although each training text prompt only contains a single semantic meaning, FFCLIP can leverage text prompts with multiple semantic meanings for image manipulation. In the experiments, we evaluate FFCLIP on three types of images (i.e., `human portraits', `cars', and `churches'). Both visual and numerical results show that FFCLIP effectively produces semantically accurate and visually realistic images. Project page: https://github.com/KumapowerLIU/FFCLIP.
翻訳日:2022-10-18 13:26:06 公開日:2022-10-17