このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20221118となっている論文です。

PDF登録状況(公開日: 20221118)

TitleAuthorsAbstract論文公表日・翻訳日
# 量子電磁力学におけるツリーレベルの絡み合い

Tree-level entanglement in Quantum Electrodynamics ( http://arxiv.org/abs/2209.01405v2 )

ライセンス: Link先を確認
Samuel Fedida and Alessio Serafini(参考訳) 量子電磁力学2粒子散乱過程において,木レベルで発生する自由度と自由度との絡み合いに関する系統的研究について報告する。 粒子が互いに絡み合う必要十分かつ十分な動的条件を定め,ババ散乱とコンプトン散乱による最大あるいはほぼ極大絡みのヒッヘルト未知の発生を明らかにする。 我々の研究は、量子場理論と高エネルギー物理学を量子情報理論に照らして再検討する最初の段階である。

We report on a systematic study on the entanglement between helicity degrees of freedom generated at tree-level in quantum electrodynamics two-particle scattering processes. We determine the necessary and sufficient dynamical conditions for outgoing particles to be entangled with one another, and expose the hitherto unknown generation of maximal or nearly maximal entanglement through Bhabha and Compton scattering. Our work is an early step in revisiting quantum field theory and high-energy physics in the light of quantum information theory.
翻訳日:2023-01-28 01:34:54 公開日:2022-11-18
# 調和に閉じ込められた質量不均衡フェルミオンの急激なクエンチ

Sudden quench of harmonically trapped mass-imbalanced fermions ( http://arxiv.org/abs/2209.05870v2 )

ライセンス: Link先を確認
Dillip K. Nandy and Tomasz Sowi\'nski(参考訳) 1次元調和トラップに閉じ込められた2成分質量不平衡数フェルミオン系の動的性質について検討した。 当初、システムは非相互作用基底状態に準備され、その後、突然の相互作用のクエンチの後、ユニタリ進化は多体ハミルトニアン相互作用によって支配される。 ロシュミートエコーの進化、成分の密度分布、およびそれらの間の絡み合いエントロピーを注意深く分析することにより、系の進化安定性における質量不均衡と粒子数不均衡の役割を考察した。 研究された量はすべて、所定のクエンチ強度で各成分の重く軽いフェルミオンの数に劇的な依存を示した。 この結果は、フェルミオン混合物とよく定義され、少量の粒子に関する今後の実験に影響を及ぼす可能性がある。

Dynamical properties of two-component mass-imbalanced few-fermion systems confined in a one-dimensional harmonic trap following a sudden quench of interactions are studied. It is assumed that initially the system is prepared in the non-interacting ground state and then, after a sudden quench of interactions, the unitary evolution is governed by interacting many-body Hamiltonian. By careful analysis of the evolution of the Loschmidt echo, density distributions of the components, and entanglement entropy between them, the role of mass imbalance and particle number imbalance on the system's evolution stability are investigated. All the quantities studied manifest a dramatic dependence on the number of heavy and lighter fermions in each component at a given quench strength. The results may have implications for upcoming experiments on fermionic mixtures with a well-defined and small number of particles.
翻訳日:2023-01-26 19:37:17 公開日:2022-11-18
# 常温原子線を用いた閉ループデュアル原子干渉センサ

Closed-Loop Dual-Atom-Interferometer Inertial Sensor with Continuous Cold Atomic Beams ( http://arxiv.org/abs/2210.15346v2 )

ライセンス: Link先を確認
Zhi-Xin Meng, Pei-Qiang Yan, Sheng-Zhe Wang, Xiao-Jie Li and Yan-Ying Feng(参考訳) 加速度と回転速度の連続的分離計測を実現するクローズドループ光パルス原子干渉計慣性センサの実証を行った。 センサは二重ループ原子干渉計の差動モードで動作し、同じラマン光パルスを空間的に分離されたマッハ・ツェンダー構成で共有し、2D$^+$磁気光学トラップから反対方向に伝播する連続冷原子ビーム源を使用する。 差動干渉計信号からラマンレーザー位相を介してこれらの干渉計を位相ロックすることにより、分離された加速位相シフトと回転位相シフトを同時に得ることができる。 実験の結果, 差動検出はコモンモードノイズを抑制し, 感度を1原子干渉計の約1.5倍に向上させることがわかった。 さらに、閉ループ位相同期法は、センサの長期安定性を効果的に向上させる。 我々はそれぞれ0.87ms(参照領域$A=0.097$ mm$^2$)の短い尋問時間を用いて、加速度と回転速度を0.13$\mu$gと35$\mu$rad/sで長期安定させる。 この研究は、高いデータレートと高い安定性を必要とするフィールド応用に用いられる原子干渉計ベースの慣性測定ユニットのビルディングブロックを提供する。

We demonstrate a closed-loop light-pulse atom interferometer inertial sensor that can realize continuous decoupled measurements of acceleration and rotation rate. The sensor operates in the differential mode of double-loop atom interferometers, which share the same Raman light pulses in a spatially separated Mach-Zehnder configuration and use continuous cold atomic beam sources propagating in opposite directions from two 2D$^+$ magneto-optical trappings. By phase-locking these interferometers via the Raman laser phases from the differential interferometer signal, the decoupled acceleration phase shift and rotation phase shift can be obtained simultaneously. Experimental results show that the differential detection suppresses the common-mode noise and also increases sensitivity to be approximately 1.5 times higher than that of a single atom interferometer. In addition, the closed-loop phase-locking method improves the long-term stability of the sensor effectively. We achieve long-term stabilities for the acceleration and the rotation rate at 0.13 $\mu$g and 35 $\mu$rad/s, respectively, using a short interrogation time of 0.87ms (interference area $A=0.097$ mm$^2$). This work provides a building block for an atomic interferometer based inertial measurement unit for use in field applications that require a high data-rate and high stability.
翻訳日:2023-01-21 12:57:41 公開日:2022-11-18
# 空間的非可換性を有する量子力学系の量子シミュレーション

Quantum simulation of quantum mechanical system with spatial noncommutativity ( http://arxiv.org/abs/2211.08338v2 )

ライセンス: Link先を確認
S. Hasibul Hassan Chowdhury, Talal Ahmed Chowdhury, Salah Nasri, Omar Ibna Nazim and Shaikh Saad(参考訳) 量子シミュレーションは、実験的な実現が現在の技術で複雑または到達不能である高エネルギー物理学のモデルについてシミュレーションし、洞察を得ることのできる、有望な研究の道のりとなった。 本研究では,非可換幾何学と非可換場理論に着想を得た,空間的非可換性を持つ量子力学系である,そのようなモデルの量子シミュレーションを実証する。 このような非可換量子系のハミルトニアンを通常の量子力学的ハミルトニアンに写像し、トロッター・スズキ積公式を用いて量子シミュレーションを行う。 さらに,非可換性パラメータが量子シミュレーション,特にトロッター誤差に与える影響を識別し,その値の大きさがシミュレーション品質の低下にどのように寄与するかを明らかにした。

Quantum simulation has become a promising avenue of research that allows one to simulate and gain insight into the models of High Energy Physics whose experimental realizations are either complicated or inaccessible with current technology. We demonstrate the quantum simulation of such a model, a quantum mechanical system with spatial noncommutativity, which is inspired by the works in Noncommutative Geometry and Noncommutative Field theory for a universal quantum computer. We use the novel group theoretical formalism to map the Hamiltonian of such a noncommutative quantum system into the ordinary quantum mechanical Hamiltonian and then carry out the quantum simulation using the Trotter-Suzuki product formula. Furthermore, we distinguish the impact of the noncommutativity parameter on the quantum simulation, especially on the Trotter error, and identify how its sizable value leads to the deterioration of the quality of the simulation.
翻訳日:2023-01-19 12:29:02 公開日:2022-11-18
# フィードバックによるインタラクティブダイナミクス:ユニタリだが散逸的進化

Feedback-induced interactive dynamics: unitary but dissipative evolution ( http://arxiv.org/abs/2211.09291v2 )

ライセンス: Link先を確認
Shuohang Wu and Zi Cai(参考訳) 物理系の時間発展は一般に微分方程式によって記述され、時空離散化を伴う差分スキームを採用することにより数値的に解ける。 この離散化は、数値的なアーティファクトとして、進化中に蓄積されたエラーをもたらすため、シミュレーションにおいて通常負の役割を果たす。 しかし、量子回路では ``evolution time'' は回路層の深さで表されるので、本質的に離散的である。 したがって、離散化誘起誤差は数値的アーティファクトではなく、従来の量子力学に存在しない顕著な非平衡現象の原因となる物理的観測可能な効果である。 本稿では,計測フィードバックと時間的離散化の組み合わせが,一元的だが散逸的な進化によって特徴づけられる新しいタイプの量子力学をもたらすことを示す。 このようなインタラクティブなダイナミクスの物理的結果として,アンダーソン局在とは根本的に異なる局在現象を明らかにした。

The time evolution of a physical system is generally described by a differential equation, which can be solved numerically by adopting a difference scheme with space-time discretization. This discretization, as a numerical artifact, results in accumulated errors during evolution thus usually plays a negative role in simulations. In a quantum circuit, however, the ``evolution time'' is represented by the depth of the circuit layer, thus is intrinsically discrete. Hence, the discretization-induced error therein is not a numerical artifact, but a physical observable effect responsible for remarkable nonequilibrium phenomena absent in conventional quantum dynamics. In this paper, we show that the combination of measurement feedback and temporal discretization can give rise to a new type of quantum dynamics characterized by unitary but dissipative evolution. As a physical consequence of such interactive dynamics, we reveal a localization phenomenon that is fundamentally distinct from the well-established Anderson localization.
翻訳日:2023-01-19 07:05:42 公開日:2022-11-18
# quantumfdtd --相対論的schr\"odinger方程式の計算フレームワーク

QuantumFDTD -- A computational framework for the relativistic Schr\"odinger equation ( http://arxiv.org/abs/2211.10185v1 )

ライセンス: Link先を確認
Rafael L. Delgado, Sebastian Steinbei{\ss}er, Michael Strickland and Johannes H. Weber(参考訳) 利用可能な量子fdtdコードを拡張します。 もともとは、有限差分時間領域(FDTD)法による時間非依存の3次元シュリンガー方程式の解法と、基底、第1、第2励起状態の抽出を目的としていた。 私たち (a)相対論的schr\"odinger方程式の場合とそれを含む。 (b)非相対論的ケースに対してFFTに基づく2つの最適化された運動エネルギー項を加える。 3つの新しい運動項はすべて高速フーリエ変換(fft)を用いて計算される。 得られたコードはquantumfdtdのバージョン3としてリリースします。 最後に、コードは任意の外部ファイルベースのポテンシャルをサポートし、ソリューションから異なるパリティ固有状態を投影するオプションが提供される。 我々の目標は3次元シュル=オディンガー方程式によって記述されたqcd境界状態の現象論的記述に使用されるクォークモデルである。 しかし、非相対論的あるいは相対論的3次元シュル=オディンガー方程式の解を求める任意の場を対象とする。

We extend the publicly available quantumfdtd code. It was originally intended for solving the time-independent three-dimensional Schr\"odinger equation via the finite-difference time-domain (FDTD) method and for extracting the ground, first, and second excited states. We (a) include the case of the relativistic Schr\"odinger equation and (b) add two optimized FFT-based kinetic energy terms for the non-relativistic case. All the three new kinetic terms are computed using Fast Fourier Transform (FFT). We release the resulting code as version 3 of quantumfdtd. Finally, the code now supports arbitrary external file-based potentials and the option to project out distinct parity eigenstates from the solutions. Our goal is quark models used for phenomenological descriptions of QCD bound states, described by the three-dimensional Schr\"odinger equation. However, we target any field where solving either the non-relativistic or the relativistic three-dimensional Schr\"odinger equation is required.
翻訳日:2023-01-18 04:32:47 公開日:2022-11-18
# 慣性軸の中間モーメントに沿って配向する分子の回転コヒーレンス形成

Creating rotational coherences in molecules aligned along the intermediate moment of inertia axis ( http://arxiv.org/abs/2211.10134v1 )

ライセンス: Link先を確認
Emil J. Zak(参考訳) 我々は、非対称トップ分子の角運動量を同時に向き付ける方法を提案し、計算的に研究する。 1) 実験室固定方向 2) 慣性軸の分子中間モーメント 3) レーザー場ウェーブベクター。 この目的のために, 追尾パルス光遠心分離器が分子軸上に全角運動量の十分に定義された射影を持つ回転状態をポピュレートするコヒーレント制御方式を用いる。 適切な時間形状の光遠心波パルスは、レーザーパルスの伝播方向に沿って任意の分子軸を向けた3次元の過渡配向をもたらす独特の回転コヒーレンスに回転波束を残すことができる。 例えば、分子が主に中間慣性軸を中心に回転し、その電気双極子モーメントがレーザーパルスの伝播方向に沿って永久に整列するD2Sの高弾性回転量子状態を生成する方法を示す。 応用例としては、様々な光電子イメージング実験でより曖昧な情報にアクセスすることが挙げられる。

We propose and computationally study a method for simultaneously orienting the angular momentum of asymmetric top molecules along: 1) a laboratory-fixed direction; 2) the molecular intermediate moment of inertia axis; 3) the laser field wavevector. For this purpose we utilize a coherent control scheme in which a tailored-pulse optical centrifuge populates rotational states with well defined projections of the total angular momentum onto molecular axes. Appropriately time-shaped optical centrifuge pulses can leave the rotational wavepacket in peculiar rotational coherences which lead to a good degree of 3-dimensional transient alignment, with an arbitrary molecular axis pointing along the laser pulse propagation direction. As an example, we demonstrate how to generate highly resilient rotational quantum states of D2S in which the molecule rotates mainly about its intermediate inertia axis, such that its electric dipole moment is permanently aligned along the propagation direction of the laser pulse. Applications might include accessing less obscured information in various photo-electron imaging experiments.
翻訳日:2023-01-18 04:32:31 公開日:2022-11-18
# 量子性基準の比較

Comparing quantumness criteria ( http://arxiv.org/abs/2211.10114v1 )

ライセンス: Link先を確認
Jerome Martin, Amaury Micheli and Vincent Vennin(参考訳) システムの量子性の測定は、様々な方法で行うことができる。 本稿では、ガウス状態に置かれたシステムに対する異なる基準、すなわち量子不協和、ベル不等式違反、非分離性を比較する。 状態が純粋な場合、これらの基準は等価であるが、デコヒーレンスが発生したときに必ずしも一致しない。 最後に、これらの基準は相空間における状態のウィグナー関数を表す楕円の半小軸によって本質的に制御されていることを証明する。

Measuring the quantumness of a system can be done with a variety of methods. In this article we compare different criteria, namely quantum discord, Bell inequality violation and non-separability, for systems placed in a Gaussian state. When the state is pure, these criteria are equivalent, while we find that they do not necessarily coincide when decoherence takes place. Finally, we prove that these criteria are essentially controlled by the semi-minor axis of the ellipse representing the state's Wigner function in phase space.
翻訳日:2023-01-18 04:32:13 公開日:2022-11-18
# 正則軌道の時間外コリレータの指数関数的成長

Exponential growth of out-of-time-order correlator of regular orbits ( http://arxiv.org/abs/2211.10078v1 )

ライセンス: Link先を確認
Shangyun Wang, Songbai Chen and Jiliang Jing(参考訳) 2つの非カオス逆調和振動子系における時間外コリレータ(otoc)の初期挙動について検討した。 otocの指数的成長の挙動が存在することが示されている。 逆調和振動子(iho)系の古典量子対応は、系の光子数だけでなく位相空間における初期状態の中心位置にも依存する。 さらに, 逆調和振動子系において, 異なる初期状態のフシミ準確率波パケットが指数関数的に増加することを解析し, 対応する量子波パケットの中心が古典位相軌道に沿って拡がっていることを発見した。 特に、安定な正軌道に沿って移動する古典粒子に関連する波状パケットは急速に拡散し、エレンフェスト時間前にOTOCが指数関数的に増加する。 その結果,古典量子対応とotocの理解を深めることができた。

We have studied the early behavior of out-of-time-order correlator (OTOC) in two non-chaotic inverted harmonic oscillator systems. It is shown that there exist behaviors of exponential growth of OTOC. The classical-quantum correspondence in the inverted harmonic oscillator (IHO) system depends not only on the photon number of system, but also on the central position of the initial state in phase space. Moreover, we analyze the Husimi quasi-probability wave packets of different initial states during the OTOC grows exponentially in both inverted harmonic oscillator systems, and find that the center of corresponding quantum wave packets spreads along the classical phase trajectory. Particularly, we find that the wave packets related to the classical particle moving along stable regular orbits diffuse rapidly so their OTOCs grow exponentially before the Ehrenfest time. Our results could help to further understand the classical-quantum correspondence and OTOC.
翻訳日:2023-01-18 04:32:06 公開日:2022-11-18
# スクランブルと量子テレポーテーション

Scrambling and Quantum Teleportation ( http://arxiv.org/abs/2211.10068v1 )

ライセンス: Link先を確認
MuSeong Kim, Mi-Ra Hwang, Eylee Jung, and DaeKil Park(参考訳) スクランブルはブラックホールから発生する情報損失問題から導入された概念である。 本稿では,純粋量子情報理論の観点から,スクランブルの効果について論じる。 量子テレポーテーションのために7ドルの量子回路を導入します。 最大スクランブルユニタリを使用すれば、テレポーテーションが完璧であることが示されている。 このことから、「スクランブルの量はテレポーテーションの忠実さに比例する」と推測する。 予想を確認するために、$\theta$-dependent partial scrambling unitaryを導入し、これはそれぞれ$\theta = 0$ と $\theta = \pi / 2$ のスクランブルと極大スクランブルを含まない。 次に,Qiskit (version $0.36.2$) と 7$-qibit 実量子コンピュータ ibm$\_$oslo を用いて,平均忠実度を解析的に,数値的に計算する。 最後に、ベル測定のための量子ビットの選択によって、我々の予想は真か偽かを結論付ける。

Scrambling is a concept introduced from information loss problem arising in black hole. In this paper we discuss the effect of scrambling from a perspective of pure quantum information theory. We introduce $7$-qubit quantum circuit for a quantum teleportation. It is shown that the teleportation can be perfect if a maximal scrambling unitary is used. From this fact we conjecture that ``the quantity of scrambling is proportional to the fidelity of teleportation''. In order to confirm the conjecture we introduce $\theta$-dependent partially scrambling unitary, which reduces to no scrambling and maximal scrambling at $\theta = 0$ and $\theta = \pi / 2$, respectively. Then, we compute the average fidelity analytically, and numerically by making use of qiskit (version $0.36.2$) and $7$-qibit real quantum computer ibm$\_$oslo. Finally, we conclude that our conjecture can be true or false depending on the choice of qubits for Bell measurement.
翻訳日:2023-01-18 04:31:53 公開日:2022-11-18
# マイクロ波状態における超高利得単一光子トランジスタ

An ultra-high gain single-photon transistor in the microwave regime ( http://arxiv.org/abs/2211.10053v1 )

ライセンス: Link先を確認
Zhiling Wang, Zenghui Bao, Yan Li, Yukai Wu, Weizhou Cai, Weiting Wang, Xiyue Han, Jiahui Wang, Yipu Song, Luyan Sun, Hongyi Zhang and Luming Duan(参考訳) 単一ゲート光子で光信号をスイッチまたは増幅できるフォトニックトランジスタは、単一光子レベルで強い非線形相互作用を必要とする。 回路量子力学はそのような相互作用を生成するのに優れた柔軟性を提供し、高性能な単一光子トランジスタを実現するための効果的なプラットフォームとして機能する。 ここでは、マイクロ波領域でこのようなフォトニックトランジスタを示す。 本装置は超伝導量子ビットに分散結合した2つのマイクロ波キャビティからなる。 単一ゲート光子は、一方のキャビティを介してキュービット状態の位相シフトをインプリントし、他方のキャビティの共鳴周波数をさらにシフトする。 このようにして、トランジスタの利得は最大53.4dBとなり、消滅率は20dBよりも高い。 我々のデバイスは、光の利得という点で、光レシエーションにおける以前のデバイスよりも数桁優れており、これは、マイクロ波量子フォトニクスや量子情報処理の分野における大きな可能性を示している。

A photonic transistor that can switch or amplify an optical signal with a single gate photon requires strong non-linear interaction at the single-photon level. Circuit quantum electrodynamics provides great flexibility to generate such an interaction, and thus could serve as an effective platform to realize a high-performance single-photon transistor. Here we demonstrate such a photonic transistor in the microwave regime. Our device consists of two microwave cavities dispersively coupled to a superconducting qubit. A single gate photon imprints a phase shift on the qubit state through one cavity, and further shifts the resonance frequency of the other cavity. In this way, we realize a gain of the transistor up to 53.4 dB, with an extinction ratio better than 20 dB. Our device outperforms previous devices in the optical regime by several orders in terms of optical gain, which indicates a great potential for application in the field of microwave quantum photonics and quantum information processing.
翻訳日:2023-01-18 04:31:31 公開日:2022-11-18
# フロケット量子ビット間のプログラム可能なハイゼンベルク相互作用

Programmable Heisenberg interactions between Floquet qubits ( http://arxiv.org/abs/2211.10383v1 )

ライセンス: Link先を確認
Long B. Nguyen, Yosep Kim, Akel Hashim, Noah Goss, Brian Marinelli, Bibek Bhandari, Debmalya Das, Ravi K. Naik, John Mark Kreikebaum, Andrew N. Jordan, David I. Santiago, Irfan Siddiqi(参考訳) 堅牢性とチューナビリティの基本的なトレードオフは、量子シミュレーションとフォールトトレラント量子計算の追求における中心的な課題である。 特に、多くの新興量子アーキテクチャは、固定スペクトルと結果として制限された制御可能な相互作用を犠牲にして高いコヒーレンスを達成するように設計されている。 ここで、不定周波超伝導回路を修正可能なフロッケ量子ビットに変換することで、完全に調整可能な異方性を持つxxzハイゼンベルク相互作用を示す。 この相互作用モデルはスピン系の多体量子シミュレーションの基礎であり、一方、表現力のある量子ゲート集合のプリミティブである。 Floquetプロトコルの堅牢性と汎用性を説明するため,Heisenberg Hamiltonianを調整し,それぞれ99.32(3)%,99.72(2)%,98.93(5)%と推定される2量子iSWAP,CZ,SWAPゲートを実装した。 さらに,高エネルギーレベル間のハイゼンベルク相互作用を実装し,96.18(5)%の忠実度を持つ3量子cczゲートを構築する。 重要なことに、このプロトコルは様々な固定周波数の高コヒーレンスプラットフォームに適用できるため、高性能な量子情報処理のための重要な相互作用のスイートがアンロックされる。 より広い視点から見ると、我々の研究は将来の量子電磁力学の探索とFloquetフレームワークを用いた最適制御のための魅力的な道を提供する。

The fundamental trade-off between robustness and tunability is a central challenge in the pursuit of quantum simulation and fault-tolerant quantum computation. In particular, many emerging quantum architectures are designed to achieve high coherence at the expense of having fixed spectra and consequently limited types of controllable interactions. Here, by adiabatically transforming fixed-frequency superconducting circuits into modifiable Floquet qubits, we demonstrate an XXZ Heisenberg interaction with fully adjustable anisotropy. This interaction model is on one hand the basis for many-body quantum simulation of spin systems, and on the other hand the primitive for an expressive quantum gate set. To illustrate the robustness and versatility of our Floquet protocol, we tailor the Heisenberg Hamiltonian and implement two-qubit iSWAP, CZ, and SWAP gates with estimated fidelities of 99.32(3)%, 99.72(2)%, and 98.93(5)%, respectively. In addition, we implement a Heisenberg interaction between higher energy levels and employ it to construct a three-qubit CCZ gate with a fidelity of 96.18(5)%. Importantly, the protocol is applicable to various fixed-frequency high-coherence platforms, thereby unlocking a suite of essential interactions for high-performance quantum information processing. From a broader perspective, our work provides compelling avenues for future exploration of quantum electrodynamics and optimal control using the Floquet framework.
翻訳日:2023-01-18 04:25:41 公開日:2022-11-18
# コンパス状態:スキューズと変位がフォック空間に及ぼす影響

Compass state: Effect of squeezing and displacement on the Fock space ( http://arxiv.org/abs/2211.10374v1 )

ライセンス: Link先を確認
Arman and Prasanta K. Panigrahi(参考訳) 本研究では, 重畳されたスクイーズ状態と変位数状態からなる非古典状態の幅広いクラスについて検討する。 位相空間の構造は解析され、ハイゼンベルクはパラメータ推定の感度を制限している。 適切なスクイーズと変位パラメータが同定され、メトロジカルに敏感なコンパス状態と比較して状態の忠実度は99$\%以上である。 また、小さなシフト測定のばらつきは、提案状態とコンパス状態の両方に等しくなる。 平均光子数の変化とともに同様の挙動を示す。 気象学的な応用では、コヒーレント振幅の小さいコンパス状態の数分散は減衰パラメータを推定する可能性を示している。

We investigate a broad class of non-classical states, composed of superposed squeezed and displaced number states. The phase space structure is analysed, keeping in mind, Heisenberg limited sensitivity in parameter estimation. Appropriate squeezing and displacement parameters are identified, wherein state fidelity in comparison to metrologically sensitive compass state, is more than 99$\%$. Also, the variance in small shifts measurements, is found equal for both proposed and compass states. They show similar behaviour with change in average photon number. In metrological application, number variance of the compass state being small for low coherent amplitude, suggests its potential to estimate damping parameter.
翻訳日:2023-01-18 04:25:15 公開日:2022-11-18
# 質量非依存な質量物体の量子性試験

Mass-independent test of quantumness of a massive object ( http://arxiv.org/abs/2211.10318v1 )

ライセンス: Link先を確認
Debarshi Das, Dipankar Home, Hendrik Ulbricht, Sougato Bose(参考訳) 大規模な質量の非古典性を証明できる実証可能なスキームの探索は、現在かなりの研究を惹きつけている。 そこで本研究では,高調波ポテンシャルの任意の質量に対する古典的マクロレアリスム概念(mr)の量子的違反について検討する。 この目的のために、MRの2つの標準ツール、すなわち2回のLeggett-Garg不平等(LGI)とNSIT(No-signalling in Time)の条件を探索する。 これにより、MRの質量非依存な違反が可能となり、マクロな物体の既約量子性の質量非依存的な証明が提供される。 実際、我々のlgiとnsitの適応により、文字通りあらゆる質量、運動量、エネルギー、周波数の量子違反を検出できる。 提案したMR試験は、原理的には原子イオンからLIGOのミラーまで幅広い高調波発振器システムで実現でき、また、角周波数を減少させることにより、大質量測定の不確かさを相殺することが可能であり、既存の実験技術に基づいてMR試験を行うことができることを示唆している。

Search for empirically implementable schemes that can evidence the nonclassicality of large masses is a quest currently attracting considerable research. Motivated by this, we investigate the quantum violation of the pivotal classical notion of macrorealism (MR) for arbitrary masses in a harmonic potential. To this end, we use two standard tools for probing the violation of MR, namely the two-time Leggett-Garg inequality (LGI) and the no-signalling in time (NSIT) condition, but crucially, modify them to the case of two different measurement arrangements at successive times. This yields a striking result: a {\em mass-independent} violation of MR is possible, thereby providing a mass-independent demonstration of an irreducible quantumness of macroscopic objects. In fact, our adaptation of LGI and NSIT enables probing quantum violations for literally any mass, momentum, energy and frequency. Our proposed test of MR can in principle be realised with a large range of harmonic oscillator systems from atomic ions to mirrors in LIGO, while the uncertainties in the measurements for large masses can be offset by decreasing the angular frequency, suggesting that for such systems MR test can be performed based on existing experimental technology.
翻訳日:2023-01-18 04:24:50 公開日:2022-11-18
# 熱浴に浸漬した光学系におけるホーキング放射の絡み合いのロバスト性

Robustness of entanglement in Hawking radiation for optical systems immersed in thermal baths ( http://arxiv.org/abs/2211.10306v1 )

ライセンス: Link先を確認
Ivan Agullo, Anthony J. Brady, Dimitrios Kranas(参考訳) エンタングルメント(英: entanglement)は、重力系やアナログ系と同様に、因果地平線からのホーキングの粒子対生成の量子署名である。 現実的な状況においてユビキタスな熱ゆらぎは、ホーキング過程で生じる絡みに強く影響を与え、周囲の温度がホーキング温度に匹敵するときに完全に消滅する。 本研究では,光アナログ系が実験室で静止している熱揺らぎに対して頑健性を有することを示す。 このような系では、水平線は実験室のフレームに対して光速に近い速度で移動する。 この相対速度と分散の間の微妙な相互作用は、ホーキングが生成した絡み合いを保護し、周囲の温度がホーキング温度よりも数桁大きいので、絡み合いに大きな影響を与えない。

Entanglement is the quantum signature of Hawking's particle pair-creation from causal horizons, for gravitational and analog systems alike. Ambient thermal fluctuations, ubiquitous in realistic situations, strongly affects the entanglement generated in the Hawking process, completely extinguishing it when the ambient temperature is comparable to the Hawking temperature. In this work, we show that optical analog systems have a built-in robustness to thermal fluctuations which are at rest in the laboratory. In such systems, horizons move relative to the laboratory frame at velocities close to the speed of light. We find that a subtle interplay between this relative velocity and dispersion protects the Hawking-generated entanglement -- allowing ambient temperatures several orders of magnitude larger than the Hawking temperature without significantly affecting entanglement.
翻訳日:2023-01-18 04:24:25 公開日:2022-11-18
# 非検出光子の量子状態トモグラフィー

Quantum state tomography of undetected photons ( http://arxiv.org/abs/2211.10304v1 )

ライセンス: Link先を確認
Jorge Fuenzalida, Jaroslav Kysela, Krishna Dovzhik, Gabriela Barreto Lemos, Armin Hochrainer, Mayukh Lahiri, and Anton Zeilinger(参考訳) 量子状態の測定は、量子力学において最も重要な問題の1つである。 量子状態トモグラフィ技術では、量子ビットの状態が復元されるが、量子ビットは検出されない。 主な材料は: (i)追加の量子ビットを用いる (ii)未検出のキュービットをパスidを用いて既知の参照状態と整合すること。 (iii)未検出のキュービット状態を再構築するために追加のキュービットを測定する。 理論上,光偏光状態を用いた手法の確立と実験的実証を行った。 この手法の基礎となる原理は、光子以外の量子実体にも適用できる。

The measurement of quantum states is one of the most important problems in quantum mechanics. We introduce a quantum state tomography technique in which the state of a qubit is reconstructed, while the qubit remains undetected. The key ingredients are: (i) employing an additional qubit, (ii) aligning the undetected qubit with a known reference state by using path identity, and (iii) measuring the additional qubit to reconstruct the undetected qubit state. We theoretically establish and experimentally demonstrate the method with photonic polarization states. The principle underlying our method could also be applied to quantum entities other than photons.
翻訳日:2023-01-18 04:24:08 公開日:2022-11-18
# ガウス状態を持つ連続変数系に対するLeggett-Garg違反

Leggett-Garg violations for continuous variable systems with gaussian states ( http://arxiv.org/abs/2211.10292v1 )

ライセンス: Link先を確認
Clement Mawby, Jonathan Halliwell(参考訳) マクロリアリズム(マクロリアリズム、英: Macrorealism、MR)とは、ある量は過去や将来の測定に関係なく常に一定の値を取ることができ、レゲット・ガルグの不等式(LG)を介して実験的にファルシフィケーションされるという世界観である。 この世界観を連続変数 $x$ によって記述される系のテストに適用し、量子調和振動子におけるガウス初期状態の場合、ディコトミック変数 $q = \textrm{sign}(x)$ の測定に対する lg の違反を求める。 初期の解析(C. Mawby と J. J. Halliwell, Phys. A 105, 022221 (2022))を拡張して、時間的相関式の解析式を求める。 パラメータ空間の探索により、2回のLGの不等式が3回と4回違反する重要な状況が明らかになった。 lg違反の物理像を得るために,基礎となる位置変数の連続性を利用して,関連する量子力学的電流,ボーム軌道,ウィグナー関数の解析を行う。 さらに,コヒーレント状態プロジェクタ,熱コヒーレント状態,圧縮状態を用いた解析LG試験を拡張した。

Macrorealism (MR) is the world view that certain quantities may take definite values at all times irrespective of past or future measurements and may be experimentally falsified via the Leggett-Garg (LG) inequalities. We put this world view to the test for systems described by a continuous variable $x$ by seeking LG violations for measurements of a dichotomic variable $Q = \textrm{sign}(x)$, in the case of gaussian initial states in a quantum harmonic oscillator. Extending our earlier analysis [C. Mawby and J. J. Halliwell, Phys. Rev. A 105, 022221 (2022)] we find analytic expressions for the temporal correlators. An exploration of parameter space reveals significant regimes in which the two-time LG inequalities are violated, and likewise at three and four times. To obtain a physical picture of the LG violations, we exploit the continuous nature of the underlying position variable and analyse the relevant quantum-mechanical currents, Bohm trajectories, and Wigner function. Further, we extend the analysis LG tests using coherent state projectors, thermal coherent states, and squeezed states.
翻訳日:2023-01-18 04:24:01 公開日:2022-11-18
# 量子チャネルとしてのウィルソン再正規化と固定点の分離性

Wilsonian Renormalization as a Quantum Channel and the Separability of Fixed Points ( http://arxiv.org/abs/2211.10238v1 )

ライセンス: Link先を確認
Matheus H. Martins Costa, Jeroen van den Brink, Flavio S. Nogueira, Gast\~ao I. Krein(参考訳) 我々は、再正規化群(RG)のウィルソン的定式化が、量子場理論の運動量空間密度行列に作用する量子チャネルを定義することを示す。 RG のこの情報理論的性質は、運動量スケール間の絡み合いがないという固定点における理論の真空に対する顕著な結果をもたらすことができる。 この結果は、そのような理論のスケール対称性から導かれ、基底状態の形式や運動量空間作用素の期待値に制約をもたらすと理解することができる。

We show that the Wilsonian formulation of the renormalization group (RG) defines a quantum channel acting on the momentum-space density matrices of a quantum field theory. This information theoretical property of the RG allows us to derive a remarkable consequence for the vacuum of theories at a fixed point: they have no entanglement between momentum scales. Our result can be understood as deriving from the scale symmetry of such theories and leads to constraints on the form of the ground state and on expectation values of momentum space operators.
翻訳日:2023-01-18 04:23:20 公開日:2022-11-18
# Fock-space Schrieffer--Wolff変換:古典的なランク誘導量子位相推定アルゴリズム

Fock-space Schrieffer--Wolff transformation: classically-assisted rank-reduced quantum phase estimation algorithm ( http://arxiv.org/abs/2211.10529v1 )

ライセンス: Link先を確認
Karol Kowalski, Nicholas P. Bauman(参考訳) 本稿では,量子位相推定(QPE)アルゴリズムに必要な資源を削減するために,多体ダウンフォールディング法の拡張を提案する。 本稿では、量子力学シミュレーションのための量子回路の大幅な単純化を提供する分子系に対する電子ハミルトニアンのシュリーファー-ウォルフ変換に焦点を当てる。 sw変換のフォック空間変種(またはランク還元相似変換(rrst))を用いることで、キュービットマップ付き相似性の局所性を著しく増加させることができる。 SW-RRSTフォーマリズムの実践的利用は、原稿で議論された一連の近似と関連している。 特に、RRSTを定義する振幅は、従来のコンピュータを用いて評価され、量子コンピュータに符号化される。 The SW-RRST QPE quantum algorithms can also be viewed as an extension of the standard state-specific coupled-cluster downfolding methods to provide a robust alternative to the traditional QPE algorithms to identify the ground and excited states for systems with various numbers of electrons using the same Fock-space representations of the downfolded Hamiltonian.The RRST formalism serves as a design principle for developing new classes of approximate schemes that reduce the complexity of quantum circuits.

We present an extension of many-body downfolding methods to reduce the resources required in the quantum phase estimation (QPE) algorithm. In this paper, we focus on the Schrieffer--Wolff (SW) transformation of the electronic Hamiltonians for molecular systems that provides significant simplifications of quantum circuits for simulations of quantum dynamics. We demonstrate that by employing Fock-space variants of the SW transformation (or rank-reducing similarity transformations (RRST)) one can significantly increase the locality of the qubit-mapped similarity transformed Hamiltonians. The practical utilization of the SW-RRST formalism is associated with a series of approximations discussed in the manuscript. In particular, amplitudes that define RRST can be evaluated using conventional computers and then encoded on quantum computers. The SW-RRST QPE quantum algorithms can also be viewed as an extension of the standard state-specific coupled-cluster downfolding methods to provide a robust alternative to the traditional QPE algorithms to identify the ground and excited states for systems with various numbers of electrons using the same Fock-space representations of the downfolded Hamiltonian.The RRST formalism serves as a design principle for developing new classes of approximate schemes that reduce the complexity of quantum circuits.
翻訳日:2023-01-18 04:16:15 公開日:2022-11-18
# 将来のレプトン衝突器における$H \to \tau^+ \tau^-$の量子情報とCP測定

Quantum information and CP measurement in $H \to \tau^+ \tau^-$ at future lepton colliders ( http://arxiv.org/abs/2211.10513v1 )

ライセンス: Link先を確認
Mohammad Mahdi Altakach, Priyanka Lamba, Fabio Maltoni, Kentarou Mawatari and Kazuki Sakurai(参考訳) そこで本研究では,将来のレプトン衝突器における$H \to \tau^+ \tau^-$崩壊におけるタウレプトン対の量子特性の測定可能性について検討する。 特に,ICCおよびFCC-eeにおいて,ベルの不平等の絡み合い,操舵性,違反の観察を行った。 量子相関の検出は, タウレプトンスレストフレームの正確な再構築に大きく依存しており, 衝突ビームと検出器の有限エネルギー分解能のため, 単純なキネマティックス再構成では不十分であることがわかった。 エネルギーの誤測定を補正するために,タウレプトン崩壊の衝撃パラメータの情報を取り入れたログライク化法を開発した。 この方法で量子特性の正確な測定が可能であることを実証する。 副産物として、CP違反の新たなモデル非依存テストが実施でき、ICCおよびFCC-eeにおいて、それぞれ7.9^{\circ}$および5.4^{\circ}$の専用分析に匹敵する精度で、$H \tau \tau$インタラクションのCP相が制約されることを示す。

We introduce a methodology and investigate the feasibility of measuring quantum properties of tau lepton pairs in the $H \to \tau^+ \tau^-$ decay at future lepton colliders. In particular, observation of entanglement, steerability and violation of Bell inequalities are examined for the ILC and FCC-ee. We find that detecting quantum correlation crucially relies on precise reconstruction of the tau leptons rest frame and a simple kinematics reconstruction does not suffice due to the finite energy resolution of the colliding beams and detectors. To correct for energy mismeasurements, a log-likelihood method is developed that incorporates the information of impact parameters of tau lepton decays. We demonstrate that an accurate measurement of quantum properties is possible with this method. As a by-product, we show that a novel model-independent test of CP violation can be performed and the CP-phase of $H \tau \tau$ interaction can be constrained with an accuracy comparable to dedicated analyses, i.e., up to $7.9^{\circ}$ and $5.4^{\circ}$ at ILC and FCC-ee, respectively.
翻訳日:2023-01-18 04:15:53 公開日:2022-11-18
# クリフォード回路のみを用いた反復量子結合クラスタ

Iterative Qubit Coupled Cluster using only Clifford circuits ( http://arxiv.org/abs/2211.10501v1 )

ライセンス: Link先を確認
James Brown, Marc P. Coons, Erika Lloyd, Alexandre Fleury, Krzysztof Bieniasz, Valentin Senicourt, Arman Zaribafiyan(参考訳) 本稿では、クリフォード回路のみを使用する反復量子ビット結合クラスタ(iqcc)方式の変種に注目した。 iqcc法は小さなパラメータ化された波動関数 ansatz に依存しており、これはパウリ語演算子の積として形作られ、反復量子ハミルトニアン変換によって平均場基準状態の基底状態電子エネルギーを近似する。 このiQCC法の変種では、各繰り返しにおける波動関数のアンサッツは1つの指数パウリワード演算子とパラメータに制限される。 Rotosolveアルゴリズムは、クリフォード回路で計算されたハミルトニアン予想値を利用して、単一パラメータのパウリワードアンサッツを最適化する。 ハミルトン項の指数関数的成長は、この iQCC の変化とともに保存されるが、この効果を緩和するいくつかの方法を提案する。 この方法は、ゴッテマン・クニールの定理に従って古典コンピュータ上で効率的にシミュレーションできるクリフォード回路を用いて、良い初期パラメータを生成するため、短期的な変分量子アルゴリズムの応用に有用である。 NISQ時代を超えて、位相推定のようなフォールトトレラントアルゴリズムの成功確率を改善する、短い深さのクリフォード事前最適化回路を作成するのにも有用である。

We draw attention to a variant of the iterative qubit coupled cluster (iQCC) method that only uses Clifford circuits. The iQCC method relies on a small parameterized wave function ansatz, which takes form as a product of exponentiated Pauli word operators, to approximate the ground state electronic energy of a mean field reference state through iterative qubit Hamiltonian transformations. In this variant of the iQCC method, the wave function ansatz at each iteration is restricted to a single exponentiated Pauli word operator and parameter. The Rotosolve algorithm utilizes Hamiltonian expectation values computed with Clifford circuits to optimize the single-parameter Pauli word ansatz. Although the exponential growth of Hamiltonian terms is preserved with this variation of iQCC, we suggest several methods to mitigate this effect. This method is useful for near-term variational quantum algorithm applications as it generates good initial parameters by using Clifford circuits which can be efficiently simulated on a classical computers according to the Gottesman-Knill theorem. It may also be useful beyond the NISQ era to create short-depth Clifford pre-optimized circuits that improve the success probability for fault-tolerant algorithms such as phase estimation.
翻訳日:2023-01-18 04:15:28 公開日:2022-11-18
# ガウス法則を持つ2+1 U(1)格子ゲージ理論の効率的な量子化

Efficient quantum implementation of 2+1 U(1) lattice gauge theories with Gauss law constraints ( http://arxiv.org/abs/2211.10497v1 )

ライセンス: Link先を確認
Christopher Kane, Dorota M. Grabowska, Benjamin Nachman and Christian W. Bauer(参考訳) 古典的コンピュータを用いた格子量子場理論のリアルタイム発展の研究は、格子点の数に指数関数的にスケールすることが知られている。 計算戦略が根本的に異なるため、量子コンピュータはこれらの力学を第一原理から詳細に研究できるという約束を持っている。 しかし、古典的な計算と同様に、量子アルゴリズムは体積と指数関数的にスケールするコストを持たないことが重要である。 近年, u(1)ゲージ理論のナイーブな実装の指数関数的スケーリングを, 作用素の再定義を通じて2次元に分解する方法が示されている。 本稿では,数値化誤差を小さく抑えるために,演算子を新たな演算子ベースでサンプリングする方法の変更について述べる。 2つの演算子ベース間でのエネルギとプラーペット期待値の精度を比較し,比較した。 さらに、ウォルシュ関数形式を用いたスズキ・トロッター理論の実装のための明示的な回路構成を提供する。 ゲートカウントスケーリングは格子体積の関数として研究され、小さな引数を持つ回転ゲートが落とされた正確な回路と近似回路の両方について研究される。 ibmq超伝導量子ビットハードウェアを用いた明示観測器の計算において,有限スズキトロッター時間ステップ,回路近似,量子ノイズの誤差について検討した。 近似回路のゲートカウントスケーリングは、より大きな誤差を発生させることなく、ボリュームのパワーによってさらに小さくすることができる。

The study of real-time evolution of lattice quantum field theories using classical computers is known to scale exponentially with the number of lattice sites. Due to a fundamentally different computational strategy, quantum computers hold the promise of allowing for detailed studies of these dynamics from first principles. However, much like with classical computations, it is important that quantum algorithms do not have a cost that scales exponentially with the volume. Recently, it was shown how to break the exponential scaling of a naive implementation of a U(1) gauge theory in two spatial dimensions through an operator redefinition. In this work, we describe modifications to how operators must be sampled in the new operator basis to keep digitization errors small. We compare the precision of the energies and plaquette expectation value between the two operator bases and find they are comparable. Additionally, we provide an explicit circuit construction for the Suzuki-Trotter implementation of the theory using the Walsh function formalism. The gate count scaling is studied as a function of the lattice volume, for both exact circuits and approximate circuits where rotation gates with small arguments have been dropped. We study the errors from finite Suzuki-Trotter time-step, circuit approximation, and quantum noise in a calculation of an explicit observable using IBMQ superconducting qubit hardware. We find the gate count scaling for the approximate circuits can be further reduced by up to a power of the volume without introducing larger errors.
翻訳日:2023-01-18 04:15:07 公開日:2022-11-18
# 情報収集による最大エネルギー抽出

Maximal energy extraction through information gathering ( http://arxiv.org/abs/2211.10481v1 )

ライセンス: Link先を確認
Michael Grayson, Charlie Rackson(参考訳) マイクロ状態に関する情報を用いて任意の質量から抽出できる最大非平衡作業を計算する。 これは、情報の熱力学の文脈でブラックホールの熱力学を用いることによって行われる。 正確なミクロ状態を知ることによって得られる非平衡な仕事は、$\frac{1}{2} Mc^{2}$である。 これは永遠の非電荷の非回転ブラックホールのエントロピーを用いて計算される。 この導出はエントロピーの相対性と一般相対性と時間との関係を解明するのに役立つ。

We calculate the maximal non-equilibrium work that can be extracted from any mass using information about its micro-state. This is done through the use of black hole thermodynamics in the context of the thermodynamics of information. The non-equilibrium work that can be obtained by knowing the exact micro-state is found to be $\frac{1}{2} Mc^{2}$. This is calculated using the entropy of an eternal, uncharged, non rotating black hole. This is derivation helps elucidate the relativity of entropy and its relationship to general relativity and time.
翻訳日:2023-01-18 04:14:45 公開日:2022-11-18
# マルコフ連鎖モンテカルロ法による駆動量子高調波発振器の経路積分法

Path integral approach to driven quantum harmonic oscillator using Markov chain Monte Carlo methods ( http://arxiv.org/abs/2211.10461v1 )

ライセンス: Link先を確認
Sohini Marik, Souvik Naskar, Shibaji Banerjee(参考訳) 我々は、異なる大きさの定数力か時間依存の駆動力によって駆動される量子調和振動子の基底状態をシミュレートした。 いずれの駆動モードにおいても,質量,自然角周波数,結合定数$\lambda$の様々な組み合わせの位置の期待値が算出された。 一定の強制のために、コヒーレント状態が得られた。 両方の強制シナリオの結果は理論上期待された値とほぼ一致する。 シミュレーションのために、メトロポリスアルゴリズムはシステムの仮想時間経路積分を評価するために離散時間格子上に実装された。

We have simulated the ground states of quantum harmonic oscillators driven either by constant forces of different magnitudes or time-dependent driving forces. The expectation values of position for various combinations of mass, natural angular frequency, and the coupling constant $\lambda$ were calculated for both driving modes. For constant forcing, coherent states were obtained. The results for both forcing scenarios match the theoretically expected values almost exactly. For the simulations, the Metropolis algorithm was implemented on a discrete time lattice to evaluate the imaginary time path integral of the systems.
翻訳日:2023-01-18 04:14:37 公開日:2022-11-18
# 量子ビット符号化コンバータ

A quantum-bit encoding converter ( http://arxiv.org/abs/2211.10457v1 )

ライセンス: Link先を確認
T. Darras, B.E. Asenbeck, G. Guccione, A. Cavaill\`es, H. Le Jeannic, J. Laurat(参考訳) 通信からコンピューティングアーキテクチャまで、古典的な情報の世界は、デジタルフォーマットとアナログフォーマット間のデータの交換を可能にする変換技術にかかっている。 同様に、量子コンピューティング、通信、センシングのために異なるフレームワークが開発されている量子情報技術にも同様のエクイジェンシーが存在する。 このように、効率的な量子インターコネクトは、これらの並列アプローチをまとめ、量子情報システムをスケールアップする大きな必要性である。 しかし、現在まで様々な光量子ビット符号化の変換は、脆弱な量子重ね合わせを保存することの難しさと、ポストセレクションフリーの実装に必要な要求のために難しいままである。 ここでは、2つの主要なパラダイム、すなわち離散および連続変数量子ビット間の量子情報の変換を示す。 単一光子量子ビットの完全集合上でプロトコルを認証し、古典的極限を超える忠実度を持つ猫状態量子ビットに変換することに成功した。 この結果から,相互接続型量子デバイスやアーキテクチャを実現する上で,汎用性とスケーラビリティが向上することを示す。

From telecommunication to computing architectures, the realm of classical information hinges on converter technology to enable the exchange of data between digital and analog formats, a process now routinely performed across a variety of electronic devices. A similar exigency exists as well in quantum information technology where different frameworks are being developed for quantum computing, communication, and sensing. Thus, efficient quantum interconnects are a major need to bring these parallel approaches together and scale up quantum information systems. So far, however, the conversion between different optical quantum-bit encodings has remained challenging due to the difficulty of preserving fragile quantum superpositions and the demanding requirements for postselection-free implementations. Here we demonstrate such a conversion of quantum information between the two main paradigms, namely discrete- and continuous-variable qubits. We certify the protocol on a complete set of single-photon qubits, successfully converting them to cat-state qubits with fidelities exceeding the classical limit. Our result demonstrates an essential tool for enabling interconnected quantum devices and architectures with enhanced versatility and scalability.
翻訳日:2023-01-18 04:14:27 公開日:2022-11-18
# 強カオス多体スピンモデルの量子古典的対応

Quantum-classical correspondence of strongly chaotic many-body spin models ( http://arxiv.org/abs/2211.10451v1 )

ライセンス: Link先を確認
Luis Benet, Fausto Borgonovi, Felix M. Izrailev, Lea F. Santos(参考訳) 古典極限において強いカオス性を持つ相互作用スピン粒子を持つ系の量子古典対応について検討する。 これは、個々のスピンの固定された角モーメントに関連する運動定数の存在下で行われる。 リャプノフスペクトルの解析により、最大のリャプノフ指数は、他の全てのスピンの影響の下で移動する個々のスピンの局所不安定性を決定するリャプノフ指数と一致することが分かる。 この図では、スピン運動のエルゴディシティの厳密で簡単なテストを導入し、古典的カオスが位相空間において強大かつ大域的であるかどうかを識別するために使用する。 量子領域において、適切な表現におけるハミルトン行列の分析により、モデルパラメータの関数としての量子カオスの開始条件を得ることができる。 量子領域と古典領域の比較から、状態の局所密度 (ldos) や非相互作用多体基底で記述されるカオス固有関数の形状のような量子量は、よく定義された古典的値を持つことを示す。 もう一つの中心となる発見は、コルモゴロフ・シナイのエントロピーとldosの幅の関係であり、多体力学の研究に有用である。

We study the quantum-classical correspondence for systems with interacting spin-particles that are strongly chaotic in the classical limit. This is done in the presence of constants of motion associated with the fixed angular momenta of individual spins. Our analysis of the Lyapunov spectra reveals that the largest Lyapunov exponent agrees with the Lyapunov exponent that determines the local instability of each individual spin moving under the influence of all other spins. Within this picture, we introduce a rigorous and simple test of ergodicity for the spin motion, and use it to identify when classical chaos is both strong and global in phase space. In the quantum domain, our analysis of the Hamiltonian matrix in a proper representation allows us to obtain the conditions for the onset of quantum chaos as a function of the model parameters. From the comparison between the quantum and classical domains, we demonstrate that quantum quantities, such as the local density of states (LDOS) and the shape of the chaotic eigenfunctions written in the non-interacting many-body basis, have well-defined classical counterparts. Another central finding is the relationship between the Kolmogorov-Sinai entropy and the width of the LDOS, which is useful for studies of many-body dynamics.
翻訳日:2023-01-18 04:14:08 公開日:2022-11-18
# スピン軌道結合量子ガスによるハイゼンベルクスケールのスクイーズと克服

Squeezing and overcoming the Heisenberg scaling with spin-orbit coupled quantum gases ( http://arxiv.org/abs/2211.10436v1 )

ライセンス: Link先を確認
Karol Gietka and Helmut Ritsch(参考訳) 我々は、調和に閉じ込められたスピノル量子ガスにおけるスピン軌道カップリングを利用すると、ハイゼンベルクスケールを超える最適な測定精度のスケーリングにつながると予測する。 1次元スピン軌道結合フェルミオンまたは強く相互作用するボソン(トンクス・ギラルドーガス)を用いて原子数の2次スケーリングを原子運動の中心重心励起により促進できることを示した。 対応する量子フィッシャー情報の解析計算から導かれる予測に基づいて、相互作用しないボース=アインシュタイン凝縮体の励起および絡み合った多体状態によってハイゼンベルクスケーリング(および制限)を克服するプロトコルを導入する。 対応する最適測定値を特定し、デコヒーレンス源として有限温度であっても、原理上、取得可能な精密スケーリングに有利であると主張する。

We predict that exploiting spin-orbit coupling in a harmonically trapped spinor quantum gas can lead to scaling of the optimal measurement precision beyond the Heisenberg scaling. We show that quadratic scaling with the number of atoms can be facilitated via squeezed center-of-mass excitations of the atomic motion using a 1D spin-orbit coupled fermions or strongly interacting bosons (Tonks-Girardeau gas). Based on predictions derived from analytic calculations of the corresponding quantum Fisher information, we then introduce a protocol which overcomes the Heisenberg scaling (and limit) with help of a tailored excited and entangled many-body state of a non-interacting Bose-Einstein condensate. We identify corresponding optimal measurements and argue that even finite temperature as a source of decoherence is, in principle, rather favorable for the obtainable precision scaling.
翻訳日:2023-01-18 04:13:48 公開日:2022-11-18
# モード絡み合いとスワッピングを用いた弱信号検出における帯域幅と可視性の改善

Bandwidth and visibility improvement in detection of a weak signal using mode entanglement and swapping ( http://arxiv.org/abs/2211.10403v1 )

ライセンス: Link先を確認
Yue Jiang, Elizabeth P. Ruddy, Kyle O. Quinlan, Maxime Malnou, Nicholas E. Frattini, Konrad W. Lehnert(参考訳) 量子揺らぎは、主なノイズバリア制限キャビティに基づくアクシオンダークマター探索を構成する。 実軸探索を模倣するために設計された実験では、共振器に弱結合した未知周波数の合成軸状マイクロ波トーンを量子エンハンスセンシング技術を用いて検出し、同じトーンの量子制限トーンに対する5.6倍の加速度を示す。 加速度は、検出器の可視性帯域幅とピーク可視性の両方の増加から生じる。 この高速化は、共振器モードと2つのモードのスクイーズ相互作用のバランスの取れた2番目の(読み出し)モードを動的に結合することで達成される。 2つの相互作用速度間の小さな分数的不均衡はスキャンレートのさらなる向上をもたらし、8倍加速が達成できることを示す。

Quantum fluctuations constitute the primary noise barrier limiting cavity-based axion dark matter searches. In an experiment designed to mimic a real axion search, we employ a quantum-enhanced sensing technique to detect a synthetic axion-like microwave tone at an unknown frequency weakly coupled to a resonator, demonstrating a factor of 5.6 acceleration relative to a quantum-limited search for the same tone. The acceleration comes from increases to both the visibility bandwidth and the peak visibility of a detector. This speedup is achieved by dynamically coupling the resonator mode to a second (readout) mode with balanced swapping and two-mode squeezing interactions. A small fractional imbalance between the two interaction rates yields further scan rate enhancement and we demonstrate that an 8-fold acceleration can be achieved.
翻訳日:2023-01-18 04:13:31 公開日:2022-11-18
# ローカライゼーションによるパスロスとToAラジオマップのデータセット

Dataset of Pathloss and ToA Radio Maps With Localization Application ( http://arxiv.org/abs/2212.11777v1 )

ライセンス: Link先を確認
\c{C}a\u{g}kan Yapar, Ron Levie, Gitta Kutyniok, Giuseppe Caire(参考訳) 本稿では,密集した都市環境における無線地図データセットの集合について紹介する。 データセットには、実都市地図における現実的な密集した都市環境の集合体に、シミュレートされたパスロス/受信信号強度(RSS)と到着時刻(ToA)ラジオマップが含まれる。 提示されたデータセットの2つの主な応用は 1)入力都市地図(すなわち深層学習に基づくシミュレーション)からパスロスを予測する学習方法、及び 2)無線位置決め。 RSSとToAマップが同じ都市マップ上で同じシミュレーションによって計算されているという事実は、RSSとToAベースのローカライゼーション手法を公平に比較することができる。

In this article, we present a collection of radio map datasets in dense urban setting, which we generated and made publicly available. The datasets include simulated pathloss/received signal strength (RSS) and time of arrival (ToA) radio maps over a large collection of realistic dense urban setting in real city maps. The two main applications of the presented dataset are 1) learning methods that predict the pathloss from input city maps (namely, deep learning-based simulations), and, 2) wireless localization. The fact that the RSS and ToA maps are computed by the same simulations over the same city maps allows for a fair comparison of the RSS and ToA-based localization methods.
翻訳日:2022-12-25 03:22:25 公開日:2022-11-18
# 魚検体画像の柔軟なメタデータパイプラインを目指して

Toward a Flexible Metadata Pipeline for Fish Specimen Images ( http://arxiv.org/abs/2211.15472v1 )

ライセンス: Link先を確認
Dom Jebbia, Xiaojun Wang, Yasin Bakis, Henry L. Bart Jr., and Jane Greenberg(参考訳) FAIRデータ原則をサポートするためには、柔軟なメタデータパイプラインが不可欠です。 この必要性にもかかわらず、研究者は最適な柔軟性をサポートするメタデータ標準やプロトコルを特定するためのアプローチをほとんど報告しない。 本稿では,複数のデータレポジトリおよび魚類コレクションから収集した30万以上のデジタル魚標本画像を含むコレクションのための柔軟なメタデータパイプラインの開発を目標としたイニシアチブについて報告する。 画像とその関連メタデータは、自動種識別、セグメンテーション、形質抽出を含むAI関連科学研究に使用されている。 論文は文脈的背景を提供し、続いて4段階のアプローチを提示する。 1.問題の評価 2.解決法の検討 3.実装、及び 4.留置所。 この研究は、NSF Harnessing the Data Revolution, Biology Guided Neural Networks (NSF/HDR-BGNN)プロジェクトとHDR Imageomics Instituteの一部である。 RDFグラフのプロトタイプパイプラインが提示され、その結果を要約した研究内容と結論が議論される。

Flexible metadata pipelines are crucial for supporting the FAIR data principles. Despite this need, researchers seldom report their approaches for identifying metadata standards and protocols that support optimal flexibility. This paper reports on an initiative targeting the development of a flexible metadata pipeline for a collection containing over 300,000 digital fish specimen images, harvested from multiple data repositories and fish collections. The images and their associated metadata are being used for AI-related scientific research involving automated species identification, segmentation and trait extraction. The paper provides contextual background, followed by the presentation of a four-phased approach involving: 1. Assessment of the Problem, 2. Investigation of Solutions, 3. Implementation, and 4. Refinement. The work is part of the NSF Harnessing the Data Revolution, Biology Guided Neural Networks (NSF/HDR-BGNN) project and the HDR Imageomics Institute. An RDF graph prototype pipeline is presented, followed by a discussion of research implications and conclusion summarizing the results.
翻訳日:2022-12-04 14:34:55 公開日:2022-11-18
# egocentric video understanding @ ego4d challenge 2022のためのマスク付きオートエンコーダ

Masked Autoencoders for Egocentric Video Understanding @ Ego4D Challenge 2022 ( http://arxiv.org/abs/2211.15286v1 )

ライセンス: Link先を確認
Jiachen Lei, Shuang Ma, Zhongjie Ba, Sai Vemprala, Ashish Kapoor and Kui Ren(参考訳) 本稿では,Ego4D Challenge 2022の2つのエゴセントリックビデオ理解タスク,すなわちオブジェクト状態変化分類とPNR時間的局所化にマスク付きオートエンコーダを適用した手法と実験結果について述べる。 チーム TheSSVL では、両方のタスクで2位にランク付けしました。 私たちのコードは利用可能になります。

In this report, we present our approach and empirical results of applying masked autoencoders in two egocentric video understanding tasks, namely, Object State Change Classification and PNR Temporal Localization, of Ego4D Challenge 2022. As team TheSSVL, we ranked 2nd place in both tasks. Our code will be made available.
翻訳日:2022-12-04 14:34:22 公開日:2022-11-18
# 微細視変換器の予知バイアスに関する解説

Explanation on Pretraining Bias of Finetuned Vision Transformer ( http://arxiv.org/abs/2211.15428v1 )

ライセンス: Link先を確認
Bumjin Park, Jaesik Choi(参考訳) 事前学習モデルの微調整数が増加するにつれて,事前学習モデルのバイアスの理解が不可欠となる。 しかし、トランスフォーマーアーキテクチャを分析するツールはほとんどなく、アテンションマップの解釈は依然として困難である。 この解釈可能性に取り組むために,注意マップと入力属性の類似性を測定し,解釈可能な注意パターンの一般的な傾向を示すIAV(Input-Attribution and Attention Score Vector)を提案する。 教師付きおよび教師なしの事前学習型ViTモデルの事前学習バイアスを実証的に説明し、ViTの各頭部が分類の決定について特定の範囲の合意を持つことを示す。 注意写像の一般化,頑健性,エントロピーが事前学習型の性質ではないことを示す。 一方、IAVトレンドは事前学習型を分離することができる。

As the number of fine tuning of pretrained models increased, understanding the bias of pretrained model is essential. However, there is little tool to analyse transformer architecture and the interpretation of the attention maps is still challenging. To tackle the interpretability, we propose Input-Attribution and Attention Score Vector (IAV) which measures the similarity between attention map and input-attribution and shows the general trend of interpretable attention patterns. We empirically explain the pretraining bias of supervised and unsupervised pretrained ViT models, and show that each head in ViT has a specific range of agreement on the decision of the classification. We show that generalization, robustness and entropy of attention maps are not property of pretraining types. On the other hand, IAV trend can separate the pretraining types.
翻訳日:2022-12-04 14:34:14 公開日:2022-11-18
# どこからツイートしたの? 文脈情報に基づくツイートの起源位置推定

Where did you tweet from? Inferring the origin locations of tweets based on contextual information ( http://arxiv.org/abs/2211.16506v1 )

ライセンス: Link先を確認
Rabindra Lamsal, Aaron Harwood, Maria Rodriguez Read(参考訳) 災害、抗議活動、政治、プロパガンダ、スポーツ、気候変動、疫病/パンデミックアウトブレイクなど、地域的・グローバル的な側面を持つ多くのトピックがTwitter上で公開されている。 空間談話分析は地理データに依存する。 しかし、現在ツイートの1%未満がジオタグされている。 ツイートの大きな問題は、twitterユーザーがロケーションaにいて、ロケーションa/b問題と呼ばれるロケーションb特有の会話を交換できることだ。 この問題は、位置実体が原位置(位置As)または非オリジン位置(位置Bs)に分類できる場合に解決される。 そこで本研究では,機械レベルでの自然言語理解を用いて,原点情報を含むツイートを識別する問題に対処する,シンプルで効果的なフレームワークであるTrue Origin Modelを提案する。 このモデルは国 (80%) 、州 (67%)、都市 (58%)、郡 (56%)、地区 (64%) で有望な精度を達成し、2003年ベースのロバータと同様に位置抽出モデルから支援されている。 提案モデルのコアコンポーネントの一つであるtweet contexualizer (locbert) を用いて,複数のツイートの分布を調査し,twitterユーザのツイート行動を理解する。 我々はまた、現在見られているゴールドスタンダードテストセット(地上真実)方法論に対する大きな懸念を強調し、新しいデータセットを導入し、その領域を前進させるためのさらなる研究方法を特定する。

Public conversations on Twitter comprise many pertinent topics including disasters, protests, politics, propaganda, sports, climate change, epidemics/pandemic outbreaks, etc., that can have both regional and global aspects. Spatial discourse analysis rely on geographical data. However, today less than 1% of tweets are geotagged; in both cases--point location or bounding place information. A major issue with tweets is that Twitter users can be at location A and exchange conversations specific to location B, which we call the Location A/B problem. The problem is considered solved if location entities can be classified as either origin locations (Location As) or non-origin locations (Location Bs). In this work, we propose a simple yet effective framework--the True Origin Model--to address the problem that uses machine-level natural language understanding to identify tweets that conceivably contain their origin location information. The model achieves promising accuracy at country (80%), state (67%), city (58%), county (56%) and district (64%) levels with support from a Location Extraction Model as basic as the CoNLL-2003-based RoBERTa. We employ a tweet contexualizer (locBERT) which is one of the core components of the proposed model, to investigate multiple tweets' distributions for understanding Twitter users' tweeting behavior in terms of mentioning origin and non-origin locations. We also highlight a major concern with the currently regarded gold standard test set (ground truth) methodology, introduce a new data set, and identify further research avenues for advancing the area.
翻訳日:2022-12-04 14:33:15 公開日:2022-11-18
# ネットワークオートマタから抽出した密度時間進化パターンに基づくネットワーク分類法

A Network Classification Method based on Density Time Evolution Patterns Extracted from Network Automata ( http://arxiv.org/abs/2211.13000v1 )

ライセンス: Link先を確認
Kallil M. C. Zielinski, Lucas C. Ribas, Jeaneth Machicao, Odemir M. Bruno(参考訳) ネットワークモデリングは、社会的、生物学的、輸送、その他多くの現実世界の複雑なシステムを含む多くの分野における効率的なツールであることが証明されている。 さらに、細胞オートマトン(CA)は、局所的な規則に基づくこれらのシステムの動的時空間行動のパターンを探索するモデルとして、過去数十年にわたって研究されてきたフォーマリズムである。 セルオートマトンを用いてネットワークの動的挙動を解析し、ネットワークオートマトン(na)として分類する研究もある。 近年、NAは時間進化パターン(TEP)を用いて特徴抽出を行うため、ネットワーク分類に効率的であることが判明した。 しかし、過去の研究で調べたTEPはバイナリ値で構成されており、分析されたネットワークの詳細情報を表現していない。 そこで本稿では,D-TEP(D-TEP)と状態密度時間進化パターン(SD-TEP)とを識別する,分類タスクの記述子として使用する代替情報ソースを提案する。 連続値である各ノードの生存近傍の密度を調査し,TEPのヒストグラムに基づいて特徴ベクトルを計算する。 その結果,従来の5つの合成ネットワークデータベースと7つの実世界のデータベースと比較して,大きな改善が見られた。 提案手法は,ネットワークにおけるパターン認識に優れたアプローチを示すだけでなく,画像など他の種類のデータにも大きな可能性を示す。

Network modeling has proven to be an efficient tool for many interdisciplinary areas, including social, biological, transport, and many other real world complex systems. In addition, cellular automata (CA) are a formalism that has been studied in the last decades as a model for exploring patterns in the dynamic spatio-temporal behavior of these systems based on local rules. Some studies explore the use of cellular automata to analyze the dynamic behavior of networks, denominating them as network automata (NA). Recently, NA proved to be efficient for network classification, since it uses a time-evolution pattern (TEP) for the feature extraction. However, the TEPs explored by previous studies are composed of binary values, which does not represent detailed information on the network analyzed. Therefore, in this paper, we propose alternate sources of information to use as descriptor for the classification task, which we denominate as density time-evolution pattern (D-TEP) and state density time-evolution pattern (SD-TEP). We explore the density of alive neighbors of each node, which is a continuous value, and compute feature vectors based on histograms of the TEPs. Our results show a significant improvement compared to previous studies at five synthetic network databases and also seven real world databases. Our proposed method demonstrates not only a good approach for pattern recognition in networks, but also shows great potential for other kinds of data, such as images.
翻訳日:2022-11-27 13:19:00 公開日:2022-11-18
# 注意に基づくLSTMによるステップカウント

Step Counting with Attention-based LSTM ( http://arxiv.org/abs/2211.13114v1 )

ライセンス: Link先を確認
Shehroz S. Khan and Ali Abedi(参考訳) 身体活動は健康にとって重要な要素であると考えられている。 身体活動の1つの指標であるステップカウントは、長期的な死亡率と死亡率の予測因子としてよく知られている。 ステップカウント(Step Counting, SC)とは、特定の時間と空間にまたがるステップの数を自動カウントすることである。 スマートフォンやスマートウォッチの普及により、現在のSCアプローチのほとんどは、これらのデバイスに内蔵されている加速度センサーに依存している。 センサ信号を多変量時系列として解析し、時間領域、周波数領域、機械学習、ディープラーニングアプローチなど、さまざまなアプローチによってステップ数を計算する。 既存のアプローチのほとんどは、入力信号をウィンドウに分割し、各ウィンドウのステップを検出し、検出されたステップを要約する。 しかし、これらの手法はウィンドウサイズを含む複数のパラメータを決定する必要がある。 さらに、既存のディープラーニングSCアプローチのほとんどでは、すべてのステップに対して、ゼロトルースラベルを必要とするため、アノテートには困難で時間がかかります。 これらの要件を回避するために,多対一の注意に基づくLSTMを用いた新しいSCアプローチを提案する。 提案するLSTMネットワークでは、センサ信号全体を入力とし、ステップカウントを出力とする回帰問題としてSCが解かれる。 解析結果から,アテンションに基づくLSTMは,地絡ラベルがなくてもステップパターンを自動学習することがわかった。 3つの公開SCデータセットに対する実験結果から,提案手法は平均絶対誤差の低いステップ数と高いSC精度のステップ数を推定できることを示した。

Physical activity is recognized as an essential component of overall health. One measure of physical activity, the step count, is well known as a predictor of long-term morbidity and mortality. Step Counting (SC) is the automated counting of the number of steps an individual takes over a specified period of time and space. Due to the ubiquity of smartphones and smartwatches, most current SC approaches rely on the built-in accelerometer sensors on these devices. The sensor signals are analyzed as multivariate time series, and the number of steps is calculated through a variety of approaches, such as time-domain, frequency-domain, machine-learning, and deep-learning approaches. Most of the existing approaches rely on dividing the input signal into windows, detecting steps in each window, and summing the detected steps. However, these approaches require the determination of multiple parameters, including the window size. Furthermore, most of the existing deep-learning SC approaches require ground-truth labels for every single step, which can be arduous and time-consuming to annotate. To circumvent these requirements, we present a novel SC approach utilizing many-to-one attention-based LSTM. With the proposed LSTM network, SC is solved as a regression problem, taking the entire sensor signal as input and the step count as the output. The analysis shows that the attention-based LSTM automatically learned the pattern of steps even in the absence of ground-truth labels. The experimental results on three publicly available SC datasets demonstrate that the proposed method successfully counts the number of steps with low values of mean absolute error and high values of SC accuracy.
翻訳日:2022-11-27 13:18:10 公開日:2022-11-18
# 非侵入負荷モニタリングにおけるガウス過程の課題

Challenges in Gaussian Processes for Non Intrusive Load Monitoring ( http://arxiv.org/abs/2211.13018v1 )

ライセンス: Link先を確認
Aadesh Desai, Gautam Vashishtha, Zeel B Patel, Nipun Batra(参考訳) 非侵入負荷モニタリング(NILM)またはエネルギー分散は、家庭の総エネルギー消費を構成機器に分解することを目的としている。 以前の研究は、エネルギーの破壊によって最大15%のエネルギーを節約できることを示した。 近年、深層ニューラルネットワーク(ディープnn)は、nilmの領域において著しい進歩を遂げている。 本稿では,NILMにおけるガウス過程(GP)の性能について述べる。 3つの主な理由からGPを選択する。 一 GPが本質的に不確実性をモデル化すること。 二 無限NNとGPの等価性 三 適切にカーネルを設計することにより、ドメインの専門知識を組み込むことができる。 我々は, gp アプローチを nilm に適用する課題を探究し, 提示する。

Non-intrusive load monitoring (NILM) or energy disaggregation aims to break down total household energy consumption into constituent appliances. Prior work has shown that providing an energy breakdown can help people save up to 15\% of energy. In recent years, deep neural networks (deep NNs) have made remarkable progress in the domain of NILM. In this paper, we demonstrate the performance of Gaussian Processes (GPs) for NILM. We choose GPs due to three main reasons: i) GPs inherently model uncertainty; ii) equivalence between infinite NNs and GPs; iii) by appropriately designing the kernel we can incorporate domain expertise. We explore and present the challenges of applying our GP approaches to NILM.
翻訳日:2022-11-27 13:16:10 公開日:2022-11-18
# 深部知識蒸留を用いた単葉心電図に基づく睡眠ステージングの脳波支援

EEG aided boosting of single-lead ECG based sleep staging with Deep Knowledge Distillation ( http://arxiv.org/abs/2211.13125v1 )

ライセンス: Link先を確認
Vaibhav Joshi, Sricharan V, Preejith SP, Mohanasankar Sivaprakasam(参考訳) 脳波(eeg)信号は、現在自動睡眠ステージングの標準として受け入れられている。 近年、Deep Learning (DL) ベースのアプローチにより、自動睡眠ステージングにおける人間に近い精度が達成され、この分野における多面的な進歩が実現されている。 しかし、脳波ベースの睡眠ステージリングには広範囲で高価な臨床装置が必要である。 さらに、脳波の設定は本質的に邪魔で、専門家が必要であり、研究中の被験者の不便さが増し、ケア設定の点で悪影響を及ぼす。 脳電図(ECG、Electrocardiogram、ECG)は、脳波の指標である。 当然ながら、睡眠ステージにおける脳波と比較しても、パフォーマンスは相変わらず劣っている。 両方のモダリティを活用するために、EEGからECGへの知識伝達は合理的なアプローチであり、最終的にECGベースの睡眠ステージングの性能を高める。 知識蒸留(KD)はDLにおいて有望な概念であり、上質だがより複雑な教師モデルから劣等でコンパクトな生徒モデルまで知識を共有する。 この概念に基づいて,脳波モデルを用いて学習し,心電図に基づく睡眠ステージング性能を向上させることを目的とした,クロスモーダルなKDフレームワークを提案する。 さらに, 蒸留法をより深く理解するために, 提案モデルの独立モジュールに関する広範な実験を行った。 本研究には200名の被験者からなるモントリオール睡眠研究資料(MASS)を用いた。 3級と4級の睡眠ステージにおける重み付きF1スコアモデルの結果,それぞれ13.40 %,14.30 %の改善が認められた。 本研究は, 単チャンネル心電図による3クラス (W-R-N) と4クラス (W-R-L-D) の睡眠ステージング性能向上のためのKDの実現可能性を示す。

An electroencephalogram (EEG) signal is currently accepted as a standard for automatic sleep staging. Lately, Near-human accuracy in automated sleep staging has been achievable by Deep Learning (DL) based approaches, enabling multi-fold progress in this area. However, An extensive and expensive clinical setup is required for EEG based sleep staging. Additionally, the EEG setup being obtrusive in nature and requiring an expert for setup adds to the inconvenience of the subject under study, making it adverse in the point of care setting. An unobtrusive and more suitable alternative to EEG is Electrocardiogram (ECG). Unsurprisingly, compared to EEG in sleep staging, its performance remains sub-par. In order to take advantage of both the modalities, transferring knowledge from EEG to ECG is a reasonable approach, ultimately boosting the performance of ECG based sleep staging. Knowledge Distillation (KD) is a promising notion in DL that shares knowledge from a superior performing but usually more complex teacher model to an inferior but compact student model. Building upon this concept, a cross-modality KD framework assisting features learned through models trained on EEG to improve ECG-based sleep staging performance is proposed. Additionally, to better understand the distillation approach, extensive experimentation on the independent modules of the proposed model was conducted. Montreal Archive of Sleep Studies (MASS) dataset consisting of 200 subjects was utilized for this study. The results from the proposed model for weighted-F1-score in 3-class and 4-class sleep staging showed a 13.40 \% and 14.30 \% improvement, respectively. This study demonstrates the feasibility of KD for single-channel ECG based sleep staging's performance enhancement in 3-class (W-R-N) and 4-class (W-R-L-D) classification.
翻訳日:2022-11-27 13:07:56 公開日:2022-11-18
# 脳動脈瘤治療成績の自動予測に向けて

Towards Automatic Prediction of Outcome in Treatment of Cerebral Aneurysms ( http://arxiv.org/abs/2211.11749v1 )

ライセンス: Link先を確認
Ashutosh Jadhav, Satyananda Kashyap, Hakan Bulu, Ronak Dholakia, Amon Y. Liu, Tanveer Syeda-Mahmood, William R. Patterson, Hussain Rangwala, Mehdi Moradi(参考訳) 嚢内フローディスラプターは動脈瘤嚢から血流を流すことで大動脈瘤を治療する。 介入後の嚢への残留フローは、低サイズの装置の使用、または患者の血管解剖および臨床状態に起因する可能性のある障害である。 血管内塞栓装置を用いた広ネック大動脈瘤治療の結果を予測する100以上の臨床・画像特徴に基づく機械学習モデルについて報告する。 ランダムフォレストモデルにおいて,臨床特徴と共通および新しい画像計測の多種多様なセットを組み合わせる。 また,血管造影画像中の嚢を輪郭状にし,画像の特徴を自動計算するニューラルネットワーク分割アルゴリズムを2Dおよび3Dで開発する。 これらは手動で2Dで90%、3Dで83%と重なり合う。 我々の予測モデルは75.31%の精度で完全対部分閉塞の結果を分類し、重み付きF1スコアは0.74である。

Intrasaccular flow disruptors treat cerebral aneurysms by diverting the blood flow from the aneurysm sac. Residual flow into the sac after the intervention is a failure that could be due to the use of an undersized device, or to vascular anatomy and clinical condition of the patient. We report a machine learning model based on over 100 clinical and imaging features that predict the outcome of wide-neck bifurcation aneurysm treatment with an intravascular embolization device. We combine clinical features with a diverse set of common and novel imaging measurements within a random forest model. We also develop neural network segmentation algorithms in 2D and 3D to contour the sac in angiographic images and automatically calculate the imaging features. These deliver 90% overlap with manual contouring in 2D and 83% in 3D. Our predictive model classifies complete vs. partial occlusion outcomes with an accuracy of 75.31%, and weighted F1-score of 0.74.
翻訳日:2022-11-23 19:21:07 公開日:2022-11-18
# 有向グラフにおけるグラフニューラルネットワークを用いた関連製品を推奨する

Recommending Related Products Using Graph Neural Networks in Directed Graphs ( http://arxiv.org/abs/2211.11583v1 )

ライセンス: Link先を確認
Srinivas Virinchi, Anoop Saladi, Abhirup Mondal(参考訳) 関連する製品レコメンデーション(RPR)は、あらゆるEコマースサービスの成功の鍵となる。 本稿では,関連商品を推薦する問題,すなわちクエリ製品を考えると,それと一緒に購入できる確率の高いトップk製品を提案する。 我々の問題は、非対称性、すなわち電話の場合、適切な電話ケースを推奨したいと暗黙的に仮定するが、電話の場合、電話ケースを所有するときにのみ電話ケースを購入するため、電話ケースを推奨しがちである。 補完的あるいは代替的な製品レコメンデーションにも制限はありません。 例えば、特定のナイトウェアTシャツの場合、同様のTシャツとトラックパンツを提案することができる。 したがって、関連性の概念はクエリ製品に主観的であり、顧客の好みに依存します。 さらに、製品価格や可用性といったさまざまな要因は、関連する製品レコメンデーションモデルのトレーニング中に制御される必要のある、過去の購入データに選択バイアスの存在につながる。 これらの課題は、我々の問題を非自明であるとみなす互いに直交している。 そこで本研究では,GNN(Graph Neural Network)をベースとした新たな製品レコメンデーションフレームワークであるDAEMONを提案する。 積の非対称性を捉えるために、非対称損失関数を採用し、その近傍から特徴を適切に集約することにより、各製品に対する二重埋め込みを学習する。 DAEMONはカタログメタデータなどのマルチモーダルデータソースを活用し、行動ログを閲覧することで選択バイアスを緩和し、コールドスタート製品のレコメンデーションを生成する。 大規模なオフライン実験により、DAEMONはノードレコメンデーションタスクのHitRateとMRRで最先端のベースラインを30-160%上回った。

Related product recommendation (RPR) is pivotal to the success of any e-commerce service. In this paper, we deal with the problem of recommending related products i.e., given a query product, we would like to suggest top-k products that have high likelihood to be bought together with it. Our problem implicitly assumes asymmetry i.e., for a phone, we would like to recommend a suitable phone case, but for a phone case, it may not be apt to recommend a phone because customers typically would purchase a phone case only while owning a phone. We also do not limit ourselves to complementary or substitute product recommendation. For example, for a specific night wear t-shirt, we can suggest similar t-shirts as well as track pants. So, the notion of relatedness is subjective to the query product and dependent on customer preferences. Further, various factors such as product price, availability lead to presence of selection bias in the historical purchase data, that needs to be controlled for while training related product recommendations model. These challenges are orthogonal to each other deeming our problem nontrivial. To address these, we propose DAEMON, a novel Graph Neural Network (GNN) based framework for related product recommendation, wherein the problem is formulated as a node recommendation task on a directed product graph. In order to capture product asymmetry, we employ an asymmetric loss function and learn dual embeddings for each product, by appropriately aggregating features from its neighborhood. DAEMON leverages multi-modal data sources such as catalog metadata, browse behavioral logs to mitigate selection bias and generate recommendations for cold-start products. Extensive offline experiments show that DAEMON outperforms state-of-the-art baselines by 30-160% in terms of HitRate and MRR for the node recommendation task.
翻訳日:2022-11-22 23:12:53 公開日:2022-11-18
# 微分未校正画像

Differentiable Uncalibrated Imaging ( http://arxiv.org/abs/2211.10525v1 )

ライセンス: Link先を確認
Sidharth Gupta, Konik Kothari, Valentin Debarnot, Ivan Dokmani\'c(参考訳) センサの位置や投影角などの測定座標の不確実性に対処するための微分可能なイメージングフレームワークを提案する。 フォワード演算子によって制御される未知ノードにおける計測補間として問題を定式化する。 これを解決するために、入力座標に対して自然に微分可能な暗黙のニューラルネットワーク、別名ニューラルフィールドを適用します。 また,ニューラルネットワークと同様に動作し,最適化に要する時間が少なく,よく理解されている特性を持つ,微分可能なスプライン補間器を開発した。 測定表現を協調的に適合させ、不確実な測定座標を最適化し、一貫したキャリブレーションを保証する画像再構成を行うため、微分性は鍵となる。 本手法を2次元および3次元ctに応用し,キャリブレーションの欠如を考慮しないベースラインと比較して,再現性が向上することを示す。 提案するフレームワークの柔軟性により、ほぼ任意の画像問題に容易に適用できる。

We propose a differentiable imaging framework to address uncertainty in measurement coordinates such as sensor locations and projection angles. We formulate the problem as measurement interpolation at unknown nodes supervised through the forward operator. To solve it we apply implicit neural networks, also known as neural fields, which are naturally differentiable with respect to the input coordinates. We also develop differentiable spline interpolators which perform as well as neural networks, require less time to optimize and have well-understood properties. Differentiability is key as it allows us to jointly fit a measurement representation, optimize over the uncertain measurement coordinates, and perform image reconstruction which in turn ensures consistent calibration. We apply our approach to 2D and 3D computed tomography and show that it produces improved reconstructions compared to baselines that do not account for the lack of calibration. The flexibility of the proposed framework makes it easy to apply to almost arbitrary imaging problems.
翻訳日:2022-11-22 22:57:33 公開日:2022-11-18
# 社会的多様性は公正を育む複雑さとコストを減少させる

Social Diversity Reduces the Complexity and Cost of Fostering Fairness ( http://arxiv.org/abs/2211.10517v1 )

ライセンス: Link先を確認
Theodor Cimpeanu, Alessandro Di Stefano, Cedric Perret and The Anh Han(参考訳) 機関や投資家は、寄付を適切に分配するという課題に常に直面している。 予算は無限であり、ポジティブな成果を犠牲にすることなく全体の支出を最適化することは、いくつかのヒューリスティックを用いてアプローチされ解決されている。 これまでは、社会的多様性が普遍的であり、投資家が一部だけ人口を観察できる人口において、公平を奨励する方法を検討できていない。 ここでは,不完全な情報や公平性の柔軟な基準を前提としたいくつかの干渉機構の効果について検討する。 多様性の役割を定量化し、情報収集の必要性を減らす方法を示し、厳格でコストのかかる干渉プロセスを緩和できるようにします。 さらに,ネットワーク中心性尺度によって表される特定の個人の影響を利用して,公平性要件を最小に抑えれば,さらなる支出削減が期待できることがわかった。 この結果から,多様性が変化し,公正性向上を目指す機関に新たなメカニズムが開放されることが示唆された。 総合的な分析は,社会的に多様な複雑なシステムにおける制度政策を導くための新たな洞察を提供する。

Institutions and investors are constantly faced with the challenge of appropriately distributing endowments. No budget is limitless and optimising overall spending without sacrificing positive outcomes has been approached and resolved using several heuristics. To date, prior works have failed to consider how to encourage fairness in a population where social diversity is ubiquitous, and in which investors can only partially observe the population. Herein, by incorporating social diversity in the Ultimatum game through heterogeneous graphs, we investigate the effects of several interference mechanisms which assume incomplete information and flexible standards of fairness. We quantify the role of diversity and show how it reduces the need for information gathering, allowing us to relax a strict, costly interference process. Furthermore, we find that the influence of certain individuals, expressed by different network centrality measures, can be exploited to further reduce spending if minimal fairness requirements are lowered. Our results indicate that diversity changes and opens up novel mechanisms available to institutions wishing to promote fairness. Overall, our analysis provides novel insights to guide institutional policies in socially diverse complex systems.
翻訳日:2022-11-22 22:46:07 公開日:2022-11-18
# がんにおける薬物反応予測のための深層学習法 : 主流と新興動向

Deep learning methods for drug response prediction in cancer: predominant and emerging trends ( http://arxiv.org/abs/2211.10442v1 )

ライセンス: Link先を確認
Alexander Partin (1), Thomas S. Brettin (1), Yitan Zhu (1), Oleksandr Narykov (1), Austin Clyde (1 and 2), Jamie Overbeek (1), Rick L. Stevens (1 and 2) ((1) Division of Data Science and Learning, Argonne National Laboratory, Argonne, IL, USA, (2) Department of Computer Science, The University of Chicago, Chicago, IL, USA)(参考訳) がんは世界中で何百万人もの命がかかっている。 近年、多くの治療法が利用可能になっているが、大きながんによる治療は未解決のままである。 がんの研究と治療のための計算予測モデルを展開することは、薬物開発の改善と治療計画のパーソナライズドデザインの改善、最終的には腫瘍の抑制、痛みの緩和、患者の寿命の延長に大いに貢献する。 最近の論文の波は、深層学習法を利用して、薬物治療に対するがん反応を予測する有望な結果を示している。 本稿では,多様なデータ表現,ニューラルネットワークアーキテクチャ,学習方法論,評価スキームについて検討する。 しかし,薬物反応予測モデルを比較するための標準化された枠組みが欠如しているため,有望な主流・新興傾向の解読は困難である。 深層学習手法の総合的な展望を得るため, 単一薬物治療に対する反応を予測する深層学習モデルの広範囲な探索と解析を行った。 合計60のディープラーニングベースのモデルがキュレーションされ、要約プロットが生成される。 分析の結果,観察可能なパターンと手法の普及傾向が明らかになった。 このレビューは、この分野の現状をよりよく理解し、主要な課題と将来性のあるソリューションパスを特定します。

Cancer claims millions of lives yearly worldwide. While many therapies have been made available in recent years, by in large cancer remains unsolved. Exploiting computational predictive models to study and treat cancer holds great promise in improving drug development and personalized design of treatment plans, ultimately suppressing tumors, alleviating suffering, and prolonging lives of patients. A wave of recent papers demonstrates promising results in predicting cancer response to drug treatments while utilizing deep learning methods. These papers investigate diverse data representations, neural network architectures, learning methodologies, and evaluations schemes. However, deciphering promising predominant and emerging trends is difficult due to the variety of explored methods and lack of standardized framework for comparing drug response prediction models. To obtain a comprehensive landscape of deep learning methods, we conducted an extensive search and analysis of deep learning models that predict the response to single drug treatments. A total of 60 deep learning-based models have been curated and summary plots were generated. Based on the analysis, observable patterns and prevalence of methods have been revealed. This review allows to better understand the current state of the field and identify major challenges and promising solution paths.
翻訳日:2022-11-22 22:45:49 公開日:2022-11-18
# 最適分類林への数学的プログラミング手法

A Mathematical Programming Approach to Optimal Classification Forests ( http://arxiv.org/abs/2211.10502v1 )

ライセンス: Link先を確認
V\'ictor Blanco, Alberto Jap\'on, Justo Puerto, Peter Zhang(参考訳) 本稿では,分類林を構築するための数学的最適化手法を提案する。 与えられた数のツリーが同時に構築され、それぞれがトレーニングデータセット内の各観測に対する予測クラスを提供する。 観測は、最も頻繁に予測されるクラスに分類される。 この問題に対して混合整数線形計画法を提案する。 計算実験の結果を報告する。 提案手法は,いくつかの標準データセット上で,最先端のツリーベース分類法より優れている。

In this paper we propose a novel mathematical optimization based methodology to construct classification forests. A given number of trees are simultaneously constructed, each of them providing a predicted class for each of the observations in the training dataset. An observation is then classified to its most frequently predicted class. We give a mixed integer linear programming formulation for the problem. We report the results of our computational experiments. Our proposed method outperforms state-of-the-art tree-based classification methods on several standard datasets.
翻訳日:2022-11-22 22:45:06 公開日:2022-11-18
# 言語にまたがるダイアログ

Dialogs Re-enacted Across Languages ( http://arxiv.org/abs/2211.11584v1 )

ライセンス: Link先を確認
Nigel G. Ward, Jonathan E. Avila, Emilia Rivas(参考訳) 言語間の韻律マッピングなどの言語間翻訳改善のための機械学習を支援するため,言語間で密に一致した発話のペアを収集するためのプロトコル,得られたデータ収集の説明,観察と歌唱について述べる。 この報告書は意図されている 1) コーパスを使用する人 2)コーパスを延ばす人々,及び 3)バイリンガルダイアログデータの類似したコレクションを設計する人々。

To support machine learning of cross-language prosodic mappings and other ways to improve speech-to-speech translation, we present a protocol for collecting closely matched pairs of utterances across languages, a description of the resulting data collection, and some observations and musings. This report is intended for 1) people using the corpus, 2) people extending the corpus, and 3) people designing similar collections of bilingual dialog data.
翻訳日:2022-11-22 22:30:00 公開日:2022-11-18
# 大規模整数線形プログラミングのための適応制約分割に基づく最適化フレームワーク(Student Abstract)

Adaptive Constraint Partition based Optimization Framework for Large-scale Integer Linear Programming(Student Abstract) ( http://arxiv.org/abs/2211.11564v1 )

ライセンス: Link先を確認
Huigen Ye, Hongyan Wang, Hua Xu, Chengming Wang, Yu Jiang(参考訳) 整数プログラミング問題(IP)は、特に大規模IPにおいてNP硬度のため、効率的に解決することが困難である。 この種のIPを解決するために,Large neighborhood search (LNS) は,初期実現可能な解を用いて,現在の解の周囲の大きな近傍を探索することにより,繰り返し改善する。 しかし、LSSは簡単に局所最適化に踏み込み、最適化すべき変数間の相関を無視し、性能を損なう。 本稿では,既存の最適化解法をサブルーチンとして効率的に使用できる大規模ipsのための一般適応制約分割型最適化フレームワーク(acp)を提案する。 具体的には、ACPはまず制約をブロックにランダムに分割し、ブロックの数は局所最適を避けるために適応的に調整される。 次に、ACPはサブルーチンソルバを用いて、ランダムに選択された制約ブロック内の決定変数を最適化し、変数相関を強化する。 ACPは、4つのIPと現実世界のIP上の異なるサブルーチンソルバを持つLSSフレームワークと比較される。 実験の結果,壁面時間帯のACPはSCIPやGurobiよりも優れた性能を示した。

Integer programming problems (IPs) are challenging to be solved efficiently due to the NP-hardness, especially for large-scale IPs. To solve this type of IPs, Large neighborhood search (LNS) uses an initial feasible solution and iteratively improves it by searching a large neighborhood around the current solution. However, LNS easily steps into local optima and ignores the correlation between variables to be optimized, leading to compromised performance. This paper presents a general adaptive constraint partition-based optimization framework (ACP) for large-scale IPs that can efficiently use any existing optimization solver as a subroutine. Specifically, ACP first randomly partitions the constraints into blocks, where the number of blocks is adaptively adjusted to avoid local optima. Then, ACP uses a subroutine solver to optimize the decision variables in a randomly selected block of constraints to enhance the variable correlation. ACP is compared with LNS framework with different subroutine solvers on four IPs and a real-world IP. The experimental results demonstrate that in specified wall-clock time ACP shows better performance than SCIP and Gurobi.
翻訳日:2022-11-22 22:21:19 公開日:2022-11-18
# 局所的な最大二部グラフの発見

Discovering Locally Maximal Bipartite Subgraphs ( http://arxiv.org/abs/2211.10446v1 )

ライセンス: Link先を確認
Dominik D\"urrschnabel, Tom Hanika, Gerd Stumme(参考訳) 最大頂点濃度の誘導二部グラフは、グラフの分析に不可欠な概念である。 しかし、大きなグラフでそれらを発見することは計算が難しいことが知られている。 したがって、本研究ではこの問題のより弱い概念として、包含最大性を支持する最大性制約を廃止する。 そこで我々は,局所的な最大二部グラフの発見を目指す。 そこで我々は,このような部分グラフを抽出し,その結果をグローバル問題の解と比較するための3つのヒューリスティックなアプローチを提案する。 後者では,高速SAT-ソルバのアルゴリズム強度を用いる。 提案した3つのヒューリスティックは, それぞれ, グリーディ戦略, 模擬アニーリングアプローチ, 遺伝的アルゴリズムに基づく。 いくつかのベンチマークデータセット上で発見された2部グラフの時間要件と頂点濃度に関する4つのアルゴリズムすべてを評価する。

Induced bipartite subgraphs of maximal vertex cardinality are an essential concept for the analysis of graphs. Yet, discovering them in large graphs is known to be computationally hard. Therefore, we consider in this work a weaker notion of this problem, where we discard the maximality constraint in favor of inclusion maximality. Thus, we aim to discover locally maximal bipartite subgraphs. For this, we present three heuristic approaches to extract such subgraphs and compare their results to the solutions of the global problem. For the latter, we employ the algorithmic strength of fast SAT-solvers. Our three proposed heuristics are based on a greedy strategy, a simulated annealing approach, and a genetic algorithm, respectively. We evaluate all four algorithms with respect to their time requirement and the vertex cardinality of the discovered bipartite subgraphs on several benchmark datasets
翻訳日:2022-11-22 22:00:41 公開日:2022-11-18
# DS-1000:データサイエンスコード生成のための自然で信頼性の高いベンチマーク

DS-1000: A Natural and Reliable Benchmark for Data Science Code Generation ( http://arxiv.org/abs/2211.11501v1 )

ライセンス: Link先を確認
Yuhang Lai and Chengxi Li and Yiming Wang and Tianyi Zhang and Ruiqi Zhong and Luke Zettlemoyer and Scott Wen-tau Yih and Daniel Fried and Sida Wang and Tao Yu(参考訳) DS-1000は、NumPyやPandasといった7つのPythonライブラリにまたがる1000のデータサイエンス問題を持つコード生成ベンチマークである。 前作と比較して、DS-1000は3つのコア機能を備えている。 まず、StackOverflowから収集したさまざまな、現実的で実践的なユースケースを反映しています。 第二に、私たちの評価が受け入れるすべてのcodex-002-predictedソリューションに対して、私たちの自動評価は高度に特定(信頼性)され、その1.8%が間違っています。私たちはマルチクリテリアメトリクスでこれを達成し、テストケースの実行による機能的正確性と、apiの使用やキーワードを制限することで表面的な制約の両方をチェックします。 最後に、我々は、元のstackoverflowソースとは異なる問題に変更を加えることで、暗記を積極的に防ぎます。 現在のベストパブリックシステム(codex-002)は43.3%の精度を実現しており、改善の余地は十分にある。 ベンチマークはhttps://ds1000-code-gen.github.ioでリリースします。

We introduce DS-1000, a code generation benchmark with a thousand data science problems spanning seven Python libraries, such as NumPy and Pandas. Compared to prior works, DS-1000 incorporates three core features. First, our problems reflect diverse, realistic, and practical use cases since we collected them from StackOverflow. Second, our automatic evaluation is highly specific (reliable) -- across all Codex-002-predicted solutions that our evaluation accept, only 1.8% of them are incorrect; we achieve this with multi-criteria metrics, checking both functional correctness by running test cases and surface-form constraints by restricting API usages or keywords. Finally, we proactively defend against memorization by slightly modifying our problems to be different from the original StackOverflow source; consequently, models cannot answer them correctly by memorizing the solutions from pre-training. The current best public system (Codex-002) achieves 43.3% accuracy, leaving ample room for improvement. We release our benchmark at https://ds1000-code-gen.github.io.
翻訳日:2022-11-22 21:34:35 公開日:2022-11-18
# スマートシティにおけるデータ融合とマルチタスク学習のためのトランスフォーマフレームワーク

A Transformer Framework for Data Fusion and Multi-Task Learning in Smart Cities ( http://arxiv.org/abs/2211.10506v1 )

ライセンス: Link先を確認
Alexander C. DeRieux, Walid Saad, Wangda Zuo, Rachmawan Budiarto, Mochamad Donny Koerniawan, and Dwi Novitasari(参考訳) 急速なグローバル化は二重刃の剣であり、経済的繁栄と公衆衛生を約束すると同時に、ユニークな環境と人道上の課題を提起する。 スマートでコネクテッドなコミュニティ(S&CC)は、人工知能(AI)とIoT(Internet of Things)を統合することで、これらの問題にデータ中心のソリューションを適用します。 このインテリジェントな技術の結合は、異種データ融合とタスクの多様性に関する興味深いシステム設計上の課題も引き起こす。 トランスフォーマーは、自然言語処理(NLP)、コンピュータビジョン、時系列回帰、マルチモーダルデータ融合といった様々な分野において、これらの問題に対処することに特に関心がある。 これは、s&ccトレードスペースにおける異種マルチタスク学習のためのiotデータソースの融合を活用するために、トランスフォーマーをさらに多様化できるかどうかを問うものだ。 本稿では,新興スマートシティを対象としたトランスフォーマーベースのAIシステムを提案する。 純粋なエンコーダバックボーンを使用して設計され、交換可能な入力埋め込みおよび出力タスクヘッドによってさらにカスタマイズされたこのシステムは、事実上あらゆる入力データおよびs&ccsの出力タスクタイプをサポートする。 この一般化性は、北京PM2.5と植物村のデータセットを組み合わせて、多変量時系列回帰、視覚植物病分類、画像時系列融合タスクを含む、S&CC環境を代表する多様なタスクセットを学習することで実証される。 シミュレーションの結果,提案するトランスフォーマシステムでは,カスタムシーケンス埋め込み技術を用いて様々な入力データ型を処理でき,様々なタスクの学習に自然に適していることがわかった。 また、マルチタスク学習者は、シングルタスク変種と非トランスフォーマーベースラインに匹敵する性能を維持しながら、メモリと計算効率を向上することを示した。

Rapid global urbanization is a double-edged sword, heralding promises of economical prosperity and public health while also posing unique environmental and humanitarian challenges. Smart and connected communities (S&CCs) apply data-centric solutions to these problems by integrating artificial intelligence (AI) and the Internet of Things (IoT). This coupling of intelligent technologies also poses interesting system design challenges regarding heterogeneous data fusion and task diversity. Transformers are of particular interest to address these problems, given their success across diverse fields of natural language processing (NLP), computer vision, time-series regression, and multi-modal data fusion. This begs the question whether Transformers can be further diversified to leverage fusions of IoT data sources for heterogeneous multi-task learning in S&CC trade spaces. In this paper, a Transformer-based AI system for emerging smart cities is proposed. Designed using a pure encoder backbone, and further customized through interchangeable input embedding and output task heads, the system supports virtually any input data and output task types present S&CCs. This generalizability is demonstrated through learning diverse task sets representative of S&CC environments, including multivariate time-series regression, visual plant disease classification, and image-time-series fusion tasks using a combination of Beijing PM2.5 and Plant Village datasets. Simulation results show that the proposed Transformer-based system can handle various input data types via custom sequence embedding techniques, and are naturally suited to learning a diverse set of tasks. The results also show that multi-task learners increase both memory and computational efficiency while maintaining comparable performance to both single-task variants, and non-Transformer baselines.
翻訳日:2022-11-22 21:34:18 公開日:2022-11-18
# 2CET-GAN:人顔表情伝達のための画素レベルGANモデル

2CET-GAN: Pixel-Level GAN Model for Human Facial Expression Transfer ( http://arxiv.org/abs/2211.11570v1 )

ライセンス: Link先を確認
Xiaohang Hu, Nuha Aldausari, Gelareh Mohammadi(参考訳) 近年の研究では、ヒトの顔間の表情伝達にGANが用いられている。 しかしながら、既存のモデルには、感情ラベルへの依存、連続表現の欠如、表現の詳細のキャプチャーの失敗など、多くの欠陥がある。 これらの制約に対処するために,感情ラベルを使わずに連続的な表現伝達を学習できる2CET-GAN(Cycles Expression Transfer GAN)と呼ばれる新しいCycleGANおよびInfoGANベースのネットワークを提案する。 実験では,ネットワークが多様で高品質な表現を生成し,未知のアイデンティティに一般化できることを示した。 私たちの知る限りでは、ピクセルレベルでのアイデンティティから表現表現を分離するために教師なしのアプローチをうまく利用した最初の1人です。

Recent studies have used GAN to transfer expressions between human faces. However, existing models have many flaws: relying on emotion labels, lacking continuous expressions, and failing to capture the expression details. To address these limitations, we propose a novel CycleGAN- and InfoGAN-based network called 2 Cycles Expression Transfer GAN (2CET-GAN), which can learn continuous expression transfer without using emotion labels. The experiment shows our network can generate diverse and high-quality expressions and can generalize to unknown identities. To the best of our knowledge, we are among the first to successfully use an unsupervised approach to disentangle expression representation from identities at the pixel level.
翻訳日:2022-11-22 21:28:24 公開日:2022-11-18
# カテゴリーレベルの6次元ポーズのための混合現実性データセットとハンドオクルード容器のサイズ推定

A mixed-reality dataset for category-level 6D pose and size estimation of hand-occluded containers ( http://arxiv.org/abs/2211.10470v1 )

ライセンス: Link先を確認
Xavier Weber, Alessio Xompero, Andrea Cavallaro(参考訳) 形状,サイズ,外観,透明度などの物体特性のクラス内変化が大きいため,家庭用容器の6Dポーズとサイズを推定することは困難である。 この作業は、握りの種類や被写体を観察するカメラの視点によって、手の閉塞の度合いが異なるため、被写体を保持・操作することがより困難になる。 本稿では,カテゴリレベルの6Dオブジェクトのポーズとサイズ推定のための,手持ち容器の混合現実性データセットを提案する。 データセットは、レンダリングされた手と48の合成オブジェクトを保持する前腕の138,240の画像で構成され、30の実際の背景に対して3つの把握カテゴリに分けられる。 混合現実データを用いた6次元物体ポーズ推定のための既存モデルの再訓練とテストを行った。 本稿では,このデータセットを用いた6次元ポーズとサイズ推定のタスク改善の効果について考察する。

Estimating the 6D pose and size of household containers is challenging due to large intra-class variations in the object properties, such as shape, size, appearance, and transparency. The task is made more difficult when these objects are held and manipulated by a person due to varying degrees of hand occlusions caused by the type of grasps and by the viewpoint of the camera observing the person holding the object. In this paper, we present a mixed-reality dataset of hand-occluded containers for category-level 6D object pose and size estimation. The dataset consists of 138,240 images of rendered hands and forearms holding 48 synthetic objects, split into 3 grasp categories over 30 real backgrounds. We re-train and test an existing model for 6D object pose estimation on our mixed-reality dataset. We discuss the impact of the use of this dataset in improving the task of 6D pose and size estimation.
翻訳日:2022-11-22 19:48:03 公開日:2022-11-18
# Castling-ViT: 視覚変換器推論における線形角アテンションへの切り替えによる自己注意の圧縮

Castling-ViT: Compressing Self-Attention via Switching Towards Linear-Angular Attention During Vision Transformer Inference ( http://arxiv.org/abs/2211.10526v1 )

ライセンス: Link先を確認
Haoran You, Yunyang Xiong, Xiaoliang Dai, Bichen Wu, Peizhao Zhang, Haoqi Fan, Peter Vajda, Yingyan Lin(参考訳) 視覚トランスフォーマー (vits) は目覚ましい性能を示したが、世界的類似度の測定と入力トークンとの二次的複雑さのため、畳み込みニューラルネットワーク (cnns) と比較して高い計算コストを必要とする。 既存の効率的なViTは局所的な注意(Swinなど)や線形的な注意(Performerなど)を採用しており、これはViTがグローバルまたはローカルなコンテキストをキャプチャする能力を犠牲にする。 この研究において、vitsは、推論中により効率的でありながら、グローバルコンテキストとローカルコンテキストの両方を学ぶことができるか? そこで本稿では,VT を線形角注意とマスク付きソフトマックス2次注意の両方を用いて訓練する Castling-ViT というフレームワークを提案する。 当社のcastling-vitは角カーネルを利用して,クエリとキーの類似度をスペクトル角で測定します。 And we further simplify it with two techniques: (1) a novel linear-angular attention mechanism: we decompose the angular kernels into linear terms and high-order residuals, and only keep the linear terms; and (2) we adopt two parameterized modules to approximate high-order residuals: a depthwise convolution and an auxiliary masked softmax attention to help learn both global and local information, where the masks for softmax attention are regularized to gradually become zeros and thus incur no overhead during ViT inference. 3つのタスクに関する広範な実験とアブレーションの研究は、提案するキャスティング・ヴィットの有効性を一貫して検証している。例えば、画像ネットの分類において最大1.8%の精度と40%のmacs削減を達成し、同等のフロップでcoco検出時の1.2倍のマップを、バニラソフトマックスに基づくvitsと比較した。

Vision Transformers (ViTs) have shown impressive performance but still require a high computation cost as compared to convolutional neural networks (CNNs), due to the global similarity measurements and thus a quadratic complexity with the input tokens. Existing efficient ViTs adopt local attention (e.g., Swin) or linear attention (e.g., Performer), which sacrifice ViTs' capabilities of capturing either global or local context. In this work, we ask an important research question: Can ViTs learn both global and local context while being more efficient during inference? To this end, we propose a framework called Castling-ViT, which trains ViTs using both linear-angular attention and masked softmax-based quadratic attention, but then switches to having only linear angular attention during ViT inference. Our Castling-ViT leverages angular kernels to measure the similarities between queries and keys via spectral angles. And we further simplify it with two techniques: (1) a novel linear-angular attention mechanism: we decompose the angular kernels into linear terms and high-order residuals, and only keep the linear terms; and (2) we adopt two parameterized modules to approximate high-order residuals: a depthwise convolution and an auxiliary masked softmax attention to help learn both global and local information, where the masks for softmax attention are regularized to gradually become zeros and thus incur no overhead during ViT inference. Extensive experiments and ablation studies on three tasks consistently validate the effectiveness of the proposed Castling-ViT, e.g., achieving up to a 1.8% higher accuracy or 40% MACs reduction on ImageNet classification and 1.2 higher mAP on COCO detection under comparable FLOPs, as compared to ViTs with vanilla softmax-based attentions.
翻訳日:2022-11-22 19:47:48 公開日:2022-11-18
# 私の財布はどこにありますか。 エゴセントリックなビジュアルクエリローカライゼーションのためのオブジェクト提案セットのモデリング

Where is my Wallet? Modeling Object Proposal Sets for Egocentric Visual Query Localization ( http://arxiv.org/abs/2211.10528v1 )

ライセンス: Link先を確認
Mengmeng Xu, Yanghao Li, Cheng-Yang Fu, Bernard Ghanem, Tao Xiang, Juan-Manuel Perez-Rua(参考訳) 本稿では,画像および映像データセットにおけるオブジェクトのローカライズの問題を扱う。 特に,エゴセントリックな視覚的クエリローカライゼーションの課題に注目する。 まず,現在の問合せ条件モデル設計と視覚的問合せデータセットにおける暗黙のバイアスを識別する。 そして、フレームとオブジェクトセットの両方のレベルで、そのようなバイアスに対処する。 具体的には、制限付きアノテーションを拡張し、トレーニング中にオブジェクト提案を動的にドロップすることで、これらの問題を解決する。 さらに,クエリ情報を取り込んでオブジェクトプロポサル集合コンテキストを考慮できる,トランスフォーマティブなモジュールを提案する。 モジュールの名前は Conditioned Contextual Transformer または CocoFormer です。 提案手法により,エゴセントリックなクエリ検出が向上し,2次元および3次元構成の視覚的クエリローカライゼーションシステムが改善された。 これにより、フレームレベルの検出性能が26.28%から31.26に向上し、VQ2DとVQ3Dのローカライゼーションスコアが大幅に向上する。 第2回Ego4Dチャレンジでは,VQ2DタスクとVQ3Dタスクで第1位,第2位となった。 さらに,Few-Shot Detection (FSD)タスクにおいて提案するモデルの有効性を示す。 私たちのコードはhttps://github.com/facebookresearch/vq2d_cvprで入手できる。

This paper deals with the problem of localizing objects in image and video datasets from visual exemplars. In particular, we focus on the challenging problem of egocentric visual query localization. We first identify grave implicit biases in current query-conditioned model design and visual query datasets. Then, we directly tackle such biases at both frame and object set levels. Concretely, our method solves these issues by expanding limited annotations and dynamically dropping object proposals during training. Additionally, we propose a novel transformer-based module that allows for object-proposal set context to be considered while incorporating query information. We name our module Conditioned Contextual Transformer or CocoFormer. Our experiments show the proposed adaptations improve egocentric query detection, leading to a better visual query localization system in both 2D and 3D configurations. Thus, we are able to improve frame-level detection performance from 26.28% to 31.26 in AP, which correspondingly improves the VQ2D and VQ3D localization scores by significant margins. Our improved context-aware query object detector ranked first and second in the VQ2D and VQ3D tasks in the 2nd Ego4D challenge. In addition to this, we showcase the relevance of our proposed model in the Few-Shot Detection (FSD) task, where we also achieve SOTA results. Our code is available at https://github.com/facebookresearch/vq2d_cvpr.
翻訳日:2022-11-22 19:47:16 公開日:2022-11-18
# 意味エンコーダ誘導生成型逆顔超解像ネットワーク

Semantic Encoder Guided Generative Adversarial Face Ultra-Resolution Network ( http://arxiv.org/abs/2211.10532v1 )

ライセンス: Link先を確認
Xiang Wang, Yimin Yang, Qixiang Pang, Xiao Lu, Yu Liu, Shan Du(参考訳) 顔超解像は、高分解能(HR)顔画像を低分解能(LR)画像から生成することを目的とした、ドメイン固有の画像超解像である。 本稿では,複数の超スケーリング因子(例えば4x,8x)に対応するhrに対して,非整合なlr顔画像の超解像を行うための,セマンティックエンコーダ誘導型生成逆顔超解像ネットワーク(sega-furn)を提案する。 提案するネットワークは,組込みセマンティクスをキャプチャして,逆学習を誘導する新たなセマンティクスエンコーダと,内部密閉ブロック(ridb)の残差と呼ばれる階層的アーキテクチャを用いた新たなジェネレータで構成されている。 さらに,画像データと組込みセマンティクスの両方を識別する共同識別器を提案する。 ジョイント判別器は、画像空間と潜在空間のジョイント確率分布を学習する。 また,相対論的平均最小二乗損失(RaLS)を逆損失として用いて,勾配解消問題を緩和し,訓練手順の安定性を高める。 大規模顔データセットに関する広範囲な実験により,提案手法が優れた超解像結果を達成し,質的および定量的比較において,他の最先端手法を大幅に上回ることが証明された。

Face super-resolution is a domain-specific image super-resolution, which aims to generate High-Resolution (HR) face images from their Low-Resolution (LR) counterparts. In this paper, we propose a novel face super-resolution method, namely Semantic Encoder guided Generative Adversarial Face Ultra-Resolution Network (SEGA-FURN) to ultra-resolve an unaligned tiny LR face image to its HR counterpart with multiple ultra-upscaling factors (e.g., 4x and 8x). The proposed network is composed of a novel semantic encoder that has the ability to capture the embedded semantics to guide adversarial learning and a novel generator that uses a hierarchical architecture named Residual in Internal Dense Block (RIDB). Moreover, we propose a joint discriminator which discriminates both image data and embedded semantics. The joint discriminator learns the joint probability distribution of the image space and latent space. We also use a Relativistic average Least Squares loss (RaLS) as the adversarial loss to alleviate the gradient vanishing problem and enhance the stability of the training procedure. Extensive experiments on large face datasets have proved that the proposed method can achieve superior super-resolution results and significantly outperform other state-of-the-art methods in both qualitative and quantitative comparisons.
翻訳日:2022-11-22 19:23:47 公開日:2022-11-18
# 物理的海洋変数の高速かつスケーラブルな補間のためのニューラルフィールド

Neural Fields for Fast and Scalable Interpolation of Geophysical Ocean Variables ( http://arxiv.org/abs/2211.10444v1 )

ライセンス: Link先を確認
J. Emmanuel Johnson, Redouane Lguensat, Ronan Fablet, Emmanuel Cosme, Julien Le Sommer(参考訳) 最適補間 (Optimal Interpolation, OI) は、地球科学における補間および再構成問題に対して広く用いられる、信頼性の高いアルゴリズムである。 衛星ミッションの流入により、より多くの観測にアクセスでき、予測や再分析などの応用においてこれらの観測を活用することがより重要になっている。 利用可能なデータ量の増加に伴い、スケーラビリティは標準のOIでは依然として問題であり、多くの実践者がこれらの膨大なデータを利用してモデルハイパーパラメーターを学ぶのを効果的に効果的に防いでいる。 本研究では,OIフレームワークの代替としてニューラルフィールド(NerFs)の最近の進歩を活用し,物理海洋学における標準的な再構築問題にどのように適用できるかを示す。 衛星高度計による海面高度(SSH)のスパース測定のギャップ充填におけるNerFsの意義を述べるとともに,標準のOIと同等の精度でNerFsのスケーラビリティを実証する。 NerFsは,地学補間問題に容易に適用可能な実用的手法であり,将来広く採用されることを期待している。

Optimal Interpolation (OI) is a widely used, highly trusted algorithm for interpolation and reconstruction problems in geosciences. With the influx of more satellite missions, we have access to more and more observations and it is becoming more pertinent to take advantage of these observations in applications such as forecasting and reanalysis. With the increase in the volume of available data, scalability remains an issue for standard OI and it prevents many practitioners from effectively and efficiently taking advantage of these large sums of data to learn the model hyperparameters. In this work, we leverage recent advances in Neural Fields (NerFs) as an alternative to the OI framework where we show how they can be easily applied to standard reconstruction problems in physical oceanography. We illustrate the relevance of NerFs for gap-filling of sparse measurements of sea surface height (SSH) via satellite altimetry and demonstrate how NerFs are scalable with comparable results to the standard OI. We find that NerFs are a practical set of methods that can be readily applied to geoscience interpolation problems and we anticipate a wider adoption in the future.
翻訳日:2022-11-22 18:53:28 公開日:2022-11-18
# ノイズdnn加速器の高精度推定のためのシャープネスアウェアトレーニング

Sharpness-Aware Training for Accurate Inference on Noisy DNN Accelerators ( http://arxiv.org/abs/2211.11561v1 )

ライセンス: Link先を確認
Gon\c{c}alo Mordido, Sarath Chandar, Fran\c{c}ois Leduc-Primeau(参考訳) エネルギー効率の高いディープニューラルネットワーク(DNN)アクセラレータは、推論時にDNNのパフォーマンスを低下させる非イデアリティの傾向がある。 このような劣化を軽減するため、既存の手法はトレーニング中にDNNの重み付けに摂動を加え、ノイズの多いハードウェアでの推論をシミュレートする。 しかし、これはしばしばターゲットハードウェアに関する知識を必要とし、DNNの性能と堅牢性の間にトレードオフをもたらし、後者を増やすために前者を減らす。 本研究では,損失値と損失シャープ性の両方を最適化してシャープネスアウェアトレーニングを行うことにより,推定時のノイズハードウェアに対するロバスト性を大幅に向上するとともに,dnn性能も向上することを示す。 さらに,損失シャープネスとモデルロバストネスとの間に高い相関関係を示すことによって,結果のモチベーションを高める。 我々は,複数のアーキテクチャ,オプティマイザ,データセット,トレーニングレジームに対して,トレーニング中にノイズを注入するよりも優れた性能を示す。 これは、一般的なノイズモデルや、実際のハードウェアからの正確なノイズシミュレーションで観測される。

Energy-efficient deep neural network (DNN) accelerators are prone to non-idealities that degrade DNN performance at inference time. To mitigate such degradation, existing methods typically add perturbations to the DNN weights during training to simulate inference on noisy hardware. However, this often requires knowledge about the target hardware and leads to a trade-off between DNN performance and robustness, decreasing the former to increase the latter. In this work, we show that applying sharpness-aware training by optimizing for both the loss value and the loss sharpness significantly improves robustness to noisy hardware at inference time while also increasing DNN performance. We further motivate our results by showing a high correlation between loss sharpness and model robustness. We show superior performance compared to injecting noise during training and aggressive weight clipping on multiple architectures, optimizers, datasets, and training regimes without relying on any assumptions about the target hardware. This is observed on a generic noise model as well as on accurate noise simulations from real hardware.
翻訳日:2022-11-22 18:28:23 公開日:2022-11-18
# 分散ロバストな生存分析:デモグラフィックのない新たなフェアネス損失

Distributionally Robust Survival Analysis: A Novel Fairness Loss Without Demographics ( http://arxiv.org/abs/2211.10508v1 )

ライセンス: Link先を確認
Shu Hu, George H. Chen(参考訳) そこで本研究では,全亜集団(少なくとも利用者が特定した最小確率)において最悪の場合の誤差を最小限に抑えるサバイバル分析モデルの訓練手法を提案する。 このアプローチでは、センシティブな扱いをする人口統計情報を知らないトレーニング損失関数を使用する。 それにもかかわらず,提案手法は,最近確立された公正度測定値(予測精度の大幅な低下を伴わない)を,トレーニング損失にセンシティブな人口統計情報を直接利用するものなど,様々なベースラインに比較して評価することが多い。 私たちのコードは、https://github.com/Discovershu/DRO_COXで利用可能です。

We propose a general approach for training survival analysis models that minimizes a worst-case error across all subpopulations that are large enough (occurring with at least a user-specified minimum probability). This approach uses a training loss function that does not know any demographic information to treat as sensitive. Despite this, we demonstrate that our proposed approach often scores better on recently established fairness metrics (without a significant drop in prediction accuracy) compared to various baselines, including ones which directly use sensitive demographic information in their training loss. Our code is available at: https://github.com/discovershu/DRO_COX
翻訳日:2022-11-22 18:27:24 公開日:2022-11-18
# 後見の好奇心

Curiosity in hindsight ( http://arxiv.org/abs/2211.10515v1 )

ライセンス: Link先を確認
Daniel Jarrett, Corentin Tallec, Florent Altch\'e, Thomas Mesnard, R\'emi Munos, Michal Valko(参考訳) モンテズマの復讐のようなスパース・リワードや報酬のない環境での探検を考える。 好奇心駆動のパラダイムは直感的なテクニックを規定する: 各ステップでエージェントは、実現された結果が予測された結果とどの程度異なるかに報酬を受ける。 しかし, 予測誤差を本質的動機として用いることは, 確率的環境下では失敗する傾向にあり, ノイズテレビなど, 状態動作空間の高エントロピー領域にエージェントが期待できないほど引き寄せられる可能性がある。 したがって、本質的に予測可能な世界力学の側面と、本質的に予測できない側面を区別することが重要である:前者は内在的な報酬の源を構成するべきであるが、後者はそうすべきではない。 この研究では、世界の構造因果モデルから導かれる自然な解について研究する: 我々の鍵となる考え方は、各結果の予測不可能な側面を正確に捉えた未来の表現を学習することである。 まず、このような後見表現をエージェントのモデルに組み込んで、"novelty"から"noise"を解き、"hindsight"の好奇心を生み出す。 第二に、このフレームワークは予測に基づく探索ボーナスのドロップイン修正として実装され、最近導入されたBYOL-Exploreアルゴリズムを主例としてインスタンス化する。 第3に,グリッド世界における様々な確率性の下での動作を概説し,頑健な探索型アタリゲームにおけるBYOL-Exploreよりも改善した。 また, 粘着作用のあるモンテズマを探索し, 非粘着条件下での性能を維持した。

Consider the exploration in sparse-reward or reward-free environments, such as Montezuma's Revenge. The curiosity-driven paradigm dictates an intuitive technique: At each step, the agent is rewarded for how much the realized outcome differs from their predicted outcome. However, using predictive error as intrinsic motivation is prone to fail in stochastic environments, as the agent may become hopelessly drawn to high-entropy areas of the state-action space, such as a noisy TV. Therefore it is important to distinguish between aspects of world dynamics that are inherently predictable and aspects that are inherently unpredictable: The former should constitute a source of intrinsic reward, whereas the latter should not. In this work, we study a natural solution derived from structural causal models of the world: Our key idea is to learn representations of the future that capture precisely the unpredictable aspects of each outcome -- not any more, not any less -- which we use as additional input for predictions, such that intrinsic rewards do vanish in the limit. First, we propose incorporating such hindsight representations into the agent's model to disentangle "noise" from "novelty", yielding Curiosity in Hindsight: a simple and scalable generalization of curiosity that is robust to all types of stochasticity. Second, we implement this framework as a drop-in modification of any prediction-based exploration bonus, and instantiate it for the recently introduced BYOL-Explore algorithm as a prime example, resulting in the noise-robust "BYOL-Hindsight". Third, we illustrate its behavior under various stochasticities in a grid world, and find improvements over BYOL-Explore in hard-exploration Atari games with sticky actions. Importantly, we show SOTA results in exploring Montezuma with sticky actions, while preserving performance in the non-sticky setting.
翻訳日:2022-11-22 18:27:10 公開日:2022-11-18
# スケーラブルな継続的学習のためのサブスペースの構築

Building a Subspace of Policies for Scalable Continual Learning ( http://arxiv.org/abs/2211.10445v1 )

ライセンス: Link先を確認
Jean-Baptiste Gaya, Thang Doan, Lucas Caccia, Laure Soulier, Ludovic Denoyer, Roberta Raileanu(参考訳) 自律的なエージェントにとって、新しい知識とスキルを継続的に獲得する能力は重要です。 既存の手法は、多くの多様な振る舞いを学ぶのに苦労する固定サイズモデルか、タスク数でスケールの悪い拡張サイズモデルのいずれかに基づいています。 本研究では,タスクシーケンスに応じて適応的に成長する手法を設計することにより,エージェントのサイズと性能のバランスを改善することを目的とする。 強化学習エージェントを一連のタスクで訓練するためのポリシのサブスペースを漸進的に構築する新しいアプローチであるcontinual subspace of policy (csp)を導入する。 部分空間の高表現性により、cspは多くの異なるタスクでうまく動作でき、同時にタスクの数でサブリニアに成長できる。 提案手法は新しいタスクへのポジティブな転送を忘れることに苦しめられません。 CSPは、Brax(ロコモーション)とContinuous World(操作)という2つの挑戦的なドメインから幅広いシナリオにおいて、多くの人気ベースラインを上回ります。

The ability to continuously acquire new knowledge and skills is crucial for autonomous agents. Existing methods are typically based on either fixed-size models that struggle to learn a large number of diverse behaviors, or growing-size models that scale poorly with the number of tasks. In this work, we aim to strike a better balance between an agent's size and performance by designing a method that grows adaptively depending on the task sequence. We introduce Continual Subspace of Policies (CSP), a new approach that incrementally builds a subspace of policies for training a reinforcement learning agent on a sequence of tasks. The subspace's high expressivity allows CSP to perform well for many different tasks while growing sublinearly with the number of tasks. Our method does not suffer from forgetting and displays positive transfer to new tasks. CSP outperforms a number of popular baselines on a wide range of scenarios from two challenging domains, Brax (locomotion) and Continual World (manipulation).
翻訳日:2022-11-22 18:10:31 公開日:2022-11-18
# Hub-VAE: 変分オートエンコーダの教師なしハブベース正規化

Hub-VAE: Unsupervised Hub-based Regularization of Variational Autoencoders ( http://arxiv.org/abs/2211.10469v1 )

ライセンス: Link先を確認
Priya Mani and Carlotta Domeniconi(参考訳) 経験的手法は学習アルゴリズムの最適化を導くために情報的データポイントやプロトタイプに依存している。 このようなデータは、解釈可能なモデル設計と予測を促進する。 特に興味があるのは、教師なしの深い表現を学ぶ際、見習いの効用である。 本稿では,高次元空間において頻繁に発生するハブを,変分オートエンコーダの正規化や,教師なし下流タスクに対する識別的埋め込みの学習に活用する。 本稿では,ハブベースプリミティブとハブベースのコントラスト損失を混合した潜在空間の教師なしデータ駆動正規化を提案する。 実験により,本アルゴリズムは,ベースラインや最先端技術と比較して,埋め込み空間におけるクラスタ分離性,高精度なデータ再構成と生成を実現することを示す。

Exemplar-based methods rely on informative data points or prototypes to guide the optimization of learning algorithms. Such data facilitate interpretable model design and prediction. Of particular interest is the utility of exemplars in learning unsupervised deep representations. In this paper, we leverage hubs, which emerge as frequent neighbors in high-dimensional spaces, as exemplars to regularize a variational autoencoder and to learn a discriminative embedding for unsupervised down-stream tasks. We propose an unsupervised, data-driven regularization of the latent space with a mixture of hub-based priors and a hub-based contrastive loss. Experimental evaluation shows that our algorithm achieves superior cluster separability in the embedding space, and accurate data reconstruction and generation, compared to baselines and state-of-the-art techniques.
翻訳日:2022-11-22 18:10:14 公開日:2022-11-18
# 強化学習におけるバックドア政策の防止

Provable Defense against Backdoor Policies in Reinforcement Learning ( http://arxiv.org/abs/2211.10530v1 )

ライセンス: Link先を確認
Shubham Kumar Bharti, Xuezhou Zhang, Adish Singla, Xiaojin Zhu(参考訳) サブスペーストリガ仮定下で強化学習におけるバックドアポリシーに対する証明可能な防御機構を提案する。 バックドアポリシー(英: backdoor policy)は、敵が、実際に隠れたトリガーを許可する一見よくできたポリシーを公開するセキュリティの脅威である。 デプロイ中、敵は観察した状態を特定の方法で修正し、予期しないアクションを起動し、エージェントを傷つけることができる。 エージェントが適切なポリシーを再トレーニングするリソースを持っていないと仮定します。 その代わり、我々の防御機構は、クリーン(非トリガー)環境との少数の相互作用から推定される、観察された状態を'安全な部分空間'に投影することでバックドアポリシーを正当化する。 我々の衛生政策はトリガーの存在下で近似最適度$\epsilon$を達成し、クリーンな相互作用の数が$O\left(\frac{D}{(1-\gamma)^4 \epsilon^2}\right)$であるなら、$\gamma$は割引係数であり、$D$は状態空間の次元である。 実験により, 2つのAtariゲーム環境において, 衛生対策が良好であることを示す。

We propose a provable defense mechanism against backdoor policies in reinforcement learning under subspace trigger assumption. A backdoor policy is a security threat where an adversary publishes a seemingly well-behaved policy which in fact allows hidden triggers. During deployment, the adversary can modify observed states in a particular way to trigger unexpected actions and harm the agent. We assume the agent does not have the resources to re-train a good policy. Instead, our defense mechanism sanitizes the backdoor policy by projecting observed states to a 'safe subspace', estimated from a small number of interactions with a clean (non-triggered) environment. Our sanitized policy achieves $\epsilon$ approximate optimality in the presence of triggers, provided the number of clean interactions is $O\left(\frac{D}{(1-\gamma)^4 \epsilon^2}\right)$ where $\gamma$ is the discounting factor and $D$ is the dimension of state space. Empirically, we show that our sanitization defense performs well on two Atari game environments.
翻訳日:2022-11-22 18:09:59 公開日:2022-11-18
# テキストからの知識グラフ生成

Knowledge Graph Generation From Text ( http://arxiv.org/abs/2211.10511v1 )

ライセンス: Link先を確認
Igor Melnyk, Pierre Dognin, Payel Das(参考訳) そこで本研究では,テキスト入力からエンド・ツー・エンドの多段階知識グラフ(KG)を生成するシステムを提案する。 グラフノードは、まず事前訓練された言語モデルを用いて生成され、続いて、簡単なエッジ構築ヘッドにより、テキストからの効率的なKG抽出を可能にする。 各段階で、利用可能なトレーニングリソースに応じて使用できるいくつかのアーキテクチャ選択を検討します。 先日のwebnlg 2020 challengeデータセットでこのモデルを評価し、テキストからrdf生成タスクにおける最先端のパフォーマンスと、new york times(nyt)と大規模のtekgenデータセットを一致させ、既存のベースラインよりも優れたパフォーマンスを示しました。 提案システムは,既存の線形化やサンプリングに基づくグラフ生成手法に代わる,実行可能なKG構築として機能すると考えられる。 私たちのコードはhttps://github.com/IBM/Grapherにある。

In this work we propose a novel end-to-end multi-stage Knowledge Graph (KG) generation system from textual inputs, separating the overall process into two stages. The graph nodes are generated first using pretrained language model, followed by a simple edge construction head, enabling efficient KG extraction from the text. For each stage we consider several architectural choices that can be used depending on the available training resources. We evaluated the model on a recent WebNLG 2020 Challenge dataset, matching the state-of-the-art performance on text-to-RDF generation task, as well as on New York Times (NYT) and a large-scale TekGen datasets, showing strong overall performance, outperforming the existing baselines. We believe that the proposed system can serve as a viable KG construction alternative to the existing linearization or sampling-based graph generation approaches. Our code can be found at https://github.com/IBM/Grapher
翻訳日:2022-11-22 18:01:42 公開日:2022-11-18
# IEEE Big Data Cup 2022: 暗号化された画像とディープラーニングのマッチングを保持するプライバシ

IEEE Big Data Cup 2022: Privacy Preserving Matching of Encrypted Images with Deep Learning ( http://arxiv.org/abs/2211.11565v1 )

ライセンス: Link先を確認
Vrizlynn L. L. Thing(参考訳) スマートシティに配備されたスマートセンサー、デバイス、システムは、市民に身体保護の改善をもたらした。 これらの技術により、防犯・防火・生命保護が強化され、動き検知、脅威・アクタのプロファイリング、リアルタイムのアラートを行う。 しかし、これらの展開において重要な要件は、プライバシーの保護と個人識別可能な情報の保護の実施である。 したがって、収集したデータに強力な暗号化と匿名化技術を適用する必要がある。 このieee big data cup 2022チャレンジでは、異なるマスキング、エンコーディング、準同型暗号化技術が画像に適用され、コンテンツのプライバシを保護する。 参加者は、これらの画像のマッチングをプライバシー保護するために検出ソリューションを開発する必要がある。 本稿では,最先端の深層畳み込みニューラルネットワークと様々なデータ拡張技術に基づく解について述べる。 私たちのソリューションは、IEEE Big Data Cup 2022: Privacy Preserving Matching of Encrypted Images Challengeで1位を獲得しました。

Smart sensors, devices and systems deployed in smart cities have brought improved physical protections to their citizens. Enhanced crime prevention, and fire and life safety protection are achieved through these technologies that perform motion detection, threat and actors profiling, and real-time alerts. However, an important requirement in these increasingly prevalent deployments is the preservation of privacy and enforcement of protection of personal identifiable information. Thus, strong encryption and anonymization techniques should be applied to the collected data. In this IEEE Big Data Cup 2022 challenge, different masking, encoding and homomorphic encryption techniques were applied to the images to protect the privacy of their contents. Participants are required to develop detection solutions to perform privacy preserving matching of these images. In this paper, we describe our solution which is based on state-of-the-art deep convolutional neural networks and various data augmentation techniques. Our solution achieved 1st place at the IEEE Big Data Cup 2022: Privacy Preserving Matching of Encrypted Images Challenge.
翻訳日:2022-11-22 17:33:58 公開日:2022-11-18
# 薬物中毒に対するソーシャルメディアマイニング--エンドツーエンドパイプライン,課題,今後の課題

Social media mining for toxicovigilance of prescription medications: End-to-end pipeline, challenges and future work ( http://arxiv.org/abs/2211.10443v1 )

ライセンス: Link先を確認
Abeed Sarker(参考訳) 薬物使用、薬物使用障害、薬物使用に関する過剰摂取は、世界的にも米国でも主要な公衆衛生上の問題である。 公衆衛生の観点からこれらの問題を解決する重要な側面は監視の改善である。 従来の監視システムはラグジーであり、ソーシャルメディアはタイムリーなデータソースとして潜在的に有用である。 しかし、ソーシャルメディアからの知識のマイニングは困難であり、高度な人工知能、特に自然言語処理(NLP)と機械学習手法の開発が必要である。 我々は、ソーシャルメディア、すなわちTwitterとRedditから非医療用処方薬に関する情報をマイニングするための高度なエンドツーエンドパイプラインを開発した。 私たちのパイプラインでは、教師付き機械学習とNLPを使用してノイズをフィルタリングし、チャットを特徴付ける。 本稿では,4年間で開発されたエンドツーエンドパイプラインについて述べる。 データマイニングのインフラを説明することに加え、ソーシャルメディアマイニングにおける有毒物質に対する既存の課題と今後の研究の方向性について論じる。

Substance use, substance use disorder, and overdoses related to substance use are major public health problems globally and in the United States. A key aspect of addressing these problems from a public health standpoint is improved surveillance. Traditional surveillance systems are laggy, and social media are potentially useful sources of timely data. However, mining knowledge from social media is challenging, and requires the development of advanced artificial intelligence, specifically natural language processing (NLP) and machine learning methods. We developed a sophisticated end-to-end pipeline for mining information about nonmedical prescription medication use from social media, namely Twitter and Reddit. Our pipeline employs supervised machine learning and NLP for filtering out noise and characterizing the chatter. In this paper, we describe our end-to-end pipeline developed over four years. In addition to describing our data mining infrastructure, we discuss existing challenges in social media mining for toxicovigilance, and possible future research directions.
翻訳日:2022-11-22 17:33:17 公開日:2022-11-18
# Triplet BERT-Networksに基づく知識グラフ再構成

Knowledge Graph Refinement based on Triplet BERT-Networks ( http://arxiv.org/abs/2211.10460v1 )

ライセンス: Link先を確認
Armita Khajeh Nassiri (1), Nathalie Pernelle (2), Fatiha Sais (1) and Gianluca Quercini (1) ((1) LISN, CNRS UMR 9015, University of Paris Saclay (2) LIPN, CNRS UMR 7030, University of Sorbonne Paris Nord)(参考訳) 知識グラフ埋め込み技術は、グラフ補完や三重分類といった知識グラフ精錬作業に広く用いられている。 これらの手法は、知識グラフ(KG)の実体と関係を低次元連続的特徴空間に埋め込むことを目的としている。 本稿では、KG内のエンティティや関係に関する情報を集約する埋め込み空間を作成するトランスフォーマーベースの三重項ネットワークを採用する。 事実からテキストシーケンスを生成し、事前訓練されたトランスフォーマーベースの言語モデルのトリプルトネットワークを微調整する。 これは、効率的な空間意味探索技術に依存する評価パラダイムに準拠している。 本稿では,この評価プロトコルを,関係予測タスクのための数発設定に適合させることを示す。 提案手法は,FB13,WN11,FB15Kなどのよく知られたベンチマーク知識グラフ上で,三重項分類と関係予測タスクを用いて評価する。 これら2つの改良作業の最先端性能に対して, GilBERT は, より優れた, あるいは同等な結果が得られることを示す。

Knowledge graph embedding techniques are widely used for knowledge graph refinement tasks such as graph completion and triple classification. These techniques aim at embedding the entities and relations of a Knowledge Graph (KG) in a low dimensional continuous feature space. This paper adopts a transformer-based triplet network creating an embedding space that clusters the information about an entity or relation in the KG. It creates textual sequences from facts and fine-tunes a triplet network of pre-trained transformer-based language models. It adheres to an evaluation paradigm that relies on an efficient spatial semantic search technique. We show that this evaluation protocol is more adapted to a few-shot setting for the relation prediction task. Our proposed GilBERT method is evaluated on triplet classification and relation prediction tasks on multiple well-known benchmark knowledge graphs such as FB13, WN11, and FB15K. We show that GilBERT achieves better or comparable results to the state-of-the-art performance on these two refinement tasks.
翻訳日:2022-11-22 17:33:03 公開日:2022-11-18
# 指定するもののみを検出する : 言語目標を用いた物体検出

Detect Only What You Specify : Object Detection with Linguistic Target ( http://arxiv.org/abs/2211.11572v1 )

ライセンス: Link先を確認
Moyuru Yamada(参考訳) オブジェクト検出(Object Detection)は、ある画像に対する各対象に対する境界ボックスとカテゴリラベルのセットを予測するコンピュータビジョンタスクである。 このカテゴリーは「犬」や「人」といった言語記号と関連しており、それらの間に関係があるべきである。 しかし、対象検出器はカテゴリを分類することしか学ばず、言語記号として扱うことはない。 マルチモーダルモデルは、訓練済みの物体検出器を用いて画像から物体の特徴を抽出するが、モデルは検出器から分離され、抽出された視覚的特徴は言語的な入力で変化しない。 物体検出を視覚言語推論タスクとして再考する。 次に,自然言語によって検出対象が与えられ,そのタスクの目標は,与えられた画像中のすべての対象オブジェクトのみを検出することである。 目標が与えられない場合は検出されない。 一般的に使われる現代の物体検出器にはアンカーのような多くの手設計のコンポーネントがあり、複雑なパイプラインにテキスト入力を融合させることは困難である。 そこで我々は,最近提案されたTransformer-based Detectorに基づいて,ターゲット検出のためのLanguage-Targeted Detector (LTD)を提案する。 ltdはエンコーダ-デコーダアーキテクチャであり、我々の条件付きデコーダは、テキスト入力を言語コンテキストとして、エンコーダイメージを推論することができる。 我々は,COCOオブジェクト検出データセット上でのLTDの検出性能を評価し,視覚オブジェクトへのテキスト入力による検出結果の改善を示す。

Object detection is a computer vision task of predicting a set of bounding boxes and category labels for each object of interest in a given image. The category is related to a linguistic symbol such as 'dog' or 'person' and there should be relationships among them. However the object detector only learns to classify the categories and does not treat them as the linguistic symbols. Multi-modal models often use the pre-trained object detector to extract object features from the image, but the models are separated from the detector and the extracted visual features does not change with their linguistic input. We rethink the object detection as a vision-and-language reasoning task. We then propose targeted detection task, where detection targets are given by a natural language and the goal of the task is to detect only all the target objects in a given image. There are no detection if the target is not given. Commonly used modern object detectors have many hand-designed components like anchor and it is difficult to fuse the textual inputs into the complex pipeline. We thus propose Language-Targeted Detector (LTD) for the targeted detection based on a recently proposed Transformer-based detector. LTD is a encoder-decoder architecture and our conditional decoder allows the model to reason about the encoded image with the textual input as the linguistic context. We evaluate detection performances of LTD on COCO object detection dataset and also show that our model improves the detection results with the textual input grounding to the visual object.
翻訳日:2022-11-22 17:15:43 公開日:2022-11-18
# ビジュアルプログラミング: トレーニングのない構成的視覚的推論

Visual Programming: Compositional visual reasoning without training ( http://arxiv.org/abs/2211.11559v1 )

ライセンス: Link先を確認
Tanmay Gupta and Aniruddha Kembhavi(参考訳) 自然言語指示による複雑で構成的な視覚課題を解決するための神経シンボリックアプローチであるvisprogを提案する。 VISPROGはタスク固有のトレーニングを必要としない。 代わりに、大きな言語モデルのコンテキスト内学習機能を使用してpythonライクなモジュラープログラムを生成し、ソリューションと包括的で解釈可能な根拠を得るために実行される。 生成されたプログラムの各行は、市販のコンピュータビジョンモデル、画像処理ルーチン、ピソン関数のいずれかを起動して、プログラムのその後の部分で消費される中間出力を生成することができる。 VISPROGの4つのタスク - 構成的視覚的質問応答、画像対におけるゼロショット推論、事実的知識オブジェクトタグ付け、言語誘導画像編集 - における柔軟性を実証する。 VISPROGのようなニューロシンボリックなアプローチは、AIシステムのスコープを簡単に効果的に拡大し、人々がやりたいと思うような複雑なタスクを長くこなすためのエキサイティングな方法だと思います。

We present VISPROG, a neuro-symbolic approach to solving complex and compositional visual tasks given natural language instructions. VISPROG avoids the need for any task-specific training. Instead, it uses the in-context learning ability of large language models to generate python-like modular programs, which are then executed to get both the solution and a comprehensive and interpretable rationale. Each line of the generated program may invoke one of several off-the-shelf computer vision models, image processing routines, or python functions to produce intermediate outputs that may be consumed by subsequent parts of the program. We demonstrate the flexibility of VISPROG on 4 diverse tasks - compositional visual question answering, zero-shot reasoning on image pairs, factual knowledge object tagging, and language-guided image editing. We believe neuro-symbolic approaches like VISPROG are an exciting avenue to easily and effectively expand the scope of AI systems to serve the long tail of complex tasks that people may wish to perform.
翻訳日:2022-11-22 17:07:32 公開日:2022-11-18
# Sparse-View CT 再構成のためのパッチベースデノイング拡散確率モデル

Patch-Based Denoising Diffusion Probabilistic Model for Sparse-View CT Reconstruction ( http://arxiv.org/abs/2211.10388v1 )

ライセンス: Link先を確認
Wenjun Xia, Wenxiang Cong, Ge Wang(参考訳) スパースビューct(sparse-view ct)は放射線量を大幅に減らすために用いられるが、重度の画像アーティファクトに苦しむ。 近年,Sparse-view CT 再構成のための深層学習手法が注目されている。 しかしながら、ニューラルネットワークは、イメージドメインでのみ動作するとき、アーティファクトを削除する能力に制限があることが多い。 ディープラーニングベースのシンノグラム処理は、より優れた反アーティファクト性能を達成することができるが、必然的にビデオメモリ内の画像全体の特徴マップを必要とするため、大規模または3次元のイメージの扱いが難しくなる。 本稿では,スパースビューCT再構成のためのパッチベース分散確率モデル(DDPM)を提案する。 完全サンプリングプロジェクションデータから抽出されたパッチに基づいてDDPMネットワークをトレーニングし、ダウンサンプリングプロジェクションデータに塗布する。 ネットワークはフルサンプリングとダウンサンプリングの2つのデータを必要としないため、教師なしの学習が可能になる。 データ処理はパッチベースであるため、ディープラーニングワークフローは並列に分散することができ、大規模データのメモリ問題を克服できる。 提案手法は,テクスチャの細部を忠実に保存しつつ,マイノリティ・アーティファクトを効果的に抑制できることを示す。

Sparse-view computed tomography (CT) can be used to reduce radiation dose greatly but is suffers from severe image artifacts. Recently, the deep learning based method for sparse-view CT reconstruction has attracted a major attention. However, neural networks often have a limited ability to remove the artifacts when they only work in the image domain. Deep learning-based sinogram processing can achieve a better anti-artifact performance, but it inevitably requires feature maps of the whole image in a video memory, which makes handling large-scale or three-dimensional (3D) images rather challenging. In this paper, we propose a patch-based denoising diffusion probabilistic model (DDPM) for sparse-view CT reconstruction. A DDPM network based on patches extracted from fully sampled projection data is trained and then used to inpaint down-sampled projection data. The network does not require paired full-sampled and down-sampled data, enabling unsupervised learning. Since the data processing is patch-based, the deep learning workflow can be distributed in parallel, overcoming the memory problem of large-scale data. Our experiments show that the proposed method can effectively suppress few-view artifacts while faithfully preserving textural details.
翻訳日:2022-11-21 16:07:28 公開日:2022-11-18
# 機械誘導シーケンス設計のための分布シフト時の予測ラベル

Forecasting labels under distribution-shift for machine-guided sequence design ( http://arxiv.org/abs/2211.10422v1 )

ライセンス: Link先を確認
Lauren Berk Wheelock, Stephen Malina, Jeffrey Gerold, Sam Sinai(参考訳) 特定の機能を持つ生物配列を設計および最適化する能力は、技術と医療における膨大な価値を解放する。 近年では、研究室やクリニックで設計されたシーケンスを検証するには数ヶ月と相当な労力を要するが、機械学習誘導シーケンスの設計がこの目標を著しく進めている。 したがって、実験にリソースを投入する前に、設計された集合が望ましい品質(トレーニングデータのラベル分布の外にあることが多い)のシーケンスを含む可能性を評価することは重要である。 予測は、フィードバックが遅れる(例えば選挙)多くの領域で顕著な概念であり、シーケンス設計の文脈では使われておらず、研究されていない。 本稿では,高スループットライブラリ(例えば10^5$のユニークな変種を含む)の性能をモデルによる推定に基づいて予測し,ライブラリ内のラベルの分布を後部で予測する手法を提案する。 提案手法は,現在利用可能な唯一のツールであるライブラリのパフォーマンスを推定するために,モデルスコアを生かして使用するベースラインよりも優れることを示す。

The ability to design and optimize biological sequences with specific functionalities would unlock enormous value in technology and healthcare. In recent years, machine learning-guided sequence design has progressed this goal significantly, though validating designed sequences in the lab or clinic takes many months and substantial labor. It is therefore valuable to assess the likelihood that a designed set contains sequences of the desired quality (which often lies outside the label distribution in our training data) before committing resources to an experiment. Forecasting, a prominent concept in many domains where feedback can be delayed (e.g. elections), has not been used or studied in the context of sequence design. Here we propose a method to guide decision-making that forecasts the performance of high-throughput libraries (e.g. containing $10^5$ unique variants) based on estimates provided by models, providing a posterior for the distribution of labels in the library. We show that our method outperforms baselines that naively use model scores to estimate library performance, which are the only tool available today for this purpose.
翻訳日:2022-11-21 16:07:07 公開日:2022-11-18
# AVATARがEgo4D AV転写チャレンジに応募

AVATAR submission to the Ego4D AV Transcription Challenge ( http://arxiv.org/abs/2211.09966v1 )

ライセンス: Link先を確認
Paul Hongsuck Seo, Arsha Nagrani, Cordelia Schmid(参考訳) 本稿では,ego4d audiovisual (av) speech transcription challenge 2022への提案について述べる。 我々のパイプラインはAVATAR(AV-ASRのアートエンコーダデコーダモデル)に基づいており、スペクトル図とRGB画像の早期融合を行う。 本稿では,データセット,実験設定,アブレーションについて述べる。 最終方法は,挑戦テストセットにおいて68.40のWERを達成し,ベースラインを43.7%上回り,挑戦に勝つ。

In this report, we describe our submission to the Ego4D AudioVisual (AV) Speech Transcription Challenge 2022. Our pipeline is based on AVATAR, a state of the art encoder-decoder model for AV-ASR that performs early fusion of spectrograms and RGB images. We describe the datasets, experimental settings and ablations. Our final method achieves a WER of 68.40 on the challenge test set, outperforming the baseline by 43.7%, and winning the challenge.
翻訳日:2022-11-21 16:04:52 公開日:2022-11-18
# 対人刺激:摂動感覚イベントによる脳-コンピュータインタフェースの攻撃

Adversarial Stimuli: Attacking Brain-Computer Interfaces via Perturbed Sensory Events ( http://arxiv.org/abs/2211.10033v1 )

ライセンス: Link先を確認
Bibek Upadhayay and Vahid Behzadan(参考訳) 機械学習モデルは入力領域の敵の摂動に弱いことが知られており、誤った予測を引き起こす。 この現象にインスパイアされた我々は、感覚刺激の摂動を通して脳波ベースの運動画像(MI)脳コンピュータインタフェース(BCI)を操作する可能性を探る。 敵の例と同様に、これらのemph{adversarial stimuliは、感覚刺激の変化に対する参加者の反応の変化に対処するために、BCIシステムの統合脳感覚処理成分の限界を活用することを目的としている。 本稿では、BCIに対する攻撃ベクトルとしての対人刺激を提案し、脳波に基づくMI BCIの完全性に対する視覚対人刺激の影響に関する予備実験の結果を報告する。 以上の結果より, 逆行性副腎皮質刺激は全症例でMI BCIを有意に低下させる可能性が示唆された(p=0.0003)。 さらに,このような攻撃はストレスを伴う状況においてより効果的であることが示唆された。

Machine learning models are known to be vulnerable to adversarial perturbations in the input domain, causing incorrect predictions. Inspired by this phenomenon, we explore the feasibility of manipulating EEG-based Motor Imagery (MI) Brain Computer Interfaces (BCIs) via perturbations in sensory stimuli. Similar to adversarial examples, these \emph{adversarial stimuli} aim to exploit the limitations of the integrated brain-sensor-processing components of the BCI system in handling shifts in participants' response to changes in sensory stimuli. This paper proposes adversarial stimuli as an attack vector against BCIs, and reports the findings of preliminary experiments on the impact of visual adversarial stimuli on the integrity of EEG-based MI BCIs. Our findings suggest that minor adversarial stimuli can significantly deteriorate the performance of MI BCIs across all participants (p=0.0003). Additionally, our results indicate that such attacks are more effective in conditions with induced stress.
翻訳日:2022-11-21 16:03:30 公開日:2022-11-18
# 代数幾何学とベイズ統計の最近の進歩

Recent Advances in Algebraic Geometry and Bayesian Statistics ( http://arxiv.org/abs/2211.10049v1 )

ライセンス: Link先を確認
Sumio Watanabe(参考訳) 本稿では,過去20年間の代数幾何学とベイズ統計学の研究分野における理論的進歩を概観する。 階層構造や潜在変数を含む多くの統計モデルや学習機械は、パラメータから統計モデルへの写像が1対1ではないので、識別不能と呼ばれる。 同定不能なモデルでは、確率関数と後方分布の両方が一般に特異点を持つため、それらの統計特性の解析は困難であった。 しかし、20世紀末以降、代数幾何学に基づく新たな理論や方法論が確立され、現実世界におけるそのようなモデルや機械の研究が可能となった。 本稿では,最近の進歩における以下の結果について報告する。 まず,ベイズ統計の枠組みを説明し,双有理幾何学からの新しい視点を紹介する。 第二に、2つの数学的解は代数幾何学に基づいて導かれる。 適切なパラメータ空間は、後続分布を正規交叉とし、ログ度比関数をよく定義する分解能マップによって見つけることができる。 第3に、統計学への3つの応用を紹介する。 後方分布は再正規化形式で表され、漸近自由エネルギーが導出され、一般化損失、クロス検証、情報基準の普遍公式が確立される。 2つの数学的解法と代数幾何学に基づく統計学への3つの応用が、現在、データサイエンスと人工知能の多くの実践分野で使われている。

This article is a review of theoretical advances in the research field of algebraic geometry and Bayesian statistics in the last two decades. Many statistical models and learning machines which contain hierarchical structures or latent variables are called nonidentifiable, because the map from a parameter to a statistical model is not one-to-one. In nonidentifiable models, both the likelihood function and the posterior distribution have singularities in general, hence it was difficult to analyze their statistical properties. However, from the end of the 20th century, new theory and methodology based on algebraic geometry have been established which enables us to investigate such models and machines in the real world. In this article, the following results in recent advances are reported. First, we explain the framework of Bayesian statistics and introduce a new perspective from the birational geometry. Second, two mathematical solutions are derived based on algebraic geometry. An appropriate parameter space can be found by a resolution map, which makes the posterior distribution be normal crossing and the log likelihood ratio function be well-defined. Third, three applications to statistics are introduced. The posterior distribution is represented by the renormalized form, the asymptotic free energy is derived, and the universal formula among the generalization loss, the cross validation, and the information criterion is established. Two mathematical solutions and three applications to statistics based on algebraic geometry reported in this article are now being used in many practical fields in data science and artificial intelligence.
翻訳日:2022-11-21 16:03:11 公開日:2022-11-18
# 統合空間領域認識・通信システム

Integrated Space Domain Awareness and Communication System ( http://arxiv.org/abs/2211.10260v1 )

ライセンス: Link先を確認
Selen Gecgel Cetin, Gunes Karabulut Kurt(参考訳) 宇宙は改革され、この進化は新たな脅威をもたらし、技術の発展と悪意のある意図とともに、大きな課題を生じさせる。 新たな概念概念であるspace domain awareness(sda)が最前線に登場した。 宇宙における潜在的な脅威に対して自律性、知性、柔軟性を提供することで、センシング、検出、識別および対策を目標としている。 本研究では,まず,新しい空間の洞察と明確さについて考察する。 次に,攻撃者検出のための統合SDAと通信システムを提案する。 我々は、攻撃者はビームステアリングアンテナを持ち、いくつかの受信アンテナに対するランダムアタックのような攻撃シナリオが異なると仮定する。 ランダムパターンを追跡し,SDA要求を満たすために,軽量な畳み込みニューラルネットワークアーキテクチャを開発した。 提案するisdacシステムは12種類の攻撃者構成で優れた性能を示し,検出精度は97.8%以上である。

Space has been reforming and this evolution brings new threats that, together with technological developments and malicious intent, can pose a major challenge. Space domain awareness (SDA), a new conceptual idea, has come to the forefront. It aims sensing, detection, identification and countermeasures by providing autonomy, intelligence and flexibility against potential threats in space. In this study, we first present an insightful and clear view of the new space. Secondly, we propose an integrated SDA and communication (ISDAC) system for attacker detection. We assume that the attacker has beam-steering antennas and is capable to vary attack scenarios, such as random attacks on some receiver antennas. To track random patterns and meet SDA requirements, a lightweight convolutional neural network architecture is developed. The proposed ISDAC system shows superior and robust performance under 12 different attacker configurations with a detection accuracy of over 97.8%.
翻訳日:2022-11-21 16:02:50 公開日:2022-11-18
# TensAIR: 非同期反復ルーティングによるデータストリームからのオンライン学習

TensAIR: Online Learning from Data Streams via Asynchronous Iterative Routing ( http://arxiv.org/abs/2211.10280v1 )

ライセンス: Link先を確認
Mauro Dalle Lucca Tosi, Vinu E. Venugopal, Martin Theobald(参考訳) データストリームからのオンライン学習(OL)は、ストリーム処理、機械学習、ネットワークといった多くの課題を含む、新たな研究分野である。 Apache KafkaやFlinkといったストリーム処理プラットフォームの最近の拡張は、ストリーム処理パイプラインでニューラルネットワークをトレーニングするための基本的な拡張をすでに提供している。 しかしながら、これらの拡張は、ニューラルネットワークライブラリを第一級市民としてアーキテクチャに統合していないため、多くの現実世界のユースケースで十分なスケーラビリティと柔軟性を持っていない。 本稿では、非同期反復ルーティングと呼ばれるプロトコルを介して、データストリームからOLのためのエンドツーエンドのデータフローエンジンを提供するTensAIRを提案する。 TensAIRはMap、Reducee、Joinといった一般的なデータフロー演算子をサポートし、データ並列OL関数のトレーニングと予測によって拡張されている。 これらは新しいModelオペレータに属し、初期TensorFlowモデル(新しく初期化または事前トレーニングされた)が複数の分散ワーカーノード間で複製される。 当社の分散アーキテクチャにより、TensAIRは分散モデルのレプリカをまたいで入ってくるデータバッチを効率的にシャードすることができ、非同期確率勾配勾配によってモデルの更新をトリガーします。 我々は,tensairが,(1)ネットワークにデプロイされたワーカノード数,(2)データバッチがデータフローオペレータに到達するスループットという観点から,ほぼ線形スケールアウトを実現することを実証する。 スパース(Word2Vec)と高密度(CIFAR-10)の両方のユースケースを調査して、TensAIRの汎用性を実証しています。 また,twitterストリーム上で訓練された感情分析モデルのリアルタイム・コンセプト・ドリフト適応の可能性を示すことで,これらの改善の大きさを示す。

Online learning (OL) from data streams is an emerging area of research that encompasses numerous challenges from stream processing, machine learning, and networking. Recent extensions of stream-processing platforms, such as Apache Kafka and Flink, already provide basic extensions for the training of neural networks in a stream-processing pipeline. However, these extensions are not scalable and flexible enough for many real-world use-cases, since they do not integrate the neural-network libraries as a first-class citizen into their architectures. In this paper, we present TensAIR, which provides an end-to-end dataflow engine for OL from data streams via a protocol to which we refer as asynchronous iterative routing. TensAIR supports the common dataflow operators, such as Map, Reduce, Join, and has been augmented by the data-parallel OL functions train and predict. These belong to the new Model operator, in which an initial TensorFlow model (either freshly initialized or pre-trained) is replicated among multiple decentralized worker nodes. Our decentralized architecture allows TensAIR to efficiently shard incoming data batches across the distributed model replicas, which in turn trigger the model updates via asynchronous stochastic gradient descent. We empirically demonstrate that TensAIR achieves a nearly linear scale-out in terms of (1) the number of worker nodes deployed in the network, and (2) the throughput at which the data batches arrive at the dataflow operators. We exemplify the versatility of TensAIR by investigating both sparse (Word2Vec) and dense (CIFAR-10) use-cases, for which we are able to demonstrate very significant performance improvements in comparison to Kafka, Flink, and Horovod. We also demonstrate the magnitude of these improvements by depicting the possibility of real-time concept drift adaptation of a sentiment analysis model trained over a Twitter stream.
翻訳日:2022-11-21 16:02:36 公開日:2022-11-18
# 高エネルギー物理における生成モデルの評価について

On the Evaluation of Generative Models in High Energy Physics ( http://arxiv.org/abs/2211.10295v1 )

ライセンス: Link先を確認
Raghav Kansal and Anni Li and Javier Duarte and Nadezda Chernyavskaya and Maurizio Pierini and Breno Orzari and Thiago Tomei(参考訳) 高エネルギー物理学(hep)におけるシミュレーションの計算課題に取り組むために、機械学習に基づく生成モデリングの研究が最近急増している。 このような代替シミュレータを実際に使用するためには、異なる生成モデルを比較し、真の分布との相違を評価するために、適切に定義されたメトリクスが必要である。 本稿では,2サンプルの適合性試験の枠組みとHEPの妥当性と有効性を用いて,評価指標とその生成モデルの故障モードに対する感度に関する最初の体系的な検討と検討を行う。 物理とコンピュータビジョンの両方の過去の研究に触発されて、fr\'echetとkernel physics distances(fpdとkpd)という2つの新しいメトリクスを提案し、単純なガウス分布と高エネルギージェットデータセットの性能を測定する様々な実験を行い、シミュレーションした。 特に FPD は, 個々の特徴分布間の KPD と Wasserstein 距離とともに, HEP における生成モデルの評価において, 試験された他のジェット分布に対して最も敏感な指標であり, 採用を推奨している。 提案手法の有効性を実証し,新しい注目型生成逆数粒子変換器と最先端のメッセージパス型生成逆数ネットワークジェットシミュレーションモデルとの比較を行った。

There has been a recent explosion in research into machine-learning-based generative modeling to tackle computational challenges for simulations in high energy physics (HEP). In order to use such alternative simulators in practice, we need well defined metrics to compare different generative models and evaluate their discrepancy from the true distributions. We present the first systematic review and investigation into evaluation metrics and their sensitivity to failure modes of generative models, using the framework of two-sample goodness-of-fit testing, and their relevance and viability for HEP. Inspired by previous work in both physics and computer vision, we propose two new metrics, the Fr\'echet and kernel physics distances (FPD and KPD), and perform a variety of experiments measuring their performance on simple Gaussian-distributed, and simulated high energy jet datasets. We find FPD, in particular, to be the most sensitive metric to all alternative jet distributions tested and recommend its adoption, along with the KPD and Wasserstein distances between individual feature distributions, for evaluating generative models in HEP. We finally demonstrate the efficacy of these proposed metrics in evaluating and comparing a novel attention-based generative adversarial particle transformer to the state-of-the-art message-passing generative adversarial network jet simulation model.
翻訳日:2022-11-21 16:02:08 公開日:2022-11-18
# 2つの都市の物語:ロバスト深層学習におけるデータと構成変数

A Tale of Two Cities: Data and Configuration Variances in Robust Deep Learning ( http://arxiv.org/abs/2211.10012v1 )

ライセンス: Link先を確認
Guanqin Zhang, Jiankun Sun, Feng Xu, H.M.N. Dilum Bandara, Shiping Chen, Yulei Sui, Tim Menzies(参考訳) ディープニューラルネットワーク(DNN)は、画像認識、サプライチェーン、医療診断、自動運転など、多くの産業で広く利用されている。 しかしながら、DNNモデルの高い精度は、デプロイされたモデルに対する入力データと外部環境(例えば、ソフトウェアとモデル構成)が常に変化しているため、高い堅牢性(すなわち、新しいデータセットと将来のデータセットにおける一貫したパフォーマンス)を示唆しないことを示している。 したがって、ディープラーニングの堅牢性を保証することは選択肢ではなく、ビジネスと消費者の信頼を高めるための優先事項である。 これまでの研究は主にモデル分散のデータ側面に焦点を当ててきた。 本稿では、DNNのロバスト性問題を体系的に要約し、DNNにおけるデータとソフトウェア構成のばらつきという2つの重要な側面を通して全体論的な視点で定式化する。 また,検索に基づく最適化のレンズを通して,頑健な学習のためのデータと構成の両方を考慮して,代表分散(カウンタサンプル)を生成する予測フレームワークを提供する。

Deep neural networks (DNNs), are widely used in many industries such as image recognition, supply chain, medical diagnosis, and autonomous driving. However, prior work has shown the high accuracy of a DNN model does not imply high robustness (i.e., consistent performances on new and future datasets) because the input data and external environment (e.g., software and model configurations) for a deployed model are constantly changing. Hence, ensuring the robustness of deep learning is not an option but a priority to enhance business and consumer confidence. Previous studies mostly focus on the data aspect of model variance. In this article, we systematically summarize DNN robustness issues and formulate them in a holistic view through two important aspects, i.e., data and software configuration variances in DNNs. We also provide a predictive framework to generate representative variances (counterexamples) by considering both data and configurations for robust learning through the lens of search-based optimization.
翻訳日:2022-11-21 15:55:52 公開日:2022-11-18
# 多エージェント協調のための信用認知強化学習

Credit-cognisant reinforcement learning for multi-agent cooperation ( http://arxiv.org/abs/2211.10100v1 )

ライセンス: Link先を確認
F. Bredell, H. A. Engelbrecht, J. C. Schoeman(参考訳) 独立Q学習のような従来のマルチエージェント強化学習(MARL)アルゴリズムは、部分的に観察可能なシナリオを提示する際に苦労し、エージェントが繊細なアクションシーケンスを開発する必要がある。 これは、しばしば、他のエージェントが責任を負った後にのみ利用可能な良いアクションに対する報酬の結果であり、これらのアクションは、それに応じてクレジットされない。 リカレントニューラルネットワークは、この種の問題を解決するための実行可能なソリューション戦略であることが証明されており、他の手法と比較して大きなパフォーマンス向上をもたらす。 本稿では、異なるアプローチを検討し、各エージェントのアクション値関数を更新するのに使用される経験に焦点を当てる。 筆者らは, エージェントが環境だけでなく, 共役者にも与えた影響を知覚できる, 信用認知報酬(CCR)の概念を導入する。 これらの経験を操り、それらに含まれる報酬を同一のアクションシーケンス内で全てのエージェントが受け取る報酬を含むように構成することにより、個別の深層Q-ラーニングと深部Q-ラーニングの性能を大幅に向上させることができることを示す。 人気カードゲーム「はなび」の簡易版を用いて, 深層強化学習技術に適用したCCRの性能評価と評価を行った。

Traditional multi-agent reinforcement learning (MARL) algorithms, such as independent Q-learning, struggle when presented with partially observable scenarios, and where agents are required to develop delicate action sequences. This is often the result of the reward for a good action only being available after other agents have taken theirs, and these actions are not credited accordingly. Recurrent neural networks have proven to be a viable solution strategy for solving these types of problems, resulting in significant performance increase when compared to other methods. In this paper, we explore a different approach and focus on the experiences used to update the action-value functions of each agent. We introduce the concept of credit-cognisant rewards (CCRs), which allows an agent to perceive the effect its actions had on the environment as well as on its co-agents. We show that by manipulating these experiences and constructing the reward contained within them to include the rewards received by all the agents within the same action sequence, we are able to improve significantly on the performance of independent deep Q-learning as well as deep recurrent Q-learning. We evaluate and test the performance of CCRs when applied to deep reinforcement learning techniques at the hands of a simplified version of the popular card game Hanabi.
翻訳日:2022-11-21 15:55:33 公開日:2022-11-18
# 行動修正による誤解解消のための言語条件強化学習

Language-Conditioned Reinforcement Learning to Solve Misunderstandings with Action Corrections ( http://arxiv.org/abs/2211.10168v1 )

ライセンス: Link先を確認
Frank R\"oder and Manfred Eppe(参考訳) 人間同士の会話は、話すことや聞くことだけではない。 参加者が誤解を排除するための共通理解を継続的に確立する段階的なプロセスである。 インテリジェントロボットの現在の言語理解手法では、これを考慮していない。 非理解を考慮に入れるアプローチは数多く存在するが、誤解を解決するインクリメンタルなプロセスを無視している。 本稿では,強化学習に基づくロボット指導追従のためのインクリメンタル・アクション・リペアの最初の形式化と実験的検証を示す。 本手法を評価するために,合成インストラクターを用いて言語目標とその修正を行う言語条件強化学習における行動補正のためのベンチマーク環境の収集を提案する。 強化学習エージェントは、誤解された命令のインクリメンタルな修正を理解することができる。

Human-to-human conversation is not just talking and listening. It is an incremental process where participants continually establish a common understanding to rule out misunderstandings. Current language understanding methods for intelligent robots do not consider this. There exist numerous approaches considering non-understandings, but they ignore the incremental process of resolving misunderstandings. In this article, we present a first formalization and experimental validation of incremental action-repair for robotic instruction-following based on reinforcement learning. To evaluate our approach, we propose a collection of benchmark environments for action correction in language-conditioned reinforcement learning, utilizing a synthetic instructor to generate language goals and their corresponding corrections. We show that a reinforcement learning agent can successfully learn to understand incremental corrections of misunderstood instructions.
翻訳日:2022-11-21 15:55:12 公開日:2022-11-18
# 入力属性は、ディファレンシャルプライバシのプライバシー損失にどのように影響するか?

How Do Input Attributes Impact the Privacy Loss in Differential Privacy? ( http://arxiv.org/abs/2211.10173v1 )

ライセンス: Link先を確認
Tamara T. Mueller, Stefan Kolek, Friederike Jungmann, Alexander Ziller, Dmitrii Usynin, Moritz Knolle, Daniel Rueckert and Georgios Kaissis(参考訳) 差分プライバシー(DP)は通常、データベース内のすべての個人に対する最悪のプライバシー保証として定式化される。 近年では、個々の対象または属性への拡張が導入されている。 個人/インスタンスごとのDP解釈では、DPニューラルネットワークにおける対象ごとの勾配規範と個人のプライバシ損失との関係について検討し、プライバシ・ロス・インプット・サセプティビリティ(PLIS)と呼ばれる新しいメトリクスを導入し、被験者のプライバシ損失を入力属性に適応させることができる。 本研究では,データ再構成のリスクが高い属性や被写体を識別する方法を実験的に示す。

Differential privacy (DP) is typically formulated as a worst-case privacy guarantee over all individuals in a database. More recently, extensions to individual subjects or their attributes, have been introduced. Under the individual/per-instance DP interpretation, we study the connection between the per-subject gradient norm in DP neural networks and individual privacy loss and introduce a novel metric termed the Privacy Loss-Input Susceptibility (PLIS), which allows one to apportion the subject's privacy loss to their input attributes. We experimentally show how this enables the identification of sensitive attributes and of subjects at high risk of data reconstruction.
翻訳日:2022-11-21 15:55:01 公開日:2022-11-18
# アルゴリズム的公平さを活用したブラックボックス属性推論攻撃の軽減

Leveraging Algorithmic Fairness to Mitigate Blackbox Attribute Inference Attacks ( http://arxiv.org/abs/2211.10209v1 )

ライセンス: Link先を確認
Jan Aalmoes and Vasisht Duddu and Antoine Boutet(参考訳) 機械学習(ML)モデルは、医療や刑事司法などの高度な応用のためにデプロイされている。 以前の研究では、MLモデルは属性推論攻撃に弱いことが示されており、敵がいくつかの背景知識を持って、識別可能なモデル予測を利用して機密属性を推測するようにML攻撃モデルを訓練している。 しかしながら、いくつかの先行属性推論攻撃は、敵の背景知識(例えば、機密属性の限界分布)について強い仮定を持ち、統計的推論よりもプライバシー上のリスクを伴わない。 さらに、以前の攻撃は、現実世界のアプリケーション(例えば人種や性別)から来るデータセットにおける機密属性のクラス不均衡を説明できない。 本稿では,攻撃モデルの予測に対する適応しきい値を用いて,この不均衡を考慮し,実用的かつ効果的な属性推論攻撃を提案する。 提案した複数のデータセットに対する攻撃を網羅的に評価し,モデルの予測に対する適応しきい値が先行作業よりも攻撃精度を大幅に向上することを示す。 最後に、現在の文献は属性推論攻撃に対する効果的な防御を欠いている。 モデル学習における公平性制約(モデル予測の不公平性を軽減するために設計された)が属性推論攻撃に与える影響について検討する。 等化確率を強制する制約に基づく公平性アルゴリズムは,モデルユーティリティに影響を与えることなく,属性推論攻撃に対する効果的な防御効果を示す。 したがって、アルゴリズムフェアネスと機密属性プライバシの目的が整列される。

Machine learning (ML) models have been deployed for high-stakes applications, e.g., healthcare and criminal justice. Prior work has shown that ML models are vulnerable to attribute inference attacks where an adversary, with some background knowledge, trains an ML attack model to infer sensitive attributes by exploiting distinguishable model predictions. However, some prior attribute inference attacks have strong assumptions about adversary's background knowledge (e.g., marginal distribution of sensitive attribute) and pose no more privacy risk than statistical inference. Moreover, none of the prior attacks account for class imbalance of sensitive attribute in datasets coming from real-world applications (e.g., Race and Sex). In this paper, we propose an practical and effective attribute inference attack that accounts for this imbalance using an adaptive threshold over the attack model's predictions. We exhaustively evaluate our proposed attack on multiple datasets and show that the adaptive threshold over the model's predictions drastically improves the attack accuracy over prior work. Finally, current literature lacks an effective defence against attribute inference attacks. We investigate the impact of fairness constraints (i.e., designed to mitigate unfairness in model predictions) during model training on our attribute inference attack. We show that constraint based fairness algorithms which enforces equalized odds acts as an effective defense against attribute inference attacks without impacting the model utility. Hence, the objective of algorithmic fairness and sensitive attribute privacy are aligned.
翻訳日:2022-11-21 15:54:48 公開日:2022-11-18
# ネットワークプルーニングのための公平な損失関数

A Fair Loss Function for Network Pruning ( http://arxiv.org/abs/2211.10285v1 )

ライセンス: Link先を確認
Robbie Meyer and Alexander Wong(参考訳) モデルプルーニングは、リソース制約のある環境におけるニューラルネットワークのデプロイを可能にする。 プルーニングはモデル全体の性能に小さな影響を与えるかもしれないが、サンプルのサブセットが著しく劣化した性能を示すように、既存のバイアスをモデルに高めることができる。 本稿では, プルーニング中のバイアスの導入を制限するために, 簡易に改良されたクロスエントロピー損失関数であるパフォーマンス重み付き損失関数を提案する。 偏見分類器を用いた顔の分類と皮膚位置分類タスクの実験により, 提案手法は, 既存プルーニング手法を公平さに配慮した文脈で使用できる簡易かつ効果的なツールであることが示された。

Model pruning can enable the deployment of neural networks in environments with resource constraints. While pruning may have a small effect on the overall performance of the model, it can exacerbate existing biases into the model such that subsets of samples see significantly degraded performance. In this paper, we introduce the performance weighted loss function, a simple modified cross-entropy loss function that can be used to limit the introduction of biases during pruning. Experiments using biased classifiers for facial classification and skin-lesion classification tasks demonstrate that the proposed method is a simple and effective tool that can enable existing pruning methods to be used in fairness sensitive contexts.
翻訳日:2022-11-21 15:54:29 公開日:2022-11-18
# ペルシア語ASRに基づくSER:シャリフ感情音声データベースの修正とペルシア語テキストコーパスの検討

A Persian ASR-based SER: Modification of Sharif Emotional Speech Database and Investigation of Persian Text Corpora ( http://arxiv.org/abs/2211.09956v1 )

ライセンス: Link先を確認
Ali Yazdani and Yasser Shekofteh(参考訳) 音声感情認識(ser)は、状況と他者とのインタラクションを理解する上で、人間にとって不可欠な知覚方法の一つであり、近年では、感情を人間と機械のコミュニケーションシステムに認識する機能を追加する試みがなされている。 serプロセスはラベル付きデータに依存しているので、データベースは必須です。 不完全、低品質、または欠陥のあるデータは不正確な予測につながる可能性がある。 本稿では,自動音声認識 (asr) システムを用いてペルシア語データベースであるsharif emotional speech database (shemo) の不整合を修正し,アクセス可能なペルシア語テキストコーパスから得られたfarsi言語モデルの効果を調査した。 また,ASR出力の言語的特徴とディープラーニングモデルを用いたペルシア語/Farsi ASRベースのSERシステムも導入した。

Speech Emotion Recognition (SER) is one of the essential perceptual methods of humans in understanding the situation and how to interact with others, therefore, in recent years, it has been tried to add the ability to recognize emotions to human-machine communication systems. Since the SER process relies on labeled data, databases are essential for it. Incomplete, low-quality or defective data may lead to inaccurate predictions. In this paper, we fixed the inconsistencies in Sharif Emotional Speech Database (ShEMO), as a Persian database, by using an Automatic Speech Recognition (ASR) system and investigating the effect of Farsi language models obtained from accessible Persian text corpora. We also introduced a Persian/Farsi ASR-based SER system that uses linguistic features of the ASR outputs and Deep Learning-based models.
翻訳日:2022-11-21 15:46:37 公開日:2022-11-18
# タンパク質言語モデル救難変異は臨床関連遺伝子における変異効果と構造を強調する

Protein language model rescue mutations highlight variant effects and structure in clinically relevant genes ( http://arxiv.org/abs/2211.10000v1 )

ライセンス: Link先を確認
Onuralp Soylemez and Pablo Cordero(参考訳) タンパク質言語モデルは自己管理されているにもかかわらず、遺伝子変異がタンパク質の構造と機能に与える影響を予測するなど、基本的な生物学的タスクにおいて顕著な性能を示した。 多様なタスクに対するこれらのモデルの有効性は、下流の臨床応用に役立つフィットネスランドスケープの有意義な表現を学習できることを示唆している。 ここでは、これらの言語モデルを用いて、各変異体の遺伝学的背景を包括的に探索することにより、治療対象遺伝子中の既知の病原性突然変異を同定する。 これらの補償突然変異の予測効果を体系的に分析すると、アルファフォールドのような他の構造予測因子が見逃しているタンパク質の構造的特徴が明らかになる。 深部突然変異スキャン実験は突然変異の景観を偏りなく推定するが、より洗練された共同マスク戦略の設計を知らせ、下流の臨床予測タスクにより大きな言語モデルをより効果的に活用するために、救難突然変異実験の生成とキュレーションをコミュニティに促す。

Despite being self-supervised, protein language models have shown remarkable performance in fundamental biological tasks such as predicting impact of genetic variation on protein structure and function. The effectiveness of these models on diverse set of tasks suggests that they learn meaningful representations of fitness landscape that can be useful for downstream clinical applications. Here, we interrogate the use of these language models in characterizing known pathogenic mutations in curated, medically actionable genes through an exhaustive search of putative compensatory mutations on each variant's genetic background. Systematic analysis of the predicted effects of these compensatory mutations reveal unappreciated structural features of proteins that are missed by other structure predictors like AlphaFold. While deep mutational scan experiments provide an unbiased estimate of the mutational landscape, we encourage the community to generate and curate rescue mutation experiments to inform the design of more sophisticated co-masking strategies and leverage large language models more effectively for downstream clinical prediction tasks.
翻訳日:2022-11-21 15:44:00 公開日:2022-11-18
# 機械学習における二重降下曲線の理解

Understanding the double descent curve in Machine Learning ( http://arxiv.org/abs/2211.10322v1 )

ライセンス: Link先を確認
Luis Sa-Couto, Jose Miguel Ramos, Miguel Almeida, Andreas Wichert(参考訳) バイアス分散の理論は、機械学習アルゴリズムを適用する際のモデル選択のガイドとして使われた。 しかし、現代のモデルでは、過剰に適合するはずであったが実現しなかった過剰パラメータモデルが成功している。 この結果、ベルキンらによる二重降下曲線(double descent curve of performance)の提案が導かれた。 真の代表的現象を記述しているように見えるが、この分野は、何が起こっているのか、モデル選択の結果と、いつ起こることが予想される2重降下の結果について、根本的な理論的理解を欠いている。 本稿では,この現象を原則的に理解し,これらの重要な疑問に対する回答をスケッチする。 さらに,提案する仮説によって正しく予測される実実験結果について報告する。

The theory of bias-variance used to serve as a guide for model selection when applying Machine Learning algorithms. However, modern practice has shown success with over-parameterized models that were expected to overfit but did not. This led to the proposal of the double descent curve of performance by Belkin et al. Although it seems to describe a real, representative phenomenon, the field is lacking a fundamental theoretical understanding of what is happening, what are the consequences for model selection and when is double descent expected to occur. In this paper we develop a principled understanding of the phenomenon, and sketch answers to these important questions. Furthermore, we report real experimental results that are correctly predicted by our proposed hypothesis.
翻訳日:2022-11-21 15:37:48 公開日:2022-11-18
# 意図でコミュニケーションすることを学ぶ:序論

Learning to Communicate with Intent: An Introduction ( http://arxiv.org/abs/2211.09613v2 )

ライセンス: Link先を確認
Miguel Angel Gutierrez-Estevez, Yiqun Wu, Chan Zhou(参考訳) 本稿では,コミュニケーションの終了目標に基づいて,無線通信チャネル上でメッセージを送信する意図と通信する方法を学ぶための新しいフレームワークを提案する。 これは、送信側が送信側が送信したメッセージを正確に、あるいは概略的に再生することを目的としている古典的な通信システムとは全く対照的である。 我々の手順は、そのタスクが(ほぼどこでも)微分可能な関数であり、勾配を伝播できる限り、任意の種類の目標やタスクに適応できるのに十分である。 本稿では,教師付き学習・強化学習(RL)タスクに着目し,コミュニケーションシステムとタスクをエンドツーエンドで学習するためのアルゴリズムを提案する。 次に、画像の伝送を深く掘り下げ、画像の分類のための2つのシステムと、RLに基づくAtariゲームを行うための2つのシステムを提案する。 再建誤りを最小限に抑えるために設計したJSCC通信システムと比較し, 全体的な改善点を示す。 さらに, RL タスクでは, JSCC 戦略はランダムな行動選択戦略よりも優れているが, 提案手法は低 SNR においても上界に近づく。

We propose a novel framework to learn how to communicate with intent, i.e., to transmit messages over a wireless communication channel based on the end-goal of the communication. This stays in stark contrast to classical communication systems where the objective is to reproduce at the receiver side either exactly or approximately the message sent by the transmitter, regardless of the end-goal. Our procedure is general enough that can be adapted to any type of goal or task, so long as the said task is a (almost-everywhere) differentiable function over which gradients can be propagated. We focus on supervised learning and reinforcement learning (RL) tasks, and propose algorithms to learn the communication system and the task jointly in an end-to-end manner. We then delve deeper into the transmission of images and propose two systems, one for the classification of images and a second one to play an Atari game based on RL. The performance is compared with a joint source and channel coding (JSCC) communication system designed to minimize the reconstruction error, and results show overall great improvement. Further, for the RL task, we show that while a JSCC strategy is not better than a random action selection strategy, with our approach we get close to the upper bound even for low SNRs.
翻訳日:2022-11-21 15:37:37 公開日:2022-11-18
# 潜在変数を用いたインストゥルメンタル変数回帰のための共起バランシング

Confounder Balancing for Instrumental Variable Regression with Latent Variable ( http://arxiv.org/abs/2211.10008v1 )

ライセンス: Link先を確認
Anpeng Wu, Kun Kuang, Ruoxuan Xiong, Bo Li, Fei Wu(参考訳) 本稿では,測定されていない共同設立者および観測された共同設立者のiv回帰における不均衡による統合効果について検討し,偏りのない因果効果推定を目標とする。 近年, 両段階の非線形モデルを可能にする非線形IV推定器が提案されている。 しかし、観察された共同創設者はステージ2では不均衡であり、場合によっては治療効果の偏りが生じる可能性がある。 この目的のために、未測定の共同設立者からのバイアスと観察された共同設立者の不均衡を共同で除去する、共同設立者Ba balanced IV Regression (CB-IV) アルゴリズムを提案する。 理論的には, 潜在的な結果関数に対する逆問題を再定義し, 解くことにより, cb-ivアルゴリズムが治療効果を偏りなく推定し, 低分散化できることを示す。 IV法は、現在、実世界のシナリオにおいて有効なIVを事前に定義するために利用可能な、わずかな事前または理論において大きな欠点がある。 そこで本研究では,(1)観察中に暗黙的に存在する識別不能なiv,すなわち混合変量課題,(2)潜在性ivは観測に現れない,すなわち潜在変量課題という2つの課題について検討した。 これら2つの課題に対処するため、CB-IV-Lアルゴリズムを潜在変数モジュールで拡張する。 CB-IV(-L) が既存手法より優れていることを示す実験が盛んである。

This paper studies the confounding effects from the unmeasured confounders and the imbalance of observed confounders in IV regression and aims at unbiased causal effect estimation. Recently, nonlinear IV estimators were proposed to allow for nonlinear model in both stages. However, the observed confounders may be imbalanced in stage 2, which could still lead to biased treatment effect estimation in certain cases. To this end, we propose a Confounder Balanced IV Regression (CB-IV) algorithm to jointly remove the bias from the unmeasured confounders and the imbalance of observed confounders. Theoretically, by redefining and solving an inverse problem for potential outcome function, we show that our CB-IV algorithm can unbiasedly estimate treatment effects and achieve lower variance. The IV methods have a major disadvantage in that little prior or theory is currently available to pre-define a valid IV in real-world scenarios. Thus, we study two more challenging settings without pre-defined valid IVs: (1) indistinguishable IVs implicitly present in observations, i.e., mixed-variable challenge, and (2) latent IVs don't appear in observations, i.e., latent-variable challenge. To address these two challenges, we extend our CB-IV by a latent-variable module, namely CB-IV-L algorithm. Extensive experiments demonstrate that our CB-IV(-L) outperforms the existing approaches.
翻訳日:2022-11-21 15:37:16 公開日:2022-11-18
# 無限領域制約満足度における計算ショートカット

Computational Short Cuts in Infinite Domain Constraint Satisfaction ( http://arxiv.org/abs/2211.10144v1 )

ライセンス: Link先を確認
Peter Jonsson, Victor Lagerkvist, Sebastian Ordyniak(参考訳) 有限領域 CSP インスタンスのバックドアは変数の集合であり、各インスタンスが多項式時間解決可能なクラスにインスタンスを移動させる。 バックドアは人工知能やその他の分野で多くの応用が発見されており、そのようなバックドアを見つけるアルゴリズムの問題が研究されている。 シウティス(Sioutis)とヤンフン(Janhunen)。 42nd German Conference on AI (KI-2019) は、無限ドメインCSPインスタンスに適した一般化されたバックドアの概念を提案した。 我々はそれらの概念を高アリティ制約を許容するCSPの大規模なクラスに一般化する。 このような無限領域バックドアは、有限領域バックドアが持つ正の計算特性の多くを持っていることが示されている。 一般的なバックドア検出問題は w[2]-hard であり、固定パラメータの扱いやすさは標準的な複雑性理論の仮定では除外される。 我々は、バックドアがバイナリ制約に対して最適でない振る舞いを持つ可能性があることを実証する -- これは、例えば時空間的アプリケーションにおいてバイナリ制約が優勢であるaiの観点から有害である。 これに対し、バックドアの代替としてサイドドアを導入する。 サイドドアの基本的な計算問題は、有限制約言語(多分非バイナリ関係を含む)に対して固定パラメータの扱いが可能だ。 さらに、サイドドアアプローチは、バックドアアプローチよりも高速なアルゴリズムにつながる計算特性をアピールしている。

A backdoor in a finite-domain CSP instance is a set of variables where each possible instantiation moves the instance into a polynomial-time solvable class. Backdoors have found many applications in artificial intelligence and elsewhere, and the algorithmic problem of finding such backdoors has consequently been intensively studied. Sioutis and Janhunen (Proc. 42nd German Conference on AI (KI-2019)) have proposed a generalised backdoor concept suitable for infinite-domain CSP instances over binary constraints. We generalise their concept into a large class of CSPs that allow for higher-arity constraints. We show that this kind of infinite-domain backdoors have many of the positive computational properties that finite-domain backdoors have: the associated computational problems are fixed-parameter tractable whenever the underlying constraint language is finite. On the other hand, we show that infinite languages make the problems considerably harder: the general backdoor detection problem is W[2]-hard and fixed-parameter tractability is ruled out under standard complexity-theoretic assumptions. We demonstrate that backdoors may have suboptimal behaviour on binary constraints -- this is detrimental from an AI perspective where binary constraints are predominant in, for instance, spatiotemporal applications. In response to this, we introduce sidedoors as an alternative to backdoors. The fundamental computational problems for sidedoors remain fixed-parameter tractable for finite constraint language (possibly also containing non-binary relations). Moreover, the sidedoor approach has appealing computational properties that sometimes leads to faster algorithms than the backdoor approach.
翻訳日:2022-11-21 15:36:48 公開日:2022-11-18
# 個人差分ベイズ点推定への統一的アプローチ

A Unified Approach to Differentially Private Bayes Point Estimation ( http://arxiv.org/abs/2211.10332v1 )

ライセンス: Link先を確認
Braghadeesh Lakshminarayanan and Cristian R. Rojas(参考訳) 統計およびシステム同定におけるパラメータ推定は、機密情報を含む可能性のあるデータに依存する。 この機密情報を保護するために,推定値にランダム化を導入して機密性を強制する「emph{differential privacy} (DP)」の概念が提案されている。 微分プライベート推定の標準的なアルゴリズムは、従来の点推定法の出力に適切な量の雑音を加えることに基づいている。 ノイズの増加は、プライバシを高めながら精度を低下させるため、精度とプライバシーのトレードオフにつながる。 本稿では,DP制約下でのデータ生成機構の未知パラメータをベイズポイントで推定するUnified Bayes Private Point (UBaPP) 手法を提案する。 簡単な数値的な例で,本手法の有効性を検証する。

Parameter estimation in statistics and system identification relies on data that may contain sensitive information. To protect this sensitive information, the notion of \emph{differential privacy} (DP) has been proposed, which enforces confidentiality by introducing randomization in the estimates. Standard algorithms for differentially private estimation are based on adding an appropriate amount of noise to the output of a traditional point estimation method. This leads to an accuracy-privacy trade off, as adding more noise reduces the accuracy while increasing privacy. In this paper, we propose a new Unified Bayes Private Point (UBaPP) approach to Bayes point estimation of the unknown parameters of a data generating mechanism under a DP constraint, that achieves a better accuracy-privacy trade off than traditional approaches. We verify the performance of our approach on a simple numerical example.
翻訳日:2022-11-21 15:36:26 公開日:2022-11-18
# 皮膚音抽出におけるEMアルゴリズムとFCMアルゴリズムの比較

Comparison between EM and FCM algorithms in skin tone extraction ( http://arxiv.org/abs/2211.09979v1 )

ライセンス: Link先を確認
Elham Ravanbakhsh, Mosab Rezaei, Ehsan Namjoo, Padideh Choobdar(参考訳) 本研究では,皮膚色抽出のためのEMおよびFCMアルゴリズムの実装について検討する。 皮膚音抽出のためのrgb,hsv,ycbcrの3色空間について,emとfcmアルゴリズムを用いた皮膚音の統計モデルを用いて評価した。 その結果,色ベクトルの3成分全てを用いる場合,EMアルゴリズムを用いた皮膚音のパラメトリックモデリングにガウス混合モデルを用いると,HSV色空間でうまく機能することがわかった。 YCbCrおよびHSV色空間における輝度成分の破棄にもかかわらず、EMアルゴリズムは最良の結果をもたらす。 詳細な比較の結果は, 以下の通りである。

This study aims to investigate implementing EM and FCM algorithms for skin color extraction. The capabilities of three well-known color spaces, namely, RGB, HSV, and YCbCr for skin-tone extraction are assessed by using statistical modeling of skin tones using EM and FCM algorithms. The results show that utilizing a Gaussian mixture model for parametric modeling of skin tones using EM algorithm works well in HSV color space when all three components of the color vector are used. In spite of discarding the luminance components in YCbCr and HSV color spaces, EM algorithm provides the best results. The results of the detailed comparisons are explained in the conclusion.
翻訳日:2022-11-21 15:36:13 公開日:2022-11-18
# ジェスチャー動作分類と自己回帰モデルを用いたテキストからの3次元動作生成

3d human motion generation from the text via gesture action classification and the autoregressive model ( http://arxiv.org/abs/2211.10003v1 )

ライセンス: Link先を確認
Gwantae Kim, Youngsuk Ryu, Junyeop Lee, David K. Han, Jeongmin Bae and Hanseok Ko(参考訳) 本稿では, ジェスチャー動作分類と自己回帰モデルを用いて, テキストからの3次元動作生成のための深層学習モデルを提案する。 このモデルは、手を振ってうなずくといった人間の思考を表現する特別なジェスチャーを生成することに焦点を当てている。 提案手法は,事前学習された言語モデルに基づくテキスト分類モデルを用いて文から表現を予測し,ゲートリカレント単位系自己回帰モデルを用いてジェスチャを生成する。 特に, 原動を復元し, 中間動を良好に生成するための埋め込み空間の損失について提案した。 さらに,可変長動作を生成するために,新しいデータ拡張法とストップトークンを提案する。 テキスト分類モデルと3次元人間の動作生成モデルを評価するために、ジェスチャー行動分類データセットとアクションに基づくジェスチャーデータセットを収集する。 提案手法は,テキストから知覚的に自然かつ現実的な3次元人間の動きを生成することに成功した。 さらに,公開可能な行動認識データセットを用いて,クロスデータセットの一般化性能を評価する手法の有効性を検証した。

In this paper, a deep learning-based model for 3D human motion generation from the text is proposed via gesture action classification and an autoregressive model. The model focuses on generating special gestures that express human thinking, such as waving and nodding. To achieve the goal, the proposed method predicts expression from the sentences using a text classification model based on a pretrained language model and generates gestures using the gate recurrent unit-based autoregressive model. Especially, we proposed the loss for the embedding space for restoring raw motions and generating intermediate motions well. Moreover, the novel data augmentation method and stop token are proposed to generate variable length motions. To evaluate the text classification model and 3D human motion generation model, a gesture action classification dataset and action-based gesture dataset are collected. With several experiments, the proposed method successfully generates perceptually natural and realistic 3D human motion from the text. Moreover, we verified the effectiveness of the proposed method using a public-available action recognition dataset to evaluate cross-dataset generalization performance.
翻訳日:2022-11-21 15:36:01 公開日:2022-11-18
# DGD-cGAN:画像脱水再生用デュアルジェネレータ

DGD-cGAN: A Dual Generator for Image Dewatering and Restoration ( http://arxiv.org/abs/2211.10026v1 )

ライセンス: Link先を確認
Salma Gonzalez-Sabbagh, Antonio Robles-Kelly and Shang Gao(参考訳) 水中の画像は通常、青緑がかった色で覆われ、歪んだり、ぼやけたり、コントラストが低かったりする。 この現象は、水柱の散乱と吸収によって生じる光の減衰によって起こる。 本稿では,2つのジェネレータを用いた条件付き生成対向ネットワーク(cGAN)を用いた脱水のための画像強調手法を提案する。 この2重発電機脱水cgan(dgd-cgan)は,水中画像に発生する様々な減衰・散乱現象の影響を2つの発生器で取り組むことにより,水柱によって引き起こされるヘイズ・カラーキャストを除去し,水中シーンの真の色彩を復元する。 第1のジェネレータは、水中画像を入力すると脱水シーンを予測し、第2のジェネレータは、画像形成モデルの送信と対光成分に基づいてカスタムロス機能を実装することにより、水中画像形成過程を学習する。 我々の実験によると、DGD-cGANは、いくつかの広く利用可能なデータセットの最先端の手法と比較して、一貫して改善の限界を提供する。

Underwater images are usually covered with a blue-greenish colour cast, making them distorted, blurry or low in contrast. This phenomenon occurs due to the light attenuation given by the scattering and absorption in the water column. In this paper, we present an image enhancement approach for dewatering which employs a conditional generative adversarial network (cGAN) with two generators. Our Dual Generator Dewatering cGAN (DGD-cGAN) removes the haze and colour cast induced by the water column and restores the true colours of underwater scenes whereby the effects of various attenuation and scattering phenomena that occur in underwater images are tackled by the two generators. The first generator takes at input the underwater image and predicts the dewatered scene, while the second generator learns the underwater image formation process by implementing a custom loss function based upon the transmission and the veiling light components of the image formation model. Our experiments show that DGD-cGAN consistently delivers a margin of improvement as compared with the state-of-the-art methods on several widely available datasets.
翻訳日:2022-11-21 15:35:46 公開日:2022-11-18
# Deep Metric Learningのためのインフォームティブサンプル認識プロキシ

Informative Sample-Aware Proxy for Deep Metric Learning ( http://arxiv.org/abs/2211.10382v1 )

ライセンス: Link先を確認
Aoyu Li, Ikuro Sato, Kohta Ishikawa, Rei Kawakami, Rio Yokota(参考訳) 様々な教師付きディープメトリック学習手法の中で,プロキシベースのアプローチは高い検索精度を実現している。 埋め込み空間のクラス表現ポイントであるプロキシは、サンプル表現と同様の方法でプロキシとサンプルの類似性に基づいた更新を受け取る。 既存の方法では、比較的少数のサンプルが大きな勾配のマグニチュード(つまりハードサンプル)を生成でき、比較的多くのサンプルが小さな勾配のマグニチュード(つまり簡単なサンプル)を生成できる。 このような極端なサンプル集合に対する過度な感度の獲得が手法の一般化性を損なうと仮定し、予測しきい値関数を用いて各サンプルの勾配重み付け係数を直接修正し、そのモデルがより情報的サンプルに敏感になるように、Informative Sample-Aware Proxy (Proxy-ISA) と呼ばれるプロキシベースの手法を提案する。 CUB-200-2011、Cars-196、Stanford Online Products、In-shop Clothes Retrievalデータセットの大規模な実験は、最先端の手法と比較して、プロキシISAの優位性を示している。

Among various supervised deep metric learning methods proxy-based approaches have achieved high retrieval accuracies. Proxies, which are class-representative points in an embedding space, receive updates based on proxy-sample similarities in a similar manner to sample representations. In existing methods, a relatively small number of samples can produce large gradient magnitudes (ie, hard samples), and a relatively large number of samples can produce small gradient magnitudes (ie, easy samples); these can play a major part in updates. Assuming that acquiring too much sensitivity to such extreme sets of samples would deteriorate the generalizability of a method, we propose a novel proxy-based method called Informative Sample-Aware Proxy (Proxy-ISA), which directly modifies a gradient weighting factor for each sample using a scheduled threshold function, so that the model is more sensitive to the informative samples. Extensive experiments on the CUB-200-2011, Cars-196, Stanford Online Products and In-shop Clothes Retrieval datasets demonstrate the superiority of Proxy-ISA compared with the state-of-the-art methods.
翻訳日:2022-11-21 15:35:27 公開日:2022-11-18
# FedSiam-DA:非IIDデータに基づくシームズネットワークによる二重集約型フェデレーションラーニング

FedSiam-DA: Dual-aggregated Federated Learning via Siamese Network under Non-IID Data ( http://arxiv.org/abs/2211.09421v2 )

ライセンス: Link先を確認
Ming Yang, Yanhan Wang, Xin Wang, Zhenyong Zhang, Xiaoming Wu, Peng Cheng(参考訳) フェデレーション学習(federated learning)は、各クライアントが元のデータをローカルに保持し、ローカルモデルのパラメータのみをサーバにアップロードする分散学習である。 フェデレーション学習はデータ島に対処できるが、実際のアプリケーションで異種データを扱うことは依然として困難である。 本稿では,データの不均一性の様々な設定下で,局所モデルとグローバルモデルの両方をパーソナライズするための,新しいコントラスト型コントラスト学習手法fesiam-daを提案する。 まず、シャムネットワークにおけるコントラスト学習の考え方に基づき、フェデシアムダはローカルトレーニング中に、ローカルモデルとグローバルモデルをシャムネットワークの異なるブランチとして捉え、ローカルモデルをパーソナライズするためにモデルの類似性を常に変更することにより、モデルの更新方向を制御する。 第二に、FedSiam-DAは各局所モデルのモデル類似性に基づく動的ウェイトを導入し、グローバルモデルの一般化をさらに改善するために二重集約機構を行使する。 さらに、ベンチマークデータセットに関する広範な実験を行い、FedSiam-DAがヘテロジニアスデータセットに対する以前のFLアプローチよりも優れていることを示す。

Federated learning is a distributed learning that allows each client to keep the original data locally and only upload the parameters of the local model to the server. Despite federated learning can address data island, it remains challenging to train with data heterogeneous in a real application. In this paper, we propose FedSiam-DA, a novel dual-aggregated contrastive federated learning approach, to personalize both local and global models, under various settings of data heterogeneity. Firstly, based on the idea of contrastive learning in the siamese network, FedSiam-DA regards the local and global model as different branches of the siamese network during the local training and controls the update direction of the model by constantly changing model similarity to personalize the local model. Secondly, FedSiam-DA introduces dynamic weights based on model similarity for each local model and exercises the dual-aggregated mechanism to further improve the generalization of the global model. Moreover, we provide extensive experiments on benchmark datasets, the results demonstrate that FedSiam-DA achieves outperforming several previous FL approaches on heterogeneous datasets.
翻訳日:2022-11-21 15:28:53 公開日:2022-11-18
# スパーストラヒック予測のためのマルチタスク学習

Multi-task Learning for Sparse Traffic Forecasting ( http://arxiv.org/abs/2211.09984v1 )

ライセンス: Link先を確認
Jiezhang Li, Junjun Li, Yue-Jiao Gong(参考訳) インテリジェント交通システムの性能向上には,正確な交通予測が不可欠である。 従来の交通予測タスクは、主に小規模で非孤立的な交通サブシステムに焦点を当てており、Traffic4cast 2022コンペティションは、都市全体の交通状態のダイナミクスを探求することを目的としている。 1時間分のループカウントデータのみを与えられたタスクは、すべての道路セグメントの混雑クラスと、スーパーセグメンションに沿った到着予定時刻を15分後に予測することである。 ループカウンタデータと高度に不確実なリアルタイム交通条件が、競争を困難にしている。 そこで本研究では,各道路セグメントの混雑クラスと速度を同時に予測できるマルチタスク学習ネットワークを提案する。 具体的には,クラスタリングとニューラルネットワークを用いて,ループカウンタデータの動的特徴を学習する。 そこで我々は,道路セグメントをノードとするグラフを構築し,グラフニューラルネットワークを用いて道路セグメント間の空間的依存を捉える。 最後に,マルチタスク学習モジュールを用いて,渋滞クラス,速度値,ボリュームクラスという3つの尺度を同時に学習する。 競争を拡大するためには、予測速度を用いてスーパーセグメンションに沿って到着する待ち時間を計算する。 traffic4cast competition 2022の提供するデータセットで優れた結果を得た。ソースコードはhttps://github.com/octopusli/neurips2022-traffic4castで利用可能である。

Accurate traffic prediction is crucial to improve the performance of intelligent transportation systems. Previous traffic prediction tasks mainly focus on small and non-isolated traffic subsystems, while the Traffic4cast 2022 competition is dedicated to exploring the traffic state dynamics of entire cities. Given one hour of sparse loop count data only, the task is to predict the congestion classes for all road segments and the expected times of arrival along super-segments 15 minutes into the future. The sparsity of loop counter data and highly uncertain real-time traffic conditions make the competition challenging. For this reason, we propose a multi-task learning network that can simultaneously predict the congestion classes and the speed of each road segment. Specifically, we use clustering and neural network methods to learn the dynamic features of loop counter data. Then, we construct a graph with road segments as nodes and capture the spatial dependence between road segments based on a Graph Neural Network. Finally, we learn three measures, namely the congestion class, the speed value and the volume class, simultaneously through a multi-task learning module. For the extended competition, we use the predicted speeds to calculate the expected times of arrival along super-segments. Our method achieved excellent results on the dataset provided by the Traffic4cast Competition 2022, source code is available at https://github.com/OctopusLi/NeurIPS2022-traffic4cast.
翻訳日:2022-11-21 15:27:59 公開日:2022-11-18
# Decorr: 不変学習とOOD一般化のための環境分割

Decorr: Environment Partitioning for Invariant Learning and OOD Generalization ( http://arxiv.org/abs/2211.10054v1 )

ライセンス: Link先を確認
Yufan Liao, Qi Wu, Xing Yan(参考訳) 不変学習法は様々な環境にまたがって不変な予測器を見つけようと試み、OOD一般化で人気を博した。 しかし、自然にデータの中に環境が存在しない状況では、実践者が手動で決める必要がある。 トレーニングデータセット全体をアルゴリズムによって環境に分割する環境分割は、不変学習のパフォーマンスに大きく影響し、未発表のままである。 優れた環境分割手法は、より一般的な設定でアプリケーションに不変な学習をもたらし、性能を向上させる。 低相関なデータサブセットを見つけることによって,データセットを複数の環境に分割することを提案する。 理論的解釈とアルゴリズムの詳細はどちらも論文で紹介されている。 合成データと実データの両方を用いた実験により、Decorr法は優れた性能を達成できる一方で、他の分割手法では、IRMと同じトレーニング手法を用いて、ERM以下の結果も悪い結果をもたらす可能性があることを示す。

Invariant learning methods try to find an invariant predictor across several environments and have become popular in OOD generalization. However, in situations where environments do not naturally exist in the data, they have to be decided by practitioners manually. Environment partitioning, which splits the whole training dataset into environments by algorithms, will significantly influence the performance of invariant learning and has been left undiscussed. A good environment partitioning method can bring invariant learning to applications with more general settings and improve its performance. We propose to split the dataset into several environments by finding low-correlated data subsets. Theoretical interpretations and algorithm details are both introduced in the paper. Through experiments on both synthetic and real data, we show that our Decorr method can achieve outstanding performance, while some other partitioning methods may lead to bad, even below-ERM results using the same training scheme of IRM.
翻訳日:2022-11-21 15:27:35 公開日:2022-11-18
# draGANのトレーニング方法:不均衡な分類のためのタスク指向のソリューション

How to train your draGAN: A task oriented solution to imbalanced classification ( http://arxiv.org/abs/2211.10065v1 )

ライセンス: Link先を確認
Leon O. Guertler, Andri Ashfahani, Anh Tuan Luu(参考訳) 20年以上前にSMOTE(Synthetic Minority Over-Sampling Technique)が作成されて以来、小さなデータセットと不均衡なデータセットの効果的な分類モデルを構築するという長年にわたる課題はほとんど改善されていない。 ganベースのモデルは有望と思われるが、これまでのほとんどの研究は既存のモデルの適用に焦点を当てているため、上記の問題を解決するために構築された目的のアーキテクチャが欠如している。 本稿では,新しいアーキテクチャであるdraganを用いてマイノリティと多数派の両方のサンプルを生成する,ユニークなパフォーマンス指向のデータ生成戦略を提案する。 サンプルは、実際のデータと類似性ではなく、分類モデルの性能を最適化する目的で生成される。 我々は、SMOTEファミリーの最先端手法に対するアプローチと、不均衡と線形性の異なる94の表型データセットに基づく競争的GANベースのアプローチをベンチマークする。 経験的に、draGANの優位性を示すと同時に、いくつかの欠点も強調する。 すべてのコードは、https://github.com/LeonGuertler/draGANで利用可能である。

The long-standing challenge of building effective classification models for small and imbalanced datasets has seen little improvement since the creation of the Synthetic Minority Over-sampling Technique (SMOTE) over 20 years ago. Though GAN based models seem promising, there has been a lack of purpose built architectures for solving the aforementioned problem, as most previous studies focus on applying already existing models. This paper proposes a unique, performance-oriented, data-generating strategy that utilizes a new architecture, coined draGAN, to generate both minority and majority samples. The samples are generated with the objective of optimizing the classification model's performance, rather than similarity to the real data. We benchmark our approach against state-of-the-art methods from the SMOTE family and competitive GAN based approaches on 94 tabular datasets with varying degrees of imbalance and linearity. Empirically we show the superiority of draGAN, but also highlight some of its shortcomings. All code is available on: https://github.com/LeonGuertler/draGAN.
翻訳日:2022-11-21 15:27:20 公開日:2022-11-18
# 層上温度スケーリング

Layer-Stack Temperature Scaling ( http://arxiv.org/abs/2211.10193v1 )

ライセンス: Link先を確認
Amr Khalifa, Michael C. Mozer, Hanie Sedghi, Behnam Neyshabur, Ibrahim Alabdulmohsin(参考訳) 最近の研究は、ニューラルネットワークの初期層が予測に有用な情報を含んでいることを示した。 このことから,すべての層に温度スケーリングを拡大することでキャリブレーションと精度が向上することがわかった。 この手法を「レイヤスタック温度スケーリング(LATES)」と呼ぶ。 LATESは推論中に各層に重み付けされた投票を与える。 我々は,これらを,分布内と分布外の両方で一般的な5つの畳み込みニューラルネットワークアーキテクチャで評価し,精度,キャリブレーション,AUCの観点から温度スケーリングに対する一貫した改善を観察した。 すべての結論は包括的な統計分析によって支持される。 LATESはアーキテクチャを再トレーニングしたり、さらに多くのパラメータを導入したりしないため、その利点は温度スケーリングで使用される以上のデータを必要としない。 最後に, LATES と Monte Carlo Dropout の組合せが CIFAR10/100 の最先端結果と一致することを示す。

Recent works demonstrate that early layers in a neural network contain useful information for prediction. Inspired by this, we show that extending temperature scaling across all layers improves both calibration and accuracy. We call this procedure "layer-stack temperature scaling" (LATES). Informally, LATES grants each layer a weighted vote during inference. We evaluate it on five popular convolutional neural network architectures both in- and out-of-distribution and observe a consistent improvement over temperature scaling in terms of accuracy, calibration, and AUC. All conclusions are supported by comprehensive statistical analyses. Since LATES neither retrains the architecture nor introduces many more parameters, its advantages can be reaped without requiring additional data beyond what is used in temperature scaling. Finally, we show that combining LATES with Monte Carlo Dropout matches state-of-the-art results on CIFAR10/100.
翻訳日:2022-11-21 15:27:03 公開日:2022-11-18
# GNS: 粒子・流体モデリングのための一般化可能なグラフニューラルネットワークベースシミュレータ

GNS: A generalizable Graph Neural Network-based simulator for particulate and fluid modeling ( http://arxiv.org/abs/2211.10228v1 )

ライセンス: Link先を確認
Krishna Kumar, Joseph Vantassel(参考訳) 我々はPyTorchベースのグラフネットワークシミュレータ(GNS)を開発し、物理を学習し、粒子および流体系の流動挙動を予測する。 GNSは、物質点の集合を表すノードと、粒子または粒子のクラスター間の局所的な相互作用を表すノードを繋ぐリンクでドメインを識別する。 GNSはグラフ上のメッセージパッシングを通じて相互作用法則を学習する。 GNSには3つのコンポーネントがある。 (a)粒子情報を潜在グラフに埋め込むエンコーダは、エッジは学習機能である。 b) ステップ間での結節間相互作用を計算し,データの伝搬を可能にする処理装置 (c)デコーダは、グラフから関連するダイナミクス(例えば粒子加速)を抽出する。 物理に着想を得た単純な帰納バイアス(慣性フレームなど)を導入し、学習アルゴリズムが別の解(定数重力加速度)を優先できるようにし、学習時間を短縮する。 GNSの実装は、予測された加速度に基づいて次の状態を更新するために半単純オイラー積分を使用する。 軌道データに基づいて訓練されたgsnは、訓練中に見えない複雑な境界条件における粒子運動量を予測するために一般化される。 訓練されたモデルは、関連する材料点法(mpm)シミュレーションの5\%の誤差内で正確に予測する。 予測は従来のPMシミュレーションより5,000倍速い(PMシミュレーションでは2.5時間、粒状流では20秒)。 GNSサロゲートは、最適化、制御、in situ vizの臨界領域予測、逆型問題などに人気がある。 GNSコードはオープンソースMITライセンスでhttps://github.com/geoelements/gnsで入手できる。

We develop a PyTorch-based Graph Network Simulator (GNS) that learns physics and predicts the flow behavior of particulate and fluid systems. GNS discretizes the domain with nodes representing a collection of material points and the links connecting the nodes representing the local interaction between particles or clusters of particles. The GNS learns the interaction laws through message passing on the graph. GNS has three components: (a) Encoder, which embeds particle information to a latent graph, the edges are learned functions; (b) Processor, which allows data propagation and computes the nodal interactions across steps; and (c) Decoder, which extracts the relevant dynamics (e.g., particle acceleration) from the graph. We introduce physics-inspired simple inductive biases, such as an inertial frame that allows learning algorithms to prioritize one solution (constant gravitational acceleration) over another, reducing learning time. The GNS implementation uses semi-implicit Euler integration to update the next state based on the predicted accelerations. GNS trained on trajectory data is generalizable to predict particle kinematics in complex boundary conditions not seen during training. The trained model accurately predicts within a 5\% error of its associated material point method (MPM) simulation. The predictions are 5,000x faster than traditional MPM simulations (2.5 hours for MPM simulations versus 20 s for GNS simulation of granular flow). GNS surrogates are popular for solving optimization, control, critical-region prediction for in situ viz, and inverse-type problems. The GNS code is available under the open-source MIT license at https://github.com/geoelements/gns.
翻訳日:2022-11-21 15:26:46 公開日:2022-11-18
# 一般値関数によるランダム好奇心の探索

Exploring through Random Curiosity with General Value Functions ( http://arxiv.org/abs/2211.10282v1 )

ライセンス: Link先を確認
Aditya Ramesh, Louis Kirsch, Sjoerd van Steenkiste, J\"urgen Schmidhuber(参考訳) 強化学習における効率的な探索は、内在的な報酬を通じて一般的に対処される課題である。 最近の顕著なアプローチは、ステートノベルティや人工好奇心の変種に基づいている。 しかし、これらを部分的に観察可能な環境に直接適用することは効果が無く、本質的な報酬の早期散逸につながる可能性がある。 本稿では、これらの異なるアプローチ間の接続を生かした固有報酬関数である一般値関数(RC-GVF)を用いたランダム好奇性を提案する。 RC-GVFは、現在の観測の新規性や好奇心のボーナスのみを使用して、正確な環境力学を予測できない代わりに、時間的に拡張された一般値関数を予測することによって本質的な報酬を導出する。 硬いダイボリックロック問題における探索を改善できることを実証する。 さらに, RC-GVFは, 部分的に観測可能なミニグリッド環境において, 地絡エピソード数の欠如により, 従来の手法よりも有意に優れていた。 MiniGridのパノラマ観測によりRC-GVFの性能はさらに向上し、エピソディックカウントの形で特権情報を活用することの基盤となる。

Efficient exploration in reinforcement learning is a challenging problem commonly addressed through intrinsic rewards. Recent prominent approaches are based on state novelty or variants of artificial curiosity. However, directly applying them to partially observable environments can be ineffective and lead to premature dissipation of intrinsic rewards. Here we propose random curiosity with general value functions (RC-GVF), a novel intrinsic reward function that draws upon connections between these distinct approaches. Instead of using only the current observation's novelty or a curiosity bonus for failing to predict precise environment dynamics, RC-GVF derives intrinsic rewards through predicting temporally extended general value functions. We demonstrate that this improves exploration in a hard-exploration diabolical lock problem. Furthermore, RC-GVF significantly outperforms previous methods in the absence of ground-truth episodic counts in the partially observable MiniGrid environments. Panoramic observations on MiniGrid further boost RC-GVF's performance such that it is competitive to baselines exploiting privileged information in form of episodic counts.
翻訳日:2022-11-21 15:26:21 公開日:2022-11-18
# ego中心のビデオにカメラのポーズを増やすことはvq3dにとって必須だ

Estimating more camera poses for ego-centric videos is essential for VQ3D ( http://arxiv.org/abs/2211.10284v1 )

ライセンス: Link先を確認
Jinjie Mai, Chen Zhao, Abdullah Hamdi, Silvio Giancola, Bernard Ghanem(参考訳) ビジュアルクエリ3Dローカライゼーション(VQ3D)は、Ego4D Episodic Memory Benchmarkのタスクである。 エゴセントリックビデオが与えられた場合、クエリオブジェクトxが静的画像として指定され、答えがオブジェクトxを指し示す3d変位ベクトルである「オブジェクトxを最後に見る場所」という形式のクエリに答えることである。しかし、現在の技術では、ビデオフレームのカメラポーズの推定にナイーブな方法が使われており、その結果、ポーズ(qwp)比が低く、全体の成功率が低くなる。 我々は,エゴセントリックなビデオカメラのポーズ推定問題に対する新たなパイプラインを設計する。 さらに、現在のVQ3Dフレームワークを再検討し、性能と効率の観点から最適化する。 その結果、vq3d leaderboardにおけるトップ1全体の成功率は25.8%となり、ベースラインが報告した8.7%よりも2倍良い。

Visual queries 3D localization (VQ3D) is a task in the Ego4D Episodic Memory Benchmark. Given an egocentric video, the goal is to answer queries of the form "Where did I last see object X?", where the query object X is specified as a static image, and the answer should be a 3D displacement vector pointing to object X. However, current techniques use naive ways to estimate the camera poses of video frames, resulting in a low query with pose (QwP) ratio, thus a poor overall success rate. We design a new pipeline for the challenging egocentric video camera pose estimation problem in our work. Moreover, we revisit the current VQ3D framework and optimize it in terms of performance and efficiency. As a result, we get the top-1 overall success rate of 25.8% on VQ3D leaderboard, which is two times better than the 8.7% reported by the baseline.
翻訳日:2022-11-21 15:20:22 公開日:2022-11-18
# 単なるスケールの問題? 畳み込みニューラルネットワークにおけるスケール等価性の再評価

Just a Matter of Scale? Reevaluating Scale Equivariance in Convolutional Neural Networks ( http://arxiv.org/abs/2211.10288v1 )

ライセンス: Link先を確認
Thomas Altstidl, An Nguyen, Leo Schwinn, Franz K\"oferl, Christopher Mutschler, Bj\"orn Eskofier, Dario Zanca(参考訳) 畳み込みニューラルネットワークの広範な成功は、翻訳等価性の本質的な性質に起因すると考えられる。 しかし、畳み込みはスケールの変化に同変ではなく、異なる大きさのオブジェクトに一般化できない。 この分野の最近の進歩にもかかわらず、現在の方法が実世界のデータで観測されていないスケールにどのように一般化され、どの程度のスケールの等分散が役割を果たすかは、まだ不明である。 そこで本研究では,4つの異なる領域に基づくstir(scaled and translation image recognition)ベンチマークを提案する。 さらに,共有重みを持つ多数の再スケールカーネルを並列に適用し,最も適切なカーネルを選択する,新たなモデルファミリを導入する。 stirの実験結果は,既存の手法と提案手法の両方が,標準畳み込みと比較して,スケール全体の一般化を改善できることを示した。 また、我々のモデルの族はより大きなスケールに向けてうまく一般化し、スケールの等式を改善することができることを示した。 さらに、そのユニークな設計により、カーネルの選択が入力スケールと一致していることを検証することができる。 それでも、評価されたモデルがスケールの大きな違いに対して性能を維持することはなく、スケールの等分散が一般化と堅牢性を改善する方法に関する一般的な理解がいまだに欠けていることを示している。

The widespread success of convolutional neural networks may largely be attributed to their intrinsic property of translation equivariance. However, convolutions are not equivariant to variations in scale and fail to generalize to objects of different sizes. Despite recent advances in this field, it remains unclear how well current methods generalize to unobserved scales on real-world data and to what extent scale equivariance plays a role. To address this, we propose the novel Scaled and Translated Image Recognition (STIR) benchmark based on four different domains. Additionally, we introduce a new family of models that applies many re-scaled kernels with shared weights in parallel and then selects the most appropriate one. Our experimental results on STIR show that both the existing and proposed approaches can improve generalization across scales compared to standard convolutions. We also demonstrate that our family of models is able to generalize well towards larger scales and improve scale equivariance. Moreover, due to their unique design we can validate that kernel selection is consistent with input scale. Even so, none of the evaluated models maintain their performance for large differences in scale, demonstrating that a general understanding of how scale equivariance can improve generalization and robustness is still lacking.
翻訳日:2022-11-21 15:20:03 公開日:2022-11-18
# SeaTurtleID: 野生生物の再識別におけるタイムスタンプの重要性を強調する新しい長期データセット

SeaTurtleID: A novel long-span dataset highlighting the importance of timestamps in wildlife re-identification ( http://arxiv.org/abs/2211.10307v1 )

ライセンス: Link先を確認
Kostas Papafitsoros, Luk\'a\v{s} Adam, Vojt\v{e}ch \v{C}erm\'ak, Luk\'a\v{s} Picek(参考訳) 本稿では,野生で捕獲されたウミガメの写真を収めた最初の大規模長期データセットであるSeaTurtleIDを紹介する。 このデータセットは、再識別方法のベンチマークや、他のコンピュータビジョンタスクの評価に適している。 データセットは、1081年の遭遇から12年以内に収集された400人の独特な人物の7774枚の高解像度写真で構成されている。 各写真には、アイデンティティラベル、ヘッドセグメンテーションマスク、出会いタイムスタンプなど、豊富なメタデータが添付されている。 データセットの12年にわたる期間は、タイムスタンプを備えた最も長い公開野生動物データセットとなる。 この特徴を生かして、タイムスタンプは、データセットを参照とクエリセットに分割できるため、動物の再識別方法のバイアスのない評価に必要であることを示す。 特徴量とCNNに基づく再同定手法の時間認識分割と比較して,時間認識分割が100%以上の性能過大評価につながることを示す。 タイムアウェアの分割は、タイムアウェアの分割よりも現実的な再識別パイプラインに対応しているとも主張する。 動物の再同定方法は時間認識スプリットを用いたタイムスタンプ付きデータセットでのみテストすべきであり、データセットキュレーターは関連するメタデータにそのような情報を含めることを推奨する。

This paper introduces SeaTurtleID, the first public large-scale, long-span dataset with sea turtle photographs captured in the wild. The dataset is suitable for benchmarking re-identification methods and evaluating several other computer vision tasks. The dataset consists of 7774 high-resolution photographs of 400 unique individuals collected within 12 years in 1081 encounters. Each photograph is accompanied by rich metadata, e.g., identity label, head segmentation mask, and encounter timestamp. The 12-year span of the dataset makes it the longest-spanned public wild animal dataset with timestamps. By exploiting this unique property, we show that timestamps are necessary for an unbiased evaluation of animal re-identification methods because they allow time-aware splits of the dataset into reference and query sets. We show that time-unaware splits can lead to performance overestimation of more than 100% compared to the time-aware splits for both feature- and CNN-based re-identification methods. We also argue that time-aware splits correspond to more realistic re-identification pipelines than the time-unaware ones. We recommend that animal re-identification methods should only be tested on datasets with timestamps using time-aware splits, and we encourage dataset curators to include such information in the associated metadata.
翻訳日:2022-11-21 15:19:42 公開日:2022-11-18
# ステレオマッチングのためのクロスビュー補完事前学習の改善

Improved Cross-view Completion Pre-training for Stereo Matching ( http://arxiv.org/abs/2211.10408v1 )

ライセンス: Link先を確認
Philippe Weinzaepfel, Vaibhav Arora, Yohann Cabon, Thomas Lucas, Romain Br\'egier, Vincent Leroy, Gabriela Csurka, Leonid Antsfeld, Boris Chidlovskii, J\'er\^ome Revaud(参考訳) 高レベルダウンストリームタスクのパフォーマンスは印象的だが、自己教師付き事前学習法はステレオマッチングのような密集した幾何学的ビジョンタスクではまだ完全には提供されていない。 インスタンス識別やマスク画像モデリングといった自己教師あり学習の概念を幾何学的タスクに適用することは、研究の活発な領域である。 今回の作業では、最新のクロスビュー補完フレームワーク上に構築されています。 マスク画像モデリングのこのバリエーションは、双眼鏡のダウンストリームタスクに適した、同じシーンからのセカンドビューを活用します。 しかし、この概念の適用性は少なくとも2つの方法で制限されている。 (a)実世界の画像ペアの収集が困難であったこと(実際には合成データのみ使用されていたこと) (b)絶対位置よりも相対位置の方が有意義な密集した下流タスクへのバニラ変圧器の一般化の欠如。 まず,適切な実世界の画像ペアを大規模に収集する手法を提案する。 第2に,相対的な位置埋め込みを実験し,視覚トランスフォーマーの性能が大幅に向上することを示す。 第3に、大量のデータを使用することで実現可能な、視覚トランスフォーマーベースのクロスコンプリートアーキテクチャをスケールアップする。 これらの改善により,相関ボリュームや反復推定,マルチスケール推論といった標準的なタスク固有の手法を使わずに,ディープステレオマッチングに関する最先端の成果に到達できることを初めて示す。

Despite impressive performance for high-level downstream tasks, self-supervised pre-training methods have not yet fully delivered on dense geometric vision tasks such as stereo matching. The application of self-supervised learning concepts, such as instance discrimination or masked image modeling, to geometric tasks is an active area of research. In this work we build on the recent cross-view completion framework: this variation of masked image modeling leverages a second view from the same scene, which is well suited for binocular downstream tasks. However, the applicability of this concept has so far been limited in at least two ways: (a) by the difficulty of collecting real-world image pairs - in practice only synthetic data had been used - and (b) by the lack of generalization of vanilla transformers to dense downstream tasks for which relative position is more meaningful than absolute position. We explore three avenues of improvement: first, we introduce a method to collect suitable real-world image pairs at large scale. Second, we experiment with relative positional embeddings and demonstrate that they enable vision transformers to perform substantially better. Third, we scale up vision transformer based cross-completion architectures, which is made possible by the use of large amounts of data. With these improvements, we show for the first time that state-of-the-art results on deep stereo matching can be reached without using any standard task-specific techniques like correlation volume, iterative estimation or multi-scale reasoning.
翻訳日:2022-11-21 15:19:22 公開日:2022-11-18
# CNeRV:ビジュアルデータのためのコンテンツ適応型ニューラル表現

CNeRV: Content-adaptive Neural Representation for Visual Data ( http://arxiv.org/abs/2211.10421v1 )

ライセンス: Link先を確認
Hao Chen, Matt Gwilliam, Bo He, Ser-Nam Lim, Abhinav Shrivastava(参考訳) ビジュアルデータの圧縮と再構成は、ディープラーニングの普及以前にもコンピュータビジョンコミュニティで広く研究されてきた。 最近では、ディープラーニングを使って既存のパイプラインを改善したり洗練したりする人もいれば、オートエンコーダやSIRENやNeRVといった暗黙の神経表現など、エンドツーエンドのアプローチを提案する人もいる。 本研究では、自動エンコーダの一般化性と暗黙的表現の単純さとコンパクト性を組み合わせたCNeRV(Neural Visual Representation with Content-Adaptive Embedding)を提案する。 単一層エンコーダで強力なデコーダを補完する,統一的で簡潔かつ内部的に(ビデオ内)一般化可能な新しいコンテンツ適応型埋め込みを提案する。 我々は,現在最先端の暗黙的ニューラル表現であるNERVの性能を,トレーニング中に見られるフレームの再構成作業と一致し,トレーニング中にスキップされるフレーム(未知の画像)をはるかに上回っている。 未確認画像における同様の再構成品質を達成するために、NeRVは内部の一般化が欠如しているため、フレームごとのオーバーフィットに120倍の時間を要する。 同じ潜在コード長と類似のモデルサイズで、cnervは見えない画像と見えない画像の両方の再構成においてオートエンコーダを上回る。 また、視覚データ圧縮の有望な結果を示す。 詳細はプロジェクトのhttps://haochen-rye.github.io/CNeRV/にある。

Compression and reconstruction of visual data have been widely studied in the computer vision community, even before the popularization of deep learning. More recently, some have used deep learning to improve or refine existing pipelines, while others have proposed end-to-end approaches, including autoencoders and implicit neural representations, such as SIREN and NeRV. In this work, we propose Neural Visual Representation with Content-adaptive Embedding (CNeRV), which combines the generalizability of autoencoders with the simplicity and compactness of implicit representation. We introduce a novel content-adaptive embedding that is unified, concise, and internally (within-video) generalizable, that compliments a powerful decoder with a single-layer encoder. We match the performance of NeRV, a state-of-the-art implicit neural representation, on the reconstruction task for frames seen during training while far surpassing for frames that are skipped during training (unseen images). To achieve similar reconstruction quality on unseen images, NeRV needs 120x more time to overfit per-frame due to its lack of internal generalization. With the same latent code length and similar model size, CNeRV outperforms autoencoders on reconstruction of both seen and unseen images. We also show promising results for visual data compression. More details can be found in the project pagehttps://haochen-rye.github.io/CNeRV/
翻訳日:2022-11-21 15:18:37 公開日:2022-11-18
# 大孔多彩画像補完のための構造誘導拡散モデル

A Structure-Guided Diffusion Model for Large-Hole Diverse Image Completion ( http://arxiv.org/abs/2211.10437v1 )

ライセンス: Link先を確認
Daichi Horita, Jiaolong Yang, Dong Chen, Yuki Koyama, Kiyoharu Aizawa(参考訳) 多様な画像補完は、画像の不完全領域(すなわち穴)を様々な方法で埋める問題であり、顕著な成功を収めている。 しかし, 意味論的に重要な構造が損なわれているため, 入力画像を大きな穴で管理することは依然として難しい問題である。 本稿では,明示的な構造指導を取り入れてこの問題に取り組む。 本稿では,大孔多様補完問題に対する構造誘導拡散モデル(sgdm)を提案する。 提案するSGDMは,拡散確率モデル (DM) である構造生成器とテクスチャ生成器から構成される。 構造生成装置は、孔内の可塑性構造を表すエッジ画像を生成し、後にテクスチャ生成プロセスのガイドに使用される。 これら2つの発電機を共同で訓練するために, 最適なベイズ分布と運動量フレームワークを組み合わせた戦略を考案する。 品質改善に加えて、構造生成装置によって生成された補助エッジ画像を手作業で編集し、ユーザガイドの画像編集を可能にする。 顔のデータセット(celeba-hq)と自然のシーン(places)を用いた実験により,視覚品質と多様性のトレードオフが,他の最先端手法と同等あるいは優れた結果が得られることを示した。

Diverse image completion, a problem of generating various ways of filling incomplete regions (i.e. holes) of an image, has made remarkable success. However, managing input images with large holes is still a challenging problem due to the corruption of semantically important structures. In this paper, we tackle this problem by incorporating explicit structural guidance. We propose a structure-guided diffusion model (SGDM) for the large-hole diverse completion problem. Our proposed SGDM consists of a structure generator and a texture generator, which are both diffusion probabilistic models (DMs). The structure generator generates an edge image representing a plausible structure within the holes, which is later used to guide the texture generation process. To jointly train these two generators, we design a strategy that combines optimal Bayesian denoising and a momentum framework. In addition to the quality improvement, auxiliary edge images generated by the structure generator can be manually edited to allow user-guided image editing. Our experiments using datasets of faces (CelebA-HQ) and natural scenes (Places) show that our method achieves a comparable or superior trade-off between visual quality and diversity compared to other state-of-the-art methods.
翻訳日:2022-11-21 15:18:14 公開日:2022-11-18
# BEVFormer v2:パースペクティブ・スーパービジョンによる鳥の視点認識へのモダンな画像バックボーンの適応

BEVFormer v2: Adapting Modern Image Backbones to Bird's-Eye-View Recognition via Perspective Supervision ( http://arxiv.org/abs/2211.10439v1 )

ライセンス: Link先を確認
Chenyu Yang, Yuntao Chen, Hao Tian, Chenxin Tao, Xizhou Zhu, Zhaoxiang Zhang, Gao Huang, Hongyang Li, Yu Qiao, Lewei Lu, Jie Zhou, Jifeng Dai(参考訳) 本稿では,最新の画像バックボーンに適合し,より高速に収束する視点監視機能を備えた新しいバードズ・アイ・ビュー(bev)検出器を提案する。 既存の最先端のBEV検出器は、VoVNetのような一定の深さでトレーニングされたバックボーンと結び付けられており、画像バックボーンとBEV検出器の相乗効果を妨げる。 この制限に対処するために、視点空間の監督を導入して、BEV検出器の最適化の緩和を優先する。 この目的のために,2段階のBEV検出器を提案する。 本モデルの有効性を評価するため,提案検出器の監督形態と汎用性に着目した広範囲なアブレーション研究を行った。 提案手法は,従来および現代イメージバックボーンの幅広いスペクトルで検証され,大規模nuscenesデータセット上で新たなsoma結果が得られる。 コードはすぐに解放される。

We present a novel bird's-eye-view (BEV) detector with perspective supervision, which converges faster and better suits modern image backbones. Existing state-of-the-art BEV detectors are often tied to certain depth pre-trained backbones like VoVNet, hindering the synergy between booming image backbones and BEV detectors. To address this limitation, we prioritize easing the optimization of BEV detectors by introducing perspective space supervision. To this end, we propose a two-stage BEV detector, where proposals from the perspective head are fed into the bird's-eye-view head for final predictions. To evaluate the effectiveness of our model, we conduct extensive ablation studies focusing on the form of supervision and the generality of the proposed detector. The proposed method is verified with a wide spectrum of traditional and modern image backbones and achieves new SoTA results on the large-scale nuScenes dataset. The code shall be released soon.
翻訳日:2022-11-21 15:17:53 公開日:2022-11-18
# メタデータは言語モデルを改善する

Metadata Might Make Language Models Better ( http://arxiv.org/abs/2211.10086v1 )

ライセンス: Link先を確認
Kaspar Beelen and Daniel van Strien(参考訳) 本稿では,歴史コレクションにおける言語モデルの学習におけるメタデータの活用の利点について述べる。 19世紀の新聞を事例として、2022年にrosinらによって提案されたタイムマスキングアプローチを拡張し、時間的、政治的、地理的な情報をマスキング言語モデルに挿入する様々な戦略を比較した。 複数のDistilBERTを改良された入力データに微調整した後、擬似パープレキシティ、メタデータマスフィリング、教師付き分類といった一連の評価タスクでこれらのモデルを体系的に評価する。 関連するメタデータを言語モデルに示すことは有益な影響があり、より堅牢で公平なモデルを生み出すことさえあります。

This paper discusses the benefits of including metadata when training language models on historical collections. Using 19th-century newspapers as a case study, we extend the time-masking approach proposed by Rosin et al., 2022 and compare different strategies for inserting temporal, political and geographical information into a Masked Language Model. After fine-tuning several DistilBERT on enhanced input data, we provide a systematic evaluation of these models on a set of evaluation tasks: pseudo-perplexity, metadata mask-filling and supervised classification. We find that showing relevant metadata to a language model has a beneficial impact and may even produce more robust and fairer models.
翻訳日:2022-11-21 15:17:34 公開日:2022-11-18
# CITADEL:効率的な多ベクトル検索のための動的語彙ルーティングによる条件付きトークンインタラクション

CITADEL: Conditional Token Interaction via Dynamic Lexical Routing for Efficient and Effective Multi-Vector Retrieval ( http://arxiv.org/abs/2211.10411v1 )

ライセンス: Link先を確認
Minghan Li, Sheng-Chieh Lin, Barlas Oguz, Asish Ghoshal, Jimmy Lin, Yashar Mehdad, Wen-tau Yih, and Xilun Chen(参考訳) マルチベクター検索手法はスパース(例えばBM25)と高密度(例えばDPR)レトリバーの利点を組み合わせ、様々な検索タスクで最先端のパフォーマンスを達成した。 しかし、これらの手法は桁違いに遅く、シングルベクターに比べてインデックスを保存するのに多くのスペースを必要とする。 本稿では、トークンルーティングの観点から異なるマルチベクタ検索モデルを統一し、動的語彙ルーティング(CITADEL)による条件付きトークンインタラクションを提案し、効率的かつ効果的なマルチベクタ検索を行う。 CITADELは、異なるトークンベクトルを予測された語彙 ``keys'' にルーティングすることを学び、クエリトークンベクトルは、同じキーにルーティングされたドキュメントトークンベクトルとのみ相互作用する。 この設計は高い精度を維持しながら計算コストを大幅に削減する。 特に、CITADELは、それまでの最先端技術であるColBERT-v2と同じまたはわずかにパフォーマンスが向上し、インドメイン(MS MARCO)とアウトオブドメイン(BEIR)の両方で、40倍近く高速である。 コードとデータはhttps://github.com/facebookresearch/dpr-scaleで入手できる。

Multi-vector retrieval methods combine the merits of sparse (e.g. BM25) and dense (e.g. DPR) retrievers and have achieved state-of-the-art performance on various retrieval tasks. These methods, however, are orders of magnitude slower and need much more space to store their indices compared to their single-vector counterparts. In this paper, we unify different multi-vector retrieval models from a token routing viewpoint and propose conditional token interaction via dynamic lexical routing, namely CITADEL, for efficient and effective multi-vector retrieval. CITADEL learns to route different token vectors to the predicted lexical ``keys'' such that a query token vector only interacts with document token vectors routed to the same key. This design significantly reduces the computation cost while maintaining high accuracy. Notably, CITADEL achieves the same or slightly better performance than the previous state of the art, ColBERT-v2, on both in-domain (MS MARCO) and out-of-domain (BEIR) evaluations, while being nearly 40 times faster. Code and data are available at https://github.com/facebookresearch/dpr-scale.
翻訳日:2022-11-21 15:17:21 公開日:2022-11-18
# 小型目標運動検出視覚システムの時空間フィードバック制御

Spatio-Temporal Feedback Control of Small Target Motion Detection Visual System ( http://arxiv.org/abs/2211.10128v1 )

ライセンス: Link先を確認
Hongxin Wang, Zhiyan Zhong, Fang Lei, Xiaohua Jing, Jigen Peng, Shigang Yue(参考訳) フィードバックは、その空間的および時間的ダイナミクスが周囲の環境の動きパターンによってしばしば形成される動物の視覚システムにおいて、運動知覚に不可欠である。 しかし、このような時空間フィードバックは、非常に限られた視覚的特徴を示しながら、画像中の1または数ピクセルだけをカバーする小さな移動目標を検出するニューラルネットワークの設計において深く研究されていない。 本稿では,時空間フィードバックループを有する視覚システムを開発することで,小目標動作検出問題に対処し,小目標に対するネットワーク応答を高めつつ偽陽性背景運動を抑制する上で,その重要な役割を明らかにする。 具体的には,提案する視覚システムは2つの補完サブネットワークから構成される。 最初のサブネットワークは、乱雑な背景の空間的および時間的動きパターンをニューロンアンサンブル符号化によって抽出するように設計されている。 第2のサブネットワークは、小さなターゲット動作情報をキャプチャし、第1のサブネットワークからの時空間フィードバック信号を統合して背景偽陽性を抑制する。 実験の結果,提案する時空間フィードバック視覚システムは,複雑な動的環境から小さな移動目標を識別する既存の手法よりも競争力が高いことがわかった。

Feedback is crucial to motion perception in animals' visual systems where its spatial and temporal dynamics are often shaped by movement patterns of surrounding environments. However, such spatio-temporal feedback has not been deeply explored in designing neural networks to detect small moving targets that cover only one or a few pixels in image while presenting extremely limited visual features. In this paper, we address small target motion detection problem by developing a visual system with spatio-temporal feedback loop, and further reveal its important roles in suppressing false positive background movement while enhancing network responses to small targets. Specifically, the proposed visual system is composed of two complementary subnetworks. The first subnetwork is designed to extract spatial and temporal motion patterns of cluttered backgrounds by neuronal ensemble coding. The second subnetwork is developed to capture small target motion information and integrate the spatio-temporal feedback signal from the first subnetwork to inhibit background false positives. Experimental results demonstrate that the proposed spatio-temporal feedback visual system is more competitive than existing methods in discriminating small moving targets from complex dynamic environment.
翻訳日:2022-11-21 15:11:58 公開日:2022-11-18
# 外因性深度情報を活用した画素レベルコントラスト学習の改善

Improving Pixel-Level Contrastive Learning by Leveraging Exogenous Depth Information ( http://arxiv.org/abs/2211.10177v1 )

ライセンス: Link先を確認
Ahmed Ben Saad, Kristina Prokopetc, Josselin Kherroubi, Axel Davy, Adrien Courtois, Gabriele Facciolo(参考訳) 近年,コントラスト学習(CL)に基づく自己指導型表現学習が注目されている。 これは、大量のラベル付きサンプルを必要とすることなく、様々なタスク(特に分類)で得られた優れた結果のためである。 しかし、ほとんどの参照CLアルゴリズム(SimCLR、MoCo、BYOL、Barlow Twinsなど)は、ピクセルレベルの下流タスクに適応していない。 PixProとして知られる既存のソリューションのひとつが、画像全体の作物間の距離を用いて、同じ画像の正負のイメージ作物のペアをフィルタリングする、ピクセルレベルのアプローチを提案する。 我々は、このアイデアをさらに強化するために、外因性データによって提供される意味情報を追加選択フィルタとして組み込むことにより、ピクセルレベルの正負のサンプルの選択を改善することができると論じている。 本稿では,深度推定ネットワークを利用したり,利用可能なデータ(ステレオビジョン,パララックスモーション,LiDARなど)から測定することで得られる深度情報に焦点を当てる。 シーンの深さは、その深さに基づいて異なるオブジェクトに属するピクセルを識別するための意味のある手がかりを提供する。 コントラスト損失におけるこの外在的情報を用いることにより, 結果が向上し, 学習した表現が物体の形状によく従うことが示された。 さらに、異なるオブジェクトサイズに適応したトレーニングパラメータを見つけることの問題を緩和するマルチスケールの損失を導入する。 ボアホール画像におけるブレークアウトセグメンテーションにおけるアイデアの有効性を実証し,pixpro よりも1.9 %,教師付きベースラインより5 %近く向上した。 さらに,ScanNetを用いた屋内シーンセグメンテーションタスクとCityScapesによる屋外シーン(PixProによる1.6\%と1.1\%)の検証を行った。

Self-supervised representation learning based on Contrastive Learning (CL) has been the subject of much attention in recent years. This is due to the excellent results obtained on a variety of subsequent tasks (in particular classification), without requiring a large amount of labeled samples. However, most reference CL algorithms (such as SimCLR and MoCo, but also BYOL and Barlow Twins) are not adapted to pixel-level downstream tasks. One existing solution known as PixPro proposes a pixel-level approach that is based on filtering of pairs of positive/negative image crops of the same image using the distance between the crops in the whole image. We argue that this idea can be further enhanced by incorporating semantic information provided by exogenous data as an additional selection filter, which can be used (at training time) to improve the selection of the pixel-level positive/negative samples. In this paper we will focus on the depth information, which can be obtained by using a depth estimation network or measured from available data (stereovision, parallax motion, LiDAR, etc.). Scene depth can provide meaningful cues to distinguish pixels belonging to different objects based on their depth. We show that using this exogenous information in the contrastive loss leads to improved results and that the learned representations better follow the shapes of objects. In addition, we introduce a multi-scale loss that alleviates the issue of finding the training parameters adapted to different object sizes. We demonstrate the effectiveness of our ideas on the Breakout Segmentation on Borehole Images where we achieve an improvement of 1.9\% over PixPro and nearly 5\% over the supervised baseline. We further validate our technique on the indoor scene segmentation tasks with ScanNet and outdoor scenes with CityScapes ( 1.6\% and 1.1\% improvement over PixPro respectively).
翻訳日:2022-11-21 15:11:14 公開日:2022-11-18
# LVOS: 長期ビデオオブジェクトセグメンテーションのためのベンチマーク

LVOS: A Benchmark for Long-term Video Object Segmentation ( http://arxiv.org/abs/2211.10181v1 )

ライセンス: Link先を確認
Lingyi Hong, Wenchao Chen, Zhongying Liu, Wei Zhang, Pinxue Guo, Zhaoyu Chen, Wenqiang Zhang(参考訳) 既存のvos(video object segmentation)ベンチマークでは、約3~5秒の短いビデオに焦点が当てられている。 これらのビデオは実用性に乏しく、長期的なデータセットがないため、現実的なシナリオにおけるVOSのさらなる研究が制限される。 そこで本稿では,本論文で提案するlvosというベンチマークデータセットと評価手法を提案する。 我々の知る限りでは、LVOSは最初の高密度アノテーション付き長期VOSデータセットである。 LVOSのビデオは平均1.59分で、既存のVOSデータセットのビデオの20倍の長さです。 それぞれのビデオには様々な属性が含まれており、特に長期の再登場や時空的類似のobjecctなど、野生から生じる課題がある。 さらに,ビデオオブジェクトセグメンテーションのための言語的特徴と視覚的特徴の統合を奨励するために,追加の言語記述を提供する。 LVOSをベースとして,既存の映像オブジェクト分割アルゴリズムを評価し,時間情報を適切に活用するための3つの相補的メモリバンクからなる Diverse Dynamic Memory Network (DDMemory) を提案する。 実験結果は,先行手法の強度と弱さを示し,今後の研究に有望な方向を示した。 我々の目標は、長期VOSの進歩を促進するために、大規模で多様なベンチマークをコミュニティに提供することである。 データとコードは \url{https://lingyihongfd.github.io/lvos.github.io/} で入手できる。

Existing video object segmentation (VOS) benchmarks focus on short-term videos which just last about 3-5 seconds and where objects are visible most of the time. These videos are poorly representative of practical applications, and the absence of long-term datasets restricts further investigation of VOS on the application in realistic scenarios. So, in this paper, we present a new benchmark dataset and evaluation methodology named LVOS, which consists of 220 videos with a total duration of 421 minutes. To the best of our knowledge, LVOS is the first densely annotated long-term VOS dataset. The videos in our LVOS last 1.59 minutes on average, which is 20 times longer than videos in existing VOS datasets. Each video includes various attributes, especially challenges deriving from the wild, such as long-term reappearing and cross-temporal similar objeccts. Moreover, we provide additional language descriptions to encourage the exploration of integrating linguistic and visual features for video object segmentation. Based on LVOS, we assess existing video object segmentation algorithms and propose a Diverse Dynamic Memory network (DDMemory) that consists of three complementary memory banks to exploit temporal information adequately. The experiment results demonstrate the strength and weaknesses of prior methods, pointing promising directions for further study. Our objective is to provide the community with a large and varied benchmark to boost the advancement of long-term VOS. Data and code are available at \url{https://lingyihongfd.github.io/lvos.github.io/}.
翻訳日:2022-11-21 15:10:45 公開日:2022-11-18
# 大規模屋内シーンのための多視点逆レンダリング

Multi-view Inverse Rendering for Large-scale Real-world Indoor Scenes ( http://arxiv.org/abs/2211.10206v1 )

ライセンス: Link先を確認
Zhen Li, Lingli Wang, Mofang Cheng, Cihui Pan, Jiaqi Yang(参考訳) 本稿では,実世界の大規模室内シーンを対象とした多視点逆レンダリング手法を提案する。 大規模シーンのグローバル照明を複数の環境マップとして単純化した従来の表現とは異なり、テクスチャベース照明(TBL)と呼ばれるコンパクトな表現を提案する。 3dメッシュとhdrテクスチャで構成され、大きなシーン全体の直接および無限バウンス間接照明を効率的にモデル化する。 さらに,tblを基礎として,材料最適化の効率を著しく向上し,レンダリングノイズを緩和する,予め計算された照度を持つハイブリッド照明表現を提案する。 材料間のあいまいさを物理的に解消するために, セマンティックセグメンテーションと部屋セグメンテーションの先行に基づく3段階の材料最適化戦略を提案する。 実験の結果,提案手法は, 物質編集, 編集可能な新規ビュー合成, ライティングなど, 物理的に理性のある混合現実の応用を可能にする。 プロジェクトのページはhttps://lzleejean.github.io/IRTexにある。

We present a multi-view inverse rendering method for large-scale real-world indoor scenes that reconstructs global illumination and physically-reasonable SVBRDFs. Unlike previous representations, where the global illumination of large scenes is simplified as multiple environment maps, we propose a compact representation called Texture-based Lighting (TBL). It consists of 3D meshs and HDR textures, and efficiently models direct and infinite-bounce indirect lighting of the entire large scene. Based on TBL, we further propose a hybrid lighting representation with precomputed irradiance, which significantly improves the efficiency and alleviate the rendering noise in the material optimization. To physically disentangle the ambiguity between materials, we propose a three-stage material optimization strategy based on the priors of semantic segmentation and room segmentation. Extensive experiments show that the proposed method outperforms the state-of-the-arts quantitatively and qualitatively, and enables physically-reasonable mixed-reality applications such as material editing, editable novel view synthesis and relighting. The project page is at https://lzleejean.github.io/IRTex.
翻訳日:2022-11-21 15:10:19 公開日:2022-11-18
# ショット顕微鏡画像のセルセグメンテーションのラベル付け方法

Knowing What to Label for Few Shot Microscopy Image Cell Segmentation ( http://arxiv.org/abs/2211.10244v1 )

ライセンス: Link先を確認
Youssef Dawoud, Arij Bouazizi, Katharina Ernst, Gustavo Carneiro, Vasileios Belagiannis(参考訳) 顕微鏡画像セルセグメンテーションでは、異なる種類の顕微鏡画像を含むソースデータに基づいてディープニューラルネットワークをトレーニングし、ランダムに選択された数個のトレーニング対象画像からなるサポートセットを使用して微調整することが一般的である。 本稿では,アノテートされ,サポートセットに含まれるラベルなしの訓練対象画像のランダム選択は,効果的な微調整処理を可能としないため,この画像選択プロセスを最適化するための新しい手法を提案する。 提案手法では,新たなスコアリング機能により,手付かずの目標画像の検索を行う。 特に,特定のデータ拡張に対して対象画像のモデル予測の一貫性を測定することを提案する。 しかし、ソースデータセットでトレーニングされたモデルは、対象画像の一貫性を確実に評価しない。 この問題を軽減するために,ラベルなしの目標画像のスコアを計算するための,新しい自己教師付きプリテキストタスクを提案する。 最後に、最も一貫性の低いトップ少数の画像は、オラクル(専門家)アノテーションのサポートセットに追加され、後にターゲット画像にモデルを微調整するために使用される。 5種類の細胞画像のセグメンテーションを含む評価において、ランダム選択法やシャノンエントロピーやモンテカルロドロップアウトのような他の選択法と比較して、いくつかのターゲットテストセットに対して有望な結果を示す。

In microscopy image cell segmentation, it is common to train a deep neural network on source data, containing different types of microscopy images, and then fine-tune it using a support set comprising a few randomly selected and annotated training target images. In this paper, we argue that the random selection of unlabelled training target images to be annotated and included in the support set may not enable an effective fine-tuning process, so we propose a new approach to optimise this image selection process. Our approach involves a new scoring function to find informative unlabelled target images. In particular, we propose to measure the consistency in the model predictions on target images against specific data augmentations. However, we observe that the model trained with source datasets does not reliably evaluate consistency on target images. To alleviate this problem, we propose novel self-supervised pretext tasks to compute the scores of unlabelled target images. Finally, the top few images with the least consistency scores are added to the support set for oracle (i.e., expert) annotation and later used to fine-tune the model to the target images. In our evaluations that involve the segmentation of five different types of cell images, we demonstrate promising results on several target test sets compared to the random selection approach as well as other selection approaches, such as Shannon's entropy and Monte-Carlo dropout.
翻訳日:2022-11-21 15:10:02 公開日:2022-11-18
# インクリメンタルセマンティックセグメンテーションのためのトランスへの埋め込み

Delving into Transformer for Incremental Semantic Segmentation ( http://arxiv.org/abs/2211.10253v1 )

ライセンス: Link先を確認
Zekai Xu, Mingyi Zhang, Jiayue Hou, Xing Gong, Chuan Wen, Chengjie Wang, Junge Zhang(参考訳) インクリメンタルセマンティックセグメンテーション(ISS)は、新しいクラスを追加して古いモデルを更新する新しいタスクである。 現在、ISSでは畳み込みニューラルネットワークに基づく手法が主流である。 しかし、こうした手法は古いタスク(破滅的な忘れ)に対して優れたパフォーマンスを維持しつつ、新しいタスクを学ぶのが困難であることを研究は示している。 対照的に、Transformerベースの手法は、長期タスクと短期タスクの両方をモデル化できるため、破滅的な忘れを抑制することに自然な利点がある。 そこで本研究では,トランスフォーマティブ・アーキテクチャがissに適している理由を考察し,インクリメンタル・セグメンテーションのためのトランスフォーマ・ベースの手法であるtissを提案する。 さらに,ISS上での移動性を維持しつつ,破滅的な忘れを軽減すべく,類似した特徴を模倣し,特徴の多様性を高めるために2つのパッチワイドコントラスト損失を導入することにより,ISSの性能をさらに向上させることができる。 Pascal-VOC 2012 と ADE20K データセットによる広範な実験環境下では,本手法は最先端のインクリメンタルセマンティックセマンティックセグメンテーション法よりも優れていた。

Incremental semantic segmentation(ISS) is an emerging task where old model is updated by incrementally adding new classes. At present, methods based on convolutional neural networks are dominant in ISS. However, studies have shown that such methods have difficulty in learning new tasks while maintaining good performance on old ones (catastrophic forgetting). In contrast, a Transformer based method has a natural advantage in curbing catastrophic forgetting due to its ability to model both long-term and short-term tasks. In this work, we explore the reasons why Transformer based architecture are more suitable for ISS, and accordingly propose propose TISS, a Transformer based method for Incremental Semantic Segmentation. In addition, to better alleviate catastrophic forgetting while preserving transferability on ISS, we introduce two patch-wise contrastive losses to imitate similar features and enhance feature diversity respectively, which can further improve the performance of TISS. Under extensive experimental settings with Pascal-VOC 2012 and ADE20K datasets, our method significantly outperforms state-of-the-art incremental semantic segmentation methods.
翻訳日:2022-11-21 15:09:37 公開日:2022-11-18
# SolderNet: 説明可能な人工知能を用いた電子部品製造におけるソルダ継手の信頼できる視覚検査を目指して

SolderNet: Towards Trustworthy Visual Inspection of Solder Joints in Electronics Manufacturing Using Explainable Artificial Intelligence ( http://arxiv.org/abs/2211.10274v1 )

ライセンス: Link先を確認
Hayden Gunraj, Paul Guerrier, Sheldon Fernandez, Alexander Wong(参考訳) エレクトロニクス製造において、半田関節欠陥は様々なプリント基板部品に影響を及ぼす一般的な問題である。 はんだ関節欠損を識別・修正するために、回路基板上のはんだ関節は、通常、訓練された人間の検査官によって手動で検査される。 本研究は, 検査効率と精度の両立を図るため, 電子機器製造環境におけるはんだ接合部の視覚検査に適した深層学習型視覚品質検査システムについて述べる。 本システムの中核は,信頼と透明性を念頭に置いて設計・実装を行う,soldernetと呼ばれる説明可能なsolder joint defect identification systemである。 本研究は, 電子部品製造における半田接合部の信頼性の高い視覚検査に向けた重要な進展を示すものである。

In electronics manufacturing, solder joint defects are a common problem affecting a variety of printed circuit board components. To identify and correct solder joint defects, the solder joints on a circuit board are typically inspected manually by trained human inspectors, which is a very time-consuming and error-prone process. To improve both inspection efficiency and accuracy, in this work we describe an explainable deep learning-based visual quality inspection system tailored for visual inspection of solder joints in electronics manufacturing environments. At the core of this system is an explainable solder joint defect identification system called SolderNet which we design and implement with trust and transparency in mind. While several challenges remain before the full system can be developed and deployed, this study presents important progress towards trustworthy visual inspection of solder joints in electronics manufacturing.
翻訳日:2022-11-21 15:09:14 公開日:2022-11-18
# 視覚言語モデルのチューニングのためのタスク残差

Task Residual for Tuning Vision-Language Models ( http://arxiv.org/abs/2211.10277v1 )

ライセンス: Link先を確認
Tao Yu, Zhihe Lu, Xin Jin, Zhibo Chen, Xinchao Wang(参考訳) 数十億レベルのデータに事前訓練された大規模視覚言語モデル(VLM)は、一般的な視覚表現と広い視覚概念を学んだ。 原則として、VLMの知識構造は、限られたデータで下流タスクに転送される際に適切に継承されるべきである。 しかしながら、VLMの既存の効率的な転写学習(ETL)アプローチは、損傷するか、事前知識に過度に偏っている。例えば、即時チューニング(PT)は、事前訓練されたテキストベースの分類器を捨て、新しいものを構築する。 そこで本研究では,テキストベース分類器上で直接動作し,事前学習したモデルの事前知識と目標タスクに関する新たな知識を明示的に分離するタスク残差調整(TaskRes)という,VLMの効率的なチューニング手法を提案する。 具体的には、TaskResは、元の分類器の重みをVLMから凍結させ、初期独立パラメータのセットを元のパラメータの残余としてチューニングすることで、目標タスクの新しい分類器を取得し、信頼性の高い事前知識保存と柔軟なタスク固有の知識探索を可能にする。 提案するtaskresは単純かつ効果的であり、実装に最小限の労力を要しながら、11のベンチマークデータセットで以前のetlメソッド(例えばptとat)を著しく上回っている。 私たちのコードはhttps://github.com/geekyutao/taskresで利用可能です。

Large-scale vision-language models (VLMs) pre-trained on billion-level data have learned general visual representations and broad visual concepts. In principle, the well-learned knowledge structure of the VLMs should be inherited appropriately when being transferred to downstream tasks with limited data. However, most existing efficient transfer learning (ETL) approaches for VLMs either damage or are excessively biased towards the prior knowledge, e.g., prompt tuning (PT) discards the pre-trained text-based classifier and builds a new one while adapter-style tuning (AT) fully relies on the pre-trained features. To address this, we propose a new efficient tuning approach for VLMs named Task Residual Tuning (TaskRes), which performs directly on the text-based classifier and explicitly decouples the prior knowledge of the pre-trained models and new knowledge regarding a target task. Specifically, TaskRes keeps the original classifier weights from the VLMs frozen and obtains a new classifier for the target task by tuning a set of prior-independent parameters as a residual to the original one, which enables reliable prior knowledge preservation and flexible task-specific knowledge exploration. The proposed TaskRes is simple yet effective, which significantly outperforms previous ETL methods (e.g., PT and AT) on 11 benchmark datasets while requiring minimal effort for the implementation. Our code will be available at https://github.com/geekyutao/TaskRes.
翻訳日:2022-11-21 15:08:59 公開日:2022-11-18
# クロス一貫性とデュアルリコンストラクションによる教師なし3次元ポーズ転送

Unsupervised 3D Pose Transfer with Cross Consistency and Dual Reconstruction ( http://arxiv.org/abs/2211.10278v1 )

ライセンス: Link先を確認
Chaoyue Song, Jiacheng Wei, Ruibo Li, Fayao Liu and Guosheng Lin(参考訳) 3dポーズ転送の目標は、ターゲットメッシュのアイデンティティ情報(例えば、顔、体形)を保持しながら、ソースメッシュからターゲットメッシュにポーズを転送することである。 深層学習に基づく手法は、3Dポーズ転送の効率と性能を改善した。 しかし、それらのほとんどは、実際のシナリオでの使用に制限がある地上真理の監督の下で訓練されている。 本稿では,教師なしの3次元ポーズ転送を可能にする,単純かつ効果的なアプローチであるX-DualNetを提案する。 X-DualNetでは、3Dポーズ転送を実現するために、対応学習とポーズ転送モジュールを含むジェネレータ$G$を導入する。 キーポイントアノテーションを使わずに最適なトランスポート問題を解決することで形状対応を学び、ポーズ転送モジュールのelastic instance normalization (elain) で高品質のメッシュを生成する。 本稿では,基本的なコンポーネントとして$G$を用いて,相互整合性学習手法と2つの再構成目標を提案する。 さらに, 生成した結果の体形を微調整する訓練プロセスにおいて, as-rigid-as-possible deformer も採用した。 人間と動物のデータに関する広範な実験は、最先端の監視アプローチとして、我々のフレームワークが同等のパフォーマンスを達成できることを示しています。

The goal of 3D pose transfer is to transfer the pose from the source mesh to the target mesh while preserving the identity information (e.g., face, body shape) of the target mesh. Deep learning-based methods improved the efficiency and performance of 3D pose transfer. However, most of them are trained under the supervision of the ground truth, whose availability is limited in real-world scenarios. In this work, we present X-DualNet, a simple yet effective approach that enables unsupervised 3D pose transfer. In X-DualNet, we introduce a generator $G$ which contains correspondence learning and pose transfer modules to achieve 3D pose transfer. We learn the shape correspondence by solving an optimal transport problem without any key point annotations and generate high-quality meshes with our elastic instance normalization (ElaIN) in the pose transfer module. With $G$ as the basic component, we propose a cross consistency learning scheme and a dual reconstruction objective to learn the pose transfer without supervision. Besides that, we also adopt an as-rigid-as-possible deformer in the training process to fine-tune the body shape of the generated results. Extensive experiments on human and animal data demonstrate that our framework can successfully achieve comparable performance as the state-of-the-art supervised approaches.
翻訳日:2022-11-21 15:08:33 公開日:2022-11-18
# youtube-vis long video challenge 2022の次点ソリューション

The Runner-up Solution for YouTube-VIS Long Video Challenge 2022 ( http://arxiv.org/abs/2211.09973v1 )

ライセンス: Link先を確認
Junfeng Wu, Yi Jiang, Qihao Liu, Xiang Bai, Song Bai(参考訳) この技術レポートでは、ECCV 2022 YouTube-VIS Long Video Challengeの2位となるソリューションを説明します。 この課題には,先述したオンラインビデオインスタンスセグメンテーション手法idolを採用する。 さらに,疑似ラベルを用いてコントラスト学習をさらに支援し,フレーム間のトラッキング性能を向上させるために,より時間的に一貫性のあるインスタンス埋め込みを実現する。 提案手法は,YouTube-VIS 2022 長ビデオデータセット上で 40.2 AP を取得し,この課題において第2位となった。 我々のシンプルで効果的な方法がさらなる研究に役立つことを期待している。

This technical report describes our 2nd-place solution for the ECCV 2022 YouTube-VIS Long Video Challenge. We adopt the previously proposed online video instance segmentation method IDOL for this challenge. In addition, we use pseudo labels to further help contrastive learning, so as to obtain more temporally consistent instance embedding to improve tracking performance between frames. The proposed method obtains 40.2 AP on the YouTube-VIS 2022 long video dataset and was ranked second place in this challenge. We hope our simple and effective method could benefit further research.
翻訳日:2022-11-21 15:01:50 公開日:2022-11-18
# 音声・視覚イベント線に沿った相対正のサンプル伝搬

Contrastive Positive Sample Propagation along the Audio-Visual Event Line ( http://arxiv.org/abs/2211.09980v1 )

ライセンス: Link先を確認
Jinxing Zhou, Dan Guo, Meng Wang(参考訳) 視覚信号と音声信号はしばしば自然環境に共存し、オーディオ視覚イベント(AVE)を形成する。 AVEを含むビデオセグメントをローカライズし,そのカテゴリを同定することを目的としている。 各ビデオセグメントの識別機能を学ぶことは重要である。 本稿では,音声-視覚的特徴融合に焦点を当てた既存の研究と異なり,より深い特徴表現学習を実現するために,新たにCPSP法を提案する。 CPSPの貢献は、コントラスト学習のための正の正の正のサンプルを構成する先行として利用可能な完全または弱ラベルを導入することである。 具体的には、ペアレベル正のサンプル伝搬(PSP)、セグメントレベル、ビデオレベル正のサンプル活性化(PSA$_S$、PSA$_V$)という、包括的なコントラスト制約を含む。 3つの新しい対照的な目的 (\emph{i.e.}, $\mathcal{L}_{\text{avpsp}}$, $\mathcal{L}_\text{spsa}$, $\mathcal{L}_\text{vpsa}$) が提案され、完全に教師されたAVEローカライゼーションと弱い教師付きAVEローカライゼーションの両方に導入された。 AVEローカライゼーションにおけるコントラスト学習の全体像を描くため,自己教師型正サンプル伝搬(SSPSP)についても検討した。 その結果、CPSPは、否定と区別可能な洗練された音声視覚特徴を得るのに役立ち、分類器の予測に有用である。 AVEと新たに収集したVGGSound-AVEL100kデータセットの大規模な実験により,本手法の有効性と一般化能力が検証された。

Visual and audio signals often coexist in natural environments, forming audio-visual events (AVEs). Given a video, we aim to localize video segments containing an AVE and identify its category. It is pivotal to learn the discriminative features for each video segment. Unlike existing work focusing on audio-visual feature fusion, in this paper, we propose a new contrastive positive sample propagation (CPSP) method for better deep feature representation learning. The contribution of CPSP is to introduce the available full or weak label as a prior that constructs the exact positive-negative samples for contrastive learning. Specifically, the CPSP involves comprehensive contrastive constraints: pair-level positive sample propagation (PSP), segment-level and video-level positive sample activation (PSA$_S$ and PSA$_V$). Three new contrastive objectives are proposed (\emph{i.e.}, $\mathcal{L}_{\text{avpsp}}$, $\mathcal{L}_\text{spsa}$, and $\mathcal{L}_\text{vpsa}$) and introduced into both the fully and weakly supervised AVE localization. To draw a complete picture of the contrastive learning in AVE localization, we also study the self-supervised positive sample propagation (SSPSP). As a result, CPSP is more helpful to obtain the refined audio-visual features that are distinguishable from the negatives, thus benefiting the classifier prediction. Extensive experiments on the AVE and the newly collected VGGSound-AVEL100k datasets verify the effectiveness and generalization ability of our method.
翻訳日:2022-11-21 15:01:40 公開日:2022-11-18
# 歩行者時空間情報融合による映像異常検出

Pedestrian Spatio-Temporal Information Fusion For Video Anomaly Detection ( http://arxiv.org/abs/2211.10052v1 )

ライセンス: Link先を確認
Chao Hu, Liqiang Zhu(参考訳) そこで,現在の映像異常検出では時間的情報を十分に利用できず,正常な行動の多様性を無視できない問題に着目し,歩行者の時空間的情報を統合するための異常検出手法を提案する。 畳み込みオートエンコーダに基づいて、入力フレームを圧縮してエンコーダとデコーダを介して復元する。 出力フレームと真の値との差に応じて異常検出を実現する。 連続映像フレーム間の特性情報接続を強化するため、残留時間シフトモジュールと残留チャンネルアテンションモジュールをそれぞれ導入し、時間情報およびチャンネル情報に基づくネットワークのモデリング能力を向上させる。 畳み込みニューラルネットワークの過度な一般化により、メモリ拡張モジュールでは、各コーデック層のホッピング接続が追加され、異常フレームをあまりに活発に表現し、ネットワークの異常検出精度を向上するオートエンコーダの能力を制限する。 さらに、目的関数は、異なる正常な動作パターンを効果的に区別する特徴識別損失によって修正される。 cuhk avenue と shanghaitech のデータセットにおける実験結果から,提案手法はリアルタイム要求を満たしながら,現在主流の映像異常検出手法よりも優れていることがわかった。

Aiming at the problem that the current video anomaly detection cannot fully use the temporal information and ignore the diversity of normal behavior, an anomaly detection method is proposed to integrate the spatiotemporal information of pedestrians. Based on the convolutional autoencoder, the input frame is compressed and restored through the encoder and decoder. Anomaly detection is realized according to the difference between the output frame and the true value. In order to strengthen the characteristic information connection between continuous video frames, the residual temporal shift module and the residual channel attention module are introduced to improve the modeling ability of the network on temporal information and channel information, respectively. Due to the excessive generalization of convolutional neural networks, in the memory enhancement modules, the hopping connections of each codec layer are added to limit autoencoders' ability to represent abnormal frames too vigorously and improve the anomaly detection accuracy of the network. In addition, the objective function is modified by a feature discretization loss, which effectively distinguishes different normal behavior patterns. The experimental results on the CUHK Avenue and ShanghaiTech datasets show that the proposed method is superior to the current mainstream video anomaly detection methods while meeting the real-time requirements.
翻訳日:2022-11-21 15:01:07 公開日:2022-11-18
# コントラスト損失は教師なしビデオ要約の自然な基準である

Contrastive Losses Are Natural Criteria for Unsupervised Video Summarization ( http://arxiv.org/abs/2211.10056v1 )

ライセンス: Link先を確認
Zongshang Pang, Yuta Nakashima, Mayu Otani, Hajime Nagahara(参考訳) ビデオ要約は、効率的なビデオブラウジングを容易にするために、ビデオ内の最も有用なフレームのサブセットを選択することを目的としている。 教師なしの方法は通常、多様性や代表性といったヒューリスティックな訓練目標に依存している。 しかし、これらの手法は、重要スコア回帰の目的を計算するために、オンライン生成した要約をブートストラップする必要がある。 このようなパイプラインは非効率であると考え,表現学習文献における対比的損失の助けを借りて,フレームレベルの重要度を直接定量化することを目指す。 対照的な損失を生かして,局所的差異,グローバル一貫性,一意性という,望ましいキーフレームを特徴とする3つの指標を提案する。 画像分類タスクで事前トレーニングされた機能により、メトリクスはすでに高い品質の重要度スコアを得られ、過去の厳密なトレーニング方法よりも競争力と優れたパフォーマンスを示すことができる。 軽量なコントラスト学習プロジェクションモジュールを用いて事前学習した特徴を洗練することで、フレームレベルの重要度スコアをさらに向上させ、多数のランダムビデオを活用して、良好なパフォーマンスで映像をテストできることを示した。 コードはhttps://github.com/pangzss/pytorch-ctvsum。

Video summarization aims to select the most informative subset of frames in a video to facilitate efficient video browsing. Unsupervised methods usually rely on heuristic training objectives such as diversity and representativeness. However, such methods need to bootstrap the online-generated summaries to compute the objectives for importance score regression. We consider such a pipeline inefficient and seek to directly quantify the frame-level importance with the help of contrastive losses in the representation learning literature. Leveraging the contrastive losses, we propose three metrics featuring a desirable key frame: local dissimilarity, global consistency, and uniqueness. With features pre-trained on the image classification task, the metrics can already yield high-quality importance scores, demonstrating competitive or better performance than past heavily-trained methods. We show that by refining the pre-trained features with a lightweight contrastively learned projection module, the frame-level importance scores can be further improved, and the model can also leverage a large number of random videos and generalize to test videos with decent performance. Code available at https://github.com/pangzss/pytorch-CTVSUM.
翻訳日:2022-11-21 15:00:48 公開日:2022-11-18
# UnconFuse: 制約のない画像からアバターを復元する

UnconFuse: Avatar Reconstruction from Unconstrained Images ( http://arxiv.org/abs/2211.10098v1 )

ライセンス: Link先を確認
Han Huang, Liliang Chen, Xihao Wang(参考訳) 本報告では,ECCV 2022 WCPA Challenge: From Face, Body and Fashion to 3D Virtual Avatars I (track1: Multi-View Based 3D Human Body Reconstruction) において,複数の制約のないフレームからの3次元人体再構築を効果的に行うことを提案する。 我々は,mvp-humanで提示した再構成手法をベースラインとして再現し,この課題の特異性を改善した。 ついに、公式テストセットのスコア0.93を達成し、リーダーボードで1位を獲得しました。

The report proposes an effective solution about 3D human body reconstruction from multiple unconstrained frames for ECCV 2022 WCPA Challenge: From Face, Body and Fashion to 3D Virtual avatars I (track1: Multi-View Based 3D Human Body Reconstruction). We reproduce the reconstruction method presented in MVP-Human as our baseline, and make some improvements for the particularity of this challenge. We finally achieve the score 0.93 on the official testing set, getting the 1st place on the leaderboard.
翻訳日:2022-11-21 15:00:29 公開日:2022-11-18
# デュアルビューによるステレオ画像の降雨除去

Stereo Image Rain Removal via Dual-View Mutual Attention ( http://arxiv.org/abs/2211.10104v1 )

ライセンス: Link先を確認
Yanyan Wei, Zhao Zhang, Zhongqiu Zhao, Yang Zhao, Richang Hong, Yi Yang(参考訳) 近年,降雨除去や超解像など低視野課題の解決には,左右の視差画像を含むステレオ画像が利用されている。 ステレオ画像復元法は通常,双対ビュー間の差異を暗黙的あるいは明示的に学習することにより,単眼的手法よりも優れた性能を得る。 しかし,既存のステレオ降雨除去手法では,両視点間の補完情報を十分に活用できないため,以下の結果が得られた。 1) 雨のストリークは,方向や密度がより複雑で,補完的な情報に重大なダメージを与え,大きな課題を生じさせる。 2) 両ビュー間の特徴が不完全な融合機構のため, 差分推定は十分ではない。 このような制限を克服するために、我々は2つのビュー間の十分な相互作用を通して、新しい \underline{Stereo} \underline{I}mage \underline{R}ain \underline{R}emoval method (StereoIRR) を提案する。 1) 左右の視点を相互に重要な情報として捉え,相互注意マップを生成する新たなデュアルビュー相互注意(dma)機構により,クロスビュー特徴の融合が容易になる。 2)基本ブロックとデュアルビューの相互注意で構築された長距離・クロスビュー相互作用は,雨による補完的情報への悪影響を軽減し,ステレオ画像の特徴が長距離・クロスビュー相互作用・融合を実現するのに役立つ。 特に、StereoIRRは、いくつかのデータセットにおいて、他の関連するモノクロおよびステレオ画像雨除去方法よりも優れている。 コードとデータセットはリリースされます。

Stereo images, containing left and right view images with disparity, are utilized in solving low-vision tasks recently, e.g., rain removal and super-resolution. Stereo image restoration methods usually obtain better performance than monocular methods by learning the disparity between dual views either implicitly or explicitly. However, existing stereo rain removal methods still cannot make full use of the complementary information between two views, and we find it is because: 1) the rain streaks have more complex distributions in directions and densities, which severely damage the complementary information and pose greater challenges; 2) the disparity estimation is not accurate enough due to the imperfect fusion mechanism for the features between two views. To overcome such limitations, we propose a new \underline{Stereo} \underline{I}mage \underline{R}ain \underline{R}emoval method (StereoIRR) via sufficient interaction between two views, which incorporates: 1) a new Dual-view Mutual Attention (DMA) mechanism which generates mutual attention maps by taking left and right views as key information for each other to facilitate cross-view feature fusion; 2) a long-range and cross-view interaction, which is constructed with basic blocks and dual-view mutual attention, can alleviate the adverse effect of rain on complementary information to help the features of stereo images to get long-range and cross-view interaction and fusion. Notably, StereoIRR outperforms other related monocular and stereo image rain removal methods on several datasets. Our codes and datasets will be released.
翻訳日:2022-11-21 15:00:19 公開日:2022-11-18
# 再び$\alpha$ dart: マスク画像モデリングによる差別化可能なアーキテクチャ検索の拡張

$\alpha$ DARTS Once More: Enhancing Differentiable Architecture Search by Masked Image Modeling ( http://arxiv.org/abs/2211.10105v1 )

ライセンス: Link先を確認
Bicheng Guo, Shuxuan Guo, Miaojing Shi, Peng Chen, Shibo He, Jiming Chen, Kaicheng Yu(参考訳) 微分可能なアーキテクチャサーチ(DARTS)は自動機械学習における主流の方向である。 オリジナルのDARTSが必然的に貧弱なアーキテクチャに収束することの発見以来、最近の研究はルールベースのアーキテクチャ選択テクニックを設計するか、複雑な正規化技術を取り入れることでこれを緩和し、最大のパラメトリック値である$\alpha$に基づいてアーキテクチャを選択するオリジナルのDARTSの単純さを放棄した。 さらに,従来の試みは分類ラベルのみに依存しており,単一のモーダル情報のみを学習し,共有ネットワークの表現力を制限していた。 そこで本研究では,パッチ回復アプローチを定式化し,意味情報の追加注入を提案する。 具体的には,最近流行しているマスキング画像モデリングを活用し,検索段階で下流タスクからのガイダンスを放棄しない。 CIFAR-10, CIFAR-100, ImageNetでは, 複雑な手動設計手法を使わずに, 従来のDARTSのバリエーションを超越し, 最先端の成果が得られる。

Differentiable architecture search (DARTS) has been a mainstream direction in automatic machine learning. Since the discovery that original DARTS will inevitably converge to poor architectures, recent works alleviate this by either designing rule-based architecture selection techniques or incorporating complex regularization techniques, abandoning the simplicity of the original DARTS that selects architectures based on the largest parametric value, namely $\alpha$. Moreover, we find that all the previous attempts only rely on classification labels, hence learning only single modal information and limiting the representation power of the shared network. To this end, we propose to additionally inject semantic information by formulating a patch recovery approach. Specifically, we exploit the recent trending masked image modeling and do not abandon the guidance from the downstream tasks during the search phase. Our method surpasses all previous DARTS variants and achieves state-of-the-art results on CIFAR-10, CIFAR-100, and ImageNet without complex manual-designed strategies.
翻訳日:2022-11-21 14:59:50 公開日:2022-11-18
# 実世界のサーベイランスにおけるセマンティックセグメンテーション改善のための混合領域適応

Mixture Domain Adaptation to Improve Semantic Segmentation in Real-World Surveillance ( http://arxiv.org/abs/2211.10119v1 )

ライセンス: Link先を確認
S\'ebastien Pi\'erard, Anthony Cioppa, Ana\"is Halin, Renaud Vandeghen, Maxime Zanella, Beno\^it Macq, Sa\"id Mahmoudi, and Marc Van Droogenbroeck(参考訳) 現実世界の監視で遭遇する様々なタスクは、どの決定を下すかに基づいて後部決定(ベイズ推論や機械学習など)によって対処することができる。 しかし、監視領域(取得装置、動作条件など)はしばしば不明であり、シーン固有の最適化の可能性を防いでいる。 本稿では,確率的枠組みを定義し,非教師付き多無限領域適応のためのアルゴリズムの形式的証明を示す。 提案アルゴリズムは,対象領域に関連付けられた確率測度が,ソース領域の確率測度の凸結合である場合に適用できる。 ソースモデルとドメイン識別モデルをオフラインでトレーニングし、ターゲットドメインに適応した後部を計算します。 最後に,実世界の監視におけるセマンティックセグメンテーションの課題に対するアルゴリズムの有効性を示す。 コードはhttps://github.com/rvandeghen/MDAで公開されている。

Various tasks encountered in real-world surveillance can be addressed by determining posteriors (e.g. by Bayesian inference or machine learning), based on which critical decisions must be taken. However, the surveillance domain (acquisition device, operating conditions, etc.) is often unknown, which prevents any possibility of scene-specific optimization. In this paper, we define a probabilistic framework and present a formal proof of an algorithm for the unsupervised many-to-infinity domain adaptation of posteriors. Our proposed algorithm is applicable when the probability measure associated with the target domain is a convex combination of the probability measures of the source domains. It makes use of source models and a domain discriminator model trained off-line to compute posteriors adapted on the fly to the target domain. Finally, we show the effectiveness of our algorithm for the task of semantic segmentation in real-world surveillance. The code is publicly available at https://github.com/rvandeghen/MDA.
翻訳日:2022-11-21 14:59:29 公開日:2022-11-18
# ハイパーリレーショナル抽出のためのデータセットとキューブフィリング手法

A Dataset for Hyper-Relational Extraction and a Cube-Filling Approach ( http://arxiv.org/abs/2211.10018v1 )

ライセンス: Link先を確認
Yew Ken Chia, Lidong Bing, Sharifah Mahani Aljunied, Luo Si and Soujanya Poria(参考訳) 関係抽出は大規模知識グラフ構築の可能性を秘めているが、現在の手法では時間、量、位置などの関係三重項の等式属性は考慮していない。 修飾子は、リッチで複雑な知識グラフ構造をよりよく捉えた超関係事実を形成する。 例えば、関係三重項 (Leonard Parker, Educated At, Harvard University) は、等化子(End Time, 1967)を含むことで実数的に豊かになる。 そこで本研究では,テキストからより具体的で完全な事実を抽出するハイパーリレーショナル抽出の課題を提案する。 タスクをサポートするために、大規模で汎用的なデータセットであるhyperredを構築します。 既存のモデルは、3つの実体間の相互作用を考えるモデルを必要とするため、ハイパーリレーショナル抽出を行うことはできない。 そこで,テーブル充填法に触発された立方体充填モデルcubereを提案し,関係三重項と修飾子間の相互作用を明示的に検討する。 モデルのスケーラビリティを改善し,負のクラス不均衡を低減するため,さらに立方体刈り法を提案する。 実験の結果,CubeREは強いベースラインを上回り,今後の研究の方向性を明らかにすることができた。 コードとデータはgithub.com/declare-lab/HyperREDで利用可能です。

Relation extraction has the potential for large-scale knowledge graph construction, but current methods do not consider the qualifier attributes for each relation triplet, such as time, quantity or location. The qualifiers form hyper-relational facts which better capture the rich and complex knowledge graph structure. For example, the relation triplet (Leonard Parker, Educated At, Harvard University) can be factually enriched by including the qualifier (End Time, 1967). Hence, we propose the task of hyper-relational extraction to extract more specific and complete facts from text. To support the task, we construct HyperRED, a large-scale and general-purpose dataset. Existing models cannot perform hyper-relational extraction as it requires a model to consider the interaction between three entities. Hence, we propose CubeRE, a cube-filling model inspired by table-filling approaches and explicitly considers the interaction between relation triplets and qualifiers. To improve model scalability and reduce negative class imbalance, we further propose a cube-pruning method. Our experiments show that CubeRE outperforms strong baselines and reveal possible directions for future research. Our code and data are available at github.com/declare-lab/HyperRED.
翻訳日:2022-11-21 14:53:51 公開日:2022-11-18
# Transformer Adapterによるネイティブ言語識別のスケールアップ

Scaling Native Language Identification with Transformer Adapters ( http://arxiv.org/abs/2211.10117v1 )

ライセンス: Link先を確認
Ahmet Yavuz Uluslu and Gerold Schneider(参考訳) ネイティブ言語識別(NLI)は、学習言語における言語生成に基づいて、個人のネイティブ言語(L1)を自動的に識別するタスクである。 マーケティング、セキュリティ、教育アプリケーションなど、さまざまな用途に有用である。 NLIは通常、多ラベル分類タスクとしてフレーム化され、多くの設計された特徴が組み合わされ、最先端の結果が得られる。 近年, トランスフォーマーデコーダ(GPT-2)に基づく深層生成手法は, NLIベンチマークデータセットよりも優れ, 最高の結果を得た。 本研究では,従来のNLIシステムと比較し,本手法の有効性を検討する。 メモリ制限に対処するトランスフォーマーアダプタを導入し,NLIアプリケーションを実運用環境に拡張するためのトレーニング/推論速度を改善した。

Native language identification (NLI) is the task of automatically identifying the native language (L1) of an individual based on their language production in a learned language. It is useful for a variety of purposes including marketing, security and educational applications. NLI is usually framed as a multi-label classification task, where numerous designed features are combined to achieve state-of-the-art results. Recently deep generative approach based on transformer decoders (GPT-2) outperformed its counterparts and achieved the best results on the NLI benchmark datasets. We investigate this approach to determine the practical implications compared to traditional state-of-the-art NLI systems. We introduce transformer adapters to address memory limitations and improve training/inference speed to scale NLI applications for production.
翻訳日:2022-11-21 14:53:31 公開日:2022-11-18
# GoSum:強化学習とグラフ組織化された談話状態による長期文書の抽出要約

GoSum: Extractive Summarization of Long Documents by Reinforcement Learning and Graph Organized discourse state ( http://arxiv.org/abs/2211.10247v1 )

ライセンス: Link先を確認
Junyi Bian, Xiaodi Huang, Hong Zhou, Shanfeng Zhu(参考訳) 抽出文書要約には,長文を構造情報で扱い,要約文間の冗長性を排除することが不可欠である。 本稿では,長文要約のための強化学習に基づく抽出モデルGoSumを提案する。 GoSumは入力文書ごとに異なる談話レベルから異種グラフを構築することで状態を符号化する。 論文要約の2つのデータセット(PubMed と arXiv )でモデルを評価し,抽出的要約モデルと強力な抽象的ベースラインの大部分を上回ります。

Handling long texts with structural information and excluding redundancy between summary sentences are essential in extractive document summarization. In this work, we propose GoSum, a novel reinforcement-learning-based extractive model for long-paper summarization. GoSum encodes states by building a heterogeneous graph from different discourse levels for each input document. We evaluate the model on two datasets of scientific articles summarization: PubMed and arXiv where it outperforms all extractive summarization models and most of the strong abstractive baselines.
翻訳日:2022-11-21 14:53:18 公開日:2022-11-18
# genIUS: テキスト生成と拡張のためのエクストリームおよび選択マスキングによるスケッチベース言語モデル事前学習

GENIUS: Sketch-based Language Model Pre-training via Extreme and Selective Masking for Text Generation and Augmentation ( http://arxiv.org/abs/2211.10330v1 )

ライセンス: Link先を確認
Biyang Guo, Yeyun Gong, Yelong Shen, Songqiao Han, Hailiang Huang, Nan Duan, Weizhu Chen(参考訳) 入力としてスケッチを用いる条件付きテキスト生成モデルであるgeniusを紹介し、与えられたスケッチ(テキストのスパン、フレーズ、あるいは単語からなるキー情報で、マスクトークンで連結される)の欠落したコンテキストを埋めることができる。 GenIUSは、極端に選択的なマスキング戦略を用いてスケッチ対象から新規に再構成された大規模なテキストコーパスで事前訓練され、スケッチに与えられた多彩で高品質なテキストを生成することができる。 他の競争条件付き言語モデル(CLM)と比較すると、GENIUSのテキスト生成品質が優れていることが分かる。 さらに、さまざまな自然言語処理(NLP)タスクに対して、GENIUSは強力で使いやすいデータ拡張ツールとして使用できることを示す。 既存のテキストデータ拡張手法の多くは、オリジナルのテキストに小さな変更を加えるか、全く新しいサンプルを作成することで攻撃的すぎるか、保守的すぎる。 我々はGeniusAugを提案する。GeniusAugは最初のトレーニングセットからターゲット認識スケッチを抽出し、スケッチに基づいて新しいサンプルを生成する。 6つのテキスト分類データセットの実証実験により、GeniusAugは、分布内(ID)と分布外(OOD)の両方でモデルの性能を著しく改善することが示された。 また,名前付きエンティティ認識(ner)とmrc(machine reading comprehension)タスクにおけるgeniusaugの有効性を示す。 (コードとモデルはhttps://github.com/microsoft/SCGLab and https://github.com/beyondguo/genius)

We introduce GENIUS: a conditional text generation model using sketches as input, which can fill in the missing contexts for a given sketch (key information consisting of textual spans, phrases, or words, concatenated by mask tokens). GENIUS is pre-trained on a large-scale textual corpus with a novel reconstruction from sketch objective using an extreme and selective masking strategy, enabling it to generate diverse and high-quality texts given sketches. Comparison with other competitive conditional language models (CLMs) reveals the superiority of GENIUS's text generation quality. We further show that GENIUS can be used as a strong and ready-to-use data augmentation tool for various natural language processing (NLP) tasks. Most existing textual data augmentation methods are either too conservative, by making small changes to the original text, or too aggressive, by creating entirely new samples. With GENIUS, we propose GeniusAug, which first extracts the target-aware sketches from the original training set and then generates new samples based on the sketches. Empirical experiments on 6 text classification datasets show that GeniusAug significantly improves the models' performance in both in-distribution (ID) and out-of-distribution (OOD) settings. We also demonstrate the effectiveness of GeniusAug on named entity recognition (NER) and machine reading comprehension (MRC) tasks. (Code and models are publicly available at https://github.com/microsoft/SCGLab and https://github.com/beyondguo/genius)
翻訳日:2022-11-21 14:53:07 公開日:2022-11-18
# 知識グラフ評価のための構造的品質指標

Structural Quality Metrics to Evaluate Knowledge Graphs ( http://arxiv.org/abs/2211.10011v1 )

ライセンス: Link先を確認
Sumin Seo, Heeseon Cheon, Hyunho Kim, Dongseok Hyun(参考訳) この研究は、知識グラフの品質を測定することができる6つの構造的品質指標を示し、Web上の5つのクロスドメイン知識グラフ(Wikidata、DBpedia、YAGO、Google Knowledge Graph、Freebase)と、Naverの統合知識グラフであるRaftelを解析する。 優れた知識グラフ」は、実世界の知識を豊富に表現できるように、その存在論における詳細なクラスと特性を定義しなければならない。 また、インスタンスとrdfトリプルは、クラスとプロパティを積極的に使用する必要がある。 そこで我々は,知識グラフのスキーマであるオントロジーの構造とその利用度に着目し,知識グラフの内部品質を数値的に検討した。 分析の結果,クラス数やプロパティ数などのスケール関連の指標だけでは認識できない知識グラフの特性を見出すことができた。

This work presents six structural quality metrics that can measure the quality of knowledge graphs and analyzes five cross-domain knowledge graphs on the web (Wikidata, DBpedia, YAGO, Google Knowledge Graph, Freebase) as well as 'Raftel', Naver's integrated knowledge graph. The 'Good Knowledge Graph' should define detailed classes and properties in its ontology so that knowledge in the real world can be expressed abundantly. Also, instances and RDF triples should use the classes and properties actively. Therefore, we tried to examine the internal quality of knowledge graphs numerically by focusing on the structure of the ontology, which is the schema of knowledge graphs, and the degree of use thereof. As a result of the analysis, it was possible to find the characteristics of a knowledge graph that could not be known only by scale-related indicators such as the number of classes and properties.
翻訳日:2022-11-21 14:52:40 公開日:2022-11-18
# 非定常時系列からの特異因果ネットワークの同定

Identifying Unique Causal Network from Nonstationary Time Series ( http://arxiv.org/abs/2211.10085v1 )

ライセンス: Link先を確認
Mingyu Kang and Duxin Chen and Ning Meng and Gang Yan and Wenwu Yu(参考訳) 因果関係の特定は多くのデータ集約シナリオにおいて難しい課題である。 この重要な課題に対して多くのアルゴリズムが提案されている。 しかし、そのほとんどは、ベイズネットワーク(BN)の有向非巡回グラフ(DAG)の学習アルゴリズムを考察している。 これらのBNベースのモデルはマルコフ同値クラスの問題のため、因果説明可能性に制限があるだけである。 さらに、それらは定常性の仮定に依存するが、複素系からの多くのサンプリング時系列は非定常である。 非定常時系列はデータセットシフトの問題をもたらし、これらのアルゴリズムの不満足なパフォーマンスをもたらす。 これらのギャップを埋めるために,Unique Causal Network (UCN) という新しい因果関係モデルを提案する。 従来のBNモデルとは異なり、UCNは時間遅延の影響を考慮し、マルコフ同値クラスの問題に対処する得られたネットワーク構造の特異性を証明する。 さらに、UCNの分解性特性に基づいて、高次因果エントロピー(HCE)アルゴリズムは、UCNの構造を分散的に識別するように設計されている。 hceアルゴリズムは、非定常時系列でうまく機能するneighbors entropy estimatorを用いて因果性の強さを測定する。 最後に、HCEアルゴリズムは、他のベースラインアルゴリズムと比較して、時系列が非定常である場合の最先端の精度を実現する。

Identifying causality is a challenging task in many data-intensive scenarios. Many algorithms have been proposed for this critical task. However, most of them consider the learning algorithms for directed acyclic graph (DAG) of Bayesian network (BN). These BN-based models only have limited causal explainability because of the issue of Markov equivalence class. Moreover, they are dependent on the assumption of stationarity, whereas many sampling time series from complex system are nonstationary. The nonstationary time series bring dataset shift problem, which leads to the unsatisfactory performances of these algorithms. To fill these gaps, a novel causation model named Unique Causal Network (UCN) is proposed in this paper. Different from the previous BN-based models, UCN considers the influence of time delay, and proves the uniqueness of obtained network structure, which addresses the issue of Markov equivalence class. Furthermore, based on the decomposability property of UCN, a higher-order causal entropy (HCE) algorithm is designed to identify the structure of UCN in a distributed way. HCE algorithm measures the strength of causality by using nearest-neighbors entropy estimator, which works well on nonstationary time series. Finally, lots of experiments validate that HCE algorithm achieves state-of-the-art accuracy when time series are nonstationary, compared to the other baseline algorithms.
翻訳日:2022-11-21 14:52:23 公開日:2022-11-18
# LiSnowNet: LiDAR Point Cloudのリアルタイム除雪

LiSnowNet: Real-time Snow Removal for LiDAR Point Cloud ( http://arxiv.org/abs/2211.10023v1 )

ライセンス: Link先を確認
Ming-Yuan Yu, Ram Vasudevan, Matthew Johnson-Roberson(参考訳) LiDARは現代の自動運転車に広く採用されており、シーンや周囲の物体の3D情報を提供している。 しかし、降雪時に捕獲された点雲が容易に破損するため、気象条件の悪さはLiDARにとって大きな課題となる。 結果として発生するノイズの多いポイントクラウドは、マッピングなどの下流タスクを分解する。 雪で汚染された点雲を除去する既存の作業は、最寄りの探索に基づいており、それゆえ、通常10Hzで100k$以上の点を捉える現代のLiDARとうまくスケールしない。 本稿では,非教師付き非雑音化アルゴリズムであるlisnownetを,最先端手法よりも52$\times$高速に動作し,非雑音化性能に優れる手法を提案する。 従来の手法とは異なり、提案アルゴリズムは深層畳み込みニューラルネットワークに基づいており、GPUなどのハードウェアアクセラレータに容易にデプロイできる。 さらに, 故障点の雲であっても, 提案手法を用いてマッピングする方法を実証する。

LiDARs have been widely adopted to modern self-driving vehicles, providing 3D information of the scene and surrounding objects. However, adverser weather conditions still pose significant challenges to LiDARs since point clouds captured during snowfall can easily be corrupted. The resulting noisy point clouds degrade downstream tasks such as mapping. Existing works in de-noising point clouds corrupted by snow are based on nearest-neighbor search, and thus do not scale well with modern LiDARs which usually capture $100k$ or more points at 10Hz. In this paper, we introduce an unsupervised de-noising algorithm, LiSnowNet, running 52$\times$ faster than the state-of-the-art methods while achieving superior performance in de-noising. Unlike previous methods, the proposed algorithm is based on a deep convolutional neural network and can be easily deployed to hardware accelerators such as GPUs. In addition, we demonstrate how to use the proposed method for mapping even with corrupted point clouds.
翻訳日:2022-11-21 14:45:04 公開日:2022-11-18
# Let's Enhance: テキスト画像の極端破壊に対するディープラーニングアプローチ

Let's Enhance: A Deep Learning Approach to Extreme Deblurring of Text Images ( http://arxiv.org/abs/2211.10103v1 )

ライセンス: Link先を確認
Theophil Trippe and Martin Genzel and Jan Macdonald and Maximilian M\"arz(参考訳) 本研究は、画像劣化の逆問題に対する新しいディープラーニングベースのパイプラインを提案し、合成データによる強化と事前学習を活用する。 その結果,最近のhelsinki deblur challenge 2021において,最先端のデブラリングアルゴリズムの限界を実世界データセットで探索することを目的とした。 課題は、ランダムテキストの焦点外像を分離し、下流課題とし、光学的特徴認識に基づくスコア関数を最大化することであった。 私たちのソリューションの重要なステップは、ぼかしプロセスを記述する物理フォワードモデルのデータ駆動推定です。 これにより、提供される少量のチャレンジデータの広範囲な拡張に使用される、一対の地面とぼやけた画像をオンザフライで生成する合成データのストリームが可能になる。 実際のデブロアリングパイプラインは、ラジアルレンズ歪み(推定フォワードモデルによって決定される)の近似逆転と、エンドツーエンドにトレーニングされたU-Netアーキテクチャで構成されている。 我々のアルゴリズムは唯一の難題であり、70%以上の文字認識精度を達成した。 本研究は,データ中心機械学習のパラダイムとよく一致しており,逆問題の文脈での有効性を実証する。 本手法の詳細なプレゼンテーションとは別に,一連のアブレーション研究における設計選択の重要性も分析した。 チャレンジ提出のコードはhttps://github.com/theophil-trippe/HDC_TUBerlin_version_1で公開されています。

This work presents a novel deep-learning-based pipeline for the inverse problem of image deblurring, leveraging augmentation and pre-training with synthetic data. Our results build on our winning submission to the recent Helsinki Deblur Challenge 2021, whose goal was to explore the limits of state-of-the-art deblurring algorithms in a real-world data setting. The task of the challenge was to deblur out-of-focus images of random text, thereby in a downstream task, maximizing an optical-character-recognition-based score function. A key step of our solution is the data-driven estimation of the physical forward model describing the blur process. This enables a stream of synthetic data, generating pairs of ground-truth and blurry images on-the-fly, which is used for an extensive augmentation of the small amount of challenge data provided. The actual deblurring pipeline consists of an approximate inversion of the radial lens distortion (determined by the estimated forward model) and a U-Net architecture, which is trained end-to-end. Our algorithm was the only one passing the hardest challenge level, achieving over 70% character recognition accuracy. Our findings are well in line with the paradigm of data-centric machine learning, and we demonstrate its effectiveness in the context of inverse problems. Apart from a detailed presentation of our methodology, we also analyze the importance of several design choices in a series of ablation studies. The code of our challenge submission is available under https://github.com/theophil-trippe/HDC_TUBerlin_version_1.
翻訳日:2022-11-21 14:44:46 公開日:2022-11-18
# PET/CT画像を用いた頭頸部癌の分節・予後診断における nnU-Net と Radiomics の併用

Joint nnU-Net and Radiomics Approaches for Segmentation and Prognosis of Head and Neck Cancers with PET/CT images ( http://arxiv.org/abs/2211.10138v1 )

ライセンス: Link先を確認
Hui Xu and Yihao Li and Wei Zhao and Gwenol\'e Quellec and Lijun Lu and Mathieu Hatt(参考訳) 頭頸部癌(HNC)腫瘍とリンパ節の自動分節は、最適化治療戦略と予後解析において重要な役割を担っている。 本研究は,複数中心HNCコホートにおけるPET/CT画像を用いたRFS予測にnnU-Netを用いることを目的とする。 HECKTOR 2022では,883例(トレーニング用524例,テスト用359例)の多施設HNCデータセットが提供された。 224 x 224 x 224 $mm^{3}$。 そして3次元nnu-netアーキテクチャを用いて原発性腫瘍とリンパ節の自動分画を同期的に実施し,予測した分節に基づいて10の従来型特徴と346の標準化放射線学的特徴を抽出した。 従来型および放射能の特徴のみを含む3つの予後モデルと,多変量CoxPHモデルによる組み合わせを構築した。 統計的調和法であるComBatはマルチセンター変動を低減するために検討された。 Dice score と C-index をそれぞれセグメンテーションと予後タスクの評価指標として用いた。 セグメンテーションでは3D nnU-Netによる原発性腫瘍とリンパ節に対する平均ダイススコア0.701。 予後予測には,c-index 0.658 および 0.645 のc-index が,c-index 0.648 ではc-index が改善されなかった。

Automatic segmentation of head and neck cancer (HNC) tumors and lymph nodes plays a crucial role in the optimization treatment strategy and prognosis analysis. This study aims to employ nnU-Net for automatic segmentation and radiomics for recurrence-free survival (RFS) prediction using pretreatment PET/CT images in multi-center HNC cohort. A multi-center HNC dataset with 883 patients (524 patients for training, 359 for testing) was provided in HECKTOR 2022. A bounding box of the extended oropharyngeal region was retrieved for each patient with fixed size of 224 x 224 x 224 $mm^{3}$. Then 3D nnU-Net architecture was adopted to automatic segmentation of primary tumor and lymph nodes synchronously.Based on predicted segmentation, ten conventional features and 346 standardized radiomics features were extracted for each patient. Three prognostic models were constructed containing conventional and radiomics features alone, and their combinations by multivariate CoxPH modelling. The statistical harmonization method, ComBat, was explored towards reducing multicenter variations. Dice score and C-index were used as evaluation metrics for segmentation and prognosis task, respectively. For segmentation task, we achieved mean dice score around 0.701 for primary tumor and lymph nodes by 3D nnU-Net. For prognostic task, conventional and radiomics models obtained the C-index of 0.658 and 0.645 in the test set, respectively, while the combined model did not improve the prognostic performance with the C-index of 0.648.
翻訳日:2022-11-21 14:44:20 公開日:2022-11-18
# Magic3D:高解像度テキストから3Dコンテンツ作成

Magic3D: High-Resolution Text-to-3D Content Creation ( http://arxiv.org/abs/2211.10440v1 )

ライセンス: Link先を確認
Chen-Hsuan Lin, Jun Gao, Luming Tang, Towaki Takikawa, Xiaohui Zeng, Xun Huang, Karsten Kreis, Sanja Fidler, Ming-Yu Liu, Tsung-Yi Lin(参考訳) DreamFusionは先日,Neural Radiance Fields (NeRF) を最適化するための事前訓練されたテキスト・ツー・イメージ拡散モデルの有用性を実証した。 しかし、この方法には2つの固有の制限がある。 (a)NeRFの極端に遅い最適化 (b)NeRFにおける低解像度画像空間の監視により,低品質な3次元モデルが長い処理時間で実現された。 本稿では,2段階最適化フレームワークを用いて,これらの制約に対処する。 まず,低分解能拡散を先行して粗いモデルを求め,スパース3次元ハッシュグリッド構造を用いて高速化する。 粗い表現を初期化として、高分解能潜伏拡散モデルと相互作用する効率的な微分可能レンダラを用いて、さらにテクスチャ付き3dメッシュモデルを最適化する。 Magic3Dと呼ばれる私たちの方法は、40分で高品質な3Dメッシュモデルを作成することができ、DreamFusion(平均1.5時間)よりも2倍高速で、高解像度を実現しています。 ユーザ調査では、61.7%がDreamFusionよりも私たちのアプローチを好んでいる。 イメージコンディショニング生成機能と合わせて、3d合成を制御する新しい方法を提供し、様々なクリエイティブなアプリケーションに新しい道を開く。

DreamFusion has recently demonstrated the utility of a pre-trained text-to-image diffusion model to optimize Neural Radiance Fields (NeRF), achieving remarkable text-to-3D synthesis results. However, the method has two inherent limitations: (a) extremely slow optimization of NeRF and (b) low-resolution image space supervision on NeRF, leading to low-quality 3D models with a long processing time. In this paper, we address these limitations by utilizing a two-stage optimization framework. First, we obtain a coarse model using a low-resolution diffusion prior and accelerate with a sparse 3D hash grid structure. Using the coarse representation as the initialization, we further optimize a textured 3D mesh model with an efficient differentiable renderer interacting with a high-resolution latent diffusion model. Our method, dubbed Magic3D, can create high quality 3D mesh models in 40 minutes, which is 2x faster than DreamFusion (reportedly taking 1.5 hours on average), while also achieving higher resolution. User studies show 61.7% raters to prefer our approach over DreamFusion. Together with the image-conditioned generation capabilities, we provide users with new ways to control 3D synthesis, opening up new avenues to various creative applications.
翻訳日:2022-11-21 14:43:53 公開日:2022-11-18
# フレキシブルな代表民主主義におけるパンダリング

Pandering in a Flexible Representative Democracy ( http://arxiv.org/abs/2211.09986v1 )

ライセンス: Link先を確認
Xiaolin Sun, Jacob Masur, Ben Abramowitz, Nicholas Mattei, Zizhan Zheng(参考訳) 代表的民主主義では、通常の選挙サイクルにおける新しい代表者の選挙は、選出された役人による汚職やその他の不正行為を防ぎ、人民の意志を果たす責任を負うことを目的としている。 「この民主的理想は、この複数回又は投票ラウンドの選挙運動において、候補者が不名誉である場合に損なわれる。」 COMSOCに関する研究の多くは、単一のラウンドでのみ戦略的行動を調査している。 本稿では,選挙を希望する候補者による戦略的選好報告(emph{pandering})の新たな形式モデルを導入するとともに,2つの民主的投票システムの弾力性について検討する。 私たちが比較した2つの投票システムは、代表民主主義(RD)とフレキシブル代表民主主義(FRD)です。 それぞれの投票システムについて, 候補者が採用する戦略の種類と, 有権者が過去の候補者の考えをどのように更新するかについて, 分析を行った。 我々は, 単一サイクルの設定におけるパンデリングの複雑さに関する理論的結果を提供し, マルコフ決定過程として複数のサイクルの問題を定式化し, 強化学習を用いて, 複数のラウンドにおいて, 単一の候補と候補のグループによるパンデリングの効果を研究する。

In representative democracies, the election of new representatives in regular election cycles is meant to prevent corruption and other misbehavior by elected officials and to keep them accountable in service of the ``will of the people." This democratic ideal can be undermined when candidates are dishonest when campaigning for election over these multiple cycles or rounds of voting. Much of the work on COMSOC to date has investigated strategic actions in only a single round. We introduce a novel formal model of \emph{pandering}, or strategic preference reporting by candidates seeking to be elected, and examine the resilience of two democratic voting systems to pandering within a single round and across multiple rounds. The two voting systems we compare are Representative Democracy (RD) and Flexible Representative Democracy (FRD). For each voting system, our analysis centers on the types of strategies candidates employ and how voters update their views of candidates based on how the candidates have pandered in the past. We provide theoretical results on the complexity of pandering in our setting for a single cycle, formulate our problem for multiple cycles as a Markov Decision Process, and use reinforcement learning to study the effects of pandering by both single candidates and groups of candidates across a number of rounds.
翻訳日:2022-11-21 14:43:31 公開日:2022-11-18
# ソーシャルメディア上での個人の主観的立場を説明する

Towards Explaining Subjective Ground of Individuals on Social Media ( http://arxiv.org/abs/2211.09953v1 )

ライセンス: Link先を確認
Younghun Lee and Dan Goldwasser(参考訳) 大規模言語モデルは実世界の理解において機械と人間のギャップを減らしてきたが、個人の心と行動の理論をテキストから理解することは決して解決されていない。 本研究は、個人の主観的根拠を学習し、ソーシャルメディアに投稿された他者の状況について判断するニューラルモデル(主観的基礎的注意)を提案する。 単純な注意モジュールと過去の行動を考慮し,そのモデルが社会的状況の判断において個人の主観的嗜好を人間に読みやすく説明できることを実証的に示す。 さらに,モデルが生成する説明を定性的に評価し,モデルが個人の主観的指向を抽象的道徳概念に学習すると主張する。

Large-scale language models have been reducing the gap between machines and humans in understanding the real world, yet understanding an individual's theory of mind and behavior from text is far from being resolved. This research proposes a neural model -- Subjective Ground Attention -- that learns subjective grounds of individuals and accounts for their judgments on situations of others posted on social media. Using simple attention modules as well as taking one's previous activities into consideration, we empirically show that our model provides human-readable explanations of an individual's subjective preference in judging social situations. We further qualitatively evaluate the explanations generated by the model and claim that our model learns an individual's subjective orientation towards abstract moral concepts
翻訳日:2022-11-21 14:41:47 公開日:2022-11-18
# 影響力のある推薦システム

Influential Recommender System ( http://arxiv.org/abs/2211.10002v1 )

ライセンス: Link先を確認
Haoren Zhu, Hao Ge, Xiaodong Gu, Pengfei Zhao, Dik Lun Lee(参考訳) 従来のレコメンデーターシステムは通常、ユーザーの歴史的関心事にレコメンデーションを適応させようとするという点で受動的である。 しかし、電子商取引、広告掲載、ニュースポータルなどの商業的用途では、利用者の興味を拡大して、本来知らなかった商品を受け付けたり、顧客との交流を増すために興味を持ったりすることが望ましい。 本稿では、ユーザに慎重に選択された項目(影響経路と呼ばれる)のシーケンスを段階的に推薦することで、ユーザが対象項目を好むように積極的に導くことを目的とした新しいレコメンデーションパラダイムであるInfluential Recommender System(IRS)を提案する。 Influential Recommender Network (IRN) は、アイテムのシーケンシャル依存関係をエンコードするトランスフォーマーベースのシーケンシャルモデルである。 異なる人が外部の影響に異なる反応をするので、ユーザにとって最も効果的な影響経路を生成するために、ユーザが外部の影響を受けやすいかをモデル化するためにパーソナライズされた印象性マスク(PIM)を導入する。 IRNを評価するために,ユーザの満足度を維持しつつ,影響経路が目的項目を含むようにユーザ関心を円滑に拡大できるかどうかを測定するために,いくつかのパフォーマンス指標を設計する。 実験の結果,IRNはベースラインレコメンデータよりも優れており,ユーザの興味に影響を及ぼす能力を示している。

Traditional recommender systems are typically passive in that they try to adapt their recommendations to the user's historical interests. However, it is highly desirable for commercial applications, such as e-commerce, advertisement placement, and news portals, to be able to expand the users' interests so that they would accept items that they were not originally aware of or interested in to increase customer interactions. In this paper, we present Influential Recommender System (IRS), a new recommendation paradigm that aims to proactively lead a user to like a given objective item by progressively recommending to the user a sequence of carefully selected items (called an influence path). We propose the Influential Recommender Network (IRN), which is a Transformer-based sequential model to encode the items' sequential dependencies. Since different people react to external influences differently, we introduce the Personalized Impressionability Mask (PIM) to model how receptive a user is to external influence to generate the most effective influence path for the user. To evaluate IRN, we design several performance metrics to measure whether or not the influence path can smoothly expand the user interest to include the objective item while maintaining the user's satisfaction with the recommendation. Experimental results show that IRN significantly outperforms the baseline recommenders and demonstrates its capability of influencing users' interests.
翻訳日:2022-11-21 14:36:10 公開日:2022-11-18
# 自動コピー/ペースト攻撃によるディープニューラルネットワークの診断

Diagnostics for Deep Neural Networks with Automated Copy/Paste Attacks ( http://arxiv.org/abs/2211.10024v1 )

ライセンス: Link先を確認
Stephen Casper, Kaivalya Hariharan, Dylan Hadfield-Menell(参考訳) ディープニューラルネットワーク(DNN)は強力だが、重大なリスクをもたらすミスを犯す可能性がある。 テストセットでうまく機能するモデルは、デプロイメントの安全性を暗示しないため、欠陥を理解するための追加ツールを持つことが重要である。 敵対的な例は弱点を明らかにするのに役立つが、人間が一般化可能で行動可能な結論を導き出すことはしばしば困難である。 以前のいくつかの研究は、人間による解釈可能な攻撃を研究することでこの問題に対処した。 これらを3つのコントリビューションで構築しています。 まず,Natural Adversarial Features Using Embeddings (SNAFUE) と呼ばれる手法を導入し,非関係な誤分類を誘発するために,ある自然な画像を別の場所に貼り付ける「コピー/ペースト」攻撃を完全自動で検出する手法を提案する。 次に、ImageNet分類器をレッドチーム化して、簡単に記述可能な何百もの脆弱性を特定します。 第三に、この手法をトロヤ群を再発見しようとする他の解釈可能性ツールと比較する。 以上の結果から,SNAFUEはDNNの解釈や逆データ生成に有用であることが示唆された。 コードはhttps://github.com/thestephencasper/snafueで入手できる。

Deep neural networks (DNNs) are powerful, but they can make mistakes that pose significant risks. A model performing well on a test set does not imply safety in deployment, so it is important to have additional tools to understand its flaws. Adversarial examples can help reveal weaknesses, but they are often difficult for a human to interpret or draw generalizable, actionable conclusions from. Some previous works have addressed this by studying human-interpretable attacks. We build on these with three contributions. First, we introduce a method termed Search for Natural Adversarial Features Using Embeddings (SNAFUE) which offers a fully-automated method for finding "copy/paste" attacks in which one natural image can be pasted into another in order to induce an unrelated misclassification. Second, we use this to red team an ImageNet classifier and identify hundreds of easily-describable sets of vulnerabilities. Third, we compare this approach with other interpretability tools by attempting to rediscover trojans. Our results suggest that SNAFUE can be useful for interpreting DNNs and generating adversarial data for them. Code is available at https://github.com/thestephencasper/snafue
翻訳日:2022-11-21 14:35:43 公開日:2022-11-18
# クラスタリングに基づくマルウェア変種検出のためのOpcodeグラフ生成

Clustering based opcode graph generation for malware variant detection ( http://arxiv.org/abs/2211.10048v1 )

ライセンス: Link先を確認
Kar Wai Fok, Vrizlynn L. L. Thing(参考訳) マルウェアは、サイバー空間の脅威アクターが攻撃に活用する鍵となる手段だ。 市場には数多くの商用ソリューションがあり、マルウェアの検出と防御の課題に取り組むための重要な科学的研究がある。 同時に、攻撃者は、既存のソリューションにとってますます困難になるように、多形および変成的マルウェアを作成する能力も向上させる。 この問題に対処するため,マルウェア検出と家族帰属を行う手法を提案する。 提案手法は,まず,各群におけるマルウェアからのオプコード抽出を行い,それぞれのオプコードグラフを構築する。 我々は,Opcodeグラフ上のクラスタリングアルゴリズムを用いて,同一のマルウェアファミリー内のマルウェアのクラスタを検出する。 このようなクラスターは異なるサブグループに属すると見なすことができる。 検出されたクラスタ毎にOpcodeグラフシグネチャが構築される。 そのため、各マルウェアファミリーに対して、その家族を表す署名のグループを生成する。 これらの署名は、未知のサンプルを良性またはマルウェアファミリーに属するものと分類するために使用される。 本手法は,多数のマルウェアファミリーに属する良性ファイルとマルウェアサンプルの両方からなるデータセットを用いて実験を行い,その結果を既存手法と比較することによって評価する。

Malwares are the key means leveraged by threat actors in the cyber space for their attacks. There is a large array of commercial solutions in the market and significant scientific research to tackle the challenge of the detection and defense against malwares. At the same time, attackers also advance their capabilities in creating polymorphic and metamorphic malwares to make it increasingly challenging for existing solutions. To tackle this issue, we propose a methodology to perform malware detection and family attribution. The proposed methodology first performs the extraction of opcodes from malwares in each family and constructs their respective opcode graphs. We explore the use of clustering algorithms on the opcode graphs to detect clusters of malwares within the same malware family. Such clusters can be seen as belonging to different sub-family groups. Opcode graph signatures are built from each detected cluster. Hence, for each malware family, a group of signatures is generated to represent the family. These signatures are used to classify an unknown sample as benign or belonging to one the malware families. We evaluate our methodology by performing experiments on a dataset consisting of both benign files and malware samples belonging to a number of different malware families and comparing the results to existing approach.
翻訳日:2022-11-21 14:35:22 公開日:2022-11-18
# 畳み込みニューラルネットワークを用いたモノのインターネットへの侵入検出

Intrusion Detection in Internet of Things using Convolutional Neural Networks ( http://arxiv.org/abs/2211.10062v1 )

ライセンス: Link先を確認
Martin Kodys, Zhi Lu, Kar Wai Fok, Vrizlynn L. L. Thing(参考訳) IoT(Internet of Things)は,アセットトラッキングやリソース監視,自動化といった業界のニーズを満たすための,一般的なパラダイムになっています。 セキュリティメカニズムはIoTデバイスのデプロイ中に無視されることが多いため、高度な技術を使用した複雑で大規模な侵入攻撃によって、より容易に攻撃される。 人工知能(AI)は、サイバーセキュリティコミュニティによって、このような攻撃を自動的に識別するために過去10年間使われてきた。 しかし、IoTに特化した侵入検知システム(IDS)については、ディープラーニング手法はまだ広く研究されていない。 最近の研究はLSTMのような時系列モデルに基づいており、この問題に自然に適さないため、CNNでは研究が不足している。 本稿では,CNNを用いたIoTデバイスへの侵入攻撃に対する新しい解決策を提案する。 データは畳み込み操作としてエンコードされ、cnnによる攻撃検出に有用な時間に沿ってセンサーデータからパターンをキャプチャする。 提案手法は,検出性能を評価するResNetとEfficientNetの2つの古典的CNNと統合されている。 実験の結果, LSTMを用いたベースラインと比較して, 真正率, 偽正率ともに有意な改善が認められた。

Internet of Things (IoT) has become a popular paradigm to fulfil needs of the industry such as asset tracking, resource monitoring and automation. As security mechanisms are often neglected during the deployment of IoT devices, they are more easily attacked by complicated and large volume intrusion attacks using advanced techniques. Artificial Intelligence (AI) has been used by the cyber security community in the past decade to automatically identify such attacks. However, deep learning methods have yet to be extensively explored for Intrusion Detection Systems (IDS) specifically for IoT. Most recent works are based on time sequential models like LSTM and there is short of research in CNNs as they are not naturally suited for this problem. In this article, we propose a novel solution to the intrusion attacks against IoT devices using CNNs. The data is encoded as the convolutional operations to capture the patterns from the sensors data along time that are useful for attacks detection by CNNs. The proposed method is integrated with two classical CNNs: ResNet and EfficientNet, where the detection performance is evaluated. The experimental results show significant improvement in both true positive rate and false positive rate compared to the baseline using LSTM.
翻訳日:2022-11-21 14:35:02 公開日:2022-11-18
# まれだが人気がある:ネットワーク異常検出のためのラベル付きデータセットからの証拠と意味

Rare Yet Popular: Evidence and Implications from Labeled Datasets for Network Anomaly Detection ( http://arxiv.org/abs/2211.10129v1 )

ライセンス: Link先を確認
Jose Manuel Navarro, Alexis Huet and Dario Rossi(参考訳) 異常検出研究は一般的に、データセットやストリーム内の異常値を自動的に検出するように設計されたアルゴリズムやエンドツーエンドシステムを提案する。 より良い評価のためのアルゴリズムやメトリクスの定義に関する文献は多いが、それらが評価される根拠となる真実の品質は、ほとんど疑問視されない。 本稿では,ネットワーク環境の文脈において,データが本質的に時間的・多変量的であり,特に空間的特性を呈し,私たちの知る限りでは,最初に探索を行うネットワーク環境において,利用可能な公開的(および私たちのプライベートな)基底真理を体系的に分析する。 解析の結果, 異常は時間的に稀な事象であるが, 空間的特徴から, 異常が比較的多いことが明らかとなった。 簡単なクラスタリングによって2x-10xの要素で人間のラベリングの必要性を減らし、自然界で最初に定量的に分析できることがわかりました。

Anomaly detection research works generally propose algorithms or end-to-end systems that are designed to automatically discover outliers in a dataset or a stream. While literature abounds concerning algorithms or the definition of metrics for better evaluation, the quality of the ground truth against which they are evaluated is seldom questioned. In this paper, we present a systematic analysis of available public (and additionally our private) ground truth for anomaly detection in the context of network environments, where data is intrinsically temporal, multivariate and, in particular, exhibits spatial properties, which, to the best of our knowledge, we are the first to explore. Our analysis reveals that, while anomalies are, by definition, temporally rare events, their spatial characterization clearly shows some type of anomalies are significantly more popular than others. We find that simple clustering can reduce the need for human labeling by a factor of 2x-10x, that we are first to quantitatively analyze in the wild.
翻訳日:2022-11-21 14:34:44 公開日:2022-11-18
# carlaシミュレータに導入した安全力場を利用した合理的自律運転政策

Rationale-aware Autonomous Driving Policy utilizing Safety Force Field implemented on CARLA Simulator ( http://arxiv.org/abs/2211.10237v1 )

ライセンス: Link先を確認
Ho Suk, Taewoo Kim, Hyungbin Park, Pamul Yadav, Junyong Lee, and Shiho Kim(参考訳) 近年の自動運転技術の急速な進歩にもかかわらず、自動車メーカーはSAE J3016レベル3以上の自動運転車を商業化する責任問題を解決しなければならない。 製品責任法に対応するため、製造者はiso 26262やiso 21448といった国際安全基準に準拠した自動運転システムを開発する。 iso 26262における意図された機能(sotif)要件の安全性に関して、運転方針は、操作決定に対する明確な合理的根拠を提供することを推奨している。 この場合、決定の解釈可能性を有する安全力場(SFF)や責任感性安全(RSS)などの数学的モデルが適している可能性がある。 本研究ではSFFをスクラッチから実装し、NVIDIAのソースコードを置換し、CARLAオープンソースシミュレータと統合する。 sffとcarlaを用いて,要求された車両群を予測し,その予測者に基づいて,動的交通を通り抜ける際の安全条件によらず,一貫して運転する統合運転方針を提案する。 この政策は、各条件ごとに個別の計画を持っていないが、安全電位を用いて、交通流に混入した人間のような運転を目標としている。

Despite the rapid improvement of autonomous driving technology in recent years, automotive manufacturers must resolve liability issues to commercialize autonomous passenger car of SAE J3016 Level 3 or higher. To cope with the product liability law, manufacturers develop autonomous driving systems in compliance with international standards for safety such as ISO 26262 and ISO 21448. Concerning the safety of the intended functionality (SOTIF) requirement in ISO 26262, the driving policy recommends providing an explicit rational basis for maneuver decisions. In this case, mathematical models such as Safety Force Field (SFF) and Responsibility-Sensitive Safety (RSS) which have interpretability on decision, may be suitable. In this work, we implement SFF from scratch to substitute the undisclosed NVIDIA's source code and integrate it with CARLA open-source simulator. Using SFF and CARLA, we present a predictor for claimed sets of vehicles, and based on the predictor, propose an integrated driving policy that consistently operates regardless of safety conditions it encounters while passing through dynamic traffic. The policy does not have a separate plan for each condition, but using safety potential, it aims human-like driving blended in with traffic flow.
翻訳日:2022-11-21 14:34:25 公開日:2022-11-18
# インシデント、問題、変数によるAIリスクの索引付け

Indexing AI Risks with Incidents, Issues, and Variants ( http://arxiv.org/abs/2211.10384v1 )

ライセンス: Link先を確認
Sean McGregor, Kevin Paeth, Khoa Lam(参考訳) AIインシデントデータベース(AIID)を世界中のAIが生み出した害の集合として公開してから2年が経ち、そのインシデント摂取基準を満たしない「問題」のバックログがレビューキューに蓄積されている。 データベースの現在のインシデント基準をパスしていないにもかかわらず、これらの問題はAIが危害をもたらす可能性を人間に理解させる。 航空やコンピュータセキュリティのデータベースと同様に、AIIDはAIインシデント(害事象または危害事象)と問題(害事象のリスク)をインデクシングするための2段階のシステムを採用することを提案している。 さらに、機械学習ベースのシステムによっては、時に多数のインシデントが発生するため、インシデント"変種"の概念が導入される。 これらの変更は、2000以上のインシデントレポートの編集から学んだ教訓と、新たなカテゴリの「イシュー」に該当する追加報告に応えて、AIIDが新しいバージョンに移行したことを示している。

Two years after publicly launching the AI Incident Database (AIID) as a collection of harms or near harms produced by AI in the world, a backlog of "issues" that do not meet its incident ingestion criteria have accumulated in its review queue. Despite not passing the database's current criteria for incidents, these issues advance human understanding of where AI presents the potential for harm. Similar to databases in aviation and computer security, the AIID proposes to adopt a two-tiered system for indexing AI incidents (i.e., a harm or near harm event) and issues (i.e., a risk of a harm event). Further, as some machine learning-based systems will sometimes produce a large number of incidents, the notion of an incident "variant" is introduced. These proposed changes mark the transition of the AIID to a new version in response to lessons learned from editing 2,000+ incident reports and additional reports that fall under the new category of "issue."
翻訳日:2022-11-21 14:33:52 公開日:2022-11-18
# 測地および球面射影による双曲スライスワッサーシュタイン

Hyperbolic Sliced-Wasserstein via Geodesic and Horospherical Projections ( http://arxiv.org/abs/2211.10066v1 )

ライセンス: Link先を確認
Cl\'ement Bonet, Laetitia Chapel, Lucas Drumetz, Nicolas Courty(参考訳) これは、双曲空間に埋め込まれる基盤となる階層構造を示す多くの種類のデータにとって有益であることが示されている。 その結果、機械学習の多くのツールがそのような空間に拡張されたが、それらの空間上で定義された確率分布を比較するための相違は少ない。 考えられる候補のうち、最適輸送距離はそのようなリーマン多様体上でよく定義され、強い理論的性質を享受するが、計算コストが高い。 ユークリッド空間では、1次元のワッサーシュタイン距離の閉形式を利用するスライスされたワッサーシュタイン距離はより計算的に効率的であるが、双曲空間では容易に利用できない。 本研究では,新しい双曲型スライスワッサーシュタインの相違点の導出を提案する。 これらの構造は、ホロスフィアや測地線に沿って下層の測地線を投影する。 サンプリングや画像分類など,双曲表現が関係するタスクについて検討し,比較する。

It has been shown beneficial for many types of data which present an underlying hierarchical structure to be embedded in hyperbolic spaces. Consequently, many tools of machine learning were extended to such spaces, but only few discrepancies to compare probability distributions defined over those spaces exist. Among the possible candidates, optimal transport distances are well defined on such Riemannian manifolds and enjoy strong theoretical properties, but suffer from high computational cost. On Euclidean spaces, sliced-Wasserstein distances, which leverage a closed-form of the Wasserstein distance in one dimension, are more computationally efficient, but are not readily available on hyperbolic spaces. In this work, we propose to derive novel hyperbolic sliced-Wasserstein discrepancies. These constructions use projections on the underlying geodesics either along horospheres or geodesics. We study and compare them on different tasks where hyperbolic representations are relevant, such as sampling or image classification.
翻訳日:2022-11-21 14:33:09 公開日:2022-11-18
# DexPoint: Sim-to-Real Dexterous Manipulationのための一般化可能なポイントクラウド強化学習

DexPoint: Generalizable Point Cloud Reinforcement Learning for Sim-to-Real Dexterous Manipulation ( http://arxiv.org/abs/2211.09423v2 )

ライセンス: Link先を確認
Yuzhe Qin, Binghao Huang, Zhao-Heng Yin, Hao Su, Xiaolong Wang(参考訳) 実世界において同一のカテゴリの新しいオブジェクトに一般化できるデクスタース操作のためのsim-to-realフレームワークを提案する。 私たちのフレームワークの鍵は、ポイントクラウド入力と巧妙な手による操作ポリシーのトレーニングです。 複数物体の連立学習とシム・トゥ・リアルの一般化を実現するための2つの新しい手法を提案する。 (i)想像上の手指の雲を追加入力として用いること。 (二 新規接触報酬を設計すること。) 本手法はシミュレーションと実世界の両方において新しい物体を把握できるアレグロハンドを用いて実験的に評価する。 我々の知る限りでは、このような一般化結果を巧妙な手で達成する最初のポリシー学習ベースのフレームワークである。 私たちのプロジェクトページはhttps://yzqin.github.io/dexpointで閲覧できます。

We propose a sim-to-real framework for dexterous manipulation which can generalize to new objects of the same category in the real world. The key of our framework is to train the manipulation policy with point cloud inputs and dexterous hands. We propose two new techniques to enable joint learning on multiple objects and sim-to-real generalization: (i) using imagined hand point clouds as augmented inputs; and (ii) designing novel contact-based rewards. We empirically evaluate our method using an Allegro Hand to grasp novel objects in both simulation and real world. To the best of our knowledge, this is the first policy learning-based framework that achieves such generalization results with dexterous hands. Our project page is available at https://yzqin.github.io/dexpoint
翻訳日:2022-11-21 14:32:53 公開日:2022-11-18
# 高速応答のためのSARデータに基づく深層学習に基づく地すべり密度の推定

Deep learning based landslide density estimation on SAR data for rapid response ( http://arxiv.org/abs/2211.10338v1 )

ライセンス: Link先を確認
Vanessa Boehm, Wei Ji Leong, Ragini Bal Mahesh, Ioannis Prapas, Edoardo Nemni, Freddie Kalaitzis, Siddha Ganju, Raul Ramos-Pollan(参考訳) 本研究の目的は,SAR(Synthetic Aperture Radar)衛星画像を用いて地すべり密度の推定を行い,迅速な応答を優先することである。 2017年9月20日にプエルトリコで発生したハリケーン・マルユイアの後、専門家が注釈を付けた米国地質調査所(usgs)の地すべり目録データと、降水、土壌水分、地質学的特徴、水路や道路の近さなどの広範な追加情報を用いたその後の感受性調査を用いている。 このようなデータは,他のイベントや地域では利用できないため,高度データとsarデータのみを用いて地すべり密度マップを作成し,迅速な対応シナリオにおいて意思決定者に役立つようにした。 usgs地すべり目録には71,431個の地すべりヘッドの座標が含まれており、航空画像と衛星画像の手動検査によって得られた。 地すべりの約45\%はセンチネル-1の典型的なピクセルよりも小さいと見積もられているが、多くは長くて薄く、おそらく複数のピクセルにまたがる痕跡を残している。 本手法は,高度データのみを用いてチップレベルでの正確な密度推定クラス (128$\times $128 pixels, at sentinel-1 resolution) を予測して0.814 aucを得る。 アメリカ地質調査所 (USGS Susceptibility Study) は 0.87 AUC を報告しているが、地すべりレベルで測定され、急激な緊急シナリオでは定期的に利用できないかもしれない追加の情報ソース(流路、道路、降水など)を使用する。

This work aims to produce landslide density estimates using Synthetic Aperture Radar (SAR) satellite imageries to prioritise emergency resources for rapid response. We use the United States Geological Survey (USGS) Landslide Inventory data annotated by experts after Hurricane Mar\'ia in Puerto Rico on Sept 20, 2017, and their subsequent susceptibility study which uses extensive additional information such as precipitation, soil moisture, geological terrain features, closeness to waterways and roads, etc. Since such data might not be available during other events or regions, we aimed to produce a landslide density map using only elevation and SAR data to be useful to decision-makers in rapid response scenarios. The USGS Landslide Inventory contains the coordinates of 71,431 landslide heads (not their full extent) and was obtained by manual inspection of aerial and satellite imagery. It is estimated that around 45\% of the landslides are smaller than a Sentinel-1 typical pixel which is 10m $\times$ 10m, although many are long and thin, probably leaving traces across several pixels. Our method obtains 0.814 AUC in predicting the correct density estimation class at the chip level (128$\times$128 pixels, at Sentinel-1 resolution) using only elevation data and up to three SAR acquisitions pre- and post-hurricane, thus enabling rapid assessment after a disaster. The USGS Susceptibility Study reports a 0.87 AUC, but it is measured at the landslide level and uses additional information sources (such as proximity to fluvial channels, roads, precipitation, etc.) which might not regularly be available in an rapid response emergency scenario.
翻訳日:2022-11-21 14:26:48 公開日:2022-11-18
# 拡散ドリーム分布シフトによる不変学習

Invariant Learning via Diffusion Dreamed Distribution Shifts ( http://arxiv.org/abs/2211.10370v1 )

ライセンス: Link先を確認
Priyatham Kattakinda, Alexander Levine, Soheil Feizi(参考訳) 背景は画像分類において重要な信号であるが, 背景と背景の急激な相関がテスト時に破られると, 過度に依存すると誤った予測につながる可能性がある。 これらの相関がバイアスのないデータセットのトレーニングは、より堅牢なモデルにつながる。 本稿では,D3S(Diffusion Dreamed Distribution Shifts)と呼ばれるデータセットを提案する。 d3sは、テキストプロンプトを用いた安定拡散により生成された合成画像と、背景テンプレート画像にサンプル前景画像を貼り付けた画像ガイドとからなる。 このスケーラブルなアプローチを使用して、1000のImageNetクラスのオブジェクトの120Kイメージを10の異なるバックグラウンドで生成します。 拡散モデルの驚くべきフォトリアリズムのため、我々の画像は従来の合成データセットよりもはるかに自然画像に近い。 d3sには、mturk研究でラベルが人間によって検証された17k以上の画像の検証セットが含まれている。 検証セットを用いて、一般的なDNN画像分類器を複数評価し、モデルの分類性能が一般的に背景の多様な画像にかかっていることを確認する。 次に、D3Sにおける前景と背景のラベルを利用して、前景(背景)の特徴と背景(背景)のラベルとの相互情報を解析することにより、背景(背景)の変化に不変な前景(背景)表現を学習する。 前景(バックグラウンド)から前景(バックグラウンド)を予測するために訓練された線形分類器は82.9%(93.8%)の精度が高いが、背景と前景からこれらのラベルを予測する分類器は、それぞれ2.4%と45.6%の精度が低い。 これは、フォアグラウンドとバックグラウンドの機能がうまく絡み合っていることを示唆している。 さらに,強い相関関係を持つタスクにおいて,これらの表現の有効性を,分類器の訓練により検証する。

Though the background is an important signal for image classification, over reliance on it can lead to incorrect predictions when spurious correlations between foreground and background are broken at test time. Training on a dataset where these correlations are unbiased would lead to more robust models. In this paper, we propose such a dataset called Diffusion Dreamed Distribution Shifts (D3S). D3S consists of synthetic images generated through StableDiffusion using text prompts and image guides obtained by pasting a sample foreground image onto a background template image. Using this scalable approach we generate 120K images of objects from all 1000 ImageNet classes in 10 diverse backgrounds. Due to the incredible photorealism of the diffusion model, our images are much closer to natural images than previous synthetic datasets. D3S contains a validation set of more than 17K images whose labels are human-verified in an MTurk study. Using the validation set, we evaluate several popular DNN image classifiers and find that the classification performance of models generally suffers on our background diverse images. Next, we leverage the foreground & background labels in D3S to learn a foreground (background) representation that is invariant to changes in background (foreground) by penalizing the mutual information between the foreground (background) features and the background (foreground) labels. Linear classifiers trained on these features to predict foreground (background) from foreground (background) have high accuracies at 82.9% (93.8%), while classifiers that predict these labels from background and foreground have a much lower accuracy of 2.4% and 45.6% respectively. This suggests that our foreground and background features are well disentangled. We further test the efficacy of these representations by training classifiers on a task with strong spurious correlations.
翻訳日:2022-11-21 14:26:07 公開日:2022-11-18
# 自動運転車の脅威:ユニバーサル・レイン排除攻撃

Potential Auto-driving Threat: Universal Rain-removal Attack ( http://arxiv.org/abs/2211.09959v1 )

ライセンス: Link先を確認
Jinchegn Hu, Jihao Li, Zhuoran Hou, Jingjing Jiang, Cunjia Liu and Yuanjian Zhang(参考訳) 悪天候条件における堅牢性の問題は、自律運転の応募者にとってコンピュータビジョンアルゴリズムにとって重要な課題であると考えられている。 画像雨量除去アルゴリズムはこの問題の一般的な解決策である。 彼らは、隠れた特徴をマイニングし、ニューラルネットワークの強力な表現能力に基づいて雨のない環境に関する情報を復元することで、雨滴/雨裂と画像の深い関係を見出す。 しかし、以前の研究はアーキテクチャの革新に焦点を当てており、ニューラルネットワークにすでに存在する脆弱性の問題をまだ検討していない。 この研究のギャップは、雨の中における自動運転のインテリジェントな認識に向けた潜在的なセキュリティの脅威を示唆している。 本稿では,シーン復元の類似性と画像品質を著しく低減する非付加的な空間摂動を生成することにより,画像雨除去アルゴリズムの脆弱性に対する共通雨除去攻撃(URA)を提案する。 特に、この摂動は人間の認識が困難であり、異なる対象画像に対しても同じである。 したがって、URAは画像雨除去アルゴリズムの脆弱性検出にとって重要なツールであると考えられる。 また、現実世界の人工知能攻撃方法として開発することもできる。 実験の結果、uraはシーン修復能力を39.5%、画像生成品質を26.4%削減でき、現在利用可能な最先端の雨除去アルゴリズムをターゲットとしている。

The problem of robustness in adverse weather conditions is considered a significant challenge for computer vision algorithms in the applicants of autonomous driving. Image rain removal algorithms are a general solution to this problem. They find a deep connection between raindrops/rain-streaks and images by mining the hidden features and restoring information about the rain-free environment based on the powerful representation capabilities of neural networks. However, previous research has focused on architecture innovations and has yet to consider the vulnerability issues that already exist in neural networks. This research gap hints at a potential security threat geared toward the intelligent perception of autonomous driving in the rain. In this paper, we propose a universal rain-removal attack (URA) on the vulnerability of image rain-removal algorithms by generating a non-additive spatial perturbation that significantly reduces the similarity and image quality of scene restoration. Notably, this perturbation is difficult to recognise by humans and is also the same for different target images. Thus, URA could be considered a critical tool for the vulnerability detection of image rain-removal algorithms. It also could be developed as a real-world artificial intelligence attack method. Experimental results show that URA can reduce the scene repair capability by 39.5% and the image generation quality by 26.4%, targeting the state-of-the-art (SOTA) single-image rain-removal algorithms currently available.
翻訳日:2022-11-21 14:25:33 公開日:2022-11-18
# 畳み込みニューラルネットワークの普遍的性質

Universal Property of Convolutional Neural Networks ( http://arxiv.org/abs/2211.09983v1 )

ライセンス: Link先を確認
Geonho Hwang, Myungjoo Kang(参考訳) 関数の集合が特定の関数空間で任意の関数を近似できるかどうかの普遍近似は、ニューラルネットワークの著しい発展のために近年活発に研究されている。 しかし、その広範な使用にもかかわらず、畳み込みニューラルネットワークの普遍的性質の研究はその複雑な性質のために制限されている。 本稿では,畳み込みニューラルネットワークに対する普遍近似定理を実証する。 パディングを伴う畳み込みは入力データと同じ形状のデータを出力するので、畳み込みからなる畳み込みニューラルネットワークがそのような関数を近似できるかどうかを証明する必要がある。 畳み込みニューラルネットワークは,入力値と出力値が同じ形状の連続関数を近似できることを示した。 さらに,近似に必要なニューラルネットワークの最小深さを示し,最適値であることが証明された。 また,チャネル数が制限された場合,十分に深い層を持つ畳み込みニューラルネットワークが普遍性を有することを検証した。

Universal approximation, whether a set of functions can approximate an arbitrary function in a specific function space, has been actively studied in recent years owing to the significant development of neural networks. However, despite its extensive use, research on the universal properties of the convolutional neural network has been limited due to its complex nature. In this regard, we demonstrate the universal approximation theorem for convolutional neural networks. A convolution with padding outputs the data of the same shape as the input data; therefore, it is necessary to prove whether a convolutional neural network composed of convolutions can approximate such a function. We have shown that convolutional neural networks can approximate continuous functions whose input and output values have the same shape. In addition, the minimum depth of the neural network required for approximation was presented, and we proved that it is the optimal value. We also verified that convolutional neural networks with sufficiently deep layers have universality when the number of channels is limited.
翻訳日:2022-11-21 14:24:44 公開日:2022-11-18
# 購読型市場における欠陥の推定 : 学術出版業界からの実証分析

Estimating defection in subscription-type markets: empirical analysis from the scholarly publishing industry ( http://arxiv.org/abs/2211.09970v1 )

ライセンス: Link先を確認
Michael Roberts and J. Ignacio Deza and Hisham Ihshaish and Yanhui Zhu(参考訳) 本稿では,学術出版業界における顧客チャーン予測に関する最初の実証研究を行う。 本研究は,大手学術出版社が提供した6.5年間の顧客購読データに対する予測手法について検討した。 顧客欠陥やモデリングの文脈においてサブスクリプション型市場を探求し、そのような市場のビジネスモデルの分析を行い、学術出版事業をどう特徴づけるかを考察する。 提案手法は, コンテンツダウンロードの量と頻度を, 利用者が再サンプリングした提供者資源の使用量に基づいて, 顧客欠陥の可能性を推定する手法である。 学術的なビジネスモデルが類似点を共有するビジネス・ツー・ビジネス・コンテキストにおいて,このアプローチは正確かつ一意に有用であることを示す。 本研究の主な知見は,調査されたすべての予測モデル,特に機械学習のアンサンブル手法が,1年近く先にあるチャーンをかなり正確に予測する一方で,各顧客確率に関連づけられる特定の行動属性が見過ごされても,さらに達成可能であることを示唆している。 最小可能なデータからchurnの高精度な推論を可能にする。 消費行動を特徴付ける高い粒度を考慮する場合よりも、サブスクリプション時間によるリソース使用の再サンプリングに基づくチャーンモデリングの方が、より(単純化された)アプローチであることを示す。

We present the first empirical study on customer churn prediction in the scholarly publishing industry. The study examines our proposed method for prediction on a customer subscription data over a period of 6.5 years, which was provided by a major academic publisher. We explore the subscription-type market within the context of customer defection and modelling, and provide analysis of the business model of such markets, and how these characterise the academic publishing business. The proposed method for prediction attempts to provide inference of customer's likelihood of defection on the basis of their re-sampled use of provider resources -in this context, the volume and frequency of content downloads. We show that this approach can be both accurate as well as uniquely useful in the business-to-business context, with which the scholarly publishing business model shares similarities. The main findings of this work suggest that whilst all predictive models examined, especially ensemble methods of machine learning, achieve substantially accurate prediction of churn, nearly a year ahead, this can be furthermore achieved even when the specific behavioural attributes that can be associated to each customer probability to churn are overlooked. Allowing as such highly accurate inference of churn from minimal possible data. We show that modelling churn on the basis of re-sampling customers' use of resources over subscription time is a better (simplified) approach than when considering the high granularity that can often characterise consumption behaviour.
翻訳日:2022-11-21 14:23:52 公開日:2022-11-18
# パス独立平衡モデルによるテスト時間計算の改善

Path Independent Equilibrium Models Can Better Exploit Test-Time Computation ( http://arxiv.org/abs/2211.09961v1 )

ライセンス: Link先を確認
Cem Anil, Ashwini Pokle, Kaiqu Liang, Johannes Treutlein, Yuhuai Wu, Shaojie Bai, Zico Kolter, Roger Grosse(参考訳) より難しい問題インスタンスへの一般化を促進するためには,推論予算の増大による性能向上が可能なネットワークの設計が重要である。 近年、深さ方向のリカレントネットワークを利用することで、この方向への有望な結果が得られている。 均衡モデルと呼ばれるアーキテクチャの幅広いクラスは、強い上向きの一般化を示しており、より厳密な例(正しい推論の繰り返しが必要)のより強い性能は、システムの経路独立性(初期化に関係なく同じ定常的な振る舞いに収束する傾向)と強く相関していることが分かる。 経路独立を促進するための実験的介入により、より難しい問題インスタンスの一般化が向上し、その能力は低下する。 分布内性能のよい平衡モデルの場合、分布外サンプルの経路独立性は精度と強く相関する。 この結果から、平衡モデルがより高次に一般化できる理由を説明し、拡張性のあるテスト時間利用を容易にするため、経路独立を一般的なモデリング原理として活用する将来の取り組みを動機付けている。

Designing networks capable of attaining better performance with an increased inference budget is important to facilitate generalization to harder problem instances. Recent efforts have shown promising results in this direction by making use of depth-wise recurrent networks. We show that a broad class of architectures named equilibrium models display strong upwards generalization, and find that stronger performance on harder examples (which require more iterations of inference to get correct) strongly correlates with the path independence of the system -- its tendency to converge to the same steady-state behaviour regardless of initialization, given enough computation. Experimental interventions made to promote path independence result in improved generalization on harder problem instances, while those that penalize it degrade this ability. Path independence analyses are also useful on a per-example basis: for equilibrium models that have good in-distribution performance, path independence on out-of-distribution samples strongly correlates with accuracy. Our results help explain why equilibrium models are capable of strong upwards generalization and motivates future work that harnesses path independence as a general modelling principle to facilitate scalable test-time usage.
翻訳日:2022-11-21 14:17:01 公開日:2022-11-18
# ロバストダイバージェンス委員会によるクエリによるアクティブラーニング

Active Learning by Query by Committee with Robust Divergences ( http://arxiv.org/abs/2211.10013v1 )

ライセンス: Link先を確認
Hideitsu Hino and Shinto Eguchi(参考訳) 能動学習は測定コストの高い様々な問題に対して広く用いられている方法論である。 アクティブラーニングでは、取得機能により測定対象の次のオブジェクトを選択し、順次測定を行う。 委員会によるクエリはよく知られた買収機能である。 従来の手法では、委員会の不一致はkullback-leiblerの発散によって定量化される。本論文では、不一致の尺度は、kullback-leiblerの発散を例に含むbregmanの発散と、2つの$\gamma$-powerの発散によって定義される。 ブレグマン分岐の特定のクラスとして、$\beta$-divergenceが考慮される。 影響関数を導出することにより,提案手法である$\beta$-divergence と dual $\gamma$-power divergence は,kullback-leibler divergence によって不一致の測度が定義される従来の方法よりも頑健であることを示す。 実験の結果,提案手法は従来手法と同等以上の性能を示した。

Active learning is a widely used methodology for various problems with high measurement costs. In active learning, the next object to be measured is selected by an acquisition function, and measurements are performed sequentially. The query by committee is a well-known acquisition function. In conventional methods, committee disagreement is quantified by the Kullback--Leibler divergence. In this paper, the measure of disagreement is defined by the Bregman divergence, which includes the Kullback--Leibler divergence as an instance, and the dual $\gamma$-power divergence. As a particular class of the Bregman divergence, the $\beta$-divergence is considered. By deriving the influence function, we show that the proposed method using $\beta$-divergence and dual $\gamma$-power divergence are more robust than the conventional method in which the measure of disagreement is defined by the Kullback--Leibler divergence. Experimental results show that the proposed method performs as well as or better than the conventional method.
翻訳日:2022-11-21 14:16:41 公開日:2022-11-18
# $k$-meansの漸近

Asymptotics for The $k$-means ( http://arxiv.org/abs/2211.10015v1 )

ライセンス: Link先を確認
Tonglin Zhang(参考訳) k$-meansは統計学や計算機科学において最も重要な教師なし学習技術の1つである。 目的はデータセットを多くのクラスタに分割することであり、クラスタ内の観測が最も均一であり、クラスタ間の観測が最も均一である。 知られているが、漸近性の研究ははるかに遅れており、実際はより正確な$k$-means法を開発するのが困難である。 この問題に対処するため,クラスタリング一貫性という新しい概念が提案されている。 提案したクラスタリング一貫性は,クラスタリング手法の以前の基準整合性よりも適切である。 この概念を用いて,新しい$k$-means法を提案する。 提案した$k$-means法はクラスタリングエラー率が低く,既存の$k$-means法よりも小さなクラスタやアウトレーヤに対して堅牢であることがわかった。 ギャップ統計を用いて、$k$が未知である場合、提案手法はクラスタの数を識別することもできる。 これは、多くのソフトウェアパッケージで採用されている既存の$k$-meansメソッドで実現されることはめったにない。

The $k$-means is one of the most important unsupervised learning techniques in statistics and computer science. The goal is to partition a data set into many clusters, such that observations within clusters are the most homogeneous and observations between clusters are the most heterogeneous. Although it is well known, the investigation of the asymptotic properties is far behind, leading to difficulties in developing more precise $k$-means methods in practice. To address this issue, a new concept called clustering consistency is proposed. Fundamentally, the proposed clustering consistency is more appropriate than the previous criterion consistency for the clustering methods. Using this concept, a new $k$-means method is proposed. It is found that the proposed $k$-means method has lower clustering error rates and is more robust to small clusters and outliers than existing $k$-means methods. When $k$ is unknown, using the Gap statistics, the proposed method can also identify the number of clusters. This is rarely achieved by existing $k$-means methods adopted by many software packages.
翻訳日:2022-11-21 14:16:21 公開日:2022-11-18
# 回帰フィードフォワードニューラルネットワークのグローバル定量的ロバスト性

Global quantitative robustness of regression feed-forward neural networks ( http://arxiv.org/abs/2211.10124v1 )

ライセンス: Link先を確認
Tino Werner(参考訳) ニューラルネットワークは多くの複雑な学習タスクに必須のモデルクラスである。 ニューラルネットワークの人気と重要性、およびトレーニングの安定化と堅牢化のための文献からの多くの異なる確立された技術にもかかわらず、頑健な統計学からの古典的な概念は、ニューラルネットワークの文脈ではめったに考えられていない。 そこで,回帰的ブレークダウンポイントの概念を回帰ニューラルネットワークに適用し,異なるフィードフォワードネットワーク構成と汚染設定のブレークダウンポイントを計算する。 広範にわたるシミュレーション研究において,非破壊的かつ頑健なフィードフォワードニューラルネットワークの故障率とトレーニングステップのプロキシにより,サンプル外損失によって測定された性能を,異なる構成のプレソラで比較した。 この結果は、ニューラルネットワークトレーニングにロバストな損失関数を使用する動機となった。

Neural networks are an indispensable model class for many complex learning tasks. Despite the popularity and importance of neural networks and many different established techniques from literature for stabilization and robustification of the training, the classical concepts from robust statistics have rarely been considered so far in the context of neural networks. Therefore, we adapt the notion of the regression breakdown point to regression neural networks and compute the breakdown point for different feed-forward network configurations and contamination settings. In an extensive simulation study, we compare the performance, measured by the out-of-sample loss, by a proxy of the breakdown rate and by the training steps, of non-robust and robust regression feed-forward neural networks in a plethora of different configurations. The results indeed motivate to use robust loss functions for neural network training.
翻訳日:2022-11-21 14:16:07 公開日:2022-11-18
# 大気質推定のための深いガウス過程

Deep Gaussian Processes for Air Quality Inference ( http://arxiv.org/abs/2211.10174v1 )

ライセンス: Link先を確認
Aadesh Desai, Eshan Gujarathi, Saagar Parikh, Sachin Yadav, Zeel Patel, Nipun Batra(参考訳) 大気汚染は年間約700万人が死亡し、約40億人が有害な大気汚染にさらされている。 大気汚染の制御と低減には、精密できめ細かい大気質監視(AQ)が不可欠である。 しかし、AQ局の配備は少ないため、監視されていない場所の空気質の推測が重要である。 従来の補間法は複雑なAQ現象を学ばない。 この研究は、ディープガウス過程モデル(DGP)がAQ推論のタスクの有望なモデルであることを示す。 我々はDGPアルゴリズムであるDouubly Stochastic Variational Inferenceを実装し、最先端のモデルに適合して動作することを示す。

Air pollution kills around 7 million people annually, and approximately 2.4 billion people are exposed to hazardous air pollution. Accurate, fine-grained air quality (AQ) monitoring is essential to control and reduce pollution. However, AQ station deployment is sparse, and thus air quality inference for unmonitored locations is crucial. Conventional interpolation methods fail to learn the complex AQ phenomena. This work demonstrates that Deep Gaussian Process models (DGPs) are a promising model for the task of AQ inference. We implement Doubly Stochastic Variational Inference, a DGP algorithm, and show that it performs comparably to the state-of-the-art models.
翻訳日:2022-11-21 14:15:52 公開日:2022-11-18
# モデルに基づく因果ベイズ最適化

Model-based Causal Bayesian Optimization ( http://arxiv.org/abs/2211.10257v1 )

ライセンス: Link先を確認
Scott Sussex and Anastasiia Makarova and Andreas Krause(参考訳) 未知の構造因果モデルにどう介入すれば、下流の興味のある変数を最大化できるのか? この相互結合変数の出力の最適化は因果ベイズ最適化(cbo)としても知られ、医学、生態学、製造における重要な応用となっている。 標準ベイズ最適化アルゴリズムは、基礎となる因果構造を効果的に活用できない。 既存のCBOアプローチはノイズレス測定を前提としており、保証はない。 モデルベース因果ベイズ最適化(mcbo, model-based causal bayesian optimization, モデルベース因果ベイズ最適化)を提案する。 mcboはグラフを通じて因果メカニズムに関する認識論的不確かさを広め、楽観主義原理を通じて探索と搾取をトレードオフする。 累積的後悔とCBOに対する最初の非漸近的限界を得る。 標準的なベイズ最適化とは異なり、我々の取得関数は閉形式では評価できないので、勾配に基づく最適化に適用するために再パラメータ化のトリックをどのように利用できるかを示す。 実証的には、MCBOは既存の最先端のアプローチと良好に比較できる。

How should we intervene on an unknown structural causal model to maximize a downstream variable of interest? This optimization of the output of a system of interconnected variables, also known as causal Bayesian optimization (CBO), has important applications in medicine, ecology, and manufacturing. Standard Bayesian optimization algorithms fail to effectively leverage the underlying causal structure. Existing CBO approaches assume noiseless measurements and do not come with guarantees. We propose model-based causal Bayesian optimization (MCBO), an algorithm that learns a full system model instead of only modeling intervention-reward pairs. MCBO propagates epistemic uncertainty about the causal mechanisms through the graph and trades off exploration and exploitation via the optimism principle. We bound its cumulative regret, and obtain the first non-asymptotic bounds for CBO. Unlike in standard Bayesian optimization, our acquisition function cannot be evaluated in closed form, so we show how the reparameterization trick can be used to apply gradient-based optimizers. Empirically we find that MCBO compares favorably with existing state-of-the-art approaches.
翻訳日:2022-11-21 14:15:41 公開日:2022-11-18
# 畳み込みガウスニューラルプロセスを用いた環境センサ配置のためのアクティブラーニング

Active Learning with Convolutional Gaussian Neural Processes for Environmental Sensor Placement ( http://arxiv.org/abs/2211.10381v1 )

ライセンス: Link先を確認
Tom R. Andersson, Wessel P. Bruinsma, Stratis Markou, Daniel C. Jones, J. Scott Hosking, James Requeima, Alejandro Coca-Castro, Anna Vaughan, Anna-Louise Ellis, Matthew Lazzara, Richard E. Turner(参考訳) 環境測定ステーションの展開は、特に南極のような遠隔地やアクセスが難しい地域では、コストと時間のかかる作業である。 したがって、センサを可能な限り効率的に配置することが重要であり、測定のインフォメーション性を最大化する。 敬礼配置位置を特定する以前のアプローチは、典型的にはガウス過程(gp)でデータをモデル化する。 しかし,非定常時空間データの複雑な挙動を捉えるgp共分散の設計は難しい課題である。 さらに、これらのモデルの計算コストは、大規模な環境データセットへのスケールを困難にしている。 本研究では,畳み込み型ガウスニューラルプロセス(ConvGNP)を用いてこれらの問題に対処する。 ConvGNPは、ニューラルネットワークを使用してGP予測をパラメータ化するメタ学習モデルである。 私たちのモデルはデータ駆動、フレキシブル、効率的で、グリッドまたはオフグリッドの入力データを許可しています。 南極上空の模擬表面温度場を地表面事実として、予測性能において、ConvGNPが非定常GPベースラインを大幅に上回っていることを示す。 次に,ConvGNPを用いて温度センサ配置玩具実験を行い,有望な結果を得た。

Deploying environmental measurement stations can be a costly and time consuming procedure, especially in regions which are remote or otherwise difficult to access, such as Antarctica. Therefore, it is crucial that sensors are placed as efficiently as possible, maximising the informativeness of their measurements. Previous approaches for identifying salient placement locations typically model the data with a Gaussian process (GP). However, designing a GP covariance which captures the complex behaviour of non-stationary spatiotemporal data is a difficult task. Further, the computational cost of these models make them challenging to scale to large environmental datasets. In this work, we explore using convolutional Gaussian neural processes (ConvGNPs) to address these issues. A ConvGNP is a meta-learning model which uses a neural network to parameterise a GP predictive. Our model is data-driven, flexible, efficient, and permits gridded or off-grid input data. Using simulated surface temperature fields over Antarctica as ground truth, we show that a ConvGNP substantially outperforms a non-stationary GP baseline in terms of predictive performance. We then use the ConvGNP in a temperature sensor placement toy experiment, yielding promising results.
翻訳日:2022-11-21 14:15:22 公開日:2022-11-18
# Mirror Sinkhorn: トランスポートポリトープの高速オンライン最適化

Mirror Sinkhorn: Fast Online Optimization on Transport Polytopes ( http://arxiv.org/abs/2211.10420v1 )

ライセンス: Link先を確認
Marin Ballu, Quentin Berthet(参考訳) 最適転送は機械学習において重要なツールとして生まれ、データの幾何学的性質を捉えることができる。 輸送ポリトープの線形プログラムとして定式化されている。 このセットでの凸最適化の問題は、OTと、ポイントクラウド登録のような複数の関連するものの両方を含む。 本研究では、シンクホーン行列スケーリングとミラー降下を利用して、この領域の凸目標を最小化する最適化アルゴリズムを提案する。 このアルゴリズムはオンラインで実行でき、ノイズに適応し、堅牢である。 凸関数を最小化するためのアルゴリズムの収束率の数学的解析と、合成データおよび実世界のデータに対するその性能を示す実験を提供する。

Optimal transport has arisen as an important tool in machine learning, allowing to capture geometric properties of the data. It is formulated as a linear program on transport polytopes. The problem of convex optimization on this set includes both OT and multiple related ones, such as point cloud registration. We present in this work an optimization algorithm that utilizes Sinkhorn matrix scaling and mirror descent to minimize convex objectives on this domain. This algorithm can be run online and is both adaptive and robust to noise. A mathematical analysis of the convergence rate of the algorithm for minimising convex functions is provided, as well as experiments that illustrate its performance on synthetic data and real-world data.
翻訳日:2022-11-21 14:15:03 公開日:2022-11-18
# 低照度シナリオにおける軌道予測にマルチストリーム情報融合を利用するマルチチャネルグラフ畳み込み手法

Leveraging Multi-stream Information Fusion for Trajectory Prediction in Low-illumination Scenarios: A Multi-channel Graph Convolutional Approach ( http://arxiv.org/abs/2211.10226v1 )

ライセンス: Link先を確認
Hailong Gong, Zirui Li, Chao Lu, Guodong Du, Jianwei Gong(参考訳) 軌道予測は自動運転車の基本的な問題であり課題である。 初期の研究は主に、低照度環境での深層学習に基づく予測モデルのための複雑なアーキテクチャの設計に重点を置いていた。 本稿では,画像,光流,物体軌道情報を柔軟に統合するマルチストリーム情報融合を利用して,低照度シナリオにおける軌道予測手法を提案する。 画像チャネルは畳み込みニューラルネットワーク(cnn)とlong short-term memory(lstm)ネットワークを使用して、カメラから時間情報を抽出する。 光流路は、隣接するカメラフレーム間の相対運動パターンを捕捉し、空間時間グラフ畳み込みネットワーク(ST-GCN)でモデル化する。 軌道チャネルは、車両間の高レベル相互作用を認識するために使用される。 最後に, 予測モジュールに3つのチャネルの情報を効果的に融合させて, 低照度条件下で周辺車両の将来の軌跡を生成する。 提案する多チャンネルグラフ畳み込み手法はhev-iと新たに生成されたダークhev-i,エゴセントリックビジョンデータセットで検証される。 その結果,本手法は標準および低照度シナリオにおいてベースラインよりも優れていた。 さらに,このアプローチは汎用的であり,知覚データの種類が異なるシナリオに適用可能である。 提案されたアプローチのソースコードはhttps://github.com/TommyGong08/MSIF}{https://github.com/TommyGong08/MSIFで入手できる。

Trajectory prediction is a fundamental problem and challenge for autonomous vehicles. Early works mainly focused on designing complicated architectures for deep-learning-based prediction models in normal-illumination environments, which fail in dealing with low-light conditions. This paper proposes a novel approach for trajectory prediction in low-illumination scenarios by leveraging multi-stream information fusion, which flexibly integrates image, optical flow, and object trajectory information. The image channel employs Convolutional Neural Network (CNN) and Long Short-term Memory (LSTM) networks to extract temporal information from the camera. The optical flow channel is applied to capture the pattern of relative motion between adjacent camera frames and modelled by Spatial-Temporal Graph Convolutional Network (ST-GCN). The trajectory channel is used to recognize high-level interactions between vehicles. Finally, information from all the three channels is effectively fused in the prediction module to generate future trajectories of surrounding vehicles in low-illumination conditions. The proposed multi-channel graph convolutional approach is validated on HEV-I and newly generated Dark-HEV-I, egocentric vision datasets that primarily focus on urban intersection scenarios. The results demonstrate that our method outperforms the baselines, in standard and low-illumination scenarios. Additionally, our approach is generic and applicable to scenarios with different types of perception data. The source code of the proposed approach is available at https://github.com/TommyGong08/MSIF}{https://github.com/TommyGong08/MSIF.
翻訳日:2022-11-21 14:08:42 公開日:2022-11-18
# SPARQLニューラルマシン翻訳における知識ベース要素処理のコピー機構

A Copy Mechanism for Handling Knowledge Base Elements in SPARQL Neural Machine Translation ( http://arxiv.org/abs/2211.10271v1 )

ライセンス: Link先を確認
Rose Hirigoyen, Amal Zouaq and Samuel Reyd(参考訳) 英語からSPARQLへのニューラルマシン翻訳(NMT)モデルは、SPARQLクエリ生成のための有望な開発である。 しかしながら、現在のアーキテクチャでは、知識ベース(KB)スキーマを統合することができず、トレーニング中に見つからない知識リソース、クラス、プロパティに関する質問を処理することができません。 自然言語処理タスクのパフォーマンス向上に触発されて、この問題に対処する手段として、ニューラルネットワークSPARQLクエリ生成のためのコピー機構を統合することを提案する。 2つのseq2seqアーキテクチャ(cnnsとtransformer)にコピー層と動的知識ベース語彙を追加することで,提案手法を提案する。 このレイヤは、モデルが生成するのではなく、質問から直接kb要素をコピーする。 我々は、未知KB要素を参照するデータセットを含む最先端データセットに対するアプローチを評価し、コピー拡張アーキテクチャの精度を測定する。 その結果,非コピーアーキテクチャと比較して,すべてのデータセットのパフォーマンスが大幅に向上した。

Neural Machine Translation (NMT) models from English to SPARQL are a promising development for SPARQL query generation. However, current architectures are unable to integrate the knowledge base (KB) schema and handle questions on knowledge resources, classes, and properties unseen during training, rendering them unusable outside the scope of topics covered in the training set. Inspired by the performance gains in natural language processing tasks, we propose to integrate a copy mechanism for neural SPARQL query generation as a way to tackle this issue. We illustrate our proposal by adding a copy layer and a dynamic knowledge base vocabulary to two Seq2Seq architectures (CNNs and Transformers). This layer makes the models copy KB elements directly from the questions, instead of generating them. We evaluate our approach on state-of-the-art datasets, including datasets referencing unknown KB elements and measure the accuracy of the copy-augmented architectures. Our results show a considerable increase in performance on all datasets compared to non-copy architectures.
翻訳日:2022-11-21 14:08:16 公開日:2022-11-18
# オープンドメイン質問応答のためのエンコーダの早期融合を活用したグローバルな確率空間の構築

FiE: Building a Global Probability Space by Leveraging Early Fusion in Encoder for Open-Domain Question Answering ( http://arxiv.org/abs/2211.10147v1 )

ライセンス: Link先を確認
Akhil Kedia, Mohd Abbas Zaidi, Haejun Lee(参考訳) 生成モデル(generative models)は、オープンドメインの質問応答において、抽出モデルよりも優れ始めており、主に、デコーダを活用して複数のエンコードされたパッセーションに出席し、情報を結合することで実現している。 しかし、生成モデルはデコーダを必要とするため抽出モデルよりも大きい傾向にあり、自己回帰デコーダビーム探索による推論中に動作が遅くなり、生成された出力はしばしば幻覚に苦しむ。 本稿では,複数のパスから情報をヒューズできるトランスフォーマティブエンコーダを拡張し,グローバル表現を用いてサンプル間の全トークンにクロスサンプルの注意を向ける手法を提案する。 さらに,全サンプルのグローバル空間における回答スコアを集計するために,代替回答スパン確率計算を提案する。 提案手法を用いた場合,提案手法は,パラメータの25~$$と推論時のレイテンシの35~$$,webquestionsデータセットの4.4〜$で,自然質問データセットの正確なマッチングスコアが2.5ドルと,現在の最先端手法を上回っている。 合成データ拡張と組み合わせると、triviaqaデータセットのより大きなモデルよりも優れています。 我々の手法のレイテンシとパラメータの節約は、これらのモデルがしばしば計算集約であるため、オープンドメインの質問応答にとって特に魅力的である。

Generative models have recently started to outperform extractive models in Open Domain Question Answering, largely by leveraging their decoder to attend over multiple encoded passages and combining their information. However, generative models tend to be larger than extractive models due to the need for a decoder, run slower during inference due to auto-regressive decoder beam search, and their generated output often suffers from hallucinations. We propose to extend transformer encoders with the ability to fuse information from multiple passages, using global representation to provide cross-sample attention over all tokens across samples. Furthermore, we propose an alternative answer span probability calculation to better aggregate answer scores in the global space of all samples. Using our proposed method, we outperform the current state-of-the-art method by $2.5$ Exact Match score on the Natural Question dataset while using only $25\%$ of parameters and $35\%$ of the latency during inference, and $4.4$ Exact Match on WebQuestions dataset. When coupled with synthetic data augmentation, we outperform larger models on the TriviaQA dataset as well. The latency and parameter savings of our method make it particularly attractive for open-domain question answering, as these models are often compute-intensive.
翻訳日:2022-11-21 14:07:59 公開日:2022-11-18
# 対照的な知識グラフ誤り検出

Contrastive Knowledge Graph Error Detection ( http://arxiv.org/abs/2211.10030v1 )

ライセンス: Link先を確認
Qinggang Zhang, Junnan Dong, Keyu Duan, Xiao Huang, Yezi Liu, Linchuan Xu(参考訳) 知識グラフ(KG)エラーは無視できないノイズを引き起こし、KG関連下流タスクに深刻な影響を及ぼす。 KGsにおけるエラーの検出は、エラーのパターンが未知で多様であるため困難である。 伝統的な解法は、三重項を検証する論理規則を構築することであるが、異なるKGがドメイン知識を持つ異なる規則を持つため、一般化はできない。 近年の研究では、KG埋め込み損失に基づく調整型検出器やランキングトリプルの設計に焦点が当てられている。 しかし、それらはすべてトレーニングのために負のサンプルに依存しており、既存のトリプルの頭部や尾部をランダムに置き換えることで生成される。 このような負のサンプリング戦略は、例えば(Bruce_Lee, place_of_birth, China)のような実用的なKGエラーをプロトタイピングするのに十分ではない。 我々は、KGエラー検出に適した、より効果的な教師なし学習機構を求めている。 そこで我々は,新しいフレームワークであるContrAstive Knowledge Graph Error Detection (CAGED)を提案する。 KG学習に対照的な学習を導入し、KGモデリングの新しい方法を提供する。 従来の設定に従う代わりに、ノードとしてエンティティを、セマンティックエッジとしてリレーションを考慮し、CAGEDはノードとして各リレーショナルトリプルについて、KGを異なるハイパービューに拡張する。 KG埋め込みと対照的な学習損失の併用訓練の後、CAGEDは2つの学習信号、すなわち多視点における三重表現の一貫性と三重項内の自己整合性に基づいて、各三重項の信頼性を評価する。 3つの実世界のKGの大規模な実験により、CAGEDはKGエラー検出における最先端の手法より優れていることが示された。 私たちのコードとデータセットはhttps://github.com/qing145/caged.gitで利用可能です。

Knowledge Graph (KG) errors introduce non-negligible noise, severely affecting KG-related downstream tasks. Detecting errors in KGs is challenging since the patterns of errors are unknown and diverse, while ground-truth labels are rare or even unavailable. A traditional solution is to construct logical rules to verify triples, but it is not generalizable since different KGs have distinct rules with domain knowledge involved. Recent studies focus on designing tailored detectors or ranking triples based on KG embedding loss. However, they all rely on negative samples for training, which are generated by randomly replacing the head or tail entity of existing triples. Such a negative sampling strategy is not enough for prototyping practical KG errors, e.g., (Bruce_Lee, place_of_birth, China), in which the three elements are often relevant, although mismatched. We desire a more effective unsupervised learning mechanism tailored for KG error detection. To this end, we propose a novel framework - ContrAstive knowledge Graph Error Detection (CAGED). It introduces contrastive learning into KG learning and provides a novel way of modeling KG. Instead of following the traditional setting, i.e., considering entities as nodes and relations as semantic edges, CAGED augments a KG into different hyper-views, by regarding each relational triple as a node. After joint training with KG embedding and contrastive learning loss, CAGED assesses the trustworthiness of each triple based on two learning signals, i.e., the consistency of triple representations across multi-views and the self-consistency within the triple. Extensive experiments on three real-world KGs show that CAGED outperforms state-of-the-art methods in KG error detection. Our codes and datasets are available at https://github.com/Qing145/CAGED.git.
翻訳日:2022-11-21 14:07:08 公開日:2022-11-18
# なぜ擬似ラベルに基づくアルゴリズムが有効か? --擬似ラベルデータの観点から

Why pseudo label based algorithm is effective? --from the perspective of pseudo labeled data ( http://arxiv.org/abs/2211.10039v1 )

ライセンス: Link先を確認
Zeping Min, Cheng Tai(参考訳) 近年,擬似ラベルに基づく半教師付き学習が多くの分野で大きな成功を収めている。 擬似ラベルに基づく半教師付き学習アルゴリズムの基本的な考え方は、ラベル付きデータで訓練されたモデルを使用してラベル付きデータ上で擬似ラベルを生成し、以前に生成された擬似ラベルに適合するようにモデルを訓練することである。 本稿では,擬似ラベルに基づく半教師付き学習がなぜ有効なのかを理論的に分析する。 主に2つの設定で訓練されたモデルの一般化誤差を比較し,(1)ラベル付きデータが存在する。 (2)n個のラベルのないデータと適切な初期モデルがある。 まず,ラベルなしデータの量が無限大になりがちである場合,擬似ラベル付き半教師付き学習アルゴリズムは,ラベル付きデータの量が無限大になりがちである条件下で正規にトレーニングして得られるモデルと同じ一般化誤差上限を持つモデルを得ることができることを示す。 さらに重要なことは、ラベル付きデータの量が十分に大きい場合、擬似ラベルに基づく半教師付き学習アルゴリズムによって得られたモデルの一般化誤差上限が線形収束率で最適上限に収束できることである。 また,線形収束率を達成するために,サンプリング複雑性の上限を低くする。 本分析は,擬似ラベルに基づく半教師あり学習における経験的成功の理解に寄与する。

Recently, pseudo label based semi-supervised learning has achieved great success in many fields. The core idea of the pseudo label based semi-supervised learning algorithm is to use the model trained on the labeled data to generate pseudo labels on the unlabeled data, and then train a model to fit the previously generated pseudo labels. We give a theory analysis for why pseudo label based semi-supervised learning is effective in this paper. We mainly compare the generalization error of the model trained under two settings: (1) There are N labeled data. (2) There are N unlabeled data and a suitable initial model. Our analysis shows that, firstly, when the amount of unlabeled data tends to infinity, the pseudo label based semi-supervised learning algorithm can obtain model which have the same generalization error upper bound as model obtained by normally training in the condition of the amount of labeled data tends to infinity. More importantly, we prove that when the amount of unlabeled data is large enough, the generalization error upper bound of the model obtained by pseudo label based semi-supervised learning algorithm can converge to the optimal upper bound with linear convergence rate. We also give the lower bound on sampling complexity to achieve linear convergence rate. Our analysis contributes to understanding the empirical successes of pseudo label-based semi-supervised learning.
翻訳日:2022-11-21 14:06:39 公開日:2022-11-18
# Pyrocumulonimbus(PyroCb)の原因の同定

Identifying the Causes of Pyrocumulonimbus (PyroCb) ( http://arxiv.org/abs/2211.08883v3 )

ライセンス: Link先を確認
Emiliano D\'iaz Salas-Porras, Kenza Tazi, Ashwin Braude, Daniel Okoh, Kara D. Lamb, Duncan Watson-Parris, Paula Harder and Nis Meinert(参考訳) ピロCb(極端の山火事から発生する吹雪雲)の観測データから,最初の因果発見分析を行った。 Invariant Causal Predictionは、pyroCb形成の因果的要因を理解するためのツールの開発に使用された。 これには、バイナリ変数$Y$とマルチ変数に対して$X$が与えられた$E$の条件付き独立性テスト、連続変数$X$と$E$の条件付き独立性テスト、より小さな条件付き独立性テストに依存するgreedy-ICP検索アルゴリズムが含まれます。 これらのツールを用いて, 表面感受性熱流束, 相対湿度850ドルhPa, 風の成分250ドルhPa, マイクロメーター13.3ドル, 熱放射, 対流可能なポテンシャルエネルギー, 高度の7つの因果予測器のサブセットを同定した。

A first causal discovery analysis from observational data of pyroCb (storm clouds generated from extreme wildfires) is presented. Invariant Causal Prediction was used to develop tools to understand the causal drivers of pyroCb formation. This includes a conditional independence test for testing $Y$ conditionally independent of $E$ given $X$ for binary variable $Y$ and multivariate, continuous variables $X$ and $E$, and a greedy-ICP search algorithm that relies on fewer conditional independence tests to obtain a smaller more manageable set of causal predictors. With these tools, we identified a subset of seven causal predictors which are plausible when contrasted with domain knowledge: surface sensible heat flux, relative humidity at $850$ hPa, a component of wind at $250$ hPa, $13.3$ micro-meters, thermal emissions, convective available potential energy, and altitude.
翻訳日:2022-11-21 14:06:16 公開日:2022-11-18
# スタイン変分勾配降下のための有限粒子収束速度

A Finite-Particle Convergence Rate for Stein Variational Gradient Descent ( http://arxiv.org/abs/2211.09721v2 )

ライセンス: Link先を確認
Jiaxin Shi and Lester Mackey(参考訳) スタイン変分勾配降下(svgd)に対する最初の有限粒子収束率を示す。 具体的には、ターゲット分布がリプシッツスコアのサブガウジアンである場合、n個の粒子と適切なステップサイズシーケンスを持つsvgdは、カーネルスタインの不一致を1/sqrt(log log n)レートでゼロにする。 n への依存度が向上し、我々の明示的で非漸近的な証明戦略が将来の改良のテンプレートになることを期待している。

We provide a first finite-particle convergence rate for Stein variational gradient descent (SVGD). Specifically, whenever the target distribution is sub-Gaussian with a Lipschitz score, SVGD with n particles and an appropriate step size sequence drives the kernel Stein discrepancy to zero at an order 1/sqrt(log log n) rate. We suspect that the dependence on n can be improved, and we hope that our explicit, non-asymptotic proof strategy will serve as a template for future refinements.
翻訳日:2022-11-21 14:05:54 公開日:2022-11-18
# オンラインマトリックスコンプリートにおける常時リスクモニタリング

Always Valid Risk Monitoring for Online Matrix Completion ( http://arxiv.org/abs/2211.10363v1 )

ライセンス: Link先を確認
Chi-Hua Wang, Wenjie Li(参考訳) 常に有価な濃度の不等式は、オンライン統計学習、特に生成モデルの学習や教師付き学習におけるパフォーマンス指標としてますます使われている。 このような不等式は、オフライン統計学習において、あらかじめ定められたサイズではなくランダムに選択されたサンプルサイズを許可することで、オンライン学習アルゴリズムの設計を進歩させる。 しかし, 行列完成の課題に対して, 常に有意な結果を得ることは困難であり, 文献ではあまり理解されていない。 このような結果の重要性から、オンライン行列補完問題に対して常に有効なリスク境界プロセスを確立し、考案する。 このような理論的な進歩は、非漸近性マーチンゲール濃度と正規化低ランク行列回帰の新たな組み合わせによって可能となる。 その結果、よりサンプル効率の良いオンラインアルゴリズム設計が可能となり、オンラインマトリックス補完タスクに関するオンライン実験ポリシーを評価する基盤となる。

Always-valid concentration inequalities are increasingly used as performance measures for online statistical learning, notably in the learning of generative models and supervised learning. Such inequality advances the online learning algorithms design by allowing random, adaptively chosen sample sizes instead of a fixed pre-specified size in offline statistical learning. However, establishing such an always-valid type result for the task of matrix completion is challenging and far from understood in the literature. Due to the importance of such type of result, this work establishes and devises the always-valid risk bound process for online matrix completion problems. Such theoretical advances are made possible by a novel combination of non-asymptotic martingale concentration and regularized low-rank matrix regression. Our result enables a more sample-efficient online algorithm design and serves as a foundation to evaluate online experiment policies on the task of online matrix completion.
翻訳日:2022-11-21 14:00:17 公開日:2022-11-18
# プロンプトに基づくバイオメディカル知識探索のための事前学習言語モデルの文脈変数評価

Context Variance Evaluation of Pretrained Language Models for Prompt-based Biomedical Knowledge Probing ( http://arxiv.org/abs/2211.10265v1 )

ライセンス: Link先を確認
Zonghai Yao, Yi Cao, Zhichao Yang, Hong Yu(参考訳) プレトレーニング言語モデル(PLM)は、これらのモデルがどのような知識を学ぶかを研究する動機となっている。 fill-in-the-blanks問題(例えばcloze test)は、そのような知識を計測するための自然なアプローチである。 BioLAMAは、バイオメディカルな事実知識の3倍のプロンプトを生成し、Top-k精度メトリックを使用して異なるPLMの知識を評価する。 しかし、既存の研究では、そのような素早い知識探索法は低い知識境界しか探索できないことが示されている。 プロンプトベースのプローブバイアスのような多くの要因は、LAMAベンチマークを信頼できず不安定にする。 この問題はBioLAMAでより顕著である。 語彙と大N-M関係の長尾分布は, LAMAとBioLAMAの差が顕著である。 これらの問題に対処するために,プロンプト生成に文脈のばらつきを導入し,新しいランク変更に基づく評価指標を提案する。 これまで知られていなかった評価基準とは異なり,lamaにおける「誤解」の概念を初めて提案する。 12個のPLMの実験を通して、我々の文脈分散プロンプトとUCM(Understand-Confuse-Misunderstand)測定により、BioLAMAは大きなN-M関係や稀な関係に親しみやすい。 我々はまた、単に「読みとコピー」から「理解」を遠ざけるための一連の制御実験を行った。

Pretrained language models (PLMs) have motivated research on what kinds of knowledge these models learn. Fill-in-the-blanks problem (e.g., cloze tests) is a natural approach for gauging such knowledge. BioLAMA generates prompts for biomedical factual knowledge triples and uses the Top-k accuracy metric to evaluate different PLMs' knowledge. However, existing research has shown that such prompt-based knowledge probing methods can only probe a lower bound of knowledge. Many factors like prompt-based probing biases make the LAMA benchmark unreliable and unstable. This problem is more prominent in BioLAMA. The severe long-tailed distribution in vocabulary and large-N-M relation make the performance gap between LAMA and BioLAMA remain notable. To address these, we introduce context variance into the prompt generation and propose a new rank-change-based evaluation metric. Different from the previous known-unknown evaluation criteria, we propose the concept of "Misunderstand" in LAMA for the first time. Through experiments on 12 PLMs, our context variance prompts and Understand-Confuse-Misunderstand (UCM) metric makes BioLAMA more friendly to large-N-M relations and rare relations. We also conducted a set of control experiments to disentangle "understand" from just "read and copy".
翻訳日:2022-11-21 13:59:43 公開日:2022-11-18
# PAL:プログラム支援言語モデル

PAL: Program-aided Language Models ( http://arxiv.org/abs/2211.10435v1 )

ライセンス: Link先を確認
Luyu Gao, Aman Madaan, Shuyan Zhou, Uri Alon, Pengfei Liu, Yiming Yang, Jamie Callan, Graham Neubig(参考訳) 大規模言語モデル(llms)は最近、テスト時にいくつかの例(フェウショットプロンプト)が提供されたとき、算術および記号推論タスクを実行する素晴らしい能力を示している。 この成功の多くは、LLMをステップに分解することで問題記述を理解することと、問題の各ステップを解くことの両方に用いているチェーン・オブ・シントのような、推論の方法を促すことによる。 LLMは、このようなステップバイステップの分解に適しているように見えるが、LLMは、問題が正しく分解された場合でも、解部分において論理的および算術的誤りを犯すことが多い。 プログラム支援言語モデル(PaL: Program-Aided Language Model): LLMを用いて自然言語問題を理解し、中間的推論ステップとしてプログラムを生成するが、Pythonインタプリタなどのプログラムランタイムに解ステップをオフロードする。 PaLでは、自然言語問題を実行可能なステップに分解することがLLMの唯一の学習課題であり、解法はインタプリタに委譲される。 数学的推論,記号的推論,アルゴリズム的問題など,ビッグベンチハードや他のベンチマークから12の推論タスクを実験した。 これらの自然言語推論タスクでは、LLMを使ってコードを生成し、Pythonインタープリタを使って推論することで、より大きなモデルよりも正確な結果が得られる。 例えば、Codexを使用するPaLは、モデルが1つの復号化のみを許す場合、GSMベンチマークで最新の数ショットの精度を達成し、PLM-540Bを絶対8%の精度で上回っている。 BIG-Bench Hardベンチマークの3つの理由付けタスクでは、PaLはCoTを11%上回っている。 私たちが作成したGSMのより難しいバージョンであるGSM-hardでは、PaLはチェーンオブ思想を絶対40%上回ります。

Large language models (LLMs) have recently demonstrated an impressive ability to perform arithmetic and symbolic reasoning tasks when provided with a few examples at test time (few-shot prompting). Much of this success can be attributed to prompting methods for reasoning, such as chain-of-thought, that employ LLMs for both understanding the problem description by decomposing it into steps, as well as solving each step of the problem. While LLMs seem to be adept at this sort of step-by-step decomposition, LLMs often make logical and arithmetic mistakes in the solution part, even when the problem is correctly decomposed. We present Program-Aided Language models (PaL): a new method that uses the LLM to understand natural language problems and generate programs as the intermediate reasoning steps, but offloads the solution step to a programmatic runtime such as a Python interpreter. With PaL, decomposing the natural language problem into runnable steps remains the only learning task for the LLM, while solving is delegated to the interpreter. We experiment with 12 reasoning tasks from BIG-Bench Hard and other benchmarks, including mathematical reasoning, symbolic reasoning, and algorithmic problems. In all these natural language reasoning tasks, generating code using an LLM and reasoning using a Python interpreter leads to more accurate results than much larger models, and we set new state-of-the-art results in all 12 benchmarks. For example, PaL using Codex achieves state-of-the-art few-shot accuracy on the GSM benchmark of math word problems when the model is allowed only a single decoding, surpassing PaLM-540B with chain-of-thought prompting by an absolute 8% .In three reasoning tasks from the BIG-Bench Hard benchmark, PaL outperforms CoT by 11%. On GSM-hard, a more challenging version of GSM that we create, PaL outperforms chain-of-thought by an absolute 40%.
翻訳日:2022-11-21 13:59:22 公開日:2022-11-18
# 遺伝的アルゴリズムとニューラルネットワークによる交通緩和のための最適サービスステーション設計

Optimal service station design for traffic mitigation via genetic algorithm and neural network ( http://arxiv.org/abs/2211.10159v1 )

ライセンス: Link先を確認
Carlo Cenedese, Michele Cucuzzella, Adriano Cotta Ramusino, Davide Spalenza, John Lygeros, Antonella Ferrara(参考訳) 本稿では,高速道路におけるサービスステーションの存在が交通渋滞に与える影響を分析する。 交通渋滞とピークトラフィック減少の両面から,サービスステーションを最適に設計し,良好な効果を得られるか,という課題に着目する。 マイクロシミュレータは計算不効率のため、このタスクには使用できない。 本稿では,最近提案されたCTMに基づく遺伝的アルゴリズムを提案する。 そして、アルゴリズムを利用して、同じ問題を解決することができるニューラルネットワークをトレーニングし、CTMの実装を避けます。 最後に,アルゴリズムの性能と性能を検証する2つのケーススタディについて検討する。 これらのシミュレーションでは,オランダの高速道路から抽出した実データを用いる。

This paper analyzes how the presence of service stations on highways affects traffic congestion. We focus on the problem of optimally designing a service station to achieve beneficial effects in terms of total traffic congestion and peak traffic reduction. Microsimulators cannot be used for this task due to their computational inefficiency. We propose a genetic algorithm based on the recently proposed CTMs, that efficiently describes the dynamics of a service station. Then, we leverage the algorithm to train a neural network capable of solving the same problem, avoiding implementing the CTMs. Finally, we examine two case studies to validate the capabilities and performance of our algorithms. In these simulations, we use real data extracted from Dutch highways.
翻訳日:2022-11-21 13:58:32 公開日:2022-11-18
# Ask4Help: 身体的タスクのエキスパートを活用することを学ぶ

Ask4Help: Learning to Leverage an Expert for Embodied Tasks ( http://arxiv.org/abs/2211.09960v1 )

ライセンス: Link先を確認
Kunal Pratap Singh, Luca Weihs, Alvaro Herrasti, Jonghyun Choi, Aniruddha Kemhavi, Roozbeh Mottaghi(参考訳) Embodied AIエージェントは、新しいモデル、環境、ベンチマークの出現により、毎年より有能になるが、実際のユーザ対応アプリケーションにデプロイできるパフォーマンスと信頼性は、まだ程遠い。 エージェントが人間のような専門家に助けを求めることができるようにすることで、このギャップを埋めることができるか? そこで我々は,エージェントの要求能力を強化し,専門家支援を行うask4helpポリシーを提案する。 ask4helpポリシーは、元のエージェントのパラメータを変更しずに効率的にトレーニングでき、タスクのパフォーマンスと要求されたヘルプの量の間の望ましいトレードオフを学習できる。 我々は、Ask4Helpをオブジェクトゴールナビゲーションとルームアレンジメントという2つの異なるタスクで評価し、最小限のヘルプを用いてパフォーマンスを大幅に改善する。 オブジェクトナビゲーションでは、$22\%$成功率を達成したエージェントは$13\%$ヘルプで$6\%、再配置のために$7\%$成功率の最先端モデルが$39\%$ヘルプを使用して$90.4\%$に劇的に改善される。 ask4helpによる人間実験は、実際のシナリオにおける我々のアプローチの有効性を実証する。 私たちはAsk4Helpのコードをここでリリースします。

Embodied AI agents continue to become more capable every year with the advent of new models, environments, and benchmarks, but are still far away from being performant and reliable enough to be deployed in real, user-facing, applications. In this paper, we ask: can we bridge this gap by enabling agents to ask for assistance from an expert such as a human being? To this end, we propose the Ask4Help policy that augments agents with the ability to request, and then use expert assistance. Ask4Help policies can be efficiently trained without modifying the original agent's parameters and learn a desirable trade-off between task performance and the amount of requested help, thereby reducing the cost of querying the expert. We evaluate Ask4Help on two different tasks -- object goal navigation and room rearrangement and see substantial improvements in performance using minimal help. On object navigation, an agent that achieves a $52\%$ success rate is raised to $86\%$ with $13\%$ help and for rearrangement, the state-of-the-art model with a $7\%$ success rate is dramatically improved to $90.4\%$ using $39\%$ help. Human trials with Ask4Help demonstrate the efficacy of our approach in practical scenarios. We release the code for Ask4Help here: https://github.com/allenai/ask4help.
翻訳日:2022-11-21 13:58:22 公開日:2022-11-18
# 医用画像における視覚トランスフォーマーの展望

Vision Transformers in Medical Imaging: A Review ( http://arxiv.org/abs/2211.10043v1 )

ライセンス: Link先を確認
Emerald U. Henry, Onyeka Emebob, Conrad Asotie Omonhinmin(参考訳) 注目に基づくエンコーダ・デコーダアーキテクチャからなるモデルであるTransformerは、自然言語処理(NLP)の分野で普及し、最近ではコンピュータビジョン(CV)空間に影響を与えている。 コンピュータビジョンと医用画像の類似性について, トランスフォーマーが医用画像に与える影響について, 研究者の間で検討した。 In this paper, we attempt to provide a comprehensive and recent review on the application of transformers in medical imaging by; describing the transformer model comparing it with a diversity of convolutional neural networks (CNNs), detailing the transformer based approaches for medical image classification, segmentation, registration and reconstruction with a focus on the image modality, comparing the performance of state-of-the-art transformer architectures to best performing CNNs on standard medical datasets.

Transformer, a model comprising attention-based encoder-decoder architecture, have gained prevalence in the field of natural language processing (NLP) and recently influenced the computer vision (CV) space. The similarities between computer vision and medical imaging, reviewed the question among researchers if the impact of transformers on computer vision be translated to medical imaging? In this paper, we attempt to provide a comprehensive and recent review on the application of transformers in medical imaging by; describing the transformer model comparing it with a diversity of convolutional neural networks (CNNs), detailing the transformer based approaches for medical image classification, segmentation, registration and reconstruction with a focus on the image modality, comparing the performance of state-of-the-art transformer architectures to best performing CNNs on standard medical datasets.
翻訳日:2022-11-21 13:57:46 公開日:2022-11-18
# 表面欠陥検出のための参照ベースオートエンコーダ

Reference-Based Autoencoder for Surface Defect Detection ( http://arxiv.org/abs/2211.10060v1 )

ライセンス: Link先を確認
Wei Luo, Haiming Yao, Wenyong Yu and Xue Wang(参考訳) 産業用自動製品品質検査の開発には, 正常データ数と異常データ数が極端に不均衡であるため, 視覚異常検出が重要である。 再建法と埋没法に基づく教師なし法は, 異常検出のために広く研究されており, 再建法が最も一般的である。 しかし, 表面欠陥検出の統一モデルの構築は, 均質かつ非定常的に異なるため, 依然として課題である。 さらに、既存のレコンストラクションベースのメソッドは、欠陥の特徴を通常の特徴に変換する強力な能力を持っていません。 これらの課題に対処するために, 多様なテクスチャ欠陥を正確に検査する, RB-AE (unsupervised reference-based autoencoder) を提案する。 多くの再構成法と異なり、人工的欠陥と新しい画素レベルの識別損失関数がトレーニングに利用され、モデルがピクセルレベルの識別能力を得ることができる。 まず、RB-AEは、テクスチャ面のマルチスケール特徴を抽出するために符号化モジュールを使用する。 その後,新しい参照型アテンションモジュール (RBAM) が提案され,欠陥の復元を抑えるために,欠陥特徴を通常の特徴に変換する。 また、RBAMはスキップ接続による欠陥特徴残差を効果的に抑制することができる。 次に、デコードモジュールは、修復された特徴を利用して、通常のテクスチャ背景を再構築する。 最後に,新しいマルチスケール特徴識別モジュール (MSFDM) を用いて欠陥検出とセグメンテーションを行う。

Due to the extreme imbalance in the number of normal data and abnormal data, visual anomaly detection is important for the development of industrial automatic product quality inspection. Unsupervised methods based on reconstruction and embedding have been widely studied for anomaly detection, of which reconstruction-based methods are the most popular. However, establishing a unified model for textured surface defect detection remains a challenge because these surfaces can vary in homogeneous and non regularly ways. Furthermore, existing reconstruction-based methods do not have a strong ability to convert the defect feature to the normal feature. To address these challenges, we propose a novel unsupervised reference-based autoencoder (RB-AE) to accurately inspect a variety of textured defects. Unlike most reconstruction-based methods, artificial defects and a novel pixel-level discrimination loss function are utilized for training to enable the model to obtain pixel-level discrimination ability. First, the RB-AE employs an encoding module to extract multi-scale features of the textured surface. Subsequently, a novel reference-based attention module (RBAM) is proposed to convert the defect features to normal features to suppress the reconstruction of defects. In addition, RBAM can also effectively suppress the defective feature residual caused by skip-connection. Next, a decoding module utilizes the repaired features to reconstruct the normal texture background. Finally, a novel multiscale feature discrimination module (MSFDM) is employed to defect detection and segmentation.
翻訳日:2022-11-21 13:57:35 公開日:2022-11-18
# Elephantsは実行できない - 大規模MOEモデルをクラウドスケール生産に導入する

Who Says Elephants Can't Run: Bringing Large Scale MoE Models into Cloud Scale Production ( http://arxiv.org/abs/2211.10017v1 )

ライセンス: Link先を確認
Young Jin Kim, Rawn Henry, Raffy Fahim and Hany Hassan Awadalla(参考訳) sparsely activated layersの条件付き実行を伴う専門家モデル(moe)の混合により、より多くのパラメータを持つトレーニングモデルが可能になる。 その結果、これらのモデルは、機械翻訳を含む様々な自然言語処理タスクにおいて、大幅に品質が向上した。 しかし、大きなメモリ要件と非効率的な推論のため、そのようなモデルを現実のシナリオにデプロイすることは依然として困難である。 本研究では,スパースモデルの計算を高速化し,メモリ消費を大幅に削減する,いくつかの最適化手法を備えた高効率推論フレームワークを提案する。 スループットの面では最大26倍のスピードアップを実現していますが、エキスパートウェイトを4ビット整数に量子化することで、元の32ビットフロートモデルの8分の1近くまでモデルサイズを削減します。 その結果、既存のソリューションに比べてコストが27%削減され、品質が大幅に向上した136倍のモデルをデプロイできるようになりました。 これにより、大規模な多言語MOEトランスフォーマーモデルの展開におけるパラダイムシフトが、教師モデルから言語やタスク毎に数十の小さなモデルに置き換えられる。

Mixture of Experts (MoE) models with conditional execution of sparsely activated layers have enabled training models with a much larger number of parameters. As a result, these models have achieved significantly better quality on various natural language processing tasks including machine translation. However, it remains challenging to deploy such models in real-life scenarios due to the large memory requirements and inefficient inference. In this work, we introduce a highly efficient inference framework with several optimization approaches to accelerate the computation of sparse models and cut down the memory consumption significantly. While we achieve up to 26x speed-up in terms of throughput, we also reduce the model size almost to one eighth of the original 32-bit float model by quantizing expert weights into 4-bit integers. As a result, we are able to deploy 136x larger models with 27% less cost and significantly better quality compared to the existing solutions. This enables a paradigm shift in deploying large scale multilingual MoE transformers models replacing the traditional practice of distilling teacher models into dozens of smaller models per language or task.
翻訳日:2022-11-21 13:51:25 公開日:2022-11-18
# WANLP 2022のアラビア語におけるプロパガンダ検出に関する共有課題の概要

Overview of the WANLP 2022 Shared Task on Propaganda Detection in Arabic ( http://arxiv.org/abs/2211.10057v1 )

ライセンス: Link先を確認
Firoj Alam, Hamdy Mubarak, Wajdi Zaghouani, Giovanni Da San Martino, Preslav Nakov(参考訳) プロパガンダ(Propaganda)とは、個人または集団による意見や行動を表現することであり、適切に定義された修辞的・心理学的な装置によって達成される、所定の目的に言及した他の個人またはグループの意見や行動に故意に影響を及ぼすように設計されている。 プロパガンダ技術は、ソーシャルメディアでユーザーを操ったり、誤解させたりするためによく使われる。 このように、テキストやミームにおけるプロパガンダ技術の自動検出に関する最近の研究が数多く行われている。 しかし、これまでは主に英語に焦点が当てられていた。 この言語ギャップを埋めるために、私たちは2つのサブタスクを含むWANLP 2022ワークショップの一環として、アラビア語のつぶやきにおけるプロパガンダテクニックを検出するための共有タスクを実行しました。 Subtask~1は、ツイートで使用されるプロパガンダテクニックのセットを特定するよう要求するが、Subtask~2は、各プロパガンダテクニックが現れるテキストの正確なスパンと共に、ツイートで使用されるプロパガンダテクニックを検出するように要求する。 このタスクには63のチームの登録が集まり、最終的に14チームと3チームがサブタスク1と2に応募した。 最後に11チームがシステム記述書を提出した。

Propaganda is the expression of an opinion or an action by an individual or a group deliberately designed to influence the opinions or the actions of other individuals or groups with reference to predetermined ends, which is achieved by means of well-defined rhetorical and psychological devices. Propaganda techniques are commonly used in social media to manipulate or to mislead users. Thus, there has been a lot of recent research on automatic detection of propaganda techniques in text as well as in memes. However, so far the focus has been primarily on English. With the aim to bridge this language gap, we ran a shared task on detecting propaganda techniques in Arabic tweets as part of the WANLP 2022 workshop, which included two subtasks. Subtask~1 asks to identify the set of propaganda techniques used in a tweet, which is a multilabel classification problem, while Subtask~2 asks to detect the propaganda techniques used in a tweet together with the exact span(s) of text in which each propaganda technique appears. The task attracted 63 team registrations, and eventually 14 and 3 teams made submissions for subtask 1 and 2, respectively. Finally, 11 teams submitted system description papers.
翻訳日:2022-11-21 13:51:06 公開日:2022-11-18
# SmoothQuant:大規模言語モデルの高精度かつ効率的なポストトレーニング量子化

SmoothQuant: Accurate and Efficient Post-Training Quantization for Large Language Models ( http://arxiv.org/abs/2211.10438v1 )

ライセンス: Link先を確認
Guangxuan Xiao, Ji Lin, Mickael Seznec, Julien Demouth, Song Han(参考訳) 大規模言語モデル(LLM)は優れた性能を示すが、計算とメモリ集約である。 量子化はメモリを減らし、推論を加速する。 しかし、1000億のパラメータを超えるLSMでは、既存のメソッドは精度を維持することができず、ハードウェア上で効率的に動作しない。 そこで本研究では,学習自由,正確性,汎用的な学習後量子化 (ptq) ソリューションである smoothquant を提案し,効率的に実装可能な llm の 8 ビットウェイト、8 ビットアクティベーション (w8a8) 量子化を実現する。 一定の活性化チャネルに系統的異常が現れることを観察する。 SmoothQuantは、ウェイトがアクティベーションが存在しない間に量子化が容易であるという事実に基づいて、アクティベーションからウェイトへの量子化の難しさを数学的に等価な変換で移行することによって、アクティベーションアウトリーを滑らかにする。 SmoothQuantは、OPT-175B、BLOOM-176B、GLM-130Bを含む全てのGEMMの重量と活性化の両方をINT8量子化することができる。 SmoothQuantは、混合精度のアクティベーション量子化や重量のみの量子化を用いた既存の技術よりも優れたハードウェア効率を持つ。 llmでは最大1.56倍の高速化と2倍のメモリ削減が実現できた。 ハードウェアフレンドリーな設計のおかげで、SmoothQuantを最先端のLLMサービスフレームワークであるFasterTransformerに統合し、FP16に比べてGPUの半数の速度で高速な推論速度を実現する。 私たちの仕事は、ハードウェアコストを削減し、LLMを民主化するターンキーソリューションを提供します。 コードはhttps://github.com/mit-han-lab/smoothquant.com/でリリースされる。

Large language models (LLMs) show excellent performance but are compute- and memory-intensive. Quantization can reduce memory and accelerate inference. However, for LLMs beyond 100 billion parameters, existing methods cannot maintain accuracy or do not run efficiently on hardware. We propose SmoothQuant, a training-free, accuracy-preserving, and general-purpose post-training quantization (PTQ) solution to enable 8-bit weight, 8-bit activation (W8A8) quantization for LLMs that can be implemented efficiently. We observe that systematic outliers appear at fixed activation channels. Based on the fact that weights are easy to quantize while activations are not, SmoothQuant smooths the activation outliers by migrating the quantization difficulty from activations to weights with a mathematically equivalent transformation. SmoothQuant enables an INT8 quantization of both weights and activations for all the GEMMs in LLMs, including OPT-175B, BLOOM-176B and GLM-130B. SmoothQuant has better hardware efficiency than existing techniques using mixed-precision activation quantization or weight-only quantization. We demonstrate up to 1.56x speedup and 2x memory reduction for LLMs with negligible loss in accuracy. Thanks to the hardware-friendly design, we integrate SmoothQuant into FasterTransformer, a state-of-the-art LLM serving framework, and achieve faster inference speed with half the number of GPUs compared to FP16. Our work offers a turn-key solution that reduces hardware costs and democratizes LLMs. Code will be released at: https://github.com/mit-han-lab/smoothquant.
翻訳日:2022-11-21 13:50:46 公開日:2022-11-18
# 重み付きアンサンブル自己教師付き学習

Weighted Ensemble Self-Supervised Learning ( http://arxiv.org/abs/2211.09981v1 )

ライセンス: Link先を確認
Yangjun Ruan, Saurabh Singh, Warren Morningstar, Alexander A. Alemi, Sergey Ioffe, Ian Fischer, Joshua V. Dillon(参考訳) ensemblingは、教師付き学習におけるモデルパフォーマンス、不確実性推定、堅牢性を高める強力な技術であることが証明されている。 自己教師付き学習(SSL)の進歩により、最先端のいくつかのショットと教師付き学習のパフォーマンスに、大きなラベルのないコーパスを活用することができる。 本稿では,データ依存重み付きクロスエントロピー損失を許容するフレームワークを開発することにより,最近のssl技術を改善する手法を検討する。 この選択は、少ないトレーニングコストを伴い、アーキテクチャの変更やダウンストリーム評価に計算オーバーヘッドを必要としない効率的なアンサンブルメソッドをもたらす。 本手法の有効性をDINO (Caron et al., 2021) とMSN (Assran et al., 2022) の2つの最先端SSL法を用いて実証した。 提案手法は,ImageNet-1Kにおける複数の評価指標,特に数ショット設定において,双方で優れる。 我々は,いくつかの重み付け方式を検討し,アンサンブルヘッドの多様性を増大させると下流評価結果が向上することを示す。 例えば、MSN ViT-B/16の総合的な改善は1ショット学習では3.9 p.p.である。

Ensembling has proven to be a powerful technique for boosting model performance, uncertainty estimation, and robustness in supervised learning. Advances in self-supervised learning (SSL) enable leveraging large unlabeled corpora for state-of-the-art few-shot and supervised learning performance. In this paper, we explore how ensemble methods can improve recent SSL techniques by developing a framework that permits data-dependent weighted cross-entropy losses. We refrain from ensembling the representation backbone; this choice yields an efficient ensemble method that incurs a small training cost and requires no architectural changes or computational overhead to downstream evaluation. The effectiveness of our method is demonstrated with two state-of-the-art SSL methods, DINO (Caron et al., 2021) and MSN (Assran et al., 2022). Our method outperforms both in multiple evaluation metrics on ImageNet-1K, particularly in the few-shot setting. We explore several weighting schemes and find that those which increase the diversity of ensemble heads lead to better downstream evaluation results. Thorough experiments yield improved prior art baselines which our method still surpasses; e.g., our overall improvement with MSN ViT-B/16 is 3.9 p.p. for 1-shot learning.
翻訳日:2022-11-21 13:50:12 公開日:2022-11-18
# 従来型機械学習モデルの説明方法の比較(その2) : モデル説明可能性の定量化と次元性低減による改善

Comparing Explanation Methods for Traditional Machine Learning Models Part 2: Quantifying Model Explainability Faithfulness and Improvements with Dimensionality Reduction ( http://arxiv.org/abs/2211.10378v1 )

ライセンス: Link先を確認
Montgomery Flora, Corey Potvin, Amy McGovern, Shawn Handler(参考訳) 機械学習(ML)モデルは、幅広い用途を持つ大気科学コミュニティにおいて、ますます一般的になりつつある。 MLモデルが何を学んだのかをユーザが理解できるようにするため、ML説明性は活発な研究分野となっている。 本研究の第1部では,いくつかの説明可能性について記述し,異なる手法による特徴ランキングが互いにほぼ一致しないことを示した。 しかし、重要性の割り当てに忠実でない方法があるため、不一致が過度に膨らんでいるかどうかは不明である。 ここで、「満足度」または「忠実度」とは、割り当てられた特徴の重要性と、その特徴のモデル性能への寄与との対応をいう。 本研究では,複数の手法を用いて特徴ランク付け手法の忠実性を評価する。 特徴相関に対する説明手法の感度を考慮し、相関特性が制限された後に説明可能性忠実度がどれだけ改善するかを定量化する。 次元が減少する前は, 特徴関係法(例えば, shap, lime, ale variance, logistic regression (lr) 係数)は, 相関特徴の負の影響により置換重要度法よりも一般的に忠実であった。 相関する特徴が減少すると、従来の置換の重要性は最も忠実な方法となった。 また、ランクの不確実性(すなわち、異なるランク法によって特徴に割り当てられたランクの広がり)を2~10倍に減らし、より忠実でない特徴のランク付け方法を排除することでさらに減少させる。 本研究は,異なる説明可能性の方法の相対的忠実性を知ることによって,説明可能性の向上を定量化する最初の方法の一つである。

Machine learning (ML) models are becoming increasingly common in the atmospheric science community with a wide range of applications. To enable users to understand what an ML model has learned, ML explainability has become a field of active research. In Part I of this two-part study, we described several explainability methods and demonstrated that feature rankings from different methods can substantially disagree with each other. It is unclear, though, whether the disagreement is overinflated due to some methods being less faithful in assigning importance. Herein, "faithfulness" or "fidelity" refer to the correspondence between the assigned feature importance and the contribution of the feature to model performance. In the present study, we evaluate the faithfulness of feature ranking methods using multiple methods. Given the sensitivity of explanation methods to feature correlations, we also quantify how much explainability faithfulness improves after correlated features are limited. Before dimensionality reduction, the feature relevance methods [e.g., SHAP, LIME, ALE variance, and logistic regression (LR) coefficients] were generally more faithful than the permutation importance methods due to the negative impact of correlated features. Once correlated features were reduced, traditional permutation importance became the most faithful method. In addition, the ranking uncertainty (i.e., the spread in rank assigned to a feature by the different ranking methods) was reduced by a factor of 2-10, and excluding less faithful feature ranking methods reduces it further. This study is one of the first to quantify the improvement in explainability from limiting correlated features and knowing the relative fidelity of different explainability methods.
翻訳日:2022-11-21 13:49:49 公開日:2022-11-18
# ビデオ認識における注意力の低下

Look More but Care Less in Video Recognition ( http://arxiv.org/abs/2211.09992v1 )

ライセンス: Link先を確認
Yitian Zhang, Yue Bai, Huan Wang, Yi Xu, Yun Fu(参考訳) 既存の動作認識手法は、通常、巨大な計算を避けるために、各ビデオを表すためにいくつかのフレームをサンプリングする。 この問題に対処するため、より多くのフレームを利用するために2つのブランチで構成されるAmple and Focal Network (AFNet)を提案する。 具体的には、アンプルブランチは、全ての入力フレームを取り込み、凝縮した計算で豊富な情報を取得し、提案するナビゲーションモジュールにより焦点分岐のガイダンスを提供し、焦点分岐は、各畳み込みブロックにおけるサルエントフレームにのみ焦点を合わせる時間サイズを絞り、最後に2つの分岐の結果を適応的に融合して情報損失を防止する。 この設計により、より多くのフレームをネットワークに導入できるが、計算コストは削減できる。 さらに,中間的特徴の動的選択が暗黙的な時間的モデリングを強制するので,afnetはより少ないフレームを活用できることを示す。 さらに,提案手法を拡張して空間冗長性を低減できることを示す。 5つのデータセットに対する大規模な実験により,本手法の有効性と有効性を示した。

Existing action recognition methods typically sample a few frames to represent each video to avoid the enormous computation, which often limits the recognition performance. To tackle this problem, we propose Ample and Focal Network (AFNet), which is composed of two branches to utilize more frames but with less computation. Specifically, the Ample Branch takes all input frames to obtain abundant information with condensed computation and provides the guidance for Focal Branch by the proposed Navigation Module; the Focal Branch squeezes the temporal size to only focus on the salient frames at each convolution block; in the end, the results of two branches are adaptively fused to prevent the loss of information. With this design, we can introduce more frames to the network but cost less computation. Besides, we demonstrate AFNet can utilize fewer frames while achieving higher accuracy as the dynamic selection in intermediate features enforces implicit temporal modeling. Further, we show that our method can be extended to reduce spatial redundancy with even less cost. Extensive experiments on five datasets demonstrate the effectiveness and efficiency of our method.
翻訳日:2022-11-21 13:49:20 公開日:2022-11-18
# アンサンブル境界近似による逆検出

Adversarial Detection by Approximation of Ensemble Boundary ( http://arxiv.org/abs/2211.10227v1 )

ライセンス: Link先を確認
T. Windeatt(参考訳) 2種類のパターン認識問題を解くディープニューラルネットワーク(DNN)のアンサンブルの判断境界を近似するために,ブール関数のスペクトル近似を提案する。 比較的弱いDNN分類器のウォルシュ組み合わせは、敵の攻撃を検出できることを実験的に示している。 クリーン画像と逆画像のウォルシュ係数近似の差を観察することにより, 検出に攻撃の伝達性を利用することができると考えられる。 決定境界を近似することは、DNNの学習性と伝達可能性の性質を理解するのに役立つかもしれない。 実験では画像を用いたが、2種類のアンサンブル決定境界をモデル化する手法は原則として任意のアプリケーション領域に適用できる。

A spectral approximation of a Boolean function is proposed for approximating the decision boundary of an ensemble of Deep Neural Networks (DNNs) solving two-class pattern recognition problems. The Walsh combination of relatively weak DNN classifiers is shown experimentally to be capable of detecting adversarial attacks. By observing the difference in Walsh coefficient approximation between clean and adversarial images, it appears that transferability of attack may be used for detection. Approximating the decision boundary may also aid in understanding the learning and transferability properties of DNNs. While the experiments here use images, the proposed approach of modelling two-class ensemble decision boundaries could in principle be applied to any application area.
翻訳日:2022-11-21 13:48:59 公開日:2022-11-18
# FIRE 2022におけるHASOCサブトラックの概要:マラタイにおける攻撃的言語識別

Overview of the HASOC Subtrack at FIRE 2022: Offensive Language Identification in Marathi ( http://arxiv.org/abs/2211.10163v1 )

ライセンス: Link先を確認
Tharindu Ranasinghe, Kai North, Damith Premasiri, Marcos Zampieri(参考訳) 近年、悪質なコンテンツのオンライン化が大きな関心事となり、研究者がコンテンツを自動的に識別できる堅牢なシステムを開発する動機付けになっている。 これらのシステムを公平に評価することを目的として、いくつかの国際コンペティションが開催され、コミュニティに重要なベンチマークデータと様々な言語の評価方法を提供している。 2019年に組織されたHASOC(Hate Speech and Offensive Content Identification)共有タスクは,これらのイニシアティブのひとつだ。 第4回では、hasoc 2022にはイングリッシュ、ヒンディー語、マラティ語の3つのサブトラックが含まれていた。 本稿では,人気のオリード分類法を用いてtwitterのデータを含むデータセットを参加者に提供するhasoc 2022 marathiサブトラックの結果について報告する。 マラタイのトラックには3つのサブトラックがあり、それぞれが1つの分類レベルに対応する: タスクA - 攻撃的コンテンツ識別(攻撃的対非攻撃的)、タスクB - 攻撃的タイプの分類(標的対未標的)、タスクC - 攻撃的ターゲット識別(個人対グループ対他)。 59試合に出場し、10チームが出場した。 最高のシステムは、Subtrack 3Aで0.9745F1、Subtrack 3Bで0.9207F1、Subtrack 3Cで0.9607F1を得る。 最高のパフォーマンスアルゴリズムは、伝統的な学習アプローチとディープラーニングアプローチの混合である。

The widespread of offensive content online has become a reason for great concern in recent years, motivating researchers to develop robust systems capable of identifying such content automatically. With the goal of carrying out a fair evaluation of these systems, several international competitions have been organized, providing the community with important benchmark data and evaluation methods for various languages. Organized since 2019, the HASOC (Hate Speech and Offensive Content Identification) shared task is one of these initiatives. In its fourth iteration, HASOC 2022 included three subtracks for English, Hindi, and Marathi. In this paper, we report the results of the HASOC 2022 Marathi subtrack which provided participants with a dataset containing data from Twitter manually annotated using the popular OLID taxonomy. The Marathi track featured three additional subtracks, each corresponding to one level of the taxonomy: Task A - offensive content identification (offensive vs. non-offensive); Task B - categorization of offensive types (targeted vs. untargeted), and Task C - offensive target identification (individual vs. group vs. others). Overall, 59 runs were submitted by 10 teams. The best systems obtained an F1 of 0.9745 for Subtrack 3A, an F1 of 0.9207 for Subtrack 3B, and F1 of 0.9607 for Subtrack 3C. The best performing algorithms were a mixture of traditional and deep learning approaches.
翻訳日:2022-11-21 13:48:40 公開日:2022-11-18
# 統計的に保証された解釈によるデータ適応的識別特徴の局在化

Data-Adaptive Discriminative Feature Localization with Statistically Guaranteed Interpretation ( http://arxiv.org/abs/2211.10061v1 )

ライセンス: Link先を確認
Ben Dai, Xiaotong Shen, Lin Yee Chen, Chunlin Li, Wei Pan(参考訳) 説明可能な人工知能では、ブラックボックスモデルの生データから予測までの意思決定過程を明らかにするために識別的特徴の局在が重要である。 本稿では, mnist hand written digits と mit-bih electrocardiogram (ecg) 信号の2つの実データを用いて, 適応性, 予測的重要性, 有効性といった判別的特徴の重要な特徴を動機づける。 そこで我々は,識別的特徴を効果的にローカライズするための,敵攻撃に基づくローカライズフレームワークを開発した。 既存のヒューリスティックな手法とは対照的に、一般化された部分的r^2$の測定により局所化特徴の統計的に保証された解釈可能性も提供する。 提案手法をMNISTデータセットとMIT-BIHデータセットに畳み込みオートエンコーダを用いて適用する。 まず,提案手法によりローカライズされたコンパクト画像領域を視覚的にアピールする。 同様に、同定された心電図の特徴は生物学的に可視であり、心電気生理学的原理と一致しているが、QRS複合体の微妙な異常は裸眼では識別できない。 全体として,提案手法は最先端の競合と良好に比較できる。 本稿では,提案手法を実装したPythonライブラリdnn-locate(https://dnn-locate.readthedocs.io/en/latest/)について述べる。

In explainable artificial intelligence, discriminative feature localization is critical to reveal a blackbox model's decision-making process from raw data to prediction. In this article, we use two real datasets, the MNIST handwritten digits and MIT-BIH Electrocardiogram (ECG) signals, to motivate key characteristics of discriminative features, namely adaptiveness, predictive importance and effectiveness. Then, we develop a localization framework based on adversarial attacks to effectively localize discriminative features. In contrast to existing heuristic methods, we also provide a statistically guaranteed interpretability of the localized features by measuring a generalized partial $R^2$. We apply the proposed method to the MNIST dataset and the MIT-BIH dataset with a convolutional auto-encoder. In the first, the compact image regions localized by the proposed method are visually appealing. Similarly, in the second, the identified ECG features are biologically plausible and consistent with cardiac electrophysiological principles while locating subtle anomalies in a QRS complex that may not be discernible by the naked eye. Overall, the proposed method compares favorably with state-of-the-art competitors. Accompanying this paper is a Python library dnn-locate (https://dnn-locate.readthedocs.io/en/latest/) that implements the proposed approach.
翻訳日:2022-11-21 13:48:11 公開日:2022-11-18
# HiveNAS:人工蜂コロニー最適化を用いたニューラルネットワーク探索

HiveNAS: Neural Architecture Search using Artificial Bee Colony Optimization ( http://arxiv.org/abs/2211.10250v1 )

ライセンス: Link先を確認
Mohamed Shahawy and Elhadj Benkhelifa(参考訳) 従来のニューラルネットワーク開発プロセスは、かなりの専門知識を必要とし、直観と試行錯誤に大きく依存している。 neural architecture search (nas)フレームワークは、ロバストにネットワークトポロジを検索し、ニューラルネットワークの自動開発を促進するために導入された。 遺伝的アルゴリズムのような最適化手法はNASの文脈で広く研究されているが、他のメタヒューリスティック最適化アルゴリズムはまだ評価されていない。 本稿では,最初の人工Bee ColonyベースのNASフレームワークであるHiveNASを提案する。

The traditional Neural Network-development process requires substantial expert knowledge and relies heavily on intuition and trial-and-error. Neural Architecture Search (NAS) frameworks were introduced to robustly search for network topologies, as well as facilitate the automated development of Neural Networks. While some optimization approaches -- such as Genetic Algorithms -- have been extensively explored in the NAS context, other Metaheuristic Optimization algorithms have not yet been evaluated. In this paper, we propose HiveNAS, the first Artificial Bee Colony-based NAS framework.
翻訳日:2022-11-21 13:40:37 公開日:2022-11-18