このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20221019となっている論文です。

PDF登録状況(公開日: 20221019)

TitleAuthorsAbstract論文公表日・翻訳日
# 量子電池と2ストローク熱エンジンの光ポンピング効率

Efficiency of optically pumping a quantum battery and a two-stroke heat engine ( http://arxiv.org/abs/2208.02373v2 )

ライセンス: Link先を確認
Tiago F. F. Santos and Marcelo F. Santos(参考訳) 本研究では,光ポンピングによる量子電池の充電効率について検討する。 電池はクトリットで構成され、自然温熱貯水池と外部コヒーレント駆動とが接続され、その上層エネルギー準位を動力学から断熱的に除去することができる。 このシナリオでは、駆動と自発的放出はクトリットの中間エネルギーレベルを光学的に励起し、電池は自然貯水池との平衡から取り出して有用なエネルギーを蓄える効果的な高温貯水池によって充電されていると理解される。 また、この電池と充電方式を2ストローク熱機の作業流体として用いる効率も分析した。 熱機械は、一元変換により電池から作業が抽出される第4レベルを含むので、機械の最大効率の限界を設定する。

In this work, we study the efficiency of charging a quantum battery through optical pumping. The battery consists of a qutrit and it is connected to a natural thermal reservoir and an external coherent drive in the limit where its upper energy level can be adiabatically eliminated from the dynamics. In this scenario, the drive plus spontaneous emission optically pumps the intermediate energy level of the qutrit and the battery can be understood as being charged by an effective higher temperature reservoir that takes it out of equilibrium with the natural reservoir and stores useful energy in it. We also analyse the efficiency of using this battery and charging scheme as the work fluid of a two-stroke thermal machine. The thermal machine includes a fourth level through which work is extracted from the battery via a unitary transformation, therefore setting the limit of maximum efficiency of the machine.
翻訳日:2023-02-02 09:48:12 公開日:2022-10-19
# boxworldにおける共同計測と情報処理における役割

Joint measurements in boxworld and their role in information processing ( http://arxiv.org/abs/2209.04474v2 )

ライセンス: Link先を確認
Giorgos Eftaxias, Mirjam Weilenmann, Roger Colbeck(参考訳) boxworld は任意の無符号分布を実現できる理論である。 したがって量子論よりも非局所性を持ち、特定の情報処理タスクを強化する。 しかし、この相関関係の豊かさは、必ずしも測度が劣る可能性があり、例えば、箱の世界におけるベル基底測定の類似は存在しないため、絡み合い交換の類似は不可能である。 ボックスワールドにおける複数のシステムに関する総合的な研究は欠落している。 ここでは、個々のシステム(終端配線)と逐次的に相互作用して実行できるものと、より興味深いセットを区別して、そのような測定を詳細に検討する。 少ない入力数、出力数、パーティ数で可能なボックスワールド効果をすべて計算し、配線であるものを特定します。 次に, 情報処理における非ワイリングの利用について, 状態識別や非局所蒸留, ボックスワールドの非局所性類似性などについて検討した。 ボックスワールドにおける測定値の理解を深めることにより、量子理論を基礎とする可能性のある原理の研究に有用である。

Boxworld is a theory in which any no-signalling distribution can be realised. It hence has more nonlocality than quantum theory, enhancing certain information processing tasks. However, this richness in correlations necessarily leads to a poorer set of possible measurements -- for example, there is no analogue of a Bell basis measurement in boxworld and hence the analogue of entanglement swapping is impossible. A comprehensive study of measurements on multiple systems in boxworld has been lacking. Here we consider such measurements in detail, distinguishing those that can be performed by interacting with individual systems sequentially (termed wirings), and the more interesting set of those that cannot. We compute all the possible boxworld effects for cases with small numbers of inputs, outputs and parties, identifying those that are wirings. We then show some possible uses of non-wirings for information processing by studying state discrimination, nonlocality distillation and the boxworld analogue of nonlocality without entanglement. By enhancing understanding of measurements in boxworld, our results could be useful in studies of possible underlying principles on which quantum theory can be based.
翻訳日:2023-01-27 05:10:31 公開日:2022-10-19
# 散逸格子における工学的想像上のスタークはしご:パッシブ$\mathcal{PT}$対称性、K対称性、局在減衰

Engineering imaginary stark ladder in a dissipative lattice: passive $\mathcal{PT}$ symmetry, K symmetry and localized damping ( http://arxiv.org/abs/2210.08725v2 )

ライセンス: Link先を確認
Yu Zhang, Shu Chen(参考訳) 仮想スタークラダーモデルについて検討し, サイト依存散逸強度を線形に増加させた散逸連鎖におけるモデルの実現を提案する。 k$対称性とパッシブな $\mathcal{pt}$ 対称性の存在から、このモデルはエルミートとは全く異なる特徴を示す。 散逸強度の増加に伴い、システムはまずパッシブな$\mathcal{pt}$-symmetry breaking 遷移を行い、シフトした固有値が実数から複素数に変化し、その後、同じ間隔の純粋な虚数スペクトルの出現によって特徴づけられる$k$-symmetry 回復遷移を行う。 したがって、固有状態は$\mathcal{PT}$-unbroken拡張状態から$\mathcal{PT}$-broken状態に変化し、最終的に局所化された状態に変化する。 リンドブラッド方程式によって制御される量子オープンシステムの枠組みにおいて, 単一粒子相関関数の動的発展は, 想像上のスターク・ラダーモデルのハミルトニアンによって制御されることを明らかにした。 様々な初期状態における密度分布の動的進化を研究することにより,減衰ダイナミクスが異なる領域で異なる挙動を示すことを証明した。 強い散逸限界には局所減衰が観察される。

We study an imaginary stark ladder model and propose a realization of the model in a dissipative chain with linearly increasing site-dependent dissipation strength. Due to the existence of a $K$-symmetry and passive $\mathcal{PT}$ symmetry, the model exhibits quite different feature from its Hermitian counterpart. With the increase of dissipation strength, the system first undergoes a passive $\mathcal{PT}$-symmetry breaking transition, with the shifted eigenvalues changing from real to complex, and then a $K$-symmetry restoring transition, characterized by the emergence of pure imaginary spectrum with equal spacing. Accordingly, the eigenstates change from $\mathcal{PT}$-unbroken extended states to the $\mathcal{PT}$-broken states, and finally to stark localized states. In the framework of the quantum open system governed by Lindblad equation with linearly increasing site-dependent dissipation, we unveil that the dynamical evolution of single particle correlation function is governed by the Hamiltonian of the imaginary stark ladder model. By studying the dynamical evolution of the density distribution under various initial states, we demonstrate that the damping dynamics displays distinct behaviors in different regions. A localized damping is observed in the strong dissipation limit.
翻訳日:2023-01-22 07:16:15 公開日:2022-10-19
# 連続可変量子通信のための3モード消去符号

A Three-Mode Erasure Code for Continuous Variable Quantum Communications ( http://arxiv.org/abs/2210.10230v1 )

ライセンス: Link先を確認
Eduardo Villasenor, Robert Malaney(参考訳) 現実的な自由空間チャネルを介して伝送される光の量子状態は、送信機と受信機の間の非効率性の結合のようないくつかの要因により、消去エラーに悩まされる。 本研究では, 1モードの量子状態を消去から保護できる誤り訂正符号を示す。 3モードコードは2部cv絡み合った状態を介して1モード連続変数(cv)状態を保護する。 現実のデプロイメントでは、エンコードされた状態の1つの消去をほぼ完全にリバースすることができ、2つの消去では、直接送信に対する受信された状態のフィダリティを改善することができる。 エンコーディングで使用される二部交絡状態はガウスまたは非ガウスであり、後者はコードの性能をさらに向上させる。 我々の新しいコードは、単一のモードを消去から保護し、自由空間光学に依存する実用的なCV量子ネットワークの構築に有用であることを示す最も単純なコードである。

Quantum states of light being transmitted via realistic free-space channels often suffer erasure errors due to several factors such as coupling inefficiencies between transmitter and receiver. In this work, an error correction code capable of protecting a single-mode quantum state against erasures is presented. Our three-mode code protects a single-mode Continuous Variable (CV) state via a bipartite CV entangled state. In realistic deployments, it can almost completely reverse a single erasure on the encoded state, and for two erasures can it improve the fidelities of received states relative to direct transmission. The bipartite entangled state used in the encoding can be Gaussian or non-Gaussian, with the latter further enhancing the performance of the code. Our new code is the simplest code known that protects a single mode against erasures and should prove useful in the construction of practical CV quantum networks that rely on free-space optics.
翻訳日:2023-01-22 01:57:30 公開日:2022-10-19
# 単一電荷揺動器によるsiホール量子ビットのスピン非一貫性のモデル化

Modelling of spin decoherence in a Si hole qubit perturbed by a single charge fluctuator ( http://arxiv.org/abs/2210.10476v1 )

ライセンス: Link先を確認
Baker Shalak, Christophe Delerue, Yann-Michel Niquet(参考訳) 半導体量子ドットにおけるスピン量子ビットは、量子プロセッサを実現するためのデバイスの一つである。 したがって、そのような量子ビットのコヒーレンスに影響を与えるノイズ源についてより深い知識が重要である。 本研究では,単一電荷のゆらぎによる電信ノイズの影響について検討する。 シリコンナノワイヤチャネルに沿ったゲートの集合によって静電的に定義される量子ドット内のホールスピン量子ビットを可能な限り現実的にシミュレートする。 ポアソン方程式と時間依存シュリンガー方程式を組み合わせた計算は、古典的ランダムな電信信号の時間関数としてのホールスピンの緩和と減退をシミュレートすることができる。 遅延時間$t_2$ は、幅広い周波数の2レベルモデルによって与えられる。 驚くべきことに、低周波揺動器の最も現実的な構成では、揺動器の状態が変化した直後に位相コヒーレンスが失われる非ガウス的挙動を有する。 ガウス的記述は、2レベル系がゆらぎ状態の統計分布に反応するとき、閾値周波数$\omega_{th}$を超えてのみ有効となる。 この閾値周波数での劣化時間$T_{2}(\omega_{th})$は、「甘い」線に沿ってクビットを走らせることにより、磁場とゲート電位の向きで再生することにより著しく増大することができることを示す。 しかし、$t_{2}(\omega_{th})$ は確率摂動ハミルトニアンの非対角項によって引き起こされる強調のため、有界である。 シミュレーションの結果,スピン緩和は高エネルギーホールレベルへの結合がスピン脱コヒーレンスに強く影響するため,2レベルモデルではきれいに説明できないことがわかった。 この結果は、このタイプの量子ビットにおける緩和現象を記述するためには、フォノンとのカップリングを含むマルチレベルシミュレーションが必要であることを示唆する。

Spin qubits in semiconductor quantum dots are one of the promizing devices to realize a quantum processor. A better knowledge of the noise sources affecting the coherence of such a qubit is therefore of prime importance. In this work, we study the effect of telegraphic noise induced by the fluctuation of a single electric charge. We simulate as realistically as possible a hole spin qubit in a quantum dot defined electrostatically by a set of gates along a silicon nanowire channel. Calculations combining Poisson and time-dependent Schr\"odinger equations allow to simulate the relaxation and the dephasing of the hole spin as a function of time for a classical random telegraph signal. We show that dephasing time $T_2$ is well given by a two-level model in a wide range of frequency. Remarkably, in the most realistic configuration of a low frequency fluctuator, the system has a non-Gaussian behavior in which the phase coherence is lost as soon as the fluctuator has changed state. The Gaussian description becomes valid only beyond a threshold frequency $\omega_{th}$, when the two-level system reacts to the statistical distribution of the fluctuator states. We show that the dephasing time $T_{2}(\omega_{th})$ at this threshold frequency can be considerably increased by playing on the orientation of the magnetic field and the gate potentials, by running the qubit along "sweet" lines. However, $T_{2}(\omega_{th})$ remains bounded due to dephasing induced by the non-diagonal terms of the stochastic perturbation Hamiltonian. Our simulations reveal that the spin relaxation cannot be described cleanly in the two-level model because the coupling to higher energy hole levels impacts very strongly the spin decoherence. This result suggests that multi-level simulations including the coupling to phonons should be necessary to describe the relaxation phenomenon in this type of qubit.
翻訳日:2023-01-22 01:55:34 公開日:2022-10-19
# トラップイオン量子ビットを用いた古典半加法:エネルギー効率計算に向けて

Classical Half-Adder using Trapped-ion Quantum Bits: Towards Energy-efficient Computation ( http://arxiv.org/abs/2210.10470v1 )

ライセンス: Link先を確認
Sagar Silva Pratapsi, Patrick H. Huber, Patrick Barthel, Sougato Bose, Christof Wunderlich, Yasser Omar(参考訳) 本稿では,古典計算に適したToffoli回路とHalf-Adder回路を,電顕的線形ポールトラップを量子ビットとして,高周波制御された$^{171}\text{Yb}^+$イオンを用いて提案し,実験的に実現した。 論理ゲートの操作に要するエネルギーを理論的および実験的に総合的に解析する。 アンテナとキャビティQEDを統合したトラップチップなど、エネルギー効率の高い計算のための将来のプラットフォームにおけるボトルネックと改善の可能性を特定する。 解析により,新しい平面イオントラップは10^5$の効率が期待できる。 実験により検証したエネルギーモデルは、量子情報のエネルギー学の文献のギャップを埋め、その詳細研究の道筋を概説し、古典的計算への応用の可能性も示した。

We propose, and realise experimentally, Toffoli and Half-Adder circuits suitable for classical computation, using radiofrequency-controlled $^{171}\text{Yb}^+$ ions in a macroscopic linear Paul-trap as qubits. We analyse comprehensively the energy required to operate the logic gates, both theoretically and experimentally. We identify bottlenecks and possible improvements in future platforms for energetically-efficient computation, e.g., trap chips with integrated antennas and cavity QED. Based on our analysis, a novel planar ion trap is expected to be $10^5$ times more efficient. Our experimentally verified energetic model fills a gap in the literature of the energetics of quantum information, and outlines the path for its detailed study, as well as its potential applications to classical computing.
翻訳日:2023-01-22 01:55:07 公開日:2022-10-19
# 最大並列性による欠陥のない原子配列の組み立ての高速化

Accelerating the assembly of defect-free atomic arrays with maximum parallelisms ( http://arxiv.org/abs/2210.10364v1 )

ライセンス: Link先を確認
Shuai Wang, Wenjun Zhang, Tao Zhang, Shuyao Mei, Yuqing Wang, Jiazhong Hu, Wenlan Chen(参考訳) 欠陥のない原子配列は、量子シミュレーションと量子計算のためのスケーラブルで完全に制御可能なプラットフォームとして実証されている。 このプラットフォームの量子ビットサイズ制限をさらに押し上げるために,フィールドプログラマブルゲートアレイ(fpga)に基づく統合計測フィードバックシステムを設計し,最大並列性を用いて2次元の欠陥のない原子アレイを迅速に組み立てる。 まず、アトム検出処理、原子占有分析、再配置戦略定式化、aod駆動信号生成を並行して行うことで、再配置の総時間コストを低減させる。 そして、同じ列(カラム)に複数の原子を同時に移動させることで、空間の並列性による再配置時間を節約できる。 これらの並列性を最大限に活用するために,2次元の確率的に読み込まれた原子配列から任意のターゲット配列形状に原子を再構成するtetrisアルゴリズムを提案する。 目標配列幾何学の$L \times L$の場合、移動の数は$L$となり、全体の再配置時間は$L^2$となる。 我々は,異なるターゲットジオメトリの全体的な性能を示し,再配置時間と欠陥のないアトミックアレイシステムを数千キュービットにスケールアップする可能性を示す。

Defect-free atomic arrays have been demonstrated as a scalable and fully-controllable platform for quantum simulations and quantum computations. To push the qubit size limit of this platform further, we design an integrated measurement and feedback system, based on field programmable gate array (FPGA), to quickly assemble two-dimensional defect-free atomic array using maximum parallelisms. The total time cost of the rearrangement is first reduced by processing atom detection, atomic occupation analysis, rearrangement strategy formulation, and acousto-optic deflectors (AOD) driving signal generation in parallel in time. Then, by simultaneously moving multiple atoms in the same row (column), we save rearrangement time by parallelism in space. To best utilize these parallelisms, we propose a new algorithm named Tetris algorithm to reassemble atoms to arbitrary target array geometry from two-dimensional stochastically loaded atomic arrays. For an $L \times L$ target array geometry, the number of moves scales as $L$, and the total rearrangement time scales at most as $L^2$. We present the overall performance for different target geometries, and demonstrate a significant reduction in rearrangement time and the potential to scale up defect-free atomic array system to thousands of qubits.
翻訳日:2023-01-22 01:54:51 公開日:2022-10-19
# ジョセフソン接合における散逸性量子相転移の存在対存在」に対する反論

Reply to `Comment on "Absence versus Presence of Dissipative Quantum Phase Transition in Josephson Junctions"' ( http://arxiv.org/abs/2210.10361v1 )

ライセンス: Link先を確認
Kanta Masuki, Hiroyuki Sudo, Masaki Oshikawa, and Yuto Ashida(参考訳) 前回の論文「Physical Review Letters, Vol」のコメントに返信します。 129, 087001 (2022), Th\'eo S\'epulcre, Serge Florens, Izak SnymanがarXiv:2210.00742で育てた。

We reply to the comments on our previous paper Physical Review Letters, Vol. 129, 087001 (2022), raised by Th\'eo S\'epulcre, Serge Florens, and Izak Snyman in arXiv:2210.00742.
翻訳日:2023-01-22 01:54:29 公開日:2022-10-19
# 原子場系進化を記述するための近似スキームと非エルミート再正規化

An approximation scheme and non-Hermitian re-normalization for description of atom-field system evolution ( http://arxiv.org/abs/2210.10345v1 )

ライセンス: Link先を確認
Borhan Ahmadi, Ricard Ravell Rodr\'iguez, Robert Alicki, Micha{\l} Horodecki(参考訳) 光源と原子との相互作用は自然界において普遍的である。 それらの研究は、アプリケーションだけでなく、基本的なレベルでも興味深い。 これらは量子情報処理タスクのコアであり、量子熱力学プロトコルである。 しかし、回転波近似の場と相互作用する2レベル原子でさえ、正確な解は存在しない。 これは場の量子論における基本的な問題であり、時間的漸近的限界(すなわちマイナスと無限大)の遷移しか計算できないが、進化を辿ることはできない。 本稿では、2段階の原子と連続モードの量子場からなる全系の時間進化についてより深い知見を得たい。 我々はダイソン展開の各順序に体系的に適用できる近似法を提案し、任意のタイミングで結合系の進化の計算式を大幅に単純化する。 我々のツールには、提案された新規な非エルミート的再正規化法が含まれている。 正当性チェックとして、我々のフレームワークを適用することで、既知の光ブロッホ方程式を導出する。

Interactions between a source of light and atoms are ubiquitous in nature. The study of them is interesting on the fundamental level as well as for applications. They are in the core of Quantum Information Processing tasks and in Quantum Thermodynamics protocols. However, even for two-level atom interacting with field in rotating wave approximation there exists no exact solution. This touches as basic problem in quantum field theory, where we can only calculate the transitions in the time asymptotic limits (i.e. minus and plus infinity), while we are not able to trace the evolution. In this paper we want to get more insight into the time evolution of a total system of a two-level atom and a continuous-mode quantum field. We propose an approximation, which we are able to apply systematically to each order of Dyson expansion, resulting in greatly simplified formula for the evolution of the combined system at any time. Our tools include a proposed novel, {\it non-Hermitian} re-normalization method. As a sanity check, by applying our framework, we derive the known optical Bloch equations.
翻訳日:2023-01-22 01:54:10 公開日:2022-10-19
# 単光子レベル光パルスの離散周波数モードのシングルショット高分解能同定

Single-shot high-resolution identification of discrete frequency modes of single-photon-level optical pulses ( http://arxiv.org/abs/2210.10313v1 )

ライセンス: Link先を確認
Daisuke Yoshida, Mayuka Ichihara, Takeshi Kondo, Feng-Lei Hong and Tomoyuki Horikiri(参考訳) 周波数多重量子通信は通常、単一光子の周波数モードの単一ショット識別を必要とする。 本稿では、時間空間と周波数間モードマッピングを組み合わせることで、発生時間不明の自然発生光子に対しても高分解能で周波数モードを識別できる手法を提案する。 また、原子周波数コムを用いた弱いコヒーレントパルスに対する周波数モード(100MHz間隔)と時間モード(435 ns間隔)のマッピングを示す。 この周波数間隔は、Pr3+イオンドープY2SiO5結晶を用いた原子周波数コム量子メモリの最小周波数モード間隔に近く、提案手法は、メモリによる量子リピータ方式の周波数多重化を最大化することができる。

Frequency-multiplexed quantum communication usually requires a single-shot identification of the frequency mode of a single photon . In this paper, we propose a scheme that can identify the frequency mode with high-resolution even for spontaneously emitted photons whose generation time is unknown, by combining the time-to-space and frequency-to-time mode mapping. We also demonstrate the mapping of the frequency mode (100 MHz intervals) to the temporal mode (435 ns intervals) for weak coherent pulses using atomic frequency combs. This frequency interval is close to the minimum frequency mode interval of the atomic frequency comb quantum memory with Pr3+ ion-doped Y2SiO5 crystal, and the proposed scheme has the potential to maximize the frequency multiplexing of the quantum repeater scheme with the memory.
翻訳日:2023-01-22 01:53:56 公開日:2022-10-19
# 時間領域と周波数領域の両方に多重化された大規模連続可変クラスター状態の生成

Generation of large-scale continuous-variable cluster states multiplexed both in time and frequency domains ( http://arxiv.org/abs/2210.10261v1 )

ライセンス: Link先を確認
Peilin Du, Yu Wang, Kui Liu, Rongguo Yang, Jing Zhang(参考訳) 測定ベース量子コンピューティング(MBQC)に基づく量子情報処理には,大規模連続変数(CV)クラスタ状態が必要である。 特に、時間領域に多重化された大規模なCVクラスタ状態の生成は、実装が容易で、実験において強力なスケーラビリティを持つ。 ここでは、時間領域と周波数領域の両方に多重化された1次元(1D)大規模デュアルレールCVクラスター状態が並列に生成され、2つの時間遅延NOPAシステムとビームスプリッタを組み合わせることで、さらに3次元(3D)CVクラスター状態に拡張することができる。 その結果、並列配列の数は対応する周波数コム線に依存し、各配列のパーティタイト数は非常に大きく(数百万)、3dクラスタ状態のスケールは超大きすぎることが分かった。 このスキームは、ハイブリッドドメインの量子コンピューティングに有用な、いくつかの特別な構造を持つcvクラスタ状態を提供する。

Large-scale continuous variable (CV) cluster state is necessary in quantum information processing based on measurement-based quantum computing (MBQC). Specially, generating large-scale CV cluster state multiplexed in time domain is easier to implement and has strong scalability in experiment. Here one-dimensional (1D) large-scale dual-rail CV cluster states multiplexed both in time and frequency domains are parallelly generated, which can be further extended to three-dimensional (3D) CV cluster state by combining two time-delay NOPA systems with beamsplitters. It is shown that the number of parallel arrays depends on the corresponding frequency comb lines and the partite number of each array can be very large (million), and scale of the 3D cluster state can be ultra-large. This scheme provides some special-structured CV cluster states, which will be valuable for quantum computing of hybrid domains.
翻訳日:2023-01-22 01:53:43 公開日:2022-10-19
# 超伝導プロセッサにおける非アベリア交換統計の観測

Observation of non-Abelian exchange statistics on a superconducting processor ( http://arxiv.org/abs/2210.10255v1 )

ライセンス: Link先を確認
Trond I. Andersen, Yuri D. Lensky, Kostyantyn Kechedzhi, Ilya Drozdov, Andreas Bengtsson, Sabrina Hong, Alexis Morvan, Xiao Mi, Alex Opremcak, Rajeev Acharya, Richard Allen, Markus Ansmann, Frank Arute, Kunal Arya, Abraham Asfaw, Juan Atalaya, Ryan Babbush, Dave Bacon, Joseph C. Bardin, Gina Bortoli, Alexandre Bourassa, Jenna Bovaird, Leon Brill, Michael Broughton, Bob B. Buckley, David A. Buell, Tim Burger, Brian Burkett, Nicholas Bushnell, Zijun Chen, Ben Chiaro, Desmond Chik, Charina Chou, Josh Cogan, Roberto Collins, Paul Conner, William Courtney, Alexander L. Crook, Ben Curtin, Dripto M. Debroy, Alexander Del Toro Barba, Sean Demura, Andrew Dunsworth, Daniel Eppens, Catherine Erickson, Lara Faoro, Edward Farhi, Reza Fatemi, Vinicius S. Ferreira, Leslie Flores Burgos, Ebrahim Forati, Austin G. Fowler, Brooks Foxen, William Giang, Craig Gidney, Dar Gilboa, Marissa Giustina, Raja Gosula, Alejandro Grajales Dau, Jonathan A. Gross, Steve Habegger, Michael C. Hamilton, Monica Hansen, Matthew P. Harrigan, Sean D. Harrington, Paula Heu, Jeremy Hilton, Markus R. Hoffmann, Trent Huang, Ashley Huff, William J. Huggins, Lev B. Ioffe, Sergei V. Isakov, Justin Iveland, Evan Jeffrey, Zhang Jiang, Cody Jones, Pavol Juhas, Dvir Kafri, Tanuj Khattar, Mostafa Khezri, M\'aria Kieferov\'a, Seon Kim, Alexei Kitaev, Paul V. Klimov, Andrey R. Klots, Alexander N. Korotkov, Fedor Kostritsa, John Mark Kreikebaum, David Landhuis, Pavel Laptev, Kim-Ming Lau, Lily Laws, Joonho Lee, Kenny Lee, Brian J. Lester, Alexander Lill, Wayne Liu, Aditya Locharla, Erik Lucero, Fionn D. Malone, Orion Martin, Jarrod R. McClean, Trevor McCourt, Matt McEwen, Kevin C. Miao, Amanda Mieszala, Masoud Mohseni, Shirin Montazeri, Emily Mount, Ramis Movassagh, Wojciech Mruczkiewicz, Ofer Naaman, Matthew Neeley, Charles Neill, Ani Nersisyan, Michael Newman, Jiun How Ng, Anthony Nguyen, Murray Nguyen, Murphy Yuezhen Niu, Thomas E. O'Brien, Seun Omonije, Andre Petukhov, Rebecca Potter, Leonid P. Pryadko, Chris Quintana, Charles Rocque, Nicholas C. Rubin, Negar Saei, Daniel Sank, Kannan Sankaragomathi, Kevin J. Satzinger, Henry F. Schurkus, Christopher Schuster, Michael J. Shearn, Aaron Shorter, Noah Shutty, Vladimir Shvarts, Jindra Skruzny, W. Clarke Smith, Rolando Somma, George Sterling, Doug Strain, Marco Szalay, Alfredo Torres, Guifre Vidal, Benjamin Villalonga, Catherine Vollgraff Heidweiller, Theodore White, Bryan W. K. Woo, Cheng Xing, Z. Jamie Yao, Ping Yeh, Juhwan Yoo, Grayson Young, Adam Zalcman, Yaxing Zhang, Ningfeng Zhu, Nicholas Zobrist, Hartmut Neven, Sergio Boixo, Anthony Megrant, Julian Kelly, Yu Chen, Vadim Smelyanskiy, Eun-Ah Kim, Igor Aleiner, Pedram Roushan(参考訳) 粒子の不明瞭さは量子力学の基本原理である。 フェルミオン、ボソン、アーベル・アノンを含む、これまで観測された全ての素粒子および準粒子に対して、この原理は同一粒子のブレイディングが系を変化させないことを保証している。 しかし、2つの空間次元において、興味深い可能性が存在する:非可換なアノンのブレイディングは位相的に縮退した波動関数の空間で回転を引き起こす。 したがって、区別不能の原則に違反することなく、システムの可観測性を変更することができる。 非アベリア論の数学的記述や多くの理論的な提案にもかかわらず、その実験的な観察は数十年にわたって解明されてきた。 超伝導量子プロセッサを用いて、表面コードの基底状態を作成し、ユニタリ操作により非可換エノンによって記述される波動関数を形成する。 アノンを移動させるためのユニタリプロトコルを実装することで、非アベルイジングアノンの融合規則を実験的に検証し、それらの統計を実現するためにそれらをブレイドする。 本手法に基づき、量子計算にanyonsを用いた場合の展望を考察し、3つの論理量子ビットをエンコードしたanyonsの絡み合った状態を生成するためにブレイディングを利用する。 我々の研究は、トポロジカル量子コンピューティングへの重要な一歩である。

Indistinguishability of particles is a fundamental principle of quantum mechanics. For all elementary and quasiparticles observed to date - including fermions, bosons, and Abelian anyons - this principle guarantees that the braiding of identical particles leaves the system unchanged. However, in two spatial dimensions, an intriguing possibility exists: braiding of non-Abelian anyons causes rotations in a space of topologically degenerate wavefunctions. Hence, it can change the observables of the system without violating the principle of indistinguishability. Despite the well developed mathematical description of non-Abelian anyons and numerous theoretical proposals, their experimental observation has remained elusive for decades. Using a superconducting quantum processor, we prepare the ground state of the surface code and manipulate it via unitary operations to form wavefunctions that are described by non-Abelian anyons. By implementing a unitary protocol to move the anyons, we experimentally verify the fusion rules of non-Abelian Ising anyons and braid them to realize their statistics. Building on our technique, we study the prospect of employing the anyons for quantum computation and utilize braiding to create an entangled state of anyons encoding three logical qubits. Our work represents a key step towards topological quantum computing.
翻訳日:2023-01-22 01:53:26 公開日:2022-10-19
# 量子インターネットによる信頼を解き放つ

Unboxing Trustworthiness through Quantum Internet ( http://arxiv.org/abs/2210.10687v1 )

ライセンス: Link先を確認
Agustin Zaballos, Adria Mallorqui and Joan Navarro(参考訳) 過去10年間でモノのインターネット(Internet of Things)が広く採用され、スマート家電からリモートセンシングを含む自動化まで、分散センサーネットワークの応用範囲が拡大した。 通常、これらの分散システムは、異種通信ネットワークによってリンクされたセンサーデバイスに接続された複数のノードから構成される。 これらのシステムの信頼性の低い性質(例えば、デバイスがエネルギーを使い果たしたり、通信が使えなくなったりする)は、信頼性の低いノードを特定して、iotドメインから検出されたデータが正しいことを保証するために、ヘビーウェイトなフォールトトレランスメカニズムを実装する。 通信ネットワークのオーバーヘッドはシステム全体、特に厳しい状況にさらされる帯域幅が限られているシナリオにおいて劣化する。 量子インターネットは、トラフィックの混雑を最小化し、量子コンセンサス層を使用することで、リンク飽和効果による信頼性の悪化を回避する、有望な代替手段となるかもしれない。 本研究の目的は,南極における永久凍土のリモートセンシングである応答性センサネットワークを必要とする,世界で最も困難な自然環境の1つにおいて,量子コンセンサスアーキテクチャの利用を探索し,シミュレーションすることである。 より具体的には この論文は 1)南極における永久凍土リモートセンシングの利用事例について述べる。 2) フォールトトレランスプロトコルに関連するトラヒックオーバーヘッドを低減するために,量子コンセンサス管理プレーンの利用を提案する。 3) シミュレーションにより, 量子並列性による複雑性低減を生かして, 総合的テレメトリシステムの信頼性を高めるための改善の可能性について論じる。 この研究から得られた洞察は、現在および今後のIoT環境に一般化することができる。

The broad adoption of the Internet of Things during the last decade has widened the application horizons of distributed sensor networks, ranging from smart home appliances to automation, including remote sensing. Typically, these distributed systems are composed of several nodes attached to sensing devices linked by a heterogeneous communication network. The unreliable nature of these systems (e.g., devices might run out of energy or communications might become unavailable) drives practitioners to implement heavyweight fault tolerance mechanisms to identify those untrustworthy nodes that are misbehaving erratically and, thus, ensure that the sensed data from the IoT domain are correct. The overhead in the communication network degrades the overall system, especially in scenarios with limited available bandwidth that are exposed to severely harsh conditions. Quantum Internet might be a promising alternative to minimize traffic congestion and avoid worsening reliability due to the link saturation effect by using a quantum consensus layer. In this regard, the purpose of this paper is to explore and simulate the usage of quantum consensus architecture in one of the most challenging natural environments in the world where researchers need a responsive sensor network: the remote sensing of permafrost in Antarctica. More specifically, this paper 1) describes the use case of permafrost remote sensing in Antarctica, 2) proposes the usage of a quantum consensus management plane to reduce the traffic overhead associated with fault tolerance protocols, and 3) discusses, by means of simulation, possible improvements to increase the trustworthiness of a holistic telemetry system by exploiting the complexity reduction offered by the quantum parallelism. Collected insights from this research can be generalized to current and forthcoming IoT environments.
翻訳日:2023-01-22 01:46:22 公開日:2022-10-19
# 磁気スカイミオンを用いたマヨラナモードのブレイディングプラットフォーム

A Platform for Braiding Majorana Modes with Magnetic Skyrmions ( http://arxiv.org/abs/2210.10650v1 )

ライセンス: Link先を確認
Shiva T. Konakanchi, Jukka I. V\"ayrynen, Yong P. Chen, Pramey Upadhyaya and Leonid P. Rokhinson(参考訳) 理論と実験的努力の10年間を経て、マヨラナモードのブレイディングの実証は、プラットフォーム固有の課題のため、凝縮物質物理学において未解決の問題である。 本研究では,Majoranaモードの初期化,ブレイディング,読み出しのための新しいプラットフォームとして,オンチップマイクロ波共振器を用いた磁気多層構造体を提案する。 磁性層中のスキャミオンからの成層場は、トポロジカル超伝導層内の渦を生成できる。 このような渦はマヨラナ境界状態の核をホストすることが知られている。 ロンドンとティーレのフォーマリズムにおける解析計算、およびマイクロマグネティックシミュレーションにより、我々の核生成とブレイディング方式は、磁気層と超伝導層の様々な選択肢で効果的に実現可能であることを示す。 さらに、共振器の電場に対するマヨラナ境界状態の結合は、共振器周波数のパリティ依存性分散シフトを実験的に観測可能であることを示す。 私たちの仕事は、近い将来マヨラナブレイディングを実現するための道を開く。

After a decade of intense theoretical and experimental efforts, demonstrating braiding of Majorana modes remains an unsolved problem in condensed matter physics due to platform specific challenges. In this work, we propose topological superconductor -- magnetic multilayer heterostructures with on-chip microwave cavity readout as a novel platform for initializing, braiding and reading out Majorana modes. Stray fields from a skyrmion in the magnetic layers can nucleate a vortex in the topological superconducting layer. Such a vortex is known to host Majorana bound states at its core. Through analytical calculations within London and Thiele formalisms, and through micromagnetic simulations, we show that our nucleation and braiding scheme can be effectively realized with a variety of existing options for magnetic and superconducting layers. Further, we show that the coupling of the Majorana bound states to electric field of a resonator leads to an experimentally observable parity-dependent dispersive shift of the resonator frequency. Our work paves the way for realizing Majorana braiding in the near future.
翻訳日:2023-01-22 01:45:54 公開日:2022-10-19
# $\Lambda$型原子-光子ハイブリッド系に対する精製量子ゲート

Refined quantum gates for $\Lambda$-type atom-photon hybrid systems ( http://arxiv.org/abs/2210.10597v1 )

ライセンス: Link先を確認
Yi-Ming Wu, Gang Fan and Fang-Fang Du(参考訳) 高効率量子情報処理は、最も少ない量子資源と論理キュービットゲートによる最も単純な演算と等価である。 3レベル$\Lambda$-typle atom-cavityシステムと相互作用する単一光子の反射幾何学に基づいて、ハイブリッドシステム上で制御ノット(CNOT)、フレドキン、トフォリゲートを実現するための洗練されたプロトコルを提案する。 ゲートの最初の制御量子ビットは飛行光子に符号化され、残りの量子ビットは光学キャビティ内の原子に符号化される。 さらに、これらの量子ゲートは、補助光子や原子を持たないo(n)光学素子を持つ多量子ビットcnot、fredkin、toffoliゲートの最適合成にまで拡張することができる。 さらに、最も単純なシングル量子ビット演算は光子のみに適用されるため、これらの論理ゲートは現在の技術で実験的に実現可能である。

High-efficiency quantum information processing is equivalent to the fewest quantum resources and the simplest operations by means of logic qubit gates. Based on the reflection geometry of a single photon interacting with a three-level $\Lambda$-typle atom-cavity system, we present some refined protocols for realizing controlled-not (CNOT), Fredkin, and Toffoli gates on hybrid systems. The first control qubit of our gates is encoded on a flying photon, and the rest qubits are encoded on the atoms in optical cavity. Moreover, these quantum gates can be extended to the optimal synthesis of multi-qubit CNOT, Fredkin and Toffoli gates with O(n) optical elements without auxiliary photons or atoms. Further, the simplest single-qubit operations are applied to the photon only, which make these logic gates experimentally feasible with current technology.
翻訳日:2023-01-22 01:45:25 公開日:2022-10-19
# 純脱コヒーレンス以外の量子環境絡み合い:超微細相互作用

Qubit-environment entanglement outside of pure decoherence: hyperfine interaction ( http://arxiv.org/abs/2210.10553v1 )

ライセンス: Link先を確認
Tymoteusz Salamon, Marcin P{\l}odzie\'n, Maciej Lewenstein, and Katarzyna Roszak(参考訳) 量子デバイスのスピンベースのアーキテクチャでは、電子スピン量子ビットと核スピン環境の間の超微細構造相互作用はデコヒーレンスの主要な源の1つである。 本稿では,qubitデコヒーレンスダイナミクスの理論記述における最近の進歩を概観する。 次に, 負性度を指標として, クビット環境の絡み合いについて検討する。 環境の最大混合状態について, 環境核の数と核の総スピンを変化させ, 環境サイズの関数としての負性ダイナミクスについて検討した。 さらに,qubit-environment disentangling time scalesに対する磁場の影響について検討した。

In spin-based architectures of quantum devices, the hyperfine interaction between the electron spin qubit and the nuclear spin environment remains one of the main sources of decoherence. This paper provides a short review of the current advances in the theoretical description of the qubit decoherence dynamics. Next, we study the qubit-environment entanglement using negativity as its measure. For an initial maximally mixed state of the environment, we study negativity dynamics as a function of environment size, changing the numbers of environmental nuclei and the total spin of the nuclei. Furthermore, we study the effect of the magnetic field on qubit-environment disentangling time scales.
翻訳日:2023-01-22 01:45:09 公開日:2022-10-19
# 量子エンタングルメントに基づく分散コーディネーション

Distributed Coordination Based on Quantum Entanglement ( http://arxiv.org/abs/2210.10551v1 )

ライセンス: Link先を確認
Yotam Ashkenazi and Shlomi Dolev(参考訳) 本稿では,分散Swarmにおける動作のコーディネーションが量子絡み合いによって向上できることを実証し,証明する。 特に,同じ方向(あるいは反対方向)に崩壊するエンタングル量子ビットを使用して,ランダム方向あるいは完全に制御された同時移動を行う,大域的および局所的な同時ランダム歩行に注目した。 -ランダムまたは予め定義された基地で送信された絡み合ったキュービットを用いて、同時歩行を妨害することを目的とした悪意ある盗聴者の盗聴を識別する。 -密告しようとするビザンツのロボットや悪意のあるロボットを、絡み合った量子ビットで攻撃していると特定する。 -ロボットの行動の調整に擬似的テレパシーを使用する。

This paper demonstrates and proves that the coordination of actions in a distributed swarm can be enhanced by using quantum entanglement. In particular, we focus on - Global and local simultaneous random walks, using entangled qubits that collapse into the same (or opposite) direction, either random direction or totally controlled simultaneous movements. - Identifying eavesdropping from malicious eavesdroppers aimed at disturbing the simultaneous random walks by using entangled qubits that were sent at random or with predefined bases. - Identifying Byzantine robots or malicious robots that are trying to gain secret information or are attacking the system using entangled qubits. - The use of Pseudo Telepathy to coordinate robots' actions.
翻訳日:2023-01-22 01:44:59 公開日:2022-10-19
# 多次元量子容量の理論と量子ドットアレイにおけるスピン・電荷識別への応用

Theory of multi-dimensional quantum capacitance and its application to spin and charge discrimination in quantum-dot arrays ( http://arxiv.org/abs/2210.10546v1 )

ライセンス: Link先を確認
Andrea Secchi and Filippo Troiani(参考訳) 金属ゲートに容量的に結合した数粒子系の量子状態は、ゲート電圧に関して系エネルギーの第2導関数と同定できる量子容量を測定することで判別することができる。 このアプローチは、量子容量行列の導入により、マルチ電圧の場合に一般化される。 行列形式化により、パラメータ空間における電圧振動の方向に対する量子容量の依存性を判定し、ゲート電圧の最適組合せを同定することができる。 このアプローチは、ハバードモデルを用いて記述された量子ドットアレイの場合に適用される。 ここでは, 電荷安定性領域間の境界を持つ多次元電圧空間における潜在的関連領域を, 半古典的アプローチで決定する。 そして、量子容量行列を用いて、そのような境界を定量的に特徴づける。 さらに、これは異なる粒子数および/または全スピンを持つ状態の識別を最適化する手順を提供する。

Quantum states of a few-particle system capacitively coupled to a metal gate can be discriminated by measuring the quantum capacitance, which can be identified with the second derivative of the system energy with respect to the gate voltage. This approach is here generalized to the multi-voltage case, through the introduction of the quantum capacitance matrix. The matrix formalism allows us to determine the dependence of the quantum capacitance on the direction of the voltage oscillations in the parameter space, and to identify the optimal combination of gate voltages. This approach is applied to the case of a quantum-dot array, described in terms of a Hubbard model. Here, we first identify the potentially relevant regions in the multi-dimensional voltage space with the boundaries between charge stability regions, determined within a semiclassical approach. Then, we quantitatively characterize such boundaries by means of the quantum capacitance matrix. Altogether, this provides a procedure for optimizing the discrimination between states with different particle numbers and/or total spins.
翻訳日:2023-01-22 01:44:46 公開日:2022-10-19
# リンドブラッド浴への局所カップリングによる非平衡密度分布のリアルタイム拡大

Probing real-time broadening of nonequilibrium density profiles via a local coupling to a Lindblad bath ( http://arxiv.org/abs/2210.10528v1 )

ライセンス: Link先を確認
Tjark Heitmann, Jonas Richter, Jacek Herbrych, Jochen Gemmer, Robin Steinigeweg(参考訳) リンドブラッドマスター方程式は、開量子系に対する主要なアプローチの1つである。 凝縮物系の文脈において、長期間の定常状態の性質を研究するために広く適用されてきたが、そのような定常状態への実際の経路は、まだあまり注目されていない。 本研究では,単一リンドブラッド浴への局所結合を伴うスピン鎖の非平衡ダイナミクスを調べ,誘導磁化の輸送特性を解析した。 典型論と平衡論と確率的解法を組み合わせることで、有限時間におけるリンドブラッドアプローチと線形応答理論の接続を確立する閉系における相関関数に基づいて、開系における力学を構築できるという弱駆動の事例を明らかにした。 この接続は特に、量子輸送に対する閉および開のアプローチが適切に適用された場合に厳密に合意しなければならないことを暗示している。 この事実をスピン1/2xxz鎖の等方性点と容易軸系において数値的に示し,超拡散スケーリングと拡散スケーリングがそれぞれ観測される。

The Lindblad master equation is one of the main approaches to open quantum systems. While it has been widely applied in the context of condensed matter systems to study properties of steady states in the limit of long times, the actual route to such steady states has attracted less attention yet. Here, we investigate the nonequilibrium dynamics of spin chains with a local coupling to a single Lindblad bath and analyze the transport properties of the induced magnetization. Combining typicality and equilibration arguments with stochastic unraveling, we unveil for the case of weak driving that the dynamics in the open system can be constructed on the basis of correlation functions in the closed system, which establishes a connection between the Lindblad approach and linear response theory at finite times. This connection particularly implies that closed and open approaches to quantum transport have to agree strictly if applied appropriately. We demonstrate this fact numerically for the spin-1/2 XXZ chain at the isotropic point and in the easy-axis regime, where superdiffusive and diffusive scaling is observed, respectively.
翻訳日:2023-01-22 01:44:30 公開日:2022-10-19
# 古典スピンネットワークと量子スピンネットワークにおける熱電流拡大

Heat current magnification in Classical and Quantum spin networks ( http://arxiv.org/abs/2210.10511v1 )

ライセンス: Link先を確認
Vipul Upadhyay, Poshika Gandhi, Rohit Juneja, Rahul Marathe(参考訳) 二分岐古典系および量子スピン系におけるスピン数の非対称性による熱電流拡大について検討する。 まず、q2rとccaダイナミクスを用いてスピンモデルのような古典的イジングを研究し、スピン数の非対称性だけでは十分ではなく、熱電流拡大を観測するために他の非対称性の源が必要であることを示す。 Asymmetric spin--spin interaction strengths in the upper and lower branch is employed as the source of this asymmetry and it proves adequate for generating current magnification in both the models. Suitable physical motivation is then provided for current magnification in these systems along with ways to control and manipulate magnification through various system parameters. We also study a five spin Quantum system with modified Heisenberg XXZ interaction and preserved magnetisation using the Redfield master equation and show that it is possible to generate current magnification just by the asymmetry in the number of spins in this model. Our results indicate the dependence of circulating currents on population inversion and correlation with spin--spin entanglement. 最後に、このモデルにおけるパラメータの適切なチューニングにより、現在の倍率の最適化を研究する。

We investigate heat current magnification due to asymmetry in the number of spins in two-branched classical and quantum spin systems. We begin by studying the classical Ising like spin models using Q2R and CCA dynamics and show that just the asymmetry in the number of spins is not enough and some other source of asymmetry is required to observe heat current magnification. Asymmetric spin--spin interaction strengths in the upper and lower branch is employed as the source of this asymmetry and it proves adequate for generating current magnification in both the models. Suitable physical motivation is then provided for current magnification in these systems along with ways to control and manipulate magnification through various system parameters. We also study a five spin Quantum system with modified Heisenberg XXZ interaction and preserved magnetisation using the Redfield master equation and show that it is possible to generate current magnification just by the asymmetry in the number of spins in this model. Our results indicate the dependence of circulating currents on population inversion and correlation with spin--spin entanglement. Finally, optimisation of the current magnification is studied by suitable tuning of parameters in this model.
翻訳日:2023-01-22 01:44:11 公開日:2022-10-19
# 軌道角運動量符号化に基づくマルチ量子ハッシュとその実装

Multiqudit quantum hashing and its implementation based on orbital angular momentum encoding ( http://arxiv.org/abs/2210.10501v1 )

ライセンス: Link先を確認
D.O. Akat'ev, A.V. Vasiliev, N.M. Shafeev, F.M. Ablayev, A.A. Kalachev(参考訳) 量子ハッシュの新たなバージョンが開発され、量子ハッシュは単一光子高次元状態(qudits)のシーケンスとして構築される。 単一光子の軌道角運動量符号化を用いた高次元量子ハッシュプロトコルの原理的実装を行う。 衝突確率とハッシュの復号確率との最適比に対して, クアディットの数は, 寸法の増大とともに減少することを示した。 したがって、情報キャリアの次元の増大は単一光子による量子ハッシュをより効率的にする。

A new version of quantum hashing technique is developed wherein a quantum hash is constructed as a sequence of single-photon high-dimensional states (qudits). A proof-of-principle implementation of the high-dimensional quantum hashing protocol using orbital-angular momentum encoding of single photons is implemented. It is shown that the number of qudits decreases with increase of their dimension for an optimal ratio between collision probability and decoding probability of the hash. Thus, increasing dimension of information carriers makes quantum hashing with single photons more efficient.
翻訳日:2023-01-22 01:43:57 公開日:2022-10-19
# 2次元ライドバーグ原子配列における量子非劣化光子計数

Quantum Non-Demolition Photon Counting in a 2d Rydberg Atom Array ( http://arxiv.org/abs/2210.10798v1 )

ライセンス: Link先を確認
Christopher Fechisin, Kunal Sharma, Przemyslaw Bienias, Steven L. Rolston, J. V. Porto, Michael J. Gullans, and Alexey V. Gorshkov(参考訳) rydberg配列は、秩序原子配列の集団的挙動と、rydberg系の制御可能性と光学非線形性を結合し、フォトニック多体物理学を実現する強力なプラットフォームとなった。 このプラットフォームの応用として,量子非退化(qnd)光子計数のためのプロトコルを提案する。 我々のプロトコルは、ライドバーグ配列内の光子保存、一連のラビフロップからライドバーグ状態および測定値への観察フェーズ、および保存された光子の検索を含む。 Rabiの周波数は$\sqrt{n}$集合拡張を経験し、$n$は配列に格納される光子の数である。 しばらく振動した後のリドバーグ励起の有無を計画的に測定することは、光子数の弱い測定である。 フォトン計数プロトコルは、任意の純または混合初期状態からフォック状態を蒸留し、フォトニック状態の判別を行うのに利用できることを示す。 このプロトコルは実験的な現実的なノイズの存在下でも有効であることを確認した。

Rydberg arrays merge the collective behavior of ordered atomic arrays with the controllability and optical nonlinearities of Rydberg systems, resulting in a powerful platform for realizing photonic many-body physics. As an application of this platform, we propose a protocol for quantum non-demolition (QND) photon counting. Our protocol involves photon storage in the Rydberg array, an observation phase consisting of a series of Rabi flops to a Rydberg state and measurements, and retrieval of the stored photons. The Rabi frequency experiences a $\sqrt{n}$ collective enhancement, where $n$ is the number of photons stored in the array. Projectively measuring the presence or absence of a Rydberg excitation after oscillating for some time is thus a weak measurement of photon number. We demonstrate that the photon counting protocol can be used to distill Fock states from arbitrary pure or mixed initial states and to perform photonic state discrimination. We confirm that the protocol still works in the presence of experimentally realistic noise.
翻訳日:2023-01-22 01:36:47 公開日:2022-10-19
# Qiboを用いたパラメータシフト則による量子解析アダム降下

A quantum analytical Adam descent through parameter shift rule using Qibo ( http://arxiv.org/abs/2210.10787v1 )

ライセンス: Link先を確認
Matteo Robbiati, Stavros Efthymiou, Andrea Pasquale and Stefano Carrazza(参考訳) 本稿では,パラメータシフトルールアルゴリズムを用いた確率勾配降下を用いた量子機械学習最適化実験を行う。 まず,Qiboフレームワークを用いた勾配評価アルゴリズムとその最適化手順について述べる。 古典的ハードウェア上で量子シミュレーションによる実装を数値的に検証した結果,qiboが制御する1つの超伝導量子ビットチップを用いて,完全な量子ハードウェア最適化を行った。 シミュレーションと実際のハードウェア最適化を比較して量子回帰モデルの結果を示す。

In this proceedings we present quantum machine learning optimization experiments using stochastic gradient descent with the parameter shift rule algorithm. We first describe the gradient evaluation algorithm and its optimization procedure implemented using the Qibo framework. After numerically testing the implementation using quantum simulation on classical hardware, we perform successfully a full quantum hardware optimization exercise using a single superconducting qubit chip controlled by Qibo. We show results for a quantum regression model by comparing simulation to real hardware optimization.
翻訳日:2023-01-22 01:36:28 公開日:2022-10-19
# 一次元アノンにおける量子錬金術と普遍直交カタストロフィー

Quantum Alchemy and Universal Orthogonality Catastrophe in One-Dimensional Anyons ( http://arxiv.org/abs/2210.10776v1 )

ライセンス: Link先を確認
Naim E. Mackel, Jing Yang, Adolfo del Campo(参考訳) 中間正準交換統計を持つ多粒子量子系は1つの空間次元で支持される。 この文脈では、anyon-anyonマッピングは、統計パラメータ$\kappa$のシフトを生成する連続変換として再キャストされる。 我々は、$\kappa$の異なる値、すなわち異なる量子統計量に関連する量子状態の幾何学を特徴づける。 ボソニック部分空間とフェルミオン部分空間の状態は常に直交的であるが、エノン状態の間の重なりは一般に有限であり、微視的ハミルトニアンとは独立に、基本統計因子によって制御される直交性カタストロフィーの普遍的な形を示す。 我々は、$\kappa$の流れの量子速度制限を用いてこの減衰を特徴づけ、ハードコア・エノンのモデルで結果を説明し、量子シミュレーションで可能な実験について議論する。

Many-particle quantum systems with intermediate anyonic exchange statistics are supported in one spatial dimension. In this context, the anyon-anyon mapping is recast as a continuous transformation that generates shifts of the statistical parameter $\kappa$. We characterize the geometry of quantum states associated with different values of $\kappa$, i.e., different quantum statistics. While states in the bosonic and fermionic subspaces are always orthogonal, overlaps between anyonic states are generally finite and exhibit a universal form of the orthogonality catastrophe governed by a fundamental statistical factor, independent of the microscopic Hamiltonian. We characterize this decay using quantum speed limits on the flow of $\kappa$, illustrate our results with a model of hard-core anyons, and discuss possible experiments in quantum simulation.
翻訳日:2023-01-22 01:36:21 公開日:2022-10-19
# QB主義におけるベイズ規則の現状

The Status of the Bayes Rule in QBism ( http://arxiv.org/abs/2210.10757v1 )

ライセンス: Link先を確認
Blake C. Stacey(参考訳) 私は互いに混乱したアイデアをゲームで解き明かそうとします。

I gamely try to disentangle ideas that have been confused with one another.
翻訳日:2023-01-22 01:36:05 公開日:2022-10-19
# 量子ネットワークユーティリティ:量子ネットワークをベンチマークするためのフレームワーク

Quantum Network Utility: A Framework for Benchmarking Quantum Networks ( http://arxiv.org/abs/2210.10752v1 )

ライセンス: Link先を確認
Yuan Lee, Wenhan Dai, Don Towsley, Dirk Englund(参考訳) 量子ネットワークをベンチマークする共通のフレームワークがないことは、異なる量子ネットワークの能力を比較するのに障害となる。 本稿では,ユーザを量子チャネルで接続した値に基づいて,量子ネットワークの性能を定量化する汎用フレームワークを提案する。 本フレームワークでは,量子ネットワークの社会的・経済的価値を捉えるために,量子ネットワークユーティリティメトリックである$U_{QN}$を定義する。 量子ネットワークユーティリティは、セキュアな通信から分散センシングに至るまで、さまざまなアプリケーションをキャプチャするが、分散量子コンピューティングの例を詳細に研究する。 我々は、ユーティリティベースのフレームワークの採用が、新しい量子ネットワーク技術と設計の開発を指導し評価するための基盤となることを望んでいる。

The absence of a common framework for benchmarking quantum networks is an obstacle to comparing the capabilities of different quantum networks. We propose a general framework for quantifying the performance of a quantum network, which is based on the value created by connecting users through quantum channels. In this framework, we define the quantum network utility metric $U_{QN}$ to capture the social and economic value of quantum networks. While the quantum network utility captures a variety of applications from secure communications to distributed sensing, we study the example of distributed quantum computing in detail. We hope that the adoption of the utility-based framework will serve as a foundation for guiding and assessing the development of new quantum network technologies and designs.
翻訳日:2023-01-22 01:36:04 公開日:2022-10-19
# 最適輸送損失による量子アンサンブル学習のための生成モデル

Generative model for learning quantum ensemble via optimal transport loss ( http://arxiv.org/abs/2210.10743v1 )

ライセンス: Link先を確認
Hiroyuki Tezuka, Shumpei Uno, Naoki Yamamoto(参考訳) 生成モデリングは教師なしの機械学習フレームワークであり、さまざまな機械学習タスクで強いパフォーマンスを示す。 近年,数種類の生成モデルの量子バージョンが発見され,その一部は量子的優位性があることが証明されている。 しかし、これらの手法は量子状態の集合、すなわちアンサンブルを学ぶための生成モデルを構築するために直接適用できない。 本稿では,教師なし機械学習フレームワークを用いて,量子アンサンブルを学習可能な量子生成モデルを提案する。 重要なアイデアは、最適化された輸送損失に基づいて計算された新しい損失関数を導入することである。 次に、近似誤差のスケーリング特性など、この尺度の詳細な解析を行う。 また、既存の手法では扱えない量子異常検出問題への応用による生成モデルの適用を実証する。 提案モデルは,量子デバイスのヘルスチェックや量子計算の効率的な初期化など,幅広い応用への道を開くものである。

Generative modeling is an unsupervised machine learning framework, that exhibits strong performance in various machine learning tasks. Recently we find several quantum version of generative model, some of which are even proven to have quantum advantage. However, those methods are not directly applicable to construct a generative model for learning a set of quantum states, i.e., ensemble. In this paper, we propose a quantum generative model that can learn quantum ensemble, in an unsupervised machine learning framework. The key idea is to introduce a new loss function calculated based on optimal transport loss, which have been widely used in classical machine learning due to its several good properties; e.g., no need to ensure the common support of two ensembles. We then give in-depth analysis on this measure, such as the scaling property of the approximation error. We also demonstrate the generative modeling with the application to quantum anomaly detection problem, that cannot be handled via existing methods. The proposed model paves the way for a wide application such as the health check of quantum devices and efficient initialization of quantum computation.
翻訳日:2023-01-22 01:35:52 公開日:2022-10-19
# 光遮蔽マイクロ波光子

Optically heralded microwave photons ( http://arxiv.org/abs/2210.10739v1 )

ライセンス: Link先を確認
Wentao Jiang, Felix M. Mayor, Sultan Malik, Rapha\"el Van Laer, Timothy P. McKenna, Rishi N. Patel, Jeremy D. Witmer, and Amir H. Safavi-Naeini(参考訳) 絡み合いを分散処理する量子ネットワークは、強力な新しいコンピュータとセンサーを可能にする。 数百テラヘルツの周波数を持つ光光子は、おそらく長距離に量子情報を分配する唯一の方法である。 一方、超伝導量子ビットは、大規模な量子マシンを実現する最も有望なアプローチの1つであり、約40000ドル以下のエネルギーを持つマイクロ波光子上で自然に動作します。 これらの量子マシンを認識可能な距離でネットワーク化するには、この周波数ギャップを橋渡しし、電磁スペクトルの広く異なる部分の絡み合いを生成する方法を学ぶ必要がある。 ここでは、光子とマイクロ波光子の絡み合いを発生させるトランスデューサ装置を実装し、その実装と実演を行い、光子を検出することでマイクロ波場に単一光子を加えることを示す。 我々は、ギガヘルツナノメカニカル共鳴を中間体として使用し、強い光学的および圧電的相互作用により、光およびマイクロ波チャネルに効率よく結合することで実現した。 本稿では, 周波数変換効率5\%のトランスデューサの連続動作と, パルスマイクロ波光子発生率15$ヘルツを示す。 デバイス内の光吸収は、マイクロ波光子の2つ未満の熱ノイズを生成する。 一対のトランスデューサからの光子の合同測定は、遠方のマイクロ波周波数量子ノード間の絡み合いの発生を実現する。 このようなネットワークにおいて高いエンタングルメント発生率を実現するために必要なシステム効率とデバイス性能の向上が期待できる。

A quantum network that distributes and processes entanglement would enable powerful new computers and sensors. Optical photons with a frequency of a few hundred terahertz are perhaps the only way to distribute quantum information over long distances. Superconducting qubits on the other hand, which are one of the most promising approaches for realizing large-scale quantum machines, operate naturally on microwave photons that have roughly $40,000$ times less energy. To network these quantum machines across appreciable distances, we must bridge this frequency gap and learn how to generate entanglement across widely disparate parts of the electromagnetic spectrum. Here we implement and demonstrate a transducer device that can generate entanglement between optical and microwave photons, and use it to show that by detecting an optical photon we add a single photon to the microwave field. We achieve this by using a gigahertz nanomechanical resonance as an intermediary, and efficiently coupling it to optical and microwave channels through strong optomechanical and piezoelectric interactions. We show continuous operation of the transducer with $5\%$ frequency conversion efficiency, and pulsed microwave photon generation at a heralding rate of $15$ hertz. Optical absorption in the device generates thermal noise of less than two microwave photons. Joint measurements on optical photons from a pair of transducers would realize entanglement generation between distant microwave-frequency quantum nodes. Improvements of the system efficiency and device performance, necessary to realize a high rate of entanglement generation in such networks are within reach.
翻訳日:2023-01-22 01:35:37 公開日:2022-10-19
# 任意サイズのブラックボックス量子演算における誤差抑制

Error Suppression for Arbitrary-Size Black Box Quantum Operations ( http://arxiv.org/abs/2210.10733v1 )

ライセンス: Link先を確認
Gideon Lee, Connor T. Hann, Shruti Puri, S. M. Girvin, Liang Jiang(参考訳) NISQデバイスを用いたアプリケーションでは,完全誤り訂正のないエラーの効率的な抑制が不可欠である。 誤り緩和により、誤り訂正符号を必要とせずに期待値を抽出するエラーを抑制できるが、その応用は期待値の推定に限定され、任意の量子状態に作用する高忠実な量子演算を提供することはできない。 この課題に対処するために,完全量子誤り訂正を使わずに,ゲートベースの量子計算にエラーフィルタ(EF)を実用的なエラー抑制手法として用いることを提案する。 その結果、汎用エラー抑制プロトコルが実現され、量子演算のサイズとは無関係にエラー抑制に必要なリソースがスケールする。 さらに、EFの量子ランダムアクセスメモリへの応用を解析し、ハードウェア効率のよいエラー抑制を提供する。

Efficient suppression of errors without full error correction is crucial for applications with NISQ devices. Error mitigation allows us to suppress errors in extracting expectation values without the need for any error correction code, but its applications are limited to estimating expectation values, and cannot provide us with high-fidelity quantum operations acting on arbitrary quantum states. To address this challenge, we propose to use error filtration (EF) for gate-based quantum computation, as a practical error suppression scheme without resorting to full quantum error correction. The result is a general-purpose error suppression protocol where the resources required to suppress errors scale independently of the size of the quantum operation. We further analyze the application of EF to quantum random access memory, where EF offers a hardware-efficient error suppression.
翻訳日:2023-01-22 01:35:14 公開日:2022-10-19
# 高次元絡み合い認定:2d+1$実験親和性測定における絡み合いの相対エントロピー

High-dimensional entanglement certification: bounding relative entropy of entanglement in $2d+1$ experiment-friendly measurements ( http://arxiv.org/abs/2210.10717v1 )

ライセンス: Link先を確認
Alexandria J. Moore and Andrew M. Weiner(参考訳) 結合量子系における当事者間のコヒーレント相関である絡み合いは、2次元の二次元の場合、よく理解され、定量化される。 より高次元(>2)エンタングルドシステムは、様々な量子情報アプリケーションの能力を拡張することを約束する。 このようなシステムの有用性にもかかわらず、高次元の絡み合いを定量化する方法はより限定的で実験的に困難である。 我々は、絡み合った認証アプローチと、それを適用するのに必要な大量の(しばしば難しい)測定をレビューする。 本稿では,システム次元の2乗根と線形にスケールし,かつ1つの複素計測のみを必要とする新しい認証手法を提案する。 認証方法は、最大相関状態の絡み合いの相対エントロピーに下界を配置し、システムの絡み合いを認証する。 雑音の存在下での最大相関状態 -- 期待実験の場合 -- については、下限も示される。 必要なすべての測定値の実験的実現について論じる。

Entanglement -- the coherent correlations between parties in a joint quantum system -- is well-understood and quantifiable in the two-dimensional, two-party case. Higher (>2)-dimensional entangled systems hold promise in extending the capabilities of various quantum information applications. Despite the utility of such systems, methods for quantifying high-dimensional entanglement are more limited and experimentally challenging. We review entanglement certification approaches and the large number of -- often difficult -- measurements required to apply them. We present a novel certification method whose measurement requirements scale linearly with subsystem dimension (scaling with the square-root of the system dimension) and which requires only a single complex measurement. The certification method places a lower-bound on the relative entropy of entanglement of any maximally correlated state thereby certifying system entanglement. A lower bound is also shown for any maximally correlated state in the presence of noise -- the expected experimental case. We discuss experimental realization of all required measurements.
翻訳日:2023-01-22 01:34:52 公開日:2022-10-19
# オープン量子システムにおけるセンシングの最適時間

Optimal time for sensing in open quantum systems ( http://arxiv.org/abs/2210.10926v1 )

ライセンス: Link先を確認
Zain H. Saleem, Anil Shaji, Stephen K. Gray(参考訳) 我々は,Gorini-Kossakowski-Sudarshan-Lindbladマスター方程式を満たすオープン量子系における時間依存性量子フィッシャー情報(QFI)について検討し,従来のQFIの定義がシステム力学と相関しないことを示す。 QFIの修正形式が提案され、より優れていることが示され、これらの開量子系におけるセンサの最適時間を決定することができる。 また,実効的な非エルミート力学の観点からシステムのダイナミクスを研究し,複数の絡み合ったプローブを用いた場合の量子フィッシャー情報のスケーリングを理解するために使用する。

We study the time-dependent quantum Fisher Information (QFI) in an open quantum system satisfying the Gorini-Kossakowski-Sudarshan-Lindblad master equation and demonstrate that the conventional definition of the QFI can fail to correlate with the system dynamics. A modified form of the QFI is proposed that is shown to be superior and allows us to determine the optimal time for sensing in these open quantum systems. We also study the dynamics of the system from an effective non-Hermitian dynamics standpoint and use it to understand the scaling of quantum Fisher information when multiple entangled probes are used.
翻訳日:2023-01-22 01:29:02 公開日:2022-10-19
# チップレットアーキテクチャによる超伝導量子コンピュータのスケーリング

Scaling Superconducting Quantum Computers with Chiplet Architectures ( http://arxiv.org/abs/2210.10921v1 )

ライセンス: Link先を確認
Kaitlin N. Smith, Gokul Subramanian Ravi, Jonathan M. Baker, Frederic T. Chong(参考訳) 固定周波数トランスモン量子コンピュータ(QC)は、コヒーレンス時間、アドレス可能性、ゲート忠実度が進歩している。 残念ながら、これらのデバイスはオンチップのキュービット数、キャッピング処理能力、フォールトトレランスへの進捗速度によって制限されている。 新たなトランスモンデバイスは100量子ビットを超えるが、量子アドバンテージの有意義なデモに十分な大きさのqcを構築するには、多くの設計上の課題を克服する必要がある。 例えば、今日のトランペットキュービットは製造精度が限られているため、大きな変化を経験している。 その結果、現在の製造技術が大幅に改善され、より多くのキュービットを持つより大きな個別チップを構築することで、QCのスケーリングが困難になる。 QC性能を低下させる重大なデバイス変動を欠陥と呼ぶ。 ここでは、周波数衝突と呼ばれる特定の欠陥に焦点を当てる。 トランモン周波数が衝突すると、その差は2量子ゲートの忠実度を制限する範囲に収まる。 周波数衝突は、より大きなqcでより大きな確率で起こり、オンチップの量子ビット数が増えるにつれて、衝突のない利得が減少する。 本稿では,量子マルチチップモジュール(mcms)に量子チップレットを統合することで,より小さなqcsに関連する高収率の活用を提案する。 収率,ゲート性能,アプリケーションに基づく分析は,モジュール性によるQCスケーリングの実現可能性を示している。

Fixed-frequency transmon quantum computers (QCs) have advanced in coherence times, addressability, and gate fidelities. Unfortunately, these devices are restricted by the number of on-chip qubits, capping processing power and slowing progress toward fault-tolerance. Although emerging transmon devices feature over 100 qubits, building QCs large enough for meaningful demonstrations of quantum advantage requires overcoming many design challenges. For example, today's transmon qubits suffer from significant variation due to limited precision in fabrication. As a result, barring significant improvements in current fabrication techniques, scaling QCs by building ever larger individual chips with more qubits is hampered by device variation. Severe device variation that degrades QC performance is referred to as a defect. Here, we focus on a specific defect known as a frequency collision. When transmon frequencies collide, their difference falls within a range that limits two-qubit gate fidelity. Frequency collisions occur with greater probability on larger QCs, causing collision-free yields to decline as the number of on-chip qubits increases. As a solution, we propose exploiting the higher yields associated with smaller QCs by integrating quantum chiplets within quantum multi-chip modules (MCMs). Yield, gate performance, and application-based analysis show the feasibility of QC scaling through modularity.
翻訳日:2023-01-22 01:28:50 公開日:2022-10-19
# 測定に基づくアベリア格子ゲージ理論の量子シミュレーション

Measurement-based quantum simulation of Abelian lattice gauge theories ( http://arxiv.org/abs/2210.10908v1 )

ライセンス: Link先を確認
Hiroki Sukeno and Takuya Okuda(参考訳) 格子ゲージ理論の数値シミュレーションは高エネルギー物理学において欠かせないツールであり、その量子シミュレーションは将来量子コンピュータの主要な応用になると期待されている。 本研究では、d$時空次元のアーベル格子ゲージ理論に対して、ゲージ理論の時空構造を反映した絡み合った資源状態(一般化されたクラスター状態)を定義する。 その結果, 境界上のゲージ理論の決定論的ハミルトニアン量子シミュレーションが導かれることがわかった。 この構成は、3次元クラスター状態上でシミュレーションされた$(2+1)$-次元アーベル格子ゲージ理論を例に挙げ、ウェグナーの格子モデル $m_{(d,n)}$ のシミュレーションに一般化し、高形式アーベルゲージ場を含む。 一般化されたクラスター状態は、その境界上の模擬ゲージ理論の対称性に関連する一般化された大域対称性に対して対称性が保護された位相秩序を持つことを示す。 我々の手順は、フェルミオン性資源状態上の北エフのマヨラナ鎖のシミュレーションに一般化することができる。 また, 2-qubit 測定およびポストセレクションによる仮想時間量子シミュレーションと, モデル $M_{(d,n)}$ の統計的分割関数を, 2-qubit 測定基底の積と一般化クラスタ状態の波動関数の重なりとして記述する古典量子対応について検討した。

Numerical simulation of lattice gauge theories is an indispensable tool in high energy physics, and their quantum simulation is expected to become a major application of quantum computers in the future. In this work, for an Abelian lattice gauge theory in $d$ spacetime dimensions, we define an entangled resource state (generalized cluster state) that reflects the spacetime structure of the gauge theory. We show that sequential single-qubit measurements with the bases adapted according to the former measurement outcomes induce a deterministic Hamiltonian quantum simulation of the gauge theory on the boundary. Our construction includes the $(2+1)$-dimensional Abelian lattice gauge theory simulated on three-dimensional cluster state as an example, and generalizes to the simulation of Wegner's lattice models $M_{(d,n)}$ that involve higher-form Abelian gauge fields. We demonstrate that the generalized cluster state has a symmetry-protected topological order with respect to generalized global symmetries that are related to the symmetries of the simulated gauge theories on the boundary. Our procedure can be generalized to the simulation of Kitaev's Majorana chain on a fermionic resource state. We also study the imaginary-time quantum simulation with two-qubit measurements and post-selections, and a classical-quantum correspondence, where the statistical partition function of the model $M_{(d,n)}$ is written as the overlap between the product of two-qubit measurement bases and the wave function of the generalized cluster state.
翻訳日:2023-01-22 01:28:01 公開日:2022-10-19
# SWAPインポスタ:双方向量子テレポーテーションとその性能

The SWAP Imposter: Bidirectional Quantum Teleportation and its Performance ( http://arxiv.org/abs/2210.10882v1 )

ライセンス: Link先を確認
Aliza U. Siddiqui, Mark M. Wilde(参考訳) 双方向量子テレポーテーションは、2つのパーティ間で量子情報を交換するための基本的なプロトコルである。 具体的には、2人の個人は共有リソース状態とローカル操作と古典的通信(LOCC)を利用して量子状態の交換を行う。 本稿では,共用論文『Siddiqui and Wilde, arXiv:2010.07905』のコントリビューションを簡潔に強調する。 非理想的双方向テレポーテーションの誤差を正規化ダイヤモンド距離とチャネル不忠実度を用いて定量化する2つの方法を開発した。 次に、両方のメトリクスが与える値がこのタスクに等しいことを確認します。 さらに、LOCCから許容される操作の集合を部分的転置の正当性を完全に保存する操作に緩和することにより、非理想的双方向テレポーテーションの誤差に対する半定プログラミングの下限を求める。 これらの境界は、いくつかの重要な例 -- 等方的状態とリソース状態が全く存在しない場合 -- に対して評価する。 どちらの場合も、分析的な解決策を見つける。 第2の例は、古典対量子双方向テレポーテーションのベンチマークを確立する。 もう一つの例は、一般化振幅減衰チャネル(gadc)を介して送信された2つのベル状態である。 このシナリオでは、誤差の解析式と、前者と数値的精度で一致する数値解が見つかる。

Bidirectional quantum teleportation is a fundamental protocol for exchanging quantum information between two parties. Specifically, the two individuals make use of a shared resource state as well as local operations and classical communication (LOCC) to swap quantum states. In this work, we concisely highlight the contributions of our companion paper [Siddiqui and Wilde, arXiv:2010.07905]. We develop two different ways of quantifying the error of nonideal bidirectional teleportation by means of the normalized diamond distance and the channel infidelity. We then establish that the values given by both metrics are equal for this task. Additionally, by relaxing the set of operations allowed from LOCC to those that completely preserve the positivity of the partial transpose, we obtain semidefinite programming lower bounds on the error of nonideal bidirectional teleportation. We evaluate these bounds for some key examples -- isotropic states and when there is no resource state at all. In both cases, we find an analytical solution. The second example establishes a benchmark for classical versus quantum bidirectional teleportation. Another example that we investigate consists of two Bell states that have been sent through a generalized amplitude damping channel (GADC). For this scenario, we find an analytical expression for the error, as well as a numerical solution that agrees with the former up to numerical precision.
翻訳日:2023-01-22 01:27:33 公開日:2022-10-19
# エネルギー推定のためのより良い基底状態準備はいつ価値があるのか?

When is better ground state preparation worthwhile for energy estimation? ( http://arxiv.org/abs/2210.10872v1 )

ライセンス: Link先を確認
Shivesh Pathak, Antonio Russo, Stefan Seritan, Andrew Baczewski(参考訳) 多くの量子シミュレーションタスクは、ハミルトニアンの基底状態に対して$\gamma$の重なり合う状態を作成する必要があり、関連するエネルギー固有値を計算する確率は$\gamma^2$で上限づけられる。 振幅増幅は$\gamma$を増やすことができるが、これは単に計算を繰り返すよりも効率的である。 Lin と Tong の準最適状態生成アルゴリズムを解析した結果,2次に近い基底状態エネルギー推定の実行時のプロキシを削減できることが判明した。 資源推定は様々な問題に対して提供され、振幅増幅の付加コストは特定の仮定の下での現実的な材料科学問題にとって価値があることを示唆している。

Many quantum simulation tasks require preparing a state with overlap $\gamma$ relative to the ground state of a Hamiltonian of interest, such that the probability of computing the associated energy eigenvalue is upper bounded by $\gamma^2$. Amplitude amplification can increase $\gamma$, but the conditions under which this is more efficient than simply repeating the computation remain unclear. Analyzing Lin and Tong's near-optimal state preparation algorithm we show that it can reduce a proxy for the runtime of ground state energy estimation near quadratically. Resource estimates are provided for a variety of problems, suggesting that the added cost of amplitude amplification is worthwhile for realistic materials science problems under certain assumptions.
翻訳日:2023-01-22 01:27:11 公開日:2022-10-19
# ノイズ量子ゲートによる極性符号の復号:量子回路と洞察

Decoding Polar Codes via Noisy Quantum Gates: Quantum Circuits and Insights ( http://arxiv.org/abs/2210.10854v1 )

ライセンス: Link先を確認
Srikar Kasi, John Kaewell, Shahab Hamidi-Rad, Kyle Jamieson(参考訳) 無線ネットワークアプリケーションにおける量子計算の利用は、インプラクティスと最適なワイヤレスアルゴリズムのパフォーマンスギャップを埋めるための有望なパラダイムとして登場している。 今日の量子技術は限られた数の量子ビットと低忠実度ゲートを提供しているが、アプリケーションベースの量子ソリューションはそのような技術のパフォーマンスをさらに理解し改善するのに役立ちます。 本稿では,新しい量子ゲートを用いた極誤差訂正符号の最大値デコーダであるQGateD-Polarを紹介し,今日の5Gおよび明日のNextG無線ネットワークで広く普及している。 qgated-polarは、スーパーポジション、絡み合い、干渉といった量子現象を利用して、受信した無線ソフトデータから最終的なデコードされた解への極性コード復号の時間発展を決定するために量子ゲートを使用する。 初期の結果から,qgated-polarは理想量子シミュレーションにおいて最大ラキシブル性能を達成し,ノイズによる性能変化を実証した。

The use of quantum computation for wireless network applications is emerging as a promising paradigm to bridge the performance gap between in-practice and optimal wireless algorithms. While today's quantum technology offers limited number of qubits and low fidelity gates, application-based quantum solutions help us to understand and improve the performance of such technology even further. This paper introduces QGateD-Polar, a novel Quantum Gate-based Maximum-Likelihood Decoder design for Polar error correction codes, which are becoming widespread in today's 5G and tomorrow's NextG wireless networks. QGateD-Polar uses quantum gates to dictate the time evolution of Polar code decoding -- from the received wireless soft data to the final decoded solution -- by leveraging quantum phenomena such as superposition, entanglement, and interference, making it amenable to quantum gate-based computers. Our early results show that QGateD-Polar achieves the Maximum Likelihood performance in ideal quantum simulations, demonstrating how performance varies with noise.
翻訳日:2023-01-22 01:26:57 公開日:2022-10-19
# 光導波路におけるパルス領域定理と光子エコーへの応用

Pulse area theorem in optical waveguide and its application to photon echo ( http://arxiv.org/abs/2210.10835v1 )

ライセンス: Link先を確認
S.A. Moiseev, M.M. Minnegaliev, A.V. Pavlov, K.I. Gerasimov, E.S.Moiseev, T.A. Rupasov, N.N. Skryabin, A.A. Kalinkin, S.P. Kulik(参考訳) We derive the area theorem for light pulses resonantly interacting with atoms in a single-mode optical waveguide and present its analytical solution for Gaussian-type modes, which demonstrates the significant difference from the formation of $2\pi$ pulses by plane waves.We generalize this theorem to the description of photon echo and apply it to the two-pulse (primary) echo and the revival of silenced echo (ROSE) protocol of photon echo quantum memory.For the first time, we implemented ROSE protocol in a single-mode laser-written waveguide made of an optically thin crystal $Tm^{3+}:Y_3Al_5O_{12}$. 得られた実験データは, 発展理論によって十分に説明され, 得られた実験結果と, 導出パルス領域アプローチの適用可能性について考察する。

We derive the area theorem for light pulses resonantly interacting with atoms in a single-mode optical waveguide and present its analytical solution for Gaussian-type modes, which demonstrates the significant difference from the formation of $2\pi$ pulses by plane waves.We generalize this theorem to the description of photon echo and apply it to the two-pulse (primary) echo and the revival of silenced echo (ROSE) protocol of photon echo quantum memory.For the first time, we implemented ROSE protocol in a single-mode laser-written waveguide made of an optically thin crystal $Tm^{3+}:Y_3Al_5O_{12}$. The experimental data obtained are satisfactorily explained by the developed theory.Finally, we discuss the experimental results obtained and possible applications of the derived pulse area approach.
翻訳日:2023-01-22 01:26:37 公開日:2022-10-19
# 結晶性量子回路

Crystalline Quantum Circuits ( http://arxiv.org/abs/2210.10808v1 )

ライセンス: Link先を確認
Grace M. Sommers, David A. Huse, Michael J. Gullans(参考訳) ランダム量子回路は量子情報科学における幅広い応用を刺激し続けているが、確率論的手法によって解析的に追跡可能である。 同様の応用による決定論的回路の必要性から、時間と空間の両方で変換不変性を示唆して非ランダムユニタリクリフォード回路のクラスを構築する。 さらに二重ユニタリ性を示すため、回路はSWAPまたはiSWAPコアの結晶格子となり、エッジは単一ビットゲートで装飾される。 正方形とカゴメ格子の研究では、結晶の点群の下(部分群)にさらに不変性を課すことができる。 我々は、clifford quantum cellular automataの形式化を用いて、これらの回路の演算子の拡散、絡み合い生成、再帰時間を記述する。 正方格子上の完全な分類は、特に「非フラクタルな良いスクランブルクラス」であり、回路の終端における消去誤差の下で線形な符号距離と高い性能の符号を生成する高密度演算子を拡散させる。 また、時空変換不変の測定を加えてユニタリティを破り、フラクタルダイナミクスを持つ回路のクラスを見つける。

Random quantum circuits continue to inspire a wide range of applications in quantum information science, while remaining analytically tractable through probabilistic methods. Motivated by the need for deterministic circuits with similar applications, we construct classes of nonrandom unitary Clifford circuits by imposing translation invariance in both time and space. Further imposing dual-unitarity, our circuits effectively become crystalline lattices whose vertices are SWAP or iSWAP cores and whose edges are decorated with single-qubit gates. Working on the square and kagome lattice, one can further impose invariance under (subgroups of) the crystal's point group. We use the formalism of Clifford quantum cellular automata to describe operator spreading, entanglement generation, and recurrence times of these circuits. A full classification on the square lattice reveals, of particular interest, a "non-fractal good scrambling class" with dense operator spreading that generates codes with linear contiguous code distance and high performance under erasure errors at the end of the circuit. We also break unitarity by adding spacetime-translation-invariant measurements and find a class of circuits with fractal dynamics.
翻訳日:2023-01-22 01:26:27 公開日:2022-10-19
# ペア相関電子シミュレーションの精製に基づく量子誤差緩和

Purification-based quantum error mitigation of pair-correlated electron simulations ( http://arxiv.org/abs/2210.10799v1 )

ライセンス: Link先を確認
T. E. O'Brien, G. Anselmetti, F. Gkritsis, V. E. Elfving, S. Polla, W. J. Huggins, O. Oumarou, K. Kechedzhi, D. Abanin, R. Acharya, I. Aleiner, R. Allen, T. I. Andersen, K. Anderson, M. Ansmann, F. Arute, K. Arya, A. Asfaw, J. Atalaya, D. Bacon, J. C. Bardin, A. Bengtsson, S. Boixo, G. Bortoli, A. Bourassa, J. Bovaird, L. Brill, M. Broughton, B. Buckley, D. A. Buell, T. Burger, B. Burkett, N. Bushnell, J. Campero, Y. Chen, Z. Chen, B. Chiaro, D. Chik, J. Cogan, R. Collins, P. Conner, W. Courtney, A. L. Crook, B. Curtin, D. M. Debroy, S. Demura, I. Drozdov, A. Dunsworth, C. Erickson, L. Faoro, E. Farhi, R. Fatemi, V. S. Ferreira, L. Flores Burgos, E. Forati, A. G. Fowler, B. Foxen, W. Giang, C. Gidney, D. Gilboa, M. Giustina, R. Gosula, A. Grajales Dau, J. A. Gross, S. Habegger, M. C. Hamilton, M. Hansen, M. P. Harrigan, S. D. Harrington, P. Heu, J. Hilton, M. R. Hoffmann, S. Hong, T. Huang, A. Huff, L. B. Ioffe, S. V. Isakov, J. Iveland, E. Jeffrey, Z. Jiang, C. Jones, P. Juhas, D. Kafri, J. Kelly, T. Khattar, M. Khezri, M. Kieferov\'a, S. Kim, P. V. Klimov, A. R. Klots, R. Kothari, A. N. Korotkov, F. Kostritsa, J. M. Kreikebaum, D. Landhuis, P. Laptev, K. Lau, L. Laws, J. Lee, K. Lee, B. J. Lester, A. T. Lill, W. Liu, W. P. Livingston, A. Locharla, E. Lucero, F. D. Malone, S. Mandra, O. Martin, S. Martin, J. R. McClean, T. McCourt, M. McEwen, A. Megrant, X. Mi, A. Mieszala, K. C. Miao, M. Mohseni, S. Montazeri, A. Morvan, R. Movassagh, W. Mruczkiewicz, O. Naaman, M. Neeley, C. Neill, A. Nersisyan, H. Neven, M. Newman, J. H. Ng, A. Nguyen, M. Nguyen, M. Y. Niu, S. Omonije, A. Opremcak, A. Petukhov, R. Potter, L. P. Pryadko, C. Quintana, C. Rocque, P. Roushan, N. Saei, D. Sank, K. Sankaragomathi, K. J. Satzinger, H. F. Schurkus, C. Schuster, M. J. Shearn, A. Shorter, N. Shutty, V. Shvarts, J. Skruzny, V. Smelyanskiy, W. C. Smith, R. Somma, G. Sterling, D. Strain, M. Szalay, D. Thor, A. Torres, G. Vidal, B. Villalonga, C. Vollgraff Heidweiller, T. White, B. W. K. Woo, C. Xing, Z. J. Yao, P. Yeh, J. Yoo, G. Young, A. Zalcman, Y. Zhang, N. Zhu, N. Zobrist, C. Gogolin, R. Babbush, and N. C. Rubin(参考訳) 量子コンピューティングプラットフォームの開発における重要な尺度は、ますます複雑な物理システムのシミュレーションである。 フォールトトレラントな量子コンピューティングの前には、この成長を続けるためには堅牢なエラー軽減戦略が必要である。 本稿では,計算ステップストーンと完全に相関したモデルと,最近導入された 'パーフィケーションベース' エラー軽減戦略の検証を行う機会とを両立する高齢者ゼロ電子対部分空間内の物理シミュレーションについて検討する。 超伝導量子ビット量子プロセッサの最大20ドルキュービットに対して、時間(エチョ検証)や空間(仮想蒸留)の2倍の量子リソースに基づく誤差軽減性能の比較を行った。 精度の低い技術(例えばポストセレクション)より1~2桁の誤差の減少を観測し、システムサイズによって誤差軽減による利得が増大することを示した。 これらの誤り軽減戦略を利用することで、相関化学系に対する最も大きな変分アルゴリズムを実装できる。 これらの結果から,電子構造の超古典的シミュレーションにおける最小要件を推定することができる。 浄化に基づく誤差緩和による印象的な向上にもかかわらず、古典的に難解な変分化学シミュレーションには重要なハードウェア改善が必要であることが判明した。

An important measure of the development of quantum computing platforms has been the simulation of increasingly complex physical systems. Prior to fault-tolerant quantum computing, robust error mitigation strategies are necessary to continue this growth. Here, we study physical simulation within the seniority-zero electron pairing subspace, which affords both a computational stepping stone to a fully correlated model, and an opportunity to validate recently introduced ``purification-based'' error-mitigation strategies. We compare the performance of error mitigation based on doubling quantum resources in time (echo verification) or in space (virtual distillation), on up to $20$ qubits of a superconducting qubit quantum processor. We observe a reduction of error by one to two orders of magnitude below less sophisticated techniques (e.g. post-selection); the gain from error mitigation is seen to increase with the system size. Employing these error mitigation strategies enables the implementation of the largest variational algorithm for a correlated chemistry system to-date. Extrapolating performance from these results allows us to estimate minimum requirements for a beyond-classical simulation of electronic structure. We find that, despite the impressive gains from purification-based error mitigation, significant hardware improvements will be required for classically intractable variational chemistry simulations.
翻訳日:2023-01-22 01:26:03 公開日:2022-10-19
# 超大型組合せ合成ライブラリの効率的なグラフ生成モデル

An efficient graph generative model for navigating ultra-large combinatorial synthesis libraries ( http://arxiv.org/abs/2211.04468v1 )

ライセンス: Link先を確認
Aryan Pedawi, Pawel Gniewek, Chaoyi Chang, Brandon M. Anderson, Henry van den Bedem(参考訳) 仮想的でオンデマンドな化学図書館は、化学空間の広大な、合成的にアクセス可能な領域を解き放ち、初期段階の薬物発見を変革した。 近年、これらの図書館は数百万から数兆の化合物から急速に成長し、様々な治療対象の強力なヒットを隠蔽している。 しかし、彼らはすぐに、明示的な列挙を可能にするサイズに近づき、仮想スクリーニングの新たな課題を提示している。 これらの課題を克服するために,コンビネーション合成ライブラリ変分自動エンコーダ(CSLVAE)を提案する。 提案された生成モデルは、そのようなライブラリを微分可能で階層的に構成されたデータベースとして表現する。 ライブラリから化合物が与えられると、分子エンコーダは検索のためのクエリを構築し、分子デコーダによって、まず化学反応をデコードし、次に反応物質をデコードすることで化合物を再構築する。 我々の設計はデコーダにおける自己回帰を最小化し、大きな有効な分子グラフの生成を容易にする。 本手法は,超大規模合成ライブラリに対して高速かつ並列にバッチ推論を行い,早期創薬において重要な応用が可能となる。 本手法で提案する化合物は図書館内に存在することが保証されており,合成的かつ費用対効果が高い。 重要なことに、CSLVAEは、外部の化合物をエンコードし、in-libraryアナログを検索することができる。 実験では,大規模組合せ合成ライブラリのナビゲーションにおける提案手法の有用性を実証する。

Virtual, make-on-demand chemical libraries have transformed early-stage drug discovery by unlocking vast, synthetically accessible regions of chemical space. Recent years have witnessed rapid growth in these libraries from millions to trillions of compounds, hiding undiscovered, potent hits for a variety of therapeutic targets. However, they are quickly approaching a size beyond that which permits explicit enumeration, presenting new challenges for virtual screening. To overcome these challenges, we propose the Combinatorial Synthesis Library Variational Auto-Encoder (CSLVAE). The proposed generative model represents such libraries as a differentiable, hierarchically-organized database. Given a compound from the library, the molecular encoder constructs a query for retrieval, which is utilized by the molecular decoder to reconstruct the compound by first decoding its chemical reaction and subsequently decoding its reactants. Our design minimizes autoregression in the decoder, facilitating the generation of large, valid molecular graphs. Our method performs fast and parallel batch inference for ultra-large synthesis libraries, enabling a number of important applications in early-stage drug discovery. Compounds proposed by our method are guaranteed to be in the library, and thus synthetically and cost-effectively accessible. Importantly, CSLVAE can encode out-of-library compounds and search for in-library analogues. In experiments, we demonstrate the capabilities of the proposed method in the navigation of massive combinatorial synthesis libraries.
翻訳日:2022-11-14 00:00:58 公開日:2022-10-19
# 高精度かつ凝集度の高い勧告のための多変数正則行列分解法

Diversely Regularized Matrix Factorization for Accurate and Aggregately Diversified Recommendation ( http://arxiv.org/abs/2211.01328v1 )

ライセンス: Link先を確認
Jongjin Kim, Hyunsik Jeon, Jaeri Lee, and U Kang(参考訳) ユーザに対してパーソナライズされたトップ$アイテムを推奨する場合、ニーズを満たしながらアイテムを多様に推奨するにはどうすればよいのでしょう? 総合的に多様化したレコメンダシステムは、レコメンデーション精度を犠牲にすることなく、ユーザ全体にわたってさまざまな項目を推奨することを目的としている。 さまざまなアイテムの露出機会を増やし、それによって販売者の潜在的な収益とユーザの満足度を高める。 しかし,実世界のデータを歪ませた結果がmfの歪んだ推薦結果につながるため,最も一般的なレコメンデーションモデルの一つである行列因子化(mf)を用いて,総合的な多様性に取り組むことは困難である。 本研究では,新しい行列因子分解法である divmf (diversely regularized matrix factorization) を提案する。 DivMFはMFモデルのスコア行列を正規化し、トップ$k$レコメンデーションリストのカバレッジとエントロピーを最大化し、レコメンデーション結果を総合的に多様化させる。 また,正確かつ効率的なトレーニングのために,unmasking機構と注意深く設計したmi i-batch学習手法を提案する。 実世界のデータセットに関する広範囲な実験は、divmfが総合的なレコメンデーションで最先端のパフォーマンスを達成していることを示している。

When recommending personalized top-$k$ items to users, how can we recommend the items diversely to them while satisfying their needs? Aggregately diversified recommender systems aim to recommend a variety of items across whole users without sacrificing the recommendation accuracy. They increase the exposure opportunities of various items, which in turn increase potential revenue of sellers as well as user satisfaction. However, it is challenging to tackle aggregate-level diversity with a matrix factorization (MF), one of the most common recommendation model, since skewed real world data lead to skewed recommendation results of MF. In this work, we propose DivMF (Diversely Regularized Matrix Factorization), a novel matrix factorization method for aggregately diversified recommendation. DivMF regularizes a score matrix of an MF model to maximize coverage and entropy of top-$k$ recommendation lists to aggregately diversify the recommendation results. We also propose an unmasking mechanism and carefully designed mi i-batch learning technique for accurate and efficient training. Extensive experiments on real-world datasets show that DivMF achieves the state-of-the-art performance in aggregately diversified recommendation.
翻訳日:2022-11-06 15:03:57 公開日:2022-10-19
# 探索的グラフィカル解析と一様変数解析と機械学習アルゴリズムにおける他の次元削減法の比較

Comparing Exploratory Graphical Analyses and Unique Variable Analysis to Other Dimension Reduction Methods On Machine Learning Algorithms ( http://arxiv.org/abs/2210.13230v1 )

ライセンス: Link先を確認
Sean H. Merritt and Alexander P. Christensen(参考訳) 解釈可能な機械学習モデルの開発は、ますます重要な問題になっている。 データサイエンティストが解釈可能なモデルを開発する方法の1つは、次元削減技術を使用することである。 本稿では,探索グラフ解析 (EGA) と一意変数解析 (UVA) と呼ばれるネットワーク心理計測学の2つの手法を含む,いくつかの次元削減手法について検討する。 我々はEGAとUVAを、機械学習文献(主成分分析と独立成分分析)に共通する他の2つの次元削減技術と比較した。 EGA と UVA は,他の還元技術と同様に機能し,還元しないことを示す。 従来の文献と一致して,次元減少は変数の減少を伴わずに減少し,増大し,あるいは精度が同じであることを示す。 仮の結果は、次元の縮小が分類タスクに使用する場合のパフォーマンス向上につながる傾向があることを見出した。

Developing interpretable machine learning models has become an increasingly important issue. One way in which data scientists have been able to develop interpretable models has been to use dimension reduction techniques. In this paper, we examine several dimension reduction techniques including two recent approaches developed in the network psychometrics literature called exploratory graph analysis (EGA) and unique variable analysis (UVA). We compared EGA and UVA with two other dimension reduction techniques common in the machine learning literature (principal component analysis and independent component analysis) as well as no reduction to the variables real data. We show that EGA and UVA perform as well as the other reduction techniques or no reduction. Consistent with previous literature, we show that dimension reduction can decrease, increase, or provide the same accuracy as no reduction of variables. Our tentative results find that dimension reduction tends to lead to better performance when used for classification tasks.
翻訳日:2022-10-30 12:03:33 公開日:2022-10-19
# KALMANBOT:KalmanNet支援のPairsトレーディング用ボーリングバンド

KALMANBOT: KalmanNet-Aided Bollinger Bands for Pairs Trading ( http://arxiv.org/abs/2210.15448v1 )

ライセンス: Link先を確認
Haoran Deng, Guy Revach, Hai Morgenstern and Nir Shlezinger(参考訳) ペア・トレーディング(英: pairs trading)は、資産のペア間の関係を監視するトレーディング・ポリシーのファミリーである。 共通のペアトレーディングアプローチは状態空間(SS)モデリングに依存しており、Kalmanフィルタ(KF)を用いて金融指標を低複雑性で取得し、Bollinger Bands(BB)のような古典的なポリシーを用いて処理することができる。 しかし、そのようなSSモデルは本質的に近似され、不一致であり、しばしば収益を低下させる。 本研究では,KF支援BBポリシーの利点を保存し,データを活用してSSモデルの近似特性を克服するデータ支援政策であるKalmanBOTを提案する。 我々は最近のKalmanNetアーキテクチャを採用し、BBポリシーを微分可能なマッピングで近似し、ポリシーをトレーニング可能なモデルに変換する。 KalmanBOTはモデルベースやデータ駆動型ベンチマークと比較して報酬が向上することを示す。

Pairs trading is a family of trading policies based on monitoring the relationships between pairs of assets. A common pairs trading approach relies on state space (SS) modeling, from which financial indicators can be obtained with low complexity and latency using a Kalman filter (KF), and processed using classic policies such as Bollinger bands (BB). However, such SS models are inherently approximated and mismatched, often degrading the revenue. In this work we propose KalmanBOT, a data-aided policy that preserves the advantages of KF-aided BB policies while leveraging data to overcome the approximated nature of the SS model. We adopt the recent KalmanNet architecture, and approximate the BB policy with a differentiable mapping, converting the policy into a trainable model. We empirically demonstrate that KalmanBOT yields improved rewards compared with model-based and data-driven benchmarks.
翻訳日:2022-10-30 12:02:15 公開日:2022-10-19
# 部分共有パラメータを用いたマルチタスク学習による正確なバンドルマッチングと生成

Accurate Bundle Matching and Generation via Multitask Learning with Partially Shared Parameters ( http://arxiv.org/abs/2210.15460v1 )

ライセンス: Link先を確認
Hyunsik Jeon, Jun-Gi Jang, Taehun Kim, U Kang(参考訳) 既存のバンドルをユーザに正確に推奨するにはどうすればよいのか? ユーザ向けに新しい調整済みバンドルをどうやって生成できるのか? バンドルのリコメンデーション(あるいはさまざまなアイテムのグループ)は、ユーザとプロバイダの満足度の増加により、電子商取引において広く注目を集めている。 bundle matching と bundle generation は bundle recommendation の 2 つの代表的なタスクである。 バンドルマッチングタスクは、既存のバンドルをユーザと正しくマッチングし、バンドル生成は、ユーザが好む新しいバンドルを生成する。 最近の多くの研究でバンドルレコメンデーションモデルが開発されているが、不均一なデータを効果的に扱わず、カスタマイズしたバンドル生成の手法を学ばないため、精度は高くない。 本稿では,バンドルマッチングと生成のための正確なアプローチである BundleMage を提案する。 BundleMageは、適応ゲート技術を用いて、アイテムとバンドルのユーザの好みを効果的に混合し、バンドルマッチングの高精度を実現する。 BundleMageはまた、ユーザ好みと完了すべき不完全なバンドルの特性を利用する生成モジュールを学習することで、パーソナライズされたバンドルを生成する。 bundlemageは、部分的に共有パラメータを持つマルチタスク学習によるパフォーマンスをさらに向上させる。 広汎な実験により,バンドルマッチングでは最大6.6%,バンドル生成では最大6.3倍のNDCGが得られることがわかった。 また,バンドルメージがユーザの嗜好と対象バンドルの特性の両方を考慮したバンドルを効果的に生成する質的分析を行う。

How can we recommend existing bundles to users accurately? How can we generate new tailored bundles for users? Recommending a bundle, or a group of various items, has attracted widespread attention in e-commerce owing to the increased satisfaction of both users and providers. Bundle matching and bundle generation are two representative tasks in bundle recommendation. The bundle matching task is to correctly match existing bundles to users while the bundle generation is to generate new bundles that users would prefer. Although many recent works have developed bundle recommendation models, they fail to achieve high accuracy since they do not handle heterogeneous data effectively and do not learn a method for customized bundle generation. In this paper, we propose BundleMage, an accurate approach for bundle matching and generation. BundleMage effectively mixes user preferences of items and bundles using an adaptive gate technique to achieve high accuracy for the bundle matching. BundleMage also generates a personalized bundle by learning a generation module that exploits a user preference and the characteristic of a given incomplete bundle to be completed. BundleMage further improves its performance using multi-task learning with partially shared parameters. Through extensive experiments, we show that BundleMage achieves up to 6.6% higher nDCG in bundle matching and 6.3x higher nDCG in bundle generation than the best competitors. We also provide qualitative analysis that BundleMage effectively generates bundles considering both the tastes of users and the characteristics of target bundles.
翻訳日:2022-10-30 11:54:54 公開日:2022-10-19
# ベクトル表現による干渉車両の目標方向軌道予測

Conditional Goal-oriented Trajectory Prediction for Interacting Vehicles with Vectorized Representation ( http://arxiv.org/abs/2210.15449v1 )

ライセンス: Link先を確認
Ding Li and Qichao Zhang and Shuai Lu and Yifeng Pan and Dongbin Zhao(参考訳) 本稿では,対話型行動予測タスクに取り組み,対話型エージェントのシーン対応トラジェクタを共同で生成する条件付き目標指向軌道予測(cgtp)フレームワークを提案する。 我々のCGTPフレームワークは、コンテキストエンコーディング、ゴールインタラクティブ予測、軌道インタラクティブ予測の3つの主要なステージを含む、エンドツーエンドおよび解釈可能なモデルである。 まず、グラフベースのベクトル化表現を用いて、エージェント・ツー・エージェントとエージェント・ツー・ゴール間の対話的特徴を抽出する。 さらに、条件目標予測ネットワーク(cgpnet)は、限界予測と条件目標予測の組み合わせによる目標インタラクティブ予測に焦点を当てている。 最後に,目標指向軌道予測ネットワーク(gtfnet)を提案し,条件付き目標指向予測器による軌道対話型予測を実現する。 さらに,2つの対話エージェント間の協調確率分布をよりよく学習するために,新たな目標対話型損失法を開発した。 最後に、argoverse motion forecasting dataset、in-house cut-in dataset、waymo open motion datasetについて提案手法を提案する。 その結果,提案したCGTPモデルの性能は主流の予測法よりも優れていた。

This paper aims to tackle the interactive behavior prediction task, and proposes a novel Conditional Goal-oriented Trajectory Prediction (CGTP) framework to jointly generate scene-compliant trajectories of two interacting agents. Our CGTP framework is an end to end and interpretable model, including three main stages: context encoding, goal interactive prediction and trajectory interactive prediction. First, a Goals-of-Interest Network (GoINet) is designed to extract the interactive features between agent-to-agent and agent-to-goals using a graph-based vectorized representation. Further, the Conditional Goal Prediction Network (CGPNet) focuses on goal interactive prediction via a combined form of marginal and conditional goal predictors. Finally, the Goaloriented Trajectory Forecasting Network (GTFNet) is proposed to implement trajectory interactive prediction via the conditional goal-oriented predictors, with the predicted future states of the other interacting agent taken as inputs. In addition, a new goal interactive loss is developed to better learn the joint probability distribution over goal candidates between two interacting agents. In the end, the proposed method is conducted on Argoverse motion forecasting dataset, In-house cut-in dataset, and Waymo open motion dataset. The comparative results demonstrate the superior performance of our proposed CGTP model than the mainstream prediction methods.
翻訳日:2022-10-30 11:53:00 公開日:2022-10-19
# スポンサー付き検索広告におけるキーワードターゲティング最適化:選択とマッチングの組み合わせ

Keyword Targeting Optimization in Sponsored Search Advertising: Combining Selection and Matching ( http://arxiv.org/abs/2210.15459v1 )

ライセンス: Link先を確認
Huiran Li and Yanwu Yang(参考訳) スポンサー付き検索広告(SSA)では、広告主はキーワードを選択し、選択したキーワードのマッチングタイプを同時に決定する必要がある。 最適なキーワードターゲティング戦略は、適切な人口に効果的に到達することを保証する。 本稿では,過去の広告パフォーマンス指標の不完全な情報と,SSA環境における不確実性から,キーワードターゲティングの問題に対処することを目的とする。 まず,データ分布推定モデルを構築し,マルコフ・チェイン・モンテカルロ法を用いて3つのキーワードマッチング型(ワイド,フレーズ,正確性)に対して観測されていない指標(インプレッション,クリックスルー率)を推定する。 第2に,キーワード選択とキーワードマッチングの操作を組み合わせた確率的キーワードターゲティングモデル(bb-ksm)を定式化し,予算制約下での期待利益を最大化し,キーワードターゲティングモデルに確率的シミュレーション処理を組み込んだ分岐・バウンドアルゴリズムを開発する。 最後に,過去のssaキャンペーンの現場報告とログから収集した実世界データセットに基づいて,キーワードターゲティング戦略の性能を評価するための計算実験を行った。 実験の結果は (a)BB-KSMは利益の点で7つの基準を上回ります。 b)BB-KSMは,特にキーワードとキーワードの組み合わせが多い状況において,予算が増加するにつれてその優位性を示す。 (c)提案したデータ分布推定手法は、3つのマッチング型に対する不完全性能指標の問題を効果的に解決し、キーワードターゲティング決定の性能を著しく向上させる。 本研究は、SSA文献に重要な貢献を行い、SSA広告主のキーワード管理に関する重要な洞察を提供する。

In sponsored search advertising (SSA), advertisers need to select keywords and determine matching types for selected keywords simultaneously, i.e., keyword targeting. An optimal keyword targeting strategy guarantees reaching the right population effectively. This paper aims to address the keyword targeting problem, which is a challenging task because of the incomplete information of historical advertising performance indices and the high uncertainty in SSA environments. First, we construct a data distribution estimation model and apply a Markov Chain Monte Carlo method to make inference about unobserved indices (i.e., impression and click-through rate) over three keyword matching types (i.e., broad, phrase and exact). Second, we formulate a stochastic keyword targeting model (BB-KSM) combining operations of keyword selection and keyword matching to maximize the expected profit under the chance constraint of the budget, and develop a branch-and-bound algorithm incorporating a stochastic simulation process for our keyword targeting model. Finally, based on a realworld dataset collected from field reports and logs of past SSA campaigns, computational experiments are conducted to evaluate the performance of our keyword targeting strategy. Experimental results show that, (a) BB-KSM outperforms seven baselines in terms of profit; (b) BB-KSM shows its superiority as the budget increases, especially in situations with more keywords and keyword combinations; (c) the proposed data distribution estimation approach can effectively address the problem of incomplete performance indices over the three matching types and in turn significantly promotes the performance of keyword targeting decisions. This research makes important contributions to the SSA literature and the results offer critical insights into keyword management for SSA advertisers.
翻訳日:2022-10-30 11:52:39 公開日:2022-10-19
# ディープラーニングと新しいハイブリッド損失関数を用いたMRIの運動補正

Motion correction in MRI using deep learning and a novel hybrid loss function ( http://arxiv.org/abs/2210.14156v1 )

ライセンス: Link先を確認
Lei Zhang, Xiaoke Wang, Michael Rawson, Radu Balan, Edward H. Herskovits, Elias Melhem, Linda Chang, Ze Wang, and Thomas Ernst(参考訳) 脳磁気共鳴画像(MRI)における運動アーチファクトを抑制するための深層学習ベース手法(MC-Net)の開発と評価を行う。 MC-Netは、2段階のマルチロス関数を組み合わせたUNetから派生した。 合成運動で汚染されたT1強調軸脳画像を用いてネットワークをトレーニングした。 トレーニング中に見えないT1およびT2強調軸、コロナ画像、矢状画像、および実際のスキャンから得られた運動アーティファクトを用いたT1強調画像を用いて評価を行った。 性能指標には、ピーク信号対雑音比(PSNR)、構造類似度指標(SSIM)、視覚読取スコアが含まれていた。 2人の臨床読者が画像を記録しました。 その結果, MC-NetはT1軸受試験セット上でPSNRおよびSSIMで実装した他の手法よりも優れていた。 MC-Netは、すべてのT1重み付き画像(全方向とシミュレートされた実動作アーティファクト)の品質を定量的測定と視覚スコアの両方で改善した。 しかし、MC-Netは、訓練されていないコントラスト(T2重み)の画像では不十分であった。 結論 提案した2段階のマルチロスMC-Netは、画像コンテキストを損なうことなく、脳MRIの運動アーティファクトを効果的に抑制することができる。 MC-Net(単一の画像処理時間から40ms)の効率を考えると、実際の臨床現場で使用することができる。 さらなる研究を容易にするため、コードとトレーニングされたモデルはhttps://github.com/MRIMoCo/DL_Motion_Correctionで公開されている。

Purpose To develop and evaluate a deep learning-based method (MC-Net) to suppress motion artifacts in brain magnetic resonance imaging (MRI). Methods MC-Net was derived from a UNet combined with a two-stage multi-loss function. T1-weighted axial brain images contaminated with synthetic motions were used to train the network. Evaluation used simulated T1 and T2-weighted axial, coronal, and sagittal images unseen during training, as well as T1-weighted images with motion artifacts from real scans. Performance indices included the peak signal to noise ratio (PSNR), structural similarity index measure (SSIM), and visual reading scores. Two clinical readers scored the images. Results The MC-Net outperformed other methods implemented in terms of PSNR and SSIM on the T1 axial test set. The MC-Net significantly improved the quality of all T1-weighted images (for all directions and for simulated as well as real motion artifacts), both on quantitative measures and visual scores. However, the MC-Net performed poorly on images of untrained contrast (T2-weighted). Conclusion The proposed two-stage multi-loss MC-Net can effectively suppress motion artifacts in brain MRI without compromising image context. Given the efficiency of the MC-Net (single image processing time ~40ms), it can potentially be used in real clinical settings. To facilitate further research, the code and trained model are available at https://github.com/MRIMoCo/DL_Motion_Correction.
翻訳日:2022-10-30 11:52:09 公開日:2022-10-19
# ソーシャルメディアにおける名前付きエンティティ認識のためのマルチグラニュラ性クロスモダリティ表現学習

Multi-Granularity Cross-Modality Representation Learning for Named Entity Recognition on Social Media ( http://arxiv.org/abs/2210.14163v1 )

ライセンス: Link先を確認
Peipei Liu, Gaosheng Wang, Hong Li, Jie Liu, Yimo Ren, Hongsong Zhu, Limin Sun(参考訳) ソーシャルメディア上の名前付きエンティティ認識(ner)とは、非構造化フリーフォームコンテンツからエンティティを発見・分類することであり、意図理解やユーザの推薦など、さまざまなアプリケーションにおいて重要な役割を果たす。 ソーシャルメディアの投稿はマルチモーダルな傾向にあるため、画像に付随するテキストに対してMNER(Multimodal Named Entity Recognition)が注目されている。 しかし、既存のアプローチには2つの欠点がある。 1)テキストの意味とそれに伴う画像が常に一致しないため、テキスト情報は依然として重要な役割を果たす。 しかし、ソーシャルメディアの投稿は通常、他の通常のコンテンツと比較して短く、より非公式であり、不完全なセマンティック記述やデータ空間の問題を引き起こしやすい。 2) 画像全体やオブジェクトの視覚的表現はすでに使われているが,既存の手法では,画像中のオブジェクトとテキスト中の単語の微粒な意味的対応や,対象物が誤解を招くような客観的な事実を無視している。 本研究では,マルチグラニュラリティのクロスモダリティ表現学習を導入することで,上記の2つの問題を解決する。 最初の問題を解決するために,テキスト中の各単語のセマンティック拡張による表現を強化する。 第2の課題では,各単語に対して最も効果的なマルチモーダル誘導表現を得るために,異なる視点でテキストと視覚間の相互モーダルな意味的相互作用を行う。 実験の結果,提案手法は2つのツイートのベンチマークデータセット上でSOTAあるいはSOTAの性能を近似することができることがわかった。 コード、データ、最高のパフォーマンスモデルがhttps://github.com/liupeip-cs/iie4mnerで入手できる。

Named Entity Recognition (NER) on social media refers to discovering and classifying entities from unstructured free-form content, and it plays an important role for various applications such as intention understanding and user recommendation. With social media posts tending to be multimodal, Multimodal Named Entity Recognition (MNER) for the text with its accompanying image is attracting more and more attention since some textual components can only be understood in combination with visual information. However, there are two drawbacks in existing approaches: 1) Meanings of the text and its accompanying image do not match always, so the text information still plays a major role. However, social media posts are usually shorter and more informal compared with other normal contents, which easily causes incomplete semantic description and the data sparsity problem. 2) Although the visual representations of whole images or objects are already used, existing methods ignore either fine-grained semantic correspondence between objects in images and words in text or the objective fact that there are misleading objects or no objects in some images. In this work, we solve the above two problems by introducing the multi-granularity cross-modality representation learning. To resolve the first problem, we enhance the representation by semantic augmentation for each word in text. As for the second issue, we perform the cross-modality semantic interaction between text and vision at the different vision granularity to get the most effective multimodal guidance representation for every word. Experiments show that our proposed approach can achieve the SOTA or approximate SOTA performance on two benchmark datasets of tweets. The code, data and the best performing models are available at https://github.com/LiuPeiP-CS/IIE4MNER
翻訳日:2022-10-30 11:51:46 公開日:2022-10-19
# 高レベルの精度と効率を有する次元拡張物理インフォームドニューラルネットワーク(DaPINN)

A Dimension-Augmented Physics-Informed Neural Network (DaPINN) with High Level Accuracy and Efficiency ( http://arxiv.org/abs/2210.13212v1 )

ライセンス: Link先を確認
Weilong Guan, Kaihan Yang, Yinsheng Chen, Zhong Guan(参考訳) 物理インフォームドニューラルネットワーク(PINN)は、偏微分方程式(PDE)の解法の有効性から、様々な分野で広く応用されている。 しかし, PINNの精度と効率は, 科学的, 商業的利用において著しく改善される必要がある。 この問題に対処するために,新しい次元拡張物理インフォームドニューラルネットワーク(DaPINN)を体系的に提案し,PINNの精度と効率を大幅に向上させる。 DaPINNモデルでは、損失関数に特別な正規化項を追加することにより、ニューラルネットワークの帰納バイアスを導入し、ネットワークの一般化性を高める。 さらに,追加のサンプル特徴を挿入し,損失関数に拡張次元を組み込むことで,ネットワーク入力次元を操作する。 さらに,前方問題と後方問題の両方において,パワー級数増補,フーリエ級数増補,レプリカ増補の有効性を検証した。 ほとんどの実験において、dapinnの誤差はpinnよりも1$\sim$2桁低い。 その結果,DAPINNは,標本点数に依存しない精度と効率の両方で,元のPINNよりも優れていた。 また、DAPINNの複雑さと他の手法との互換性についても論じる。

Physics-informed neural networks (PINNs) have been widely applied in different fields due to their effectiveness in solving partial differential equations (PDEs). However, the accuracy and efficiency of PINNs need to be considerably improved for scientific and commercial use. To address this issue, we systematically propose a novel dimension-augmented physics-informed neural network (DaPINN), which simultaneously and significantly improves the accuracy and efficiency of the PINN. In the DaPINN model, we introduce inductive bias in the neural network to enhance network generalizability by adding a special regularization term to the loss function. Furthermore, we manipulate the network input dimension by inserting additional sample features and incorporating the expanded dimensionality in the loss function. Moreover, we verify the effectiveness of power series augmentation, Fourier series augmentation and replica augmentation, in both forward and backward problems. In most experiments, the error of DaPINN is 1$\sim$2 orders of magnitude lower than that of PINN. The results show that the DaPINN outperforms the original PINN in terms of both accuracy and efficiency with a reduced dependence on the number of sample points. We also discuss the complexity of the DaPINN and its compatibility with other methods.
翻訳日:2022-10-30 11:44:08 公開日:2022-10-19
# LVP-M3:多言語マルチモーダル機械翻訳のための言語対応ビジュアルプロンプト

LVP-M3: Language-aware Visual Prompt for Multilingual Multimodal Machine Translation ( http://arxiv.org/abs/2210.15461v1 )

ライセンス: Link先を確認
Hongcheng Guo, Jiaheng Liu, Haoyang Huang, Jian Yang, Zhoujun Li, Dongdong Zhang, Furu Wei(参考訳) マルチモーダル機械翻訳(Multimodal Machine Translation、MMT)は、自然言語処理とコンピュータビジョンの双方から注目されている視覚的特徴を持つテキストのみの翻訳の強化に焦点を当てている。 最近の進歩では、各言語ペアの独立したモデルをトレーニングするのに苦労している。 言い換えれば、マルチ言語マルチモーダル機械翻訳(Multilingual MMT)タスクは、上記の問題に対処するために、複数の言語に共有意味空間を提供することによって検討されていない。 さらに、画像のモダリティには言語の境界がなく、言語間のセマンティックギャップを埋めるよりも優れている。 そこで我々はまず,7つの言語をカバーする2つの新しいMultilingual MMTベンチマークデータセットを確立することで,Multilingual MMTタスクを提案する。 次に、視覚的プロンプトを用いた効果的なベースラインLVP-M3を提案し、3段階(トーケンエンコーディング、言語対応視覚的プロンプト生成、言語翻訳)を含む異なる言語間の翻訳をサポートする。 構築したベンチマークデータセットの広範な実験結果から,多言語mmtに対するlvp-m3法の有効性が示された。

Multimodal Machine Translation (MMT) focuses on enhancing text-only translation with visual features, which has attracted considerable attention from both natural language processing and computer vision communities. Recent advances still struggle to train a separate model for each language pair, which is costly and unaffordable when the number of languages increases in the real world. In other words, the multilingual multimodal machine translation (Multilingual MMT) task has not been investigated, which aims to handle the aforementioned issues by providing a shared semantic space for multiple languages. Besides, the image modality has no language boundaries, which is superior to bridging the semantic gap between languages. To this end, we first propose the Multilingual MMT task by establishing two new Multilingual MMT benchmark datasets covering seven languages. Then, an effective baseline LVP-M3 using visual prompts is proposed to support translations between different languages, which includes three stages (token encoding, language-aware visual prompt generation, and language translation). Extensive experimental results on our constructed benchmark datasets demonstrate the effectiveness of LVP-M3 method for Multilingual MMT.
翻訳日:2022-10-30 11:43:41 公開日:2022-10-19
# テキスト環境のためのシーングラフからの常識知識

Commonsense Knowledge from Scene Graphs for Textual Environments ( http://arxiv.org/abs/2210.14162v1 )

ライセンス: Link先を確認
Tsunehiko Tanaka, Daiki Kimura, Michiaki Tatsubori(参考訳) テキストベースのゲームは、現実世界のシミュレーション環境として強化学習で一般的に使われている。 それらは通常不完全な情報ゲームであり、それらの相互作用はテキストのモダリティに限られる。 これらのゲームに挑戦するために、人間の常識のような知識を提供することで、不足している情報を補完することが効果的である。 しかし、そのような知識は以前の作品のテキスト情報からしか得られていない。 本稿では,シーングラフデータセットなどの視覚データセットから得られる共通意味推論を用いることの利点について検討する。 一般に、画像は人間のテキストと比較してより包括的な情報を伝える。 これにより、ゲームにおいて効果的に振る舞うのに役立つコモンセンス関係知識を抽出することができる。 本研究では,視覚ゲノム(シーングラフデータセット)と概念ネット(テキストベース知識)で利用可能な空間関係の統計を比較し,シーングラフデータセットの導入の有効性を分析する。 また,コモンセンス推論を必要とするテキストベースのゲームタスクについても実験を行った。 実験の結果,提案手法は既存の最先端手法よりも高い性能と競争性を示した。

Text-based games are becoming commonly used in reinforcement learning as real-world simulation environments. They are usually imperfect information games, and their interactions are only in the textual modality. To challenge these games, it is effective to complement the missing information by providing knowledge outside the game, such as human common sense. However, such knowledge has only been available from textual information in previous works. In this paper, we investigate the advantage of employing commonsense reasoning obtained from visual datasets such as scene graph datasets. In general, images convey more comprehensive information compared with text for humans. This property enables to extract commonsense relationship knowledge more useful for acting effectively in a game. We compare the statistics of spatial relationships available in Visual Genome (a scene graph dataset) and ConceptNet (a text-based knowledge) to analyze the effectiveness of introducing scene graph datasets. We also conducted experiments on a text-based game task that requires commonsense reasoning. Our experimental results demonstrated that our proposed methods have higher and competitive performance than existing state-of-the-art methods.
翻訳日:2022-10-30 11:43:09 公開日:2022-10-19
# rt-mot:マルチオブジェクト追跡タスクのための信頼度対応リアルタイムスケジューリングフレームワーク

RT-MOT: Confidence-Aware Real-Time Scheduling Framework for Multi-Object Tracking Tasks ( http://arxiv.org/abs/2210.11946v1 )

ライセンス: Link先を確認
Donghwa Kang, Seunghoon Lee, Hoon Sung Chwa, Seung-Hwan Bae, Chang Mook Kang, Jinkyu Lee and Hyeongboo Baek(参考訳) 通常、トラッキング精度と平均FPSを改善することを目的とした既存のMOT(Multi-Object Tracking)技術とは異なり、自動運転車のようなリアルタイムシステムは、限られたコンピューティングリソースの下でMOTの新しい要件を必要とする。 本稿では,RT-MOTを提案する。RT-MOTは複数のMOTタスクのための新しいシステム設計であり,R1とR2に対処する。 motの追跡・検出アプローチの主要な2つの要素であるワークロードペアの検出と関連付けの複数の選択に焦点を当て、rt-motのオブジェクト信頼度の測定を調整し、各motタスクの次のフレームに対する評価方法を開発します。 この推定を利用して,MOTタスクの次のフレームに適用する作業負荷対に応じて,トラッキング精度の変動を予測することができる。 次に,非プリエンプティブ固定優先スケジューリングに基づくmotタスク群に対して,最小のワークロードペアでオフラインのタイミング保証を行う,信頼度対応型リアルタイムスケジューリングフレームワークを開発した。 実行時、フレームワークは、タスク毎のタイミング保証を損なうことなく、より大きなワークロードペアに関連する優先度反転の実現可能性をチェックし、提案する予測に基づいて、最大のトラッキング精度向上をもたらす実現可能なシナリオを選択する。 実験の結果,RT-MOTは全MOTタスクのタイムリー実行を保証しながら,従来のトラッキング・バイ・検出手法に比べて最大1.5倍のトラッキング精度を向上することが示された。

Different from existing MOT (Multi-Object Tracking) techniques that usually aim at improving tracking accuracy and average FPS, real-time systems such as autonomous vehicles necessitate new requirements of MOT under limited computing resources: (R1) guarantee of timely execution and (R2) high tracking accuracy. In this paper, we propose RT-MOT, a novel system design for multiple MOT tasks, which addresses R1 and R2. Focusing on multiple choices of a workload pair of detection and association, which are two main components of the tracking-by-detection approach for MOT, we tailor a measure of object confidence for RT-MOT and develop how to estimate the measure for the next frame of each MOT task. By utilizing the estimation, we make it possible to predict tracking accuracy variation according to different workload pairs to be applied to the next frame of an MOT task. Next, we develop a novel confidence-aware real-time scheduling framework, which offers an offline timing guarantee for a set of MOT tasks based on non-preemptive fixed-priority scheduling with the smallest workload pair. At run-time, the framework checks the feasibility of a priority-inversion associated with a larger workload pair, which does not compromise the timing guarantee of every task, and then chooses a feasible scenario that yields the largest tracking accuracy improvement based on the proposed prediction. Our experiment results demonstrate that RT-MOT significantly improves overall tracking accuracy by up to 1.5x, compared to existing popular tracking-by-detection approaches, while guaranteeing timely execution of all MOT tasks.
翻訳日:2022-10-24 16:24:04 公開日:2022-10-19
# 脳機能の回復のためのニューラル・コプロセッサ : 把持の皮質モデルによる結果

Neural Co-Processors for Restoring Brain Function: Results from a Cortical Model of Grasping ( http://arxiv.org/abs/2210.11478v1 )

ライセンス: Link先を確認
Matthew J. Bryan (1), Linxing Preston Jiang (1), Rajesh P N Rao (1) ((1) Neural Systems Laboratory, Paul G. Allen School of Computer Science & Engineering, University of Washington)(参考訳) 目的: クローズドループ脳-コンピュータインタフェース(BCI)における大きな課題は、異なる主題や目的に対して進行中の神経活動の関数として最適な刺激パターンを見つけることである。 現在脳深部刺激に使われているような従来のアプローチは、効率的な開ループ刺激パラメータを探索するための試行錯誤戦略に大きく従っているが、これは非効率であり、閉ループ活動依存刺激には一般化しない。 アプローチ: 目標指向のクローズドループ神経刺激を実現するため, 脳コプロセッサ, 人工知能(AI)を利用して神経活動を形作り, 損傷した神経回路をブリッジして修復・修復する装置を提案する。 本稿では、ニューラルネットワーク(ANN)を用いて最適閉ループ刺激ポリシーを学習する「ニューラルコプロセッサ」と呼ばれる特定のタイプのコプロセッサについて検討する。 コプロセッサは、生体回路自体が刺激に適応するにつれて刺激ポリシーに適応し、脳-デバイス共適応の一形態を達成する。 我々は,脳卒中後に機能回復する神経コプロセッサの能力について,これまでに公表された大脳皮質モデルを用いて検討した。 主な結果: 神経コプロセッサは, 脳皮質モデルにおける模擬脳卒中後に回復し,75~90%の範囲で正常機能への回復を達成できることを示した。 意義:これは、運動依存閉ループ神経シミュレーションのためのニューラルコプロセッサのコンピュータシミュレーションを用いて、損傷後のリハビリテーション目標を最適化する最初の概念実証である。 この結果から, 様々な神経リハビリテーションや神経補綴の応用において, 複雑な適応刺激ポリシーを学習するために, このようなコプロセッサをin vivoでどのように開発するかが示唆された。

Objective: A major challenge in closed-loop brain-computer interfaces (BCIs) is finding optimal stimulation patterns as a function of ongoing neural activity for different subjects and objectives. Traditional approaches, such as those currently used for deep brain stimulation, have largely followed a trial- and-error strategy to search for effective open-loop stimulation parameters, a strategy that is inefficient and does not generalize to closed-loop activity-dependent stimulation. Approach: To achieve goal-directed closed-loop neurostimulation, we propose the use of brain co-processors, devices which exploit artificial intelligence (AI) to shape neural activity and bridge injured neural circuits for targeted repair and rehabilitation. Here we investigate a specific type of co-processor called a "neural co-processor" which uses artificial neural networks (ANNs) to learn optimal closed-loop stimulation policies. The co-processor adapts the stimulation policy as the biological circuit itself adapts to the stimulation, achieving a form of brain-device co-adaptation. We tested the neural co-processor's ability to restore function after stroke by simulating a variety of lesions in a previously published cortical model of grasping. Main results: Our results show that a neural co-processor can restore reaching and grasping function after a simulated stroke in a cortical model, achieving recovery towards healthy function in the range 75-90%. Significance: This is the first proof-of-concept demonstration, using computer simulations, of a neural co-processor for activity-dependent closed-loop neurosimulation for optimizing a rehabilitation goal after injury. Our results provide insights on how such co-processors may eventually be developed for in vivo use to learn complex adaptive stimulation policies for a variety of neural rehabilitation and neuroprosthetic applications.
翻訳日:2022-10-24 15:47:24 公開日:2022-10-19
# lo-fi:コミュニケーションなしの微調整

lo-fi: distributed fine-tuning without communication ( http://arxiv.org/abs/2210.11948v1 )

ライセンス: Link先を確認
Mitchell Wortsman, Suchin Gururangan, Shen Li, Ali Farhadi, Ludwig Schmidt, Michael Rabbat, Ari S. Morcos(参考訳) 大規模ニューラルネットワークを微調整する場合、複数のノードを使用し、各最適化ステップで勾配を伝達することが一般的である。 対照的に,lo-fiと呼ばれる完全局所的な微調整について検討する。 lo-fiの間、各ノードは通信なしで独立に微調整される。 すると、重みは微調整の完了時にノード全体で平均される。 ImageNet 上で DeiT-base と DeiT-large を微調整すると、この手順は分布内分布の精度と一致し、同じ量のデータを観測するが各ステップで勾配を伝達するベースラインと比較して分布シフトの精度を向上させる。 また,共通クローラ上でオプティカル言語モデル(最大1.3bパラメータ)を微調整する場合,lo-fiがベースラインのパフォーマンスと一致することも確認した。 通信要求を除去することにより、lo-fiは大規模モデルの微調整のためのリソースバリアを低減し、通信の禁止コストで設定の微調整を可能にする。

When fine-tuning large neural networks, it is common to use multiple nodes and to communicate gradients at each optimization step. By contrast, we investigate completely local fine-tuning, which we refer to as lo-fi. During lo-fi, each node is fine-tuned independently without any communication. Then, the weights are averaged across nodes at the conclusion of fine-tuning. When fine-tuning DeiT-base and DeiT-large on ImageNet, this procedure matches accuracy in-distribution and improves accuracy under distribution shift compared to the baseline, which observes the same amount of data but communicates gradients at each step. We also observe that lo-fi matches the baseline's performance when fine-tuning OPT language models (up to 1.3B parameters) on Common Crawl. By removing the communication requirement, lo-fi reduces resource barriers for fine-tuning large models and enables fine-tuning in settings with prohibitive communication cost.
翻訳日:2022-10-24 15:36:47 公開日:2022-10-19
# 機械学習とディープラーニングによるコンピュータ支援癌診断 : 比較検討

Computer-Aided Cancer Diagnosis via Machine Learning and Deep Learning: A comparative review ( http://arxiv.org/abs/2210.11943v1 )

ライセンス: Link先を確認
Solene Bechelli(参考訳) 過去数年間、がんの症例は大幅に増加している。 しかし、がんの診断はしばしば複雑であり、分析のために提供される画像の種類に依存する。 高度に熟練した実践者を必要とするが、しばしば時間がかかり、エラーを起こしやすい。 機械学習とディープラーニングのアルゴリズムが広く使われている場合、前処理ステップから最終的な予測までのテクニックの包括的なレビューが欠如している。 本稿では,癌予測,検出,分類のための効率的かつ高精度な機械学習アルゴリズムの構築に必要な現在のステップの包括的概要について述べる。 そこで我々は,過去数年間にAIを用いたがん関連研究の結果をまとめた。 我々は様々な種類の画像を含む様々ながんを含み、そのため異なる関連技術を含んでいる。 癌性腫瘍や組織を早期に発見するにあたり,大きな改善がみられた。 使用する手法は多種多様であり, しばしば問題視され, 多数の研究により検証された。 また, 組織像, 皮膚内視鏡像, MRI像など, 様々な画像に最適なアプローチについて検討した。 本稿では,過去数年間のがん検出における主な発見を,ディープラーニング技術を用いて要約する。 画像の相違が大きいため,がん研究の課題について議論し,肺,乳がん,皮膚がんの分野において注目すべき結果を提供する。

The past years have seen a considerable increase in cancer cases. However, a cancer diagnosis is often complex and depends on the types of images provided for analysis. It requires highly skilled practitioners but is often time-consuming and error-prone. If Machine Learning and deep learning algorithms have been widely used, a comprehensive review of the techniques used from the pre-processing steps to the final prediction is lacking. With this review, we aim to provide a comprehensive overview of the current steps required in building efficient and accurate machine learning algorithm for cancer prediction, detection and classification. To do so, we compile the results of cancer related study using AI over the past years. We include various cancers that encompass different types of images, and therefore different related techniques. We show that tremendous improvements have been made in the early detection of cancerous tumors and tissues. The techniques used are various and often problem-tailored and our findings is confirmed through the study of a large number of research. Moreover, we investigate the approaches best suited for different types of images such as histology, dermoscopic, MRI, etc. With this work, we summarize the main finding over the past years in cancer detection using deep learning techniques. We discuss the challenges of cancer research related to the large discrepancies in the images, and we provide some notable results in the field for lung, breast, and skin cancers.
翻訳日:2022-10-24 14:17:03 公開日:2022-10-19
# Oracles & Followers: Stackelberg Equilibria in Deep Multi-Agent Reinforcement Learning

Oracles & Followers: Stackelberg Equilibria in Deep Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2210.11942v1 )

ライセンス: Link先を確認
Matthias Gerstgrasser, David C. Parkes(参考訳) Stackelberg Equilibriaは、セキュリティゲームや自動メカニズム設計など、さまざまな一般的な学習問題に自然に現れ、近年、強化学習文学において注目を集めている。 本稿では,マルチエージェントRL問題としてStackelberg Equilibria検索を実装するための汎用フレームワークを提案する。 このフレームワークの特定のインスタンス化として、これまでのアプローチがどのように考えられるかについて議論する。 重要な洞察として、設計空間は、例えば、マルチタスクとメタRL技術を利用して従者収束を図り、これまで文献になかったアプローチを可能にすることに留意する。 標準ベンチマークドメインで実験的に予測した新しいアプローチの例を評価する。 最後に,今後の作業の方向性について考察する。

Stackelberg Equilibria arise naturally in a range of popular learning problems, such as in security games or automated mechanism design, and have received increasing attention in the reinforcement learning literature recently. We present a general framework for implementing Stackelberg Equilibria search as a multi-agent RL problem, allowing a wide range of design choices. We discuss how previous approaches can be seen as specific instantiations of this framework. As a key insight, we note that the design space allows for approaches not previously seen in the literature, for instance by leveraging multitask and meta-RL techniques for follower convergence. We evaluate examples of novel approaches predicted by our framework experimentally on standard benchmark domains. Finally, we discuss directions for future work implied by our work.
翻訳日:2022-10-24 14:07:24 公開日:2022-10-19
# saicl: 知識追跡とドロップアウト予測のためのインタラクションレベル補助コントラストタスクを用いた学生モデル

SAICL: Student Modelling with Interaction-level Auxiliary Contrastive Tasks for Knowledge Tracing and Dropout Prediction ( http://arxiv.org/abs/2210.09012v2 )

ライセンス: Link先を確認
Jungbae Park, Jinyoung Kim, Soonwoo Kwon, and Sang Wan Lee(参考訳) オンライン教育において、知識の追跡とドロップアウト予測は、生徒の知識状態の推定や、ドロップアウト率の防止に不可欠である。 学生と対話する従来のシステムはデータの疎さと過度な適合に悩まされているが、最近のサンプルレベルのコントラスト学習はこの問題を軽減するのに役立つ。 サンプルレベルのアプローチの1つの大きな制限は、学生の行動相互作用シーケンスをバンドルとみなすため、時間的文脈を符号化して動的変化を追跡するのに失敗し、知識追跡とドロップアウト予測のための最適な表現を見つけるのが難しくなることである。 この系列に時間的文脈を適用するために、新しい学生モデリングフレームワークであるsaicl: \textbf{s}tudent modeling with \textbf{a}uxiliary \textbf{i}nteraction-level \textbf{c}ontrastive \textbf{l}earningを導入する。 詳細は、milcpc (\textbf{m}ulti-\textbf{i}nteraction-\textbf{l}evel \textbf{c}ontrastive \textbf{p}redictive \textbf{c}oding)とsupcpc (\textbf{sup}ervised \textbf{c}ontrastive \textbf{p}redictive \textbf{c}oding)である。 従来のサンプルレベルのコントラスト法はデータ拡張法に大きく依存するが,SAICLはデータ拡張を行わず,自己管理と教師付きの両方で優れた性能を示す。 クロスエントロピーと対照的な目的を組み合わせることで、SAICLは推論コストを損なうことなく、他の最先端モデルと同等の知識追跡とドロップアウト予測性能を達成した。

Knowledge tracing and dropout prediction are crucial for online education to estimate students' knowledge states or to prevent dropout rates. While traditional systems interacting with students suffered from data sparsity and overfitting, recent sample-level contrastive learning helps to alleviate this issue. One major limitation of sample-level approaches is that they regard students' behavior interaction sequences as a bundle, so they often fail to encode temporal contexts and track their dynamic changes, making it hard to find optimal representations for knowledge tracing and dropout prediction. To apply temporal context within the sequence, this study introduces a novel student modeling framework, SAICL: \textbf{s}tudent modeling with \textbf{a}uxiliary \textbf{i}nteraction-level \textbf{c}ontrastive \textbf{l}earning. In detail, SAICL can utilize both proposed self-supervised/supervised interaction-level contrastive objectives: MilCPC (\textbf{M}ulti-\textbf{I}nteraction-\textbf{L}evel \textbf{C}ontrastive \textbf{P}redictive \textbf{C}oding) and SupCPC (\textbf{Sup}ervised \textbf{C}ontrastive \textbf{P}redictive \textbf{C}oding). While previous sample-level contrastive methods for student modeling are highly dependent on data augmentation methods, the SAICL is free of data augmentation while showing better performance in both self-supervised and supervised settings. By combining cross-entropy with contrastive objectives, the proposed SAICL achieved comparable knowledge tracing and dropout prediction performance with other state-of-art models without compromising inference costs.
翻訳日:2022-10-23 20:36:39 公開日:2022-10-19
# ECG信号による心電図自動診断のための生成逆ネットワークを用いた階層型深層学習

Hierarchical Deep Learning with Generative Adversarial Network for Automatic Cardiac Diagnosis from ECG Signals ( http://arxiv.org/abs/2210.11408v1 )

ライセンス: Link先を確認
Zekai Wang, Stavros Stavrakis, Bing Yao(参考訳) アメリカ合衆国では心臓病が死因となっている。 心臓疾患の正確な検出は、患者の命を救うためのタイムリーな治療において重要である。 心電図(Electrocardiogram、ECG)は、医師が心臓の電気的活動を評価し、異常な心臓状態を検出する最も一般的な方法である。 心電図データを信頼性のある心臓疾患検出に完全に活用することは、効果的な分析モデルの開発に依存する。 本稿では,ECG信号の自動診断のためのGAN(Generative Adversarial Network)を用いた2段階階層型ディープラーニングフレームワークを提案する。 第1レベルのモデルはメモリ拡張ディープオートエンコーダとGAN(MadeGAN)から構成されており、異常信号と通常のECGを区別して異常検出を行う。 第2レベルの学習は,第1レベルの学習から知識を伝達するトランスファー学習技術と,データラッキングと不均衡データ問題を扱うマルチブランチアーキテクチャを統合することで,異なる不整脈識別のためのロバストなマルチクラス分類を目指している。 mit-bih不整脈データベースから得られた実世界医療データを用いて,提案フレームワークの性能評価を行った。 実験の結果,提案手法が従来の手法よりも優れていることがわかった。

Cardiac disease is the leading cause of death in the US. Accurate heart disease detection is of critical importance for timely medical treatment to save patients' lives. Routine use of electrocardiogram (ECG) is the most common method for physicians to assess the electrical activities of the heart and detect possible abnormal cardiac conditions. Fully utilizing the ECG data for reliable heart disease detection depends on developing effective analytical models. In this paper, we propose a two-level hierarchical deep learning framework with Generative Adversarial Network (GAN) for automatic diagnosis of ECG signals. The first-level model is composed of a Memory-Augmented Deep auto-Encoder with GAN (MadeGAN), which aims to differentiate abnormal signals from normal ECGs for anomaly detection. The second-level learning aims at robust multi-class classification for different arrhythmias identification, which is achieved by integrating the transfer learning technique to transfer knowledge from the first-level learning with the multi-branching architecture to handle the data-lacking and imbalanced data issue. We evaluate the performance of the proposed framework using real-world medical data from the MIT-BIH arrhythmia database. Experimental results show that our proposed model outperforms existing methods that are commonly used in current practice.
翻訳日:2022-10-21 16:12:13 公開日:2022-10-19
# タンパク質配列のサンプリングと最適化のためのパレート最適構成エネルギーモデル

A Pareto-optimal compositional energy-based model for sampling and optimization of protein sequences ( http://arxiv.org/abs/2210.10838v1 )

ライセンス: Link先を確認
Nata\v{s}a Tagasovska, Nathan C. Frey, Andreas Loukas, Isidro H\"otzel, Julien Lafrance-Vanasse, Ryan Lewis Kelly, Yan Wu, Arvind Rajpal, Richard Bonneau, Kyunghyun Cho, Stephen Ra, Vladimir Gligorijevi\'c(参考訳) 深層生成モデルは、生命科学における逆設計問題に対する一般的な機械学習ベースのアプローチとして登場した。 しかし、これらの問題はしばしばデータ分布の学習に加えて、関心のある複数の特性を満たす新しい設計をサンプリングする必要がある。 この多目的最適化は、性質が互いに独立で直交するときにさらに困難になる。 本研究では,様々な制約を満たして異なる特性を最適化する新しい設計をサンプリングするために,複数の勾配降下を用いたパレートコンポジションエネルギーベースモデル(pcebm)を提案する。 非凸パレートフロントを学習し、現実の抗体設計タスクで複数の望ましい特性を同時に満たす配列を生成する能力を実証する。

Deep generative models have emerged as a popular machine learning-based approach for inverse design problems in the life sciences. However, these problems often require sampling new designs that satisfy multiple properties of interest in addition to learning the data distribution. This multi-objective optimization becomes more challenging when properties are independent or orthogonal to each other. In this work, we propose a Pareto-compositional energy-based model (pcEBM), a framework that uses multiple gradient descent for sampling new designs that adhere to various constraints in optimizing distinct properties. We demonstrate its ability to learn non-convex Pareto fronts and generate sequences that simultaneously satisfy multiple desired properties across a series of real-world antibody design tasks.
翻訳日:2022-10-21 16:03:19 公開日:2022-10-19
# スペクトル部分空間辞書学習

Spectral Subspace Dictionary Learning ( http://arxiv.org/abs/2210.10855v1 )

ライセンス: Link先を確認
Alexei Novikov and Stephen White(参考訳) \textit{dictionary learning}, スパースに使用される行列 $\mathbf{d} \in \mathbb{r}^{m \times k}$ and $n$ independent $k \times 1$ $s$-sparse vectors $\mathbf{x} \in \mathbb{r}^{k \times n}$ を$\mathbf{y} = \mathbf{d}\mathbf{x}$という形式のサンプルから復元する問題は、信号処理とデータサイエンスにおける応用の重要性を高めている。 証明可能な辞書学習に関する初期の論文では、2つのサンプル $\mathbf{y}_i, \mathbf{y}_j$ が、その絶対内積(相関)が一定のしきい値を超えるかどうかをテストすることによって共通の辞書要素を共有できるかどうかを特定できた: $|\left\langle \mathbf{y}_i, \mathbf{y}_j \right\rangle| > \tau$ 。 これらの相関に基づく手法は、間隔が小さい場合にはうまく機能するが、間隔が$\sqrt{M}$より速く成長すると性能が低下する。 本稿では,相関に基づく辞書学習について再考する。 個々の辞書原子を回収する代わりに、各サンプルの支持の下で辞書原子が分散した部分空間を復元するためにスペクトル法を用いる。 このアプローチは、2つのサンプル間で情報を共有する場合、 \textit{who}ディクショナリ要素が2つのサンプルを共有することは困難である。 適切なランダムモデルの下で、結果として得られるアルゴリズムは多項式時間で辞書を復元し、ログ係数まで$M$で線形化する。 提案手法は, 定数誤差境界に対してのみ多項式時間線形状態が得られるようなオーバーコンプリート(K > M$)設定の既知値として, 次元$M$の減衰誤差を達成し, 最良既知の手法を改良した。 数値シミュレーションは我々の結果を裏付ける。

\textit{Dictionary learning}, the problem of recovering a sparsely used matrix $\mathbf{D} \in \mathbb{R}^{M \times K}$ and $N$ independent $K \times 1$ $s$-sparse vectors $\mathbf{X} \in \mathbb{R}^{K \times N}$ from samples of the form $\mathbf{Y} = \mathbf{D}\mathbf{X}$, is of increasing importance to applications in signal processing and data science. Early papers on provable dictionary learning identified that one can detect whether two samples $\mathbf{y}_i, \mathbf{y}_j$ share a common dictionary element by testing if their absolute inner product (correlation) exceeds a certain threshold: $|\left\langle \mathbf{y}_i, \mathbf{y}_j \right\rangle| > \tau$. These correlation-based methods work well when sparsity is small, but suffer from declining performance when sparsity grows faster than $\sqrt{M}$; as a result, such methods were abandoned in the search for dictionary learning algorithms when sparsity is nearly linear in $M$. In this paper, we revisit correlation-based dictionary learning. Instead of seeking to recover individual dictionary atoms, we employ a spectral method to recover the subspace spanned by the dictionary atoms in the support of each sample. This approach circumvents the primary challenge encountered by previous correlation methods, namely that when sharing information between two samples it is difficult to tell \textit{which} dictionary element the two samples share. We prove that under a suitable random model the resulting algorithm recovers dictionaries in polynomial time for sparsity linear in $M$ up to log factors. Our results improve on the best known methods by achieving a decaying error bound in dimension $M$; the best previously known results for the overcomplete ($K > M$) setting achieve polynomial time linear regime only for constant error bounds. Numerical simulations confirm our results.
翻訳日:2022-10-21 16:03:05 公開日:2022-10-19
# PXRD位相差推定のための最適化に基づく教師付き学習アルゴリズム

An Optimization-Based Supervised Learning Algorithm for PXRD Phase Fraction Estimation ( http://arxiv.org/abs/2210.10867v1 )

ライセンス: Link先を確認
Patrick Hosein and Jaimie Greasley(参考訳) 粉末回折データ解析において、位相同定は、その特徴的なブラッグピークを用いて試料中の結晶相を決定する過程である。 多相スペクトルの場合、サンプルの各相の相対重量比も決定しなければならない。 機械学習アルゴリズム(例:Artificial Neural Networks)は、粉末回折解析においてこのような難しいタスクを実行するために応用されているが、通常は許容可能な性能を得るためにかなりの数のトレーニングサンプルを必要とする。 少数のトレーニングサンプルでもうまく機能するアプローチを開発した。 ラベル付きトレーニングサンプルに固定点反復アルゴリズムを適用し,単相スペクトルを推定する。 そして、未知のサンプルスペクトルが与えられた場合、未知のサンプルスペクトルを最もよく近似する単相スペクトルの重み付け結合を決定するために、再び固定点反復アルゴリズムを用いる。 これらの重みはサンプルの所望の位相分数である。 我々は、このアプローチをいくつかの従来の機械学習アルゴリズムと比較する。

In powder diffraction data analysis, phase identification is the process of determining the crystalline phases in a sample using its characteristic Bragg peaks. For multiphasic spectra, we must also determine the relative weight fraction of each phase in the sample. Machine Learning algorithms (e.g., Artificial Neural Networks) have been applied to perform such difficult tasks in powder diffraction analysis, but typically require a significant number of training samples for acceptable performance. We have developed an approach that performs well even with a small number of training samples. We apply a fixed-point iteration algorithm on the labelled training samples to estimate monophasic spectra. Then, given an unknown sample spectrum, we again use a fixed-point iteration algorithm to determine the weighted combination of monophase spectra that best approximates the unknown sample spectrum. These weights are the desired phase fractions for the sample. We compare our approach with several traditional Machine Learning algorithms.
翻訳日:2022-10-21 16:02:16 公開日:2022-10-19
# インバータへの学習:フェデレーション学習における勾配インバージョンに対する単純な適応攻撃

Learning to Invert: Simple Adaptive Attacks for Gradient Inversion in Federated Learning ( http://arxiv.org/abs/2210.10880v1 )

ライセンス: Link先を確認
Ruihan Wu, Xiangyu Chen, Chuan Guo, Kilian Q. Weinberger(参考訳) 勾配反転攻撃(gradient inversion attack)は、フェデレーション学習(fl)におけるモデル更新からのトレーニングサンプルのリカバリを可能にし、データプライバシに対する深刻な脅威となる。 この脆弱性を軽減するため、先行研究は差分プライバシーに基づく原則防御と、勾配圧縮に基づくヒューリスティック防御の両方を対策として提案した。 これらの防御は、これまで非常に効果的であり、特に勾配圧縮に基づくもので、モデルが高い精度を維持しつつ攻撃の有効性を大幅に減らすことができる。 本研究では,FLのプライバシーリスクを正確に反映するものではなく,補助データを用いてモデルを訓練し,視覚と言語の両方のタスクの勾配を逆転させる単純な適応攻撃によって,既存の防御が破られることを示す。

Gradient inversion attack enables recovery of training samples from model updates in federated learning (FL) and constitutes a serious threat to data privacy. To mitigate this vulnerability, prior work proposed both principled defenses based on differential privacy, as well as heuristic defenses based on gradient compression as countermeasures. These defenses have so far been very effective, in particular those based on gradient compression that allow the model to maintain high accuracy while greatly reducing the attack's effectiveness. In this work, we argue that such findings do not accurately reflect the privacy risk in FL, and show that existing defenses can be broken by a simple adaptive attack that trains a model using auxiliary data to learn how to invert gradients on both vision and language tasks.
翻訳日:2022-10-21 16:02:01 公開日:2022-10-19
# 幾何学的深層学習による構造に基づく薬物設計

Structure-based drug design with geometric deep learning ( http://arxiv.org/abs/2210.11250v1 )

ライセンス: Link先を確認
Clemens Isert, Kenneth Atz, Gisbert Schneider(参考訳) 構造に基づく薬物設計は、タンパク質や核酸などの高分子の3次元幾何学的情報を用いて適切なリガンドを同定する。 ニューラルネットワークベースの機械学習の新たな概念である幾何学的ディープラーニングは、マクロ分子構造に応用されている。 本総説では, 有機化学および医薬化学における幾何学的深層学習の最近の応用について概説し, 構造に基づく薬物発見・設計の可能性を明らかにする。 分子特性予測、配位子結合部位とポーズ予測、構造に基づくde novo分子設計に重点が置かれている。 現在の課題と機会が強調され、薬物発見のための幾何学的深層学習の将来が予測される。

Structure-based drug design uses three-dimensional geometric information of macromolecules, such as proteins or nucleic acids, to identify suitable ligands. Geometric deep learning, an emerging concept of neural-network-based machine learning, has been applied to macromolecular structures. This review provides an overview of the recent applications of geometric deep learning in bioorganic and medicinal chemistry, highlighting its potential for structure-based drug discovery and design. Emphasis is placed on molecular property prediction, ligand binding site and pose prediction, and structure-based de novo molecular design. The current challenges and opportunities are highlighted, and a forecast of the future of geometric deep learning for drug discovery is presented.
翻訳日:2022-10-21 16:00:15 公開日:2022-10-19
# BELIEF in Dependence:一般線形モデル再考のためのデータビットにおけるアトミックリニアリティの活用

BELIEF in Dependence: Leveraging Atomic Linearity in Data Bits for Rethinking Generalized Linear Models ( http://arxiv.org/abs/2210.10852v1 )

ライセンス: Link先を確認
Benjamin Brown, Kai Zhang, Xiao-Li Meng(参考訳) 2つの線形非相関二項変数は、非線形依存が2つの可能な状態だけでは表せないため、独立でなければならない。 この固有線型性は、いかなる複雑な関係の形式を構成する依存の原子である。 この観察に触発されて,二進展開線形効果(binary expansion linear effect, belief)と呼ばれる枠組みを開発し,二進結果との任意の関係を評価し,理解する。 信念の枠組みのモデルは、線形モデルの言語における二項変数の関連を記述し、便利な理論的洞察とガウス世界との類似性をもたらすので、容易に解釈できる。 特に、非零勾配の予測子上の代数構造は条件付き独立性を支配する。 信念により、透過線形モデルを通じて一般化線形モデル(glm)を研究することができ、モデリングがリンクの選択によってどのように影響を受けるかについての洞察を提供する。 例えば、 GLM の相互作用係数を 0 に設定することは、その線形モデルで理解されるような非相互作用モデル仮定に必ずしも結びつくとは限らない。 さらに、バイナリ応答では、データが最も識別可能な場合、GLMの最大推定は完全分離下では失敗するが、BELIEF推定は完全分離に責任があるデータの完全な予測器を自動的に明らかにする。 これらの現象を探索し、関連する理論的結果を提供する。 また,いくつかの理論的結果の実証実験と検証を行った。

Two linearly uncorrelated binary variables must be also independent because non-linear dependence cannot manifest with only two possible states. This inherent linearity is the atom of dependency constituting any complex form of relationship. Inspired by this observation, we develop a framework called binary expansion linear effect (BELIEF) for assessing and understanding arbitrary relationships with a binary outcome. Models from the BELIEF framework are easily interpretable because they describe the association of binary variables in the language of linear models, yielding convenient theoretical insight and striking parallels with the Gaussian world. In particular, an algebraic structure on the predictors with nonzero slopes governs conditional independence properties. With BELIEF, one may study generalized linear models (GLM) through transparent linear models, providing insight into how modeling is affected by the choice of link. For example, setting a GLM interaction coefficient to zero does not necessarily lead to the kind of no-interaction model assumption as understood under their linear model counterparts. Furthermore, for a binary response, maximum likelihood estimation for GLMs paradoxically fails under complete separation, when the data are most discriminative, whereas BELIEF estimation automatically reveals the perfect predictor in the data that is responsible for complete separation. We explore these phenomena and provide a host of related theoretical results. We also provide preliminary empirical demonstration and verification of some theoretical results.
翻訳日:2022-10-21 15:52:27 公開日:2022-10-19
# CADのための自己教師付き表現学習

Self-Supervised Representation Learning for CAD ( http://arxiv.org/abs/2210.10807v1 )

ライセンス: Link先を確認
Benjamin T. Jones, Michael Hu, Vladimir G. Kim, Adriana Schulz(参考訳) 人工物の設計はコンピュータ支援デザイン(CAD)ツールによって支配されている。 データ駆動機械学習手法による設計は、CADのネイティブフォーマットであるパラメトリック境界表現(B-Rep)にラベル付きデータがないために妨げられる。 B-Rep形式の機械部品のデータセットが機械学習研究のために最近リリースされた。 しかし、大規模なデータベースはほとんどラベルがなく、ラベル付きデータセットは小さい。 加えて、タスク固有のラベルセットはまれであり、注釈をつけるのに費用がかかる。 本研究は,教師付き学習課題にラベルのないCAD幾何を活用することを提案する。 我々は,B-Rep幾何のための新しい暗黙的/明示的曲面表現法を学習し,この事前学習が数発の学習性能を大幅に向上させ,既存のB-Repベンチマークで最先端の性能を達成することを示す。

The design of man-made objects is dominated by computer aided design (CAD) tools. Assisting design with data-driven machine learning methods is hampered by lack of labeled data in CAD's native format; the parametric boundary representation (B-Rep). Several data sets of mechanical parts in B-Rep format have recently been released for machine learning research. However, large scale databases are largely unlabeled, and labeled datasets are small. Additionally, task specific label sets are rare, and costly to annotate. This work proposes to leverage unlabeled CAD geometry on supervised learning tasks. We learn a novel, hybrid implicit/explicit surface representation for B-Rep geometry, and show that this pre-training significantly improves few-shot learning performance and also achieves state-of-the-art performance on several existing B-Rep benchmarks.
翻訳日:2022-10-21 15:45:33 公開日:2022-10-19
# 知識グラフ強化関係抽出データセット

Knowledge Graph Enhanced Relation Extraction Datasets ( http://arxiv.org/abs/2210.11231v1 )

ライセンス: Link先を確認
Yucong Lin, Hongming Xiao, Jiani Liu, Zichao Lin, Keming Lu, Feifei Wang, Wei Wei(参考訳) 近年,知識グラフを利用した知識強化手法が関係抽出において出現し,従来のテキストベース関係抽出法を超越している。 しかし、現在、知識強化関係抽出のための証拠文と知識グラフを含む統一的な公開ベンチマークは存在しない。 To combat these issues, we propose KGRED, a knowledge graph enhanced relation extraction dataset with features as follows: (1) the benchmarks are based on widely-used distantly supervised relation extraction datasets; (2) we refine these existing datasets to improve the data quality, and we also construct auxiliary knowledge graphs for these existing datasets through entity linking to support knowledge-enhanced relation extraction tasks; (3) with the new benchmarks we curated, we build baselines in two popular relation extraction settings including sentence-level and bag-level relation extraction, and we also make comparisons among the latest knowledge-enhanced relation extraction methods. KGREDは、知識強化関係抽出手法の性能を評価するための補助知識グラフを備えた高品質な関係抽出データセットを提供する。 一方,KGRED実験では,知識グラフ情報が関係抽出作業に与える影響を明らかにした。

Knowledge-enhanced methods that take advantage of auxiliary knowledge graphs recently emerged in relation extraction, and they surpass traditional text-based relation extraction methods. However, there are no unified public benchmarks that currently involve evidence sentences and knowledge graphs for knowledge-enhanced relation extraction. To combat these issues, we propose KGRED, a knowledge graph enhanced relation extraction dataset with features as follows: (1) the benchmarks are based on widely-used distantly supervised relation extraction datasets; (2) we refine these existing datasets to improve the data quality, and we also construct auxiliary knowledge graphs for these existing datasets through entity linking to support knowledge-enhanced relation extraction tasks; (3) with the new benchmarks we curated, we build baselines in two popular relation extraction settings including sentence-level and bag-level relation extraction, and we also make comparisons among the latest knowledge-enhanced relation extraction methods. KGRED provides high-quality relation extraction datasets with auxiliary knowledge graphs for evaluating the performance of knowledge-enhanced relation extraction methods. Meanwhile, our experiments on KGRED reveal the influence of knowledge graph information on relation extraction tasks.
翻訳日:2022-10-21 15:35:36 公開日:2022-10-19
# シミュレーションから抜け出す - 堅牢で弾力性のある自動運転車への道

Exiting the Simulation: The Road to Robust and Resilient Autonomous Vehicles at Scale ( http://arxiv.org/abs/2210.10876v1 )

ライセンス: Link先を確認
Richard Chakra(参考訳) 過去20年間で、自律運転は機械学習の能力の増大によって現実へと触媒化されてきた。 このパラダイムシフトは、モビリティの未来を変革し、社会全体を再構築する大きな可能性を秘めている。 認識、計画、制御能力の最近の進歩により、自動運転技術は公試のために展開されているが、運転環境の長期的特質を越えて、これらのシステムのレジリエンスな操作を厳格に確保できるには程遠い。 実世界のテストの限界を考えると、自動運転車のシミュレーションは、自動運転能力の限界を探求し、実世界の運用の成功に必要な堅牢な振る舞いを開発し、配備前にこれらの複雑なシステムから隠れたリスクを抽出できるようにする上で重要な要素である。 本稿では,実世界の運転に必要なレジリエンスを構築するためにシミュレーションがどのように使用されるか,シミュレーションと現実のギャップを埋めるために開発された手法について概説する。 自動運転車がシミュレーションのガードレールを離れ、大規模で堅牢でレジリエントな運用を実現するために、シミュレーションで継続的に学習し、現実世界に効果的に学習を移す能力をさらに前進させる機会を強調した、自動運転シミュレーションに関わる重要な課題の合成が提示されている。

In the past two decades, autonomous driving has been catalyzed into reality by the growing capabilities of machine learning. This paradigm shift possesses significant potential to transform the future of mobility and reshape our society as a whole. With the recent advances in perception, planning, and control capabilities, autonomous driving technologies are being rolled out for public trials, yet we remain far from being able to rigorously ensure the resilient operations of these systems across the long-tailed nature of the driving environment. Given the limitations of real-world testing, autonomous vehicle simulation stands as the critical component in exploring the edge of autonomous driving capabilities, developing the robust behaviors required for successful real-world operation, and enabling the extraction of hidden risks from these complex systems prior to deployment. This paper presents the current state-of-the-art simulation frameworks and methodologies used in the development of autonomous driving systems, with a focus on outlining how simulation is used to build the resiliency required for real-world operation and the methods developed to bridge the gap between simulation and reality. A synthesis of the key challenges surrounding autonomous driving simulation is presented, specifically highlighting the opportunities to further advance the ability to continuously learn in simulation and effectively transfer the learning into the real-world - enabling autonomous vehicles to exit the guardrails of simulation and deliver robust and resilient operations at scale.
翻訳日:2022-10-21 15:35:02 公開日:2022-10-19
# 災害資金調達におけるソーシャルメディア参加戦略の効果

The Effectiveness of Social Media Engagement Strategy on Disaster Fundraising ( http://arxiv.org/abs/2210.11322v1 )

ライセンス: Link先を確認
Vivek Velivela, Chahat Raj, Muhammad Salman Tiwana, Raj Prasanna, Mahendra Samarawickrama, Mukesh Prasad(参考訳) ソーシャルメディアは、特に自然災害時に、強力なツールであり、コミュニケーションの不可欠な部分であった。 ソーシャルメディアプラットフォームは、早期に様々なコミュニティに重要な情報を広めることで、非営利団体の効果的な災害管理を支援する。 世界中の隅々に情報を広めるだけでなく、さまざまなプラットフォームが、オンライン資金調達イベントのホストやオンライン寄付の処理など、さまざまな機能を提供している。 現在の文献は、ソーシャルメディアのエンゲージメントと危機管理の相関を調査する理論的構造を欠いている。 オーストラリア赤十字のような大規模非営利組織は、様々な助成金を通じて6000人近いブッシュファイアの生存者を支援し、回復プログラムを通じて21,563人の心理的支援やその他の支援を支援した(オーストラリア赤十字、2021年)。 本稿は、2019年10月から2020年3月までのオーストラリア赤十字の寄付データを分析し、Facebookページとそのコンテンツとの公開対話のレベルを分析し、資金調達のエスカレートにおけるソーシャルメディアの役割を調査するため、オーストラリアにおけるブッシュファイアの事例について考察する。

Social media has been a powerful tool and an integral part of communication, especially during natural disasters. Social media platforms help nonprofits in effective disaster management by disseminating crucial information to various communities at the earliest. Besides spreading information to every corner of the world, various platforms incorporate many features that give access to host online fundraising events, process online donations, etc. The current literature lacks the theoretical structure investigating the correlation between social media engagement and crisis management. Large nonprofit organisations like the Australian Red Cross have upscaled their operations to help nearly 6,000 bushfire survivors through various grants and helped 21,563 people with psychological support and other assistance through their recovery program (Australian Red Cross, 2021). This paper considers the case of bushfires in Australia 2019-2020 to inspect the role of social media in escalating fundraising via analysing the donation data of the Australian Red Cross from October 2019 - March 2020 and analysing the level of public interaction with their Facebook page and its content in the same period.
翻訳日:2022-10-21 15:33:41 公開日:2022-10-19
# 機械学習とディープラーニングによるトポロジー最適化: レビュー

Topology Optimization via Machine Learning and Deep Learning: A Review ( http://arxiv.org/abs/2210.10782v1 )

ライセンス: Link先を確認
Seungyeon Shin, Dongju Shin, Namwoo Kang(参考訳) トポロジー最適化(TO)は、設計領域内の与えられた負荷と境界条件を満たす最適な設計を導出する手法である。 この方法は初期設計なしで効果的な設計を可能にするが、計算コストが高いため使用が制限されている。 同時に、ディープラーニングを含む機械学習(ML)手法は21世紀に大きく進歩し、TOにMLを適用することで効果的かつ迅速な最適化を実現するために多くの研究がなされている。 そこで本研究では,MLベースのTO(MLTO)に関する過去の研究をレビューし,分析する。 MLTOの2つの異なる視点は、(1)TOと(2)MLの視点をレビューするために使用される。 TOパースペクティブは、なぜToのためにMLを使用するのか、MLパースペクティブは、TOにMLを適用するための"ハウ"に対処する。 また,現在のMLTO研究の限界と今後の研究方向性についても検討した。

Topology optimization (TO) is a method of deriving an optimal design that satisfies a given load and boundary conditions within a design domain. This method enables effective design without initial design, but has been limited in use due to high computational costs. At the same time, machine learning (ML) methodology including deep learning has made great progress in the 21st century, and accordingly, many studies have been conducted to enable effective and rapid optimization by applying ML to TO. Therefore, this study reviews and analyzes previous research on ML-based TO (MLTO). Two different perspectives of MLTO are used to review studies: (1) TO and (2) ML perspectives. The TO perspective addresses "why" to use ML for TO, while the ML perspective addresses "how" to apply ML to TO. In addition, the limitations of current MLTO research and future research directions are examined.
翻訳日:2022-10-21 15:27:33 公開日:2022-10-19
# 最大エントロピーを用いた自己学習型局所最適ハイパーチューニングと複合材料の疲労寿命推定のための機械学習手法の比較

Self-learning locally-optimal hypertuning using maximum entropy, and comparison of machine learning approaches for estimating fatigue life in composite materials ( http://arxiv.org/abs/2210.10783v1 )

ライセンス: Link先を確認
Ismael Ben-Yelun, Miguel Diaz-Lago, Luis Saucedo-Mora, Miguel Angel Sanz, Ricardo Callado, Francisco Javier Montans(参考訳) 構造健康モニタリング(SHM)と機械学習(ML)技術を組み合わせることで、リアルタイムのパフォーマンストラッキングが向上し、民間、航空宇宙、自動車インフラの構造的完全性に対する認識が向上する。 このSHM-ML相乗効果は、MLアルゴリズムが生み出す保守の期待と、大量のデータを扱う能力と、問題に対するそれらの影響を考慮して、近年人気を集めている。 本稿では,非破壊的なSHM法であるラム波の信号処理による複合材料中の疲労損傷(パルムグレン・マイナー指数)を予測するために,最大エントロピーの原理に基づくML近傍近似アルゴリズムを開発し,古典的積層理論(CLT)から計算したレイアップパラメータや剛性行列などの有意義な特徴を持つ。 複合材料におけるデラミネーション実験のデータセットに全データ解析サイクルを適用する。 これらの予測は、ニューラルネットワークや勾配ブーストツリーなど、他のmlアルゴリズムとよく似た精度を実現し、計算時間は等級と同じである。 提案手法の主な利点は,(1)予測に関わるパラメータをすべて自動決定するので,事前にハイパーパラメータを設定する必要がなく,モデルのハイパーチューニングに要する時間を節約し,自律的な自己管理型SHMの利点を示す。 2) トレーニングは不要で,データのストリームがモデルに継続的に供給される,‘textit{online learning} コンテキストでは,信頼性の高いリアルタイムかつ継続的監視に不可欠な,反復的なトレーニングを回避する。

Applications of Structural Health Monitoring (SHM) combined with Machine Learning (ML) techniques enhance real-time performance tracking and increase structural integrity awareness of civil, aerospace and automotive infrastructures. This SHM-ML synergy has gained popularity in the last years thanks to the anticipation of maintenance provided by arising ML algorithms and their ability of handling large quantities of data and considering their influence in the problem. In this paper we develop a novel ML nearest-neighbors-alike algorithm based on the principle of maximum entropy to predict fatigue damage (Palmgren-Miner index) in composite materials by processing the signals of Lamb Waves -- a non-destructive SHM technique -- with other meaningful features such as layup parameters and stiffness matrices calculated from the Classical Laminate Theory (CLT). The full data analysis cycle is applied to a dataset of delamination experiments in composites. The predictions achieve a good level of accuracy, similar to other ML algorithms, e.g. Neural Networks or Gradient-Boosted Trees, and computation times are of the same order of magnitude. The key advantages of our proposal are: (1) The automatic determination of all the parameters involved in the prediction, so no hyperparameters have to be set beforehand, which saves time devoted to hypertuning the model and also represents an advantage for autonomous, self-supervised SHM. (2) No training is required, which, in an \textit{online learning} context where streams of data are fed continuously to the model, avoids repeated training -- essential for reliable real-time, continuous monitoring.
翻訳日:2022-10-21 15:27:18 公開日:2022-10-19
# 不均衡学習のための表データのベイズ最適化による教師付きコントラスト学習

Supervised Contrastive Learning with TPE-based Bayesian Optimization of Tabular Data for Imbalanced Learning ( http://arxiv.org/abs/2210.10824v1 )

ライセンス: Link先を確認
Shuting Tao, Peng Peng, Hongwei Wang(参考訳) クラス不均衡は、ほとんどの教師付き学習アルゴリズムの予測性能に有害な影響を及ぼす。 そこで本研究では,木構造パルゼン推定器(tpe)に基づくベイズ最適化手法を用いた教師付きコントラスト学習(scl)手法を提案する。 教師付き学習と比較して、コントラスト学習はデータに隠された情報を抽出することで「ラベルバイアス」を避けることができる。 対照的な損失に基づいて、SCLはラベル情報を利用して表データの不十分なデータ拡張に対処し、提案したSCL-TPE法でデータの識別表現を学習する。 さらに、超パラメータ温度がSCL性能に決定的な影響を及ぼし、チューニングが難しいため、TPEベースのベイズ最適化を導入して最適な温度を自動的に選択する。 二分法と多クラス不均衡グラフデータセットで実験を行った。 その結果、TPEはグリッド探索、ランダム探索、遺伝的アルゴリズムなどの他の超パラメータ最適化(HPO)手法よりも優れていた。 さらに,SCL-TPE法は最先端の手法と比較して改良された性能を実現する。

Class imbalance has a detrimental effect on the predictive performance of most supervised learning algorithms as the imbalanced distribution can lead to a bias preferring the majority class. To solve this problem, we propose a Supervised Contrastive Learning (SCL) method with Bayesian optimization technique based on Tree-structured Parzen Estimator (TPE) for imbalanced tabular datasets. Compared with supervised learning, contrastive learning can avoid "label bias" by extracting the information hidden in data. Based on contrastive loss, SCL can exploit the label information to address insufficient data augmentation of tabular data, and is thus used in the proposed SCL-TPE method to learn a discriminative representation of data. Additionally, as the hyper-parameter temperature has a decisive influence on the SCL performance and is difficult to tune, TPE-based Bayesian optimization is introduced to automatically select the best temperature. Experiments are conducted on both binary and multi-class imbalanced tabular datasets. As shown in the results obtained, TPE outperforms other hyper-parameter optimization (HPO) methods such as grid search, random search, and genetic algorithm. More importantly, the proposed SCL-TPE method achieves much-improved performance compared with the state-of-the-art methods.
翻訳日:2022-10-21 15:26:50 公開日:2022-10-19
# OCR-VQGAN:画像生成によるテキスト処理

OCR-VQGAN: Taming Text-within-Image Generation ( http://arxiv.org/abs/2210.11248v1 )

ライセンス: Link先を確認
Juan A. Rodriguez, David Vazquez, Issam Laradji, Marco Pedersoli, Pau Rodriguez(参考訳) 合成画像生成は最近、自然画像やアート生成といった領域で大幅に改善されている。 しかし、図と図生成の問題はまだ未定である。 図や図を生成する上で難しいのは、画像内で読みやすいテキストを効果的に描画することである。 この問題を解決するために,ocrプリトレーニング機能を活用した画像エンコーダとデコーダであるocr-vqganを提案する。 本稿では,論文から100万枚以上の図形とテキストを抽出したPaper2Fig100kデータセットを紹介する。 図は、人工知能やコンピュータビジョンなどの分野から、arXiv.orgで利用可能な記事のアーキテクチャ図と方法論を示している。 図は通常、テキストと離散オブジェクト、例えばダイアグラム内のボックス、それらを接続する行と矢印を含む。 我々は,OCR-VQGANの有効性を図形再構成の課題に関するいくつかの実験により実証した。 さらに,全体損失関数における異なる知覚的指標の重み付けによる質的,定量的な影響について検討する。 私たちはhttps://github.com/joanrod/ocr-vqganでコード、モデル、データセットをリリースします。

Synthetic image generation has recently experienced significant improvements in domains such as natural image or art generation. However, the problem of figure and diagram generation remains unexplored. A challenging aspect of generating figures and diagrams is effectively rendering readable texts within the images. To alleviate this problem, we present OCR-VQGAN, an image encoder, and decoder that leverages OCR pre-trained features to optimize a text perceptual loss, encouraging the architecture to preserve high-fidelity text and diagram structure. To explore our approach, we introduce the Paper2Fig100k dataset, with over 100k images of figures and texts from research papers. The figures show architecture diagrams and methodologies of articles available at arXiv.org from fields like artificial intelligence and computer vision. Figures usually include text and discrete objects, e.g., boxes in a diagram, with lines and arrows that connect them. We demonstrate the effectiveness of OCR-VQGAN by conducting several experiments on the task of figure reconstruction. Additionally, we explore the qualitative and quantitative impact of weighting different perceptual metrics in the overall loss function. We release code, models, and dataset at https://github.com/joanrod/ocr-vqgan.
翻訳日:2022-10-21 15:07:28 公開日:2022-10-19
# 地上映像の状況認識

Grounded Video Situation Recognition ( http://arxiv.org/abs/2210.10828v1 )

ライセンス: Link先を確認
Zeeshan Khan, C.V. Jawahar, Makarand Tapaswi(参考訳) 複雑なビデオ理解には、誰が誰に何をしているか、どのように、なぜ、どこで何をしているのかなど、いくつかの質問に答える必要があります。 近年,ビデオ状況認識(VidSitu)は,複数の事象の構造化予測,その関連,行動,および説明的実体に付随する様々な動詞とロールのペアのタスクとして構成されている。 このタスクは複数の動詞とロールのペアをまたいだエンティティの識別、曖昧化、参照においていくつかの課題をもたらすが、評価の課題にも直面する。 本稿では,弱教師付き環境における構造化予測タスクの重要な構成要素として時空間グラウンドの追加を提案するとともに,共同予測を行うための3段階トランスフォーマーモデルであるVideoWhispererを提案する。 ステージ1では、ビデオ機能に対する文脈的埋め込みと、ビデオクリップに現れるキーオブジェクトとを並行して学習し、微細な時空間推論を可能にする。 第2ステージでは、動詞-ロールクエリが出席し、オブジェクト埋め込みから情報をプールし、アクションに関する質問に対する回答をローカライズする。 最終段階は、ビデオに現れる各動詞と単語のペアを記述するキャプションとしてこれらの回答を生成する。 我々のモデルは,一群のイベント(クリップ)で同時に動作し,動詞,動詞とロールのペア,名詞,接頭辞のオンザフライを予測する。 VidSituデータセットのグラウンド化バージョンで評価すると、エンティティキャプションの精度が大幅に向上し、トレーニング時にアノテーションをグラウンド化せずに動詞ロールをローカライズできるようになった。

Dense video understanding requires answering several questions such as who is doing what to whom, with what, how, why, and where. Recently, Video Situation Recognition (VidSitu) is framed as a task for structured prediction of multiple events, their relationships, and actions and various verb-role pairs attached to descriptive entities. This task poses several challenges in identifying, disambiguating, and co-referencing entities across multiple verb-role pairs, but also faces some challenges of evaluation. In this work, we propose the addition of spatio-temporal grounding as an essential component of the structured prediction task in a weakly supervised setting, and present a novel three stage Transformer model, VideoWhisperer, that is empowered to make joint predictions. In stage one, we learn contextualised embeddings for video features in parallel with key objects that appear in the video clips to enable fine-grained spatio-temporal reasoning. The second stage sees verb-role queries attend and pool information from object embeddings, localising answers to questions posed about the action. The final stage generates these answers as captions to describe each verb-role pair present in the video. Our model operates on a group of events (clips) simultaneously and predicts verbs, verb-role pairs, their nouns, and their grounding on-the-fly. When evaluated on a grounding-augmented version of the VidSitu dataset, we observe a large improvement in entity captioning accuracy, as well as the ability to localize verb-roles without grounding annotations at training time.
翻訳日:2022-10-21 14:52:09 公開日:2022-10-19
# 深層ニューラルネットワークの分布シフト検出

Distribution Shift Detection for Deep Neural Networks ( http://arxiv.org/abs/2210.10897v1 )

ライセンス: Link先を確認
Guy Bar-Shalom, Yonatan Geifman, Ran El-Yaniv(参考訳) 深層神経モデルの本番環境での展開と運用には, 良性的に汚染されたり, 入力分布偏差によって悪質に操作されたりする予測の品質を監視・評価する必要がある。 具体的には,データストリームを受信するディープニューラルネットワーク(DNN)の健全な動作をモニタリングする場合について,ネットワークの予測の質が損なわれる可能性のある入力分布のずれを検出することを目的とした。 選択的予測原理を用いて,DNNの分布偏差検出手法を提案する。 提案手法は,真の基礎分布から引き出されたインスタンスのサンプル上で計算された厳密なカバレッジ一般化から導出される。 このバウンドに基づいて、我々の検出器はテストウィンドウ上のネットワークの動作を継続的に監視し、偏差を検出すると警報を発射する。 この新たな検出法は,CIFAR-10とImageNetのデータセットに関して,従来よりもはるかに効率が高く,時間と空間の複雑さが大幅に向上すると同時に,新たなパフォーマンスバーを確立する。

To deploy and operate deep neural models in production, the quality of their predictions, which might be contaminated benignly or manipulated maliciously by input distributional deviations, must be monitored and assessed. Specifically, we study the case of monitoring the healthy operation of a deep neural network (DNN) receiving a stream of data, with the aim of detecting input distributional deviations over which the quality of the network's predictions is potentially damaged. Using selective prediction principles, we propose a distribution deviation detection method for DNNs. The proposed method is derived from a tight coverage generalization bound computed over a sample of instances drawn from the true underlying distribution. Based on this bound, our detector continuously monitors the operation of the network over a test window and fires off an alarm whenever a deviation is detected. This novel detection method consistently and significantly outperforms the state of the art with respect to the CIFAR-10 and ImageNet datasets, thus establishing a new performance bar for this task, while being substantially more efficient in time and space complexities.
翻訳日:2022-10-21 14:51:40 公開日:2022-10-19
# ht-net:マルチスケールpdesのための階層的トランスフォーマベースオペレータ学習モデル

HT-Net: Hierarchical Transformer based Operator Learning Model for Multiscale PDEs ( http://arxiv.org/abs/2210.10890v1 )

ライセンス: Link先を確認
Xinliang Liu, Bo Xu and Lei Zhang(参考訳) 複数のスケールの複雑な非線形相互作用は、多くの興味深い物理現象を引き起こし、貯水池シミュレーション、高周波散乱、乱流モデリングといった分野におけるマルチスケールPDEモデルの計算機シミュレーションにおいて大きな困難をもたらす。 本稿では,マルチスケールPDEのための解演算子を効率的に学習する階層変換器(HT)方式を提案する。 特徴をネスト的に計算し, 制御可能な線形コストで計算できるように, 大規模適応的相互作用範囲を持つ階層的アーキテクチャを構築した。 レベル階層上の自己アテンションは、すべてのスケール範囲のマルチスケールソリューション空間をエンコードし、デコードするために使用できる。 さらに,多スケール関数に対するニューラルネットワーク近似のスペクトルバイアスに対抗するために,経験的な$h^1$損失関数を採用する。 数値実験では,HT方式の性能を,代表的マルチスケール問題に対する最新技術(SOTA)法と比較した。

Complex nonlinear interplays of multiple scales give rise to many interesting physical phenomena and pose major difficulties for the computer simulation of multiscale PDE models in areas such as reservoir simulation, high frequency scattering and turbulence modeling. In this paper, we introduce a hierarchical transformer (HT) scheme to efficiently learn the solution operator for multiscale PDEs. We construct a hierarchical architecture with scale adaptive interaction range, such that the features can be computed in a nested manner and with a controllable linear cost. Self-attentions over a hierarchy of levels can be used to encode and decode the multiscale solution space over all scale ranges. In addition, we adopt an empirical $H^1$ loss function to counteract the spectral bias of the neural network approximation for multiscale functions. In the numerical experiments, we demonstrate the superior performance of the HT scheme compared with state-of-the-art (SOTA) methods for representative multiscale problems.
翻訳日:2022-10-21 14:42:36 公開日:2022-10-19
# DEEP$^2$:Deep Learning Powered De-scattering with Excitation Patterning

DEEP$^2$: Deep Learning Powered De-scattering with Excitation Patterning ( http://arxiv.org/abs/2210.10892v1 )

ライセンス: Link先を確認
Navodini Wijethilake, Mithunjha Anandakumar, Cheng Zheng, Josiah R. Boivin, Peter T. C. So, Murat Yildirim, Dushan N. Wadduwage(参考訳) 限界スループットは、非線形光学顕微鏡を用いた in-vivo deep-tissue imaging において重要な課題である。 点走査型多光子顕微鏡(現金標準)は、特に光学的クリア化や薄い試料に使用される広視野撮像法と比較して遅い。 我々は最近,点走査測地線に代わる広視野の代替として,「励起パターンによるデ散乱」を導入した。 パターン化された多光子励起を用いて、DEEPは散乱前に組織内の空間情報を符号化する。 しかし、典型的な深さで散布するには、何百というパターンの励起が必要である。 そこで本研究では,数百例ではなく,数十例のパターン励振から画像を分離する深層学習モデルであるdeep$^2$を提案する。 その結果,DEPのスループットはほぼ1桁向上した。 本手法は, 生マウスにおいて, 最大4つの散乱長を撮像するin-vivo cortical vasculatureを含む複数の数値および物理的実験で実証した。

Limited throughput is a key challenge in in-vivo deep-tissue imaging using nonlinear optical microscopy. Point scanning multiphoton microscopy, the current gold standard, is slow especially compared to the wide-field imaging modalities used for optically cleared or thin specimens. We recently introduced 'De-scattering with Excitation Patterning or DEEP', as a widefield alternative to point-scanning geometries. Using patterned multiphoton excitation, DEEP encodes spatial information inside tissue before scattering. However, to de-scatter at typical depths, hundreds of such patterned excitations are needed. In this work, we present DEEP$^2$, a deep learning based model, that can de-scatter images from just tens of patterned excitations instead of hundreds. Consequently, we improve DEEP's throughput by almost an order of magnitude. We demonstrate our method in multiple numerical and physical experiments including in-vivo cortical vasculature imaging up to four scattering lengths deep, in alive mice.
翻訳日:2022-10-21 14:42:20 公開日:2022-10-19
# バングラ語ニュース分類のための自動ラベリングと自動ラベリングを用いた機械学習と深層学習

Machine and Deep Learning Methods with Manual and Automatic Labelling for News Classification in Bangla Language ( http://arxiv.org/abs/2210.10903v1 )

ライセンス: Link先を確認
Istiak Ahmad, Fahad AlQurashi, Rashid Mehmood(参考訳) 自然言語処理(nlp)の研究は、テキスト分類、テキストマイニング、感情分析、posタグ付け、名前付きエンティティ認識、テキストの包含など、多くの応用によってますます重要になっている。 本稿では,バングラ語におけるニュース分類のための手動ラベリングと自動ラベリングを用いたいくつかの機械学習手法を提案する。 機械学習(ML)とディープラーニング(DL)アルゴリズムを実装した。 MLアルゴリズムには、Logistic Regression (LR)、Stochastic Gradient Descent (SGD)、Support Vector Machine (SVM)、Random Forest (RF)、K-Nearest Neighbour (KNN)、Bag of Words (BoW)、Term Frequency-Inverse Document Frequency (TF-IDF)、Doc2Vec組み込みモデルがある。 DLアルゴリズムは、Long Short-Term Memory (LSTM)、Bidirectional LSTM (BiLSTM)、Gated Recurrent Unit (GRU)、Convolutional Neural Network (CNN)であり、Word2vec、Glove、FastTextのワード埋め込みモデルで使用される。 本研究では,LDA(Latent Dirichlet Allocation)を用いた自動ラベリング手法を開発し,単一ラベルおよび多ラベル記事分類法の性能について検討する。 2014~2020年の間にバングラデシュの6つの人気のあるオンラインニュースポータルから収集された664,880のニュース記事に含まれる185.51万の単語と1257万の文からなる、バングラデシュ語におけるニュース分類のための最大かつ最も広範なデータセットであるPotrikaの開発を行った。 91.83%のGRUとFasttextは、手作業によるデータの精度が最も高い。 自動ラベリングの場合、KNNとDoc2Vecはそれぞれ57.72%と75%で、シングルラベルとマルチラベルのデータが最も精度が高い。 本稿では,バングラ語やその他の言語の研究を進展させることが期待されている。

Research in Natural Language Processing (NLP) has increasingly become important due to applications such as text classification, text mining, sentiment analysis, POS tagging, named entity recognition, textual entailment, and many others. This paper introduces several machine and deep learning methods with manual and automatic labelling for news classification in the Bangla language. We implemented several machine (ML) and deep learning (DL) algorithms. The ML algorithms are Logistic Regression (LR), Stochastic Gradient Descent (SGD), Support Vector Machine (SVM), Random Forest (RF), and K-Nearest Neighbour (KNN), used with Bag of Words (BoW), Term Frequency-Inverse Document Frequency (TF-IDF), and Doc2Vec embedding models. The DL algorithms are Long Short-Term Memory (LSTM), Bidirectional LSTM (BiLSTM), Gated Recurrent Unit (GRU), and Convolutional Neural Network (CNN), used with Word2vec, Glove, and FastText word embedding models. We develop automatic labelling methods using Latent Dirichlet Allocation (LDA) and investigate the performance of single-label and multi-label article classification methods. To investigate performance, we developed from scratch Potrika, the largest and the most extensive dataset for news classification in the Bangla language, comprising 185.51 million words and 12.57 million sentences contained in 664,880 news articles in eight distinct categories, curated from six popular online news portals in Bangladesh for the period 2014-2020. GRU and Fasttext with 91.83% achieve the highest accuracy for manually-labelled data. For the automatic labelling case, KNN and Doc2Vec at 57.72% and 75% achieve the highest accuracy for single-label and multi-label data, respectively. The methods developed in this paper are expected to advance research in Bangla and other languages.
翻訳日:2022-10-21 14:41:56 公開日:2022-10-19
# 強化学習と全体軌道最適化によるロボットテーブルワイピング

Robotic Table Wiping via Reinforcement Learning and Whole-body Trajectory Optimization ( http://arxiv.org/abs/2210.10865v1 )

ライセンス: Link先を確認
Thomas Lew, Sumeet Singh, Mario Prats, Jeffrey Bingham, Jonathan Weisz, Benjie Holson, Xiaohan Zhang, Vikas Sindhwani, Yao Lu, Fei Xia, Peng Xu, Tingnan Zhang, Jie Tan, Montserrat Gonzalez(参考訳) 本研究では,多目的移動ロボットがテーブルを自律的に拭き取り,こぼれやくちばしを浄化するフレームワークを提案する。 この問題は、高次元の視覚観測によって捕獲されたクラムやこぼれの不安定な潜在ダイナミクスを推論しながら、ワイピングアクションを計画する必要があるため、困難である。 同時に、構造化されていない乱雑な環境で安全なデプロイを可能にするために、制約満足度を保証しなければなりません。 この問題に対処するために,まず,ロボットワイパーを用いたき裂のモデル化とこぼれのダイナミクスと吸収に関する確率微分方程式を提案する。 このモデルを用いて,強化学習(rl)を用いたシミュレーションにおけるワイピング行動計画のためのビジョンベースポリシーを訓練する。 ゼロショット sim-to-real 展開を可能にするため,RL ポリシを全体軌道最適化フレームワークに精査し,所望のワイピング動作を実行するためのベースとアームの関節軌道を計算する。 我々はシミュレーションとハードウェアのアプローチを広範囲に検証した。 ビデオ:https://youtu.be/inORKP4F3EI

We propose a framework to enable multipurpose assistive mobile robots to autonomously wipe tables to clean spills and crumbs. This problem is challenging, as it requires planning wiping actions while reasoning over uncertain latent dynamics of crumbs and spills captured via high-dimensional visual observations. Simultaneously, we must guarantee constraints satisfaction to enable safe deployment in unstructured cluttered environments. To tackle this problem, we first propose a stochastic differential equation to model crumbs and spill dynamics and absorption with a robot wiper. Using this model, we train a vision-based policy for planning wiping actions in simulation using reinforcement learning (RL). To enable zero-shot sim-to-real deployment, we dovetail the RL policy with a whole-body trajectory optimization framework to compute base and arm joint trajectories that execute the desired wiping motions while guaranteeing constraints satisfaction. We extensively validate our approach in simulation and on hardware. Video: https://youtu.be/inORKP4F3EI
翻訳日:2022-10-21 14:23:48 公開日:2022-10-19
# ターゲットアイデンティティによるヘイトスピーチの表現方法:計算分析

How Hate Speech Varies by Target Identity: A Computational Analysis ( http://arxiv.org/abs/2210.10839v1 )

ライセンス: Link先を確認
Michael Miller Yoder, Lynnette Hui Xian Ng, David West Brown, Kathleen M. Carley(参考訳) 本稿では,ヘイトスピーチが対象とするアイデンティティに応じて,体系的にどう変化するかを検討する。 複数のヘイトスピーチデータセットに、特定のアイデンティティグループを対象としたヘイトスピーチを訓練した分類器が、他のターゲットidへの一般化に苦戦していることがわかりました。 これによって、ターゲットのアイデンティティによるヘイトスピーチの違いに対する実証的な証拠が得られる。 対象のカテゴリー(性別・性・人種・民族など)は、対象とするアイデンティティグループの相対的社会的パワーよりも、ヘイトスピーチの言語により大きな影響を与えていると考えられる。 また,特定のアイデンティティをターゲットとしたヘイトスピーチに関連する単語は,ステレオタイプ,抑圧の履歴,現在の社会運動,その他のアイデンティティ特有の社会的文脈にしばしば関連していることがわかった。 これらの実験は、自動ヘイトスピーチ分類において、ターゲットのアイデンティティや、これらのアイデンティティに関連する社会的文脈を考慮することの重要性を示唆している。

This paper investigates how hate speech varies in systematic ways according to the identities it targets. Across multiple hate speech datasets annotated for targeted identities, we find that classifiers trained on hate speech targeting specific identity groups struggle to generalize to other targeted identities. This provides empirical evidence for differences in hate speech by target identity; we then investigate which patterns structure this variation. We find that the targeted demographic category (e.g. gender/sexuality or race/ethnicity) appears to have a greater effect on the language of hate speech than does the relative social power of the targeted identity group. We also find that words associated with hate speech targeting specific identities often relate to stereotypes, histories of oppression, current social movements, and other social contexts specific to identities. These experiments suggest the importance of considering targeted identity, as well as the social contexts associated with these identities, in automated hate speech classification.
翻訳日:2022-10-21 14:23:27 公開日:2022-10-19
# 2ターンの議論は、人間が理解力のある質問に答えるのに役立たない

Two-Turn Debate Doesn't Help Humans Answer Hard Reading Comprehension Questions ( http://arxiv.org/abs/2210.10860v1 )

ライセンス: Link先を確認
Alicia Parrish, Harsh Trivedi, Nikita Nangia, Vishakh Padmakumar, Jason Phang, Amanpreet Singh Saimbhi, Samuel R. Bowman(参考訳) 難しいタスクを完了するための言語モデルに基づく質問応答システムの使用は、その一部は、それらのシステムが生成するテキストの信頼性の欠如によって制限されている。 2つの競合する解答オプションの議論を人間に提示するのが正しいか、一方が正しくないか、他方が正しくないかを検証し、一方が信頼できない場合にも、人間の判断をより正確に実行できるようにする。 もしこれが役に立つなら、言語モデルベースのシステムに対する正当化された信頼を高めることができるかもしれない。 これまでの研究では、この形式の議論は人間には役に立たないことが示されている。 しかし,議論設定は前後対話によって特徴づけられるため,前回の結果を追従して,第2ラウンドの対論の追加が人間にとって有用かどうかを検証する。 議論にアクセスするかどうかに関わらず、人間は我々のタスクで同じように振る舞うことが分かっています。 これらの結果から,読解質問に答える場合,議論は有用な形式ではないことが示唆された。

The use of language-model-based question-answering systems to aid humans in completing difficult tasks is limited, in part, by the unreliability of the text these systems generate. Using hard multiple-choice reading comprehension questions as a testbed, we assess whether presenting humans with arguments for two competing answer options, where one is correct and the other is incorrect, allows human judges to perform more accurately, even when one of the arguments is unreliable and deceptive. If this is helpful, we may be able to increase our justified trust in language-model-based systems by asking them to produce these arguments where needed. Previous research has shown that just a single turn of arguments in this format is not helpful to humans. However, as debate settings are characterized by a back-and-forth dialogue, we follow up on previous results to test whether adding a second round of counter-arguments is helpful to humans. We find that, regardless of whether they have access to arguments or not, humans perform similarly on our task. These findings suggest that, in the case of answering reading comprehension questions, debate is not a helpful format.
翻訳日:2022-10-21 14:23:11 公開日:2022-10-19
# ディープラーニングによる自律運転における新たな脅威: 包括的調査

Emerging Threats in Deep Learning-Based Autonomous Driving: A Comprehensive Survey ( http://arxiv.org/abs/2210.11237v1 )

ライセンス: Link先を確認
Hui Cao, Wenlong Zou, Yinkun Wang, Ting Song, Mengjun Liu(参考訳) 2004年のDARPAグランドチャレンジ以来、自動運転技術は20年近く急速に発展してきた。 特に近年では、新しいセンサーやディープラーニング技術が自動運転分野に応用され、自動運転技術の開発が飛躍的に進んでいる。 そのため、多くの自動車メーカーやハイテク大企業が自動運転車の研究とシステム開発に力を入れている。 しかし、自動運転の基礎として、ディープラーニング技術は多くの新しいセキュリティリスクに直面している。 アカデミックコミュニティは、敵の例とaiバックドアに対するディープラーニング対策を提案し、それらを検証のために自動運転分野に導入した。 ディープラーニングセキュリティは、自律運転システムのセキュリティ、そして、注意と研究に値する問題である個人の安全に重要な問題であり、本論文は、自動運転におけるディープラーニングセキュリティ技術の概念、開発、および最近の研究の概要を提供する。 まず,この分野で広く使用されているディープラーニング技術とアルゴリズムを中心に,自動運転システムにおけるディープラーニングフレームワークとパイプラインについて簡単に紹介する。 さらに,各機能層におけるディープラーニングに基づく自律運転システムの潜在的なセキュリティ脅威にも注目する。 我々は、ディープラーニング攻撃技術の開発を自動運転に適用し、最先端アルゴリズムを調査し、潜在的なリスクを明らかにする。 最終的には、自動運転分野におけるディープラーニングのセキュリティに関する展望を提供し、安全で信頼できる自動運転システムを構築するための推奨事項を提案する。

Since the 2004 DARPA Grand Challenge, the autonomous driving technology has witnessed nearly two decades of rapid development. Particularly, in recent years, with the application of new sensors and deep learning technologies extending to the autonomous field, the development of autonomous driving technology has continued to make breakthroughs. Thus, many carmakers and high-tech giants dedicated to research and system development of autonomous driving. However, as the foundation of autonomous driving, the deep learning technology faces many new security risks. The academic community has proposed deep learning countermeasures against the adversarial examples and AI backdoor, and has introduced them into the autonomous driving field for verification. Deep learning security matters to autonomous driving system security, and then matters to personal safety, which is an issue that deserves attention and research.This paper provides an summary of the concepts, developments and recent research in deep learning security technologies in autonomous driving. Firstly, we briefly introduce the deep learning framework and pipeline in the autonomous driving system, which mainly include the deep learning technologies and algorithms commonly used in this field. Moreover, we focus on the potential security threats of the deep learning based autonomous driving system in each functional layer in turn. We reviews the development of deep learning attack technologies to autonomous driving, investigates the State-of-the-Art algorithms, and reveals the potential risks. At last, we provides an outlook on deep learning security in the autonomous driving field and proposes recommendations for building a safe and trustworthy autonomous driving system.
翻訳日:2022-10-21 14:16:35 公開日:2022-10-19
# 複数部分群の公平性と正確性について

On Learning Fairness and Accuracy on Multiple Subgroups ( http://arxiv.org/abs/2210.10837v1 )

ライセンス: Link先を確認
Changjian Shui, Gezheng Xu, Qi Chen, Jiaqi Li, Charles Ling, Tal Arbel, Boyu Wang, Christian Gagn\'e(参考訳) 本稿では,データの有用性を保ちつつ,グループ満足度基準による予測格差を低減した公平学習の分析を提案する。 データは複数のサブグループあるいはそれ以上のサブグループを含み、それぞれが限られた数のサンプルを持つシナリオに焦点を当てる。 そこで本論文では,全部分群に対する公平な予測を2段階の目的として定式化することで学習する原則付き手法を提案する。 具体的には、サブグループ固有の予測器は、少量のデータと公正な予測器を通して下位層で学習される。 上層部では、フェア予測器が全てのサブグループ固有の予測器に近付くように更新される。 さらに,このような二レベル目標が,集団満足度と一般化誤差を効果的に制御できることを実証する。 提案フレームワークを実世界のデータセット上で評価する。 実証的な証拠は、公平な予測を一貫して改善し、ベースラインと同等の正確さを示唆している。

We propose an analysis in fair learning that preserves the utility of the data while reducing prediction disparities under the criteria of group sufficiency. We focus on the scenario where the data contains multiple or even many subgroups, each with limited number of samples. As a result, we present a principled method for learning a fair predictor for all subgroups via formulating it as a bilevel objective. Specifically, the subgroup specific predictors are learned in the lower-level through a small amount of data and the fair predictor. In the upper-level, the fair predictor is updated to be close to all subgroup specific predictors. We further prove that such a bilevel objective can effectively control the group sufficiency and generalization error. We evaluate the proposed framework on real-world datasets. Empirical evidence suggests the consistently improved fair predictions, as well as the comparable accuracy to the baselines.
翻訳日:2022-10-21 14:15:06 公開日:2022-10-19
# MMRNet:マルチモーダル冗長性によるビンピッキングのためのマルチモーダルコンピュータビジョンの信頼性向上

MMRNet: Improving Reliability for Multimodal Computer Vision for Bin Picking via Multimodal Redundancy ( http://arxiv.org/abs/2210.10842v1 )

ライセンス: Link先を確認
Yuhao Chen, Hayden Gunraj, E. Zhixuan Zeng, Maximilian Gilles, Alexander Wong(参考訳) 近年,グローバルサプライチェーンの労働不足に対処する産業4.0インフラへの関心が高まっている。 人工知能を利用したロボットビンピッキングシステムを現実世界に展開することは、効率を高めながら労働需要とコストを削減するために特に重要になっている。 この目的のために、人工知能対応のロボットビンピッキングシステムは、ビンピッキングの自動化に使用されるが、センサーの故障などの異常事象時に高価な損傷を引き起こすこともある。 そのため、人工知能研究を現実世界のアプリケーションや製品に翻訳する上で、信頼性は重要な要素となる。 本稿では,マルチモーダル冗長性(mmrnet)を用いたロボットビンピッキングのための物体検出とセグメンテーションのための信頼性の高い視覚システムを提案する。 これは、マルチモーダル冗長の概念を導入し、デプロイメント中にセンサー故障問題に対処する最初のシステムである。 特に,ゲート融合モジュールと動的アンサンブル学習を用いたマルチモーダル冗長性フレームワークを実現する。 最後に,システム全体のアウトプット信頼性と不確実性を測定するために,すべてのモダリティから出力されるラベルフリーのマルチモーダル一貫性スコアを提案する。 実験により,モダリティが欠如している場合,本システムはベースラインモデルよりもはるかに信頼性の高い性能を提供することを示した。 また、我々のMCスコアは、モデル生成信頼度が過度に信頼される場合の予測時間における出力の信頼性指標であることを示す。

Recently, there has been tremendous interest in industry 4.0 infrastructure to address labor shortages in global supply chains. Deploying artificial intelligence-enabled robotic bin picking systems in real world has become particularly important for reducing labor demands and costs while increasing efficiency. To this end, artificial intelligence-enabled robotic bin picking systems may be used to automate bin picking, but may also cause expensive damage during an abnormal event such as a sensor failure. As such, reliability becomes a critical factor for translating artificial intelligence research to real world applications and products. In this paper, we propose a reliable vision system with MultiModal Redundancy (MMRNet) for tackling object detection and segmentation for robotic bin picking using data from different modalities. This is the first system that introduces the concept of multimodal redundancy to combat sensor failure issues during deployment. In particular, we realize the multimodal redundancy framework with a gate fusion module and dynamic ensemble learning. Finally, we present a new label-free multimodal consistency score that utilizes the output from all modalities to measure the overall system output reliability and uncertainty. Through experiments, we demonstrate that in an event of missing modality, our system provides a much more reliable performance compared to baseline models. We also demonstrate that our MC score is a more powerful reliability indicator for outputs during inference time where model generated confidence score are often over-confident.
翻訳日:2022-10-21 14:14:10 公開日:2022-10-19
# G-Augment:ASRのデータ拡張ポリシーのメタ構造を検索

G-Augment: Searching For The Meta-Structure Of Data Augmentation Policies For ASR ( http://arxiv.org/abs/2210.10879v1 )

ライセンス: Link先を確認
Gary Wang, Ekin D.Cubuk, Andrew Rosenberg, Shuyang Cheng, Ron J. Weiss, Bhuvana Ramabhadran, Pedro J. Moreno, Quoc V. Le, Daniel S. Park(参考訳) データ拡張は、自動音声認識(ASR)訓練に堅牢性を提供するために使われるユビキタスなテクニックである。 しかし、多くのASRトレーニングプロセスが自動化され、より"エンドツーエンド"になったとしても、データ拡張ポリシー(使用すべき機能と適用方法)は手作業のままである。 本稿では、拡張空間を有向非巡回グラフ(DAG)として定義し、拡張ポリシー自体を最適化するためにこの空間を探索する手法であるグラフ拡張を提案する。 計算予算が同じならば,CHiME-6 および AMI 上の微調整タスクをランダムに探索することで,G-Augment が生成したポリシーが SpecAugment のポリシーより優れていることを示す。 G-Augmentはまた、CHiME-6評価セット(30.7% WER)上で最先端のASRパフォーマンスを確立することができる。 さらに、G-Augmentポリシーは、ランダム検索されたSpecAugmentポリシーと比較して、ウォームスタートからコールドスタートトレーニング、モデルサイズに優れた転送特性を示すことを示す。

Data augmentation is a ubiquitous technique used to provide robustness to automatic speech recognition (ASR) training. However, even as so much of the ASR training process has become automated and more "end-to-end", the data augmentation policy (what augmentation functions to use, and how to apply them) remains hand-crafted. We present Graph-Augment, a technique to define the augmentation space as directed acyclic graphs (DAGs) and search over this space to optimize the augmentation policy itself. We show that given the same computational budget, policies produced by G-Augment are able to perform better than SpecAugment policies obtained by random search on fine-tuning tasks on CHiME-6 and AMI. G-Augment is also able to establish a new state-of-the-art ASR performance on the CHiME-6 evaluation set (30.7% WER). We further demonstrate that G-Augment policies show better transfer properties across warm-start to cold-start training and model size compared to random-searched SpecAugment policies.
翻訳日:2022-10-21 14:06:30 公開日:2022-10-19
# 薬物・薬物相互作用予測のためのグラフ正規化確率行列因子化

Graph Regularized Probabilistic Matrix Factorization for Drug-Drug Interactions Prediction ( http://arxiv.org/abs/2210.10784v1 )

ライセンス: Link先を確認
Stuti Jain, Emilie Chouzenoux, Kriti Kumar, and Angshul Majumdar(参考訳) 2つ以上の薬物の同時投与は、副作用を引き起こす可能性がある。 薬物と薬物の相互作用(DDI)の同定は、特に薬物開発や古い薬物の精製に必要である。 DDI予測は行列分解(MF)が適切な解として現れる行列完了タスクと見なすことができる。 本稿では,mfフレームワークにおける新たなグラフベース正則化戦略を通じて専門家の知識を取り入れた,グラフ正則化確率行列分解(grpmf)法を提案する。 非凸問題を交互に解くために, 効率的かつ健全な最適化アルゴリズムを提案する。 提案手法の性能は,DrarmBankデータセットを用いて評価し,最新技術との比較を行った。 その結果,GRPMFの性能はGRPMFに比べて優れていた。

Co-administration of two or more drugs simultaneously can result in adverse drug reactions. Identifying drug-drug interactions (DDIs) is necessary, especially for drug development and for repurposing old drugs. DDI prediction can be viewed as a matrix completion task, for which matrix factorization (MF) appears as a suitable solution. This paper presents a novel Graph Regularized Probabilistic Matrix Factorization (GRPMF) method, which incorporates expert knowledge through a novel graph-based regularization strategy within an MF framework. An efficient and sounded optimization algorithm is proposed to solve the resulting non-convex problem in an alternating fashion. The performance of the proposed method is evaluated through the DrugBank dataset, and comparisons are provided against state-of-the-art techniques. The results demonstrate the superior performance of GRPMF when compared to its counterparts.
翻訳日:2022-10-21 14:06:09 公開日:2022-10-19
# エッジ上の説明可能なAIを可能にするグラディエントバックプロパゲーションに基づく特徴属性

Gradient Backpropagation based Feature Attribution to Enable Explainable-AI on the Edge ( http://arxiv.org/abs/2210.10922v1 )

ライセンス: Link先を確認
Ashwin Bhat, Adou Sangbone Assoa, Arijit Raychowdhury(参考訳) 最近、ブラックボックス機械学習モデルの振る舞いに関する洞察を提供する問題に取り組む、説明可能なAI(XAI)の分野が急増している。 このフィールド内では、textit{feature Attribution} は、入力機能に関連スコアを割り当て、ヒートマップとして視覚化するメソッドを含む。 これらのアルゴリズムのハードウェアマッピングはまだ研究されていないため、複数のアルゴリズムに対する柔軟な加速器の設計は困難である。 本研究では,まず勾配バックプロパゲーションに基づく特徴帰属アルゴリズムのデータフローを分析し,推論に要するリソースのオーバーヘッドを判定する。 勾配計算はメモリオーバーヘッドを最小限にするために最適化される。 第2に,エッジデバイスを対象とした高レベル合成(HLS)に基づく構成可能なFPGA設計を開発し,3つの特徴帰属アルゴリズムをサポートする。 タイルベースの計算は、リソース制約に固執しながらオンチップリソースを最大限に利用する。 代表的なCNNはCIFAR-10データセットでトレーニングされ、ライブラリの柔軟性を示す16ビットの固定点精度を用いて複数のXilinxFPGA上で実装されている。 最後に, ハードウェア資源の効率的な再利用により, 提案手法は, 最小限のオーバーヘッドで特徴属性をサポートするために, 推論アクセラレータを再利用し, エッジ上でリアルタイムXAIを実現する経路を示す。

There has been a recent surge in the field of Explainable AI (XAI) which tackles the problem of providing insights into the behavior of black-box machine learning models. Within this field, \textit{feature attribution} encompasses methods which assign relevance scores to input features and visualize them as a heatmap. Designing flexible accelerators for multiple such algorithms is challenging since the hardware mapping of these algorithms has not been studied yet. In this work, we first analyze the dataflow of gradient backpropagation based feature attribution algorithms to determine the resource overhead required over inference. The gradient computation is optimized to minimize the memory overhead. Second, we develop a High-Level Synthesis (HLS) based configurable FPGA design that is targeted for edge devices and supports three feature attribution algorithms. Tile based computation is employed to maximally use on-chip resources while adhering to the resource constraints. Representative CNNs are trained on CIFAR-10 dataset and implemented on multiple Xilinx FPGAs using 16-bit fixed-point precision demonstrating flexibility of our library. Finally, through efficient reuse of allocated hardware resources, our design methodology demonstrates a pathway to repurpose inference accelerators to support feature attribution with minimal overhead, thereby enabling real-time XAI on the edge.
翻訳日:2022-10-21 14:05:56 公開日:2022-10-19
# セマンティックスを用いたシーンテキスト認識

Scene Text Recognition with Semantics ( http://arxiv.org/abs/2210.10836v1 )

ライセンス: Link先を確認
Joshua Cesare Placidi, Yishu Miao, Zixu Wang, Lucia Specia(参考訳) 近年、テキスト画像が最小限のノイズで提示されるベンチマークデータセットでは、シーンテキスト認識(str)モデルが高いパフォーマンスを達成している。 従来のstr認識パイプラインでは、クロッピング画像を唯一の入力として、存在する文字の識別を試みる。 このインフラストラクチャは、入力イメージがノイズである、あるいはテキストが部分的にあいまいなインスタンスで失敗する可能性がある。 本稿では,より広い場面からの意味情報を用いて文脈予測を行う。 我々はオブジェクトタグを用いて意味ベクトルを生成し、その情報をトランスフォーマーベースのアーキテクチャに融合する。 その結果、マルチモーダルアプローチは従来のベンチマークモデル、特にノイズの多いインスタンスよりも高いパフォーマンスを実現しています。

Scene Text Recognition (STR) models have achieved high performance in recent years on benchmark datasets where text images are presented with minimal noise. Traditional STR recognition pipelines take a cropped image as sole input and attempt to identify the characters present. This infrastructure can fail in instances where the input image is noisy or the text is partially obscured. This paper proposes using semantic information from the greater scene to contextualise predictions. We generate semantic vectors using object tags and fuse this information into a transformer-based architecture. The results demonstrate that our multimodal approach yields higher performance than traditional benchmark models, particularly on noisy instances.
翻訳日:2022-10-21 13:56:33 公開日:2022-10-19
# ブラックボックスモデルの説明と人間の解釈可能性期待 -殺人予測の文脈における分析-

Black Box Model Explanations and the Human Interpretability Expectations -- An Analysis in the Context of Homicide Prediction ( http://arxiv.org/abs/2210.10849v1 )

ライセンス: Link先を確認
Jos\'e Ribeiro, N\'ikolas Carneiro and Ronnie Alves(参考訳) 説明可能な人工知能に基づく戦略 - XAIは、ブラックボックス機械学習モデルの結果のより良い人間の解釈可能性を促進する。 現在使われているXAI対策(Ciu、Dalex、Eli5、Lofo、Shap、Skater)は、属性の関連性に関する世界的ランキングを含む様々な説明を提供する。 最近の研究では、これらの説明が人間の専門家の解釈可能性の期待をどのように満たしているか、分析されるモデルやデータセットの特定の複雑さや、センシティブな現実世界のコンテキスト/問題の重要なヒューマンファクターを考慮しながら、モデルをより透明にするためにどのように使用されるのか、さらなる研究の必要性を指摘している。 本研究は、XAI測度とその解釈可能性から生じる説明を隠蔽するため、科学的コミュニティによって正式に支持された殺人予測に関連する現実世界の分類問題に対処し、提案されたブラックボックスモデルを再現し、6つの異なるXAI測度を用いて説明を生成するとともに、6つの異なる人間専門家を用いて、この研究を解釈可能性予測(Interpretability expectationsIE)と呼ぶものを生成する。 その結果,すべての属性ランク間の関係を比較分析・同定し,xai対策と人間専門家が示す属性のうち約49%,xai対策が約41%,人間専門家が10%の一致を示した。 結果は,「異なるXAI尺度は,提案された問題に対して同様の説明を生成するか」「異なる人間の専門家の間で生じる解釈可能性の期待は類似しているか」「XAI尺度が生み出す説明は,人間の専門家の解釈可能性の期待に合致しているか」「Can Interpretability Explanations and expectations working?」と答える。

Strategies based on Explainable Artificial Intelligence - XAI have promoted better human interpretability of the results of black box machine learning models. The XAI measures being currently used (Ciu, Dalex, Eli5, Lofo, Shap, and Skater) provide various forms of explanations, including global rankings of relevance of attributes. Current research points to the need for further studies on how these explanations meet the Interpretability Expectations of human experts and how they can be used to make the model even more transparent while taking into account specific complexities of the model and dataset being analyzed, as well as important human factors of sensitive real-world contexts/problems. Intending to shed light on the explanations generated by XAI measures and their interpretabilities, this research addresses a real-world classification problem related to homicide prediction, duly endorsed by the scientific community, replicated its proposed black box model and used 6 different XAI measures to generate explanations and 6 different human experts to generate what this research referred to as Interpretability Expectations - IE. The results were computed by means of comparative analysis and identification of relationships among all the attribute ranks produced, and ~49% concordance was found among attributes indicated by means of XAI measures and human experts, ~41% exclusively by XAI measures and ~10% exclusively by human experts. The results allow for answering: "Do the different XAI measures generate similar explanations for the proposed problem?", "Are the interpretability expectations generated among different human experts similar?", "Do the explanations generated by XAI measures meet the interpretability expectations of human experts?" and "Can Interpretability Explanations and Expectations work together?", all of which concerning the context of homicide prediction.
翻訳日:2022-10-21 13:49:50 公開日:2022-10-19
# パームアップ:教師なしプレトレーニングのための後期マニフォールドで遊ぶ

Palm up: Playing in the Latent Manifold for Unsupervised Pretraining ( http://arxiv.org/abs/2210.10913v1 )

ライセンス: Link先を確認
Hao Liu, Tom Zahavy, Volodymyr Mnih, Satinder Singh(参考訳) 大規模で多様なデータセットが、人工知能の多くの印象的な進歩の基盤となっている。 しかし、知的な生物は、入力された感覚信号と環境の状態を変える環境と相互作用することで学習する。 本研究では,両世界の最善を尽くし,多種多様なデータセットを活用しながら探索行動を示すアルゴリズムを提案する。 私たちのキーとなるアイデアは、静的データセットに事前トレーニングされた深層生成モデルを活用し、潜在空間に動的モデルを導入することです。 遷移ダイナミクスは、単に作用とランダムにサンプリングされた潜在性とを混合する。 その後、時間的持続性に対して指数的な移動平均を適用し、得られた潜水剤は事前訓練されたジェネレータを使用して画像に復号される。 次に,教師なし強化学習アルゴリズムを用いてこの環境を探索し,収集したデータに対して教師なし表現学習を行う。 さらに,このデータの時間情報を利用して,表現学習の自然な監督としてデータポイントをペアリングする。 実験の結果,視覚領域と強化学習領域の両方において,学習表現を下流タスクにうまく移行できることが示唆された。

Large and diverse datasets have been the cornerstones of many impressive advancements in artificial intelligence. Intelligent creatures, however, learn by interacting with the environment, which changes the input sensory signals and the state of the environment. In this work, we aim to bring the best of both worlds and propose an algorithm that exhibits an exploratory behavior whilst it utilizes large diverse datasets. Our key idea is to leverage deep generative models that are pretrained on static datasets and introduce a dynamic model in the latent space. The transition dynamics simply mixes an action and a random sampled latent. It then applies an exponential moving average for temporal persistency, the resulting latent is decoded to image using pretrained generator. We then employ an unsupervised reinforcement learning algorithm to explore in this environment and perform unsupervised representation learning on the collected data. We further leverage the temporal information of this data to pair data points as a natural supervision for representation learning. Our experiments suggest that the learned representations can be successfully transferred to downstream tasks in both vision and reinforcement learning domains.
翻訳日:2022-10-21 13:48:58 公開日:2022-10-19
# 画像意味関係生成

Image Semantic Relation Generation ( http://arxiv.org/abs/2210.11253v1 )

ライセンス: Link先を確認
Mingzhe Du(参考訳) シーングラフはイメージを超えて構造化された意味理解を提供する。 画像検索、視覚的質問応答、視覚関係検出、さらには自動運転車技術のような下流タスクでは、シーングラフは複雑な画像情報を分解するだけでなく、幅広い応用可能性を持つセマンティックレベル関係を用いて視覚モデルのバイアスを補正することができる。 しかし,グラフアノテーションの構築に要する作業コストは,実用的なシナリオではpsgの適用を阻害する可能性がある。 被験者とオブジェクトを最初に識別し、それらの関係を決定するという観察から着想を得て、シーングラフ生成タスクを2つのサブタスクに分離する提案を行った。 1) 資格のあるオブジェクトをピックアップする画像分割タスク。 2)対象オブジェクト間の関係を生成するための制約付き自動回帰テキスト生成タスク。 そこで本研究では,openpsgデータセット上で31点を達成し,それぞれ16点 (resnet-50) と5点 (clip) の強いベースラインを上回る,単純かつ効果的な画像対テキストモデルであるイメージセマンティクス関係生成(isrg)を提案する。

Scene graphs provide structured semantic understanding beyond images. For downstream tasks, such as image retrieval, visual question answering, visual relationship detection, and even autonomous vehicle technology, scene graphs can not only distil complex image information but also correct the bias of visual models using semantic-level relations, which has broad application prospects. However, the heavy labour cost of constructing graph annotations may hinder the application of PSG in practical scenarios. Inspired by the observation that people usually identify the subject and object first and then determine the relationship between them, we proposed to decouple the scene graphs generation task into two sub-tasks: 1) an image segmentation task to pick up the qualified objects. 2) a restricted auto-regressive text generation task to generate the relation between given objects. Therefore, in this work, we introduce image semantic relation generation (ISRG), a simple but effective image-to-text model, which achieved 31 points on the OpenPSG dataset and outperforms strong baselines respectively by 16 points (ResNet-50) and 5 points (CLIP).
翻訳日:2022-10-21 13:40:25 公開日:2022-10-19
# 部分微分方程式を解くための$r-$Adaptive Deep Learning法

$r-$Adaptive Deep Learning Method for Solving Partial Differential Equations ( http://arxiv.org/abs/2210.10900v1 )

ライセンス: Link先を確認
\'Angel J. Omella and David Pardo(参考訳) 深層ニューラルネットワークを用いた偏微分方程式の解法として,$r-$adaptiveアルゴリズムを提案する。 提案手法は, テンソル積メッシュに制限を課し, 境界ノードの位置を1次元で最適化し, そこから2次元または3次元メッシュを構築する。 この方法では、固定インターフェースを定義することで、メッシュに準拠した設計が可能になり、トポロジの変化、すなわち固定インターフェースを飛び越えるノードなどが可能になる。 この手法はノード位置とPDEソリューション値を同時にメッシュ上で最適化する。 提案した$r-$adaptive法の性能を数値的に説明するために,コロケーション法,Last Squares法,Deep Ritz法と組み合わせて適用する。 我々は, 解が滑らか, 特異, または強い勾配を示す一次元および二次元問題を解くために, 後者に焦点を当てる。

We introduce an $r-$adaptive algorithm to solve Partial Differential Equations using a Deep Neural Network. The proposed method restricts to tensor product meshes and optimizes the boundary node locations in one dimension, from which we build two- or three-dimensional meshes. The method allows the definition of fixed interfaces to design conforming meshes, and enables changes in the topology, i.e., some nodes can jump across fixed interfaces. The method simultaneously optimizes the node locations and the PDE solution values over the resulting mesh. To numerically illustrate the performance of our proposed $r-$adaptive method, we apply it in combination with a collocation method, a Least Squares Method, and a Deep Ritz Method. We focus on the latter to solve one- and two-dimensional problems whose solutions are smooth, singular, and/or exhibit strong gradients.
翻訳日:2022-10-21 13:40:06 公開日:2022-10-19
# ベースライン再訪:文脈認識翻訳におけるマルチセグメンテーションモデルの限界を押し上げる

A baseline revisited: Pushing the limits of multi-segment models for context-aware translation ( http://arxiv.org/abs/2210.10906v1 )

ライセンス: Link先を確認
Suvodeep Majumde, Stanislas Lauly, Maria Nadejde, Marcello Federico, Georgiana Dinu(参考訳) 本稿では,マルチセグメントモデルを用いた文脈翻訳の課題に対処する。 具体的には、モデル容量の増加がこのアプローチの限界をさらに押し上げ、より深いモデルがコンテキスト依存をキャプチャするのにより適していることを示す。 さらに、より大きなモデルで観察される改善は、知識蒸留を用いてより小さなモデルに移すことができる。 提案手法は,言語固有のチューニングやタスク固有のアーキテクチャを必要とせずに,複数の言語やベンチマーク間での競合性能を実現する。

This paper addresses the task of contextual translation using multi-segment models. Specifically we show that increasing model capacity further pushes the limits of this approach and that deeper models are more suited to capture context dependencies. Furthermore, improvements observed with larger models can be transferred to smaller models using knowledge distillation. Our experiments show that this approach achieves competitive performance across several languages and benchmarks, without additional language-specific tuning and task specific architectures.
翻訳日:2022-10-21 13:39:49 公開日:2022-10-19
# クラスターとアグリゲート:大型プローブセットによる顔認識

Cluster and Aggregate: Face Recognition with Large Probe Set ( http://arxiv.org/abs/2210.10864v1 )

ライセンス: Link先を確認
Minchul Kim, Feng Liu, Anil Jain, Xiaoming Liu(参考訳) 特徴融合は顔認識において重要な役割を担い、入力(プローブ)は、個々の特性が異なるN$の低品質画像からなる。 注意と反復モジュールの進歩は、入力セット内の画像間の関係をモデル化できる特徴融合につながっている。 しかし、2次複雑性と繰り返しのモジュールが入力順序の感度に苦しむため、アテンション機構は大きな$n$までスケールできない。 本稿では,2段階の機能融合パラダイムであるClusterとAggregateを提案する。 具体的には、クラスタステージは、グローバルクラスタセンターへの$N$入力の線形割り当てであり、アグリゲーションステージは、M$クラスタ化された機能に対する融合である。 クラスタ化された特徴は、入力が逐次的であり、過去の特徴の要約として機能するときに重要な役割を果たす。 逐次平均演算の順序不変性を利用することで,バッチ順序不変性を実現する更新ルールを設計し,時間ステップの増加に伴って初期画像の寄与が減少しないことを保証する。 IJB-BおよびIJB-Sベンチマークデータセットの実験は、制約のない顔認識における提案された2段階パラダイムの優位性を示している。 コードおよび事前訓練されたモデルはhttps://github.com/mk-minchul/cafaceで利用可能である。

Feature fusion plays a crucial role in unconstrained face recognition where inputs (probes) comprise of a set of $N$ low quality images whose individual qualities vary. Advances in attention and recurrent modules have led to feature fusion that can model the relationship among the images in the input set. However, attention mechanisms cannot scale to large $N$ due to their quadratic complexity and recurrent modules suffer from input order sensitivity. We propose a two-stage feature fusion paradigm, Cluster and Aggregate, that can both scale to large $N$ and maintain the ability to perform sequential inference with order invariance. Specifically, Cluster stage is a linear assignment of $N$ inputs to $M$ global cluster centers, and Aggregation stage is a fusion over $M$ clustered features. The clustered features play an integral role when the inputs are sequential as they can serve as a summarization of past features. By leveraging the order-invariance of incremental averaging operation, we design an update rule that achieves batch-order invariance, which guarantees that the contributions of early image in the sequence do not diminish as time steps increase. Experiments on IJB-B and IJB-S benchmark datasets show the superiority of the proposed two-stage paradigm in unconstrained face recognition. Code and pretrained models are available in https://github.com/mk-minchul/caface
翻訳日:2022-10-21 13:39:02 公開日:2022-10-19
# DoOT-VAE: 一度にひとつの要因を解消する

DOT-VAE: Disentangling One Factor at a Time ( http://arxiv.org/abs/2210.10920v1 )

ライセンス: Link先を確認
Vaishnavi Patil, Matthew Evanusa, Joseph JaJa(参考訳) 私たちが機械学習の時代に入ると、データの発見、組織化、そしてデータの解釈の過剰さに特徴付けられるようになり、それは \textit{unsupervised} 形式で必要となる。 この取り組みの有望なアプローチの1つは、データの変動要因と呼ばれる、根底にある生成潜在因子を学習し、それらを非結合潜在表現にエンコードすることを目的とした \textit{Disentanglement} の問題である。 最近の進歩は、変動の独立要因の固定セットによって生成される合成データセットのこの問題を解決する努力をしてきた。 本稿では,これを実世界のデータセットに拡張し,可算な変動要素を数えることを提案する。 本稿では,変分オートエンコーダの潜伏空間を乱交空間で拡張し,Wake-Sleep-inspireed two-step algorithm for unsupervised disentanglementを用いて学習する手法を提案する。 我々のネットワークは、解釈可能で独立な要因を「一度に1つ」のデータから切り離し、不連続な潜在空間の異なる次元にエンコードすることを学び、その要因の数やそれらの共同分布について事前の仮定を行なわない。 dsprites と 3dshapes と real datasets celeba の2つの合成ベンチマークデータセットで得られた潜在表現を評価し,その定量的・定性的有効性を示す。

As we enter the era of machine learning characterized by an overabundance of data, discovery, organization, and interpretation of the data in an \textit{unsupervised} manner becomes a critical need. One promising approach to this endeavour is the problem of \textit{Disentanglement}, which aims at learning the underlying generative latent factors, called the factors of variation, of the data and encoding them in disjoint latent representations. Recent advances have made efforts to solve this problem for synthetic datasets generated by a fixed set of independent factors of variation. Here, we propose to extend this to real-world datasets with a countable number of factors of variations. We propose a novel framework which augments the latent space of a Variational Autoencoders with a disentangled space and is trained using a Wake-Sleep-inspired two-step algorithm for unsupervised disentanglement. Our network learns to disentangle interpretable, independent factors from the data ``one at a time", and encode it in different dimensions of the disentangled latent space, while making no prior assumptions about the number of factors or their joint distribution. We demonstrate its quantitative and qualitative effectiveness by evaluating the latent representations learned on two synthetic benchmark datasets; DSprites and 3DShapes and on a real datasets CelebA.
翻訳日:2022-10-21 13:31:20 公開日:2022-10-19
# 長さバイアスと縮退繰り返しを調べるための生成課題の連続

A Continuum of Generation Tasks for Investigating Length Bias and Degenerate Repetition ( http://arxiv.org/abs/2210.10817v1 )

ライセンス: Link先を確認
Darcey Riley, David Chiang(参考訳) 言語モデルは様々な退化行動に苦しむ。 機械翻訳(MT)は長さバイアスを示し、ストーリー生成のようなタスクは過剰な繰り返しを示す。 最近の研究では、この違いはタスク制約性に起因しているが、この主張の証拠は常に多くの共起変数に関係している。 この問題を直接研究するため,我々は,mtから完全開放型世代まで,他のすべての側面を固定しながら,タスクの制約性を円滑に変化させることができる新しい実験フレームワークを導入する。 We find that: (1) repetition decreases smoothly with constrainedness, explaining the difference in repetition across tasks; (2) length bias surprisingly also decreases with constrainedness, suggesting some other cause for the difference in length bias; (3) across the board, these problems affect the mode, not the whole distribution; (4) the differences cannot be attributed to a change in the entropy of the distribution, since another method of changing the entropy, label smoothing, does not produce the same effect.

Language models suffer from various degenerate behaviors. These differ between tasks: machine translation (MT) exhibits length bias, while tasks like story generation exhibit excessive repetition. Recent work has attributed the difference to task constrainedness, but evidence for this claim has always involved many confounding variables. To study this question directly, we introduce a new experimental framework that allows us to smoothly vary task constrainedness, from MT at one end to fully open-ended generation at the other, while keeping all other aspects fixed. We find that: (1) repetition decreases smoothly with constrainedness, explaining the difference in repetition across tasks; (2) length bias surprisingly also decreases with constrainedness, suggesting some other cause for the difference in length bias; (3) across the board, these problems affect the mode, not the whole distribution; (4) the differences cannot be attributed to a change in the entropy of the distribution, since another method of changing the entropy, label smoothing, does not produce the same effect.
翻訳日:2022-10-21 13:30:53 公開日:2022-10-19
# 隠れ空間拡張と自己監督コントラスト適応を用いたQAドメイン適応

QA Domain Adaptation using Hidden Space Augmentation and Self-Supervised Contrastive Adaptation ( http://arxiv.org/abs/2210.10861v1 )

ライセンス: Link先を確認
Zhenrui Yue, Huimin Zeng, Bernhard Kratzwald, Stefan Feuerriegel, Dong Wang(参考訳) 質問応答(qa)は、最近、カスタマイズされたドメインからの質問に答える素晴らしい結果を示している。 しかし、一般的な課題は、QAモデルを目に見えないターゲットドメインに適応させることである。 本稿では、QAドメイン適応のためのQADAと呼ばれる新しい自己組織化フレームワークを提案する。 QADAは、トレーニングQAサンプルの拡張に使用される、新しいデータ拡張パイプラインを導入した。 既存の方法と異なり、隠れた空間拡張によってサンプルを豊かにする。 問題として,マルチホップ同義語とディリクレ分布を用いた拡張トークン埋め込みのサンプルを導入する。 コンテキストに対して、カスタムな注意的サンプリング戦略を用いてコンテキストスパンをドロップする学習方法を開発する。 さらに、自己教師付き適応フレームワークQADAにコントラスト学習が組み込まれている。 既存の手法とは異なり、擬似ラベルを生成し、新しい注意に基づくコントラスト適応手法を用いてモデルを訓練することを提案する。 注意重みは、QAモデルが回答を分離し、ソースドメインとターゲットドメインをまたいで一般化するのに役立つ、不一致推定のための情報的特徴を構築するために使用される。 我々の知識を最大限に活用するために、我々の研究は、QAにおける自己教師付きドメイン適応に隠れ空間拡張と注意に基づくコントラスト適応を利用する最初のものである。 評価の結果,QAドメイン適応における最先端ベースラインよりも,複数のターゲットデータセットに対して大幅な改善が達成された。

Question answering (QA) has recently shown impressive results for answering questions from customized domains. Yet, a common challenge is to adapt QA models to an unseen target domain. In this paper, we propose a novel self-supervised framework called QADA for QA domain adaptation. QADA introduces a novel data augmentation pipeline used to augment training QA samples. Different from existing methods, we enrich the samples via hidden space augmentation. For questions, we introduce multi-hop synonyms and sample augmented token embeddings with Dirichlet distributions. For contexts, we develop an augmentation method which learns to drop context spans via a custom attentive sampling strategy. Additionally, contrastive learning is integrated in the proposed self-supervised adaptation framework QADA. Unlike existing approaches, we generate pseudo labels and propose to train the model via a novel attention-based contrastive adaptation method. The attention weights are used to build informative features for discrepancy estimation that helps the QA model separate answers and generalize across source and target domains. To the best of our knowledge, our work is the first to leverage hidden space augmentation and attention-based contrastive adaptation for self-supervised domain adaptation in QA. Our evaluation shows that QADA achieves considerable improvements on multiple target datasets over state-of-the-art baselines in QA domain adaptation.
翻訳日:2022-10-21 13:30:37 公開日:2022-10-19
# 事前学習された視覚言語モデルを用いたプロトタイプベースプロンプト学習

Prompting through Prototype: A Prototype-based Prompt Learning on Pretrained Vision-Language Models ( http://arxiv.org/abs/2210.10841v1 )

ライセンス: Link先を確認
Yue Zhang, Hongliang Fei, Dingcheng Li, Tan Yu, Ping Li(参考訳) Prompt Learningは、テキストのプロンプトを活用することで、事前学習されたモデル上の同様の事前学習タスクとして下流タスクを再構成する新しい学習パラダイムである。 近年の研究では、迅速な学習は訓練データに制限がある数発の学習に特に有用であることが示されている。 プロンプトの粒度によって、これらの方法はタスクレベルのプロンプトとインスタンスレベルのプロンプトに大別できる。 タスクレベルのプロンプトメソッドは、すべての入力サンプルに対してひとつの普遍的なプロンプトを学習する。 インスタンスレベルのプロンプトメソッドは各入力に対して特定のプロンプトを学習するが、効果的だが非効率である。 本研究では,上記の制約を克服する新しいプロトタイプベースプロンプト学習法を開発した。 特に,事前学習された視覚言語モデル (pvlms) の少数ショット画像認識タスクに着目し,プロトタイプ (ptp) によるプロンプト手法を開発し, $k$ 画像プロトタイプと $k$ プロンプトプロトタイプを定義する。 PTPでは、画像プロトタイプは潜在空間内のある画像クラスタのセントロイドを表し、プロンプトプロトタイプは連続空間におけるソフトプロンプトとして定義される。 クエリ画像と画像プロトタイプの類似性は、この予測が対応するプロンプトプロトタイプに依存するかを決定する。 したがって、PTPでは、類似した画像が同様のプロンプト方式を利用することになる。 実世界の7つのベンチマークの広範な実験を通して、PTPは潜在知識を活用し、様々なPVLMに適応する有効な方法であることを示す。 さらに,詳細な解析を行い,短時間学習とパラメーター効率の良い微調整のための長所と短所について論じる。

Prompt learning is a new learning paradigm which reformulates downstream tasks as similar pretraining tasks on pretrained models by leveraging textual prompts. Recent works have demonstrated that prompt learning is particularly useful for few-shot learning, where there is limited training data. Depending on the granularity of prompts, those methods can be roughly divided into task-level prompting and instance-level prompting. Task-level prompting methods learn one universal prompt for all input samples, which is efficient but ineffective to capture subtle differences among different classes. Instance-level prompting methods learn a specific prompt for each input, though effective but inefficient. In this work, we develop a novel prototype-based prompt learning method to overcome the above limitations. In particular, we focus on few-shot image recognition tasks on pretrained vision-language models (PVLMs) and develop a method of prompting through prototype (PTP), where we define $K$ image prototypes and $K$ prompt prototypes. In PTP, the image prototype represents a centroid of a certain image cluster in the latent space and a prompt prototype is defined as a soft prompt in the continuous space. The similarity between a query image and an image prototype determines how much this prediction relies on the corresponding prompt prototype. Hence, in PTP, similar images will utilize similar prompting ways. Through extensive experiments on seven real-world benchmarks, we show that PTP is an effective method to leverage the latent knowledge and adaptive to various PVLMs. Moreover, through detailed analysis, we discuss pros and cons for prompt learning and parameter-efficient fine-tuning under the context of few-shot learning.
翻訳日:2022-10-21 13:29:32 公開日:2022-10-19
# Prophet Attention: 画像キャプションの改善のための将来アテンションによるアテンション予測

Prophet Attention: Predicting Attention with Future Attention for Improved Image Captioning ( http://arxiv.org/abs/2210.10914v1 )

ライセンス: Link先を確認
Fenglin Liu, Xuewei Ma, Xuancheng Ren, Xian Wu, Wei Fan, Yuexian Zou, Xu Sun(参考訳) 近年,多くのシーケンス・ツー・シーケンス学習システムにおいて注目モデルが広く利用されている。 特に画像キャプションでは、注意に基づくモデルが適切な生成語で正しい画像領域を接地することを期待する。 しかし、デコードプロセスの各時間ステップ毎に、注意に基づくモデルは、通常、画像領域に出席するために現在の入力の隠れた状態を使用する。 この設定下では、これらの注意モデルは、生成する単語ではなく、前の単語に基づいて注意重みを計算し、接地とキャプションの両方のパフォーマンスを損なう「故意の焦点」問題を持つ。 本稿では,自己スーパービジョンの形式に類似した預言的注意を提案する。 トレーニング段階では、このモジュールは将来の情報を利用して画像領域に対する「理想的」注意重みを計算する。 これらの計算された「理想」重みは、「逸脱した」注意を規則化するためにさらに使用される。 このようにして、画像領域を正しい単語で接地する。 提案する預言者の注意は既存の画像キャプションモデルに容易に組み込むことができ、グラウンドとキャプションの両方のパフォーマンスが向上する。 Flickr30k EntitiesとMSCOCOデータセットの実験は、提案された預言意図が自動メトリクスと人的評価の両方において、ベースラインを一貫して上回っていることを示している。 2つのベンチマークデータセットに新しい最先端技術を設定し、デフォルトのランキングスコアであるCIDEr-c40でオンラインMSCOCOベンチマークのリーダーボードで1位を獲得しました。

Recently, attention based models have been used extensively in many sequence-to-sequence learning systems. Especially for image captioning, the attention based models are expected to ground correct image regions with proper generated words. However, for each time step in the decoding process, the attention based models usually use the hidden state of the current input to attend to the image regions. Under this setting, these attention models have a "deviated focus" problem that they calculate the attention weights based on previous words instead of the one to be generated, impairing the performance of both grounding and captioning. In this paper, we propose the Prophet Attention, similar to the form of self-supervision. In the training stage, this module utilizes the future information to calculate the "ideal" attention weights towards image regions. These calculated "ideal" weights are further used to regularize the "deviated" attention. In this manner, image regions are grounded with the correct words. The proposed Prophet Attention can be easily incorporated into existing image captioning models to improve their performance of both grounding and captioning. The experiments on the Flickr30k Entities and the MSCOCO datasets show that the proposed Prophet Attention consistently outperforms baselines in both automatic metrics and human evaluations. It is worth noticing that we set new state-of-the-arts on the two benchmark datasets and achieve the 1st place on the leaderboard of the online MSCOCO benchmark in terms of the default ranking score, i.e., CIDEr-c40.
翻訳日:2022-10-21 13:29:04 公開日:2022-10-19
# VTC: ユーザコメントによるビデオテキスト検索の改善

VTC: Improving Video-Text Retrieval with User Comments ( http://arxiv.org/abs/2210.10820v1 )

ライセンス: Link先を確認
Laura Hanu, James Thewlis, Yuki M. Asano, Christian Rupprecht(参考訳) マルチモーダル検索は、レコメンデーションや検索など、多くのアプリケーションにとって重要な問題である。 現在のベンチマークやデータセットも手作業で構築され、ほとんどがクリーンなサンプルで構成されています。 したがって、現在のビデオテキスト検索文献は、ユーザのコメントを無視しながら、主にビデオタイトルや音声の書き起こしに焦点を当てている。 オンライン上でのユーザーコメントが普及しているにもかかわらず、コメントを含むマルチモーダル表現学習データセットは存在しない。 本稿では, a) ビデオ,タイトル,コメントの新しいデータセットの導入 b) コメント等の無関係なデータからモデルを学ぶための注意に基づくメカニズムを提示すること。 c) コメントを用いることで,画像,映像,音声の表現をより良く,より文脈的に学習できることを示す。 プロジェクトページ: https://unitaryai.github.io/vtc-paper

Multi-modal retrieval is an important problem for many applications, such as recommendation and search. Current benchmarks and even datasets are often manually constructed and consist of mostly clean samples where all modalities are well-correlated with the content. Thus, current video-text retrieval literature largely focuses on video titles or audio transcripts, while ignoring user comments, since users often tend to discuss topics only vaguely related to the video. Despite the ubiquity of user comments online, there is currently no multi-modal representation learning datasets that includes comments. In this paper, we a) introduce a new dataset of videos, titles and comments; b) present an attention-based mechanism that allows the model to learn from sometimes irrelevant data such as comments; c) show that by using comments, our method is able to learn better, more contextualised, representations for image, video and audio representations. Project page: https://unitaryai.github.io/vtc-paper.
翻訳日:2022-10-21 13:23:05 公開日:2022-10-19
# フェデレーション・ジェネレーション・アドバーサリアン・ネットワークによる医療画像合成におけるバックドア攻撃と防御

Backdoor Attack and Defense in Federated Generative Adversarial Network-based Medical Image Synthesis ( http://arxiv.org/abs/2210.10886v1 )

ライセンス: Link先を確認
Ruinan Jin and Xiaoxiao Li(参考訳) 深層学習に基づく画像合成技術は、オープンな研究を支援するために医療画像を生成するために医療研究に応用されている。 GAN(generative adversarial Neural Network)のトレーニングは通常、大量のトレーニングデータを必要とする。 フェデレーション学習(fl)は、生データをローカルに保持しながら、分散データを使用して中央モデルをトレーニングする方法を提供する。 しかし、FLサーバが生データにアクセスできないことを考えると、訓練データに毒を盛ることによって、バックドア攻撃に弱い。 ほとんどのバックドア攻撃戦略は分類モデルと集中型ドメインに焦点を当てている。 既存のバックドア攻撃がGANトレーニングに影響を及ぼすのか、もしそうなら、FL設定での攻撃に対してどのように防御するかは、まだ明らかな疑問である。 本研究では,フェデレートされたGAN(FedGANs)におけるバックドア攻撃の問題点について検討する。 この攻撃の成功は、有毒なデータに過度に適合し、局所的なGAN平衡を悪化させた結果であると判断され、ジェネレータのパラメータを平均化する際に他のクライアントをさらに汚染し、高いジェネレータ損失をもたらす。 そこで我々はFedDetectを提案する。FL設定のバックドア攻撃に対して効果的かつ効果的な防御方法であり、サーバはクライアントの損失に基づいてクライアントの敵行動を検出し、悪意のあるクライアントをブロックすることができる。 異なるモダリティを持つ2つの医学データセットに対する広範な実験により、FedGANに対するバックドア攻撃は、忠実度が低い合成画像をもたらすことが示された。 提案した防衛戦略を用いて検出された悪意のあるクライアントを検出して抑制した後、FedGANはデータ拡張のための高品質な医療データセット(ラベル付き)を合成し、分類モデルの性能を向上させる。

Deep Learning-based image synthesis techniques have been applied in healthcare research for generating medical images to support open research and augment medical datasets. Training generative adversarial neural networks (GANs) usually require large amounts of training data. Federated learning (FL) provides a way of training a central model using distributed data while keeping raw data locally. However, given that the FL server cannot access the raw data, it is vulnerable to backdoor attacks, an adversarial by poisoning training data. Most backdoor attack strategies focus on classification models and centralized domains. It is still an open question if the existing backdoor attacks can affect GAN training and, if so, how to defend against the attack in the FL setting. In this work, we investigate the overlooked issue of backdoor attacks in federated GANs (FedGANs). The success of this attack is subsequently determined to be the result of some local discriminators overfitting the poisoned data and corrupting the local GAN equilibrium, which then further contaminates other clients when averaging the generator's parameters and yields high generator loss. Therefore, we proposed FedDetect, an efficient and effective way of defending against the backdoor attack in the FL setting, which allows the server to detect the client's adversarial behavior based on their losses and block the malicious clients. Our extensive experiments on two medical datasets with different modalities demonstrate the backdoor attack on FedGANs can result in synthetic images with low fidelity. After detecting and suppressing the detected malicious clients using the proposed defense strategy, we show that FedGANs can synthesize high-quality medical datasets (with labels) for data augmentation to improve classification models' performance.
翻訳日:2022-10-21 13:22:50 公開日:2022-10-19
# 複数の操作点における階層分類

Hierarchical classification at multiple operating points ( http://arxiv.org/abs/2210.10929v1 )

ライセンス: Link先を確認
Jack Valmadre(参考訳) 多くの分類問題は階層を形成するクラスを考える。 この階層を認識している分類器は、きめ細かいレベルでは不確実であるにもかかわらず、粗いレベルで確実な予測を行うことができる。 予測の粒度を推定時刻の閾値で変更することは一般的に可能であるが、現代のほとんどの作業ではリーフノード予測のみを検討しており、以前の作業では複数の操作点でのメソッドの比較は行われていない。 階層内の各クラスにスコアを割り当てる任意のメソッドに対して,演算特性曲線を生成する効率的なアルゴリズムを提案する。 既存の手法を評価するためにこの手法を適用すると、トップダウンの分類器は、操作範囲全体にわたって、単純でフラットなsoftmax分類器によって支配されていることが分かる。 さらに,2つの新しい損失関数を提案し,構造的ヒンジ損失の軟変種が平坦なベースラインを大幅に上回ることを示す。 最後に,トップダウン分類器の精度の低下について検討し,目に見えないクラスで比較的よく動作することを示す。 コードはhttps://github.com/jvlmdr/hierclsで入手できる。

Many classification problems consider classes that form a hierarchy. Classifiers that are aware of this hierarchy may be able to make confident predictions at a coarse level despite being uncertain at the fine-grained level. While it is generally possible to vary the granularity of predictions using a threshold at inference time, most contemporary work considers only leaf-node prediction, and almost no prior work has compared methods at multiple operating points. We present an efficient algorithm to produce operating characteristic curves for any method that assigns a score to every class in the hierarchy. Applying this technique to evaluate existing methods reveals that top-down classifiers are dominated by a naive flat softmax classifier across the entire operating range. We further propose two novel loss functions and show that a soft variant of the structured hinge loss is able to significantly outperform the flat baseline. Finally, we investigate the poor accuracy of top-down classifiers and demonstrate that they perform relatively well on unseen classes. Code is available online at https://github.com/jvlmdr/hiercls.
翻訳日:2022-10-21 13:20:27 公開日:2022-10-19
# 対話型オートノミーのための学習選好

Learning Preferences for Interactive Autonomy ( http://arxiv.org/abs/2210.10899v1 )

ライセンス: Link先を確認
Erdem B{\i}y{\i}k(参考訳) ロボットが日常の人間の環境に入るとき、彼らは自分のタスクとそれらのタスクをどのように実行するべきかを理解する必要がある。 これらを符号化するために、ロボットの目的を特定する報酬関数を用いる。 しかし、報酬関数の設計は複雑なタスクや環境にとって非常に難しい。 有望なアプローチは、人間から報酬関数を学ぶことである。 近年、いくつかのロボット学習がこのアプローチを採用し、人間の実演を活用して報酬関数を学習している。 逆強化学習(inverse reinforcement learning)として知られるこのアプローチは、人間がロボットにほぼ最適なデモを提供するという基本的な前提に基づいている。 ロボットに対する人間のデモンストレーションは、遠隔操作の困難、自由度の高いロボット、人間の認知的制限など、さまざまな理由により、しばしば最適ではない。 この論文は、他のより信頼性の高いデータモダリティを用いて、人間ユーザーから報酬機能を学ぶ試みである。 具体的には、人間ユーザがデモを行う代わりに、複数のロボットの軌跡を比較(またはそれに加えて)する、比較フィードバックを用いて報酬関数を学習する方法を検討する。 この目的のために、まず、対数比較、最善の選択、ランク付け、スケールされた比較など、様々な形態の比較フィードバックを提案し、ロボットがこれらの様々な形の人間フィードバックを使用して、パラメトリックまたは非パラメトリックな報酬関数を推定する方法を説明する。 次に,ユーザのフィードバックから得られる期待情報に対して最適化された比較フィードバックをロボットに求めるためのアクティブラーニング手法を提案する。 最後に, 運転シミュレーションからホームロボティクスまで, 標準強化学習ベンチマークから低体外骨格まで, 様々な分野において, 本手法の適用性を示す。

When robots enter everyday human environments, they need to understand their tasks and how they should perform those tasks. To encode these, reward functions, which specify the objective of a robot, are employed. However, designing reward functions can be extremely challenging for complex tasks and environments. A promising approach is to learn reward functions from humans. Recently, several robot learning works embrace this approach and leverage human demonstrations to learn the reward functions. Known as inverse reinforcement learning, this approach relies on a fundamental assumption: humans can provide near-optimal demonstrations to the robot. Unfortunately, this is rarely the case: human demonstrations to the robot are often suboptimal due to various reasons, e.g., difficulty of teleoperation, robot having high degrees of freedom, or humans' cognitive limitations. This thesis is an attempt towards learning reward functions from human users by using other, more reliable data modalities. Specifically, we study how reward functions can be learned using comparative feedback, in which the human user compares multiple robot trajectories instead of (or in addition to) providing demonstrations. To this end, we first propose various forms of comparative feedback, e.g., pairwise comparisons, best-of-many choices, rankings, scaled comparisons; and describe how a robot can use these various forms of human feedback to infer a reward function, which may be parametric or non-parametric. Next, we propose active learning techniques to enable the robot to ask for comparison feedback that optimizes for the expected information that will be gained from that user feedback. Finally, we demonstrate the applicability of our methods in a wide variety of domains, ranging from autonomous driving simulations to home robotics, from standard reinforcement learning benchmarks to lower-body exoskeletons.
翻訳日:2022-10-21 13:12:34 公開日:2022-10-19
# ヘッセン人の凸性証明書

Convexity Certificates from Hessians ( http://arxiv.org/abs/2210.10430v1 )

ライセンス: Link先を確認
Julien Klaus, Niklas Merk, Konstantin Wiedom, S\"oren Laue, Joachim Giesen(参考訳) 微分可能凸関数の Hessian は正半定値である。 したがって、与えられた函数のヘッシアンをチェックすることは凸性を証明する自然なアプローチである。 しかし、このアプローチの実装は単純ではなく、解析を可能にするヘッセンの表現が必要である。 本稿では,従来の機械学習をサポートするのに十分な関数のクラスに対して,このアプローチを実装した。 このクラスの関数については、最近ヘッセンの計算グラフの計算方法が示されている。 これらのグラフを正半定値でチェックする方法を示す。 我々はHessianアプローチの実装を、よく確立された規律付き凸プログラミング(DCP)アプローチと比較し、Hessianアプローチが微分可能な関数に対するDCPアプローチと同じくらい強力であることを証明する。 さらに,dcpアプローチの最先端実装として,微分可能関数の場合,ヘッセンアプローチの方がより強力であることを示す。 すなわち、より大きな微分可能関数のクラスの凸性を証明することができる。

The Hessian of a differentiable convex function is positive semidefinite. Therefore, checking the Hessian of a given function is a natural approach to certify convexity. However, implementing this approach is not straightforward since it requires a representation of the Hessian that allows its analysis. Here, we implement this approach for a class of functions that is rich enough to support classical machine learning. For this class of functions, it was recently shown how to compute computational graphs of their Hessians. We show how to check these graphs for positive semidefiniteness. We compare our implementation of the Hessian approach with the well-established disciplined convex programming (DCP) approach and prove that the Hessian approach is at least as powerful as the DCP approach for differentiable functions. Furthermore, we show for a state-of-the-art implementation of the DCP approach that, for differentiable functions, the Hessian approach is actually more powerful. That is, it can certify the convexity of a larger class of differentiable functions.
翻訳日:2022-10-20 16:08:05 公開日:2022-10-19
# 学習自由深層学習法による分光データデノイズ化

Spectroscopic data de-noising via training-set-free deep learning method ( http://arxiv.org/abs/2210.10494v1 )

ライセンス: Link先を確認
Dongchen Huang, Junde Liu, Tian Qian, and Yi-feng Yang(参考訳) 脱ノイズはスペクトルのポストプロセッシングにおいて重要な役割を果たす。 機械学習に基づく手法は、ノイズの多いデータから本質的な情報を抽出する上で優れた性能を示すが、実実験では通常アクセスできない高品質のトレーニングセットを必要とすることが多い。 そこで本研究では,角度分解光電子分光法(ARPES)のスペクトルを例として,固有スペクトル情報をトレーニングセットなしで抽出する方法を開発した。 この方法はスペクトル自体の自己相関情報を活用することで可能となる。 固有エネルギーバンドの特徴を保存し、さらなる分析と処理を容易にする。 さらに,本手法はトレーニングセットの特定の特性に制限されないため,高品質な多次元トレーニングデータを取得することが困難な他の分野やアプリケーションシナリオにも拡張できる可能性がある。

De-noising plays a crucial role in the post-processing of spectra. Machine learning-based methods show good performance in extracting intrinsic information from noisy data, but often require a high-quality training set that is typically inaccessible in real experimental measurements. Here, using spectra in angle-resolved photoemission spectroscopy (ARPES) as an example, we develop a de-noising method for extracting intrinsic spectral information without the need for a training set. This is possible as our method leverages the self-correlation information of the spectra themselves. It preserves the intrinsic energy band features and thus facilitates further analysis and processing. Moreover, since our method is not limited by specific properties of the training set compared to previous ones, it may well be extended to other fields and application scenarios where obtaining high-quality multidimensional training data is challenging.
翻訳日:2022-10-20 16:07:51 公開日:2022-10-19
# 局所スムースネス推定によるガウス過程に基づくグラウンドセグメンテーション

A Segment-Wise Gaussian Process-Based Ground Segmentation With Local Smoothness Estimation ( http://arxiv.org/abs/2210.10515v1 )

ライセンス: Link先を確認
Pouria Mehrabi, Hamid D. Taghirad(参考訳) 地上環境と地球外環境の両方において、地上と前方の表面の正確な情報モデルがナビゲーションと障害物回避に不可欠である。 地面は常に平らではなく、傾斜し、隆起し、特にオフロードの地上シーンで乱雑である。 地表面の構造は突然に変化し,さらに地表面の観測点雲は滑らかさを伴わないため,地表面の特徴と機能の関係は,地表面の異なる領域で異なる可能性がある。 したがって、地上の特徴は局所的推定や偶数点推定に基づいて得る必要がある。 この問題に対処するために,局所平滑度推定を用いたセグメント別gpベース地盤セグメンテーション法を提案する。 本手法は, 傾斜地形の地盤の正確な推定を行うために, 各線区における共分散カーネルに対して, 実測値が実測値として提供される手法の拡張である。 この拡張では、長さスケールの値は各データポイントに対して局所的に推定されるので、粗いシーンは計算的に複雑ではなく、アンダーセグメンテーション、スパーシリティ、アンダーレ表現可能性に対してより堅牢である。 各放射範囲セグメントに対する地盤の部分連続モデルを推定するためにセグメント分割作業を行う。 シミュレーションの結果,実世界に適用できる速さを保ちながら,粗大な地表面を連続的かつ高精度に推定する手法の有効性が示された。

Both in terrestrial and extraterrestrial environments, the precise and informative model of the ground and the surface ahead is crucial for navigation and obstacle avoidance. The ground surface is not always flat and it may be sloped, bumpy and rough specially in off-road terrestrial scenes. In bumpy and rough scenes the functional relationship of the surface-related features may vary in different areas of the ground, as the structure of the ground surface may vary suddenly and further the measured point cloud of the ground does not bear smoothness. Thus, the ground-related features must be obtained based on local estimates or even point estimates. To tackle this problem, the segment-wise GP-based ground segmentation method with local smoothness estimation is proposed. This method is an extension to our previous method in which a realistic measurement of the length-scale values were provided for the covariance kernel in each line-segment to give precise estimation of the ground for sloped terrains. In this extension, the value of the length-scale is estimated locally for each data point which makes it much more precise for the rough scenes while being not computationally complex and more robust to under-segmentation, sparsity and under-represent-ability. The segment-wise task is performed to estimate a partial continuous model of the ground for each radial range segment. Simulation results show the effectiveness of the proposed method to give a continuous and precise estimation of the ground surface in rough and bumpy scenes while being fast enough for real-world applications.
翻訳日:2022-10-20 16:07:38 公開日:2022-10-19
# 生体音響ラベル平滑化のための変分モデル不確かさの促進

Propagating Variational Model Uncertainty for Bioacoustic Call Label Smoothing ( http://arxiv.org/abs/2210.10526v1 )

ライセンス: Link先を確認
Georgios Rizos and Jenna Lawson and Simon Mitchell and Pranay Shah and Xin Wen and Cristina Banks-Leite and Robert Ewers and Bjoern W. Schuller(参考訳) ベイジアンニューラルネットワークが計算した予測不確実性信号を用いて,モデルが学習している自己同一タスクにおける学習のガイドを行う。 重みのコストのかかるモンテカルロサンプリングを選ばず、損失値計算にあまり寄与しないデータサンプルを識別するために、注意と押出ブロックを備えたresnetの変動ベイズ適応を通じて、エンドツーエンドで近似隠れ分散を伝播する。 そこで本研究では,不確実性を考慮したデータ固有ラベル平滑化を提案し,その平滑化確率はこの認識的不確実性に依存する。 損失計算における認識的不確かさを明示的に利用することで,変動モデルが予測と校正性能の向上に繋がることを示す。 この中核的な機械学習手法は、野生動物呼出検出において、動物の自然生息地における受動的音響監視装置による音声記録から例示され、将来の目標は、信頼できる方法で大規模アノテーションを自動化することである。

We focus on using the predictive uncertainty signal calculated by Bayesian neural networks to guide learning in the self-same task the model is being trained on. Not opting for costly Monte Carlo sampling of weights, we propagate the approximate hidden variance in an end-to-end manner, throughout a variational Bayesian adaptation of a ResNet with attention and squeeze-and-excitation blocks, in order to identify data samples that should contribute less into the loss value calculation. We, thus, propose uncertainty-aware, data-specific label smoothing, where the smoothing probability is dependent on this epistemic uncertainty. We show that, through the explicit usage of the epistemic uncertainty in the loss calculation, the variational model is led to improved predictive and calibration performance. This core machine learning methodology is exemplified at wildlife call detection, from audio recordings made via passive acoustic monitoring equipment in the animals' natural habitats, with the future goal of automating large scale annotation in a trustworthy manner.
翻訳日:2022-10-20 16:07:13 公開日:2022-10-19
# エントロピックワッサーシュタインarycentersの安定性とランダム幾何グラフへの応用

Stability of Entropic Wasserstein Barycenters and application to random geometric graphs ( http://arxiv.org/abs/2210.10535v1 )

ライセンス: Link先を確認
Marc Theveneau, Nicolas Keriven(参考訳) 近年、グラフデータへの関心が高まるにつれて、様々な幾何学的ツールの計算が重要になっている。 メッシュ処理のような領域では、しばしば離散化された多様体における測地線と最短経路の計算に依存する。 そのようなツールの最近の例は、ワッサーシュタイン・バリセンタ(英語版)(WB)の計算であり、これは最適輸送の理論に由来する非常に一般的なバリセンタの概念であり、そのエントロピック-正則化変種である。 本稿では,離散メッシュ上の wb が基底多様体の幾何学とどのように関係しているかを考察する。 まず, 入力コスト行列に関して, 一般的な安定性結果を与える。 この結果は、最短経路が測地線に収束する多様体上のランダムな幾何グラフに適用し、したがって離散化された形状で計算された WBs の整合性を証明する。

As interest in graph data has grown in recent years, the computation of various geometric tools has become essential. In some area such as mesh processing, they often rely on the computation of geodesics and shortest paths in discretized manifolds. A recent example of such a tool is the computation of Wasserstein barycenters (WB), a very general notion of barycenters derived from the theory of Optimal Transport, and their entropic-regularized variant. In this paper, we examine how WBs on discretized meshes relate to the geometry of the underlying manifold. We first provide a generic stability result with respect to the input cost matrices. We then apply this result to random geometric graphs on manifolds, whose shortest paths converge to geodesics, hence proving the consistency of WBs computed on discretized shapes.
翻訳日:2022-10-20 16:06:52 公開日:2022-10-19
# ラジアル基底関数ニューラルネットワークを用いたアンダーサンプリング干渉図の位相解離

The phase unwrapping of under-sampled interferograms using radial basis function neural networks ( http://arxiv.org/abs/2210.10541v1 )

ライセンス: Link先を確認
Pierre-Alexandre Gourdain, Aidan Bachmann(参考訳) 干渉計は、信号の位相変化と基準位相との差を記録することで、他の方法で測定できないシステムの形状や物質密度を測定することができる。 この差は常に$-\pi$と$\pi$の間にあるが、真の測度を得るためには絶対位相である。 このフェーズを$]-\pi,\pi]$で"ラップ"したフェーズから正確に回復するように設計されたメソッドの長い歴史があります。 しかし、ノイズとアンダーサンプリングは、ほとんどの技術の有効性を制限し、不完全な測定を処理できる高度なアルゴリズムを必要とする。 最終的に、パターン認識の干渉図をうまく分析することは、放射状基底関数ニューラルネットワークが本当に優れているタスクである。 提案するニューラルネットワークは、2次元干渉図から位相を解き放つように設計されている。 ニューラルネットワークは、勾配に基づく教師付き学習を使用して、並列および3段階のトレーニングを行うことができる。 並列処理は比較的大きなデータセットを扱うことができるが、異なるネットワーク間で完全にラップされていないフェーズを同期させるには追加のステップが必要である。

Interferometry can measure the shape or the material density of a system that could not be measured otherwise by recording the difference between the phase change of a signal and a reference phase. This difference is always between $-\pi$ and $\pi$ while it is the absolute phase that is required to get a true measurement. There is a long history of methods designed to recover accurately this phase from the phase "wrapped" inside $]-\pi,\pi]$. However, noise and under-sampling limit the effectiveness of most techniques and require highly sophisticated algorithms that can process imperfect measurements. Ultimately, analysing successfully an interferogram amounts to pattern recognition, a task where radial basis function neural networks truly excel at. The proposed neural network is designed to unwrap the phase from two-dimensional interferograms, where aliasing, stemming from under-resolved regions, and noise levels are significant. The neural network can be trained in parallel and in three stages, using gradient-based supervised learning. Parallelism allows to handle relatively large data sets, but requires a supplemental step to synchronized the fully unwrapped phase across the different networks.
翻訳日:2022-10-20 16:06:37 公開日:2022-10-19
# 物理インフォームドニューラルネットワークによる高精度データのロバスト回帰

Robust Regression with Highly Corrupted Data via Physics Informed Neural Networks ( http://arxiv.org/abs/2210.10646v1 )

ライセンス: Link先を確認
Wei Peng and Wen Yao and Weien Zhou and Xiaoya Zhang and Weijie Yao(参考訳) 物理インフォームドニューラルネットワーク(PINN)は、データ駆動型解と偏微分方程式のデータ駆動型発見という2つの主要な問題を解くために提案されている。 このタスクは、センサー機構の故障によりデータが高度に破損した場合に禁止される。 本研究では,PDEにおける解の再構成と未知のパラメータの復元を目的としたLast Absolute Deviation based PINN(LAD-PINN)を提案する。 隠れた物理を復元する精度をさらに高めるため, 2段階の中間絶対偏差に基づくPINN (MAD-PINN) を提案し, LAD-PINN を外乱検出器として使用し, 次いで高度に破損したデータをMADでスクリーニングした。 次に、バニラPINNまたはその変種を適用して、残りの正常データを利用する。 ポアソン方程式,波動方程式,定常あるいは非定常なナビエ-ストークス方程式など,いくつかの例を通じて,提案手法の一般化可能性,精度,効率について述べる。

Physics-informed neural networks (PINNs) have been proposed to solve two main classes of problems: data-driven solutions and data-driven discovery of partial differential equations. This task becomes prohibitive when such data is highly corrupted due to the possible sensor mechanism failing. We propose the Least Absolute Deviation based PINN (LAD-PINN) to reconstruct the solution and recover unknown parameters in PDEs - even if spurious data or outliers corrupt a large percentage of the observations. To further improve the accuracy of recovering hidden physics, the two-stage Median Absolute Deviation based PINN (MAD-PINN) is proposed, where LAD-PINN is employed as an outlier detector followed by MAD screening out the highly corrupted data. Then the vanilla PINN or its variants can be subsequently applied to exploit the remaining normal data. Through several examples, including Poisson's equation, wave equation, and steady or unsteady Navier-Stokes equations, we illustrate the generalizability, accuracy and efficiency of the proposed algorithms for recovering governing equations from noisy and highly corrupted measurement data.
翻訳日:2022-10-20 16:06:16 公開日:2022-10-19
# 到達可能性解析と多項式ゾノトープを用いたアクションプロジェクションによる確実に安全な強化学習

Provably Safe Reinforcement Learning via Action Projection using Reachability Analysis and Polynomial Zonotopes ( http://arxiv.org/abs/2210.10691v1 )

ライセンス: Link先を確認
Niklas Kochdumper, Hanna Krasowski, Xiao Wang, Stanley Bak, and Matthias Althoff(参考訳) 強化学習は多くのアプリケーションにとって非常に有望な結果をもたらすが、その主な欠点は安全性保証の欠如である。 本研究では、リーチ回避タスクを解く非線形連続系の安全シールドによりこの問題に対処する。 提案する動作を最も安全な動作に投影することにより、強化学習エージェントから潜在的に安全でないアクションを適用することを防止する。 このアプローチはアクションプロジェクションと呼ばれ、混合整数最適化によって実装される。 多項式ゾノトープを用いてパラメータ化された到達可能性解析を適用し、システムに対するアクションの非線形効果を正確に捉えることにより、アクションプロジェクションの安全性制約を得る。 アクションプロジェクションの他の技術手法とは対照的に,我々の安全シールドは入力制約や動的障害物を効率的に処理し,空間ロボット次元を安全制約に組み込むことが容易であり,プロセスノイズや測定誤差にも拘わらず堅牢な安全性が保証され,高次元システムにも適している。

While reinforcement learning produces very promising results for many applications, its main disadvantage is the lack of safety guarantees, which prevents its use in safety-critical systems. In this work, we address this issue by a safety shield for nonlinear continuous systems that solve reach-avoid tasks. Our safety shield prevents applying potentially unsafe actions from a reinforcement learning agent by projecting the proposed action to the closest safe action. This approach is called action projection and is implemented via mixed-integer optimization. The safety constraints for action projection are obtained by applying parameterized reachability analysis using polynomial zonotopes, which enables to accurately capture the nonlinear effects of the actions on the system. In contrast to other state of the art approaches for action projection, our safety shield can efficiently handle input constraints and dynamic obstacles, eases incorporation of the spatial robot dimensions into the safety constraints, guarantees robust safety despite process noise and measurement errors, and is well suited for high-dimensional systems, as we demonstrate on several challenging benchmark systems.
翻訳日:2022-10-20 16:05:51 公開日:2022-10-19
# 最適停止問題に対するディープニューラルネットワーク表現性

Deep neural network expressivity for optimal stopping problems ( http://arxiv.org/abs/2210.10443v1 )

ライセンス: Link先を確認
Lukas Gonon(参考訳) 本稿では,高次元状態空間における離散時間マルコフ過程の最適停止問題に対するディープニューラルネットワーク表現率について検討する。 最適な停止問題の値関数と継続値を、最大$\varepsilon$で誤差を、最大$\kappa d^{\mathfrak{q}} \varepsilon^{-\mathfrak{r}}$で最大$\kappa d^{\mathfrak{q}} でDeep ReLUニューラルネットワークで近似する一般的な枠組みを確立する。 定数 $\kappa,\mathfrak{q},\mathfrak{r} \geq 0$ は状態空間の次元 $d$ や近似精度 $\varepsilon$ に依存しない。 これは、ディープニューラルネットワークが最適な停止問題を解決するために使われる場合、次元の呪いに苦しむことはないことを証明している。 このフレームワークは、例えば指数的l\'evyモデル、離散拡散過程、実行中のminimaとmaximaをカバーする。 これらの結果は、最適な停止問題を数値的に解くためのディープニューラルネットワークの使用を数学的に正当化し、高次元におけるアメリカのオプションの価格設定を行う。

This article studies deep neural network expression rates for optimal stopping problems of discrete-time Markov processes on high-dimensional state spaces. A general framework is established in which the value function and continuation value of an optimal stopping problem can be approximated with error at most $\varepsilon$ by a deep ReLU neural network of size at most $\kappa d^{\mathfrak{q}} \varepsilon^{-\mathfrak{r}}$. The constants $\kappa,\mathfrak{q},\mathfrak{r} \geq 0$ do not depend on the dimension $d$ of the state space or the approximation accuracy $\varepsilon$. This proves that deep neural networks do not suffer from the curse of dimensionality when employed to solve optimal stopping problems. The framework covers, for example, exponential L\'evy models, discrete diffusion processes and their running minima and maxima. These results mathematically justify the use of deep neural networks for numerically solving optimal stopping problems and pricing American options in high dimensions.
翻訳日:2022-10-20 16:05:31 公開日:2022-10-19
# 物理法学学習の well-definedness: the Uniqueness problem

Well-definedness of Physical Law Learning: The Uniqueness Problem ( http://arxiv.org/abs/2210.08342v2 )

ライセンス: Link先を確認
Philipp Scholl, Aras Bacho, Holger Boche, Gitta Kutyniok(参考訳) 物理法学学習は、機械学習技術を用いて支配方程式の導出を自動化するための曖昧な試みである。 しかし、現在の文献は、この目標を達成するための方法の開発にのみ焦点をあてており、現在理論的な基礎が欠落している。 したがって,本論文は,物理法則を学習するための包括的理論的枠組みを構築するための第一歩として機能する。 1つの重要な問題は、支配方程式が与えられたデータによって一意に決定されないという事実である。 我々は、物理法則を常微分方程式または偏微分方程式で記述する一般的な状況でこの問題を研究する。 微分方程式の様々なクラスに対して、与えられた関数クラスからの関数に対する必要条件と十分条件の両方を提供し、その現象を支配する微分方程式を一意的に決定する。 この結果を用いて、関数が微分方程式を一意に解くかどうかを決定する数値アルゴリズムを考案する。 最後に,我々のアルゴリズムが物理法則を学習するための一般的な手法と組み合わせることで,関数に関する知識を前提にせず,一意的な支配微分方程式が学習されることを保証し,信頼性を確保することを示す広範な数値実験を行った。

Physical law learning is the ambiguous attempt at automating the derivation of governing equations with the use of machine learning techniques. The current literature focuses however solely on the development of methods to achieve this goal, and a theoretical foundation is at present missing. This paper shall thus serve as a first step to build a comprehensive theoretical framework for learning physical laws, aiming to provide reliability to according algorithms. One key problem consists in the fact that the governing equations might not be uniquely determined by the given data. We will study this problem in the common situation of having a physical law be described by an ordinary or partial differential equation. For various different classes of differential equations, we provide both necessary and sufficient conditions for a function from a given function class to uniquely determine the differential equation which is governing the phenomenon. We then use our results to devise numerical algorithms to determine whether a function solves a differential equation uniquely. Finally, we provide extensive numerical experiments showing that our algorithms in combination with common approaches for learning physical laws indeed allow to guarantee that a unique governing differential equation is learnt, without assuming any knowledge about the function, thereby ensuring reliability.
翻訳日:2022-10-20 15:59:53 公開日:2022-10-19
# 記憶パターンを反映する情報尺度

Measures of Information Reflect Memorization Patterns ( http://arxiv.org/abs/2210.09404v2 )

ライセンス: Link先を確認
Rachit Bansal, Danish Pruthi, Yonatan Belinkov(参考訳) ニューラルネットワークは、ターゲットラベルと共存するスプリアスアーティファクト(あるいはショートカット)を活用し、ヒューリスティックな記憶を示すことで知られている。 一方で、トレーニングサンプルを記憶するネットワークが示されており、サンプルレベルの記憶化が行われている。 このような記憶化は、トレーニング分布を超えたネットワークの一般化を妨げる。 このような記憶の検出は困難であり、しばしば研究者が調整されたテストセットをキュレートする必要がある。 この研究では、異なるニューロンの活性化パターンの多様性がモデル一般化と記憶の反映であると仮定し、その後に示す。 我々は、情報理論的な測定によって神経活性化の多様性を定量化し、いくつかの自然言語や視覚タスクにまたがる実験における仮説を支持する。 重要な点は,ラベルなしの分布例で計算された神経アクティベーションについても,情報組織が2つの記憶形態を指していることである。 最後に,本研究のモデル選択問題に対する有用性を示す。 この作業に関連するコードとその他のリソースはhttps://linktr.ee/InformationMeasures.orgで公開されている。

Neural networks are known to exploit spurious artifacts (or shortcuts) that co-occur with a target label, exhibiting heuristic memorization. On the other hand, networks have been shown to memorize training examples, resulting in example-level memorization. These kinds of memorization impede generalization of networks beyond their training distributions. Detecting such memorization could be challenging, often requiring researchers to curate tailored test sets. In this work, we hypothesize -- and subsequently show -- that the diversity in the activation patterns of different neurons is reflective of model generalization and memorization. We quantify the diversity in the neural activations through information-theoretic measures and find support for our hypothesis on experiments spanning several natural language and vision tasks. Importantly, we discover that information organization points to the two forms of memorization, even for neural activations computed on unlabeled in-distribution examples. Lastly, we demonstrate the utility of our findings for the problem of model selection. The associated code and other resources for this work are available at https://linktr.ee/InformationMeasures .
翻訳日:2022-10-20 15:59:31 公開日:2022-10-19
# ニューラルネットワークの新たな活性化とその近似

A new activation for neural networks and its approximation ( http://arxiv.org/abs/2210.10264v1 )

ライセンス: Link先を確認
Jianfei Li, Han Feng and Ding-Xuan Zhou(参考訳) 深層ニューラルネットワーク(dnn)を用いたディープラーニングは、近年、さまざまな科学や技術分野から注目を集めている。 DNNの活性化関数は入力または入力セットが与えられたニューロンの出力を定義する。 これらは非線形変換を学習し、連続するニューロン層間で様々な計算を行う上で必須かつ必然的である。 したがって、アクティベーション関数の設計は、ディープラーニング研究において依然として重要なトピックである。 一方,近年,活性化機能を有するdnnの近似能力に関する理論的研究が進められている。 本稿では「DLU」と呼ばれる新しいアクティベーション関数を提案し,その様々な滑らかさと構造を持つ関数に対する近似能力について検討する。 我々の理論的結果は、DLUネットワークが有理およびReLUネットワークで競合近似性能を処理できることを示し、いくつかの利点がある。 DLUと既存のアクティベーションであるReLU、Leaky ReLU、ELUを比較し、DLUの実用的な性能を示す数値実験を行った。

Deep learning with deep neural networks (DNNs) has attracted tremendous attention from various fields of science and technology recently. Activation functions for a DNN define the output of a neuron given an input or set of inputs. They are essential and inevitable in learning non-linear transformations and performing diverse computations among successive neuron layers. Thus, the design of activation functions is still an important topic in deep learning research. Meanwhile, theoretical studies on the approximation ability of DNNs with activation functions have been investigated within the last few years. In this paper, we propose a new activation function, named as "DLU", and investigate its approximation ability for functions with various smoothness and structures. Our theoretical results show that DLU networks can process competitive approximation performance with rational and ReLU networks, and have some advantages. Numerical experiments are conducted comparing DLU with the existing activations-ReLU, Leaky ReLU, and ELU, which illustrate the good practical performance of DLU.
翻訳日:2022-10-20 15:56:30 公開日:2022-10-19
# カナリア・イン・ア・カルミン : 対立的クエリを組み込んだより良いメンバーシップ推論

Canary in a Coalmine: Better Membership Inference with Ensembled Adversarial Queries ( http://arxiv.org/abs/2210.10750v1 )

ライセンス: Link先を確認
Yuxin Wen, Arpit Bansal, Hamid Kazemi, Eitan Borgnia, Micah Goldblum, Jonas Geiping, Tom Goldstein(参考訳) 産業アプリケーションは、機械学習モデルによってますます自動化されているため、個人データ所有と知的財産権の強制は、トレーニングデータを正当な所有者に遡る必要がある。 会員推論アルゴリズムは、統計的手法を用いて、対象サンプルがモデルのトレーニングセットに含まれるかどうかを識別する。 しかし、既存の手法では、変更されていないターゲットサンプルまたは単純なターゲットの加算のみを使用して統計を計算する。 このようなモデルの振る舞いをまばらにサンプリングすると、情報が少なくなり、推論能力が低下する。 本研究では,識別的かつ多様なクエリを直接最適化するために,逆ツールを用いる。 我々の改善は、既存の方法、特にオフラインシナリオや法的な設定において重要な低い偽陽性体制において、かなり正確な会員推測を実現する。 コードはhttps://github.com/yuxinwenrick/canary-in-a-coalmineで入手できる。

As industrial applications are increasingly automated by machine learning models, enforcing personal data ownership and intellectual property rights requires tracing training data back to their rightful owners. Membership inference algorithms approach this problem by using statistical techniques to discern whether a target sample was included in a model's training set. However, existing methods only utilize the unaltered target sample or simple augmentations of the target to compute statistics. Such a sparse sampling of the model's behavior carries little information, leading to poor inference capabilities. In this work, we use adversarial tools to directly optimize for queries that are discriminative and diverse. Our improvements achieve significantly more accurate membership inference than existing methods, especially in offline scenarios and in the low false-positive regime which is critical in legal settings. Code is available at https://github.com/YuxinWenRick/canary-in-a-coalmine.
翻訳日:2022-10-20 15:49:59 公開日:2022-10-19
# グラフニューラルネットワークによる混合整数線形プログラムの表現について

On Representing Mixed-Integer Linear Programs by Graph Neural Networks ( http://arxiv.org/abs/2210.10759v1 )

ライセンス: Link先を確認
Ziang Chen, Jialin Liu, Xinshang Wang, Jianfeng Lu, Wotao Yin(参考訳) Mixed-integer linear programming (MILP) は一般にNP-hardであるのに対し、実践的なMILPは過去20年間で約100倍のスピードアップを受けている。 それでも多くのミルプのクラスは、そのサイズが大きくなるとすぐに解決不能になり、研究者がミルプの新しい加速技術を探す動機となった。 深層学習では実験結果が強く,MILPソリューションプロセスの様々な段階における決定にグラフニューラルネットワーク(GNN)を適用することにより,多くの結果が得られた。 しかしながら、全てのGNNが同等に扱い、一般的なMILPを表現する能力が欠如していることを示す、実現不可能なMILPが存在する。 次に,ミルプを展開可能なものに制限したり,ランダムな特徴を加えたりすることで,ミルプ実現可能性,最適目的値,最適解を所定の精度で確実に予測できるgnnが存在することを示す。 理論的結果を検証するため, 小規模数値実験を行った。

While Mixed-integer linear programming (MILP) is NP-hard in general, practical MILP has received roughly 100--fold speedup in the past twenty years. Still, many classes of MILPs quickly become unsolvable as their sizes increase, motivating researchers to seek new acceleration techniques for MILPs. With deep learning, they have obtained strong empirical results, and many results were obtained by applying graph neural networks (GNNs) to making decisions in various stages of MILP solution processes. This work discovers a fundamental limitation: there exist feasible and infeasible MILPs that all GNNs will, however, treat equally, indicating GNN's lacking power to express general MILPs. Then, we show that, by restricting the MILPs to unfoldable ones or by adding random features, there exist GNNs that can reliably predict MILP feasibility, optimal objective values, and optimal solutions up to prescribed precision. We conducted small-scale numerical experiments to validate our theoretical findings.
翻訳日:2022-10-20 15:49:43 公開日:2022-10-19
# スパース点雲生成と自動物体検出を用いた時間・費用効率のBathymetric Mapping System

Time and Cost-Efficient Bathymetric Mapping System using Sparse Point Cloud Generation and Automatic Object Detection ( http://arxiv.org/abs/2210.10263v1 )

ライセンス: Link先を確認
Andres Pulido, Ruoyao Qin, Antonio Diaz, Andrew Ortega, Peter Ifju, Jaejeong Shin(参考訳) うるさいソナー測定から3次元点雲(PC)データを生成することは、潜水観測、人工物体検査、水生植物や動物相のマッピング、水中航法、潜水艦等の車両の局所化に潜在的に応用できる問題である。 横スキャンのソナーセンサーは安価なコスト範囲で、特に魚のファインダーでは、トランスデューサは通常ボートの底に取り付けられ、無人の水中車両(uuv)に搭載されているものよりも浅い深さに近づくことができる。 しかし, 横スキャンソナー画像からの3次元情報抽出は, 信号対雑音比が低く, 画像中の角度や深度情報がないため困難である。 横スキャンソナー画像から3dポイントクラウドを生成するほとんどのアルゴリズムはシェーディング(sfs)技術から形状を用いるため、海底が滑らかで、深さが緩やかに変化している場合、あるいは音響シャドーを作る識別可能な物体を持たない場合、特に3d情報の抽出は困難である。 本稿では,サイドスキャンソナー画像からスパース3D点雲を生成するアルゴリズムを提案する。 この計算は、第1ソナーリターンの幾何とGPSによる既知の位置と、各データポイントにおけるダウンスキャンソナー深度測定とを組み合わせて、計算的に効率的に行われる。 さらに,トランスファー学習を用いた畳み込みニューラルネットワーク(cnn)を用いて,実生活で収集し,シミュレーションにより生成した横スキャンソナー画像の物体検出を行うアルゴリズムを実装した。 このアルゴリズムは実画像と合成画像の両方でテストされ、合理的に正確な異常検出と分類を示した。

Generating 3D point cloud (PC) data from noisy sonar measurements is a problem that has potential applications for bathymetry mapping, artificial object inspection, mapping of aquatic plants and fauna as well as underwater navigation and localization of vehicles such as submarines. Side-scan sonar sensors are available in inexpensive cost ranges, especially in fish-finders, where the transducers are usually mounted to the bottom of a boat and can approach shallower depths than the ones attached to an Uncrewed Underwater Vehicle (UUV) can. However, extracting 3D information from side-scan sonar imagery is a difficult task because of its low signal-to-noise ratio and missing angle and depth information in the imagery. Since most algorithms that generate a 3D point cloud from side-scan sonar imagery use Shape from Shading (SFS) techniques, extracting 3D information is especially difficult when the seafloor is smooth, is slowly changing in depth, or does not have identifiable objects that make acoustic shadows. This paper introduces an efficient algorithm that generates a sparse 3D point cloud from side-scan sonar images. This computation is done in a computationally efficient manner by leveraging the geometry of the first sonar return combined with known positions provided by GPS and down-scan sonar depth measurement at each data point. Additionally, this paper implements another algorithm that uses a Convolutional Neural Network (CNN) using transfer learning to perform object detection on side-scan sonar images collected in real life and generated with a simulation. The algorithm was tested on both real and synthetic images to show reasonably accurate anomaly detection and classification.
翻訳日:2022-10-20 15:48:49 公開日:2022-10-19
# ターゲット自動認識のための各種海底条件を用いた合成ソナー画像シミュレーション

Synthetic Sonar Image Simulation with Various Seabed Conditions for Automatic Target Recognition ( http://arxiv.org/abs/2210.10267v1 )

ライセンス: Link先を確認
Jaejeong Shin, Shi Chang, Matthew Bays, Joshua Weaver, Tom Wettergren, Silvia Ferrari(参考訳) 非現実的なエンジンを用いて横スキャンソナーで生成した音に音響的に準拠した水中物体画像を生成する新しい手法を提案する。 本稿では、自動目標認識(ATR)と機械学習アルゴリズムの訓練に使用する代表画像の開発、チューニング、生成のプロセスについて述べる。 本手法は,ATRトレーニングデータセットのサイズを最大化するために,UEにおけるC++アクターとの高速レンダリングを実現するとともに,後方散乱ノイズや音響影などの音響効果の視覚的近似を提供する。 さらに,実際のソナー画像や物理ベースのソナーデータの代替として,その有用性の分析を行う。

We propose a novel method to generate underwater object imagery that is acoustically compliant with that generated by side-scan sonar using the Unreal Engine. We describe the process to develop, tune, and generate imagery to provide representative images for use in training automated target recognition (ATR) and machine learning algorithms. The methods provide visual approximations for acoustic effects such as back-scatter noise and acoustic shadow, while allowing fast rendering with C++ actor in UE for maximizing the size of potential ATR training datasets. Additionally, we provide analysis of its utility as a replacement for actual sonar imagery or physics-based sonar data.
翻訳日:2022-10-20 15:48:17 公開日:2022-10-19
# 単一光子LIDARのためのビデオ超解像

Video super-resolution for single-photon LIDAR ( http://arxiv.org/abs/2210.10474v1 )

ライセンス: Link先を確認
Germ\'an Mora Mart\'in, Stirling Scholes, Alice Ruget, Robert K. Henderson, Jonathan Leach, Istvan Gyongy(参考訳) 3d time-of(tof)イメージセンサーは、自動運転車、拡張現実(ar)、ロボティクスなどのアプリケーションで広く使われている。 単光雪崩ダイオード(SPAD)で実装すると、機械的スキャンを必要とせずに、長距離にわたって正確な深度マップを提供するコンパクトな配列型センサーが作成できる。 しかし、配列のサイズは小さく、低い横分解能となり、高い環境照明下では低信号対雑音比(snr)のレベルと相まって、シーン解釈が困難になる可能性がある。 本稿では,合成深度シーケンスを用いて3次元畳み込みニューラルネットワーク(CNN)を学習し,x4深度データを復調・アップスケーリングする。 提案手法の有効性を実証するために, 合成および実ToFデータに基づく実験結果を用いた。 gpuアクセラレーションでは、フレームは毎秒30フレーム以上で処理され、障害物回避に必要な低遅延イメージングに適している。

3D Time-of-Flight (ToF) image sensors are used widely in applications such as self-driving cars, Augmented Reality (AR) and robotics. When implemented with Single-Photon Avalanche Diodes (SPADs), compact, array format sensors can be made that offer accurate depth maps over long distances, without the need for mechanical scanning. However, array sizes tend to be small, leading to low lateral resolution, which combined with low Signal-to-Noise Ratio (SNR) levels under high ambient illumination, may lead to difficulties in scene interpretation. In this paper, we use synthetic depth sequences to train a 3D Convolutional Neural Network (CNN) for denoising and upscaling (x4) depth data. Experimental results, based on synthetic as well as real ToF data, are used to demonstrate the effectiveness of the scheme. With GPU acceleration, frames are processed at >30 frames per second, making the approach suitable for low-latency imaging, as required for obstacle avoidance.
翻訳日:2022-10-20 15:48:06 公開日:2022-10-19
# 空間変化カーネルのデブロリングに応用した可算収束プラグ&プレイ線形化ADMM

Provably Convergent Plug & Play Linearized ADMM, applied to Deblurring Spatially Varying Kernels ( http://arxiv.org/abs/2210.10605v1 )

ライセンス: Link先を確認
Charles Laroche and Andr\'es Almansa and Eva Coupet\'e and Matias Tassano(参考訳) プラグ・アンド・プレイ法は、逆問題を解くために近位アルゴリズムとdenoiser priorsを組み合わせる。 これらの手法はデータ忠実度項の近似演算子の計算可能性に依存する。 本稿では,線形化ADMMに基づくPlug & Playフレームワークを提案する。 アルゴリズムの収束を実証し、非一様ぼかしによる超解像やデブロアリングのような復元タスクの結果を提供する。

Plug & Play methods combine proximal algorithms with denoiser priors to solve inverse problems. These methods rely on the computability of the proximal operator of the data fidelity term. In this paper, we propose a Plug & Play framework based on linearized ADMM that allows us to bypass the computation of intractable proximal operators. We demonstrate the convergence of the algorithm and provide results on restoration tasks such as super-resolution and deblurring with non-uniform blur.
翻訳日:2022-10-20 15:47:49 公開日:2022-10-19
# AgNOR染色細胞診サンプル解釈のための深層学習手法の比較解析

Comparative analysis of deep learning approaches for AgNOR-stained cytology samples interpretation ( http://arxiv.org/abs/2210.10641v1 )

ライセンス: Link先を確認
Jo\~ao Gustavo Atkinson Amorim, Andr\'e Vict\'oria Matias, Allan Cerentini, Luiz Antonio Buschetto Macarini, Alexandre Sherlley Onofre, Fabiana Botelho Onofre, Aldo von Wangenheim(参考訳) 頸部がんは公衆衛生上の問題であり、早期に発見すれば治療が成功する可能性が高い。 解析は人為的エラーの対象となる手作業であり,本論文は深層学習手法を用いてargyrophilic nucleolar organizer regions (agnor) 染色スライドの解析方法を提供する。 また,本論文では,例えばモデルと意味検出手法を比較した。 resnet-18およびresnet-34をバックボーンとするu-netを用いた意味セグメンテーションは類似した結果を示し,最良モデルは0.83, 0.92, 0.99のiouを示す。 例えば、ResNet-50を使用したMask R-CNNは視覚検査において優れており、IoUの0.61である。 本研究は, インスタンスセグメンテーションとセマンティックセグメンテーションモデルを組み合わせて, カスケードモデルで核を選択し, その後核とその各ヌクレオラオーガナイザ領域(NOR)をセグメンテーションすることができると結論付けた。

Cervical cancer is a public health problem, where the treatment has a better chance of success if detected early. The analysis is a manual process which is subject to a human error, so this paper provides a way to analyze argyrophilic nucleolar organizer regions (AgNOR) stained slide using deep learning approaches. Also, this paper compares models for instance and semantic detection approaches. Our results show that the semantic segmentation using U-Net with ResNet-18 or ResNet-34 as the backbone have similar results, and the best model shows an IoU for nucleus, cluster, and satellites of 0.83, 0.92, and 0.99 respectively. For instance segmentation, the Mask R-CNN using ResNet-50 performs better in the visual inspection and has a 0.61 of the IoU metric. We conclude that the instance segmentation and semantic segmentation models can be used in combination to make a cascade model able to select a nucleus and subsequently segment the nucleus and its respective nucleolar organizer regions (NORs).
翻訳日:2022-10-20 15:47:40 公開日:2022-10-19
# 多目的推薦システム:調査と課題

Multi-Objective Recommender Systems: Survey and Challenges ( http://arxiv.org/abs/2210.10309v1 )

ライセンス: Link先を確認
Dietmar Jannach(参考訳) リコメンダシステムは、ユーザが関連コンテンツに便利なアクセスを提供するソフトウェアソリューションとして特徴づけられる。 従来、レコメンダシステムの研究は主に、個々のユーザに関連するコンテンツを予測する機械学習アルゴリズムの開発に焦点を当てていた。 しかし、現実の応用では、多くの場合、そのような関連予測の精度を単一の目的として最適化することは不十分である。 代わりに、複数の目的としばしば競合する目的を考慮する必要があり、多目的レコメンデーションシステムでより多くの研究が必要となる。 このような競合する目標を,いくつかのタイプで区別することができます。 (i)個別及び総合レベルでの推奨品質目標を競うこと。 (ii)異なる利害関係者の競合目標 (iii)短期的目的と長期的目的 (四)ユーザインタフェースレベルでの目的、及び (v)システムレベルの目標。 本稿では,多目的レコメンデーションの設定について検討し,この分野の課題を概説する。

Recommender systems can be characterized as software solutions that provide users convenient access to relevant content. Traditionally, recommender systems research predominantly focuses on developing machine learning algorithms that aim to predict which content is relevant for individual users. In real-world applications, however, optimizing the accuracy of such relevance predictions as a single objective in many cases is not sufficient. Instead, multiple and often competing objectives have to be considered, leading to a need for more research in multi-objective recommender systems. We can differentiate between several types of such competing goals, including (i) competing recommendation quality objectives at the individual and aggregate level, (ii) competing objectives of different involved stakeholders, (iii) long-term vs. short-term objectives, (iv) objectives at the user interface level, and (v) system level objectives. In this paper we review these types of multi-objective recommendation settings and outline open challenges in this area.
翻訳日:2022-10-20 15:41:46 公開日:2022-10-19
# ロバスト勧告のためのクイックグラフ変換

Quick Graph Conversion for Robust Recommendation ( http://arxiv.org/abs/2210.10321v1 )

ライセンス: Link先を確認
Zongwei Wang, Min Gao, Wentao Li(参考訳) インシシットフィードバックはレコメンデータシステムにおいて大きな役割を果たすが、高雑音特性はその効果を著しく減少させる。 暗黙のフィードバックを軽視するため、グラフデータ拡張(GDA)手法にいくつかの取り組みが費やされている。 GDAの2レベル最適化は、理論上より優れた推奨性能を保証しているが、高コストな時間コストと宇宙爆発の問題につながる。 具体的には、二段階最適化は、レコメンデーションモデルのそれぞれの最適化の後、すべての正および負のインスタンスの繰り返しトラバースを含む。 本稿では,レコメンデーションモデルの学習過程において,元のインタラクショングラフを(正のインスタンスに対して)パーソナライズされた(負のインスタンスに対して)関心グラフに効果的に変換する,新たな分別パラダイム,すなわちクイックグラフ変換(qgrace)を提案する。 QGraceでは、複雑な生成モデルに基づく勾配マッチング方式を利用して、関心グラフの変換と生成を実現し、高時間・空間コストの問題をエレガントに克服する。 暗黙的なフィードバックデータを持たない関心グラフ上でレコメンデーションモデルを実行可能にするために,アライメントと均一性の観点から,詳細な客観的関数を提供する。 3つのベンチマークデータセットの実験結果から、QGraceは最先端のGDA手法や推奨モデルよりも有効性と堅牢性が高いことが示された。

Implicit feedback plays a huge role in recommender systems, but its high noise characteristic seriously reduces its effect. To denoise implicit feedback, some efforts have been devoted to graph data augmentation (GDA) methods. Although the bi-level optimization thought of GDA guarantees better recommendation performance theoretically, it also leads to expensive time costs and severe space explosion problems. Specifically, bi-level optimization involves repeated traversal of all positive and negative instances after each optimization of the recommendation model. In this paper, we propose a new denoising paradigm, i.e., Quick Graph Conversion (QGrace), to effectively transform the original interaction graph into a purified (for positive instances) and densified (for negative instances) interest graph during the recommendation model training process. In QGrace, we leverage the gradient matching scheme based on elaborated generative models to fulfill the conversion and generation of an interest graph, elegantly overcoming the high time and space cost problems. To enable recommendation models to run on interest graphs that lack implicit feedback data, we provide a fine-grained objective function from the perspective of alignment and uniformity. The experimental results on three benchmark datasets demonstrate that the QGrace outperforms the state-of-the-art GDA methods and recommendation models in effectiveness and robustness.
翻訳日:2022-10-20 15:41:33 公開日:2022-10-19
# 持続可能エネルギー未来のための機械学習

Machine Learning for a Sustainable Energy Future ( http://arxiv.org/abs/2210.10391v1 )

ライセンス: Link先を確認
Zhenpeng Yao, Yanwei Lum, Andrew Johnston, Luis Martin Mejia-Mendoza, Xin Zhou, Yonggang Wen, Alan Aspuru-Guzik, Edward H. Sargent, Zhi Wei Seh(参考訳) 化石燃料から再生可能エネルギー源へ移行することは、重要な世界的な課題であり、再生可能エネルギーの効率的な収穫、貯蔵、変換、管理のための材料、装置、システムの水準の進歩を要求する。 研究者たちは、これらの進歩を加速するために、世界中で機械学習(ML)技術の導入を開始している。 ML技術はデータの統計的傾向を利用して、材料特性の予測、候補構造の生成、プロセスの最適化などの用途のためのモデルを構築する。 本稿では、ml駆動エネルギー研究の最近の進歩を概観し、現状と今後の課題を概説し、ベストレバーml技術に進むために必要なことを説明する。 まず、重要なML概念の概要を紹介する。 次に、エネルギー研究のために異なるML加速ワークフローの利点を比較するのに役立つ重要なパフォーマンス指標を紹介します。 エネルギー収穫(太陽光発電)、蓄電池(電池)、変換(電気触媒)、管理(スマートグリッド)の開発にMLを適用した最近の進歩について議論し、評価する。 最後に、我々は、MLの適用によるさらなる利益を期待するエネルギー分野の潜在的研究分野の展望を提供する。

Transitioning from fossil fuels to renewable energy sources is a critical global challenge; it demands advances at the levels of materials, devices, and systems for the efficient harvesting, storage, conversion, and management of renewable energy. Researchers globally have begun incorporating machine learning (ML) techniques with the aim of accelerating these advances. ML technologies leverage statistical trends in data to build models for prediction of material properties, generation of candidate structures, optimization of processes, among other uses; as a result, they can be incorporated into discovery and development pipelines to accelerate progress. Here we review recent advances in ML-driven energy research, outline current and future challenges, and describe what is required moving forward to best lever ML techniques. To start, we give an overview of key ML concepts. We then introduce a set of key performance indicators to help compare the benefits of different ML-accelerated workflows for energy research. We discuss and evaluate the latest advances in applying ML to the development of energy harvesting (photovoltaics), storage (batteries), conversion (electrocatalysis), and management (smart grids). Finally, we offer an outlook of potential research areas in the energy field that stand to further benefit from the application of ML.
翻訳日:2022-10-20 15:41:07 公開日:2022-10-19
# 予測に基づく意思決定におけるグループフェアネス:モラルアセスメントから実装まで

Group Fairness in Prediction-Based Decision Making: From Moral Assessment to Implementation ( http://arxiv.org/abs/2210.10456v1 )

ライセンス: Link先を確認
Joachim Baumann, Christoph Heitz(参考訳) 予測に基づく意思決定の公平性の保証は、統計的グループフェアネス基準に基づく。 これらの基準のうちどれが道徳的に最も適切かは文脈に依存し、その選択には倫理的分析が必要である。 本稿では,3つの要素を統合したステップバイステップの手順を提案する。 (a)最近提案された「偶然の公正平等」(fec)の一般原則に基づく、与えられた文脈における公平が何を意味しているかの道徳的評価の枠組み b) 評価の結果を確立された統計グループ公正基準にマッピングし、 (c)この定義のフェアネスを最適な意思決定に統合する方法。 第2のコントリビューションとして、FEC原則の新たな適用方法を示し、この拡張により、FECフレームワークは、独立性、分離性、充足性など、あらゆる種類のグループフェアネス基準をカバーしていることを示す。 第3に,フェアネス評価の道徳的に無関係な要素の計算と,フェアネス基準の既知の緩和との関連性を考慮した,fec原則の拡張版を提案する。 本稿では、公正な意思決定のモラルと計算要素を統合的アプローチで組み合わせ、概念的に健全な方法で公正な意思決定システムを開発するための枠組みを提案する。 結果を再現するデータとコードはhttps://github.com/joebaumann/fair-prediction-based-decision-making.comで公開されている。

Ensuring fairness of prediction-based decision making is based on statistical group fairness criteria. Which one of these criteria is the morally most appropriate one depends on the context, and its choice requires an ethical analysis. In this paper, we present a step-by-step procedure integrating three elements: (a) a framework for the moral assessment of what fairness means in a given context, based on the recently proposed general principle of "Fair equality of chances" (FEC) (b) a mapping of the assessment's results to established statistical group fairness criteria, and (c) a method for integrating the thus-defined fairness into optimal decision making. As a second contribution, we show new applications of the FEC principle and show that, with this extension, the FEC framework covers all types of group fairness criteria: independence, separation, and sufficiency. Third, we introduce an extended version of the FEC principle, which additionally allows accounting for morally irrelevant elements of the fairness assessment and links to well-known relaxations of the fairness criteria. This paper presents a framework to develop fair decision systems in a conceptually sound way, combining the moral and the computational elements of fair prediction-based decision-making in an integrated approach. Data and code to reproduce our results are available at https://github.com/joebaumann/fair-prediction-based-decision-making.
翻訳日:2022-10-20 15:40:46 公開日:2022-10-19
# 低複雑性ニューラルネットワークと物理・化学ディスクリプタによる酸化物ガラス特性の予測

Predicting Oxide Glass Properties with Low Complexity Neural Network and Physical and Chemical Descriptors ( http://arxiv.org/abs/2210.10507v1 )

ライセンス: Link先を確認
Suresh Bishnoi, Skyler Badge, Jayadeva and N. M. Anoop Krishnan(参考訳) 構造が乱れていたため、眼鏡は合成-プロパティ関係を予測するのに独特な挑戦となる。 近年,機械学習技術を用いてガラス特性を予測する試みがいくつか行われている。 しかしこれらの技術には 限界があります (i)予測は、元のデータセットに存在するコンポーネントに限定されており、 (ii)新材料発見の重要な領域である特性の極端値に対する予測は、この領域におけるデータポイントが乏しいため、あまり信頼できない。 これらの課題に対処するため,酸化ガラスの特性予測性能を向上させる低複雑性ニューラルネットワーク(LCNN)を提案する。 さらに、LCNNと物理および化学的記述子を組み合わせることで、トレーニングセットを超えたコンポーネントの予測を提供するユニバーサルモデルの開発を可能にします。 ガラス部品の大規模なデータセット(約50000)をトレーニングすることにより、LCNNはXGBoostのような最先端のアルゴリズムより優れていることを示す。 さらに, LCNNモデルについて, 形状付加的な説明を用いて解釈し, プロパティ管理において記述者が果たす役割について考察する。 最後に、LCNNモデルの普遍性を、オリジナルトレーニングセットに存在しない新しいコンポーネントを持つ眼鏡の特性を予測することによって示す。 また, 本手法は, 新規なガラス組成の発見を加速するための有望な方向を提供する。

Due to their disordered structure, glasses present a unique challenge in predicting the composition-property relationships. Recently, several attempts have been made to predict the glass properties using machine learning techniques. However, these techniques have the limitations, namely, (i) predictions are limited to the components that are present in the original dataset, and (ii) predictions towards the extreme values of the properties, important regions for new materials discovery, are not very reliable due to the sparse datapoints in this region. To address these challenges, here we present a low complexity neural network (LCNN) that provides improved performance in predicting the properties of oxide glasses. In addition, we combine the LCNN with physical and chemical descriptors that allow the development of universal models that can provide predictions for components beyond the training set. By training on a large dataset (~50000) of glass components, we show the LCNN outperforms state-of-the-art algorithms such as XGBoost. In addition, we interpret the LCNN models using Shapely additive explanations to gain insights into the role played by the descriptors in governing the property. Finally, we demonstrate the universality of the LCNN models by predicting the properties for glasses with new components that were not present in the original training set. Altogether, the present approach provides a promising direction towards accelerated discovery of novel glass compositions.
翻訳日:2022-10-20 15:40:22 公開日:2022-10-19
# 階層型多目的協調ネットワークによる粗粒ランク付け

Hierarchical Multi-Interest Co-Network For Coarse-Grained Ranking ( http://arxiv.org/abs/2210.10547v1 )

ライセンス: Link先を確認
Xu Yuan, Chen Xu, Qiwei Chen, Tao Zhuang, Hongjie Chen, Chao Li, Junfeng Ge(参考訳) 情報爆発の時代には、ユーザが興味を持つ情報を得るのにパーソナライズされたレコメンデーションシステムが便利である。 数十億のユーザとアイテムを扱うために、大規模なオンラインレコメンデーションサービスは、通常、候補生成、粗粒度ランキング、細粒度ランキングの3段階で構成される。 それぞれのステージの成功は、モデルがユーザーの行動データに通常隠れているユーザの興味を正確に捉えているかどうかに依存する。 これまでの研究では、ユーザーの興味は多様であり、1つのベクトルはユーザーの好みを捉えるのに十分ではないことが示されている。 したがって、多くの方法はユーザーの興味をエンコードするために複数のベクターを使用する。 しかし、2つの未解決問題が存在する: 1) 既存手法における異なるベクトルの類似性は、冗長な情報が多すぎるため高すぎる。 そのため、ユーザーの興味が完全に表現されない。 2) 既存手法は, 両者の違いを無視して, 長期的, 短期的行動のモデル化を行う。 本稿では,階層型多目的協調ネットワーク (hcn) を提案する。 具体的には,ユーザの多様な関心センターを反復的に更新する階層的多目的抽出層を設計する。 この方法で得られた複数の埋め込みベクトルは、より多くの情報を含み、様々な面でユーザの興味を表現している。 さらに,ユーザの長期的・短期的利益を統合するための協調的ネットワークを構築する。 いくつかの実世界のデータセットと1つの大規模産業データセットの実験は、hcnが最先端の手法を効果的に上回っていることを示している。 我々はhcnを大規模実世界のeコマースシステムに展開し,gmv (gross goods value) にさらに2.5\%改善した。

In this era of information explosion, a personalized recommendation system is convenient for users to get information they are interested in. To deal with billions of users and items, large-scale online recommendation services usually consist of three stages: candidate generation, coarse-grained ranking, and fine-grained ranking. The success of each stage depends on whether the model accurately captures the interests of users, which are usually hidden in users' behavior data. Previous research shows that users' interests are diverse, and one vector is not sufficient to capture users' different preferences. Therefore, many methods use multiple vectors to encode users' interests. However, there are two unsolved problems: (1) The similarity of different vectors in existing methods is too high, with too much redundant information. Consequently, the interests of users are not fully represented. (2) Existing methods model the long-term and short-term behaviors together, ignoring the differences between them. This paper proposes a Hierarchical Multi-Interest Co-Network (HCN) to capture users' diverse interests in the coarse-grained ranking stage. Specifically, we design a hierarchical multi-interest extraction layer to update users' diverse interest centers iteratively. The multiple embedded vectors obtained in this way contain more information and represent the interests of users better in various aspects. Furthermore, we develop a Co-Interest Network to integrate users' long-term and short-term interests. Experiments on several real-world datasets and one large-scale industrial dataset show that HCN effectively outperforms the state-of-the-art methods. We deploy HCN into a large-scale real world E-commerce system and achieve extra 2.5\% improvements on GMV (Gross Merchandise Value).
翻訳日:2022-10-20 15:40:02 公開日:2022-10-19
# マージン最適分類木

Margin Optimal Classification Trees ( http://arxiv.org/abs/2210.10567v1 )

ライセンス: Link先を確認
Federico D'Onofrio, Giorgio Grani, Marta Monaci and Laura Palagi(参考訳) 近年,解釈可能な機械学習モデルに注目が集まっている。 その解釈可能性により、決定木は分類タスクのために集中的に研究され、混合整数プログラミング(MIP)の顕著な進歩により、最適分類木(OCT)をMIPモデルとして訓練する問題を定式化するための様々なアプローチが提案されている。 そこで本研究では,2次分類のためのサポートベクトルマシンの一般化機能を活用した,oct問題の混合整数二次形式を提案する。 我々のモデルはマージン最適分類木(MARGOT)と呼ばれ、二分木構造にネストされた最大縁多変量超平面の使用を含んでいる。 提案手法の解釈可能性を高めるため,超平面の局所的疎結合を誘導する特徴選択制約を含む2種類のMARGOTを解析した。 まず、MARGOTは最大マージンアプローチのグラフィカル表現を提供するために、2次元特徴空間における非線形分離可能な合成データセットでテストされている。 最後に、提案されたモデルはuciリポジトリのベンチマークデータセットでテストされている。 MARGOT の定式化は他の OCT の手法よりも容易に解けることが判明し、生成した木は新たな観測によりより一般化される。 2つの解釈可能なバージョンは、最も関連する機能を選択し、優れた予測品質を維持するのに効果的です。

In recent years there has been growing attention to interpretable machine learning models which can give explanatory insights on their behavior. Thanks to their interpretability, decision trees have been intensively studied for classification tasks, and due to the remarkable advances in mixed-integer programming (MIP), various approaches have been proposed to formulate the problem of training an Optimal Classification Tree (OCT) as a MIP model. We present a novel mixed-integer quadratic formulation for the OCT problem, which exploits the generalization capabilities of Support Vector Machines for binary classification. Our model, denoted as Margin Optimal Classification Tree (MARGOT), encompasses the use of maximum margin multivariate hyperplanes nested in a binary tree structure. To enhance the interpretability of our approach, we analyse two alternative versions of MARGOT, which include feature selection constraints inducing local sparsity of the hyperplanes. First, MARGOT has been tested on non-linearly separable synthetic datasets in 2-dimensional feature space to provide a graphical representation of the maximum margin approach. Finally, the proposed models have been tested on benchmark datasets from the UCI repository. The MARGOT formulation turns out to be easier to solve than other OCT approaches, and the generated tree better generalizes on new observations. The two interpretable versions are effective in selecting the most relevant features and maintaining good prediction quality.
翻訳日:2022-10-20 15:39:33 公開日:2022-10-19
# Fant\^omas:一般ディープラーニングアタッカーを用いた顔匿名化の可逆性の評価

Fant\^omas: Evaluating Reversibility of Face Anonymizations Using a General Deep Learning Attacker ( http://arxiv.org/abs/2210.10651v1 )

ライセンス: Link先を確認
Julian Todt, Simon Hanisch, Thorsten Strufe(参考訳) バイオメトリックデータは、個人を識別し、それらの個人情報を推測するために使用できる豊富な情報ソースである。 このプライバシーリスクを軽減するため、匿名化技術では、機密情報を隠蔽するためにクリアデータへの変換を採用しています。 印象的な主張で出版されているが、説得力のある方法論で評価されないこともある。 そこで, 難読化顔画像の匿名化技術がどの程度有効かに興味が持たれている。 より具体的には、それらが自動的に逆戻りできるかをテストして、提供可能なプライバシを見積もっています。 我々のアプローチは匿名化手法とは無関係であり、明快で対応する匿名化データに基づいて機械学習モデルを学ぶ。 14点中10点の顔の匿名化技術は少なくとも部分的には可逆的であり、そのうち6点は非常に可逆的である。

Biometric data is a rich source of information that can be used to identify individuals and infer private information about them. To mitigate this privacy risk, anonymization techniques employ transformations on clear data to obfuscate sensitive information, all while retaining some utility of the data. Albeit published with impressive claims, they sometimes are not evaluated with convincing methodology. We hence are interested to which extent recently suggested anonymization techniques for obfuscating facial images are effective. More specifically, we test how easily they can be automatically reverted, to estimate the privacy they can provide. Our approach is agnostic to the anonymization technique as we learn a machine learning model on the clear and corresponding anonymized data. We find that 10 out of 14 tested face anonymization techniques are at least partially reversible, and six of them are at least highly reversible.
翻訳日:2022-10-20 15:38:54 公開日:2022-10-19
# 二元直交非負行列因子分解

Binary Orthogonal Non-negative Matrix Factorization ( http://arxiv.org/abs/2210.10660v1 )

ライセンス: Link先を確認
S. Fathi Hafshejani, D. Gaur, S. Hossain, R. Benkoczi(参考訳) クラスタリングと分類のための二元直交非負行列分解(BONMF)の計算法を提案する。 この方法はいくつかの代表的な実世界のデータセットでテストされる。 その結果,本手法は関連する手法と比較して精度が向上したことがわかった。 提案手法は, 訓練, 分類, 空間効率の向上に有効である。

We propose a method for computing binary orthogonal non-negative matrix factorization (BONMF) for clustering and classification. The method is tested on several representative real-world data sets. The numerical results confirm that the method has improved accuracy compared to the related techniques. The proposed method is fast for training and classification and space efficient.
翻訳日:2022-10-20 15:38:39 公開日:2022-10-19
# 複数の部分不連続を持つ計算機モデルに対するベイズエミュレーション

Bayesian Emulation for Computer Models with Multiple Partial Discontinuities ( http://arxiv.org/abs/2210.10468v1 )

ライセンス: Link先を確認
Ian Vernon and Jonathan Owen and Jonathan Carter(参考訳) コンピュータモデルは様々な科学分野にまたがって様々な複雑な物理システムを記述するために広く使われているが、完全な不確かさの定量化を行うためにはエミュレータを使う必要がある。 エミュレータは、コンピュータモデルの評価が遅いことを模倣する高速な統計構造であり、重要な科学的分析がしばしば必要とする計算量的不確実性量子化計算を大いに助けている。 既知の非線形位置で発生する複数の部分的不連続性を持つコンピュータモデルをエミュレートする問題について検討する。 我々は,不連続を尊重する慎重に設計された相関構造に基づくTENSEフレームワークを導入し,他の場所での滑らかさ/連続性をフル活用する。 これにより、すべての実行時に同時に更新可能な単一のエミュレータオブジェクトが生成され、効率的な設計にも使用される。 このアプローチでは、入力空間を複数のサブリージョンに分割する必要がない。 我々はTENSEフレームワークをTNOチャレンジIIに適用し、複数の不連続性を持つOLYMPUS貯水池モデルをエミュレートする。

Computer models are widely used across a range of scientific disciplines to describe various complex physical systems, however to perform full uncertainty quantification we often need to employ emulators. An emulator is a fast statistical construct that mimics the slow to evaluate computer model, and greatly aids the vastly more computationally intensive uncertainty quantification calculations that an important scientific analysis often requires. We examine the problem of emulating computer models that possess multiple, partial discontinuities occurring at known non-linear location. We introduce the TENSE framework, based on carefully designed correlation structures that respect the discontinuities while enabling full exploitation of any smoothness/continuity elsewhere. This leads to a single emulator object that can be updated by all runs simultaneously, and also used for efficient design. This approach avoids having to split the input space into multiple subregions. We apply the TENSE framework to the TNO Challenge II, emulating the OLYMPUS reservoir model, which possess multiple such discontinuities.
翻訳日:2022-10-20 15:33:11 公開日:2022-10-19
# 幾何学的および位相統計学の正規近似に対するフレキシブルアプローチ

A Flexible Approach for Normal Approximation of Geometric and Topological Statistics ( http://arxiv.org/abs/2210.10744v1 )

ライセンス: Link先を確認
Zhaoyang Shi, Krishnakumar Balasubramanian, Wolfgang Polonik(参考訳) 我々は、特定のスコア関数の和として必ずしも表現できない二項あるいはポアソン点過程の安定化函数のクラスに対する正規近似結果を得る。 我々のアプローチは、適切な一階オペレーターを介して二階コストオペレータに対処するのに役立つadd-oneコストオペレーターの柔軟な概念に基づいている。 このフレキシブルな概念と強い安定化の理論を組み合わせて結果を確立する。 本研究は, 幾何, 位相的統計量の正規近似結果を定式化し, 結果の適用性を示す。 私たちのアプローチの特別なケースとして、既存の結果もいくつか現れています。

We derive normal approximation results for a class of stabilizing functionals of binomial or Poisson point process, that are not necessarily expressible as sums of certain score functions. Our approach is based on a flexible notion of the add-one cost operator, which helps one to deal with the second-order cost operator via suitably appropriate first-order operators. We combine this flexible notion with the theory of strong stabilization to establish our results. We illustrate the applicability of our results by establishing normal approximation results for certain geometric and topological statistics arising frequently in practice. Several existing results also emerge as special cases of our approach.
翻訳日:2022-10-20 15:32:53 公開日:2022-10-19
# DPIS: 重要サンプリングによる微分プライベートSGDの強化メカニズム

DPIS: An Enhanced Mechanism for Differentially Private SGD with Importance Sampling ( http://arxiv.org/abs/2210.09634v2 )

ライセンス: Link先を確認
Jianxin Wei, Ergute Bao, Xiaokui Xiao, Yin Yang(参考訳) 今日では、差分プライバシ(DP)がプライバシ保護の標準として広く受け入れられており、ディープラーニング(DNN)は機械学習において大きな成功を収めている。 これら2つのテクニックの組み合わせ、すなわちディープラーニングと差分プライバシーの組み合わせは、医療記録などの機密データで訓練された高ユーティリティモデルのプライバシー保護を約束する。 この目的のための古典的なメカニズムはDP-SGDであり、これはDNNトレーニングによく使用される確率勾配降下(SGD)オプティマイザの微分プライベートバージョンである。 その後のアプローチは、ノイズ減衰スケジュール、モデルアーキテクチャ、機能工学、ハイパーパラメータチューニングなど、モデルトレーニングプロセスの様々な側面を改善した。 しかし、SGDオプティマイザにおけるDP強化のコアメカニズムは、従来のDP-SGDアルゴリズム以来変わらず、DP準拠の機械学習ソリューションの性能を制限する基本的な障壁となっている。 そこで本研究では,dp-sgdのコアオプティマイザのドロップイン代替として使用可能な,差分プライベートなsgdトレーニングのための新しいメカニズムであるdpiを提案する。 本研究の主目的は,各SGDイテレーションの重要サンプリング(IS)をミニバッチ選択に適用することであり,DPを満たすために必要とされるサンプリング分散とランダムノイズの量の両方を削減する。 isをdp-sgdの複雑な数学的機械に統合することは極めて非自明である。 DPISは、新しいメカニズム設計、きめ細かいプライバシー分析、効率の向上、適応的な勾配クリッピング最適化を通じてこの問題に対処する。 MNIST、FMNIST、CIFAR-10、IMDbの4つのベンチマークデータセットに対する大規模な実験は、差分プライバシーを持つディープラーニングのための既存のソリューションよりもDPISの方が優れた効果を示した。

Nowadays, differential privacy (DP) has become a well-accepted standard for privacy protection, and deep neural networks (DNN) have been immensely successful in machine learning. The combination of these two techniques, i.e., deep learning with differential privacy, promises the privacy-preserving release of high-utility models trained with sensitive data such as medical records. A classic mechanism for this purpose is DP-SGD, which is a differentially private version of the stochastic gradient descent (SGD) optimizer commonly used for DNN training. Subsequent approaches have improved various aspects of the model training process, including noise decay schedule, model architecture, feature engineering, and hyperparameter tuning. However, the core mechanism for enforcing DP in the SGD optimizer remains unchanged ever since the original DP-SGD algorithm, which has increasingly become a fundamental barrier limiting the performance of DP-compliant machine learning solutions. Motivated by this, we propose DPIS, a novel mechanism for differentially private SGD training that can be used as a drop-in replacement of the core optimizer of DP-SGD, with consistent and significant accuracy gains over the latter. The main idea is to employ importance sampling (IS) in each SGD iteration for mini-batch selection, which reduces both sampling variance and the amount of random noise injected to the gradients that is required to satisfy DP. Integrating IS into the complex mathematical machinery of DP-SGD is highly non-trivial. DPIS addresses the challenge through novel mechanism designs, fine-grained privacy analysis, efficiency enhancements, and an adaptive gradient clipping optimization. Extensive experiments on four benchmark datasets, namely MNIST, FMNIST, CIFAR-10 and IMDb, demonstrate the superior effectiveness of DPIS over existing solutions for deep learning with differential privacy.
翻訳日:2022-10-20 15:32:21 公開日:2022-10-19
# tempo:メモリフットプリント削減によるトランスフォーマーモデルトレーニングの高速化

Tempo: Accelerating Transformer-Based Model Training through Memory Footprint Reduction ( http://arxiv.org/abs/2210.10246v1 )

ライセンス: Link先を確認
Muralidhar Andoorveedu, Zhanda Zhu, Bojian Zheng, Gennady Pekhimenko(参考訳) ディープラーニングモデルのトレーニングには計算コストがかかる。 以前の作業では、バッチサイズを増加させることで、全体のスループットが向上する可能性がある。 しかしながら、バッチサイズは、トレーニングの後方パスのために格納されたアクティベーション/フィーチャーマップのため、アクティベーションメモリ容量によって頻繁に制限される。 トランスフォーマーベースのモデルは、パフォーマンスの良さとさまざまなタスクへの適用性によって最近人気が高まっているが、同様の問題がある。 そこで本稿では,トランスフォーマーモデルの学習にアクセラレーション(gpu)メモリ資源を効率的に利用するための新しい手法であるtempoを提案する。 このアプローチは、GELU、LayerNorm、Atentionレイヤのドロップイン置換を提供し、メモリ使用量を削減し、最終的にはより効率的なトレーニングを可能にします。 本研究では,BERT Largeプレトレーニングタスクにおいて,Tempoを実装し,スループット,メモリ使用量,精度/損失を評価する。 我々はTempoが最先端のベースラインよりも最大2倍高いバッチサイズと16%高いトレーニングスループットを実現することを実証した。 また,GPT2およびRoBERTaモデル上でTempoを評価し,ベースライン上で19%,26%の高速化を示した。

Training deep learning models can be computationally expensive. Prior works have shown that increasing the batch size can potentially lead to better overall throughput. However, the batch size is frequently limited by the accelerator memory capacity due to the activations/feature maps stored for the training backward pass, as larger batch sizes require larger feature maps to be stored. Transformer-based models, which have recently seen a surge in popularity due to their good performance and applicability to a variety of tasks, have a similar problem. To remedy this issue, we propose Tempo, a new approach to efficiently use accelerator (e.g., GPU) memory resources for training Transformer-based models. Our approach provides drop-in replacements for the GELU, LayerNorm, and Attention layers, reducing the memory usage and ultimately leading to more efficient training. We implement Tempo and evaluate the throughput, memory usage, and accuracy/loss on the BERT Large pre-training task. We demonstrate that Tempo enables up to 2x higher batch sizes and 16% higher training throughput over the state-of-the-art baseline. We also evaluate Tempo on GPT2 and RoBERTa models, showing 19% and 26% speedup over the baseline.
翻訳日:2022-10-20 15:30:28 公開日:2022-10-19
# 推薦システムを用いた因果構造学習

Causal Structure Learning with Recommendation System ( http://arxiv.org/abs/2210.10256v1 )

ライセンス: Link先を確認
Shuyuan Xu, Da Xu, Evren Korpeoglu, Sushant Kumar, Stephen Guo, Kannan Achan, Yongfeng Zhang(参考訳) レコメンデーションシステム(RS)の根本的な課題は、ユーザの意思決定を支える因果ダイナミクスを理解することである。 既存の文献の多くは、ドメイン知識から推測される因果構造を用いてこの問題に対処している。 しかし、ドメイン知識が不十分な多くの現象があり、フィードバックデータから因果メカニズムを学習する必要がある。 RS自体がユーザの露出と対話意欲の両方に影響を与える介入の源であるため、RSフィードバックデータから因果関係のメカニズムを明らかにすることは、新規かつ困難である。 そのため、既存の解の多くは、RSから自由に収集されたデータを必要とするため、不適切になる。 本稿では,まず基礎となる因果メカニズムを因果構造モデルとして定式化し,rsの実世界作業機構に基づく汎用因果構造学習フレームワークについて述べる。 私たちのアプローチの本質は、rs介入の未知の性質を認識することです。 次に,学習目標をフレームワークから導出し,効率的な最適化のための拡張ラグランジアン解法を提案する。 シミュレーションと実世界の実験の両方を行い,既存のソリューションと比較し,感度とアブレーションによる経験的分析を行った。

A fundamental challenge of recommendation systems (RS) is understanding the causal dynamics underlying users' decision making. Most existing literature addresses this problem by using causal structures inferred from domain knowledge. However, there are numerous phenomenons where domain knowledge is insufficient, and the causal mechanisms must be learnt from the feedback data. Discovering the causal mechanism from RS feedback data is both novel and challenging, since RS itself is a source of intervention that can influence both the users' exposure and their willingness to interact. Also for this reason, most existing solutions become inappropriate since they require data collected free from any RS. In this paper, we first formulate the underlying causal mechanism as a causal structural model and describe a general causal structure learning framework grounded in the real-world working mechanism of RS. The essence of our approach is to acknowledge the unknown nature of RS intervention. We then derive the learning objective from our framework and propose an augmented Lagrangian solver for efficient optimization. We conduct both simulation and real-world experiments to demonstrate how our approach compares favorably to existing solutions, together with the empirical analysis from sensitivity and ablation studies.
翻訳日:2022-10-20 15:30:05 公開日:2022-10-19
# ニューラルネットワークを用いた生体内溶解プロファイルの予測における分光計測の比較

Comparing Spectroscopy Measurements in the Prediction of in Vitro Dissolution Profile using Artificial Neural Networks ( http://arxiv.org/abs/2210.10292v1 )

ライセンス: Link先を確認
Mohamed Azouz Mrad, Krist\'of Csorba, Dori\'an L\'aszl\'o Galata, Zsombor Krist\'of Nagy and Brigitta Nagy(参考訳) 溶解試験は、医薬品業界における新製品の承認に不可欠な製品品質の目標の一部である。 分光データに基づく溶解プロファイルの予測は、現在の破壊的・時間的消費法に代わるものである。 ラマン分光法と近赤外分光法(NIR Spectroscopies)は、錠剤の物理的および化学的特性に関する情報を提供し、その溶解プロファイルを予測する2つの高速で相補的な方法である。 本研究の目的は,これらの分析手法が収集した情報を比較することで,産業の正確性要件を満たすために,どの測定値を使用するべきかの判断を支援することである。 分析データと測定された圧縮曲線を個別および異なる組み合わせで入力として使用して溶解プロファイルを推定した人工ニューラルネットワークモデルを作成した。 その結果, 圧縮力データおよびRamanおよびNIR反射法とともにNIR伝送法のみを用いて, f2類似度係数の許容範囲内で溶解プロファイルを推定した。 さらなる分光測定を加えることで予測精度が向上した。

Dissolution testing is part of the target product quality that is essential in approving new products in the pharmaceutical industry. The prediction of the dissolution profile based on spectroscopic data is an alternative to the current destructive and time-consuming method. Raman and near-infrared (NIR) spectroscopies are two fast and complementary methods that provide information on the tablets' physical and chemical properties and can help predict their dissolution profiles. This work aims to compare the information collected by these spectroscopy methods to support the decision of which measurements should be used so that the accuracy requirement of the industry is met. Artificial neural network models were created, in which the spectroscopy data and the measured compression curves were used as an input individually and in different combinations in order to estimate the dissolution profiles. Results showed that using only the NIR transmission method along with the compression force data or the Raman and NIR reflection methods, the dissolution profile was estimated within the acceptance limits of the f2 similarity factor. Adding further spectroscopy measurements increased the prediction accuracy.
翻訳日:2022-10-20 15:29:49 公開日:2022-10-19
# 行動認識とポーズ推定データセットにおける異なる機械学習手法の性能

Performance of different machine learning methods on activity recognition and pose estimation datasets ( http://arxiv.org/abs/2210.10247v1 )

ライセンス: Link先を確認
Love Trivedi, Raviit Vij(参考訳) コンピュータビジョンの進歩が日々起きている中、最近は活動認識に多くの光が注がれている。 この分野を利用した現実世界の応用範囲が、セキュリティや医療など様々な産業で拡大しているため、どの機械学習手法がこの分野の他の分野よりも優れているかを区別することが企業にとって重要である。 本稿は,従来の研究に基づいて,リッチポーズ推定(OpenPose)とHARデータセットに古典的アプローチとアンサンブルアプローチを併用する。 その結果,各モデルの性能評価に適切な指標を用いることで,総合的なランダム林はadl分類において最も精度が高いことがわかった。 相対的にすべてのモデルは、ロジスティック回帰とAdaBoostを除いて、両方のデータセットで優れたパフォーマンスを持つ。 最後に,本論文の限界についても論じるとともに,さらなる研究の範囲が広く,よりよい結果を生み出すための基盤として利用することができる。

With advancements in computer vision taking place day by day, recently a lot of light is being shed on activity recognition. With the range for real-world applications utilizing this field of study increasing across a multitude of industries such as security and healthcare, it becomes crucial for businesses to distinguish which machine learning methods perform better than others in the area. This paper strives to aid in this predicament i.e. building upon previous related work, it employs both classical and ensemble approaches on rich pose estimation (OpenPose) and HAR datasets. Making use of appropriate metrics to evaluate the performance for each model, the results show that overall, random forest yields the highest accuracy in classifying ADLs. Relatively all the models have excellent performance across both datasets, except for logistic regression and AdaBoost perform poorly in the HAR one. With the limitations of this paper also discussed in the end, the scope for further research is vast, which can use this paper as a base in aims of producing better results.
翻訳日:2022-10-20 15:22:24 公開日:2022-10-19
# LRおよびHRプロセスのモデリングによるGANを用いた実像超解像

Real Image Super-Resolution using GAN through modeling of LR and HR process ( http://arxiv.org/abs/2210.10413v1 )

ライセンス: Link先を確認
Rao Muhammad Umer, Christian Micheloni(参考訳) 現在のディープ・イメージの超解像法は、通常、低分解能(LR)画像が高分解能(HR)画像の双対ダウンスケールであると仮定する。 しかし、このような理想的なbicubicダウンサンプリングプロセスは、カメラのぼやき、センサーノイズ、シャープニングアーティファクト、jpeg圧縮、さらに画像編集といった異なる分解過程の複雑な組み合わせや、インターネット上の画像伝送や予測不能なノイズから生じる実際のlr劣化とは異なる。 これは逆拡大問題の非常に不適切な性質をもたらす。 これらの問題に対処するために, LR と SR モデルに組み込まれた適応正弦波非線形性を持つ GAN ベースの SR 手法を提案し, 直接分解分布を学習し, 一般化された SR モデルを実画像劣化に訓練するためのペア付き LR/HR トレーニングデータを合成する。 定量的および定性的実験において提案手法の有効性を示す。

The current existing deep image super-resolution methods usually assume that a Low Resolution (LR) image is bicubicly downscaled of a High Resolution (HR) image. However, such an ideal bicubic downsampling process is different from the real LR degradations, which usually come from complicated combinations of different degradation processes, such as camera blur, sensor noise, sharpening artifacts, JPEG compression, and further image editing, and several times image transmission over the internet and unpredictable noises. It leads to the highly ill-posed nature of the inverse upscaling problem. To address these issues, we propose a GAN-based SR approach with learnable adaptive sinusoidal nonlinearities incorporated in LR and SR models by directly learn degradation distributions and then synthesize paired LR/HR training data to train the generalized SR model to real image degradations. We demonstrate the effectiveness of our proposed approach in quantitative and qualitative experiments.
翻訳日:2022-10-20 15:22:06 公開日:2022-10-19
# visual slam: 現在のトレンドと期待は何か?

Visual SLAM: What are the Current Trends and What to Expect? ( http://arxiv.org/abs/2210.10491v1 )

ライセンス: Link先を確認
Ali Tourani, Hriday Bavle, Jose Luis Sanchez-Lopez, Holger Voos(参考訳) 視覚に基づくセンサは,近年,slamシステムにおいて有意な性能向上,精度,効率向上を実現している。 この点において、VSLAM(Visual Simultaneous Localization and Mapping)法は、ポーズ推定とマップ生成にカメラを用いるSLAM法を指す。 vslamがlidarのような特定のセンサーのみに依存する従来の方法よりも優れていることを示す多くの研究成果が、低コストでも見ることができる。 VSLAMアプローチは様々なカメラタイプ(モノクラー、ステレオ、RGB-Dなど)を使用し、様々なデータセット(KITTI、TUM RGB-D、EuRoCなど)や異種環境(屋内や屋外など)でテストされ、環境をよりよく理解するために複数のアルゴリズムと方法論を使用している。 前述のバリエーションは、この話題を研究者に広め、様々なVSLAMの方法論をもたらした。 この点に関して、この調査の主な目的は、vslamシステムの最近の進歩と、既存の課題とトレンドについて議論することである。 VSLAMs領域で発行された45件の論文について詳細な文献調査を行った。 我々はこれらの写本を,新規性領域,目的,採用アルゴリズム,意味レベルなど,異なる特徴に分類した。 また、研究者が研究する上で役立つ現在の傾向や今後の方向性についても論じる。

Vision-based sensors have shown significant performance, accuracy, and efficiency gain in Simultaneous Localization and Mapping (SLAM) systems in recent years. In this regard, Visual Simultaneous Localization and Mapping (VSLAM) methods refer to the SLAM approaches that employ cameras for pose estimation and map generation. We can see many research works that demonstrated VSLAMs can outperform traditional methods, which rely only on a particular sensor, such as a Lidar, even with lower costs. VSLAM approaches utilize different camera types (e.g., monocular, stereo, and RGB-D), have been tested on various datasets (e.g., KITTI, TUM RGB-D, and EuRoC) and in dissimilar environments (e.g., indoors and outdoors), and employ multiple algorithms and methodologies to have a better understanding of the environment. The mentioned variations have made this topic popular for researchers and resulted in a wide range of VSLAMs methodologies. In this regard, the primary intent of this survey is to present the recent advances in VSLAM systems, along with discussing the existing challenges and trends. We have given an in-depth literature survey of forty-five impactful papers published in the domain of VSLAMs. We have classified these manuscripts by different characteristics, including the novelty domain, objectives, employed algorithms, and semantic level. We also discuss the current trends and future directions that may help researchers investigate them.
翻訳日:2022-10-20 15:21:46 公開日:2022-10-19
# U-Netアーキテクチャと形態的操作による肺セグメンテーションの改善

Improved lung segmentation based on U-Net architecture and morphological operations ( http://arxiv.org/abs/2210.10545v1 )

ライセンス: Link先を確認
S Ali John Naqvi, Abdullah Tauqeer, Rohaib Bhatti, S Bazil Ali(参考訳) コンピュータによる胸部X線診断における重要な段階は、自動肺分画である。 胸骨ケージと各肺の特異な様相から, 効果的な自動肺分節モデルの構築が不可欠である。 本稿では胸部x線写真における肺分画の信頼性の高いモデルを提案する。 本モデルは,胸部x線源の重要でない領域を無視し,肺分画の重要な特徴を強調することで,課題を克服する。 我々は、モンゴメリーと深センの公共データセットでモデルを評価する。 提案モデルの信頼性を示すDICE係数は98.1%である。

An essential stage in computer aided diagnosis of chest X rays is automated lung segmentation. Due to rib cages and the unique modalities of each persons lungs, it is essential to construct an effective automated lung segmentation model. This paper presents a reliable model for the segmentation of lungs in chest radiographs. Our model overcomes the challenges by learning to ignore unimportant areas in the source Chest Radiograph and emphasize important features for lung segmentation. We evaluate our model on public datasets, Montgomery and Shenzhen. The proposed model has a DICE coefficient of 98.1 percent which demonstrates the reliability of our model.
翻訳日:2022-10-20 15:21:23 公開日:2022-10-19
# 分布適応型ソフト回帰木

Distributional Adaptive Soft Regression Trees ( http://arxiv.org/abs/2210.10389v1 )

ライセンス: Link先を確認
Nikolaus Umlauf and Nadja Klein(参考訳) ランダム・フォレストは回帰や分類といった多くの問題に関係したアンサンブル法である。 これらは、ハイパーパラメータの最小限のチューニングしか必要としない優れた予測性能(例えば決定木)のために人気がある。 トレーニング中に複数の回帰木の集約を通じて構築され、通常はハードスプリッティングルールを使用して再帰的に計算される。 近年、回帰フォレストは、出力変数の平均を入力特徴のみに関連づけるのではなく、完全な条件分布を推定することを目的とした、現在では一般的な回帰アプローチである分布回帰の枠組みに取り入れられている。 本稿では,多変量ソフトスプリットルールを用いた分布回帰木の新しいタイプを提案する。 ソフトスプリットの大きな利点は、滑らかな高次元関数は1つの木だけで推定できるが、関数の複雑さは情報基準によって制御される。 さらに、最適分割変数の探索は時代遅れである。 本研究では, アルゴリズムが優れた特性を有し, 複雑な非線形特徴相互作用の存在下で, 様々なベンチマーク手法より優れていることを示す。 最後に、我々のアプローチの有用性を、太陽の活動の確率論的予測の例で説明する。

Random forests are an ensemble method relevant for many problems, such as regression or classification. They are popular due to their good predictive performance (compared to, e.g., decision trees) requiring only minimal tuning of hyperparameters. They are built via aggregation of multiple regression trees during training and are usually calculated recursively using hard splitting rules. Recently regression forests have been incorporated into the framework of distributional regression, a nowadays popular regression approach aiming at estimating complete conditional distributions rather than relating the mean of an output variable to input features only - as done classically. This article proposes a new type of a distributional regression tree using a multivariate soft split rule. One great advantage of the soft split is that smooth high-dimensional functions can be estimated with only one tree while the complexity of the function is controlled adaptive by information criteria. Moreover, the search for the optimal split variable is obsolete. We show by means of extensive simulation studies that the algorithm has excellent properties and outperforms various benchmark methods, especially in the presence of complex non-linear feature interactions. Finally, we illustrate the usefulness of our approach with an example on probabilistic forecasts for the Sun's activity.
翻訳日:2022-10-20 15:20:55 公開日:2022-10-19
# 成分レベルの予後・健康管理(phm)のための深部散乱スペクトルゲルマンネスと故障検出・診断

Deep Scattering Spectrum germaneness to Fault Detection and Diagnosis for Component-level Prognostics and Health Management (PHM) ( http://arxiv.org/abs/2210.09837v2 )

ライセンス: Link先を確認
Ali Rohan(参考訳) 予後・健康管理システム(PHM)の故障検出・診断において、ほとんどの手法は機械学習(ML)または深層学習(DL)を用いて、いくつかの特徴を事前に抽出する(MLの場合)か、フィルタを使用して、重要な分類タスクを実行する(DLの場合)自律的に特徴を抽出する(DLの場合)。 特に、電流、振動、または音響放射信号が主要な情報源である産業用ロボットの故障検出および診断において、異なるレベルで圧縮された情報を持つ構成要素に信号をマッピングできる特徴領域は、典型的なmlおよびdlベースのフレームワークの複雑さとサイズを減らすことができる。 ディープ散乱スペクトル(英: deep scattering spectrum、dss)は、ウェーブレット変換(wt)アナロジーを用いて、信号の様々な時間領域と周波数領域で符号化された情報を分離抽出する戦略の一つである。 その結果,本研究の焦点は,産業用ロボットの機械的構成要素に対するDSSの故障検出とデイグナシスとの関連性を検討することである。 複数の産業用ロボットと異なる機械故障を用いて,入力信号から抽出した低分散特徴を用いて故障を分類する手法を構築した。 提案手法は実用試験台に実装され, 99.7%, 88.1%の分類精度を有する単純・複雑分類問題に対して, 断層検出および診断において良好な性能を示した。

In fault detection and diagnosis of prognostics and health management (PHM) systems, most of the methodologies utilize machine learning (ML) or deep learning (DL) through which either some features are extracted beforehand (in the case of ML) or filters are used to extract features autonomously (in case of DL) to perform the critical classification task. Particularly in the fault detection and diagnosis of industrial robots where electric current, vibration or acoustic emissions signals are the primary sources of information, a feature domain that can map the signals into their constituent components with compressed information at different levels can reduce the complexities and size of typical ML and DL-based frameworks. The Deep Scattering Spectrum (DSS) is one of the strategies that use the Wavelet Transform (WT) analogy to separate and extract the information encoded in a signal's various temporal and frequency domains. As a result, the focus of this work is on the study of the DSS's relevance to fault detection and daignosis for mechanical components of industrail robots. We used multiple industrial robots and distinct mechanical faults to build an approach for classifying the faults using low-variance features extracted from the input signals. The presented approach was implemented on the practical test benches and demonstrated satisfactory performance in fault detection and diagnosis for simple and complex classification problems with a classification accuracy of 99.7% and 88.1%, respectively.
翻訳日:2022-10-20 15:14:52 公開日:2022-10-19
# 無線フェデレーション学習のための遅延を考慮した半同期型クライアント選択とモデルアグリゲーション

Latency Aware Semi-synchronous Client Selection and Model Aggregation for Wireless Federated Learning ( http://arxiv.org/abs/2210.10311v1 )

ライセンス: Link先を確認
Liangkun Yu, Xiang Sun, Rana Albelaihi, Chen Yi(参考訳) Federated Learning(FL)は、さまざまなクライアント(IoTデバイスなど)に対して、各グローバルイテレーションでローカルモデルをFLサーバにトレーニングおよびアップロードすることで、マシンラーニングモデルのトレーニングプロセスに参加することを要求する、共同機械学習フレームワークである。 すべてのクライアントからローカルモデルを受け取ると、flサーバは受信したローカルモデルを集約してグローバルモデルを生成する。 この従来のflプロセスは、異種クライアント設定のストラグラー問題に悩まされる可能性がある。flサーバは、グローバルイテレーション毎に遅いクライアントがローカルモデルをアップロードするのを待つ必要があるため、全体的なトレーニング時間が増加する。 解決策の1つは、期限を設定し、その期限がFLプロセスで選択される前にローカルモデルをアップロードできるクライアントのみです。 このソリューションは、クライアントの選択が制限されたため、収束速度が遅く、グローバルモデルが問題にオーバーフィットする可能性がある。 本稿では,すべてのクライアントがflプロセス全体に参加することができるフェデレーション学習(lesson)法において,遅延を考慮した半同期型クライアント選択とモデルアグリゲーションを提案する。 つまり、より高速なクライアントは、遅いクライアントよりも頻繁にモデルをアップロードし、ストラグラー問題を解決し、モデルの過度な適合を避けながら収束速度を加速する。 また、LESSONは、期限を変更することにより、モデル精度と収束率とのトレードオフを調整することができる。 LESSONと他の2つのベースライン手法、すなわちFedAvgとFedCSのパフォーマンスを比較するために、大規模なシミュレーションが行われた。 シミュレーションの結果,LESSONはFedAvgやFedCSよりも高速に収束し,モデル精度もFedCSより高いことがわかった。

Federated learning (FL) is a collaborative machine learning framework that requires different clients (e.g., Internet of Things devices) to participate in the machine learning model training process by training and uploading their local models to an FL server in each global iteration. Upon receiving the local models from all the clients, the FL server generates a global model by aggregating the received local models. This traditional FL process may suffer from the straggler problem in heterogeneous client settings, where the FL server has to wait for slow clients to upload their local models in each global iteration, thus increasing the overall training time. One of the solutions is to set up a deadline and only the clients that can upload their local models before the deadline would be selected in the FL process. This solution may lead to a slow convergence rate and global model overfitting issues due to the limited client selection. In this paper, we propose the Latency awarE Semi-synchronous client Selection and mOdel aggregation for federated learNing (LESSON) method that allows all the clients to participate in the whole FL process but with different frequencies. That is, faster clients would be scheduled to upload their models more frequently than slow clients, thus resolving the straggler problem and accelerating the convergence speed, while avoiding model overfitting. Also, LESSON is capable of adjusting the tradeoff between the model accuracy and convergence rate by varying the deadline. Extensive simulations have been conducted to compare the performance of LESSON with the other two baseline methods, i.e., FedAvg and FedCS. The simulation results demonstrate that LESSON achieves faster convergence speed than FedAvg and FedCS, and higher model accuracy than FedCS.
翻訳日:2022-10-20 15:14:26 公開日:2022-10-19
# 混合ポリシー勾配による高レベル自動走行車の総合的意思決定制御とその実験検証

Integrated Decision and Control for High-Level Automated Vehicles by Mixed Policy Gradient and Its Experiment Verification ( http://arxiv.org/abs/2210.10613v1 )

ライセンス: Link先を確認
Yang Guan, Liye Tang, Chuanxiao Li, Shengbo Eben Li, Yangang Ren, Junqing Wei, Bo Zhang, Keqiang Li(参考訳) 完全自動運転を実現するには自己進化が不可欠である。 本稿では、強化学習(RL)に基づく高度なフレームワークであるIDC(Integrated Decision and Control)に基づく自己進化型意思決定システムを提案する。 まず,制約付き混合ポリシー勾配 (CMPG) と呼ばれるRLアルゴリズムを提案し,IDCの駆動ポリシーを継続的に更新する。 ペナルティ法の下でMPGを適用し、データとモデルの両方を用いて制約付き最適化問題を解く。 第二に、状態表現問題に取り組むために注意に基づく符号化(abe)法を考案する。 特徴抽出のための埋め込みネットワークと機能融合のための重み付けネットワークを導入し、注文に敏感なエンコーディングを実現し、道路利用者の識別を重要視する。 最後に, CMPG と ABE を融合させることで,IDC アーキテクチャに基づく最初のデータ駆動型意思決定制御システムを開発し, 日常運転中の完全機能型自動運転車にシステムを展開する。 実験結果から,モデルに基づく手法よりも運転能力の向上が期待できることがわかった。 また、実際の混合交通流との信号化交差点において、様々な複雑なシーンで安全で効率的でスマートな運転行動を示す。

Self-evolution is indispensable to realize full autonomous driving. This paper presents a self-evolving decision-making system based on the Integrated Decision and Control (IDC), an advanced framework built on reinforcement learning (RL). First, an RL algorithm called constrained mixed policy gradient (CMPG) is proposed to consistently upgrade the driving policy of the IDC. It adapts the MPG under the penalty method so that it can solve constrained optimization problems using both the data and model. Second, an attention-based encoding (ABE) method is designed to tackle the state representation issue. It introduces an embedding network for feature extraction and a weighting network for feature fusion, fulfilling order-insensitive encoding and importance distinguishing of road users. Finally, by fusing CMPG and ABE, we develop the first data-driven decision and control system under the IDC architecture, and deploy the system on a fully-functional self-driving vehicle running in daily operation. Experiment results show that boosting by data, the system can achieve better driving ability over model-based methods. It also demonstrates safe, efficient and smart driving behavior in various complex scenes at a signalized intersection with real mixed traffic flow.
翻訳日:2022-10-20 15:13:56 公開日:2022-10-19
# 強化学習経路生成と微調整動作制御によるロボットナビゲーション

Robot Navigation with Reinforcement Learned Path Generation and Fine-Tuned Motion Control ( http://arxiv.org/abs/2210.10639v1 )

ライセンス: Link先を確認
Longyuan Zhang, Ziyue Hou, Ji Wang, Ziang Liu and Wei Li(参考訳) 本稿では,未知環境を事前に探索することなく,移動ロボットナビゲーションのための新しい強化学習(rl)ベースの経路生成(rl-pg)手法を提案する。 複数の予測パスポイントは、ロボット追跡のためのRLアプローチを用いて最適化されたディープマルコフモデルによって動的に生成される。 予測点追跡時の安全性を確保するため、ロボットの動作を運動微調整モジュールにより微調整する。 このようなアプローチは、RLアルゴリズムを用いたディープマルコフモデルを用いて計画し、隣接する経路点間の関係に焦点を当てる。 我々は,提案手法がより効果的であり,従来のナビゲーション手法であるDWA-RLよりも成功率が高いという利点を分析した。 シミュレーションと物理プラットフォームの両方にモデルをデプロイし,ロボットナビゲーションを効果的かつ安全に実行することを示す。

In this paper, we propose a novel reinforcement learning (RL) based path generation (RL-PG) approach for mobile robot navigation without a prior exploration of an unknown environment. Multiple predictive path points are dynamically generated by a deep Markov model optimized using RL approach for robot to track. To ensure the safety when tracking the predictive points, the robot's motion is fine-tuned by a motion fine-tuning module. Such an approach, using the deep Markov model with RL algorithm for planning, focuses on the relationship between adjacent path points. We analyze the benefits that our proposed approach are more effective and are with higher success rate than RL-Based approach DWA-RL and a traditional navigation approach APF. We deploy our model on both simulation and physical platforms and demonstrate our model performs robot navigation effectively and safely.
翻訳日:2022-10-20 15:13:36 公開日:2022-10-19
# ページ全体のランク付けに偏りのない学習

Whole Page Unbiased Learning to Rank ( http://arxiv.org/abs/2210.10718v1 )

ライセンス: Link先を確認
Haitao Mao, Lixin Zou, Yujia Zheng, Jiliang Tang, Xiaokai Chu, Jiashu Zhao, Dawei Yin(参考訳) 情報検索システム、特にクリック行動におけるページ提示バイアスは、暗黙のユーザフィードバックによるランキングモデルのパフォーマンス向上を妨げる、よく知られた課題である。 ランク付け-(ultr)アルゴリズムへの偏りのない学習は、バイアス付きクリックデータを用いて偏りのないランキングモデルを学ぶために提案される。 しかし、既存のアルゴリズムの多くは、例えば、検索結果ページの表示(SERP)で他の特徴によって引き起こされるバイアスを考慮せずに、位置関連バイアスを緩和するように設計されている。 例えば、マルチメディアタイプは魅力的なバイアスを生み出すかもしれない。 残念ながら、これらのバイアスは産業システムにおいて広く存在し、不十分な検索体験につながる可能性がある。 そこで本研究では,全ページSERP機能によって引き起こされるバイアスを同時に処理することを目的とした,全ページのUnbiased Learning to Rank(WP-ULTR)という新たな問題を導入する。 それは大変な挑戦だ。 例えば、適切なユーザー行動モデル(ユーザ行動仮説)を見つけるのは困難であり、複雑なバイアスは既存のアルゴリズムでは扱えない。 そこで本研究では,複数のサープ特徴から偏りを自動的に発見し軽減するために,階層化アルゴリズムbalを用いたバイアス非依存の全ページ非偏り学習を提案する。 実世界のデータセットによる実験結果から,BALの有効性が検証された。

The page presentation biases in the information retrieval system, especially on the click behavior, is a well-known challenge that hinders improving ranking models' performance with implicit user feedback. Unbiased Learning to Rank~(ULTR) algorithms are then proposed to learn an unbiased ranking model with biased click data. However, most existing algorithms are specifically designed to mitigate position-related bias, e.g., trust bias, without considering biases induced by other features in search result page presentation(SERP). For example, the multimedia type may generate attractive bias. Unfortunately, those biases widely exist in industrial systems and may lead to an unsatisfactory search experience. Therefore, we introduce a new problem, i.e., whole-page Unbiased Learning to Rank(WP-ULTR), aiming to handle biases induced by whole-page SERP features simultaneously. It presents tremendous challenges. For example, a suitable user behavior model (user behavior hypothesis) can be hard to find; and complex biases cannot be handled by existing algorithms. To address the above challenges, we propose a Bias Agnostic whole-page unbiased Learning to rank algorithm, BAL, to automatically discover and mitigate the biases from multiple SERP features with no specific design. Experimental results on a real-world dataset verify the effectiveness of the BAL.
翻訳日:2022-10-20 15:13:24 公開日:2022-10-19
# 敵対的マルチタスク学習を用いた幼児音響モデルのための話者・年齢不変学習

Speaker- and Age-Invariant Training for Child Acoustic Modeling Using Adversarial Multi-Task Learning ( http://arxiv.org/abs/2210.10231v1 )

ライセンス: Link先を確認
Mostafa Shahin, Beena Ahmed, and Julien Epps(参考訳) 幼児音声の音響モデル化における大きな課題の1つは、成長に伴う子どもの調音器の急速な変化、成長速度の違い、そしてそれに続く同年齢層における高い変動である。 これらの高い音響的変化と子音コーパスの不足は、子供向けの信頼性の高い音声認識システムの開発を妨げている。 本稿では,対向型マルチタスク学習に基づく話者・年齢不変学習手法を提案する。 このシステムは、1つのジェネレータ共有ネットワークから成り、音素、年齢、話者の3つの識別ネットワークに接続された話者および年齢不変な特徴を生成する。 ジェネレータネットワークは、音素識別損失を最小化し、反対のマルチタスク学習方式における話者および年齢識別損失を最大化するように訓練される。 ジェネレータネットワークは時間遅延ニューラルネットワーク(tdnn)アーキテクチャであり、3つの識別器はフィードフォワードネットワークである。 このシステムはOGI音声コーパスに適用され,ASRのWERを13%削減した。

One of the major challenges in acoustic modelling of child speech is the rapid changes that occur in the children's articulators as they grow up, their differing growth rates and the subsequent high variability in the same age group. These high acoustic variations along with the scarcity of child speech corpora have impeded the development of a reliable speech recognition system for children. In this paper, a speaker- and age-invariant training approach based on adversarial multi-task learning is proposed. The system consists of one generator shared network that learns to generate speaker- and age-invariant features connected to three discrimination networks, for phoneme, age, and speaker. The generator network is trained to minimize the phoneme-discrimination loss and maximize the speaker- and age-discrimination losses in an adversarial multi-task learning fashion. The generator network is a Time Delay Neural Network (TDNN) architecture while the three discriminators are feed-forward networks. The system was applied to the OGI speech corpora and achieved a 13% reduction in the WER of the ASR.
翻訳日:2022-10-20 15:12:22 公開日:2022-10-19
# 言語的修正を伴う雑音適応発話生成に関するデータ駆動型検討

A Data-Driven Investigation of Noise-Adaptive Utterance Generation with Linguistic Modification ( http://arxiv.org/abs/2210.10252v1 )

ライセンス: Link先を確認
Anupama Chingacham, Vera Demberg, Dietrich Klakow(参考訳) 騒々しい環境では、スピーチは人間にとって理解しにくい。 音声対話システムは、音声合成(例えば、ロンバルド音声の模倣)を変更するか、言語生成を最適化することによって、出力の知性を高めるのに役立つ。 ここでは,意図したメッセージが,特定の雑音環境においてより理解しやすい単語で実現される,第2の手法に注目する。 音声知覚実験を行い,正常な英語話者が知覚するバブル雑音における900パラフレーズのデータセットを作成した。 SNR -5 dBでは, パラフレーズの選択が33%向上することが確認された。 このデータから, パラフレーズ間の知覚的差異は, 主にノイズ・ロバストな音響的手がかりによって引き起こされることが示された。 さらに,snr-5dbにおける31.37%の相対的改善でベースラインモデルを上回る,知性を考慮したパラフレーゼランキングモデルを提案する。

In noisy environments, speech can be hard to understand for humans. Spoken dialog systems can help to enhance the intelligibility of their output, either by modifying the speech synthesis (e.g., imitate Lombard speech) or by optimizing the language generation. We here focus on the second type of approach, by which an intended message is realized with words that are more intelligible in a specific noisy environment. By conducting a speech perception experiment, we created a dataset of 900 paraphrases in babble noise, perceived by native English speakers with normal hearing. We find that careful selection of paraphrases can improve intelligibility by 33% at SNR -5 dB. Our analysis of the data shows that the intelligibility differences between paraphrases are mainly driven by noise-robust acoustic cues. Furthermore, we propose an intelligibility-aware paraphrase ranking model, which outperforms baseline models with a relative improvement of 31.37% at SNR -5 dB.
翻訳日:2022-10-20 15:12:06 公開日:2022-10-19
# 知覚型マルチエクスプロイア融合

Perceptual Multi-Exposure Fusion ( http://arxiv.org/abs/2210.09604v2 )

ライセンス: Link先を確認
Xiaoning Liu(参考訳) 高ダイナミックレンジ(HDR)シーンシューティングの需要が高まっているため、マルチ露光画像融合(MEF)技術は増加傾向にある。 近年では、詳細化に基づくマルチスケール露光融合アプローチにより、ハイライトやシャドウの詳細の改善が進んでいる。 しかし、そのような方法のほとんどは計算コストがかかりすぎてモバイルデバイスにデプロイできない。 本稿では,細かなシャドウ/ハイライトの詳細を確実にするだけでなく,詳細化手法よりも複雑さの低い知覚的マルチ露光融合法を提案する。 本研究では, ディテールエンハンスメント成分の代わりに, 3つの古典的露出指標の潜在的な欠陥を分析し, 適応的ウェルエクスポースネス (awe) とカラー画像の勾配 (3-d 勾配) の2つを改善した。 YCbCr色空間で設計されたAWEは、様々な露光画像の違いを考慮する。 細部を抽出するために3次元勾配を用いる。 静的なシーンに適した大規模マルチ露光ベンチマークデータセットを構築し,全画面に167の画像シーケンスを含む。 構築したデータセットの実験では,提案手法が既存の8つの最先端手法を視覚的およびMEF-SSIM値で上回ることを示した。 さらに,本手法は,現在の画像強調技術の改善を図り,明度の高い細部を確保できる。

As an ever-increasing demand for high dynamic range (HDR) scene shooting, multi-exposure image fusion (MEF) technology has abounded. In recent years, multi-scale exposure fusion approaches based on detail-enhancement have led the way for improvement in highlight and shadow details. Most of such methods, however, are too computationally expensive to be deployed on mobile devices. This paper presents a perceptual multi-exposure fusion method that not just ensures fine shadow/highlight details but with lower complexity than detailenhanced methods. We analyze the potential defects of three classical exposure measures in lieu of using detail-enhancement component and improve two of them, namely adaptive Wellexposedness (AWE) and the gradient of color images (3-D gradient). AWE designed in YCbCr color space considers the difference between varying exposure images. 3-D gradient is employed to extract fine details. We build a large-scale multiexposure benchmark dataset suitable for static scenes, which contains 167 image sequences all told. Experiments on the constructed dataset demonstrate that the proposed method exceeds existing eight state-of-the-art approaches in terms of visually and MEF-SSIM value. Moreover, our approach can achieve a better improvement for current image enhancement techniques, ensuring fine detail in bright light.
翻訳日:2022-10-20 15:11:49 公開日:2022-10-19
# 周波数分布を用いた適応型ニューラルネットワークアンサンブル

Adaptive Neural Network Ensemble Using Frequency Distribution ( http://arxiv.org/abs/2210.10360v1 )

ライセンス: Link先を確認
Ungki Lee, Namwoo Kang(参考訳) ニューラルネットワーク(NN)アンサンブルは、NNの大きな予測分散を低減し、予測精度を向上させる。 データセットが不十分な高非線形問題に対しては、NNモデルの予測精度が不安定になり、アンサンブルの精度が低下する。 そこで本研究では,真の予測値付近に集中すると思われるコア予測値を識別する周波数分布に基づくアンサンブルを提案する。 周波数分布に基づくアンサンブルは、与えられた予測点から得られた様々な予測値に基づいて、周波数分布で統計解析を行い、複数の予測値が支持するコア予測値を分類する。 周波数分布に基づくアンサンブルは、予測値を低い精度で排除し、最も頻繁な値の不確実性に対応することにより予測性能を向上させることができる。 周波数分布に基づくアンサンブルの予測性能を向上させるため、コア予測値のばらつきとして算出されたコア予測分散に基づいてサンプルを逐次追加する適応サンプリング戦略を提案する。 種々のケーススタディの結果、周波数分布に基づくアンサンブルの予測精度は、Krigingや他の既存のアンサンブル法よりも高いことがわかった。 さらに,提案手法は,従来の空間充填法や分散予測法と比較して,周波数分布に基づくアンサンブルの予測性能を効果的に向上する。

Neural network (NN) ensembles can reduce large prediction variance of NN and improve prediction accuracy. For highly nonlinear problems with insufficient data set, the prediction accuracy of NN models becomes unstable, resulting in a decrease in the accuracy of ensembles. Therefore, this study proposes a frequency distribution-based ensemble that identifies core prediction values, which are expected to be concentrated near the true prediction value. The frequency distribution-based ensemble classifies core prediction values supported by multiple prediction values by conducting statistical analysis with a frequency distribution, which is based on various prediction values obtained from a given prediction point. The frequency distribution-based ensemble can improve predictive performance by excluding prediction values with low accuracy and coping with the uncertainty of the most frequent value. An adaptive sampling strategy that sequentially adds samples based on the core prediction variance calculated as the variance of the core prediction values is proposed to improve the predictive performance of the frequency distribution-based ensemble efficiently. Results of various case studies show that the prediction accuracy of the frequency distribution-based ensemble is higher than that of Kriging and other existing ensemble methods. In addition, the proposed adaptive sampling strategy effectively improves the predictive performance of the frequency distribution-based ensemble compared with the previously developed space-filling and prediction variance-based strategies.
翻訳日:2022-10-20 15:05:23 公開日:2022-10-19
# 構造クラスタリングに基づく自己教師付き不均質グラフ事前学習

Self-supervised Heterogeneous Graph Pre-training Based on Structural Clustering ( http://arxiv.org/abs/2210.10462v1 )

ライセンス: Link先を確認
Yaming Yang, Ziyu Guan, Zhe Wang, Wei Zhao, Cai Xu, Weigang Lu, Jianbin Huang(参考訳) 近年, 従来の半教師付きヘテロジニアスグラフニューラルネットワーク (HGNN) と比較して, 有望な競争力を示した。 残念ながら、彼らのパフォーマンスは、高品質なポジティブな例やネガティブな例を生成するための様々な戦略を慎重にカスタマイズすることに大きく依存している。 本研究では,自己教師付き不均一グラフ事前学習手法であるSHGPを提案する。 同じ注目集約スキームを共有する2つのモジュールで構成されている。 各イテレーションにおいて、Att-LPAモジュールは構造クラスタリングを通じて擬似ラベルを生成し、Att-HGNNモジュールを誘導し、オブジェクトの埋め込みと注意係数を学習するセルフスーパービジョン信号として機能する。 2つのモジュールは互いに有効に利用し、強化し、識別的埋め込みを学ぶためのモデルを促進する。 4つの実世界のデータセットに対する大規模な実験は、最先端の教師なしベースラインや半教師なしベースラインに対してSHGPの優れた効果を示す。 ソースコードはhttps://github.com/kepsail/shgp。

Recent self-supervised pre-training methods on Heterogeneous Information Networks (HINs) have shown promising competitiveness over traditional semi-supervised Heterogeneous Graph Neural Networks (HGNNs). Unfortunately, their performance heavily depends on careful customization of various strategies for generating high-quality positive examples and negative examples, which notably limits their flexibility and generalization ability. In this work, we present SHGP, a novel Self-supervised Heterogeneous Graph Pre-training approach, which does not need to generate any positive examples or negative examples. It consists of two modules that share the same attention-aggregation scheme. In each iteration, the Att-LPA module produces pseudo-labels through structural clustering, which serve as the self-supervision signals to guide the Att-HGNN module to learn object embeddings and attention coefficients. The two modules can effectively utilize and enhance each other, promoting the model to learn discriminative embeddings. Extensive experiments on four real-world datasets demonstrate the superior effectiveness of SHGP against state-of-the-art unsupervised baselines and even semi-supervised baselines. We release our source code at: https://github.com/kepsail/SHGP.
翻訳日:2022-10-20 15:05:02 公開日:2022-10-19
# RLにおける一般化のための事前学習の力について:確率的便益と硬さ

On the Power of Pre-training for Generalization in RL: Provable Benefits and Hardness ( http://arxiv.org/abs/2210.10464v1 )

ライセンス: Link先を確認
Haotian Ye, Xiaoyu Chen, Liwei Wang, Simon S. Du(参考訳) 強化学習(RL)の一般化は、目標環境に一般化する訓練中にエージェントを学ぶことを目的としている。 本稿では,理論的な側面からrl一般化について考察する。 対象環境との相互作用が許されていない場合、我々は得られる最善策が平均的な意味でほぼ最適であると証明し、この目標を達成するアルゴリズムを設計する。 さらに, エージェントが対象環境と相互作用することが許された場合, 漸近的に事前学習による改善がほぼ一定であることを示す驚くべき結果が得られる。 一方,非漸近的なシステムでは,効率的なアルゴリズムを設計し,状態動作空間とは無関係な対象環境に拘束された分布に基づく後悔を証明する。

Generalization in Reinforcement Learning (RL) aims to learn an agent during training that generalizes to the target environment. This paper studies RL generalization from a theoretical aspect: how much can we expect pre-training over training environments to be helpful? When the interaction with the target environment is not allowed, we certify that the best we can obtain is a near-optimal policy in an average sense, and we design an algorithm that achieves this goal. Furthermore, when the agent is allowed to interact with the target environment, we give a surprising result showing that asymptotically, the improvement from pre-training is at most a constant factor. On the other hand, in the non-asymptotic regime, we design an efficient algorithm and prove a distribution-based regret bound in the target environment that is independent of the state-action space.
翻訳日:2022-10-20 15:04:40 公開日:2022-10-19
# 対話型自己指導型学習

Targeted Adversarial Self-Supervised Learning ( http://arxiv.org/abs/2210.10482v1 )

ライセンス: Link先を確認
Minseon Kim, Hyeonjeong Ha, Sooel Son, Sung Ju Hwang(参考訳) 近年,非教師なし対人訓練 (AT) が広範に研究され, ラベルなしデータに基づいて訓練されたモデルによる堅牢性を実現している。 この目的のために、従来の研究は自己教師付き学習(SSL)フレームワークに既存の教師付き敵訓練技術を適用してきた。 しかし,ラベル情報の欠如によるSSL設定では,対象とする敵の事例が得られないことから,未目標の敵の学習に頼っている。 本稿では,SSLフレームワークを対象とした新たな対人訓練手法を提案する。 具体的には,対応するSSLフレームワークのターゲット選択アルゴリズムを提案し,類似性とエントロピーに基づいて各インスタンスに対して最も混乱したサンプルを選択し,選択したターゲットサンプルに対して摂動する。 本手法は,同じ目標を達成するための既存手法とは異なり,大規模な画像や追加モデルを必要とすることなく,sslモデルのロバスト性を大幅に向上させる。 さらに,本手法は正のペアのみを使用する一般的なSSLフレームワークに適用可能である。 提案手法は,既存の教師なし逆行訓練法よりも優れた堅牢な精度が得られるベンチマークデータセット上で検証する。

Recently, unsupervised adversarial training (AT) has been extensively studied to attain robustness with the models trained upon unlabeled data. To this end, previous studies have applied existing supervised adversarial training techniques to self-supervised learning (SSL) frameworks. However, all have resorted to untargeted adversarial learning as obtaining targeted adversarial examples is unclear in the SSL setting lacking of label information. In this paper, we propose a novel targeted adversarial training method for the SSL frameworks. Specifically, we propose a target selection algorithm for the adversarial SSL frameworks; it is designed to select the most confusing sample for each given instance based on similarity and entropy, and perturb the given instance toward the selected target sample. Our method significantly enhances the robustness of an SSL model without requiring large batches of images or additional models, unlike existing works aimed at achieving the same goal. Moreover, our method is readily applicable to general SSL frameworks that only uses positive pairs. We validate our method on benchmark datasets, on which it obtains superior robust accuracies, outperforming existing unsupervised adversarial training methods.
翻訳日:2022-10-20 15:04:27 公開日:2022-10-19
# バイレベルアタックによる移動可能なロバスト表現学習

Few-shot Transferable Robust Representation Learning via Bilevel Attacks ( http://arxiv.org/abs/2210.10485v1 )

ライセンス: Link先を確認
Minseon Kim, Hyeonjeong Ha, Sung Ju Hwang(参考訳) ディープニューラルネットワークのロバスト性を高めるための既存の逆学習手法では、大量のデータが利用可能であり、そこから逆の例を生成することができる。 しかしながら、敵対的なメタラーニング環境では、モデルは、目に見えないタスクの堅牢なモデルを学ぶために、少数の敵の例でトレーニングする必要があります。 さらに、大量のデータであっても、未知のドメインに対する転送可能なロバスト表現の学習は難しい問題である。 このような課題に対処するために,タスクやドメインをまたいで一般化可能なロバストな表現を学習することを目的とした,二段階攻撃による対戦型自己教師型メタラーニングフレームワークを提案する。 具体的には、インナーループにおいて、2つの異なる拡張サンプルを用いてインナーグラデーションステップを採り、インスタンス分類損失を最大化して各ビューの逆例を生成することで、与えられたエンコーダのパラメータを更新する。 そして、外ループにおいてエンコーダパラメータをメタ学習し、2つの対角的例間の一致を最大化し、ロバストな表現を学習する。 提案手法が未確認領域適応タスクに与える影響を実験的に検証し,その有効性を実証した。 具体的には, 大規模データセットを用いた標準学習環境での自己教師あり学習ベースラインと同様に, 数発学習タスクにおける最先端のメタ敵学習法を著しく上回っている。

Existing adversarial learning methods for enhancing the robustness of deep neural networks assume the availability of a large amount of data from which we can generate adversarial examples. However, in an adversarial meta-learning setting, the model needs to train with only a few adversarial examples to learn a robust model for unseen tasks, which is a very difficult goal to achieve. Further, learning transferable robust representations for unseen domains is a difficult problem even with a large amount of data. To tackle such a challenge, we propose a novel adversarial self-supervised meta-learning framework with bilevel attacks which aims to learn robust representations that can generalize across tasks and domains. Specifically, in the inner loop, we update the parameters of the given encoder by taking inner gradient steps using two different sets of augmented samples, and generate adversarial examples for each view by maximizing the instance classification loss. Then, in the outer loop, we meta-learn the encoder parameter to maximize the agreement between the two adversarial examples, which enables it to learn robust representations. We experimentally validate the effectiveness of our approach on unseen domain adaptation tasks, on which it achieves impressive performance. Specifically, our method significantly outperforms the state-of-the-art meta-adversarial learning methods on few-shot learning tasks, as well as self-supervised learning baselines in standard learning settings with large-scale datasets.
翻訳日:2022-10-20 15:04:10 公開日:2022-10-19
# 消費者のエッジaiコンピューティングの未来

The Future of Consumer Edge-AI Computing ( http://arxiv.org/abs/2210.10514v1 )

ライセンス: Link先を確認
Stefanos Laskaridis and Stylianos I. Venieris and Alexandros Kouris and Rui Li and Nicholas D. Lane(参考訳) Deep Learningは10年足らずで消費者デバイス全体で劇的に普及したが、主に分離されたデバイス内のハードウェアアクセラレーションによって実現されてきた。 それにもかかわらず、次の10年間の消費者インテリジェンスには、リソースのレベル、モダリティの混合、ハードウェアのみにとどまらず大きなピボットを必要とするデバイスのコラボレーションが必要だという明確なシグナルが存在する。 これを実現するためには、ユーザプライバシを乗り越えたり、経験の質を損なうことなく、この移行を可能にするためには、新たなEdge-AIパラダイムが必要だと考えています。

Deep Learning has proliferated dramatically across consumer devices in less than a decade, but has been largely powered through the hardware acceleration within isolated devices. Nonetheless, clear signals exist that the next decade of consumer intelligence will require levels of resources, a mixing of modalities and a collaboration of devices that will demand a significant pivot beyond hardware alone. To accomplish this, we believe a new Edge-AI paradigm will be necessary for this transition to be possible in a sustainable manner, without trespassing user-privacy or hurting quality of experience.
翻訳日:2022-10-20 15:03:45 公開日:2022-10-19
# スプラインネットワークを用いた不規則サンプリング時系列モデリング

Irregularly-Sampled Time Series Modeling with Spline Networks ( http://arxiv.org/abs/2210.10630v1 )

ライセンス: Link先を確認
Marin Bilo\v{s}, Emanuel Ramneantu, Stephan G\"unnemann(参考訳) 連続して観測される観測はしばしば不規則であり、異なるチャネルにまたがる欠測値を含んでいる。 欠落データを扱う一つのアプローチは、区分多項式を観測値に当てはめることでスプラインを用いてそれを暗示することである。 本稿では,スプラインをニューラルネットワークへの入力として,特に格子上の点をサンプリングする代わりに,補間関数に直接変換を適用することを提案する。 そこで我々は,スプライン上で動作可能なレイヤを設計し,そのレイヤは個々のレイヤと類似する。 これにより、不規則シーケンスをコンパクトに表現でき、この表現を分類や予測といった下流タスクで使用できます。 本モデルは,既存の手法と比較して,精度と計算効率の両面で競合性能を提供する。

Observations made in continuous time are often irregular and contain the missing values across different channels. One approach to handle the missing data is imputing it using splines, by fitting the piecewise polynomials to the observed values. We propose using the splines as an input to a neural network, in particular, applying the transformations on the interpolating function directly, instead of sampling the points on a grid. To do that, we design the layers that can operate on splines and which are analogous to their discrete counterparts. This allows us to represent the irregular sequence compactly and use this representation in the downstream tasks such as classification and forecasting. Our model offers competitive performance compared to the existing methods both in terms of the accuracy and computation efficiency.
翻訳日:2022-10-20 15:03:34 公開日:2022-10-19
# モデルに基づく強化学習によるクロスタスク伝達の可能性について

On the Feasibility of Cross-Task Transfer with Model-Based Reinforcement Learning ( http://arxiv.org/abs/2210.10763v1 )

ライセンス: Link先を確認
Yifan Xu, Nicklas Hansen, Zirui Wang, Yung-Chieh Chan, Hao Su, Zhuowen Tu(参考訳) 強化学習(RL)アルゴリズムは、画像観察から直接、困難な制御問題を解くことができるが、数百万の環境相互作用を必要とすることが多い。 近年、モデルベースRLアルゴリズムは、世界の内部モデルを同時に学習し、実環境の相互作用を想像上のロールアウトで補うことで、サンプル効率を大幅に改善した。 しかし、スクラッチから世界の効果的なモデルを学ぶことは困難であり、新しいスキルを学ぶために世界の理解と視覚的手がかりに大きく依存する人間とは対照的である。 本研究では,最新のモデルベースRLアルゴリズムで学習した内部モデルを用いて,新しい,明らかに異なるタスクを高速に解くことができるかを検討する。 我々は,学習世界のモデルのスケーラブルな事前学習と微調整が可能な,サンプル効率の高いオンラインRLのためのフレームワークであるModel-Based Cross-Task Transfer (XTRA)を提案する。 オフラインのマルチタスク事前トレーニングとオンラインクロスタスクの微調整により、スクラッチからトレーニングしたベースラインよりもAtari100kベンチマークが大幅に改善され、モデルベースのアルゴリズムであるEfficientZeroの平均性能が23%向上し、場合によっては71%向上した。 プロジェクトページ: https://nicklashansen.github.io/xtra。

Reinforcement Learning (RL) algorithms can solve challenging control problems directly from image observations, but they often require millions of environment interactions to do so. Recently, model-based RL algorithms have greatly improved sample-efficiency by concurrently learning an internal model of the world, and supplementing real environment interactions with imagined rollouts for policy improvement. However, learning an effective model of the world from scratch is challenging, and in stark contrast to humans that rely heavily on world understanding and visual cues for learning new skills. In this work, we investigate whether internal models learned by modern model-based RL algorithms can be leveraged to solve new, distinctly different tasks faster. We propose Model-Based Cross-Task Transfer (XTRA), a framework for sample-efficient online RL with scalable pretraining and finetuning of learned world models. By offline multi-task pretraining and online cross-task finetuning, we achieve substantial improvements on the Atari100k benchmark over a baseline trained from scratch; we improve mean performance of model-based algorithm EfficientZero by 23%, and by as much as 71% in some instances. Project page: https://nicklashansen.github.io/xtra.
翻訳日:2022-10-20 15:03:15 公開日:2022-10-19
# 支援を求めるとき:自律強化学習における積極的な介入

When to Ask for Help: Proactive Interventions in Autonomous Reinforcement Learning ( http://arxiv.org/abs/2210.10765v1 )

ライセンス: Link先を確認
Annie Xie, Fahim Tajwar, Archit Sharma, Chelsea Finn(参考訳) 強化学習の長期的な目標は、世界で自律的に相互作用し学習できるエージェントを設計することである。 このような自律性に対する重要な課題は、ロボットアームが物体をテーブルから押し出したときなど、外部からの援助を必要とする不可逆的な状態の存在である。 標準エージェントはいつ介入するかを常に監視する必要があるが、必要な時にのみ人間の介入を要求できる積極的なエージェントを設計することを目指している。 そこで本研究では,非可逆状態の検出と回避を効率よく学習し,エージェントが侵入した場合に積極的に支援を求めるアルゴリズムを提案する。 未知の可逆状態を持つ一連の連続制御環境において,本アルゴリズムは既存手法と比較してサンプリング効率と介入効率がよいことを示す。 私たちのコードはhttps://sites.google.com/view/proactive-interventionsで公開されています。

A long-term goal of reinforcement learning is to design agents that can autonomously interact and learn in the world. A critical challenge to such autonomy is the presence of irreversible states which require external assistance to recover from, such as when a robot arm has pushed an object off of a table. While standard agents require constant monitoring to decide when to intervene, we aim to design proactive agents that can request human intervention only when needed. To this end, we propose an algorithm that efficiently learns to detect and avoid states that are irreversible, and proactively asks for help in case the agent does enter them. On a suite of continuous control environments with unknown irreversible states, we find that our algorithm exhibits better sample- and intervention-efficiency compared to existing methods. Our code is publicly available at https://sites.google.com/view/proactive-interventions
翻訳日:2022-10-20 15:02:54 公開日:2022-10-19
# havana: 航空機搭載レーザー走査点雲意味分割のための自己教師ありコントラスト学習を意識したハードネガティブなサンプル

HAVANA: Hard negAtiVe sAmples aware self-supervised coNtrastive leArning for Airborne laser scanning point clouds semantic segmentation ( http://arxiv.org/abs/2210.10626v1 )

ライセンス: Link先を確認
Yunsheng Zhang, Jianguo Yao, Ruixiang Zhang, Siyang Chen, Haifeng Li(参考訳) deep neural network (dnn) ベースのポイントクラウドセマンティクスセグメンテーションは、大規模ラベル付き空中レーザーポイントクラウドデータセットにおいて重要な業績を示している。 しかし、このような大規模点雲の注釈付けには時間がかかる。 航空機搭載レーザー走査(ALS)点雲の密度変化と空間的不均一性により、DNNは一般化能力が欠如しており、他の領域で直接利用された場合のDNNの訓練が不十分であったため、セマンティックセマンティックセマンティックセグメンテーションが実現できない。 しかし、SSL(Self-Supervised Learning)は、ラベルのないサンプルを使用してDNNモデルを事前訓練し、非常に限られたラベルを含むダウンストリームタスクを実行することで、この問題を解決するための有望な方法である。 そこで本研究では,意味的セグメンテーションのためのモデルを事前学習するための自己指導型コントラスト学習手法を提案する。 ポイントクラウドの伝統的なコントラスト学習は、学習プロセスから派生した埋め込みフィーチャ間の距離のみに依存することで最も難しいネガティブなサンプルを選択し、同じクラスからいくつかのネガティブなサンプルを進化させ、コントラスト学習の有効性を低下させる。 そこで我々は,k平均クラスタリングに基づくAbsPAN(Absolute Positive And Negative sample)戦略を設計し,偽陰性サンプルをフィルタリングする。 2つの典型的なALSベンチマークデータセットの実験により、提案手法は事前トレーニングなしで教師付きトレーニングスキームよりも魅力的であることが示された。 特にラベルが過度に不適切な場合(isprsトレーニングセットの10%)、提案手法によって得られた結果は、完全なトレーニングセットを持つ教師付きパラダイムパフォーマンスの94%を超えている。

Deep Neural Network (DNN) based point cloud semantic segmentation has presented significant achievements on large-scale labeled aerial laser point cloud datasets. However, annotating such large-scaled point clouds is time-consuming. Due to density variations and spatial heterogeneity of the Airborne Laser Scanning (ALS) point clouds, DNNs lack generalization capability and thus lead to unpromising semantic segmentation, as the DNN trained in one region underperform when directly utilized in other regions. However, Self-Supervised Learning (SSL) is a promising way to solve this problem by pre-training a DNN model utilizing unlabeled samples followed by a fine-tuned downstream task involving very limited labels. Hence, this work proposes a hard-negative sample aware self-supervised contrastive learning method to pre-train the model for semantic segmentation. The traditional contrastive learning for point clouds selects the hardest negative samples by solely relying on the distance between the embedded features derived from the learning process, potentially evolving some negative samples from the same classes to reduce the contrastive learning effectiveness. Therefore, we design an AbsPAN (Absolute Positive And Negative samples) strategy based on k-means clustering to filter the possible false-negative samples. Experiments on two typical ALS benchmark datasets demonstrate that the proposed method is more appealing than supervised training schemes without pre-training. Especially when the labels are severely inadequate (10% of the ISPRS training set), the results obtained by the proposed HAVANA method still exceed 94% of the supervised paradigm performance with full training set.
翻訳日:2022-10-20 14:57:19 公開日:2022-10-19
# CroCo: クロスビューコンプリートによる3次元視覚タスクのための自己監督型事前トレーニング

CroCo: Self-Supervised Pre-training for 3D Vision Tasks by Cross-View Completion ( http://arxiv.org/abs/2210.10716v1 )

ライセンス: Link先を確認
Philippe Weinzaepfel, Vincent Leroy, Thomas Lucas, Romain Br\'egier, Yohann Cabon, Vaibhav Arora, Leonid Antsfeld, Boris Chidlovskii, Gabriela Csurka, J\'er\^ome Revaud(参考訳) Masked Image Modeling (MIM)は、最近、強力な事前学習パラダイムとして確立されている。 プリテキストタスクは、入力画像中のパッチをマスキングして構築され、このマスキング内容は、可視パッチを単独の入力としてニューラルネットワークにより予測される。 この事前トレーニングは、画像分類やオブジェクト検出など、高レベルのセマンティックタスクのために微調整された場合、最先端のパフォーマンスをもたらす。 本稿では,その代わりに,深度予測や光流量推定など,様々な3次元視覚や低レベルな幾何学的下流課題にうまく移行する表現を学習することを目指す。 MIMに触発されて、異なる視点から同じシーンを示す画像のペアから訓練された教師なし表現学習タスクを提案する。 より正確には、第1の入力画像が部分的にマスクされ、このマスクコンテンツが可視コンテンツと第2の画像から再構築されなければならない、クロスビュー補完のプリテキストタスクを提案する。 シングルビューMIMでは、マスクされたコンテンツは可視部分のみから正確に推測できないことが多いため、高レベルのセマンティクスに影響された事前の動作としてモデルが学習する。 対照的に、この曖昧さは、モデルが2つの画像間の空間的関係を理解できることを条件として、第2の未表示画像からのクロスビュー補完によって解決することができる。 実験の結果,プレテキストタスクは深度推定などの単眼3次元視覚下流タスクの性能を著しく向上させることがわかった。 さらに,本モデルは,光学フローや相対カメラポーズ推定などの両眼下流タスクに直接適用可能であり,タスク固有の設計を伴わない汎用アーキテクチャを用いて,ベルやホイッスルを使わずに競争結果を得ることができる。

Masked Image Modeling (MIM) has recently been established as a potent pre-training paradigm. A pretext task is constructed by masking patches in an input image, and this masked content is then predicted by a neural network using visible patches as sole input. This pre-training leads to state-of-the-art performance when finetuned for high-level semantic tasks, e.g. image classification and object detection. In this paper we instead seek to learn representations that transfer well to a wide variety of 3D vision and lower-level geometric downstream tasks, such as depth prediction or optical flow estimation. Inspired by MIM, we propose an unsupervised representation learning task trained from pairs of images showing the same scene from different viewpoints. More precisely, we propose the pretext task of cross-view completion where the first input image is partially masked, and this masked content has to be reconstructed from the visible content and the second image. In single-view MIM, the masked content often cannot be inferred precisely from the visible portion only, so the model learns to act as a prior influenced by high-level semantics. In contrast, this ambiguity can be resolved with cross-view completion from the second unmasked image, on the condition that the model is able to understand the spatial relationship between the two images. Our experiments show that our pretext task leads to significantly improved performance for monocular 3D vision downstream tasks such as depth estimation. In addition, our model can be directly applied to binocular downstream tasks like optical flow or relative camera pose estimation, for which we obtain competitive results without bells and whistles, i.e., using a generic architecture without any task-specific design.
翻訳日:2022-10-20 14:56:02 公開日:2022-10-19
# LaMAR: 拡張現実のためのローカライゼーションとマッピングのベンチマーク

LaMAR: Benchmarking Localization and Mapping for Augmented Reality ( http://arxiv.org/abs/2210.10770v1 )

ライセンス: Link先を確認
Paul-Edouard Sarlin, Mihai Dusmanu, Johannes L. Sch\"onberger, Pablo Speciale, Lukas Gruber, Viktor Larsson, Ondrej Miksik, Marc Pollefeys(参考訳) ローカライゼーションとマッピングは、現実世界におけるデジタルコンテンツの共有と永続化を可能にする拡張現実(AR)の基礎技術である。 かなりの進歩があったが、研究者たちはいまだに現実のARシナリオを代表していない非現実的なベンチマークによって推進されている。 これらのベンチマークは、しばしば、シーンの多様性が低い小さなデータセットに基づいており、静止カメラからキャプチャされ、慣性、ラジオ、深度データのような他のセンサー入力が欠けている。 さらに、その接地精度(gt)はar要件を満たすには不十分である。 このギャップを埋めるために、lamarを紹介します。これは包括的なキャプチャとgtパイプラインを備えた新しいベンチマークで、大きな制約のないシーンで、異種arデバイスによってキャプチャされたリアルなトラジェクタとセンサストリームを共登録します。 正確なGTを確立するために、我々のパイプラインは、完全に自動化された方法でレーザースキャンに対して軌道を頑健に整列する。 その結果、ヘッドマウントとハンドヘルドARデバイスで記録された多様な大規模シーンのベンチマークデータセットを公表した。 我々は、AR固有の設定を活用するためにいくつかの最先端の手法を拡張し、ベンチマークでそれらを評価する。 この結果は、現在の研究に関する新たな洞察を与え、ARのローカライゼーションとマッピングの分野における今後の研究の道筋を明らかにする。

Localization and mapping is the foundational technology for augmented reality (AR) that enables sharing and persistence of digital content in the real world. While significant progress has been made, researchers are still mostly driven by unrealistic benchmarks not representative of real-world AR scenarios. These benchmarks are often based on small-scale datasets with low scene diversity, captured from stationary cameras, and lack other sensor inputs like inertial, radio, or depth data. Furthermore, their ground-truth (GT) accuracy is mostly insufficient to satisfy AR requirements. To close this gap, we introduce LaMAR, a new benchmark with a comprehensive capture and GT pipeline that co-registers realistic trajectories and sensor streams captured by heterogeneous AR devices in large, unconstrained scenes. To establish an accurate GT, our pipeline robustly aligns the trajectories against laser scans in a fully automated manner. As a result, we publish a benchmark dataset of diverse and large-scale scenes recorded with head-mounted and hand-held AR devices. We extend several state-of-the-art methods to take advantage of the AR-specific setup and evaluate them on our benchmark. The results offer new insights on current research and reveal promising avenues for future work in the field of localization and mapping for AR.
翻訳日:2022-10-20 14:55:32 公開日:2022-10-19
# オブジェクトの発見と検出を学ぶ

Learning to Discover and Detect Objects ( http://arxiv.org/abs/2210.10774v1 )

ライセンス: Link先を確認
Vladimir Fomenko, Ismail Elezi, Deva Ramanan, Laura Leal-Taix\'e, Aljo\v{s}a O\v{s}ep(参考訳) そこで我々は,新しいクラス発見,検出,局所化(NCDL)の問題に取り組む。 この設定では、よく観察されるクラスのオブジェクトのラベル付きソースデータセットを仮定する。 他のクラスのインスタンスは人間の監督なしに視覚的類似性に基づいて自動的に発見、分類、ローカライズする必要がある。 本研究では,対象候補のローカライズに領域提案ネットワークを用いた2段階のオブジェクト検出ネットワークであるncdl(rncdl)を提案する。対象候補のローカライズには,ソースデータセットで見られる既知のクラスの1つとして,あるいは拡張された新規クラスの1つとして,実世界のクラスの自然な頻度を反映して,クラス割り当てにロングテール分布制約を課すように,各候補を分類する訓練を行う。 検出ネットワークをエンドツーエンドでトレーニングすることにより、ラベル付きオブジェクトクラス語彙の一部ではないものを含む、さまざまなクラスに対するすべてのリージョン提案を分類することを学ぶ。 COCOおよびLVISデータセットを用いて実施した実験により,従来のクラスタリングアルゴリズムや事前抽出作物を用いたマルチステージパイプラインと比較して,本手法の方がはるかに効果的であることが判明した。 さらに,本手法を大規模視覚ゲノムデータセットに適用し,ネットワークが明示的な監督なしに様々な意味クラスの検出を成功させる手法の汎用性を示す。

We tackle the problem of novel class discovery, detection, and localization (NCDL). In this setting, we assume a source dataset with labels for objects of commonly observed classes. Instances of other classes need to be discovered, classified, and localized automatically based on visual similarity, without human supervision. To this end, we propose a two-stage object detection network Region-based NCDL (RNCDL), that uses a region proposal network to localize object candidates and is trained to classify each candidate, either as one of the known classes, seen in the source dataset, or one of the extended set of novel classes, with a long-tail distribution constraint on the class assignments, reflecting the natural frequency of classes in the real world. By training our detection network with this objective in an end-to-end manner, it learns to classify all region proposals for a large variety of classes, including those that are not part of the labeled object class vocabulary. Our experiments conducted using COCO and LVIS datasets reveal that our method is significantly more effective compared to multi-stage pipelines that rely on traditional clustering algorithms or use pre-extracted crops. Furthermore, we demonstrate the generality of our approach by applying our method to a large-scale Visual Genome dataset, where our network successfully learns to detect various semantic classes without explicit supervision.
翻訳日:2022-10-20 14:55:11 公開日:2022-10-19
# 法文における多粒性引数マイニング

Multi-granularity Argument Mining in Legal Texts ( http://arxiv.org/abs/2210.09472v2 )

ライセンス: Link先を確認
Huihui Xu and Kevin Ashley(参考訳) 本稿では,複数レベルの粒度を用いた法的議論マイニングについて検討する。 論証マイニングは通常、文分類問題として概念化されている。 本研究では,議論マイニングをトークンレベル(単語レベル)の分類問題として捉えた。 トークンの分類にはLongformerモデルを使用します。 その結果、トークンレベルのテキスト分類は、文章レベルのテキスト分類よりも正確に、特定の法的議論要素を識別することを示した。 トークンレベルの分類はまた、法的なテキストを分析し、大量の入力データを処理する際にモデルが何に焦点を当てているかについてのさらなる洞察を得るための柔軟性を提供する。

In this paper, we explore legal argument mining using multiple levels of granularity. Argument mining has usually been conceptualized as a sentence classification problem. In this work, we conceptualize argument mining as a token-level (i.e., word-level) classification problem. We use a Longformer model to classify the tokens. Results show that token-level text classification identifies certain legal argument elements more accurately than sentence-level text classification. Token-level classification also provides greater flexibility to analyze legal texts and to gain more insight into what the model focuses on when processing a large amount of input data.
翻訳日:2022-10-20 14:54:46 公開日:2022-10-19
# CEntRE:企業間の関係抽出のための段落レベルの中国語データセット

CEntRE: A paragraph-level Chinese dataset for Relation Extraction among Enterprises ( http://arxiv.org/abs/2210.10581v1 )

ライセンス: Link先を確認
Peipei Liu, Hong Li, Zhiyu Wang, Yimo Ren, Jie Liu, Fei Lyu, Hongsong Zhu, Limin Sun(参考訳) 企業関係抽出は、企業エンティティのペアを検出し、非構造化または半構造化テキストデータからそれらのビジネス関係を識別することを目的としており、リスク分析、レーティングリサーチ、サプライチェーンセキュリティなど、いくつかの現実のアプリケーションにとって重要である。 しかし、従来の研究は主に人事や企業事業などの企業属性情報を得ることに重点を置いており、企業関係の抽出にはほとんど注意を払っていない。 研究のさらなる進展を促すため、CEntREは、人間の注意深いアノテーションとインテリジェントなデータ処理を備えた、公開可能なビジネスニュースデータから構築された新しいデータセットである。 6つの優れたモデルを用いたセンターに関する広範な実験は、提案するデータセットの課題を実証する。

Enterprise relation extraction aims to detect pairs of enterprise entities and identify the business relations between them from unstructured or semi-structured text data, and it is crucial for several real-world applications such as risk analysis, rating research and supply chain security. However, previous work mainly focuses on getting attribute information about enterprises like personnel and corporate business, and pays little attention to enterprise relation extraction. To encourage further progress in the research, we introduce the CEntRE, a new dataset constructed from publicly available business news data with careful human annotation and intelligent data processing. Extensive experiments on CEntRE with six excellent models demonstrate the challenges of our proposed dataset.
翻訳日:2022-10-20 14:54:40 公開日:2022-10-19
# Few-Shot Document Re-Ranking を用いた情報検索検索のための関連フィードバックの導入

Incorporating Relevance Feedback for Information-Seeking Retrieval using Few-Shot Document Re-Ranking ( http://arxiv.org/abs/2210.10695v1 )

ライセンス: Link先を確認
Tim Baumg\"artner, Leonardo F. R. Ribeiro, Nils Reimers, Iryna Gurevych(参考訳) 語彙レトリバーをニューラルリグレードモデルでペアリングすることで、大規模情報検索データセットに最先端のパフォーマンスを設定できる。 このパイプラインは質問応答やナビゲーションクエリといったシナリオをカバーするが、情報参照シナリオでは、ユーザはクリックや明示的なフィードバックという形式で、ドキュメントがクエリに関連しているかどうかに関する情報を提供することが多い。 そこで本研究では,少数ショットとパラメータ効率の学習手法を用いて,関連性フィードバックをニューラルリグレードモデルに直接組み込む方法について検討する。 具体的には,問合せと関連する文書との類似性に基づいて,文書の再ランク付けを行うkn手法を提案する。 さらに,メタラーニングを用いて事前学習したクロスエンコーダモデルについて検討し,各クエリに対して微調整を行い,フィードバック文書のみをトレーニングする。 異なる統合戦略を評価するため、既存の4つの情報検索データセットを関連フィードバックシナリオに変換する。 大規模な実験では、関連するフィードバックをニューラルリランクモデルに直接組み込むことでパフォーマンスが向上し、最もパフォーマンスのよいニューラルリランカによる語彙ランク付けが5.2nDCG@20の他の手法よりも優れていることが示されている。

Pairing a lexical retriever with a neural re-ranking model has set state-of-the-art performance on large-scale information retrieval datasets. This pipeline covers scenarios like question answering or navigational queries, however, for information-seeking scenarios, users often provide information on whether a document is relevant to their query in form of clicks or explicit feedback. Therefore, in this work, we explore how relevance feedback can be directly integrated into neural re-ranking models by adopting few-shot and parameter-efficient learning techniques. Specifically, we introduce a kNN approach that re-ranks documents based on their similarity with the query and the documents the user considers relevant. Further, we explore Cross-Encoder models that we pre-train using meta-learning and subsequently fine-tune for each query, training only on the feedback documents. To evaluate our different integration strategies, we transform four existing information retrieval datasets into the relevance feedback scenario. Extensive experiments demonstrate that integrating relevance feedback directly in neural re-ranking models improves their performance, and fusing lexical ranking with our best performing neural re-ranker outperforms all other methods by 5.2 nDCG@20.
翻訳日:2022-10-20 14:54:26 公開日:2022-10-19
# クロスモーダルオーディエンスカウントのための空間チャネルアテンションブロック

Spatio-channel Attention Blocks for Cross-modal Crowd Counting ( http://arxiv.org/abs/2210.10392v1 )

ライセンス: Link先を確認
Youjia Zhang, Soyun Choi, and Sungeun Hong(参考訳) クラウドカウント研究は現実世界のアプリケーションで大きな進歩を遂げてきたが、クロスモーダル環境では依然として大きな課題である。 既存の手法のほとんどはRGB画像の光学的特徴にのみ依存しており、熱画像や深度画像のような他のモードの可能性を無視している。 異なるモダリティとモデルアーキテクチャのデザイン選択の多様性の間に本質的に重要な違いがあるため、クロスモーダルな群衆の数え方がより困難になる。 本稿では,任意のモダリティ固有のアーキテクチャに容易に組み込むことができるクロスモーダル・スパパ・チャネル・アテンション(CSCA)ブロックを提案する。 CSCAブロックは、まず、空間的なクロスモーダルな注意を通して、オーバーヘッドの少ないマルチモーダル間のグローバルな機能的相関を空間的に捉える。 空間的注意を伴うクロスモーダルな特徴は、適応的なチャネルワイドな特徴集約によって改善される。 実験の結果,提案ブロックは様々なバックボーンネットワークにおいて高い性能向上を示し,その結果,RGB-TとRGB-Dの群衆カウントが実現した。

Crowd counting research has made significant advancements in real-world applications, but it remains a formidable challenge in cross-modal settings. Most existing methods rely solely on the optical features of RGB images, ignoring the feasibility of other modalities such as thermal and depth images. The inherently significant differences between the different modalities and the diversity of design choices for model architectures make cross-modal crowd counting more challenging. In this paper, we propose Cross-modal Spatio-Channel Attention (CSCA) blocks, which can be easily integrated into any modality-specific architecture. The CSCA blocks first spatially capture global functional correlations among multi-modality with less overhead through spatial-wise cross-modal attention. Cross-modal features with spatial attention are subsequently refined through adaptive channel-wise feature aggregation. In our experiments, the proposed block consistently shows significant performance improvement across various backbone networks, resulting in state-of-the-art results in RGB-T and RGB-D crowd counting.
翻訳日:2022-10-20 14:48:51 公開日:2022-10-19
# セグメンテーションフリー直接虹彩定位ネットワーク

Segmentation-free Direct Iris Localization Networks ( http://arxiv.org/abs/2210.10403v1 )

ライセンス: Link先を確認
Takahiro Toizumi and Koichi Takahashi and Masato Tsukada(参考訳) 本稿では,アイリス分割と円環嵌合を用いない効率的なアイリス局所化法を提案する。 U-Netのようなセマンティックセグメンテーション手法を用いてアイリス領域を抽出する。 その後、内側と外側の虹彩円は従来の円嵌合アルゴリズムを用いて局所化される。 しかし、このアプローチではアイリスセグメンテーションのために高分解能エンコーダデコーダネットワークが必要であるため、計算コストが高くなる。 さらに、従来の円の嵌合は入力画像や嵌合パラメータのノイズに敏感であり、虹彩認識性能は低下する傾向にある。 これらの問題を解決するために,低解像度の虹彩画像から瞳孔と虹彩円を直接局所化できる虹彩局所化ネットワーク(ILN)を提案する。 また, 瞳孔定位精度を向上させるために, 瞳孔改善ネットワーク (prn) を導入する。 実験の結果, ILNとPRNの組み合わせはCPU上の1アイリス画像に対して34.5msで動作し, 局所化性能は従来のアイリス分割法よりも優れていた。 さらに, 提案手法は, 他のセグメンテーション手法よりも, 異なる領域のデータセットに対するロバスト性が高いことを示す。 さらに,提案したILNとPRNが虹彩認識精度を向上させることも確認した。

This paper proposes an efficient iris localization method without using iris segmentation and circle fitting. Conventional iris localization methods first extract iris regions by using semantic segmentation methods such as U-Net. Afterward, the inner and outer iris circles are localized using the traditional circle fitting algorithm. However, this approach requires high-resolution encoder-decoder networks for iris segmentation, so it causes computational costs to be high. In addition, traditional circle fitting tends to be sensitive to noise in input images and fitting parameters, causing the iris recognition performance to be poor. To solve these problems, we propose an iris localization network (ILN), that can directly localize pupil and iris circles with eyelid points from a low-resolution iris image. We also introduce a pupil refinement network (PRN) to improve the accuracy of pupil localization. Experimental results show that the combination of ILN and PRN works in 34.5 ms for one iris image on a CPU, and its localization performance outperforms conventional iris segmentation methods. In addition, generalized evaluation results show that the proposed method has higher robustness for datasets in different domain than other segmentation methods. Furthermore, we also confirm that the proposed ILN and PRN improve the iris recognition accuracy.
翻訳日:2022-10-20 14:48:34 公開日:2022-10-19
# ドメイン一般化による多機能戦略の再同定

Domain generalization Person Re-identification on Attention-aware multi-operation strategery ( http://arxiv.org/abs/2210.10409v1 )

ライセンス: Link先を確認
Yingchun Guo, Huan He, Ye Zhu, Yang Yu(参考訳) ドメインの一般化者再識別(DG Re-ID)は、ソースドメインでトレーニングされたモデルを、優れた汎用性を備えた未確認のターゲットドメインに直接デプロイすることを目的としています。 既存のDG Re-ID法では、不変操作はドメインの一般化特徴の抽出に有効であり、インスタンス正規化(IN)またはバッチ正規化(BN)は未確認領域へのバイアスを軽減するために使用される。 個々のソースドメインの識別性を捉えるために使われるドメイン固有の情報のため、見当たらないドメインに対する一般的な能力は不十分である。 この問題を解決するために,dg re-idのための注意対応マルチオペレーションストラテジー(ams)を提案する。 不変操作を調査し,inおよびgroup whitening (gw) に基づくマルチオペレーションモジュールを構築し,ドメイン不変特徴表現を抽出する。 さらに,異なる領域不変特性を解析し,空間的注意をIN操作に適用し,チャネル注意をGW操作に適用し,ドメイン不変特性を向上する。 提案されたamsモジュールは、既存のネットワークアーキテクチャに組み込むためのプラグアンドプレイモジュールとして使用できる。 広範な実験結果から,amsは非認識領域に対するモデルの一般化能力を効果的に向上させ,10個のデータセットを持つ3つのプロトコル上でのdg re-idの認識性能を大幅に向上できることがわかった。

Domain generalization person re-identification (DG Re-ID) aims to directly deploy a model trained on the source domain to the unseen target domain with good generalization, which is a challenging problem and has practical value in a real-world deployment. In the existing DG Re-ID methods, invariant operations are effective in extracting domain generalization features, and Instance Normalization (IN) or Batch Normalization (BN) is used to alleviate the bias to unseen domains. Due to domain-specific information being used to capture discriminability of the individual source domain, the generalized ability for unseen domains is unsatisfactory. To address this problem, an Attention-aware Multi-operation Strategery (AMS) for DG Re-ID is proposed to extract more generalized features. We investigate invariant operations and construct a multi-operation module based on IN and group whitening (GW) to extract domain-invariant feature representations. Furthermore, we analyze different domain-invariant characteristics, and apply spatial attention to the IN operation and channel attention to the GW operation to enhance the domain-invariant features. The proposed AMS module can be used as a plug-and-play module to incorporate into existing network architectures. Extensive experimental results show that AMS can effectively enhance the model's generalization ability to unseen domains and significantly improves the recognition performance in DG Re-ID on three protocols with ten datasets.
翻訳日:2022-10-20 14:48:12 公開日:2022-10-19
# 遠近法とパノラマ深度画像登録による360度パノラマの高解像度深度推定

High-Resolution Depth Estimation for 360-degree Panoramas through Perspective and Panoramic Depth Images Registration ( http://arxiv.org/abs/2210.10414v1 )

ライセンス: Link先を確認
Chi-Han Peng and Jiayao Zhang(参考訳) 本研究では,パノラマの高分解能(2048×1024以上)深度を計算する新しい手法を提案する。 従来のニューラルネットワークベースの手法では、gpuメモリの制約による出力画像サイズ(最大1024x512)が制限されているため、360monodepthと我々の手法は、複数の視点の差や深度画像を縫い合わせることで、統一されたパノラマ深度マップを生成する。 しかし, [23] は, 広範囲な不均一マップアライメントとポアソンをベースとしたブレンディング問題を解くことに集中し, 高い計算時間を要した。 そこで我々は,既存のパノラマ深度マップ(任意のパノラマ方式でリアルタイムに計算)を,個々の視点深度マップが登録する共通のターゲットとして用いることを提案する。 このキーとなるアイデアは、単純なタスクからグローバルに一貫した縫合結果を生み出しました。 実験の結果,既存のパノラマ法よりも定性的に優れた結果が得られた。

We propose a novel approach to compute high-resolution (2048x1024 and higher) depths for panoramas that is significantly faster and qualitatively and qualitatively more accurate than the current state-of-the-art method (360MonoDepth). As traditional neural network-based methods have limitations in the output image sizes (up to 1024x512) due to GPU memory constraints, both 360MonoDepth and our method rely on stitching multiple perspective disparity or depth images to come out a unified panoramic depth map. However, to achieve globally consistent stitching, [23] relied on solving extensive disparity map alignment and Poisson-based blending problems, leading to high computation time. Instead, we propose to use an existing panoramic depth map (computed in real-time by any panorama-based method) as the common target for the individual perspective depth maps to register to. This key idea made producing globally consistent stitching results from a straightforward task. Our experiments show that our method generates qualitatively better results than existing panorama-based methods, and further outperforms them quantitatively on datasets unseen by these methods.
翻訳日:2022-10-20 14:47:45 公開日:2022-10-19
# 半監督セマンティックセグメンテーションのための擬似ラベルノイズ抑制技術

Pseudo-Label Noise Suppression Techniques for Semi-Supervised Semantic Segmentation ( http://arxiv.org/abs/2210.10426v1 )

ライセンス: Link先を確認
Sebastian Scherer, Robin Sch\"on and Rainer Lienhart(参考訳) 半教師付き学習(SSL)は、トレーニングに不正なデータを組み込むことで、大きなラベル付きデータセットの必要性を減らすことができる。 これは、データラベリングが非常に費用がかかり、時間がかかるセマンティックセグメンテーションにおいて特に興味深い。 現在のSSLアプローチでは、初期教師付きトレーニングされたモデルを使用して、擬似ラベルと呼ばれる未ラベルのイメージの予測を生成し、その後、新しいモデルをスクラッチからトレーニングするために使用される。 予測は通常、エラーのないニューラルネットワークから来ないため、自然にエラーに満ちている。 しかし、部分的に不正確なラベルを持つトレーニングは、しばしば最終モデルのパフォーマンスを低下させる。 したがって、疑似ラベルのエラー/ノイズを賢明に管理することが重要である。 本研究では,疑似ラベルノイズと誤差を制御する3つのメカニズムを用いて,(1)ラベルなし画像に牛のパターンとイメージを混合することにより,誤った疑似ラベルの悪影響を低減し,堅固なベースフレームワークを構築する。 それでも、間違った擬似ラベルはパフォーマンスに悪影響を及ぼす。 そこで本研究では,擬似ラベルを訓練したモデルのフィードバックによって定義される擬似ラベルに対する簡易かつ効果的な損失重み付け手法を提案する。 これにより、トレーニング中に決定された信頼スコアに基づいて、擬似ラベルトレーニング例をソフトウェイトにすることができる。 また,信頼度が低い擬似ラベルを無視し,SSLに対する信頼度が異なる擬似ラベルの影響と効果を実証的に分析し,達成可能な性能向上への擬似ラベルフィルタリングの寄与について検討した。 提案手法は,様々なデータセットにおける最先端の代替手法よりも優れていることを示す。 また,本研究の成果は,人間のポーズ推定など他の課題にも反映されている。 私たちのコードはhttps://github.com/ChristmasFan/SSL_Denoising_Segmentationで利用可能です。

Semi-supervised learning (SSL) can reduce the need for large labelled datasets by incorporating unlabelled data into the training. This is particularly interesting for semantic segmentation, where labelling data is very costly and time-consuming. Current SSL approaches use an initially supervised trained model to generate predictions for unlabelled images, called pseudo-labels, which are subsequently used for training a new model from scratch. Since the predictions usually do not come from an error-free neural network, they are naturally full of errors. However, training with partially incorrect labels often reduce the final model performance. Thus, it is crucial to manage errors/noise of pseudo-labels wisely. In this work, we use three mechanisms to control pseudo-label noise and errors: (1) We construct a solid base framework by mixing images with cow-patterns on unlabelled images to reduce the negative impact of wrong pseudo-labels. Nevertheless, wrong pseudo-labels still have a negative impact on the performance. Therefore, (2) we propose a simple and effective loss weighting scheme for pseudo-labels defined by the feedback of the model trained on these pseudo-labels. This allows us to soft-weight the pseudo-label training examples based on their determined confidence score during training. (3) We also study the common practice to ignore pseudo-labels with low confidence and empirically analyse the influence and effect of pseudo-labels with different confidence ranges on SSL and the contribution of pseudo-label filtering to the achievable performance gains. We show that our method performs superior to state of-the-art alternatives on various datasets. Furthermore, we show that our findings also transfer to other tasks such as human pose estimation. Our code is available at https://github.com/ChristmasFan/SSL_Denoising_Segmentation.
翻訳日:2022-10-20 14:47:25 公開日:2022-10-19
# MCハンドス-1M:ポーズ推定のための手袋装着ハンドデータセット

MC-hands-1M: A glove-wearing hand dataset for pose estimation ( http://arxiv.org/abs/2210.10428v1 )

ライセンス: Link先を確認
Prodromos Boutis, Zisis Batzos, Konstantinos Konstantoudakis, Anastasios Dimou, Petros Daras(参考訳) 今日では、コンピュータビジョンモジュールのトレーニングのための大量の注意深く複雑な注釈付きデータの必要性が高まっている。 さらに, 研究コミュニティは, 多くの問題に対して技術ソリューションの現状を提示するが, 手袋を装着した手のポーズ推定や追跡など, 一般的なアプローチでは正確な解が得られず, 完全に失敗する傾向にある特別な事例が存在する。 本研究では,コンピュータビジョンにおけるデータ合成の価値を表現すべく,手袋着用手の3次元ポーズ推定のための合成データセット1を提案する。 このデータセットは、公的な手関節検出モデルを微調整するために使用され、手袋をはめた手の合成画像と実際の画像の両方で大きなパフォーマンスを達成する。

Nowadays, the need for large amounts of carefully and complexly annotated data for the training of computer vision modules continues to grow. Furthermore, although the research community presents state of the art solutions to many problems, there exist special cases, such as the pose estimation and tracking of a glove-wearing hand, where the general approaches tend to be unable to provide an accurate solution or fail completely. In this work, we are presenting a synthetic dataset1 for 3D pose estimation of glove-wearing hands, in order to depict the value of data synthesis in computer vision. The dataset is used to fine-tune a public hand joint detection model, achieving significant performance in both synthetic and real images of glove-wearing hands.
翻訳日:2022-10-20 14:46:56 公開日:2022-10-19
# faceancer: ポーズと咬合を認識する高忠実度顔交換

FaceDancer: Pose- and Occlusion-Aware High Fidelity Face Swapping ( http://arxiv.org/abs/2210.10473v1 )

ライセンス: Link先を確認
Felix Rosberg, Eren Erdal Aksoy, Fernando Alonso-Fernandez, Cristofer Englund(参考訳) そこで本研究では,FaceDancerという顔交換とID転送のための単一ステージ方式を提案する。 適応的特徴融合注意(AFFA)と解釈的特徴類似性規則化(IFSR)の2つの主要な貢献がある。 AFFAモジュールはデコーダに埋め込まれており、追加の顔分割処理を必要とせず、アイデンティティ情報に条件付けられた属性特徴と特徴を融合させることを適応的に学習する。 IFSRでは,頭部ポーズ,表情,照明,隠蔽などの重要な属性を保持するために,識別エンコーダの中間的特徴を活用しながら,元の顔のアイデンティティを高い忠実度で転送する。 各種データセットの定量的および定性的な実験を行い,提案したFaceDancerが,従来の手法よりもはるかに優れたポーズ保存を実現しつつ,他の最先端ネットワークよりも優れていることを示す。

In this work, we present a new single-stage method for subject agnostic face swapping and identity transfer, named FaceDancer. We have two major contributions: Adaptive Feature Fusion Attention (AFFA) and Interpreted Feature Similarity Regularization (IFSR). The AFFA module is embedded in the decoder and adaptively learns to fuse attribute features and features conditioned on identity information without requiring any additional facial segmentation process. In IFSR, we leverage the intermediate features in an identity encoder to preserve important attributes such as head pose, facial expression, lighting, and occlusion in the target face, while still transferring the identity of the source face with high fidelity. We conduct extensive quantitative and qualitative experiments on various datasets and show that the proposed FaceDancer outperforms other state-of-the-art networks in terms of identityn transfer, while having significantly better pose preservation than most of the previous methods.
翻訳日:2022-10-20 14:46:43 公開日:2022-10-19
# 画像異常検出のための非対称蒸留後分離法

Asymmetric Distillation Post-Segmentation Method for Image Anomaly Detection ( http://arxiv.org/abs/2210.10495v1 )

ライセンス: Link先を確認
Peng Xing, Zechao Li(参考訳) 知識蒸留に基づく異常検出手法は、入力の対称形式によって未知のクラスに対して同じ出力を生成し、参照基準としてのみ使用されるため、教師ネットワークの出力の強力な意味情報を無視する。 そこで本研究では,教師ネットワークの非対称構造と識別特性を効果的に探索する,新しい非対称蒸留ポストセグメンテーション(ADPS)法を提案する。 具体的には,教師と生徒のネットワークを通して異なるデータの流れを流すための,単純かつ効果的な非対称な入力手法を提案する。 学生ネットワークは、異なる誘導能力と表現能力を持ち、異常領域で異なる出力を生成することができる。 さらに,教師ネットワークのセマンティック情報を探究し,効果的な識別境界を求めるために,ワイトマスクブロック(WMB)とポストセグメンテーションモジュールを提案する。 WMBは教師が学習する特徴マップを探索し、異常な特徴を強調することで重み付け戦略を活用する。 セグメント化後モジュールは、さらに異常な特徴を学習し、有効な判別境界を得る。 3つのベンチマークデータセットによる実験結果から,ADPSは最先端の異常セグメンテーション結果が得られることが示された。

Knowledge distillation-based anomaly detection methods generate same outputs for unknown classes due to the symmetric form of the input and ignore the powerful semantic information of the output of the teacher network since it is only used as a "reference standard". Towards this end, this work proposes a novel Asymmetric Distillation Post-Segmentation (ADPS) method to effectively explore the asymmetric structure of the input and the discriminative features of the teacher network. Specifically, a simple yet effective asymmetric input approach is proposed to make different data flows through the teacher and student networks. The student network enables to have different inductive and expressive abilities, which can generate different outputs in anomalous regions. Besides, to further explore the semantic information of the teacher network and obtain effective discriminative boundaries, the Weight Mask Block (WMB) and the post-segmentation module are proposede. WMB leverages a weighted strategy by exploring teacher-student feature maps to highlight anomalous features. The post-segmentation module further learns the anomalous features and obtains valid discriminative boundaries. Experimental results on three benchmark datasets demonstrate that the proposed ADPS achieves state-of-the-art anomaly segmentation results.
翻訳日:2022-10-20 14:46:23 公開日:2022-10-19
# PoseGPT:量子化に基づく3次元モーション生成と予測

PoseGPT: Quantization-based 3D Human Motion Generation and Forecasting ( http://arxiv.org/abs/2210.10542v1 )

ライセンス: Link先を確認
Thomas Lucas, Fabien Baradel, Philippe Weinzaepfel, Gr\'egory Rogez(参考訳) 動作条件付き人間の動作系列の生成の問題に対処する。 既存の作業は2つのカテゴリに分類される: 観測された過去の動きに基づく予測モデル、またはアクションラベルと持続時間のみを条件とした生成モデル。 対照的に、任意の長さの観測で条件付けられた動きを発生させる。 そこで本研究では,人間の運動を量子化された潜在配列に内部的に圧縮する自己回帰トランスフォーマー手法であるponsgptを提案する。 オートエンコーダは、まず人間の動きを離散空間内の潜在インデックス列にマッピングし、逆行する。 GPT(Generative Pretrained Transformer)にインスピレーションを得て,その空間における次インデックス予測のためのGPTライクなモデルをトレーニングすることを提案する。 遅延空間の離散的で圧縮された性質により、GPTのようなモデルは入力信号の低レベル冗長性を取り除くため、長距離信号に集中することができる。 離散的な指標を予測することで、平均的なポーズを予測する一般的な落とし穴も軽減される。 実験結果から,提案手法は,標準だが小規模のデータセットであるhumanact12と,最近の大規模mocapデータセットであるbabelと,ヒューマン・オブジェクトインタラクションデータセットであるgrabにおいて,最先端の結果を得ることができた。

We address the problem of action-conditioned generation of human motion sequences. Existing work falls into two categories: forecast models conditioned on observed past motions, or generative models conditioned on action labels and duration only. In contrast, we generate motion conditioned on observations of arbitrary length, including none. To solve this generalized problem, we propose PoseGPT, an auto-regressive transformer-based approach which internally compresses human motion into quantized latent sequences. An auto-encoder first maps human motion to latent index sequences in a discrete space, and vice-versa. Inspired by the Generative Pretrained Transformer (GPT), we propose to train a GPT-like model for next-index prediction in that space; this allows PoseGPT to output distributions on possible futures, with or without conditioning on past motion. The discrete and compressed nature of the latent space allows the GPT-like model to focus on long-range signal, as it removes low-level redundancy in the input signal. Predicting discrete indices also alleviates the common pitfall of predicting averaged poses, a typical failure case when regressing continuous values, as the average of discrete targets is not a target itself. Our experimental results show that our proposed approach achieves state-of-the-art results on HumanAct12, a standard but small scale dataset, as well as on BABEL, a recent large scale MoCap dataset, and on GRAB, a human-object interactions dataset.
翻訳日:2022-10-20 14:46:04 公開日:2022-10-19
# マスク画像モデリングの統一的展望

A Unified View of Masked Image Modeling ( http://arxiv.org/abs/2210.10615v1 )

ライセンス: Link先を確認
Zhiliang Peng, Li Dong, Hangbo Bao, Qixiang Ye, Furu Wei(参考訳) マスク付き画像モデリングは、大規模な視覚トランスフォーマーを訓練し、下流の様々なタスクで印象的なパフォーマンスを達成するラベル・ハングリー問題を解消する大きな可能性を秘めている。 本稿では,既存手法を再検討した後のマスク画像モデリングの統一ビューを提案する。 本研究では,マスク位置の教師モデルから正規化意味的特徴を再構成し,入力画像の劣化を条件とした,シンプルで効果的なMaskDistillという手法を提案する。 画像分類とセマンティクスセグメンテーションの実験の結果,maskdistillは最先端手法と同等あるいは優れた性能を達成していることがわかった。 巨大な視覚変換器を使用し、300エポックを事前訓練する場合、MaskDistillはImageNet-1k(224サイズ)で88.3%、ADE20k(512サイズ)で58.8%のセマンティックセグメンテーションmIoUの精度を得る。 コードと事前訓練済みのモデルはhttps://aka.ms/unimim.com/で入手できる。

Masked image modeling has demonstrated great potential to eliminate the label-hungry problem of training large-scale vision Transformers, achieving impressive performance on various downstream tasks. In this work, we propose a unified view of masked image modeling after revisiting existing methods. Under the unified view, we introduce a simple yet effective method, termed as MaskDistill, which reconstructs normalized semantic features from teacher models at the masked positions, conditioning on corrupted input images. Experimental results on image classification and semantic segmentation show that MaskDistill achieves comparable or superior performance than state-of-the-art methods. When using the huge vision Transformer and pretraining 300 epochs, MaskDistill obtains 88.3% fine-tuning top-1 accuracy on ImageNet-1k (224 size) and 58.8% semantic segmentation mIoU metric on ADE20k (512 size). The code and pretrained models will be available at https://aka.ms/unimim.
翻訳日:2022-10-20 14:45:18 公開日:2022-10-19
# yoloとcentroid追跡に基づく車両のリアルタイム誤動作検出

A Real-Time Wrong-Way Vehicle Detection Based on YOLO and Centroid Tracking ( http://arxiv.org/abs/2210.10226v1 )

ライセンス: Link先を確認
Zillur Rahman, Amit Mazumder Ami, Muhammad Ahsan Ullah(参考訳) 誤運転は、世界中の道路事故や交通渋滞の主な原因の1つである。 不正車両を検出することにより、事故数を最小化し、交通渋滞を低減できる。 リアルタイム交通管理システムの人気が高まり、安価なカメラが利用可能になったことにより、監視ビデオはデータの大きな源となっている。 本稿では,道路監視カメラ映像から車両を自動的に検出するシステムを提案する。 本システムでは,You Only Look Once (YOLO)アルゴリズムを用いてビデオフレームから車両を検知し,遠距離追尾アルゴリズムを用いて各車両を特定領域に追跡し,不正運転車両を検出する。 YOLOはオブジェクト検出において非常に正確であり、セントロイド追跡アルゴリズムは任意の移動物体を効率的に追跡することができる。 いくつかのトラヒックビデオを用いて実験したところ、提案システムでは、異なる光や天候条件下での不正な車両の検出と識別が可能であった。 システムは非常にシンプルで、実装も容易です。

Wrong-way driving is one of the main causes of road accidents and traffic jam all over the world. By detecting wrong-way vehicles, the number of accidents can be minimized and traffic jam can be reduced. With the increasing popularity of real-time traffic management systems and due to the availability of cheaper cameras, the surveillance video has become a big source of data. In this paper, we propose an automatic wrong-way vehicle detection system from on-road surveillance camera footage. Our system works in three stages: the detection of vehicles from the video frame by using the You Only Look Once (YOLO) algorithm, track each vehicle in a specified region of interest using centroid tracking algorithm and detect the wrong-way driving vehicles. YOLO is very accurate in object detection and the centroid tracking algorithm can track any moving object efficiently. Experiment with some traffic videos shows that our proposed system can detect and identify any wrong-way vehicle in different light and weather conditions. The system is very simple and easy to implement.
翻訳日:2022-10-20 14:39:08 公開日:2022-10-19
# 異なる環境条件下での視覚に基づく車線検出と追跡

Vision-Based Lane Detection and Tracking under Different Challenging Environmental Conditions ( http://arxiv.org/abs/2210.10233v1 )

ライセンス: Link先を確認
Samia Sultana, Boshir Ahmed, Manoranjan Paul, Muhammad Rafiqul Islam and Shamim Ahmad(参考訳) 道路標識の視認性が低く、あいまいで、しばしば目に見えない場合、突然の環境変化によって車両の衝突を引き起こす可能性があるため、運転は非常に困難である。 レーンマーキング検出に関する多くの研究が行われている。 ほとんどの車線検出方法は4つの主要な問題に苦しんでいる。 (i)時刻(昼夜)、天候、道路等の変化による突然の照明変化 ; (二)レーンマーキングは、色付け、浸食又は閉塞したときは、部分的に又は完全に隠される。 (三)雨や雪などの悪天候によるぼやけた景色 (iv)ガードレール、舗装マーキング、道路分割器、車両線、樹木の影など他の外観的線の存在による不正確な車線検出 本稿では,上記の課題を考慮した車線標識検出のための頑健な車線検出・追跡手法を提案する。 本手法では,3つの重要な技術を紹介した。 まず, 両側フィルタを適用してエッジを滑らかに保存し, 低強度(色, 浸食, ぼやけた)レーンマーキングのエッジを検出するキャニー演算子の性能を改善するために, 最適化インテンシティ閾値範囲(oitr)を導入した。 次に,レーンマーキングの特性を検証し,不正確なレーン検出を防止するため,ロバストなレーン検証手法であるアングルと長さに基づく幾何制約(algc)アルゴリズムとhough変換を提案する。 最後に,新しい車線追跡手法である水平調整可能な車線再配置範囲(HALRR)アルゴリズムを提案し,車線位置の追跡を行う。 提案手法の性能評価には1080x1920解像度のDSDLDEデータセットを24フレーム/秒で使用した。 実験の結果、平均検出率は97.36%であり、平均検出時間は1フレームあたり29.06msecであり、最先端の手法よりも優れていた。

Driving is very challenging when the visibility of a road lane marking is low, obscured or often invisible due to abrupt environmental change which may lead to severe vehicle clash. A large volume of research has been done on lane marking detection. Most of the lane detection methods suffer from four types of major problems: (i) abrupt illumination change due to change in time (day, night), weather, road, etc.; (ii) lane markings get obscured partially or fully when they are colored, eroded or occluded; (iii) blurred view created by adverse weather like rain or snow; and (iv) incorrect lane detection due to presence of other lookalike lines e.g. guardrails, pavement marking, road divider, vehicle lines, the shadow of trees, etc. In this paper, we proposed a robust lane detection and tracking method to detect lane marking considering the abovementioned challenging conditions. In this method, we introduced three key technologies. First, the bilateral filter is applied to smooth and preserve the edges and we introduced an optimized intensity threshold range (OITR) to improve the performance of the canny operator which detects the edges of low intensity (colored, eroded, or blurred) lane markings. Second, we proposed a robust lane verification technique, the angle and length-based geometric constraint (ALGC) algorithm followed by Hough Transform, to verify the characteristics of lane marking and to prevent incorrect lane detection. Finally, a novel lane tracking technique, the horizontally adjustable lane repositioning range (HALRR) algorithm is proposed, which can keep track of the lane position. To evaluate the performance of the proposed method we used the DSDLDE dataset with 1080x1920 resolutions at 24 frames/sec. Experimental results show that the average detection rate is 97.36%, and the average detection time is 29.06msec per frame, which outperformed the state-of-the-art method.
翻訳日:2022-10-20 14:38:52 公開日:2022-10-19
# GSV-Cities: 適切な視覚的位置認識を目指して

GSV-Cities: Toward Appropriate Supervised Visual Place Recognition ( http://arxiv.org/abs/2210.10239v1 )

ライセンス: Link先を確認
Amar Ali-bey, Brahim Chaib-draa, Philippe Gigu\`ere(参考訳) 本稿では,参照画像のデータベースを参照して,検索画像に表示される位置を判断する大規模視覚的位置認識のための表現学習について検討する。 これは、時間とともに起こる大規模な環境変化(天気、照明、季節、交通、閉塞など)のために難しい課題である。 現状では、正確な根拠のある大規模なデータベースが不足している。 この課題に対処するために、我々はgsv-citiesを紹介する。これは14年間にわたって、全大陸で40以上の都市をカバーする、これまでで最も広い地理的カバレッジと高精度な地上真実を提供する新しい画像データセットである。 次に、位置認識のためのネットワークを訓練するディープメトリック学習の最近の進歩の可能性を探り、異なる損失関数がパフォーマンスにどのように影響するかを評価する。 また,gsv-citiesでトレーニングすると,既存の手法の性能が大幅に向上することを示す。 最後に,gem,netvlad,cosplaceなどの既存技術に勝る新たな畳み込み集約層を導入し,ピッツバーグ,mapillary-sls,sped,nordlandなどの大規模ベンチマークにおける最新技術を確立した。 データセットとコードは、https://github.com/amaralibey/gsv-citiesで研究目的に利用できる。

This paper aims to investigate representation learning for large scale visual place recognition, which consists of determining the location depicted in a query image by referring to a database of reference images. This is a challenging task due to the large-scale environmental changes that can occur over time (i.e., weather, illumination, season, traffic, occlusion). Progress is currently challenged by the lack of large databases with accurate ground truth. To address this challenge, we introduce GSV-Cities, a new image dataset providing the widest geographic coverage to date with highly accurate ground truth, covering more than 40 cities across all continents over a 14-year period. We subsequently explore the full potential of recent advances in deep metric learning to train networks specifically for place recognition, and evaluate how different loss functions influence performance. In addition, we show that performance of existing methods substantially improves when trained on GSV-Cities. Finally, we introduce a new fully convolutional aggregation layer that outperforms existing techniques, including GeM, NetVLAD and CosPlace, and establish a new state-of-the-art on large-scale benchmarks, such as Pittsburgh, Mapillary-SLS, SPED and Nordland. The dataset and code are available for research purposes at https://github.com/amaralibey/gsv-cities.
翻訳日:2022-10-20 14:38:22 公開日:2022-10-19
# CLIP駆動型微粒テキスト画像人物再識別

CLIP-Driven Fine-grained Text-Image Person Re-identification ( http://arxiv.org/abs/2210.10276v1 )

ライセンス: Link先を確認
Shuanglin Yan, Neng Dong, Liyan Zhang, Jinhui Tang(参考訳) TIReIDは、候補画像のプールから与えられたテキストクエリに対応する画像を取得することを目的としている。 既存の手法では、学習を容易にするために単一モダリティ事前学習からの事前知識を用いるが、マルチモーダル対応は欠如している。 さらに、モダリティ間の実質的なギャップのため、既存の手法では、元のモダリティ特徴を同じ潜在空間に埋め込んでクロスモーダルアライメントを行う。 しかし、特徴埋め込みはモーダル情報歪みを引き起こす可能性がある。 近年、CLIPは強力なセマンティック概念学習能力と豊富なマルチモーダル知識により、研究者の注目を集めている。 そこで本稿では, TIReIDにおけるCLIPの強力な知識をフル活用するための, CLIP駆動のきめ細かい情報抽出フレームワーク(CFine)を提案する。 マルチモーダル知識を効果的に伝達するために,モーダル内判別手がかりとモーダル間対応をマイニングするために細粒度情報掘削を行う。 具体的には,まず,大域的画像(テキスト)と情報的局所パッチ(単語)との相互作用を強化することにより,識別関連識別手がかりを強調できる,モーダル内識別ローカル情報を完全にマイニングするグローバル特徴学習モジュールを設計する。 第2に、非モダリティ共有画像パッチ/ワードをフィルタリングし、クロスモダリティ対応を粗いものから細かいものへとマイニングできる、モダリティ間の粒度と粒度の相互作用を確立するために、クロスグラニュラル特徴改善(CFR)とFCDモジュールを提案する。 cfrとfcdは計算コストを節約するために推論中に取り除かれる。 上記の過程は、さらなる特徴埋め込みなしに元のモジュラリティ空間で実行されることに注意。 複数のベンチマークでの大規模な実験は、TIReID上での手法の優れた性能を示す。

TIReID aims to retrieve the image corresponding to the given text query from a pool of candidate images. Existing methods employ prior knowledge from single-modality pre-training to facilitate learning, but lack multi-modal correspondences. Besides, due to the substantial gap between modalities, existing methods embed the original modal features into the same latent space for cross-modal alignment. However, feature embedding may lead to intra-modal information distortion. Recently, CLIP has attracted extensive attention from researchers due to its powerful semantic concept learning capacity and rich multi-modal knowledge, which can help us solve the above problems. Accordingly, in the paper, we propose a CLIP-driven Fine-grained information excavation framework (CFine) to fully utilize the powerful knowledge of CLIP for TIReID. To transfer the multi-modal knowledge effectively, we perform fine-grained information excavation to mine intra-modal discriminative clues and inter-modal correspondences. Specifically, we first design a multi-grained global feature learning module to fully mine intra-modal discriminative local information, which can emphasize identity-related discriminative clues by enhancing the interactions between global image (text) and informative local patches (words). Secondly, cross-grained feature refinement (CFR) and fine-grained correspondence discovery (FCD) modules are proposed to establish the cross-grained and fine-grained interactions between modalities, which can filter out non-modality-shared image patches/words and mine cross-modal correspondences from coarse to fine. CFR and FCD are removed during inference to save computational costs. Note that the above process is performed in the original modality space without further feature embedding. Extensive experiments on multiple benchmarks demonstrate the superior performance of our method on TIReID.
翻訳日:2022-10-20 14:37:58 公開日:2022-10-19
# 複雑な合成推論のためのDense but Efficient VideoQA

Dense but Efficient VideoQA for Intricate Compositional Reasoning ( http://arxiv.org/abs/2210.10300v1 )

ライセンス: Link先を確認
Jihyeon Lee, Wooyoung Kang, Eun-Sol Kim(参考訳) 従来のビデオ質問応答(VideoQA)データセットのほとんどは、簡単な推論プロセスを必要とする簡単な質問で構成されていることはよく知られている。 しかし、長いビデオは時空間軸と共に複雑で構成的な意味構造を必然的に含み、ビデオに固有の構成構造を理解するモデルを必要とする。 本稿では、複雑なビデオQAタスクに対処するための変形性アテンション機構を備えたトランスフォーマーアーキテクチャに基づく新しい合成ビデオQA手法を提案する。 変形可能な注意を導入し、密集した視覚特徴マップから情報的な視覚特徴のサブセットをサンプリングし、時間的に長いフレームの範囲を効率的にカバーする。 さらに、複雑な質問文内の依存関係構造と言語埋め込みとを組み合わせることで、質問語間の関係を容易に理解する。 広範な実験とアブレーションの研究により、提案された高密度だが効率的なモデルが他のベースラインよりも優れていることが示されている。

It is well known that most of the conventional video question answering (VideoQA) datasets consist of easy questions requiring simple reasoning processes. However, long videos inevitably contain complex and compositional semantic structures along with the spatio-temporal axis, which requires a model to understand the compositional structures inherent in the videos. In this paper, we suggest a new compositional VideoQA method based on transformer architecture with a deformable attention mechanism to address the complex VideoQA tasks. The deformable attentions are introduced to sample a subset of informative visual features from the dense visual feature map to cover a temporally long range of frames efficiently. Furthermore, the dependency structure within the complex question sentences is also combined with the language embeddings to readily understand the relations among question words. Extensive experiments and ablation studies show that the suggested dense but efficient model outperforms other baselines.
翻訳日:2022-10-20 14:37:11 公開日:2022-10-19
# LAVA: ラベル効率のよいビジュアルラーニングと適応

LAVA: Label-efficient Visual Learning and Adaptation ( http://arxiv.org/abs/2210.10317v1 )

ライセンス: Link先を確認
Islam Nassar, Munawar Hayat, Ehsan Abbasnejad, Hamid Rezatofighi, Mehrtash Harandi, Gholamreza Haffari(参考訳) 本稿では,限られたデータを用いた多領域視覚伝達学習のための簡易かつ効果的なLAVAを提案する。 LAVAは、クラスとドメインシフトを伴う部分的にラベル付けされたデータセットへの適応を可能にする、最近のいくつかのイノベーションの上に構築されている。 まず、lavasはソースデータセットで自己教師付きビジュアル表現を学び、クラスラベルセマンティクスを使用して教師付き事前トレーニングに関連する転送崩壊問題を克服する。 第二に、LAVAは、マルチクロップ拡張を用いて、高度に堅牢な擬似ラベルを得る新しい手法により、未ラベルのターゲットデータから得られるゲインを最大化する。 これらの材料を組み合わせることで、lavasはimagenet semi-supervisedプロトコルの新たな最先端を実現すると同時に、メタデータセット上のマルチドメインの少数ショット学習における10のデータセットのうち7つを達成する。 コードとモデルは利用可能である。

We present LAVA, a simple yet effective method for multi-domain visual transfer learning with limited data. LAVA builds on a few recent innovations to enable adapting to partially labelled datasets with class and domain shifts. First, LAVA learns self-supervised visual representations on the source dataset and ground them using class label semantics to overcome transfer collapse problems associated with supervised pretraining. Secondly, LAVA maximises the gains from unlabelled target data via a novel method which uses multi-crop augmentations to obtain highly robust pseudo-labels. By combining these ingredients, LAVA achieves a new state-of-the-art on ImageNet semi-supervised protocol, as well as on 7 out of 10 datasets in multi-domain few-shot learning on the Meta-dataset. Code and models are made available.
翻訳日:2022-10-20 14:36:56 公開日:2022-10-19
# webtoonme:フルボディポートレートスタイライゼーションのためのデータ中心アプローチ

WebtoonMe: A Data-Centric Approach for Full-Body Portrait Stylization ( http://arxiv.org/abs/2210.10335v1 )

ライセンス: Link先を確認
Jihye Back, Seungkwon Kim, Namhyuk Ahn(参考訳) 近年,肖像画を漫画風に翻訳することを目的としたフルボディの肖像画スタイリングが注目されている。 しかし、ほとんどの手法は、実際のアプリケーションでの使用可能性を制限するため、顔領域の変換のみに焦点を当てている。 最近提案された2段階の手法はレンダリング領域をフルボディに拡張するが、出力は信頼性が低く、非面領域の品質の堅牢性を達成できない。 さらに、様々な肌色を反映することができない。 本研究では,生産レベルのフルボディ・ポートレート・スタイリングシステムを構築するためのデータ中心のソリューションを提案する。 この2段階計画に基づいて,上記の問題を効果的に解決できる,新規で高度なデータセット作成パラダイムを構築した。 実験によると、パイプラインでは、付加的な損失やアーキテクチャの変更なしに高品質なポートレートスタイリングが達成できる。

Full-body portrait stylization, which aims to translate portrait photography into a cartoon style, has drawn attention recently. However, most methods have focused only on converting face regions, restraining the feasibility of use in real-world applications. A recently proposed two-stage method expands the rendering area to full bodies, but the outputs are less plausible and fail to achieve quality robustness of non-face regions. Furthermore, they cannot reflect diverse skin tones. In this study, we propose a data-centric solution to build a production-level full-body portrait stylization system. Based on the two-stage scheme, we construct a novel and advanced dataset preparation paradigm that can effectively resolve the aforementioned problems. Experiments reveal that with our pipeline, high-quality portrait stylization can be achieved without additional losses or architectural changes.
翻訳日:2022-10-20 14:36:40 公開日:2022-10-19
# 時間的行動セグメンテーション : 現代技術の分析

Temporal Action Segmentation: An Analysis of Modern Technique ( http://arxiv.org/abs/2210.10352v1 )

ライセンス: Link先を確認
Guodong Ding, Fadime Sener and Angela Yao(参考訳) ビデオからの時間的アクションセグメンテーションは、分単位の動画において、複数のアクションクラスを持つビデオフレームの密接なラベリングを目的としている。 長距離ビデオ理解タスクとして分類され、研究者は拡張した手法のコレクションを提案し、様々なベンチマークを用いてその性能を調査した。 近年のアクションセグメンテーション技術の急速な発展にもかかわらず、そのような分野では体系的な調査は行われていない。 この目的のために、本調査では、このタスクの主なコントリビューションとトレンドを分析し、要約する。 具体的には,まずタスク定義,共通ベンチマーク,監督の種類,一般的な評価尺度について検討した。 さらに,本研究の2つの基本的側面,すなわちフレーム表現と時間モデリングを体系的に検討し,文献で広く研究されている。 次に,既存の時間的行動セグメンテーション作業について概観的にレビューし,それぞれを監督形態で分類する。 最後に,研究のためのオープントピックをいくつか強調し,特定することで調査を締めくくった。 さらに, 時間的アクションセグメンテーションリソースのキュレートされたリストを補足し, https://github.com/atlas-eccv22/awesome-temporal-action-segmentationで利用可能である。

Temporal action segmentation from videos aims at the dense labeling of video frames with multiple action classes in minutes-long videos. Categorized as a long-range video understanding task, researchers have proposed an extended collection of methods and examined their performance using various benchmarks. Despite the rapid development of action segmentation techniques in recent years, there has been no systematic survey in such fields. To this end, in this survey, we analyze and summarize the main contributions and trends for this task. Specifically, we first examine the task definition, common benchmarks, types of supervision, and popular evaluation measures. Furthermore, we systematically investigate two fundamental aspects of this topic, i.e., frame representation and temporal modeling, which are widely and extensively studied in the literature. We then comprehensively review existing temporal action segmentation works, each categorized by their form of supervision. Finally, we conclude our survey by highlighting and identifying several open topics for research. In addition, we supplement our survey with a curated list of temporal action segmentation resources, which is available at https://github.com/atlas-eccv22/awesome-temporal-action-segmentation.
翻訳日:2022-10-20 14:36:26 公開日:2022-10-19
# 透過型顔認識における比較スコアの不確かさと検証判断信頼の表明

Stating Comparison Score Uncertainty and Verification Decision Confidence Towards Transparent Face Recognition ( http://arxiv.org/abs/2210.10354v1 )

ライセンス: Link先を確認
Marco Huber, Philipp Terh\"orst, Florian Kirchbuchner, Naser Damer, Arjan Kuijper(参考訳) 顔認識(FR)は、批判的な検証決定にますます使われており、そのような決定の信頼性を評価する必要がある。 決定の信頼性は、しばしばモデルの全体的なパフォーマンスや画像の品質に基づいています。 我々は,検証決定の透明性を高めるために,不確実性をスコアや決定に広めることを提案する。 この作品には2つの貢献がある。 まず,顔比較スコアの不確かさを推定する手法を提案する。 第2に、検証決定に関する洞察を提供するためのシステムの決定に対する信頼度尺度を導入する。 比較スコアの不確かさと検証決定信頼度は、2つのデータセット上の3つの顔認識モデルで実験的に証明されている。

Face Recognition (FR) is increasingly used in critical verification decisions and thus, there is a need for assessing the trustworthiness of such decisions. The confidence of a decision is often based on the overall performance of the model or on the image quality. We propose to propagate model uncertainties to scores and decisions in an effort to increase the transparency of verification decisions. This work presents two contributions. First, we propose an approach to estimate the uncertainty of face comparison scores. Second, we introduce a confidence measure of the system's decision to provide insights into the verification decision. The suitability of the comparison scores uncertainties and the verification decision confidences have been experimentally proven on three face recognition models on two datasets.
翻訳日:2022-10-20 14:36:00 公開日:2022-10-19
# 会話における感情認識のための教師付きプロトタイプコントラスト学習

Supervised Prototypical Contrastive Learning for Emotion Recognition in Conversation ( http://arxiv.org/abs/2210.08713v2 )

ライセンス: Link先を確認
Xiaohui Song, Longtao Huang, Hui Xue, Songlin Hu(参考訳) 会話の中で感情を捉えることは、現代の対話システムにおいて重要な役割を果たす。 しかし、感情と意味の弱い相関は、会話における感情認識(ERC)に多くの課題をもたらす。 意味的に類似した発話であっても、感情は文脈や話者によって異なる。 本稿では,ERCタスクに対するSPCL(Supervised Prototypeal Contrastive Learning)損失を提案する。 プロトタイプネットワークを利用することで、SPCLは対照的な学習を通じて不均衡な分類問題を解くことを目標とし、大きなバッチサイズを必要としない。 一方,授業間距離に基づく難易度測定関数を設計し,極端なサンプルの影響を軽減するためのカリキュラム学習を導入する。 3つのベンチマークで最新の結果を得た。 さらに,提案するSPCLとカリキュラム学習戦略の有効性を実証するための分析実験を行った。 コードをhttps://github.com/caskcsg/SPCLでリリースします。

Capturing emotions within a conversation plays an essential role in modern dialogue systems. However, the weak correlation between emotions and semantics brings many challenges to emotion recognition in conversation (ERC). Even semantically similar utterances, the emotion may vary drastically depending on contexts or speakers. In this paper, we propose a Supervised Prototypical Contrastive Learning (SPCL) loss for the ERC task. Leveraging the Prototypical Network, the SPCL targets at solving the imbalanced classification problem through contrastive learning and does not require a large batch size. Meanwhile, we design a difficulty measure function based on the distance between classes and introduce curriculum learning to alleviate the impact of extreme samples. We achieve state-of-the-art results on three widely used benchmarks. Further, we conduct analytical experiments to demonstrate the effectiveness of our proposed SPCL and curriculum learning strategy. We release the code at https://github.com/caskcsg/SPCL.
翻訳日:2022-10-20 14:30:07 公開日:2022-10-19
# A.I.ロバストネス : 技術的課題と機会に関する人間中心の視点

A.I. Robustness: a Human-Centered Perspective on Technological Challenges and Opportunities ( http://arxiv.org/abs/2210.08906v2 )

ライセンス: Link先を確認
Andrea Tocchetti, Lorenzo Corti, Agathe Balayn, Mireia Yurrita, Philip Lippmann, Marco Brambilla, and Jie Yang(参考訳) 人工知能(AI)システムの優れたパフォーマンスにもかかわらず、その堅牢性はいまだ解明されておらず、大規模な採用を妨げる重要な問題となっている。 ロバストネスはAIの多くの領域で研究されてきたが、ドメインとコンテキストの異なる解釈で研究されている。 本研究は,最近の進歩を体系的に調査し,aiの堅牢性に関する概念の調和した用語を提供する。 基本的・応用的な観点から、文献を整理・記述するために3つの分類法を導入する。 1) 機械学習パイプラインの異なるフェーズにおける方法とアプローチによる堅牢性。 2) 特定のモデルアーキテクチャ、タスク、システムに対する堅牢性に加えて、 3)堅牢性評価手法及び洞察、特に他の信頼性特性とのトレードオフ 最後に,研究のギャップと機会を特定し,議論し,この分野の展望を示す。 我々は、AIの堅牢性を評価し、強化する上で、人間の中心的な役割を強調し、人間が提供できる必要な知識を考慮し、よりよい理解の実践と将来的な支援ツールの開発の必要性について議論する。

Despite the impressive performance of Artificial Intelligence (AI) systems, their robustness remains elusive and constitutes a key issue that impedes large-scale adoption. Robustness has been studied in many domains of AI, yet with different interpretations across domains and contexts. In this work, we systematically survey the recent progress to provide a reconciled terminology of concepts around AI robustness. We introduce three taxonomies to organize and describe the literature both from a fundamental and applied point of view: 1) robustness by methods and approaches in different phases of the machine learning pipeline; 2) robustness for specific model architectures, tasks, and systems; and in addition, 3) robustness assessment methodologies and insights, particularly the trade-offs with other trustworthiness properties. Finally, we identify and discuss research gaps and opportunities and give an outlook on the field. We highlight the central role of humans in evaluating and enhancing AI robustness, considering the necessary knowledge humans can provide, and discuss the need for better understanding practices and developing supportive tools in the future.
翻訳日:2022-10-20 14:29:55 公開日:2022-10-19
# 複数グラフ上の部分マッチングネットワークのための学習宇宙モデル

Learning Universe Model for Partial Matching Networks over Multiple Graphs ( http://arxiv.org/abs/2210.10374v1 )

ライセンス: Link先を確認
Zetian Jiang, Jiaxin Lu, Tianzhe Wang, Junchi Yan(参考訳) 1つのグラフのすべてのノードが別のグラフの対応を見つけられるとは限らないが、その逆もできるという意味で、2つまたは複数のグラフの部分マッチングの一般的な設定を考える。 我々は、このユビキタスな問題に対する宇宙整合性の観点から、各ノードは仮想宇宙グラフのアンカーにマッチするか、あるいは外れ値と見なされる。 このような宇宙マッチングスキームは、既存の学習ベースグラフマッチング(GM)の文献では採用されていないいくつかの重要な利点を享受している。 まず、不規則マッチングと外れ値検出のための微妙なロジックを明確にモデル化することができ、それ以外はペアワイズマッチングスキームでは扱いにくい。 第2に、特に宇宙レベルのアフィニティメトリック学習において、イリアーマッチングのためのエンドツーエンド学習と、イリアーを一緒に集めるための損失設計を可能にする。 第三に、結果として得られるマッチングモデルは、オンラインマッチングの下で新しい到着グラフや、トレーニングセットの異なるカテゴリから来るグラフを簡単に処理できる。 われわれの知る限り、これは二グラフマッチング、複数グラフマッチング、オンラインマッチング、混合グラフマッチングを同時に扱うことができる最初のディープラーニングネットワークである。 これらの実験結果から,本手法の有効性が示された。

We consider the general setting for partial matching of two or multiple graphs, in the sense that not necessarily all the nodes in one graph can find their correspondences in another graph and vice versa. We take a universe matching perspective to this ubiquitous problem, whereby each node is either matched into an anchor in a virtual universe graph or regarded as an outlier. Such a universe matching scheme enjoys a few important merits, which have not been adopted in existing learning-based graph matching (GM) literature. First, the subtle logic for inlier matching and outlier detection can be clearly modeled, which is otherwise less convenient to handle in the pairwise matching scheme. Second, it enables end-to-end learning especially for universe level affinity metric learning for inliers matching, and loss design for gathering outliers together. Third, the resulting matching model can easily handle new arriving graphs under online matching, or even the graphs coming from different categories of the training set. To our best knowledge, this is the first deep learning network that can cope with two-graph matching, multiple-graph matching, online matching, and mixture graph matching simultaneously. Extensive experimental results show the state-of-the-art performance of our method in these settings.
翻訳日:2022-10-20 14:29:40 公開日:2022-10-19
# アダプティブクロスと並列スーパービジョンによる立体内視鏡像のロバスト3次元再構成のための双方向半教師付きデュアルブランチCNN

Bidirectional Semi-supervised Dual-branch CNN for Robust 3D Reconstruction of Stereo Endoscopic Images via Adaptive Cross and Parallel Supervisions ( http://arxiv.org/abs/2210.08291v2 )

ライセンス: Link先を確認
Hongkuan Shi, Zhiwei Wang, Ying Zhou, Dun Li, Xin Yang, Qiang Li(参考訳) 教師-学生ネットワークによる半教師付き学習は、いくつかのラベル付きサンプルでモデルを効果的に訓練することができる。 学生モデルでは、教師の余分なラベル付きデータの予測から知識を抽出することができる。 しかし、このような知識の流れは通常一方向であり、パフォーマンスは教師モデルの品質に弱い。 本稿では,教師と学生の両方の役割を兼ね備えた,新しい双方向学習方式を提案することによって,ステレオ内視鏡画像の3次元再構築を活発に行うことを目的とする。 具体的には,二重分岐畳み込みニューラルネットワークを学習するために,適応クロス・スーパービジョン(acs)と適応パラレル・スーパービジョン(aps)という2つの自己スーパービジョンを導入する。 2つの枝は同じ位置で2つの異なる相違確率分布を予測し、その相違値として期待を出力する。 学習した知識は、分岐方向(ACSにおける分散誘導)と平行方向(APSにおける分散誘導)の2つの方向に沿って流れている。 さらに、各ブランチは、提供された監督を動的に洗練するための信頼性も学習する。 ACSでは、予測された相違が一様分布に軟化され、信頼性が低ければ低いほど分布は滑らかになる。 APSでは、信頼性の低い人の体重を下げることで誤った予測を抑える。 適応的な双方向学習では、2つのブランチは互いによく調整された監督を享受し、最終的には一貫したより正確な格差推定に収束する。 3つの公開データセットに対する広範囲かつ包括的な実験結果は、それぞれ平均的な不一致誤差を13.95%、少なくとも3.90%減少させた完全教師付きおよび半教師付き技術よりも優れた性能を示した。

Semi-supervised learning via teacher-student network can train a model effectively on a few labeled samples. It enables a student model to distill knowledge from the teacher's predictions of extra unlabeled data. However, such knowledge flow is typically unidirectional, having the performance vulnerable to the quality of teacher model. In this paper, we seek to robust 3D reconstruction of stereo endoscopic images by proposing a novel fashion of bidirectional learning between two learners, each of which can play both roles of teacher and student concurrently. Specifically, we introduce two self-supervisions, i.e., Adaptive Cross Supervision (ACS) and Adaptive Parallel Supervision (APS), to learn a dual-branch convolutional neural network. The two branches predict two different disparity probability distributions for the same position, and output their expectations as disparity values. The learned knowledge flows across branches along two directions: a cross direction (disparity guides distribution in ACS) and a parallel direction (disparity guides disparity in APS). Moreover, each branch also learns confidences to dynamically refine its provided supervisions. In ACS, the predicted disparity is softened into a unimodal distribution, and the lower the confidence, the smoother the distribution. In APS, the incorrect predictions are suppressed by lowering the weights of those with low confidence. With the adaptive bidirectional learning, the two branches enjoy well-tuned supervisions from each other, and eventually converge on a consistent and more accurate disparity estimation. The extensive and comprehensive experimental results on three public datasets demonstrate our superior performance over the fully-supervised and semi-supervised state-of-the-arts with a decrease of averaged disparity error by 13.95% and 3.90% at least, respectively.
翻訳日:2022-10-20 14:29:18 公開日:2022-10-19
# google universal image embeddedの2位ソリューション

2nd Place Solution to Google Universal Image Embedding ( http://arxiv.org/abs/2210.08735v2 )

ライセンス: Link先を確認
Xiaolong Huang, Qiankun Li(参考訳) 画像表現はコンピュータビジョンアプリケーションの重要な構成要素である。 本稿では,ECCV2022インスタンスレベルの認識ワークショップの一部であるGoogle Universal Image Embedding Competitionの2番目のソリューションを提案する。 この競合を解くために、インスタンスレベルのきめ細かい画像分類法を用いる。 データの構築と処理、モデル構造、トレーニング戦略に重点を置いています。 最後に、ソリューションは公開リーダーボードで0.713、プライベートリーダーボードで0.709だった。

Image representations are a critical building block of computer vision applications. This paper presents the 2nd place solution to the Google Universal Image Embedding Competition, which is part of the ECCV2022 instance-level recognition workshops. We use the instance-level fine-grained image classification method to complete this competition. We focus on data building and processing, model structure, and training strategies. Finally, the solution scored 0.713 on the public leaderboard and 0.709 on the private leaderboard.
翻訳日:2022-10-20 14:28:49 公開日:2022-10-19
# ビデオオブジェクトセグメンテーションのための階層的伝播における特徴の分離

Decoupling Features in Hierarchical Propagation for Video Object Segmentation ( http://arxiv.org/abs/2210.09782v2 )

ライセンス: Link先を確認
Zongxin Yang, Yi Yang(参考訳) 本稿では,半教師付きビデオオブジェクトセグメンテーション(vos)のための,より効果的な階層的伝播手法の開発に着目する。 最近開発されたAOT(Associating Objects with Transformers)アプローチは、視覚トランスフォーマーに基づいて、VOSに階層的伝播を導入し、有望な結果を示した。 階層的伝播は、過去のフレームから現在のフレームへ徐々に情報を伝達し、現在のフレームの特徴をオブジェクトに依存しないものからオブジェクト固有のものに伝達することができる。 しかし、オブジェクト固有の情報の増加は、必然的に、深い伝播層においてオブジェクトに依存しない視覚的情報を失うことになる。 このような問題の解決と、視覚的埋め込みの学習を容易にするために、階層的伝播におけるデカップリング特徴(DeAOT)を提案する。 第一に、deaotは2つの独立したブランチでそれらを処理することによって、オブジェクト非依存およびオブジェクト固有の埋め込みの階層的伝播を分離する。 次に,二重分岐伝播による付加計算を補うために,階層的伝播,すなわち,単頭注意で慎重に設計されたゲート伝搬モジュールを構築するための効率的なモジュールを提案する。 大規模な実験により、DeAOTは精度と効率の両方でAOTを著しく上回ることがわかった。 YouTube-VOSでは、22.4fpsで86.0%、53.4fpsで82.0%を達成することができる。 テスト時間拡張がなければ、YouTube-VOS (86.2%)、DAVIS 2017 (86.2%)、DAVIS 2016 (92.9%)、VOT 2020 (0.622)の4つのベンチマークで、新しい最先端のパフォーマンスを達成する。 プロジェクトページ: https://github.com/z-x-yang/AOT.com

This paper focuses on developing a more effective method of hierarchical propagation for semi-supervised Video Object Segmentation (VOS). Based on vision transformers, the recently-developed Associating Objects with Transformers (AOT) approach introduces hierarchical propagation into VOS and has shown promising results. The hierarchical propagation can gradually propagate information from past frames to the current frame and transfer the current frame feature from object-agnostic to object-specific. However, the increase of object-specific information will inevitably lead to the loss of object-agnostic visual information in deep propagation layers. To solve such a problem and further facilitate the learning of visual embeddings, this paper proposes a Decoupling Features in Hierarchical Propagation (DeAOT) approach. Firstly, DeAOT decouples the hierarchical propagation of object-agnostic and object-specific embeddings by handling them in two independent branches. Secondly, to compensate for the additional computation from dual-branch propagation, we propose an efficient module for constructing hierarchical propagation, i.e., Gated Propagation Module, which is carefully designed with single-head attention. Extensive experiments show that DeAOT significantly outperforms AOT in both accuracy and efficiency. On YouTube-VOS, DeAOT can achieve 86.0% at 22.4fps and 82.0% at 53.4fps. Without test-time augmentations, we achieve new state-of-the-art performance on four benchmarks, i.e., YouTube-VOS (86.2%), DAVIS 2017 (86.2%), DAVIS 2016 (92.9%), and VOT 2020 (0.622). Project page: https://github.com/z-x-yang/AOT.
翻訳日:2022-10-20 14:28:42 公開日:2022-10-19
# sequenceとcircle: パッチ間の関係を探求する

Sequence and Circle: Exploring the Relationship Between Patches ( http://arxiv.org/abs/2210.09871v2 )

ライセンス: Link先を確認
Zhengyang Yu, Jochen Triesch(参考訳) 視覚変換器(ViT)は様々な視覚タスクにおいて最先端の結果を得た。 学習可能な位置埋め込み(PE)機構を使用して、各イメージパッチの位置を符号化する。 しかし,この学習可能なPEが本当に必要か,どのようなメリットがあるのかは現時点では不明である。 本稿では,空間配置に関する事前知識を活かした個々のパッチの位置を符号化する2つの方法を提案する。 1つは順序関係埋め込み (sre) と呼ばれ、もう1つは円関係埋め込み (cre) と呼ばれる。 このうち、SREはすべてのパッチを順に考慮し、隣接するパッチは同じ間隔を持つ。 CREは中央パッチを円の中心とみなし、残りのパッチと中央の距離を4つの地区の原理に基づいて測定している。 異なる半径を持つ複数の同心円は異なるパッチを組み合わせる。 最後に、これらの2つの関係を3つの古典的なViTで実装し、4つの一般的なデータセットでテストした。 実験により、sre と cre は同じ性能を達成しながらランダム学習可能なパラメータを減らすために pe を置換できることが示されている。 SRE や CRE と PE を組み合わせることで,PE の使用よりもパフォーマンスが向上する。

The vision transformer (ViT) has achieved state-of-the-art results in various vision tasks. It utilizes a learnable position embedding (PE) mechanism to encode the location of each image patch. However, it is presently unclear if this learnable PE is really necessary and what its benefits are. This paper explores two alternative ways of encoding the location of individual patches that exploit prior knowledge about their spatial arrangement. One is called the sequence relationship embedding (SRE), and the other is called the circle relationship embedding (CRE). Among them, the SRE considers all patches to be in order, and adjacent patches have the same interval distance. The CRE considers the central patch as the center of the circle and measures the distance of the remaining patches from the center based on the four neighborhoods principle. Multiple concentric circles with different radii combine different patches. Finally, we implemented these two relations on three classic ViTs and tested them on four popular datasets. Experiments show that SRE and CRE can replace PE to reduce the random learnable parameters while achieving the same performance. Combining SRE or CRE with PE gets better performance than only using PE.
翻訳日:2022-10-20 14:28:14 公開日:2022-10-19
# GCDT:多言語・多言語対話解析のための中国のRCTツリーバンク

GCDT: A Chinese RST Treebank for Multigenre and Multilingual Discourse Parsing ( http://arxiv.org/abs/2210.10449v1 )

ライセンス: Link先を確認
Siyao Peng, Yang Janet Liu, Amir Zeldes(参考訳) 大規模な人間の注釈データがないため、中国語の階層的な言説解析が妨げられている。 本稿では,中国語における最大の階層的談話木バンクであるGCDTを,修辞構造理論(RST)の枠組みで紹介する。 GCDTは5つのジャンルにまたがって60K以上のトークンをカバーしており、現代英語のRTTツリーバンクと同じ関係性を持つ。 また,このデータセットの構文解析実験について報告し,多言語組込みによる中国語と英語の言語間学習を用いて,中国語rstパースと英語ガムデータセットのrstパースのための最新スコア (sota) を報告した。

A lack of large-scale human-annotated data has hampered the hierarchical discourse parsing of Chinese. In this paper, we present GCDT, the largest hierarchical discourse treebank for Mandarin Chinese in the framework of Rhetorical Structure Theory (RST). GCDT covers over 60K tokens across five genres of freely available text, using the same relation inventory as contemporary RST treebanks for English. We also report on this dataset's parsing experiments, including state-of-the-art (SOTA) scores for Chinese RST parsing and RST parsing on the English GUM dataset, using cross-lingual training in Chinese and English with multilingual embeddings.
翻訳日:2022-10-20 14:20:41 公開日:2022-10-19
# 言語は説明以上のもの: テキストから画像へのモデルにおける比喩的発話の欠如について

Language Does More Than Describe: On The Lack Of Figurative Speech in Text-To-Image Models ( http://arxiv.org/abs/2210.10578v1 )

ライセンス: Link先を確認
Ricardo Kleinlein, Cristina Luna-Jim\'enez, Fernando Fern\'andez-Mart\'inez(参考訳) テキスト入力プロンプトから高品質な画像を生成するための最近のテキスト・画像拡散モデルによって示された印象的な能力は、アートの定義に関する議論を生かしている。 それにもかかわらず、これらのモデルはコンテンツベースのラベル付けプロトコルから収集されたテキストデータを用いて訓練され、画像中のアイテムやアクションを記述することに重点を置いているが、主観的な評価は無視されている。 そのため、これらの自動システムは、生成する画像の要素の厳密な記述と画像のスタイルを必要とする。 現在の生成モデルの芸術的能力の潜在的な指標として、現在のテキスト・画像拡散モデルのトレーニングに使用される公開テキストデータの感情、目的性、抽象化の程度を特徴付ける。 彼らの言語スタイルと典型的に芸術的文脈で使用されるものとの違いを考えると、生成モデルは、現在の制限を克服(少なくとも緩和)するために、トレーニングに主観的な情報の追加源を取り入れるべきである。

The impressive capacity shown by recent text-to-image diffusion models to generate high-quality pictures from textual input prompts has leveraged the debate about the very definition of art. Nonetheless, these models have been trained using text data collected from content-based labelling protocols that focus on describing the items and actions in an image but neglect any subjective appraisal. Consequently, these automatic systems need rigorous descriptions of the elements and the pictorial style of the image to be generated, otherwise failing to deliver. As potential indicators of the actual artistic capabilities of current generative models, we characterise the sentimentality, objectiveness and degree of abstraction of publicly available text data used to train current text-to-image diffusion models. Considering the sharp difference observed between their language style and that typically employed in artistic contexts, we suggest generative models should incorporate additional sources of subjective information in their training in order to overcome (or at least to alleviate) some of their current limitations, thus effectively unleashing a truly artistic and creative generation.
翻訳日:2022-10-20 14:20:23 公開日:2022-10-19
# グラフ-テキスト生成のための自己教師付きグラフマスキング事前学習

Self-supervised Graph Masking Pre-training for Graph-to-Text Generation ( http://arxiv.org/abs/2210.10599v1 )

ライセンス: Link先を確認
Jiuzhou Han, Ehsan Shareghi(参考訳) 大規模事前学習型言語モデル(PLM)は、グラフの線形化バージョンを処理してグラフからテキストへ(G2T)を生成する。 しかし、線形化は構造情報を無視することが知られている。 加えて、PLMは通常、事前トレーニングと下流G2T生成タスクのドメインミスマッチをもたらすフリーテキストで事前トレーニングされる。 そこで本稿では,これらの欠点に対処するために,教師信号や基礎となるプリトレーニングエンコーダ・デコーダモデルのアーキテクチャを調整せずに,事前学習戦略をグラフマスキングすることを提案する。 本手法は,WebNLG+2020とEventNarrative G2T生成データセット上で,事前学習したT5を用いて新しい最先端結果を実現する。 提案手法は低リソース環境においても有効であることを示す。

Large-scale pre-trained language models (PLMs) have advanced Graph-to-Text (G2T) generation by processing the linearised version of a graph. However, the linearisation is known to ignore the structural information. Additionally, PLMs are typically pre-trained on free text which introduces domain mismatch between pre-training and downstream G2T generation tasks. To address these shortcomings, we propose graph masking pre-training strategies that neither require supervision signals nor adjust the architecture of the underlying pre-trained encoder-decoder model. When used with a pre-trained T5, our approach achieves new state-of-the-art results on WebNLG+2020 and EventNarrative G2T generation datasets. Our method also shows to be very effective in the low-resource setting.
翻訳日:2022-10-20 14:20:04 公開日:2022-10-19
# Assisted Text Simplificationのためのアラビア語レベルの可読性可視化

Arabic Word-level Readability Visualization for Assisted Text Simplification ( http://arxiv.org/abs/2210.10672v1 )

ライセンス: Link先を確認
Reem Hazim, Hind Saddiki, Bashar Alhafni, Muhamed Al Khalil, Nizar Habash(参考訳) 本稿では,アラビア語の単語レベルの可読性の自動可視化のためのGoogle Docsアドオンを提案する。 アドオンには、5レベル可読性レキシコンとアラビア語のwordnetベースの置換提案と接続される補間コンポーネントが含まれている。 このアドオンは、テキストの読み難さを評価し、手作業によるテキスト単純化のタスクの一部として難しい単語を特定するのに使用できる。 アドオンとそのコードを公開しています。

This demo paper presents a Google Docs add-on for automatic Arabic word-level readability visualization. The add-on includes a lemmatization component that is connected to a five-level readability lexicon and Arabic WordNet-based substitution suggestions. The add-on can be used for assessing the reading difficulty of a text and identifying difficult words as part of the task of manual text simplification. We make our add-on and its code publicly available.
翻訳日:2022-10-20 14:19:52 公開日:2022-10-19
# 実効性低リソース関係抽出に向けて:経験的ベースライン研究によるベンチマーク

Towards Realistic Low-resource Relation Extraction: A Benchmark with Empirical Baseline Study ( http://arxiv.org/abs/2210.10678v1 )

ライセンス: Link先を確認
Xin Xu, Xiang Chen, Ningyu Zhang, Xin Xie, Xi Chen, Huajun Chen(参考訳) 本稿では,低リソース環境における関係抽出システムを構築するための経験的研究を行う。 近年の事前学習言語モデルに基づいて,低リソース環境での性能を評価するための3つのスキームを包括的に検討する。 (i)少ないラベル付きデータを有する異なる種類のプロンプトベース手法 (ii)長期流通問題に対処するための多様なバランス方法 (iii)より多くのラベル付きドメイン内データを生成するためのデータ拡張技術と自己学習。 我々は、異なる言語、ドメイン、コンテキストをカバーする8つの関係抽出(RE)データセットでベンチマークを作成し、提案したスキームと組み合わせて広範な比較を行う。 私たちの実験が示すのは (i)低リソースREにおいて、プロンプトベースのチューニングは有益であるが、特に複数のリレーショナルトリプルを持つクロスセレンスコンテキストから関係を抽出する場合、改善の可能性がまだ高い。 二 長期分布のREにおいて、バランシング手法が必ずしも役に立たないこと。 (iii)データ拡張は、既存のベースラインを補完し、多くのパフォーマンス向上をもたらすが、自己学習は、低リソースreへの一貫して進歩を達成するものではない。 コードとデータセットはhttps://github.com/zjunlp/lrebenchにある。

This paper presents an empirical study to build relation extraction systems in low-resource settings. Based upon recent pre-trained language models, we comprehensively investigate three schemes to evaluate the performance in low-resource settings: (i) different types of prompt-based methods with few-shot labeled data; (ii) diverse balancing methods to address the long-tailed distribution issue; (iii) data augmentation technologies and self-training to generate more labeled in-domain data. We create a benchmark with 8 relation extraction (RE) datasets covering different languages, domains and contexts and perform extensive comparisons over the proposed schemes with combinations. Our experiments illustrate: (i) Though prompt-based tuning is beneficial in low-resource RE, there is still much potential for improvement, especially in extracting relations from cross-sentence contexts with multiple relational triples; (ii) Balancing methods are not always helpful for RE with long-tailed distribution; (iii) Data augmentation complements existing baselines and can bring much performance gain, while self-training may not consistently achieve advancement to low-resource RE. Code and datasets are in https://github.com/zjunlp/LREBench.
翻訳日:2022-10-20 14:19:45 公開日:2022-10-19
# 手続き的公正に向けて: 有害言語分類器が感性情報を利用する方法のバイアスを明らかにする

Towards Procedural Fairness: Uncovering Biases in How a Toxic Language Classifier Uses Sentiment Information ( http://arxiv.org/abs/2210.10689v1 )

ライセンス: Link先を確認
Isar Nejadgholi, Esma Balk{\i}r, Kathleen C. Fraser, and Svetlana Kiritchenko(参考訳) 有毒言語分類器の公正性に関する以前の研究は、異なる同一項を持つモデルの出力を入力特徴として比較するが、文脈に存在する他の重要な概念の影響を考慮しない。 ここでは、恒等項の他に、分類器によって学習された高次潜在特徴を考慮し、これらの特徴と恒等項との相互作用について検討する。 マルチクラス有毒言語分類器では,従来の有毒言語検出の健全な特徴として用いられてきた感情概念に対するモデルの感度を計算するために,概念に基づく説明フレームワークを利用する。 以上の結果から, クラスによっては, 感情情報を期待通りに学習したクラスもあるが, この情報は, 入力特徴としてのアイデンティティ項の影響に勝っていることがわかった。 この研究は、不公平なプロセスが不公平な結果をもたらす手続き的公正性を評価するための一歩である。 生成された知識は、識別項以外の重要な概念がトレーニングデータセットでよく表現されていることを保証するために、デバイアステクニックを導くことができる。

Previous works on the fairness of toxic language classifiers compare the output of models with different identity terms as input features but do not consider the impact of other important concepts present in the context. Here, besides identity terms, we take into account high-level latent features learned by the classifier and investigate the interaction between these features and identity terms. For a multi-class toxic language classifier, we leverage a concept-based explanation framework to calculate the sensitivity of the model to the concept of sentiment, which has been used before as a salient feature for toxic language detection. Our results show that although for some classes, the classifier has learned the sentiment information as expected, this information is outweighed by the influence of identity terms as input features. This work is a step towards evaluating procedural fairness, where unfair processes lead to unfair outcomes. The produced knowledge can guide debiasing techniques to ensure that important concepts besides identity terms are well-represented in training datasets.
翻訳日:2022-10-20 14:19:26 公開日:2022-10-19
# チャフから穀物を分離する: ローソースアフリカの言語のための多言語翻訳を改善するためにデータフィルタリングを使用する

Separating Grains from the Chaff: Using Data Filtering to Improve Multilingual Translation for Low-Resourced African Languages ( http://arxiv.org/abs/2210.10692v1 )

ライセンス: Link先を確認
Idris Abdulmumin, Michael Beukman, Jesujoba O. Alabi, Chris Emezue, Everlyn Asiko, Tosin Adewumi, Shamsuddeen Hassan Muhammad, Mofetoluwa Adeyemi, Oreen Yousuf, Sahib Singh, Tajuddeen Rabiu Gwadabe(参考訳) 我々は,WMT 2022のアフリカ言語共有タスクにおける大規模機械翻訳評価に参加した。 本研究は,事前学習した言語モデルを微調整した文音分類器を用いて,与えられた雑音データをフィルタリングする手法について述べる。 分類器を訓練するために、ゴールド標準キュレートされたデータセットから正のサンプル(高品質並列文)を取得し、低アライメントスコアの文を選択して自動的に一致した並列データから負のサンプル(低品質並列文)を抽出する。 最終的な機械翻訳モデルは、ノイズの多いデータセット全体ではなく、フィルタリングデータに基づいてトレーニングされました。 2つの共通のデータセットから評価することで、我々のアプローチを実証的に検証し、データフィルタリングが一般的に全体的な翻訳品質を改善することを示す。

We participated in the WMT 2022 Large-Scale Machine Translation Evaluation for the African Languages Shared Task. This work describes our approach, which is based on filtering the given noisy data using a sentence-pair classifier that was built by fine-tuning a pre-trained language model. To train the classifier, we obtain positive samples (i.e. high-quality parallel sentences) from a gold-standard curated dataset and extract negative samples (i.e. low-quality parallel sentences) from automatically aligned parallel data by choosing sentences with low alignment scores. Our final machine translation model was then trained on filtered data, instead of the entire noisy dataset. We empirically validate our approach by evaluating on two common datasets and show that data filtering generally improves overall translation quality, in some cases even significantly.
翻訳日:2022-10-20 14:19:08 公開日:2022-10-19
# データ効率の高いリレーショナルトリプルとイベント抽出を改善するschema-aware reference as prompt

Schema-aware Reference as Prompt Improves Data-Efficient Relational Triple and Event Extraction ( http://arxiv.org/abs/2210.10709v1 )

ライセンス: Link先を確認
Yunzhi Yao, Shengyu Mao, Xiang Chen, Ningyu Zhang, Shumin Deng, Huajun Chen(参考訳) 非構造化テキストから構造的リレーショナルトリプルやイベントを抽出することを目的とした情報抽出は、データ不足の問題に苦しむことが多い。 事前学習型言語モデルの開発により,データ効率のよい情報抽出手法が提案され,性能が向上した。 しかし、情報抽出のための既存のプロンプト学習手法は、まだいくつかの潜在的な制限を受けやすい。 (i)事前定義されたスキーマによる自然言語と出力構造知識のセマンティックギャップ (II)局所的な個別インスタンスによる表現学習は、不十分な特徴から性能を制限する。 本稿では,各サンプルのグローバル(フェーショット)トレーニングデータから受け継いだスキーマと知識を動的に活用する,スキーマ対応リファレンス・アズ・プロンプト(RAP)の新たなアプローチを提案する。 具体的には、シンボルスキーマと関連するテキストインスタンスを統一するスキーマ対応参照ストアを提案する。 次に、動的参照統合モジュールを用いて、トレーニングおよび推論中に、データストアから関連する知識を抽出する。 実験結果から,RAPを既存のモデルにプラグインし,リレーショナルトリプル抽出とイベント抽出の5つのデータセット上で,低リソース環境でのベースラインよりも優れた性能を示すことがわかった。 さらに,RAPのメカニズムをよりよく理解するために,様々なタイプの知識と尺度に関する包括的経験的説明と事例分析を提供する。 コードはhttps://github.com/zjunlp/RAPで入手できる。

Information Extraction, which aims to extract structural relational triple or event from unstructured texts, often suffers from data scarcity issues. With the development of pre-trained language models, many prompt-based approaches to data-efficient information extraction have been proposed and achieved impressive performance. However, existing prompt learning methods for information extraction are still susceptible to several potential limitations: (i) semantic gap between natural language and output structure knowledge with pre-defined schema; (ii) representation learning with locally individual instances limits the performance given the insufficient features. In this paper, we propose a novel approach of schema-aware Reference As Prompt (RAP), which dynamically leverage schema and knowledge inherited from global (few-shot) training data for each sample. Specifically, we propose a schema-aware reference store, which unifies symbolic schema and relevant textual instances. Then, we employ a dynamic reference integration module to retrieve pertinent knowledge from the datastore as prompts during training and inference. Experimental results demonstrate that RAP can be plugged into various existing models and outperforms baselines in low-resource settings on five datasets of relational triple extraction and event extraction. In addition, we provide comprehensive empirical ablations and case analysis regarding different types and scales of knowledge in order to better understand the mechanisms of RAP. Code is available in https://github.com/zjunlp/RAP.
翻訳日:2022-10-20 14:18:53 公開日:2022-10-19
# UniNL:一元学習によるOOD検出のためのスコーリング機能付き表現学習

UniNL: Aligning Representation Learning with Scoring Function for OOD Detection via Unified Neighborhood Learning ( http://arxiv.org/abs/2210.10722v1 )

ライセンス: Link先を確認
Yutao Mou, Pei Wang, Keqing He, Yanan Wu, Jingang Wang, Wei Wu, Weiran Xu(参考訳) タスク指向対話システムにおける誤った操作を避けるためには,ユーザクエリからドメイン外インテント(ood)を検出することが不可欠である。 重要な課題は、ドメイン内(IND)とOODの意図を区別する方法です。 従来の手法では、表象学習とスコアリング関数のアライメントを無視し、ood検出性能を制限した。 本稿では,OODの意図を検出するため,統一的な近傍学習フレームワーク(UniNL)を提案する。 具体的には、表現学習のためのK-nearest neighbor contrastive learning(KNCL)を設計し、OOD検出のためのKNNベースのスコアリング機能を導入する。 我々は,表現学習と得点関数の整合性を目指す。 2つのベンチマークデータセットの実験と分析により,本手法の有効性が示された。

Detecting out-of-domain (OOD) intents from user queries is essential for avoiding wrong operations in task-oriented dialogue systems. The key challenge is how to distinguish in-domain (IND) and OOD intents. Previous methods ignore the alignment between representation learning and scoring function, limiting the OOD detection performance. In this paper, we propose a unified neighborhood learning framework (UniNL) to detect OOD intents. Specifically, we design a K-nearest neighbor contrastive learning (KNCL) objective for representation learning and introduce a KNN-based scoring function for OOD detection. We aim to align representation learning with scoring function. Experiments and analysis on two benchmark datasets show the effectiveness of our method.
翻訳日:2022-10-20 14:18:30 公開日:2022-10-19
# 組合せ神経系の効率的確率論的解析

Efficient, probabilistic analysis of combinatorial neural codes ( http://arxiv.org/abs/2210.10492v1 )

ライセンス: Link先を確認
Thomas F Burns, Irwansyah(参考訳) 人工および生物学的ニューラルネットワーク(annsおよびbnn)は、個々のニューロンの活動の組み合わせの形で入力をエンコードすることができる。 これらの組合せニューラルネットワークは、その高次元性としばしば大量のデータのために、直接的で効率的な分析のための計算上の課題を示す。 ここでは、以前小さな例に適用された直接代数的手法の計算複雑性(因子時間から二次時間)を改善し、実験によって生成された大きなニューラルコードに適用する。 これらの手法は、組合せ型ニューラルネットワークの代数的、幾何学的、位相的特性を探索し、ニューラルネットワークの学習や経験とどのように関連しているかについての洞察を提供する。 本稿では,情報幾何学を用いたニューラルコード固有の特徴の仮説テストを行う手法を提案する。 次に、これらの手法を、画像分類のためのANNと2次元ナビゲーションのためのBNNの神経活動に適用し、入力や出力を観察せずに、刺激やタスク空間の構造と寸法を推定する。 さらに、ネットワーク深度や学習中に、ANNの内部表現がどのように変化するかを示す。

Artificial and biological neural networks (ANNs and BNNs) can encode inputs in the form of combinations of individual neurons' activities. These combinatorial neural codes present a computational challenge for direct and efficient analysis due to their high dimensionality and often large volumes of data. Here we improve the computational complexity -- from factorial to quadratic time -- of direct algebraic methods previously applied to small examples and apply them to large neural codes generated by experiments. These methods provide a novel and efficient way of probing algebraic, geometric, and topological characteristics of combinatorial neural codes and provide insights into how such characteristics are related to learning and experience in neural networks. We introduce a procedure to perform hypothesis testing on the intrinsic features of neural codes using information geometry. We then apply these methods to neural activities from an ANN for image classification and a BNN for 2D navigation to, without observing any inputs or outputs, estimate the structure and dimensionality of the stimulus or task space. Additionally, we demonstrate how an ANN varies its internal representations across network depth and during learning.
翻訳日:2022-10-20 14:18:18 公開日:2022-10-19
# メタラーニングによる事前学習言語モデルのための複数学習目標の作成

Forging Multiple Training Objectives for Pre-trained Language Models via Meta-Learning ( http://arxiv.org/abs/2210.10293v1 )

ライセンス: Link先を確認
Hongqiu Wu, Ruixue Ding, Hai Zhao, Boli Chen, Pengjun Xie, Fei Huang, Min Zhang(参考訳) 複数の事前学習目標が、事前学習言語モデル(prlm)の究極の目的である単一目的言語モデリングの理解能力の欠如を満たしており、多くのシナリオをうまく一般化している。 しかし、1つのモデルで複数のトレーニング目標を学ぶことは、未知の相対的重要性とそれらの間の潜在的な適合性によって困難である。 実証的な研究により、現在、アドホックな手動設定における客観的サンプリングは、学習された言語表現を所望の最適値にほとんど収束させることが示されている。 そこで本稿では,任意の事前学習目的に対して潜伏サンプリングパターンを学習するメタラーニングに基づく適応型サンプラーである \textit{mometas} を提案する。 このような設計は軽量であり、追加のトレーニングオーバーヘッドは無視できる。 提案手法の有効性を検証するため,提案手法を5つの目標に適用し,BERT-baseおよびBERT-largeモデルを用いて継続事前学習を行い,MOMETASは14の自然言語処理タスクにおける他のルールベースサンプリング手法に比べて,普遍的な性能向上を示す。

Multiple pre-training objectives fill the vacancy of the understanding capability of single-objective language modeling, which serves the ultimate purpose of pre-trained language models (PrLMs), generalizing well on a mass of scenarios. However, learning multiple training objectives in a single model is challenging due to the unknown relative significance as well as the potential contrariety between them. Empirical studies have shown that the current objective sampling in an ad-hoc manual setting makes the learned language representation barely converge to the desired optimum. Thus, we propose \textit{MOMETAS}, a novel adaptive sampler based on meta-learning, which learns the latent sampling pattern on arbitrary pre-training objectives. Such a design is lightweight with negligible additional training overhead. To validate our approach, we adopt five objectives and conduct continual pre-training with BERT-base and BERT-large models, where MOMETAS demonstrates universal performance gain over other rule-based sampling strategies on 14 natural language processing tasks.
翻訳日:2022-10-20 14:12:07 公開日:2022-10-19
# 特徴投影と長さバランス損失を考慮した可読性評価のための統一ニューラルネットワークモデル

A Unified Neural Network Model for Readability Assessment with Feature Projection and Length-Balanced Loss ( http://arxiv.org/abs/2210.10305v1 )

ライセンス: Link先を確認
Wenbiao Li, Ziyang Wang, Yunfang Wu(参考訳) 可読性評価では、従来の手法は主に数百の言語的特徴を持つ機械学習分類器を使用する。 ディープラーニングモデルは,ほぼすべてのNLPタスクにおいて顕著なアプローチとなっているが,可読性評価には適していない。 本稿では,可読性評価のための特徴投影と長さバランス損失(BERT-FP-LBL)を用いたBERTモデルを提案する。 特に,従来の言語的特徴を補完する話題の特徴を抽出する難易度知識ガイド付き半教師手法を提案する。 言語的特徴から, 投影フィルタリングを用いて直交的特徴を抽出し, bert表現を補完する。 さらに,データの長さ分布を大きく変化させるために,新たな長さバランス損失を設計する。 本モデルは,2つの英語ベンチマークデータセットと1つの中国語教科書データセットで最先端のパフォーマンスを達成し,1つの英語データセットにおいてほぼ完全な99\%の精度を達成する。 さらに,提案モデルでは,一貫性テストにおいて,人間と同等の結果が得られる。

For readability assessment, traditional methods mainly employ machine learning classifiers with hundreds of linguistic features. Although the deep learning model has become the prominent approach for almost all NLP tasks, it is less explored for readability assessment. In this paper, we propose a BERT-based model with feature projection and length-balanced loss (BERT-FP-LBL) for readability assessment. Specially, we present a new difficulty knowledge guided semi-supervised method to extract topic features to complement the traditional linguistic features. From the linguistic features, we employ projection filtering to extract orthogonal features to supplement BERT representations. Furthermore, we design a new length-balanced loss to handle the greatly varying length distribution of data. Our model achieves state-of-the-art performances on two English benchmark datasets and one dataset of Chinese textbooks, and also achieves the near-perfect accuracy of 99\% on one English dataset. Moreover, our proposed model obtains comparable results with human experts in consistency test.
翻訳日:2022-10-20 14:11:48 公開日:2022-10-19
# 辞書からの学習 : 中国語スペルチェックのための不均質な知識誘導型微調整

Learning from the Dictionary: Heterogeneous Knowledge Guided Fine-tuning for Chinese Spell Checking ( http://arxiv.org/abs/2210.10320v1 )

ライセンス: Link先を確認
Yinghui Li, Shirong Ma, Qingyu Zhou, Zhongli Li, Li Yangning, Shulin Huang, Ruiyang Liu, Chao Li, Yunbo Cao and Haitao Zheng(参考訳) Chinese Spell Checking (CSC)は、中国の綴り誤りを検出し、修正することを目的としている。 最近の研究は、言語モデルの事前訓練された知識から始まり、CSCモデルにマルチモーダル情報を取り入れて性能を向上させる。 しかし、ある文字がどのように発音され、書かれ、使われるべきかを学ぶための参考書である辞書の豊富な知識を見落としている。 本稿では,音声学・視覚学・意味学の観点から,CSCモデルを用いて辞書から異種知識を学習するLEADフレームワークを提案する。 LEADはまず、文字音声学、グリフ、辞書の定義の知識に基づいて、正と負のサンプルを構築する。 次に、cscモデルの表現を洗練するために、統一的なコントラスト学習に基づくトレーニングスキームを用いる。 SIGHANベンチマークデータセットの大規模な実験と詳細な解析により,提案手法の有効性が示された。

Chinese Spell Checking (CSC) aims to detect and correct Chinese spelling errors. Recent researches start from the pretrained knowledge of language models and take multimodal information into CSC models to improve the performance. However, they overlook the rich knowledge in the dictionary, the reference book where one can learn how one character should be pronounced, written, and used. In this paper, we propose the LEAD framework, which renders the CSC model to learn heterogeneous knowledge from the dictionary in terms of phonetics, vision, and meaning. LEAD first constructs positive and negative samples according to the knowledge of character phonetics, glyphs, and definitions in the dictionary. Then a unified contrastive learning-based training scheme is employed to refine the representations of the CSC models. Extensive experiments and detailed analyses on the SIGHAN benchmark datasets demonstrate the effectiveness of our proposed methods.
翻訳日:2022-10-20 14:11:32 公開日:2022-10-19
# コンポーネントワイズ勾配ノルムクリッピングによる微調整事前学習言語モデルの安定性向上

Improving Stability of Fine-Tuning Pretrained Language Models via Component-Wise Gradient Norm Clipping ( http://arxiv.org/abs/2210.10325v1 )

ライセンス: Link先を確認
Chenghao Yang, Xuezhe Ma(参考訳) 大規模事前学習言語モデル(PLM)に対する微調整は、多くの最先端の結果を確立している。 優れた性能にもかかわらず、このような微調整は不安定になり、実用上のアプリケーションの性能と潜在的なリスクに大きなばらつきをもたらす。 従来の研究は、PLMの最上層における破滅的な忘れ問題にそのような不安定さを起因としており、これは上層部の微調整層が有望な解であることを示している。 本稿ではまず,異なるレイヤ/モジュールの収束速度が異なるため,この手法が必ずしもうまくいかないことを指摘した。 この観測から着想を得て,異なる成分の収束速度を調整するための簡易な成分勾配標準クリッピング法を提案する。 実験結果から,本手法は一般化性能,収束速度,訓練安定性の点で一貫した改善が得られた。 コードベースはhttps://github.com/yangalan123/FineTuningStabilityで確認できる。

Fine-tuning over large pretrained language models (PLMs) has established many state-of-the-art results. Despite its superior performance, such fine-tuning can be unstable, resulting in significant variance in performance and potential risks for practical applications. Previous works have attributed such instability to the catastrophic forgetting problem in the top layers of PLMs, which indicates iteratively that fine-tuning layers in a top-down manner is a promising solution. In this paper, we first point out that this method does not always work out due to the different convergence speeds of different layers/modules. Inspired by this observation, we propose a simple component-wise gradient norm clipping method to adjust the convergence speed for different components. Experiment results demonstrate that our method achieves consistent improvements in terms of generalization performance, convergence speed, and training stability. The codebase can be found at https://github.com/yangalan123/FineTuningStability.
翻訳日:2022-10-20 14:11:19 公開日:2022-10-19
# muger$^2$: ハイブリッド質問応答のためのマルチグラニュラ性証拠検索と推論

MuGER$^2$: Multi-Granularity Evidence Retrieval and Reasoning for Hybrid Question Answering ( http://arxiv.org/abs/2210.10350v1 )

ライセンス: Link先を確認
Yingyao Wang, Junwei Bao, Chaoqun Duan, Youzheng Wu, Xiaodong He and Tiejun Zhao(参考訳) ハイブリッド質問応答(HQA)は、テーブルセルにリンクされたテーブルやパスを含む異種データに対する質問に答えることを目的としている。 不均一なデータはHQAモデル、例えば列、行、セル、リンクに異なる粒度の証拠を与えることができる。 従来のHQAモデルは、通常、答えを推論するために粗いまたはきめ細かい証拠を回収する。 比較により,粗粒度証拠の検索は容易であるが,推論者への寄与は少ないが,粗粒度証拠は逆であることがわかった。 この利点を保ち、異なる粒度証拠の不備を取り除くために、MugER$^2$, a Multi-Granularity Evidence Retrieval and Reasoning approachを提案する。 証拠検索において、統一検索器は異種データから多粒性証拠を学習するように設計されている。 回答推論では,学習した多粒性証拠に基づいて,回答読者の詳細な証拠をナビゲートするエビデンスセレクタを提案する。 HybridQAデータセットの実験結果は、MuGER$^2$がHQAのパフォーマンスを大幅に向上させることを示している。 さらにアブレーション解析は、検索および推論設計の有効性を検証する。

Hybrid question answering (HQA) aims to answer questions over heterogeneous data, including tables and passages linked to table cells. The heterogeneous data can provide different granularity evidence to HQA models, e.t., column, row, cell, and link. Conventional HQA models usually retrieve coarse- or fine-grained evidence to reason the answer. Through comparison, we find that coarse-grained evidence is easier to retrieve but contributes less to the reasoner, while fine-grained evidence is the opposite. To preserve the advantage and eliminate the disadvantage of different granularity evidence, we propose MuGER$^2$, a Multi-Granularity Evidence Retrieval and Reasoning approach. In evidence retrieval, a unified retriever is designed to learn the multi-granularity evidence from the heterogeneous data. In answer reasoning, an evidence selector is proposed to navigate the fine-grained evidence for the answer reader based on the learned multi-granularity evidence. Experiment results on the HybridQA dataset show that MuGER$^2$ significantly boosts the HQA performance. Further ablation analysis verifies the effectiveness of both the retrieval and reasoning designs.
翻訳日:2022-10-20 14:11:02 公開日:2022-10-19
# 多言語・多言語メタファー検出のための新しいスペイン語コーパスの活用

Leveraging a New Spanish Corpus for Multilingual and Crosslingual Metaphor Detection ( http://arxiv.org/abs/2210.10358v1 )

ライセンス: Link先を確認
Elisa Sanchez-Bayona, Rodrigo Agerri(参考訳) 英語以外の言語の日常的なメタファ表現に注釈が付された広範なカバレッジデータセットの欠如は目覚しい。 これは、教師付きメタファー検出に関するほとんどの研究が、その言語のためにのみ公表されていることを意味する。 この問題に対処するため,本研究では,スペイン語で自然に出現するメタファーをアノテートした最初のコーパスを提示し,メタファー検出を行うシステムを開発する。 提示されたデータセットであるCoMetaには、ニュース、政治談話、ウィキペディア、レビューなど、さまざまな分野のテキストが含まれている。 cometaをラベル付けるために,実データに対するメタファを体系的にアノテートするために最も一般的に使用されるガイドラインであるmipvu法を適用した。 我々は新たに作成したデータセットを用いて、複数の多言語およびモノリンガルな大言語モデルを微調整することで、競争力のあるベースラインを提供する。 さらに、既存のVUAMの英語データをCoMetaに加えて活用することにより、私たちの知識の最大限に活用し、教師付き比喩検出に関する最初の言語横断実験を行う。 最後に、これらの2つの言語とデータセット間の日常的な比喩の高い移動を探索する詳細なエラー解析を行う。

The lack of wide coverage datasets annotated with everyday metaphorical expressions for languages other than English is striking. This means that most research on supervised metaphor detection has been published only for that language. In order to address this issue, this work presents the first corpus annotated with naturally occurring metaphors in Spanish large enough to develop systems to perform metaphor detection. The presented dataset, CoMeta, includes texts from various domains, namely, news, political discourse, Wikipedia and reviews. In order to label CoMeta, we apply the MIPVU method, the guidelines most commonly used to systematically annotate metaphor on real data. We use our newly created dataset to provide competitive baselines by fine-tuning several multilingual and monolingual state-of-the-art large language models. Furthermore, by leveraging the existing VUAM English data in addition to CoMeta, we present the, to the best of our knowledge, first cross-lingual experiments on supervised metaphor detection. Finally, we perform a detailed error analysis that explores the seemingly high transfer of everyday metaphor across these two languages and datasets.
翻訳日:2022-10-20 14:10:42 公開日:2022-10-19
# HyperCLOVAを用いた観光案内ロボット

Tourist Guidance Robot Based on HyperCLOVA ( http://arxiv.org/abs/2210.10400v1 )

ライセンス: Link先を確認
Takato Yamazaki, Katsumasa Yoshikawa, Toshiki Kawamoto, Masaya Ohagi, Tomoya Mizumoto, Shuta Ichimura, Yusuke Kida, Toshinori Sato(参考訳) 本稿では,対話ロボットコンペティション2022に提案するシステムについて述べる。 提案システムはルールベースとジェネレータベースのダイアログシステムを組み合わせたシステムである。 本システムは,日本語基盤モデルであるHyperCLOVAを利用して応答を生成するだけでなく,要約や検索情報も生成する。 また,この対話処理に精通した音声認識システムについても検討した。 その結果,本システムは予選2位にランクインし,決勝に進出した。

This paper describes our system submitted to Dialogue Robot Competition 2022. Our proposed system is a combined model of rule-based and generation-based dialog systems. The system utilizes HyperCLOVA, a Japanese foundation model, not only to generate responses but also summarization, search information, etc. We also used our original speech recognition system, which was fine-tuned for this dialog task. As a result, our system ranked second in the preliminary round and moved on to the finals.
翻訳日:2022-10-20 14:10:25 公開日:2022-10-19
# ハイブリッド回帰型ニューラルマシン翻訳

Hybrid-Regressive Neural Machine Translation ( http://arxiv.org/abs/2210.10416v1 )

ライセンス: Link先を確認
Qiang Wang, Xinhui Hu, Ming Chen(参考訳) 本研究では,自動回帰翻訳(AT)よりもバッチサイズや計算装置設定の復号化に敏感なため,繰り返し精細化機構(IR-NAT)による非自己回帰翻訳が加速性に乏しいことを実証的に確認する。 これに触発されて,自己回帰的および非自己回帰的翻訳パラダイムの強みをよりよく結合する方法について検討する。 そこで本研究では,少数のAT予測が単発非自己回帰翻訳を促進させ,IR-NATの同等性能を実現するための合成実験を行った。 そこで我々は,Hybrid-Regressive Translation (HRT)と呼ばれる2段階の翻訳プロトタイプを提案する。 具体的には、HRTはまず自己回帰(例えば、すべてのkトークン、k>1)を介して不連続なシーケンスを生成し、その後、非自己回帰的な方法で一度にスキップされたすべてのトークンを埋める。 また,モデルパラメータを追加せずにHRTを効果的かつ効率的に訓練する手法の袋を提案する。 HRTはWMT En-Deタスクで最先端のBLEUスコア28.49を達成し、バッチサイズやデバイスに関わらずATよりも1.5倍高速である。 さらにHRTのもうひとつのメリットは、ディープエンコーダ-シャローデコーダアーキテクチャにおけるATの優れた特性を継承することに成功したことだ。 具体的には、6層エンコーダと6層デコーダを備えたバニラHRTと比較して、12層エンコーダと1層デコーダによるHRTの推論速度は、BLEU損失のないGPUとCPUの両方でさらに倍増する。

In this work, we empirically confirm that non-autoregressive translation with an iterative refinement mechanism (IR-NAT) suffers from poor acceleration robustness because it is more sensitive to decoding batch size and computing device setting than autoregressive translation (AT). Inspired by it, we attempt to investigate how to combine the strengths of autoregressive and non-autoregressive translation paradigms better. To this end, we demonstrate through synthetic experiments that prompting a small number of AT's predictions can promote one-shot non-autoregressive translation to achieve the equivalent performance of IR-NAT. Following this line, we propose a new two-stage translation prototype called hybrid-regressive translation (HRT). Specifically, HRT first generates discontinuous sequences via autoregression (e.g., make a prediction every k tokens, k>1) and then fills in all previously skipped tokens at once in a non-autoregressive manner. We also propose a bag of techniques to effectively and efficiently train HRT without adding any model parameters. HRT achieves the state-of-the-art BLEU score of 28.49 on the WMT En-De task and is at least 1.5x faster than AT, regardless of batch size and device. In addition, another bonus of HRT is that it successfully inherits the good characteristics of AT in the deep-encoder-shallow-decoder architecture. Concretely, compared to the vanilla HRT with a 6-layer encoder and 6-layer decoder, the inference speed of HRT with a 12-layer encoder and 1-layer decoder is further doubled on both GPU and CPU without BLEU loss.
翻訳日:2022-10-20 14:10:20 公開日:2022-10-19
# 機械学習に基づく矛盾検出モデルに関する言語学的研究 : 経験的分析と今後の展望

A Linguistic Investigation of Machine Learning based Contradiction Detection Models: An Empirical Analysis and Future Perspectives ( http://arxiv.org/abs/2210.10434v1 )

ライセンス: Link先を確認
Maren Pielka, Felix Rode, Lisa Pucknat, Tobias Deu{\ss}er, Rafet Sifa(参考訳) 2つの自然言語推論データセットを言語的特徴に関して解析する。 目標は、機械学習モデルを理解するのが特に難しい構文的および意味的特性を特定することです。 この目的のために,クラウドソーシングされた機械翻訳データセット(SNLI)とインターネットソースからのテキストペアの集合の違いについても検討する。 本研究の目的は,前置詞と動詞の意味的重要性の認識が困難であり,言語的に認識される前訓練課題の重要性を強調することである。 さらに、特にそれらが文脈に依存する場合、Antonyms や homonyms を理解できないことが多い。 不完全文は、より長い段落や稀な単語や句と同様に別の問題である。 この研究は、自動言語理解には、トレーニングプロセスを通じて可能な限り多くの外部知識を活用する、より情報的なアプローチが必要であることを示している。

We analyze two Natural Language Inference data sets with respect to their linguistic features. The goal is to identify those syntactic and semantic properties that are particularly hard to comprehend for a machine learning model. To this end, we also investigate the differences between a crowd-sourced, machine-translated data set (SNLI) and a collection of text pairs from internet sources. Our main findings are, that the model has difficulty recognizing the semantic importance of prepositions and verbs, emphasizing the importance of linguistically aware pre-training tasks. Furthermore, it often does not comprehend antonyms and homonyms, especially if those are depending on the context. Incomplete sentences are another problem, as well as longer paragraphs and rare words or phrases. The study shows that automated language understanding requires a more informed approach, utilizing as much external knowledge as possible throughout the training process.
翻訳日:2022-10-20 14:09:47 公開日:2022-10-19
# 中国語母語文法誤り訂正のための言語規則に基づくコーパス生成

Linguistic Rules-Based Corpus Generation for Native Chinese Grammatical Error Correction ( http://arxiv.org/abs/2210.10442v1 )

ライセンス: Link先を確認
Shirong Ma, Yinghui Li, Rongyi Sun, Qingyu Zhou, Shulin Huang, Ding Zhang, Li Yangning, Ruiyang Liu, Zhongli Li, Yunbo Cao, Haitao Zheng and Ying Shen(参考訳) 中国語の文法的誤り訂正(CGEC)は、難易度の高いNLPタスクであり、人間の日常生活に共通の応用である。 近年、CGEC研究の発展に向け、多くのデータ駆動型アプローチが提案されている。 しかし、cgec分野には2つの大きな制限があり、第一に、高品質のアノテーテッドトレーニングコーパスの欠如により、既存のcgecモデルの性能が大幅に改善されない。 第二に、広く使われているテストセットの文法的誤りは、ネイティブな中国語話者によって作られていないため、CGECモデルと実際のアプリケーションの間に大きなギャップが生じる。 本稿では,自動生成した文法エラーを用いた大規模cgec訓練コーパスを構築するための言語規則に基づく手法を提案する。 さらに,実環境における中国語話者の誤りから得られたCGECベンチマークを提案する。 広範な実験と詳細な分析により,本手法が構築したトレーニングデータがcgecモデルの性能を効果的に向上するだけでなく,本ベンチマークがcgec分野のさらなる発展のための優れたリソースであることを示す。

Chinese Grammatical Error Correction (CGEC) is both a challenging NLP task and a common application in human daily life. Recently, many data-driven approaches are proposed for the development of CGEC research. However, there are two major limitations in the CGEC field: First, the lack of high-quality annotated training corpora prevents the performance of existing CGEC models from being significantly improved. Second, the grammatical errors in widely used test sets are not made by native Chinese speakers, resulting in a significant gap between the CGEC models and the real application. In this paper, we propose a linguistic rules-based approach to construct large-scale CGEC training corpora with automatically generated grammatical errors. Additionally, we present a challenging CGEC benchmark derived entirely from errors made by native Chinese speakers in real-world scenarios. Extensive experiments and detailed analyses not only demonstrate that the training data constructed by our method effectively improves the performance of CGEC models, but also reflect that our benchmark is an excellent resource for further development of the CGEC field.
翻訳日:2022-10-20 14:09:34 公開日:2022-10-19
# コミュニティ検出におけるインプシットモデル,潜伏圧縮,内在バイアス,安価なランチ

Implicit models, latent compression, intrinsic biases, and cheap lunches in community detection ( http://arxiv.org/abs/2210.09186v3 )

ライセンス: Link先を確認
Tiago P. Peixoto, Alec Kirkley(参考訳) ネットワークをノードのクラスタに分割して大規模構造を要約することを目的としたコミュニティ検出のタスクは、さまざまな目的を持った多くの競合するアルゴリズムの開発を生み出した。 いくつかのコミュニティ検出手法は予測的であり、確率的生成モデルを通じてクラスタリングの目的を明示的に導出するが、他の手法は記述的であり、特定のアプリケーションによって動機づけられた目的に従ってネットワークを分割する。 本稿では,コミュニティ検出対象,推論対象,記述対象と,それに対応する暗黙的ネットワーク生成モデルとを関連付ける。 これにより、任意の目的の下でネットワークとその分割の記述長を計算し、異なるアルゴリズムのパフォーマンスを「基底真理」ラベルなしで比較するための原則的尺度を提供する。 提案手法は,任意のアルゴリズムに最適なコミュニティ検出問題の事例にもアクセス可能であり,この方法では,一般的な記述手法における固有のバイアスを明らかにし,過度に適合する傾向を説明する。 本フレームワークを用いて,500以上の構造的多様な経験的ネットワークのコーパスと,人工ネットワーク上でのコミュニティ検出手法を比較した。 より表現力のあるコミュニティ検出手法は、より特殊なアルゴリズムが最適に動作する少数の状況において、性能を低下させることなく、構造化データインスタンス上で一貫して優れた圧縮性能を示す。 本研究の結果は,非構造化データインスタンスに限定されているため,概念的にも現実的にも,コミュニティ検出における「無料ランチ」定理の意義を損なうものである。

The task of community detection, which aims to partition a network into clusters of nodes to summarize its large-scale structure, has spawned the development of many competing algorithms with varying objectives. Some community detection methods are inferential, explicitly deriving the clustering objective through a probabilistic generative model, while other methods are descriptive, dividing a network according to an objective motivated by a particular application, making it challenging to compare these methods on the same scale. Here we present a solution to this problem that associates any community detection objective, inferential or descriptive, with its corresponding implicit network generative model. This allows us to compute the description length of a network and its partition under arbitrary objectives, providing a principled measure to compare the performance of different algorithms without the need for "ground truth" labels. Our approach also gives access to instances of the community detection problem that are optimal to any given algorithm, and in this way reveals intrinsic biases in popular descriptive methods, explaining their tendency to overfit. Using our framework, we compare a number of community detection methods on artificial networks, and on a corpus of over 500 structurally diverse empirical networks. We find that more expressive community detection methods exhibit consistently superior compression performance on structured data instances, without having degraded performance on a minority of situations where more specialized algorithms perform optimally. Our results undermine the implications of the "no free lunch" theorem for community detection, both conceptually and in practice, since it is confined to unstructured data instances, unlike relevant community detection problems which are structured by requirement.
翻訳日:2022-10-20 14:03:20 公開日:2022-10-19
# 文脈的バンディットに対するanytime-valid off-policy inference

Anytime-valid off-policy inference for contextual bandits ( http://arxiv.org/abs/2210.10768v1 )

ライセンス: Link先を確認
Ian Waudby-Smith, Lili Wu, Aaditya Ramdas, Nikos Karampatziakis, and Paul Mineiro(参考訳) コンテキストバンディットは、テック業界におけるアクティブな逐次実験のための現代的な定型ツールである。 それらは、(時間とともに)適応的に、観測されたコンテキストをアクションにマッピングするポリシーを学習するオンライン学習アルゴリズムを、確率的な報酬を最大化するために、$A_t$にします。 例えば、データ収集に使われたロギングポリシーと異なる仮説的ポリシーの特性を見積もることは、しばしば「オフ・ポリティィ・アセスメント(OPE)」と呼ばれる問題である。 現代のmartingale手法を用いて,過去の作業における多くの不要な仮定を緩和し,理論的および経験的にこれらを著しく改善した,ope推論のための包括的フレームワークを提案する。 私たちのメソッドは、非常に一般的な設定で有効であり、元の実験が実行中(つまり、必ずしもポストホックではない)、ロギングポリシー自体が変更されている場合(学習のため)、コンテキスト分布が時間とともにドリフトしている場合でも、使用できる。 より具体的には、OPEの様々な機能に対する信頼シーケンスを導出する。 これには、時間的に変動するオフポリシーの平均報酬値に対する2倍の堅牢な値だけでなく、オフポリシー報酬分布のcdf全体に対する信頼バンドも含まれる。 あらゆる方法が (a)任意の停止時間で有効である (b)非パラメトリックな仮定のみを行い、 (c)最大重要度重みに関する既知の境界を必要とせず、 (d)報酬と重量分布の実証的ばらつきに適応する。 要約すると, 適応的に収集したコンテキストバンディットデータを用いて, 任意の時価オフポリシー推定を可能にする。

Contextual bandits are a modern staple tool for active sequential experimentation in the tech industry. They involve online learning algorithms that adaptively (over time) learn policies to map observed contexts $X_t$ to actions $A_t$ in an attempt to maximize stochastic rewards $R_t$. This adaptivity raises interesting but hard statistical inference questions, especially counterfactual ones: for example, it is often of interest to estimate the properties of a hypothetical policy that is different from the logging policy that was used to collect the data -- a problem known as "off-policy evaluation" (OPE). Using modern martingale techniques, we present a comprehensive framework for OPE inference that relax many unnecessary assumptions made in past work, significantly improving on them theoretically and empirically. Our methods remain valid in very general settings, and can be employed while the original experiment is still running (that is, not necessarily post-hoc), when the logging policy may be itself changing (due to learning), and even if the context distributions are drifting over time. More concretely, we derive confidence sequences for various functionals of interest in OPE. These include doubly robust ones for time-varying off-policy mean reward values, but also confidence bands for the entire CDF of the off-policy reward distribution. All of our methods (a) are valid at arbitrary stopping times (b) only make nonparametric assumptions, and (c) do not require known bounds on the maximal importance weights, and (d) adapt to the empirical variance of the reward and weight distributions. In summary, our methods enable anytime-valid off-policy inference using adaptively collected contextual bandit data.
翻訳日:2022-10-20 14:02:52 公開日:2022-10-19
# 感性分析のための感性認識語と文レベルの事前学習

Sentiment-Aware Word and Sentence Level Pre-training for Sentiment Analysis ( http://arxiv.org/abs/2210.09803v2 )

ライセンス: Link先を確認
Shuai Fan, Chen Lin, Haonan Li, Zhenghao Lin, Jinsong Su, Hang Zhang, Yeyun Gong, Jian Guo, Nan Duan(参考訳) 既存の事前訓練された言語表現モデル(PLM)は、感情分析タスクにおいて、文章レベルの情報に基づいて単語レベルから感情情報をキャプチャする。 本稿では,単語レベルと文レベルの事前学習タスクを組み合わせた,感情認識型事前学習言語モデルsentiwspを提案する。 単語レベルの事前学習タスクは、感情語に関するplmの知識を強化するために、ジェネレータ・判別フレームワークを介して、置換された感情語を検出する。 文レベルの事前学習タスクは、類似した文を否定的なサンプルとして、比較学習フレームワークを介して識別者をさらに強化し、文中の感情をエンコードする。 実験結果から,SentiWSPは様々な文レベルおよびアスペクトレベルの感情分類ベンチマークにおいて,新たな最先端性能を実現することが示された。 私たちはコードとモデルをhttps://github.com/XMUDM/SentiWSP.comで公開しました。

Most existing pre-trained language representation models (PLMs) are sub-optimal in sentiment analysis tasks, as they capture the sentiment information from word-level while under-considering sentence-level information. In this paper, we propose SentiWSP, a novel Sentiment-aware pre-trained language model with combined Word-level and Sentence-level Pre-training tasks. The word level pre-training task detects replaced sentiment words, via a generator-discriminator framework, to enhance the PLM's knowledge about sentiment words. The sentence level pre-training task further strengthens the discriminator via a contrastive learning framework, with similar sentences as negative samples, to encode sentiments in a sentence. Extensive experimental results show that SentiWSP achieves new state-of-the-art performance on various sentence-level and aspect-level sentiment classification benchmarks. We have made our code and model publicly available at https://github.com/XMUDM/SentiWSP.
翻訳日:2022-10-20 14:02:26 公開日:2022-10-19
# 名前付きエンティティ認識のための異種星グラフに基づく型教師付きシーケンスラベリング

Type-supervised sequence labeling based on the heterogeneous star graph for named entity recognition ( http://arxiv.org/abs/2210.10240v1 )

ライセンス: Link先を確認
Xueru Wen, Changjiang Zhou, Haotian Tang, Luguang Liang, Yu Jiang, Hong Qi(参考訳) 名前付きエンティティ認識は、自然言語処理における基本的なタスクであり、非構造化テキストにおけるエンティティのスパンとカテゴリを識別する。 伝統的なシーケンスラベリング手法はネストされたエンティティ、すなわち他のエンティティの言及に含まれるエンティティを無視している。 多くのアプローチがこのシナリオに対処しようとするが、その多くは複雑な構造に依存しているか、計算の複雑さが高い。 本稿では,テキストノードと型ノードを含む異種星グラフの表現学習について検討する。 さらに,グラフアテンション機構をハイブリッド形式に改訂し,特定の位相におけるその不合理性に対処した。 モデルは、グラフ内のノードを更新した後、タイプ管理シーケンスラベリングを実行する。 アノテーションスキームは単一層シーケンスラベリングの拡張であり、ネストされたエンティティの大部分に対処することができる。 NERデータセットの大規模な実験により、フラットおよびネストされたエンティティを抽出する際のモデルの有効性が明らかとなった。 この手法はフラットデータセットとネストデータセットの両方で最先端のパフォーマンスを達成した。 精度の大幅な向上は、多層ラベリング戦略の優位性を反映している。

Named entity recognition is a fundamental task in natural language processing, identifying the span and category of entities in unstructured texts. The traditional sequence labeling methodology ignores the nested entities, i.e. entities included in other entity mentions. Many approaches attempt to address this scenario, most of which rely on complex structures or have high computation complexity. The representation learning of the heterogeneous star graph containing text nodes and type nodes is investigated in this paper. In addition, we revise the graph attention mechanism into a hybrid form to address its unreasonableness in specific topologies. The model performs the type-supervised sequence labeling after updating nodes in the graph. The annotation scheme is an extension of the single-layer sequence labeling and is able to cope with the vast majority of nested entities. Extensive experiments on public NER datasets reveal the effectiveness of our model in extracting both flat and nested entities. The method achieved state-of-the-art performance on both flat and nested datasets. The significant improvement in accuracy reflects the superiority of the multi-layer labeling strategy.
翻訳日:2022-10-20 14:01:28 公開日:2022-10-19
# ゼロショットおよびマイショットプロンサビリティ向上のための継続的事前トレーニング

Continued Pretraining for Better Zero- and Few-Shot Promptability ( http://arxiv.org/abs/2210.10258v1 )

ライセンス: Link先を確認
Zhaofeng Wu, Robert L. Logan IV, Pete Walsh, Akshita Bhagia, Dirk Groeneveld, Sameer Singh, Iz Beltagy(参考訳) 最近導入された言語モデルプロンプト手法は、学習されたタスク固有のパラメータをほとんど必要とせず、ゼロおよび少数ショット設定で高い精度を達成することができる。 しかしながら、これらの手法はフルモデルファインタニングに追随することが多い。 本研究は,継続事前学習の段階が,自然言語プロンプトによるゼロショット性能や,プロンプトチューニングによる少数ショット性能などの「プロンプタビリティ」を向上するかどうかを考察する。 既存の継続事前学習手法が即時性に欠ける設定を明らかにする。 また, 大規模実験で満たした現在の方法論的ギャップを同定する。 マルチタスク学習中にトレーニング可能なプロンプトを組み込んだ簡易な事前学習が,既存の手法と比較してゼロおよび少数ショット設定のプロンプト性を最大31%向上させることを実証した。 一方,MAML方式のメタ学習を用いた事前学習は,プロンプトの少ないプロンプト性を直接最適化し,サブパー性能を向上する。 提案手法を2つのプロンプトチューニング手法で検証し,その結果に基づいて,異なるユースケースに対するプロンプトビリティを最適化するための具体的な推奨事項を提供する。

Recently introduced language model prompting methods can achieve high accuracy in zero- and few-shot settings while requiring few to no learned task-specific parameters. Nevertheless, these methods still often trail behind full model finetuning. In this work, we investigate if a dedicated continued pretraining stage could improve "promptability", i.e., zero-shot performance with natural language prompts or few-shot performance with prompt tuning. We reveal settings where existing continued pretraining methods lack promptability. We also identify current methodological gaps, which we fill with thorough large-scale experiments. We demonstrate that a simple recipe, continued pretraining that incorporates a trainable prompt during multi-task learning, leads to improved promptability in both zero- and few-shot settings compared to existing methods, up to 31% relative. On the other hand, we find that continued pretraining using MAML-style meta-learning, a method that directly optimizes few-shot promptability, yields subpar performance. We validate our findings with two prompt tuning methods, and, based on our results, we provide concrete recommendations to optimize promptability for different use cases.
翻訳日:2022-10-20 14:01:14 公開日:2022-10-19
# ProposerとRegressorによるエンドツーエンドエンティティ検出

End-to-End Entity Detection with Proposer and Regressor ( http://arxiv.org/abs/2210.10260v1 )

ライセンス: Link先を確認
Xueru Wen, Changjiang Zhou, Haotian Tang, Luguang Liang, Yu Jiang, Hong Qi(参考訳) 名前付きエンティティ認識は、自然言語処理における伝統的なタスクである。 特にネストされたエンティティ認識は、ネストシナリオが広く存在することに広く注目されている。 最新の研究は、オブジェクト検出における集合予測の確立したパラダイムを、エンティティのネストに対処するために移行した。 しかし、コンテキスト内のリッチなセマンティック情報に適応できないクエリベクトルを手動で作成することで、これらのアプローチは制限される。 本稿では,提案手法と回帰器を用いたエンドツーエンドのエンティティ検出手法を提案する。 まず,特徴ピラミッドネットワークを用いて高品質なエンティティの提案を行う。 そして、回帰器は最終予測を生成するための提案を洗練する。 このモデルはエンコーダのみのアーキテクチャを採用しており、クエリセマンティクスの豊かさ、エンティティローカライゼーションの高精度化、モデルのトレーニングを容易にする。 さらに,新たな空間変調注意と漸進的洗練を導入し,さらなる改善を図る。 広汎な実験により、我々のモデルは平らでネストしたNERで高度な性能を達成し、GENIAデータセットでは80.74、WeiboNERデータセットでは72.38という新しい最先端のF1スコアを達成した。

Named entity recognition is a traditional task in natural language processing. In particular, nested entity recognition receives extensive attention for the widespread existence of the nesting scenario. The latest research migrates the well-established paradigm of set prediction in object detection to cope with entity nesting. However, the manual creation of query vectors, which fail to adapt to the rich semantic information in the context, limits these approaches. An end-to-end entity detection approach with proposer and regressor is presented in this paper to tackle the issues. First, the proposer utilizes the feature pyramid network to generate high-quality entity proposals. Then, the regressor refines the proposals for generating the final prediction. The model adopts encoder-only architecture and thus obtains the advantages of the richness of query semantics, high precision of entity localization, and easiness for model training. Moreover, we introduce the novel spatially modulated attention and progressive refinement for further improvement. Extensive experiments demonstrate that our model achieves advanced performance in flat and nested NER, achieving a new state-of-the-art F1 score of 80.74 on the GENIA dataset and 72.38 on the WeiboNER dataset.
翻訳日:2022-10-20 14:00:53 公開日:2022-10-19
# テンプレート順序データ拡張によるアスペクト感情クワッド予測の改善

Improving Aspect Sentiment Quad Prediction via Template-Order Data Augmentation ( http://arxiv.org/abs/2210.10291v1 )

ライセンス: Link先を確認
Mengting Hu, Yike Wu, Hang Gao, Yinhao Bai, Shiwan Zhao(参考訳) 近年,アスペクトレベルの感情分析において,アスペクト感情クワッド予測(ASQP)が一般的な課題となっている。 以前の作業では、定義済みのテンプレートを使用して、元の文を構造的ターゲットシーケンスに表現し、フォームの四重項(カテゴリー、アスペクト項、意見項、感情極性)として容易に復号できる。 テンプレートは、固定順序の4つの要素を含む。 しかし、この解は、クワッドラップレットが正しく抽出されている限り、テンプレート順序を修正する必要がないため、asqpタスクのオーダーフリーな性質と矛盾する。 本研究は, テンプレートオーダの効果について考察し, 生成モデルの性能向上に寄与するオーダについて考察する。 異なる順序が四重項の様々な見方を与えると仮定される。 そこで本研究では,複数の適切なテンプレートをデータ拡張として組み合わせてASQPタスクを改良する,シンプルだが効果的な手法を提案する。 具体的には、事前訓練された言語モデルを用いて、最小エントロピーで注文を選択する。 このようなテンプレート順序で事前学習した言語モデルを微調整することで、クワッド予測の性能が向上し、低リソース設定では最先端のメソッドを大幅に上回る。

Recently, aspect sentiment quad prediction (ASQP) has become a popular task in the field of aspect-level sentiment analysis. Previous work utilizes a predefined template to paraphrase the original sentence into a structure target sequence, which can be easily decoded as quadruplets of the form (aspect category, aspect term, opinion term, sentiment polarity). The template involves the four elements in a fixed order. However, we observe that this solution contradicts with the order-free property of the ASQP task, since there is no need to fix the template order as long as the quadruplet is extracted correctly. Inspired by the observation, we study the effects of template orders and find that some orders help the generative model achieve better performance. It is hypothesized that different orders provide various views of the quadruplet. Therefore, we propose a simple but effective method to identify the most proper orders, and further combine multiple proper templates as data augmentation to improve the ASQP task. Specifically, we use the pre-trained language model to select the orders with minimal entropy. By fine-tuning the pre-trained language model with these template orders, our approach improves the performance of quad prediction, and outperforms state-of-the-art methods significantly in low-resource settings.
翻訳日:2022-10-20 14:00:34 公開日:2022-10-19
# 多相第二価格オークション設計における強化学習手法

A Reinforcement Learning Approach in Multi-Phase Second-Price Auction Design ( http://arxiv.org/abs/2210.10278v1 )

ライセンス: Link先を確認
Rui Ai, Boxiang Lyu, Zhaoran Wang, Zhuoran Yang and Michael I. Jordan(参考訳) 販売者の先行行動が、マルコフ決定プロセス(MDP)を通じて入札者の後の評価に影響を及ぼす多相第2価格オークションにおける予備価格の最適化について検討する。 既存の作品のバンディット設定と比較して、私たちの設定には3つの課題があります。 まず, 売り手の視点からは, 売り手の方針を操ろうとする非現実的な入札者の存在下で, 環境を効率的に探究する必要がある。 第2に,マーケットノイズの分布が不明な場合,販売者の収益を最小化したい。 第3に、販売者毎の収益は未知であり、非線形であり、環境から直接は観測できない。 3つの課題に対処するメカニズムを提案する。 第1の課題に対処するために,「バッファ期間」と呼ばれる新しい手法と,低スイッチコストの強化学習(rl)からのインスピレーションを組み合わせて,入札者の余剰分を不正入札から制限し,ほぼ真理的な入札にインセンティブを与える。 2つ目は、市場ノイズ分布が不明な場合に純粋な探索の必要性を除去する新しいアルゴリズムによって取り組まれている。 第3の課題はLSVI-UCBの拡張によって解決され、そこではオークションの基本構造を用いて収益関数の不確実性を制御する。 この3つの手法は、$\tilde{ \mathcal{O}}(H^{5/2}\sqrt{K})$\tilde{ \mathcal{O}}(H^{3}\sqrt{K})$\tilde{ \mathcal{O}}(H^{3}\sqrt{K})$収益の後悔を、入札者の真偽を仮定せずに、そのノイズが未知の場合には、収益の後悔を与える。

We study reserve price optimization in multi-phase second price auctions, where seller's prior actions affect the bidders' later valuations through a Markov Decision Process (MDP). Compared to the bandit setting in existing works, the setting in ours involves three challenges. First, from the seller's perspective, we need to efficiently explore the environment in the presence of potentially nontruthful bidders who aim to manipulates seller's policy. Second, we want to minimize the seller's revenue regret when the market noise distribution is unknown. Third, the seller's per-step revenue is unknown, nonlinear, and cannot even be directly observed from the environment. We propose a mechanism addressing all three challenges. To address the first challenge, we use a combination of a new technique named "buffer periods" and inspirations from Reinforcement Learning (RL) with low switching cost to limit bidders' surplus from untruthful bidding, thereby incentivizing approximately truthful bidding. The second one is tackled by a novel algorithm that removes the need for pure exploration when the market noise distribution is unknown. The third challenge is resolved by an extension of LSVI-UCB, where we use the auction's underlying structure to control the uncertainty of the revenue function. The three techniques culminate in the $\underline{\rm C}$ontextual-$\underline{\rm L}$SVI-$\underline{\rm U}$CB-$\underline{\rm B}$uffer (CLUB) algorithm which achieves $\tilde{ \mathcal{O}}(H^{5/2}\sqrt{K})$ revenue regret when the market noise is known and $\tilde{ \mathcal{O}}(H^{3}\sqrt{K})$ revenue regret when the noise is unknown with no assumptions on bidders' truthfulness.
翻訳日:2022-10-20 13:54:51 公開日:2022-10-19
# 量子計算アグリゲーションによるグラフトランスフォーマーの拡張

Extending Graph Transformers with Quantum Computed Aggregation ( http://arxiv.org/abs/2210.10610v1 )

ライセンス: Link先を確認
Slimane Thabet, Romain Fouilland, Loic Henriet(参考訳) 近年、メッセージパッシングニューラルネットワークの制限がより明確になるにつれて、新しいグラフニューラルネットワーク(GNN)を設計するためのコミュニティの取り組みが進められている。 これはラプラシア固有写像のようなグローバルグラフ機能を使ったグラフ変換器の出現につながった。 本稿では,量子系の長距離相関を用いて集約重みを計算するGNNアーキテクチャを提案する。 これらの相関は、グラフトポロジーを量子コンピュータ内の量子ビットの集合の相互作用に変換することによって生成される。 この研究は、最近の量子処理ユニットの開発に触発され、古典的ハードウェアに手が届かないような新しいグローバルグラフ機能群を計算できるようになった。 このアプローチの潜在的な利点に関する理論的洞察を与え、標準データセット上でアルゴリズムをベンチマークする。 全てのデータセットに適応するわけではないが、我々のモデルは標準のGNNアーキテクチャと同様に動作し、量子拡張GNNの将来性を示す。

Recently, efforts have been made in the community to design new Graph Neural Networks (GNN), as limitations of Message Passing Neural Networks became more apparent. This led to the appearance of Graph Transformers using global graph features such as Laplacian Eigenmaps. In our paper, we introduce a GNN architecture where the aggregation weights are computed using the long-range correlations of a quantum system. These correlations are generated by translating the graph topology into the interactions of a set of qubits in a quantum computer. This work was inspired by the recent development of quantum processing units which enables the computation of a new family of global graph features that would be otherwise out of reach for classical hardware. We give some theoretical insights about the potential benefits of this approach, and benchmark our algorithm on standard datasets. Although not being adapted to all datasets, our model performs similarly to standard GNN architectures, and paves a promising future for quantum enhanced GNNs.
翻訳日:2022-10-20 13:54:03 公開日:2022-10-19
# 逐次モデルに対する適合の良さに関するカーネルスタイン検定

A kernel Stein test of goodness of fit for sequential models ( http://arxiv.org/abs/2210.10741v1 )

ライセンス: Link先を確認
Jerome Baum and Heishiro Kanagawa and Arthur Gretton(参考訳) 異なる長さのテキスト文書や可変長列などの次元の異なる観測をモデル化する確率密度に対する適合度尺度を提案する。 提案手法はkernel stein discrepancy(ksd)の例であり、非正規化密度に対する適合性テストの構築に用いられている。 既存のKSDは、モデルを固定次元空間上で定義する必要がある。 主な貢献として、適切なスタイン作用素を同定することにより、KSDを可変次元設定に拡張し、新しいKSD適合性テストを提案する。 以前の変種と同様に、提案されたksdは密度を正規化する必要がなく、大きなモデルのクラスを評価することができる。 我々のテストは、離散的なシーケンシャルなデータベンチマークで実際によく機能することが示されている。

We propose a goodness-of-fit measure for probability densities modelling observations with varying dimensionality, such as text documents of differing lengths or variable-length sequences. The proposed measure is an instance of the kernel Stein discrepancy (KSD), which has been used to construct goodness-of-fit tests for unnormalised densities. Existing KSDs require the model to be defined on a fixed-dimension space. As our major contributions, we extend the KSD to the variable dimension setting by identifying appropriate Stein operators, and propose a novel KSD goodness-of-fit test. As with the previous variants, the proposed KSD does not require the density to be normalised, allowing the evaluation of a large class of models. Our test is shown to perform well in practice on discrete sequential data benchmarks.
翻訳日:2022-10-20 13:53:46 公開日:2022-10-19
# トランスフォーマーはショートカットからオートマタを学ぶ

Transformers Learn Shortcuts to Automata ( http://arxiv.org/abs/2210.10749v1 )

ライセンス: Link先を確認
Bingbin Liu, Jordan T. Ash, Surbhi Goel, Akshay Krishnamurthy, Cyril Zhang(参考訳) アルゴリズム推論はチューリングマシンのような計算の繰り返しモデルによって最も自然に理解される能力を必要とする。 しかし、トランスフォーマーモデルは再帰を欠くものの、推論ステップの数よりもはるかに少ない層でそのような推論を行うことができる。 この浅さと非リカレントモデルには何の解決策があるのか? 学習オートマトンの設定において,再帰的モデリングやアルゴリズム的タスクの表現に適した離散力学系について検討する。 我々の理論的結果はショートカットの解を完全に特徴付けており、浅いトランスフォーマーは$o(T)$層しか持たず、長さ$T$の入力シーケンスでオートマトンを正確に再現することができる。 基底となる変換半群の代数構造を用いてオートマトンを表現することにより、すべてのオートマトンに対して$O(\log T)$-depthシミュレータと、関連する群が可解であるすべてのオートマトンに対して$O(1)$-depthシミュレータを得る。 実験では,多種多様なオートマトンをシミュレートするために変圧器を訓練して合成実験を行い,標準訓練で近道解を学習できることを示す。 我々は,これらの解の脆性をさらに調査し,潜在的な緩和策を提案する。

Algorithmic reasoning requires capabilities which are most naturally understood through recurrent models of computation, like the Turing machine. However, Transformer models, while lacking recurrence, are able to perform such reasoning using far fewer layers than the number of reasoning steps. This raises the question: what solutions are these shallow and non-recurrent models finding? We investigate this question in the setting of learning automata, discrete dynamical systems naturally suited to recurrent modeling and expressing algorithmic tasks. Our theoretical results completely characterize shortcut solutions, whereby a shallow Transformer with only $o(T)$ layers can exactly replicate the computation of an automaton on an input sequence of length $T$. By representing automata using the algebraic structure of their underlying transformation semigroups, we obtain $O(\log T)$-depth simulators for all automata and $O(1)$-depth simulators for all automata whose associated groups are solvable. Empirically, we perform synthetic experiments by training Transformers to simulate a wide variety of automata, and show that shortcut solutions can be learned via standard training. We further investigate the brittleness of these solutions and propose potential mitigations.
翻訳日:2022-10-20 13:53:33 公開日:2022-10-19
# UniTune:単一画像上の画像生成モデルを微調整したテキスト駆動画像編集

UniTune: Text-Driven Image Editing by Fine Tuning an Image Generation Model on a Single Image ( http://arxiv.org/abs/2210.09477v2 )

ライセンス: Link先を確認
Dani Valevski, Matan Kalman, Yossi Matias, Yaniv Leviathan(参考訳) 本稿では,汎用テキスト編集のための簡易かつ新規な方法であるunituneを提案する。 unituneは任意の画像とテキスト編集記述を入力として取得し、入力画像に対する高い意味と視覚的忠実性を維持しながら編集を実行する。 UniTuneは、アート指向のための直感的なインターフェースであるテキストを使用し、マスクやスケッチなどの追加入力を必要としない。 提案手法の核心は,パラメータの選択が適切であれば,単一の画像上で大きなテキストから画像への拡散モデルを微調整できるという観察である。 私たちはImagenをテキスト・画像モデルとして使用しましたが、UniTuneは他の大規模モデルとも連携することを期待しています。 本手法をさまざまなユースケースでテストし,その適用性を示す。

We present UniTune, a simple and novel method for general text-driven image editing. UniTune gets as input an arbitrary image and a textual edit description, and carries out the edit while maintaining high semantic and visual fidelity to the input image. UniTune uses text, an intuitive interface for art-direction, and does not require additional inputs, like masks or sketches. At the core of our method is the observation that with the right choice of parameters, we can fine-tune a large text-to-image diffusion model on a single image, encouraging the model to maintain fidelity to the input image while still allowing expressive manipulations. We used Imagen as our text-to-image model, but we expect UniTune to work with other large-scale models as well. We test our method in a range of different use cases, and demonstrate its wide applicability.
翻訳日:2022-10-20 13:53:11 公開日:2022-10-19
# 複数のデータセットからオブジェクト検出モデルをトレーニングするための擬似ラベル閾値の非イテレーティブ最適化

Non-iterative optimization of pseudo-labeling thresholds for training object detection models from multiple datasets ( http://arxiv.org/abs/2210.10221v1 )

ライセンス: Link先を確認
Yuki Tanaka, Shuhei M. Yoshida, Makoto Terao(参考訳) 本稿では,低コストデータセットの集合からオブジェクト検出を学習するための擬似ラベル閾値を最適化するための非定型的手法を提案する。 この問題に対する一般的なアプローチは、まず教師モデルを訓練し、学生モデルを訓練する際、その自信ある予測を疑似地道ラベルとして使うことである。 しかし、最良の結果を得るためには、予測信頼のしきい値を調整する必要がある。 このプロセスは通常、反復的な探索と学生モデルの繰り返しの訓練を伴い、時間を要する。 そこで,検証データセット上でのF_\beta$-scoreを最大化することにより,反復的最適化を伴わずに閾値を最適化する手法を開発した。 提案手法はCOCOおよびVOCデータセット上の格子探索に匹敵するmAPを実現することを実験的に実証した。

We propose a non-iterative method to optimize pseudo-labeling thresholds for learning object detection from a collection of low-cost datasets, each of which is annotated for only a subset of all the object classes. A popular approach to this problem is first to train teacher models and then to use their confident predictions as pseudo ground-truth labels when training a student model. To obtain the best result, however, thresholds for prediction confidence must be adjusted. This process typically involves iterative search and repeated training of student models and is time-consuming. Therefore, we develop a method to optimize the thresholds without iterative optimization by maximizing the $F_\beta$-score on a validation dataset, which measures the quality of pseudo labels and can be measured without training a student model. We experimentally demonstrate that our proposed method achieves an mAP comparable to that of grid search on the COCO and VOC datasets.
翻訳日:2022-10-20 13:52:56 公開日:2022-10-19
# 雑音付きディープラーニング画像集合による画像品質評価の限界を明らかにする

Discovering Limitations of Image Quality Assessments with Noised Deep Learning Image Sets ( http://arxiv.org/abs/2210.10249v1 )

ライセンス: Link先を確認
Wei Dai, Daniel Berleant(参考訳) 画像の品質は重要であり、画像処理やコンピュータビジョンにおける全体的なパフォーマンスにも影響しうる。 画像品質評価(IQA)は、航空写真解釈から物体検出、医用画像解析に至るまで、様々な用途において重要な課題である。 以前の研究では、BRISQUEアルゴリズムとPSNRアルゴリズムは高解像度(画像あたり512*384ピクセル)で評価されたが、比較的小さな画像集合(4,744イメージ)であった。 しかし、科学者はIQAアルゴリズムを低解像度(画像当たり32*32ピクセル)、多摂動、大画像セット(例えば、摂動を数えない6万の異なる画像)で評価していない。 本研究では,この2つのIQAアルゴリズムを実験的に検討した。 まず,CIFAR-10とMNISTの2つの深層学習画像群を選択した。 そして、特定のシーケンスやノイズ強度のイメージにノイズを付加する68個の摂動を加えた。 さらに,2つのIQAアルゴリズムの性能出力を,単発・乗算ノイズ画像を用いて追跡した。 実験結果を定量的に分析した後、これらのノイズ付きCIFAR-10とMNIST画像セットによる2つのIQAの限界を報告する。 また、性能劣化の根本原因を3つ説明します。 これらの結果は2つのIQAアルゴリズムの弱点を指摘する。 研究結果は、正確で堅牢なIQAアルゴリズムを開発する科学者やエンジニアにガイダンスを提供する。 将来の科学研究や産業プロジェクトのサポートに加えて、すべてのソースコードはウェブサイトで共有されている。

Image quality is important, and it can affect overall performance in image processing and computer vision as well as for numerous other reasons. Image quality assessment (IQA) is consequently a vital task in different applications from aerial photography interpretation to object detection to medical image analysis. In previous research, the BRISQUE algorithm and the PSNR algorithm were evaluated with high resolution ( 512*384 pixels per image), but relatively small image sets (4,744 images). However, scientists have not evaluated IQA algorithms on low resolution (32*32 pixels per image), multi-perturbation, big image sets (for example, 60,000 different images not counting their perturbations). This study explores these two IQA algorithms through experimental investigation. We first chose two deep learning image sets, CIFAR-10 and MNIST. Then, we added 68 perturbations that add noise to the images in specific sequences and noise intensities. In addition, we tracked the performance outputs of the two IQA algorithms with singly and multiply noised images. After quantitatively analyzing experimental results, we report the limitations of the two IQAs with these noised CIFAR-10 and MNIST image sets. We also explain three potential root causes for performance degradation. These findings point out weaknesses of the two IQA algorithms. The research results provide guidance to scientists and engineers developing accurate, robust IQA algorithms. In addition to supporting future scientific research and industrial projects, all source codes are shared on the website: https://github.com/caperock/imagequality
翻訳日:2022-10-20 13:52:38 公開日:2022-10-19
# 自己指導型表現学習によるバックドア毒の浄化

Training set cleansing of backdoor poisoning by self-supervised representation learning ( http://arxiv.org/abs/2210.10272v1 )

ライセンス: Link先を確認
H. Wang, S. Karami, O. Dia, H. Ritter, E. Emamjomeh-Zadeh, J. Chen, Z. Xiang, D.J. Miller, G. Kesidis(参考訳) バックドアまたはトロイの木馬攻撃(英: backdoor or Trojan attack)は、ディープニューラルネットワーク(DNN)分類器に対する重要なデータ中毒攻撃の一種であり、トレーニングデータセットには、バックドアパターン(通常は知覚不能または無害なパターン)を持ち、攻撃者のターゲットクラスに誤ってラベル付けされた少数のサンプルが混入している。 バックドア・ポゾンデータセットでトレーニングされた場合、DNNは通常、ほとんどの良識のあるテストサンプルで動作するが、テストサンプルがバックドアパターンを組み込んだ場合(つまり、バックドアトリガーを含む)、ターゲットクラスに対して誤った予測を行う。 ここでは,画像分類タスクに着目し,教師付きトレーニングが,通常の特徴と真の起源のクラスとの相関性よりも,バックドアパターンと関連するターゲットクラスとの相関性が強まることを示す。 対照的に、自己教師付き表現学習はサンプルのラベルを無視し、画像のセマンティックコンテンツに基づいて特徴埋め込みを学ぶ。 そこで我々は,教師なし表現学習を用いて,バックドア汚染されたトレーニングサンプルの強調を回避し,同じクラスのサンプルに対して同様の機能を組み込む方法を提案する。 自己教師付き表現学習で見られる特徴埋め込みを用いて,サンプルフィルタリングと再ラベルを組み合わせたデータ浄化手法を開発した。 CIFAR-10ベンチマークデータセットを用いた実験により,本手法はバックドア攻撃を軽減し,最先端の性能を実現する。

A backdoor or Trojan attack is an important type of data poisoning attack against deep neural network (DNN) classifiers, wherein the training dataset is poisoned with a small number of samples that each possess the backdoor pattern (usually a pattern that is either imperceptible or innocuous) and which are mislabeled to the attacker's target class. When trained on a backdoor-poisoned dataset, a DNN behaves normally on most benign test samples but makes incorrect predictions to the target class when the test sample has the backdoor pattern incorporated (i.e., contains a backdoor trigger). Here we focus on image classification tasks and show that supervised training may build stronger association between the backdoor pattern and the associated target class than that between normal features and the true class of origin. By contrast, self-supervised representation learning ignores the labels of samples and learns a feature embedding based on images' semantic content. %We thus propose to use unsupervised representation learning to avoid emphasising backdoor-poisoned training samples and learn a similar feature embedding for samples of the same class. Using a feature embedding found by self-supervised representation learning, a data cleansing method, which combines sample filtering and re-labeling, is developed. Experiments on CIFAR-10 benchmark datasets show that our method achieves state-of-the-art performance in mitigating backdoor attacks.
翻訳日:2022-10-20 13:52:17 公開日:2022-10-19
# 暗黙的神経表現による並列MRI再構成のためのスキャン特異的教師なし手法

A scan-specific unsupervised method for parallel MRI reconstruction via implicit neural representation ( http://arxiv.org/abs/2210.10439v1 )

ライセンス: Link先を確認
Ruimin Feng, Qing Wu, Yuyao Zhang and Hongjiang Wei(参考訳) 並列イメージングは磁気共鳴イメージング(MRI)を加速する技術として広く用いられている。 しかし、現在の手法は、高度にアンサンプされたk空間データからアーティファクトのないMRI画像の再構成に依然として不十分である。 近年,物体の内部連続性を学ぶための新たな深層学習パラダイムとして暗黙的神経表現(INR)が出現している。 本研究では,MRIの並列再構成にINRを適用した。 MRI画像は空間座標の連続関数としてモデル化された。 この関数はニューラルネットワークによってパラメータ化され、測定されたk空間自体から直接学習された。 提案手法は,INRによって提供される強力な連続表現の利点を生かし,特に加速速度と自己校正信号の小型化において,アーティファクトやノイズの緩和を抑えることにより,既存の手法よりも優れる。 高品質の結果と走査特異性により,提案手法は並列mriのデータ取得をさらに促進する可能性を秘めている。

Parallel imaging is a widely-used technique to accelerate magnetic resonance imaging (MRI). However, current methods still perform poorly in reconstructing artifact-free MRI images from highly undersampled k-space data. Recently, implicit neural representation (INR) has emerged as a new deep learning paradigm for learning the internal continuity of an object. In this study, we adopted INR to parallel MRI reconstruction. The MRI image was modeled as a continuous function of spatial coordinates. This function was parameterized by a neural network and learned directly from the measured k-space itself without additional fully sampled high-quality training data. Benefitting from the powerful continuous representations provided by INR, the proposed method outperforms existing methods by suppressing the aliasing artifacts and noise, especially at higher acceleration rates and smaller sizes of the auto-calibration signals. The high-quality results and scanning specificity make the proposed method hold the potential for further accelerating the data acquisition of parallel MRI.
翻訳日:2022-10-20 13:51:50 公開日:2022-10-19
# 領域適応による医用画像の深部品質評価

Deep-based quality assessment of medical images through domain adaptation ( http://arxiv.org/abs/2210.10533v1 )

ライセンス: Link先を確認
Marouane Tliba, Aymen Sekhri, Mohamed Amine Kerkouri, Aladine Chetouani(参考訳) マルチメディアコンテンツの品質を予測することは、しばしば異なる分野で必要となる。 一部のアプリケーションでは、品質指標は極めて重要であり、医療マルチメディアからの診断などの意思決定に影響を及ぼす可能性がある。 本稿では,少量のアノテートデータを参照せずに,医療画像の品質を予測するための,効率的かつ浅いモデルを提案する。 本モデルは,画像の局所的特徴から複雑な表現をモデル化することを目的とした畳み込み自己注意に基づく。 また、非教師なしおよび半教師なしの方法でドメイン適応学習を適用する。 提案モデルは,複数の画像と対応する主観的スコアからなるデータセットを用いて評価する。 その結果,提案手法の有効性が示されたが,提案手法の適用範囲は,知覚品質予測の下流課題に関して,異なるマルチメディア領域にまたがって一般化されている。 tic-art project, regional fund (region centre-val de loire) による。

Predicting the quality of multimedia content is often needed in different fields. In some applications, quality metrics are crucial with a high impact, and can affect decision making such as diagnosis from medical multimedia. In this paper, we focus on such applications by proposing an efficient and shallow model for predicting the quality of medical images without reference from a small amount of annotated data. Our model is based on convolution self-attention that aims to model complex representation from relevant local characteristics of images, which itself slide over the image to interpolate the global quality score. We also apply domain adaptation learning in unsupervised and semi-supervised manner. The proposed model is evaluated through a dataset composed of several images and their corresponding subjective scores. The obtained results showed the efficiency of the proposed method, but also, the relevance of the applying domain adaptation to generalize over different multimedia domains regarding the downstream task of perceptual quality prediction. \footnote{Funded by the TIC-ART project, Regional fund (Region Centre-Val de Loire)}
翻訳日:2022-10-20 13:51:34 公開日:2022-10-19
# 対人摂動はなぜ受容できないのか? 敵NLP研究パラダイムの再考

Why Should Adversarial Perturbations be Imperceptible? Rethink the Research Paradigm in Adversarial NLP ( http://arxiv.org/abs/2210.10683v1 )

ライセンス: Link先を確認
Yangyi Chen, Hongcheng Gao, Ganqu Cui, Fanchao Qi, Longtao Huang, Zhiyuan Liu and Maosong Sun(参考訳) テキスト逆数サンプルは、セキュリティ、評価、説明可能性、データ拡張など、NLP研究の複数のサブフィールドにおいて重要な役割を果たす。 しかしながら、ほとんどの研究は、NLPモデルの実用上の懸念を明らかにすることを目的としたセキュリティロールの課題定義と研究目標を隠蔽し、これらの役割を混ぜ合わせている。 本稿では,セキュリティシナリオにおけるテキスト敵対サンプルの研究パラダイムを再考する。 先行研究における欠陥を考察し,セキュリティ指向の敵対的nlp (soadnlp) に関する研究について,(1)実世界の懸念を示すためのセキュリティタスクにおける手法の評価,(2)非実用的手法の開発ではなく,実世界の攻撃者の目標を検討することを提案する。 この目的のために、私たちは最初にセキュリティデータセットコレクションAdvbenchを収集し、処理し、リリースします。 そして,タスクを再構築し,SoadNLPの異なる目標に重点を置く。 次に,現実の攻撃手法をシミュレートするために,現実の敵目標を容易に達成できるヒューリスティックルールに基づく簡単な手法を提案する。 我々はアドベンチの攻撃側と防御側の両方で実験を行う。 実験結果から,SoadNLPにおける研究パラダイムは,新たなベンチマークから始める可能性が示唆された。 Advbenchのコードとデータは、 \url{https://github.com/thunlp/Advbench}で取得できる。

Textual adversarial samples play important roles in multiple subfields of NLP research, including security, evaluation, explainability, and data augmentation. However, most work mixes all these roles, obscuring the problem definitions and research goals of the security role that aims to reveal the practical concerns of NLP models. In this paper, we rethink the research paradigm of textual adversarial samples in security scenarios. We discuss the deficiencies in previous work and propose our suggestions that the research on the Security-oriented adversarial NLP (SoadNLP) should: (1) evaluate their methods on security tasks to demonstrate the real-world concerns; (2) consider real-world attackers' goals, instead of developing impractical methods. To this end, we first collect, process, and release a security datasets collection Advbench. Then, we reformalize the task and adjust the emphasis on different goals in SoadNLP. Next, we propose a simple method based on heuristic rules that can easily fulfill the actual adversarial goals to simulate real-world attack methods. We conduct experiments on both the attack and the defense sides on Advbench. Experimental results show that our method has higher practical value, indicating that the research paradigm in SoadNLP may start from our new benchmark. All the code and data of Advbench can be obtained at \url{https://github.com/thunlp/Advbench}.
翻訳日:2022-10-20 13:45:57 公開日:2022-10-19
# CPL:視覚と言語モデルのための対実的プロンプト学習

CPL: Counterfactual Prompt Learning for Vision and Language Models ( http://arxiv.org/abs/2210.10362v1 )

ライセンス: Link先を確認
Xuehai He, Diji Yang, Weixi Feng, Tsu-Jui Fu, Arjun Akula, Varun Jampani, Pradyumna Narayana, Sugato Basu, William Yang Wang, Xin Eric Wang(参考訳) プロンプトチューニングは、CLIPのような事前訓練されたビジョンと言語モデルのための学習可能なプロンプトをチューニングするだけである。 しかし、既存のプロンプトチューニング手法はスプリアス表現や絡み合った表現を学習しがちであり、見当たらない概念への一般化が貧弱になる。 限られた例から非純正で効率的なプロンプト・ラーニングに向けて, 視覚モデルと言語モデルのための新しい\underline{\textbf{c}}ounterfactual \underline{\textbf{p}}rompt \underline{\textbf{l}}earning (cpl)法を提案する。 特に、CPLは、概念変化を引き起こす意味的類似の正と負のサンプル間の最小限の非特異な特徴変化を識別し、対照的な学習を通して実例と反実例の両方からより一般化可能な即時表現を学習することによって、反実的を構成する。 広範囲な実験により、cplは以前のクリップのプロンプトチューニング法よりも、異なるビジョンと言語タスクで優れた少数ショット性能が得られることが示されている。 画像分類では、7つのデータセットにまたがる未確認クラスの平均相対的改善を3.55\%達成し、画像テキスト検索と視覚的質問応答では、3つの未確認テストセットでそれぞれ4.09\%と25.08\%の相対的改善を得た。

Prompt tuning is a new few-shot transfer learning technique that only tunes the learnable prompt for pre-trained vision and language models such as CLIP. However, existing prompt tuning methods tend to learn spurious or entangled representations, which leads to poor generalization to unseen concepts. Towards non-spurious and efficient prompt learning from limited examples, this paper presents a novel \underline{\textbf{C}}ounterfactual \underline{\textbf{P}}rompt \underline{\textbf{L}}earning (CPL) method for vision and language models, which simultaneously employs counterfactual generation and contrastive learning in a joint optimization framework. Particularly, CPL constructs counterfactual by identifying minimal non-spurious feature change between semantically-similar positive and negative samples that causes concept change, and learns more generalizable prompt representation from both factual and counterfactual examples via contrastive learning. Extensive experiments demonstrate that CPL can obtain superior few-shot performance on different vision and language tasks than previous prompt tuning methods on CLIP. On image classification, we achieve 3.55\% average relative improvement on unseen classes across seven datasets; on image-text retrieval and visual question answering, we gain up to 4.09\% and 25.08\% relative improvements across three few-shot scenarios on unseen test sets respectively.
翻訳日:2022-10-20 13:45:33 公開日:2022-10-19
# 遺伝的アルゴリズムによるNSL-KDDの特徴選択によるサービス攻撃の特定否認に対する決定木分類器の適用

Application of Decision Tree Classifier in Detection of Specific Denial of Service Attacks with Genetic Algorithm Based Feature Selection on NSL-KDD ( http://arxiv.org/abs/2210.10232v1 )

ライセンス: Link先を確認
Deanna Wilborne(参考訳) 遺伝的アルゴリズムと決定木分類器を用いて、NSL-KDDデータセットの特徴を組合せ最適化を用いて減らし、NSL-KDDデータセット内のサービスアタックの正確な分類に必要な最小限の機能を決定する。

Using a Genetic Algorithm and Decision Tree Classifier, the features of the NSL-KDD dataset are reduced using combinatorial optimization to determine the minimum features required to accurately classify Denial of Service attacks within the NSL-KDD dataset.
翻訳日:2022-10-20 13:45:01 公開日:2022-10-19
# 個別処理効果推定における逆分解

Adversarial De-confounding in Individualised Treatment Effects Estimation ( http://arxiv.org/abs/2210.10530v1 )

ライセンス: Link先を確認
Vinod Kumar Chauhan, Soheila Molaei, Marzia Hoque Tania, Anshul Thakur, Tingting Zhu, David Clifton(参考訳) 観測研究は最近、非実験的な観測データの増加と、相当なコスト、非実用性、小さめのサンプルサイズなどの実験研究の限界により、機械学習コミュニティから大きな注目を集めている。 観察的研究において、デコンペンディングは個別化処理効果(ITE)推定の根本的な問題である。 本稿では, ite推定のための2次処理設定において, 共同創設者を選択的にバランスさせるために, 敵対的訓練を伴う異種表現を提案する。 治療方針の敵対的訓練は、共同設立者に対する治療非依存な均衡表現を選択的に奨励し、反事実推論による観察研究におけるiteの推定を支援する。 コンバウンディングの程度が異なる合成および実世界のデータセットに対する実験結果から,提案手法がITE推定における誤差の低減に有効であることを示す。

Observational studies have recently received significant attention from the machine learning community due to the increasingly available non-experimental observational data and the limitations of the experimental studies, such as considerable cost, impracticality, small and less representative sample sizes, etc. In observational studies, de-confounding is a fundamental problem of individualised treatment effects (ITE) estimation. This paper proposes disentangled representations with adversarial training to selectively balance the confounders in the binary treatment setting for the ITE estimation. The adversarial training of treatment policy selectively encourages treatment-agnostic balanced representations for the confounders and helps to estimate the ITE in the observational studies via counterfactual inference. Empirical results on synthetic and real-world datasets, with varying degrees of confounding, prove that our proposed approach improves the state-of-the-art methods in achieving lower error in the ITE estimation.
翻訳日:2022-10-20 13:44:30 公開日:2022-10-19
# dyted:動的グラフ表現学習における時間的不変性とゆらぎの解消

DyTed: Disentangling Temporal Invariance and Fluctuations in Dynamic Graph Representation Learning ( http://arxiv.org/abs/2210.10592v1 )

ライセンス: Link先を確認
Kaike Zhang, Qi Cao, Gaolin Fang, Bingbing Xu, Hongjian Zou, Huawei Shen, Xueqi Cheng(参考訳) 動的グラフに対する教師なし表現学習は近年多くの研究の注目を集めている。 静的グラフと比較すると、動的グラフは時間とともに変化する時間的不変性や安定性の両方を積分的に反映する。 しかし、既存の動的グラフ表現学習法は、一般的にこれらの2種類の情報を共有表現空間に分解し、低説明、ロバスト性、異なる下流タスクに適用する場合の限られた能力をもたらす可能性がある。 テンセント上の日々の資本取引の実際の動的グラフを例にとると、最先端の方法の学習した表現は、年収のようなユーザの時間的不変特性を予測するのに32%の精度しか得られない。 本稿では,動的グラフのための時間的不分散変動不等角表現学習フレームワーク,dytedを提案する。 特に,動的グラフにおける2種類の表現を識別するために,事前文タスクを注意深く設計した時間不変表現生成器と動的変動表現生成器を提案する。 そこで本研究では, 逆学習の枠組みにおいて, 乱れや分離をさらに高めるために, 乱れを検知する判別器を提案する。 Tencentと5つの一般的な公開データセットに関する大規模な実験は、不整合表現の異なる部分が、さまざまなダウンストリームタスクにおける最先端のパフォーマンスを実現し、ノイズに対してより堅牢であることを示し、既存のメソッドをさらに改善する一般的なフレームワークであることを示している。

Unsupervised representation learning for dynamic graphs has attracted a lot of research attention in recent years. Compared with static graphs, dynamic graphs are the integrative reflection of both the temporal-invariant or stable characteristics of nodes and the dynamic-fluctuate preference changing with time. However, existing dynamic graph representation learning methods generally confound these two types of information into a shared representation space, which may lead to poor explanation, less robustness, and a limited ability when applied to different downstream tasks. Taking the real dynamic graphs of daily capital transactions on Tencent as an example, the learned representation of the state-of-the-art method achieves only 32% accuracy in predicting temporal-invariant characteristics of users like annual income. In this paper, we introduce a novel temporal invariance-fluctuation disentangled representation learning framework for dynamic graphs, namely DyTed. In particular, we propose a temporal-invariant representation generator and a dynamic-fluctuate representation generator with carefully designed pretext tasks to identify the two types of representations in dynamic graphs. To further enhance the disentanglement or separation, we propose a disentanglement-aware discriminator under an adversarial learning framework. Extensive experiments on Tencent and five commonly used public datasets demonstrate that the different parts of our disentangled representation can achieve state-of-the-art performance on various downstream tasks, as well as be more robust against noise, and is a general framework that can further improve existing methods.
翻訳日:2022-10-20 13:44:15 公開日:2022-10-19
# 中国における有毒および食用キノコの分類に深層畳み込みニューラルネットワークを用いる

Using deep convolutional neural networks to classify poisonous and edible mushrooms found in China ( http://arxiv.org/abs/2210.10351v1 )

ライセンス: Link先を確認
Baiming Zhang, Ying Zhao, Zhixiang Li(参考訳) アミノ酸、多糖類、その他多くの栄養素が豊富に存在するため、キノコは世界中でも中国でも食事料理として人気がある。 しかし、誤って有毒な真菌を食べると、吐き気、吐き気、精神障害、急性貧血、さらには死に至ることがある。 中国では毎年8000人が病気になり、毒キノコを誤って食べたために70人が死亡している。 約900種類のキノコしか食べられない数千種類のキノコが存在しており、専門知識がないと、誤って毒性のあるキノコを食べる確率が非常に高いと数えられる。 有毒キノコの唯一の特徴は明るい色であると考える人は多いが、一部の種はこの特徴とは一致しない。 そこで本研究では,これら有毒キノコの摂取を防止するため,数百枚のスマートフォン画像を分析し,キノコが有毒かどうかを深層学習で示すことを提案する。 有毒キノコの250画像と食用キノコの200画像を含むキノコ画像データセットをクラウドソースした。 畳み込みニューラルネットワーク(CNN)は,少なくとも1つの層における一般行列乗法の代わりに畳み込みと呼ばれる数学的演算を用いて,大量の画像を分析して比較的正確な結果を得ることができる,特殊な人工知能ニューラルネットワークである。 実験結果から, 提案モデルは信頼性が高く, 食用菌の選択に決定的基盤を与えることができ, 有毒キノコの摂取による死亡率と死亡率の低減が図られた。 我々はまた、手収集したキノコ画像データセットをオープンソース化し、仲間の研究者が自身のモデルで有毒なキノコの識別を推し進めることができるようにしました。

Because of their abundance of amino acids, polysaccharides, and many other nutrients that benefit human beings, mushrooms are deservedly popular as dietary cuisine both worldwide and in China. However, if people eat poisonous fungi by mistake, they may suffer from nausea, vomiting, mental disorder, acute anemia, or even death. Each year in China, there are around 8000 people became sick, and 70 died as a result of eating toxic mushrooms by mistake. It is counted that there are thousands of kinds of mushrooms among which only around 900 types are edible, thus without specialized knowledge, the probability of eating toxic mushrooms by mistake is very high. Most people deem that the only characteristic of poisonous mushrooms is a bright colour, however, some kinds of them do not correspond to this trait. In order to prevent people from eating these poisonous mushrooms, we propose to use deep learning methods to indicate whether a mushroom is toxic through analyzing hundreds of edible and toxic mushrooms smartphone pictures. We crowdsource a mushroom image dataset that contains 250 images of poisonous mushrooms and 200 images of edible mushrooms. The Convolutional Neural Network (CNN) is a specialized type of artificial neural networks that use a mathematical operation called convolution in place of general matrix multiplication in at least one of their layers, which can generate a relatively precise result by analyzing a huge amount of images, and thus is very suitable for our research. The experimental results demonstrate that the proposed model has high credibility and can provide a decision-making basis for the selection of edible fungi, so as to reduce the morbidity and mortality caused by eating poisonous mushrooms. We also open source our hand collected mushroom image dataset so that peer researchers can also deploy their own model to advance poisonous mushroom identification.
翻訳日:2022-10-20 13:36:06 公開日:2022-10-19
# ソースフリー領域適応のための変分モデル摂動

Variational Model Perturbation for Source-Free Domain Adaptation ( http://arxiv.org/abs/2210.10378v1 )

ライセンス: Link先を確認
Mengmeng Jing, Xiantong Zhen, Jingjing Li and Cees G. M. Snoek(参考訳) 私たちは、ソースドメインに事前トレーニングされたモデルをターゲットドメインにデプロイする、ソースフリーなドメイン適応を目指しています。 この課題は、ソースからターゲットドメインへの分散シフトと、最適化のためのソースデータとラベル付きターゲットデータの可用性の欠如に起因している。 パラメータを更新することでモデルを微調整する代わりに、ターゲットドメインへの適応を達成するためにソースモデルを摂動させることを提案する。 確率的枠組みにおける変分ベイズ推定によるモデルパラメータの摂動を導入する。 そうすることで、識別能力を大きく保ちながら、モデルをターゲットドメインに効果的に適用することができるのです。 さらに,対象領域に対する摂動モデルの一般化性を示すベイズ型ニューラルネットワークの学習に関する理論的関連性を実証する。 より効率的な最適化を実現するために、完全ベイズニューラルネットワークと比較して学習可能なパラメータを著しく削減するパラメータ共有戦略を用いる。 我々のモデル摂動は、ソースモデルにおける知識を最大限に保ちながら、ターゲットドメインへの効率的な適応を可能にする、ドメイン適応の新しい確率的方法を提供する。 3つの異なる評価条件下での複数のソースフリーベンチマーク実験は、ソースフリードメイン適応のための変分モデル摂動の有効性を検証する。

We aim for source-free domain adaptation, where the task is to deploy a model pre-trained on source domains to target domains. The challenges stem from the distribution shift from the source to the target domain, coupled with the unavailability of any source data and labeled target data for optimization. Rather than fine-tuning the model by updating the parameters, we propose to perturb the source model to achieve adaptation to target domains. We introduce perturbations into the model parameters by variational Bayesian inference in a probabilistic framework. By doing so, we can effectively adapt the model to the target domain while largely preserving the discriminative ability. Importantly, we demonstrate the theoretical connection to learning Bayesian neural networks, which proves the generalizability of the perturbed model to target domains. To enable more efficient optimization, we further employ a parameter sharing strategy, which substantially reduces the learnable parameters compared to a fully Bayesian neural network. Our model perturbation provides a new probabilistic way for domain adaptation which enables efficient adaptation to target domains while maximally preserving knowledge in source models. Experiments on several source-free benchmarks under three different evaluation settings verify the effectiveness of the proposed variational model perturbation for source-free domain adaptation.
翻訳日:2022-10-20 13:35:32 公開日:2022-10-19
# siamese vision transformerを用いた多視点歩行認識

Multi-view Gait Recognition based on Siamese Vision Transformer ( http://arxiv.org/abs/2210.10421v1 )

ライセンス: Link先を確認
Yanchen Yang, Lijun Yun, Ruoyu Li, Feiyan Cheng(参考訳) Vision Transformerは歩行認識に使われているが、マルチビュー歩行認識への応用はまだ限られている。 異なる視点は,歩行輪郭の特徴の抽出と識別精度に大きく影響する。 そこで本研究では,Samese Mobile Vision Transformer (SMViT)を提案する。 このモデルでは,歩行空間の局所的特性に留意するだけでなく,多次元ステップ状態特性を抽出できる長距離注意関係の特性を考察する。 さらに、異なる視点が歩行特性にどのように影響するかを説明し、信頼できる視点特徴関係因子を生成する。 CASIA BデータセットにおけるSMViTの平均認識率は96.4%に達した。 実験の結果,smvitは,gaitgan,multi_view gan,sponsgaitなどの歩容認識モデルと比較して,最先端の歩容性能を達成できることがわかった。

While the Vision Transformer has been used in gait recognition, its application in multi-view gait recognition is still limited. Different views significantly affect the extraction and identification accuracy of the characteristics of gait contour. To address this, this paper proposes a Siamese Mobile Vision Transformer (SMViT). This model not only focuses on the local characteristics of the human gait space but also considers the characteristics of long-distance attention associations, which can extract multi-dimensional step status characteristics. In addition, it describes how different perspectives affect gait characteristics and generate reliable perspective feature relationship factors. The average recognition rate of SMViT on the CASIA B data set reached 96.4%. The experimental results show that SMViT can attain state-of-the-art performance compared to advanced step recognition models such as GaitGAN, Multi_view GAN, Posegait and other gait recognition models.
翻訳日:2022-10-20 13:35:14 公開日:2022-10-19
# 細粒度スケッチに基づく画像検索のためのクロスモーダル融合蒸留

Cross-Modal Fusion Distillation for Fine-Grained Sketch-Based Image Retrieval ( http://arxiv.org/abs/2210.10486v1 )

ライセンス: Link先を確認
Abhra Chaudhuri, Massimiliano Mancini, Yanbei Chen, Zeynep Akata, Anjan Dutta(参考訳) スケッチに基づく画像検索のための表現学習は、主にモダリティ固有の情報を捨てる埋め込みの学習に取り組んできた。 異なるモダリティのインスタンスは、基礎となる概念を記述する補完的な情報を提供することが多いため、モダリティ固有の情報を捨てる代わりに融合するビジョントランスフォーマー(XModalViT)のためのクロスアテンションフレームワークを提案する。 我々のフレームワークはまず、個々の写真からペア化されたデータポイントをマッピングし、両方のモダリティから情報を統一する融合表現にスケッチする。 次に、上記のモダリティ融合ネットワークの入力空間を、コントラストおよびリレーショナルなクロスモーダル知識蒸留により個々のモダリティの独立エンコーダに分離する。 このようなエンコーダは、クロスモーダル検索のような下流タスクに適用できる。 本稿では,3つの微粒なスケッチベース画像検索ベンチマークであるShoe-V2, Chair-V2, Sketchyについて,幅広い実験を行い,得られた表現の表現能力を示す。 実装はhttps://github.com/abhrac/xmodal-vitで確認できる。

Representation learning for sketch-based image retrieval has mostly been tackled by learning embeddings that discard modality-specific information. As instances from different modalities can often provide complementary information describing the underlying concept, we propose a cross-attention framework for Vision Transformers (XModalViT) that fuses modality-specific information instead of discarding them. Our framework first maps paired datapoints from the individual photo and sketch modalities to fused representations that unify information from both modalities. We then decouple the input space of the aforementioned modality fusion network into independent encoders of the individual modalities via contrastive and relational cross-modal knowledge distillation. Such encoders can then be applied to downstream tasks like cross-modal retrieval. We demonstrate the expressive capacity of the learned representations by performing a wide range of experiments and achieving state-of-the-art results on three fine-grained sketch-based image retrieval benchmarks: Shoe-V2, Chair-V2 and Sketchy. Implementation is available at https://github.com/abhrac/xmodal-vit.
翻訳日:2022-10-20 13:34:58 公開日:2022-10-19
# 少数サンプルを用いた事前学習モデルにおけるクラスレベルのフォーミングの実現

Attaining Class-level Forgetting in Pretrained Model using Few Samples ( http://arxiv.org/abs/2210.10670v1 )

ライセンス: Link先を確認
Pravendra Singh, Pratik Mazumder, Mohammed Asad Karim(参考訳) 現実世界の問題に対処するために、ディープラーニングモデルは、多くのクラスで共同でトレーニングされる。 しかし、将来的には、プライバシーや倫理上の懸念から、一部のクラスは制限される可能性があるため、制限されたクラス知識は、それらに基づいてトレーニングされたモデルから取り除かなければならない。 プライバシーや倫理上の懸念から利用可能なデータも制限される可能性があるため、モデルの再トレーニングは不可能だ。 残りのクラスに対するモデルの予測能力に影響を与えずにこの問題に対処するための新しいアプローチを提案する。 本手法では,制限クラスと高度に関連のあるモデルパラメータを特定し,制限クラスに関する知識を制限可能なトレーニングデータから削除する。 私たちのアプローチは大幅に高速で、残りのクラスの完全なデータで再トレーニングされたモデルと似ています。

In order to address real-world problems, deep learning models are jointly trained on many classes. However, in the future, some classes may become restricted due to privacy/ethical concerns, and the restricted class knowledge has to be removed from the models that have been trained on them. The available data may also be limited due to privacy/ethical concerns, and re-training the model will not be possible. We propose a novel approach to address this problem without affecting the model's prediction power for the remaining classes. Our approach identifies the model parameters that are highly relevant to the restricted classes and removes the knowledge regarding the restricted classes from them using the limited available training data. Our approach is significantly faster and performs similar to the model re-trained on the complete data of the remaining classes.
翻訳日:2022-10-20 13:34:37 公開日:2022-10-19
# OpenEarthMap: グローバルな高解像度土地被覆マッピングのためのベンチマークデータセット

OpenEarthMap: A Benchmark Dataset for Global High-Resolution Land Cover Mapping ( http://arxiv.org/abs/2210.10732v1 )

ライセンス: Link先を確認
Junshi Xia, Naoto Yokoya, Bruno Adriano, Clifford Broni-Bediako(参考訳) グローバルな高解像度土地被覆マッピングのためのベンチマークデータセットOpenEarthMapを紹介する。 OpenEarthMapは6大陸の44か国から97の地域をカバーし、0.25-0.5mの地上検地距離で手動で8級のランドカバーラベルを付けている。 openearthmapでトレーニングされたセマンティックセグメンテーションモデルは世界中で一般化され、様々なアプリケーションでオフ・ザ・棚モデルとして使用できる。 我々は,教師なしドメイン適応のための最先端手法の性能を評価し,さらなる技術開発に適した課題設定を提案する。 また,限られた計算資源と高速なマッピングのための自動ニューラルアーキテクチャ探索を用いた軽量モデルについても検討した。 データセットはhttps://open-earth-map.orgで公開されている。

We introduce OpenEarthMap, a benchmark dataset, for global high-resolution land cover mapping. OpenEarthMap consists of 2.2 million segments of 5000 aerial and satellite images covering 97 regions from 44 countries across 6 continents, with manually annotated 8-class land cover labels at a 0.25--0.5m ground sampling distance. Semantic segmentation models trained on the OpenEarthMap generalize worldwide and can be used as off-the-shelf models in a variety of applications. We evaluate the performance of state-of-the-art methods for unsupervised domain adaptation and present challenging problem settings suitable for further technical development. We also investigate lightweight models using automated neural architecture search for limited computational resources and fast mapping. The dataset is available at https://open-earth-map.org.
翻訳日:2022-10-20 13:34:23 公開日:2022-10-19
# キャリブレーションマルチビュー検出のための2レベルデータ拡張

Two-level Data Augmentation for Calibrated Multi-view Detection ( http://arxiv.org/abs/2210.10756v1 )

ライセンス: Link先を確認
Martin Engilberge, Haixin Shi, Zhiye Wang, Pascal Fua(参考訳) データ拡張はモデルの一般化と性能を改善するのに有用であることが証明されている。 マルチビューシステムの場合、コンピュータビジョンアプリケーションで一般的に使用されるが、滅多に使われない。 実際、幾何学的データ拡張はビュー間のアライメントを損なう可能性がある。 マルチビューデータは少ない傾向にあり、注釈をつけるのにコストがかかるため、これは問題となる。 本研究では,ビュー間のアライメントを保ちつつ,新たなマルチビューデータ拡張パイプラインを導入することで,この問題を解決することを提案する。 入力画像の従来の拡張に加えて,シーンレベルで直接適用される第2レベルの拡張も提案する。 単純なマルチビュー検出モデルと組み合わせると、2レベル拡張パイプラインは、wildtrackとmultiviewxの2つの主要なマルチビューマルチパーソン検出データセットにおいて、既存のすべてのベースラインをかなりのマージンで上回ります。

Data augmentation has proven its usefulness to improve model generalization and performance. While it is commonly applied in computer vision application when it comes to multi-view systems, it is rarely used. Indeed geometric data augmentation can break the alignment among views. This is problematic since multi-view data tend to be scarce and it is expensive to annotate. In this work we propose to solve this issue by introducing a new multi-view data augmentation pipeline that preserves alignment among views. Additionally to traditional augmentation of the input image we also propose a second level of augmentation applied directly at the scene level. When combined with our simple multi-view detection model, our two-level augmentation pipeline outperforms all existing baselines by a significant margin on the two main multi-view multi-person detection datasets WILDTRACK and MultiviewX.
翻訳日:2022-10-20 13:34:08 公開日:2022-10-19
# 弱教師付き人間の運動予測を用いたマルチビュー追跡

Multi-view Tracking Using Weakly Supervised Human Motion Prediction ( http://arxiv.org/abs/2210.10771v1 )

ライセンス: Link先を確認
Martin Engilberge, Weizhe Liu, Pascal Fua(参考訳) パーソナライズトラッキングへのマルチビューアプローチは、混み合ったシーンのシングルビューよりもオクルージョンをうまく扱う可能性がある。 彼らはしばしば、まず人々を検知し、次に検出を接続するトラッキング・バイ・検出のパラダイムに頼っている。 本稿では,より効果的なアプローチとして,時間とともに人の動きを予測し,各フレームにおける人の存在を推定することを挙げる。 これにより、時間とともに、単一の時間フレームのビューにわたって一貫性を強制できる。 PETS2009およびWILDTRACKデータセットに対する我々のアプローチを検証するとともに、最先端の手法よりも優れていることを示す。

Multi-view approaches to people-tracking have the potential to better handle occlusions than single-view ones in crowded scenes. They often rely on the tracking-by-detection paradigm, which involves detecting people first and then connecting the detections. In this paper, we argue that an even more effective approach is to predict people motion over time and infer people's presence in individual frames from these. This enables to enforce consistency both over time and across views of a single temporal frame. We validate our approach on the PETS2009 and WILDTRACK datasets and demonstrate that it outperforms state-of-the-art methods.
翻訳日:2022-10-20 13:33:55 公開日:2022-10-19
# より良い表現を必要とする異常検出

Anomaly Detection Requires Better Representations ( http://arxiv.org/abs/2210.10773v1 )

ライセンス: Link先を確認
Tal Reiss, Niv Cohen, Eliahu Horwitz, Ron Abutbul, Yedid Hoshen(参考訳) 異常検出は、科学と産業の中心的な課題である異常な現象を特定しようとする。 このタスクは本来、トレーニング中に異常が予期せず不明であるため、教師なしである。 自己教師付き表現学習の最近の進歩は、直接的に異常検出の改善を促している。 本稿では,まず,一般に報告されている異常検出ベンチマークにおいて,自己教師あり表現を用いて最先端のパフォーマンスを実現する方法について述べる。 次に、次世代の異常検出タスクに取り組むには、表現学習における新しい技術的および概念的な改善が必要であると論じる。

Anomaly detection seeks to identify unusual phenomena, a central task in science and industry. The task is inherently unsupervised as anomalies are unexpected and unknown during training. Recent advances in self-supervised representation learning have directly driven improvements in anomaly detection. In this position paper, we first explain how self-supervised representations can be easily used to achieve state-of-the-art performance in commonly reported anomaly detection benchmarks. We then argue that tackling the next generation of anomaly detection tasks requires new technical and conceptual improvements in representation learning.
翻訳日:2022-10-20 13:33:44 公開日:2022-10-19
# 教師なし異常検出における汚染因子分布の推定

Estimating the Contamination Factor's Distribution in Unsupervised Anomaly Detection ( http://arxiv.org/abs/2210.10487v1 )

ライセンス: Link先を確認
Lorenzo Perini, Paul Buerkner and Arto Klami(参考訳) 異常検出手法は、様々なヒューリスティックに基づいて実値の異常スコアをサンプルに割り当てることで、予測された振る舞いに従わない例を典型的には教師なしの方法で特定する。 これらのスコアはしきい値によって実際の予測に変換されなければならないので、異常としてマークされた例の比率は、汚染因子と呼ばれる異常の予想割合と等しい。 残念ながら、汚染因子自体を推定するための良い方法はない。 我々はベイズ的な観点からこのニーズに対処し、与えられた未ラベルデータセットの汚染係数の後方分布を推定する手法を導入する。 複数の異常検出器の出力を、既に異常性の基本的な概念を捉え、特定の混合式を用いて汚染を推定する表現として活用する。 22のデータセットにおいて,推定分布が十分に調整され,後方平均を用いたしきい値の設定により,いくつかの代替法において異常検出器の性能が向上することを示す。 すべてのコードは、完全な再現性で公開されています。

Anomaly detection methods identify examples that do not follow the expected behaviour, typically in an unsupervised fashion, by assigning real-valued anomaly scores to the examples based on various heuristics. These scores need to be transformed into actual predictions by thresholding, so that the proportion of examples marked as anomalies equals the expected proportion of anomalies, called contamination factor. Unfortunately, there are no good methods for estimating the contamination factor itself. We address this need from a Bayesian perspective, introducing a method for estimating the posterior distribution of the contamination factor of a given unlabeled dataset. We leverage on outputs of several anomaly detectors as a representation that already captures the basic notion of anomalousness and estimate the contamination using a specific mixture formulation. Empirically on 22 datasets, we show that the estimated distribution is well-calibrated and that setting the threshold using the posterior mean improves the anomaly detectors' performance over several alternative methods. All code is publicly available for full reproducibility.
翻訳日:2022-10-20 13:27:43 公開日:2022-10-19
# ノード埋め込みのためのグラフサンプリング

Graph sampling for node embedding ( http://arxiv.org/abs/2210.10520v1 )

ライセンス: Link先を確認
Li-Chun Zhang(参考訳) node組み込みは、グラフ表現学習の中心的なトピックである。 計算効率とスケーラビリティは、フルグラフ演算を必要とするあらゆるメソッドにとって困難である。 グラフラプラシアンに関連する固有ベクトルとグラフに関連する与えられた値の両方から有用な情報を抽出することを目的として,特徴ベクトルの明示的モデリングの有無にかかわらず,ノード埋め込みのサンプリング手法を提案する。

Node embedding is a central topic in graph representation learning. Computational efficiency and scalability can be challenging to any method that requires full-graph operations. We propose sampling approaches to node embedding, with or without explicit modelling of the feature vector, which aim to extract useful information from both the eigenvectors related to the graph Laplacien and the given values associated with the graph.
翻訳日:2022-10-20 13:27:28 公開日:2022-10-19
# 雑音条件最大度推定を用いた自己回帰生成モデル

Autoregressive Generative Modeling with Noise Conditional Maximum Likelihood Estimation ( http://arxiv.org/abs/2210.10715v1 )

ライセンス: Link先を確認
Henry Li and Yuval Kluger(参考訳) 本稿では、mle(standard maximum likelihood estimation)フレームワークの簡単な修正を提案する。 モデルに基づくデータの単一の非条件確率を最大化するのではなく、ノイズレベルの連続体によって摂動されるデータからなる「textit{noise conditional}」の族を最大化する。 この方法でトレーニングされたモデルは、ノイズに対してより堅牢で、高いテスト可能性を獲得し、高品質な画像を生成する。 これらはまた、自己回帰モデルにおけるサンプル生成中に発生する古典的な \textit{covariate shift} 問題と戦う新しいスコアベースのサンプリングスキームによってサンプリングすることもできる。 この拡張を自己回帰画像モデルに適用することにより、ImageNet 64x64データセットで1次元あたり3.32ビットを取得し、CIFAR-10データセットで37.50から12.09までのFrechet Inception distance (FID)で生成したサンプルの品質を大幅に改善する。

We introduce a simple modification to the standard maximum likelihood estimation (MLE) framework. Rather than maximizing a single unconditional likelihood of the data under the model, we maximize a family of \textit{noise conditional} likelihoods consisting of the data perturbed by a continuum of noise levels. We find that models trained this way are more robust to noise, obtain higher test likelihoods, and generate higher quality images. They can also be sampled from via a novel score-based sampling scheme which combats the classical \textit{covariate shift} problem that occurs during sample generation in autoregressive models. Applying this augmentation to autoregressive image models, we obtain 3.32 bits per dimension on the ImageNet 64x64 dataset, and substantially improve the quality of generated samples in terms of the Frechet Inception distance (FID) -- from 37.50 to 12.09 on the CIFAR-10 dataset.
翻訳日:2022-10-20 13:27:22 公開日:2022-10-19
# 逆モデル過最適化のためのスケーリング法則

Scaling Laws for Reward Model Overoptimization ( http://arxiv.org/abs/2210.10760v1 )

ライセンス: Link先を確認
Leo Gao, John Schulman, Jacob Hilton(参考訳) ヒトのフィードバックからの強化学習では、人間の嗜好を予測するために訓練された報酬モデルに対して最適化することが一般的である。 報酬モデルは不完全なプロキシであるため、その価値を過大に最適化することで、グッドハートの法則に従って真理のパフォーマンスを損なう可能性がある。 この効果は頻繁に観測されているが、人間の嗜好データ収集の費用のために慎重に測定されていない。 本研究では、固定された「ゴールドスタンダード」報酬モデルが人間の役割を担い、代理報酬モデルのトレーニングに使用されるラベルを提供する合成装置を用いる。 我々は,ゴールド報酬モデルが,強化学習とベスト・オブ・n$サンプリングのどちらを用いて,プロキシ報酬モデルに対して最適化されるかを検討した。 この関係は最適化の方法によって異なる関数形式に従っており、どちらの場合においてもその係数は報酬モデルパラメータの数でスムーズにスケールする。 また,報酬モデルデータセットのサイズ,報酬モデル数と政策パラメータ,強化学習設定における報酬に付加されるklペナルティ係数との関係について検討した。 これらの実験結果がaiアライメントの理論的考察に与える影響について検討する。

In reinforcement learning from human feedback, it is common to optimize against a reward model trained to predict human preferences. Because the reward model is an imperfect proxy, optimizing its value too much can hinder ground truth performance, in accordance with Goodhart's law. This effect has been frequently observed, but not carefully measured due to the expense of collecting human preference data. In this work, we use a synthetic setup in which a fixed "gold-standard" reward model plays the role of humans, providing labels used to train a proxy reward model. We study how the gold reward model score changes as we optimize against the proxy reward model using either reinforcement learning or best-of-$n$ sampling. We find that this relationship follows a different functional form depending on the method of optimization, and that in both cases its coefficients scale smoothly with the number of reward model parameters. We also study the effect on this relationship of the size of the reward model dataset, the number of reward model and policy parameters, and the coefficient of the KL penalty added to the reward in the reinforcement learning setup. We explore the implications of these empirical results for theoretical considerations in AI alignment.
翻訳日:2022-10-20 13:27:03 公開日:2022-10-19
# 「なぜモデルが失敗したのか?」:分散シフトによるモデル性能変化の要因

"Why did the Model Fail?": Attributing Model Performance Changes to Distribution Shifts ( http://arxiv.org/abs/2210.10769v1 )

ライセンス: Link先を確認
Haoran Zhang, Harvineet Singh, Marzyeh Ghassemi, Shalmali Joshi(参考訳) 機械学習モデルのパフォーマンスは多くの理由からトレーニングとデプロイメントの違いがある。 例えば、モデルパフォーマンスは、データ品質の変化、トレーニング中のものと異なる人口の観察、ラベルと特徴の関係の変化によって環境によって変化する可能性がある。 これらは、基盤となるデータ生成メカニズムの変更として現れ、結果として環境にまたがる分散シフトをもたらす。 covariateやconcept shiftといった特定のシフトに対するパフォーマンス変化の帰結は、モデル障害の原因を特定し、堅牢なモデルを保証するための緩和アクションを取る上で非常に重要である。 本研究では,環境間の性能差を基礎となるデータ生成機構の変化に寄与させる問題を紹介する。 この問題を協調ゲームとして定式化し,分布の連立(あるいは集合)の価値を計算する上で重要重み付け法を導出する。 そして、各分布の総性能変化への寄与をShapley値として定量化する。 2つの合成データセットと2つの実世界のケーススタディにおいて,本手法の有効性と有用性を示し,その性能変化を広範囲な分布シフトに寄与させる効果を示した。

Performance of machine learning models may differ between training and deployment for many reasons. For instance, model performance can change between environments due to changes in data quality, observing a different population than the one in training, or changes in the relationship between labels and features. These manifest as changes to the underlying data generating mechanisms, and thereby result in distribution shifts across environments. Attributing performance changes to specific shifts, such as covariate or concept shifts, is critical for identifying sources of model failures, and for taking mitigating actions that ensure robust models. In this work, we introduce the problem of attributing performance differences between environments to shifts in the underlying data generating mechanisms. We formulate the problem as a cooperative game and derive an importance weighting method for computing the value of a coalition (or a set) of distributions. The contribution of each distribution to the total performance change is then quantified as its Shapley value. We demonstrate the correctness and utility of our method on two synthetic datasets and two real-world case studies, showing its effectiveness in attributing performance changes to a wide range of distribution shifts.
翻訳日:2022-10-20 13:26:30 公開日:2022-10-19
# 二重過程知覚における感情価の自由エネルギーモデル

Free energy model of emotional valence in dual-process perceptions ( http://arxiv.org/abs/2210.10262v1 )

ライセンス: Link先を確認
Hideyoshi Yanagisawa, Xiaoxiang Wu, Kazutaka Ueda, Takeo Kato(参考訳) 適切なレベルの覚醒はポジティブな感情を誘発し、高い覚醒電位はネガティブな感情を引き起こす可能性がある。 本研究では,感情的ヴァレンスに対する覚醒の影響を説明するために,人間の認知の二重過程における覚醒電位変化の数学的枠組みを提案する。 双対過程における感情を説明するモデルが提案されているが、適切な数学的定式化はほとんど発見されていない。 我々のモデルは自由エネルギーと覚醒電位とその変動を関連付けて感情的ヴァレンスを説明する。 自由エネルギーの減少と増大は、それぞれ正の感情と負の感情を引き起こす。 ベイズ事前の変更として、二重過程における自動過程から制御過程への遷移を定式化する。 我々は、自由エネルギー増加(FI)を用いて感情価をモデル化し、変化した前と同一刺激を認識するのに成功してベイズ前を変化させようとすると、その減少(FR)をモデル化し、その変動を用いて「興味」、「融合」、「ボレドム」の3つの感情を定義する。 様々なガウスモデルのパラメータを比較した結果、以下のことが示される。 1)第1の先行分散が第2の先行分散よりも大きい場合、予測誤差(PR)はFRを増加させる。 2)prは常にfrを増加させ, 3) 前者間の距離は常にFRを増加させる。 制御過程における結果と感情との関連について論じる。 数学的モデルは、視点と刺激によって異なる双対過程における感情的ヴァレンスを予測・制御するための一般的な枠組みを提供し、また、覚醒がヴァレンスに与える影響の矛盾を理解する。

An appropriate level of arousal induces positive emotions, and a high arousal potential may provoke negative emotions. To explain the effect of arousal on emotional valence, we propose a novel mathematical framework of arousal potential variations in the dual process of human cognition: automatic and controlled process. Although models have been proposed to explain the emotions in the dual process, a suitable mathematical formulation is largely undiscovered. Our model associates free energy with arousal potential and its variations to explain emotional valence. Decreasing and increasing free energy consequently induces positive and negative emotions, respectively. We formalize a transition from the automatic to controlled process in the dual process as a change of Bayesian prior. We model emotion valence using free-energy increase (FI) when one tries to change one's Bayesian prior and its reduction (FR) when one succeeds to recognize the same stimuli with a changed prior and define three emotions: "interest," "confusion," and "boredom" using the variations. The mathematical analysis comparing between varied Gaussian model parameters suggests that: 1) prediction error (PR) increases FR when the first prior variance is greater than the second prior variance, 2) PR always increases FR, and 3) the distance between priors' means always increases FR. We discuss the association of the outcomes with emotions in the controlled process. The mathematical model provides a general framework for predicting and controlling emotional valence in the dual process that varies with viewpoint and stimuli, as well as for understanding the contradictions in the effects of arousal on the valence.
翻訳日:2022-10-20 13:26:02 公開日:2022-10-19
# Face Pasting Attack(英語)

Face Pasting Attack ( http://arxiv.org/abs/2210.09153v2 )

ライセンス: Link先を確認
Niklas Bunzel, Lukas Graner(参考訳) Cujo AIとAdversa AIはMLSecの顔認識チャレンジを主催した。 目標は、攻撃対象のブラックボックス顔認識モデルを攻撃することであった。 モデルは、目標クラスの自信とステルス性スコアを返した。 攻撃が成功するためには、ターゲットクラスはすべてのクラスの中で最も信頼され、ステルスネスは少なくとも0.5である必要がある。 私たちのアプローチでは、ターゲットの顔をソースイメージに貼り付けます。 位置、スケーリング、ローテーション、透明性属性を活用することで、3位に到達しました。 当社のアプローチでは,攻撃1回当たりのクエリ数が最終スコアで約200,攻撃成功で最低で約7.7であった。 コードはhttps://github.com/bunni90/FacePastingAttackで入手できる。

Cujo AI and Adversa AI hosted the MLSec face recognition challenge. The goal was to attack a black box face recognition model with targeted attacks. The model returned the confidence of the target class and a stealthiness score. For an attack to be considered successful the target class has to have the highest confidence among all classes and the stealthiness has to be at least 0.5. In our approach we paste the face of a target into a source image. By utilizing position, scaling, rotation and transparency attributes we reached 3rd place. Our approach took approximately 200 queries per attack for the final highest score and about ~7.7 queries minimum for a successful attack. The code is available at https://github.com/bunni90/FacePastingAttack .
翻訳日:2022-10-20 13:25:36 公開日:2022-10-19
# 配電シフトの解説に向けて

Towards Explaining Distribution Shifts ( http://arxiv.org/abs/2210.10275v1 )

ライセンス: Link先を確認
Sean Kulinski, David I. Inouye(参考訳) 分散シフトは、運用環境の変化を信号化したり、下流モデルの精度を著しく低下させるなど、根本的な結果をもたらす可能性がある。 したがって、分布シフトの理解は、そのようなシフトの効果を検証し緩和するために重要である。 これまでのほとんどの研究は、シフトが発生したかどうかを単に検出することだけに集中しており、検出されたシフトを人間のオペレータによって適切に理解および処理できると仮定している。 本研究は, 従来の流通から移行した輸送地図を用いて, 流通変化を説明することで, これらの手動緩和作業を支援することを期待する。 我々は、候補写像が解釈可能な写像の集合に制限される最適輸送問題の緩和から、解釈可能な写像を導出する。 次に、シミュレーションおよび実世界のケースにおける分布シフトの簡単な例を用いて、説明的マッピングが、視覚検査とPercentExplainedメトリックの両方によるデファクト標準平均シフト説明よりもディテールと解釈可能性のバランスが良いことを示す。

A distribution shift can have fundamental consequences such as signaling a change in the operating environment or significantly reducing the accuracy of downstream models. Thus, understanding distribution shifts is critical for examining and hopefully mitigating the effect of such a shift. Most prior work has focused on merely detecting if a shift has occurred and assumes any detected shift can be understood and handled appropriately by a human operator. We hope to aid in these manual mitigation tasks by explaining the distribution shift using interpretable transportation maps from the original distribution to the shifted one. We derive our interpretable mappings from a relaxation of the optimal transport problem, where the candidate mappings are restricted to a set of interpretable mappings. We then use quintessential examples of distribution shift in simulated and real-world cases to showcase how our explanatory mappings provide a better balance between detail and interpretability than the de facto standard mean shift explanation by both visual inspection and our PercentExplained metric.
翻訳日:2022-10-20 13:25:01 公開日:2022-10-19
# 差別化可能な自己適応学習率

Differentiable Self-Adaptive Learning Rate ( http://arxiv.org/abs/2210.10290v1 )

ライセンス: Link先を確認
Bozhou Chen, Hongzhi Wang, Chenmin Ba(参考訳) 機械学習では、学習率の適応が一般的なトピックである。 Gradient Descentは、一定の学習率で神経オタクを訓練する。 トレーニングセッションのステップサイズを調整することにより,学習過程を加速させる学習率適応を提案する。 有名な作品には、Momentum、Adam、Hypergradientなどがある。 ハイパーグラディエント(Hypergradient)は、最も特殊なもの。 コスト関数に対する学習率の導出を計算し、学習率の勾配降下を利用した高次適応を実現する。 しかし、hypergradientはまだ完璧ではない。 実際、hypergradientは、学習率適応後のトレーニング損失を、大きな確率で減少させることに失敗している。 それとは別に、ハイパーグラディエントはミニバッチトレーニングの形で大きなラテットを扱うには適していないという証拠が見つかっている。 もっとも残念なことに、ハイパーグラディエントは常に、トレーニング損失を非常に小さな値に削減するが、バリデーションデータセットで適切な精度を得ることができない。 ハイパーグラディエントの問題を解決するために,学習率がパラメータ固有で内部構造を持つ新しい適応アルゴリズムを提案する。 様々なベンチマークオプティマイザと比較して,複数のネットワークモデルとデータセットについて広範な実験を行った。 本アルゴリズムは,これらの状態最適化器よりも高速かつ高いコンバージェンスを実現できることを示す。

Learning rate adaptation is a popular topic in machine learning. Gradient Descent trains neural nerwork with a fixed learning rate. Learning rate adaptation is proposed to accelerate the training process through adjusting the step size in the training session. Famous works include Momentum, Adam and Hypergradient. Hypergradient is the most special one. Hypergradient achieved adaptation by calculating the derivative of learning rate with respect to cost function and utilizing gradient descent for learning rate. However, Hypergradient is still not perfect. In practice, Hypergradient fail to decrease training loss after learning rate adaptation with a large probability. Apart from that, evidence has been found that Hypergradient are not suitable for dealing with large datesets in the form of minibatch training. Most unfortunately, Hypergradient always fails to get a good accuracy on the validation dataset although it could reduce training loss to a very tiny value. To solve Hypergradient's problems, we propose a novel adaptation algorithm, where learning rate is parameter specific and internal structured. We conduct extensive experiments on multiple network models and datasets compared with various benchmark optimizers. It is shown that our algorithm can achieve faster and higher qualified convergence than those state-of-art optimizers.
翻訳日:2022-10-20 13:19:02 公開日:2022-10-19
# EGG-GAE:表型データ計算のためのスケーラブルグラフニューラルネットワーク

EGG-GAE: scalable graph neural networks for tabular data imputation ( http://arxiv.org/abs/2210.10446v1 )

ライセンス: Link先を確認
Lev Telyatnikov and Simone Scardapane(参考訳) データ計算の欠如(MDI)は、さまざまなドメインにわたる表データセットを扱う上で重要である。 オートエンコーダは、欠落した値を再構築するためにトレーニングされ、グラフオートエンコーダ(GAE)は、与えられたインスタンスに新しい値を入力する際に、データセットに類似したパターンを考慮できる。 しかし、以前提案されたGAEはスケーラビリティの問題に悩まされており、ユーザは事前にグラフ接続を構築するためにパターン間の類似度メトリックを定義する必要がある。 本稿では, 遅延グラフ計算の最近の進歩を活用し, これら2つの欠点を克服する新しいデータ計算法であるEdGe Generation Graph AutoEncoder(EGG-GAE)を提案する。 EGG-GAEは、入力データのランダムにサンプリングされたミニバッチ(大規模なデータセットへのスケーリング)で動作し、各アーキテクチャ層に対して、ミニバッチ全体の接続性を自動的に推測する。 推論のためのアンサンブル戦略やプロトタイプノードと呼ばれるものを含むいくつかの拡張も実験し、複数のベンチマークとベースラインにわたって、インプテーションエラーと最終的な下流精度の両方で大幅な改善を得ました。

Missing data imputation (MDI) is crucial when dealing with tabular datasets across various domains. Autoencoders can be trained to reconstruct missing values, and graph autoencoders (GAE) can additionally consider similar patterns in the dataset when imputing new values for a given instance. However, previously proposed GAEs suffer from scalability issues, requiring the user to define a similarity metric among patterns to build the graph connectivity beforehand. In this paper, we leverage recent progress in latent graph imputation to propose a novel EdGe Generation Graph AutoEncoder (EGG-GAE) for missing data imputation that overcomes these two drawbacks. EGG-GAE works on randomly sampled mini-batches of the input data (hence scaling to larger datasets), and it automatically infers the best connectivity across the mini-batch for each architecture layer. We also experiment with several extensions, including an ensemble strategy for inference and the inclusion of what we call prototype nodes, obtaining significant improvements, both in terms of imputation error and final downstream accuracy, across multiple benchmarks and baselines.
翻訳日:2022-10-20 13:18:41 公開日:2022-10-19
# 勾配ペナルティと制約緩和を用いたロバストオフライン強化学習

Robust Offline Reinforcement Learning with Gradient Penalty and Constraint Relaxation ( http://arxiv.org/abs/2210.10469v1 )

ライセンス: Link先を確認
Chengqian Gao, Ke Xu, Liu Liu, Deheng Ye, Peilin Zhao, Zhiqiang Xu(参考訳) オフライン強化学習(RL)の有望なパラダイムは、学習したポリシーを、オフラインRLとして知られるデータセットの動作に近づけるように制限することである。 しかし、既存の研究はデータの純度に大きく依存しており、様々なレベルの不純な軌跡を含む汚染データセットから学ぶ際に、性能劣化や破滅的な失敗さえも示している。 例えば、専門家レベル、中レベルなど、オフラインで汚染されたデータログは、現実世界に一般的に存在する。 これを緩和するために、まず学習値関数に対する勾配ペナルティを導入し、爆発するQ-関数に対処する。 そして,非最適行動に対する親密性制約を緩和し,制約緩和を批判する。 提案手法は, 汚染されたD4RL MujocoとAdroitのデータセットを用いて, 政策制約付きオフラインRL手法の最適トラジェクトリを効果的に活用できることを実験的に示す。

A promising paradigm for offline reinforcement learning (RL) is to constrain the learned policy to stay close to the dataset behaviors, known as policy constraint offline RL. However, existing works heavily rely on the purity of the data, exhibiting performance degradation or even catastrophic failure when learning from contaminated datasets containing impure trajectories of diverse levels. e.g., expert level, medium level, etc., while offline contaminated data logs exist commonly in the real world. To mitigate this, we first introduce gradient penalty over the learned value function to tackle the exploding Q-functions. We then relax the closeness constraints towards non-optimal actions with critic weighted constraint relaxation. Experimental results show that the proposed techniques effectively tame the non-optimal trajectories for policy constraint offline RL methods, evaluated on a set of contaminated D4RL Mujoco and Adroit datasets.
翻訳日:2022-10-20 13:18:23 公開日:2022-10-19
# 左心房細動における血栓症リスク評価のための幾何学的深層学習

Geometric Deep Learning for the Assessment of Thrombosis Risk in the Left Atrial Appendage ( http://arxiv.org/abs/2210.10563v1 )

ライセンス: Link先を確認
Xabier Morales, Jordi Mill, Guillem Simeon, Kristine A. Juhl, Ole De Backer, Rasmus R. Paulsen and Oscar Camara(参考訳) 左心房細動 (LAA) 血栓発生の評価は, 患者特異的流体力学 (CFD) シミュレーションの導入により大きく進歩した。 それでも、膨大な計算資源と流体力学の解法が必要とする長い実行時間のために、ニューラルネットワークに基づく流体流動シミュレーションの代理モデルを開発することを目的とした、継続的な研究が続けられている。 本研究は, 深層学習(DL)フレームワークを構築し, 患者固有のLAA形状から, 血栓症のリスクに関連する内皮細胞活性化電位(ECAP)を予測する。 この目的のために我々は、畳み込みニューラルネットワーク(cnn)の非並列ポテンシャルをメッシュなどの非ユークリッドデータにシームレスに拡張する幾何dlの最近の進歩を利用した。 このモデルは202syntheticと54 real laaを組み合わせたデータセットでトレーニングされ、平均的な絶対誤差0.563でecap分布を瞬時に予測した。 さらに,合成事例のみを訓練した場合でも,高いecap値に関連する解剖学的特徴を予測できる。

The assessment of left atrial appendage (LAA) thrombogenesis has experienced major advances with the adoption of patient-specific computational fluid dynamics (CFD) simulations. Nonetheless, due to the vast computational resources and long execution times required by fluid dynamics solvers, there is an ever-growing body of work aiming to develop surrogate models of fluid flow simulations based on neural networks. The present study builds on this foundation by developing a deep learning (DL) framework capable of predicting the endothelial cell activation potential (ECAP), linked to the risk of thrombosis, solely from the patient-specific LAA geometry. To this end, we leveraged recent advancements in Geometric DL, which seamlessly extend the unparalleled potential of convolutional neural networks (CNN), to non-Euclidean data such as meshes. The model was trained with a dataset combining 202 synthetic and 54 real LAA, predicting the ECAP distributions instantaneously, with an average mean absolute error of 0.563. Moreover, the resulting framework manages to predict the anatomical features related to higher ECAP values even when trained exclusively on synthetic cases.
翻訳日:2022-10-20 13:18:05 公開日:2022-10-19
# DIAMBRA Arena - 研究と実験のための新しい強化学習プラットフォーム

DIAMBRA Arena: a New Reinforcement Learning Platform for Research and Experimentation ( http://arxiv.org/abs/2210.10595v1 )

ライセンス: Link先を確認
Alessandro Palmas(参考訳) 最近の強化学習の進歩は、非常に複雑な環境において、人間レベルのパフォーマンスを達成する効果的な方法を生み出した。 しかし、一旦解決すれば、これらの環境の価値は低下し、研究の進歩をサポートするために、異なる、あるいはより複雑なシナリオの新たな挑戦が必要となる。 この研究は、強化学習の研究と実験のための新しいプラットフォームであるDIAMBRA Arenaを紹介し、OpenAI Gym標準に完全に準拠したPython APIを公開する高品質な環境のコレクションを特徴とする。 これらは、個別のアクションと観察を生のピクセルと追加の数値で構成し、それぞれがシングルプレイヤーと2人のプレイヤーモードをサポートし、標準的な強化学習、競合するマルチエージェント、ヒューマンエージェント競技、セルフプレイ、ヒューマン・イン・ザ・ループのトレーニング、模倣学習に取り組むことができる。 ソフトウェア能力は、人間のような振る舞いを得るための近似ポリシー最適化を用いて、複数の深層強化学習エージェントを訓練することで実証される。 その結果、DIAMBRA Arenaの強化学習研究ツールとしての有用性を確認し、この分野で最も困難なトピックのいくつかを研究するために設計された環境を提供する。

The recent advances in reinforcement learning have led to effective methods able to obtain above human-level performances in very complex environments. However, once solved, these environments become less valuable, and new challenges with different or more complex scenarios are needed to support research advances. This work presents DIAMBRA Arena, a new platform for reinforcement learning research and experimentation, featuring a collection of high-quality environments exposing a Python API fully compliant with OpenAI Gym standard. They are episodic tasks with discrete actions and observations composed by raw pixels plus additional numerical values, all supporting both single player and two players mode, allowing to work on standard reinforcement learning, competitive multi-agent, human-agent competition, self-play, human-in-the-loop training and imitation learning. Software capabilities are demonstrated by successfully training multiple deep reinforcement learning agents with proximal policy optimization obtaining human-like behavior. Results confirm the utility of DIAMBRA Arena as a reinforcement learning research tool, providing environments designed to study some of the most challenging topics in the field.
翻訳日:2022-10-20 13:17:46 公開日:2022-10-19
# AUCによる選択分類

AUC-based Selective Classification ( http://arxiv.org/abs/2210.10703v1 )

ライセンス: Link先を確認
Andrea Pugnana, Salvatore Ruggieri(参考訳) 選択分類(または拒否オプション付き分類)は、分類器と選択関数をペアにして、予測が受け入れられるべきか否かを決定する。 このフレームワークは、一般的に分散損失関数によって測定される予測パフォーマンスと、カバレッジ(予測を受け入れる可能性)をトレードオフする。 クレジットスコアリングのような多くのアプリケーションシナリオでは、パフォーマンスはROC曲線(AUC)のようなランキングメトリクスによって測定される。 本稿では,選択関数を与えられた確率的バイナリ分類器に関連付けるモデル非依存手法を提案する。 このアプローチは特にAUCの最適化を目標としている。 このような目的を達成するために、理論的正当化と$AUCross$と呼ばれる新しいアルゴリズムの両方を提供する。 実験によると、$AUCross$はAUCのトレードオフカバレッジに成功し、精度を最適化することを目的とした既存の選択的な分類方法を改善する。

Selective classification (or classification with a reject option) pairs a classifier with a selection function to determine whether or not a prediction should be accepted. This framework trades off coverage (probability of accepting a prediction) with predictive performance, typically measured by distributive loss functions. In many application scenarios, such as credit scoring, performance is instead measured by ranking metrics, such as the Area Under the ROC Curve (AUC). We propose a model-agnostic approach to associate a selection function to a given probabilistic binary classifier. The approach is specifically targeted at optimizing the AUC. We provide both theoretical justifications and a novel algorithm, called $AUCross$, to achieve such a goal. Experiments show that $AUCross$ succeeds in trading-off coverage for AUC, improving over existing selective classification methods targeted at optimizing accuracy.
翻訳日:2022-10-20 13:17:25 公開日:2022-10-19
# RSC:ランダムスパース計算によるグラフニューラルネットワークトレーニングの高速化

RSC: Accelerating Graph Neural Networks Training via Randomized Sparse Computations ( http://arxiv.org/abs/2210.10737v1 )

ライセンス: Link先を確認
Zirui Liu, Shengyuan Chen, Kaixiong Zhou, Daochen Zha, Xiao Huang, Xia Hu(参考訳) グラフニューラルネットワーク(gnns)のトレーニングは、ハードウェアによってスパースグラフベースの操作を加速することが難しいため、非常に時間がかかる。 先行技術は、サンプリングに基づく近似による時間の複雑さを減らすために計算精度をトレードオフする。 この考えに基づいて、以前の研究は無視できる精度の低下で密度行列に基づく演算(例えば畳み込みや線形)を加速させることに成功した。 しかし、密度行列とは異なり、スパース行列は不規則なデータ形式に格納され、各行/カラムは異なる数の非ゼロエントリを持つ。 したがって、密接な比較により、スパース演算の近似化には、(1)非ゼロエントリでのみ計算を行うため、近似スパース演算の効率を直接制御できないこと、(2)サブサンプリングスパース行列は不規則なデータフォーマットのため、はるかに非効率である。 この問題に対処するためには,計算資源割当を階層的に,画期的に最適化することにより,精度と効率のトレードオフを制御することが重要となる。 具体的には、最初の課題として、計算リソースを異なるスパース操作にカスタマイズし、使用済みリソースの合計を予算未満に制限する。 第2の課題として、サンプリング済みスパース行列をキャッシュし、エポックワイズサンプリングオーバーヘッドを削減する。 最後に,近似演算で学習したgnnの一般化を改善するスイッチング機構を提案する。 そこで本研究では,GNNを近似演算でトレーニングする可能性を初めて示すランダム化スパース計算を提案する。 実際には、rscは1回のスパース操作で最大11.6\times$ speedupを達成でき、エンドツーエンドのウォールクロックタイムスピードアップは1.6\times$である。

The training of graph neural networks (GNNs) is extremely time consuming because sparse graph-based operations are hard to be accelerated by hardware. Prior art explores trading off the computational precision to reduce the time complexity via sampling-based approximation. Based on the idea, previous works successfully accelerate the dense matrix based operations (e.g., convolution and linear) with negligible accuracy drop. However, unlike dense matrices, sparse matrices are stored in the irregular data format such that each row/column may have different number of non-zero entries. Thus, compared to the dense counterpart, approximating sparse operations has two unique challenges (1) we cannot directly control the efficiency of approximated sparse operation since the computation is only executed on non-zero entries; (2) sub-sampling sparse matrices is much more inefficient due to the irregular data format. To address the issues, our key idea is to control the accuracy-efficiency trade off by optimizing computation resource allocation layer-wisely and epoch-wisely. Specifically, for the first challenge, we customize the computation resource to different sparse operations, while limit the total used resource below a certain budget. For the second challenge, we cache previous sampled sparse matrices to reduce the epoch-wise sampling overhead. Finally, we propose a switching mechanisms to improve the generalization of GNNs trained with approximated operations. To this end, we propose Randomized Sparse Computation, which for the first time demonstrate the potential of training GNNs with approximated operations. In practice, rsc can achieve up to $11.6\times$ speedup for a single sparse operation and a $1.6\times$ end-to-end wall-clock time speedup with negligible accuracy drop.
翻訳日:2022-10-20 13:17:10 公開日:2022-10-19
# 複素数と制約に対する一貫性のあるマルチクラスアルゴリズム

Consistent Multiclass Algorithms for Complex Metrics and Constraints ( http://arxiv.org/abs/2210.09695v2 )

ライセンス: Link先を確認
Harikrishna Narasimhan, Harish G. Ramaswamy, Shiv Kumar Tavker, Drona Khurana, Praneeth Netrapalli, Shivani Agarwal(参考訳) 複雑な性能指標と制約を持つマルチクラス学習のための一貫したアルゴリズムを提案し、そこでは、目的と制約を混乱行列の任意の関数で定義する。 この設定には、マルチクラスg-meanやmicro f1-measureのような多くの一般的なパフォーマンス指標や、分類器の精度やリコールの制約、より最近のフェアネスの不一致の尺度が含まれる。 このような複雑な設計目標に対する一貫したアルゴリズムを設計するための一般的な枠組みとして、学習問題を現実的な混乱行列の集合に対する最適化問題と見なす。 性能指標と制約の異なる仮定の下でフレームワークの複数のインスタンス化を提供し、それぞれのケースでは最適な(実現可能な)分類器への収束率を示します。 様々なクラス分類タスクと公正制約のある問題の実験により、我々のアルゴリズムは最先端のベースラインと良好に比較できることを示した。

We present consistent algorithms for multiclass learning with complex performance metrics and constraints, where the objective and constraints are defined by arbitrary functions of the confusion matrix. This setting includes many common performance metrics such as the multiclass G-mean and micro F1-measure, and constraints such as those on the classifier's precision and recall and more recent measures of fairness discrepancy. We give a general framework for designing consistent algorithms for such complex design goals by viewing the learning problem as an optimization problem over the set of feasible confusion matrices. We provide multiple instantiations of our framework under different assumptions on the performance metrics and constraints, and in each case show rates of convergence to the optimal (feasible) classifier (and thus asymptotic consistency). Experiments on a variety of multiclass classification tasks and fairness-constrained problems show that our algorithms compare favorably to the state-of-the-art baselines.
翻訳日:2022-10-20 13:16:37 公開日:2022-10-19
# 一般化スライス-ワッサーシュタイン距離の高速近似

Fast Approximation of the Generalized Sliced-Wasserstein Distance ( http://arxiv.org/abs/2210.10268v1 )

ライセンス: Link先を確認
Dung Le, Huy Nguyen, Khai Nguyen, Trang Nguyen, Nhat Ho(参考訳) 一般化されたスライスされたワッサーシュタイン距離はスライスされたワッサーシュタイン距離の変種であり、与えられた定義関数を通して非線形射影のパワーを利用して確率分布の複素構造をよりよく捉える。 スライスされたワッサーシュタイン距離と同様に、一般化されたワッサーシュタインはモンテカルロ法で近似できるランダム射影に対する期待として定義される。 しかし、この近似の複雑さは高次元の設定では高価である。 そこで我々は,定義関数が多項式関数,円関数,ニューラルネットワーク型関数である場合のランダム投影の濃度を用いて,一般化されたワッサーシュタイン距離の決定論的かつ高速な近似を生成することを提案する。 我々の近似は、高次元ランダムベクトルの1次元射影がおよそガウス的であるという重要な結果にかかっている。

Generalized sliced Wasserstein distance is a variant of sliced Wasserstein distance that exploits the power of non-linear projection through a given defining function to better capture the complex structures of the probability distributions. Similar to sliced Wasserstein distance, generalized sliced Wasserstein is defined as an expectation over random projections which can be approximated by the Monte Carlo method. However, the complexity of that approximation can be expensive in high-dimensional settings. To that end, we propose to form deterministic and fast approximations of the generalized sliced Wasserstein distance by using the concentration of random projections when the defining functions are polynomial function, circular function, and neural network type function. Our approximations hinge upon an important result that one-dimensional projections of a high-dimensional random vector are approximately Gaussian.
翻訳日:2022-10-20 13:16:20 公開日:2022-10-19
# 変動推論としてのシャープネス認識最小化の再考

Rethinking Sharpness-Aware Minimization as Variational Inference ( http://arxiv.org/abs/2210.10452v1 )

ライセンス: Link先を確認
Szilvia Ujv\'ary, Zsigmond Telek, Anna Kerekes, Anna M\'esz\'aros, Ferenc Husz\'ar(参考訳) シャープネスを意識した最小化(SAM)は、平坦なミニマを求めることによって勾配学習の一般化を改善することを目的としている。 本研究では,ニューラルネットワークパラメータのsamと平均場変動推論(mfvi)との接続を確立する。 両手法とも平坦性の概念を最適化する解釈を有しており,再パラメータ化手法を用いた場合,両手法とも沸騰して現在の平均パラメータの摂動バージョンでの勾配を計算する。 この考え方はSAMとMFVIを組み合わせたアルゴリズムの研究を動機付けている。 提案した変分アルゴリズムを複数のベンチマークデータセット上で評価し,その性能をSAMの変分と比較した。 より広い視点から、我々の研究はSAMライクな更新が再パラメータ化のトリックのドロップイン代替として使えることを示唆している。

Sharpness-aware minimization (SAM) aims to improve the generalisation of gradient-based learning by seeking out flat minima. In this work, we establish connections between SAM and Mean-Field Variational Inference (MFVI) of neural network parameters. We show that both these methods have interpretations as optimizing notions of flatness, and when using the reparametrisation trick, they both boil down to calculating the gradient at a perturbed version of the current mean parameter. This thinking motivates our study of algorithms that combine or interpolate between SAM and MFVI. We evaluate the proposed variational algorithms on several benchmark datasets, and compare their performance to variants of SAM. Taking a broader perspective, our work suggests that SAM-like updates can be used as a drop-in replacement for the reparametrisation trick.
翻訳日:2022-10-20 13:16:05 公開日:2022-10-19
# 仮想室内シーンにおける家具レイアウトの階層的強化学習

Hierarchical Reinforcement Learning for Furniture Layout in Virtual Indoor Scenes ( http://arxiv.org/abs/2210.10431v1 )

ライセンス: Link先を確認
Xinhan Di and Pengqian Yu(参考訳) 実生活では、家具のレイアウト設計による室内3dシーンの装飾は、人々にリッチな体験を提供する。 本稿では,階層的強化学習(HRL)によって解決された仮想現実のマルコフ決定過程(MDP)として家具レイアウトタスクについて検討する。 目標は、屋内シーンのバーチャルリアリティーにおける適切な2家具レイアウトを作ることだ。 特に、まずシミュレーション環境を設計し、2家具レイアウトのためのHRL定式化を導入する。 次に,MDPを解くために,カリキュラム学習を伴う階層的アクター批判アルゴリズムを適用した。 我々は、プロのデザイナーによる工業デザインを含む大規模な現実世界の内部レイアウトデータセットで実験を行った。 その結果,提案モデルでは,最先端モデルと比較して高品質なレイアウトが得られた。

In real life, the decoration of 3D indoor scenes through designing furniture layout provides a rich experience for people. In this paper, we explore the furniture layout task as a Markov decision process (MDP) in virtual reality, which is solved by hierarchical reinforcement learning (HRL). The goal is to produce a proper two-furniture layout in the virtual reality of the indoor scenes. In particular, we first design a simulation environment and introduce the HRL formulation for a two-furniture layout. We then apply a hierarchical actor-critic algorithm with curriculum learning to solve the MDP. We conduct our experiments on a large-scale real-world interior layout dataset that contains industrial designs from professional designers. Our numerical results demonstrate that the proposed model yields higher-quality layouts as compared with the state-of-art models.
翻訳日:2022-10-20 13:10:08 公開日:2022-10-19
# rlm-tracking: 相対的位置マッピングによるオンラインマルチペデストリアントラッキング

RLM-Tracking: Online Multi-Pedestrian Tracking Supported by Relative Location Mapping ( http://arxiv.org/abs/2210.10477v1 )

ライセンス: Link先を確認
Kai Ren, Chuanping Hu(参考訳) マルチオブジェクトトラッキングの問題は、公安、輸送、自動運転車、ロボティクス、人工知能を含む他の領域で広く利用されている、基本的なコンピュータビジョン研究の焦点である。 自然なシーンの複雑さのため、オブジェクトの閉塞と半閉鎖は通常、基本的なトラッキングタスクで発生する。 これにより、idの切り替え、オブジェクトの損失、エラーの検出、制限ボックスのミスアライメントが容易になる。 これらの条件は多物体追跡の精度に大きな影響を及ぼす。 本稿では,上記の問題に対して,オブジェクト \textbf{relative location mapping} (rlm) モデルと \textbf{target region density} (trd) モデルを含む,新たなマルチオブジェクトトラッカを設計する。 新しいトラッカーは、オブジェクト間の位置関係の違いに敏感である。 ビデオ内のオブジェクト領域の密度に応じて、低スコア検出フレームを異なる領域にリアルタイムに導入することができる。 これにより、広範な演算リソースを消費することなく、オブジェクト追跡の精度が向上する。 本研究は,MOT17およびMOT20データセットにおけるHOTAとDF1の測定値を大幅に向上したことを示す。

The problem of multi-object tracking is a fundamental computer vision research focus, widely used in public safety, transport, autonomous vehicles, robotics, and other regions involving artificial intelligence. Because of the complexity of natural scenes, object occlusion and semi-occlusion usually occur in fundamental tracking tasks. These can easily lead to ID switching, object loss, detect errors, and misaligned limitation boxes. These conditions have a significant impact on the precision of multi-object tracking. In this paper, we design a new multi-object tracker for the above issues that contains an object \textbf{Relative Location Mapping} (RLM) model and \textbf{Target Region Density} (TRD) model. The new tracker is more sensitive to the differences in position relationships between objects. It can introduce low-score detection frames into different regions in real-time according to the density of object regions in the video. This improves the accuracy of object tracking without consuming extensive arithmetic resources. Our study shows that the proposed model has considerably enhanced the HOTA and DF1 measurements on the MOT17 and MOT20 data sets when applied to the advanced MOT method.
翻訳日:2022-10-20 13:09:58 公開日:2022-10-19
# 自動運転車のロバスト歩行者検出手法

A Robust Pedestrian Detection Approach for Autonomous Vehicles ( http://arxiv.org/abs/2210.10489v1 )

ライセンス: Link先を確認
Bahareh Ghari, Ali Tourani, Asadollah Shahbahrami(参考訳) 近年,高度運転支援システム (ADAS) の利用は,道路交通問題に対する潜在的な解決策として大きな関心を吸収している。 このようなシステムにおける最近の技術進歩にもかかわらず、いまだに克服すべき疑問が数多く残っている。 例えば、adasは様々な運転シナリオにおける歩行者の正確なリアルタイム検出を必要とする。 上記の問題を解決するため,本稿は,caltech pedestrian datasetの現実世界における歩行者検出課題に対処するために,yolov5sフレームワークを微調整することを目的としている。 YOLOv5で認識可能なフォーマットに、カリフォルニア工科大学歩行者データセットのトレーニングとテストデータ、アノテーションを準備するためのツールボックスも導入する。 提案手法を応用した実験結果から, 歩行者検出作業における細調整モデルの平均精度(mAP)は, 最高速度70FPSで実行した場合の91%以上であることがわかった。 さらに,Caltechの歩行者データセットを用いた実験により,提案手法が歩行者検出の有効かつ正確な方法であり,既存の手法よりも優れていることを確認した。

Nowadays, utilizing Advanced Driver-Assistance Systems (ADAS) has absorbed a huge interest as a potential solution for reducing road traffic issues. Despite recent technological advances in such systems, there are still many inquiries that need to be overcome. For instance, ADAS requires accurate and real-time detection of pedestrians in various driving scenarios. To solve the mentioned problem, this paper aims to fine-tune the YOLOv5s framework for handling pedestrian detection challenges on the real-world instances of Caltech pedestrian dataset. We also introduce a developed toolbox for preparing training and test data and annotations of Caltech pedestrian dataset into the format recognizable by YOLOv5. Experimental results of utilizing our approach show that the mean Average Precision (mAP) of our fine-tuned model for pedestrian detection task is more than 91 percent when performing at the highest rate of 70 FPS. Moreover, the experiments on the Caltech pedestrian dataset samples have verified that our proposed approach is an effective and accurate method for pedestrian detection and can outperform other existing methodologies.
翻訳日:2022-10-20 13:09:41 公開日:2022-10-19
# オンラインLiDAR-Camera Extrinsic Parameters Self-checking

Online LiDAR-Camera Extrinsic Parameters Self-checking ( http://arxiv.org/abs/2210.10537v1 )

ライセンス: Link先を確認
Pengjin Wei, Guohang Yan, Yikang Li, Kun Fang, Jie Yang, Wei Liu(参考訳) ニューラルネットワークの発展と自動走行の普及により、ライダーとカメラのキャリブレーションがますます注目されるようになった。 このキャリブレーションタスクはマルチモーダルであり、カメラが捉えた豊かな色とテクスチャ情報とlidarからの正確な3次元空間情報とが下流タスクにとって極めて重要である。 現在の研究は情報融合による正確な校正結果の取得に重点を置いている。 しかし、校正結果が正しいかどうかを分析することはほとんどなく、現実のアプリケーションでは重要な意味を持つ可能性がある。 例えば、大規模生産では、各スマートカーのLiDARとカメラは、車両が生産ラインを離れるときに適切に校正されなければならないが、残りの期間は、LiDARとカメラのポーズも、安全を確保するために継続的に監視されなければならない。 そこで本稿では,カメラとLiDARの融合情報に基づく二元分類ネットワークを導入することにより,外部パラメータが適切に校正されているかどうかを自己チェックするアルゴリズムを提案する。 さらに,この作業にはこのようなデータセットが存在しないため,タスク用に調整されたkittiデータセットから新たなデータセットブランチを新たに生成する。 提案するデータセットの分岐実験により,本手法の性能を実証した。 我々の知る限りでは、これは自律運転のための校正外在的パラメータを継続的にチェックすることの重要性に対処する最初の研究である。 コードはGithubのWebサイトでhttps://github.com/OpenCalib/LiDAR2camera_self-checkで公開されている。

With the development of neural networks and the increasing popularity of automatic driving, the calibration of the LiDAR and the camera has attracted more and more attention. This calibration task is multi-modal, where the rich color and texture information captured by the camera and the accurate three-dimensional spatial information from the LiDAR is incredibly significant for downstream tasks. Current research interests mainly focus on obtaining accurate calibration results through information fusion. However, they seldom analyze whether the calibrated results are correct or not, which could be of significant importance in real-world applications. For example, in large-scale production, the LiDARs and the cameras of each smart car have to get well-calibrated as the car leaves the production line, while in the rest of the car life period, the poses of the LiDARs and cameras should also get continually supervised to ensure the security. To this end, this paper proposes a self-checking algorithm to judge whether the extrinsic parameters are well-calibrated by introducing a binary classification network based on the fused information from the camera and the LiDAR. Moreover, since there is no such dataset for the task in this work, we further generate a new dataset branch from the KITTI dataset tailored for the task. Our experiments on the proposed dataset branch demonstrate the performance of our method. To the best of our knowledge, this is the first work to address the significance of continually checking the calibrated extrinsic parameters for autonomous driving. The code is open-sourced on the Github website at https://github.com/OpenCalib/LiDAR2camera_self-check.
翻訳日:2022-10-20 13:09:24 公開日:2022-10-19
# GraphCSPN: 動的GCNによる幾何認識深度補完

GraphCSPN: Geometry-Aware Depth Completion via Dynamic GCNs ( http://arxiv.org/abs/2210.10758v1 )

ライセンス: Link先を確認
Xin Liu, Xiaofei Shao, Bo Wang, Yali Li, Shengjin Wang(参考訳) image guided depth completionは、ロボティクスから自動運転まで幅広い応用範囲のカラー画像のアライメントによって、ピクセル当たりの濃密な深度マップをスパース深度測定から回収することを目的としている。 しかし、スパース・トゥ・ディエンス・デプス・コンプリープの3次元特性は従来の手法では十分に解明されていない。 本研究では,グラフ畳み込みに基づく空間伝搬ネットワーク(GraphCSPN)を提案する。 まず,従来の手法とは異なり,畳み込みニューラルネットワークとグラフニューラルネットワークを,幾何学的表現学習のための補完的手法として活用する。 さらに,提案するネットワークは,学習可能な幾何学的制約を明示的に組み込んで,二次元平面ではなく三次元空間における伝播過程を定式化する。 さらに,特徴パッチのシーケンスを利用してグラフを構築し,伝播中にエッジアテンションモジュールで動的に更新することにより,周辺特徴と遠距離におけるグローバル関係の双方をよりよく把握する。 室内のNYU-Depth-v2データセットと屋外のKITTIデータセットの両方に対する大規模な実験により,本手法が最先端の性能を達成することを示す。 コードとモデルはプロジェクトのページで入手できる。

Image guided depth completion aims to recover per-pixel dense depth maps from sparse depth measurements with the help of aligned color images, which has a wide range of applications from robotics to autonomous driving. However, the 3D nature of sparse-to-dense depth completion has not been fully explored by previous methods. In this work, we propose a Graph Convolution based Spatial Propagation Network (GraphCSPN) as a general approach for depth completion. First, unlike previous methods, we leverage convolution neural networks as well as graph neural networks in a complementary way for geometric representation learning. In addition, the proposed networks explicitly incorporate learnable geometric constraints to regularize the propagation process performed in three-dimensional space rather than in two-dimensional plane. Furthermore, we construct the graph utilizing sequences of feature patches, and update it dynamically with an edge attention module during propagation, so as to better capture both the local neighboring features and global relationships over long distance. Extensive experiments on both indoor NYU-Depth-v2 and outdoor KITTI datasets demonstrate that our method achieves the state-of-the-art performance, especially when compared in the case of using only a few propagation steps. Code and models are available at the project page.
翻訳日:2022-10-20 13:08:58 公開日:2022-10-19
# toist: 名詞-名詞蒸留を伴うタスク指向インスタンスセグメンテーショントランスフォーマ

TOIST: Task Oriented Instance Segmentation Transformer with Noun-Pronoun Distillation ( http://arxiv.org/abs/2210.10775v1 )

ライセンス: Link先を確認
Pengfei Li, Beiwen Tian, Yongliang Shi, Xiaoxue Chen, Hao Zhao, Guyue Zhou, Ya-Qin Zhang(参考訳) 現在の参照表現理解アルゴリズムは、名詞で示されるオブジェクトを効果的に検出または分割することができるが、動詞の参照を理解する方法はまだ未検討である。 そこで本稿では, タスク指向検出の課題について検討し, 安楽に座るような動詞によって示される行動に最も適する対象を見つけることを目的とする。 ロボットインタラクションのような下流のアプリケーションにより良いローカライゼーションを提供するために、タスク指向のインスタンスセグメンテーションに問題を拡張します。 このタスクのユニークな要件は、選択肢の中から望ましい候補を選択することである。 そこで我々は,ペアワイズクエリ関係と注意関係を自然にモデル化するトランスフォーマーアーキテクチャを採用し,TOIST法に導いた。 事前学習した名詞参照表現の理解モデルと,訓練中に特権付き名詞接地真実にアクセスできるという事実を活用するために,新しい名詞-名詞蒸留フレームワークを提案する。 名詞のプロトタイプは教師なしの方法で生成され、文脈代名詞機能はプロトタイプを選択するために訓練される。 そのため、ネットワークは推論中も名詞を知らないままである。 我々は、大規模タスク指向データセットCOCO-Tasks上でTOISTを評価し、最も報告された結果よりも、+10.9%高い$\rm{mAP^{box}}を達成した。 提案された名詞-代名詞蒸留は$\rm{mAP^{box}}$と$\rm{mAP^{mask}}$を+2.8%、+3.8%押し上げることができる。 コードとモデルはhttps://github.com/AIR-DISCOVER/TOISTで公開されている。

Current referring expression comprehension algorithms can effectively detect or segment objects indicated by nouns, but how to understand verb reference is still under-explored. As such, we study the challenging problem of task oriented detection, which aims to find objects that best afford an action indicated by verbs like sit comfortably on. Towards a finer localization that better serves downstream applications like robot interaction, we extend the problem into task oriented instance segmentation. A unique requirement of this task is to select preferred candidates among possible alternatives. Thus we resort to the transformer architecture which naturally models pair-wise query relationships with attention, leading to the TOIST method. In order to leverage pre-trained noun referring expression comprehension models and the fact that we can access privileged noun ground truth during training, a novel noun-pronoun distillation framework is proposed. Noun prototypes are generated in an unsupervised manner and contextual pronoun features are trained to select prototypes. As such, the network remains noun-agnostic during inference. We evaluate TOIST on the large-scale task oriented dataset COCO-Tasks and achieve +10.9% higher $\rm{mAP^{box}}$ than the best-reported results. The proposed noun-pronoun distillation can boost $\rm{mAP^{box}}$ and $\rm{mAP^{mask}}$ by +2.8% and +3.8%. Codes and models are publicly available at https://github.com/AIR-DISCOVER/TOIST.
翻訳日:2022-10-20 13:08:38 公開日:2022-10-19
# p$^3$vae:物理積分生成モデル。 光リモートセンシング画像のセマンティックセグメンテーションへの応用

p$^3$VAE: a physics-integrated generative model. Application to the semantic segmentation of optical remote sensing images ( http://arxiv.org/abs/2210.10418v1 )

ライセンス: Link先を確認
Romain Thoreau, Laurent Risser, V\'eronique Achard, B\'eatrice Berthelot and Xavier Briottet(参考訳) 機械学習モデルと物理モデルの組み合わせは、堅牢なデータ表現を学ぶための最近の研究パスである。 本稿では,データの変動の真の要因を部分的に説明できる完全物理モデルを統合する生成モデルであるp$^3$vaeを提案する。 このハイブリッド設計を十分に活用するために,半教師付き最適化手順と有意義な不確実性推定を伴う推論スキームを提案する。 高分解能ハイパースペクトルリモートセンシング画像の意味セグメンテーションにp$^3$vaeを適用する。 シミュレーションデータセットを用いた実験により,従来の機械学習モデルに対するハイブリッドモデルの利点を,外挿能力と解釈可能性の観点から実証した。 特に、p$^3$vae は自然に高い等角性を持つことを示す。 私たちのコードとデータはhttps://github.com/Romain3Ch216/p3VAEで公開されています。

The combination of machine learning models with physical models is a recent research path to learn robust data representations. In this paper, we introduce p$^3$VAE, a generative model that integrates a perfect physical model which partially explains the true underlying factors of variation in the data. To fully leverage our hybrid design, we propose a semi-supervised optimization procedure and an inference scheme that comes along meaningful uncertainty estimates. We apply p$^3$VAE to the semantic segmentation of high-resolution hyperspectral remote sensing images. Our experiments on a simulated data set demonstrated the benefits of our hybrid model against conventional machine learning models in terms of extrapolation capabilities and interpretability. In particular, we show that p$^3$VAE naturally has high disentanglement capabilities. Our code and data have been made publicly available at https://github.com/Romain3Ch216/p3VAE.
翻訳日:2022-10-20 13:08:13 公開日:2022-10-19
# Revision Transformers: No-No の RiT 化

Revision Transformers: Getting RiT of No-Nos ( http://arxiv.org/abs/2210.10332v1 )

ライセンス: Link先を確認
Felix Friedrich, Wolfgang Stammer, Patrick Schramowski, Kristian Kersting(参考訳) 現在のトランスフォーマー言語モデル(LM)は数十億のパラメータを持つ大規模モデルである。 これらは様々なタスクで高いパフォーマンスを提供するが、近道学習やバイアスの傾向も示されている。 このようなパラメータ調整による誤ったモデル動作への対処は非常にコストがかかる。 これは、文化的または対人的に異なる道徳的価値観のような動的な概念を更新する際に特に問題となる。 本研究では,全ての情報をモデルパラメータに格納する現在の一般的な手法に疑問を呈し,情報検索を利用したリビジョントランスフォーマー(RiT)を提案する。 明確に構造化されたリビジョンエンジンで世界知識を拡散的に符号化する大規模な事前学習型LMの特定の組み合わせにより、モデルの知識をほとんど努力せずに更新し、ユーザーインタラクションの助けを借りることができる。 本稿では、モラルデータセット上のritを例示し、小さなデータでもモデルリビジョンの強いパフォーマンスを示すユーザーフィードバックをシミュレートする。 これにより、ユーザーは好みに関するモデルを簡単に設計でき、より透明でパーソナライズされたAIモデルへの道を開くことができる。

Current transformer language models (LM) are large-scale models with billions of parameters. They have been shown to provide high performances on a variety of tasks but are also prone to shortcut learning and bias. Addressing such incorrect model behavior via parameter adjustments is very costly. This is particularly problematic for updating dynamic concepts, such as moral values, which vary culturally or interpersonally. In this work, we question the current common practice of storing all information in the model parameters and propose the Revision Transformer (RiT) employing information retrieval to facilitate easy model updating. The specific combination of a large-scale pre-trained LM that inherently but also diffusely encodes world knowledge with a clear-structured revision engine makes it possible to update the model's knowledge with little effort and the help of user interaction. We exemplify RiT on a moral dataset and simulate user feedback demonstrating strong performance in model revision even with small data. This way, users can easily design a model regarding their preferences, paving the way for more transparent and personalized AI models.
翻訳日:2022-10-20 13:08:02 公開日:2022-10-19
# CLUTR:教師なしタスク表現学習によるカリキュラム学習

CLUTR: Curriculum Learning via Unsupervised Task Representation Learning ( http://arxiv.org/abs/2210.10243v1 )

ライセンス: Link先を確認
Abdus Salam Azad, Izzeddin Gur, Aleksandra Faust, Pieter Abbeel, and Ion Stoica(参考訳) 強化学習(rl)アルゴリズムは、しばしばサンプル非効率と難しい一般化で知られている。 近年,教師なし環境設計(UED)は,タスク分布とエージェントポリシーを同時に学習することで,ゼロショット一般化のための新たなパラダイムとして登場した。 これは、エージェントポリシーとともにタスク分散が進化し、時間の経過とともに不安定になる非定常プロセスである。 過去の研究はそのようなアプローチの可能性を示したが、タスク空間から効果的にサンプリングすることは未解決の課題であり、これらのアプローチのボトルネックとなっている。 そこで本研究では,タスク表現とカリキュラム学習を2段階最適化に分離する新しいカリキュラム学習アルゴリズムであるCLUTRを紹介する。 まず、ランダムに生成されたタスクのリカレント変分オートエンコーダを訓練し、潜在タスク多様体を学ぶ。 次に、教師エージェントは、この多様体からサンプリングされた潜在タスクのセットに基づいて、ミニマックスREGRETに基づく目的を最大化することによりカリキュラムを作成する。 タスク多様体の固定を保ちながら、CLUTRは非定常問題を克服し、安定性を向上させる。 実験の結果、CLUTRは、F1 CarRacingベンチマークの18倍の改善を示すCarRacingおよびナビゲーション環境における一般化とサンプル効率の観点から、原則的かつ一般的なUED手法であるPAIREDよりも優れていた。 CLUTRは、CarRacingの非UEDの最先端と互換性があり、20トラック中9トラックで性能を上回っている。 clutrはまた、18の分散ナビゲーションタスクのペアよりも33%高い解決率を達成している。

Reinforcement Learning (RL) algorithms are often known for sample inefficiency and difficult generalization. Recently, Unsupervised Environment Design (UED) emerged as a new paradigm for zero-shot generalization by simultaneously learning a task distribution and agent policies on the sampled tasks. This is a non-stationary process where the task distribution evolves along with agent policies, creating an instability over time. While past works demonstrated the potential of such approaches, sampling effectively from the task space remains an open challenge, bottlenecking these approaches. To this end, we introduce CLUTR: a novel curriculum learning algorithm that decouples task representation and curriculum learning into a two-stage optimization. It first trains a recurrent variational autoencoder on randomly generated tasks to learn a latent task manifold. Next, a teacher agent creates a curriculum by maximizing a minimax REGRET-based objective on a set of latent tasks sampled from this manifold. By keeping the task manifold fixed, we show that CLUTR successfully overcomes the non-stationarity problem and improves stability. Our experimental results show CLUTR outperforms PAIRED, a principled and popular UED method, in terms of generalization and sample efficiency in the challenging CarRacing and navigation environments: showing an 18x improvement on the F1 CarRacing benchmark. CLUTR also performs comparably to the non-UED state-of-the-art for CarRacing, outperforming it in nine of the 20 tracks. CLUTR also achieves a 33% higher solved rate than PAIRED on a set of 18 out-of-distribution navigation tasks.
翻訳日:2022-10-20 13:07:20 公開日:2022-10-19
# tabllm: 大きな言語モデルによる表データの少数ショット分類

TabLLM: Few-shot Classification of Tabular Data with Large Language Models ( http://arxiv.org/abs/2210.10723v1 )

ライセンス: Link先を確認
Stefan Hegselmann, Alejandro Buendia, Hunter Lang, Monica Agrawal, Xiaoyi Jiang, David Sontag(参考訳) 大規模言語モデルのゼロショットおよび少数ショット分類への応用について検討する。 本稿では,表データ列を自然言語文字列にシリアライズした大規模言語モデルと,分類問題の簡潔な記述を推奨する。 いくつかのラベル付き例を使って、大きな言語モデルを微調整する。 テンプレートや表-テキストモデル,大規模言語モデルなど,いくつかのシリアライズ手法を評価する。 その単純さにもかかわらず、この手法はいくつかのベンチマークデータセットで以前のディープラーニングベースの表型分類手法よりも優れていることが判明した。 多くの場合、ゼロショット分類でさえ、大きな言語モデルで符号化された事前知識を利用する方法の能力を示す非自明な性能を得る。 テーブル型データセットのための多くのディープラーニング手法とは異なり、このアプローチは勾配ブーストツリーのような強力なベースライン、特にfew-shot設定と競合する。

We study the application of large language models to zero-shot and few-shot classification of tabular data. We prompt the large language model with a serialization of the tabular data to a natural-language string, together with a short description of the classification problem. In the few-shot setting, we fine-tune the large language model using some labeled examples. We evaluate several serialization methods including templates, table-to-text models, and large language models. Despite its simplicity, we find that this technique outperforms prior deep-learning-based tabular classification methods on several benchmark datasets. In most cases, even zero-shot classification obtains non-trivial performance, illustrating the method's ability to exploit prior knowledge encoded in large language models. Unlike many deep learning methods for tabular datasets, this approach is also competitive with strong traditional baselines like gradient-boosted trees, especially in the very-few-shot setting.
翻訳日:2022-10-20 13:01:21 公開日:2022-10-19
# 視覚計画とトークンアライメントによるキャラクター中心ストーリーの可視化

Character-Centric Story Visualization via Visual Planning and Token Alignment ( http://arxiv.org/abs/2210.08465v2 )

ライセンス: Link先を確認
Hong Chen, Rujun Han, Te-Lin Wu, Hideki Nakayama and Nanyun Peng(参考訳) ストーリービジュアライゼーションは、完全なストーリーに基づいた複数の画像生成を可能にすることで、従来のテキスト・画像生成を前進させる。 このタスクには機械が必要です 1)長文入力を理解して 2) ストーリーの内容を説明するグローバルに一貫性のあるイメージシークエンスを作成する。 一貫したストーリー視覚化の重要な課題は、ストーリーに不可欠なキャラクターを保存することです。 そこで本稿では,Vector-Quantized Variational Autoencoders (VQ-VAE) をテキスト・tovisual-token (transformer) アーキテクチャで拡張する手法を提案する。 具体的には、2段階のフレームワークでtext-to-visual-tokenモジュールを変更します。 1) 文字のみの視覚的トークンを予測する文字トークン計画モデル 2)残余の視覚トークンシーケンスを生成する視覚トークン補完モデルをVQ-VAEに送信し,画像生成を確定する。 キャラクタが画像に現れるように促すため,キャラクタトケアライメント目標を用いて,さらに2段階の枠組みを訓練する。 広範な実験と評価により,提案手法は文字の保存に優れ,強いベースラインに比べて高品質な画像シーケンスを生成できることが証明された。 コードはhttps://github.com/sairin1202/VP-CSVにある。

Story visualization advances the traditional text-to-image generation by enabling multiple image generation based on a complete story. This task requires machines to 1) understand long text inputs and 2) produce a globally consistent image sequence that illustrates the contents of the story. A key challenge of consistent story visualization is to preserve characters that are essential in stories. To tackle the challenge, we propose to adapt a recent work that augments Vector-Quantized Variational Autoencoders (VQ-VAE) with a text-tovisual-token (transformer) architecture. Specifically, we modify the text-to-visual-token module with a two-stage framework: 1) character token planning model that predicts the visual tokens for characters only; 2) visual token completion model that generates the remaining visual token sequence, which is sent to VQ-VAE for finalizing image generations. To encourage characters to appear in the images, we further train the two-stage framework with a character-token alignment objective. Extensive experiments and evaluations demonstrate that the proposed method excels at preserving characters and can produce higher quality image sequences compared with the strong baselines. Codes can be found in https://github.com/sairin1202/VP-CSV
翻訳日:2022-10-20 13:01:06 公開日:2022-10-19
# リニアトランスにおけるデビル

The Devil in Linear Transformer ( http://arxiv.org/abs/2210.10340v1 )

ライセンス: Link先を確認
Zhen Qin, XiaoDong Han, Weixuan Sun, Dongxu Li, Lingpeng Kong, Nick Barnes and Yiran Zhong(参考訳) 線形変圧器はバニラ変圧器の二次時空複雑性を減らすことを目的としている。 しかし、それらは通常、様々なタスクやコーパスで劣化したパフォーマンスに苦しむ。 本稿では,既存のカーネルベースの線形変換器について検討し,その性能差につながる2つの問題を明らかにする。 1) 注意計算における非有界勾配は、線形変圧器モデルの収束に悪影響を及ぼす。 2) 隣り合う構造物を無視しながら, 注意点を連続して自明に分配する注意希釈。 これらの問題に対処するために、まず注意行列のスケーリングが非有界勾配のデビルであることを同定し、理論的および経験的に示すように線形注意では不要となる。 そこで本研究では,スケーリング操作を正規化に置き換え,勾配を安定化する新しい線形注意法を提案する。 注意希釈問題では,初期層に隣接するトークンのみに留意するために対角的注意力を利用する。 線形変圧器モデルであるtransNormerは,安定な勾配と注目度に適合し,テキスト分類や言語モデリングタスクや,バニラ変圧器や既存の線形変圧器をはるかに上回りながら,空間時間効率が向上するLong-Range Arenaベンチマークにおいて,優れた性能を示す。 コードはhttps://github.com/OpenNLPLab/Transnormerで公開されている。

Linear transformers aim to reduce the quadratic space-time complexity of vanilla transformers. However, they usually suffer from degraded performances on various tasks and corpus. In this paper, we examine existing kernel-based linear transformers and identify two key issues that lead to such performance gaps: 1) unbounded gradients in the attention computation adversely impact the convergence of linear transformer models; 2) attention dilution which trivially distributes attention scores over long sequences while neglecting neighbouring structures. To address these issues, we first identify that the scaling of attention matrices is the devil in unbounded gradients, which turns out unnecessary in linear attention as we show theoretically and empirically. To this end, we propose a new linear attention that replaces the scaling operation with a normalization to stabilize gradients. For the issue of attention dilution, we leverage a diagonal attention to confine attention to only neighbouring tokens in early layers. Benefiting from the stable gradients and improved attention, our new linear transformer model, transNormer, demonstrates superior performance on text classification and language modeling tasks, as well as on the challenging Long-Range Arena benchmark, surpassing vanilla transformer and existing linear variants by a clear margin while being significantly more space-time efficient. The code is available at https://github.com/OpenNLPLab/Transnormer .
翻訳日:2022-10-20 12:59:43 公開日:2022-10-19
# ニューラルテキスト著者の帰属と難読化--データマイニングの視点から

Attribution and Obfuscation of Neural Text Authorship: A Data Mining Perspective ( http://arxiv.org/abs/2210.10488v1 )

ライセンス: Link先を確認
Adaku Uchendu and Thai Le and Dongwon Lee(参考訳) プライバシ研究における関心の高まりと重要性に関する2つのインターロック研究は、authorship attribution(aa)とauthorship obfuscation(ao)である。 問題のあるアーティファクト、特にテキストtが与えられた場合、AAソリューションは、多くの候補著者の中から、tを真の著者に正確に属性することを目的としており、AOソリューションは、tを変更して真の著者性を隠そうとしている。 伝統的に、著者の概念とそれに伴うプライバシーに関する懸念は、人間の著作者のみに限られる。 しかし、近年のNLPにおけるNTG(Neural Text Generation)技術の爆発的な進歩により、人間の質の高いオープンエンドテキスト(いわゆる「ニューラルテキスト」)を合成できるようになり、人間、機械、またはそれらの組み合わせによる著作を考慮せざるを得なくなった。 悪意ある使用時のニューラルテキストの意味と潜在的な脅威のため、従来のAA/AOソリューションの限界を理解し、ニューラルテキストを扱う新しいAA/AOソリューションを開発することが重要になっている。 そこで本研究では,データマイニングの観点から,ニューラルネットワーク著者の帰属と難読化に関する最近の文献を総合的にレビューし,その限界と有望な研究方向性について考察する。

Two interlocking research questions of growing interest and importance in privacy research are Authorship Attribution (AA) and Authorship Obfuscation (AO). Given an artifact, especially a text t in question, an AA solution aims to accurately attribute t to its true author out of many candidate authors while an AO solution aims to modify t to hide its true authorship. Traditionally, the notion of authorship and its accompanying privacy concern is only toward human authors. However, in recent years, due to the explosive advancements in Neural Text Generation (NTG) techniques in NLP, capable of synthesizing human-quality open-ended texts (so-called "neural texts"), one has to now consider authorships by humans, machines, or their combination. Due to the implications and potential threats of neural texts when used maliciously, it has become critical to understand the limitations of traditional AA/AO solutions and develop novel AA/AO solutions in dealing with neural texts. In this survey, therefore, we make a comprehensive review of recent literature on the attribution and obfuscation of neural text authorship from a Data Mining perspective, and share our view on their limitations and promising research directions.
翻訳日:2022-10-20 12:59:20 公開日:2022-10-19
# DALLE-2は二重に見える:Text2画像モデルにおける単語対概念マッピングにおける欠陥

DALLE-2 is Seeing Double: Flaws in Word-to-Concept Mapping in Text2Image Models ( http://arxiv.org/abs/2210.10606v1 )

ライセンス: Link先を確認
Royi Rassin, Shauli Ravfogel, Yoav Goldberg(参考訳) 本研究では,DALLE-2が参照(生成画像中のエンティティのエンティティやプロパティ)のプロンプトのシンボル(単語)をマッピングする方法を検討する。 人間のプロセス言語とは対照的に、DALLE-2は各単語が解釈においてひとつの役割を持つという制約に従わず、時には異なる目的のために同じ記号を再利用する。 我々はこの現象を反映する一連の刺激を収集する:dalle-2が複数の感覚を持つ名詞の両感覚を一度に描写することを示し、ある単語が画像内の2つの異なる実体の特性を変更できること、または1つのオブジェクトとして表現でき、また別のオブジェクトの特性も変更できることを示し、エンティティ間の特性のセマンティックな漏洩を生じさせる。 本研究は、DALLE-2と人間の言語処理の違いを強調し、テキスト・画像モデルの帰納的バイアスに関する今後の研究の道を開く。

We study the way DALLE-2 maps symbols (words) in the prompt to their references (entities or properties of entities in the generated image). We show that in stark contrast to the way human process language, DALLE-2 does not follow the constraint that each word has a single role in the interpretation, and sometimes re-use the same symbol for different purposes. We collect a set of stimuli that reflect the phenomenon: we show that DALLE-2 depicts both senses of nouns with multiple senses at once; and that a given word can modify the properties of two distinct entities in the image, or can be depicted as one object and also modify the properties of another object, creating a semantic leakage of properties between entities. Taken together, our study highlights the differences between DALLE-2 and human language processing and opens an avenue for future study on the inductive biases of text-to-image models.
翻訳日:2022-10-20 12:58:56 公開日:2022-10-19
# Attribute-Discriminative Latent Space を用いた言語解毒

Language Detoxification with Attribute-Discriminative Latent Space ( http://arxiv.org/abs/2210.10329v1 )

ライセンス: Link先を確認
Jin Myung Kwak, Minseon Kim and Sung Ju Hwang(参考訳) トランスフォーマーベースの言語モデル(LM)は、様々なNLUタスクにおいて顕著なパフォーマンスを達成するが、現実のアプリケーションへの適応を制限する侮辱、脅迫、誇示といった有害なテキストを生成する傾向がある。 この問題を克服するために、いくつかのテキスト生成アプローチは、追加のlmsまたは摂動で有害なテキストを無害化することを目的としている。 しかし、従来の手法では、現実のアプリケーションでは重大なボトルネックとなる過剰なメモリ、計算、時間を必要とする。 このような制限に対処するために,属性弁別的潜在空間を用いた効率的かつ効率的な言語デトキシフィケーション手法を提案する。 具体的には、元のトランスフォーマーLMの潜在空間を、テキストがそれらの属性によって適切に区切られた識別潜在空間に投影し、プロジェクションブロックと判別器の助けを借りる。 これにより、LMは最小限のメモリと計算オーバーヘッドでテキスト生成を制御することができる。 提案手法は,非対応言語と対話生成タスクにおける属性識別言語モデル (adlm) の有効性を検証し,性能と効率においてベースラインを有意に上回っている。

Transformer-based Language Models (LMs) achieve remarkable performances on a variety of NLU tasks, but are also prone to generating toxic texts such as insults, threats, and profanities which limit their adaptations to the real-world applications. To overcome this issue, a few text generation approaches aim to detoxify toxic texts with additional LMs or perturbations. However, previous methods require excessive memory, computations, and time which are serious bottlenecks in their real-world application. To address such limitations, we propose an effective yet efficient method for language detoxification using an attribute-discriminative latent space. Specifically, we project the latent space of an original Transformer LM to a discriminative latent space on which the texts are well-separated by their attributes, with the help of a projection block and a discriminator. This allows the LM to control the text generation to be non-toxic with minimal memory and computation overhead. We validate our model, Attribute-Discriminative Language Model (ADLM) on detoxified language and dialogue generation tasks, on which our method significantly outperforms baselines both in performance and efficiency.
翻訳日:2022-10-20 12:52:11 公開日:2022-10-19
# BioGPT: バイオメディカルテキスト生成とマイニングのための生成事前学習型トランス

BioGPT: Generative Pre-trained Transformer for Biomedical Text Generation and Mining ( http://arxiv.org/abs/2210.10341v1 )

ライセンス: Link先を確認
Renqian Luo, Liai Sun, Yingce Xia, Tao Qin, Sheng Zhang, Hoifung Poon, Tie-Yan Liu(参考訳) 事前学習された言語モデルは、一般的な自然言語領域での成功に触発されて、生物医学領域で注目を集めている。 一般言語領域における事前訓練された言語モデルの2つの主要分野、すなわちBERT(とその変種)とGPT(およびその変種)のうち、最初のものはBioBERTやPubMedBERTといった生物医学領域で広く研究されている。 彼らは様々な差別的な下流のバイオメディカルなタスクで大きな成功を収めてきたが、生成能力の欠如はアプリケーションの範囲を制限している。 本稿では,大規模生物医学文献に基づくドメイン固有生成型トランスフォーマー言語モデルであるBioGPTを提案する。 バイオGPTを6つのNLPタスクで評価し、我々のモデルが多くのタスクで過去のモデルより優れていることを示す。 特に、BC5CDRで44.98%、38.42%、40.76%のF1スコア、KD-DTIとDDIのエンドツーエンド関係抽出タスクで78.2%、PubMedQAで78.2%の精度で新しい記録を作成した。 テキスト生成のケーススタディは、バイオメディカル文献におけるバイオGPTの利点をさらに示し、バイオメディカル用語の流動的な記述を生成する。 コードはhttps://github.com/microsoft/BioGPTで入手できる。

Pre-trained language models have attracted increasing attention in the biomedical domain, inspired by their great success in the general natural language domain. Among the two main branches of pre-trained language models in the general language domain, i.e., BERT (and its variants) and GPT (and its variants), the first one has been extensively studied in the biomedical domain, such as BioBERT and PubMedBERT. While they have achieved great success on a variety of discriminative downstream biomedical tasks, the lack of generation ability constrains their application scope. In this paper, we propose BioGPT, a domain-specific generative Transformer language model pre-trained on large scale biomedical literature. We evaluate BioGPT on six biomedical NLP tasks and demonstrate that our model outperforms previous models on most tasks. Especially, we get 44.98%, 38.42% and 40.76% F1 score on BC5CDR, KD-DTI and DDI end-to-end relation extraction tasks respectively, and 78.2% accuracy on PubMedQA, creating a new record. Our case study on text generation further demonstrates the advantage of BioGPT on biomedical literature to generate fluent descriptions for biomedical terms. Code is available at https://github.com/microsoft/BioGPT.
翻訳日:2022-10-20 12:51:50 公開日:2022-10-19
# EnTDA: 名前付きエンティティ認識タスクのためのEntity-to-Textベースのデータ拡張アプローチ

EnTDA: Entity-to-Text based Data Augmentation Approach for Named Entity Recognition Tasks ( http://arxiv.org/abs/2210.10343v1 )

ライセンス: Link先を確認
Xuming Hu, Yong Jiang, Aiwei Liu, Zhongqiang Huang, Pengjun Xie, Fei Huang, Lijie Wen, Philip S. Yu(参考訳) データ拡張技術は、名前付きエンティティ認識(NER)タスクにおけるモデルの一般化能力を改善するために使われてきた。 既存の拡張手法は、手作りのドメイン内知識を必要とする原文で単語を操作するか、エンティティ間の依存関係の順序を求める生成モデルを活用する。 既存の拡張パラダイムにおけるエンティティ間の依存関係順序への過度な依存を軽減するため、エンティティ間の依存関係を分離するために、エンティティの追加、削除、置換、交換を行い、それらの拡張データを用いて、NERモデルの一般化能力をブートストラップする。 さらに,拡張データの多様性を高めるために,ダイバーシティビーム探索を導入する。 13のNERデータセット(フラットなNER、ネストされたNER、不連続なNER)と2つの設定(フルデータNERと低リソースのNER)による実験は、EnTDAがベースラインを一貫して上回ることを示した。

Data augmentation techniques have been used to improve the generalization capability of models in the named entity recognition (NER) tasks. Existing augmentation methods either manipulate the words in the original text that require hand-crafted in-domain knowledge, or leverage generative models which solicit dependency order among entities. To alleviate the excessive reliance on the dependency order among entities in existing augmentation paradigms, we develop an entity-to-text instead of text-to-entity based data augmentation method named: EnTDA to decouple the dependencies between entities by adding, deleting, replacing and swapping entities, and adopt these augmented data to bootstrap the generalization ability of the NER model. Furthermore, we introduce a diversity beam search to increase the diversity of the augmented data. Experiments on thirteen NER datasets across three tasks (flat NER, nested NER, and discontinuous NER) and two settings (full data NER and low resource NER) show that EnTDA could consistently outperform the baselines.
翻訳日:2022-10-20 12:51:23 公開日:2022-10-19
# 集団は個人より優れている:複数意図検出とスロット充填のためのラベルトポロジーとラベル関係の活用

Group is better than individual: Exploiting Label Topologies and Label Relations for Joint Multiple Intent Detection and Slot Filling ( http://arxiv.org/abs/2210.10369v1 )

ライセンス: Link先を確認
Bowen Xing and Ivor W. Tsang(参考訳) 最近のジョイント多重インテント検出とスロット充填モデルは、意味論とラベルの相互作用を達成するためにラベル埋め込みを用いる。 しかし、それらはすべてのラベルとラベル埋め込みを無相関な個人として扱い、それらの間の依存関係を無視している。 さらに、両者の相関を生かさずに、2つのタスクを独立してデコードする。 そこで本稿では,(1)ラベルの共起パターンとスロットラベルの階層に基づく統計的依存関係,(2)ラベルノード間のリッチな関係,という2種類のトポロジを含む不均質ラベルグラフ(hlg)を構築した。 次に、ReLa-Netと呼ばれる新しいモデルを提案する。 HLGからラベル間の有益な相関を捉えることができる。 ラベル相関を利用して意味-ラベル相互作用を強化する。 また,ラベルに依存しないデコード機構を提案し,デコードのためのラベル相関をさらに活用する。 実験の結果、ReLa-Netは従来のモデルよりも大幅に優れていた。 驚くべきことに、rela-netはmixatisデータセットの全体的な正確性の観点から、以前のベストモデルを20%以上上回っている。

Recent joint multiple intent detection and slot filling models employ label embeddings to achieve the semantics-label interactions. However, they treat all labels and label embeddings as uncorrelated individuals, ignoring the dependencies among them. Besides, they conduct the decoding for the two tasks independently, without leveraging the correlations between them. Therefore, in this paper, we first construct a Heterogeneous Label Graph (HLG) containing two kinds of topologies: (1) statistical dependencies based on labels' co-occurrence patterns and hierarchies in slot labels; (2) rich relations among the label nodes. Then we propose a novel model termed ReLa-Net. It can capture beneficial correlations among the labels from HLG. The label correlations are leveraged to enhance semantic-label interactions. Moreover, we also propose the label-aware inter-dependent decoding mechanism to further exploit the label correlations for decoding. Experiment results show that our ReLa-Net significantly outperforms previous models. Remarkably, ReLa-Net surpasses the previous best model by over 20\% in terms of overall accuracy on MixATIS dataset.
翻訳日:2022-10-20 12:51:03 公開日:2022-10-19
# 共誘導ネット:異種セマンティクス・ラベルグラフによる複数意図検出とスロット充填の相互誘導の実現

Co-guiding Net: Achieving Mutual Guidances between Multiple Intent Detection and Slot Filling via Heterogeneous Semantics-Label Graphs ( http://arxiv.org/abs/2210.10375v1 )

ライセンス: Link先を確認
Bowen Xing and Ivor W. Tsang(参考訳) 近年,マルチインテント検出とスロット充填を併用したグラフモデルが,インテント予測からスロット充填の復号へのガイダンスをモデル化し,有望な結果を得た。 しかし、既存の手法では、(1) スロットへの意図からスロットまでの \textit{unidirectional guidance} のみをモデル化し、(2)スロットセマンティクスノードとインテントラベルノード間の相互作用をモデル化するために \textit{homogeneous graphs} を採用する。 本稿では,2つのタスク間の‘textit{mutual guidances’を達成するための2段階フレームワークを実装したCo-guiding Netという新しいモデルを提案する。 第1段階では、両タスクの初期推定ラベルが生成され、その後第2段階で活用され、相互指導をモデル化する。 具体的には,提案する2つの \textit{heterogeneous semantics-label graphs} について,意味論ノードとラベルノードの関係を効果的に表現する2つの \textit{heterogeneous graph attention networks} を提案する。 実験の結果,これまでのmixatisデータセットにおける最良モデルと比較して,従来モデルに比べて19.3\%の相対的改善が得られた。

Recent graph-based models for joint multiple intent detection and slot filling have obtained promising results through modeling the guidance from the prediction of intents to the decoding of slot filling. However, existing methods (1) only model the \textit{unidirectional guidance} from intent to slot; (2) adopt \textit{homogeneous graphs} to model the interactions between the slot semantics nodes and intent label nodes, which limit the performance. In this paper, we propose a novel model termed Co-guiding Net, which implements a two-stage framework achieving the \textit{mutual guidances} between the two tasks. In the first stage, the initial estimated labels of both tasks are produced, and then they are leveraged in the second stage to model the mutual guidances. Specifically, we propose two \textit{heterogeneous graph attention networks} working on the proposed two \textit{heterogeneous semantics-label graphs}, which effectively represent the relations among the semantics nodes and label nodes. Experiment results show that our model outperforms existing models by a large margin, obtaining a relative improvement of 19.3\% over the previous best model on MixATIS dataset in overall accuracy.
翻訳日:2022-10-20 12:50:43 公開日:2022-10-19
# lightea: 3視点ラベル伝搬によるスケーラブルでロバストで解釈可能なエンティティアライメントフレームワーク

LightEA: A Scalable, Robust, and Interpretable Entity Alignment Framework via Three-view Label Propagation ( http://arxiv.org/abs/2210.10436v1 )

ライセンス: Link先を確認
Xin Mao, Wenting Wang, Yuanbin Wu, Man Lan(参考訳) エンティティアライメント(EA)は、KG間の等価なエンティティペアを見つけることを目的としている。 本稿では、既存のGNNベースのEA手法が、ニューラルネットワークの系統から生まれてくる欠陥を継承していると論じる。 近年の研究に触発されて,KG上で効果的に動作するためのラベル伝搬アルゴリズムを再発明し,3つの効率的なコンポーネントからなる非神経EAフレームワーク-LightEAを提案する。 (i)ランダム直交ラベル生成、 (ii)三視点ラベル伝搬、及び (iii)スパース・シンクホーン反復。 公開データセットに関する広範な実験によると、lighteaはスケーラビリティ、堅牢性、解釈性に優れています。 ほんの10分の1の時間消費で、LightEAはすべてのデータセットにまたがる最先端のメソッドに匹敵する結果を達成し、多くのデータセットを上回ります。

Entity Alignment (EA) aims to find equivalent entity pairs between KGs, which is the core step of bridging and integrating multi-source KGs. In this paper, we argue that existing GNN-based EA methods inherit the inborn defects from their neural network lineage: weak scalability and poor interpretability. Inspired by recent studies, we reinvent the Label Propagation algorithm to effectively run on KGs and propose a non-neural EA framework -- LightEA, consisting of three efficient components: (i) Random Orthogonal Label Generation, (ii) Three-view Label Propagation, and (iii) Sparse Sinkhorn Iteration. According to the extensive experiments on public datasets, LightEA has impressive scalability, robustness, and interpretability. With a mere tenth of time consumption, LightEA achieves comparable results to state-of-the-art methods across all datasets and even surpasses them on many.
翻訳日:2022-10-20 12:50:20 公開日:2022-10-19
# NGEP: ストーリー生成のためのグラフベースのイベントプランニングフレームワーク

NGEP: A Graph-based Event Planning Framework for Story Generation ( http://arxiv.org/abs/2210.10602v1 )

ライセンス: Link先を確認
Chen Tang, Zhihao Zhang, Tyler Loakman, Chenghua Lin and Frank Guerin(参考訳) 長いテキスト生成のパフォーマンスを向上させるために、最近の研究は自動的に計画されたイベント構造(ストーリーライン)を活用してストーリー生成を導く。 このような先行研究は主に、ストーリーのイベントシーケンスを予測するためにエンドツーエンドのニューラル生成モデルを使用している。 しかし、このような生成モデルでは幻覚問題による別の事象の物語的コヒーレンスを保証するのに苦労しており、またモデルのエンドツーエンドの性質から生成したイベントシーケンスを制御するのもしばしば困難である。 これらの課題に対処するために,自動構築されたイベントグラフ上で推論を行い,ニューラルイベントアドバイザによる一般化能力を高めることでイベントシーケンスを生成する新しいイベント計画フレームワークNGEPを提案する。 我々は,複数の基準について様々な実験を行い,その結果から,我々のグラフベースのニューラルフレームワークは,イベントシーケンス生成の性能とストーリー生成の下流タスクの有効性の両方を考慮して,最先端(SOTA)イベント計画手法よりも優れていることを示した。

To improve the performance of long text generation, recent studies have leveraged automatically planned event structures (i.e. storylines) to guide story generation. Such prior works mostly employ end-to-end neural generation models to predict event sequences for a story. However, such generation models struggle to guarantee the narrative coherence of separate events due to the hallucination problem, and additionally the generated event sequences are often hard to control due to the end-to-end nature of the models. To address these challenges, we propose NGEP, an novel event planning framework which generates an event sequence by performing inference on an automatically constructed event graph and enhances generalisation ability through a neural event advisor. We conduct a range of experiments on multiple criteria, and the results demonstrate that our graph-based neural framework outperforms the state-of-the-art (SOTA) event planning approaches, considering both the performance of event sequence generation and the effectiveness on the downstream task of story generation.
翻訳日:2022-10-20 12:50:04 公開日:2022-10-19
# 構文依存と意味論の認識による中国語ストーリー生成の改善

Improving Chinese Story Generation via Awareness of Syntactic Dependencies and Semantics ( http://arxiv.org/abs/2210.10618v1 )

ライセンス: Link先を確認
Henglin Huang, Chen Tang, Tyler Loakman, Frank Guerin and Chenghua Lin(参考訳) ストーリー生成は、与えられた入力に基づいて長い物語を生成することを目的としている。 事前学習されたモデルの適用による先行研究の成功にもかかわらず、現在の中国の物語のニューラルモデルは高品質な長文の物語を生み出すのに苦戦している。 これは中国語を構文解析する際にあいまいさが原因で、単語のセグメンテーションの明確な区切りは持たないという仮説である。 その結果、ニューラルネットワークは中国の物語の特徴を非効率に捉えている。 本稿では,単語間の依存関係の生成モデルを通知し,同義語学習を通じて意味表現学習を増強することにより,特徴獲得機構を向上する新世代フレームワークを提案する。 我々は様々な実験を行い、このフレームワークがすべての評価指標において、最先端の中国世代モデルを上回ることを実証し、依存度の向上と意味表現学習の利点を実証した。

Story generation aims to generate a long narrative conditioned on a given input. In spite of the success of prior works with the application of pre-trained models, current neural models for Chinese stories still struggle to generate high-quality long text narratives. We hypothesise that this stems from ambiguity in syntactically parsing the Chinese language, which does not have explicit delimiters for word segmentation. Consequently, neural models suffer from the inefficient capturing of features in Chinese narratives. In this paper, we present a new generation framework that enhances the feature capturing mechanism by informing the generation model of dependencies between words and additionally augmenting the semantic representation learning through synonym denoising training. We conduct a range of experiments, and the results demonstrate that our framework outperforms the state-of-the-art Chinese generation models on all evaluation metrics, demonstrating the benefits of enhanced dependency and semantic representation learning.
翻訳日:2022-10-20 12:49:46 公開日:2022-10-19
# テキスト間SQLシステムにおけるN-Best仮説の再検討

N-Best Hypotheses Reranking for Text-To-SQL Systems ( http://arxiv.org/abs/2210.10668v1 )

ライセンス: Link先を確認
Lu Zeng, Sree Hari Krishnan Parthasarathi, Dilek Hakkani-Tur(参考訳) text-to-sqlタスクは、自然言語発話をデータベースに発行可能な構造化クエリにマップする。 State-of-the-art (SOTA) システムは、SQLパーサを適用する制約付きデコードとともに、大規模で訓練済みの言語モデルを微調整する。 特に、SOTAモデルの10-bestリストからOracle仮説を選択し、正確なマッチング(EM)と実行(EX)の正確性の両方において7.7\%の絶対的な改善をもたらし、再ランク付けによる潜在的な改善を示す。 一貫性と正確性を再評価する手法として,クエリ計画を生成するモデルを設計し,ヒューリスティックなスキーマリンクアルゴリズムを提案する。 どちらのアプローチもt5-largeと組み合わせることで、em精度の一貫した1$%$改善と ex の$2.5\%$改善が得られ、このタスクのための新しい sota が確立されます。 本稿では,DEVデータの総合的誤差解析により,この課題の進展の根底にある課題を示す。

Text-to-SQL task maps natural language utterances to structured queries that can be issued to a database. State-of-the-art (SOTA) systems rely on finetuning large, pre-trained language models in conjunction with constrained decoding applying a SQL parser. On the well established Spider dataset, we begin with Oracle studies: specifically, choosing an Oracle hypothesis from a SOTA model's 10-best list, yields a $7.7\%$ absolute improvement in both exact match (EM) and execution (EX) accuracy, showing significant potential improvements with reranking. Identifying coherence and correctness as reranking approaches, we design a model generating a query plan and propose a heuristic schema linking algorithm. Combining both approaches, with T5-Large, we obtain a consistent $1\% $ improvement in EM accuracy, and a $~2.5\%$ improvement in EX, establishing a new SOTA for this task. Our comprehensive error studies on DEV data show the underlying difficulty in making progress on this task.
翻訳日:2022-10-20 12:49:31 公開日:2022-10-19
# 言語モデルは我々を理解できず

Language Models Understand Us, Poorly ( http://arxiv.org/abs/2210.10684v1 )

ライセンス: Link先を確認
Jared Moore(参考訳) 一部のクレーム言語モデルは我々を理解している。 他の人は聞かない そこで本研究では,人間の言語理解の3つの視点について考察する。 行動の信頼性は理解には必要だが、内部表現は十分である。 私は最先端の言語とマルチモーダルモデルについてレビューする。 リソースの制限はスケールアップモデルが理解に近づくことを禁止する可能性がある。 最後に,as表現が理解科学をいかに前進させるかを述べる。 モデル内部を調査し、人間の言語をさらに追加し、モデルが学べるものを計測する作業が必要です。

Some claim language models understand us. Others won't hear it. To clarify, I investigate three views of human language understanding: as-mapping, as-reliability and as-representation. I argue that while behavioral reliability is necessary for understanding, internal representations are sufficient; they climb the right hill. I review state-of-the-art language and multi-modal models: they are pragmatically challenged by under-specification of form. I question the Scaling Paradigm: limits on resources may prohibit scaled-up models from approaching understanding. Last, I describe how as-representation advances a science of understanding. We need work which probes model internals, adds more of human language, and measures what models can learn.
翻訳日:2022-10-20 12:49:13 公開日:2022-10-19
# 遊びから政策へ:不正確なロボットデータから条件行動生成

From Play to Policy: Conditional Behavior Generation from Uncurated Robot Data ( http://arxiv.org/abs/2210.10047v2 )

ライセンス: Link先を確認
Zichen Jeff Cui, Yibin Wang, Nur Muhammad Mahi Shafiullah, Lerrel Pinto(参考訳) オフラインデータからの大規模シーケンスモデリングは、自然言語と画像生成のパフォーマンス向上に繋がったが、そのようなアイデアをロボティクスに直接翻訳することは困難だった。 この理由の1つは、未解決のロボットのデモデータ、すなわち、経験のない人間のデモ参加者から収集されたプレイデータはしばしば騒がしく、多様性があり、分布的にマルチモーダルである。 これにより、そのようなデータからタスク中心の振る舞いを抽出することは、難しい生成モデリング問題となる。 本研究では,動作変換器のマルチモーダル生成能力と将来の目標仕様を組み合わせた条件付き動作変換器(C-BeT)を提案する。 シミュレーションされたベンチマークタスクのスイートでは、C-BeTは、プレイデータから平均45.7%の学習で最先端の作業を改善する。 さらに,タスクラベルや報奨情報を持たずに,純粋に遊びデータから実世界のロボットに有用なタスク中心の動作を学習できることを初めて実証する。 ロボットビデオはプロジェクトのWebサイトでよく見られる。

While large-scale sequence modeling from offline data has led to impressive performance gains in natural language and image generation, directly translating such ideas to robotics has been challenging. One critical reason for this is that uncurated robot demonstration data, i.e. play data, collected from non-expert human demonstrators are often noisy, diverse, and distributionally multi-modal. This makes extracting useful, task-centric behaviors from such data a difficult generative modeling problem. In this work, we present Conditional Behavior Transformers (C-BeT), a method that combines the multi-modal generation ability of Behavior Transformer with future-conditioned goal specification. On a suite of simulated benchmark tasks, we find that C-BeT improves upon prior state-of-the-art work in learning from play data by an average of 45.7%. Further, we demonstrate for the first time that useful task-centric behaviors can be learned on a real-world robot purely from play data without any task labels or reward information. Robot videos are best viewed on our project website: https://play-to-policy.github.io
翻訳日:2022-10-20 12:43:28 公開日:2022-10-19
# 専門家の混合の敵対的ロバスト性について

On the Adversarial Robustness of Mixture of Experts ( http://arxiv.org/abs/2210.10253v1 )

ライセンス: Link先を確認
Joan Puigcerver, Rodolphe Jenatton, Carlos Riquelme, Pranjal Awasthi, Srinadh Bhojanapalli(参考訳) 敵対的堅牢性は、ニューラルネットワークの重要な望ましい性質である。 これは経験的に、そのサイズに影響され、より大きなネットワークは通常より堅牢である。 最近、bubeck と sellke は、パラメータ数の観点からトレーニングデータに適合する関数のリプシッツ定数に下限があることを証明した。 これにより、より多くのパラメータを持つ関数が、必ずしも計算コストが高ければ、より堅牢性を持つことができるのか? 本稿では, モデルサイズをほぼ一定の計算コストでスケールアップすることのできる, 疎混合専門家モデル (MoE) について検討する。 理論的には、ルーティングとデータ構造に関する一定の条件下では、MoEsは密度の高いリプシッツ定数よりもかなり小さくすることができる。 入力に対する最も重みのある専門家が十分に異なる機能を実装すると、moesのロバスト性が損なわれる。 次に、逆攻撃を用いてimagenet上のmoesのロバスト性を評価し、同じ計算コストの高密度モデルよりもロバストであることを示す。 専門家の選択にmoesの堅牢性を示す重要な観察を行い、実際に訓練されたモデルにおける専門家の冗長性を強調した。

Adversarial robustness is a key desirable property of neural networks. It has been empirically shown to be affected by their sizes, with larger networks being typically more robust. Recently, Bubeck and Sellke proved a lower bound on the Lipschitz constant of functions that fit the training data in terms of their number of parameters. This raises an interesting open question, do -- and can -- functions with more parameters, but not necessarily more computational cost, have better robustness? We study this question for sparse Mixture of Expert models (MoEs), that make it possible to scale up the model size for a roughly constant computational cost. We theoretically show that under certain conditions on the routing and the structure of the data, MoEs can have significantly smaller Lipschitz constants than their dense counterparts. The robustness of MoEs can suffer when the highest weighted experts for an input implement sufficiently different functions. We next empirically evaluate the robustness of MoEs on ImageNet using adversarial attacks and show they are indeed more robust than dense models with the same computational cost. We make key observations showing the robustness of MoEs to the choice of experts, highlighting the redundancy of experts in models trained in practice.
翻訳日:2022-10-20 12:42:21 公開日:2022-10-19
# 大腸内視鏡ビデオによる大腸3次元再建の被覆率の推定

Estimating the coverage in 3d reconstructions of the colon from colonoscopy videos ( http://arxiv.org/abs/2210.10459v1 )

ライセンス: Link先を確認
Emmanuelle Muhlethaler and Erez Posner and Moshe Bouhnik(参考訳) 大腸内視鏡は大腸がん予防の重要成分であるポリープの早期発見と除去の最も一般的な方法である。 術中は大腸表面の視野が不十分でポリープが欠如することが多い。 この問題を軽減するため,欠損領域を可視化するため,大腸の3次元面の再構築が提案されている。 しかし,このような復元から地域的およびグローバル的カバレッジを堅牢に推定する手法は,現在まで徹底的に検討されていない。 そこで本研究では,再建した大腸ポインタークラウドからカバー範囲を推定する新しい手法を提案する。 本手法では,再建した大腸をセグメントに分割し,欠損面の面積を推定して各セグメントの面積を推定する。 合成大腸内視鏡データと実際の大腸ctスキャンから生成された大腸セグメントの平均絶対被覆誤差は3-6\%であった。 また,実際の大腸内視鏡映像から再構成した大腸セグメントの質的評価も良好であった。

Colonoscopy is the most common procedure for early detection and removal of polyps, a critical component of colorectal cancer prevention. Insufficient visual coverage of the colon surface during the procedure often results in missed polyps. To mitigate this issue, reconstructing the 3D surfaces of the colon in order to visualize the missing regions has been proposed. However, robustly estimating the local and global coverage from such a reconstruction has not been thoroughly investigated until now. In this work, we present a new method to estimate the coverage from a reconstructed colon pointcloud. Our method splits a reconstructed colon into segments and estimates the coverage of each segment by estimating the area of the missing surfaces. We achieve a mean absolute coverage error of 3-6\% on colon segments generated from synthetic colonoscopy data and real colonography CT scans. In addition, we show good qualitative results on colon segments reconstructed from real colonoscopy videos.
翻訳日:2022-10-20 12:41:59 公開日:2022-10-19
# 不均衡土木データに対するアクティブラーニング

Active Learning for Imbalanced Civil Infrastructure Data ( http://arxiv.org/abs/2210.10586v1 )

ライセンス: Link先を確認
Thomas Frick, Diego Antognini, Mattia Rigotti, Ioana Giurgiu, Benjamin Grewe, Cristiano Malossi(参考訳) 古い土木インフラは、損傷と重大な欠陥のために技術者によって密に監視されている。 このような大規模構造物の手動検査は費用がかかり時間もかかるため,メンテナンス作業の優先順位付けを支援するために視覚検査の完全自動化に取り組んでいる。 そのために、ドローン技術とディープラーニングの最近の進歩を組み合わせる。 残念ながら、私たちの独自の土木工学データセットは高度に訓練されたエンジニアによって注釈付けされなければならないため、アノテーションのコストは非常に高い。 したがって、アクティブな学習は、モデルパフォーマンスとアノテーションコストの間のトレードオフを最適化する貴重なツールである。 私たちのユースケースは、私たちのデータセットが重いクラス不均衡に苦しむため、従来のアクティブラーニング設定と異なり、他のアクティブラーニング研究よりもずっと大きなラベル付きデータプールで構成されています。 本稿では,従来の能動学習獲得関数を補助的二元判別器に置き換えることで,この課題に対処できる新しい手法を提案する。 CIFAR-10 と CIFAR-10 では, 従来型アクティブラーニング法 (BALD) を 5% と 38% の精度で上回る性能を示した。

Aging civil infrastructures are closely monitored by engineers for damage and critical defects. As the manual inspection of such large structures is costly and time-consuming, we are working towards fully automating the visual inspections to support the prioritization of maintenance activities. To that end we combine recent advances in drone technology and deep learning. Unfortunately, annotation costs are incredibly high as our proprietary civil engineering dataset must be annotated by highly trained engineers. Active learning is, therefore, a valuable tool to optimize the trade-off between model performance and annotation costs. Our use-case differs from the classical active learning setting as our dataset suffers from heavy class imbalance and consists of a much larger already labeled data pool than other active learning research. We present a novel method capable of operating in this challenging setting by replacing the traditional active learning acquisition function with an auxiliary binary discriminator. We experimentally show that our novel method outperforms the best-performing traditional active learning method (BALD) by 5% and 38% accuracy on CIFAR-10 and our proprietary dataset respectively.
翻訳日:2022-10-20 12:41:47 公開日:2022-10-19
# Facebook上の政治キャンペーン分析のための弱々しい指導的学習

Weakly Supervised Learning for Analyzing Political Campaigns on Facebook ( http://arxiv.org/abs/2210.10669v1 )

ライセンス: Link先を確認
Tunazzina Islam, Shamik Roy, Dan Goldwasser(参考訳) ソーシャルメディアプラットフォームは現在、政治メッセージングの主要なチャンネルであり、政治家は特定の人口層をターゲットにし、反応に基づいて適応することができる。 しかし、メッセージは目的のオーディエンスと密に結びついており、特定のポリシーの推進に関心のある複数の利害関係者によって反映されているため、このコミュニケーションを透過的にすることは難しい。 この論文の目標は、これらの高度に分散した設定を理解するための第一歩を踏み出すことです。 我々は、facebook上の政治広告のスタンスと課題を特定し、政治キャンペーンが位置、性別、年齢による何らかの人口統計学的ターゲティングをどのように使っているかを分析するために、弱い監督のアプローチを提案する。 さらに,選挙投票における政治広告の時間的変動を分析した。

Social media platforms are currently the main channel for political messaging, allowing politicians to target specific demographics and adapt based on their reactions. However, making this communication transparent is challenging, as the messaging is tightly coupled with its intended audience and often echoed by multiple stakeholders interested in advancing specific policies. Our goal in this paper is to take a first step towards understanding these highly decentralized settings. We propose a weakly supervised approach to identify the stance and issue of political ads on Facebook and analyze how political campaigns use some kind of demographic targeting by location, gender, or age. Furthermore, we analyze the temporal dynamics of the political ads on election polls.
翻訳日:2022-10-20 12:41:26 公開日:2022-10-19
# Museformer:音楽生成のための細粒度・粗粒度変換器

Museformer: Transformer with Fine- and Coarse-Grained Attention for Music Generation ( http://arxiv.org/abs/2210.10349v1 )

ライセンス: Link先を確認
Botao Yu, Peiling Lu, Rui Wang, Wei Hu, Xu Tan, Wei Ye, Shikun Zhang, Tao Qin, Tie-Yan Liu(参考訳) シンボリック音楽生成は音楽のスコアを自動的に生成することを目的としている。 最近の傾向は、トランスフォーマーまたはその変種を音楽生成に使用することであるが、これは、一般的に長い曲列(例えば1万枚以上のトークン)を効果的にモデル化することができず、既存のモデルは、音楽の繰り返し構造を生成するのに欠点があるからである。 本稿では,音楽生成のための新しい細粒度および粗粒度に注目するトランスフォーマであるmuseformerを提案する。 具体的には、細かな注意で、特定のバーのトークンは、音楽構造に最も関係のあるバーのすべてのトークン(例えば、類似度統計により選択された前1、第2、第4、第8バー)に直接出席する。 利点は2つある。 まず、細粒度注目による音楽構造関連相関と、粗粒度注目による他の文脈情報の両方を捉える。 第2に、効率が良く、フルアテンションに比べて3倍以上の長い音楽シーケンスをモデル化できる。 客観的および主観的な実験結果は、高品質で優れた構造を持つ長い音楽系列を生成する能力を示している。

Symbolic music generation aims to generate music scores automatically. A recent trend is to use Transformer or its variants in music generation, which is, however, suboptimal, because the full attention cannot efficiently model the typically long music sequences (e.g., over 10,000 tokens), and the existing models have shortcomings in generating musical repetition structures. In this paper, we propose Museformer, a Transformer with a novel fine- and coarse-grained attention for music generation. Specifically, with the fine-grained attention, a token of a specific bar directly attends to all the tokens of the bars that are most relevant to music structures (e.g., the previous 1st, 2nd, 4th and 8th bars, selected via similarity statistics); with the coarse-grained attention, a token only attends to the summarization of the other bars rather than each token of them so as to reduce the computational cost. The advantages are two-fold. First, it can capture both music structure-related correlations via the fine-grained attention, and other contextual information via the coarse-grained attention. Second, it is efficient and can model over 3X longer music sequences compared to its full-attention counterpart. Both objective and subjective experimental results demonstrate its ability to generate long music sequences with high quality and better structures.
翻訳日:2022-10-20 12:41:12 公開日:2022-10-19
# 双方向言語知識グラフ事前学習

Deep Bidirectional Language-Knowledge Graph Pretraining ( http://arxiv.org/abs/2210.09338v2 )

ライセンス: Link先を確認
Michihiro Yasunaga, Antoine Bosselut, Hongyu Ren, Xikun Zhang, Christopher D Manning, Percy Liang, Jure Leskovec(参考訳) テキスト上で言語モデル(LM)を事前学習することは、様々な下流のNLPタスクに役立つことが示されている。 最近の研究は、知識グラフ(KG)がテキストデータを補完し、構造化された背景知識を提供し、推論に有用な足場を提供することを示している。 しかし、これらの作品は、テキストとkgの完全な結合表現を得る可能性を制限し、スケールでの2つのモダリティの深い融合を学ぶために事前訓練されていない。 本稿では,テキストとKGを大規模に融合した言語知識基盤モデルを事前学習するための自己指導型アプローチであるDRAGONを提案する。 具体的には、入力としてテキストセグメントと関連するKGサブグラフのペアを取り、両モードから情報を双方向に融合する。 我々は,2つの自己教師型推論タスク,マスキング言語モデリング,KGリンク予測を統合することで,このモデルを事前学習する。 DRAGONは、一般的な領域とバイオメディカル領域にわたる質問応答を含む様々な下流タスクにおいて、既存のLMとLM+KGモデルよりパフォーマンスが良く、平均で+5%の絶対ゲインがある。 特に、DRAGONは、言語と知識に関する複雑な推論(長いコンテキストや多段階の推論に関する質問の+10%以上)と低リソースのQA(OBQAとRiddleSenseの+8%以上)における顕著なパフォーマンスと、様々なBioNLPタスクにおける最先端の成果を実現している。 私たちのコードとトレーニングされたモデルはhttps://github.com/michiyasunaga/dragon.comで利用可能です。

Pretraining a language model (LM) on text has been shown to help various downstream NLP tasks. Recent works show that a knowledge graph (KG) can complement text data, offering structured background knowledge that provides a useful scaffold for reasoning. However, these works are not pretrained to learn a deep fusion of the two modalities at scale, limiting the potential to acquire fully joint representations of text and KG. Here we propose DRAGON (Deep Bidirectional Language-Knowledge Graph Pretraining), a self-supervised approach to pretraining a deeply joint language-knowledge foundation model from text and KG at scale. Specifically, our model takes pairs of text segments and relevant KG subgraphs as input and bidirectionally fuses information from both modalities. We pretrain this model by unifying two self-supervised reasoning tasks, masked language modeling and KG link prediction. DRAGON outperforms existing LM and LM+KG models on diverse downstream tasks including question answering across general and biomedical domains, with +5% absolute gain on average. In particular, DRAGON achieves notable performance on complex reasoning about language and knowledge (+10% on questions involving long contexts or multi-step reasoning) and low-resource QA (+8% on OBQA and RiddleSense), and new state-of-the-art results on various BioNLP tasks. Our code and trained models are available at https://github.com/michiyasunaga/dragon.
翻訳日:2022-10-20 12:34:14 公開日:2022-10-19
# トランスファー学習における事前学習言語モデルの隠れ状態可変性が計算量削減を導く

Hidden State Variability of Pretrained Language Models Can Guide Computation Reduction for Transfer Learning ( http://arxiv.org/abs/2210.10041v2 )

ライセンス: Link先を確認
Shuo Xie, Jiahao Qiu, Ankita Pasad, Li Du, Qing Qu, Hongyuan Mei(参考訳) トレーニング済みの言語モデルを転送する際、一般的なアプローチでは、タスク固有の分類器をトップ層にアタッチして、トレーニング済みのすべてのレイヤに適応する。 我々は,どの層に適応すべきか,どの層に分類器を置くべきかを,タスク固有の選択が可能であるかどうかを検討する。 目標は、パフォーマンスを犠牲にすることなく、転送学習方法(微調整やアダプタチューニングなど)の計算コストを削減することである。 タスク固有のコーパスを与えられた隠れ状態の可変性に基づいて階層を選択することを提案する。 隠れた状態のクラス内変数がクラス間変数に比べて低い場合、あるレイヤはタスク内ですでに"十分に特殊化"されていると言う。 私たちの可変性メトリクスは計算が安く、トレーニングやハイパーパラメータチューニングは不要です。 データ不均衡とデータの不足に対して堅牢である。 glueベンチマークの広範な実験により、私たちの測定値に基づいたレイヤの選択は、同じ数のトップレイヤを使用するよりも大幅にパフォーマンスが向上し、言語モデル全体の微調整やアダプタチューニングのパフォーマンスにマッチすることが多いことが分かりました。

While transferring a pretrained language model, common approaches conventionally attach their task-specific classifiers to the top layer and adapt all the pretrained layers. We investigate whether one could make a task-specific selection on which subset of the layers to adapt and where to place the classifier. The goal is to reduce the computation cost of transfer learning methods (e.g. fine-tuning or adapter-tuning) without sacrificing its performance. We propose to select layers based on the variability of their hidden states given a task-specific corpus. We say a layer is already "well-specialized" in a task if the within-class variability of its hidden states is low relative to the between-class variability. Our variability metric is cheap to compute and doesn't need any training or hyperparameter tuning. It is robust to data imbalance and data scarcity. Extensive experiments on the GLUE benchmark demonstrate that selecting layers based on our metric can yield significantly stronger performance than using the same number of top layers and often match the performance of fine-tuning or adapter-tuning the entire language model.
翻訳日:2022-10-20 12:33:45 公開日:2022-10-19
# ジョイントインテント検出とスロットフィリングを改善するための説明可能なスロット型注意

Explainable Slot Type Attentions to Improve Joint Intent Detection and Slot Filling ( http://arxiv.org/abs/2210.10227v1 )

ライセンス: Link先を確認
Kalpa Gunaratna, Vijay Srinivasan, Akhila Yerukola, and Hongxia Jin(参考訳) 共同意図検出とスロット充填は自然言語理解(NLU)において重要な研究課題である。 既存の統合インテントとスロットフィリングシステムでは,全てのスロットタイプの特徴を総合的に分析・計算し,スロットフィリングモデル決定を説明する方法がない。 本稿では,新しいアプローチを提案する。 i) 精度と精度を向上させるため、追加のスロットタイプ固有の特徴を生成することを学ぶ (II) 共同NLUモデルにおいて, スロット充足決定のための説明を初めて提供する。 我々は,スロット型特徴学習のための2値分類器のセットを用いて,追加の制約付き監督を行い,その過程で適切な注意重みを学習し,発話のスロット充足決定を説明する。 私たちのモデルは本質的に説明可能で、ポストホックな処理は不要です。 広く使われている2つのデータセットに対するアプローチを評価し、精度の向上を示す。 さらに、排他的スロット説明可能性についても詳細な分析を行う。

Joint intent detection and slot filling is a key research topic in natural language understanding (NLU). Existing joint intent and slot filling systems analyze and compute features collectively for all slot types, and importantly, have no way to explain the slot filling model decisions. In this work, we propose a novel approach that: (i) learns to generate additional slot type specific features in order to improve accuracy and (ii) provides explanations for slot filling decisions for the first time in a joint NLU model. We perform an additional constrained supervision using a set of binary classifiers for the slot type specific feature learning, thus ensuring appropriate attention weights are learned in the process to explain slot filling decisions for utterances. Our model is inherently explainable and does not need any post-hoc processing. We evaluate our approach on two widely used datasets and show accuracy improvements. Moreover, a detailed analysis is also provided for the exclusive slot explainability.
翻訳日:2022-10-20 12:33:07 公開日:2022-10-19
# 言語モデル分解:言語モデルの依存性と相関の定量化

Language Model Decomposition: Quantifying the Dependency and Correlation of Language Models ( http://arxiv.org/abs/2210.10289v1 )

ライセンス: Link先を確認
Hao Zhang(参考訳) BERT (Devlin et al., 2018) などの事前訓練言語モデル(LM)とその変種は、過去数年間に様々なNLPタスクに大きな改善をもたらした。 しかし、それらの関係を研究するための理論的枠組みはまだ欠けている。 本稿では,事前学習したLM間の線形依存性を調べることで,このギャップを埋める。 LMの線型依存は、ベクトルの線型依存と類似して定義される。 本稿では,他のlmsの線形結合を基礎としてlmを表す言語モデル分解(lmd)を提案し,閉形式解を導出する。 判定係数に類似したlmdの適合度メトリックを定義し、一連のlmdの線形依存性を測定するために使用する。 実験では, BERT と 11 の BERT 様の LM が 91% の線形依存性を持つことがわかった。 この観察から,現在のSOTA (State-of-the-art) LMは極めて「相関性」が高いことが示唆された。 SOTAをさらに前進させるためには、既存のLMに依存しないより多様な新しいLMが必要です。

Pre-trained language models (LMs), such as BERT (Devlin et al., 2018) and its variants, have led to significant improvements on various NLP tasks in past years. However, a theoretical framework for studying their relationships is still missing. In this paper, we fill this gap by investigating the linear dependency between pre-trained LMs. The linear dependency of LMs is defined analogously to the linear dependency of vectors. We propose Language Model Decomposition (LMD) to represent a LM using a linear combination of other LMs as basis, and derive the closed-form solution. A goodness-of-fit metric for LMD similar to the coefficient of determination is defined and used to measure the linear dependency of a set of LMs. In experiments, we find that BERT and eleven (11) BERT-like LMs are 91% linearly dependent. This observation suggests that current state-of-the-art (SOTA) LMs are highly "correlated". To further advance SOTA we need more diverse and novel LMs that are less dependent on existing LMs.
翻訳日:2022-10-20 12:32:54 公開日:2022-10-19
# 限られたデータシナリオにおける実演学習のロバスト性

Robustness of Demonstration-based Learning Under Limited Data Scenario ( http://arxiv.org/abs/2210.10693v1 )

ライセンス: Link先を確認
Hongxin Zhang, Yanzhe Zhang, Ruiyi Zhang, Diyi Yang(参考訳) 実証に基づく学習は、限られたデータシナリオ下で事前訓練された言語モデルの能力を刺激する大きな可能性を示している。 インプットをいくつかのデモで強化するだけで、少数のnerのパフォーマンスが大幅に向上する。 しかし、なぜこのようなデモンストレーションが学習プロセスに有益なのかは、デモと予測の間に明確な整合性がないため不明である。 In this paper, we design pathological demonstrations by gradually removing intuitively useful information from the standard ones to take a deep dive of the robustness of demonstration-based sequence labeling and show that (1) demonstrations composed of random tokens still make the model a better few-shot learner; (2) the length of random demonstrations and the relevance of random tokens are the main factors affecting the performance; (3) demonstrations increase the confidence of model predictions on captured superficial patterns. 私たちはコードをhttps://github.com/salt-nlp/robustdemoで公開しました。

Demonstration-based learning has shown great potential in stimulating pretrained language models' ability under limited data scenario. Simply augmenting the input with some demonstrations can significantly improve performance on few-shot NER. However, why such demonstrations are beneficial for the learning process remains unclear since there is no explicit alignment between the demonstrations and the predictions. In this paper, we design pathological demonstrations by gradually removing intuitively useful information from the standard ones to take a deep dive of the robustness of demonstration-based sequence labeling and show that (1) demonstrations composed of random tokens still make the model a better few-shot learner; (2) the length of random demonstrations and the relevance of random tokens are the main factors affecting the performance; (3) demonstrations increase the confidence of model predictions on captured superficial patterns. We have publicly released our code at https://github.com/SALT-NLP/RobustDemo.
翻訳日:2022-10-20 12:32:34 公開日:2022-10-19
# ガウス・ベルヌーリ RBM ティールなし

Gaussian-Bernoulli RBMs Without Tears ( http://arxiv.org/abs/2210.10318v1 )

ライセンス: Link先を確認
Renjie Liao, Simon Kornblith, Mengye Ren, David J. Fleet, Geoffrey Hinton(参考訳) 本稿では,ガウス・ベルヌーリ制限ボルツマンマシン(GRBM)を2つのイノベーションを導入し,学習課題を再考する。 本稿では,Gibbs-Langevinサンプリングアルゴリズムを提案する。 雑音から始まるGRBMで画像を生成できるように改良されたコントラッシブ・ディペンジェンス(CD)アルゴリズムを提案する。 これにより、GRBMと深い生成モデルとの直接比較が可能となり、RBM文献の評価プロトコルが改善された。 さらに,修正cdと勾配クリッピングは,学習率の高いgrbmを頑健に訓練するのに十分であることを示し,文献における様々な手技の必要性を取り除いた。 ガウス混合体、MNIST、FashionMNIST、CelebAの実験では、GRBMは単層構造であるにもかかわらず良いサンプルを生成することができる。 私たちのコードは、 \url{https://github.com/lrjconan/grbm} でリリースされます。

We revisit the challenging problem of training Gaussian-Bernoulli restricted Boltzmann machines (GRBMs), introducing two innovations. We propose a novel Gibbs-Langevin sampling algorithm that outperforms existing methods like Gibbs sampling. We propose a modified contrastive divergence (CD) algorithm so that one can generate images with GRBMs starting from noise. This enables direct comparison of GRBMs with deep generative models, improving evaluation protocols in the RBM literature. Moreover, we show that modified CD and gradient clipping are enough to robustly train GRBMs with large learning rates, thus removing the necessity of various tricks in the literature. Experiments on Gaussian Mixtures, MNIST, FashionMNIST, and CelebA show GRBMs can generate good samples, despite their single-hidden-layer architecture. Our code is released at: \url{https://github.com/lrjconan/GRBM}.
翻訳日:2022-10-20 12:31:54 公開日:2022-10-19
# ニューラルグラフプルーニングによる正確な部分グラフ類似性計算に向けて

Towards Accurate Subgraph Similarity Computation via Neural Graph Pruning ( http://arxiv.org/abs/2210.10643v1 )

ライセンス: Link先を確認
Linfeng Liu, Xu Han, Dawei Zhou, Li-Ping Liu(参考訳) グラフ検索における中核的な問題の1つであるグラフ類似性探索は、ターゲットグラフがクエリグラフをほぼ含むかどうかを懸念する。 この問題は最近、ニューラルメソッドに触発されている。 しかし、現在の神経法は対象のグラフを刈り取ることを考慮していないが、グラフの類似性の従来の計算では刈り取りが極めて重要である。 ニューラルメソッドにpruningを適用する上での障害のひとつは、pruningの離散的性質である。 本研究では,グラフプルーニングをノードリラベリングの問題に変換し,それを微分可能な問題に緩和する。 この考え方に基づき,サブグラフの編集距離(sed)というサブグラフ距離のタイプを近似する新たなニューラルネットワークを更に設計する。 特に,神経構造を用いてプルーニングコンポーネントを構築し,モデル全体をエンドツーエンドに最適化することができる。 モデルの設計において,問合せグラフに関する情報を活用し,対象グラフのプルーニングを誘導するための注意機構を提案する。 さらに,マルチヘッドプルーニング戦略を開発し,モデルがターゲットグラフをプルーニングする複数の方法を探索しやすくした。 提案モデルは、7つのベンチマークデータセットにまたがって新たな最先端結果を確立する。 モデルの拡張解析により,提案モデルがSED計算のターゲットグラフを合理的にプルークできることが示唆された。 私たちのアルゴリズムの実装は、Githubリポジトリで公開されています。

Subgraph similarity search, one of the core problems in graph search, concerns whether a target graph approximately contains a query graph. The problem is recently touched by neural methods. However, current neural methods do not consider pruning the target graph, though pruning is critically important in traditional calculations of subgraph similarities. One obstacle to applying pruning in neural methods is {the discrete property of pruning}. In this work, we convert graph pruning to a problem of node relabeling and then relax it to a differentiable problem. Based on this idea, we further design a novel neural network to approximate a type of subgraph distance: the subgraph edit distance (SED). {In particular, we construct the pruning component using a neural structure, and the entire model can be optimized end-to-end.} In the design of the model, we propose an attention mechanism to leverage the information about the query graph and guide the pruning of the target graph. Moreover, we develop a multi-head pruning strategy such that the model can better explore multiple ways of pruning the target graph. The proposed model establishes new state-of-the-art results across seven benchmark datasets. Extensive analysis of the model indicates that the proposed model can reasonably prune the target graph for SED computation. The implementation of our algorithm is released at our Github repo: https://github.com/tufts-ml/Prune4SED.
翻訳日:2022-10-20 12:31:36 公開日:2022-10-19
# 言語のニューラルアーキテクチャに向けて: 合成処理のためのニューラルアーキテクチャにおける深い学習とアクセスのロジスティクス

Towards a neural architecture of language: Deep learning versus logistics of access in neural architectures for compositional processing ( http://arxiv.org/abs/2210.10543v1 )

ライセンス: Link先を確認
Frank van der Velde(参考訳) 近年、GPTのようなディープラーニングモデルは、人間の心と脳における言語処理の重要な側面を捉えることができると論じられている。 しかし、これらのモデルは人間の言語のニューラルモデルには適さないと私は論じる。 第一に、それらは必要な学習量などの基本的な境界条件で失敗するためである。 これは実際、GPTと脳言語処理のメカニズムが根本的に異なることを示唆している。 第二に、構成的かつ生産的な人間の言語処理に必要なアクセスのロジスティクスを持たないためである。 ニューラルネットワークアーキテクチャは、小さな世界のようなネットワーク構造に基づくアクセスのロジスティクスを持ち、処理はシンボル操作ではなく、活性化の流れを制御する。 この観点では、脳と認知の関係を調べるために2つの補完的アプローチが必要である。 学習方法を調査することで、深層学習に見られる「学習認知」が脳内でどのように発達するかを明らかにすることができる。 しかし、自然言語や人工言語処理に必要な「生産的認知」を考慮するために、アクセスのロジスティクスを備えたニューラルアーキテクチャも開発されるべきである。 後ほど、これらのアプローチを組み合わせることで、そのようなアーキテクチャがより単純なベースで学習と開発によってどのように発展するかを確認することができるだろう。

Recently, a number of articles have argued that deep learning models such as GPT could also capture key aspects of language processing in the human mind and brain. However, I will argue that these models are not suitable as neural models of human language. Firstly, because they fail on fundamental boundary conditions, such as the amount of learning they require. This would in fact imply that the mechanisms of GPT and brain language processing are fundamentally different. Secondly, because they do not possess the logistics of access needed for compositional and productive human language processing. Neural architectures could possess logistics of access based on small-world like network structures, in which processing does not consist of symbol manipulation but of controlling the flow of activation. In this view, two complementary approaches would be needed to investigate the relation between brain and cognition. Investigating learning methods could reveal how 'learned cognition' as found in deep learning could develop in the brain. However, neural architectures with logistics of access should also be developed to account for 'productive cognition' as required for natural or artificial human language processing. Later on, these approaches could perhaps be combined to see how such architectures could develop by learning and development from a simpler basis.
翻訳日:2022-10-20 12:23:25 公開日:2022-10-19
# MCP:マルチレベルコントラストサンプリングによる個人化チャットボットの自己指導型事前学習

MCP: Self-supervised Pre-training for Personalized Chatbots with Multi-level Contrastive Sampling ( http://arxiv.org/abs/2210.08753v2 )

ライセンス: Link先を確認
Zhaoheng Huang, Zhicheng Dou, Yutao Zhu and Zhengyi Ma(参考訳) パーソナライズされたチャットボットは、チャットボットを本物のユーザーのように振る舞う一貫したパーソナリティで囲み込み、さらにパーソナルアシスタントとして振る舞うことに焦点を当てている。 これまでの研究は、パーソナライズされたチャットボットを構築するために、ユーザの対話履歴から暗黙のユーザプロファイルを生成することを模索してきた。 しかしながら、これらの研究はモデル全体のトレーニングに応答生成損失のみを使用するため、データのスパーシティの問題に苦しむ傾向にある。 さらに、ユーザの対話履歴間の相関や融合を無視しながら、最終的な応答の品質を過度に強調し、粗いデータ表現とパフォーマンス劣化につながる。 これらの課題に対処するために,個人化されたチャットボットのための対話履歴からより良い表現を抽出するための自己教師付き学習フレームワーク MCP を提案する。 具体的には、ユーザのダイアログ履歴に隠された教師付き信号を活用するために対比サンプリング法を適用し、モデルの強化のために事前学習サンプルを生成する。 ユーザ対話履歴,すなわち応答ペア,シーケンス拡張ペア,ユーザペアの3種類のコントラストペアに基づいて,事前学習タスクを設計する。 我々は、発話エンコーダと履歴エンコーダを比較対象に向けて事前訓練し、これらの事前学習エンコーダを用いて、パーソナライズされた応答生成を行う。 2つの実世界のデータセットに対する実験結果から,提案したモデルMPPは既存手法と比較して大幅に改善された。

Personalized chatbots focus on endowing the chatbots with a consistent personality to behave like real users and further act as personal assistants. Previous studies have explored generating implicit user profiles from the user's dialogue history for building personalized chatbots. However, these studies only use the response generation loss to train the entire model, thus it is prone to suffer from the problem of data sparsity. Besides, they overemphasize the final generated response's quality while ignoring the correlations and fusions between the user's dialogue history, leading to rough data representations and performance degradation. To tackle these problems, we propose a self-supervised learning framework MCP for capturing better representations from users' dialogue history for personalized chatbots. Specifically, we apply contrastive sampling methods to leverage the supervised signals hidden in user dialog history, and generate the pre-training samples for enhancing the model. We design three pre-training tasks based on three types of contrastive pairs from user dialogue history, namely response pairs, sequence augmentation pairs, and user pairs. We pre-train the utterance encoder and the history encoder towards the contrastive objectives and use these pre-trained encoders for generating user profiles while personalized response generation. Experimental results on two real-world datasets show a significant improvement in our proposed model MCP compared with the existing methods.
翻訳日:2022-10-20 12:23:04 公開日:2022-10-19
# 人間選好からの報酬学習のためのシンボル誘導後遺症前兆

Symbol Guided Hindsight Priors for Reward Learning from Human Preferences ( http://arxiv.org/abs/2210.09151v2 )

ライセンス: Link先を確認
Mudit Verma and Katherine Metcalf(参考訳) 強化学習(RL)エージェントに対する報酬の特定は困難である。 嗜好に基づくRL(PbRL)は、一連の軌道上のフィードバックから報酬を推測することでこれらの課題を軽減する。 しかし、PbRLの有効性は、目標報酬の構造を確実に回復するために必要なフィードバック量によって制限される。 本稿では,報酬関数の構造と選好フィードバックを報酬学習プロセスに組み込んだprior over rewards(prior)フレームワークを提案する。 報酬学習の目的にソフトな制約を課すことは、半分のフィードバックの量を減らし、全体の報酬回復を改善する。 さらに,事前の計算に抽象的な状態空間を用いることで,報酬学習とエージェントのパフォーマンスがさらに向上することを示す。

Specifying rewards for reinforcement learned (RL) agents is challenging. Preference-based RL (PbRL) mitigates these challenges by inferring a reward from feedback over sets of trajectories. However, the effectiveness of PbRL is limited by the amount of feedback needed to reliably recover the structure of the target reward. We present the PRIor Over Rewards (PRIOR) framework, which incorporates priors about the structure of the reward function and the preference feedback into the reward learning process. Imposing these priors as soft constraints on the reward learning objective reduces the amount of feedback required by half and improves overall reward recovery. Additionally, we demonstrate that using an abstract state space for the computation of the priors further improves the reward learning and the agent's performance.
翻訳日:2022-10-20 12:22:36 公開日:2022-10-19